type
status
date
slug
summary
tags
category
icon
password
持续搜集全网开源机器人领域开源数据集
Open X-Embodiment
Open X-Embodiment Dataset 是由谷歌 DeepMind 联手斯坦福大学等 21 个科研机构共同创建的超大规模开源真实机器人数据集。该数据集旨在为机器人学习领域提供一个大规模、多样化的数据资源,以推动机器人策略的泛化和跨平台学习能力。
数据集特点
- 大规模数据:包含超过 100 万条真实机器人轨迹,涵盖 22 个不同机器人平台。
- 多样性:数据集整合了 60 个已有数据集,覆盖从单臂机器人到双手机器人和四足机器人等多种类型的机器人。
- 标准化:所有源数据集统一转化为 RLDS 格式,便于下载和使用。
- 丰富的技能和任务:包含 527 种技能和 160,266 个任务,数据量达 1,402,930 条(共约 3600G)。
数据处理
- 多视角处理:对于存在多视角的数据集,仅选择其中“canonical”的一个视角图像(可能是比较接近 top-down 第一人称视角或 Proprioception 的那一个)。
- 图像尺寸调整:将图像 resize 到 320×256(width×height)。
- 动作转换:将原有的动作(如关节位置)转换为末端执行器的动作,动作量可能为相对值或绝对值。
数据集构成
- 机器人类型:数据集中涉及的机器人包括单臂、双臂和四足机器人,其中 Franka 机器人占多数。
- 主要贡献者:xArm 在数据量上占最大头,主要是 language table 的数据集体量很大,有 44 万条;Kuka iiwa 主要来自于 QT-Opt 的贡献;还有 Google Robot 上采集的 RT1 数据。
数据集下载
数据集可视化
数据集详细构成
数据集名称 | 机器人平台 | 片段数量 | 大小/GB | 机器人形态 |
Google Robot | 73,499 | 111.06 | Mobile Manipulator | |
Kuka iiwa | 580,392 | 778.02 | Single Arm | |
WidowX | 25,460 | 387.49 | Single Arm | |
Franka | 3,242 | 47.77 | Single Arm | |
Jaco 2 | 976 | 9.24 | Single Arm | |
Franka | 1,482 | 4.67 | Single Arm | |
Sawyer | 2,144 | 45.39 | Single Arm | |
Hello Stretch | 435 | 7.12 | Mobile Manipulator | |
Franka | 135 | 10.4 | Single Arm | |
UR5 | 896 | 76.39 | Single Arm | |
Franka | 901 | 127.66 | Single Arm | |
xArm | 442,226 | 399.22 | Single Arm | |
UR5 | 122 | 2.8 | Single Arm | |
Kuka iiwa | 3,000 | 31.98 | Single Arm | |
xArm | 14 | 0.01 | Single Arm | |
Franka | 550 | 72.48 | Single Arm | |
Franka | 50 | 1.49 | Single Arm | |
Franka | 456 | 5.18 | Single Arm | |
Franka | 30,000 | 151.05 | Single Arm | |
Franka | 5100 | 110 | Single Arm | |
Franka | 200 | 0.59 | Single Arm | |
xArm | 150 | 1.33 | Single Arm | |
xArm | 1,355 | 3.53 | Single Arm | |
Franka | 250 | 18.85 | Single Arm | |
Franka | 600 | 6.55 | Single Arm | |
Google Robot | 39,350 | 80.54 | Mobile Manipulator | |
Franka | 1,000 | 0.25 | Single Arm | |
PR2 | 64 | 0.35 | Single Arm | |
PR2 | 192 | 0.81 | Single Arm | |
Unitree A1 | 20 | 0.05 | Quadrupedal Robot | |
xArm | 95 | 1.29 | Single Arm | |
xArm Bimanual | 70 | 0.14 | Bi-Manual | |
Multi-Robot | 82,432 | 799.91 | Single Arm | |
xArm | 480 | 12.34 | Single Arm | |
Franka | 960 | 40.64 | Single Arm | |
Franka | 201 | 11.71 | Single Arm | |
Franka | 812 | ㅤ | Single Arm | |
Sawyer | 9,200 | 76.17 | Single Arm | |
Cobotta | 50 | 0.33 | Single Arm | |
DLR SARA | 100 | 2.92 | Single Arm | |
DLR SARA | 100 | 1.65 | Single Arm | |
DLR EDAN | 100 | 3.09 | Single Arm | |
UR5 | 110 | 0.72 | Single Arm | |
Franka | 2,460 | 124.62 | Single Arm | |
Franka | 120 | 17.27 | Mobile Manipulator | |
Sawyer | 170 | 0.08 | Single Arm | |
Franka | 520 | 50.29 | Single Arm | |
Franka | 200 | ㅤ | Mobile Manipulator | |
PAMY2 | 256 | ㅤ | Single Arm | |
Kinova Gen3 | 196 | 15.82 | Single Arm | |
Franka | 1,500 | 20.79 | Single Arm | |
Fanuc Mate | 415 | 8.85 | Single Arm | |
Franka | 4,200 | 720 | Single Arm | |
Franka | 576 | 6.68 | Single Arm | |
Hello Stretch | 135 | 0.71 | Mobile Manipulator | |
Jackal | 11,830 | 18.73 | Wheeled Robot | |
RC Car | 7,328 | 1.39 | Wheeled Robot | |
TurtleBot 2 | 3,000 | 7 | Wheeled Robot | |
Google Robot | 61,153 | ㅤ | 3 embodiments: single-armed robot, single-armed human, single-armed human using grasping tools | |
ViperX Bimanual | 451 | ㅤ | Bi-Manual | |
Franka | 92233 | 1670 | Single Arm | |
Spot | 139 | 2.71 | Mobile Manipulator | |
Hello Stretch | 5208 | 21.1 | Mobile Manipulator | |
Franka | 1804 | 356.5 | Single Arm | |
Human | 3847 | 89.33 | Human | |
Franka | 378 | 7.13 | Single Arm | |
MobileALOHA | 276 | 47.83 | Mobile Manipulator | |
Franka | 18250 | 178.65 | Single Arm | |
TidyBot | 24 | 0.02 | Mobile Manipulator | |
UR5 | 660103 | 1390 | Single Arm | |
Hello Stretch | 233000 | 765 | Single Arm | |
Franka | 450 | 1.26 | Single Arm |
AgiBot World
AgiBot World 是智元机器人开源的百万真机数据集,旨在推动具身智能的发展。该数据集包含超过 100 万条轨迹,覆盖家居、餐饮、工业、商超和办公等五大核心场景。数据集的采集依托于配备 8 个摄像头和 6 个自由度的灵巧手的机器人平台。与谷歌的 Open X-Embodiment 数据集相比,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。
数据集特点
- 大规模数据:包含超过 100 万条轨迹,总时长 2976.4 小时。
- 多样化任务:涵盖 80 余种日常技能,从基础操作如抓取、放置、推、拉,到复杂动作如搅拌、折叠、熨烫等。
- 全域真实场景:复刻了家居(40%)、餐饮(20%)、工业(20%)、商超(10%)和办公(10%)五大核心场景。
- 全能硬件平台:数据采集平台配备了 8 个摄像头、6 自由度灵巧手、六维力传感器和高精度视触觉传感器。
- 全程质量把控:从采集员的专业培训到数据的筛选、审核和标注,每一个环节都经过精心设计和严格把控。
数据集内容
AgiBot World 数据集收录了 80 余种日常生活中的多样化技能,从基础操作到复杂动作,几乎涵盖了人类日常生活所需的绝大多数动作需求。数据集中的任务类型包括但不限于:
- 家居场景:家务清洁、物品整理和厨房任务等。
- 餐饮场景:超市购物、餐厅服务等。
- 工业场景:分拣与物流自动化等。
- 商超场景:超市补货、清洁等。
- 办公场景:文件整理、设备操作等。
数据集下载
ActionNet
Fourier ActionNet Dataset 是一个专注于人形机器人双臂灵巧操作的大型数据集,旨在推动人形机器人在多样化任务中的学习和适应能力。该数据集包含超过 30,000 条遥操作轨迹,相当于约 140 小时的交互数据,是目前最大的人形双臂操作任务数据集之一。
数据集特点
- 多样化任务:
- 数据集涵盖了多种桌面场景中的双臂操作任务,包括抓取与放置、倾倒、插入等。
- 任务类型分布广泛,其中“嘈杂操作”最为频繁,其次是抓取与放置、柜子交互、精确放置和倾倒。
- 多样化对象:
- 数据集中使用了多种工具、家居用品和食品,包括杯子、钳子、卷尺等常见家庭和办公用品。
- 通过多样化对象的使用,确保机器人能够学习处理各种物品的技能。
- 多样化环境:
- 数据集在多种不同条件、对象和场景布局的环境中采集,增强了数据的多样性和适应性。
- 使用了多种人形机器人和灵巧手,包括 Fourier GR1-T1、GR1-T2 和 GR2 人形机器人,以及两种类型的 Fourier 灵巧手(分别具有 6 和 12 个自由度)。
- 高质量数据采集:
- 数据集通过遥操作系统采集,确保机器人执行的技能与人类操作高度一致。
- 使用了 OAK-D W 97 相机,提供宽广的视野,以匹配人形机器人的视角。
- 数据标注:
- 数据集使用 Vision-Language Model (Qwen2.5-VL-7B) 自动标注,生成简洁的指令提示,平均每个样本包含 53 个单词。
- 所有标注均经过人工审核和验证,确保数据质量。
- 模型评估:
- 数据集用于训练和评估多种模仿学习算法,包括 DP、ACT 和 iDP3。
- 这些模型在 Fourier GR1、GR1-Pro 和 GR2 人形机器人上表现出色,展示了数据集的有效性。
数据集结构
- 任务分布:
- 喧闹操作(Noisy manipulation):最频繁的任务类型。
- 抓取与放置(Pick-and-place):常见的任务类型。
- 柜子交互(Cabinet interaction):涉及与柜子的交互。
- 精确放置(Precise placement):需要高精度的任务。
- 倾倒(Pouring):涉及液体或粉末的倾倒任务。
- 物品分布:
- 工具(Tools):如钳子、扳手等。
- 家居用品(Household items):如杯子、盘子等。
- 食品(Food):如水果、饮料等。
- 持续时间分布:
- 大多数轨迹持续时间约为 15 秒,数据集包含短任务和长任务,确保模型能够学习不同长度的交互。
- 技能分布:
- 包括到达(Reaching)、放置(Placing)、抓取(Grasping)等多种基本和复杂动作。
数据集下载
ALFRED
ALFRED(Action Learning From Realistic Environments and Directives)是一个用于将自然语言指令和第一人称视觉映射到家庭任务行动序列的基准数据集。以下是该数据集的内容和特点总结:
数据集内容
- 任务类型:
- 包括7种不同类型的日常家庭任务,例如“将一个干净的海绵放在晾干架上”(Clean & Place)、“将加热后的土豆片放在台面上”(Heat & Place)等。
- 每种任务都通过不同的物体类别、目标容器和场景进行参数化。
- 专家演示:
- 包含8,055个专家演示,每个演示平均有50个动作步骤,总共生成了25,743条自然语言指令。
- 演示涉及导航、物体交互和状态变化,例如拿起物体、打开/关闭柜子、加热物体等。
- 每个演示都提供了高分辨率的视觉观察图像和相应的动作标签。
- 语言指令:
- 每个专家演示都配有至少3个不同的自然语言指令,包括高级目标和逐步指令。
- 指令由众包标注者通过观看演示视频编写,确保指令与演示紧密对应。
- 视觉环境:
- 使用AI2-THOR 2.0模拟器生成120个不同的室内场景,包括厨房、浴室、卧室和客厅。
- 场景中的物体位置和状态会根据任务需求进行随机化,增加了数据的多样性和复杂性。
数据集特点
- 复杂性:
- ALFRED的任务在序列长度、动作空间和语言描述上比现有的视觉与语言任务数据集更为复杂。
- 任务涉及部分可观测性、长动作范围、不明确的自然语言和不可逆动作,更接近真实世界的应用场景。
- 视觉交互:
- 与简单的目标类别预测不同,ALFRED要求智能体通过像素级交互掩码与目标物体进行视觉交互,更接近真实世界的机器人操作。
- 多模态融合:
- 数据集同时包含视觉输入(第一人称视角的图像)、语言指令和动作输出,需要模型在多模态信息之间进行联合推理。
- 泛化能力:
- 数据集分为训练集、验证集和测试集,并进一步分为“已见”(seen)和“未见”(unseen)环境,用于评估模型在新场景中的泛化能力。
- 基准模型挑战性:
- 基于现有视觉与语言导航任务的序列到序列模型在ALFRED上表现不佳,成功率为5%以下,表明该数据集对模型的视觉语义导航、物体检测、指代表达解析和动作接地能力提出了重大挑战。
数据集下载
ARIO
ARIO(All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents)是一个为具身智能代理(embodied agents)设计的综合性、标准化和统一化的开源数据集,旨在推动通用机器人技术的发展。ARIO 数据集的发布旨在为具身智能研究提供一个标准化、多样化的数据资源,推动通用机器人技术的发展。通过整合多种数据源和任务类型,该数据集为研究人员提供了一个强大的工具,用于开发和评估能够适应多种环境和任务的智能机器人系统。
数据集内容
- 多源数据整合:
- 开源数据集转换:整合了多个开源数据集,例如 ManiWAV(包含声音数据的斯坦福 UMI 操作任务,5个任务,1297个场景)、RH20T(上海交通大学的多任务数据集,12719个场景)、Open-X-Embodiment(包含超过232万条数据的多任务、多智能体数据集)等。
- 仿真数据:包括基于 Isaac Sim、MuJoCo 和 UR5 机器人模型的仿真数据,涵盖了多种任务,如打开抽屉、抓取和放置物体等。
- 真实数据采集:来自多个硬件平台的真实数据,例如 Songling Cobot Magic(2个任务,70个场景)、Dataa Robot 的 Cloud Ginger XR-1(3个任务,约800个场景)、PCL CollectInReal(48个任务,2414个场景)等。
- 多样化任务:
- 包括操作任务(如抓取、放置、移动物体)、导航任务(如在室内环境中导航到目标物体)以及多模态任务(结合视觉、触觉、听觉等)。
- 多模态数据:
- 数据集支持多种模态,包括 RGB-D 图像、触觉数据、声音数据等,为研究多模态融合提供了丰富的资源。
- 多智能体与多任务:
- 数据集涵盖了多种智能体(如不同的机器人模型)和多种任务类型,支持多智能体协同和多任务学习的研究。
数据集特点
- 统一标准:
- ARIO 数据集提供了一个统一的数据格式和标准,方便研究人员在不同的数据源和任务之间进行比较和整合。
- 数据集格式详细文档提供了清晰的指导,确保数据的一致性和可访问性。
- 大规模与多样性:
- 数据集规模庞大,包含超过数百万条数据,涵盖了多种任务和场景。
- 数据来源广泛,包括开源数据集、仿真数据和真实数据采集,确保了数据的多样性和丰富性。
- 多模态与多任务支持:
- 数据集支持多种模态数据,为研究多模态融合提供了丰富的资源。
- 包含多种任务类型,支持多任务学习和泛化能力研究。
- 持续更新:
- 数据集处于持续更新状态,新的数据和任务将不断加入,以支持不断发展的具身智能研究。
数据集下载
BC-Z
BC-Z(Zero-Shot Task Generalization with Robotic Imitation Learning)是一个专注于机器人模仿学习的数据集,旨在研究如何使基于视觉的机器人操作系统能够泛化到新的任务。BC-Z 数据集的发布为机器人学习领域提供了一个强大的工具,用于研究如何使机器人能够泛化到新的任务。通过结合大规模数据收集和多模态任务嵌入,该数据集为开发能够适应多种环境和任务的通用机器人系统提供了支持。
数据集内容
- 大规模任务数据集:
- 包含 100 个不同的机器人操作任务,涵盖多种技能,如抓取、放置、擦拭、推动等。
- 数据集包含 25,877 个机器人演示,总时长超过 125 小时,涉及 12 个机器人的操作。
- 每个任务都配有 自然语言指令 或 人类执行任务的视频,用于指导机器人完成任务。
- 多模态数据:
- 数据集支持多种模态,包括 RGB-D 图像、自然语言指令 和 人类视频。
- 语言指令使用预训练的多语言句子编码器进行编码,生成 512 维的任务嵌入向量。
- 人类视频通过卷积神经网络(ResNet-18)进行编码,生成任务嵌入向量。
- 数据收集方式:
- 专家演示:通过虚拟现实(VR)设备进行专家演示,收集初始数据。
- 共享自主(Shared Autonomy):在专家演示的基础上,通过人类操作员的干预来纠正机器人的错误,进一步优化数据。
- 人类视频:收集了 18,726 段人类执行任务的视频,用于训练视频编码器。
- 任务类型:
- 数据集中的任务分为两个主要类别:
- 21 个任务:使用第一组物体(如瓶子、海绵、陶瓷杯等)。
- 79 个任务:使用第二组物体(如葡萄、苹果、香蕉等)。
- 评估时,数据集还包含 29 个未见任务,用于测试模型的零样本(zero-shot)和少样本(few-shot)泛化能力。
数据集特点
- 零样本和少样本泛化:
- BC-Z 的目标是使机器人能够在没有任务特定演示的情况下,通过自然语言指令或人类视频来泛化到新的任务。
- 在测试中,模型能够在 24 个未见任务 上达到平均 44% 的成功率,展示了显著的泛化能力。
- 多任务学习:
- 数据集支持多任务学习,通过在多个任务上进行训练,模型能够更好地泛化到新的任务。
- 多任务学习通过共享数据和任务嵌入,提高了模型的泛化能力。
- 灵活的任务嵌入:
- 模型可以灵活地使用自然语言指令或人类视频作为任务嵌入,这为机器人提供了更丰富的任务指导信息。
- 语言嵌入和视频嵌入的结合,使模型能够更好地理解和执行任务。
- 高效的数据收集和优化:
- 通过共享自主数据收集方式,模型能够在专家演示的基础上进行优化,减少分布偏移(distribution shift)。
- 人类干预的频率可以作为实时性能评估指标,帮助优化数据收集过程。
数据集下载
Unitree Data
Unitree Robotics 开源了自己家产品系列在各种任务上的训练数据,数据是lerobot格式的state数据。
数据集内容
数据集列表:
- Z1_DualArm_FoldClothes_Dataset:涉及双臂折叠衣物的任务,包含 293k 条数据。
- Z1_DualArm_PourCoffee_Dataset:双臂倒咖啡任务,包含 443k 条数据。
- G1_ToastedBread_Dataset:涉及烤面包的任务,包含 352k 条数据。
- G1_CameraPackaging_Dataset:相机包装任务,包含 256k 条数据。
- G1_MountCamera_Dataset:安装相机任务,包含 390k 条数据。
- G1_BlockStacking_Dataset:堆叠积木任务,包含 281k 条数据。
- G1_DualArmGrasping_Dataset:双臂抓取任务,包含 281k 条数据。
- G1_ObjectPlacement_Dataset:物体放置任务,包含 98.3k 条数据。
- G1_Pouring_Dataset:倒水任务,包含 122k 条数据。
- RoboCupFootball_Dataset:机器人足球任务,包含 145 条数据。
数据集特点
多样化任务:
- 数据集涵盖了多种机器人操作任务,包括折叠衣物、倒咖啡、烤面包、包装相机、安装相机、堆叠积木、抓取物体、放置物体、倒水和机器人足球等。
- 这些任务涉及不同的操作技能和场景,为研究机器人在多种环境中的适应能力提供了丰富的资源。
数据集下载
RT-1
数据集内容
RT-1 数据集为机器人学习领域提供了一个强大的工具,用于研究如何使机器人能够泛化到新的任务和环境。通过结合大规模数据收集和高效模型设计,RT-1 展示了在真实世界任务中实现高效学习和泛化的能力。
- 数据规模:
- 演示数量:包含超过 130,000 个机器人演示,涵盖了 744 个不同的任务指令。
- 数据来源:数据由 13 个来自 Everyday Robots 的移动机械臂在三个厨房环境(两个真实办公室厨房和一个训练环境)中收集。
- 任务类型:任务包括 拾取、放置、打开和关闭抽屉、取放抽屉中的物品、直立放置细长物品、推倒物品、拉餐巾和打开罐子 等。
- 任务多样性:
- 技能分组:根据指令中的动词将任务分组为不同技能,例如:
- Pick Object:130 个任务,如“pick iced tea can”。
- Move Object Near Object:337 个任务,如“move pepsi can near rxbar blueberry”。
- Place Object Upright:8 个任务,如“place water bottle upright”。
- Knock Object Over:8 个任务,如“knock redbull can over”。
- Open/Close Drawer:6 个任务,如“open the top drawer”。
- Place Object into Receptacle:84 个任务,如“place brown chip bag into white bowl”。
- Pick Object from Receptacle and Place on the Counter:162 个任务,如“pick green jalapeno chip bag from paper bowl and place on counter”。
- 扩展任务:还包括一些现实的长指令任务,如“pull napkin out of dispenser”等。
- 数据标注:
- 每个演示都标注了执行任务的文本描述,指令通常包含动词和描述目标对象的名词。
- 数据集中的指令涵盖了多种行为和对象,以支持机器人在不同场景下的任务执行和学习。
数据集特点
- 大规模和多样化:
- 数据集不仅规模大,而且涵盖了多种任务、对象和环境,有助于模型学习到更广泛的模式和技能。
- 数据集的多样化有助于提高模型的泛化能力,使其能够在新的任务和环境中表现良好。
- 高效的数据吸收能力:
- RT-1 模型能够有效地吸收和利用大量的数据,包括来自不同机器人和模拟环境的数据。
- 通过结合真实世界数据和模拟数据,RT-1 能够在新的任务和环境中表现出色,而不会牺牲原始任务的性能。
- 实时控制能力:
- RT-1 模型设计为能够在实时环境中运行,支持 3Hz 的控制频率,确保机器人能够快速响应环境变化。
- 通过优化模型架构和推理流程,RT-1 在保持高容量的同时,能够高效地进行实时控制。
- 强大的泛化能力:
- RT-1 在多种任务和环境中的表现优于现有的基线模型,例如在新任务上的成功率达到 76%,在有干扰物的环境中成功率达到 83%,在新背景下的成功率达到 59%。
- RT-1 还能够处理复杂的长指令任务,例如在 SayCan 框架中执行多达 50 步的长指令任务。
数据集下载
BridgeData V2
BridgeData V2 是一个用于大规模机器人学习的数据集,以下是其内容和特点的总结:
数据集内容
- 轨迹数据:包含 60,096 条轨迹,其中 50,365 条是通过远程操作演示生成的,9,731 条是通过脚本化的抓取放置策略生成的。
- 环境:数据涵盖了 24 种不同的环境,分为 4 类。其中 7 种不同的玩具厨房环境是数据的主要来源,这些厨房环境包含水槽、炉灶和微波炉等组合。其余环境还包括各种桌面、独立玩具水槽、玩具洗衣机等。
- 技能:数据集包含 13 种不同的技能,主要包括基础的对象操作任务(如抓取放置、推动、清扫)、环境操作任务(如开关门和抽屉)以及更复杂的任务(如堆叠积木、折叠布料、清扫颗粒介质)。
- 语言标注:每条轨迹都附有自然语言指令,描述机器人正在执行的任务。
数据集特点
- 大规模与多样性:数据集规模大,涵盖了多种任务、环境和对象,能够支持广泛泛化。
- 多视角数据:数据采集使用了多种相机视角,包括固定的“肩上视角”相机、随机化的两个替代相机视角以及机器人手腕上的广角相机。虽然大部分数据仅包含主固定相机视角,但随着数据集的扩展,越来越多的数据将包含所有 4 种视角。
- 硬件与采集方式:所有数据都是通过 WidowX 250 6 自由度机器人臂收集的,通过 VR 控制器进行远程操作演示。数据采集的控制频率为 5 Hz,平均轨迹长度为 38 个时间步。
数据集下载
- Author:Laputa.K
- URL:https://www.laputa-blog.online//article/1c1527b8-a761-805b-9fc9-ebe8437afe58
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!