2024-06
ROS-LLM:具有任务反馈和结构化推理功能的嵌入式人工智能 ROS 框架
分类: 机器人技术, 人工智能
作者: Christopher E. Mower, Yuhui Wan, Hongzhan Yu, Antoine Grosnit, Jonas Gonzalez-Billandon, Matthieu Zimmer, Jinlong Wang, Xinyu Zhang, Yao Zhao, Anbang Zhai, Puze Liu, Daniel Palenicek, Davide Tateo, Cesar Cadena, Marco Hutter, Jan Peters, Guangjian Tian, Yuzheng Zhuang, Kun Shao, Xingyue Quan, Jianye Hao, Jun Wang, Haitham Bou-Ammar
发布时间: 2024-06-28
链接: http://arxiv.org/abs/2406.19741v3
摘要: 我们提出了一个由非专家利用自然语言提示和机器人操作系统 (ROS) 的上下文信息进行直观机器人编程的框架。我们的系统集成了大型语言模型 (LLM),使非专家能够通过聊天界面向系统阐明任务要求。该框架的主要功能包括:将 ROS 与连接到大量开源和商业 LLM 的 AI 代理集成、从 LLM 输出中自动提取行为并执行 ROS 操作/服务、支持三种行为模式(序列、行为树、状态机)、用于将新的机器人动作添加到可能动作库中的模仿学习,以及通过人类和环境反馈进行的大语言模型反思。大量的实验验证了该框架,展示了在不同场景中的鲁棒性、可扩展性和多功能性,包括长视野任务、桌面重新排列和远程监控。为了促进我们的框架的采用并支持我们结果的再现,我们将代码开源。您可以访问:https://github.com/huawei-noah/HEBO/tree/master/ROSLLM。
IRASim:学习交互式真实机器人动作模拟器
分类: 机器人技术, 人工智能, 计算机视觉和模式识别
作者: Fangqi Zhu, Hongtao Wu, Song Guo, Yuxiao Liu, Chilam Cheang, Tao Kong
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14540v1
摘要: 现实世界中可扩展的机器人学习受到真实机器人的成本和安全问题的限制。此外,在现实世界中推出机器人轨迹可能既耗时又费力。在本文中,我们建议学习交互式真实机器人动作模拟器作为替代方案。我们引入了一种新颖的方法 IRASim,它利用生成模型的力量来生成极其逼真的机器人手臂视频,该机器人手臂从初始给定帧开始执行给定的动作轨迹。为了验证我们方法的有效性,我们基于三个真实机器人数据集创建了一个新的基准 IRASim Benchmark,并在该基准上进行了广泛的实验。结果表明,IRASim 优于所有基线方法,并且在人类评估中更受欢迎。我们希望 IRASim 能够作为一种有效且可扩展的方法来增强现实世界中的机器人学习。为了促进生成真实机器人动作模拟器的研究,我们在 https://gen-irasim.github.io 开源代码、基准测试和检查点。
具有有限端到端延迟的安全关键边缘机器人架构
分类: 机器人技术, 分布式、并行和集群计算, 新兴技术, D.2.11; C.4; J.7
作者: Gautam Gala, Tilmann Unte, Luiz Maia, Johannes Kühbacher, Isser Kadusale, Mohammad Ibrahim Alkoudsi, Gerhard Fohler, Sebastian Altmeyer
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14391v1
摘要: 与传统云计算相比,边缘计算在数据源附近处理数据,减少延迟并增强安全性,同时提供其优势。本文探讨了边缘计算,用于从板载专用硬件解决方案迁移现有的安全关键型机器人用例。我们提出了一种基于 Linux、Docker 容器、Kubernetes 和基于 TTWiFi 协议的本地无线区域网络的边缘机器人架构。受到之前实时云工作的启发,我们用资源管理和编排层补充了架构,以帮助 Linux 管理和 Kubernetes 编排系统范围的共享资源(例如缓存、内存带宽和网络)。我们的架构旨在确保边缘机器人应用程序(例如路径规划)的容错和可预测执行,同时限制端到端延迟并确保尽可能最佳的服务质量,而不危及安全性。
辐射灾难场景半自主移动搜救机器人
分类: 机器人技术
作者: Simon Schwaiger, Lucas Muster, Georg Novotny, Michael Schebek, Wilfried Wöber, Stefan Thalhammer, Christoph Böhm
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14385v1
摘要: 本文描述了一种新型半自主移动机器人系统,旨在协助灾难场景中的搜救(SAR)急救人员。虽然机器人在搜寻与援救任务中具有巨大潜力,但当前的解决方案处理各种任务的能力有限。通过提出一种能够解决这一差距的系统,该系统能够:(1) 自主导航和测绘,使机器人能够自主探索和绘制受灾难事件影响的区域;(2) 辐射测绘,使系统能够根据离散辐射测量对辐射图进行三角测量帮助识别危险区域,(3) 半自主物质采样,允许机器人收集可疑物质样本并在船上进行分析并立即分类,以及 (4) 阀门操作,实现远程操作关闭控制危险物质流动的阀门。这种半自主方法平衡了人类对物质采样等关键任务的控制与低风险区域的高效机器人导航。该系统在模拟可能的灾难场景的三项试验中进行了评估,其中两次是在欧洲机器人黑客马拉松(EnRicH)期间记录的。此外,我们通过 GitHub 存储库提供记录的传感器数据以及实施的软件系统作为补充材料:https://github.com/TW-Robotics/search-and-rescue-robot-IROS2024。
用于处理机器人操纵器的未知不确定性的自适应鲁棒控制器
分类: 机器人技术, 系统与控制, 系统与控制
作者: Mohamed Abdelwahab, Giulio Giacomuzzo, Alberto Dalla Libera, Ruggero Carli
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14338v1
摘要: 实现精确、平滑的轨迹跟踪的能力对于确保成功执行涉及机器人操纵器的各种任务至关重要。最先进的技术需要机器人动力学的精确数学模型,并且通过依赖模型失配的精确界限来实现模型不确定性的鲁棒性。在本文中,我们提出了一种新颖的自适应鲁棒反馈线性化方案,能够补偿模型的不确定性,而无需任何先验知识,并且我们提供了温和假设下收敛的理论证明。我们在模拟 RR 机器人上评估该方法。首先,我们考虑具有已知模型不匹配的名义模型,这使我们能够将我们的策略与最先进的不确定性感知方法进行比较。其次,我们结合学习模型来实现所提出的控制律,但不确定性界限不可用。结果表明,我们的方法的性能与不确定性感知方法相当,同时需要较少的先验知识。
减轻机器人操作视觉预训练中的人机领域差异
分类: 计算机视觉和模式识别, 机器人技术
作者: Jiaming Zhou, Teli Ma, Kun-Yu Lin, Ronghe Qiu, Zifan Wang, Junwei Liang
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14235v1
摘要: 学习跨不同具体环境的通用视觉动态表示对于现实世界的机器人操作至关重要。由于机器人演示数据的规模和多样性有限,最近的工作转向使用人类数据进行大规模预训练。然而,人类和机器人之间的形态差异引入了显着的人机领域差异,挑战了这些人类数据预训练模型到下游操作任务的泛化。为了解决这个问题,我们提出了一种新颖的适应范式,利用现成的配对人机视频数据来弥合差异。遵循这种范例,我们的方法利用人机对比对齐损失来对齐人类和机器人视频的语义,以参数有效的方式将预训练的模型适应机器人领域。实验证明了三个不同基准测试中 25 项任务的显着改进,其中涵盖了单任务、语言条件多任务设置,并评估了两种不同的预训练模型。在大型 RLBench 基准测试中,我们的适应方法在多个任务中比预训练的 R3M 模型的成功率平均提高了 8.9%$。我们将在接受后发布代码和模型。
用于小鼠颅窗创建的自主机器人钻孔系统
分类: 机器人技术, 人工智能
作者: Enduo Zhao, Murilo M. Marinho, Kanako Harada
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14135v1
摘要: 无论科学家的技能如何,生命科学中实验操作的机器人辅助预计都会带来有利的结果。生命科学中的实验样本容易受到个体差异的影响,因此需要复杂的算法来成功实现自主机器人控制。作为一个用例,我们正在研究小鼠颅窗的创建。该手术需要去除头骨的8毫米圆形斑块,其厚度约为300微米,但小鼠头骨的形状和厚度根据小鼠的品系、性别和年龄而显着变化。在这项工作中,我们提出了一种无需离线规划的自主机器人钻孔方法,由具有执行时间反馈的轨迹规划块组成,并具有基于图像和力信息的完成水平识别。力信息使完成级分辨率提高 10 倍。我们以两种方式评估所提出的方法。首先,在蛋壳钻孔任务中,20次试验中成功率达到95%,平均钻孔时间为7.1分钟。其次,在死后小鼠身上进行的 20 次试验中,成功率为 70%,平均钻孔时间为 9.3 分钟。
通过人机协作增强基于大语言模型的机器人操作
分类: 机器人技术, 人工智能, 人机交互
作者: Haokun Liu, Yaonan Zhu, Kenji Kato, Atsushi Tsukahara, Izumi Kondo, Tadayoshi Aoyama, Yasuhisa Hasegawa
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14097v1
摘要: 大型语言模型(LLM)在机器人领域越来越受欢迎。然而,由于语言模型、机器人和环境之间的集成度较差,基于LLM的机器人仅限于简单、重复的运动。本文提出了一种通过人机协作(HRC)增强基于大语言模型的自主操作性能的新方法。该方法涉及使用提示的 GPT-4 语言模型将高级语言命令分解为机器人可以执行的运动序列。该系统还采用基于 YOLO 的感知算法,为 LLM 提供视觉提示,有助于规划特定环境中的可行运动。此外,结合远程操作和动态运动原语(DMP)提出了一种 HRC 方法,允许基于 LLM 的机器人从人类指导中学习。使用丰田人类支持机器人执行操作任务进行了真实世界的实验。结果表明,需要复杂轨迹规划和环境推理的任务可以通过结合人类演示来有效完成。
LIT:用于主动人机协作的大型语言模型驱动的意图跟踪——机器人副厨师应用程序
分类: 机器人技术, 计算机视觉和模式识别
作者: Zhe Huang, John Pohovey, Ananya Yammanuru, Katherine Driggs-Campbell
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13787v1
摘要: 大型语言模型 (LLM) 和视觉语言模型 (VLM) 使机器人能够将自然语言提示转化为控制动作,以在开放世界中完成任务。然而,当应用于长期协作任务时,这种表述会导致在任务的每个步骤中过度提示启动或澄清机器人动作。我们提出语言驱动的意图跟踪(LIT),利用 LLM 和 VLM 来模拟人类用户的长期行为,并预测下一个人类意图,以指导机器人进行主动协作。我们展示了基于 LIT 的协作机器人和人类用户在协作烹饪任务中的顺畅协调。
SRL-VIC:用于接触丰富的机器人任务的基于可变刚度的安全强化学习
分类: 机器人技术
作者: Heng Zhang, Gokhan Solak, Gustavo J. G. Lahr, Arash Ajoudani
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13744v1
摘要: 强化学习(RL)已成为复杂且连续的机器人任务中一种有前途的范例,然而,安全探索一直是主要挑战之一,特别是在非结构化环境中的接触丰富的操作任务中。针对这个问题,我们提出了SRL-VIC:一种与可变阻抗控制器(VIC)相结合的无模型安全强化学习框架。具体来说,安全批评家和恢复策略网络是预先训练的,其中安全批评家在执行下一步操作之前使用风险值评估其安全性,如果风险值较高,恢复策略会建议采取纠正措施。此外,策略会在线更新,其中任务策略不仅可以实现任务,还可以调节刚度参数以保持安全且合规的轮廓。一组在接触丰富的迷宫任务中的实验表明,我们的框架优于基线(没有恢复机制和没有 VIC),在高效任务完成和安全保证之间产生了良好的权衡。我们展示了经过模拟训练的策略可以部署在物理机器人上,无需微调,从而以鲁棒性和泛化性成功完成任务。该视频可在 https://youtu.be/ksWXR3vByoQ 上观看。
想象分布状态:可预测的机器人行为如何使用户能够控制学习的策略
分类: 机器人技术, 人工智能, 人机交互
作者: Isaac Sheidlower, Emma Bethel, Douglas Lilly, Reuben M. Aronson, Elaine Schaertl Short
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13711v1
摘要: 至关重要的是,用户必须能够利用机器人的功能,并利用他们对该功能的理解来执行新颖且富有创意的任务。给定一个经过强化学习 (RL) 训练的机器人,用户可能希望利用这种自主性以及他们对机器人行为方式的熟悉程度来与机器人协作。一种技术是用户通过远程操作控制机器人的部分动作空间,从而允许强化学习策略同时控制其余部分。我们将这种类型的共享控制形式化为分区控制(PC)。然而,使用现成的强化学习策略可能无法实现这一点。例如,从策略的角度来看,用户的控制可能会使机器人进入故障状态,导致其意外行动并阻碍用户期望任务的成功。在这项工作中,我们将这个问题形式化,并提出想象的分布外动作(IODA),这是一种初始算法,使用户能够利用他们对机器人行为的期望来完成新任务。我们在真实机器人的用户研究中部署了 IODA,发现 IODA 不仅可以带来更好的任务性能,而且可以提高机器人行为与用户期望之间的一致性。我们还表明,在 PC 中,任务表现与机器人满足用户期望的能力之间存在很强且显着的相关性,这凸显了对 IODA 等方法的需求。代码可在 https://github.com/AABL-Lab/ioda_roman_2024 获取