MiX Knowledge

使用轮式移动机器人对点状目标进行室内合成孔径雷达测量

分类： 信号处理

作者： Yuma E. Ritterbusch, Johannes Fink, Christian Waldschmidt

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2405.00121v1

摘要： 小型、低成本雷达传感器为室内移动机器人提供独立于照明的传感功能，这对于定位和绘图非常有用。合成孔径雷达 (SAR) 提供了一种有吸引力的方法来提高小型雷达传感器的角分辨率，用于移动机器人生成高分辨率的室内环境地图。这项工作使用雷达惯性里程计定位量化了我们的移动机器人测量装置的最大可合成孔径长度，并提供了对机器人毫米波 SAR 成像挑战的见解。

从互联网视频中走向通才型机器人学习：一项调查

分类： 机器人技术, 机器学习

作者： Robert McCarthy, Daniel C. H. Tan, Dominik Schmidt, Fernando Acero, Nathan Herr, Yilun Du, Thomas G. Thuruthel, Zhibin Li

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19664v1

摘要： 本调查概述了强化学习 (RL) 和机器人技术背景下的视频学习 (LfV) 方法。我们专注于能够扩展到大型互联网视频数据集的方法，并在此过程中提取有关世界动态和人类物理行为的基础知识。这些方法为开发通用机器人带来了巨大的希望。我们首先概述与机器人 LfV 设置相关的基本概念。这包括讨论 LfV 方法可以提供的令人兴奋的好处（例如，改进超出可用机器人数据的泛化能力）以及对关键 LfV 挑战的评论（例如，与视频中丢失信息和 LfV 分布变化相关的挑战）。我们的文献综述首先分析了视频基础模型技术，这些技术可以从大型异构视频数据集中提取知识。接下来，我们回顾专门利用视频数据进行机器人学习的方法。在这里，我们根据 RL 知识模式从视频数据的使用中受益的方式对工作进行分类。我们还重点介绍了缓解 LfV 挑战的技术，包括审查解决视频中动作标签缺失问题的动作表示。最后，我们检查了 LfV 数据集和基准，然后通过讨论 LfV 的挑战和机遇来结束调查。在这里，我们提倡可扩展的方法，可以利用全方位的可用数据，并针对 LfV 的主要优势。总的来说，我们希望这项调查能够为 LfV 新兴领域提供全面的参考，促进该领域的进一步研究，并最终促进通用机器人的进展。

基于反应时间逻辑的交互式机器人任务规划和控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Farhad Nawaz, Shaoting Peng, Lars Lindemann, Nadia Figueroa, Nikolai Matni

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19594v1

摘要： 与人类互动的机器人必须安全、反应灵敏，并能够在线适应不可预见的环境和任务变化。同时满足这些要求是一项挑战，因为交互式规划器缺乏正式的安全保证，而安全运动规划器缺乏适应的灵活性。为了解决这个问题，我们提出了一种模块化控制架构，通过将基于时间逻辑的离散任务级计划与基于连续动态系统（DS）的运动计划相集成，为人机交互生成安全和反应性运动计划。我们制定了一个反应式时序逻辑公式，使用户能够通过结构化语言定义任务规范，并提出一种任务级别的规划算法，该算法可以生成一系列所需的机器人行为，同时适应环境变化。在运动层面，我们结合控制李亚普诺夫函数和控制障碍函数来计算两种类型的机器人行为的稳定和安全的连续运动计划：（i）由自主 DS 给出的复杂的、可能周期性的运动和（ii）指定的时间关键任务通过信号时间逻辑~（STL）。我们的方法在 Franka 机器人手臂和人体模型上进行了演示，该机器人手臂在白板上执行擦拭任务，该人体模型符合人类互动并适应环境变化。

将视觉触觉传感与触觉反馈集成用于遥控机器人操作

分类： 机器人技术

作者： Noah Becker, Erik Gattung, Kay Hansel, Tim Schneider, Yaonan Zhu, Yasuhisa Hasegawa, Jan Peters

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19585v1

摘要： 远程机器人使人类能够克服空间限制，并允许他们与远程位置的环境进行物理交互。然而，系统向操作员提供的感官反馈通常是纯粹的视觉反馈，限制了操作员在操作任务中的灵活性。在这项工作中，我们通过为机器人的末端执行器配备高分辨率视觉触觉 GelSight 传感器来解决这个问题。使用低成本的 MANUS 手套，我们以振动信号的形式为操作员提供有关作用在接触点的力的触觉反馈。我们提出了两种不同的方法来估计这些力；一种基于估计传感器表面标记的运动，另一种是深度学习方法。此外，我们将我们的系统集成到虚拟现实远程操作管道中，其中人类操作员控制 Tiago 机器人的双臂，同时接收视觉和触觉反馈。我们相信，集成触觉反馈是遥控机器人系统灵巧操纵的关键一步。

用于灵巧机械手的传感软皮肤

分类： 机器人技术, 硬件架构

作者： Jana Egli, Benedek Forrai, Thomas Buchner, Jiangtao Su, Xiaodong Chen, Robert K. Katzschmann

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19448v1

摘要： 传统的工业机器人通常使用两指夹具或吸盘来操纵物体或与世界互动。由于设计简单，它们无法再现人手在操纵各种物体时的灵巧程度。虽然人形手的控制有了很大的发展，但硬件平台仍然缺乏能力，特别是在触觉传感和提供软接触表面方面。在这项工作中，我们提出了一种方法，为肌腱驱动的人形手的骨骼配备柔软且传感的触觉皮肤。多材料 3D 打印使我们能够迭代地进行铸造蒙皮设计，从而保持机器人在运动范围和速度方面的灵活性。我们证明，柔软的皮肤可以使抓握更牢固，压阻传感器集成可以增强手的触觉感知能力。

增强机器人适应性：集成无监督轨迹分割和条件 ProMP 以实现动态学习环境

分类： 机器人技术, 系统与控制, 系统与控制

作者： Tianci Gao

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19412v1

摘要： 我们提出了一种增强机器人适应性和学习效率的新颖框架，它将无监督轨迹分割与自适应概率运动基元（ProMP）相结合。通过采用结合了自动编码器和循环神经网络 (RNN) 的尖端深度学习架构，我们的方法可以自动查明连续、未标记运动数据中的关键过渡点，从而显着减少对广泛标记数据集的依赖。这种创新方法使用条件变量动态调整运动轨迹，显着增强动态条件下机器人动作的灵活性和准确性，同时还减少了与传统机器人编程方法相关的计算开销。我们的实验验证表明，与现有技术相比，具有卓越的学习效率和适应性，为工业和服务机器人的高级应用铺平了道路。

机器人急救人员的情况图：拆除药物实验室的应用

分类： 机器人技术

作者： W. J. Meijer, A. C. Kemmeren, J. M. van Bruggen, T. Haije, J. E. Fransman, J. D. van Mil

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17395v1

摘要： 在这项工作中，我们通过部署机器人进行初步检查，支持安全领域的专家更安全地拆除药物实验室。能够对发现的环境采取行动是实现这种（半）自主检查的关键，例如打开门或靠近可疑物品。我们的方法通过一种新颖的环境表示——面向行为的情景图来解决这个问题，我们通过情景可供性模式将感知驱动的主干与先前的可操作知识合并，从而扩展了经典情景图。将情况与机器人行为联系起来有助于自主任务规划和操作员的情况理解。通过图表进行规划更加容易和快捷，因为它直接包含可操作的信息，这对于在线任务系统至关重要。此外，该表示允许人类操作员在机器人的不同自主级别之间无缝过渡，从远程控制到行为执行再到完全自主探索。我们使用移动 Spot 机器人在荷兰警察培训设施的真实药物实验室场景中测试了我们方法的有效性，并使用结果迭代系统设计。

人机交互中的儿童语音识别：问题解决了吗？

分类： 计算和语言, 人机交互, 机器人技术

作者： Ruben Janssens, Eva Verhelst, Giulio Antonio Abbo, Qiaoqiao Ren, Maria Jose Pinto Bernal, Tony Belpaeme

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17394v1

摘要： 自动语音识别在成人英语语音的一系列基准测试中表现出超人的表现，但在儿童语音方面却令人失望。这长期以来一直阻碍着儿童与机器人的互动。数据驱动语音识别的最新发展，包括 Transformer 架构的可用性和前所未有的训练数据量，可能意味着儿童语音识别和针对儿童的社交机器人应用的突破。我们重新审视 2017 年针对儿童语音识别的一项研究，结果表明性能确实有所提高，新来者 OpenAI Whisper 的表现明显优于领先的商业云服务。虽然转录尚不完美，但最好的模型可以正确识别 60.3% 的句子，排除微小的语法差异，并且在本地 GPU 上运行的转录时间为亚秒级，显示出可用的自主儿童机器人语音交互的潜力。

适用于机器人应用的优化无刷直流电机控制方案

分类： 机器人技术, 系统与控制, 系统与控制

作者： Nilabha Das, Laxman Rao S. Paragond, Balkrushna H. Waghmare

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17367v1

摘要： 这项工作旨在开发一种无刷直流电机的集成控制策略，用于机器人系统的广泛应用。该控制器适用于电机的高扭矩、低速和高速控制。硬件验证是通过开发定制 BLDC 驱动系统来完成的，并且电路元件针对功效进行了优化。

基于相位还原的六足机器人步态转换简单控制的中央模式生成器网络

分类： 适应和自组织系统

作者： Norihisa Namura, Hiroya Nakao

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17139v1

摘要： 我们提出了一种中央模式生成器（CPG）网络模型，该模型可以基于相位缩减以简单的方式控制六足机器人的步态转换。 CPG网络由六个弱耦合极限环振荡器组成，其同步动态可以通过相位约简用六个相位方程来描述。着眼于具有特定对称性的六足步态之间的转换，CPG网络的六个相位方程可以进一步简化为两个独立的相位差方程。通过为网络选择适当的耦合函数，我们可以实现所需的同步动态，而不管用于 CPG 的极限环振荡器的详细属性如何。我们的 CPG 网络的有效性通过使用 FitzHugh-Nagumo 振荡器作为 CPG 单元对波浪步态、四足步态和三足步态之间的步态转换进行数值模拟来证明。

在实验室环境中基于视觉的机器人操纵透明液体容器

分类： 机器人技术, 计算机视觉和模式识别

作者： Daniel Schober, Ronja Güldenring, James Love, Lazaros Nalpantidis

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16529v1

摘要： 由于自动化方面的挑战，例如初始成本高、半结构化环境和方案可变性，涉及少量溶液和活性成分的实验室流程通常是手动执行的。在这项工作中，我们开发了一种灵活且经济有效的方法来解决这一差距，引入基于视觉的液体体积估计系统和专门为小开口容器设计的模拟驱动的浇注方法。我们分别评估这两个组件，然后使用 UR5 机械臂进行细胞培养自动化的实际应用集成。我们的工作是完全可重现的：我们在 \url{https://github.com/DaniSchober/LabLiquidVision} 上分享我们的代码，新引入的数据集 LabLiquidVolume 可在 https://data.dtu.dk/articles/dataset/ 上获取LabLiquidVision/25103102。

利用预训练的潜在表示在灵巧的机器人手上进行少量模仿学习

分类： 机器人技术

作者： Davide Liconti, Yasunori Toshimitsu, Robert Katzschmann

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16483v1

摘要： 在模仿学习应用于灵巧的机器人手的背景下，系统的高度复杂性使得学习复杂的操作任务具有挑战性。然而，描述人手在各种不同任务中的大量数据集可以为我们提供有关人手运动的更好的知识。我们提出了一种利用多个与任务无关的大规模数据集来获取潜在表示的方法，该表示可以有效地编码我们包含在基于变压器的行为克隆方法中的运动子轨迹。我们的结果表明，与传统的行为克隆方法相比，采用潜在表征可以提高性能，特别是在感知和本体感觉中对错误和噪声的恢复能力方面。此外，所提出的方法仅依赖于人类演示，消除了远程操作的需要，因此加速了数据采集过程。用于指尖重定向的精确逆运动学确保了从人手数据到机器人的精确传输，促进操作策略的有效学习和部署。最后，经过训练的策略已成功转移到现实世界的 23Dof 机器人系统中。

神经组装器：学习从多视图图像生成细粒度的机器人组装指令

分类： 计算机视觉和模式识别, 机器人技术

作者： Hongyu Yan, Yadong Mu

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16423v1

摘要： 图像引导的对象组装代表了计算机视觉中一个新兴的研究主题。本文介绍了一项新颖的任务：将结构 3D 模型（例如，使用从 3D 对象库中提取的构建块构建的模型）的多视图图像转换为可由机械臂执行的详细组装指令序列。借助用于复制的目标 3D 模型的多视图图像，为此任务设计的模型必须解决几个子任务，包括识别构建 3D 模型中使用的各个组件、估计每个组件的几何姿态，并推导出可行的模型。装配顺序遵守物理规则。在多视图图像和 3D 对象之间建立准确的 2D-3D 对应关系在技术上具有挑战性。为了解决这个问题，我们提出了一种称为神经组装器的端到端模型。该模型学习一个对象图，其中每个顶点代表图像中识别的组件，边缘指定 3D 模型的拓扑，从而能够导出装配计划。我们为此任务建立基准，并对神经汇编器和替代解决方案进行全面的实证评估。我们的实验清楚地证明了神经汇编器的优越性。

基于平滑粒子流体动力学的机器人群控制无障碍导航

分类： 机器人技术

作者： Michikuni Eguchi, Mai Nishimura, Shigeo Yoshida, Takefumi Hiraki

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16309v1

摘要： 机器人群在执行复杂任务方面具有巨大的潜力，远远超出了单个机器人的能力。然而，释放这种潜力的挑战是机器人有限的感知能力，这阻碍了它们实时检测和适应未知障碍物的能力。为了克服这一限制，我们引入了一种新颖的机器人群控制方法，该方法具有使用平滑粒子流体动力学（SPH）模型的间接障碍物检测器。间接障碍物检测器可以仅根据机器人的速度信息来预测与障碍物的碰撞及其碰撞点。这种方法使集群能够有效、准确地在环境中导航，而不需要明确的障碍物检测，从而显着提高其操作的鲁棒性和效率。我们的方法的优越性通过比较分析得到定量验证，展示了其在无障碍物感知条件下的显着导航和模式形成改进。

机器人 MAAO 0.7m 望远镜系统：性能和标准光度系统

分类： 天体物理学仪器和方法

作者： Gu Lim, Dohyeong Kim, Seonghun Lim, Myungshin Im, Hyeonho Choi, Jaemin Park, Keun-Hong Park, Junyeong Park, Chaudhary Muskaan, Donghyun Kim, Hayeong Jeong

发布时间： 2024-04-24

链接： http://arxiv.org/abs/2404.15884v1

摘要： 我们在密阳阿里郎天文台 (MAAO) 引进了 0.7m 望远镜系统，该天文台是位于韩国密阳的公共天文台。系统集成和调度程序使 0.7m 望远镜系统能够在夜间完全自动运行，无需人工干预。利用0.7m望远镜系统，通过观测标准恒星获得大气消光系数和零点星等。结果，我们发现大气层的灭绝是温和的，但有时会根据天气条件而增加。在晴朗天气条件下，点源的测量 5 西格玛极限星等可低至 BVRI=19.4-19.6 AB 星等，总积分时间为 10 分钟，表现出与在类似规格和天空条件下运行的其他观测设施相当的性能。我们期待新建成的MAAO 0.7m望远镜系统将为天文学观测研究做出重大贡献。特别是，由于具有机器人观测的能力，该系统虽然其主要职责是供公众观看，但可以广泛用于瞬变的时间序列观测。

一种快速适应和持续学习的移动机器人尖峰神经网络路径规划算法

分类： 机器人技术

作者： Harrison Espino, Robert Bain, Jeffrey L. Krichmar

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15524v1

摘要： 绘制环境中的遍历成本并根据该地图规划路径对于自主导航非常重要。我们提出了一种神经机器人导航系统，它利用尖峰神经网络波前规划器和 E-prop 学习来同时在大型复杂环境中绘制和规划路径。我们采用了一种新颖的映射方法，当与尖峰波前规划器结合使用时，可以通过有选择地考虑任何成本组合来进行自适应规划。该系统在有障碍物和变化地形的室外环境中的移动机器人平台上进行了测试。结果表明，该系统能够使用三种成本衡量标准来识别环境中的特征：(1) 车轮的能量消耗，(2) 存在障碍物时花费的时间，以及 (3) 地形坡度。在短短 12 个小时的在线训练中，E-prop 通过更新尖峰波前规划器中的延迟来学习遍历成本并将其纳入路径规划图中。在模拟路径上，尖峰波前规划器规划的路径比 A* 和 RRT* 明显更短且成本更低。尖峰波前规划器与神经形态硬件兼容，可用于需要小尺寸、重量和功率的应用。

了解机器人思维：利用机器教学实现不同群体之间透明的人机协作

分类： 机器人技术

作者： Suresh Kumaar Jayaraman, Reid Simmons, Aaron Steinfeld, Henny Admoni

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15472v1

摘要： 在这项工作中，我们的目标是通过开发适合具有不同学习能力的群体的机器教学算法来提高人机协作的透明度和效率。虽然以前的方法侧重于针对个人进行定制的教学方法，但我们的方法教授由不同学习者组成的各种团队，使用团队信念表示来解决群体内的个性化挑战。我们研究了各种团体教学策略，例如关注个人信念或团体的集体信念，并评估它们对不同团队组成的学习机器人策略的影响。我们的研究结果表明，与个人信念策略相比，团队信念策略在学习持续时间上产生的变化较小，并且更好地适应不同的团队，这表明它们适用于资源有限的混合能力环境。相反，个人信念策略提供了更统一的知识水平，对于同样缺乏经验的群体尤其有效。我们的研究表明，教学策略的有效性受到团队组成和学习者熟练程度的显着影响，强调了实时评估学习者熟练程度并根据学习者熟练程度调整教学方法以获得最佳教学成果的重要性。

使用强化学习规划路径：RoboCup 小规模联赛环境中的最佳机器人运动规划

分类： 机器人技术, 人工智能, 机器学习

作者： Mateus G. Machado, João G. Melo, Cleber Zanchettin, Pedro H. M. Braga, Pedro V. Cunha, Edna N. S. Barros, Hansenclever F. Bassani

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15410v1

摘要： 这项工作研究了强化学习 (RL) 在解决动态 RoboCup 小规模联赛 (SSL) 中机器人运动规划挑战方面的潜力。使用启发式控制方法，我们评估了强化学习在无障碍和单障碍路径规划环境中的有效性。消融研究表明性能显着提高。与基线算法相比，我们的方法在无障碍环境中实现了 60% 的时间增益。此外，我们的研究结果证明了动态避障能力，能够熟练地绕过移动的障碍物。这些发现凸显了强化学习在充满挑战且不可预测的 SSL 环境中增强机器人运动规划的潜力。

机器人操作的闭环交互式具体推理

分类： 机器人技术, 计算机视觉和模式识别

作者： Michal Nazarczuk, Jan Kristof Behrens, Karla Stepanova, Matej Hoffmann, Krystian Mikolajczyk

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15194v1

摘要： 具身推理系统集成了机器人硬件和认知过程来执行复杂的任务，通常是响应有关特定物理环境的自然语言查询。这通常涉及改变对场景的信念或物理交互和改变场景（例如“将物体从最轻到最重排序”）。为了促进此类系统的开发，我们引入了一个新的模拟环境，该环境利用 MuJoCo 物理引擎和高质量渲染器 Blender 来提供逼真的视觉观察，并且精确到场景的物理状态。我们与模拟器一起提出了一个新的基准，由 10 类多步骤推理场景组成，需要同时进行视觉和物理测量。最后，我们开发了一种新的模块化闭环交互式推理（CLIER）方法，该方法考虑了非视觉对象属性的测量、外部干扰引起的场景变化以及机器人动作的不确定结果。我们在模拟和现实世界操作任务中广泛评估了我们的推理方法，成功率分别高于 76% 和 64%。

阻抗匹配：在四足机器人中实现基于强化学习的奔跑跳跃

分类： 机器人技术, 机器学习

作者： Neil Guan, Shangqun Yu, Shifan Zhu, Donghyun Kim

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15096v1

摘要： 复制动物身上卓越的运动能力长期以来一直是机器人控制领域的一个挑战。尽管强化学习 (RL) 在动态腿部运动控制方面取得了显着进展，但模拟与真实之间的巨大差距往往阻碍了真正动态运动的现实世界演示。我们提出了一个新的框架，通过模拟机器人和真实机器人之间基于频域分析的阻抗匹配来缩小这一差距。我们的框架为模拟中的参数选择和动态随机化范围提供了结构化指南，从而促进安全的模拟到真实的转换。使用我们的框架学习到的策略可以跨越 55 厘米的距离和 38 厘米的高度。据我们所知，该结果是真实四足机器人中基于强化学习的控制策略所展示的最高和最长的跳跃之一。请注意，所实现的跳跃高度约为通过最先进的轨迹优化方法获得的跳跃高度的 85%，这可以视为给定机器人硬件的物理极限。此外，我们的控制策略实现了前后方向速度高达 2 m/s、侧向速度为 1 m/s 的稳定行走。

辅助机器人的未知物体抓取

分类： 机器人技术

作者： Elle Miller, Maximilian Durner, Matthias Humt, Gabriel Quere, Wout Boerdijk, Ashok M. Sundaram, Freek Stulp, Jorn Vogel

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15001v1

摘要： 我们提出了一种在共享机器人自主场景中抓取未知物体的新颖管道。完全自主场景的最先进方法通常是针对特定末端执行器优化的基于学习的方法，直接从传感器输入生成抓取姿势。在辅助机器人领域，我们寻求利用用户的认知能力来提高满意度、掌握性能并与其高水平的特定任务目标保持一致。给定一对立体图像，我们执行未知对象实例分割并生成感兴趣对象的 3D 重建。在共享控制中，用户随后引导机器人末端执行器穿过以物体为中心的虚拟半球，到达所需的接近方向。基于物理的抓取规划器在重建时找到最稳定的局部抓取，最后通过共享控制引导用户到达该抓取。在 DLR EDAN 平台上的实验中，我们报告了对 10 个未知物体的抓取成功率为 87%，并证明了该方法在结构化杂乱和货架上抓取物体的能力。

超越边界的视觉：人机交互中特定领域大视觉模型的初始设计空间

分类： 人机交互, 机器人技术

作者： Yuchong Zhang, Yong Ma, Danica Kragic

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.14965v1

摘要： 大视觉模型（LVM）的出现是紧随大语言模型（LLM）在接下来几年的繁荣的脚步。然而，尽管有大量证据支持视觉模型在增强人机交互方面的功效，但将 LVM 应用于人机交互 (HRI) 的结构化研究仍存在明显差距。认识到巨大且可预期的潜力，我们引入了一个初始设计空间，其中包含特定于域的 LVM，之所以选择它们是因为它们比普通模型具有卓越的性能。我们深入研究三个主要维度：HRI 环境、基于视觉的任务和特定领域。 15 名专家针对 6 个评估指标进行了实证验证，展示了相关决策场景中的主要功效。我们探索构思过程和潜在的应用场景，将该设计空间设想为未来 HRI 系统设计的基本指南，强调准确的领域对齐和模型选择。

Bi-CL：通过双层优化进行机器人协调的强化学习框架

分类： 机器人技术

作者： Zechen Hu, Daigo Shishika, Xuesu Xiao, Xuan Wang

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.14649v1

摘要： 在多机器人系统中，由于协调行为的耦合性质以及单个机器人缺乏全局信息，实现协调任务仍然是一个重大挑战。为了缓解这些挑战，本文引入了一种新颖的方法，即双层协调学习（Bi-CL），该方法在集中式训练和分散式执行范例中利用双层优化结构。我们的双层重构将原始问题分解为行动空间减小的强化学习级别和从全局优化器获得演示的模仿学习级别。这两个级别都有助于提高学习效率和可扩展性。我们注意到机器人的不完整信息导致两个级别的学习模型之间不匹配。为了解决这个问题，Bi-CL进一步集成了对齐惩罚机制，旨在在不降低训练效率的情况下最小化两个级别之间的差异。我们引入一个运行示例来概念化问题表述，并将 Bi-CL 应用于该示例的两种变体：基于路线和基于图的场景。仿真结果表明，Bi-CL 可以更有效地学习，并达到与传统多智能体强化学习基线相当的多机器人协调性能。

将消歧和用户偏好集成到机器人运动规划的大型语言模型中

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Mohammed Abugurain, Shinkyu Park

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.14547v1

摘要： 本文提出了一个框架，可以解释人类包含时间元素的导航命令，并将其自然语言指令直接翻译为机器人运动规划。我们框架的核心是利用大型语言模型（LLM）。为了增强框架中大语言模型的可靠性并改善用户体验，我们提出了解决自然语言指令中的歧义并捕获用户偏好的方法。该过程从歧义分类器开始，识别指令中潜在的不确定性。不明确的陈述会触发基于 GPT-4 的机制，该机制会生成澄清问题，并纳入用户响应以消除歧义。此外，该框架还评估并记录用户对明确指令的偏好，从而增强未来的交互。该过程的最后一部分是使用线性时序逻辑将消除歧义的指令转换为机器人运动计划。本文详细介绍了该框架的开发以及其在各种测试场景中的性能评估。

大语言模型个性化：通过家政机器人的强化自我训练使大语言模型规划者与人类偏好保持一致

分类： 机器人技术, 人工智能

作者： Dongge Han, Trevor McInroe, Adam Jelley, Stefano V. Albrecht, Peter Bell, Amos Storkey

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.14285v1

摘要： 大型语言模型（LLM）通过利用其语言理解和文本生成功能，在机器人应用（特别是任务规划）方面显示出了巨大的潜力。然而，在家庭机器人等应用中，这些模型根据个人用户偏好进行个性化仍然存在重大差距。我们推出了 LLM-Personalize，这是一种新颖的框架，具有优化流程，旨在个性化家用机器人的 LLM 规划人员。我们的 LLM-Personalize 框架具有 LLM 规划器，可利用根据局部观测构建的场景图，在多房间、部分可观察的家庭场景中执行迭代规划。生成的计划由一系列高级操作组成，这些操作随后由控制器执行。我们方法的核心是优化流程，它结合了模仿学习和迭代自我训练来个性化大语言模型规划者。特别是，模仿学习阶段根据演示执行初始 LLM 对齐，并引导模型以促进有效的迭代自我训练，从而进一步探索模型并将其与用户偏好对齐。我们对 Housekeep 上的 LLM-Personalize 进行了评估，这是一项具有挑战性的模拟现实世界 3D 家庭重新安排基准，结果表明，LLM-Personalize 的成功率比现有的 LLM 规划者提高了 30% 以上，显示出与人类偏好的一致性显着提高。项目页面：https://donggehan.github.io/projectllmpersonalize/。

一种用于爆炸装置检测的多机器人系统

分类： 机器人技术

作者： Ken Hasselmann, Mario Malizia, Rafael Caballero, Fabio Polisano, Shashank Govindaraj, Jakob Stigler, Oleksii Ilchenko, Milan Bajic, Geert De Cubber

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.14167v1

摘要： 为了清除世界上地雷和其他爆炸装置造成的威胁，机器人系统可以发挥重要作用。然而，开发这种需要在危险条件下运行的野外机器人，需要仔细考虑系统的感知、移动性和协作能力等多个方面。在欧洲挑战的框架内，爆炸装置检测人工智能-扩展（AIDEDeX）项目建议设计一种具有先进传感器融合算法的异构多机器人系统。该系统专门用于检测和分类简易爆炸装置、爆炸性弹药和地雷。该项目集成了电磁感应、探地雷达、X射线反向散射成像、拉曼光谱仪和多模态相机等专用传感器，以实现全面的威胁识别和定位。拟议的系统包括无人驾驶地面车辆和无人驾驶飞行器车队。本文详细介绍了 AIDEDeX 系统的操作阶段，从使用无人机进行快速地形探索，到配备机器人操纵器的无人驾驶地面车辆进行专门检测和分类。该项目最初专注于集中式方法，还将探索分散式控制架构的潜力，从群体机器人技术中汲取灵感，为爆炸物检测提供强大、适应性强且可扩展的解决方案。

腿式机器人自主森林清查：系统设计和现场部署

分类： 机器人技术

作者： Matías Mattamala, Nived Chebrolu, Benoit Casseau, Leonard Freißmuth, Jonas Frey, Turcan Tuna, Marco Hutter, Maurice Fallon

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.14157v1

摘要： 我们提出了一种带有腿式机器人平台的自主森林清查解决方案。与轮式和空中同类产品相比，腿式平台为森林应用提供了耐久性和低土壤影响之间有吸引力的平衡。在本文中，我们介绍了森林清查解决方案的完整系统架构，其中包括状态估计、导航、任务规划以及实时树木分割和性状估计。我们介绍了芬兰和英国三项森林活动的初步结果，并总结了主要成果、教训和挑战。我们在英国迪安森林进行的实验使用 ANYmal D 腿式平台，在 20 分钟内实现了对 0.96 公顷土地的自主调查，识别了 100 多棵树，典型胸径精度为 2 厘米。

使用社交机器人进行老年人护理的参与式设计方法

分类： 人机交互

作者： Barbara Sienkiewicz, Zuzanna Radosz-Knawa, Bipin Indurkhya

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.14134v1

摘要： 我们介绍了我们正在进行的关于应用参与式设计方法来使用社交机器人进行老年人护理的研究。我们的方法涉及四个不同的利益相关者群体：老年人、（非专业）护理人员、医疗专业人员和心理学家。我们专注于卡片分类和故事板技术，以引起利益相关者对部署社交机器人进行老年护理的担忧。接下来是半结构化访谈，以单独评估他们对社交机器人的态度。然后，我们与不同的老年人群体举办了两阶段的研讨会，以了解如何让他们接触这项技术并确定这项任务中的挑战。

RoboDreamer：学习机器人想象力的组合世界模型

分类： 机器人技术

作者： Siyuan Zhou, Yilun Du, Jiaben Chen, Yandong Li, Dit-Yan Yeung, Chuang Gan

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12377v1

摘要： 文本到视频模型在机器人决策方面展示了巨大的潜力，可以想象未来行动的现实计划以及准确的环境模拟。然而，此类模型的一个主要问题是泛化——模型仅限于根据类似于训练时看到的语言指令来合成视频。这在决策中受到严重限制，我们寻求一个强大的世界模型来综合未见过的对象和动作组合的计划，以便解决新环境中以前未见过的任务。为了解决这个问题，我们引入了 RoboDreamer，这是一种通过分解视频生成来学习组合世界模型的创新方法。我们利用语言的自然组合性将指令解析为一组较低级别的原语，我们将其作为一组模型的条件来生成视频。我们通过允许我们将新的自然语言指令制定为先前见过的组件的组合来说明这种因式分解如何自然地实现组合泛化。我们进一步展示了这种分解如何使我们能够添加额外的多模式目标，从而使我们能够在给定自然语言指令和目标图像的情况下指定我们希望生成的视频。我们的方法可以成功地合成 RT-X 中看不见的目标的视频计划，使机器人能够在模拟中成功执行，并且大大优于视频生成的整体基线方法。

ASID：机器人操作中系统识别的积极探索

分类： 机器人技术, 机器学习, 系统与控制, 系统与控制

作者： Marius Memmel, Andrew Wagenmaker, Chuning Zhu, Patrick Yin, Dieter Fox, Abhishek Gupta

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12308v1

摘要： 无模型控制策略（例如强化学习）已显示出学习控制策略的能力，而无需准确的模型或世界模拟器。虽然由于缺乏建模要求，这种方法很有吸引力，但这种方法可能样本效率低下，使得它们在许多现实世界领域中不切实际。另一方面，利用精确模拟器的基于模型的控制技术可以规避这些挑战，并使用大量廉价的模拟数据来学习可以有效转移到现实世界的控制器。这种基于模型的技术面临的挑战是需要极其精确的模拟，需要指定适当的模拟资产和物理参数。这需要大量的人力来针对所考虑的每种环境进行设计。在这项工作中，我们提出了一种学习系统，可以利用少量的现实世界数据来自主完善仿真模型，然后规划可以在现实世界中部署的精确控制策略。我们的方法主要依赖于利用初始（可能不准确）模拟器来设计有效的勘探策略，当部署在现实世界中时，可以收集高质量的数据。我们证明了这种范例在识别几个具有挑战性的机器人操作任务中的关节、质量和其他物理参数方面的功效，并说明只有少量的现实世界数据才能实现有效的模拟到真实的转换。项目网站：https://weirdlabuw.github.io/asid

RISE：3D 感知让现实世界的机器人模仿变得简单有效

分类： 机器人技术

作者： Chenxi Wang, Hongjie Fang, Hao-Shu Fang, Cewu Lu

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12281v1

摘要： 精确的机器人操作需要模仿学习中丰富的空间信息。基于图像的策略对来自固定摄像机的对象位置进行建模，这对摄像机视图的变化很敏感。利用 3D 点云的策略通常预测关键帧而不是连续动作，这在动态和接触丰富的场景中造成了困难。为了有效地利用 3D 感知，我们提出了 RISE，这是现实世界模仿学习的端到端基线，它直接从单视点云预测连续动作。它使用稀疏 3D 编码器将点云压缩为标记。添加稀疏位置编码后，使用转换器对令牌进行特征化。最后，这些特征被扩散头解码为机器人动作。经过针对每个现实世界任务 50 个演示的训练，RISE 大幅超越了当前具有代表性的 2D 和 3D 策略，在准确性和效率方面展现了显着优势。实验还表明，与之前的基线相比，RISE 对环境变化更通用、更稳健。项目网站：rise-policy.github.io。

四足机器人电缆拖车系统的混合动力学建模和轨迹规划

分类： 机器人技术

作者： Wentao Zhang, Shaohang Xu, Gewei Zuo, Lijun Zhu

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12220v1

摘要： 受到利用狗拉雪橇进行运输的启发，我们推出了带有四足机器人的电缆拖车系统。所提出的机器人系统的运动规划提出了拖车的非完整约束、系统欠驱动和通过电缆的混合交互所带来的挑战。为了应对这些挑战，我们开发了一种混合动力学模型，可以解释电缆的拉紧/松弛状态。由于直接优化轨迹的计算量很大，因此我们首先提出一种搜索算法来计算次优轨迹作为初始解决方案。然后，提出了一种基于物体几何形状的新型防撞约束来制定混合系统的轨迹优化问题。所提出的轨迹规划方法在带有定制电缆拖车的 Unitree A1 四足机器人上实现，并通过实验进行验证。

使用协作空中机器人在室内和室外 3D 环境中进行自动实时检查

分类： 机器人技术, 系统与控制, 系统与控制

作者： Andreas Anastasiou, Angelos Zacharia, Savvas Papaioannou, Panayiotis Kolios, Christos G. Panayiotou, Marios M. Polycarpou

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12018v1

摘要： 这项工作介绍了一种协作检查系统，旨在有效控制和协调分布式异构无人机代理团队，以在杂乱、未知的空间中检查 3D 结构。我们提出的方法采用两阶段创新方法。最初，它利用机器人的互补传感能力来协作绘制未知环境的地图。然后，它生成优化的、无碰撞的检查路径，从而确保结构表面区域的全面覆盖。我们系统的有效性通过基于 Gazebo 的广泛模拟的定性和定量结果得到证明，这些模拟紧密地复制了现实世界的检查场景，突出了其彻底检查类似现实世界的 3D 结构的能力。

CelluloTactix：通过与 Cellulo 机器人的有形触觉交互增强协作在线学习

分类： 人机交互, 机器人技术

作者： Hasaru Kariyawasam, Wafa Johal

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.11876v1

摘要： 在线学习在新冠肺炎 (COVID-19) 的教育领域中越来越受欢迎，并具有灵活性增强和远程培训资源获取的优势。然而，它也限制了同学和老师之间的交流，限制了身体互动，并将学习限制在电脑屏幕和键盘上。在这个项目中，我们设计了一种新颖的方式，通过使用支持触觉的有形机器人 Cellulo 来让学生参与在线协作学习。我们建立了一个库，可以远程连接两个机器人，以进行基于生物细胞结构的学习活动。为了发现不同的触觉反馈模式如何对协作产生不同的影响，实施了两种触觉力反馈模式（触觉共置和触觉共识）。通过案例研究，我们发现触觉共置模式似乎比触觉共识模式更能刺激集体主义行为，后者与个人主义和互动较少有关。虽然触觉共置模式似乎鼓励信息共享，但使用触觉共识模式的参与者往往更关注技术协调。这项工作介绍了一种新颖的系统，可以为如何将触觉反馈集成到未来的协作远程学习活动中提供有趣的见解。

不可行任务多物体运输的多机器人任务分配的强化学习

分类： 机器人技术

作者： Yuma Shida, Tomohiko Jimbo, Tadashi Odashima, Takamitsu Matsubara

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.11817v1

摘要： 使用多机器人系统的多物体运输由于其高效的个体和可扩展的协作运输而具有多种实际应用的潜力，例如送货服务。然而，分配未知重量物体的运输任务仍然具有挑战性。此外，不可行的任务（不可运输的物体）的存在可能会导致机器人停止（死锁）。本文提出了一种动态任务分配框架，其中涉及以可扩展的方式根据机器人数量存储每个任务的任务经验。首先，这些体验从云端服务器广播到整个机器人系统。随后，每个机器人根据这些任务经验学习每个任务的排除级别，使其能够排除不可行的任务并重置其任务优先级。最终实现个体运输、合作运输、暂时排除认为不可行的任务。通过对越来越多的机器人和物体（包括未学习的重量物体）进行数值实验，证实了所提出方法的可扩展性和多功能性。通过在一个情节中引入额外的机器人也证实了临时避免僵局的有效性。所提出的方法使得能够实施对于不同数量的机器人和各种运输任务可行的任务分配策略，而无需事先考虑可行性。

四足机器人的时空运动重定向

分类： 机器人技术

作者： Taerim Yoon, Dongho Kang, Seungmin Kim, Minsung Ahn, Stelian Coros, Sungjoon Choi

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11557v1

摘要： 这项工作介绍了一种用于腿式机器人的运动重定向方法，旨在创建模仿动物精细行为的运动控制器。我们的方法，即时空运动重定向（STMR），通过将运动从源转移到目标来指导模仿学习过程，通过确保在目标系统上模仿的可行性来有效地弥合形态差异。我们的 STMR 方法包括两个部分：空间运动重定向（SMR）和时间运动重定向（TMR）。一方面，SMR 通过从关键点轨迹生成运动学上可行的全身运动来解决运动学层面的运动重定向问题。另一方面，TMR 旨在通过优化时域中的运动来重新定位动态级别的运动。我们通过一系列模拟和硬件实验展示了我们的方法在促进复杂动物运动的模仿学习（IL）方面的有效性。在这些实验中，我们的 STMR 方法成功地定制了来自各种媒体的复杂动物运动，包括手持式摄像机捕获的视频，以适应目标机器人的形态和物理特性。这使得强化学习策略训练能够实现精确的运动跟踪，而基线方法则难以应对涉及飞行阶段的高度动态运动。此外，我们验证了控制策略可以在现实环境中成功模拟两个具有不同尺寸和物理属性的四足机器人的六种不同运动。

基于 ROS 的机器人系统的运行时验证和现场测试

分类： 软件工程, 机器人技术

作者： Ricardo Caldas, Juan Antonio Piñera García, Matei Schiopu, Patrizio Pelliccione, Genaína Rodrigues, Thorsten Berger

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11498v1

摘要： 机器人系统正在变得越来越普遍，并被越来越多的领域所采用，例如制造、医疗保健和太空探索。为此，工程软件已成为构建可维护和可重复使用的机器人系统的重要学科。机器人软件工程研究受到越来越多的关注，将培养自主性作为基本目标。然而，由于仿真无法提供真实模拟现实世界现象的解决方案，机器人开发人员在实现这一目标方面仍然面临挑战。机器人还需要在不可预测和不可控的环境中运行，这需要在软件中实现安全可信的自适应能力。应对挑战的典型技术是运行时验证、现场测试和支持故障安全解决方案的缓解技术。然而，对于构建基于 ROS 的系统以启用和促进运行时验证和基于现场的测试，目前还没有明确的指导。本文旨在通过提供指南来填补这一空白，这些指南可以帮助开发人员和质量保证团队在现场开发、验证或测试机器人。这些指南经过精心定制，旨在解决现实场景中测试机器人系统的挑战和要求。我们对机器人系统运行时验证和现场测试的研究进行了文献综述，挖掘了基于 ROS 的应用程序存储库，并通过两份包含 55 个答案的调查问卷验证了适用性、清晰度和有用性。我们为机器人软件工程的研究人员和从业者提供了 20 条指南。最后，我们针对迄今为止在基于 ROS 的系统的运行时验证和现场测试方面面临的挑战制定了指导方针，并概述了该领域有前景的研究方向。

使用两个机电耦合机器人进行铣削

分类： 机器人技术

作者： Max Goebels, Jan Baumgärtner, Tobias Fuchs, Edgar Mühlbeier, Alexander Puchta, Jürgen Fleischer

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11271v1

摘要： 工业机器人因其灵活性而被广泛应用于各个行业。然而，由于串联运动链的动态刚度特性较低，它们在加工任务中的采用很少。为了克服这个问题，我们建议在法兰处耦合两个工业机器人以形成并联运动加工系统。尽管并联运动链本质上更硬，但所提出的系统的一个可能的缺点是它严重过度致动。我们进行模态分析以表明这可能是一个优势，因为冗余自由度可用于通过向耦合模块施加张力来改变固有频率。为了证明我们方法的有效性，我们使用耦合系统进行了铣削实验。外部测量系统用于显示拉紧耦合模块会导致系统变形。我们进一步表明，这种变形在刀具路径上是静态的，并且可以进行补偿。

使用大型语言模型实现机器人任务规划中的人类意识

分类： 机器人技术

作者： Yuchen Liu, Luigi Palmieri, Sebastian Koch, Ilche Georgievski, Marco Aiello

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11267v1

摘要： 大型语言模型（LLM）研究的最新突破引发了多个研究领域的转变。值得注意的是，大语言模型的集成极大地提高了机器人任务和运动规划（TAMP）的性能。然而，以前的方法经常忽略对动态环境的考虑，即动态物体（例如人类）的存在。在本文中，我们提出了一种新方法，通过将人类意识纳入基于大语言模型的机器人任务规划来解决这一差距。为了获得动态环境的有效表示，我们的方法将人类信息集成到分层场景图中。为了确保计划的可执行性，我们利用大语言模型将环境拓扑和可操作的知识转化为正式的规划语言。最重要的是，我们使用大语言模型来预测未来的人类活动，并根据预测来规划机器人的任务。我们的贡献促进了将人类意识整合到大语言模型驱动的机器人任务规划中的发展，并为动态环境中主动机器人决策铺平了道路。

“这就是我们的游戏！” ：对与神经多样性儿童共同设计机器人游戏的思考

分类： 人机交互

作者： Patricia Piedade, Isabel Neto, Ana Pires, Rui Prada, Hugo Nicolau

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11252v1

摘要： 许多神经分歧（ND）儿童与神经典型（NT）同龄人一起融入主流学校。然而，他们经常面临社会排斥，这可能会产生终生影响。包容性的游戏活动可以成为包容性的强大驱动力。不幸的是，针对神经多样化群体（包括神经多样化和神经典型个体）的特定需求而设计的游戏很少。考虑到机器人作为引人入胜的设备的潜力，我们领导了为期 6 个月的共同设计过程，为神经多样化的教室构建了一个包容性和娱乐性的机器人游戏。我们首先采访了神经分歧的成年人和教育工作者，以确定将神经分歧的儿童纳入主流课堂的障碍和促进因素。然后，我们进行了五次联合设计会议，让四个神经多样化的教室有 81 名儿童（其中 19 名是神经多样化的）。我们通过自我决定理论的视角反思了我们的协同设计过程和由此产生的机器人游戏，讨论了我们的方法如何支持神经分歧儿童的内在动机。

用于个性化微创手术的并联机器人的准确性和可重复性

分类： 机器人技术

作者： Doina Pisla, Paul Tucan, Damien Chablat, Nadim Al Hajjar, Andra Ciocan, Adrian Pisla, Alexandru Pusca, Corina Radu, Grigore Pop, Bogdan Gherman

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11140v1

摘要： 本文介绍了用于外科手术应用开发的并联机器人实验模型的准确性和可重复性测量的方法。实验装置使用运动跟踪系统（为了准确性）和高精度位置测量臂（为了重复性）。通过将实验测量的轨迹数据与并联机器人系统的运动学模型定义的基线轨迹进行比较来获得准确性。通过在预定义点（重复）移动机器人平台来实验确定重复性。

通过可供性提示增强机器人操作的大型语言模型

分类： 人工智能

作者： Guangran Cheng, Chuheng Zhang, Wenzhe Cai, Li Zhao, Changyin Sun, Jiang Bian

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11027v1

摘要： 虽然大型语言模型 (LLM) 成功地完成了各种语言处理任务，但它们很容易无法通过正确生成控制序列来与物理世界交互。我们发现主要原因是大语言模型没有扎根于现实世界。现有的基于大语言模型的方法通过依赖额外的预定义技能或预先训练的子策略来规避这个问题，使其难以适应新任务。相比之下，我们的目标是解决这个问题，并探索促使预先训练的大语言模型在免训练范例中完成一系列机器人操作任务的可能性。因此，我们提出了一个名为 LLM+A(ffordance) 的框架，其中 LLM 既充当子任务规划器（生成高级计划）又充当运动控制器（生成低级控制序列）。为了将这些计划和控制序列建立在物理世界上，我们开发了可供性提示技术，该技术可以刺激大语言模型 1）预测生成计划的后果，2）为相关对象生成可供性值。根据经验，我们评估了 LLM+A 在各种语言条件机器人操作任务中的有效性，这表明我们的方法通过增强生成的计划和控制的可行性来显着提高性能，并且可以轻松推广到不同的环境。

OVAL-Prompt：通过大语言模型可供性接地实现机器人操作的开放词汇可供性本地化

分类： 机器人技术

作者： Edmond Tong, Anthony Opipari, Stanley Lewis, Zhen Zeng, Odest Chadwicke Jenkins

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11000v1

摘要： 为了使机器人能够有效地与物体交互，它们必须了解所遇到的每个物体的形式和功能。从本质上讲，机器人需要了解每个对象提供哪些操作，以及可以在哪里执行这些操作。机器人最终预计将在非结构化的人类环境中运行，其中机器人在部署之前不知道一组对象和可供性（即开放词汇设置）。在这项工作中，我们介绍了 OVAL-Prompt，这是一种基于提示的方法，用于 RGB-D 图像中开放词汇可供性本地化。通过利用视觉语言模型 (VLM) 进行开放词汇对象部分分割，并利用大型语言模型 (LLM) 来为每个部分片段功能提供基础，OVAL-Prompt 展示了对新对象实例、类别和功能可见性的通用性，而无需域-具体微调。定量实验表明，无需任何微调，OVAL-Prompt 即可实现与监督基线模型相媲美的定位精度。此外，定性实验表明，OVAL-Prompt 能够实现基于可供性的机器人操作开放词汇对象实例和类别。

受直肠功能启发的机器学习增强型软机器人系统，用于研究大便失禁

分类： 机器人技术

作者： Zebing Mao, Sota Suzuki, Hiroyuki Nabae, Shoko Miyagawa, Koichi Suzumori, Shingo Maeda

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.10999v1

摘要： 由多种致病机制引起的大便失禁已引起全球的广泛关注。尽管具有重要意义，但由于社会耻辱和禁忌，用于研究大便失禁机制的排便系统的复制仍然受到限制。受直肠功能的启发，我们开发了一种软机器人系统，包括电源、压力传感、数据采集系统、冲洗机构、平台和直肠模块。创新的软直肠模块包括受括约肌启发的执行器、软质和刚性覆盖物以及软直肠模具。直肠模具由非常模仿人类直肠组织的材料制成，采用模具复制制造方法生产。模具的软质和硬质部件都是通过3D打印技术的应用实现的。基于多层感知器方法对具有双层袋结构的括约肌启发执行器进行建模和优化，旨在获得高收缩率（100%）、高产生压力（9.8 kPa）和短恢复时间（3 s）。组装后，该排便机器人能够顺利排出液体粪便、进行受控固体粪便切割、排便极固体长粪便，从而紧密复制了人类直肠和肛管的功能。这种排便机器人有潜力帮助人类理解复杂的排便系统，并为与排便相关的健康设备的开发做出贡献。

使用配备滚轮臂的四足机器人对蒸馏塔进行安全关键的自主检查

分类： 机器人技术

作者： Jaemin Lee, Jeeseop Kim, Aaron D. Ames

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10938v1

摘要： 本文提出了一个专为复杂环境的自主检查而设计的综合框架，特别关注蒸馏塔塔盘等多层设置。利用配备滚轮臂的四足机器人，并通过使用机载感知，我们集成了基本的运动组件，包括：运动、托盘之间的安全和动态过渡以及桥接各种运动基元的中间运动。考虑到塔盘的光滑和受限性质，确保机器人在检查过程中的安全至关重要，因此我们采用安全过滤器和基于环境的控制屏障功能表示的脚步重新规划。我们的框架将所有系统组件集成到一个状态机中，对已开发的安全关键规划和控制元素进行编码，以保证安全关键自主性，从而实现蒸馏塔的自主安全导航和检查。在由工业级化学蒸馏托盘组成的环境中进行的实验验证凸显了我们多层架构的有效性。

SPONGE：模块化铰接式软机器人的开源设计

分类： 机器人技术

作者： Tim-Lukas Habich, Jonas Haack, Mehdi Belhadj, Dustin Lehmann, Thomas Seel, Moritz Schappler

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10734v1

摘要： 软机器人设计多种多样，但只有少数是公开的。通常，这些仅在其出版物中进行简要描述。这使得再现变得复杂，并阻碍了研究结果的再现性和可比性。如果设计是统一且开源的，则可以在真实的基准系统上验证研究方法。为了解决这个问题，我们提出了两种带有对抗性波纹管的开源软气动机器人变体。从具有多个电缆和管道穿过机器人主体的半模块化设计开始，到具有集成微型阀和串行通信的完全模块化机器人的过渡是重点。实现了可堆叠性、驱动和通信方面的模块化，这是构建具有多自由度和高灵活性的软机器人以完成实际任务的关键要求。比较了这两种系统各自的优缺点。机器人的功能在气密性、重力影响、平均跟踪误差<3度的位置控制以及铸造和印刷波纹管的长期运行等实验中得到了证明。提供了复制所需的所有软件和硬件文件。

SCALE：通过反新颖性估计进行移动机器人的自校正视觉导航

分类： 机器人技术

作者： Chang Chen, Yuecheng Liu, Yuzheng Zhuang, Sitong Mao, Kaiwen Xue, Shunbo Zhou

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10675v1

摘要： 尽管视觉导航已经使用深度强化学习进行了广泛的研究，但现实世界机器人的在线学习仍然是一项具有挑战性的任务。最近的工作直接从离线数据集中学习，以在现实世界的任务中实现更广泛的泛化，然而，这面临着分布外（OOD）问题和给定地图中潜在的机器人定位失败的问题。这大大降低了成功率，甚至引发碰撞。在本文中，我们提出了一种自校正视觉导航方法 SCALE，它可以在无需人工干预的情况下自主防止机器人出现 OOD 情况。具体来说，我们开发了一种基于隐式 Q 学习（IQL）的图像目标条件离线强化学习方法。当面对 OOD 观察时，我们新颖的定位恢复方法通过学习导航可供性来生成潜在的未来轨迹，并通过随机网络蒸馏（RND）估计未来的新颖性。定制的成本函数会搜索最不新颖的候选者，从而引导机器人到达熟悉的地方。我们收集离线数据并在三个现实城市场景中进行评估实验。实验结果表明，SCALE 优于以前最先进的开放世界导航方法，具有独特的定位恢复能力，显着减少了人工干预的需要。代码可在 https://github.com/KubeEdge4Robotics/ScaleNav 获取。

通过与社交机器人在线互动进行儿童幸福感评估的纵向研究

分类： 人机交互, 机器人技术

作者： Nida Itrat Abbasi, Guy Laban, Tasmin Ford, Peter B. Jones, Hatice Gunes

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10593v1

摘要： 社交辅助机器人在不同的儿童机器人交互环境中进行研究。然而，后勤方面的限制限制了可及性，特别是影响了对心理健康的及时支持。在这项工作中，我们研究了与机器人的在线互动是否可以用于评估儿童的心理健康。这些孩子（N=40，其中 20 名女孩和 20 名男孩；8-13 岁）与 Nao 机器人进行了三轮互动（30-45 分钟），间隔至少一周。在整个课程中收集了视听记录，最后孩子们回答了有关他们对机器人的焦虑和机器人能力的用户感知调查问卷。我们根据参与者对短期情绪和情感问卷 (SMFQ) 的回答，将他们分为三个幸福感集群（低、中和高三分位数），并进一步分析了他们的幸福感和对机器人的看法在幸福感三分位数、会话和时间之间的变化。跨越参与者的性别。我们的主要研究结果表明，（I）与机器人的在线介导互动可以有效地评估儿童随着时间的推移的心理健康状况，以及（II）儿童对机器人的整体感知随着时间的推移而改善或保持一致。补充探索性分析还显示，性别影响了孩子们的幸福感评估以及他们对机器人的看法。

MPCOM：利用无线电测绘和模型预测通信进行机器人数据收集

分类： 机器人技术

作者： Zhiyou Ji, Guoliang Li, Ruihua Han, Shuai Wang, Bing Bai, Wei Xu, Kejiang Ye, Chengzhong Xu

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10541v1

摘要： 机器人数据收集 (RDG) 是一种新兴范例，可引导机器人从远程传感器收集数据。然而，该范式中的运动规划需要最大化 RDG 效率而不是导航效率，为此现有的运动规划方法变得低效，因为它们仅根据运动因子来规划机器人轨迹。本文提出了无线电地图引导模型预测通信（MPCOM），它使用网格和无线电地图来导航机器人，以在动态环境中实现形状感知碰撞避免和通信感知轨迹生成。拟议的 MPCOM 能够权衡实现目标、避免碰撞和改善沟通所花费的时间。 MPCOM 使用无线电地图捕获高阶信号传播特性，并将地图引导的通信正则器合并到运动规划模块中。 IRSIM 和 CARLA 模拟器中的实验表明，所提出的 MPCOM 在 LOS 和 NLOS 情况下均优于其他基准。还提供基于类车机器人的实际测试，以证明 MPCOM 在室内环境中的有效性。

从形而上学、伦理学和法律上揭穿机器人权利

分类： 计算机与社会

作者： Abeba Birhane, Jelle van Dijk, Frank Pasquale

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.10072v1

摘要： 在这项工作中，我们从形而上学、伦理和法律的角度挑战机器人权利的论点。从形而上学的角度来看，我们认为机器不是那种可以被拒绝或授予权利的事物。建立在现象学理论和后笛卡尔认知科学方法的基础上，我们将我们的立场立足于人类在日益普遍连接、控制、数字化和监视的社会中的生活现实。从伦理上讲，我们认为，鉴于机器对社会中最边缘化的群体当前和潜在的危害，对机器的限制（而不是机器的权利）应该成为当前人工智能伦理辩论的中心。从法律角度来看，与机器人权利最好的类比不是人权，而是企业权利，这是一个备受争议的概念，其最重要的影响是通过推进资本的力量对企业施加巨大的影响力来破坏工人、消费者和选民的权利。政治和法律。我们的结论是，机器人权利的想法就像一个烟幕弹，让理论家和未来学家幻想出仁慈、有知觉、具有不可改变的需求和受法律保护的愿望的机器。虽然这些幻想激发了引人入胜的小说和艺术，但一旦它们影响了阐明权利要求范围的法律理论和实践，它们就有可能使当前的人工智能和机器人免于法律责任，而这些技术正在助长监视资本主义，加速环境破坏，并加剧不公正和不公平现象。人类的苦难。

使用多组环面包装进行机器人定位

分类： 离散数学, G.2.1

作者： Chung Shue Chen, Peter Keevash, Sean Kennedy, Élie de Panafieu, Adrian Vetta

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09981v1

摘要： 我们考虑设计一个定位系统，机器人根据局部观察确定其位置。这是一个经过充分研究的问题，具有相当大的实际重要性和数学兴趣。主导范式源自 de Bruijn 序列的经典理论，其中机器人可以访问较大代码中的窗口，并且如果这些窗口不同，则可以确定其位置。我们提出了一种替代模型，其中机器人的观察能力更有限，我们认为这在工程方面更现实：机器人无法访问窗口中的完整颜色（或字母）图案，而只能访问窗口中的颜色（或字母）。每种颜色的强度（或每个字母出现的次数）。这导致了一个数学上有趣的问题，其风格与经典范式中出现的问题不同，需要新的构造技术。我们构造的参数在常数因子范围内是最佳的，并且计算位置仅需要常数数量的算术运算。

使用强化学习的肋间机器人超声成像自主路径规划

分类： 机器人技术, 机器学习

作者： Yuan Bi, Cheng Qian, Zhicheng Zhang, Nassir Navab, Zhongliang Jiang

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09927v1

摘要： 超声（美国）已广泛应用于日常临床实践中，用于筛查内脏器官和指导干预措施。然而，由于皮下肋骨投射的声影，胸部应用的超声检查仍然具有挑战性。为了完全覆盖和重建超声中的感兴趣区域以进行诊断，需要肋间扫描路径。为了应对这一挑战，我们提出了一种强化学习（RL）方法，用于规划肋骨之间的扫描路径，以监测被肋骨覆盖的内脏器官（例如肝脏和心脏）病变的变化。人体骨骼的结构化解剖信息对于规划这些肋间路径至关重要。为了获得这种解剖学洞察力，强化学习代理在使用计算断层扫描 (CT) 模板构建的虚拟环境中进行训练，其中随机初始化了各种形状和位置的肿瘤。此外，还引入了特定于任务的状态表示和奖励函数，以确保训练过程的收敛，同时最大限度地减少扫描过程中声衰减和阴影的影响。为了验证所提出方法的有效性，在具有随机定义的单个或多个扫描目标的看不见的 CT 上进行了实验。结果证明了所提出的 RL 框架在声学访问受限的区域中规划非阴影 US 扫描轨迹的效率。

最后一英里送货机器人的面部特征集成

分类： 机器人技术

作者： Delgermaa Gankhuyag, Stephanie Groiß, Lena Schwamberger, Özge Talay, Cristina Olaverri-Monreal

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09844v1

摘要： 送货服务经历了技术进步，现在机器人可以直接将包裹递送给收件人。虽然这些机器人是为高效功能而设计的，但它们并不是专门为与人类互动而设计的。这项研究以将类人特征融入机器人有可能对技术接受度产生积极影响的前提为前提，探讨了人类对具有面部表情特征的机器人的反应。研究结果表明拟人化特征与观察到的反应之间存在相关性。

通过视觉语言模型增强机器人解释能力：通过解释视觉输入以改善人机交互的初步研究

分类： 机器人技术

作者： David Sobrín-Hidalgo, Miguel Ángel González-Santamarta, Ángel Manuel Guerrero-Higueras, Francisco Javier Rodríguez-Lera, Vicente Matellán-Olivera

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09705v1

摘要： 本文提出了一种基于我们之前工作的改进系统，旨在为人机交互（HRI）期间的自主机器人动作提供解释。之前，我们开发了一个使用大型语言模型 (LLM) 来解释日志并生成自然语言解释的系统。在这项研究中，我们通过合并视觉语言模型（VLM）来扩展我们的方法，使系统能够通过添加视觉输入的上下文来分析文本日志。这种方法可以生成结合机器人日志数据和它捕获的图像的解释。我们在基本导航任务中测试了这个增强型系统，其中机器人需要避开人类障碍物。这项初步研究的结果表明，添加视觉解释可以通过精确识别障碍并提高所提供解释的准确性来改进我们的系统的解释。

约束全轮转向机器人的通用轨迹规划方法

分类： 机器人技术

作者： Ren Xin, Hongji Liu, Yingbing Chen, Sheng Wang, Ming Liu

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09677v1

摘要： 本文提出了一种具有固定转向轴且每个轮的转向角受到约束的轮式机器人的轨迹规划方法。过去，全轮转向（AWS）机器人采用了无旋转平移机动、原地旋转机动和比例转向等模式，由于模式切换耗时，表现出低效性能。这种低效率是由车轮旋转限制和轮间协作要求引起的。直接应用完整的移动策略可能会导致显着的滑移角甚至结构故障。此外，AWS 轮式机器人有限的转向范围加剧了非线性问题，从而使控制过程变得复杂。为了应对这些挑战，我们开发了一种称为约束AWS（C-AWS）的新颖规划方法，它将二阶离散搜索与预测控制技术集成在一起。实验结果表明，我们的方法能够熟练地为 C-AWS 生成可行且平滑的轨迹，同时遵守转向角约束。

用于可延展机器人的具有柔性脊柱的刚度可调节肢体段

分类： 机器人技术

作者： Angus B. Clark, Nicolas Rojas

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09653v1

摘要： 由刚度可调、连续弯曲的节段与旋转关节串联而成的机械臂能够改变其机械架构和工作空间，从而具有高度的灵活性和适应少于六个自由度的不同任务，我们称之为可延展的概念机器人。已知的加固机构可用于为这些新颖的机器人操纵器实现合适的连杆；然而，这些解决方案在由于结构变形而弯曲时通常表现出性能下降。通过包括内部支撑结构，可以最大限度地减少这种变形，从而提高刚度性能。本文提出了一种新型多材料脊柱柔性结构，为基于刚度可控层干扰的大直径机器人连杆提供支撑。所提出的脊柱机构具有高度可移动性，其运动类型和范围与仅使用层干扰的机器人连杆相匹配，同时保持中空且轻的结构。探索了柔性脊柱的力学和设计，并开发了利用它的连杆原型，并将其与基于无支撑结构的颗粒干扰和层干扰的肢体段进行了比较。实验结果验证了所提出设计的优点，表明它在整个弯曲角度上保持恒定的中心直径，并且在 180 度时抵抗力提高了 203% 以上。

辅助机器人中的对象实例检索：利用基于 3D 语义图的多视图图像进行微调的 SimSiam

分类： 机器人技术

作者： Taichi Sakaguchi, Akira Taniguchi, Yoshinobu Hagiwara, Lotfi El Hafi, Shoichi Hasegawa, Tadahiro Taniguchi

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09647v1

摘要： 协助日常生活的机器人需要在环境中定位与用户所需对象相匹配的特定对象实例。此任务称为特定于实例的图像目标导航 (InstanceImageNav)，它需要一个能够区分同一类中的不同实例的模型。机器人技术的一个重大挑战是，当机器人从不同的 3D 视角观察同一物体时，其外观可能会有很大差异，从而难以准确识别和定位该物体。在本研究中，我们介绍了一种方法 SimView，该方法利用基于环境 3D 语义图的多视图图像和 SimSiam 的自监督学习来现场训练实例识别模型。我们的方法的有效性通过真实感模拟器 Habitat Matterport 3D 进行了验证，该模拟器是通过扫描真实的家庭环境创建的。我们的结果表明，与 CLIP（用于对象搜索的预训练多模态对比学习）相比，任务准确性提高了 1.7 倍。这一改进凸显了我们提出的微调方法在增强辅助机器人在 InstanceImageNav 任务中的性能方面的优势。项目网站为https://emergentsystemlabstudent.github.io/MultiViewRetrieve/。

服务机器人的真实实例特定图像目标导航：通过对比学习弥合领域差距

分类： 机器人技术, 计算和语言, 计算机视觉和模式识别

作者： Taichi Sakaguchi, Akira Taniguchi, Yoshinobu Hagiwara, Lotfi El Hafi, Shoichi Hasegawa, Tadahiro Taniguchi

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09645v1

摘要： 改进特定于实例的图像目标导航（InstanceImageNav），它可以从查询图像中定位现实环境中的相同对象，对于机器人系统帮助用户找到所需对象至关重要。挑战在于移动机器人观察到的低质量图像（以运动模糊和低分辨率为特征）与用户提供的高质量查询图像之间的域差距。这种领域差距可能会显着降低任务成功率，但并不是以前工作的重点。为了解决这个问题，我们提出了一种称为少样本跨质量实例感知适应（CrossIA）的新方法，该方法采用实例分类器的对比学习来对齐大量低质量图像和少量高质量图像之间的特征。这种方法通过在实例基础上使跨质量图像的潜在表示更加接近，有效地减少了域间隙。此外，该系统还将对象图像集合与预先训练的去模糊模型集成在一起，以提高观察到的图像质量。我们的方法使用 CrossIA 对在 ImageNet 上预训练的 SimSiam 模型进行微调。我们通过具有 20 个不同类型实例的 InstanceImageNav 任务评估了我们方法的有效性，其中机器人将现实环境中的相同实例识别为高质量查询图像。我们的实验表明，与基线（基于 SuperGlue 的传统方法）相比，我们的方法将任务成功率提高了三倍。这些发现凸显了利用对比学习和图像增强技术来弥合领域差距并改进机器人应用中的对象定位的潜力。项目网站为https://emergentsystemlabstudent.github.io/DomainBridgingNav/。

受折纸启发的可变摩擦表面，可提高机器人夹具的灵活性

分类： 机器人技术

作者： Qiujie Lu, Angus B. Clark, Matthew Shen, Nicolas Rojas

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09644v1

摘要： 虽然机器人抓手的抓取能力已显示出显着的发展，但操纵手中物体的能力仍然有限。对此限制的一种解释是所抓取的物体和夹具之间缺乏受控的接触变化。例如，人手能够牢牢地抓住物体表面，并在物体表面上滑动，这一方面有助于增强对手中物体的操纵，而不会失去接触。在这封信中，我们提出了一种受折纸启发的参数化薄表面，能够在高摩擦和低摩擦状态之间转换，适合用作机器人手指中的表皮。基于其设计参数、力分析和手动操作任务的性能，对所提出的表面进行了数值分析。通过利用所提出的具有不同参数的可变摩擦表面开发简单的两指二自由度夹具，我们通过实验证明了与没有可变摩擦力的相同夹具相比，手部的操纵能力得到了改善。结果表明，图案密度和谷距是影响手控性能的主要参数。受折纸启发的薄表面具有更高的图案密度，产生更小的谷间隙和更小的高度变化，从而更稳定地提高手的操控能力。

通过协作机械臂在线组织粘弹性表征实现癌症检测的机器人触诊

分类： 机器人技术

作者： Luca Beber, Edoardo Lamon, Giacomo Moretti, Daniele Fontanelli, Matteo Saveriano, Luigi Palopoli

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09542v1

摘要： 本文介绍了一种使用协作机械臂估计末端执行器穿透力和软体参数的新方法。使用简化 Hunt-Crossley 模型的降维方法可以实现这一点。由于机械臂控制器的信息，无需力传感器即可找到参数。为了实现在线估计，采用了嵌入接触动态模型的扩展卡尔曼滤波器。该算法使用各种类型的硅胶进行了测试，包括带有硬侵入物的样品，以模拟软组织内的癌细胞。结果表明，该技术可以准确地确定参数并估计末端执行器对软体的穿透力。这些有希望的初步结果证明了机器人作为早期癌症诊断的有效工具的潜力。

用于差动驱动机器人的具有控制屏障功能的线性 MPC

分类： 机器人技术, 系统与控制, 系统与控制

作者： Ali Mohamed Ali, Chao Shen, Hashim A. Hashim

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.10018v1

摘要： 过去十年，对完全自主移动机器人的需求激增，确保动态环境中安全导航的必要性成为阻碍该领域进步的主要挑战。在本文中，提出了一种基于动态反馈线性化的安全关键模型预测控制，适合两轮差动驱动机器人的应用，以生成导致无障碍路径的控制信号。屏障函数向模型预测控制 (MPC) 的优化问题引入安全约束，以防止碰撞。由于差动驱动机器人固有的非线性，实现非线性模型预测控制（NMPC）时会出现计算复杂性。为了促进优化问题的实时实现并适应机器人的欠驱动特性，提出了线性模型预测控制（LMPC）和动态反馈线性化（DFL）的组合。 MPC 问题是在 DFL 控制器呈现的差动驱动机器人的线性等效模型上制定的。讨论了所提出的控制设计的闭环稳定性和递归可行性的分析。数值实验说明了所提出的控制综合在避开障碍物方面相对于使用欧几里德距离约束的基准的鲁棒性和有效性。关键词：模型预测控制、MPC、自主地面车辆、非线性、动态反馈线性化、最优控制、差动机器人。

BEATLE - 自重构空中机器人：设计、控制和实验验证

分类： 机器人技术

作者： Junichiro Sugihara, Moju Zhao, Takuzumi Nishio, Kei Okada, Masayuki Inaba

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09153v2

摘要： 模块化自重构机器人（MSRR）通过构建适合每项任务的各种结构来增强任务灵活性。然而，配备轮子的传统地面 MSRR 面临着严峻的挑战，包括由于施加到每个模块的扳手负载增加而导致可建造结构的尺寸和系统稳健性的限制。在这项工作中，我们引入了一种名为 BEATLE 的空中 MSRR (A-MSRR) 系统，能够在飞行中合并和分离。 BEATLE 无需对相邻模块施加扳手负载即可合并，从而扩展了传统地面 MSRR 的可扩展性和稳健性。在本文中，我们提出了 BEATLE 的系统配置，包括机械设计、多连接飞行的控制框架以及用于重新配置运动的运动规划器。对接机构和外壳结构的设计旨在平衡构造结构的耐用性和易于分离。此外，所提出的飞行控制框架实现了基于接触扳手控制的稳定多连接飞行。此外，所提出的基于有限状态机（FSM）的运动规划器实现了精确且鲁棒的重构运动。我们还介绍了原型的实际实现，并通过实验和仿真研究验证了所提出的系统设计的鲁棒性和可扩展性。

球形伸缩线性驱动旋转机器人动力学

分类： 机器人技术

作者： Jasper Zevering, Dorit Borrmann, Anton Bredenbeck, Andreas Nuechter

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09230v1

摘要： 月球洞穴是人类在月球上长期、永久存在的有希望的特征。然而，由于无法从勘测卫星获取图像，地下洞室内的具体环境尚不清楚。因此，为了进一步推动人类在月球上的存在，这些洞穴将由机器人系统进行探索。然而，一系列环境因素使这一探索变得特别具有挑战性。其中包括非常细小的月球尘埃，它会损坏暴露的传感器和执行器，以及未知的表面成分和腔内的障碍物。特别适合应对这些挑战的一种机器人系统是球形机器人，因为其外壳将传感器和执行器与危险环境完全分开。这项工作以一种新颖的运动方法的动态模型的形式引入了数学描述，该方法增加了额外的功能。一组可伸缩的线性延伸杆通过推离地面和利用重力扭矩的组合来移动机器人。该方法使系统能够移动，通过将重心提升到顶部来克服物体，并通过使用杆作为三脚架来转变为地面激光扫描仪。

大语言模型与智能机器人集成综述

分类： 机器人技术

作者： Yeseung Kim, Dohyun Kim, Jieun Choi, Jisang Park, Nayoung Oh, Daehyung Park

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09228v1

摘要： 近年来，大语言模型（LLM）的集成彻底改变了机器人领域，使机器人能够像人类一样熟练地进行交流、理解和推理。本文探讨了大语言模型对机器人技术的多方面影响，解决了在各个领域利用这些模型的关键挑战和机遇。通过对核心机器人元素（通信、感知、规划和控制）内的大语言模型应用进行分类和分析，我们的目标是为寻求将大语言模型集成到机器人系统中的研究人员提供可行的见解。我们的研究重点是 GPT-3.5 后开发的大语言模型，主要采用基于文本的模式，同时也考虑感知和控制的多模式方法。我们为快速工程提供全面的指南和示例，帮助初学者获得基于大语言模型的机器人解决方案。通过教程级示例和结构化提示构建，我们说明了如何将 LLM 引导的增强功能无缝集成到机器人应用程序中。这项调查为研究人员探索大语言模型驱动的机器人技术不断发展的前景提供了路线图，为在机器人开发中利用语言模型的力量提供了全面的概述和实践指导。

绳驱动折纸机器人的设计与制造

分类： 机器人技术

作者： Peiwen Yang, Shuguang Li

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09222v1

摘要： 折纸设计和结构已广泛应用于许多领域，例如变形结构、机器人和超材料。然而，折纸结构的设计和制造依赖于人类的经验和技能，既费时又费力。在本文中，我们提出了一种用于弦驱动折纸结构和机器人的快速设计和制造方法。我们开发了一款折纸设计软件，可根据分析模型和进化策略 (ES) 生成所需的折痕图案。此外，该软件还可以自动生成折纸设计的 3D 模型。然后，我们使用双材料 3D 打印机来制造具有所需机械性能的基于包裹的折纸结构。我们利用扭弦致动器 (TSA) 将平板上的目标 3D 结构折叠起来。为了展示这些技术的能力，我们使用由 TSA 驱动的 3D 打印折纸结构构建并测试了折纸爬行机器人和折纸机械臂。

Tube-RRT*：群体机器人穿过大规模障碍环境的高效同伦路径规划

分类： 机器人技术, 系统与控制, 系统与控制

作者： Pengda Mao, Quan Quan

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09200v1

摘要： 最近，最佳虚拟管的概念已经成为一种新颖的解决方案，可以解决群体机器人在障碍密集的环境中导航的挑战性任务，提供广泛的应用。然而，它缺乏在障碍物密集的环境中有效的同伦路径规划方法。本文介绍了 Tube-RRT*，这是一种创新的同伦路径规划方法，该方法基于快速探索随机树 (RRT) 算法并对其进行了改进。 Tube-RRT* 专门设计用于为虚拟管道中的轨迹生成同伦路径，战略性地考虑开口体积和管道长度，以减轻群体拥塞并确保敏捷导航。通过在复杂的大规模障碍环境中进行全面的比较模拟，我们证明了 Tube-RRT* 的有效性。

BEATLE——自重构空中机器人：设计、控制和实验验证

分类： 机器人技术

作者： Junichiro Sugihara, Moju Zhao, Takuzumi Nishio, Kei Okada, Masayuki Inaba

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09153v1

智能帮助：为家庭提供主动和自适应机器人援助的战略对手建模

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Zhihao Cao, Zidong Wang, Siwen Xie, Anji Liu, Lifeng Fan

发布时间： 2024-04-13

链接： http://arxiv.org/abs/2404.09001v1

摘要： 尽管弱势群体（例如老年人、儿童和残疾人）在日常任务中对辅助技术的需求很大，但真正满足其多样化需求的先进人工智能驱动辅助解决方案的研究仍然很少。传统的人机交互任务通常需要机器简单地提供帮助，而没有细致地考虑人类的能力和感受，例如练习和学习的机会、自我完善的感觉和自尊。为了解决这一差距，我们定义了一个关键且新颖的挑战“智能帮助”，旨在为在各种任务和环境中具有不同残疾和动态目标的人类代理提供主动且适应性的支持。为了应对这一挑战，我们利用 AI2-THOR 为智能帮助任务构建了一个新的交互式 3D 逼真家庭环境。我们引入了创新的对手建模模块，可以对主要代理的能力和目标进行细致入微的了解，以优化辅助代理的帮助策略。严格的实验验证了我们模型组件的有效性，并显示了我们的整体方法相对于既定基线的优越性。我们的研究结果说明了人工智能辅助机器人在改善弱势群体福祉方面的潜力。

NeurIT：突破室内机器人物联网神经惯性跟踪的极限

分类： 机器人技术, 人工智能, 人机交互

作者： Xinzhe Zheng, Sijie Ji, Yipeng Pan, Kaiwen Zhang, Chenshu Wu

发布时间： 2024-04-13

链接： http://arxiv.org/abs/2404.08939v1

摘要： 惯性跟踪对于机器人物联网至关重要，并且由于低成本惯性测量单元 (IMU) 和深度学习驱动的跟踪算法的普遍存在而受到欢迎。然而，现有的工作并没有充分利用 IMU 测量，特别是磁力计，也没有最大限度地发挥深度学习的潜力来达到所需的精度。为了提高室内机器人应用的跟踪精度，我们引入了 NeurIT，这是一种序列到序列的框架，可将跟踪精度提升到一个新的水平。 NeurIT 以时频块循环变压器 (TF-BRT) 为核心，结合循环神经网络 (RNN) 和 Transformer 的强大功能来学习时域和频域的代表性特征。为了充分利用 IMU 信息，我们策略性地采用磁力计的车身框架微分，这大大减少了跟踪误差。 NeurIT 在定制的机器人平台上实施，并在各种室内环境中进行评估。实验结果表明，NeurIT 在 300 米距离内实现了仅 1 米的跟踪误差。值得注意的是，它在未见过的数据上显着优于最先进的基线 48.21%。在视觉有利的条件下，NeurIT 的表现也可与视觉惯性方法（Tango Phone）相媲美，并在普通环境中超越它。我们相信 NeurIT 朝着实用的神经惯性跟踪迈出了重要的一步，以实现无处不在且可扩展的机器人物体跟踪。 NeurIT，包括源代码和数据集，已在此处开源：https://github.com/NeurIT-Project/NeurIT。

通过手-物体接触语义映射在杂乱环境中进行多指机器人手抓取

分类： 机器人技术, 人工智能

作者： Lei Zhang, Kaixin Bai, Guowen Huang, Zhaopeng Chen, Jianwei Zhang

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08844v1

摘要： 优化方法和生成模型的集成显着提高了五指手抓取的灵巧操作技术。然而，这些技术在杂乱环境中的应用是一个相对未经探索的领域。为了解决这一研究空白，我们开发了一种在杂乱环境中生成五指手抓握样本的新方法。该方法强调模拟的抓握质量以及手与周围物体之间微妙的相互作用。我们方法的一个关键方面是我们的数据生成方法，能够根据对象可供性信息估计接触空间和语义表示以及可供性掌握。此外，我们的接触语义条件变分自动编码器（CoSe-CVAE）网络擅长从点云创建全面的接触图，结合空间和语义数据。我们引入了一种独特的抓取检测技术，可以根据这些地图有效地制定机械手抓取姿势。此外，我们的评估模型旨在评估抓取质量和碰撞概率，显着提高了五指手抓取在复杂场景下的实用性。我们的数据生成方法在把握多样性、场景多样性、模态多样性方面优于以前的数据集。我们的抓取生成方法取得了显着的成功，在现实世界的单对象抓取中平均成功率为 81.0%，在多对象抓取中平均成功率为 75.3%，优于既定基线。数据集和补充材料可以在https://sites.google.com/view/ffh-clutteredgrasping找到，我们将在发布后发布代码。

使用人形实体代理进行神经机器人抓取的逆运动学

分类： 机器人技术, 人工智能

作者： Jan-Gerrit Habekost, Connor Gäde, Philipp Allgeuer, Stefan Wermter

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08825v1

摘要： 本文介绍了一种新颖的零样本运动规划方法，允许用户在笛卡尔空间中快速设计平滑的机器人运动。基于 Bezier 曲线的笛卡尔计划通过我们的神经启发逆运动学 (IK) 方法 CycleIK 转换为关节空间轨迹，为此我们通过将其缩放到任意机器人设计来实现平台独立性。运动规划器在人形机器人 NICO 和 NICOL 的物理硬件上在人机循环抓取场景中进行评估。我们的方法部署了一个以大型语言模型（LLM）为核心的实体代理。我们将 NICOL 引入的体现代理概括为也由 NICO 体现。代理可以执行一组离散的物理动作，并允许用户口头指令各种不同的机器人。我们为其动作空间贡献了一个抓取原语，允许精确操纵家用物品。新的 CycleIK 方法在仿真中与流行的数值 IK 求解器和最先进的神经 IK 方法进行了比较，结果表明，当算法运行时间很短时，它可以与所有评估的方法竞争或优于所有评估的方法。在 NICOL 和 NICO 机器人上对抓取原语进行了评估，据报告，每个机器人的抓取成功率分别为 72% 至 82%。

用于表面检测的微型机器人群中的集体贝叶斯决策

分类： 机器人技术, 系统与控制, 系统与控制

作者： Thiemen Siemensma, Darren Chiu, Sneha Ramshanker, Radhika Nagpal, Bahar Haghighat

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08390v1

摘要： 机器人群可以有效地服务于各种传感和检测应用。某些检查任务需要二元分类决策。这项工作提出了基于振动传感的表面检测任务的实验装置，并研究了一群小型轮式机器人中的贝叶斯双结果决策算法。机器人的任务是根据大多数瓷砖类型单独检查并集体分类由振动瓷砖和非振动瓷砖组成的 1mx1m 瓷砖表面。机器人使用板载 IMU 感知振动，并使用一组红外传感器执行碰撞避免。我们利用 Webots 机器人模拟器和粒子群优化 (PSO) 方法开发了一个模拟和优化框架。我们考虑了两种现有的信息共享策略，并提出了一种新的策略，使群体能够快速做出准确的分类决策。我们首先找到允许在模拟中进行有效采样的最佳参数，然后使用 100 个随机模拟和 10 个真实实验根据两个现有策略评估我们提出的策略。我们发现，我们提出的方法迫使群体以更快的速度做出决策，平均决策时间提高了 20.52%，而准确度仅损失了 0.78%。

针对微型汽车类机器人使用低成本传感器进行基于优化的系统识别和移动水平估计

分类： 机器人技术, 系统与控制, 系统与控制

作者： Sabrina Bodmer, Lukas Vogel, Simon Muntwiler, Alexander Hansson, Tobias Bodewig, Jonas Wahlen, Melanie N. Zeilinger, Andrea Carron

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08362v1

摘要： 本文提出了一种开源微型汽车机器人，具有低成本传感和基于优化的系统识别、状态估计和控制的管道。整个机器人平台的成本不到 700 美元，因此大大简化了现实环境中高级算法的验证。我们提出了一种带有 Pacejka 轮胎力的改进自行车模型，用于对所考虑的全轮驱动车辆的动力学进行建模，并防止模型在低速时出现奇异性。此外，我们提供了一种基于优化的系统识别方法和移动水平估计（MHE）方案。在大量的硬件实验中，我们表明所提出的系统识别方法可以产生具有高预测精度的模型，而 MHE 可以产生准确的状态估计。最后，即使在有限的时间间隔内存在传感器故障，整个闭环系统也表现良好。所有硬件、固件以及控制和估计软件均根据 BSD 2 条款许可证发布，以促进社区内的广泛采用和协作。

通过强化学习实现灵活、多功能的双足机器人跟踪控制

分类： 机器人技术, 机器学习

作者： Jiayi Li, Linqi Ye, Yi Cheng, Houde Liu, Bin Liang

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08246v1

摘要： 人类在舞蹈和体操等复杂的动态运动中表现出的非凡运动智能表明，生物体内的平衡机制与特定的运动模式脱钩。这种解耦允许在某些限制下执行已习得的和未习得的动作，同时通过较小的全身协调保持平衡。为了复制这种平衡能力和身体敏捷性，本文提出了一种用于双足机器人的多功能控制器。该控制器使用单个小规模神经网络实现各种步态的脚踝和身体轨迹跟踪，该神经网络基于基于模型的 IK 解算器和强化学习。我们将单步视为最小的控制单元，并设计了适合任何单步变化的通用控制输入形式。通过我们的可扩展控制接口将这些最小的控制单元与高级策略相结合，可以实现高度灵活的步态控制。为了增强控制器的轨迹跟踪能力，我们采用了三阶段培训课程。训练后，机器人可以在不同距离和高度的目标立足点之间自由移动。机器人还可以保持静态平衡，无需反复踩踏调整姿势。最后，我们评估了控制器在各种双足任务上的跟踪精度，并在仿真环境中验证了控制框架的有效性。

带有机器人模块化内骨骼光学 (ROMEO) 手指的被动可弯曲、柔顺触觉手掌

分类： 机器人技术

作者： Sandra Q. Liu, Edward H. Adelson

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08227v1

摘要： 目前，许多机械手依靠极其灵巧的机械手指和拇指关节来将自己包裹在物体周围。尽管人手极大地受益于其中央折叠和柔软的表面，但很少有人将注意力集中在手掌上。因此，我们开发了一种新颖的结构顺应性柔软手掌，可以为压入其中的物体提供更多的表面积接触。此外，该设计以及新型低成本、灵活照明系统的开发能够整合受 GelSight 传感器启发的高分辨率触觉传感系统。同时，我们设计了机器人模块化内骨骼光学（ROMEO）手指，这是欠驱动的两段软手指，能够容纳新的照明系统，并将它们集成到这些不同的手掌配置中。由此产生的机器人手比棒球稍大，是第一个具有驱动手指和被动柔顺手掌的软机器人手之一，所有这些都具有高分辨率触觉传感。这种设计还可能帮助研究人员发现和探索未来功能更强大的软硬触觉机器人手设计。补充视频可以在这里找到：https://youtu.be/RKfIFiewqsg

滑行机器人中的非脉冲接触隐式规划局部操纵

分类： 机器人技术, 系统与控制, 系统与控制

作者： Adarsh Salagame, Kruthika Gangaraju, Harin Kumar Nallaguntla, Eric Sihite, Gunar Schirner, Alireza Ramezani

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08174v1

摘要： 物体操纵在固定基座和移动操纵器的背景下得到了广泛的研究。然而，蛇形机器人采用的过度驱动运动方式允许通过运动进行对象操纵的独特混合，称为运动操纵。以下工作提出了一种基于蛇形机器人 COBRA 的非脉冲隐式接触路径规划来解决局部操纵问题的优化方法。我们提出了数学框架并展示了高保真模拟结果和实验来证明我们方法的有效性。

面向先进机器学习算法的具有丰富交互能力的鲁棒软婴儿机器人

分类： 机器人技术, 人工智能, 机器学习, I.2.9; I.2.6

作者： Mohannad Alhakami, Dylan R. Ashley, Joel Dunham, Francesco Faccio, Eric Feron, Jürgen Schmidhuber

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.08093v1

摘要： 人工智能最近在许多领域取得了长足进步，但在通用机器人领域却相对较少取得成功。我们认为，造成这种情况的原因之一是传统机器人设计与开放式、基于创造力的人工智能系统所需的属性之间的脱节。为此，我们从大自然中选择性地汲取灵感，构建了一个坚固的、部分柔软的机器人肢体，它具有较大的动作空间、来自多个摄像头的丰富的感官数据流，以及与其他人连接以增强动作空间和数据流的能力。作为概念证明，我们训练了两种现代机器学习算法来执行简单的目标查找任务。总而言之，我们相信这种设计是构建为实现人工智能而量身定制的机器人的第一步。

具有传感和通信危险区域的多机器人目标跟踪

分类： 机器人技术

作者： Jiazhen Li, Peihan Li, Yuwei Wu, Gaurav S. Sukhatme, Vijay Kumar, Lifeng Zhou

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07880v1

摘要： 多机器人目标跟踪在环境监测和野火管理等不同场景中有着广泛的应用，这需要多机器人系统在不确定和危险的环境中实际部署的鲁棒性。传统方法通常关注跟踪精度的性能，而不对环境进行建模和假设，忽略了潜在的环境危害，从而导致实际部署中的系统故障。为了应对这一挑战，我们研究了对抗环境中的多机器人目标跟踪，考虑了不确定性的传感和通信攻击。我们设计了具体的策略来避开不同的危险区域，并提出了危险环境下的多智能体跟踪框架。我们近似概率约束并制定实用的优化策略以有效地解决计算挑战。我们评估了我们提出的方法在模拟中的性能，以证明机器人在不同水平的环境不确定性和风险置信度下调整其风险意识行为的能力。所提出的方法通过现实世界的机器人实验得到进一步验证，其中一组无人机成功跟踪动态地面机器人，同时对传感和/或通信危险区域具有风险意识。

从实验室到剧院：非传统的现场机器人之旅

分类： 机器人技术

作者： Ali Imran, Vivek Shankar Varadharajan, Rafael Gomes Braga, Yann Bouteiller, Abdalwhab Bakheet Mohamed Abdalwhab, Matthis Di-Giacomo, Alexandra Mercader, Giovanni Beltrame, David St-Onge

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07795v1

摘要： 涉及机器人系统的艺术表演提出了类似于其他现场部署中遇到的独特技术挑战。在本文中，我们深入研究了机器人艺术表演的编排，重点关注通信协议和定位方法固有的复杂性。通过我们的案例研究和实验见解，我们展示了此类部署的广泛技术要求，最重要的是，与非专家密切合作的重大贡献。

草图计划概括：语言引导机器人操作的归纳可概括空间概念的持续小样本学习

分类： 机器学习, 机器人技术

作者： Namasivayam Kalithasan, Sachit Sachdeva, Himanshu Gaurav Singh, Divyanshu Aggarwal, Gurarmaan Singh Panjeta, Vishal Bindal, Arnav Tuli, Rohan Paul, Parag Singla

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07774v1

摘要： 我们的目标是构建能够以持续的方式学习归纳概括的空间概念的实体代理，例如建造给定高度的塔。现有工作存在一定的局限性 (a) (Liang et al., 2023) 及其多模态扩展，严重依赖先验知识并且不以演示为基础 (b) (Liu et al., 2023) 缺乏能力由于其纯粹的神经方法而无法概括。一个关键的挑战是在具有泛化能力的符号表示和基于物理基础的神经表示之间实现良好的平衡。作为回应，我们提出了一种神经符号方法，将归纳概念表达为基础神经概念上的符号组合。我们的主要见解是将概念学习问题分解为以下步骤 1) 草图：获取给定指令的程序化表示 2) 计划：对一系列扎根的神经动作概念执行基于模型的强化学习，以学习扎根的计划 3)泛化：抽象出通用（提升）Python 程序以促进泛化。持续学习是通过将基础神经概念的学习与更高层次的符号结构进行穿插来实现的。我们的实验表明，我们的方法在学习新概念和归纳概括的能力方面显着优于现有的基线。

换位思考：机器人的扩散视角

分类： 机器人技术, 人工智能

作者： Josua Spisak, Matthias Kerzel, Stefan Wermter

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07735v1

摘要： 人形机器人可以通过向人类学习来受益于其与人类形状的相似性。当人类教其他人如何执行动作时，他们通常会演示这些动作，并且学习者可以尝试模仿演示。能够在心理上从第三人称视角看到的演示转移到第一人称视角的演示是人类这种能力的基础。由于这是一项具有挑战性的任务，因此通常通过以第一人称视角进行演示来简化机器人的任务。创建这些演示需要更多的努力，但可以更容易地模仿。我们引入了一种新颖的扩散模型，旨在使机器人能够直接从第三人称演示中学习。我们的模型能够通过在两个视角之间转换物体和环境的大小和旋转，从第三人称视角学习和生成第一人称视角。这使我们能够利用易于制作的第三人称演示和易于模仿的第一人称演示的好处。该模型可以表示 RGB 图像中的第一人称视角，也可以计算关节值。在这项任务中，我们的方法明显优于其他图像到图像模型。

通过视觉语言模型进行接近传感的反射率估计：利用分布式语义进行机器人的低级认知

分类： 机器人技术

作者： Masashi Osada, Gustavo A. Garcia Ricardez, Yosuke Suzuki, Tadahiro Taniguchi

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07717v1

摘要： 大语言模型 (LLM) 和视觉语言模型 (VLM) 已越来越多地用于机器人技术中以实现高级认知，但它们在低级认知（例如解释传感器信息）中的应用仍未得到充分探索。在机器人抓取中，估计物体的反射率对于成功抓取至关重要，因为它会显着影响接近传感器测量的距离。我们研究 LLM 是否可以仅根据对象名称估计反射率，利用分布语义中嵌入的人类知识，以及 VLM 中语言的潜在结构是否对基于图像的反射率估计产生积极影响。在本文中，我们验证了1）LLM（例如GPT-3.5和GPT-4）可以仅使用文本作为输入来估计物体的反射率； 2) VLM（例如 CLIP）可以提高其在图像反射率估计方面的泛化能力。我们的实验表明，GPT-4 可以仅使用文本输入来估计物体的反射率，平均误差为 14.7%，低于仅图像的 ResNet。此外，CLIP 实现了 11.8% 的最低平均误差，而 GPT-3.5 与 ResNet 的 17.8% 相比，获得了具有竞争力的 19.9%。这些结果表明，LLM 和 VLM 中的分布式语义提高了它们的泛化能力，并且 VLM 获得的知识受益于语言的潜在结构。

具有力反馈虚拟化的准入控制机器人的安全触觉远程操作

分类： 机器人技术, 系统与控制, 系统与控制

作者： Lorenzo Pagliara, Enrico Ferrentino, Andrea Chiacchio, Giovanni Russo

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07672v1

摘要： 触觉远程操作在扩展人类使用机器人系统远程执行复杂任务的能力方面发挥着关键作用。触觉的影响是深远的，可以提高操作员的感官意识和运动准确性。在这种背景下，一个关键的挑战是实现自然、稳定和安全的人机触觉交互。实现这些相互冲突的要求对于复杂的程序尤其重要，例如医疗的。为了应对这一挑战，在这项工作中，我们开发了一种新型触觉双边远程操作系统（HBTS），该系统具有基于导纳控制机器人产生的运动误差的虚拟力反馈。这种方法允许将力渲染系统与交互控制解耦：渲染的力被分配所需的动力学，而导纳控制参数被单独调整以最大化交互性能。此外，认识到限制机器人对环境施加的力的必要性，以确保安全交互，我们将触觉设备提供的运动参考的饱和策略嵌入到准入控制中。我们通过远程操作黑板书写实验，针对其他两种架构验证了所提出的 HBTS 的不同方面。结果表明，所提出的 HBTS 提高了远程操作的自然性以及交互的安全性和准确性。

通过多边解码器分支进行弱监督学习，用于机器人辅助心血管导管插入术中的导丝分割

分类： 计算机视觉和模式识别, 机器学习, 机器人技术

作者： Olatunji Mumini Omisore, Toluwanimi Akinyemi, Anh Nguyen, Lei Wang

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07594v1

摘要： 尽管机器人辅助心血管导管插入术通常用于心血管疾病的干预，但需要更多的研究来支持自动工具分割的手术。这可以帮助外科医生在干预期间进行工具跟踪和可视化。基于学习的分割最近提供了最先进的分割性能，然而，对于干预者来说，为完全监督的方法生成地面实况信号是劳动密集型且耗时的。在本研究中，提出了一种具有多边伪标记的弱监督学习方法，用于心脏血管造影中的工具分割。该方法包括一种改进的 U-Net 模型，该模型具有一个编码器和多个横向分支解码器，在不同扰动下产生伪标签作为监督信号。伪标签是通过解码器中的混合损失函数和共享一致性自行生成的。我们使用机器人心导管插入术期间获得的弱注释数据对模型进行端到端训练。对所提出的模型进行的实验表明，弱注释数据的性能与使用完全注释数据时的性能更接近。与三种现有的弱监督方法相比，我们的方法在三种不同的心脏血管造影数据上产生了更高的分割性能。通过消融研究，我们在不同参数下表现出一致的性能。因此，我们为机器人辅助心导管插入术期间的实时工具分割和跟踪提供了一种更便宜的方法。

可微渲染作为电缆驱动软机器人编程的一种方式

分类： 机器人技术, 图形, I.3.6; I.3.7

作者： Kasra Arnavaz, Kenny Erleben

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07590v1

摘要： 近年来，软机器人因其适应性和合规性而越来越受欢迎。在本文中，我们使用电缆驱动软机器人的数字孪生模型来学习仿真中的控制参数。在此过程中，我们利用可微渲染作为指导机器人完成诸如点到达、抓取物体和避开障碍物等任务的方式。这种方法简化了此类复杂任务的数学描述，并且消除了对地标点及其跟踪的需要。我们的实验证明了我们的方法的适用性。

老年医疗保健中的社交机器人

分类： 机器人技术, 人工智能

作者： Xavier Alameda-Pineda, Angus Addlesee, Daniel Hernández García, Chris Reinke, Soraya Arias, Federica Arrigoni, Alex Auternaud, Lauriane Blavette, Cigdem Beyan, Luis Gomez Camara, Ohad Cohen, Alessandro Conti, Sébastien Dacunha, Christian Dondrup, Yoav Ellinson, Francesco Ferro, Sharon Gannot, Florian Gras, Nancie Gunson, Radu Horaud, Moreno D'Incà, Imad Kimouche, Séverin Lemaignan, Oliver Lemon, Cyril Liotard, Luca Marchionni, Mordehay Moradi, Tomas Pajdla, Maribel Pino, Michal Polic, Matthieu Py, Ariel Rado, Bin Ren, Elisa Ricci, Anne-Sophie Rigaud, Paolo Rota, Marta Romeo, Nicu Sebe, Weronika Sieińska, Pinchas Tandeitnik, Francesco Tonini, Nicolas Turro, Timothée Wintz, Yanchao Yu

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07560v1

摘要： 尽管最近在开发和部署社交机器人方面取得了许多成就，但仍有许多尚未开发的环境和应用，最终用户有必要对此类系统进行系统评估。虽然多个机器人平台已用于老年医疗保健，但具有多模式对话功能的社交互动机器人在现实生活中是否有用并被接受的问题尚未得到解答。本文试图部分回答这个问题，通过在巴黎一家老年日托中心对患者和同伴进行的两波实验，使用具有社交和对话交互能力的全尺寸人形机器人。 H2020 SPRING 项目期间开发的软件架构以及实验协议使我们能够与 60 多个最终用户一起评估可接受性 (AES) 和可用性 (SUS)。总体而言，用户很容易接受这项技术，特别是当机器人感知和动作技能对环境杂乱具有鲁棒性并且能够灵活处理大量不同的交互时。

人机交接的模型预测轨迹规划

分类： 机器人技术

作者： Thies Oelerich, Christian Hartl-Nesic, Andreas Kugi

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07505v1

摘要： 这项工作开发了一种用于人机切换的新颖轨迹规划器。切换要求自然可以由基于路径跟踪的模型预测控制器来处理，其中路径进度用作切换的进度度量。此外，通过使用切换位置预测来调整路径偏差范围，使用路径偏差来跟踪人体运动。该预测采用高斯过程回归模型，该模型在已知的切换轨迹上进行训练。使用协作 7-DoF 机器人操纵器进行的实验表明了所提出方法的有效性和多功能性。

AdaDemo：通用机器人代理的数据高效演示扩展

分类： 机器人技术, 机器学习

作者： Tongzhou Mu, Yijie Guo, Jie Xu, Ankit Goyal, Hao Su, Dieter Fox, Animesh Garg

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07428v1

摘要： 受语言和视觉基础模型取得的显着成就的鼓舞，通过模仿学习、使用大型演示数据集开发通用机器人代理，已成为机器人学习的一个突出兴趣领域。模仿学习的有效性很大程度上依赖于演示数据集的数量和质量。在这项研究中，我们的目标是以数据有效的方式扩大演示规模，以促进通才机器人代理的学习。我们引入了 AdaDemo（自适应在线演示扩展），这是一个通用框架，旨在通过主动、持续扩展演示数据集来改进多任务策略学习。 AdaDemo 战略性地收集新的演示，以解决现有政策中已发现的弱点，确保数据效率最大化。通过对两个机器人操作基准（RLBench 和 Adroit）总共 22 项任务的综合评估，我们展示了 AdaDemo 通过以数据高效的方式指导生成高质量演示数据集来逐步提高策略性能的能力。

好得令人难以置信：人们拒绝机器人提供的免费礼物，因为它们推断出不良意图

分类： 人机交互

作者： Benjamin Lebrun, Andrew Vonasch, Christoph Bartneck

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07409v1

摘要： 最近的一项心理学研究发现，人们有时会拒绝别人过于慷慨的提议，因为他们认为隐藏的“幻影成本”一定是交易的一部分。当一个人无缘无故地显得过于慷慨时，就会出现幻影成本。这项研究旨在探讨人们在与机器人互动时是否可以想象虚拟成本。为此，屏幕或物理实体（人或机器人）向人们提供 cookie 或 cookie + $2。然后参与者被要求做出选择是接受还是拒绝该提议。结果表明，在两个具体层面上，当与人类以及机器人互动时，人们确实会感知到要约中的幻影成本 + $2 条件，从而导致特征行为效应，即提供更多的钱使人们不太可能接受要约。虽然人们比人类更有可能接受来自机器人的提议，但当与实体化的屏幕相比时，人们更经常接受来自人类的提议，但无论是屏幕还是实体化的机器人，人们同样有可能接受来自机器人的提议。这表明人们可以将机器人（和人类）视为具有隐藏意图和知识的社会主体，这会影响他们对机器人的行为。这不仅为人们在与机器人交互时如何做出决策提供了新的见解，而且还为机器人的具体化如何影响 HRI 研究提供了新的见解。

增强软机器人的可访问性：探索嵌入磁铁的纸质交互

分类： 人机交互

作者： Ruhan Yang, Ellen Yi-Luen Do

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07360v1

摘要： 本文探讨了嵌入式磁铁的实现，以增强基于纸张的交互。将磁铁集成到基于纸张的交互中简化了制造过程，使其更容易构建软机器人系统。我们讨论通过这种方法可实现的各种交互模式，并强调它们的潜在应用。

通过机器人操作和对象测量数据库交互式学习物理对象属性

分类： 机器人技术, 人工智能, 信息论, 信息论, I.2.9

作者： Andrej Kruzliak, Jiri Hartvich, Shubhan P. Patni, Lukas Rustler, Jan Kristof Behrens, Fares J. Abu-Dakka, Krystian Mikolajczyk, Ville Kyrki, Matej Hoffmann

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07344v1

摘要： 这项工作提出了一个通过机器人操作和对象测量数据库自动提取物理对象属性的框架，例如材料成分、质量、体积和刚度。该框架涉及探索性动作选择，以最大限度地了解桌子上的物体。贝叶斯网络对对象属性之间的条件依赖性进行建模，结合先验概率分布和与测量操作相关的不确定性。该算法根据预期信息增益选择最佳探索动作，并通过贝叶斯推理更新对象属性。实验评估表明，与基线相比，动作选择有效，并且如果没有更多可学习的内容，则可以正确终止实验。事实证明，当遇到材料属性与其外观相冲突的特技对象时，该算法表现得非常智能。该机器人管道与记录模块和在线物体数据库集成，包含使用不同夹具对 63 个物体进行的 24,000 多次测量。所有代码和数据都是公开的，通过探索性操作促进对象及其物理属性的自动数字化。

使用神经网络对肌腱驱动连续体机器人的迟滞运动学进行建模

分类： 机器人技术, 人工智能

作者： Yuan Wang, Max McCandless, Abdulhamit Donder, Giovanni Pittiglio, Behnam Moradkhani, Yash Chitalia, Pierre E. Dupont

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07168v1

摘要： 使用深度学习方法准确模拟肌腱驱动连续体机器人的机械迟滞行为的能力越来越受到人们的关注。在本文中，我们研究了两种类型的腱驱动连续体机器人的迟滞响应，并最终比较了三种类型的具有正向和反向运动学映射的神经网络建模方法：前馈神经网络（FNN）、具有历史输入的 FNN缓冲区和长短期记忆（LSTM）网络。我们试图确定哪种模型最能捕捉时间相关行为。我们发现，根据机器人的设计，选择不同的运动学输入可以改变系统是否表现出滞后现象。此外，我们还展示了模型拟合的结果，表明与标准 FNN 相比，具有历史输入缓冲区的 FNN 和 LSTM 模型都表现出对历史依赖性进行建模的能力，并且在捕获速率相关滞后方面具有相当的性能。

CBFKIT：用于机器人应用的控制屏障功能工具箱

分类： 机器人技术, 系统与控制, 系统与控制

作者： Mitchell Black, Georgios Fainekos, Bardh Hoxha, Hideki Okamoto, Danil Prokhorov

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07158v1

摘要： 本文介绍了 CBFKit，一个用于不确定性下安全机器人规划和控制的 Python/ROS 工具箱。该工具箱提供了一个通用框架，用于在确定性和随机环境中设计移动系统的控制屏障功能。它可以连接到 ROS 开源机器人中间件，允许设置多机器人应用程序、环境和地图编码以及与预测运动规划算法集成。此外，它还提供多种 CBF 变体和用于机器人控制的算法。 CBFKit 在丰田人类支持机器人 (HSR) 上进行了模拟和物理实验演示。

移动机器人路径规划的深度强化学习

分类： 机器人技术

作者： Hao Liu, Yi Shen, Shuangjiang Yu, Zijun Gao, Tong Wu

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06974v1

摘要： 路径规划是视频游戏、机器人等许多方面应用的一个重要问题。本文提出了一种新方法来解决基于深度强化学习（DRL）的移动机器人路径规划问题。我们设计基于 DRL 的算法，包括奖励函数和参数优化，以避免在 2D 环境中进行耗时的工作。我们还设计了双向搜索混合 A* 算法来提高局部路径规划的质量。我们将设计的算法转移到一个简单的嵌入式环境中，以测试算法在移动机器人上运行时的计算负载。实验表明，当部署在机器人平台上时，本文基于DRL的算法可以取得更好的规划结果，并且消耗更少的计算资源。

用于自适应信息路径规划的机器人学习

分类： 机器人技术

作者： Marija Popovic, Joshua Ott, Julius Rückin, Mykel J. Kochendorfer

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06940v1

摘要： 自适应信息路径规划（AIPP）对于许多机器人应用都很重要，它使移动机器人能够有效地收集有关最初未知环境的有用数据。此外，基于学习的方法越来越多地用于机器人技术，以增强跨不同复杂任务的适应性、多功能性和鲁棒性。我们的调查探讨了将机器人学习应用于 AIPP 的研究，以弥合这两个研究领域之间的差距。我们首先为一般 AIPP 问题提供一个统一的数学框架。接下来，我们从（i）学习算法和（ii）机器人应用的角度建立当前工作的两个互补分类法。我们探索协同效应、最新趋势，并强调 AIPP 框架中基于学习的方法的好处。最后，我们讨论了关键挑战和有希望的未来方向，以通过学习实现更普遍适用和更强大的机器人数据收集系统。我们提供了调查中审查的论文的全面目录，包括公开可用的存储库，以促进该领域的未来研究。

基于视觉语言模型的机器人液体感知物理推理

分类： 机器人技术

作者： Wenqiang Lai, Yuan Gao, Tin Lun Lam

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06904v1

摘要： 由于大型语言模型 (LLM) 卓越的推理能力和从庞大的训练语料库中学到的广泛知识，人们对在机器人任务中应用大型语言模型 (LLM) 越来越感兴趣。让大语言模型扎根于现实世界仍然是一个开放的挑战，因为他们只能处理文本输入。大型视觉语言模型（LVLM）的最新进展通过整合视觉输入实现了对物理世界的更全面的理解，这提供了比单独语言更丰富的上下文信息。在这项工作中，我们提出了一种新颖的范例，利用 OpenAI 最先进的 LVLM GPT-4V(ision)，使实体代理能够通过基于图像的环境反馈感知液体物体。具体来说，我们利用 GPT-4V 的物理理解来解释非视觉反馈（例如 F/T 传感器数据）的视觉表示（例如时间序列图），间接实现超越视觉和语言的多模态感知，使用图像作为代理。我们使用 10 种常见的家用液体以及各种几何形状和材料的容器来评估我们的方法。无需任何训练或微调，我们就证明了我们的方法可以使机器人间接感知液体的物理响应并估计其粘度。我们还表明，通过对通过交互学习到的视觉和物理属性进行联合推理，我们的方法可以在没有强烈视觉提示的情况下识别液体物体（例如，带有清晰文本或符号的容器标签），将准确度从 69.0% 提高到-性能最佳的纯视觉版本达到了 86.0%。

声音很重要：移动机器人的听觉可检测性

分类： 机器人技术

作者： Subham Agrawal, Marlene Wessels, Jorge de Heuvel, Johannes Kraus, Maren Bennewitz

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06807v1

摘要： 移动机器人越来越多地在嘈杂的环境中用于社交目的，例如在医疗保健或公共场所提供支持。由于这些机器人也在人类视线之外运行，因此出现了不同的机器人类型、环境噪声或认知参与如何影响机器人声音检测的问题。为了解决这一研究空白，我们进行了一项用户研究，测量轮式机器人 (Turtlebot 2i) 和四足机器人 (Unitree Go 1) 的听觉检测距离，这两种机器人在移动时会发出不同的相应声音。此外，我们还在研究过程中控制了背景噪音水平和参与者对次要任务的参与程度。我们的结果表明，四足机器人声音的检测效果明显优于轮式机器人（即，在更大的距离处），这表明运动机制对听觉可检测性具有有意义的影响。随着背景噪音的增加，两个机器人的可检测性都显着下降。但即使在高背景噪音中，参与者也能在更远的距离处检测到四足机器人。参与次要任务几乎没有任何影响。从本质上讲，这些发现强调了区分不同机器人的听觉特征对于改善移动机器人在嘈杂环境中以人为中心的平稳导航的关键作用。

为模仿人类关节润滑功能的仿生机器人设计渗液软骨

分类： 机器人技术

作者： Akihiro Miki, Yuta Sahara, Kazuhiro Miyama, Shunnosuke Yoshimura, Yoshimoto Ribayashi, Shun Hasegawa, Kento Kawaharazuka, Kei Okada, Masayuki Inaba

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06740v1

摘要： 人体关节是由骨、软骨、韧带、滑液、关节囊等组成的开放式关节，具有柔韧、耐冲击的优点。然而，由于没有轴承，在机器人中复制这种结构会带来摩擦挑战。为了解决这个问题，我们的研究重点是模仿人类软骨的液体渗出功能。我们采用基于橡胶的 3D 打印技术与吸收性材料相结合，为仿生机器人创建多功能且易于设计的软骨片。我们评估了制造的扁平软骨片的液体渗出功能和摩擦系数。此外，我们实际上创建了一块弯曲软骨和一个开放式仿生球关节，与骨骼、韧带、滑液和关节囊相结合，以证明所提出的软骨片在此类关节构造中的实用性。

两个工业机器人快速准确的相对运动跟踪

分类： 机器人技术, 系统与控制, 系统与控制

作者： Honglu He, Chen-lung Lu, Glenn Saunders, Pinghai Yang, Jeffrey Schoonover, John Wason, Santiago Paternain, Agung Julius, John T. Wen

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06687v1

摘要： 喷涂、焊接和增材制造等工业机器人应用经常需要沿 3D 空间曲线快速、准确且均匀的运动。为了提高工艺吞吐量，一些制造商提出了双机器人设置来克服单个机器人的速度限制。工业机器人运动通过由运动原语（笛卡尔线性和圆形路径以及恒定笛卡尔速度的线性关节路径）连接的路点进行编程。实际的机器人运动受到这些运动基元和机器人姿态之间的混合的影响（伸展/接近奇点的姿态往往具有较大的路径跟踪误差）。选择沿每个运动段的路点和速度来实现性能要求是具有挑战性的。目前，还没有自动化的解决方案，需要机器人专家进行费力的手动调整才能达到所需的性能。在本文中，我们提出了一种系统的三步方法来设计和编程双机器人系统以优化系统性能。第一步是根据指定的相对运动路径选择两个机器人之间的相对位置。第二步是选择相对路径点和运动基元。最后一步是根据实际相对运动迭代更新航路点。路点迭代首先在模拟中执行，然后使用实际机器人完成。对于性能测量，我们使用受相对位置和方向约束以及路径速度均匀性约束的平均路径速度。我们通过 ABB 和 FANUC 机器人在两条具有挑战性的测试曲线上证明了该方法的有效性。与当前工业实践基准相比，性能提升超过 300%。与我们之前报道的优化单臂案例相比，提升超过14%。

学习用于不确定性感知协作人机订单拣选的高效且公平的策略

分类： 机器人技术, 人工智能, 机器学习, 优化与控制

作者： Igor G. Smit, Zaharah Bukhsh, Mykola Pechenizkiy, Kostas Alogariastos, Kasper Hendriks, Yingqian Zhang

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.08006v1

摘要： 在协作式人机订单拣选系统中，人工拣选员和自主移动机器人 (AMR) 独立地穿过仓库，并在拣选地点会合，拣选员将物品装载到 AMR 上。在本文中，我们考虑了此类系统中的优化问题，其中我们在随机环境中将拾取器分配给 AMR。我们提出了一种新颖的多目标深度强化学习（DRL）方法来学习有效的分配策略，以最大限度地提高拣选效率，同时还旨在提高拣选人员之间的工作负载公平性。在我们的方法中，我们使用图对仓库状态进行建模，并定义一个神经网络架构来捕获区域信息并有效提取与效率和工作负载相关的表示。我们开发了一个离散事件仿真模型，用于训练和评估所提出的 DRL 方法。在实验中，我们证明我们的方法可以找到非支配政策集，这些政策集概述了公平和效率目标之间的良好权衡。训练有素的政策在效率和公平性方面都优于基准。此外，在不同仓库规模的场景中进行测试时，它们表现出良好的可转移性。仿真模型的实现、提出的方法和实验均已发布。

GenCHiP：为高精度和接触丰富的操作任务生成机器人策略代码

分类： 机器人技术, 人工智能, I.2.9

作者： Kaylee Burns, Ajinkya Jain, Keegan Go, Fei Xia, Michael Stark, Stefan Schaal, Karol Hausman

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06645v1

摘要： 大型语言模型（LLM）已成功生成机器人策略代码，但到目前为止，这些结果仅限于不需要精确运动的高级任务。对于需要对接触力进行推理并在严格的成功公差范围内工作的任务，这种方法的效果如何是一个悬而未决的问题。我们发现，在正确的行动空间下，大语言模型能够成功地为各种接触丰富且高精度的操作任务生成策略，即使在嘈杂的条件下，例如感知错误或掌握不准确的情况下也是如此。具体来说，我们重新参数化动作空间，以包括遵守达到目标姿势所涉及的相互作用力和刚度的约束。我们在源自功能操作基准 (FMB) 和 NIST 任务板基准的子任务上验证了这种方法。与不合规的动作空间相比，将此动作空间与估计对象姿势的方法一起公开，可以将 LLM 的策略生成提高 3 倍和 4 倍以上

计算机器人手中的物体数量

分类： 机器人技术, 人工智能

作者： Francis Tsow, Tianze Chen, Yu Sun

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06631v1

摘要： 执行多物体抓取的机器人需要在抓取后感知手中的物体数量。计数对于确定机器人的下一步动作以及整个拾取过程的结果和效率起着重要作用。本文提出了一种数据驱动的基于对比学习的计数分类器，其具有修改后的损失函数，作为一种简单有效的对象计数方法，尽管机器人手指和物体造成了重大的遮挡挑战。该模型在模拟和实际设置中与具有三种不同常见形状（球体、圆柱体和立方体）的其他模型进行了验证。所提出的基于对比学习的计数方法在实际设置中对所有三个对象实现了 96% 以上的准确度。

MORPHeus：一种多模式单臂机器人辅助剥离系统，人类用户在环

分类： 机器人技术

作者： Ruolin Ye, Yifei Hu, Yuhan, Bian, Luke Kulm, Tapomayukh Bhattacharjee

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06570v1

摘要： 准备膳食是日常生活的一项重要工具性活动~（IADL）。虽然现有的研究已经探索了机器人在切割和烹饪等膳食准备任务中的协助，但削皮这一关键任务却很少受到关注。机器人辅助剥皮通常需要双手完成，但由于人体工程学和转移方面的挑战，使用两个安装在轮椅上的机器人手臂在护理对象的家中进行部署具有挑战性。本文介绍了一种机器人辅助削皮系统，该系统利用单个机械臂和辅助切菜板，其灵感来自于具有一只功能性手的人准备饭菜的方式。我们的系统包含一个多模态主动感知模块，用于确定食物上的某个区域是否去皮；一个人机循环长视野规划器，用于执行任务规划，同时满足用户对去皮覆盖范围的偏好；以及一个合规控制器，用于执行任务规划。将食物剥皮。我们在 12 种食品上演示了该系统，这些食品代表了不同形状、大小、皮肤厚度、表面纹理、皮肤颜色与肉色以及变形能力的极端情况。

大型语言模型的救援：多机器人系统中的死锁解决方案

分类： 机器人技术, 计算和语言, 优化与控制

作者： Kunal Garg, Jacob Arkin, Songyuan Zhang, Nicholas Roy, Chuchu Fan

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06413v1

摘要： 多智能体机器人系统在障碍环境中很容易出现死锁，在平滑的低级控制策略下，系统可能会卡在远离其所需位置的位置。如果没有外部干预（通常是高层指挥），就不可能保证仅靠低层控制政策就能解决此类僵局。本文利用大型语言模型 (LLM) 的通用性和低数据要求，探讨了使用 LLM 解决死锁的可能性。我们提出了一个分层控制框架，其中大语言模型通过分配领导者和领导者的前进方向来解决僵局。基于图神经网络 (GNN) 的低级分布式控制策略执行指定的计划。我们系统地研究各种提示技巧，以提高LLM在解决死锁方面的表现。特别是，作为即时工程的一部分，我们为大语言模型提供上下文示例。我们在具有多达 15 个代理和 40 个障碍物的各种多机器人环境中进行了广泛的实验。我们的结果表明，基于 LLM 的高级规划器可以有效解决 MRS 中的僵局。

使用质心三重态损失学习嵌入，用于机器人抓取中的对象识别

分类： 计算机视觉和模式识别

作者： Anas Gouda, Max Schwarz, Christopher Reining, Sven Behnke, Alice Kirchheim

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06277v1

摘要： 基础模型是深度学习和计算机视觉领域的强劲趋势。这些模型可作为应用程序的基础，因为它们需要开发人员进行少量或无需进一步微调即可集成到其应用程序中。用于零样本对象分割的基础模型，例如 Segment Anything (SAM)，从图像中输出分割掩模，无需任何进一步的对象信息。当它们在管道中跟随对象识别模型时，它们无需训练即可执行对象检测。在这里，我们重点训练这样一个对象识别模型。对象识别模型的一个关键的实际方面是输入大小的灵活性。由于对象识别是一个图像检索问题，因此合适的方法应该处理多查询多图库情况，而不限制输入图像的数量（例如通过具有固定大小的聚合层）。训练此类模型的关键解决方案是质心三元组损失（CTL），它将图像特征聚合到其质心。 CTL 具有较高的准确度，避免误导训练信号并保持模型输入大小的灵活性。在我们的实验中，我们在 ArmBench 对象识别任务上建立了一种新的技术水平，这表明了我们模型的普遍适用性。我们还在具有挑战性的 HOPE 数据集上展示了一个集成的看不见的物体检测管道，这需要细粒度的检测。在那里，我们的管道匹配并超越了针对特定数据集数据进行训练的相关方法。

连续体机器人的弹性运动规划

分类： 机器人技术

作者： Oxana Shamilyan, Ievgen Kabin, Zoya Dyka, Peter Langendoerfer

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06178v1

摘要： 本文提出了考虑多目标优化问题的连续体机器人弹性路径规划的实验研究。为此，我们使用了两种著名的算法，即用于路径规划的遗传算法和 A* 算法，以及用于路径评估的层次分析过程算法。在我们的实验中，层次分析过程算法考虑了四个不同的标准，即距离、电机损坏、机械损坏和准确性，每个标准都被认为有助于提高连续体机器人的弹性。使用不同的标准对于增加机器人维护操作的时间是必要的。实验表明，一方面两种算法都可以与层次分析算法结合进行多准则路径规划，而遗传算法在两种算法的比较中表现出更优越的性能。

Continuum 机器人的智能和运动模型：概述

分类： 机器人技术

作者： Oxana Shamilyan, Ievgen Kabin, Zoya Dyka, Oleksandr Sudakov, Andrii Cherninskyi, Marcin Brzozowski, Peter Langendoerfer

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06171v1

摘要： 许多技术解决方案都是受生物启发的。受章鱼启发的机械臂属于连续体机器人，用于微创手术或难以进入区域的技术系统恢复。连续体机器人的任务与其运动有关，机器人的运动由人类通过无线通信控制。如果失去连接，则需要机器人自主。基于人工智能方法的分布式控制和分布式决策机制可能是实现技术系统自治并提高其弹性的有前途的解决方案。然而这些方法还没有得到很好的研究。章鱼是自然分布式智能的活生生的例子，但它们的学习和决策机制还没有得到充分的研究和理解。我们的主要兴趣是研究分布式人工智能的机制，作为提高复杂系统弹性的基础。我们决定使用能够为我们的研究执行一些基本动作的物理连续体机器人原型。这个想法是研究如何使技术系统能够自行将动作组合成动作序列。对于实验研究，必须选择合适的物理原型，必须实现其运动控制并实现自动化。在本文中，我们基于 98 篇出版物，结合分布式人工智能和连续体机器人等不同研究领域进行了概述。我们根据文献回顾，详细描述了连续体机器人的基本运动控制模型，讨论了自主性的不同方面，并对连续体机器人的物理原型进行了概述。

机器人技术中的适应性恢复行为：故障管理的行为树和运动生成器 (BTMG) 方法

分类： 机器人技术, 机器学习

作者： Faseeh Ahmad, Matthias Mayr, Sulthan Suresh-Fazeela, Volker Kreuger

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06129v1

摘要： 在动态操作环境中，特别是在协作机器人中，故障不可避免，因此需要稳健且适应性强的恢复策略。传统的自动恢复策略虽然对于预定义的场景有效，但通常缺乏动态任务管理和适应预期故障所需的灵活性。为了解决这一差距，我们提出了一种新颖的方法，将恢复行为建模为适应性强的机器人技能，利用行为树和运动生成器（BTMG）框架进行策略表示。这种方法的独特之处在于采用强化学习（RL）来动态优化恢复行为参数，从而能够以最少的人为干预对各种故障场景做出量身定制的响应。我们通过钉孔任务中一系列逐渐具有挑战性的场景来评估我们的方法，证明该方法在提高协作机器人环境中的操作效率和任务成功率方面的有效性。我们使用双臂 KUKA 机器人验证了我们的方法。

EVE：让任何人都可以使用增强现实训练机器人

分类： 人机交互, 机器人技术

作者： Jun Wang, Chun-Cheng Chang, Jiafei Duan, Dieter Fox, Ranjay Krishna

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06089v1

摘要： 机器人硬件的日益普及正在加速机器人融入日常活动。然而，训练机器人自动执行任务通常需要物理机器人和来自训练有素的人类注释者的昂贵的演示数据。因此，只有那些能够接触到实体机器人的人才能进行演示来训练机器人。为了缓解这个问题，我们推出了 EVE，这是一款 iOS 应用程序，使日常用户能够使用直观的增强现实可视化来训练机器人，而无需物理机器人。使用EVE，用户可以通过用手指定路径点、目视检查环境中的障碍物、修改现有路径点以及验证收集的轨迹来收集演示。在一项由三个常见桌面任务组成的用户研究（$N=14$，$D=30$）中，EVE 在成功率方面优于三个最先进的界面，并且与动觉教学（物理移动真实机器人）相当- 完成时间、可用性、动作意图交流、享受和偏好 ($mean_{p}=0.30$)。最后，我们列举了未来基于 AR 的机器人演示收集系统的局限性和设计注意事项。

苹果园机器人修剪的 3D 分支点云完成

分类： 机器人技术

作者： Tian Qiu, Alan Zoubi, Nikolai Spine, Lailiang Cheng, Yu Jiang

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.05953v1

摘要： 机器人树枝修剪是一个显着增长的研究领域，以应对农业中劳动力短缺的问题。机器人修剪的一项基本要求是感知树枝的详细几何形状和拓扑结构。然而，由于多种限制，在农业环境中获得的点云通常表现出不完整性，从而限制了下游机器人修剪的准确性。在这项工作中，我们通过基于模拟的深度神经网络解决了点云质量问题，利用真实到模拟（Real2Sim）数据生成管道，不仅消除了手动参数化的需要，而且保证了模拟的真实性数据。应用基于模拟的神经网络在现实世界的部分分支上联合执行点云补全和骨架化，无需额外的现实世界训练。 Sim2Real 定性完成和骨架化结果显示了该模型卓越的几何重建和拓扑预测能力。此外，我们通过使用原始不完整数据和完整数据比较分支级特征表征错误来定量评估 Sim2Real 性能。使用最佳完整数据，分支直径和分支角度估计的平均绝对误差（MAE）分别减少了 75% 和 8%，这表明了 Real2Sim 数据在零样本泛化设置中的有效性。表征的改进有助于提高机器人树枝修剪的精度和效率。

基于使用控制屏障函数的模型预测控制的动态环境中的机器人安全规划

分类： 机器人技术

作者： Zetao Lu, Kaijun Feng, Jun Xu, Haoyao Chen, Yunjiang Lou

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.05952v1

摘要： 在动态环境中实现避障对于机器人来说是一个具有挑战性的问题。模型预测控制（MPC）是处理此类问题的流行策略，最近的工作主要使用控制屏障函数（CBF）作为硬约束来确保系统状态保持在安全集中。然而，在拥挤的场景中，可能会因为不可行的问题而无法获得有效的解决方案，从而导致控制器性能下降。我们提出了一种新的 MPC 框架，该框架集成了 CBF 来解决动态环境中的避障问题，其中通过软化约束并引入精确惩罚来解决在整个预测范围内运行的硬约束引起的不可行性问题，促使机器人积极探索新路径。同时，将广义CBF扩展为控制器的单步安全约束，以增强机器人导航过程中的安全性。该方法的有效性首先通过采用双积分器系统和独轮系统的仿真实验得到证明，该方法在安全性、可行性和导航效率方面优于其他控制器。此外，在 MR1000 机器人上进行了实际实验，以证明该方法的有效性。

椅式非对称三足低刚度机器人的机身设计与步态生成

分类： 机器人技术

作者： Shintaro Inoue, Kento Kawaharazuka, Kei Okada, Masayuki Inaba

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.05932v1

摘要： 本研究基于电影《Suzume》中的三足椅子角色设计了椅子型非对称三足低刚度机器人，并生成了其步态。它的身体结构由与身体不对称的三条腿组成，因此不容易保持平衡。另外，执行器是伺服电机，只能前馈旋转角度指令，传感器只能感知机器人的姿态四元数。在这种不对称和不完美的身体结构中，我们通过使用两种不同的方法生成步态来分析步行和站立运动中步态是如何生成的：一种使用线性完成来连接通过反复试验发现的步态所需的姿势，该方法使用实际机器人，以及使用模拟器中强化学习生成的步态并将其反映到实际机器人的方法。两种方法都能够生成实现行走和站立运动的步态，并且观察到有趣的步态模式，该模式因方法而异，并且在实际机器人上得到了证实。我们的代码和演示视频可以在这里找到：https://github.com/shin0805/Chair-TypeAmetryalTripedalRobot.git

使用混合现实进行飞行机器人辅助医疗器械规划和执行

分类： 机器人技术

作者： Letian Ai, Yihao Liu, Mehran Armand, Amir Kheradmand, Alejandro Martin-Gomez

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05887v1

摘要： 机器人辅助医疗系统（RAMS）因其在减轻外科医生疲劳和改善患者治疗效果方面的优势而受到广泛关注。这些系统包含一系列人机交互，包括医疗场景监控、解剖目标规划和机器人操纵。然而，尽管 RAMS 具有多功能性和有效性，但它需要机器人技术方面的专业知识，从而导致操作员的学习成本很高。在这项工作中，我们介绍了一种使用混合现实技术来简化 RAMS 的使用的新颖框架。所提出的框架通过提供 3D 解剖图像叠加、人机碰撞检测和机器人编程接口来实现医疗器械的实时规划和执行。这些功能与易于使用的头戴式显示器校准方法相结合，提高了人机交互的有效性。为了评估该框架的可行性，本工作提出了两种医学应用：1）经颅磁刺激期间的线圈放置；2）股骨成形术期间的钻头和注射器装置定位。这些用例的结果证明了其扩展到更广泛的医疗场景的潜力。

CoBT：来自机器人操作演示的行为树协作编程

分类： 机器人技术

作者： Aayush Jain, Philip Long, Valeria Villani, John D. Kelleher, Maria Chiara Leva

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05870v2

摘要： 大规模定制和缩短制造周期对于中小型公司来说变得越来越重要。然而，传统的工业机器人很难应对产品变化和动态环境。在本文中，我们提出了 CoBT，一种用于生成反应式和模块化行为树的协作编程演示框架。 CoBT 依靠单一演示以及数据驱动的机器学习方法与基于逻辑的声明性学习的组合来学习任务，从而消除了对编程专业知识或长时间开发的需求。所提出的框架在 7 个操作任务上进行了实验验证，我们表明 CoBT 实现了大约。总体成功率为 93%，平均编程时间为 7.5 秒。我们与非专家用户进行了一项试点研究，以提供有关 CoBT 可用性的反馈。

机器人操作中避障的神经形态方法

分类： 机器人技术, 机器学习, 神经和进化计算

作者： Ahmed Faisal Abdelrahman, Matias Valdenegro-Toro, Maren Bennewitz, Paul G. Plöger

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05858v1

摘要： 神经形态计算在 $\textit{silico}$ 中模仿大脑的计算原理，并激发了对基于事件的视觉和尖峰神经网络 (SNN) 的研究。事件摄像机 (EC) 专门捕获局部强度变化，并提供卓越的功耗、响应延迟和动态范围。 SNN 复制生物神经元动力学，并已显示出作为传统人工神经网络 (ANN) 替代品的潜力，例如减少视觉分类中的能量消耗和推理时间。然而，这些新颖的范例在空中机器人领域之外仍然很少被探索。为了研究受大脑启发的传感和数据处理的实用性，我们开发了一种在配备摄像头的机械臂上避障的神经形态方法。我们的方法通过处理卷积 SNN 中的模拟事件数据、将神经激活解码为回避运动以及使用动态运动基元调整计划，采用反应性机动来调整高级轨迹计划。我们使用 Kinova Gen3 手臂进行了实验，该手臂执行简单的触及任务，这些任务涉及一组不同任务场景中的障碍，并与非自适应基线进行比较。我们的神经拟态方法有助于在模拟和现实实验中可靠地避免即将发生的碰撞，而在这些实验中，基线始终失败。轨迹调整对安全性和可预测性标准影响很小。 SNN 的显着特性包括计算与感知运动幅度的相关性以及对不同事件模拟方法的鲁棒性。使用 DAVIS346 EC 进行的测试显示出相似的性能，验证了我们的实验事件模拟。我们的结果激励结合 SNN 学习、利用神经形态处理器，并进一步探索神经形态方法的潜力。

揭示机器人过程自动化中的潜在主题——一种基于潜在狄利克雷分配智能审查的方法

分类： 计算机与社会

作者： Petr Prucha, Peter Madzik, Lukas Falat, Hajo A. Reijers

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05836v1

摘要： 机器人流程自动化（RPA）是一项近年来获得广泛关注和普及的软件技术。目前，RPA的研究已经扩展到多个研究领域。本研究旨在通过揭示与 RPA 相关的潜在主题、其研究兴趣、影响和时间发展，创建 RPA 及其各个方面的科学地图。我们提供了一个系统框架，有助于进一步开展这项技术的研究。通过使用基于潜在狄利克雷分配的无监督机器学习方法，我们能够分析 2000 多篇论文摘要。其中，我们发现了 100 个不同的研究主题，其中 15 个已包含在我们提供的科学地图中。

Humanoid-Gym：采用零样本 Sim2Real 迁移的人形机器人强化学习

分类： 机器人技术, 人工智能, 机器学习, 系统与控制, 系统与控制

作者： Xinyang Gu, Yen-Jen Wang, Jianyu Chen

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05695v1

摘要： Humanoid-Gym 是一个基于 Nvidia Isaac Gym 的易于使用的强化学习 (RL) 框架，旨在训练人形机器人的运动技能，强调从模拟到现实环境的零样本迁移。 Humanoid-Gym还集成了从Isaac Gym到Mujoco的sim-to-sim框架，允许用户在不同的物理模拟中验证训练好的策略，以确保策略的鲁棒性和泛化性。该框架由RobotEra的XBot-S（1.2米高的人形机器人）和XBot-L（1.65米高的人形机器人）在现实环境中进行了零样本模拟到真实传输的验证。项目网站和源代码可以在：https://sites.google.com/view/ humanoid-gym/ 找到。

OtterROS：使用 ROS 2 挑选和编程无人水面舰艇，用于实验现场机器人研究

分类： 机器人技术, 系统与控制, 系统与控制

作者： Thomas M. C. Sears, M. Riley Cooper, Sabrina R. Button, Joshua A. Marshall

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05627v1

摘要： 使用地面和空中移动机器人进行现场机器人研究有多种选择，但坚固且可用于研究的无人水面舰艇 (USV) 相对较少。本研讨会论文首先介绍了研究社区目前可用的 USV 快照，然后描述了“OtterROS”，这是一种适用于 Otter USV 的开源 ROS 2 解决方案。描述了使用 OtterROS 的现场实验，突出了 Otter USV 的实用性以及在水生机器人研究中使用 ROS 2 的好处。对于那些对 USV 研究感兴趣的人，本文详细介绍了运行 OtterROS 的推荐硬件，并包括使用 OtterROS 的示例 ROS 2 包，从而消除了现场机器人研究活动中不必要的非重复工程。

信息物理和机器人系统的随机在线优化

分类： 机器学习, 机器人技术

作者： Hao Ma, Melanie Zeilinger, Michael Muehlebach

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05318v1

摘要： 我们提出了一种新颖的基于梯度的在线优化框架，用于解决网络物理和机器人系统中经常出现的随机编程问题。我们的问题表述适应了对网络物理系统的演化进行建模的约束，该系统通常具有连续的状态和动作空间，是非线性的，并且状态只能被部分观察到。我们还将动力学的近似模型作为先验知识纳入学习过程中，并表明即使是动力学的粗略估计也可以显着提高算法的收敛性。我们的在线优化框架包含梯度下降和拟牛顿方法，并且我们在非凸设置中提供算法的统一收敛分析。我们还描述了系统动力学中的建模误差对算法收敛速度的影响。最后，我们在柔性梁、四足步行机器人的模拟以及乒乓球机器人的实际实验中评估我们的算法。

具有大语言模型的四足机器人的长视距运动和操纵

分类： 机器人技术

作者： Yutao Ouyang, Jinhan Li, Yunfei Li, Zhongyu Li, Chao Yu, Koushil Sreenath, Yi Wu

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05291v1

摘要： 我们提出了一个基于大型语言模型（LLM）的系统，使四足机器人具有解决问题的能力，可以完成短期运动之外的长期任务。四足动物的长视野任务具有挑战性，因为它们既需要对任务规划问题的语义有高度的理解，又需要广泛的运动和操作技能来与环境交互。我们的系统使用大型语言模型构建了高级推理层，该层根据任务描述生成混合离散连续计划作为机器人代码。它包含多个 LLM 代理：用于绘制计划的语义规划器、用于预测计划中参数的参数计算器以及用于将计划转换为可执行机器人代码的代码生成器。在底层，我们采用强化学习来训练一套运动规划和控制技能，以释放四足动物的灵活性，以实现丰富的环境交互。我们的系统在长期任务上进行了测试，这些任务无法仅靠一种技能来完成。模拟和现实世界的实验表明，它成功地找出了多步骤策略并展示了重要的行为，包括构建工具或通知人类寻求帮助。

通过仿生分布式合规性实现稳健的拟人机器人操作

分类： 机器人技术

作者： Kai Junge, Josie Hughes

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05262v1

摘要： 人类稳健地执行操作的令人印象深刻的能力依赖于顺从的相互作用，这是通过我们手中空间分布的结构和材料实现的。我们建议通过模仿拟人机器人手中的这种分布式顺应性，开环操作的鲁棒性会增加，并观察类人行为的出现。为了实现这一目标，我们推出了 ADAPT Hand，该手配备了整个皮肤、手指和手腕的可调节顺应性。通过广泛的自动拾放测试，我们展示了抓取稳健性，紧密反映了估计的几何理论极限，同时对机器人手进行了 800 多次抓取的“压力测试”。最终，在受限环境下抓取了 24 个几何形状差异很大的物品，成功率为 93%。我们证明了手-物体自组织行为强调了这种极端的鲁棒性，手根据物体的几何形状自动表现出不同的抓取类型。此外，机器人抓取类型模仿人类自然抓取，直接相似度为 68%。

MeSA-DRL：记忆增强型深度强化学习，用于拥挤环境中的高级社交意识机器人导航

分类： 机器人技术

作者： Mannan Saeed Muhammad, Estrella Montero

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05203v1

摘要： 由于环境的动态性和不可预测性，自主导航功能在人类交互至关重要的环境中运行的服务机器人中发挥着至关重要的作用。然而，人类行为的多变性给机器人预测和预测运动带来了巨大的挑战，特别是在拥挤的场景中。为了解决这个问题，提出了一种基于记忆的深度强化学习框架，用于不同行人场景中的自主机器人导航。所提出的框架利用长期记忆来保留有关周围环境的基本信息并有效地模拟顺序依赖关系。人机交互的重要性也被编码，以对这些交互给予更高的关注。全局规划机制被纳入支持内存的架构中。此外，多期限奖励系统旨在通过纳入动态警告区域来优先考虑和鼓励有远见的机器人行为。同时，它还能促进平滑的轨迹，并最大限度地减少机器人达到预期目标所需的时间。大量的模拟实验表明，所提出的方法优于代表性的最先进方法，展示了其在现实场景中提高导航效率和安全性的能力。

LLM-BT：基于大型语言模型和行为树执行机器人自适应任务

分类： 机器人技术

作者： Haotian Zhou, Yunhan Lin, Longwu Yan, Jihong Zhu, Huasong Min

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05134v1

摘要： 大型语言模型（LLM）已被广泛用于执行复杂的机器人任务。然而，处理任务期间的外部干扰仍然是一个公开的挑战。本文提出了一种基于 LLM 和行为树（BT）来实现机器人自适应任务的新方法。它利用 ChatGPT 来推理任务的描述性步骤。为了使 ChatGPT 能够理解环境，通过对象识别算法构建语义图。然后，我们设计了一个基于 Transformers 双向编码器表示（BERT）的解析器模块，将这些步骤解析为初始 BT。随后，提出了一种BT更新算法来动态扩展初始BT来控制机器人执行自适应任务。与其他基于LLM的复杂机器人任务方法不同，我们的方法输出可变BT，可以根据环境变化添加和执行新动作，对外部干扰具有鲁棒性。我们的方法通过不同实际场景的模拟得到验证。

Rollbot：由单个执行器驱动的球形机器人

分类： 机器人技术, 系统与控制, 系统与控制

作者： Jingxian Wang, Michael Rubenstein

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05120v1

摘要： 在这里，我们推出了 Rollbot，这是第一个能够使用单个执行器在 2D 平面上进行可控操纵的球形机器人。滚动机器人在地面上以圆形方式滚动，并通过加速和减速其单个电机和附加质量来改变轨迹的曲率来控制其运动。我们介绍了 Rollbot 的理论分析、设计和控制，并展示了其以可控圆形模式移动和遵循路径点的能力。

Legibot：使用基于成本的本地规划器为服务机器人生成清晰的动作

分类： 机器人技术

作者： Javad Amirian, Mouad Abrini, Mohamed Chetouani

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.05100v1

摘要： 随着社交机器人在各种环境和应用中的出现越来越多，人们越来越需要这些机器人表现出符合社交的行为。清晰的运动，其特点是机器人能够通过其运动清晰、快速地向其附近的个人传达意图和目标，在这种情况下具有重要意义。这将改善人类环境中机器人的整体用户体验和接受度。在本文中，我们介绍了一种将易读性纳入移动机器人局部运动规划的新颖方法。这可以使机器人在实时和动态环境中产生清晰的运动。为了证明我们提出的方法的有效性，我们还提供了一个机器人堆栈，旨在通过集成感知和定位组件在社交机器人中部署易读性感知运动规划。

PCBot：专为群体应用设计的极简机器人

分类： 机器人技术

作者： Jingxian Wang, Michael Rubenstein

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.05087v1

摘要： 单个机器人驱动的复杂性、成本和功率要求是限制机器人群规模的重要因素。在这里，我们介绍 PCBot，这是一款极简机器人，可以使用直接内置于 PCB 中的双稳态电磁执行器在轨道振动台上精确移动。这使得执行器能够作为自动化 PCB 制造流程的一部分进行构建，从而大大减少其对手动组装的影响。得益于这种新颖的执行器设计，PCBot 仅由五个主要部件组成，并且可以在 20 秒内完成组装，从而可以轻松实现大规模制造。在这里，我们介绍 PCBot 的电磁和机械设计。此外，原型机器人用于演示其直线移动以及遵循给定路径的能力。

通过机器人定位误差最小化在基于 TDOA 的系统中进行自适应锚对选择

分类： 机器人技术, 信号处理

作者： Marcin Kolakowski

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.05067v1

摘要： 下面的论文提出了一种基于超宽带（UWB）到达时间差（TDOA）的定位系统的自适应锚对选择方法。该方法将系统覆盖的区域划分为多个区域，并为其分配锚对组。配对组是在校准期间根据定位均方根误差 (RMSE) 确定的。校准假设驾驶配备 LiDAR 传感器和 UWB 标签的移动平台通过指定区域。该机器人基于大量不同的 TDOA 对并使用 LiDAR 作为参考进行单独定位。对于每个区域，选择注册的 RMSE 最低的 TDOA 对组，并将其用于日常系统工作中的定位。所提出的方法已经通过模拟和实验进行了测试。模拟静态和实验动态场景的结果都证明，锚节点的自适应选择可以提高定位精度。在实验中，移动人物定位的中位轨迹误差为 25 厘米。

共同设计无障碍公共机器人：行动不便人士、机器人从业者及其合作的见解

分类： 人机交互

作者： Howard Ziyu Han, Franklin Mingzhe Li, Alesandra Baca Vazquez, Daragh Byrne, Nikolas Martelaro, Sarah E Fox

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.05050v1

摘要： 人行道机器人在全球范围内越来越普遍。然而，它们在公共道路上的运营给行动不便的人（PwMD）带来了挑战，他们面临着无障碍障碍，例如路边削减不足。我们采访了 15 位残疾人士，了解他们如何看待人行道机器人。调查结果表明，残疾人管理局认为，当引入机器人时，他们必须争夺人行道上的空间。接下来我们采访了八位机器人从业者，了解他们对无障碍的态度。从业者描述了问题通常是由机器人公司在问题出现后才解决可访问性问题造成的。两个采访小组都强调了从一开始就整合可访问性的重要性。基于这一发现，我们与 PwMD 和从业者配对举办了四次联合设计研讨会。这些会议满足了在公共空间和公共利益中运行的机器人的无障碍需求。我们的研究旨在为公共服务机器人更具包容性的未来奠定基础。

StaccaToe：模仿人类腿部和脚趾的单腿机器人

分类： 机器人技术

作者： Nisal Perera, Shangqun Yu, Daniel Marew, Mack Tang, Ken Suzuki, Aidan McCormack, Shifan Zhu, Yong-Jae Kim, Donghyun Kim

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.05039v1

摘要： 我们推出了 StaccaToe，这是一种人体尺寸、电动马达驱动的单腿机器人，旨在通过两个独特的属性来与人类运动的敏捷性相媲美：驱动的脚趾和受人类腿部启发的共同驱动配置。利用 HyperLeg 小腿机构的基础设计，我们通过结合新的连杆设计、定制设计的电力电子设备和精致的控制系统来开发独立机器人。与之前依赖特殊机构（例如弹簧和离合器）或液压/气动执行器的跳跃机器人不同，StaccaToe 采用没有储能机构的电动机。这一选择强调了我们的最终目标：开发一款实用、高性能的人形机器人，能够像人类一样稳定行走以及爆发性的动态运动。在本文中，我们的目的是实证评估我们的脚趾和协同驱动机构的平衡能力和爆炸性地面反作用力的施加。在广泛的硬件和控制器开发过程中，StaccaToe 通过展示平衡的踮脚姿势和动态跳跃来展示其控制保真度。这项研究具有重要意义，主要有以下三个原因：1) StaccaToe 代表了第一个人体规模、电动马达驱动的单腿机器人，无需依赖专门的机制即可执行动态操作； 2）我们的研究提供了在机器人设计中复制关键人类腿部属性的好处的经验证据； 3）我们解释了创建敏捷腿式机器人的设计过程，这些细节在学术文献中很少涉及。

PathFinder：使用移动机器人进行注意力驱动的动态非视线跟踪

分类： 计算机视觉和模式识别, 机器人技术

作者： Shenbagaraj Kannapiran, Sreenithy Chandran, Suren Jayasuriya, Spring Berman

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.05024v1

摘要： 非视距 (NLOS) 成像的研究不断增长，因为它具有许多潜在的应用，包括救援行动和自动驾驶汽车的行人检测。然而，在移动相机上实现非视距成像仍然是一个开放的研究领域。现有的非视距成像方法依赖于时间分辨探测器和需要精确光学对准的激光配置，因此很难在动态环境中部署它们。这项工作提出了一种数据驱动的非视距成像方法 PathFinder，它可以与安装在小型、功率受限的移动机器人（例如无人机）上的标准 RGB 相机一起使用。我们的实验流程旨在准确估计在曼哈顿世界环境中移动的人的 2D 轨迹，同时保持隐藏在相机视野之外。我们引入了一种新颖的方法，使用基于注意力的神经网络实时执行推理来处理视线 (LOS) 视频中的一系列动态连续帧。该方法还包括预处理选择度量，该度量分析来自移动摄像机的图像，其中包含多个垂直平面（例如墙壁和建筑物外墙），并提取返回最大非视距信息的平面。我们使用无人机进行视频捕获在野外场景中验证了该方法，从而在动态捕获环境中展示了低成本的非视距成像。

RoboMP$^2$：具有多模态大语言模型的机器人多模态感知规划框架

分类： 机器人技术

作者： Qi Lv, Hao Li, Xiang Deng, Rui Shao, Michael Yu Wang, Liqiang Nie

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04929v1

摘要： 多模态大语言模型（MLLM）在各个领域都表现出了令人印象深刻的推理能力和通用智能。它激励研究人员训练端到端 MLLM 或利用大型模型来生成带有人类选择的具体代理提示的策略。然而，这些方法对看不见的任务或场景的泛化能力有限，并且忽略了对机器人做出决策至关重要的多模态环境信息。在本文中，我们介绍了一种用于机器人操作的新型机器人多模态感知规划（RoboMP$^2$）框架，该框架由目标条件多模态感知器（GCMP）和检索增强多模态规划器（RAMP）组成。特别是，GCMP 通过为具有语义推理和本地化能力的具体代理采用定制的 MLLM 来捕获环境状态。 RAMP 利用从粗到细的检索方法来查找 $k$ 最相关的策略作为上下文演示，以增强规划器。大量实验证明了 RoboMP$^2$ 在 VIMA 基准和实际任务上的优越性，比基线提高了约 10%。

通过演示学习自适应多目标机器人导航

分类： 机器人技术

作者： Jorge de Heuvel, Tharun Sethuraman, Maren Bennewitz

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04857v1

摘要： 人类环境中的偏好一致的机器人导航通常是通过基于学习的方法来实现的，利用演示和用户反馈来实现个性化。然而，个人偏好可能会发生变化，甚至可能取决于具体情况。然而，具有静态奖励函数的传统强化学习（RL）方法通常无法适应这些不同的用户偏好。本文介绍了一个将多目标强化学习（MORL）与基于演示的学习相结合的框架。我们的方法允许动态适应不断变化的用户偏好，而无需重新培训。通过严格的评估，包括模拟到真实以及机器人到机器人的传输，我们展示了我们的框架能够准确反映用户偏好，同时在避免碰撞和目标追求方面实现高导航性能。

EnQuery：机器人导航偏好对齐中多样化查询生成的集成策略

分类： 机器人技术

作者： Jorge de Heuvel, Florian Seiler, Maren Bennewitz

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04852v1

摘要： 为了通过人类反馈的强化学习（RLHF）使移动机器人导航策略与用户偏好保持一致，需要可靠且行为多样化的用户查询。然而，确定性策略无法为给定的导航任务配置生成各种导航轨迹建议。我们引入 EnQuery，这是一种查询生成方法，使用一组策略通过正则化项实现行为多样性。对于给定的导航任务，EnQuery 会生成多个导航轨迹建议，从而以更少的查询优化偏好数据收集的效率。我们的方法展示了在低查询状态下将导航策略与用户偏好相匹配的卓越性能，通过稀疏偏好查询提供增强的策略收敛。该评估辅以新颖的可解释性表示，在单个图中捕获移动机器人的全场景导航行为。

机器人分拣系统：机器人管理和布局设计优化

分类： 优化与控制

作者： Tong Zhao, Xi Lin, Fang He, Hanwen Dai

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04832v1

摘要： 在当代物流行业中，自动化对于提高生产效率、扩大产业规模发挥着举足轻重的作用。特别是自主移动机器人已经成为仓库现代化工作不可或缺的一部分。机器人仓储中一个值得注意的应用是机器人分拣系统（RSS），其特点是成本效益、简单性、可扩展性和适应性吞吐量控制等。虽然之前的研究重点是分析 RSS 的效率，但它通常假设理想的机器人管理系统通过假设恒定的行程时间来忽略潜在的排队延迟。本研究放松了这一假设，并探讨了 RSS 配置参数与系统吞吐量之间的定量关系。我们引入了一种新颖的机器人流量管理方法，称为分拣场景节奏控制（RC-S），用于 RSS 操作，配备了建立系统性能和配置之间关系的估计公式。仿真验证，与经典协作 A* 算法相比，RC-S 平均服务时间减少了 10.3%，同时还提高了吞吐量和运行时间。基于 RC-S 的性能分析，我们进一步开发了 RSS 布局优化模型，考虑 RSS 配置、所需吞吐量和成本，以最小化费用并确定最佳布局。数值研究表明，在较低的吞吐量水平下，设施成本占主导地位，而在较高的吞吐量水平下，劳动力成本占主导地位。此外，由于流量效率限制，RSS 非常适合供应链末端配送中心等小规模运营。

通过迭代动作掩蔽学习对机器人码垛任务规划器进行高效强化学习

分类： 机器人技术

作者： Zheng Wu, Yichuan Li, Wei Zhan, Changliu Liu, Yun-Hui Liu, Masayoshi Tomizuka

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04772v1

摘要： 物流场景中码垛机器人系统的开发至关重要，可以满足供应链管理中关键的效率和精度要求。本文研究了强化学习（RL）在增强此类机器人系统的任务规划中的应用。面对巨大的动作空间的巨大挑战，这是有效应用现成的强化学习方法的重大障碍，我们的研究引入了一种利用监督学习来有效地迭代修剪和管理动作空间的新方法。通过降低动作空间的复杂性，我们的方法不仅加速了学习阶段，而且确保了机器人码垛任务规划的有效性和可靠性。实验结果强调了该方法的有效性，突显了其在提高 RL 应用在物流托盘等复杂和高维环境中的性能方面的潜力。

EAGLE：敏捷四足机器人收集的第一个事件摄像机数据集

分类： 机器人技术

作者： Shifan Zhu, Zixun Xiong, Donghyun Kim

发布时间： 2024-04-06

链接： http://arxiv.org/abs/2404.04698v1

摘要： 当腿式机器人进行敏捷运动时，传统的 RGB 相机经常会产生模糊的图像，这给准确的状态估计带来了挑战。受生物视觉机制的启发，事件相机因其低延迟、高时间分辨率和高动态范围等显着优势，已成为捕捉高速运动和应对具有挑战性的照明条件的有前途的解决方案。然而，将事件相机集成到敏捷腿机器人中仍然很大程度上尚未被探索。值得注意的是，目前还没有专门为动态腿机器人开发基于事件相机的数据集。为了弥补这一差距，我们引入了 EAGLE（AGile LEgged 机器人的事件数据集），这是一个新的数据集，包含来自事件相机、RGB-D 相机、IMU、LiDAR 和关节角度编码器的数据，所有这些都安装在四足动物上机器人平台。该数据集包含来自现实环境的 100 多个序列，包括各种室内和室外环境、不同的照明条件、一系列机器人步态（例如小跑、跳跃、前蹲）以及后空翻等杂技动作。据我们所知，这是第一个包含敏捷四足机器人收集的多感官数据的事件相机数据集。

TeleAware 机器人：设计用于远程协作运动的意识增强远程呈现机器人

分类： 人机交互, H.5.2

作者： Ruyi Li, Yaxin Zhu, Min Liu, Yihang Zeng, Shanning Zhuang, Jiayi Fu, Yi Lu, Guyue Zhou, Can Liu, Jiangtao Gong

发布时间： 2024-04-06

链接： http://arxiv.org/abs/2404.04579v1

摘要： 远程呈现机器人可用于支持用户远程导航环境并与社交伙伴分享访问体验。尽管此类系统允许用户看到和听到远程环境并通过实时视频馈送与其合作伙伴进行通信，但这并不能提供对环境及其远程合作伙伴的活动的足够认识。在本文中，我们介绍了一种在现场和远程用户一起访问某个地方的场景中协作移动的感知框架。通过对一小群人参观展览的观察研究，我们得出了四个旨在增强社会伙伴之间的环境和社会意识的设计目标，并开发了一套意识增强技术，添加到标准远程呈现机器人中 - 名为 TeleAware 机器人。通过一项模拟引导展览参观任务的对照实验，TeleAware 机器人与标准机器人相比，显示出降低工作量、促进更紧密的社交距离、提高相互意识和社交存在感的能力。我们讨论了本地和远程用户的移动性和角色的影响，并为促进协作运动的增强意识远程呈现机器人系统的未来设计提供了见解。

JRDB-Social：用于理解社会群体内人类互动的背景和动态的多方面机器人数据集

分类： 计算机视觉和模式识别

作者： Simindokht Jahangard, Zhixi Cai, Shiki Wen, Hamid Rezatofighi

发布时间： 2024-04-06

链接： http://arxiv.org/abs/2404.04458v1

摘要： 理解人类社会行为对于计算机视觉和机器人技术至关重要。像个人行为这样的微观层面的观察是不够的，需要一种综合的方法来考虑个人行为、群体内动态和社会群体水平，以进行彻底的理解。为了解决数据集限制，本文引入了 JRDB-Social，它是 JRDB 的扩展。 JRDB-Social 旨在填补人类在不同的室内和室外社交环境中的理解空白，提供三个级别的注释：个人属性、群体内互动和社会群体环境。该数据集旨在增强我们对机器人应用的人类社会动态的掌握。利用最新的尖端多模态大语言模型，我们评估了我们的基准，以探索它们破译人类社会行为的能力。

机器人腹腔镜手术中自适应远程运动中心的准入控制

分类： 机器人技术

作者： Ehsan Nasiri, Long Wang

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04416v1

摘要： 在腹腔镜机器人辅助微创手术中，机器人的运动控制受到患者体内入口（例如套管针）处的远程运动中心（RCM）约束。在手术期间，在通过套管针插入器械后，固有的生理运动（例如患者的心跳、呼吸过程和/或其他有目的的身体重新定位）可能会偏离入口的位置。这可能会导致注册的 RCM 和移动的入境口岸之间发生冲突。为了缓解这种冲突，我们寻求利用 RCM 的互动力量。我们开发了一种新颖的框架，将导纳控制集成到 RCM 运动学约束的冗余解析方法中。所提出的框架利用仪器驱动机构 (IDM) 基础上的力/扭矩传感反馈来估计 RCM 处的力，拒绝施加在仪器沿线其他位置的力，并将它们用于导纳控制器中。在本文中，我们报告了运动学模拟的分析，以验证所提出的框架。此外，硬件平台已经完成，下一步计划进行实验验证。

用于基于自主地面激光扫描的现场表型分析的地面移动机器人

分类： 机器人技术

作者： Javier Rodriguez-Sanchez, Kyle Johnsen, Changying Li

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04404v1

摘要： 传统的田间表型分析方法通常是手动的、耗时的且具有破坏性，给育种进展带来了挑战。为了解决这一瓶颈，机器人和自动化技术提供了高效的传感工具来监测整个季节的田间演变和作物发育。本研究旨在开发一种自主地面机器人系统，用于植物育种试验中基于激光雷达的现场表型分析。 Husky 平台配备了高分辨率三维 (3D) 激光扫描仪，无需人工干预即可收集现场地面激光扫描 (TLS) 数据。为了自动化 TLS 过程，实施了 3D 射线投射分析以实现最佳 TLS 站点规划，并利用路线优化算法来最大限度地减少数据收集期间的行进距离。该平台部署在两个棉花育种田进行评估，自主收集TLS数据。该系统通过RTK-GNSS定位和传感器融合技术提供准确的位姿信息，位置平均误差小于0.6厘米，航向误差小于0.38$^{\circ}$。与依赖人工目标和手动传感器部署的传统 TLS 方法相比，所实现的定位精度允许点云配准平均点误差约为 2 厘米。这项工作提出了一个自主表型平台，有助于在大型农田和小型育种试验的田间条件下对植物性状进行定量评估，以促进植物表型组学和育种计划的进步。

工作中的人形机器人：我们在哪里？

分类： 计算机与社会, 人机交互, 机器人技术

作者： Fabrice R. Noreils

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04249v1

摘要： 由埃隆·马斯克和他的擎天柱发起的，我们正在见证一场新的竞赛，许多公司已经参与其中。其目标是在 2 至 3 年内将新一代人形机器人投入到苛刻的工业环境中。这个目标现实吗？本文件的目的及其主要贡献是通过涵盖以下主题来提供一些提示：首先，根据八个标准对 12 家公司进行分析，这将有助于我们根据成熟度和市场方式来区分公司；其次，由于这些类人机器人是非常复杂的系统，我们将概述要解决的技术挑战；第三，当大规模部署类人机器人时，操作和维护变得至关重要，我们将探索这些复杂机器的新功能；最后，试点是大规模部署之前测试新系统可行性的最后一步。这是测试产品成熟度和人形供应商应对市场的策略的重要一步，我们将讨论两种实用的方法。

通过混合密度网络对肌腱驱动连续体机器人的运动学不确定性进行建模

分类： 机器人技术

作者： Jordan Thompson, Brian Y. Cho, Daniel S. Brown, Alan Kuntz

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04241v1

摘要： 肌腱驱动的连续机器人运动学模型通常计算成本昂贵，或者由于未建模的效应而不准确，或者两者兼而有之。特别是，未建模的效应会产生机器人操作过程中出现的不确定性，从而导致最终几何形状的变化。我们通过开发高斯混合运动学模型提出了解决这些问题的新颖方法。我们训练混合密度网络以输出给定当前肌腱位移的机器人几何形状的高斯混合模型表示。该模型计算的概率分布比输出单个几何形状的模型更能代表给定配置下几何形状的真实分布，同时还减少了计算时间。我们通过轨迹优化方法演示了该模型的一种用途，该方法明确地解释了工作空间的不确定性，以最大限度地减少碰撞概率。

使用生成模型的软机器人交互的多模态感知

分类： 机器人技术, 人工智能, 机器学习

作者： Enrico Donato, Egidio Falotico, Thomas George Thuruthel

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04220v1

摘要： 感知对于物理主体与外部环境的主动交互至关重要。触觉和视觉等多种感官方式的整合增强了这种感知过程，创造了对世界更全面、更深入的理解。这种融合对于高度变形的物体（例如软机器人）特别有用。根据多传感器输入开发紧凑而全面的状态表示可以为复杂控制策略的开发铺平道路。本文介绍了一种感知模型，该模型可以协调来自不同模式的数据，以构建整体状态表示并吸收基本信息。该模型依赖于感官输入和机器人动作之间的因果关系，采用生成模型来有效压缩融合信息并预测下一个观察结果。我们首次提出了一项关于如何从软机器人的视觉和本体感觉预测触摸、跨模式生成的重要性以及为什么这对于非结构化环境中的软机器人交互至关重要的研究。

用于软机器人手动操作的基于强化学习的控制器的持续策略蒸馏

分类： 机器人技术, 人工智能, 机器学习

作者： Lanpei Li, Enrico Donato, Vincenzo Lomonaco, Egidio Falotico

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04219v1

摘要： 通常由多指机器人手实现的灵巧操作对现实世界的应用具有坚实的影响。软机器人手由于其顺应性，在物体抓取和操作过程中提供灵活性和适应性。然而，好处也伴随着挑战，特别是在手指协调的控制开发方面。强化学习（RL）可用于训练特定于对象的手中操作策略，但限制了适应性和泛化性。我们引入了持续策略蒸馏（CPD）框架来获取用于手动操作的多功能控制器，以在四指软抓手内旋转不同形状和大小的物体。该框架利用政策蒸馏（PD）将知识从专家政策转移到不断发展的学生政策网络。然后整合基于范例的排练方法，以减轻灾难性遗忘并增强泛化能力。 CPD 框架在各种重放策略上的性能证明了其在整合多个专家的知识以及实现手动操作任务的多功能和自适应行为方面的有效性。

多区域的概率通知机器人对象搜索

分类： 机器人技术

作者： Matthew Collins, Jared J. Beard, Nicholas Ohi, Yu Gu

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04186v1

摘要： 在危险环境中越来越多地使用自主机器人系统凸显了高效搜索和救援行动的需求。尽管取得了显着的进步，但现有的目标搜索文献在克服长期规划的困难和处理传感器限制（例如噪声）方面往往存在不足。本研究引入了一种新颖的方法，将搜索问题表述为带有选项的置信马尔可夫决策过程 (BMDP-O)，使蒙特卡罗树搜索 (MCTS) 成为克服大规模环境中这些挑战的可行工具。所提出的公式结合了在感兴趣区域之间移动的动作序列（选项），使算法能够有效地扩展到大型环境。这种方法还可以使用可定制的视野，与多种类型的传感器一起使用。实验结果证明，与没有选项和替代工具（例如后退地平线规划器）的问题相比，这种方法在大型环境中具有优越性。鉴于所提出的公式的计算时间相对较长，因此提出了进一步近似的“精简”公式。精简公式可以以相当数量的步骤以更快的计算速度找到对象。

设计机器人来帮助女性

分类： 机器人技术, 人机交互

作者： Martin Cooney, Lena Klasén, Fernando Alonso-Fernandez

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04123v1

摘要： 机器人的设计目的是为了在越来越多的环境中为人们提供帮助，但迄今为止，似乎很少有人关注女性的具体需求，女性约占世界人口的一半，但在机器人领域的代表性却严重不足。在这里，我们使用推测性原型设计方法来探索这个广阔的设计空间：首先，我们确定了一些潜在的有趣挑战，包括对女性影响尤为严重的犯罪和疾病，以及设计师的潜在机会，这些都在五个草图中形象化。然后，通过开发原型机，进一步探索了所描绘的场景之一，该原型机是配备计算机视觉的机器人辅助无人机，可以检测可用于监视女性的隐藏摄像头。虽然对象检测引入了一些错误，但隐藏摄像机的识别准确度合理，达到 80%（交并集 (IoU) 分数：0.40）。我们的目标是，所确定的挑战和机遇可以帮助激发讨论并激励设计师，通过负责任地使用技术来实现更安全、更具包容性的未来。

电液机器人肩部的自感知反馈控制

分类： 机器人技术

作者： Clemens C. Christoph, Amirhossein Kazemipour, Michel R. Vogt, Yu Zhang, Robert K. Katzschmann

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04079v1

摘要： 人类的肩膀及其盂肱关节、肌腱、韧带和肌肉可以精确高效地执行复杂的任务。然而，当前的机器人肩部设计缺乏生物肩部固有的顺应性和紧凑性。这些设计的一个主要限制是它们对旋转编码器等外部传感器的依赖，这限制了机械接头设计并给系统带来了体积。为了解决这一限制，我们提出了一种具有两个自由度的仿生对抗机器人肩部，由自感应液压放大自愈静电执行器提供动力。我们的人造肌肉设计将高压静电驱动与一对低压自感电极解耦。这种方法允许对任务空间中的轨迹进行本体感受反馈控制，同时消除任何额外传感器的必要性。我们通过将平台与基于运动捕捉系统提供的位置数据的反馈控制进行比较来评估该平台的功效。该研究展示了基于电动液压执行器固有的自感知能力的闭环可控机器人操纵器。所提出的架构可以作为复杂肌肉骨骼关节布置的基础。

用于社交机器人导航的双向人类交互人工智能框架

分类： 机器人技术

作者： Tuba Girgin, Emre Girgin, Yigit Yildirim, Emre Ugur, Mehmet Haklidir

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04069v1

摘要： 可信度是人机交互中的一个重要概念。协作机器人的决策过程必须透明，尤其是在以人为本的环境中运行时。本文提出了一个全面的端到端框架，旨在在协作环境中促进可信赖的双向人机交互，以实现移动机器人的社交导航。我们的方法使移动机器人能够预测人们的轨迹并以社交意识的方式调整其路线。如果通过视觉检查检测到人类和机器人决策之间存在冲突，则会根据人类偏好动态修改路线，同时保持口头交流。我们展示了我们的流程、框架设计和初步实验，这些构成了我们主张的基础。

VoicePilot：利用大语言模型作为物理辅助机器人的语音接口

分类： 机器人技术, 计算和语言, 人机交互

作者： Akhil Padmanabha, Jessie Yuan, Janavi Gupta, Zulekha Karachiwalla, Carmel Majidi, Henny Admoni, Zackory Erickson

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04066v1

摘要： 身体辅助机器人提供了一个机会，可以显着提高患有运动障碍或其他形式的残疾且无法完成日常生活活动的个人的福祉和独立性。语音接口，尤其是利用大型语言模型 (LLM) 的语音接口，可以使个人能够有效、自然地向机器人传达高级命令和细微的偏好。已经提出了将大语言模型集成为机器人接口以进行高级任务规划和代码生成的框架，但未能纳入以人为本的考虑因素，而这在开发辅助界面时至关重要。在这项工作中，我们提出了一个将大语言模型纳入物理辅助机器人语音接口的框架，该框架通过涉及喂养机器人的 3 个测试阶段迭代构建，最终对独立生活设施中的 11 名老年人进行了评估。我们使用最终研究中的定量和定性数据来验证我们的框架，并另外提供使用大语言模型作为辅助机器人语音接口的设计指南。视频和支持文件位于我们的项目网站上：https://sites.google.com/andrew.cmu.edu/voicepilot/

实现机器人安全使用边缘或尖头物体：建立人类手部伤害保护数据库的替代研究

分类： 机器人技术

作者： Robin Jeanne Kirschner, Carina M. Micheler, Yangcan Zhou, Sebastian Siegner, Mazin Hamad, Claudio Glowalla, Jan Neumann, Nader Rajaei, Rainer Burgkart, Sami Haddadin

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04004v1

摘要： 使用尖头或有边缘的工具或物体是当今物理人机交互（pHRI）应用中最具挑战性的方面之一。其原因之一是，与钝性冲击器相比，对此类有刃或尖头冲击器造成伤害的严重性的研究较少。因此，这些标准规定了钝性冲击器合理的力和压力阈值，并建议避免接触中的任何边缘和角落。然而，在实际 pHRI 应用中不能完全排除尖头或边缘冲击器几何形状。例如，为了允许操作员附近使用螺丝刀等锋利或尖锐的工具，需要扩展对伤害严重程度的了解，以便机器人集成商能够执行合理、高效的风险评估。在本文中，我们基于人手替代品（即猪爪和鸡腿）的跌落测试提供了人手伤害预防的初始数据集。然后，我们使用两个示例的接触数据集来演示机器人使用的简便性和效率。最后，我们的实验提供了一组在碰撞中某些机器人质量速度星座下也可能对人类受试者造成的伤害。为了扩展这项工作，需要对人体样本进行测试，并与世界各地的研究机构合作，为任何 pHRI 场景创建一个全面的人体伤害避免数据库，从而实现安全的 pHRI 应用，包括边缘和尖头的几何形状。

POMDP 引导的基于主动力的机器人插入搜索

分类： 机器人技术

作者： Chen Wang, Haoxiang Luo, Kun Zhang, Hua Chen, Jia Pan, Wei Zhang

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.03943v1

摘要： 在不确定性超过允许公差的机器人插入任务中，良好的搜索策略对于成功插入至关重要，并显着影响效率。常用的盲目搜索方法既耗时又无法利用丰富的联系信息。在本文中，我们提出了一种新颖的搜索策略，该策略主动利用联系人配置中包含的信息并显示出高效率。特别是，我们根据对接触配置静态稳定性的深入分析，将这个问题表述为部分可观察马尔可夫决策过程（POMDP），并使用精心设计的原语。从制定的 POMDP 中，我们可以得出一种新颖的搜索策略。由于其简单性，该搜索策略可以合并到有限状态机 (FSM) 控制器中。 FSM 控制器的行为是通过低级笛卡尔阻抗控制器实现的。我们的方法纯粹基于机器人的本体感觉，不需要视觉或触觉传感器。为了评估我们提出的策略和控制框架的有效性，我们在模拟中进行了广泛的比较实验，将我们的方法与基线方法进行了比较。结果表明，与基线方法相比，我们提出的方法以更短的搜索时间和搜索轨迹长度实现了更高的成功率。此外，我们还表明我们的方法对各种初始位移误差具有鲁棒性。

多机器人系统中的快速 k 连接恢复以实现稳健的通信维护

分类： 机器人技术

作者： Md Ishat-E-Rabban, Guangyao Shi, Griffin Bonner, Pratap Tokekar

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03834v1

摘要： 维持强大的通信网络对于多机器人团队共同执行优化任务的成功起着重要作用。鲁棒协作多机器人系统的一个关键特征是能够在机器人发生故障时修复通信拓扑。在本文中，我们重点研究快速 k 连接恢复（FCR）问题，该问题旨在修复网络，使其以最小的机器人运动实现 k 连接。我们开发了 FCR 问题的二次约束程序 (QCP) 公式，它提供了一种最佳解决问题的方法，但由于计算开销较高而无法处理大型实例。因此，我们使用图论概念提出了一种可扩展的算法，称为 EA-SCR，用于解决 FCR 问题。通过进行实证研究，我们证明 EA-SCR 算法的性能与最优算法相差 10% 以内，同时速度快了几个数量级。我们还表明，就 FCR 距离指标而言，EA-SCR 的性能比现有解决方案高出 30%。

通过学习深度解码器网络解决非线性布线肌腱驱动连续体机器人正向运动学中的滞后现象

分类： 机器人技术

作者： Brian Y. Cho, Daniel S. Esser, Jordan Thompson, Bao Thach, Robert J. Webster III, Alan Kuntz

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03816v1

摘要： 肌腱驱动的连续体机器人由于能够围绕复杂的解剖结构弯曲，从而可能减少手术的侵入性，因此在医疗应用中越来越受欢迎。然而，需要精确的建模来规划和控制这些柔性机器人的运动。由于未建模的影响，基于物理的模型存在局限性，导致模型预测与实际机器人形状之间不匹配。最近提出的基于学习的方法已被证明可以克服其中一些限制，但没有考虑滞后现象，而滞后现象是这些机器人的重要误差来源。为了克服这些挑战，我们提出了一种新颖的深度解码器神经网络，该网络使用点云作为形状表示来预测肌腱驱动机器人的完整形状，并以先前的配置为条件来解释滞后现象。我们在物理肌腱驱动机器人上评估了我们的方法，并表明我们的网络模型准确地预测了机器人的形状，显着优于最先进的基于物理的模型和不考虑滞后的基于学习的模型。

清晰、主动的机器人规划，实现亲社会人机交互

分类： 机器人技术, 系统与控制, 系统与控制

作者： Jasper Geldenbott, Karen Leung

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03734v1

摘要： 尽管人类行为固有的复杂性和不确定性，但人类在拥挤的导航任务中具有流畅地避免联合碰撞的非凡能力。这些互动的基础是一种相互理解，即（i）个人是亲社会的，即在避免碰撞方面有公平的责任，以及（ii）个人的行为应该清晰，即以明确传达其意图的方式移动，以减少歧义他们打算如何避开他人。为了构建能够安全、无缝地与人类交互的机器人，我们提出了一个通用的机器人轨迹规划框架，用于综合清晰和主动的行为，并证明我们的机器人规划器自然会导致亲社会交互。具体来说，我们引入了标记因子的概念来激励清晰和主动的行为，并引入不便的预算约束来确保公平的避免碰撞责任。我们根据完善的多智能体规划算法评估我们的方法，并表明使用我们的方法可以产生安全、流畅和亲社会的交互。我们通过人机交互模拟证明了我们的方法的实时可行性。项目页面可以在 https://uw-ctrl.github.io/phri/ 找到。

JUICER：用于机器人装配的数据高效模仿学习

分类： 机器人技术, 机器学习

作者： Lars Ankile, Anthony Simeonov, Idan Shenfeld, Pulkit Agrawal

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03729v2

摘要： 虽然从演示中学习对于获取视觉运动策略非常有效，但对于需要精确、长视野操作的任务来说，没有大型演示数据集的高性能模仿仍然具有挑战性。本文提出了一种通过少量的人类演示预算来提高模仿学习性能的管道。我们将我们的方法应用于需要在长期和多个任务阶段精确抓取、重新定向和插入多个零件的装配任务。我们的管道结合了富有表现力的策略架构和各种技术，用于数据集扩展和基于模拟的数据增强。这些有助于扩展数据集支持，并在需要高精度的瓶颈区域附近通过局部纠正措施来监督模型。我们在模拟中展示了四项家具组装任务的流程，使机械手能够直接从 RGB 图像在近 2500 个时间步长内组装多达五个零件，表现优于模仿和数据增强基线。项目网站：https://imitation-juicer.github.io/。

稳健：机器人操作系统中的 221 个错误

分类： 软件工程, 机器人技术

作者： Christopher S. Timperley, Gijs van der Hoorn, André Santos, Harshavardhan Deshpande, Andrzej Wąsowski

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03629v1

摘要： 随着自动驾驶汽车和送货无人机等机器人系统在社会中承担更大的角色和责任，这些系统中灾难性软件故障的可能性和影响也随之增加。帮助研究人员开发新方法来衡量和确保安全和质量在机器人软件中，我们系统地整理了通过机器人操作系统 (ROS) 实现的 7 个流行且多样化的软件系统中包含 221 个错误的数据集。我们以 Docker 镜像的形式对 221 个有缺陷的软件版本中的每一个进行了历史准确的重现，并使用扎根的理论方法来检查和分类它们相应的故障、失败和修复。最后，我们反思了我们的研究结果的含义，并概述了社区未来的研究方向。

预测与协作：数据驱动的任务预测和知识驱动的人机协作规划

分类： 机器人技术, 人工智能

作者： Shivam Singh, Karthik Swaminathan, Raghav Arora, Ramandeep Singh, Ahana Datta, Dipanjan Das, Snehasis Banerjee, Mohan Sridharan, Madhava Krishna

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03587v1

摘要： 协助人类进行日常生活活动的代理可以通过预测即将到来的任务来更有效地协作。数据驱动的方法代表了任务预期、规划和相关问题的最新技术，但这些方法需要大量资源且不透明。我们之前的工作引入了一个概念验证框架，该框架使用大语言模型来预测 3 个高级任务，这些任务作为经典规划系统的目标，该系统为代理计算一系列低级操作以实现这些目标。本文描述了 DaTAPlan，我们的框架显着扩展了我们之前的人机协作工作。具体来说，DaTAPlan 规划器计算代理和人类的动作，以协作和共同实现 LLM 预期的任务，并且代理自动适应人类行为结果和偏好的意外变化。我们在真实的模拟环境中评估 DaTAPlan 的功能，展示准确的任务预期、有效的人机协作以及适应意外变化的能力。项目网站：https://dataplan-hrc.github.io

使用可编程光幕进行机器人安全监控

分类： 机器人技术

作者： Karnik Ram, Shobhit Aggarwal, Robert Tamburo, Siddharth Ancha, Srinivasa Narasimhan

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03556v1

摘要： 随着工厂不断发展为协作空间，多个机器人与人类监管人员一起工作，确保所有参与者的安全变得至关重要。目前，基于激光的光幕传感器广泛应用于工厂的安全监控。虽然这些传统的安全传感器满足高精度标准，但它们很难重新配置，并且只能监控用户定义的固定空间区域。此外，它们通常很昂贵。相反，我们利用可控深度传感器、可编程光幕 (PLC) 为协作机器人工作空间开发廉价且灵活的实时安全监控系统。我们的系统投射虚拟动态安全包络，始终紧紧包围移动的机器人，并检测侵入包络的任何物体。此外，我们还开发了一种仪表算法，可以将（多个）PLC 最佳地放置在工作空间中，以最大限度地提高机器人的可视范围。我们的工作实现了无围栏的人机协作，同时扩展以用很少的传感器监控多个机器人。我们在具有四个机械臂的真实制造测试台上分析我们的系统，并展示其作为快速、准确且廉价的安全监控解决方案的功能。

将大型语言模型与多模态虚拟现实界面相集成，支持人机协作构建工作

分类： 机器人技术, 人机交互

作者： Somin Park, Carol C. Menassa, Vineet R. Kamat

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03498v1

摘要： 在建筑行业，工作环境复杂、非结构化且常常危险，人机协作 (HRC) 的实施正在成为一项充满希望的进步。这凸显了对直观通信界面的迫切需求，使建筑工人能够与机器人助手无缝协作。本研究引入了集成多模态交互的会话式虚拟现实（VR）界面，以增强建筑工人和机器人之间的直观沟通。通过将语音和控制器输入与机器人操作系统（ROS）、建筑信息模型（BIM）以及具有由大语言模型（LLM）支持的聊天界面的游戏引擎集成，所提出的系统能够在虚拟现实设置。十二名建筑工人通过干墙安装案例研究进行了评估，所提出的系统通过简洁的命令输入证明了其低工作量和高可用性。所提出的多模态交互系统表明，这种技术集成可以极大地促进机器人助手在建筑行业的集成。

Stickbug 的设计：六臂精准授粉机器人

分类： 机器人技术

作者： Trevor Smith, Madhav Rijal, Christopher Tatsch, R. Michael Butts, Jared Beard, R. Tyler Cook, Andy Chu, Jason Gross, Yu Gu

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03489v1

摘要： 这项工作介绍了 Stickbug 的设计，这是一种六臂、多智能体、精确授粉机器人，它将单智能体系统的准确性与温室中的群体并行化相结合。人们经常提出精准授粉机器人来抵消自然授粉媒介数量减少的影响，但它们经常缺乏所需的并行性和可扩展性。 Stickbug 通过允许每个手臂和驱动底座充当单独的代理来实现这一目标，从而显着降低规划复杂性。 Stickbug 使用紧凑的完整 Kiwi 驱动器来导航狭窄的温室行，使用高桅杆来支持多个操纵器并到达植物高度，使用检测模型和分类器来识别 Bramble 花，以及用于接触式授粉的毡尖末端执行器。初步实验验证表明，Stickbug 每分钟可以尝试超过 1.5 次授粉，成功率高达 50%。此外，还创建了 Bramble 花卉感知数据集，并与 Stickbug 的软件和设计文件一起公开提供。

只需扫描一次：用于 6 自由度机器人抓取新物体的动态场景重建管道

分类： 计算机视觉和模式识别, 机器人技术

作者： Lei Zhou, Haozhe Wang, Zhengshen Zhang, Zhiyang Liu, Francis EH Tay, adn Marcelo H. Ang. Jr

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03462v1

摘要： 在机器人抓取领域，实现与环境的准确可靠的交互是一个关键挑战。传统的利用深度图像导出的部分点云的抓取规划方法常常会因遮挡而减少场景理解，最终影响其抓取精度。此外，场景重建方法主要依赖于静态技术，在操作过程中容易受到环境变化的影响，限制了它们在实时抓取任务中的效率。为了解决这些限制，本文引入了一种用于动态场景重建的新型两级管道。在第一阶段，我们的方法以场景扫描作为输入，通过网格重建和新颖的对象姿态跟踪来注册每个目标对象。在第二阶段，仍然执行姿势跟踪以实时提供对象姿势，使我们的方法能够将重建的对象点云转换回场景。与依赖静态场景快照的传统方法不同，我们的方法不断捕获不断变化的场景几何形状，从而产生全面且最新的点云表示。通过规避遮挡带来的限制，我们的方法增强了整体抓取规划过程，并使最先进的 6-DoF 机器人抓取算法能够显着提高准确性。

通过多模型卡尔曼滤波对腿式机器人进行同步状态估计和接触检测

分类： 机器人技术, 系统与控制, 系统与控制

作者： Marcel Menner, Karl Berntorp

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03444v1

摘要： 本文提出了一种腿式机器人接触检测和状态估计相结合的算法。所提出的算法将机器人的运动建模为切换系统，其中不同的模式与与地面接触的不同脚相关。该算法的关键要素是交互的多模型卡尔曼滤波器，它可以识别定义接触的当前活动模式，同时估计状态。所提出的估计框架的基本原理是接触（和接触力）影响机器人的状态，反之亦然。本文介绍了四足动物的验证研究，使用 (i) 高保真模拟器 Gazebo 与地面真实值和基线估计器进行比较，以及 (ii) 使用 Unitree A1 机器人进行硬件实验。仿真研究表明，所提出的算法优于基线估计器，后者不能同时检测接触。硬件实验展示了所提出算法的适用性，并强调了检测接触的能力。

长期机器人任务的未来预测成功或失败分类

分类： 机器人技术, 计算机视觉和模式识别

作者： Naoya Sogi, Hiroyuki Oyama, Takashi Shibata, Makoto Terao

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03415v1

摘要： 使用机械臂自动执行长期任务一直是机器人技术的中心研究课题。基于优化的行动计划是创建行动计划以完成给定任务的有效方法。构建可靠的规划方法需要条件设计过程，例如避免对象之间的碰撞。然而，设计过程有两个关键问题：1）迭代试验——由于修改条件的试错过程，设计过程非常耗时；2）手动重新设计——很难覆盖所有内容。手动满足必要条件。为了解决这些问题，本文提出了一种未来预测成功或失败分类方法来自动获取条件。所提出的方法背后的关键思想是一种端到端的方法，用于确定行动计划是否可以完成给定的任务，而不是手动重新设计条件。所提出的方法使用长期未来预测方法来实现成功或失败分类，而无需执行行动计划。本文还提出了一种称为转移一致性正则化的正则化项，以提供易于预测的特征分布。正则化项提高了未来的预测和分类性能。我们的方法的有效性通过分类和机器人操作实验得到了证明。

RADIUM：使用梯度加速采样预测和修复端到端机器人故障

分类： 机器人技术

作者： Charles Dawson, Anjali Parashar, Chuchu Fan

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03412v1

摘要： 在将自主系统部署到安全关键型应用中之前，我们必须能够理解并验证这些系统的安全性。对于现实世界测试的风险或成本令人望而却步的情况，我们提出了一个基于模拟的框架，用于 a) 预测自治系统可能发生故障的方式，以及 b) 自动调整系统的设计和控制策略以先发制人地缓解那些失败。现有的故障预测工具很难搜索高维环境参数，无法有效地处理具有循环视觉的系统的端到端测试，并且对于发现故障后如何缓解故障提供很少的指导。我们通过近似贝叶斯推理的视角来解决这个问题，并使用可微分模拟和渲染来进行有效的故障案例预测和修复。对于可微模拟器不可用的情况，我们提供了算法的无梯度版本，并且我们对基于梯度和无梯度方法之间的权衡进行了理论和实证评估。我们将我们的方法应用于一系列机器人和控制问题，包括优化机器人群的搜索模式、无人机编队控制和鲁棒网络控制。与基于优化的伪造方法相比，我们的方法预测了一组更加多样化、更具代表性的故障模式，并且我们发现，使用可微分模拟产生的解决方案的成本降低了 10 倍，并且收敛所需的迭代次数减少了 2 倍。无梯度技术。在硬件实验中，我们发现使用我们的方法修复控制策略可以将鲁棒性提高 5 倍。随附的代码和视频可以在 https://mit-realm.github.io/radium/ 找到

空间生理学和技术：肌肉骨骼适应、对策和可穿戴机器人的机遇

分类： 机器人技术

作者： Shamas Ul Ebad Khan, Rejin John Varghese, Panagiotis Kassanos, Dario Farina, Etienne Burdet

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03363v1

摘要： 太空对人类生理学提出了重大挑战，导致人类为了应对与地球截然不同的环境而做出生理适应。虽然这些适应措施可能是有益的，但它们可能无法完全抵消与空间相关的压力源的不利影响。需要对这些生理适应进行全面了解，以制定有效的对策来支持人类在太空中的生活。本综述重点关注太空环境对肌肉骨骼系统的影响。它强调了骨骼和肌肉适应之间复杂的相互作用、潜在的生理机制及其对宇航员健康的影响。此外，该审查深入研究了对策的部署和当前进展，并提出作为未来发展的前景，可穿戴传感和机器人技术（例如外骨骼）作为合适的替代方案。

机器人的具体神经形态人工智能：前景、挑战和研究开发堆栈

分类： 机器人技术, 人工智能, 机器学习, 神经和进化计算

作者： Rachmad Vidya Wicaksana Putra, Alberto Marchisio, Fakhreddine Zayer, Jorge Dias, Muhammad Shafique

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03325v1

摘要： 机器人技术帮助人类快速、准确、高效地完成多样化、复杂、密集的任务，成为提高人类生产力不可或缺的一部分。因此，机器人技术已被部署在从个人到工业用例的广泛应用中。然而，当前的机器人技术及其计算范式仍然缺乏具体的智能来有效地与操作环境交互，以正确/预期的动作做出响应，并适应环境的变化。为此，尖峰神经网络（SNN）神经拟态计算的最新进展证明了通过模仿生物大脑工作方式的生物可信计算范式（称为“神经拟态人工智能（AI）”）为机器人提供体现智能的潜力。。然而，基于神经形态人工智能的机器人领域仍处于早期阶段，因此其用于解决现实世界问题的开发和部署在不同的设计方面面临着新的挑战，例如准确性、适应性、效率、可靠性和安全性。为了应对这些挑战，本文将从以下角度讨论如何为机器人系统实现具身神经形态人工智能：（P1）基于有效学习规则、训练机制和适应性的具身智能； (P2) 节能神经形态计算的跨层优化； (P3) 具有代表性和公平性的基准； (P4) 低成本可靠性和安全性增强； (P5) 神经形态计算的安全和隐私； (P6) 节能且强大的基于神经形态的机器人技术的协同发展。此外，本文还确定了研究挑战和机遇，并阐述了我们对机器人的具体神经形态人工智能未来研究发展的愿景。

DELTA：使用大型语言模型分解高效的长期机器人任务规划

分类： 机器人技术, 人工智能

作者： Yuchen Liu, Luigi Palmieri, Sebastian Koch, Ilche Georgievski, Marco Aiello

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03275v1

摘要： 大型语言模型 (LLM) 的最新进展引发了各个研究领域的一场革命。特别是，将大语言模型的常识知识整合到机器人任务和运动规划中已被证明是一个游戏规则改变者，将可解释性和下游任务效率方面的性能提升到前所未有的高度。然而，管理这些大型模型中封装的大量知识提出了挑战，通常会导致基于 LLM 的规划系统由于幻觉或缺失领域信息而生成不可行的计划。为了克服这些挑战并获得更大的规划可行性和计算效率，我们提出了一种名为 DELTA 的新型 LLM 驱动的任务规划方法。为了更好地将环境拓扑转化为可操作的知识，DELTA 利用场景图的强大功能作为大语言模型内的环境表示，从而能够快速生成精确的规划问题描述。为了获得更高的规划性能，我们使用 LLM 将长期任务目标分解为子目标的自回归序列，供自动任务规划器解决。与最先进的技术相比，我们的贡献实现了更高效、全自动的任务规划流程，实现了更高的规划成功率和显着更短的规划时间。

用于自适应手臂支撑的紧凑型 3D 末端执行器辅助机器人的设计和评估

分类： 机器人技术

作者： Sibo Yang, Lincong Luo, Wei Chuan Law, Youlong Wang, Lei Li, Wei Tech Ang

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03149v1

摘要： 我们开发了一种3D末端执行器类型的上肢辅助机器人，命名为辅助机器人手臂延伸器（ARAE），它提供透明运动和自适应手臂支撑控制，以实现真实环境中的家庭治疗和训练。该系统由五个自由度组成，包括三个主动电机和末端执行器模块的两个被动关节。系统的核心结构基于并行机制。详细说明了运动学和动力学建模。所提出的自适应手臂支撑控制框架根据 3D 空间中估计的人体手臂姿势计算补偿力。它首先使用两种建议的方法估计人体手臂关节角度：固定躯干和矢状平面模型，而不使用 IMU、磁传感器或深度相机等外部传感器。进行实验是为了评估所提出的两种角度估计方法的性能。然后，将估计的人体关节角度输入人体上肢动力学模型，以获得机器人产生所需的支撑力。测量肌肉活动以评估所提出框架的效果。当参与者在自适应手臂重力补偿控制框架下使用 ARAE 进行测试时，肌肉活动明显减少。总体结果表明，ARAE 系统与所提出的控制框架相结合，有潜力提供自适应手臂支持。这种集成可以实现日常生活活动 (ADL) 的有效培训以及与真实环境的互动。

利用子模块性和像素密度进行移动演员拍摄组的多机器人规划

分类： 机器人技术, 系统与控制, 系统与控制

作者： Skyler Hughes, Rebecca Martin, Micah Corah, Sebastian Scherer

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.03103v1

摘要： 使用空中机器人团队观察和拍摄一组移动演员是一个具有挑战性的问题，它结合了多机器人协调、覆盖范围和视图规划等要素。单个摄像机可以同时观察多个演员，机器人团队可以从多个视角观察单个演员。随着演员的移动，群体可能会分裂、合并和重组，拍摄这些演员的机器人应该能够顺利适应演员阵容的这种变化。我们提出了一种基于直接优化视图的方法，而不是采用基于显式构造或分配的方法。我们将演员建模为移动多面体，并计算每个面部和摄像机视图的近似像素密度。然后，我们提出了一个目标，随着重复观察的像素密度增加，其收益递减。这产生了多机器人感知规划问题，我们通过值迭代和贪婪子模最大化的组合来解决该问题。％使用价值迭代的组合来优化单个机器人的视图和顺序子模块最大化方法来协调团队。我们评估了我们在具有挑战性的场景上的方法，该场景以各种社会行为为模型，并具有不同数量的机器人和演员，并观察到机器人的分配和编队隐式地基于演员组的运动而产生。模拟结果表明，我们的方法始终优于基线，并且除了在规划器的像素密度近似值方面表现良好之外，我们的方法在基于渲染视图的评估方面也具有相当的性能。总体而言，我们提出的顺序规划器的多轮变体在我们考虑的所有场景中都满足（1％以内）或超过形成和分配基线。

使用好奇机器人进行无监督、自下而上的类别发现以实现符号接地

分类： 计算和语言, 机器人技术

作者： Catherine Henry, Casey Kennington

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.03092v1

摘要： 为了解决符号基础问题，并受到儿童早期语言发展的推动，我们利用了一个配备了近似好奇心模型的机器人，特别注重自下而上构建基于物理世界的无监督类别。也就是说，机器人不是从自上而下的符号（例如，指代物体的单词）开始并通过应用预定样本来提供含义，而是自主地逐渐将其探索空间分解为一系列越来越具体的未标记类别此时，外部专家可以选择提供符号关联。我们通过使用可以观察视觉世界的机器人、引入更高维度的感官空间以及使用更通用的类别构建方法来扩展先前的工作。我们的实验表明，机器人根据动作和视觉观察到的内容来学习类别，并且这些类别可以象征性地扎根于。https://info.arxiv.org/help/prep#comments

通过增强现实遥操作系统演示自监督六自由度机器人抓取

分类： 机器人技术, 计算机视觉和模式识别

作者： Xiwen Dengxiong, Xueting Wang, Shi Bai, Yunbo Zhang

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.03067v1

摘要： 大多数现有的六自由度机器人抓取解决方案依赖于对抓取姿势的强有力的监督来确保令人满意的性能，当机器人在某些受限区域工作时，这可能是费力且不切实际的。为此，我们通过增强现实（AR）远程操作系统提出了一种自监督的 6-DoF 抓取姿势检测框架，该框架可以有效地学习人类演示并提供 6-DoF 抓取姿势，而无需抓取姿势注释。具体来说，系统从AR环境中收集人体演示，并从演示中对比学习抓取策略。对于现实世界的实验，所提出的系统在三个演示中产生了令人满意的抓取能力并学会了抓取未知物体。

语言、环境和机器人导航

分类： 计算和语言

作者： Johnathan E. Avery

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.03049v1

摘要： 本文探讨了机器人导航系统中语言输入的集成，利用符号相互依赖假说来弥合符号认知和具身认知之间的鸿沟。它研究了先前将语言和语义纳入神经网络 (NN) 和同步定位和地图绘制 (SLAM) 方法的工作，强调了这些集成如何推动该领域的发展。通过将抽象符号操作与感觉运动基础进行对比，我们提出了一个统一的框架，其中语言既充当抽象的交流系统，又充当感知体验的基础表征。我们对分布式语义认知模型及其在自主代理中的应用的回顾强调了语言集成系统的变革潜力。

在 OBLOT 模型中使用本地机器人形成大型图案

分类： 机器人技术, 数据结构和算法

作者： Christopher Hahn, Jonas Harbig, Peter Kling

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02771v2

摘要： 在任意模式形成问题中，$n$ 个自主移动机器人必须形成任意模式 $P \subseteq \mathbb{R}^2$。（确定性）机器人通常被认为是难以区分、迷失方向且无法通信的。一个重要的区别是机器人是否有记忆和/或有限的观察范围。如果机器人没有记忆但有无限的观看范围[22]，或者如果机器人有有限的观看范围但有记忆[25]，以前的工作设法在自然对称条件下形成$P$。在后一种情况下，$P$仅以具有恒定直径的收缩版本形成。在没有记忆且观看范围有限的情况下，形成任意图案仍然是一个悬而未决的问题。我们提供了一个部分解决方案，表明如果机器人的初始直径为 $\leq 1$，则可以在相同的对称条件下形成 $P$。我们的协议将 $P$ 划分为旋转对称组件，并利用初始相互可见性为每个组件形成一个集群。通过仔细放置集群及其机器人，我们表明集群可以通过其组件以协调的方式移动，同时通过在每个模式坐标中放置一个机器人来绘制 $P$。

机器人有效动作的无监督学习

分类： 机器人技术, 人工智能, 机器学习

作者： Marko Zaric, Jakob Hollenstein, Justus Piater, Erwan Renaudo

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02728v1

摘要： 学习与决策相关并可以有效执行的动作是自主机器人技术的关键问题。当前机器人技术中最先进的动作表示缺乏对机器人动作的适当的效果驱动学习。尽管深度学习方法成功地解决了操作任务，但除了内存或训练数据成本较高之外，也缺乏这种能力。在本文中，我们提出了一种无监督算法来离散连续运动空间并生成“动作原型”，每个原型在环境中产生不同的效果。经过探索阶段后，算法会自动构建效果的表示，并将动作分组到动作原型中，其中更有可能产生效果的动作比那些导致可忽略的变化的动作表现得更多。我们在模拟爬楼梯强化学习任务上评估了我们的方法，初步结果表明，我们的效果驱动离散化在收敛速度和最大奖励方面优于均匀随机采样离散化。

切片吧！ -- 用于学习机器人食物切片的双模拟器框架

分类： 机器人技术, 人工智能

作者： Cristian C. Beltran-Hernandez, Nicolas Erbetti, Masashi Hamaya

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02569v1

摘要： 烹饪机器人可以通过减轻日常家务负担来增强家庭体验。然而，这些机器人必须在共享的人类环境中灵巧、安全地执行任务，特别是在处理菜刀等危险工具时。这项研究的重点是使机器人能够自主、安全地学习食物切割任务。更具体地说，我们的目标是使协作机器人或工业机器人手臂能够通过使用合规控制来适应不同的材料特性来执行食物切片任务。我们的方法涉及使用强化学习（RL）来训练机器人通过减少食品和切菜板施加的接触力来顺从地操作刀。然而，在现实世界中训练机器人可能效率低下且危险，并会导致大量食物浪费。因此，我们提出了 SliceIt!，一个用于在模拟中安全有效地学习机器人食物切片任务的框架。遵循 real2sim2real 方法，我们的框架包括收集一些真实的食物切片数据，校准我们的双模拟环境（高保真切割模拟器和机器人模拟器），在校准的模拟环境上学习合规控制策略，最后部署关于真实机器人的政策。

果树林中地面移动机器人的动态树木检测和几何性状估计

分类： 机器人技术

作者： Dimitrios Chatziparaschis, Hanzhe Teng, Yipeng Wang, Pamodya Peiris, Elia Scudiero, Konstantinos Karydis

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02516v1

摘要： 逐树信息收集是地面移动传感器实现精准农业的一项重要任务，但它可能是时间和劳动力密集型的。在本文中，我们提出了一种算法框架，用于在现场使用轮式移动机器人对树木和关键几何特征（即宽度和高度）进行实时和移动检测。我们的方法基于 2D 特定领域数据（通过红绿近红外 [RGN] 相机获取的归一化植被指数 [NDVI]）和 3D LiDAR 点云，通过定制的树地标关联和参数进行融合估计算法。该系统采用多模态和基于熵的地标对应方法，集成到底层卡尔曼滤波器系统中，以识别周围的树木并共同估计其空间和植被特征。真实的模拟测试用于评估我们提出的算法在各种设置下的行为。农业领域的物理实验有助于验证我们的方法仅使用机载计算和传感资源即可实时获取准确的树木信息的有效性。

紧耦合 LiDAR-IMU-车轮里程计以及滑移转向机器人运动学模型的在线校准

分类： 机器人技术, 人工智能

作者： Taku Okawara, Kenji Koide, Shuji Oishi, Masashi Yokozuka, Atsuhiko Banno, Kentaro Uno, Kazuya Yoshida

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02515v1

摘要： 隧道和长走廊对于移动机器人来说是具有挑战性的环境，因为激光雷达点云在这些环境中会退化。为了解决点云退化问题，本研究提出了一种紧耦合 LiDAR-IMU 轮里程计算法，并对滑移转向机器人进行在线校准。我们提出了一个全线性车轮里程计因子，它不仅充当运动约束，而且还可以对滑移转向机器人的运动学模型进行在线校准。尽管动态变化的运动学模型（例如，轮胎压力引起的车轮半径变化）和地形条件，我们的方法可以通过在线校准来解决模型误差。此外，我们的方法可以在 LiDAR-IMU 融合充分运行的同时，通过校准在退化环境（例如长而直的走廊）的情况下实现准确定位。此外，我们在线估计车轮里程计的不确定性（即协方差矩阵）以创建合理的约束。通过三个实验验证了所提出的方法。第一次室内实验表明，所提出的方法在严重简并情况（长廊）和车轮半径变化的情况下具有鲁棒性。第二个室外实验表明，由于车轮里程计的在线不确定性估计，尽管在崎岖的室外地形中，我们的方法仍能准确估计传感器轨迹。第三个实验表明，所提出的在线校准能够在不断变化的地形中实现稳健的里程计估计。

PromptRPA：根据文本提示在智能手机上生成机器人流程自动化

分类： 人机交互

作者： Tian Huang, Chun Yu, Weinan Shi, Zijian Peng, David Yang, Weiqi Sun, Yuanchun Shi

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02475v1

摘要： 机器人流程自动化 (RPA) 提供了一种有价值的解决方案，通过模拟人类交互，在图形用户界面 (GUI) 上高效地自动化任务，而无需修改现有代码。然而，其更广泛的采用受到脚本语言和工作流程设计方面专业知识的需求的限制。为了应对这一挑战，我们提出了 PromptRPA，这是一个旨在理解各种与任务相关的文本提示（例如目标、过程）的系统，从而生成并执行相应的 RPA 任务。 PromptRPA 包含一套模仿人类认知功能的智能代理，专门解释用户意图、管理 RPA 生成的外部信息以及在智能手机上执行操作。代理可以从用户反馈中学习，并根据积累的知识不断提高其性能。实验结果表明，PromptRPA 的性能从基线的 22.28% 成功率跃升至 95.21%，每个新任务平均需要 1.66 次用户干预。 PromptRPA 在教程创建、智能辅助和客户服务等领域呈现出有前景的应用。