MiX Knowledge

使技能适应新的掌握：自我监督的方法

分类： 机器人技术, 机器学习

作者： Georgios Papagiannis, Kamil Dreczkowski, Vitalis Vosylius, Edward Johns

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.00178v1

摘要： 在本文中，我们研究了将涉及为单个抓取姿势定义的抓取对象（例如工具）的操作轨迹调整为新的抓取姿势的问题。解决这个问题的常见方法是为每个可能的抓取明确定义一个新的轨迹，但这效率非常低。相反，我们提出了一种直接调整此类轨迹的方法，同时只需要一段时间的自监督数据收集，在此期间，摄像机观察机器人的末端执行器在严格抓取的物体上移动。重要的是，我们的方法不需要掌握物体（例如 3D CAD 模型）的先验知识，它可以处理 RGB 图像、深度图像或两者，并且不需要相机校准。通过一系列涉及 1360 次评估的现实世界实验，我们发现自监督 RGB 数据始终优于依赖深度图像（包括几种最先进的姿态估计方法）的替代方案。与表现最佳的基线相比，我们的方法在调整操作轨迹以适应多项日常任务的新颖抓握时，成功率平均提高了 28.5%。实验视频可在我们的网页上观看：https://www.robot-learning.uk/adapting-skills

使用社交机器人调节群体对话动态

分类： 机器人技术, 人工智能

作者： Lucrezia Grassi, Carmine Tommaso Recchiuto, Antonio Sgorbissa

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.00151v1

摘要： 这项研究调查了社交机器人参与群组对话的影响，并评估了各种寻址策略的有效性。该研究涉及 300 名参与者，分成四组，与充当主持人的人形机器人进行互动。机器人利用对话数据来确定最合适的讲话者。研究结果表明，机器人的寻址策略显着影响对话动态，从而使每个参与者的注意力更加平衡，并减少小组形成。

证明基于学习的关键点检测和姿势估计方法的鲁棒性

分类： 计算机视觉和模式识别, 机器学习, 机器人技术, 系统与控制, 系统与控制

作者： Xusheng Luo, Tianhao Wei, Simin Liu, Ziwei Wang, Luis Mattei-Mendez, Taylor Loper, Joshua Neighbor, Casidhe Hutchison, Changliu Liu

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.00117v1

摘要： 这项工作解决了基于视觉的两阶段 6D 物体姿态估计的局部稳健性的认证。用于物体姿态估计的两阶段方法首先采用深度神经网络驱动的关键点回归，然后应用透视 n 点 (PnP) 技术，从而实现了卓越的精度。尽管取得了进步，但这些方法的稳健性认证仍然很少。这项研究旨在填补这一空白，重点关注它们在系统层面的局部稳健性——在语义输入扰动中保持稳健估计的能力。核心思想是将局部鲁棒性的认证转化为分类任务的神经网络验证。面临的挑战是开发与现成验证工具一致的模型、输入和输出规范。为了便于验证，我们通过用更适合验证过程的非线性操作替换非线性操作来修改关键点检测模型。我们没有像常见的那样向图像中注入随机噪声，而是采用图像的凸包表示作为输入规范，以更准确地描述语义扰动。此外，通过进行敏感性分析，我们将稳健性标准从姿态传播到关键点精度，然后制定最佳误差阈值分配问题，允许设置最大允许的关键点偏差阈值。将每个像素视为一个单独的类，这些阈值会产生线性的、类似于分类的输出规范。在某些条件下，我们证明我们的认证框架的主要组成部分是健全和完整的，并通过对现实扰动的广泛评估来验证其效果。据我们所知，这是第一项证明现实场景中给定图像的大规模、基于关键点的姿态估计的鲁棒性的研究。

机器人应用中行为树的执行语义

分类： 机器人技术, 人工智能, 68T30, I.2.4

作者： Enrico Ghiorzi, Armando Tacchella

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.00090v1

摘要： 本文档旨在以适当精确且明确但非正式的方式描述机器人应用程序中使用的行为树的执行语义，特别关注停止语义。

一种针对健康参与者的用户研究方法，用于评估利用肌电图传感的辅助可穿戴机器人

分类： 机器人技术

作者： Cem Suulker, Alexander Greenway, Sophie Skach, Ildar Farkhatdinov, Stuart Charles Miller, Kaspar Althoefer

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.00048v1

摘要： 手戴式机器人，特别是外骨骼，旨在帮助双手进行日常活动，在中风后康复和帮助老年人中发挥着至关重要的作用。我们对该领域的贡献是带有集成执行器的纺织机器人手套。这些执行器由气动压力驱动，引导用户的手到达所需位置。我们的软机器人手套采用纺织材料制成，优先考虑安全性、轻质结构和用户舒适度。利用荷叶边技术，集成执行器保证了高性能的阻挡力和弯曲效果。在这里，我们提出了一项参与者研究，利用肌电图传感证实了我们的机器人设备对健康参与者群体的有效性。

伯克利人形机器人：基于学习的控制研究平台

分类： 机器人技术

作者： Qiayuan Liao, Bike Zhang, Xuanyu Huang, Xiaoyu Huang, Zhongyu Li, Koushil Sreenath

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21781v1

摘要： 我们推出 Berkeley Humanoid，这是一个可靠且低成本的中型人形研究平台，用于基于学习的控制。我们的轻型内部制造机器人专为学习算法而设计，具有低模拟复杂性、拟人化运动和高跌倒可靠性。该机器人的模拟与真实差距很窄，可以通过使用轻域随机化的简单强化学习控制器在户外环境中的各种地形上实现敏捷而稳健的运动。此外，我们还演示了机器人行走数百米、在陡峭的未铺砌小道上行走以及单腿和双腿跳跃，以证明其在动态行走方面的高性能。我们的系统能够进行全向运动，并通过紧凑的设置承受较大的扰动，旨在实现基于学习的人形系统的可扩展、模拟到真实的部署。请访问 http://berkeley- humanoid.com 了解更多详情。

Tulip Agent——使基于 LLM 的代理能够使用大型工具库解决任务

分类： 人工智能, 机器人技术, H.3.3; I.2.6; I.2.8; I.2.9

作者： Felix Ocker, Daniel Tanneberg, Julian Eggert, Michael Gienger

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21778v1

摘要： 我们引入了郁金香代理，这是一种基于 LLM 的自主代理架构，具有对包含大量工具的工具库的创建、读取、更新和删除访问权限。与最先进的实现相比，郁金香代理不会对系统提示中所有可用工具的描述进行编码（这会根据模型的上下文窗口进行计算），也不会嵌入整个提示以检索合适的工具。相反，郁金香代理可以在其可扩展工具库中递归地搜索合适的工具，示例性地实现为向量存储。郁金香代理架构显着降低了推理成本，允许使用大型工具库，并使代理能够适应和扩展其工具集。我们在数学背景下通过多项消融研究来评估该架构，并证明其在机器人技术应用中的普遍性。参考实现和基准可在 github.com/HRI-EU/tulip_agent 上找到。

ReplanVLM：使用视觉语言模型重新规划机器人任务

分类： 机器人技术

作者： Aoran Mei, Guo-Niu Zhu, Huaxiang Zhang, Zhongxue Gan

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21762v1

摘要： 大型语言模型（LLM）由于其在文本分析和生成方面的卓越能力以及对世界的广泛了解，在机器人任务规划中越来越受欢迎。然而，它们在解码视觉线索方面存在不足。大语言模型对世界的直接感知有限，这导致对世界现状的把握不足。相比之下，视觉语言模型（VLM）的出现通过集成视觉感知模块填补了这一空白，可以增强机器人任务规划的自主性。尽管取得了这些进步，VLM 仍然面临挑战，例如即使提供了准确的指令，也可能出现任务执行错误。为了解决这些问题，本文提出了用于机器人任务规划的 ReplanVLM 框架。在这项研究中，我们重点关注纠错干预措施。提出了内部纠错机制和外部纠错机制来纠正相应阶段下的错误。开发重新计划策略以在任务执行失败时重新计划任务或纠正错误代码。真实机器人和模拟环境中的实验结果证明了所提出的框架的优越性，在开放世界任务中具有更高的成功率和强大的纠错能力。我们的实验视频可在 https://youtu.be/NPk2pWKazJc 上观看。

使用 Martingales 进行诊断运行时监控

分类： 机器人技术, 机器学习

作者： Ali Hindy, Rachel Luo, Somrita Banerjee, Jonathan Kuck, Edward Schmerling, Marco Pavone

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21748v1

摘要： 部署在安全关键型机器人环境中的机器学习系统必须能够适应配送班次。然而，系统设计者必须了解分布变化的原因，以便实施适当的干预或缓解策略并防止系统故障。在本文中，我们提出了一种新颖的框架，通过同时部署多个随机鞅以流方式诊断分布变化。我们表明，了解分布变化的根本原因可以导致对已部署系统的生命周期进行适当的干预。我们的实验框架可以轻松适应不同类型的分布变化、模型和数据集。我们发现我们的方法在速度、准确性和灵活性方面优于诊断分布变化的现有工作，并在模拟和实时硬件设置中验证了我们的模型的效率。

通过双代理多模型强化学习 (DAMMRL) 实现机器人辅助康复的人机协同适应

分类： 机器人技术

作者： Yang An, Yaqi Li, Hongwei Wang, Rob Duffield, Steven W. Su

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21734v1

摘要： 本研究通过提出双代理多模型强化学习（DAMMRL）框架，利用多模型自适应控制（MMAC）和协同自适应控制策略，介绍了一种机器人辅助踝关节康复的新方法。在机器人辅助康复中，由于人类认知和生理系统的复杂性，关键挑战之一是对人类行为进行建模。传统的单模型方法通常无法捕捉人机交互的动态。我们的研究采用了多模型策略，使用简单的子模型来近似康复任务期间复杂的人类反应，并针对不同程度的患者失能程度进行定制。该系统的多功能性在真实实验和模拟环境中得到了证明。对 13 名健康年轻受试者进行了可行性和潜力评估，得出了有希望的结果，证实了该方法的预期益处。这项研究不仅引入了机器人辅助踝关节康复的新范例，而且为未来适应性、以患者为中心的治疗干预研究开辟了道路。

行人惯性导航：模型和数据驱动方法概述

分类： 机器人技术, 信号处理

作者： Itzik Klein

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21676v1

摘要： 室内定位任务是多种应用的基础，包括导航、医疗保健、基于位置的服务和安全。一个新兴领域是行人惯性导航，仅依靠惯性传感器进行定位。在本文中，我们提出了惯性行人导航模型和学习方法。其中包括用于安装在鞋上的惯性传感器和使用无约束惯性传感器的行人航位推算 (PDR) 的方法和算法。我们还讨论了三类数据驱动的 PDR 策略：活动辅助、混合方法和基于学习的框架。

基于视觉和接触的自主套管针对接优化控制

分类： 机器人技术

作者： Christopher E. Mower, Martin Huber, Huanyu Tian, Ayoob Davoodi, Emmanuel Vander Poorten, Tom Vercauteren, Christos Bergeles

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21570v1

摘要： 未来的手术室将配备机器人来执行各种手术任务，例如内窥镜控制。外科医生从多个自主序列中进行选择的人机回路监控架构已成功应用于临床前测试。将内窥镜插入套管针或导引器是每次锁孔外科手术的关键步骤——下文中我们仅将此设备称为“套管针”。我们的目标是开发一种用于自主套管针对接的控制器。自主套管针对接是孔中钉问题的一个版本。机器人文献中的大量工作解决了这个问题。孔中钉问题已在装配环境中得到了广泛研究，通常，孔被认为是静态的并且对相互作用是刚性的。然而，在我们的例子中，套管针不是固定的，并且会对相互作用做出反应。我们考虑了各种外科手术，外科医生将利用内窥镜和套管针之间的接触来成功完成插入。据我们所知，我们还没有找到直接探讨该问题的这种特定概括的文献。我们在这项工作中的主要贡献是自动套管针对接的最佳控制公式。我们使用非线性优化程序对任务进行建模，在约束条件下最小化成本函数，以找到最佳的关节配置。该控制器结合了插入几何模型和力反馈 (FF) 项，可防止与套管针产生过大的相互作用力，从而确保患者安全。在真实硬件实验室设置上演示的实验验证了该方法。我们的方法成功地在我们真实的机器人实验室设置中实现了套管针插入，并且模拟试验证明了其减少相互作用力的能力。

分析功能不足和触发条件以改进基于 MPC 的轨迹规划器的 SOTIF

分类： 系统与控制, 机器人技术, 软件工程, 系统与控制, 信号处理

作者： Mirko Conrad, Georg Schildbach

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21569v2

摘要： 自动化和自动驾驶在过去十年中取得了重大的技术飞跃。在此过程中，用于车辆控制的算法的复杂性显着增加。模型预测控制（MPC）就是一个突出的例子，它已经获得了巨大的普及，现在广泛用于车辆运动规划和控制。然而，安全问题限制了其实际应用，特别是因为传统的功能安全 (FS) 程序及其通用标准 ISO26262 已达到其极限。与此同时，预期功能安全（SOTIF）的新方面也成为人们关注的焦点，其标准 ISO21448 直到 2022 年才发布。因此，SOTIF 的经验较少，案例研究也很少。可用于工业和研究。因此，本文旨在做出两个主要贡献：（1）对基于 MPC 的通用轨迹规划器的 SOTIF 进行分析；（2）对 ISO21448 中描述的通用程序进行解释和具体应用，用于确定功能不足（FI）和触发条件（TC）。该论文的具体新颖之处包括一种 SOTIF 相关元素的脱离上下文开发方法（SOTIF-EooC）、针对基于 MPC 的轨迹规划器的重要 FI 和 TC 的汇编，以及基于为基于 MPC 的轨迹规划器确定了 FI 和 TC。

欠驱动三连杆机器人车辆的运动动力学

分类： 机器人技术

作者： Leonid Rizyaev, Yizhar Or

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21540v1

摘要： 轮式三连杆蛇形机器人是使用非完整约束建模的欠驱动系统的一个著名示例，可防止轮子横向滑动（打滑）。运动学控制配置假设两个关节角度都直接规定为相移周期输入。在机器人的另一种配置中，只有一个关节被周期性地驱动，而第二个关节则由粘弹性扭簧被动控制。在我们的工作中，我们构建了轮式机器人的两种配置，并在不同的驱动输入下进行了运动实验。与标准非完整模型中使用的假设相反，运动跟踪测量的分析揭示了大量的车轮打滑。因此，我们提出了改进的动态模型，其中包括车轮的打滑和粘性摩擦力以及滚动阻力。经过参数拟合后，这些动态模型与运动测量达到了很好的一致性，包括输入频率对平均速度和每周期净位移的影响。这说明了将车轮打滑和摩擦纳入系统模型的重要性。

使用机器人系统的大型语言模型解释和学习语音命令

分类： 机器人技术, 计算和语言, 神经和进化计算

作者： Stanislau Stankevich, Wojciech Dudek

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21512v1

摘要： 机器人在工业和日常生活中越来越常见，例如在疗养院中，它们可以帮助工作人员。一个关键的挑战是开发直观的界面以方便沟通。使用 GPT-4 等大型语言模型 (LLM) 增强了机器人能力，允许实时交互和决策。这种集成提高了机器人的适应性和功能。该项目的重点是将大语言模型与数据库合并，以改善决策并获取请求解释问题的知识。

DIABLO：完全由直驱关节组成的 6 自由度轮式双足机器人

分类： 机器人技术

作者： Dingchuan Liu, Fangfang Yang, Xuanhong Liao, Ximin Lyu

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21500v2

摘要： 轮式双足机器人兼具轮式和腿式机器人的优点，结合了高效穿越各种地形和环境的能力。然而，现有轮式双足机器人的传统方法涉及带有高速比变速箱的电机驱动关节。虽然这种方法具有特定的优势，但它也带来了一些挑战，包括机械复杂性增加、效率损失、噪音、振动以及更高的维护和润滑要求。为了解决上述问题，我们开发了一种名为 DIABLO 的直接驱动轮式双足机器人，它完全消除了变速箱的使用。我们的机器人系统被简化为二阶倒立摆，并且我们设计了基于LQR的平衡控制器来确保稳定性。此外，我们还实现了全面的运动控制器，包括偏航、分割角度、高度和滚动控制器。通过模拟和实际原型实验，我们证明了我们的平台取得了令人满意的性能。

超越指令导航：障碍环境中的视觉和语言导航

分类： 机器人技术, 计算和语言, 计算机视觉和模式识别

作者： Haodong Hong, Sen Wang, Zi Huang, Qi Wu, Jiajun Liu

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21452v1

摘要： 现实世界的导航通常涉及处理意外的障碍物，例如关闭的门、移动的物体和不可预测的实体。然而，主流视觉和语言导航（VLN）任务通常假设指令与固定和预定义的导航图完美对齐，没有任何障碍。这种假设忽略了实际导航图和给定指令中的潜在差异，这可能会导致室内和室外智能体出现重大故障。为了解决这个问题，我们通过修改导航图和视觉观察，将不同的障碍物集成到 R2R 数据集中，引入创新的数据集和任务，R2R with Unexpected Obstructions (R2R-UNO)。 R2R-UNO 包含各种类型和数量的路径障碍，以产生用于 VLN 研究的指令与现实不匹配。 R2R-UNO 上的实验表明，最先进的 VLN 方法在面对此类不匹配时不可避免地会遇到重大挑战，这表明它们严格遵循指令而不是自适应导航。因此，我们提出了一种称为ObVLN（Obstructed VLN）的新方法，其中包括课程训练策略和虚拟图构建，以帮助代理有效地适应障碍环境。实证结果表明，ObVLN不仅在无遮挡场景下保持稳健的性能，而且在意外遮挡情况下也取得了显着的性能优势。

分析语义 LoD3 构建模型对基于图像的车辆定位的影响

分类： 计算机视觉和模式识别, 机器人技术

作者： Antonia Bieringer, Olaf Wysocki, Sebastian Tuttas, Ludwig Hoegner, Christoph Holst

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21432v1

摘要： 许多导航应用都依赖于全球导航卫星系统 (GNSS) 的数据，尽管其准确性在城市地区会受到影响，这构成了重大挑战，特别是对于精确的自动驾驶汽车定位而言。广泛的研究集中在通过集成各种传感器类型来提高定位精度来解决这个问题。本文介绍了一种新的汽车定位方法，利用与高度详细的语义 3D 建筑模型相对应的图像特征。核心概念涉及通过将先前的几何和语义知识纳入计算来提高定位精度。该工作使用细节级别 2 (LoD2) 和细节级别 3 (LoD3) 模型评估结果，分析立面丰富的模型是否能产生卓越的准确性。这种全面的分析涵盖了多种方法，包括现成的特征匹配和深度学习，促进了深入的讨论。我们的实验证实，与使用 LoD2 模型相比，LoD3 能够检测最多 69% 的特征。我们相信这项研究将有助于提高 GNSS 遮挡城市峡谷定位精度的研究。它还展示了尚未探索的 LoD3 构建模型在基于地图的汽车定位中的实际应用。

VIPeR：具有自适应挖掘和终身学习的视觉增量位置识别

分类： 计算机视觉和模式识别, 机器人技术

作者： Yuhang Ming, Minyang Xu, Xingrui Yang, Weicai Ye, Weihan Wang, Yong Peng, Weichen Dai, Wanzeng Kong

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21416v1

摘要： 视觉位置识别 (VPR) 是许多自主和增强/虚拟现实系统的重要组成部分。它使系统能够在大规模环境中稳健地进行自我定位。现有的 VPR 方法表现出有吸引力的性能，但代价是大量的预训练和有限的通用性。当部署在看不见的环境中时，这些方法会表现出显着的性能下降。针对这个问题，我们提出了 VIPeR，一种用于视觉增量位置识别的新颖方法，能够适应新环境，同时保留以前环境的性能。我们首先引入一种自适应挖掘策略，该策略平衡单个环境内的性能和跨多个环境的通用性。然后，为了防止终身学习中发生灾难性遗忘，我们从人类记忆系统中汲取灵感，为 VIPeR 设计了一种新颖的记忆库。我们的记忆库包含感觉记忆、工作记忆和长期记忆，前两个记忆针对当前环境，最后一个记忆针对所有以前访问过的环境。此外，我们提出了概率知识蒸馏来明确保护先前学习的知识。我们在三个大型数据集（即 Oxford Robotcar、Nordland 和 TartanAir）上评估了我们提出的 VIPeR。为了进行比较，我们首先通过简单的微调设置基准性能。然后，比较了几种最近的终身学习方法。我们的VIPeR几乎在所有方面都取得了更好的性能，平均性能最大提升了13.65%。

Rico：将TIAGo机器人扩展到最新的社交和辅助机器人使用场景

分类： 机器人技术

作者： Tomasz Winiarski, Wojciech Dudek, Daniel Giełdowski

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21401v1

摘要： 近年来，社交和辅助机器人技术越来越受欢迎。由于用途广泛，执行此类任务的机器人必须具有高可靠性并具备足够的功能来满足多种场景。本文介绍了一个人工智能驱动的移动机器人平台 Rico。它之前在类似场景中的使用情况、它的功能数量以及它所进行的实验都足以使其成为适合社交和辅助环境的无臂平台。

SmileyNet——通过人工智能阅读茶叶来预测彩票

分类： 人工智能, 计算机视觉和模式识别, 计算机与社会, 机器学习, 机器人技术, I.2; I.4; I.5; I.6; K.3.2

作者： Andreas Birk

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21385v1

摘要： 我们介绍 SmileyNet，一种具有通灵能力的新型神经网络。它的灵感来自于这样一个事实：积极的情绪可以提高认知能力，包括分类任务。因此，该网络在第一阶段出现了表情符号，并定义了一个令人鼓舞的损失函数来使其偏向好心情。然后，SmileyNet 根据已建立的 Tasseology 方法（即通过读取茶叶）来预测硬币的翻转。第二阶段的训练和测试是通过基于从专业茶杯采样的真实世界像素的高保真模拟来完成的。 SmileyNet 能够以 72% 的惊人准确率正确预测硬币的翻转。 Resnet-34、YOLOv5分别实现只有49%、分别53%。然后展示了如何组合多个 SmileyNet 来赢得彩票。

超距离动态手势识别，实现有效的人机交互

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Eran Bamani Beeri, Eden Nissinman, Avishai Sintov

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21374v1

摘要： 本文提出了一种超范围手势识别的新方法，解决了长距离的人机交互（HRI）挑战。通过利用视频数据中的人类手势，我们提出了时空融合网络（TSFN）模型，该模型超越了当前方法的局限性，使机器人能够理解远距离的手势。通过在服务机器人、搜索和救援行动以及基于无人机的交互中的应用，我们的方法增强了广阔环境中的人机交互。实验验证表明手势识别准确性取得了显着进步，特别是在较长的手势序列中。

SuperVINS：集成深度学习功能的视觉惯性SLAM框架

分类： 机器人技术

作者： Hongkun Luo, Chi Guo, Yang Liu, Zengke Li

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21348v1

摘要： 在本文中，我们提出通过结合深度学习特征和深度学习匹配方法来增强 VINS-Fusion。我们实现了深度学习特征词袋的训练，并利用这些特征进行回环检测。此外，我们在深度学习特征匹配模块中引入RANSAC算法来优化匹配。 SuperVINS是VINS-Fusion的改进版本，在定位精度、鲁棒性等方面均优于VINS-Fusion。特别是在低照度和快速抖动等具有挑战性的场景中，传统的几何特征无法充分利用图像信息，而深度学习特征擅长捕获图像特征。为了验证我们提出的改进方案，我们使用开源数据集进行了实验。我们从定性和定量两个角度对实验结果进行了全面分析。结果证明了这种基于深度学习的 SLAM 系统方法的可行性和有效性。为了促进该领域的知识交流，我们公开了本文的代码。您可以通过以下链接找到代码：https://github.com/luohongk/SuperVINS。

基于导纳控制和时变被动速度场控制的人机协同承载任务协作控制框架

分类： 机器人技术

作者： Dang Van Trong, Sumitaka Honji, Takahiro Wada

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21339v1

摘要： 人机协同执行任务通过发挥双方的优势，展示了其在工业和日常应用中的潜力。在这些任务中有效控制机器人需要最大限度地减少位置和速度误差以完成共享任务，同时管理闭环系统内的能量水平，以防止不稳定和意外施力等潜在危险。然而，由于人类在适应工作空间特性方面的意图不同，这种协作场景带来了许多挑战，导致人机冲突和安全事件。在本文中，我们开发了一种机器人控制器，使机器人伙伴能够利用冲突信息重新规划其路径，准确地跟随共同携带的运动，确保被动性，并调节闭环系统的能量。利用导纳控制和时变被动速度场控制以及分数指数能量补偿控制项，构建了人机协同承载任务的协作控制框架。通过测量相互作用力，首先使用导纳控制生成机器人伙伴共同承载任务的所需轨迹。此后，具有能量补偿功能的新型被动速度场控制旨在跟踪所需的时变轨迹并保证被动性。此外，所提出的方法确保系统的动能在有限的时间间隔内收敛到所需的水平，这对于时间关键型应用至关重要。数值模拟通过四个协作运输场景证明了所提出的协作控制方法的效率。

MSMA：具有多源数据集成的互联和自主车辆环境中的多智能体轨迹预测

分类： 机器人技术, 机器学习

作者： Xi Chen, Rahul Bhadani, Zhanbo Sun, Larry Head

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21310v1

摘要： 周围车辆轨迹的预测对于无碰撞路径规划至关重要。在本研究中，我们重点研究这样一个场景：互联自动驾驶汽车（CAV）作为中央代理，利用传感器和通信技术来感知周围的交通，包括自动驾驶汽车（AV）、互联汽车（CV）和人力驾驶车辆（HDV）。我们的轨迹预测任务针对所有检测到的周围车辆。为了有效地集成来自传感器和通信技术的多源数据，我们提出了一种名为 MSMA 的深度学习框架，利用交叉注意模块进行多源数据融合。矢量地图数据用于提供上下文信息。轨迹数据集在 CARLA 模拟器中收集，并引入了合成数据误差。数值实验表明，在混合交通流场景中，来自不同来源的数据的集成增强了我们对环境的理解。这显着提高了轨迹预测的准确性，特别是在 CV 市场渗透率较高的情况下。该代码位于：https://github.com/xichennn/MSMA。

DEF-oriCORN：高效的 3D 场景理解，无需演示即可实现强大的语言引导操作

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Dongwon Son, Sanghyeon Son, Jaehyung Kim, Beomjoon Kim

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21267v1

摘要： 我们提出了 DEF-oriCORN，一个用于语言指导的操作任务的框架。通过利用新颖的基于对象的场景表示和基于扩散模型的状态估计算法，我们的框架能够响应口头命令，实现高效、稳健的操作规划，即使是在摄像机视图稀疏的紧凑环境中，也无需任何演示。与传统的表示不同，我们的表示提供了有效的碰撞检查和语言基础。与最先进的基线相比，我们的框架通过稀疏 RGB 图像实现了卓越的估计和运动规划性能，并且零样本推广到具有多种材料（包括透明和反射物体）的现实世界场景，尽管专门进行了模拟训练。我们的数据生成、训练、推理和预训练权重代码可在以下网址公开获取：https://sites.google.com/view/def-oricorn/home。

用于插入物体的四轴自适应手指手：FAAF Hand

分类： 机器人技术

作者： Naoki Fukaya, Koki Yamane, Shimpei Masuda, Avinash Ummadisingu, Shin-ichi Maeda, Kuniyuki Takahashi

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.21245v1

摘要： 在现实世界中运行的机器人在对象定位方面面临着必须处理的重大但不可避免的问题。解决这个问题的典型方法是在硬件中添加合规机制，以吸收和补偿其中一些错误。然而，对于细粒度的操作任务，适当的合规机制的位置和选择对于成功至关重要。对于要插入平坦表面上的目标位置的物体，在插入之前，物体必须首先成功地与槽口对齐，并沿着其中心轴正确定向。我们开发了四轴自适应手指手（FAAF 手），它配备的手指可以在四个轴（x、y、z、偏航）上被动适应，使其能够执行插入任务，包括在存在严重定位错误的情况下安装盖子。此外，这种适应性允许使用简单的控制方法，而不需要接触传感器或其他设备。我们的结果证实了 FAAF 能够使用简单的方法，在所有方向上存在位置误差以及沿物体中心轴存在旋转误差的情况下，完成方形和三角形钉（或棱柱）的挑战性插入任务以及放置容器盖的能力。控制方案。

VITAL：视觉远程操作通过人在环纠正来增强机器人学习

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Hamidreza Kasaei, Mohammadreza Kasaei

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.21244v1

摘要： 模仿学习（IL）已成为机器人技术中的一种强大方法，它允许机器人通过模仿人类行为来获得新技能。尽管具有潜力，但由于与获得高质量演示相关的后勤困难和高成本，IL 的数据收集过程仍然是一个重大挑战。为了解决这些问题，我们提出了一种用于双手操作任务的低成本视觉远程操作系统，称为 VITAL。我们的方法利用经济实惠的硬件和视觉处理技术来收集演示，然后将其增强以创建用于模仿学习的广泛训练数据集。我们通过利用真实和模拟环境以及人机交互修正来增强所学策略的通用性和鲁棒性。我们通过在模拟和真实机器人环境中进行的几轮实验来评估我们的方法，重点关注不同复杂程度的任务，包括收集瓶子、堆叠物体和锤击。我们的实验结果验证了我们的方法从模拟数据中学习稳健的机器人策略的有效性，通过人机交互校正和现实世界数据集成显着改进了该策略。此外，我们还展示了该框架泛化到新任务的能力，例如设置饮料托盘，展示了其处理各种现实世界双手操作任务的适应性和潜力。实验视频可在以下网址找到：https://youtu.be/YeVAMRqRe64?si=R179xDlEGc7nPu8i

使用基于变压器的触觉控制策略学习稳定的机器人抓取

分类： 机器人技术

作者： En Yen Puang, Zechen Li, Chee Meng Chew, Shan Luo, Yan Wu

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.21172v1

摘要： 测量抓取稳定性是灵巧机器人操作任务的一项重要技能，可以通过触觉传感器从触觉信息中推断出抓取稳定性。控制策略必须从触觉反馈中检测旋转位移和滑动，并根据位置和力确定重新抓取策略。经典的稳定抓取任务仅训练控制策略来解决重心固定的物体的重新抓取位置。在这项工作中，我们提出了稳定抓取任务的改进版本，它优化了重心未知且移动的物体的重新抓取位置和抓取力。我们使用无模型、基于 Transformer 的端到端强化学习框架来解决此任务。我们表明，我们的方法能够在模拟和零样本传输的现实世界设置中进行训练后解决这两个目标。我们还提供不同模型的性能分析，以了解优化两个相反目标的动态。

自动驾驶的自监督多未来占用预测

分类： 计算机视觉和模式识别, 机器人技术

作者： Bernard Lange, Masha Itkina, Jiachen Li, Mykel J. Kochenderfer

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.21126v1

摘要： 环境预测框架对于自动驾驶汽车 (AV) 在动态环境中的安全导航至关重要。 LiDAR 生成的占用网格地图 (L-OGM) 为场景表示提供了强大的鸟瞰图，实现了自我监督的联合场景预测，同时表现出对部分可观测性和感知检测失败的恢复能力。先前的方法主要关注网格单元空间内的确定性 L-OGM 预测架构。虽然这些方法取得了一些成功，但它们经常产生不切实际的预测，并且无法捕捉环境的随机性质。此外，它们无法有效地集成自动驾驶汽车中存在的其他传感器模式。我们提出的框架在生成架构的潜在空间中执行随机 L-OGM 预测，并允许对 RGB 摄像机、地图和计划轨迹进行调节。我们使用单步解码器（实时提供高质量预测）或基于扩散的批量解码器（可以进一步细化解码帧以解决时间一致性问题并减少压缩损失）对预测进行解码。我们在 nuScenes 和 Waymo Open 数据集上进行的实验表明，我们方法的所有变体在质量和数量上都优于以前的方法。

扩散增强代理：高效探索和迁移学习的框架

分类： 机器学习, 人工智能, 机器人技术

作者： Norman Di Palo, Leonard Hasenclever, Jan Humplik, Arunkumar Byravan

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20798v1

摘要： 我们引入了扩散增强代理（DAAG），这是一种新颖的框架，它利用大型语言模型、视觉语言模型和扩散模型来提高实体代理强化学习中的样本效率和迁移学习。 DAAG 事后诸葛亮通过使用扩散模型以时间和几何上一致的方式转换视频，从而通过我们称为事后诸葛亮体验增强的技术与目标指令保持一致，从而重新标记智能体过去的经验。大型语言模型可以在不需要人工监督的情况下协调这个自主过程，使其非常适合终身学习场景。该框架减少了 1) 微调充当奖励检测器的视觉语言模型，以及 2) 训练 RL 代理执行新任务所需的奖励标记数据量。我们展示了 DAAG 在涉及操纵和导航的模拟机器人环境中的样本效率增益。我们的结果表明，DAAG 改善了奖励检测器的学习、迁移过去的经验并获取新任务——开发高效的终身学习代理的关键能力。补充材料和可视化可在我们的网站 https://sites.google.com/view/diffusion-augmented-agents/ 上找到

特定于场景的轨迹集：最大化运动预测中的表示

分类： 计算机视觉和模式识别, 机器人技术

作者： Abhishek Vivekanandan, J. Marius Zöllner

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20732v1

摘要： 表示参与者多样化且合理的未来轨迹对于自动驾驶中的运动预测至关重要。然而，用紧凑的集合有效地捕获真实的轨迹分布是具有挑战性的。在这项工作中，我们提出了一种生成特定于场景的轨迹集的新方法，可以更好地代表未来演员行为的多样性和可接受性。我们的方法通过利用地图信息和参与者动态，构建针对不同场景上下文（例如交叉点和非交叉点）的多个轨迹集。我们引入了一种确定性目标采样算法，该算法可识别相关地图区域并生成根据场景布局确定的轨迹。此外，我们根据经验研究了各种采样策略和集合大小，以优化覆盖范围和多样性之间的权衡。 Argoverse 2 数据集上的实验表明，与传统的单集方法相比，我们的特定场景集在保持多样性的同时实现了更高的合理性。所提出的递归分布内子采样（RIDS）方法有效地压缩了表示空间，并且在轨迹可接受性方面优于度量驱动采样。我们的工作强调了场景感知轨迹集生成对于捕获现实驾驶场景中参与者行为的复杂性和异构性的好处。

视觉-音频-触觉跨模态检索案例研究

分类： 机器人技术

作者： Jagoda Wojcik, Jiaqi Jiang, Jiacheng Wu, Shan Luo

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20709v1

摘要： 跨模态检索（CMR），根据另一种模态（例如，视觉）的查询，从一种模态（例如，音频）检索相关项目，近年来取得了显着的进步。这种能力对于机器人整合和解释不同感官输入的信息至关重要。然而，现有机器人 CMR 方法中的检索空间通常仅由一种模态组成，这限制了机器人的性能。在本文中，我们提出了一种新颖的 CMR 模型，它结合了三种不同的模态，即视觉、音频和触觉，用于增强多模态对象检索，称为 VAT-CMR。在该模型中，首先融合多模态表示以提供对象特征的整体视图。为了减轻不同模态表示之间的语义差距，在分类训练阶段选择主导模态以提高表示的独特性，从而提高检索性能。为了评估我们提出的方法，我们进行了案例研究，结果表明我们的 VAT-CMR 模型超越了竞争方法。此外，我们提出的主导模态选择显着提高了交叉检索的准确性。

通过基础模型自主改进指令跟踪技能

分类： 机器人技术, 人工智能

作者： Zhiyuan Zhou, Pranav Atreya, Abraham Lee, Homer Walke, Oier Mees, Sergey Levine

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20635v1

摘要： 能够根据自主收集的经验进行改进的智能指令跟踪机器人有可能改变机器人的学习方式：大规模部署机器人车队可以快速收集大量自主数据，从而集体提高其性能，而不是收集昂贵的远程操作演示数据。然而，自主改进需要解决两个关键问题：（i）完全自动化可扩展的数据收集程序，可以收集多样化且具有语义意义的机器人数据；（ii）从没有人工注释的非最佳自主数据中学习。为此，我们提出了一种解决这些挑战的新方法，允许在没有人工监督的情况下通过自主收集的数据来改进指令遵循策略。我们的框架利用视觉语言模型来收集和评估新环境中语义上有意义的体验，然后将指令跟踪任务分解为（语义）语言条件图像生成和（非语义）目标实现，这使得它显着更无需任何人工注释即可从自主收集的数据中进行改进。我们在现实世界中进行了广泛的实验，以证明我们方法的有效性，并发现在一系列看不见的环境中，可以通过自主收集的数据显着改进机器人策略。我们开源了语义自主改进管道的代码，以及在五个桌面环境中收集的 30,500 个轨迹的自主数据集。

ATI-CTLO：基于自适应时间间隔的连续时间仅 LiDAR 里程计

分类： 机器人技术

作者： Bo Zhou, Jiajie Wu, Yan Pan, Chuanzhao Lu

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20619v1

摘要： 由机器人的剧烈运动和变化的地形特征引起的 LiDAR 扫描中的运动失真会显着影响 3D LiDAR 里程计的定位和建图性能。现有的失真校正解决方案通常难以平衡计算复杂性和准确性。在这项工作中，我们提出了一种基于自适应时间间隔的连续时间仅 LiDAR 里程计，利用简单而高效的线性插值。我们的方法根据运动动态和环境特征灵活调整控制节点之间的时间间隔。这种适应性增强了各种运动状态下的性能，并提高了在具有挑战性的特征稀疏环境中的鲁棒性。我们在不同平台的多个数据集上验证了我们的方法的有效性，达到了与最先进的仅激光雷达里程计方法相当的精度。值得注意的是，在涉及剧烈运动和稀疏特征的场景中，我们的方法优于现有解决方案。

社交机器人设计范式调查

分类： 机器人技术, 计算和语言, 计算机与社会

作者： Rita Frieske, Xiaoyu Mo, Yini Fang, Jay Nieles, Bertram E. Shi

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20556v1

摘要： 由于社交机器人的情感适应功能，医疗、教育和娱乐等领域对社交机器人的需求不断增加。这些机器人利用多模式通信，结合语音、面部表情和手势来增强用户参与度和情感支持。系统的复杂性以及将其调整到特定任务的必要性阻碍了对社交机器人设计范式的理解。本文对社交机器人设计范式进行了结构化回顾，将其分类为认知架构、角色设计模型、语言模型、通信流、活动系统模型和集成设计模型。通过对基于这些范例的社交机器人设计和应用的文章进行细分，我们强调了当前方法的优势和需要改进的领域。我们进一步提出了我们原创的集成设计模型，结合了社交机器人设计的最重要的方面。我们的方法表明了整合操作、沟通和情感维度以在机器人和人类之间创建更具适应性和同理心的互动的重要性。

用于精确 LiDAR 里程计、地图操作和定位的灵活框架

分类： 机器人技术

作者： José Luis Blanco-Claraco

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20465v1

摘要： 基于激光雷达的 SLAM 是自动驾驶汽车和机器人的核心技术。尽管该领域的研究活动非常密集，但每个提出的系统都使用特定的传感器后处理管道和单一地图表示格式。目前的工作旨在为 3D LiDAR SLAM 和定位引入革命性的观点：（1）使用基于视图的地图作为地图的基本表示（“简单地图”），然后可以使用它来生成任意度量地图针对特定任务进行优化；（2）通过引入一个无需编码即可定义映射管道的新框架，定义可重用块网络的连接，就像通过连接标准化元素层来设计深度学习网络一样。此外，还引入了将当前线性和角速度矢量作为要在 ICP 环路中优化的变量的想法，从而在没有 IMU 的情况下实现针对剧烈运动曲线的卓越鲁棒性。所提出的开源生态系统已发布到 ROS 2，包括工具和预构建管道，涵盖从数据采集到地图编辑和可视化、实时定位、闭环检测或来自消费级 GNSS 接收器的地图地理配准的所有方式。广泛的实验验证表明，该提案与以前最先进的 (SOTA) LiDAR 测距系统相比，效果很好，或者有所改进，同时还成功地绘制了一些与其他序列不同的硬序列。所提出的自适应配置已用于具有 16 至 128 个环之间传感器的所有 3D LiDAR 数据集，无需更改参数，并在超过 250km 的汽车、手持式、机载和四足 LiDAR 的 83 个序列上进行了广泛测试室内和室外的数据集。开源实现可在线获取：https://github.com/MOLAorg/mola

前车运动的触觉反馈可以改善驾驶控制

分类： 机器人技术, 人机交互, 系统与控制, 系统与控制

作者： Xiaoxiao Cheng, Xianzhe Geng, Yanpei Huang, Etienne Burdet

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20439v1

摘要： 本研究研究了触觉反馈在跟车场景中的作用，其中通过与其虚拟弹性连接提供有关前方车辆运动的信息。我们在模拟驾驶环境中使用机器人界面，研究了不同级别的触觉反馈对驾驶员在避开障碍物时遵循道路的能力的影响。对 15 名受试者进行的实验结果表明，前车运动的触觉反馈可以显着改善驾驶控制（即减少运动急动和偏离道路）并减轻精神负担（通过问卷评估）。这表明，在物理交互的人类之间观察到的触觉通信可用于提高自动驾驶系统的安全性和效率，从而有必要在真实驾驶场景中进行进一步测试。

对准分数：多视图姿势精度评估的稳健指标

分类： 计算机视觉和模式识别, 机器人技术

作者： Seong Hun Lee, Javier Civera

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20391v1

摘要： 我们提出了三个新颖的指标来评估给定地面实况的一组估计相机姿势的准确性：平移对齐分数（TAS）、旋转对齐分数（RAS）和姿势对齐分数（PAS）。 TAS 独立于旋转评估平移精度，RAS 独立于平移评估旋转精度。 PAS 是两个分数的平均值，用于评估平移和旋转的综合准确性。 TAS 的计算分为四个步骤： (1) 找到最近对距离的上四分位数 $d$。（2）使用稳健的配准方法将估计轨迹与地面实况对齐。 (3) 收集所有距离误差，并获得从 $0.01d$ 到 $d$ 范围内的多个阈值的累积频率，分辨率为 $0.01d$。 (4) 将这些累积频率相加并对其进行归一化，使得理论最大值为 1。TAS 相对于现有指标具有实际优势，因为 (1) 它对异常值和共线运动具有鲁棒性，(2) 不需要调整不同数据集上的参数。 RAS 的计算方式与 TAS 类似，并且与现有轮换指标相比，它对异常值的鲁棒性更强。我们通过广泛的模拟来验证我们的主张，并对所提出的指标的优点和缺点进行深入讨论。

SAPG：拆分和聚合策略梯度

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 机器人技术, 系统与控制, 系统与控制

作者： Jayesh Singla, Ananye Agarwal, Deepak Pathak

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20230v1

摘要： 尽管样本效率极高，但策略强化学习（又名策略梯度）已成为决策问题的基本工具。随着 GPU 驱动模拟的最新进展，为 RL 训练收集大量数据的能力呈指数级增长。然而，我们展示了当前的 RL 方法，例如PPO 无法吸收超过某一点的并行环境的优势，并且其性能饱和。为了解决这个问题，我们提出了一种新的同策略 RL 算法，该算法可以通过将大规模环境分割成块并通过重要性采样将它们重新融合在一起来有效地利用大规模环境。我们的算法（称为 SAPG）在各种具有挑战性的环境中显示出显着更高的性能，在这些环境中，普通 PPO 和其他强大的基线无法实现高性能。网站 https://sapg-rl.github.io/

通过无监督等变学习在 RKHS 中进行无对应的 SE(3) 点云注册

分类： 计算机视觉和模式识别, 机器人技术

作者： Ray Zhang, Zheming Zhou, Min Sun, Omid Ghasemalizadeh, Cheng-Hao Kuo, Ryan Eustice, Maani Ghaffari, Arnie Sen

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20223v1

摘要： 本文介绍了一种鲁棒的无监督 SE(3) 点云配准方法，该方法无需点对应即可运行。该方法将点云构建为再现内核希尔伯特空间（RKHS）中的函数，利用 SE(3) 等变特征进行直接特征空间配准。提出了一种新颖的 RKHS 距离度量，在噪声、异常值和不对称数据中提供可靠的性能。引入无监督训练方法来有效处理有限的地面实况数据，促进适应真实数据集。所提出的方法在合成 (ModelNet40) 和现实世界 (ETH3D) 噪声、异常值丰富的数据集上的配准精度优于经典方法和监督方法。据我们所知，这标志着使用等变方法成功注册真实 RGB-D 里程计数据的第一个实例。该代码位于 {https://sites.google.com/view/eccv24-equivalign}

为内窥镜手术配准神经 4D 高斯

分类： 机器人技术, 计算机视觉和模式识别

作者： Yiming Huang, Beilei Cui, Ikemura Kei, Jiekai Zhang, Long Bai, Hongliang Ren

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20213v1

摘要： 神经渲染领域的最新进展使得能够使用神经网络重建高质量的 4D 场景。尽管 4D 神经重建很流行，但这种表示的配准仍然是一项具有挑战性的任务，特别是对于手术规划和模拟中的动态场景配准。在本文中，我们提出了一种动态手术神经场景配准的新策略。我们首先利用 4D 高斯溅射来表示手术场景并有效捕获静态和动态场景。然后，提出了一种空间感知特征聚合方法，即空间权重杂波（SWC），以准确对齐手术场景之间的特征，从而实现精确而真实的手术模拟。最后，我们提出了一种可变形场景配准的新颖策略来配准两个动态场景。通过结合空间和时间信息进行对应匹配，与现有的隐式神经表示注册方法相比，我们的方法实现了卓越的性能。所提出的方法有可能改善手术计划和培训，最终带来更好的患者结果。

用于分布式、带宽有限的多机器人探索的特权强化和通信学习

分类： 机器人技术

作者： Yixiao Ma, Jingsong Liang, Yuhong Cao, Derek Ming Siang Tan, Guillaume Sartoretti

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20203v1

摘要： 通信带宽是多机器人探索中的一个重要考虑因素，其中机器人之间的信息交换至关重要。虽然现有方法通常旨在降低通信吞吐量，但它们要么需要大量计算，要么显着降低探索效率。在这项工作中，我们提出了一种基于通信和特权强化学习的深度强化学习框架，以实现带宽消耗的显着减少，同时最小化地牺牲探索效率。具体来说，我们的方法允许机器人学习将环境中的个人信念（部分地图）中最显着的信息嵌入到固定大小的消息中。然后，机器人推理自己的信念并接收消息，以分布式探索环境，同时避免冗余工作。在此过程中，我们采用特权学习和学习注意机制为批评家（即教师）网络赋予地面实况图知识，以在训练期间有效指导政策（即学生）网络。与相关基线相比，我们的模型允许团队将通信减少多达两个数量级，同时仅牺牲总行进距离 2.4% 的边际，为带宽有限场景中高效、分布式多机器人探索铺平了道路。

用于机器人远程操作的辐射场

分类： 机器人技术

作者： Maximum Wilder-Smith, Vaishakh Patil, Marco Hutter

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20194v1

摘要： 神经辐射场 (NeRF) 或 3D 高斯分布 (3DGS) 等辐射场方法彻底改变了图形和新颖的视图合成。它们能够合成具有照片级真实质量的新视点，以及捕获复杂的体积和镜面场景，使它们成为机器人远程操作设置的理想可视化。直接摄像机远程操作以牺牲可操作性为代价提供高保真操作，而基于重建的方法提供保真度较低的可控场景。考虑到这一点，我们建议用在线辐射场取代机器人远程操作管道的传统重建可视化组件，提供具有照片级真实质量的高度可操作的场景。因此，对最先进技术有三个主要贡献：(1) 使用来自多个摄像机的实时数据在线训练辐射场，(2) 支持包括 NeRF 和 3DGS 在内的各种辐射方法，(3) 可视化套件这些方法包括虚拟现实场景。为了实现与现有设置的无缝集成，这些组件在多种配置下使用多个机器人进行了测试，并使用传统工具和 VR 耳机进行展示。将不同方法和机器人的结果与网格重建的基线进行定量比较，并进行用户研究来比较不同的可视化方法。有关视频和代码，请查看 https://leggedrobotics.github.io/rffr.github.io/。

Theia：提炼机器人学习的多种视觉基础模型

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20179v1

摘要： 基于视觉的机器人策略学习将视觉输入映射到动作，需要对分类或分割等单一任务需求之外的各种视觉任务进行全面理解。受此启发，我们推出了 Theia，这是一种用于机器人学习的视觉基础模型，它提炼出多个在不同视觉任务上训练的现成视觉基础模型。 Theia 丰富的视觉表示编码了不同的视觉知识，增强了下游机器人的学习。大量实验表明，Theia 使用较少的训练数据和较小的模型大小，优于其教师模型和先前的机器人学习模型。此外，我们量化了预先训练的视觉表示的质量，并假设特征范数分布中的较高熵会导致机器人学习性能的提高。代码和模型可在 https://github.com/bdaiinstitute/theia 获取。

用于多机器人导航的语言条件离线强化学习

分类： 机器人技术, 人工智能, 机器学习

作者： Steven Morad, Ajay Shankar, Jan Blumenkamp, Amanda Prorok

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20164v1

摘要： 我们提出了一种为解释和遵循自然语言指令的多机器人团队开发导航策略的方法。我们以预训练大型语言模型 (LLM) 的嵌入为条件设定这些策略，并通过离线强化学习使用短短 20 分钟的随机收集数据来训练它们。对五个真实机器人组成的团队进行的实验表明，这些策略可以很好地推广到看不见的命令，表明对 LLM 潜在空间的理解。我们的方法不需要模拟器或环境模型，并且产生低延迟控制策略，可以直接部署到真实的机器人而无需微调。我们在 https://sites.google.com/view/llm-marl 上提供了实验视频。

绘图机器人虚拟形象的自主远程操作控制

分类： 机器人技术

作者： Lingyun Chen, Abdeldjallil Naceri, Abdalla Swikir, Sandra Hirche, Sami Haddadin

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20156v1

摘要： 绘图机器人化身是一种允许基于远程呈现绘图的机器人系统，使用户能够远程控制机械臂并从远程位置实时创建绘图。所提出的控制框架旨在通过辅助或辅助任务的自动化减少用户工作量和所需的先验知识，从而提高双手机器人远程呈现质量。所引入的新颖方法根据所附眼手相机的视觉反馈质量计算接近最佳的笛卡尔末端执行器姿势，并考虑运动约束。通过使用所实现的机器人化身与固定和遥控相机姿势条件进行比较来绘制参考形状的用户研究证明了其有效性。我们的结果表明，所提出的控制框架提供了改进的视觉反馈质量和绘图性能。

反事实奖励利用单独控制的群体微型机器人促进集体运输

分类： 机器人技术, 软凝聚态物质

作者： Veit-Lorenz Heuthe, Emanuele Panizon, Hongri Gu, Clemens Bechinger

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20041v1

摘要： 群体机器人提供了令人着迷的机会来执行超出单个机器能力的复杂任务。正如一群蚂蚁集体移动一个大物体一样，通过基于局部感知的单独策略，一组机器人中也可以出现类似的功能。然而，由于微型机器人的微米尺寸、大量的自由度、相对于推进速度的强热噪声、相邻微型机器人之间复杂的物理耦合以及表面碰撞，利用单独控制的微型机器人实现集体功能特别具有挑战性。在这里，我们实施多智能体强化学习 (MARL)，为多达 200 个微型机器人生成控制策略，这些机器人的运动由激光点单独控制。在学习过程中，我们采用所谓的反事实奖励，自动将功劳分配给各个微型机器人，从而实现快速且公正的训练。借助这种有效的奖励方案，群体微型机器人学会将大型货物集体运输到任意位置和方向，类似于蚂蚁群。我们证明，这种灵活且多功能的群体机器人系统对于群体规模的变化、故障单元的存在和环境噪声具有鲁棒性。这种控制策略有可能实现移动微型机器、可编程药物输送胶囊和其他先进芯片实验室应用的复杂和自动化组装。

通过时间差分学习的碰撞概率分布估计

分类： 机器人技术, 机器学习

作者： Thomas Steinecker, Thorsten Luettel, Mirko Maehlisch

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20000v1

摘要： 我们推出了 CollisionPro，这是一个开创性的框架，旨在使用时间差异学习来估计累积碰撞概率分布，专门针对机器人应用而设计，特别强调自动驾驶。这种方法满足了对可解释人工智能 (XAI) 的需求，并试图克服基于模型的方法和保守约束所带来的限制。我们在强化学习的背景下制定我们的框架，为具有安全意识的代理铺平道路。尽管如此，我们断言我们的方法在各种情况下都可能是有益的，包括安全警报系统或分析目的。使用真实的自动驾驶模拟器对我们的框架进行了全面检查，展示了其高样本效率和对以前未见过的碰撞事件的可靠预测能力。源代码是公开的。

基于场景的集成分析：支持自动驾驶系统开发和安全评估的数据驱动方法

分类： 机器人技术, 应用领域

作者： Gibran Ali, Kaye Sullivan, Eileen Herbers, Vicki Williams, Dustin Holley, Jacobo Antona-Makoshi, Kevin Kefauver

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19975v1

摘要： 存在多种基于场景的框架来帮助车辆系统开发和安全保证。然而，需要结合不同类型的数据集的方法，以提供不同级别的案例严重性、数据丰富度和代表性。本研究提出了一种基于场景的集成分析方法，包括场景定义、融合、参数化和测试用例生成。在此过程中，将美国十年来的致命和非致命全国碰撞数据与超过 3400 万英里的自然驾驶数据相结合。选择一个说明性示例场景“在交叉路口转弯”来演示这种方法。首先，场景定义是根据基于记录的数据和连续时间序列数据建立的。其次，进行频率分析，以了解同一场景中不同严重程度的事件在数据集中发生的频率。第三，进行分析以显示与场景相关的关键因素以及各种参数的分布。最后，提出了一种将两种类型的数据组合成代表性测试用例场景的方法。这些技术通过两个主要方式提高场景代表性：首先，它们填充了从常规事件到致命事故的整个案例范围；其次，它们通过结合大规模的国家和自然数据集来提供背景丰富的多年数据。

用于安全导航的神经控制屏障功能

分类： 机器人技术

作者： Marvin Harms, Mihir Kulkarni, Nikhil Khedekar, Martin Jacquet, Kostas Alexis

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19907v1

摘要： 自主机器人导航的要求特别高，特别是当周围环境未知且机器人的安全至关重要时。这项工作涉及通过数据合成控制屏障功能（CBF），以便在未知环境中安全导航。受状态相关 Riccati 方程 (SDRE) 的启发，提出了一种在模拟中联合学习 CBF 和相应安全控制器的新方法。 CBF 用于从任何标称的、可能不安全的控制器获取可接受的命令。开发了一种在安全过滤器内应用 CBF 的方法，无需一致的地图或位置估计。随后，在仿真和实际实验中，将所得的反应式安全滤波器部署在集成 LiDAR 传感器的多旋翼平台上。

逆强化学习的微分动态规划框架

分类： 机器人技术, 系统与控制, 系统与控制, 优化与控制

作者： Kun Cao, Xinhang Xu, Wanxin Jin, Karl H. Johansson, Lihua Xie

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19902v1

摘要： 引入了基于微分动态规划 (DDP) 的逆强化学习 (IRL) 框架，以恢复成本函数、系统动力学和演示约束中的参数。与现有工作不同，DDP 用于具有不等式约束的内部正向问题，我们提出的框架使用它来有效计算具有等式和不等式约束的外部逆问题所需的梯度。建立了所提出的方法与基于庞特里亚金极大值原理（PMP）的现有方法之间的等价性。更重要的是，使用这种基于 DDP 的 IRL 和开环损失函数，提出了一个闭环 IRL 框架。在此框架中，提出了损失函数来捕获演示的闭环性质。它被证明比常用的开环损失函数更好。我们表明，在某些假设下，闭环 IRL 框架可简化为约束逆最优控制问题。在这些假设和排序条件下，证明可以从演示数据中恢复学习参数。通过四个数值机器人示例和一个真实的四旋翼飞行器系统对所提出的框架进行了广泛的评估。实验验证了理论结果并说明了该方法的实际相关性。

具有掩模引导注意力的语言驱动的抓取检测

分类： 机器人技术, 计算机视觉和模式识别

作者： Tuan Van Vo, Minh Nhat Vu, Baoru Huang, An Vuong, Ngan Le, Thieu Vo, Anh Nguyen

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19877v1

摘要： 抓取检测是各种工业应用机器人技术中的一项重要任务。然而，传统方法常常与遮挡作斗争，并且不利用语言进行抓取。将自然语言融入抓取检测仍然是一项具有挑战性的任务，并且很大程度上尚未被探索。为了解决这一差距，我们提出了一种新方法，通过利用具有语义分割特征的变压器注意机制，通过掩模引导注意来进行语言驱动的抓取检测。我们的方法集成了视觉数据、分割掩模特征和自然语言指令，显着提高了抓取检测的准确性。我们的工作引入了一种用于语言驱动的抓取检测的新框架，为语言驱动的机器人应用铺平了道路。大量实验表明，我们的方法明显优于其他最近的基线，成功分数提高了 10.0%。我们在现实世界的机器人实验中进一步验证了我们的方法，证实了我们方法的有效性。

新型六自由度混合机械臂的设计与控制

分类： 机器人技术

作者： Yang Chen, Zhonghua Miao, Yuanyue Ge, Sen lin, Liping Chen, Ya Xiong

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19826v1

摘要： 机械臂是水果采摘机器人的关键部件。在农业环境中，传统的串行或并行机械臂往往无法满足大工作空间、快速移动、增强避障能力和经济承受能力的需求。这项研究提出了一种新型混合六自由度（DoF）机械臂，它结合了并行和串行机构的优点。受瑜伽的启发，我们设计了两个能够沿着单轨独立移动的滑块，充当两只脚。这些滑块通过连杆和啮合齿轮组相互连接，允许并联机构降低自身并执行分裂以通过障碍物。这一独特的功能使手臂能够避开温室中常见的障碍物，例如管道、桌子和横梁。获得专利的混合臂与串联安装的关节集成在一起，即使在随移动平台移动时也能保持末端姿势，从而有助于在动态条件下以最佳姿势采摘水果。此外，混合臂的工作空间要大得多，几乎是 UR3 串联臂体积的三倍，是 ABB IRB 并联臂体积的十四倍。实验表明，两个滑块和臂端的重复性误差分别为0.017 mm、0.03 mm和0.109 mm，为农业机器人提供了足够的精度。

检测护理机器人神经网络模仿策略中的不安全行为

分类： 机器人技术

作者： Andrii Tytarenko

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19819v1

摘要： 本文探讨了模仿学习在护理机器人技术中的应用，旨在满足护理老年人和残疾人对自动化辅助日益增长的需求。利用深度学习和控制算法的进步，该研究的重点是使用离线演示来训练神经网络策略。解决的一个关键挑战是“政策停止”问题，这对于增强基于模仿学习的政策（尤其是扩散政策）的安全性至关重要。提出的新颖解决方案包括集成预测器和用于早期异常检测的基于归一化流的算法的改编。与 VAE 和 Tran-AD 等异常检测方法的比较评估表明，其在辅助机器人基准测试中表现出卓越的性能。本文最后讨论了将安全模型集成到策略训练中的进一步研究，这对于护理机器人中神经网络策略的可靠部署至关重要。

用于语言引导轨迹生成的运动流形流基元

分类： 机器人技术, 人工智能

作者： Yonghyeon Lee, Byeongho Lee, Seungyeon Kim, Frank C. Park

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19681v1

摘要： 由于数据集较小、轨迹空间维度较高以及文本条件运动分布固有的复杂性，开发基于文本的机器人轨迹生成模型变得特别困难。最近基于流形学习的方法已经部分解决了维度和数据集大小问题，但难以应对复杂的文本条件分布。在本文中，我们提出了一种基于文本的轨迹生成模型，该模型试图在仅依赖少量演示轨迹数据的情况下解决所有三个挑战。我们的关键思想是利用最新的基于流的模型，该模型能够捕获复杂的条件分布，不是直接在高维轨迹空间中，而是在运动流形的低维潜在坐标空间中，并通过精心设计的正则化项来确保运动的平滑度和对文本变化的鲁棒性。我们表明，我们的{\it Motion Manifold Flow Primitive (MMFP)}框架可以为各种文本输入准确地生成质量不同的运动，显着优于现有方法。

“一个好的机器人总是知道它的局限性”：通过因子化机器自信心评估自主系统决策能力

分类： 人工智能, 计算机与社会, 人机交互, 机器学习, 机器人技术

作者： Brett Israelsen, Nisar R. Ahmed, Matthew Aitken, Eric W. Frew, Dale A. Lawrence, Brian M. Argrow

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19631v1

摘要： 智能机器如何评估其完成任务的能力？这个问题已经成为在不确定性下通过算法推理并做出决策的自主系统的焦点。这里有人认为，机器自信——一种元推理形式，基于智能体对世界和自身状态的知识的自我评估，以及其推理和执行任务的能力——会导致此类人员有许多可计算且有用的能力指标。本文以称为因式分解机器自信 (FaMSeC) 的计算框架的形式呈现了这一概念的巅峰工作，该框架提供了以工程为中心的驱动算法决策过程的因素的整体描述，包括结果评估、求解器质量、模型质量、对齐质量和过去的经验。在 FaMSeC 中，自信心指标源自嵌入大类概率决策算法（例如马尔可夫决策过程）中的分层“问题解决统计”。解决问题的统计数据是通过根据给定的能力标准评估和分级概率超出裕度来获得的，这些能力标准是由知情者（例如非专家用户或专家系统设计者）为每个决策能力因素指定的。这种方法允许通过人类可解释的能力自我评估报告将“算法拟合优度”评估轻松纳入多种自主代理的设计中。马尔可夫决策过程代理的详细描述和运行应用程序示例展示了如何通过新颖地使用元实用函数、行为模拟和替代预测模型。

基于低秩模型的高度自动化车辆高维容错测试

分类： 软件工程, 人工智能, 机器学习, 机器人技术

作者： Yuewen Mei, Tong Nie, Jian Sun, Ye Tian

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.21069v1

摘要： 由于存在潜在的严重故障，确保高度自动化车辆 (HAV) 的容错能力对于其安全至关重要。因此，从业者进行故障注入（FI）测试来评估HAV的安全水平。为了完全覆盖测试用例，应考虑各种驾驶场景和故障设置。然而，由于测试场景和故障设置的多种组合，测试空间可能是复杂且高维的。此外，在所有新添加的场景中评估性能非常消耗资源。可能导致安全问题的严重故障的罕见性进一步加剧了这一挑战。为了应对这些挑战，我们建议在低秩平滑正则化矩阵分解（SRMF）框架下加速 FI 测试。我们首先根据其安全值将稀疏评估数据组织成结构化矩阵。然后通过矩阵结构捕获的相关性来估计未测试的值。为了解决高维问题，对测试空间施加低秩约束。为了利用现有场景和新场景之间的关系并捕获关键故障的局部规律性，进一步设计了三种类型的平滑正则化作为补充。我们进行跟车实验，切入场景。结果表明，与其他机器学习模型相比，SRMF 在各种场景下具有最低的预测误差，并且能够预测罕见的严重故障。此外，SRMF在识别关键故障方面可以实现1171的加速率、99.3%的精度和91.1%的F1分数。据我们所知，这是第一个将低秩模型引入 HAV 的 FI 测试的工作。

Forecast-PEFT：预训练运动预测模型的参数高效微调

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Jifeng Wang, Kaouther Messaoud, Yuejiang Liu, Juergen Gall, Alexandre Alahi

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19564v1

摘要： 运动预测的最新进展很大程度上是由自监督预训练推动的。然而，通过广泛的微调来适应特定下游任务的预训练模型，尤其是运动预测，通常效率很低。出现这种低效率的原因是运动预测与屏蔽的预训练任务紧密结合，而传统的完全微调方法无法充分利用这种结合。为了解决这个问题，我们引入了 Forecast-PEFT，这是一种微调策略，可以冻结模型的大部分参数，重点调整新引入的提示和适配器。这种方法不仅保留了预先学习的表示，而且还显着减少了需要重新训练的参数数量，从而提高了效率。这种量身定制的策略，辅以我们的方法有效适应不同数据集的能力，提高了模型效率并确保跨数据集的稳健性能，而无需进行大量的再训练。我们的实验表明，Forecast-PEFT 在运动预测任务中优于传统的完全微调方法，只需通常需要的可训练参数的 17% 即可实现更高的精度。此外，我们的综合适应预测-FT 进一步提高了预测性能，比传统基线方法提高了 9.6%。代码可在 https://github.com/csjfwang/Forecast-PEFT 获取。

使用空间和语义数据解决单目关键帧视觉 SLAM 中的短期重定位问题

分类： 机器人技术, 计算机视觉和模式识别

作者： Azmyin Md. Kamal, Nenyi K. N. Dadson, Donovan Gegg, Corina Barbalata

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19518v1

摘要： 在单目关键帧视觉同步定位和建图（MKVSLAM）框架中，当增量位置跟踪失败时，必须在短时间内恢复全局姿态，也称为短期重定位。这种能力对于移动机器人进行可靠的导航、构建准确的地图以及在人类协作者周围进行精确的行为至关重要。本文重点关注使用单目摄像头系统的移动机器人开发强大的短期重定位能力。引入了一种新颖的多模态关键帧描述符，其中包含在环境中检测到的对象的语义信息和相机的空间信息。使用该描述符，提出了一种新的基于关键帧的位置识别（KPR）方法，该方法被制定为多级关键帧过滤算法，从而为 MKVSLAM 系统提供了新的重定位管道。所提出的方法在多个室内 GPS 拒绝数据集上进行了评估，并与词袋方法相比展示了准确的姿态恢复。

EPD：长期记忆提取、上下文感知规划和多次迭代决策 @ EgoPlan Challenge ICML 2024

分类： 机器人技术, 计算机视觉和模式识别

作者： Letian Shi, Qi Lv, Xiang Deng, Liqiang Nie

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19510v1

摘要： 在这份技术报告中，我们介绍了 ICML 2024 中 EgoPlan 挑战的解决方案。为了解决现实世界中以自我为中心的任务规划问题，我们引入了一种新颖的规划框架，该框架包括三个阶段：长期记忆提取、情境感知规划、以及多次迭代决策，称为EPD。给定任务目标、任务进度和当前观察，提取模型首先从进度视频中提取与任务相关的记忆信息，将复杂的长视频转化为概括的记忆信息。然后，规划模型将记忆信息的上下文与当前观察的细粒度视觉信息相结合，以预测下一步行动。最后，通过多次迭代决策，决策模型全面了解任务情况和当前状态，做出最切合实际的规划决策。在 EgoPlan-Test 集上，EPD 在 1,584 个以自我为中心的任务规划问题上实现了 53.85% 的规划准确率。我们已在 https://github.com/Kskkkskr/EPD 上提供了所有代码。

基于小增益定理的网络化欧拉-拉格朗日系统分布式规定时间凸优化

分类： 优化与控制, 机器人技术

作者： Gewei Zuo, Mengmou Li, Lijun Zhu

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19496v1

摘要： 在本文中，我们解决了无向连通图下一类网络化欧拉-拉格朗日系统的分布式规定时间凸优化（DPTCO）。利用局部目标函数的位置相关测量梯度值和相邻智能体之间的局部信息交互，构建一组辅助系统来协作寻求最优解。然后将 DPTCO 问题转换为互连误差系统的规定时间稳定问题。提出了规定时间小增益准则来表征系统的规定时间稳定性，提供了一种新颖的方法，可以提高互连系统现有渐近或有限时间稳定性的有效性。在准则和辅助系统下，为子系统设计了创新的自适应规定时间本地跟踪控制器。规定时间收敛在于引入时变增益，当时间趋于规定时间时，时变增益增加到无穷大。利用李亚普诺夫函数和规定时间映射证明了闭环系统的规定时间稳定性以及内部信号的有界性。最后通过数值算例验证了理论结果。

高清地图作为 GPS 拒绝环境中全球一致地图绘制的先验信息

分类： 机器人技术

作者： Waqas Ali, Patric Jensfelt, Thien-Minh Nguyen

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19463v1

摘要： 近年来，现有地图已成为自主导航的主流工具。然而，常用的现有地图仍然是针对控制和决策任务而定制的，并且使用这些地图进行定位在很大程度上仍未得到探索。为了弥补这一差距，我们提出了一种基于激光雷达的定位和地图（LOAM）系统，该系统可以在自动驾驶场景中利用常见的高清地图。具体来说，我们提出了一种从高清地图的可驾驶区域和地面高度分量中提取信息以构建 4DOF 位姿先验的技术。然后，将这些先验姿势进一步集成到姿势图优化问题中，以创建全局一致的 3D 地图。实验表明，与最先进的仅激光雷达方法相比，我们的方案可以显着提高地图的全局一致性，这被证明是增强系统鲁棒性的有用技术，特别是在 GPS 拒绝的环境中。此外，我们的工作还通过更新地图，作为机器人在熟悉的环境中长期导航的第一步。在自动驾驶中，这可以实现更新高清地图，而无需从第三方公司采购新地图，这种方式成本高昂，并且会导致从世界变化到更新地图的延迟。

ASI-Seg：具有外科医生意图理解的音频驱动手术器械分割

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 人机交互, 机器人技术

作者： Zhen Chen, Zongming Zhang, Wenwu Guo, Xingjian Luo, Long Bai, Jinlin Wu, Hongliang Ren, Hongbin Liu

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19435v1

摘要： 手术器械分割对于手术场景理解至关重要，从而促进手术安全。现有算法直接检测输入图像中预定义类别的所有器械，缺乏根据外科医生的意图分割特定器械的能力。在手术的不同阶段，外科医生表现出不同的偏好并关注不同的手术器械。因此，符合外科医生意图的器械分割算法可以最大限度地减少不相关器械的干扰，并在很大程度上帮助外科医生。最近的分段任意模型（SAM）揭示了根据提示分割对象的能力，但在手术过程中手动注释提示是不切实际的。为了解决手术室中的这些限制，我们提出了一种音频驱动的手术器械分割框架，名为 ASI-Seg，通过解析外科医生的音频命令来准确分割所需的手术器械。具体来说，我们提出了一种面向意图的多模态融合来解释音频命令的分割意图并检索相关的乐器详细信息以促进分割。此外，为了指导所需手术器械的 ASI-Seg 部分，我们设计了一种对比学习提示编码器，以有效区分所需器械和不相关器械。因此，我们的 ASI-Seg 促进了手术室的工作流程，从而提供有针对性的支持并减轻外科医生的认知负担。我们进行了大量的实验来验证 ASI-Seg 框架，该框架在语义分割和面向意图的分割方面显示出优于经典的最先进的医学 SAM 的显着优势。源代码可在 https://github.com/Zonmgin-Zhang/ASI-Seg 获取。

使用碰撞锥控制屏障功能的固定翼无人机的实时安全性

分类： 系统与控制, 机器人技术, 系统与控制

作者： Aryan Agarwal, Ravi Agrawal, Manan Tayal, Pushpak Jagtap, Shishir Kolathaya

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19335v1

摘要： 固定翼无人机以其高飞行速度和长续航时间改变了交通系统，但它们在日益混乱的环境中的安全运行在很大程度上取决于有效的防撞技术。本文提出了一种新方法，可以使飞机沿所需路线安全导航，同时避开移动障碍物。我们利用一类基于碰撞锥的控制障碍函数（CBF）来确保飞机和障碍物之间的相对速度始终避免可能导致碰撞的矢量锥。通过证明所提出的约束对于飞机来说是有效的 CBF，我们可以通过二次规划 (QP)（称为 CBF-QP）来利用其实时实现。验证包括沿轨迹模拟控制律，显示在静态和移动障碍物场景中的有效性。

了解 ROS 中的错误配置：实证研究和当前方法

分类： 软件工程, 机器人技术

作者： Paulo Canelas, Bradley Schmerl, Alcides Fonseca, Christopher S. Timperley

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19292v1

摘要： 机器人操作系统 (ROS) 是一种流行的框架和生态系统，允许开发人员利用可重复使用的现成组件构建机器人软件系统。系统通常是通过配置文件定制和连接组件来构建的。虽然可重用组件理论上允许快速原型设计，但确保正确的配置和连接具有挑战性，开发人员论坛上的众多问题就证明了这一点。开发人员必须遵守各个组件经常未经检查和未声明的假设。如果不这样做，可能会导致仅在现场部署期间发现的错误配置，此时错误可能会导致不可预测的危险行为。尽管在更广泛的软件工程背景下对错误配置进行了研究，但机器人软件（尤其是 ROS）带来了特定领域的挑战，并可能带来灾难性的后果。为了了解和提高 ROS 项目的可靠性，识别开发人员面临的错误配置类型至关重要。为此，我们对 ROS Answers（一个问答平台）进行了研究，以识别 ROS 开发过程中发生的错误配置并对其进行分类。然后，我们进行文献综述，以评估现有检测技术对这些错误配置的覆盖范围。我们总共发现了 12 个高级类别和 50 个错误配置子类别。在这些类别中，现有技术未涵盖 27 个类别。最后，我们讨论如何在未来的工作中解决这些错误配置。

类人自动驾驶的大型语言模型：一项调查

分类： 人工智能, 机器人技术

作者： Yun Li, Kai Katsumata, Ehsan Javanmardi, Manabu Tsukada

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19280v1

摘要： 大型语言模型 (LLM) 是在海量文本语料库上训练的人工智能模型，具有卓越的语言理解和生成能力，正在改变自动驾驶 (AD) 领域。随着 AD 系统从基于规则和基于优化的方法发展到基于学习的技术（例如深度强化学习），它们现在准备好拥抱第三种更高级的类别：由大语言模型授权的基于知识的 AD。这种转变有望使 AD 更接近类人 AD。然而，将大语言模型集成到自动驾驶系统中在实时推理、安全保证和部署成本方面提出了挑战。这项调查对利用大语言模型进行 AD 的最新进展进行了全面和批判性的回顾，重点关注其在模块化 AD 管道和端到端 AD 系统中的应用。我们强调关键进展，确定紧迫的挑战，并提出有前途的研究方向，以弥合大语言模型和 AD 之间的差距，从而促进更人性化的 AD 系统的开发。该调查首先介绍了大语言模型的主要特点和常见的培训方案，然后分别深入探讨了它们在模块化 AD 管道和端到端 AD 中的应用，最后讨论了开放挑战和未来方向。通过这种深入的分析，我们的目标是为人工智能和自动驾驶汽车交叉领域的研究人员和从业者提供见解和灵感，最终为更安全、更智能、更以人为本的自动驾驶技术做出贡献。

电缆驱动机械手的抓力控制和适应

分类： 机器人技术

作者： Eric Mountain, Ean Weise, Sibo Tian, Beiwen Li, Xiao Liang, Minghui Zheng

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19279v1

摘要： 本文介绍了一种独特的力控制和自适应算法，用于轻量级、低复杂度的五指机器人手，即集成手指机器人手（IFRH）。力控制和自适应算法设计直观，易于实现，并通过前馈自适应自动改善抓取功能。具体来说，我们将传统上用于反馈控制器设计的 Youla 参数化扩展为前馈迭代学习控制算法（ILC）。这种扩展的独特之处在于反馈和前馈控制器都通过一个统一的设计参数进行参数化，该参数可以根据所需的闭环性能轻松定制。虽然 Youla 参数化和 ILC 过去已在各种应用中进行过探索，但我们独特的参数化和计算方法使设计直观且易于实施。这提供了强大的自适应学习能力，我们的应用程序的复杂性可以与许多机器人手控制系统相媲美。进行了大量的实验测试来验证我们方法的有效性。

无全球罗盘的两个变形机器人系统的交会与合并

分类： 机器人技术, 分布式、并行和集群计算, 68M14,, C.2.4

作者： Ryonosuke Yamada, Tomoyuki Usami, Yukiko Yamauchi

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19175v1

摘要： 变形机器人系统（MRS）由匿名模块组成，每个模块通过滑动和旋转在二维方形网格中自主移动，同时保持模块之间的连接性。现有文献考虑模块之间的分布式协调，以便它们共同形成单个 MRS。在本文中，我们考虑两个 MRS 的分布式协调。我们首先提出一种交会算法，使两个 MRS 聚集，以便每个模块都可以观察所有其他模块。然后，我们提出了一种合并算法，使两个 MRS 在交会完成后组装并建立连接。这两种算法假设每个 MRS 由五个模块组成，这些模块没有共同的坐标系。最后，我们证明每个 MRS 需要五个模块来解决交会问题。据我们所知，我们的结果是多个 MRS 分布式协调的第一个结果。

用于时空野火缓解的资源高效型去中心化顺序规划器

分类： 机器人技术, 多代理系统

作者： Josy John, Shridhar Velhal, Suresh Sundaram

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19163v1

摘要： 本文提出了一种冲突感知资源高效分散顺序规划器（CREDS），用于使用多个异构无人机（UAV）进行早期野火缓解。多无人机野火管理场景是非平稳的，由于无人机数量和感知范围有限，火灾可能在空间上聚集、动态蔓延、潜在的突发火灾以及部分可观测性。 CREDS 的目标是通过单无人机任务 (SUT) 检测并依次缓解所有不断蔓延的火灾，通过无人机快速干预最大限度地减少生物多样性丧失，并通过避免复杂的多无人机协调来促进资源高效利用。 CREDS 采用三阶段方法，首先使用搜索算法进行火灾检测，然后使用基于拍卖的资源高效分散顺序规划器 (REDS) 生成本地轨迹，并结合新颖的非平稳成本函数（截止日期优先）缓解成本 (DPMC)。最后，冲突感知共识算法解决冲突，以确定时空缓解的全局轨迹。对不同火力与无人机比率的异构和同质无人机团队的部分和完全可观测性条件下的 CREDS 性能评估表明，对于高达 4 美元的比率，成功率高达 100 美元，对于临界比率，成功率很高5 美元，优于基线。在处理 SUT 缓解的异构期限方面，异构无人机团队的表现优于同类团队。 CREDS 具有可扩展性和 100%$ 收敛性，展示了针对潜在死锁分配的鲁棒性，与基线方法相比提高了其成功率。

使用无人机团队进行基于遗传算法的野火扑灭路由和调度

分类： 机器人技术, 多代理系统, 神经和进化计算

作者： Josy John, Suresh Sundaram

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19162v1

摘要： 本文讨论了使用无人机团队减轻火灾的早期野火管理。早期检测和缓解系统有助于通过减少资源利用率来减轻破坏。提出了一种基于遗传算法的时间约束路由和调度（GARST），以找到最短的调度路线来减轻火灾，作为单一无人机任务（SUT）。 GARST 的目标是计算无人机的路线和时间表，以便无人机在火灾成为多无人机任务 (MUT) 之前到达指定的火灾地点，并使用灭火器完全扑灭火灾。用于遗传算法的适应度函数是缓解总火灾的总灭火时间。选择、交叉、变异算子和精英策略共同确保了对解空间的探索和利用，保持遗传多样性，防止过早收敛，并保留高性能个体以有效优化解。 GARST 有效地解决了具有时间限制的增长任务的路由和调度 NP 完全问题所带来的挑战。 GARST能够有效处理不可行的场景，有助于野火管理系统的整体优化。

离散和连续 MARL 域中不可预见故障恢复的协作适应

分类： 多代理系统, 机器人技术

作者： Yasin Findik, Hunter Hasenfus, Reza Azadeh

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19144v1

摘要： 协作多智能体学习对于制定有效策略以实现多智能体团队中的个人或共同目标起着至关重要的作用。在现实世界中，特工可能会面临意外的故障，例如机器人的腿出现故障或队友的电池耗尽。这些故障会降低团队完成指定任务的能力，特别是当它们发生在学习算法已经收敛到协作策略之后。当前多智能体强化学习（MARL）的领先方法通常从此类故障中恢复缓慢（如果有的话）。为了克服这一限制，我们提出了协作适应（CA）框架，强调了其在连续和离散领域中运行的独特能力。我们的框架通过将代理间关系集成到学习过程中来增强代理对意外故障的适应性，从而加速从故障中恢复。我们通过离散和连续环境中的实验评估了我们的框架的性能。经验结果表明，在涉及不可预见故障的场景中，尽管最先进的算法通常会收敛于次优解决方案，但所提出的 CA 框架可以更有效地缓解和恢复。

基于像素的分层策略对任务泛化的好处

分类： 机器学习, 人工智能, 机器人技术

作者： Tudor Cristea-Platon, Bogdan Mazoure, Josh Susskind, Walter Talbott

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19142v1

摘要： 强化学习从业者通常会避免分层策略，尤其是在基于图像的观察空间中。通常，相对于扁平策略的单任务性能改进并不能证明与实现层次结构相关的额外复杂性是合理的。然而，通过引入多个决策级别，分层策略可以组成较低级别的策略，以更有效地在任务之间进行泛化，从而突出了多任务评估的必要性。我们通过像素模拟多任务机器人控制实验来分析层次结构的好处。我们的结果表明，通过任务调节训练的分层策略可以（1）提高训练任务的性能，（2）改善类似任务中的奖励和状态空间泛化，以及（3）降低解决新问题所需的微调的复杂性。任务。因此，我们认为在构建能够在任务之间泛化的强化学习架构时应该考虑分层策略。

关系 Q 函数：多智能体学习从连续动作域中不可预见的机器人故障中恢复

分类： 机器人技术, 多代理系统

作者： Yasin Findik, Paul Robinette, Kshitij Jerath, Reza Azadeh

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19128v1

摘要： 协作多智能体学习方法对于在多智能体领域制定有效的合作策略至关重要。在机器人技术中，这些方法从多机器人场景扩展到单机器人系统，它们能够实现不同机器人模块（例如机器人腿或关节）之间的协调。然而，当前的方法通常难以快速适应不可预见的故障，例如机器人腿故障，尤其是在算法收敛到策略之后。为了克服这个问题，我们引入了关系 Q 函数（RQF）框架。 RQF 利用代表代理关系的关系网络来增强适应性，提供针对故障的恢复能力。我们的算法还可以有效地处理连续的状态动作域，使其适合机器人学习任务。我们的实证结果表明，RQF 使代理能够有效地利用这些关系来促进合作，并从具有多个交互模块的单机器人系统中的意外故障中恢复。因此，我们的方法在多代理系统中提供了有前途的应用，特别是在出现不可预见的故障的情况下。

使用视觉语言模型零射击解决机器人问题

分类： 人工智能, 机器人技术

作者： Zidan Wang, Rui Shen, Bradly Stadie

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.19094v1

摘要： 我们介绍 Wonderful Team，这是一个多智能体视觉 LLM (VLLM) 框架，用于解决零样本情况下的机器人问题。零样本的意思是，对于一个新的环境，我们向 VLLM 提供机器人环境的图像和任务的描述，并让 VLLM 输出机器人完成任务所需的动作序列。机器人领域 VLLM 的先前工作主要集中在对管道的某些部分进行微调的设置，例如根据机器人数据调整 LLM 或训练用于感知和动作生成的单独视觉编码器。令人惊讶的是，由于 VLLM 功能的最新进展，许多任务可能不再需要这种类型的微调。在这项工作中，我们表明，通过精心设计，我们可以促使单个现成的 VLLM 处理机器人任务的各个方面，从高层规划到低层位置提取和动作执行。 Wonderful Team 以多代理 LLM 的最新进展为基础，跨代理层次结构划分任务，使其具有自我纠正能力，并且能够有效地划分和解决长期任务。 VIMABench 和真实机器人环境上的大量实验证明了该系统能够以零样本的方式处理各种机器人任务，包括操纵、视觉目标达成和视觉推理。这些结果强调了一个关键点：视觉语言模型在过去一年中取得了快速进展，并且应该被强烈视为未来机器人技术问题的支柱。

解决不确定动态环境中安全运动控制的行为模型不准确问题

分类： 机器人技术, 系统与控制, 系统与控制

作者： Minjun Sung, Hunmin Kim, Naira Hovakimyan

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.19071v1

摘要： 环境的不确定性和行为模型的不准确性会影响动态障碍物的状态估计及其轨迹预测，从而引入估计偏差和预测分布的变化。解决这些挑战对于安全控制自主系统至关重要。在本文中，我们提出了一种新颖的算法 SIED-MPC，该算法使用模型置信度评估协同集成同时状态和输入估计（SSIE）和分布式鲁棒模型预测控制（DR-MPC）。 SSIE 过程产生无偏状态估计和最佳输入间隙估计来评估行为模型的置信度，定义 DR-MPC 的模糊半径来处理预测分布变化。这种系统的置信度评估可以产生具有足够保守性的安全输入。我们的算法证明，通过改进状态估计，可以降低自动驾驶模拟中的碰撞率，平均计算时间缩短 54%。

用于基于磁性的导航的实时不确定性感知运动规划

分类： 机器人技术, 系统与控制, 系统与控制

作者： Aditya Penumarti, Kristy Waters, Humberto Ramos, Kevin Brink, Jane Shin

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.19046v1

摘要： GPS 拒绝环境中的定位对于自主系统至关重要，而 SLAM 等传统方法在跨不同环境的通用性方面存在局限性。磁导航 (MagNav) 通过利用普遍存在且独特的外部磁场异常现象，提供了强大的解决方案。本文提出了一种 MagNav 实时不确定性感知运动规划算法，使用机载磁力计和信息驱动方法根据实时定位置信度调整轨迹。这种方法平衡了寻找最短或最节能的路线与减少定位不确定性、提高导航准确性和可靠性之间的权衡。该新颖算法将不确定性驱动的框架与基于磁性的定位相结合，创建了一个实时自适应系统，能够最大限度地减少复杂环境中的定位误差。广泛的模拟和现实世界实验验证了该方法，证明了定位不确定性的显着降低和实时实施的可行性。该论文还详细介绍了不确定性的数学模型、规划方法的算法基础以及使用磁场进行定位的实际意义。未来的工作包括纳入全球路径规划器来解决当前指导法的本地性质，进一步增强该方法对长期操作的适用性。

HRP：机器人预训练的人类可供性

分类： 机器人技术, 计算机视觉和模式识别

作者： Mohan Kumar Srirama, Sudeep Dasari, Shikhar Bahl, Abhinav Gupta

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18911v1

摘要： 为了“推广”到野外的各种任务，机器人代理将需要一个合适的表示（即视觉网络），使机器人能够在给定高维视觉输入的情况下预测最佳动作。然而，学习这样的表示需要大量不同的训练数据，在真实的机器人上收集这些数据的成本非常昂贵。我们怎样才能克服这个问题呢？本文建议使用互联网规模的人类视频来提取环境和代理级别的“可供性”，并将其提炼为预先训练的表示，而不是收集更多的机器人数据。我们提出了一个简单的框架，用于预训练手部、物体和接触“可供性标签”的表示，突出显示图像中的相关物体以及如何与它们交互。这些可供性是从人类视频数据中自动提取的（借助现成的计算机视觉模块），并用于微调现有的表示。我们的方法可以有效地微调任何现有的表示，并产生具有更强下游机器人性能的模型。我们通过实验证明（使用 3000 多个机器人试验），这种可供性预训练方案可将 5 项现实世界任务的性能提高至少 15%，其中考虑了三种不同的机器人形态（包括灵巧的手）。与该领域之前的作品不同，这些表示提高了 3 个不同摄像机视图的性能。从数量上讲，我们发现我们的方法在分布外设置中导致更高水平的泛化。代码、权重和数据检查：https://hrp-robot.github.io

学习旋转“笔”的教训

分类： 机器人技术, 人工智能, 机器学习

作者： Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18902v1

摘要： 手动操作笔状物体是我们日常生活中的一项重要技能，因为锤子和螺丝刀等许多工具的形状相似。然而，由于缺乏高质量的演示以及模拟与现实世界之间的巨大差距，当前基于学习的方法很难完成这项任务。在这项工作中，我们通过展示旋转笔状物体的能力来突破基于学习的手动操纵系统的界限。我们首先使用强化学习来训练具有特权信息的预言机策略，并在模拟中生成高保真轨迹数据集。这有两个目的：1）在模拟中预训练感觉运动策略； 2）在现实世界中进行开环轨迹回放。然后，我们使用这些现实世界的轨迹来微调感觉运动策略，使其适应现实世界的动态。通过不到 50 条轨迹，我们的策略学会了将十多个具有不同物理属性的笔状物体旋转多次。我们对我们的设计选择进行了全面分析，并分享了开发过程中吸取的经验教训。

SHANGUS：深度强化学习与启发式优化相结合，实现未知空间中自动驾驶汽车的快速前沿探索

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Seunghyeop Nam, Tuan Anh Nguyen, Eunmi Choi, Dugki Min

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18892v1

摘要： 本文介绍了 SHANGUS，这是一种将深度强化学习 (DRL) 与启发式优化相结合的先进框架，可提高未知环境中基于前沿的探索效率，特别是对于自主航空服务、搜索和救援行动以及太空探索机器人中的智能车辆。 SHANGUS 利用 DRL 的适应性和启发式优先级，显着提高勘探效率、缩短完成时间并最大限度地缩短行驶距离。该策略涉及一个前沿选择节点来识别未探索的区域，以及一个 DRL 导航节点，该节点使用双延迟深度确定性策略梯度 (TD3) 算法来实现稳健的路径规划和动态避障。在ROS2和Gazebo仿真环境中的大量实验表明，SHANGUS超越了最近前沿（NF）、基于新颖前沿的探索算法（CFE）和目标驱动自主探索（GDAE）算法等代表性传统方法，尤其是在复杂场景下，表现出色完成时间、行驶距离和探索率。这种可扩展的解决方案适用于工业自动化、自动驾驶、家用机器人和太空探索等领域的实时自主导航。未来的研究将整合额外的感官输入并完善启发式功能，以进一步提高 SHANGUS 的效率和稳健性。

变形中鳍增强了无绳仿生机器人金枪鱼的线性加速度和转弯机动性

分类： 机器人技术, 生物物理学, 流体动力学

作者： Hongbin Huang, Zhonglu Lin, Wei Zheng, Jinhu Zhang, Zhibin Liu, Wei Zhou, Yu Zhang

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18843v1

摘要： 类鱼游泳者的中鳍在线性加速和机动过程中发挥着至关重要的作用。然而，很少有研究关注不受束缚的机器鱼实验。模仿真实金枪鱼的行为，我们开发了一种具有可折叠背鳍的自由游动仿生金枪鱼。背鳍竖立在适当的条件下，可减少头升50%，线加速度提高15.7%，转弯角速度提高32.78%，转弯半径减小33.13%。相反，竖起背鳍会增加润湿表面积，导致稳定游泳阶段的最大速度和效率降低。这一发现部分解释了为什么金枪鱼在机动或加速时会竖起中间鳍，然后折叠起来以减少阻力。此外，我们验证了加速后折叠中间鳍不会显着影响运动效率。这项研究支持了变形中鳍在波动水下机器人中的应用，有助于进一步了解中鳍对鱼类运动的影响。

学习形状调节代理以纯触觉手动操作各种物体

分类： 机器人技术

作者： Johannes Pitz, Lennart Röstel, Leon Sievers, Darius Burschka, Berthold Bäuml

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18834v1

摘要： 用多指手重新定位不同的物体是一项具有挑战性的任务。目前机器人手动操作的方法要么是特定于对象的，要么需要视觉传感器对对象状态进行永久监控。这与人类的能力和现实应用中的需要相去甚远。在这项工作中，我们通过训练形状调节代理来重新定向手中的不同物体，完全依靠触觉反馈（通过手指关节的扭矩和位置测量）来解决这一差距。为了实现这一目标，我们提出了一个学习框架，该框架利用强化学习策略和学习状态估计器中的形状信息。我们发现，用从一组固定基点到形状表面的向量表示 3D 形状，并根据其预测的 3D 姿势进行转换，对于学习灵巧的手动操作特别有帮助。在模拟和现实世界的实验中，我们展示了许多对象的重新定向，成功率很高，与使用专门的单对象代理获得的最先进的结果相当。此外，我们展示了对新物体的泛化，即使对于非凸形状也能达到 $\sim$90% 的成功率。

HERO-SLAM：神经 SLAM 的混合增强鲁棒优化

分类： 机器人技术

作者： Zhe Xin, Yufeng Yue, Liangjun Zhang, Chenming Wu

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18813v1

摘要： 同步定位与建图 (SLAM) 是机器人技术的一项基本任务，推动着自动驾驶和虚拟现实等众多应用。神经隐式 SLAM 的最新进展已经显示出令人鼓舞和令人印象深刻的结果。然而，神经 SLAM 的鲁棒性，特别是在具有挑战性或数据有限的情况下，仍然是一个未解决的问题。本文提出了 HERO-SLAM，一种神经 SLAM 的混合增强鲁棒优化方法，它结合了神经隐式场和特征度量优化的优点。这种混合方法优化了多分辨率隐式场，并增强了在具有突然视点变化或稀疏数据收集的挑战性环境中的鲁棒性。我们对基准数据集的全面实验结果验证了我们的混合方法的有效性，证明了其在具有挑战性的场景中比现有的基于隐式字段的方法具有优越的性能。 HERO-SLAM 提供了一条新途径来增强神经 SLAM 在现实场景中的稳定性、性能和适用性。代码可在项目页面上找到：https://hero-slam.github.io。

曳引航天器定向再入大气密度补偿模型预测控制

分类： 系统与控制, 机器人技术, 系统与控制

作者： Alex D. Hayes, Ryan J. Caverly

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18762v1

摘要： 本文提出了一种估计和控制框架，可以在大气密度不确定的情况下实现阻力调制航天器的有针对性的再入。特别是，扩展卡尔曼滤波器（EKF）用于估计相对于用于生成标称制导轨迹的大气密度的飞行中密度误差。与最先进的方法相比，在模型预测控制 (MPC) 策略中利用这些信息来提高跟踪性能、减少控制工作并提高执行器饱和的鲁棒性。估计和控制框架在蒙特卡罗模拟活动中使用历史空间天气数据进行了测试。这些模拟工作表明，在 98.4% 的情况下，所提出的框架能够在所有时间点保持在制导轨迹的 100 公里以内。其余 1.6% 的情况因较大的密度误差而偏离了指导值，其中许多是由于严重的太阳风暴和耀斑造成的，而阻力控制装置无法在物理上对其进行补偿。对于成功的案例，所提出的框架能够引导航天器到达入口界面高度的所需位置，平均误差为12.1公里，并且99.7%的案例低于100公里。

SysML和BPMN中的多机器人系统架构设计

分类： 人工智能, 机器人技术, 软件工程

作者： Ahmed R. Sadik, Christian Goerick

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18749v1

摘要： 多机器人系统（MRS）是一个复杂的系统，包含许多不同的软件和硬件组件。本文解决的主要问题是 MRS 设计的复杂性。所提出的解决方案提供了基于形式系统工程方法的模块化建模和仿真技术，因此分解并降低了MRS设计复杂性。 MRS 的建模是通过两种正式的架构描述语言 (ADL) 实现的，即系统建模语言 (SysML) 和业务流程模型和表示法 (BPMN)，以设计系统蓝图。通过使用这些抽象设计 ADL，项目的实施变得与技术无关。这允许将设计概念从一种编程语言转移到另一种编程语言。在模拟阶段，使用多智能体环境来模拟 MRS 蓝图。仿真已在Java Agent Development (JADE) 中间件中实现。因此，其结果可以以绩效评估矩阵的形式用于分析和验证所提出的MRS模型。

分而治之：从稀疏点云生成工业级高清 OpenDRIVE 的系统方法

分类： 机器人技术

作者： Leon Eisemann, Johannes Maucher

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18703v1

摘要： 高清道路地图在高度自动驾驶功能的功能和验证中发挥着至关重要的作用。其中包含有关道路网络、几何形状、状况以及交通标志的精确信息。尽管高清地图对于驾驶功能的开发和评估很重要，但其生成仍然是一个正在进行的研究课题。虽然该领域之前的工作主要集中在道路几何形状的准确性上，但我们提出了一种用于工业应用的自动大规模地图生成的新颖方法。我们提出的方法利用最少数量的有关道路的外部信息来分段处理 LiDAR 数据。随后将这些片段组合起来，实现灵活且可扩展的流程，从而实现高清精度。此外，我们还展示了 OpenDRIVE 在驾驶功能仿真中的使用。

上肢康复中协作机器人的优化设计和控制方法

分类： 机器人技术

作者： Dario Onfiani, Marco Caramaschi, Luigi Biagiotti, Fabio Pini

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18661v1

摘要： 在本文中，我们讨论了基于协作末端执行器解决方案的上肢机器人康复系统的开发。商用协作机器人的使用为这项任务提供了显着的优势，因为它们从工程角度进行了优化，并确保与人类的安全物理交互。然而，它们也有明显的缺点，例如市场上可用的尺寸范围有限以及主要面向工业或服务应用的标准控制模式。为了解决这些限制，我们提出了一种基于优化的设计方法，以充分利用协作机器人执行康复任务的能力。此外，我们引入了一种基于导纳型虚拟夹具方法的新型控制架构，该架构限制机器人沿着规定路径的运动。这种方法允许通过演示编程直观地定义要执行的任务，并使系统能够被动和主动操作。在被动模式下，系统在任务执行期间以额外的力支持患者，而在主动模式下，系统通过制动力来阻止患者的运动。实验结果证明了该方法的有效性。

PP-TIL：基于实例的迁移模仿学习的自动驾驶个性化规划

分类： 机器人技术, 人工智能, 机器学习

作者： Fangze Lin, Ying He, Fei Yu

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18569v1

摘要： 个性化运动规划在城市自动驾驶中具有重要意义，可以满足个人用户的独特需求。然而，先前的努力在同时解决两个关键方面时经常遇到困难：复杂的城市环境中的个性化规划和通过数据利用提高规划绩效。挑战来自于用户数据的昂贵和有限的性质，再加上场景状态空间趋于无穷大。这些因素会导致模型训练过程中出现过度拟合和泛化不良的问题。因此，我们提出了一种基于实例的迁移模仿学习方法。该方法促进了从广泛的专家领域数据到用户领域的知识转移，为这些问题提供了根本的解决方案。我们最初使用大规模专家数据训练预训练模型。随后，在微调阶段，我们提供批量数据，其中包括专家数据和用户数据。采用逆强化学习技术，我们从用户演示中提取风格特征分布，构造近似用户风格的正则化项。在我们的实验中，我们对所提出的方法进行了广泛的评估。与基线方法相比，我们的方法减轻了由稀疏用户数据引起的过度拟合问题。此外，我们发现将驾驶模型与可微非线性优化器集成作为端到端个性化微调的安全保护层可以带来卓越的规划性能。

人机工作站的输入和输出设备与身体残疾的匹配

分类： 机器人技术, 人机交互, 系统与控制, 系统与控制

作者： Carlo Weidemann, Nils Mandischer, Burkhard Corves

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18563v1

摘要： 由于劳动力短缺正在以惊人的速度增长，当务之急是让所有人，特别是残疾人和老年人都有工作。机器人通常被用作帮助残疾人的通用工具。然而，对于这种人机工作站，通用设计失败了。我们根据联合国通过的《残疾人权利公约》，通过匹配工作流程所需的设备和个人残疾人，缓解了选择个性化输入和输出设备的挑战。目标是通过所需的设备来促进经济上可行的工作站，从而降低企业包容性和工作场所重新设计期间的总体成本。我们的工作重点是开发一种有效的方法来根据个人的残疾情况过滤输入和输出设备，从而生成定制的可用设备列表。该方法能够对与国际功能、残疾和健康分类中定义的特定残疾兼容的设备进行自动评估。在模型中，我们展示了残疾人输入和输出设备的综合，从而为残疾人选择设备提供了实用工具。

PANDORA：开源、结构弹性人形机器人

分类： 机器人技术, 系统与控制, 系统与控制

作者： Connor W. Herron, Alexander J. Fuge, Benjamin C. Beiter, Zachary J. Fuge, Nicholas J. Tremaroli, Stephen Welch, Maxwell Stelmack, Madeline Kogelis, Philip Hancock, Ivan Fischman Ekman Simoes, Christian Runyon, Isaac Pressgrove, Alexander Leonessa

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18558v1

摘要： 在这项工作中，展示了新型开源人形机器人 PANDORA，其大部分结构元件均使用 3D 打印合规材料制造。与将弹性元件结合到致动器机构中的当代方法相反，PANDORA 的设计是在负载下具有柔顺性，或者换句话说，具有结构弹性。这种设计方法降低了制造成本和时间、设计复杂性和装配时间，同时引入了状态估计、关节和全身控制方面的控制挑战。这项工作对机械和电气子系统进行了深入描述，包括有关增材制造的优点和缺点、传感器的使用和放置以及设备之间的网络的详细信息。此外，从估计和控制的角度讨论了结构弹性部件的设计及其对整体性能的影响。最后，结果表明机器人在存在干扰和步进行为的情况下完成了稳健的平衡目标。

具有难度引导特征增强网络的多智能体轨迹预测

分类： 机器人技术, 人工智能

作者： Guipeng Xin, Duanfeng Chu, Liping Lu, Zejian Deng, Yuang Lu, Xigang Wu

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18551v1

摘要： 轨迹预测对于自动驾驶至关重要，因为它的目的是预测交通参与者的未来运动。传统方法通常对智能体的轨迹进行整体推理，忽略了智能体之间预测难度的差异。本文提出了一种新颖的难度引导特征增强网络（DGFNet），它利用代理之间的预测难度差异进行多代理轨迹预测。首先，我们采用时空特征编码和交互来捕获丰富的时空特征。其次，使用难度引导解码器来控制未来轨迹进入后续模块，获得可靠的未来轨迹。然后通过未来的特征交互模块进行特征交互和融合。最后，融合的代理特征被输入到最终的预测器中，以生成多个参与者的预测轨迹分布。实验结果表明，我们的 DGFNet 在 Argoverse 1&2 运动预测基准上实现了最先进的性能。消融研究进一步验证了每个模块的有效性。此外，与SOTA方法相比，我们的方法平衡了轨迹预测精度和实时推理速度。

ReALFRED：在真实环境中遵循基准的具体指令

分类： 机器人技术, 人工智能

作者： Taewoong Kim, Cheolhong Min, Byeonghwi Kim, Jinyeon Kim, Wonje Jeung, Jonghyun Choi

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18550v1

摘要： 模拟虚拟环境已被广泛用于学习执行日常家务任务的机器人代理。到目前为止，这些环境鼓励研究进展，但通常提供有限的对象交互性、与现实世界环境不同的视觉外观或相对较小的环境尺寸。这使得虚拟场景中学习到的模型无法轻松部署。为了弥合这些学习环境和部署（即真实）环境之间的差距，我们提出了 ReALFRED 基准，该基准采用真实世界的场景、对象和房间布局来学习代理通过理解自由形式的语言指令和交互来完成家庭任务包含大型、多房间和 3D 捕获场景中的对象。具体来说，我们通过更新扩展了 ALFRED 基准，以适应更大的环境空间和更小的视觉域间隙。通过 ReALFRED，我们分析了之前为 ALFRED 基准制定的方法，并观察到它们在所有指标中始终产生较低的性能，从而鼓励社区在更现实的环境中开发方法。我们的代码和数据是公开的。

预算约束下的分布式多机器人在线采样

分类： 机器人技术

作者： Azin Shamshirgaran, Sandeep Manjanna, Stefano Carpin

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18545v1

摘要： 在多机器人信息路径规划中，问题是为团队中的每个机器人找到访问一组位置的路线，这些位置可以提供最有用的数据来重建未知的标量场。在预算版本中，每个机器人都受到旅行预算的限制，限制了它可以行驶的距离。我们对这个问题的兴趣源于精准农业中的应用，其中机器人用于收集测量结果以估计与领域相关的标量参数，例如土壤湿度或硝酸盐浓度。在本文中，我们提出了一种基于蒙特卡罗树搜索（MCTS）的在线分布式多机器人采样算法，其中每个机器人通过与其他机器人的通信并考虑其剩余预算迭代地选择下一个采样位置。我们针对不同的团队规模和不同的环境评估了我们提出的方法，并将我们的解决方案与四种不同的基线方法进行了比较。我们的实验表明，当预算紧张时，我们的解决方案通过收集导致较小重建误差的测量结果优于基线。

通过农业应用的实时本地成本图更新改进 ROS 2 导航堆栈

分类： 机器人技术

作者： Ettore Sani, Antonio Sgorbissa, Stefano Carpin

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18535v1

摘要： ROS 2 导航堆栈 (Nav2) 已成为广泛使用的软件组件，为开发各种高级功能提供了底层基础。然而，当在果园和葡萄园等室外环境中使用时，其功能明显受到室内环境中不常见的障碍物和/或情况的限制。一个这样的例子是高高的草丛和杂草，机器人可以安全地穿过这些草丛和杂草，但激光雷达传感器可能会将其视为障碍物，然后迫使机器人采取更长的路径来避开它们，或者完全中止导航。为了克服这些限制，必须开发特定领域的扩展并将其集成到软件管道中。本文提出了一种新的轻量级方法来应对这一挑战并改进户外机器人导航。利用支持 Nav2 的成本图的多尺度特性，我们开发了一个系统，该系统使用深度相机对图像进行像素级分类，并实时将校正注入本地成本图，从而使机器人能够穿越可能需要的区域。否则会被 Nav2 避开。我们的方法已在 Clearpath Husky 上实施和验证，我们证明，通过此扩展，机器人能够执行标准组件无法执行的导航任务。

高斯车道保持：稳健的预测基线

分类： 机器人技术

作者： David Isele, Piyush Gupta, Xinyi Liu, Sangjae Bae

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18451v1

摘要： 由于多种因素的影响，包括不同意图、智能体间交互、交通（环境）规则、个人倾向和智能体动态的不确定性，预测智能体对车辆和行人的行为具有挑战性。因此，文献中引入了大量的神经网络驱动的预测模型来涵盖这些复杂的问题，以准确地预测代理行为。然而，这些方法中的许多方法在遇到超出训练数据集的场景时都会出现问题，并且缺乏可解释性，引发人们对其是否适合自动驾驶等现实世界应用的担忧。此外，这些模型经常需要额外的训练、大量的计算资源或需要大量实施工作的特定输入特征。为此，我们提出了高斯车道保持（GLK），这是一种用于自动驾驶车辆的稳健预测方法，可以在开发新算法时提供可靠的比较基准，并为实际部署进行健全性检查。我们为 GLK 模型提供了多种扩展，在 CitySim 数据集上对其进行了评估，并表明它优于基于神经网络的预测。

使用 GAN 进行针分割：恢复机器人超声中薄仪器的可见性

分类： 机器人技术

作者： Zhongliang Jiang, Xuesong Li, Xiangyu Chu, Angelos Karlas, Yuan Bi, Yingsheng Cheng, K. W. Samuel Au, Nassir Navab

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18357v1

摘要： 超声引导经皮穿刺针是临床实践中活检和消融中采用的标准程序。然而，由于组织和仪器之间复杂的相互作用，针可能会偏离平面视图，导致缺乏对经皮针的密切监测。为了应对这一挑战，我们引入了机器人辅助超声 (US) 成像系统，旨在无缝监控插入过程，并在发生错位时自动恢复插入器械的可见性。为此，提出了对抗性结构，以鼓励生成与高阶空间中的基本事实一致的分割掩模。本研究还通过探索各种训练损失函数及其组合，系统地研究了对分割性能的影响。当检测到探头和经皮针之间未对准时，触发机器人进行横向搜索，以优化位置和旋转调整，以恢复针的可见性。离体猪样本的实验结果表明，该方法可以精确分割经皮针（尖端误差为$0.37\pm0.29mm$，角度误差为$1.19\pm 0.29^{\circ}$）。此外，在所有 45 次试验中，在重新定位的探针姿势下，针的外观都可以成功恢复，重新定位误差为 $1.51\pm0.95mm$ 和 $1.25\pm0.79^{\circ}$。从乳胶到带有数学符号的文本

使用深度强化学习的自适应终端滑模控制用于外骨骼机器人系统的零力控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Morteza Mirzaee, Reza Kazemi

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18309v1

摘要： 本文介绍了一种新颖的上肢外骨骼机器人零力控制方法，该方法可用于康复、辅助和人体能力增强等多种应用。所提出的控制方法采用自适应积分终端滑模（AITSM）控制器，结合指数趋近律和近端策略优化（PPO）（一种深度强化学习（DRL））。 PPO 系统结合了注意力机制和长短期记忆 (LSTM) 神经网络，使控制器能够选择性地关注相关系统状态、适应不断变化的行为并捕获长期依赖性。该控制器旨在以零力管理五自由度上肢外骨骼机器人，即使在系统不确定的情况下也是如此。该控制器使用积分终端滑动表面来确保有限时间收敛到所需状态，这对于需要快速响应的应用来说是一个至关重要的功能。它还包括指数开关控制项，以减少抖动并提高系统精度。 PPO 系统促进了控制器的适应性，允许根据系统反馈进行实时参数调整，使控制器具有鲁棒性，并且能够处理可能影响外骨骼性能的不确定性和干扰。通过数值模拟以及与现有控制方法的比较，证实了所提出的控制方法的有效性和优越性。

CodedVO：编码视觉里程计

分类： 机器人技术, 计算机视觉和模式识别

作者： Sachin Shah, Naitri Rajyaguru, Chahat Deep Singh, Christopher Metzler, Yiannis Aloimonos

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18240v1

摘要： 自主机器人通常依靠单目摄像头进行里程估计和导航。然而，尺度模糊问题对有效的单目视觉里程计提出了关键障碍。在本文中，我们提出了 CodedVO，这是一种新颖的单目视觉里程计方法，它通过采用定制光学器件将度量深度信息物理编码到图像中来克服尺度模糊问题。通过将这些信息合并到我们的里程计管道中，我们在已知规模的单目视觉里程计中实现了最先进的性能。我们在不同的室内环境中评估我们的方法，并证明其稳健性和适应性。我们在 ICL-NUIM 室内里程计数据集上的里程计评估中实现了 0.08m 的平均轨迹误差。

甲虫和扑动微型机器人的被动机翼展开和收回

分类： 生物物理学, 机器人技术

作者： Hoang-Vu Phan, Hoon Cheol Park, Dario Floreano

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18180v1

摘要： 鸟类、蝙蝠和许多昆虫在休息时可以将翅膀贴在身体上，并利用翅膀为飞行提供动力。尽管鸟类和蝙蝠使用发达的胸肌和翅膀肌肉和肌腱，但昆虫如何控制这些运动仍不清楚，因为翅膀展开和收缩的机制因昆虫种类而异。甲虫（鞘翅目）展示出最复杂的翅膀机制之一。例如，在犀牛甲虫中，翅膀展开是通过完全打开鞘翅并从腹部部分释放后翅来开始的。随后，甲虫开始拍动翅膀，抬起基部的后翅，并以折纸般的方式展开翼尖。虽然类似折纸的折叠已被广泛探索，但对后翅基部展开和缩回的关注有限，据信后翅基部展开和缩回是由胸肌驱动的。使用高速摄像机和机器人扑翼模型，我们在这里证明犀牛甲虫可以毫不费力地将后翅提升到飞行位置，而不需要肌肉活动。我们表明，打开鞘翅会触发后翅从身体上像弹簧一样的部分释放，从而为随后的拍动运动提供所需的间隙，从而使后翅进入飞行位置。研究结果还表明，飞行后，甲虫可以利用鞘翅将后翅推回到静止位置，进一步强化了被动部署机制的假设。最后，我们用扑动的微型机器人验证了这一假设，该机器人被动地展开翅膀进行稳定的受控飞行，并在着陆时整齐地收回翅膀，这为设计类似昆虫的飞行微型机器提供了一种简单而有效的方法。

PianoMime：从互联网演示中学习多才多艺、灵巧的钢琴演奏家

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Cheng Qian, Julen Urain, Kevin Zakka, Jan Peters

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18178v1

摘要： 在这项工作中，我们介绍了 PianoMime，一个使用互联网演示来训练钢琴演奏代理的框架。互联网是训练机器人代理的大规模演示的一个很有前途的来源。尤其是钢琴演奏，Youtube 上充斥着专业钢琴家演奏各种歌曲的视频。在我们的工作中，我们利用这些演示来学习能够演奏任意歌曲的多才多艺的钢琴演奏代理。我们的框架分为三个部分：数据准备阶段，用于从 Youtube 视频中提取信息特征；策略学习阶段，用于从演示中训练特定于歌曲的专家策略；以及策略蒸馏阶段，用于将策略提炼为单个通用代理。我们探索不同的策略设计来代表代理，并评估训练数据量对代理对数据集中不可用的新歌曲的泛化能力的影响。我们表明，我们能够学习对未见过的歌曲 F1 分数高达 56% 的策略。

用于开放世界感知的双曲空间中的分类感知连续语义分割

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Julia Hindel, Daniele Cattaneo, Abhinav Valada

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18145v1

摘要： 语义分割模型通常在一组固定的类上进行训练，限制了它们在开放世界场景中的适用性。类增量语义分割旨在用新兴的新类来更新模型，同时防止对先前学习的类的灾难性遗忘。然而，现有的方法对旧类施加了严格的刚性，降低了它们学习新增量类的有效性。在这项工作中，我们提出了面向分类的庞加莱正则化增量类分割（TOPICS），它按照显式的分类树结构学习双曲空间中的特征嵌入。这种监督为旧类提供了可塑性，根据新类更新祖先，同时在合适的位置集成新类。此外，我们在庞加莱球的几何基础上维护隐式类关系约束。这确保了潜在空间能够不断适应新的约束，同时保持稳健的结构以对抗灾难性遗忘。我们还为自动驾驶场景建立了八种现实的增量学习协议，其中新的类可以源自已知的类或背景。对 Cityscapes 和 Mapillary Vistas 2.0 基准的 TOPICS 进行的广泛评估表明，它实现了最先进的性能。我们在 http://topics.cs.uni-freiburg.de 上公开提供代码和训练模型。

使用类细胞二元执行器的机器人影响矢量控制

分类： 机器人技术

作者： Alexandre Girard, Jean-Sébastien Plante

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18140v1

摘要： 使用类蜂窝冗余二元执行器的机器人在可靠性、力重比和成本方面可以超越电动齿轮电机机器人系统。本文提出了一种鲁棒的容错控制方案，旨在解决此类机器人遇到的控制挑战，即离散执行器输入、复杂系统建模和执行器之间的交叉耦合。在所提出的方案中，通过根据执行器对输出的影响向量来招募执行器来控制所需的矢量系统输出，例如位置或力。不需要系统的分析模型；通过顺序激活每个执行器来通过实验识别影响向量。对于位置控制任务，控制器使用概率方法和遗传算法来确定要招募的执行器的最佳组合。对于运动控制任务，控制器使用滑模方法和每个执行器的独立招募决策。在具有二十个执行器的四自由度二元机械臂上的实验结果证实了该方法的有效性及其承受大量扰动和大量执行器故障的能力。

使用 IMU 和方位测量进行位姿、速度和地标位置估计

分类： 系统与控制, 机器人技术, 系统与控制

作者： Miaomiao Wang, Abdelhamid Tayebi

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18099v1

摘要： 本文研究了使用惯性测量单元（IMU）和单目相机对刚体的位姿（方向和位置）和线速度以及地标位置的估计问题。首先，我们提出了一种全局指数稳定（GES）线性时变（LTV）观测器，用于使用 IMU 和单目方位测量来估计车身框架地标位置和速度。此后，使用陀螺仪测量、惯性系中已知的一些地标以及 LTV 观察者的估计，我们提出了 $\SO(3)\times \mathbb{R}^3$ 上的非线性位姿观察者。使用几乎全局输入状态稳定性（ISS）的概念，整个估计系统被证明是几乎全局渐近稳定（AGAS）的。有趣的是，我们表明，利用少量地标的知识（在惯性系中），我们可以（在某些条件下）恢复大量地标的未知位置（在惯性系中）。数值模拟结果说明了所提出的估计方案的性能。

YOCO：只需校准一次即可获得激光雷达相机系统中的准确外部参数

分类： 机器人技术, 计算机视觉和模式识别

作者： Tianle Zeng, Dengke He, Feifan Yan, Meixi He

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18043v1

摘要： 在由相机和激光雷达组成的多传感器融合系统中，精确的外参标定有助于系统的长期稳定性和对环境的准确感知。然而，基于提取和配准对应点的方法在自动化和精度方面仍然面临挑战。本文提出了一种新型的激光雷达相机系统全自动外部校准方法，避免了对应点配准的需要。在我们的方法中，提出了一种提取所需 LiDAR 对应点的新算法。该方法可以通过计算平面点云的方向并应用基于距离和密度的阈值来提取点，从而有效地过滤掉不相关的点。我们通过将激光雷达和相机之间的外在参数引入提取点的投影并构造共面约束来避免对应点配准的需要。然后优化这些参数以解决外部问题。我们在多组激光雷达相机系统中验证了我们的方法。在合成实验中，与当前的校准技术相比，我们的方法表现出优越的性能。真实数据实验进一步证实了该算法的精度和鲁棒性，LiDAR和相机之间的平均旋转和平移校准误差分别小于0.05度和0.015m。这种方法可以一步实现自动、准确的外在校准，强调了校准算法除了使用对应点配准之外的潜力，可以提高激光雷达相机系统校准的自动化和精度。

TiCoSS：在联合学习框架内加强语义分割和立体匹配之间的耦合

分类： 计算机视觉和模式识别, 机器人技术

作者： Guanfeng Tang, Zhiyuan Wu, Rui Fan

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18038v1

摘要： 语义分割和立体匹配分别类似于我们人脑的腹侧和背侧流，是自动驾驶感知系统的两个关键组成部分。用单独的网络解决这两个任务不再是开发计算机视觉算法的主流方向，特别是随着大型视觉模型和具体人工智能的最新进展。趋势正在转向将它们结合到联合学习框架中，特别是强调两个任务之间的特征共享。这项研究的主要贡献在于全面加强语义分割和立体匹配之间的耦合。具体来说，本研究引入了三个新颖之处：（1）紧密耦合的门控特征融合策略，（2）分层深度监督策略，以及（3）耦合紧缩损失函数。这些技术贡献的综合使用产生了 TiCoSS，这是一个最先进的联合学习框架，可以同时处理语义分割和立体匹配。通过对 KITTI 和 vKITTI2 数据集的广泛实验以及定性和定量分析，我们验证了我们开发的策略和损失函数的有效性，并证明了其与现有技术相比的优越性能，mIoU 显着提高了 9% 以上。我们的源代码将在发布后在 mias.group/TiCoSS 上公开提供。

通过自我观察学习心理状态估计：心理理论深度学习模型中意图和信念表征之间的发展协同作用

分类： 神经和进化计算, 人工智能, 机器学习, 机器人技术

作者： Francesca Bianco, Silvia Rigato, Maria Laura Filippetti, Dimitri Ognibene

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18022v1

摘要： 心智理论 (ToM) 是将信念、意图或心理状态归因于他人的能力，是人类社会互动的一个重要特征。在复杂的环境中，人类的感官系统达到了极限，我们对周围世界状态的信念强烈地驱动着我们的行为。了解他人的心理状态，例如信仰和意图，可以在自然环境中进行更有效的社交互动。然而，这些变量无法直接观察到，这使得理解 ToM 成为不同领域（包括心理学、机器学习和机器人技术）感兴趣的具有挑战性的探索。在本文中，我们通过展示学习预测低水平心理状态（例如意图、目标）和归因高水平心理状态（即信念）之间的发展协同作用来为这个主题做出贡献。具体来说，我们假设学习信念归因可以通过观察自己涉及信念的决策过程来发生，例如，在部分可观察的环境中。使用简单的前馈深度学习模型，我们表明，当学习预测他人的意图和行为时，如果同时学习信念归因，则可以更早地获得更准确的预测。此外，我们表明，即使被观察的行为者具有与观察者不同的体现，学习性能也会提高，并且在观察信念驱动的行为块时增益会更高。我们提出，我们的计算方法可以帮助理解人类社会认知发展，并与未来自适应社交机器人的设计相关，这些机器人能够在新的自然环境和任务中自主地理解、协助人类互动伙伴并向其学习。

以人为中心的世界中以自我为中心的机器人？探索公共空间中的群体机器人互动

分类： 机器人技术

作者： Ana Müller, Anja Richert

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18009v1

摘要： 社交机器人在现实场景中的部署不断增加，为人类在各种环境中提供支持。然而，他们仍然难以掌握社会动态，尤其是在公共场所，有时会导致违反社会规范，例如打断人类对话。这种行为源于社会规范的有限处理，可能被视为以机器人为中心。了解社会动态，特别是群体机器人交互（GRI），强调了人机交互（HRI）进一步研究和开发的必要性。增强社交机器人的交互能力，尤其是在 GRI 中，可以在微观层面上提高它们在现实世界应用中的有效性，因为群体交互可以提高动力和舒适度。在这项研究中，我们评估了交互条件（二元与三元）对公共场所社交机器人感知外向性（ext.）的影响。该研究涉及 40 个 HRI，其中包括 24 个二元交互（即一个人和一个机器人）和 16 个三元交互，其中至少涉及三个实体，包括机器人。

边缘辅助车辆的个性化和情境感知路线规划

分类： 人工智能, 机器人技术

作者： Dinesh Cyril Selvaraj, Falko Dressler, Carla Fabiana Chiasserini

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17980v1

摘要： 传统的路线规划服务通常为所有驾驶员提供相同的路线，主要关注一些标准化因素，例如行驶距离或时间，而忽略了驾驶员的个人偏好。随着自动驾驶汽车预计在未来几年出现，车辆将依赖规划者决定的路线，因此需要结合每个驾驶员的具体偏好，确保个性化的导航体验。在这项工作中，我们提出了一种基于图神经网络（GNN）和深度强化学习（DRL）的新方法，旨在定制路线以满足个人喜好。通过分析单个驾驶员的历史轨迹，我们对他们的驾驶行为进行分类，并将其与相关道路属性相关联，作为驾驶员偏好的指标。 GNN 能够有效地将道路网络表示为图结构数据，而 DRL 能够利用奖励机制做出决策，根据出行成本、拥堵程度和驾驶员满意度等因素来优化路线选择。我们使用现实世界的道路网络评估我们提出的基于 GNN 的 DRL 框架，并展示其适应驾驶员偏好的能力，为个人驾驶员提供一系列量身定制的路线选项。结果表明，我们的框架可以选择适合驾驶员偏好的路线，与通用路线规划器相比，性能提升高达 17%，并且相对于最短距离，将出行时间减少 33%（下午）和 46%（晚上）。基于的方法。

使用条件一致性模型的轻量级语言驱动的抓取检测

分类： 机器人技术, 计算机视觉和模式识别

作者： Nghia Nguyen, Minh Nhat Vu, Baoru Huang, An Vuong, Ngan Le, Thieu Vo, Anh Nguyen

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17967v1

摘要： 语言驱动的抓取检测是具有各种工业应用的机器人技术中的一项基本但具有挑战性的任务。在这项工作中，我们提出了一种语言驱动的抓取检测的新方法，该方法利用轻量级扩散模型的概念来实现快速推理时间。通过将扩散过程与自然语言的抓取提示相结合，我们的方法可以有效地编码视觉和文本信息，从而实现更准确和更通用的抓取定位，与文本查询很好地对齐。为了克服扩散模型中推理时间长的问题，我们利用图像和文本特征作为一致性模型中的条件来减少推理过程中的去噪时间步数。大量的实验结果表明，我们的方法明显优于其他最近的抓取检测方法和轻量级扩散模型。我们在现实世界的机器人实验中进一步验证了我们的方法，以展示其快速推理时间的能力。

远程四旋翼飞行的时间最优规划：一种自动最优综合方法

分类： 机器人技术, 系统与控制, 系统与控制

作者： Chao Qin, Jingxiang Chen, Yifan Lin, Abhishek Goudar, Angela P. Schoellig, Hugh H. -T. Liu

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17944v1

摘要： 无人机竞赛等时间紧迫的任务通常会覆盖较大的作业区域。然而，对于当前的时间最优运动规划器来说，适应长飞行距离是困难且计算密集的，因为需要大量但未知数量的结点来表示轨迹。我们提出了一种基于多项式的自动最优合成（AOS）方法，可以解决这一挑战。我们的方法不仅实现了卓越的时间最优性，而且在考虑完整的四旋翼动力学的同时，在不同范围内保持一致的低计算成本。首先，我们分析时间最佳四旋翼飞行器操纵的特性，以确定捕获时间最佳轨迹的主要结构所需的最小多项式片段数。这使我们能够用最少的变量集来表示相当长的最短时间轨迹。然后，开发了一个鲁棒的优化方案来处理任意的开始和结束条件以及中间航路点。广泛的比较表明，我们的方法比最先进的方法快几个数量级，并且具有可比的时间最优性。现实世界的实验进一步验证了所得轨迹的质量，展示了峰值速度为 8.86 m/s 的激进的时间最佳机动。

用于通过 LiDAR 部署优化车辆感知的新型感知熵度量

分类： 机器人技术, 信息论, 信息论

作者： Yongjiang He, Peng Cao, Zhongling Su, Xiaobo Liu

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17942v1

摘要： 制定有效的评估指标对于准确、快速地测量激光雷达感知性能至关重要。一个主要问题是缺乏可以根据对象检测或点云数据同时生成快速、准确评估的指标。在本研究中，我们提出了一种基于车辆网格占用概率的新型激光雷达感知熵度量。该指标反映了点云分布对车辆检测性能的影响。在此基础上，我们还介绍了激光雷达部署优化模型，该模型使用基于差分进化的粒子群优化算法进行求解。对比实验表明，在评估 LiDAR 感知性能时，所提出的 PE-VGOP 与车辆检测地面实况的相关性超过 0.98。此外，与基地部署相比，现场实验表明，所提出的优化模型可以显着增强各种类型激光雷达（包括RS-16、RS-32和RS-80）的感知能力。值得注意的是，它使 RS-32 LiDAR 的检测召回率提高了 25%。

基于目标估计的脑机接口自适应共享控制远程机器人导航

分类： 机器人技术

作者： Tomoka Muraoka, Tatsuya Aoki, Masayuki Hirata, Tadahiro Taniguchi, Takato Horii, Takayuki Nagai

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17936v1

摘要： 在这项研究中，我们提出了一种使用脑机接口（BMI）的遥控移动机器人的共享控制方法。通过BMI生成的机器人操作控制指令面临着输入频率低、离散性以及噪声带来的不确定性等问题。为了应对这些挑战，我们的方法根据用户的命令估计用户的预期目标，并使用该目标通过自主系统生成辅助命令，这些命令的输入频率更高且更连续。此外，通过定义估计的置信度，我们自适应地计算组合用户命令和自主命令的权重，从而实现共享控制。

StreamMOS：具有多视图感知和双跨内存的流式移动对象分割

分类： 计算机视觉和模式识别, 机器人技术

作者： Zhiheng Li, Yubo Cui, Jiexi Zhong, Zheng Fang

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17905v1

摘要： 基于激光雷达的运动物体分割对于自动驾驶和移动机器人来说是一项至关重要且具有挑战性的任务。大多数方法探索来自激光雷达序列的时空信息来预测当前帧中的移动物体。然而，他们通常专注于在单个推理中传递时间线索，并将每个预测视为独立于其他预测。这可能会导致同一对象在不同帧中的分割结果不一致。为了克服这个问题，我们提出了一种具有记忆机制的流网络，称为 StreamMOS，以在多个推理之间建立特征和预测的关联。具体来说，我们利用短期记忆来传达历史特征，可以将其视为移动对象的空间先验，并通过时间融合来增强当前的推理。同时，我们建立了一个长期记忆来存储以前的预测，并利用它们通过投票在体素和实例级别上完善当前的预测。此外，我们提出了具有级联投影和非对称卷积的多视图编码器来提取不同表示形式的对象的运动特征。大量的实验验证了我们的算法在 SemanticKITTI 和 Sipalou Campus 数据集上获得了具有竞争力的性能。代码将在 https://github.com/NEU-REAL/StreamMOS.git 发布。

通过颗粒机械超材料的纠缠进行复杂拾取

分类： 机器人技术, 应用物理

作者： Ashkan Rezanejad, Mostafa Mousa, Matthew Howard, Antonio Elia Forte

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17840v1

摘要： 当物体挤成一簇时，物理相互作用是不可避免的。这种相互作用是由于物体的几何特征而出现的；其中一些特征会促进纠缠，而另一些则会产生排斥力。当纠缠发生时，簇表现出全局的、复杂的行为，这是由对象之间的随机相互作用引起的。我们在此将这种团簇称为纠缠粒状超材料。我们研究了构成簇的物体（以下称为颗粒）的几何特征，它们使纠缠最大化。我们假设由具有高缠结倾向的颗粒组成的簇也将表现出与第二簇缠结物体相互作用的倾向。为了证明这一点，我们使用纠缠的粒状超材料来执行复杂的机器人拾取任务，而传统的夹具则难以做到这一点。我们使用电磁体来吸引超材料（铁磁性）并将其掉落到第二组物体（目标，非铁磁性）上。当电磁体重新激活时，纠缠确保超材料和目标都被拾取，其物理接触程度在很大程度上取决于几何特征。有趣的是，尽管超材料结构排列是随机的，但它与第二个缠结介质产生可重复且一致的相互作用，从而能够对后者进行稳健的拾取。

社交小游戏中无死锁多智能体导航的策略伪目标扰动

分类： 多代理系统, 机器人技术

作者： Abhishek Jha, Tanishq Gupta, Sumit Singh Rawat, Girish Kumar

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17766v1

摘要： 这项工作引入了战略伪目标扰动（SPGP）技术，这是一种解决多智能体导航场景中死锁情况的新方法。利用安全屏障证书的强大框架，我们的方法集成了一种战略扰动机制，可以指导代理完成经常发生僵局和碰撞的社交迷你游戏。该方法采用策略计算过程，智能体在遇到死锁时选择当前位置周围预定半径内的伪目标来解决智能体之间的死锁。计算基于受控的策略算法，确保对伪目标的偏离在解决僵局方面既是有目的的又是有效的。一旦智能体到达伪目标，它就会恢复通往原始目标的路径，从而提高导航效率和安全性。实验结果证明了 SPGP 在各种多智能体导航场景中减少死锁实例并提高整体系统吞吐量的功效。

CRASH：利用上下文感知和时间焦点注意力的碰撞识别和预测系统

分类： 计算机视觉和模式识别, 机器人技术

作者： Haicheng Liao, Haoyu Sun, Huanming Shen, Chengyue Wang, Kahou Tam, Chunlin Tian, Li Li, Chengzhong Xu, Zhenning Li

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17757v1

摘要： 根据摄像机镜头准确、及时地预测周围交通人员发生的事故对于自动驾驶车辆 (AV) 的安全至关重要。由于交通事故的不可预测性、长尾分布、交通场景动态的复杂性以及车载摄像头固有的视野限制，这项任务提出了巨大的挑战。为了应对这些挑战，本研究引入了一种新颖的自动驾驶汽车事故预测框架，称为 CRASH。它无缝集成了五个组件：对象检测器、特征提取器、对象感知模块、上下文感知模块和多层融合。具体来说，我们开发了对象感知模块，通过计算流量代理之间的时空关系来优先考虑复杂和模糊环境中的高风险对象。与此同时，上下文感知还被设计为使用快速傅里叶变换（FFT）将全局视觉信息从时域扩展到频域，并捕获潜在物体的细粒度视觉特征和交通场景中更广泛的上下文线索。为了捕捉更广泛的视觉线索，我们进一步提出了一种多层融合，动态计算不同场景之间的时间依赖性，并迭代更新不同视觉特征之间的相关性，以准确及时地预测事故。在现实数据集（行车记录仪事故数据集 (DAD)、车祸数据集 (CCD) 和 AnAn 事故检测 (A3D) 数据集）上进行评估，我们的模型在平均精度 (AP) 和均值等关键评估指标方面超越了现有的最高基线事故发生时间 (mTTA)。重要的是，它的鲁棒性和适应性在训练数据缺失或有限的挑战性驾驶场景中尤其明显，展示了在现实世界自动驾驶系统中应用的巨大潜力。

PGD-VIO：具有基于图形的漂移抑制的精确平面辅助视觉惯性里程计

分类： 机器人技术

作者： Yidi Zhang, Fulin Tang, Zewen Xu, Yihong Wu, Pengju Ma

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17709v1

摘要： 一般来说，与点特征相比，高级特征提供更多的几何信息，可以利用这些信息来进一步约束运动。飞机在人造环境中很常见，由于其广泛的空间和时间可观测性，提供了减少漂移的积极手段。为了充分利用平面信息，我们提出了一种新颖的视觉惯性里程计（VIO），使用 RGBD 相机和惯性测量单元（IMU），在扩展卡尔曼滤波器（EKF）框架中有效地集成点和平面特征。利用点特征的深度信息来提高点三角测量的精度，而平面特征则作为添加到状态向量中的直接观测值。值得注意的是，为了有利于长期导航，提出了一种新颖的基于图的漂移检测策略来搜索平面地图中重叠和相同的结构，从而随后抑制累积漂移。两个公共数据集上的实验结果表明，我们的系统在定位精度方面优于最先进的方法，同时生成紧凑且一致的平面地图，无需昂贵的全局束调整和闭环技术。

用于敏捷和鲁棒双足足迹运动规划和控制的强化学习 MPC 框架

分类： 机器人技术

作者： Seung Hyeon Bang, Carlos Arribalzaga Jové, Luis Sentis

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17683v1

摘要： 本文提出了一种在线双足足迹规划策略，结合模型预测控制（MPC）和强化学习（RL）来实现敏捷和鲁棒的双足机动。虽然基于 MPC 的足部放置控制器已证明其在实现动态运动方面的有效性，但其性能通常受到简化模型和假设的使用的限制。为了应对这一挑战，我们开发了一种新颖的足部放置控制器，它利用学习策略来弥合简化模型和更复杂的全序机器人系统之间的差距。具体来说，我们的方法采用了基于 ALIP 的 MPC 足部放置控制器（用于次优足迹规划）和学习策略（用于细化足迹调整）的独特组合，使生成的足迹策略能够有效地捕获机器人的全身动态。这种集成将 MPC 的预测能力与 RL 的灵活性和适应性相结合。我们使用全身人形机器人 DRACO 3 通过一系列实验验证了我们框架的有效性。结果表明动态运动性能显着提高，包括更好地跟踪各种步行速度，实现可靠的转弯和穿越具有挑战性的地形与基于 ALIP 的 MPC 方法相比，同时保持步行步态的鲁棒性和稳定性。

CRASAR-U-DROIDs：用于在地理校正 sUAS 图像中进行建筑物对准和损坏评估的大型基准数据集

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Thomas Manzini, Priyankari Perali, Raisa Karnik, Robin Murphy

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17673v1

摘要： 本文件介绍了机器人辅助搜索和救援中心 - 无人航空系统 - 灾难响应高架检查数据集 (CRASAR-U-DROID)，用于从小型无人航空系统 (sUAS) 地理空间图像收集的建筑损坏评估和空间对齐。该数据集的动机是在灾难响应中越来越多地使用小型无人机，以及之前缺乏利用高分辨率地理空间小型无人机图像进行机器学习和计算机视觉模型的工作，缺乏与操作用例的一致性，并希望能够进一步实现sUAS 和卫星图像之间的研究。 CRASAR-U-DRIODs 数据集包含来自十 (10) 场联邦宣布的灾难（飓风伊恩、飓风艾达、飓风哈维、飓风伊达利亚、飓风劳拉、飓风迈克尔、Musset Bayou 火灾、梅菲尔德龙卷风、基拉韦厄火山喷发和尚普兰塔倒塌）占地 67.98 平方公里（26.245 平方英里），包含 21,716 个建筑物多边形和损坏标签以及 7,880 个调整注释。图像被平铺并与叠加的建筑物多边形一起呈现给由 130 名注释者组成的池，他们根据关节损伤量表提供人类对损伤的判断。然后通过两阶段审查过程对这些注释进行审查，其中首先单独审查建筑物多边形损坏标签，然后由委员会再次审查。此外，建筑物多边形已在空间上对齐，以与图像精确重叠，从而能够训练性能更高的机器学习模型。 CRASAR-U-DRIODs 似乎是最大的 sUAS 正射影像标记数据集。

非刚性卫星的自适应机器人翻滚

分类： 机器人技术

作者： Longsen Gao, Claus Danielson, Rafael Fierro

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17617v1

摘要： 卫星稳定性的挑战，特别是那些具有不确定柔性动力学的卫星，已成为控制和机器人技术领域的一个紧迫问题。这些不确定性，特别是第三方客户卫星的动态，使稳定任务变得非常复杂。本文介绍了一种新颖的自适应去滚方法来处理具有未知运动动力学（平移和旋转）的非刚性卫星。我们方法的显着特点是，我们将非刚性翻滚卫星建模为具有未知刚度和阻尼的两连杆串行链，这与之前将卫星视为刚体的翻滚研究工作形成鲜明对比。尽管捕获后情况存在不确定的动态，但我们开发了一种新颖的自适应机器人方法，通过使用两个太空拖船作为服务器来使卫星翻滚。值得注意的是，服务人员仍然不知道刚度特性和其他物理参数，包括两个连杆的质量和惯性。我们提出的方法解决了翻滚任务中的挑战，并为具有不确定动力学的非刚性卫星的高级操纵铺平了道路。

SoNIC：具有自适应共形推理和约束强化学习的安全社交导航

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习, 系统与控制, 系统与控制

作者： Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17460v1

摘要： 强化学习（RL）使社交机器人能够在没有人类设计的规则或干预的情况下生成轨迹，这使得它比硬编码系统更有效地推广到复杂的现实世界场景。然而，社交导航是一项安全关键任务，需要机器人避免与行人发生碰撞，而之前基于强化学习的解决方案在复杂环境中的安全性能不足。为了增强强化学习策略的安全性，据我们所知，我们提出了第一个算法 SoNIC，它将自适应保形推理 (ACI) 与约束强化学习 (CRL) 相结合，以学习社交导航的安全策略。更具体地说，我们的方法通过 ACI 生成的不合格分数增强 RL 观察，并为代理提供明确的指导，以利用不确定性指标，通过将安全约束与空间松弛相结合来避开安全关键区域。我们的方法在安全性和遵守社会规范方面都大大优于最先进的基线，并且对分布外场景表现出更强的鲁棒性。我们的代码和视频演示可在我们的项目网站上找到：https://sonic-social-nav.github.io/。

CSCPR：跨源上下文室内 RGB-D 地点识别

分类： 计算机视觉和模式识别, 机器人技术

作者： Jing Liang, Zhuo Deng, Zheming Zhou, Min Sun, Omid Ghasemalizadeh, Cheng-Hao Kuo, Arnie Sen, Dinesh Manocha

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17457v1

摘要： 我们提出了一种新的算法，即跨源上下文地点识别 (CSCPR)，用于 RGB-D 室内地点识别，它将全局检索和重新排序集成到单个端到端模型中。与之前主要关注 RGB 域的方法不同，CSCPR 旨在处理 RGB-D 数据。我们扩展了集群上下文（CoC）来处理嘈杂的彩色点云，并引入了两个用于重新排名的新颖模块：自上下文集群（SCC）和跨源上下文集群（CSCC），它们增强了特征表示和匹配查询 -分别基于局部特征的数据库对。我们还展示了两个新的数据集：ScanNetIPR 和 ARKitIPR。我们的实验表明，CSCPR 在 ScanNet-PR 数据集的 Recall@1 中明显优于这些数据集上最先进的模型至少 36.5%，在新数据集中优于最新模型 44%。代码和数据集将被发布。

$A^*$ 用于凸集图

分类： 优化与控制, 人工智能, 机器人技术

作者： Kaarthik Sundar, Sivakumar Rathinam

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17413v2

摘要： 我们提出了一种新颖的算法，它将现有的基于凸规划的方法与启发式信息相融合，以找到凸集图中最短路径问题（SPP-GCS）的最优性保证和接近最优路径。我们的方法受到 $A^$ 的启发，从指定的顶点子集启动一个最佳优先的过程，并迭代地扩展它，直到进一步的增长既不可能又无益。传统上，获得优化问题的边界解涉及求解松弛、将松弛解修改为可行解，然后比较两个解以建立边界。然而，对于 SPP-GCS，我们证明逆转这一过程可能更有利，特别是考虑到欧几里得旅行成本。换句话说，我们首先使用$A^$找到SPP-GCS的可行解，然后求解限制于$A^*$探索的顶点的凸松弛以获得松弛解，最后比较解得出界限。我们提出数值结果，以强调我们的算法在求解的凸程序的大小和计算时间方面相对于现有方法的优势。

在 Lanelet2 框架中从高清地图生成训练数据

分类： 计算机视觉和模式识别, 机器人技术

作者： Fabian Immel, Richard Fehler, Frank Bieder, Christoph Stiller

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17409v1

摘要： 直接使用高清地图作为机器学习任务的训练数据已经得到了广泛的欢迎，并显示出了有希望的结果，例如在地图感知领域。尽管如此，支持基于地图的自动驾驶的所有部分以及从地图数据生成训练标签的标准化高清地图框架还不存在。此外，研究界还没有解决在实时推理过程中向地图感知模型提供地图数据作为输入的一部分的问题。为了填补这一空白，我们提出了lanelet2_ml_converter，它是高精地图框架Lanelet2的集成扩展，广泛应用于学术界和工业界的自动驾驶系统中。通过这一补充，Lanelet2 统一了基于地图的自动驾驶、机器学习推理和训练，所有这些都来自地图数据和格式的单一来源。分析了统一框架的需求并描述了这些需求的实现。通过地图感知领域的应用示例证明了标签在最先进的机器学习中的可用性。源代码可嵌入 Lanelet2 框架中，位于 https://github.com/fzi-forschungszentrum-informatik/Lanelet2/tree/feature_ml_converter

TAMP 中运动规划的实用有限样本范围

分类： 机器人技术, 计算几何

作者： Seiji Shaw, Aidan Curtis, Leslie Pack Kaelbling, Tomás Lozano-Pérez, Nicholas Roy

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17394v1

摘要： 当在配置空间中使用基于采样的运动规划器（例如 PRM）时，很难确定 PRM 需要多少样本才能一致地找到解决方案。这与任务和运动规划 (TAMP) 相关，其中许多运动规划问题必须按顺序解决。我们尝试通过证明样本数量的上限来解决这个问题，这些样本数量足以以高概率利用确定性采样和样本复杂性理论中的先前工作找到解决方案。我们还引入了一种数值算法，根据我们用来导出界限的样本复杂性定理的证明来计算更严格数量的样本。我们的实验表明，我们的数值边界算法在平面规划问题上严格控制在两个数量级内，并且随着问题维度的增加而变得更宽松。当部署为启发式方法在 TAMP 规划器中安排样本时，我们还观察到平面问题的规划时间有所改进。虽然我们的实验表明，为了收紧我们的界限，还有很多工作要做，但本文提出的想法是朝着实际样本界限迈出的一步。

基于采样的编队飞行分层轨迹规划

分类： 机器人技术, 系统与控制, 系统与控制

作者： Qingzhao Liu, Bailing Tian, Xuewei Zhang, Junjie Lu, Zhiyu Li

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17392v1

摘要： 无人机（UAV）的编队飞行在安全和编队保持方面提出了重大挑战，特别是在杂乱的环境中。然而，现有方法往往难以同时满足这两个关键要求。为了解决这个问题，本文提出了一种基于采样的具有层次结构的轨迹规划方法，用于密集障碍物环境中的编队飞行。为了确保无人机之间可靠的本地传感信息共享，每架无人机都会生成一个安全飞行走廊（SFC），并将其传输给领头无人机。随后，设计了一种基于采样的编队引导路径生成方法作为前端策略，利用SFC提供的编队连接来引导编队以所需的形状安全地飞行。此外，后端还开发了基于模型预测路径积分（MPPI）的分布式轨迹优化方法，保证了可执行轨迹的平滑性、安全性和动态可行性。为了验证所开发算法的效率，进行了全面的仿真比较。补充模拟视频可在 https://www.youtube.com/watch?v=xSxbUN0tn1M 上观看。

DexGANGrasp：用于面向任务的操作的灵巧生成对抗性抓取综合

分类： 机器人技术

作者： Qian Feng, David S. Martinez Lema, Mohammadhossein Malmir, Hang Li, Jianxiang Feng, Zhaopeng Chen, Alois Knoll

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17348v1

摘要： 我们介绍了 DexGanGrasp，一种灵巧的抓取合成方法，可以用单一视图实时生成和评估抓取。 DexGanGrasp 包含一个基于条件生成对抗网络 (cGAN) 的 DexGenerator，用于生成灵巧的抓取，以及一个类似判别器的 DexEvalautor，用于评估这些抓取的稳定性。广泛的模拟和现实世界实验展示了我们提出的方法的有效性，其在现实世界评估中的成功率比基线 FFHNet 高出 18.57%。我们进一步将 DexGanGrasp 扩展到 DexAfford-Prompt，这是一个开放词汇可供性基础管道，用于利用多模态大语言模型 (MLLM) 和视觉语言模型 (VLM) 进行灵巧抓取，从而通过成功的现实部署实现面向任务的抓取。

自主系统特定领域加速器设计的七大挑战和机遇

分类： 硬件架构, 机器人技术, 系统与控制, 系统与控制

作者： Sabrina M. Neuman, Brian Plancher, Vijay Janapa Reddi

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17311v1

摘要： 摩尔定律和登纳德缩放比例的终结与敏捷硬件设计的进步相结合，催生了特定领域加速的黄金时代。然而，这一新的计算机会领域并非没有陷阱。当计算机架构师进入不熟悉的领域时，我们看到在挑战中出现了共同的主题，这些挑战可能会阻碍有用加速的开发进展。在这项工作中，我们提出了特定领域加速器设计中的七大挑战，可以指导富有冒险精神的架构师为新颖的应用程序领域做出有意义的贡献。尽管这些挑战出现在从机器学习到基因组学的各个领域，但我们通过自主系统的视角来研究它们，作为这项工作的激励示例。为此，我们从这些挑战中确定了成功的特定领域加速器设计的前进道路的机会。

应对人机轨迹规划中的人类固执

分类： 机器人技术, 系统与控制, 系统与控制

作者： Julian Schneider, Niels Straky, Simon Meyer, Balint Varga, Sören Hohmann

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17275v1

摘要： 在本文中，通过人类的行为模型扩展了人类和自动化之间的协作轨迹规划方法。这个模型可以刻画人类的顽固程度，衡量人类坚持自己偏好的轨迹的程度。因此，引入了一个静态模型，表明触觉耦合的人机交互中的力与人类的固执之间的联系。引入的顽固性参数使得协作轨迹规划的自动化反应能够独立于应用程序。护理应用中人机合作的仿真结果表明，所提出的行为模型可以定量估计交互人类的顽固程度，从而使自动化更有针对性地适应人类行为。

强化学习中的预训练视觉表示

分类： 机器人技术, 机器学习

作者： Emlyn Williams, Athanasios Polydoros

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17238v1

摘要： 视觉强化学习（RL）近年来取得了重大进展，但视觉特征提取器的选择仍然是一个关键的设计决策。本文比较了从头开始训练卷积神经网络 (CNN) 的 RL 算法与利用预训练视觉表示 (PVR) 的 RL 算法的性能。我们针对三种 PVR：ResNet18、DINOv2 和 Visual Cortex (VC) 评估了休眠比率最小化 (DRM) 算法（一种最先进的视觉 RL 方法）。我们使用 Metaworld Push-v2 和 Drawer-Open-v2 任务进行比较。我们的结果表明，与使用 PVR 来最大化性能相比，选择从头开始训练取决于任务，但 PVR 在减少重放缓冲区大小和缩短训练时间方面具有优势。我们还发现休眠率和模型性能之间存在很强的相关性，强调了视觉强化学习中探索的重要性。我们的研究提供了关于从头开始训练和使用 PVR 之间权衡的见解，为未来视觉 RL 算法的设计提供信息。

测试联网自动驾驶汽车驾驶理论知识和技能的大型语言模型

分类： 人工智能, 网络和互联网架构, 机器人技术

作者： Zuoyin Tang, Jianhua He, Dashuai Pei, Kezhong Liu, Tao Gao

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17211v1

摘要： 处理长尾角情况是自动驾驶汽车 (AV) 面临的主要挑战。虽然大型语言模型（LLM）具有出色的泛化和解释能力，在处理极端情况方面具有巨大的潜力，并且在自动驾驶应用方面受到越来越多的研究兴趣，但仍然存在需要解决的技术障碍，例如严格的模型性能和巨大的计算资源LLM 的要求。在本文中，我们研究了一种应用远程或边缘大语言模型来支持自动驾驶的新方法。这种LLM辅助驾驶系统的一个关键问题是评估LLM对驾驶理论和技能的理解，确保他们有资格承担CAV的安全关键驾驶辅助任务。我们为多个专有LLM模型（OpenAI GPT模型、百度Ernie和阿里QWen）和开源LLM模型（清华MiniCPM-2B和MiniCPM-Llama3-V2.5）设计并运行了超过500个多项选择的驾驶理论测试理论测试题。模型精度、成本和处理延迟是通过实验测量的。实验结果表明，虽然模型 GPT-4 通过改进的领域知识通过了测试，Ernie 的准确率为 85%（略低于 86% 通过阈值），但包括 GPT-3.5 在内的其他 LLM 模型未通过测试。对于带有图像的测试题，多模态模型 GPT4-o 具有 96% 的优异准确率结果，MiniCPM-Llama3-V2.5 的准确率达到 76%。虽然GPT-4在CAV驾驶辅助应用中具有更强的潜力，但使用模型GPT4的成本要高得多，几乎是使用GPT3.5的50倍。结果可以帮助决定将现有的大语言模型用于 CAV 应用并平衡模型性能和成本。

用于行人意图和轨迹预测的上下文感知多任务学习

分类： 计算机视觉和模式识别, 机器人技术

作者： Farzeen Munir, Tomasz Piotr Kucner

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17162v1

摘要： 具有社会意识的自动驾驶汽车的进步取决于对人类行为的精确建模。在这个广泛的范式中，具体的挑战在于准确预测行人的轨迹和意图。传统方法严重依赖历史轨迹数据，经常忽视重要的背景线索，例如行人特定特征和环境因素。此外，存在明显的知识差距，因为轨迹和意图预测尽管相互依赖，但在很大程度上被视为独立的问题。为了弥补这一差距，我们引入了 PTINet（行人轨迹和意图预测网络），它通过结合过去的轨迹观察、局部上下文特征（个体行人行为）和全局特征（标志、标记等）来共同学习轨迹和意图预测。。我们的方法的有效性在广泛使用的公共数据集：JAAD 和 PIE 上进行了评估，在轨迹和意图预测方面，它表现出了优于现有最先进模型的性能。我们的实验和消融研究的结果有力地验证了 PTINet 在联合探索行人行为建模的意图和轨迹预测方面的有效性。实验评估表明了使用全局和局部上下文特征进行行人轨迹和意图预测的优势。 PTINet 在预测行人行为方面的有效性为开发能够在城市环境中与行人无缝交互的自动化系统铺平了道路。

使用强化学习方法的自行车模型的路径跟踪和稳定性

分类： 机器学习, 机器人技术

作者： Sebastian Weyrer, Peter Manzl, A. L. Schwab, Johannes Gerstmayr

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17156v1

摘要： 多年来，已经开发出复杂的控制方法来控制自行车的运动。强化学习（RL）是机器学习的一个分支，它有望轻松部署所谓的代理。部署代理越来越被认为是机械系统控制器的替代方案。目前的工作介绍了一种 RL 方法，可以使用虚拟自行车模型进行路径跟踪，同时横向稳定其。该自行车采用 Whipple 基准模型建模并使用多体系统动力学，没有稳定辅助装置。该代理仅通过输出转向角来成功实现自行车模型的路径跟踪和稳定性，这些转向角通过 PD 控制器转换为转向扭矩。课程学习被用作最先进的培训策略。对所实施的强化学习框架的不同设置进行了研究并进行了相互比较。使用不同类型的路径和测量来评估已部署代理的性能。展示了部署的智能体对以 2m/s 到 7m/s 的速度沿着复杂路径（包括整圈、回转操纵和变道）行驶的自行车模型进行路径跟踪和稳定的能力。机器学习的解释方法用于分析已部署代理的功能，并将引入的 RL 方法与自行车动力学领域的研究联系起来。

同时进行轨迹优化和接触选择，以实现高保真几何的接触丰富操作

分类： 机器人技术

作者： Mengchao Zhang, Devesh K. Jha, Arvind U. Raghunathan, Kris Hauser

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.16976v1

摘要： 隐式接触轨迹优化（CITO）是一种为各种富含接触的系统（包括操纵和运动）规划复杂轨迹的有效方法。 CITO 制定了具有互补约束 (MPCC) 的数学程序，强制当点不接触时接触力必须为零。然而，MPCC 求解时间随着允许接触点的数量急剧增加，这限制了 CITO 对仅允许少数简单几何形状接触的问题的适用性。本文介绍了同步轨迹优化和接触选择（STOCS），作为 CITO 的扩展，克服了这一限制。 STOCS 的创新在于识别迭代轨迹优化过程中的显着接触点和时间。这有效地减少了每次 MPCC 调用中的变量和约束的数量。 STOCS 框架通过关键接触识别子例程进行实例化，即使对于由数万个顶点组成的高保真几何图形，也可以通过计算来实现操作轨迹的优化。

用于水下检查的相机图像的姿态估计

分类： 计算机视觉和模式识别, 机器人技术, 图像和视频处理

作者： Luyuan Peng, Hari Vishnu, Mandar Chitre, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.16961v1

摘要： 高精度定位对于水下复检任务至关重要。惯性导航系统、多普勒速度记录仪和声学定位等传统定位方法面临着巨大的挑战，并且对于某些应用来说不具有成本效益。在这种情况下，视觉定位是一种经济高效的替代方案，利用检查车辆上已配备的摄像头来根据周围场景的图像估计姿势。其中，基于图像的机器学习姿态估计在水下环境中显示出前景，使用基于先前映射的场景训练的模型执行有效的重新定位。我们探索基于学习的姿态估计器在清水和浑水检查任务中的功效，评估图像格式、模型架构和训练数据多样性的影响。我们通过采用新颖的视图合成模型来生成增强的训练数据来进行创新，显着增强了未探索区域的姿态估计。此外，我们通过扩展卡尔曼滤波器将位姿估计器输出与传感器数据集成，从而提高了定位精度，从而证明了轨迹平滑度和精度的提高。

DVPE：用于多视图 3D 对象检测的分割视图位置嵌入

分类： 计算机视觉和模式识别, 机器人技术

作者： Jiasen Wang, Zhenglin Li, Ke Sun, Xianyuan Liu, Yang Zhou

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.16955v1

摘要： 基于稀疏查询的范例在自动驾驶车辆的多视图 3D 检测方面取得了巨大的成功。当前的研究在聚合多视图特征时面临着扩大感受野和减少干扰之间的平衡挑战。此外，不同的相机姿势给训练全局注意力模型带来了挑战。为了解决这些问题，本文提出了一种分割视图方法，其中通过可见性交叉注意机制对特征进行全局建模，但仅与分割的局部虚拟空间中的部分特征进行交互。这有效地减少了其他不相关特征的干扰，并通过将位置嵌入与相机姿态解耦来减轻变压器的训练难度。此外，二维历史 RoI 特征被纳入以对象为中心的时间建模中，以利用高级视觉语义信息。该模型使用一对多分配策略进行训练，以提高稳定性。我们的框架名为 DVPE，在 nuScenes 测试集上实现了最先进的性能（57.2% mAP 和 64.5% NDS）。代码可在 https://github.com/dop0/DVPE 获取。

迈向以人为本的共享自主人工智能范式，用于医疗保健领域的人机协作

分类： 机器人技术, 系统与控制, 系统与控制

作者： Reza Abiri, Ali Rabiee, Sima Ghafoori, Anna Cetera

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17464v1

摘要： 随着人工智能和计算工具的最新进步，智能范式的出现为医疗机器人等不同领域赋予了新功能。可以训练和开发先进的人工智能机器人算法（例如强化学习），以自主做出个人决策，以实现期望的且通常是固定的目标。然而，对于通常与动态最终用户或患者交互的医疗机器人来说，这种独立决策和目标实现可能并不理想。在这样一个复杂的人机交互（团队）框架中，动态用户不断希望参与决策并在与当前环境实时交互的同时引入新目标。为了应对这一挑战，需要为两个交互主体（人类和人工智能主体）开发一种基于以人为中心的自适应共享自治人工智能范式，以避免任何可能的伦理问题并保证不对人类造成伤害。

具有局部一致高斯混合模型的机器人检测中的鲁棒点云配准

分类： 机器人技术

作者： Lingjie Su, Wei Xu, Wenlong Li

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17183v1

摘要： 在航空零件的机器人检查中，在扫描数据和模型数据之间实现精确的成对点云配准至关重要。然而，机器人扫描数据中产生的噪声和异常值可能会影响配准准确性。为了缓解这一挑战，本文提出了一种利用具有局部一致性约束的高斯混合模型（GMM）的基于概率的配准方法。该方法将配准问题转化为模型拟合问题，约束相邻点之间后验分布的相似性以增强对应鲁棒性。我们迭代地使用期望最大化算法来找到最佳旋转矩阵和平移向量，同时获得 GMM 参数。 E-step 和 M-step 都有闭式解。仿真和实际实验证实了该方法的有效性，尽管存在噪声和异常值，均方根误差仍降低了20%。与现有方法相比，所提出的方法在鲁棒性和准确性方面表现出色。

大规模城市环境中 OSM 引导机器人测绘的主动闭环

分类： 机器人技术

作者： Wei Gao, Zezhou Sun, Mingle Zhao, Cheng-Zhong Xu, Hui Kong

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17078v1

摘要： 大规模城市场景的自主测绘给自主机器人带来了重大挑战。为了缓解这些挑战，全局规划（例如利用 OpenStreetMap (OSM) 的先前 GPS 轨迹）通常用于指导机器人的自主导航以进行地图绘制。然而，由于复杂地形、意外的身体运动和传感器噪声等因素，机器人位姿估计的不确定性不可避免地随着时间的推移而增加，最终导致机器人测绘失败。为了解决这个问题，我们提出了一种新颖的主动闭环程序，使机器人能够主动重新规划先前规划的 GPS 轨迹。该方法可以引导机器人重新访问之前可以进行闭环检测的地方来触发后端优化，有效减少位姿估计的误差和不确定性。所提出的主动闭环机制被实现并嵌入到实时 OSM 引导的机器人映射框架中。几个大型户外场景的实证结果证明了其有效性和良好的性能。

机器人、界面和人类之间的协作：基于实践和受众视角

分类： 人机交互, 声音, 音频和语音处理

作者： Anna Savery, Richard Savery

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.16966v1

摘要： 本文对混合媒体实验音乐作品进行了分析，该作品探索了人类音乐互动与新开发的小提琴界面的整合，由即兴小提琴手、交互式视觉效果、机器人鼓手和即兴合成管弦乐队操纵。我们首先介绍所涉及系统的详细技术概述，包括每个组件的设计和功能。然后，我们进行基于实践的审查，检查支撑作品的创作过程和艺术决策，重点关注其开发过程中遇到的挑战和突破。通过这种内省分析，我们深入了解了人类表演者和技术代理之间的协作动态，揭示了将传统音乐表现力与人工智能和机器人技术相结合的复杂性。为了衡量公众的接受度和解释角度，我们进行了一项在线调查，并与不同的观众分享了表演视频。本次调查收集的反馈为作品的可及性、情感影响和感知艺术价值提供了宝贵的观点。受访者的反应强调了将先进技术融入音乐表演的变革潜力，同时也强调了需要进一步探索和完善的领域。

长期店面机器人：机械臂、Caxixi 和 Frame Drum 的互动音乐

分类： 机器人技术, 声音, 音频和语音处理

作者： Richard Savery, Fouad Sukkar

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.16956v1

摘要： 本文提出了在商业零售环境中集成交互式机器人音乐的创新探索，特别是通过为期三周的店内安装，包括 UR3 机械臂、定制框架鼓和自适应音乐生成系统。该项目位于世界最大城市之一的著名店面，旨在通过创造动态、引人入胜的音乐互动来响应商店的环境声景，从而增强购物体验。主要贡献包括工业机器人在艺术表达中的新颖应用、利用互动音乐来丰富零售氛围，以及在公共环境中长时间连续操作机器人的演示。解决了系统可靠性、音乐输出的变化、交互环境中的安全性和品牌一致性等挑战，以确保安装的成功。该项目不仅展示了机器人音乐在零售空间中的技术可行性和艺术潜力，还提供了对这种集成的实际影响的见解，包括系统可靠性、人机交互的动态以及对商店运营的影响。这一探索通过技术、音乐和互动艺术的交叉，为增强消费者零售体验开辟了新途径，预示着未来机器人的音乐才能将为公共和商业空间做出有意义的贡献。

将生物数据集成到用于原位图像组学的自主遥感系统中：利用无人机 (UAV) 进行肯尼亚动物行为传感的案例研究

分类： 机器人技术

作者： Jenna M. Kline, Maksim Kholiavchenko, Otto Brookes, Tanya Berger-Wolf, Charles V. Stewart, Christopher Stewart

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16864v1

摘要： 原位图像组学利用机器学习技术从现场或原位收集的图像推断生物特征，以研究个体生物体、野生动物群体和整个生态系统。此类数据集为推断的生物特征提供了实时的社会和环境背景，从而可以实现新的、数据驱动的保护和生态系统管理。从图像中提取生物特征的机器学习技术的发展受到训练这些模型所需的数据量和质量的阻碍。自主无人机 (UAV) 非常适合收集原位图像组学数据，因为与手动驾驶无人机任务相比，它们可以快速穿越偏远地形来收集大量数据，并且具有更高的一致性和可靠性。然而，关于优化自主无人机任务以进行遥感保护和生物多样性监测的指导很少。 KABR 策划的无人机视频数据集：来自无人机视频的肯尼亚动物行为识别现场数据集需要三周的时间来收集，这是一项耗时且昂贵的工作。我们对 KABR 的分析表明，收集到的视频中有三分之一无法用于推断野生动物的行为。我们分析了可用于推断野生动物行为的无人机视频部分的飞行遥测数据，并演示了如何将这些见解集成到自主遥感系统中以实时跟踪野生动物。我们的自主遥感系统优化了无人机的动作，以提高可用数据的产量，并以 87% 的准确率匹配专家飞行员的飞行路径，比之前提出的方法准确度提高了 18.2%。

SECRM-2D：基于强化学习的高效、舒适的路线跟踪自动驾驶，具有分析安全保证

分类： 机器人技术, 机器学习, 机器学习

作者： Tianyu Shi, Ilia Smirnov, Omar ElSamadisy, Baher Abdulhai

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16857v1

摘要： 在过去的十年中，人们对自动驾驶系统的兴趣与日俱增。强化学习 (RL) 在训练自动驾驶控制器方面显示出巨大的前景，能够直接优化效率、舒适度和稳定性等标准组合。然而，基于强化学习的控制器通常不提供安全保证，因此其实际部署的准备情况值得怀疑。在本文中，我们提出了 SECRM-2D（安全、高效、舒适的基于 RL 的车道变换驾驶模型），这是一种 RL 自动驾驶控制器（纵向和横向），可平衡效率和舒适度的优化并遵循固定路线，同时受到硬分析安全约束。上述安全约束源自以下标准：跟随车辆必须有足够的车头时距，以便在引导车辆突然制动时能够避免碰撞。我们在模拟测试场景中根据多个学习和非学习基线评估 SECRM-2D，包括高速公路驾驶、退出、并道和紧急制动。我们的结果证实，先前发布的代表性 RL AV 控制器可能会在训练和测试中崩溃，即使它们正在优化安全目标。相比之下，我们的控制器 SECRM-2D 成功地避免了训练和测试期间的碰撞，提高了效率和舒适度的基准，并且更忠实地遵循规定的路线。此外，我们对 SECRM-2D 车辆集合的纵向稳态有了很好的理论理解。

通过预测奖励调整基于图像的强化学习策略

分类： 机器人技术

作者： Weiyao Wang, Xinyuan Fang, Gregory D. Hager

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16842v1

摘要： 当视觉环境在训练和部署之间发生重大变化时，基于图像的强化学习（RL）在泛化方面面临重大挑战。在这种情况下，学习到的策略可能无法很好地执行，从而导致结果下降。以前解决这个问题的方法主要集中在扩大训练观察分布，采用数据增强和域随机化等技术。然而，考虑到强化学习决策问题的顺序性质，通常情况下，残余误差会通过学习的策略模型传播并在整个轨迹中累积，从而导致性能严重下降。在本文中，我们利用了在领域转移下预测奖励的观察结果，尽管不完美，但仍然可以作为指导微调的有用信号。我们利用这个属性来使用目标域中的奖励预测来微调策略。我们发现，即使在重大领域转移的情况下，预测的奖励仍然可以提供有意义的信号，并且微调可以大大改善原始策略。我们的方法称为预测奖励微调（PRFT），可以提高模拟基准和现实实验中不同任务的性能。更多信息请访问项目网页：https://sites.google.com/view/prft。

PlantTrack：使用零样本 Sim2Real 传输进行任务驱动的植物关键点跟踪

分类： 机器人技术, 计算机视觉和模式识别

作者： Samhita Marri, Arun N. Sivakumar, Naveen K. Uppalapati, Girish Chowdhary

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16829v1

摘要： 跟踪植物特征对于表型、修剪或收获等各种农业任务至关重要，但植物环境的非结构化、杂乱和可变形性质使其成为一项具有挑战性的任务。在这种背景下，基础模型的最新进展显示出应对这一挑战的希望。在我们的工作中，我们提出了 PlantTrack，其中我们利用提供高维特征的 DINOv2，并训练关键点热图预测器网络来识别语义特征（例如水果和叶子）的位置，然后将其用作跨视频帧的点跟踪的提示貘。我们表明，只需 20 个合成图像来训练关键点预测器，我们就实现了零样本 Sim2Real 迁移，从而能够有效跟踪真实环境中的植物特征。

SE3ET：用于低重叠点云配准的 SE(3) 等效变压器

分类： 机器人技术

作者： Chien Erh Lin, Minghan Zhu, Maani Ghaffari

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16823v1

摘要： 部分点云配准是机器人技术中的一个具有挑战性的问题，特别是当机器人经历较大的变换时，会导致显着的初始位姿误差和测量之间的低重叠。这项工作建议利用 3D 点云的等变学习来提高配准的鲁棒性。我们提出了 SE3ET，一种 SE(3) 等变配准框架，它采用等变点卷积和等变变压器设计来学习富有表现力和鲁棒的几何特征。我们在室内和室外基准上测试了所提出的配准方法，其中点云处于任意变换和低重叠率下。我们还提供泛化测试和运行时性能。

通过单个演示实现视觉策略的领域适应

分类： 机器人技术

作者： Weiyao Wang, Gregory D. Hager

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16820v1

摘要： 在现实应用中为机器人任务部署机器学习算法面临着一个核心挑战：克服训练和部署环境之间的领域差距。对于利用高维图像作为输入的视觉运动策略来说，这尤其困难，特别是当这些图像是通过模拟生成时。解决这个问题的常见方法是通过域随机化，其目的是扩大训练分布的范围以覆盖测试时间分布。然而，这种方法仅在域随机化包含测试时间分布中的实际变化时才有效。我们采用不同的方法，利用单个演示（提示）来学习适应测试目标环境的策略。我们提出的框架 PromptAdapt 利用 Transformer 架构对顺序数据进行建模的能力来学习演示条件的视觉策略，从而允许在上下文中适应与训练不同的目标域。我们在模拟和现实环境中的实验表明，PromptAdapt 是一种强大的域适应策略，在一系列域转换（包括光照、颜色、纹理和相机姿势的变化）下，其性能大大优于基线方法。视频和更多信息可以在项目网页上查看：https://sites.google.com/view/promptadapt。

用于快速双足操纵的可变惯性模型预测控制

分类： 机器人技术

作者： Seung Hyeon Bang, Jaemin Lee, Carlos Gonzalez, Luis Sentis

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16811v1

摘要： 本文提出了一种用于敏捷和鲁棒双足运动的新型控制框架，解决了全身模型和降阶模型之间的模型差异。具体来说，恒定质心惯性等假设给运动任务带来了重大挑战和限制。为了增强全身人形机器人的敏捷性和多功能性，我们形式化了模型预测控制（MPC）问题，该问题在凸优化框架内考虑了人形机器人的可变质心惯性，确保了实时操作的计算效率。在这个公式中，我们结合了一个质心惯性网络，旨在预测 MPC 水平线上的可变质心惯性，同时考虑到摆动脚轨迹——这是基于 ROM 的 MPC 框架中经常被忽视的一个方面。此外，我们通过将基于 MPC 的方法与全身控制 (WBC) 相结合来增强运动行为的性能和稳定性。我们提出的框架的有效性通过使用我们的全身人形机器人 DRACO 3 进行模拟来验证，展示了动态行为。

拓扑引导的 ORCA：受限环境中的平滑多智能体运动规划

分类： 机器人技术

作者： Fatemeh Cheraghi Pouria, Zhe Huang, Ananya Yammanuru, Shuijing Liu, Katherine Driggs-Campbell

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16771v1

摘要： 我们提出拓扑引导 ORCA 作为替代模拟器来替代 ORCA，以在有静态障碍的环境中规划平滑的多智能体运动。尽管 ORCA 在模拟自由空间中的多智能体人群运动方面表现出色，但在存在静态障碍的情况下导航智能体时遇到了重大挑战。 ORCA 会忽略静态障碍物，直到智能体距离障碍物太近为止，如果障碍物拦截了智能体通往目标的路径，智能体就会被卡住。为了应对这一挑战，拓扑引导的 ORCA 构建了一个图来表示环境可遍历区域的拓扑。我们使用路径规划器来规划连接每个代理的起始位置和目标位置的路径点路径。航路点用作引导 ORCA 的一系列目标。受限环境中的人群模拟实验表明，我们的方法在受限环境中生成多个智能体平滑自然的运动方面优于 ORCA，这表明拓扑引导 ORCA 作为训练受限社交导航策略的有效模拟器具有巨大潜力。

具有大规模人类数据的自动驾驶赛车模拟基准

分类： 机器人技术, 机器学习

作者： Adrian Remonda, Nicklas Hansen, Ayoub Raji, Nicola Musiu, Marko Bertogna, Eduardo Veas, Xiaolong Wang

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16680v2

摘要： 尽管有国际奖金竞赛、比例车辆和模拟环境，但对自动驾驶赛车和接近操控极限的跑车控制的研究仍然受到车辆购置和管理成本高昂以及开源模拟器的物理精度有限。在本文中，我们提出了一个基于模拟器 Assetto Corsa 的赛车模拟平台，用于在现实和具有挑战性的场景中测试、验证和基准测试自动驾驶算法，包括强化学习 (RL) 和经典模型预测控制 (MPC)。我们的贡献包括开发这个模拟平台、针对赛车环境定制的几种最先进的算法以及从人类驾驶员那里收集的综合数据集。此外，我们还在离线 RL 设置中评估算法。所有必要的代码（包括环境和基准）、工作示例、数据集和视频均已公开发布，可以在以下位置找到：https://assetto-corsa-gym.github.io

从模仿到精炼——残差强化学习实现精确视觉组装

分类： 机器人技术, 机器学习

作者： Lars Ankile, Anthony Simeonov, Idan Shenfeld, Marcel Torne, Pulkit Agrawal

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16677v1

摘要： 行为克隆（BC）目前是学习现实世界视觉操作的主导范例。然而，在需要局部纠正行为（例如多部件组装）的任务中，纯粹从人类演示中学习稳健的策略仍然具有挑战性。强化学习（RL）可以通过允许策略通过任务奖励监督和探索来获取局部纠正行为来减轻这些限制。本文探讨了使用 RL 微调来改进精确操作任务中经过 BC 训练的策略。我们分析并克服与使用强化学习直接训练包含现代架构组件（如扩散模型和动作分块）的策略网络相关的技术挑战。我们建议使用标准策略梯度方法和稀疏奖励在冻结的 BC 训练扩散模型之上训练残差策略，我们将这种方法称为 ResiP（精确操纵残差）。我们的实验结果表明，通过学习纠正措施，这种残差学习框架可以显着提高高精度装配任务中的成功率，超越基于 BC 训练的模型。我们还表明，通过将 ResiP 与师生蒸馏和视觉域随机化相结合，我们的方法可以直接从 RGB 图像中学习机器人组装的现实世界策略。在 \url{https://residual- assembly.github.io} 中查找视频和代码。

PLM-Net：用于基于视觉的自动驾驶车辆横向控制的感知延迟缓解网络

分类： 机器人技术, 人工智能, 机器学习

作者： Aws Khalil, Jaerock Kwon

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16740v1

摘要： 本研究介绍了感知延迟缓解网络 (PLM-Net)，这是一种新颖的深度学习方法，用于解决基于视觉的自动驾驶车辆 (AV) 横向控制系统中的感知延迟问题。感知延迟是通过视觉传感器（例如相机）捕获环境和应用操作（例如转向）之间的延迟。这个问题在经典控制方法和基于神经网络的控制方法中都得到了充分研究。使用强大的 GPU 和 FPGA 来减少延迟是可能的，但对于汽车平台来说是不切实际的。 PLM-Net 包括基本模型 (BM) 和定时动作预测模型 (TAPM)。 BM代表原始的车道保持辅助（LKA）系统，而TAPM则预测不同延迟值的未来行动。通过集成这些模型，PLM-Net 减少了感知延迟。最终输出是通过基于实时延迟的 BM 和 TAPM 输出的线性插值确定的。该设计解决了恒定和变化的延迟问题，改善了驾驶轨迹和转向控制。实验结果验证了 PLM-Net 在各种延迟条件下的有效性。源代码：https://github.com/AwsKhalil/oscar/tree/devel-plm-net。

速度驱动视觉：自动驾驶汽车的异步传感器融合鸟瞰模型

分类： 机器人技术, 计算机视觉和模式识别

作者： Seamie Hayes, Sushil Sharma, Ciarán Eising

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16636v2

摘要： 融合不同的传感器模式可能是一项艰巨的任务，特别是如果它们是异步的。由于处理时间长或校准期间同步不当可能会出现异步，并且必须存在一种方法仍然可以利用这些先前的信息来实现安全驾驶以及自我车辆/多智能体轨迹预测中的对象检测。由于传感器模式在不同时间以及在空间中的不同位置捕获信息，因此出现了困难。因此，它们在空间上或时间上都不对齐。本文将研究雷达和激光雷达传感器相对于摄像头传感器异步的挑战，以应对不同的时间延迟。在提升到 BEV 空间之前，将通过将雷达/LiDAR 点云转换为新的自我框架坐标系来解决空间对齐问题。只有在此之后，我们才能连接雷达/激光雷达点云和提升的相机特征。时间对准将仅针对雷达数据进行补救，我们将实施一种使用速度信息推断未来雷达点位置的新方法。我们解决传感器异步问题的方法产生了有希望的结果。我们证明速度信息可以极大地提高异步数据集的 IoU，对于 360 毫秒 (ms) 的时间延迟，IoU 从 49.54 提高到 53.63。此外，对于 550ms 的时间延迟，相机+雷达（C+R）模型比相机+LiDAR（C+L）模型高出 0.18 IoU。这是利用经常被忽视的雷达传感器模式的一个进步，在自动驾驶方面，雷达传感器模式不如激光雷达那么受欢迎。

学习玩桌上足球：系统和基线

分类： 机器人技术, 机器学习

作者： Janosch Moos, Cedric Derstroff, Niklas Schröder, Debora Clever

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16606v1

摘要： 这项工作将 Foosball 打造为推进科学研究的多功能平台，特别是在机器人学习领域。我们展示了一个自动化的足球桌及其相应的模拟对手，通过足球环境中的示例任务展示了各种挑战。使用简单的基线方法分享初步发现。桌上足球构成了一个多功能的学习环境，有可能在人工智能和机器学习的各个领域（特别是稳健学习）产生前沿研究，同时还将其适用性扩展到工业机器人和自动化设置。为了将我们的物理足球桌转变为一个便于研究的系统，我们在其上添加了一个 2 自由度运动链来控制守门员杆作为初始设置，目的是尽快扩展到整个游戏。我们的实验表明，真实的模拟对于掌握复杂的机器人任务至关重要，但将这些成就转化为真实的系统仍然具有挑战性，通常会伴随着性能下降。这强调了这一方向研究的至关重要性。在这个问题上，我们将自动化足球桌视为一种宝贵的工具，具有许多理想的属性，可以作为推进机器人技术和自动化研究的高要求学习环境。

元宇宙中人类控制器与远程设备之间的实时交互

分类： 机器人技术, 系统与控制, 系统与控制

作者： Kan Chen, Zhen Meng, Xiangmin Xu, Changyang She, Philip G. Zhao

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16591v1

摘要： 由于对计算工作负载、通信吞吐量和往返延迟的严格要求，支持人类控制器和远程设备之间的实时交互仍然是元宇宙中的一个具有挑战性的目标。在本文中，我们通过元宇宙中的虚拟模型建立了一个实时交互的新颖框架。具体来说，我们共同预测人类控制器的运动，以实现 1）在 Metaverse 中主动渲染以及 2）提前向现实世界的远程设备生成控制命令。虚拟模型被解耦为两个组件，分别用于渲染和控制。为了动态调整渲染和控制的预测范围，我们开发了一种两步人机循环持续强化学习方法，并使用专家策略来提高训练效率。构建了一个实验原型来验证我们的算法在不同通信延迟下的情况。与没有预测的基线策略相比，我们提出的方法可以减少 1）人体运动和渲染反馈之间的运动到光子（MTP）延迟以及 2）人体运动和现实世界远程之间的均方根误差（RMSE）设备显着。

HAPFI：基于融合信息的历史感知规划

分类： 人工智能, 机器人技术

作者： Sujin Jeon, Suyeon Shin, Byoung-Tak Zhang

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16533v1

摘要： 体现指令跟踪（EIF）是一项根据高级自然语言指令规划一长串子目标的任务，例如“冲洗一片生菜并放在叉子旁边的白桌上”。为了成功执行这些长期任务，我们认为代理在每一步做出决策时必须考虑其过去，即历史数据。然而，最近的 EIF 方法常常忽略历史数据中的知识，也没有有效地利用跨模式的信息。为此，我们提出基于融合信息（HAPFI）的历史感知规划，有效利用智能体在与环境交互时收集的不同模式的历史数据。具体来说，HAPFI 通过我们的相互关注融合方法有效地融合多种模式，从而集成了多种模式，包括历史 RGB 观察、边界框、子目标和高级指令。通过各种比较的实验，我们表明，利用历史多模态信息的智能体在行动规划能力方面优于所有忽略历史数据的比较方法，从而能够为下一步生成明智的行动计划。此外，我们提供了定性证据，强调了利用历史多模态数据的重要性，特别是在代理遇到中间故障的情况下，展示了其强大的重新规划能力。

通过正向无标记学习从演示中学习一般连续约束

分类： 机器学习, 人工智能, 机器人技术

作者： Baiyu Peng, Aude Billard

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16485v1

摘要： 规划各种现实世界的任务需要了解并写下所有约束。然而，存在这些约束未知或难以准确指定的情况。一种可能的解决方案是从专家演示中推断出未知的约束。大多数先前的工作仅限于学习简单的线性约束，或者需要对真实约束参数化或环境模型的深入了解。为了缓解这些问题，本文提出了一种正向无标记（PU）学习方法，可以从演示中推断出连续的、任意的、可能非线性的约束。从 PU 学习的角度来看，我们将演示中的所有数据视为正（可行）数据，并学习（次）最优策略来生成高回报但可能不可行的轨迹，这些轨迹作为包含可行和不可行的未标记数据状态。在数据分布的假设下，通过后处理 PU 学习技术从两个数据集中学习可行-不可行分类器（即约束模型）。整个方法采用迭代框架，在更新策略（生成并选择更高奖励策略）和更新约束模型之间交替。此外，还引入了内存缓冲区来记录和重用之前迭代的样本，以防止遗忘。该方法的有效性在两个 Mujoco 环境中得到验证，成功推断连续非线性约束，并在约束准确性和策略安全性方面优于基线方法。

深度学习辅助惯性航位推算和融合

分类： 机器人技术

作者： Dror Hurwitz, Nadav Cohen, Itzik Klein

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16387v1

摘要： 近年来，人们对各种应用程序的移动平台的兴趣显着增加。原因之一是能够通过使用低成本传感器实现精确导航。为此，惯性传感器与全球导航卫星系统（GNSS）信号融合。平台运行期间 GNSS 中断可能会导致纯惯性导航，从而导致导航解决方案漂移。在这种情况下，建议使用专用算法的周期性轨迹来减轻漂移。借助周期性动力学，惯性深度学习方法可以更准确地捕获运动，并为无人机和移动机器人提供准确的航位推算。在本文中，我们提出了在周期性运动期间扩展深度学习辅助惯性传感和融合能力的方法。我们首先证明，与直线轨迹相比，周期性轨迹中 GNSS 和惯性传感器的融合可实现更好的精度。接下来，我们提出了一种赋能网络架构来准确回归平台距离的变化。利用该网络，我们推动了神经惯性融合滤波器的混合方法。最后，我们在 GNSS 可用的情况下使用这种方法并展示其好处。从安装在移动机器人和四旋翼飞行器上的惯性传感器收集的 337 分钟数据的数据集用于评估我们的方法。

LPT 的两个结果：近线性时间算法和使用无人机的包裹递送

分类： 数据结构和算法, 计算几何, 机器人技术

作者： L. Sunil Chandran, Rishikesh Gajjala, Shravan Mehra, Saladi Rahul

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16323v1

摘要： 本文的重点是加深我们对最长处理时间优先 (LPT) 启发式的理解。 LPT 是针对统一机器调度这一基本问题的经典启发式方法。对于不同的机器速度，LPT首先由Gonzalez等人考虑（SIAM J.Computing，1977）。从那时起，人们进行了大量的工作来改进 LPT 启发式的近似因子。然而，所有已知的 LPT 启发式实现都需要 $O(mn)$ 时间，其中 $m$ 是机器数量，$n$ 是作业数量。在这项工作中，我们提出了 LPT 的第一个近线性时间实现。具体来说，运行时间为$O((n+m)(\log^2{m}+\log{n}))$。有点令人惊讶的是，结果是通过将问题映射到线下包络的动态维护来获得的，这在计算几何社区中已经得到了很好的研究。我们的第二个贡献是分析 LPT 在无人机仓库问题 (DWP) 中的性能，这是由基于无人机的仓库包裹递送引发的统一机器调度问题的自然概括。在这个问题中，一个仓库有多架无人机，想要将包裹递送给多个客户。每架无人机从仓库拾取包裹，投递，然后返回仓库（也可以在仓库收费）。无人机的速度和电池寿命可能有所不同，并且由于电池寿命有限，每架无人机的包裹递送范围都有一定的限制。目标是将包裹分配给无人机，从而最大限度地减少交付所有包裹所需的时间。我们证明，通过 LPT 启发式解决该问题的自然方法具有 $\phi$ 的近似因子，其中 $\phi \approx 1.62$ 是黄金比例。

TAPTRv2：基于注意力的位置更新改进了对任意点的跟踪

分类： 计算机视觉和模式识别, 机器人技术

作者： Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16291v1

摘要： 在本文中，我们提出了 TAPTRv2，这是一种基于 TAPTR 的基于 Transformer 的方法，用于解决跟踪任意点 (TAP) 任务。 TAPTR 借鉴了 DEtection TRansformer (DETR) 的设计，并将每个跟踪点制定为点查询，从而可以利用类似 DETR 算法中经过充分研究的操作。 TAPTRv2 通过解决有关其对成本量依赖的关键问题来改进 TAPTR，该问题污染了点查询的内容特征并对可见性预测和成本量计算产生负面影响。在 TAPTRv2 中，我们提出了一种新颖的基于注意力的位置更新（APU）操作，并使用密钥感知的可变形注意力来实现。对于每个查询，该操作使用键感知注意力权重来组合其相应的可变形采样位置来预测新的查询位置。这种设计基于这样的观察：局部注意力本质上与成本量相同，两者都是通过查询及其周围特征之间的点生产来计算的。通过引入这一新操作，TAPTRv2 不仅消除了成本量计算的额外负担，而且还带来了性能的大幅提升。 TAPTRv2超越了TAPTR，在许多具有挑战性的数据集上实现了最先进的性能，展示了优越性

关于使用沉浸式数字技术设计和操作无人机

分类： 机器人技术, 53-02, A.1; I.6; C.2

作者： Yousef Emami, Kai Li, Luis Almeida, Wei Ni

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16288v1

摘要： 无人机 (UAV) 为通信中继网络提供灵活、安全的解决方案，从而提高吞吐量。然而，它们的建模和控制提出了挑战，并且现实世界的部署因模拟与现实之间的差距而受到阻碍。此外，增强态势感知也至关重要。文献中的几篇作品提出将无人机操作与数字孪生（DT）和扩展现实（XR）等沉浸式数字技术相结合，以应对这些挑战。本文全面概述了无人机沉浸式数字技术的当前研究和发展，包括最新进展和新兴趋势。我们还探索 DT 和 XR 与人工智能 (AI) 算法的集成，以创建更加智能、自适应和响应灵敏的无人机系统。最后，我们进行讨论，找出当前研究的差距，并提出研究沉浸式技术在无人机中的应用的未来方向，促进该领域的进一步创新和发展。我们预计 DT 与 XR 的融合将改变无人机的操作方式，提供增强可视化、改进决策并实现有效协作的工具。

通过远程操作系统的半自动控制重新表达手动专业知识

分类： 机器人技术

作者： Erwann Landais, Nasser Rezzoug, Vincent Padois

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16278v1

摘要： 虽然在化学工业中寻找新溶剂对于环境考虑至关重要，但该领域仍然与人类专家的高度手动和目视检查任务密切相关。由于所操纵的化学品可能意味着严重危险（CMR 物质），因此使用机械保护屏障（通风柜、手套箱）。从长远来看，这反过来又会导致姿势不适。使用远程控制机器人来执行此任务以重现所需的小瓶运动将减轻这些姿势限制。然而，这种系统的采用将取决于其转录用户专业知识的能力。必须特别注意系统的直观性：所执行动作的透明度、感知反馈的相关性等，特别是所执行的与用户命令相关的动作的保真度。然而，从工业机器人的电机能力和控制的透明度/响应性的角度来看，要产生的旋转运动的程度和任务交互性使问题变得复杂。为了反应性表达该任务的手动特征，我们建议将运动控制分为两部分：路径控制（空间姿势集）和与该路径相关的轨迹控制（速度、沿路径行进的方向）。然后，用户可以通过选择通用安全路径的类型并实时调制在此路径上执行的轨迹来部分控制机器人的运动。尽管这极大地限制了交互的可能性，但我们假设这种远程操作系统可以使此类观察任务像直接操纵一样有效地执行。这一假设通过一项实验得到了检验，在该实验中，阅读任务危险性较低，但与应用任务具有相似的特征，必须使用不同的轨迹调制变体来执行。该实验包括读取四个白色胶囊（尺寸 6 x 12 毫米）上印刷的文字，这些胶囊放入圆柱形小瓶（尺寸 16 毫米 x 70 毫米）中。每个变体都测试了四个随机选择的小瓶。首先，用户必须通过直接操作来执行任务，然后在有保护屏障的条件下执行任务。然后，邀请用户使用不同的轨迹调制变体（调制和被动观看预先录制的视频、调制 Franka-Emika Panda 机器人在单眼 Logitech Brio 4K 前实时执行任务的轨迹）来执行任务相机）。每次试验变体后，用户通过调查问卷评估该变体的不同方面（手动和视觉性能、易用性、界面的可接受性）。在试验期间，还测量了各种客观标准（与试验者相互作用的数量和性质）界面、时间和任务的成功程度）。该实验针对 37 名受试者（年龄：27$\pm$5，20 名女性）进行。记录的数据显示，所有变体的成功比例以及受试者对视觉性能、使用舒适度和界面可接受性的感知都相似且较高。这表明该任务确实可以通过建议的接口来实现。然而，数据还显示，使用轨迹调制变体时的平均任务完成时间明显高于手动变体的处理时间，这意味着所提出的远程半自动控制程序在执行时间方面未能实现令人满意的性能。似乎有必要建立一个允许对小瓶运动进行更多反应性操作的界面，并将在未来的实验中进行测试。

谈判控制：神经符号可变自主性

分类： 机器人技术, 系统与控制, 系统与控制

作者： Georgios Bakirtzis, Manolis Chiou, Andreas Theodorou

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16254v1

摘要： 可变自主性为机器人等系统配备了混合主动性，使其可以根据任务的复杂性和周围环境调整其独立性水平。可变自主解决了机器人规划中的两个主要问题：一是在没有适当的人为因素指标的情况下，人类在机器人任务过程中无法集中注意力进行监控和干预的问题，二是在面临不可预见和不确定的环境中实现任务成功。静态奖励结构。可变自主性中的一个悬而未决的问题是开发强大的方法来实时动态平衡自主性和人为干预，确保在不可预测和不断变化的环境中实现最佳性能和安全性。我们认为，通过添加基于规则的符号逻辑来解决不可预测和不断变化的环境，有可能使自主调整在上下文中更加可靠，并通过混合主动控制的数据为强化学习添加反馈，进一步提高自主行为的有效性和安全性。

根据图像特征进行姿态估计的概率参数估计器和校准度量

分类： 机器人技术, 计算机视觉和模式识别

作者： Romeo Valentin, Sydney M. Katz, Joonghyun Lee, Don Walker, Matthew Sorgenfrei, Mykel J. Kochenderfer

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16223v1

摘要： 本文解决了给定实时测量不确定性的概率参数估计的挑战。我们提供了一个通用公式，并将其应用于自主视觉着陆系统的姿态估计。我们提出了三种概率参数估计器：最小二乘采样方法、线性近似方法和概率规划估计器。为了评估这些估计量，我们引入了新颖的封闭式表达式，用于测量特别针对多元正态分布的校准和锐度。我们的实验研究比较了不同噪声条件下的三种估计器。我们证明，线性近似估计器可以比其他方法更快地产生清晰且校准良好的姿态预测，但在某些情况下可能会产生过度自信的预测。此外，我们证明这些估计器可以与卡尔曼滤波器集成，以在跑道进近期间进行连续姿态估计，我们观察到清晰度提高了 50%，同时保持边际校准。这项工作有助于将数据驱动的计算机视觉模型集成到复杂的安全关键飞机系统中，并为为此类系统制定严格的认证指南奠定基础。

LiCROcc：使用 LiDAR 和相机教导雷达进行准确的语义占用预测

分类： 计算机视觉和模式识别, 机器人技术

作者： Yukai Ma, Jianbiao Mei, Xuemeng Yang, Licheng Wen, Weihua Xu, Jiangning Zhang, Botian Shi, Yong Liu, Xingxing Zuo

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16197v1

摘要： 语义场景完成（SSC）对于自动驾驶感知至关重要，经常面临天气和光照变化的复杂性。长期策略涉及融合多模式信息以增强系统的稳健性。雷达越来越多地用于 3D 目标检测，正在逐渐取代自动驾驶应用中的 LiDAR，提供强大的传感替代方案。在本文中，我们重点关注 3D 雷达在语义场景完成方面的潜力，开创性的跨模态细化技术，以提高对天气和光照变化的鲁棒性，并增强 SSC 性能。关于模型架构，我们提出了一种三阶段紧密融合方法在BEV上实现点云和图像的融合框架。在此基础上，我们设计了三个跨模态蒸馏模块——CMRD、BRD和PDD。我们的方法通过提取 LiDAR 和相机融合特征的丰富语义和结构信息，增强了仅雷达 (R-LiCROcc) 和雷达相机 (RC-LiCROcc) 设置的性能。最后，我们的 LC-Fusion（教师模型）、R-LiCROcc 和 RC-LiCROcc 在 nuScenes-Occupancy 数据集上实现了最佳性能，mIOU 分别超过基线 22.9%、44.1% 和 15.5%。项目页面位于 https://hr-zju.github.io/LiCROcc/。

自动环境塑造是强化学习的下一个前沿

分类： 机器人技术, 人工智能, 机器学习

作者： Younghyo Park, Gabriel B. Margolis, Pulkit Agrawal

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16186v1

摘要： 许多机器人专家梦想在晚上向机器人展示一项任务，并在第二天早上回来找到能够解决该任务的机器人。是什么阻碍我们实现这一目标？模拟真实强化学习 (RL) 在具有挑战性的机器人任务中取得了令人印象深刻的性能，但需要大量的人力才能以适合 RL 的方式设置任务。我们的立场是，政策优化和其他想法中的算法改进应该引导解决塑造训练环境的主要瓶颈，即设计观察、行动、奖励和模拟动态。大多数从业者不会调整 RL 算法，而是调整其他环境参数以获得理想的控制器。我们认为，只有社区专注于环境塑造过程的自动化，才能将强化学习扩展到不同的机器人任务。

运动规划算法考虑车辆特性

分类： 机器人技术, 系统与控制, 系统与控制

作者： Syed Adil Ahmed, Taehyun Shim

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16167v1

摘要： 自动驾驶车辆控制通常分为两个主要领域：轨迹规划和跟踪。目前，轨迹规划主要由基于粒子或运动学模型的优化控制器完成。这些规划器的输出由于不考虑重心高度及其影响，因此对于不同的车辆类型（尤其是高重心车辆）来说并不是唯一的。因此，跟踪控制器可能必须努力避免车辆操控和舒适性限制，同时尝试实现这些次优轨迹。本文试图通过考虑采用简化双轨模型的规划器来解决此问题，该规划器使用稳态方程和简化的轮胎模型来估计横向和基于侧倾的载荷传递，以减少求解器工作量。将所开发的规划器与高、低加速度条件下以及不同车辆高度的防撞场景中广泛使用的粒子和运动学模型规划器进行比较。

扩散模型作为离线强化学习中高效规划的优化器

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 机器人技术

作者： Renming Huang, Yunqiang Pei, Guoqing Wang, Yangming Zhang, Yang Yang, Peng Wang, Hengtao Shen

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16142v1

摘要： 扩散模型通过将决策制定为顺序生成，在离线强化学习任务中表现出了强大的竞争力。然而，由于这些方法需要冗长的推理过程，其实用性受到限制。在本文中，我们通过将扩散模型的采样过程分解为两个解耦的子过程来解决这个问题：1）生成可行轨迹，这是一个耗时的过程，2）优化轨迹。通过这种分解方法，我们能够部分分离效率和质量因素，使我们能够同时获得效率优势和确保质量保证。我们提出了Trajectory Diffuser，它利用更快的自回归模型来处理可行轨迹的生成，同时保留扩散模型的轨迹优化过程。这使我们能够在不牺牲能力的情况下实现更有效的规划。为了评估轨迹扩散器的有效性和效率，我们在 D4RL 基准上进行了实验。结果表明，与以前的序列建模方法相比，我们的方法的推理速度快了 3-10 倍，同时在整体性能方面也优于它们。 https://github.com/RenMing-Huang/TrajectoryDiffuser 关键词：强化学习和高效规划扩散模型

用于自主表面裂纹修复的基于视觉的自适应机器人

分类： 机器人技术, 计算机视觉和模式识别, 系统与控制, 系统与控制

作者： Joshua Genova, Eric Cabrera, Vedhus Hoskere

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16874v1

摘要： 如果不进行有效修复，基础设施的表面裂缝可能会导致严重恶化和昂贵的维护费用。手工修复方法费力、耗时且不精确，因此难以大规模推广。机器人感知和操纵方面的突破已经实现了先进的自主裂纹修复，但所提出的方法缺乏端到端测试和对不断变化的裂纹尺寸的适应性。本文提出了一种使用具有先进传感技术的机器人技术进行表面裂纹检测和修复的自适应自主系统。该系统使用 RGB-D 相机进行裂纹检测，使用激光扫描仪进行精确测量，并使用挤出机和泵进行材料沉积。采用 3D 打印裂纹样本的新颖验证程序可模拟真实世界的裂纹并确保测试的可重复性。我们的研究表明，自适应裂缝填充系统比固定速度方法更高效、更有效，实验结果证实了精度和一致性。这项研究为多功能、可靠的机器人基础设施维护铺平了道路。

受鳍射线启发的折纸小型致动器，用于水生仿生机器人中的鳍操作

分类： 机器人技术

作者： Minh Vu, Revathy Ravuri, Angus Muir, Charles Mackie, Andrew Weightman, Simon Watson, Tim J. Echtermeyer

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16821v1

摘要： 鱼的运动是通过鳍条主动变形的骨棒实现的，这些骨棒操纵鳍以促进与周围水的复杂相互作用并实现推进。从工程角度复制生物鳍条的性能和运动学是一项具有挑战性的任务，迄今为止尚未实现。这项工作介绍了受鳍条启发的折纸电磁腱驱动（FOLD）致动器的原型，旨在模拟鱼鳍条的功能动力学。该执行器采用折纸/剪纸和纸细木工技术，采用平面激光切割聚丙烯薄膜，只需几分钟即可构建而成，成本低廉，仅为 0.80 磅（1 美元），组装简单，并且耐用超过一百万次。我们利用其较小的尺寸，将八个嵌入到一个 135 毫米长、能够四自由度游泳的墨鱼机器人的两个鳍膜中。我们提出了一项广泛的运动学和游泳参数研究，其中包含来自 7.6 小时视频的 1015 个数据点，该研究已用于确定最佳运动学参数并验证在水生动物中观察到的理论常数。值得注意的是，该研究探讨了波动模式、功率分布和运动效率之间微妙的相互作用，强调了执行器作为研究仿生系统的节能推进和控制的模型系统的潜力。通过将执行器集成到鱼和水母中，进一步证明了执行器的多功能性。

基于 QP 的机器人控制中的运动精度和计算量

分类： 机器人技术

作者： Sélim Chefchaouni, Adrien Escande, Pierre-Brice Wieber

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16617v1

摘要： 二次规划 (QP) 已成为控制各种机器人（包括人形机器人）的成熟技术。然而，有一个方面在很大程度上被忽视了，那就是解决这些 QP 的准确性。典型的 QP 求解器旨在提供精确到浮点精度 ($\approx10^{-8}$) 的解决方案。考虑到以 SI 或类似单位（米、弧度等）表示的物理量，这种精度似乎与任务要求和硬件能力完全无关。通常，人形机器人永远不会、也无法在操作任务中实现亚毫米精度。考虑到这一观察，我们在本文中的目标有两个：首先检查 QP 解精度如何影响最终的机器人运动精度，然后评估如何利用降低的解精度要求来减少相应的计算工作量。 HRP-4 机器人动态模拟的数值实验表明，计算量可以除以 20 以上，同时保持所需的运动精度。

显而易见：形态计算驱动软机器人的自适应行为

分类： 机器人技术, 人工智能, 神经和进化计算

作者： Alican Mertan, Nick Cheney

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16613v1

摘要： 在当代人工智能和机器人技术中，普遍的做法是分别假设一个由神经网络建模的大脑，并利用它来学习智能和自适应行为。虽然这种方法对于许多类型的任务都非常有效，但它并不是自然界中存在的唯一智能类型。在这项工作中，我们研究了如何在没有单独且明确的机器人控制大脑的情况下创建智能行为，而是仅仅作为机器人身体内发生的计算的结果。具体来说，我们表明，通过使用简单的反应材料，可以在基于体素的虚拟软机器人中创建自适应和复杂的行为，这些材料可以在不同的环境线索下主动改变机器人的形状，从而改变其行为。我们展示了闭环形态计算思想的概念证明，并表明在我们的实现中，它能够实现模仿逻辑门的行为，使我们能够演示如何组合这些行为以建立更复杂的集体行为。

穿越一切：通用四足机器人在复杂地形中导航

分类： 机器人技术

作者： Shaoting Zhu, Derun Li, Yong Liu, Ningyi Xu, Hang Zhao

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16412v1

摘要： 视觉语言模型（VLM）的应用在各种机器人任务中取得了令人瞩目的成功，但对于四足机器人导航中使用的基础模型的探索很少。我们推出了 Cross Anything System (CAS)，这是一个由高级推理模块和低级控制策略组成的创新系统，使机器人能够穿越复杂的 3D 地形并到达目标位置。对于高级推理和运动规划，我们提出了一种利用 VLM 的新颖算法系统，并设计了任务分解和闭环子任务执行机制。对于低级运动控制，我们利用概率退火选择（PAS）方法通过强化学习来训练控制策略。大量实验表明，我们的整个系统能够准确、鲁棒地在复杂的3D地形中导航，其强大的泛化能力保证了在各种室内外场景和地形中的应用。项目页面：https://cross-anything.github.io/

公共场所清洁机器人：基于利益相关者访谈的调查和基准测试建议

分类： 机器人技术

作者： Raphael Memmesheimer, Martina Overbeck, Bjoern Kral, Lea Steffen, Sven Behnke, Martin Gersch, Arne Roennau

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16393v1

摘要： 用于公共场所的自主清洁机器人有潜力解决当前的社会挑战，例如劳动力短缺和公共场所的清洁问题。自动驾驶、垃圾箱拣选或搜索和救援等其他应用领域已经表明，竞争环境中的基准测试平台和方法可以推进各自的研究领域，从而在现实条件下产生更适用的系统。在本文中，我们分析了七个有关户外清洁的半结构化、定性利益相关者访谈，确定了当前的需求和局限性，并考虑了这些结果，以便根据之前的观察制定基准情景。

道德可调节机器人助手的美德伦理

分类： 人工智能, 计算机与社会, 机器人技术

作者： Rajitha Ramanayake, Vivek Nallur

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16361v1

摘要： 普遍的共识是，设计用于与人类一起工作或为人类服务的机器人必须遵守其操作环境的道德标准。为了实现这一目标，人们提出了几种基于既定伦理理论的方法。尽管如此，大量实证研究表明，现实世界的道德要求非常多样化，并且可能因地区而异。这消除了可以适应任何道德背景的通用机器人的想法。然而，使用现有技术为每次部署创建定制机器人具有挑战性。本文提出了一种克服这一挑战的方法，引入一种受美德伦理启发的计算方法，该方法能够基于角色对机器人进行调整，以适应环境的特定伦理需求。使用模拟的老年护理环境，我们说明了如何使用调整来改变在环境辅助环境中与老年居民互动的机器人的行为。此外，我们通过咨询伦理学家来评估机器人的反应，以确定潜在的缺点。

使用 Decision-RWKV 优化机器人操作：一种终身学习的循环序列建模方法

分类： 机器人技术

作者： Yujian Dong, Tianyu Wu, Chaoyang Song

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16306v1

摘要： 基于 Transformer 架构的模型在自然语言处理、计算机视觉和机器人等领域得到了广泛应用，ChatGPT 等大型语言模型彻底改变了机器对人类语言的理解，并展示了令人印象深刻的记忆和复制能力。传统的机器学习算法与灾难性遗忘作斗争，这不利于机器人部署所需的多样化和通用能力。本文研究了接收加权键值 (RWKV) 框架，该框架以其高效且有效的序列建模的高级功能及其与决策转换器和经验重放架构的集成而闻名。它专注于序列决策和终身机器人学习任务中潜在的性能增强。我们引入了 Decision-RWKV (DRWKV) 模型，并在 OpenAI Gym 环境和 D'Claw 平台上使用 D4RL 数据库进行了广泛的实验，以评估 DRWKV 模型在单任务测试和终身学习场景中的性能，展示了其有效地处理多个子任务。本研究中所有算法、训练和图像渲染的代码均在 https://github.com/ancorasir/DecisionRWKV 上开源。

癌症治疗机器人的连续时间鲁棒控制

分类： 机器人技术

作者： Vlad Mihaly, Iosif Birlescu, Mircea Şuşcă, Damien Chablat, Petru Dobra

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16276v1

摘要： 手术机器人的控制系统必须确保患者安全和实时控制。因此，所有可能出现的不确定性都应考虑到工厂的扩展模型中。在形成这样一个不确定的工厂后，应该计算一个适当的控制器，以确保每种情况的最小性能集。因此，连续时间鲁棒控制范式适合这种场景。然而，该问题通常仅针对线性和时不变设备才能解决。本文的主要重点是将所有非线性视为不确定性，将 m-link 串行手术机器人纳入鲁棒控制框架。此外，本文还研究了此类控制结构的数值实现的一个初期问题。

工厂机器人

分类： 机器人技术

作者： Kazuya Murakami, Misao Sato, Momoki Kubota, Jun Shintake

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16162v1

摘要： 由于光合作用将光能转化为化学能，植物在生长过程中表现出物理位移。这可以解释为植物充当具有内置电源的执行器。本文提出了一种创建植物机器人的方法，该机器人通过利用植物的驱动输出（生长过程中产生的位移和力）来移动和执行任务。采用萝卜芽作为目标植物，对其位移和力进行表征，然后计算功率和能量密度。根据表征，设计并制造了两种不同的工厂机器人：旋转机器人和夹具。前者展示了地面运动，行驶距离为 14.6 毫米，平均速度为 0.8 毫米/小时。后者演示了通过植物手指的光控开合运动来拾取和放置质量为 0.1 g 的物体。在移动机器人的具体数据中观察到实验值和模型值之间有很好的一致性，这表明获取植物的驱动特性可以实现植物机器人行为的设计和预测。这些结果为实现新型环保且可持续的机器人铺平了道路。

从点和线在线性时间内进行最佳相机机器人位姿估计

分类： 机器人技术

作者： Guangyang Zeng, Biqiang Mu, Qingcheng Zeng, Yuchen Song, Chulin Dai, Guodong Shi, Junfeng Wu

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16151v1

摘要： 相机姿态估计是机器人技术中的一个基本问题。本文主要关注两个感兴趣的问题：首先，点和线特征具有互补优势，设计一种能够有效融合它们的统一算法具有重要价值；其次，随着现代前端技术的发展，单个图像中可以存在大量特征，这为高精度机器人位姿估计提供了潜力。根据这些观察结果，我们提出了 AOPnP(L)，一种基于点和线的最佳线性时间相机机器人姿态估计算法。具体来说，我们表示一条线上有两个不同的点，并统一点和线测量的噪声模型，其中噪声被添加到图像中的 2D 点。通过利用 Plucker 坐标进行线参数化，我们为组合点和线测量制定了最大似然 (ML) 问题。为了最优地解决 ML 问题，AOPnP(L) 采用两步估计方案。第一步，通过消除偏差设计出可以收敛到真实姿态的一致估计。在第二步中，执行单次高斯-牛顿迭代以细化初始估计。 AOPnP(L) 具有理论上的最优性，即其均方误差收敛于 Cramer-Rao 下界。此外，它具有线性时间复杂度。这些特性使其非常适合精度要求高的实时机器人姿态估计。进行了大量的实验来验证我们的理论发展并证明 AOPnP(L) 在静态定位和动态里程计系统中的优越性。

Gel-OPTOFORT 传感器：使用 GelSight 和光电传感器技术进行多轴力/扭矩测量和几何观察

分类： 机器人技术

作者： Yohan Noh, Harshal Upare, Dalia Osman, Wanlin Li

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.16082v1

摘要： 尽管基于 GelSight 的传统触觉和力/扭矩传感器在检测物体的几何形状和纹理信息，同时感测多轴力方面表现出色，但其性能受到相机较低帧速率和弹性体固有特性的限制。这些限制限制了它们在高采样频率下测量更大力范围的能力。此外，由于Gelsight传感器单元与多轴力/扭矩单元在结构上耦合，基于Gelsight的力/扭矩传感器的力/扭矩测量范围不可调节。为了解决这些弱点，本文提出了 GEL-OPTOFORT 传感器，它结合了 GelSight 传感器和基于光电传感器的力/扭矩传感器。

WayEx：使用单个演示进行航点探索

分类： 机器人技术, 人工智能

作者： Mara Levy, Nirat Saini, Abhinav Shrivastava

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15849v1

摘要： 我们提出了 WayEx，这是一种通过单个演示学习复杂的目标条件机器人任务的新方法。我们的方法与现有的模仿学习方法的不同之处在于，它需要较少的专家示例，并且不需要有关演示过程中所采取行动的信息。这是通过引入新的奖励函数并采用知识扩展技术来实现的。我们通过六个不同的任务展示了 WayEx（我们的航点探索策略）的有效性，展示了其在各种环境中的适用性。值得注意的是，与传统的强化学习方法相比，我们的方法显着减少了 50% 的训练时间。 WayEx 仅通过一次演示就获得了比现有模仿学习方法更高的奖励。此外，我们还展示了它在解决标准方法无法满足的复杂环境方面的成功。更多信息请访问：https://waypoint-ex.github.io。

CarFormer：利用学习的以对象为中心的表示进行自动驾驶

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Shadi Hamdan, Fatma Güney

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15843v1

摘要： 表示的选择在自动驾驶中起着关键作用。鸟瞰图（BEV）表示近年来表现出了卓越的性能。在本文中，我们建议学习 BEV 中以对象为中心的表示，将复杂的场景提炼为更可操作的信息，以供自动驾驶使用。我们首先学习使用 BEV 序列上的槽注意模型将对象放入槽中。基于这些以对象为中心的表示，我们然后训练变压器学习驾驶以及推理其他车辆的未来。我们发现以对象为中心的槽表示优于使用对象的确切属性的场景级和对象级方法。槽表示自然地结合了来自空间和时间上下文的对象信息，例如位置、航向和速度，而无需明确提供。我们的带有槽位的模型提高了所提供路线的完成率，因此获得了更高的驾驶分数，并且多次运行的方差更低，这证实了槽位作为以对象为中心的方法中可靠的替代方案。此外，我们通过预测实验验证了我们的模型作为世界模型的性能，证明了其准确预测未来老虎机表示的能力。代码和预训练模型可以在 https://kuis-ai.github.io/CarFormer/ 找到。

HandDGP：具有可微分全球定位的相机空间手网格预测

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Eugene Valassakis, Guillermo Garcia-Hernando

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15844v1

摘要： 从单个 RGB 图像预测相机空间手部网格对于在 3D 虚拟和增强世界中实现真实的手部交互至关重要。以前的工作通常将任务分为两个阶段：给定手部的裁剪图像，预测相对坐标中的网格，然后在单独且独立的阶段将这些预测提升到相机空间，这通常会导致有价值的上下文和比例信息的丢失。为了防止丢失这些线索，我们建议将这两个阶段统一为解决 2D-3D 对应问题的端到端解决方案。该解决方案通过新的可微分全球定位模块实现从相机空间输出到网络其余部分的反向传播。我们还引入了图像校正步骤，可以协调训练数据集和输入图像，就好像它们是使用同一台相机采集的一样，有助于缓解问题固有的尺度深度模糊性。我们根据三个公共基准的多个基线和最先进的方法来验证我们的框架在评估中的有效性。

Quest：用于学习连续控制的自监督技能抽象

分类： 机器人技术

作者： Atharva Mete, Haotian Xue, Albert Wilcox, Yongxin Chen, Animesh Garg

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15840v2

摘要： 泛化能力，或者更确切地说缺乏泛化能力，是机器人学习领域中最重要的未解决问题之一，尽管已经采取了一些大规模的努力来解决这个问题，但它仍然没有得到解决。在本文中，我们假设使用潜在变量模型（LVM）学习时间动作抽象，该模型学习将数据映射到压缩的潜在空间并返回，这是实现可轻松用于新任务的低级技能的一个有希望的方向。尽管一些作品试图证明这一点，但它们通常受到不能忠实捕获可共享表示的体系结构的限制。为了解决这个问题，我们提出了量化技能转换器（QueST），它学习更大、更灵活的潜在编码，更能够对各种任务所需的低级技能的广度进行建模。为了利用这种额外的灵活性，QueST 将动作序列数据的因果归纳偏差传递到潜在空间，从而产生语义上更有用和可转移的表示。我们与最先进的模仿学习和 LVM 基准进行比较，发现 QueST 的架构在多个多任务和小样本学习基准上带来了强大的性能。更多结果和视频请访问 https://quest-model.github.io/

高度交互环境中智能代理的重要性采样引导元训练

分类： 机器人技术, 人工智能

作者： Mansur Arief, Mike Timmerman, Jiachen Li, David Isele, Mykel J Kochenderfer

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15839v1

摘要： 训练智能代理在高度交互的环境中导航是一项重大挑战。虽然首先训练引导策略来训练自我代理的引导元强化学习（RL）方法已被证明可以有效提高各个交互级别的普遍性，但最先进的方法往往对极端情况过于敏感，在更常见的场景中损害代理的性能。本研究引入了一种新颖的训练框架，该框架将引导元强化学习与重要性采样 (IS) 相结合，以优化训练分布，以导航高度交互式的驾驶场景，例如丁字路口。与在训练期间可能低估关键交互或过分强调极端情况的传统方法不同，我们的方法使用 IS 建议分布策略性地将训练分布调整为更具挑战性的驾驶行为，并应用重要性比来消除结果偏差。通过估计现实世界数据集的自然分布并采用混合模型进行迭代训练细化，该框架确保了常见和极端驾驶场景的平衡关注。使用 InD 数据集中的合成数据集和 T 形交叉口场景进行的实验不仅证明了训练加速，而且在自然条件下也提高了代理性能，展示了将 IS 与元 RL 相结合在训练可靠的自主代理以执行高度交互式导航任务方面的功效。

学习在任何地方进行操作：强化学习的视觉通用框架

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15815v1

摘要： 我们能否赋予视觉运动机器人泛化能力，使其能够在不同的开放世界场景中运行？在本文中，我们提出了 \textbf{Maniwhere}，这是一个专为视觉强化学习量身定制的泛化框架，使经过训练的机器人策略能够泛化多种视觉干扰类型的组合。具体来说，我们引入了一种与空间变换网络（STN）模块融合的多视图表示学习方法，以捕获共享语义信息和不同视点之间的对应关系。此外，我们采用基于课程的随机化和增强方法来稳定强化学习训练过程并增强视觉泛化能力。为了展示Maniwhere的有效性，我们精心设计了8个任务，包括关节对象、双手和灵巧手操作任务，展示了Maniwhere强大的视觉泛化能力和跨3个硬件平台的sim2real传输能力。我们的实验表明，Maniwhere 的性能明显优于现有的最先进方法。视频位于 https://gemcollector.github.io/maniwhere/。

使用多个三平面投影进行局部占用增强的对象抓取

分类： 机器人技术, 人工智能

作者： Kangqi Ma, Hao Dong, Yadong Mu

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15771v1

摘要： 本文解决了机器人抓取一般物体的挑战。与之前的研究类似，该任务读取深度相机捕获的单视图 3D 观察结果（即点云）作为输入。至关重要的是，物体抓取的成功高度依赖于对场景内物体形状的全面理解。然而，单视图观测经常遭受遮挡（包括自身遮挡和对象间遮挡），这会导致点云中出现间隙，尤其是在复杂杂乱的场景中。这使得对物体形状的感知不完整，并且经常导致物体抓取过程中的失败或姿势估计不准确。在本文中，我们通过一种有效但简单的解决方案来解决这个问题，即通过局部占用预测来完成与抓取相关的场景区域。根据之前的实践，所提出的模型首先通过提出场景中的一些最可能的抓点来运行。在每个掌握点周围，设计了一个模块来推断其附近的任何体素要么是空的，要么是被某个物体占据的。重要的是，占用图是通过融合本地和全局线索来推断的。我们实现了多组三平面方案来有效聚合长距离上下文信息。该模型利用局部占用增强的物体形状信息进一步估计 6-DoF 抓取姿势，并返回排名最高的抓取建议。在大规模GraspNet-1Billion基准和真实机械臂上的综合实验表明，该方法可以有效地完成杂乱和遮挡场景中未观察到的部分。受益于占用率增强的功能，我们的模型在各种性能指标（例如抓取平均精度）下明显优于其他竞争方法。

利用语义和动态占用网格图进行流引导运动预测

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Rabbia Asghar, Wenqian Liu, Lukas Rummelhard, Anne Spalanzani, Christian Laugier

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15675v1

摘要： 驾驶场景的准确预测对于道路安全和自动驾驶至关重要。占用网格地图 (OGM) 由于其结构化的空间表示、跨传感器模式的灵活性以及不确定性的集成而通常用于场景预测。最近的研究成功地将 OGM 与深度学习方法结合起来，以预测场景的演变并学习复杂的行为。然而，这些方法没有考虑场景中的流量或速度矢量的预测。在这项工作中，我们提出了一种新颖的多任务框架，该框架利用动态 OGM 和语义信息来预测未来的车辆语义网格和未来的场景流。这种语义流的结合不仅提供了中间场景特征，而且还能够生成扭曲的语义网格。对真实世界 NuScenes 数据集的评估表明，模型的预测能力得到了改进，并且模型保留场景内动态车辆的能力也得到了增强。

强化学习与视觉里程计的结合

分类： 计算机视觉和模式识别, 机器人技术

作者： Nico Messikommer, Giovanni Cioffi, Mathias Gehrig, Davide Scaramuzza

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15626v1

摘要： 视觉里程计 (VO) 对于下游移动机器人和增强/虚拟现实任务至关重要。尽管最近取得了进展，现有的 VO 方法仍然依赖于启发式设计选择，需要人类专家进行数周的超参数调整，从而阻碍了通用性和鲁棒性。我们通过将 VO 重新定义为顺序决策任务并应用强化学习 (RL) 来动态调整 VO 过程来应对这些挑战。我们的方法引入了一个神经网络，作为 VO 管道中的代理运行，以根据实时条件做出关键帧和网格大小选择等决策。我们的方法使用基于姿势误差、运行时间和其他指标的奖励函数来指导系统，从而最大限度地减少对启发式选择的依赖。我们的 RL 框架将 VO 系统和图像序列视为一个环境，代理接收来自关键点、地图统计数据和先验姿势的观察结果。使用经典 VO 方法和公共基准的实验结果证明了准确性和鲁棒性的提高，验证了我们的 RL 增强 VO 方法对不同场景的通用性。我们相信，这种范式转变消除了耗时的启发式参数调整的需要，从而推动了 VO 技术的发展。

建立一个谨慎、有能力的自动驾驶的通用评估模型

分类： 机器人技术

作者： Kethan Reddy, Elias Nassif, Panagiotis Angeloudis, Mohammed Quddus, Washington Ochieng

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15596v1

摘要： 用于验证自动驾驶系统的基于虚拟场景的测试方法主要以防撞为中心，缺乏全面评估最佳驾驶行为的综合方法。此外，当前的验证方法与监管机构提出的授权和监控要求不符。我们通过概述一个通用的评估框架来解决这些验证差距，该框架：包含谨慎和有能力驾驶的概念，统一行为能力和评估标准，并且适合特定场景和总体行为水平。该框架可用于评估基于场景的测试中的最佳驾驶，以及部署后监控，以确保持续符合法规和安全标准。

学习往哪里看：使用几何信息进行主动定位的自我监督视点选择

分类： 计算机视觉和模式识别, 机器人技术

作者： Luca Di Giammarino, Boyang Sun, Giorgio Grisetti, Marc Pollefeys, Hermann Blum, Daniel Barath

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15593v1

摘要： 不同环境中的准确定位是计算机视觉和机器人技术的基本挑战。该任务涉及确定给定空间内传感器（通常是相机）的精确位置和方向。传统的定位方法通常依赖于被动传感，这在功能有限或动态环境的场景中可能会很困难。为此，本文探讨了主动定位领域，强调了视点选择对于提高定位精度的重要性。我们的贡献包括使用数据驱动的方法和专为实时操作设计的简单架构、自我监督的数据训练方法以及将我们的地图一致地集成到为现实世界的机器人应用量身定制的规划框架中的能力。我们的结果表明，我们的方法比现有方法表现更好，针对类似的问题并对合成数据和真实数据进行概括。我们还发布了一个开源实现以使社区受益。

约束下惩罚度量网络的外部惩罚政策优化

分类： 机器学习, 机器人技术

作者： Shiqing Gao, Jiaxin Ding, Luoyi Fu, Xinbing Wang, Chenghu Zhou

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15537v1

摘要： 在约束强化学习（CRL）中，代理探索环境以在满足约束的同时学习最优策略。惩罚函数方法是最近被研究的一种处理约束的有效方法，它对目标施加约束惩罚，将受约束问题转化为无约束问题。然而，选择适当的惩罚措施来有效地平衡政策绩效和约束满足是具有挑战性的。在本文中，我们提出了一种理论上有保证的惩罚函数方法，即外部惩罚策略优化（EPO），其具有由惩罚度量网络（PMN）生成的自适应惩罚。 PMN 对不同程度的约束违规做出适当的响应，从而实现高效的约束满足和安全的探索。我们从理论上证明，EPO 通过收敛保证持续提高约束满足度。我们提出了一种新的代理函数，并提供最坏情况的约束违规和近似误差。在实践中，我们提出了一种有效的平滑惩罚函数，可以使用一阶优化器轻松实现。进行了大量的实验，表明 EPO 在稳定的训练过程中，在政策绩效和约束满意度方面优于基线，特别是在复杂任务上。

通过图搜索和检索进行离线模仿学习

分类： 机器人技术, 人工智能, 机器学习

作者： Zhao-Heng Yin, Pieter Abbeel

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15403v1

摘要： 模仿学习是一种强大的机器学习算法，可帮助机器人获得操作技能。然而，许多现实世界的操作任务涉及精确而灵巧的机器人与物体的交互，这使得人类很难收集高质量的专家演示。因此，机器人必须从次优演示和非结构化交互中学习技能，这仍然是一个关键挑战。现有的工作通常使用离线深度强化学习（RL）来解决这一挑战，但在实践中，由于致命的黑社会问题，这些算法不稳定且脆弱。为了克服这个问题，我们提出了 GSR，这是一种简单而有效的算法，可以通过图搜索和检索从次优演示中学习。我们首先使用预训练的表示将交互体验组织成图表，并执行图表搜索来计算不同行为的值。然后，我们应用基于检索的过程来识别每个状态的最佳行为（动作），并使用行为克隆来学习该行为。我们在具有复杂视觉输入的模拟和现实世界机器人操纵任务中评估我们的方法，涵盖对不同物理属性的物体的各种精确和灵巧的操纵技能。与基线相比，GSR 的成功率提高了 10% 到 30%，熟练程度提高了 30% 以上。我们的项目页面位于https://zhaohengyin.github.io/gsr。

从多摄像头图像中学习高分辨率矢量表示以进行 3D 对象检测

分类： 计算机视觉和模式识别, 机器人技术

作者： Zhili Chen, Shuangjie Xu, Maosheng Ye, Zian Qian, Xiaoyi Zou, Dit-Yan Yeung, Qifeng Chen

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15354v1

摘要： 鸟瞰图 (BEV) 表示是直接影响 3D 目标检测性能的关键因素，但传统的 BEV 网格表示会随着空间分辨率的增长而导致计算成本呈二次方增长。为了解决这个限制，我们提出了一种新的基于相机的具有高分辨率矢量表示的 3D 对象检测器：VectorFormer。所提出的高分辨率矢量表示与较低分辨率的 BEV 表示相结合，通过我们的两个新颖模块：矢量散射和聚集，有效地利用高分辨率多摄像机图像中的 3D 几何。为此，具有更丰富场景上下文的学习向量表示可以作为最终预测的解码查询。我们对 nuScenes 数据集进行了广泛的实验，并展示了 NDS 和推理时间方面最先进的性能。此外，我们研究了基于查询 BEV 的方法与我们提出的向量表示相结合，并观察到一致的性能改进。

具有自由意志任意时间收敛的领导者-跟随者网络的合作齐射指导

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制, 动力系统, 优化与控制

作者： Rajib Shekhar Pal, Shashi Ranjan Kumar, Dwaipayan Mukherjee

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15324v1

摘要： 本文提出了一种协作齐射策略，该策略在预先定义的任意稳定时间内在拦截器之间达成共识。考虑到非线性交战运动学和捕捉现实拦截场景中拦截机自动驾驶仪效果的系统滞后，制导方案使用拦截机的剩余飞行时间估计，以实现对静止目标的同时拦截。预定的影响时间。该制导方案确保拦截器的剩余飞行时间估计之间在稳定时间内达成共识，该稳定时间内的上限可以独立于初始条件或设计参数任意预先指定。使用数值模拟证明了所提出的制导策略的有效性，该数值模拟具有不同的拦截器初始位置、速度和航向角误差条件以及不同的期望撞击时间。

用于基于外观的实时环路闭合检测的内存管理

分类： 机器人技术, 计算机视觉和模式识别

作者： Mathieu Labbé, François Michaud

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15890v1

摘要： 闭环检测是在 SLAM 中尝试查找当前位置和之前访问过的位置之间的匹配时所涉及的过程。随着时间的推移，处理新观测值所需的时间随着内部地图的大小而增加，这可能会影响实时处理。在本文中，我们提出了一种用于大规模和长期 SLAM 的新型实时闭环检测方法。我们的方法基于内存管理方法，该方法将每个新观察的计算时间保持在固定限制内。结果使用四个标准数据集证明了该方法的适应性和可扩展性。

基于大规模多会话图的 SLAM 在线全局闭环检测

分类： 机器人技术

作者： Mathieu Labbe, François Michaud

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15305v1

摘要： 对于大规模和长期的同步定位与建图（SLAM），机器人必须处理由绑架机器人问题或多会话建图引起的未知初始定位。本文通过将 SLAM 系统与全局闭环检测方法结合起来解决这些问题，该方法本质上可以处理这些情况。然而，全局闭环检测方法的在线处理通常受到环境大小的影响。所提出的基于图的 SLAM 系统使用内存管理方法，仅考虑地图的一部分来满足在线处理要求。该方法通过使用配备激光测距仪和 Kinect 的机器人对建筑物进行五个室内测绘会话进行了测试和演示。

基于外观的闭环检测，实现在线大规模、长期运行

分类： 机器人技术, 计算机视觉和模式识别

作者： Mathieu Labbé, François Michaud

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15304v1

摘要： 在基于外观的定位和绘图中，闭环检测是用于确定当前观察是否来自先前访问过的位置或新位置的过程。随着内部地图尺寸的增加，将新观测值与所有存储位置进行比较所需的时间也随之增加，最终限制了在线处理。本文提出了一种用于大规模和长期运行的在线闭环检测方法。该方法基于内存管理方法，该方法限制用于闭环检测的位置数量，以便计算时间保持在实时限制之下。这个想法包括将最近和经常观察到的位置保留在用于回环检测的工作记忆（WM）中，并将其他位置转移到长期记忆（LTM）中。当在当前位置和 WM 中存储的位置之间发现匹配时，可以更新并记住存储在 LTM 中的关联位置以进行额外的环路闭合检测。结果证明了该方法的适应性和可扩展性，使用来自其他基于外观的环路闭合方法的十个标准数据集，一个使用在我们大学校园的 2 公里环路中拍摄的真实图像的自定义数据集，以及使用虚拟技术的一个自定义数据集（7 小时）。来自赛车视频游戏“极品飞车：最高通缉”的图像。

腕部驱动矫形器中的机器人可调节运动学可简化跨任务的抓握

分类： 机器人技术

作者： Erin Y. Chang, Andrew I. W. McPherson, Hannah S. Stuart

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.16095v1

摘要： 由于没有手指功能，患有 C5-7 脊髓损伤 (SCI) 的人经常利用手腕伸展来被动地将手指和拇指合在一起进行抓握。可穿戴辅助抓握设备通常专注于这种熟悉的手腕驱动技术，以提供额外的支撑并放大抓握力。尽管最近在这些工具的现代化方面取得了进展，但患有 SCI 的人往往会长期放弃此类可穿戴辅助设备。我们怀疑此类设备施加的手腕约束会产生不良的触及范围和抓握运动学。在这里，我们表明，在手腕驱动的抓握之前，使用连续的机器人运动辅助使用户的手腕姿势具有更大的适应性，从而降低任务难度和感知的用力。我们的结果表明，更自由的手腕活动性允许用户根据任务需要选择舒适和自然的姿势，这提高了辅助抓取设备的多功能性，以便更轻松地在手臂工作空间中的不同手部姿势中使用。通过结合身体动力和机器人自动化的新模式，这种行为有可能提高未来设备设计的易用性和可取性。

使用弯曲反射器进行机器人应用的基于微型光纤的形状传感

分类： 机器人技术

作者： Dalia Osman, Vignesh Vignesh, Yohan Noh

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.16085v1

摘要： 连续体机器人、假肢装置和可穿戴体形传感器。设计了一种小型化单自由度关节角度传感器，使用单根光发射/接收光纤以及连接到 Keyence（FS-N11MN，日本大阪）传感器的耦合器，该传感器通过光学传感器提供和检测光。纤维。集成在接头中的曲率变化的反射表面演示了基于光强度的非接触式传感。各种反射器几何形状和表面颜色旨在比较传感器输出，以实现大角度范围并提高所提出的小型机器人形状传感应用的灵敏度。

PECAN：通过学习的规范空间个性化机器人行为

分类： 机器人技术

作者： Heramb Nemlekar, Robert Ramirez Sanchez, Dylan P. Losey

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.16081v1

摘要： 机器人应该个性化执行任务的方式，以满足单个人类用户的需求。今天的机器人通过在任务空间中询问人类的反馈来实现这种个性化。例如，自动驾驶汽车可能会向人类展示两种不同的在红绿灯处减速的方式，并询问人类他们更喜欢哪种运动。当前的个性化方法是间接的：根据人类选择的行为（例如缓慢减速），机器人尝试推断他们的潜在偏好（例如防御性驾驶）。相比之下，我们的论文开发了一种基于学习和界面的方法，使人类能够直接表明他们想要的风格。我们通过从人类演示数据中学习抽象的、低维的、连续的规范空间来做到这一点。规范空间中的每个点对应于不同的风格（例如，防御性或攻击性驾驶），用户只需单击一个点即可直接个性化机器人的行为。根据人类的选择，机器人会在数据集中的每个任务中解码这种规范风格——例如，如果人类选择防御风格，自动驾驶汽车就会个性化其行为，在减速、超越其他汽车或并入高速公路时进行防御性驾驶。我们将最终的方法称为 PECAN：通过学习的规范空间个性化机器人行为。我们的模拟和用户研究表明，人类更喜欢使用 PECAN 直接个性化机器人行为（特别是当这些用户熟悉 PECAN 时），并且用户发现学习到的规范空间直观且一致。在此处观看视频：https://youtu.be/wRJpyr23PKI

具有全局弯曲和扭转驱动的肌腱驱动柔性蛇形机器人的开发

分类： 机器人技术

作者： Seongil Kwon, Serdar Incekara, Gangil Kwon, Junhyoung Ha

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.16054v1

摘要： 蛇机器人已经被研究了几十年，目的是实现生物蛇的流畅运动。然而，截至今天，它们的运动能力仍然与生物蛇相距甚远。我们最近的研究表明，通过使用身体顺应性和纵向全局施加的身体张力，机器人可以实现利用部分地面接触的蛇运动。在本文中，我们提出了这种运动原理的第一个硬件实现。我们的蛇形机器人由串行肌腱驱动的连续体部分组成，并使用肌腱进行全局弯曲和扭曲。我们演示如何驱动肌腱以实现向前和向后运动以及侧绕的地面接触。该机器人在各个方向上产生蛇形运动的能力及其可操纵性在一系列室内实验中得到了验证。

基于法兰的软体机器人触觉焊接3D手眼校准

分类： 机器人技术

作者： Xudong Han, Ning Guo, Yu Jie, He Wang, Fang Wan, Chaoyang Song

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.16041v1

摘要： 本文研究了标准化设计在机器人上的直接应用，通过协作机器人使用 3D 扫描仪进行机器人手眼校准。通过直接捕获其点云数据来利用机器人法兰成熟的几何特征。特别是，提出了一种迭代方法来促进点云处理以获得精细的校准结果。使用工业级 3D 扫描仪 Photoneo Phoxi S & M 和商业级 3D 扫描仪 Microsoft Azure Kinect 对一系列协作机器人进行了多项广泛的实验，包括 Universal Robots UR5 和 UR10 e 系列、Franka Emika 和 AUBO i5 DK。实验结果表明，平移误差和旋转误差有效收敛，分别小于0.28毫米和0.25度，实现了与相机分辨率一样高的手眼标定精度，探索了硬件极限。提出了一种将基于法兰的校准方法与软触觉传感相结合的焊缝跟踪系统。实验结果表明，该系统使机器人能够实时调整其运动，确保焊接质量一致，并为更高效、适应性更强的制造工艺铺平道路。

使用控制屏障功能在杂乱和未知环境中进行机器人牧羊

分类： 机器人技术, 多代理系统

作者： Mahmoud Hamandi, Farshad Khorrami, Anthony Tzes

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15701v1

摘要： 本文介绍了一种新颖的控制方法，旨在使用机器狗在杂乱且未知的环境中引导一群机器羊。狗代理不断扫描环境并计算安全轨迹，以引导羊到达最终目的地。所提出的基于优化的控制器通过使用控制屏障函数（CBF）保证绵羊位于距参考轨迹的期望距离内。同时采用额外的 CBF 约束来确保避免代理间和障碍物碰撞。该方法的有效性在模拟中经过了严格的测试，这证明了机器羊在复杂和杂乱的环境中成功的放牧。

语言模型是机器人规划者：将计划重新构建为目标细化图

分类： 机器人技术, I.2.9

作者： Ateeq Sharfuddin, Travis Breaux

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15677v1

摘要： 大语言模型（LLM）在机器人规划和执行中的成功应用可能为许多现实世界任务的自动化铺平道路。最近进行的一项有希望的研究表明，大语言模型中包含的知识可以用来制定可在交互式、具体环境中实施的目标驱动决策。尽管如此，大语言模型生成的程序的正确性却大大下降。我们将软件工程的目标建模技术应用于生成机器人计划的大型语言模型。具体来说，LLM 被提示为任务生成步骤细化图。然后评估从该细化图转换的程序的可执行性和正确性。与之前的工作相比，该方法产生的程序在人类判断中更加正确。

MuTT：机器人技能的多模态轨迹转换器

分类： 机器人技术, 机器学习

作者： Claudius Kienle, Benjamin Alt, Onur Celik, Philipp Becker, Darko Katic, Rainer Jäkel, Gerhard Neumann

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15660v1

摘要： 高水平的机器人技能代表了机器人编程中日益流行的范例。然而，为特定任务配置技能参数仍然是一项手动且耗时的工作。现有的学习或优化这些参数的方法通常需要大量的实际执行，或者在动态环境中不起作用。为了应对这些挑战，我们提出了 MuTT，这是一种新颖的编码器-解码器变压器架构，旨在通过集成视觉、轨迹和机器人技能参数来预测机器人技能的环境感知执行。值得注意的是，我们开创了视觉和轨迹的融合，引入了一种新颖的轨迹投影。此外，我们还说明了 MuTT 与基于模型的机器人技能优化器相结合时作为预测器的功效。这种方法有助于针对当前环境优化机器人技能参数，而无需在优化过程中进行实际执行。 MuTT 专为与任何机器人技能表示形式兼容而设计，通过三个综合实验展示了其多功能性，展示了两种不同技能表示形式的卓越性能。

HyperSurf：四足机器人腿能够通过 GRU 和实模传输进行表面识别

分类： 机器人技术

作者： Sergei Satsevich, Artem Bazhenov, Elizaveta Pestova, Yaroslav Savotin, Danil Belov, Liaisan Safarova, Artem Erhov, Batyr Khabibullin, Vyacheslav Kovalev, Aleksey Fedoseev, Dzmitry Tsetserukou

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15622v1

摘要： 本文介绍了一种用于四足机器人表面识别的数据采集加速和实模转换系统。该系统具有机械单腿装置，能够在各种易于互换的表面上行走。此外，它还采用了基于 GRU 的表面识别系统，其灵感来自 Dog-Surf 论文中详细介绍的系统。此设置有助于扩展模型训练的数据集收集，从而能够在实验室条件下从难以到达的表面采集数据。此外，它还开辟了将表面属性从现实转移到模拟的途径，从而允许使用预先准备的表面数字孪生库在模拟环境中训练腿式机器人的最佳步态。此外，基于 GRU 的表面识别系统也得到了增强，可以集成来自四足机器人和单腿设置的数据。数据集和代码已公开。

用于验证和确认自主机器人群的多级确证方法

分类： 机器人技术, 人工智能, I.2.9; D.2; I.6

作者： Dhaminda B. Abeywickrama, Suet Lee, Chris Bennett, Razanne Abu-Aisheh, Tom Didiot-Cook, Simon Jones, Sabine Hauert, Kerstin Eder

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15475v1

摘要： 对群体内的紧急行为进行建模和表征可能会给“保证”带来重大挑战。保证任务包括遵守标准、认证流程以及验证和确认 (V&V) 方法的执行，例如模型检查。在这项研究中，我们提出了一种整体的、多层次的建模方法，用于正式验证和验证自主机器人群，该方法在宏观形式建模、低保真模拟、高保真模拟和真实机器人级别上进行定义。我们用于验证的正式宏观模型的特征是来自实际模拟的数据，确保不同系统模型的准确性和可追溯性。此外，我们的工作将形式验证与涉及真实机器人的实验验证结合起来。通过这种方式，我们的 V&V 佐证方法旨在增强证据的可信度，而不是单独采用这些方法。我们通过一个案例研究来探索我们的方法，该案例研究的重点是在公共衣帽间内运行的一群机器人。

使用强化学习策略梯度算法增强机器的硬件容错能力

分类： 机器学习, 人工智能, 机器人技术

作者： Sheila Schoepp, Mehran Taghian, Shotaro Miwa, Yoshihiro Mitsuka, Shadan Golestan, Osmar Zaïane

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15283v1

摘要： 行业正在迅速转向完全自主和互连的系统，这些系统可以检测并适应不断变化的条件，包括机器硬件故障。为机器添加硬件容错能力的传统方法涉及复制组件并在发生故障时通过算法重新配置机器的进程。然而，人们对基于强化学习的机器人控制的兴趣日益浓厚，为实现硬件容错提供了新的视角。然而，有限的研究探索了这些方法在机器硬件容错方面的潜力。本文研究了两种最先进的强化学习算法：近端策略优化 (PPO) 和软 Actor-Critic (SAC) 在增强机器硬件容错能力方面的潜力。我们在两个 OpenAI Gym 模拟环境 Ant-v2 和 FetchReach-v1 中评估了这些算法的性能。这些环境中的机器人模型会遭受六种模拟硬件故障。此外，我们还进行了消融研究，以确定将代理在正常（故障前）环境中通过学习获得的知识转移到持续学习环境中（故障后）环境的最佳方法。我们的结果表明，基于强化学习的方法可以增强模拟机器中的硬件容错能力，并在几分钟内完成适应。具体来说，PPO 在保留其模型中的知识时表现出最快的适应，而 SAC 在丢弃所有获得的知识时表现最好。总体而言，这项研究强调了基于强化学习的方法（例如 PPO 和 SAC）在机器硬件容错方面的潜力。这些发现为开发能够在现实场景中有效运行的稳健且自适应的机器铺平了道路。

遗传算法优化显微手术剪刀设计

分类： 机器人技术, 人工智能

作者： Fatemeh Norouziani, Veerash Palanichamy, Shivam Gupta, Onaizah Onaizah

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15243v1

摘要： 微型机器人是一个有吸引力的研究领域，因为小型机器人有潜力提高微创手术的精度和灵活性。这种工具的一个例子是一把显微手术剪刀，它是为切割存在于身体深处（例如大脑）的肿瘤或癌组织而开发的。由于传统机器人工具的尺寸和灵活性，这项任务通常被认为是困难或不可能的。剪刀设计有两个磁铁，它们以特定的距离放置，以最大限度地提高偏转并产生切割力。然而，显微手术剪刀的远程致动和尺寸要求限制了可产生的刺穿组织的力。为了解决输出力较小的限制，我们使用进化算法来进一步优化剪刀的性能。在这项研究中，对先前开发的无系留显微手术剪刀的设计进行了修改，并通过确定磁铁的最佳位置以及每个磁矩的方向来增强其性能。开发的算法成功应用于 4 磁体配置，从而增加了净扭矩。净扭矩的改善直接转化为更高的切削力。新配置通过80代进化算法产生了58 mN的切削力，比原始设计提高了1.65倍。此外，所开发的算法的优点是，只需对其他微型机器人工具和系统进行少量修改即可部署，为各种医疗程序和应用开辟了新的可能性。

Flow 作为跨域操作接口

分类： 机器人技术, 人工智能

作者： Mengda Xu, Zhenjia Xu, Yinghao Xu, Cheng Chi, Gordon Wetzstein, Manuela Veloso, Shuran Song

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15208v1

摘要： 我们推出了 Im2Flow2Act，这是一个可扩展的学习框架，使机器人能够从不同的数据源获取操作技能。 Im2Flow2Act 背后的关键思想是使用对象流作为操作界面，弥合不同实施例（即人类和机器人）和训练环境（即现实世界和模拟）之间的域差距。 Im2Flow2Act 包含两个组件：流生成网络和流条件策略。流生成网络经过人类演示视频的训练，根据任务描述从初始场景图像生成对象流。流条件策略在模拟机器人游戏数据上进行训练，将生成的对象流映射到机器人动作，以实现所需的对象运动。通过使用流量作为输入，该策略可以直接部署在现实世界中，并且模拟与真实的差距最小。通过利用真实世界的人类视频和模拟机器人游戏数据，我们绕过了现实世界中远程操作物理机器人的挑战，从而形成了用于各种任务的可扩展系统。我们展示了 Im2Flow2Act 在各种现实世界任务中的功能，包括操纵刚性、铰接和可变形物体。

FFHFlow：一种基于流的实时多指抓取合成方法

分类： 机器人技术, 人工智能, 机器学习

作者： Qian Feng, Jianxiang Feng, Zhaopeng Chen, Rudolph Triebel, Alois Knoll

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15161v1

摘要： 用多指手合成多样化且准确的抓取是机器人技术中一项重要但具有挑战性的任务。以前专注于生成建模的努力未能精确捕获多模态、高维掌握分布。为了解决这个问题，我们建议利用一种基于归一化流（NF）的特殊深度生成模型（DGM），这是一种用于学习复杂概率分布的表达模型。具体来说，我们首先观察到通过直接应用单个条件 NF（cNF）（称为 FFHFlow-cnf）来学习以不完整点云为条件的掌握分布，多样性得到了令人鼓舞的改善。然而，我们也认识到由于潜在空间的表达能力有限，性能提升有限。这促使我们开发一种新颖的基于流的深度深层潜在变量模型（DLVM），即FFHFlow-lvm，它有利于更合理的潜在特征，从而对不可见的物体进行多样化和准确的掌握合成。与变分自动编码器 (VAE) 不同，所提出的 DLVM 通过利用两个 cNF 来处理先验分布和似然分布（通常仅限于各向同性高斯分布），从而消除了典型的陷阱，例如模式崩溃和错误指定的先验。模拟和真实机器人场景中的综合实验表明，我们的方法比 VAE 基线产生更准确和多样化的抓取。此外，还进行了运行时比较，以揭示其实时应用的巨大潜力。

MaxMI：操纵概念发现的最大互信息准则

分类： 机器人技术, 人工智能

作者： Pei Zhou, Yanchao Yang

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15086v1

摘要： 我们的目标是发现嵌入在未注释演示中的操纵概念，这些概念被认为是关键的物理状态。发现的概念可以促进训练操纵策略并促进泛化。由于多模态机器人数据有限，当前依赖多模态基础模型来导出关键状态的方法通常缺乏准确性和语义一致性。相反，我们引入信息论标准来表征表示一组物理状态的规律性。我们还开发了一个框架，使用该标准训练概念发现网络，从而绕过对人类语义的依赖并减轻昂贵的人类标签。所提出的标准基于这样的观察：值得概念化的关键状态通常比非关键状态接受更多的物理约束。这种现象可以形式化为最大化假定关键状态与其先前状态之间的互信息，即最大互信息（MaxMI）。通过采用MaxMI，经过训练的关键状态定位网络可以准确识别具有足够物理意义的状态，与人类感知表现出合理的语义兼容性。此外，与基线相比，所提出的框架产生了关键状态，这些状态导致概念引导的操纵策略在各种机器人任务中具有更高的成功率和更好的泛化性，从而验证了所提出标准的有效性。

GET-Zero：用于零样本实施例泛化的图形实施例变压器

分类： 机器人技术, I.2.9

作者： Austin Patel, Shuran Song

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.15002v1

摘要： 本文介绍了 GET-Zero，这是一种模型架构和训练过程，用于学习实施例感知控制策略，该策略可以立即适应新的硬件变化而无需重新训练。为此，我们提出了图体现变压器（GET），这是一种变压器模型，它利用体现图连接性作为注意力机制中学习的结构偏差。我们使用行为克隆将演示数据从特定实施例的专家策略中提取到可感知实施例的 GET 模型中，该模型以机器人的硬件配置为条件来做出控制决策。我们使用四指机器人手的不同配置（去除关节并延长连杆长度）对灵巧的手持物体旋转任务进行案例研究。使用 GET 模型和自建模损失使 GET-Zero 能够零样本泛化到图结构和链接长度中看不见的变化，比基线方法提高了 20%。所有代码和定性视频结果均位于 https://get-zero-paper.github.io

从地下矿井到办公室：范围惯性 SLAM 的多功能且强大的框架

分类： 机器人技术

作者： Lorenzo Montano-Oliván, Julio A. Placed, Luis Montano, María T. Lázaro

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14797v1

摘要： 同步定位和建图 (SLAM) 是自主机器人应用和自动驾驶车辆的重要组成部分，使它们能够理解并在其环境中操作。过去十年中提出了许多 SLAM 系统，但它们通常很复杂，无法适应不同的设置或传感器设置。在这项工作中，我们提出了 LiDAR Graph-SLAM (LG-SLAM)，这是一种多功能范围惯性 SLAM 框架，可以适应不同类型的传感器和环境，从地下矿井到办公室，只需最少的参数调整。我们的系统将距离、惯性和 GNSS 测量集成到基于图形的优化框架中。我们还使用精细的子图管理方法和鲁棒的闭环方法，有效地解决了假定闭环的识别和验证中的不确定性，确保全局一致性和鲁棒性。通过并行架构和 GPU 集成，我们的系统实现了 LiDAR 帧速率的姿态估计，以及在线闭环和图形优化。我们使用公共数据集和真实世界数据在不同的环境中验证我们的系统，始终实现低于 20 厘米的平均误差，并优于其他最先进的算法。

VisFly：用于训练视觉飞行的高效多功能模拟器

分类： 机器人技术

作者： Fanxing Li, Fangyu Sun, Danping Zou

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14783v1

摘要： 最先进的模拟器主要专注于提供全栈模拟工具或仅状态并行性。由于计算资源的限制，他们必须在照片真实感和采样效率之间进行权衡。然而，这两个因素对于数据驱动的强化学习任务都至关重要。因此，我们推出了一款快速渲染且逼真的四旋翼模拟器：VisFly。 VisFly提供了一个用户友好的框架和界面供用户开发或使用。它将可微动态和栖息地模拟渲染引擎结合在一起，在杂乱的环境中达到每秒 10000 帧的帧速率。该模拟被包装为健身房环境，有助于方便地实现各种基线学习算法。它可以直接导入与habitat-sim兼容的所有开源场景数据集，为智能策略的比较提供更公平的基准。 VisFly提出了一个通用的任务策略架构，整个框架通过三个常规四旋翼任务的视觉观察进行了验证。我们将在 \url{https://github.com/SJTU-ViSYS/VisFly} 提供此工具。

CrowdMAC：屏蔽人群密度完成，实现稳健的人群密度预测

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Ryo Fujii, Ryo Hachiuma, Hideo Saito

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14725v1

摘要： 人群密度预测任务旨在根据观察到的过去的人群密度图来预测未来人群密度图将如何变化。然而，由于行人的漏检，过去的人群密度图往往是不完整的，因此开发一个鲁棒的人群密度预测模型来对抗漏检至关重要。本文提出了一种用于人群密度预测的 MAsked 人群密度完成框架 (CrowdMAC)，该框架同时经过训练，可以根据部分屏蔽的过去人群密度图（即，根据漏检的过去地图预测未来人群密度图），同时重建人群密度图。屏蔽观察图（即通过漏检来估算过去的地图）。此外，我们提出了时间密度感知掩蔽（TDM），考虑到人群密度图的稀疏性和预测任务后续帧的信息量，它非均匀地掩蔽观察到的人群密度图中的标记。此外，我们引入多任务屏蔽来提高训练效率。在实验中，CrowdMAC 在七个大型数据集上实现了最先进的性能，包括 SDD、ETH-UCY、inD、JRDB、VSCrowd、FDST 和 croHD。我们还证明了所提出的方法针对合成和实际误检的鲁棒性。

Adapt2Reward：通过失败提示使视频语言模型适应通用机器人奖励

分类： 计算机视觉和模式识别, 机器人技术

作者： Yanting Yang, Minghao Chen, Qibo Qiu, Jiahao Wu, Wenxiao Wang, Binbin Lin, Ziyu Guan, Xiaofei He

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14872v1

摘要： 对于通用机器人来说，要在现实中运行，必须在各种环境中执行广泛的指令。此类机器人代理的强化学习和规划的核心是可推广的奖励函数。视觉语言模型（例如 CLIP）的最新进展在深度学习领域表现出了卓越的性能，为开放域视觉识别铺平了道路。然而，收集跨多个环境执行各种语言指令的机器人的数据仍然是一个挑战。本文旨在将具有鲁棒泛化能力的视频语言模型转换为可泛化的语言条件奖励函数，仅利用来自单一环境中最少数量任务的机器人视频数据。与用于训练奖励函数的常见机器人数据集不同，人类视频语言数据集很少包含琐碎的失败视频。为了增强模型区分成功和失败的机器人执行的能力，我们对失败视频特征进行聚类，以使模型能够识别其中的模式。对于每个集群，我们将新训练的故障提示集成到文本编码器中以表示相应的故障模式。我们的语言条件奖励函数显示出对机器人规划和强化学习的新环境和新指令的出色泛化能力。

腿式机器人动态操纵的自适应频率模型学习和预测控制

分类： 机器人技术

作者： Chuong Nguyen, Abdullah Altawaitan, Thai Duong, Nikolay Atanasov, Quan Nguyen

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14749v1

摘要： 对于腿式机器人来说，在长飞行阶段（例如跳高或跳远）的动态机动中实现目标准确性和稳健性一直是一项重大挑战。为了应对这一挑战，我们提出了一种新颖的基于学习的控制方法，包括利用自适应频率方案的模型学习和模型预测控制（MPC）。与现有的 MPC 技术相比，我们直接从实验中学习模型，不仅考虑了腿部动力学，还考虑了硬件和接触过程中的建模错误和未知动力学失配。此外，学习具有自适应频率的模型使我们能够覆盖整个飞行阶段和最终的跳跃目标，从而提高跳跃轨迹的预测精度。利用学习到的模型，我们还设计了自适应频率 MPC，以有效利用不同的跳跃阶段并准确跟踪目标。在 Unitree A1 机器人的硬件实验中，我们证明了我们的方法优于使用标称模型的基线 MPC，将跳跃距离误差减少了 8 倍。在不平坦的地形上连续跳跃时，我们实现了小于 3% 的跳跃距离误差，并随机放置随机高度的扰动（最高 4 厘米或机器人站立高度的 27%）。我们的方法在具有不同跳跃目标和模型不确定性的 34 次单次和连续跳跃中获得了 1-2 厘米的距离误差。

手套箱环境下协作装配的人机协作数据集的收集

分类： 计算机视觉和模式识别

作者： Shivansh Sharma, Mathew Huang, Sanat Nair, Alan Wen, Christina Petlowany, Juston Moore, Selma Wanna, Mitch Pryor

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14649v1

摘要： 工业 4.0 引入人工智能作为现代化制造流程的变革性解决方案。它的继任者工业 5.0 将人类视为协作者和专家，指导这些人工智能驱动的制造解决方案。开发这些技术需要算法能够在协作组装过程中安全、实时地识别场景中的人体位置，特别是他们的手。尽管已经做出了大量努力来整理用于手部分割的数据集，但大多数都集中在住宅或商业领域。针对工业环境的现有数据集主要依赖于合成数据，我们证明这些数据不能有效地转移到现实世界的操作中。此外，这些数据集缺乏对安全协作至关重要的不确定性估计。为了解决这些差距，我们提出了 HAGS：手和手套分割数据集。该数据集提供了 1200 个具有挑战性的示例，用于构建工业人机协作场景中手部和手套分割的应用程序，并评估通过绿屏增强构建的分布外图像，以确定 ML 分类器的稳健性。我们研究最先进的实时分割模型来评估现有方法。我们的数据集和基线是公开的：https://dataverse.tdl.org/dataset.xhtml?persistentId=doi:10.18738/T8/85R7KQ 和 https://github.com/UTNuclearRoboticsPublic/ assembly_glovebox_dataset。

室内机器人WiFi-视觉定位的双层软数据融合

分类： 机器人技术

作者： Yuehua Ding, Jean-Francois Dollinger, Vincent Vauchey, Mourad Zghal

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14643v1

摘要： 本文提出了一种新颖的用于室内机器人（TIAGO++）定位的WiFi-视觉数据融合方法。该方法可以使用 10 个 WiFi 样本和 4 个低分辨率图像（像素为 $58 × 58$）来定位室内机器人，平均误差距离约为 1.32 米。实验测试是在一般教学楼采集数据后3个月进行的，教学楼的WiFi和视觉环境进行了部分改变。这间接表明了所提出方法的鲁棒性。本文重点关注软数据融合，而不是神经网络设计，以防止视觉定位中的无限错误。提出了双层软数据融合。所提出的软数据融合包括第一层WiFi-Visual特征融合和第二层决策向量融合。首先，利用神经网络在图像处理和识别方面的优异能力，从WiFi数据中提取时空特征，并将这些特征以图像形式表示。其次，将图像形式的 WiFi 时空特征和机器人摄像头拍摄的视觉特征组合在一起，并由分类神经网络联合利用，生成用于 WiFi-视觉定位的似然向量。这称为第一层 WiFi-视觉融合。类似地，神经网络可以分别利用这两种类型的特征来产生另外两个独立的似然向量。第三，通过哈达玛积和中值滤波融合三个似然向量，以产生用于定位的最终似然向量。这称为第二层决策向量融合。所提出的软数据融合在融合过程中不应用任何阈值或优先考虑任何数据源。它从不排除低概率的位置，这可以避免由于艰难决策而导致的信息丢失。提供演示视频。代码将被公开。

受生物力学启发的人形机器人踢足球方法

分类： 机器人技术

作者： Daniel Marew, Nisal Perera, Shangqun Yu, Sarah Roelker, Donghyun Kim

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14612v1

摘要： 踢足球是一项复杂的全身运动，需要各种运动动作的复杂协调。为了在人形机器人中完成这种动态运动，机器人需要同时：1）将高动能传递到踢腿，2）保持整个身体的平衡和稳定，3）管理踢球过程中来自球的冲击干扰。踢球的时刻。先前对机器人足球踢球的研究通常优先考虑稳定性，导致过于保守的准静态运动。在这项工作中，我们提出了一种受生物力学启发的控制框架，该框架利用轨迹优化和模仿学习来促进人形机器人的高动态足球踢。我们对人类足球踢生物力学进行了深入分析，以确定关键的运动限制。基于这种理解，我们设计了运动动力学上可行的轨迹，然后将其用作模仿学习的参考，以制定稳健的反馈控制策略。我们通过模拟一个名为 PresToe 的拟人 25 DoF 双足人形机器人来证明我们方法的有效性，该机器人配备 7 个 DoF 腿，包括一个独特的驱动脚趾。使用我们的框架，PresToe 可以执行动态脚背踢，在全动态模拟中以超过 11m/s 的速度推动球。

非结构化环境中自主机器人的基础模型

分类： 机器人技术, 计算和语言

作者： Hossein Naderi, Alireza Shojaei

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14296v1

摘要： 在建筑工地等非结构化环境中通过机器人实现自动化活动是人们长期以来的愿望。然而，与制造业等更加结构化的环境相比，这些环境中的高度不可预测的事件导致采用率要低得多，在制造业中，机器人可以在狭义定义的数据集上进行硬编码或训练。最近，预训练的基础模型，例如大型语言模型（LLM），通过为训练数据中不存在的问题提供零样本解决方案，展示了卓越的泛化能力，建议将它们作为将机器人引入非结构化环境的潜在解决方案。为此，本研究从多维度角度探讨了预训练基础模型的潜在机遇和挑战。该研究系统地回顾了基础模型在机器人和非结构化环境两个领域的应用，然后将它们与慎思行动理论进行了综合。研究结果表明，大语言模型的语言能力比其他功能更多地用于改善人机交互的感知。另一方面，研究结果表明，大语言模型的使用在项目管理和施工安全以及灾害管理中的自然灾害检测方面展示了更多的应用。综合这些发现，我们将该领域当前的最先进水平定位在自动化的五个级别上，将它们置于有条件的自动化。然后，该评估用于设想未来的场景、挑战和针对自主安全非结构化环境的解决方案。我们的研究可以被视为追踪我们迈向未来进展的基准。

可穿戴辅助机器人运动的神经肌肉建模——入门

分类： 机器人技术

作者： Mohamed Irfan Refai, Huawei Wang, Antonio Gogeascoechea, Rafael Ornelas Kobayashi, Lucas A. Gaudio, Federica Damonte, Guillaume Durandau, Herman van der Kooij, Utku S. Yavuz, Massimo Sartori

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14289v1

摘要： 用于下肢的可穿戴辅助机器人（WR）在文献中有大量记载。已设计了各种接口来在步态和平衡活动期间控制这些设备。然而，实现无缝和直观的控制需要对人类神经肌肉骨骼（NMSK）系统进行精确建模。这种建模使 WR 能够预测用户意图并确定必要的联合援助。尽管存在与 NMSK 系统接口的控制器，但跨不同任务的稳健且可通用的技术仍然很少。设计这些新颖的控制器需要结合神经生理学家和生物机电工程师的专业知识，神经生理学家了解运动发起和产生的生理学，生物机电工程师设计和控制辅助运动的设备。本文旨在通过介绍每个领域的关键概念和科学现状来弥合这些领域之间的差距。我们介绍三个主要部分：运动的神经力学、运动的神经力学模型以及 WR 中使用的现有神经力学控制器。通过这些部分，我们全面概述了该领域的开创性研究，促进神经生理学家和生物机电工程师之间的合作，以推动可穿戴运动机器人技术的未来发展。

动态环境中移动机器人的最优线性反馈随机模型预测控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Yunfan Gao, Florian Messerer, Niels van Duijkeren, Moritz Diehl

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14220v1

摘要： 由于人类的运动很难预测，机器人在人类周围的导航可能是一个具有挑战性的问题。随机模型预测控制（MPC）可以解释这种不确定性并近似限制碰撞发生的概率。在本文中，为了抵消随着时间的推移而快速增长的人体运动不确定性，我们将状态反馈纳入随机 MPC 中。这使得机器人能够更紧密地跟踪参考轨迹。为此，反馈策略被保留为最优控制问题的自由度。带反馈的随机 MPC 在仿真实验中得到验证，并与标称 MPC 和不带反馈的随机 MPC 进行比较。可以通过减少反馈律的附加变量的数量来限制增加的计算时间，同时在控制性能上做出一些妥协。

使用有效的成本效用方法进行多机器人迷宫探索

分类： 多代理系统

作者： Manousos Linardakis, Iraklis Varlamis, Georgios Th. Papadopoulos

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14218v1

摘要： 在现代机器人领域，事实证明，机器人在应对高风险情况方面非常有用，例如在燃烧的建筑物、地震灾区等危险环境中航行，或在犯罪猖獗的街道上巡逻，以及探索未知的洞穴。这些场景在复杂性方面与迷宫探索问题有相似之处。虽然已经为单智能体系统提出了几种方法，从潜在场到洪水填充方法，但最近的研究工作集中在创建适合多智能体的方法，以提高迷宫覆盖的质量和效率。本文的贡献是实施已建立的迷宫探索方法，并将其与为多个智能体设计的新成本效用算法进行比较，该算法结合了现有的方法来优化探索结果。通过全面的比较分析，本文根据文献中已实施的基线方法评估了新方法的性能，突出了其在各种场景下的有效性和潜在优势。支持这项研究的代码和实验结果可在以下存储库中找到（https://github.com/manouslinard/multiagent-exploration/）。

MSSP：基于激光雷达-惯性融合的多功能多场景自适应智能机器人仿真平台

分类： 机器人技术

作者： Qiyan Li, Chang Wu, Yifei Yuan, Yuan You

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14102v1

摘要： 本函介绍了一个基于激光雷达-惯性融合的多场景自适应智能机器人仿真平台，具有三个主要特点：（1）该平台包括一个多功能机器人模型，可以通过手动控制或自主跟踪来自由控制。该模型配备了各种类型的激光雷达和惯性测量单元（IMU），提供绝对准确的地面实况信息（2 平台提供具有多样化特征信息的模拟环境集合，并支持开发人员根据需要定制和修改环境。（3）平台支持对 SLAM 框架的定位性能进行绝对精度的评估，消除了真实实验中存在的全球定位传感器的固有误差，便于对算法进行详细分析和评估。通过利用仿真平台，开发人员可以克服真实的限制。环境和数据集，实现各种环境下主流SLAM算法的细粒度分析和评估。在不同环境和不同激光雷达上进行的实验证明了我们的仿真平台的广泛适用性和实用性。仿真平台的实现在Github上开源。

利用受栉水母启发的软机器人平台编码人工纤毛的时空不对称性

分类： 生物物理学

作者： David J. Peterman, Margaret L. Byron

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13894v1

摘要： 许多生物体利用异时协调（即，许多相邻的附肢以固定的相位滞后顺序跳动）来游泳或泵送液体。微生物利用这种协调策略来打破小尺度的对称性，其中粘性效应占主导地位并且流动是时间可逆的。一些较大的生物体在中等尺度上使用这种游泳策略，其中粘度和惯性都发挥着重要作用。然而，尽管推进器运动的细节对于有效产生流动至关重要，但单个推进器运动学的作用 - 特别是在流体动力学尺度上 - 的作用尚不清楚。为了研究这种行为，我们开发了一种新的软机器人平台，使用磁活性有机硅弹性体来模拟游泳生物体中发现的异时协调推进器。此外，我们提出了一种在人工推进器中被动编码空间不对称跳动模式的方法。我们使用粒子图像测速和高速摄像研究了具有不同程度不对称性的三种推进器类型的运动学和流体动力学。我们发现，在相同频率和相位滞后下，相对于对称跳动，不对称跳动模式可以移动更多的流体，并且不对称性可以通过弹性扭矩和磁扭矩之间的相互作用被动地编码到推进器中。我们的结果表明，推进器运动学的细微差别会极大地影响流体泵送性能。我们的软机器人平台还提供了探索中观尺度异时协调的途径，这反过来又可以为未来仿生泵装置和游泳机器人的设计提供信息。

机器人也可以执行多任务：集成内存架构和 LLM 以增强跨任务机器人动作生成

分类： 机器人技术, 人工智能

作者： Hassan Ali, Philipp Allgeuer, Carlo Mazzola, Giulia Belgiovine, Burak Can Kaplan, Stefan Wermter

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13505v1

摘要： 最近，大型语言模型 (LLM) 已被用于机器人应用，以将 LLM 常识推理与机器人的感知和身体能力结合起来。在人形机器人中，记忆在培养现实世界的体现和促进长期交互能力方面也发挥着关键作用，特别是在多任务设置中，机器人必须记住以前的任务状态、环境状态和执行的动作。在本文中，我们解决了将内存进程与 LLM 相结合的问题，以生成跨任务机器人动作，同时机器人在任务之间有效切换。我们提出的双层架构具有两个大语言模型，利用他们的推理和遵循指令的互补技能，并结合受人类认知启发的记忆模型。我们的结果显示，与五个机器人任务的基线相比，性能有了显着提高，证明了将内存与 LLM 相集成，将机器人的动作和感知相结合以实现自适应任务执行的潜力。

在单一铸造步骤中集成设计和制造气动软体机器人执行器

分类： 机器人技术

作者： Afonso Silva, Diogo Fonseca, Diogo M. Neto, Mihail Babcinschi, Pedro Neto

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13346v1

摘要： 仿生软机器人已经表现出处理不确定性和适应非结构化环境的能力。然而，它们的可用性部分受到耗时、昂贵且高度监督的设计制造流程的限制，这些流程通常基于资源密集型迭代工作流程。在这里，我们提出了一种针对在单个铸造步骤中设计和制造气动软执行器的集成方法。使用熔丝制造 (FFF) 打印模具和牺牲水溶性空心。热水回路加速了核心材料的溶解，并保证其从执行器壁上完全去除，同时执行器的机械可操作性通过有限元分析（FEA）来定义。这使得能够在最少的监督下制造具有不均匀横截面的执行器，从而减少设计和制造过程中所需的迭代次数。设计、制造、集成和演示了三个能够弯曲和线性运动的执行器，作为三个不同的仿生软机器人、一个蚯蚓机器人、一个四足机器人和一个机器人抓手。我们展示了所提出方法的可用性、多功能性和有效性，有助于加速软机器人的设计和制造。这项研究代表着朝着以更低的成本提高人们使用软机器人的方向迈出了一步。

探索机器人轨迹规划——动态环境中算法和软件实现的比较分析

分类： 机器人技术, 软件工程, 系统与控制, 系统与控制

作者： Arunabh Bora

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13330v1

摘要： 轨迹规划是现代先进机器人技术中的一个关键词。这是一种为机器人随时间推移生成平滑可行路径的方法。该过程主要需要几个因素来生成路径，例如速度、加速度和加加速度。该过程涉及机器人如何在合适的环境中遵循所需的运动路径。这种轨迹规划广泛应用于汽车工业机器人、机械手和移动机器人。轨迹规划是运动控制系统的基本组成部分。执行拾取和放置操作、装配、焊接、喷漆、路径跟踪和避障等任务。本文介绍了轨迹规划算法及其关键软件元素在复杂动态环境下工作策略的比较分析。适应性和实时分析是轨迹规划中最常见的问题。本文主要侧重于更好地了解这些不可预测的环境。

农业机器人水果形状完成的数据集和基准

分类： 计算机视觉和模式识别, 机器人技术

作者： Federico Magistri, Thomas Läbe, Elias Marks, Sumanth Nagulavancha, Yue Pan, Claus Smitt, Lasse Klingbeil, Michael Halstead, Heiner Kuhlmann, Chris McCool, Jens Behley, Cyrill Stachniss

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13304v1

摘要： 到2050年，人口预计将达到100亿，尽管农业部门劳动力减少，但我们的农业生产体系仍需要将其生产力提高一倍。自主机器人系统是通过接管水果采摘等劳动密集型手动任务来提高生产率的一种有前景的途径。为了发挥作用，此类系统需要精确监控植物和水果并与之交互，但由于农业环境的杂乱性质会导致例如强烈的遮挡，因此这一点具有挑战性。因此，能够在存在遮挡的情况下估计物体的完整 3D 形状对于水果收获等自动化操作至关重要。在本文中，我们提出了第一个用于农业视觉系统的公开可用的 3D 形状完成数据集。我们提供了用于估计水果 3D 形状的 RGB-D 数据集。具体来说，我们的数据集包含实验室条件下以及商业温室中单个甜椒的 RGB-D 帧。对于每种水果，我们还收集了高精度点云，并将其用作地面实况。为了获取地面真实形状，我们开发了一种测量过程，使我们能够在实验室和温室中高精度记录真实甜椒植物的数据，并确定感测到的果实的形状。我们发布了我们的数据集，其中包含属于 100 多种不同水果的近 7000 个 RGB-D 帧。我们提供分段的RGB-D帧，通过相机本征轻松获得彩色点云，以及通过高精度激光扫描仪获得的相应高精度、无遮挡点云。我们还通过基准服务器上的公开挑战来评估隐藏测试集上的形状完成方法。

OVGNet：开放词汇机器人抓取的统一视觉语言框架

分类： 机器人技术

作者： Li Meng, Zhao Qi, Lyu Shuchang, Wang Chunlei, Ma Yujing, Cheng Guangliang, Yang Chenguang

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13175v1

摘要： 在现实世界的机器人应用中，识别和抓取新类别的物体仍然是一个至关重要但具有挑战性的问题。尽管其意义重大，但在这一特定领域进行的研究仍然有限。为了解决这个问题，我们无缝地提出了一个新颖的框架，将开放词汇学习集成到机器人抓取领域，使机器人能够熟练地处理新物体。我们的贡献是三重的。首先，我们提出了一个专门用于评估开放词汇抓取任务性能的大型基准数据集。其次，我们提出了一个统一的视觉语言框架，作为机器人成功抓取基础和新物体的指南。第三，我们引入了两个对齐模块，旨在增强机器人抓取过程中的视觉语言感知。大量的实验验证了我们方法的有效性和实用性。值得注意的是，我们的框架在新数据集中的基本类别和新类别上分别实现了 71.2% 和 64.4% 的平均准确率。

用于机器人导管插入术的主从远程操作系统：设计、表征和跟踪控制

分类： 机器人技术, 计算机视觉和模式识别, 系统与控制, 系统与控制

作者： Ali A. Nazari, Jeremy Catania, Soroush Sadeghian, Amir Jalali, Houman Masnavi, Farrokh Janabi-Sharifi, Kourosh Zareinia

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13162v1

摘要： 在过去的二十年里，微创机器人手术引起了广泛的关注。远程机器人系统与机器人介导的微创技术相结合，使外科医生和临床医生能够减轻医务人员的辐射暴露，并将医疗服务扩展到偏远和难以到达的地区。为了增强这些服务，包含主设备和从设备的遥控机器人手术系统应该提供透明度，使外科医生和临床医生能够远程体验类似于从设备与患者身体所经历的力相互作用。本文介绍了用于机器人导管插入术的三自由度主从遥控操作系统的设计和开发。为了类似于临床医生的手动干预，随动装置具有抓握-插入-释放机制，以消除操作过程中的导管弯曲和扭转。双向导航消融导管具有静态特性，适用于力交互式医疗干预。该系统的性能是通过典型的圆形、无穷大和螺旋路径上的逼近和开环路径跟踪来评估的。路径跟踪误差以平均欧几里德误差（MEE）和平均绝对误差（MAE）表示。 MEE 范围从 0.64 厘米（无限远路径）到 1.53 厘米（螺旋路径）。 MAE 的范围也从 0.81 厘米（无穷大路径）到 1.92 厘米（螺旋路径）。结果表明，虽然采用开环控制器的系统精度和准确度满足设计目标，但需要闭环控制器来解决导管的滞后和死区以及系统非线性问题。

性健康中的社交辅助机器人：促进坦诚、学习和积极态度的团体和个人学生机器人互动活动

分类： 机器人技术, 计算机与社会

作者： Anna-Maria Velentza, Efthymia Kefalouka, Nikolaos Fachantidis

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.13030v1

摘要： 全面的性教育（SE）对于促进学生的性健康和负责任的行为至关重要，特别是在小学。尽管其意义重大，但由于学生的态度、害羞和情感障碍，SE 教学可能具有挑战性。研究表明，社交辅助机器人 (SAR) 有时被认为比人类更值得信赖，因为它们不会做出评判。受这些证据的启发，本研究旨在评估 SAR 作为小学生 SE 课程促进者的成功程度。本研究进行了两项实验来评估 SAR 在促进小学生 SE 教育方面的有效性。我们进行了两项实验，a）在学校教室进行小组活动，Nao 机器人进行 SE 讲座，我们评估学生从讲座中获得了多少信息，b）个人活动，学生与学生进行 1:1 互动我们评估了他们对 SE 主题的态度，以及他们是否愿意向机器人询问 SE 相关问题。从调查前和调查后收集的数据以及视频注释显示，SAR 显着改善了学生对 SE 的态度。此外，与人类老师相比，学生更愿意向机器人询问与 SE 相关的问题。该研究强调了具体的 SAR 特征，例如体现和非评判行为，作为促进其有效支持 SE 教育的关键因素，为学校性教育的创新和有效方法铺平了道路。

手术机器人 Transformer (SRT)：手术任务的模仿学习

分类： 机器人技术

作者： Ji Woong Kim, Tony Z. Zhao, Samuel Schmidgall, Anton Deguet, Marin Kobilarov, Chelsea Finn, Axel Krieger

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12998v1

摘要： 我们探索达芬奇机器人是否可以通过模仿学习来学习外科手术操作任务。然而，达芬奇系统提出了独特的挑战，阻碍了模仿学习的直接实施。值得注意的是，由于联合测量不精确，其正向运动学不一致，并且使用这种近似运动学数据天真地训练策略通常会导致任务失败。为了克服这一限制，我们引入了一种相对动作公式，可以使用其近似运动学数据来成功进行策略训练和部署。这种方法的一个有希望的结果是，包含近似运动学的大型临床数据存储库可以直接用于机器人学习，而无需进一步校正。我们通过成功执行三项基本手术任务（包括组织操作、针处理和打结）来展示我们的发现。

使用逆强化学习和 TD-MPC 进行机械臂操控

分类： 机器人技术, I.2.9

作者： Md Shoyib Hassan, Sabir Md Sanaullah

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12941v1

摘要： 一个未解决的问题是如何将基于模型的逆强化学习（IRL）扩展到具有不可预测动态的实际机器人操作任务。从视觉和本体感受示例中学习的能力、创建可扩展到高维状态空间的算法以及掌握强动态模型的能力是主要障碍。在这项工作中，我们提供了一个基于梯度的逆强化学习框架，该框架纯粹从视觉人类演示中学习成本函数。然后使用 TD 视觉模型预测控制 (MPC) 和学习的成本函数来优化显示的行为和轨迹。我们使用硬件上的基本对象操作任务来测试我们的系统。

通过准入控制使用自适应 RCM 进行机器人辅助 MIS 中的远程操作

分类： 机器人技术

作者： Ehsan Nasiri, Srikarran Sowrirajan, Long Wang

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12711v1

摘要： 本文介绍了机器人辅助微创手术（MIS）远程操作框架的开发和评估。该框架利用了我们使用导纳控制的自适应远程运动中心 (RCM) 的新颖集成。该框架在专门为 RCM 约束设计的冗余解析方法中运行。我们推出了一种紧凑、低成本、模块化定制设计的仪器模块 (IM)，可确保与机械手集成，具有力-扭矩传感器、手术器械和用于驱动手术器械的致动单元。本文详细介绍了完整的遥操作框架，包括遥操作轨迹映射、运动学建模、控制策略和集成导纳控制器。最后，演示了系统执行各种手术任务的能力，包括将线穿过环、拾取和放置物体以及轨迹跟踪。

离合弹性机器人的最优控制：一种隐式接触方法

分类： 机器人技术, 系统与控制, 系统与控制, 49N90, I.2.9

作者： Dennis Ossadnik, Vasilije Rakčević, Mehmet C. Yildirim, Edmundo Pozo Fortunić, Hugo T. M. Kussaba, Abdalla Swikir, Sami Haddadin

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12655v1

摘要： 本质弹性机器人在一系列不同的特性上都超越了刚性机器人。通过暂时存储势能并随后将其转换为动能，弹性机器人即使在电机功率有限的情况下也能够进行高度动态的运动。然而，这种能量存储和释放机制的时间依赖性仍然是控制弹性机器人的主要挑战之一。一种可能的补救措施是在传动系统中引入锁定元件（即离合器和制动器）。这就催生了一种新型机器人，即所谓的离合弹性机器人（CER），它可以精确控制能量传输时间。 CER 领域的一个普遍挑战是自动发现离合器序列。由于复杂性，许多方法仍然依赖于预定义的模式。在本文中，我们介绍了一种新颖的接触隐式方案，旨在同时优化控制输入和离合器序列。目标函数中的惩罚确保防止不必要的离合器转换。我们凭经验证明了我们提出的方法在配备了两个我们新提出的基于离合器的双刚度执行器（BSA）的双摆上的有效性。

使用 Wi-Fi 传感和移动伴侣机器人进行协作跌倒检测和响应

分类： 机器人技术, 信号处理

作者： Yunwang Chen, Yaozhong Kang, Ziqi Zhao, Yue Hong, Lingxiao Meng, Max Q. -H. Meng

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12537v1

摘要： 本文提出了一种将 Wi-Fi 传感与机器人辅助相结合的协作跌倒检测和响应系统。所提出的系统利用运动引起的通道状态信息（CSI）中断来检测非视距（NLOS）场景中的跌倒，从而提供非侵入式监控。此外，利用陪伴机器人提供自主导航和事件响应的辅助能力，提高在各种环境下提供援助的效率。实验结果证明了该系统在检测跌倒和有效响应方面的有效性。

使用深度 MPC 的高自由度机器人操纵器自适应鲁棒运动规划

分类： 机器人技术

作者： Ye Zhang, Kangtong Mo, Fangzhou Shen, Xuanzhen Xu, Xingyu Zhang, Jiayue Yu, Chang Yu

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12887v1

摘要： 在当代控制理论中，自适应方法因其在管理建模不确定性方面固有的灵活性和鲁棒性而受到高度重视。特别是，鲁棒自适应控制因其利用鲁棒优化算法来近似成本函数并放松通常与传统自适应控制范例相关的严格约束的强大能力而脱颖而出。深度学习方法以其广泛的分层架构为特征，提供了显着增强的近似能力。尽管如此，深度学习的实施仍然充满挑战，尤其是训练过程中遇到的梯度消失和爆炸现象。本文介绍了一种集成深度 MPC 的自适应控制方案，该方案由创新的权重更新律控制，旨在通过专门使用梯度符号来缓解梯度消失和爆炸的困境。所提供的控制器是一种自适应动态反演机制，在辅助估计电路中集成了增强状态观测器以增强训练阶段。这种方法使深度 MPC 能够实时学习整个被控对象模型，并且通过涉及高自由度机器人操纵器的仿真证明了控制器的有效性，其中控制器能够快速熟练地学习非线性被控对象动力学，并在运动规划任务。

面向软机器人交互的可解释的视觉触觉预测模型

分类： 机器人技术, 人工智能

作者： Enrico Donato, Thomas George Thuruthel, Egidio Falotico

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12197v1

摘要： 自治系统面临着在不可预测的环境中导航以及与外部对象交互的复杂挑战。机器人代理能否成功融入现实世界取决于它们的感知能力，其中涉及融合世界模型和预测技能。有效的感知模型建立在各种感官模式的融合之上，以探测周围环境。应用于原始感官模式的深度学习提供了一个可行的选择。然而，基于学习的感知表征变得难以解释。这一挑战在软机器人中尤其明显，其中结构和材料的合规性使得预测变得更加困难。我们的工作通过利用生成模型为软机器人构建多模态感知模型，并利用本体感受和视觉信息来预测和解释与外部物体的接触交互，从而解决了这种复杂性。提供了一套解释感知模型的工具，揭示了学习阶段后跨多个感官输入的融合和预测过程。我们将深入研究感知模型的前景及其对控制目的的影响。

抽象为扭矩驱动弹簧加载倒立摆 (TD-SLIP) 的运行机器人的优化设计和控制

分类： 机器人技术

作者： Reed Truax, Feng Liu, Souma Chowdhury, Ryan St. Pierre

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12120v1

摘要： 腿式运动显示出在复杂、非结构化环境中跑步的前景。设计这种腿式机器人需要考虑异构、多域约束和变量，从机械硬件和几何形状选择到控制器配置文件。然而，很少有正式或系统的（而不是临时的）设计公式和框架来确定可行且稳健的运行平台，特别是在小规模（低于 500 g）的情况下。这里通过扭矩驱动弹簧加载倒立摆（TD-SLIP）模型抽象腿式机器人的运动，并导出在系统存在的情况下导致稳定循环向前运动的约束，从而解决了跑步腿式机器人设计中的这一关键差距。噪音。在候选设计评估中将合成噪声添加到初始状态，以模拟开环控制中的累积误差。设计空间是根据形态参数定义的，例如腿特性和系统质量、执行器选择和开环电压分布。这些属性使用著名的粒子群优化求解器进行了优化，该求解器可以处理混合离散变量。两个单独的案例研究分别最小化了跨步之间的着陆角度和驱动能量的差异。这两种情况都导致了腿式机器人设计具有相对可重复和稳定的动力学，同时呈现出不同的几何形状和控制器配置文件选择。

使用 iCub 机器人的自我中心数据学习人类伙伴的辅助工具可供性

分类： 机器人技术, 机器学习

作者： Bosong Ding, Erhan Oztop, Giacomo Spigler, Murat Kirtay

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11922v1

摘要： 对象，特别是工具，为可以对其进行操作的代理提供了多种操作可能性，这通常与可供性术语相关。工具通常是为特定目的而设计的，例如用锤子钉钉子，我们称之为主要可供性。工具也可以用于超出其主要目的的用途，在这种情况下，我们可以将这种辅助用途与术语“次要可供性”联系起来。以前关于可供性感知和学习的工作主要集中在主要可供性上。在这里，我们解决了一个较少被探索的问题，即学习人类伙伴的次要工具可供性。为此，我们使用 iCub 机器人通过三个摄像头观察人类伙伴，同时他们使用四种不同的工具对二十个物体执行操作。在我们的实验中，人类伙伴利用工具来执行与其主要可供性不相符的操作。例如，iCub 机器人观察人类伙伴使用尺子推、拉和移动物体，而不是测量物体的长度。在此设置中，我们通过在执行每个动作之前和之后拍摄对象的图像来构建数据集。然后，我们通过在三个任务上训练三个神经网络（ResNet-18、ResNet-50 和 ResNet-101）来对学习二次可供性进行建模，使用显示对象“初始”和“最终”位置的原始图像作为输入：（1 ）预测用于移动对象的工具，（2）通过对所执行的动作进行编码的附加分类输入来预测所使用的工具，以及（3）对所使用的工具和所执行的动作进行联合预测。我们的结果表明，深度学习架构使 iCub 机器人能够预测辅助工具可供性，从而为涉及复杂可供性的人机协作对象操作铺平了道路。

模仿人类运动，在主动说话者检测任务中实现人形机器人的自然头部运动

分类： 机器人技术, 人工智能, 人机交互, 机器学习

作者： Bosong Ding, Murat Kirtay, Giacomo Spigler

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11915v1

摘要： 头部运动对于社会人与人之间的互动至关重要。它们可以传递仅通过言语互动无法实现的重要线索（例如，共同注意力、说话者检测）。这一优势也适用于人机交互。尽管近年来通过生成式人工智能模型对人类运动进行建模已成为机器人学领域的一个活跃研究领域，但在人机交互中使用这些方法产生头部运动的研究仍然不足。在这项工作中，我们采用生成式人工智能管道为 Nao 人形机器人产生类似人类的头部运动。此外，我们还在群组对话设置中的实时活动发言者跟踪任务上测试了系统。总体而言，结果表明 Nao 机器人成功地以自然的方式模仿人类头部运动，同时在对话过程中主动跟踪说话者。本研究的代码和数据可在 https://github.com/dingdingding60/Humanoids2024HRI 获取

人类社交机器人交互中的触摸：使用 PRISMA 方法进行系统文献综述

分类： 机器人技术

作者： Christiana Tsirka, Anna-Maria Velentza, Nikolaos Fachantidis

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11834v1

摘要： 在过去的二十年中，履行社会角色的机器人的部署不断增加，并扩展到导游、服务提供商和教育工作者等各个行业。为了使机器人成为日常生活中不可或缺的盟友，它们必须通过跨不同模式和沟通渠道的无缝且令人满意的交互来提供积极和值得信赖的体验。在人机交互领域，触摸在促进有意义的联系和沟通方面发挥着关键作用。为了深入研究触觉技术的重要性及其对人类和社交机器人之间互动的影响，对现有文献的探索是必要的，因为关于触摸的研究在其他沟通渠道（面部表情、动作、声音等）中代表性最不足。）。我们进行了系统的文献综述，确定了 42 篇文章，其中涉及系统评价和荟萃分析的首选报告项目 (PRISMA)，涉及二十年来（2001 年 -2023 年）触摸和触觉技术以及人类与社交机器人之间的交互。结果显示了迄今为止主要使用的材料和技术之间的主要差异、优缺点、将 HRI 触摸研究与人类情感联系起来的定性和定量研究，以及这些方法的触摸类型和可重复性。该研究确定了研究差距并概述了未来的方向，同时为任何有兴趣进行 HRI 触摸研究或为社交机器人构建触觉系统的人提供了指南。

操纵你的机器人：增强现实领导者-跟随者远程操作

分类： 机器人技术

作者： Jonne van Haastregt, Michael C. Welle, Yuchong Zhang, Danica Kragic

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11741v1

摘要： 在学习复杂且具有挑战性的操作任务时，高质量的演示是必要的。在这项工作中，我们介绍了一种通过在增强现实环境中控制虚拟机器人来操纵机器人的方法。我们的系统允许保留物理领导者-跟随者方面的直观优势，同时避免不必要地使用昂贵的物理设置。此外，使用增强现实技术还可以为用户提供附加信息。我们通过 n=10 的积木堆垛和舀米任务试点研究来验证我们的系统，其中大多数人对系统给予好评。 Oculus App和相应的ROS代码可在项目网站上获取：https://ar-puppeteer.github.io/

基于网格环境的仓储机器人交互式强化学习算法比较分析

分类： 机器人技术, 人机交互

作者： Arunabh Bora

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11671v1

摘要： 仓库机器人领域目前需求量很大，主要技术和物流公司对这些先进系统进行了大量投资。训练机器人在如此复杂的环境中运行具有挑战性，通常需要人类的监督来适应和学习。交互式强化学习（IRL）是人机交互的关键训练方法。本文对两种 IRL 算法进行了比较研究：Q-learning 和 SARSA，这两种算法都在基于虚拟网格模拟的仓库环境中进行训练。为了保持一致的反馈奖励并避免偏见，在整个研究过程中反馈由同一个人提供。

学习模仿多机器人系统中的空间组织

分类： 机器人技术, 多代理系统

作者： Ayomide O. Agunloye, Sarvapali D. Ramchurn, Mohammad D. Soorati

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11592v1

摘要： 了解集体行为及其演变对于确保机器人群在共享环境中值得信任非常重要。了解群体行为的一种方法是使用先前的演示来重建集体行为。现有方法通常需要访问可能不可用的集群控制器。我们在涉及共享环境的不同群体场景中重建集体行为，而不使用群体控制器信息。我们通过在使用多智能体生成对抗性模仿学习（MA-GAIL）进行行为重建之前将先前的演示转换为充分描述多智能体交互的特征来实现这一目标。我们表明，我们的方法在所有研究的群体场景中都优于现有算法，并且可用于观察和重建群体的行为以进行进一步的分析和测试，这对于原始机器人群体来说可能是不切实际或不可取的。

实时事件相机与协作机器人通信的演示

分类： 机器人技术

作者： Laura Duarte, Michele Polito, Laura Gastaldi, Pedro Neto, Stefano Pastorelli

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11560v1

摘要： 实时机器人驱动是人机交互中需要克服的主要挑战之一。大多数视觉传感器要么太慢，要么它们的数据太复杂，无法向机器人系统提供有意义的信息和低延迟输入。事件相机的数据输出频率高且极其轻量，每个事件仅8字节。为了评估使用事件相机作为实时机器人系统数据源的假设，从事件数据中获取挥动的手的位置并将其作为运动命令传输到协作机器人。测量到原始运动和机器人运动之间的总时间延迟为 110 毫秒，其中大部分延迟是由机器人动力学引起的。

基于仿生神经动力学计算框架的自适应环境感知机械臂伸展

分类： 机器人技术

作者： Dimitrios Chatziparaschis, Shan Zhong, Vasileios Christopoulos, Konstantinos Karydis

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11377v1

摘要： 仿生机器人系统具有自适应学习、可扩展控制和高效信息处理的能力。为此类系统提供实时决策对于响应环境的动态变化至关重要。我们专注于开放区域中的动态目标跟踪，使用机器人六自由度操纵器和鸟瞰摄像头进行视觉反馈，并部署神经动力学计算框架（NeuCF）。 NeuCF 是最近开发的基于动态神经场（DNF）和随机最优控制（SOC）理论的仿生目标跟踪模型。它经过训练，可以在平面上针对局部视觉信标采取行动，并且可以根据环境的变化（例如，出现了新目标，或者现有目标已被锁定）重新定位或动态生成停止信号。已删除）。我们在各种目标达成场景中评估了我们的系统。在所有实验中，与基线三次多项式轨迹生成器相比，NeuCF 具有较高的末端执行器位置精度，生成平滑的轨迹，并提供更短的路径长度。总而言之，所开发的系统提供了强大且动态感知的机器人操作方法，可以提供实时决策。

迈向 RAPS：机器人自主感知量表

分类： 机器人技术

作者： Rafael Sousa Silva, Cailyn Smith, Lara Bezerra, Tom Williams

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11236v1

摘要： 人机交互可能会发生显着变化，具体取决于人类如何看待机器人的自主性。然而，虽然 HRI 社区之前的工作测量了人类自主性的感知，但很少有测量机器人自主性感知的工作。在本文中，我们介绍了机器人自主感知量表（RAPS）的创建进展：一种用于测量人类对机器人自主感知的理论驱动量表。我们根据 Beer 等人的工作对自主性的定义制定了一套包含 15 个李克特量表项目，该项目确定了五个关键的自主性组成部分：感知能力、计划能力、行动能力、以某种方式行动的能力。对某个目标的意图，以及在没有外部控制的情况下实现这一目标的能力。我们将 RAPS 应用到一个实验环境中，其中机器人通过不同级别的表演自主权 (PA) 与人类队友进行交流：这是一种自主驱动策略，其中机器人可能“执行”比其真正能力更低的自主级别。提高人类的态势感知能力。我们的结果通过证明 RAPS 对 PA 的敏感性对 RAPS 进行了初步验证，并激发了 RAPS 的进一步验证。

行走：用语音和手势控制移动机器人“点”的实验

分类： 人机交互, 机器人技术

作者： Renchi Zhang, Jesse van der Linden, Dimitra Dodou, Harleigh Seyffert, Yke Bauke Eisma, Joost C. F. de Winter

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11218v2

摘要： 机器人变得越来越智能，可以自主执行任务，例如在不同位置之间导航。然而，人类监督仍然至关重要。这项研究比较了两种引导移动机器人的免提方法：语音控制和手势控制。这些方法在人类静止和自由行走的情况下进行了测试。我们假设，假设人类与机器人保持一致，由于刺激响应兼容性的增加，与机器人一起行走会带来更高的直觉评级和更好的任务表现。在 2x2 受试者内设计中，218 名参与者使用 90 度旋转和向前行走命令引导四足机器人 Spot。每次试验后，参与者都会对命令映射的直观性进行评分，而实验后访谈则用于收集参与者的偏好。结果显示，Spot 的语音控制与行走相结合是最受欢迎且直观的，而站立时的手势控制会导致左/右命令混乱。尽管如此，29% 的参与者更喜欢手势控制，理由是任务参与度和视觉一致性。基于里程计的分析显示，参与者在 Spot 后面对齐，特别是在手势控制条件下，当允许行走时。总之，步行语音控制效果最好。改善物理人体工程学和调整手势类型可以提高手势控制的有效性。

GRUtopia：大规模城市中的梦想通用机器人

分类： 机器人技术, 计算机视觉和模式识别

作者： Hanqing Wang, Jiahe Chen, Wensi Huang, Qingwei Ben, Tai Wang, Boyu Mi, Tao Huang, Siheng Zhao, Yilun Chen, Sizhe Yang, Peizhou Cao, Wenye Yu, Zichao Ye, Jialun Li, Junfeng Long, Zirui Wang, Huiling Wang, Ying Zhao, Zhongying Tu, Yu Qiao, Dahua Lin, Jiangmiao Pang

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10943v1

摘要： 最近的工作一直在探索嵌入式人工智能领域的缩放定律。考虑到收集现实世界数据的成本高昂，我们相信模拟到真实 (Sim2Real) 范式是扩展具体模型学习的关键一步。本文介绍了 GRUtopia 项目，这是第一个为各种机器人设计的模拟交互式 3D 社会。它具有以下几个优点：(a) 场景数据集 GRScenes 包括 10 万个交互式、精细注释的场景，可以自由组合到城市规模的环境中。与之前主要针对家庭的作品相比，GRScenes 涵盖了 89 个不同的场景类别，弥补了最初部署通用机器人的面向服务的环境的差距。 (b)GRResidents，一个大型语言模型（LLM）驱动的非玩家角色（NPC）系统，负责社交互动、任务生成和任务分配，从而模拟具体人工智能应用的社交场景。 (c) 基准测试 GRBench 支持各种机器人，但重点关注有腿机器人作为主要代理，并提出了涉及对象局部导航、社交局部导航和局部操纵的中等挑战性任务。我们希望这项工作能够缓解该领域高质量数据的稀缺性，并为Embodied AI研究提供更全面的评估。该项目位于 https://github.com/OpenRobotLab/GRUtopia。

用于机器人控制任务的潜在线性二次调节器

分类： 机器人技术, 机器学习

作者： Yuan Zhang, Shaohui Yang, Toshiyuki Ohtsuka, Colin Jones, Joschka Boedecker

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11107v1

摘要： 模型预测控制（MPC）在各种机器人控制任务中发挥着更为关键的作用，但其高计算要求令人担忧，特别是对于非线性动力学模型。本文提出了一个 $\textbf{la}$tent $\textbf{l}$inear $\textbf{q}$uadratic $\textbf{r}$egulator (LaLQR)，它将状态空间映射到潜在空间，其中动态模型是线性的，成本函数是二次的，允许LQR的有效应用。我们通过模仿原始 MPC 来共同学习这个替代系统。实验表明，与其他基线相比，LaLQR 具有卓越的效率和泛化能力。

腿式机器人快速全身模型预测控制的定制解决方案精度

分类： 机器人技术

作者： Charles Khazoom, Seungwoo Hong, Matthew Chignoli, Elijah Stanger-Jones, Sangbae Kim

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10789v1

摘要： 由于非线性模型预测控制 (NMPC) 加速方面的最新进展，现在可以为仿人机器人实时部署全身 NMPC。然而，由于需要额外的迭代，对此类高维系统实时实施不等式约束仍然具有挑战性。本文提出了一种用于腿式机器人的全身 NMPC 的实现，它为具有一般等式和不等式约束的 NMPC 提供了低精度解决方案。我们不以高精度最优解为目标，而是利用乘法器的交替方向方法来快速为二次规划子问题提供低精度解。我们广泛的仿真结果表明，由于动力学离散误差、惯性建模误差和延迟，实际机器人通常无法从高精度解决方案中受益。我们在 NMPC 的初始时间步长中加入控制屏障函数 (CBF) 以实现自碰撞约束，从而在不增加计算负担的情况下将自碰撞数量减少 26 倍。对于涉及 32 个时间步长、2004 个变量和 3768 个约束的问题，控制器以 90 Hz 的频率可靠地部署在硬件上。 NMPC 提供足够准确的解决方案，使 MIT 人形机器人能够规划复杂的交叉腿和手臂运动，从而增强行走和从严重干扰中恢复时的稳定性。

使用数据图将 LMM 的 3D 推理扩展到大型机器人任务环境

分类： 机器人技术, 人工智能

作者： W. J. Meijer, A. C. Kemmeren, E. H. J. Riemens, J. E. Fransman, M. van Bekkum, G. J. Burghouts, J. D. van Mil

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10743v1

摘要： 本文解决了将大型多模态模型 (LMM) 扩展到扩展 3D 环境的挑战。解决这个开放问题对于许多急救人员场景中的机器人部署尤其重要，例如覆盖广阔空间的搜索和救援任务。目前，LMM 在这些设置中的使用受到限制 LMM 输入大小的严格上下文窗口的阻碍。因此，我们引入了一种利用数据图结构的新颖方法，该方法允许 LMM 迭代查询大型环境的较小部分。将数据图与图遍历算法结合使用，我们可以优先考虑与查询最相关的位置，从而提高 3D 场景语言任务的可扩展性。我们使用 3D 场景来说明数据图，但这些可以很容易地被表示环境的其他密集模式所取代，例如点云或高斯图。我们在搜索和救援任务示例中展示了将数据图用于两个 3D 场景语言任务用例的潜力。

学习通过预测 LED 状态来估计相机图像中同伴机器人的姿势

分类： 机器人技术

作者： Nicholas Carlotti, Mirko Nava, Alessandro Giusti

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10661v1

摘要： 我们考虑训练全卷积网络来估计机器人在给定相机图像的情况下的相对 6D 位姿的问题，此时机器人在其身体的不同部位配备了独立的可控 LED。训练数据由少数（或零）张标记有地面真实相对姿态的图像和许多仅标记有每个对等 LED 的真实状态（\textsc{on} 或 \textsc{off}）的图像组成。前者的数据获取成本昂贵，需要外部基础设施来跟踪这两个机器人；后者很便宜，因为它可以由两个无监督的机器人随机移动并切换其 LED，同时通过无线电共享真实的 LED 状态来获取。使用后一个数据集进行训练来估计对等机器人的 LED 状态（\emph{借口任务}）可以促进学习相对定位任务（\emph{结束任务}）。对两个自主轮式机器人获取的真实世界数据进行的实验表明，仅在借口任务上训练的模型成功地学会了在图像平面上定位对等机器人；相对于不使用借口任务预训练的基线和替代方法，在带有少量标记图像的最终任务上微调此类模型，可以在 6D 相对姿态估计方面产生统计上显着的改进。估计多个独立 LED 的状态有助于学习估计相对航向。即使大部分训练图像不包括对等机器人，该方法也能发挥作用，并且可以很好地推广到未见过的环境。

移动机器人分层定位中 CNN 模型和数据增强技术的评估

分类： 计算机视觉和模式识别, 人工智能

作者： J. J. Cabrera, O. J. Céspedes, S. Cebollada, O. Reinoso, L. Payá

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10596v1

摘要： 这项工作对 CNN 模型和数据增强进行了评估，以使用全向图像对移动机器人进行分层定位。从这个意义上说，本文对不同最先进的 CNN 模型作为主干进行了消融研究，并提出了各种数据增强视觉效果来解决机器人的视觉定位问题。所提出的方法基于 CNN 的适应和重新训练，具有双重目的：(1) 执行粗略定位步骤，其中模型用于预测捕获图像的房间，以及 (2)解决精细定位步骤，该步骤包括通过从 CNN 中间层获得的描述符之间的成对比较来检索先前预测的房间中包含的视觉地图中最相似的图像。从这个意义上说，我们评估了不同最先进的 CNN 模型（例如 ConvNeXt）对解决所提出的定位问题的影响。最后，分别采用各种数据增强视觉效果来训练模型并评估其影响。所得到的 CNN 的性能在实际操作条件下进行评估，包括照明条件的变化。我们的代码可在项目网站上公开获取 https://github.com/juanjo-cabrera/IndoorLocalizationSingleCNN.git

在室内环境中使用全向成像进行机器人定位的连体神经网络的实验评估

分类： 计算机视觉和模式识别, 人工智能

作者： J. J. Cabrera, V. Román, A. Gil, O. Reinoso, L. Payá

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10536v1

摘要： 本文的目的是使用安装在机器人上的折反射视觉系统捕获的全向图像来解决定位问题。为此，我们探索了连体神经网络使用全景图像作为唯一信息源来建模室内环境的潜力。连体神经网络的特点是能够在两个输入数据之间（在本例中是两个全景图像之间）生成相似性函数。在本研究中，使用由两个卷积神经网络（CNN）组成的连体神经网络。每个 CNN 的输出是一个描述符，用于表征每个图像。通过测量这些描述符之间的距离来计算图像的相异性。这一事实使得连体神经网络特别适合执行图像检索任务。首先，我们评估与定位密切相关的初始任务，该任务包括检测两个图像是否是在同一房间或不同房间中捕获的。接下来，我们在全球定位问题的背景下评估连体神经网络。在各种照明条件下，特别是在使用在阴天和夜间条件下捕获的图像时，结果优于以前使用 COLD-Freiburg 数据集解决定位任务的技术。

多机器人网络中通信和计算高效的分布式决策

分类： 机器人技术, 人工智能, 多代理系统, 系统与控制, 系统与控制, 优化与控制

作者： Zirui Xu, Sandilya Sai Garimella, Vasileios Tzoumas

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10382v1

摘要： 我们提供了一种分布式协调范例，可以在多个机器人之间实现可扩展且接近最佳的关节运动规划。我们的协调范式与当前的范式形成鲜明对比，当前的范式要么接近最优，但对于重新规划时间或实时不切实际，但不提供接近最优的保证。我们对协作移动自主的未来充满动力，分布式机器人团队将通过车对车 (v2v) 通信进行协调，以执行地图绘制、监视和目标跟踪等信息量大的任务。为了实现快速的分布式协调，我们必须限制网络上信息共享的爆炸式增长，从而限制机器人的协调。然而，这可能会导致计划不理想，导致轨迹重叠而不是互补。我们做出理论和算法贡献来平衡决策速度和最优性之间的权衡。我们引入了分布式子模块优化工具，这是信息收集任务中的收益递减特性。从理论上讲，我们分析本地网络拓扑如何影响全局级别的接近最优性。在算法上，我们为代理提供了一种通信和计算高效的协调算法来平衡权衡。我们的算法比接近最优的竞争算法快两个数量级。在模拟多达 45 个机器人的监控任务时，它可以实现 1 Hz 量级的实时规划，并具有卓越的覆盖性能。为了实现模拟，我们提供了一个高保真模拟器，通过集成协作自治管道和模拟 v2v 通信延迟来扩展 AirSim。

一名计算机视觉与机器人专业本科生的研究经历

分类： 计算机视觉和模式识别

作者： Ayush V. Gowda, Juan D. Yepes, Daniel Raviv

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10044v1

摘要： 本文重点介绍了一名计算机工程本科生进入计算机视觉和机器人领域的教育历程。它探讨了当相机进行平移运动时如何使用光流及其应用来检测移动物体，强调所遇到的挑战以及用于克服这些挑战的策略。此外，本文不仅讨论了学生获得的技术技能，还讨论了与团队合作和多样性相关的人际交往能力。在本文中，我们详细介绍了学习过程，包括获得技术和解决问题的技能，以及开箱即用的思维。

部分可观测环境中多智能体机器人的长期规划

分类： 机器人技术, 多代理系统

作者： Siddharth Nayak, Adelmo Morrison Orozco, Marina Ten Have, Vittal Thirumalai, Jackson Zhang, Darren Chen, Aditya Kapoor, Eric Robinson, Karthik Gopalakrishnan, James Harrison, Brian Ichter, Anuj Mahajan, Hamsa Balakrishnan

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10031v1

摘要： 语言模型 (LM) 理解自然语言的能力使其成为将人类指令解析为自主机器人任务计划的强大工具。与依赖于特定领域知识和手工规则的传统规划方法不同，语言模型从不同的数据中进行概括，并以最小的调整适应各种任务，充当压缩的知识库。然而，标准形式的语言模型面临着长期任务的挑战，特别是在部分可观察的多智能体环境中。我们提出了一种基于 LM 的多智能体机器人长视野规划器 (LLaMAR)，这是一种用于规划的认知架构，可在部分可观察环境中的长视野任务中实现最先进的结果。 LLaMAR 采用计划-行动-正确-验证框架，允许根据行动执行反馈进行自我纠正，而无需依赖预言机或模拟器。此外，我们还推出了 MAP-THOR，这是一个综合测试套件，涵盖 AI2-THOR 环境中不同复杂程度的家庭任务。实验表明，与其他最先进的基于 LM 的多智能体规划器相比，LLaMAR 的成功率提高了 30%。

ODD：用于轮式机器人同时重构和全向移动的全向差动驱动

分类： 机器人技术, 系统与控制, 系统与控制

作者： Ziqi Zhao, Peijia Xie, Max Q. -H. Meng

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10127v1

摘要： 轮式机器人在人类生活环境中效率很高。然而，传统的轮式设计由于其有限的自由度和机器人配置的限制，由于不同的占地面积需求而难以同时实现稳定性、通过性和敏捷性。本文提出了一种受人类运动启发的新型机器人驱动模型，称为全向差动驱动（ODD）。 ODD模型创新地利用横向差速驱动来调节轮距，而无需在现有全向驱动的基础上添加额外的执行器。这种方法使轮式机器人能够实现同时重新配置和全向移动。为了验证 ODD 模型的可行性，开发了一个功能原型，然后进行了全面的运动学分析。设计并实现了自平衡和运动控制的控制系统。实验验证证实了ODD机制的可行性和控制策略的有效性。结果强调了这种创新驱动系统在增强机器人平台的移动性和适应性方面的潜力。

DexGrasp-Diffusion：基于扩散的多灵巧机械手统一功能抓取合成管道

分类： 机器人技术

作者： Zhengshen Zhang, Lei Zhou, Chenchen Liu, Zhiyang Liu, Chengran Yuan, Sheng Guo, Ruiteng Zhao, Marcelo H. Ang Jr., Francis EH Tay

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09899v1

摘要： 人类抓取的多功能性和适应性促进了机器人灵巧操作的发展。虽然在灵巧抓取生成方面取得了重大进展，但当前的研究工作重点是优化对象操作，同时确保功能完整性，强调按照所需的可供性指令合成功能抓取。本文提出 DexGrasp-Diffusion（一种基于扩散的端到端模块化管道），解决了合成适合各种灵巧机器人手的功能性抓取的挑战。 DexGrasp-Diffusion 集成了 MultiHandDiffuser（一种用于多灵巧手抓握估计的新型统一数据驱动扩散模型）与 DexDiscriminator，后者采用物理判别器和具有开放词汇设置的功能判别器，根据对象可供性过滤物理上合理的功能抓握。在 MultiDex 数据集上进行的实验评估提供了充分的证据，支持 MultiHandDiffuser 在成功率、抓取多样性和碰撞深度方面优于基线模型的性能。此外，我们还展示了 DexGrasp-Diffusion 能够可靠地生成符合特定可供性指令的家用物品的功能性抓握。

VLMPC：机器人操作的视觉语言模型预测控制

分类： 机器人技术

作者： Wentao Zhao, Jiaming Chen, Ziyu Meng, Donghui Mao, Ran Song, Wei Zhang

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09829v1

摘要： 模型预测控制（MPC）虽然可以有效预测系统的未来状态，因此被广泛应用于机器人操纵任务中，但它不具备环境感知能力，导致在一些复杂场景下出现故障。为了解决这个问题，我们引入了视觉语言模型预测控制（VLMPC），这是一种机器人操纵框架，它利用视觉语言模型（VLM）强大的感知能力并将其与 MPC 集成。具体来说，我们提出了一个条件动作采样模块，它将目标图像或语言指令作为输入，并利用 VLM 对一组候选动作序列进行采样。然后，设计一个轻量级动作条件视频预测模型来生成一组以候选动作序列为条件的未来帧。 VLMPC 在 VLM 的帮助下通过分层成本函数产生最佳动作序列，该函数制定当前观察与目标图像之间的像素级和知识级一致性。我们证明 VLMPC 在公共基准测试中优于最先进的方法。更重要的是，我们的方法在机器人操作的各种现实任务中展示了出色的性能。代码可在~\url{https://github.com/PPjmchen/VLMPC}获取。

机器人之歌：使用认知隐喻进行声音化以支持机器人团队的沉浸式远程操作

分类： 机器人技术, 人机交互

作者： Joe Simmons, Paul Bremner, Thomas J Mitchell, Alison Bown, Verity McIntosh

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09673v1

摘要： 作为一种具体化的空间媒介，虚拟现实正在为危险环境中的机器人远程操作提供一个有吸引力的主张。本文研究了核退役场景，其中使用半自主机器人模拟团队来描述虚拟核设施内的房间的特征。本研究探讨了可听化作为在此类环境中传达重要操作员数据的手段的潜在效用和影响。然而，应该使用什么声音以及如何将其应用于不同的应用程序的问题还远未解决。本文探讨并比较了两种可听化设计方法。第一个受到认知隐喻理论的启发，创建与社会获得的应用领域的上下文和生态理解相一致的声音。第二种采用计算主义方法，使用文献中常见的听觉映射。结果表明，计算主义方法在可预测性和脑力负荷方面优于认知隐喻方法。然而，定性数据分析表明，认知隐喻方法产生的声音更直观，并且在存在多个声源时可以更好地实现数据源的空间化和数据易读性。

运动软机器人结构与反馈控制器的计算协同设计

分类： 计算工程、金融和科学

作者： Yuki Sato, Changyoung Yuhn, Hiroki Kobayashi, Atsushi Kawamoto, Tsuyoshi Nomura

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09270v1

摘要： 软机器人因其灵活性和安全性而受到广泛关注，特别是在以人为中心的应用中。由于所涉及的动力学的复杂性，软机器人中结构和控制器的协同设计提出了长期的挑战。尽管在软机器人结构和驱动的协同设计方面有一些开创性的工作，但设计自由度仍受到随机设计搜索方法的限制。本研究提出了运动任务中软机器人结构和控制器的同步优化，将基于拓扑优化的结构设计与基于神经网络的反馈控制器设计相结合。在这里，反馈控制器接收有关周围地形的信息并输出引起材料膨胀和收缩的驱动信号。我们制定了地形不确定性下的联立优化问题，并构建了一种利用拓扑优化和神经网络中的自动微分的优化算法。我们提出数值实验来证明我们提出的方法的有效性和有效性。

使用 WiFi RSSI 指纹识别以及支持 SLAM 的机器人平台和深度神经网络的自适应室内定位方法

分类： 机器人技术, 新兴技术, 网络和互联网架构

作者： Seyed Alireza Rahimi Azghadi, Atah Nuh Mih, Asfia Kawnine, Francis Palma, Hung Cao

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09242v1

摘要： 室内定位在物联网和机器人时代发挥着至关重要的作用，WiFi 技术因其无处不在而成为重要选择。我们提出了一种创建 WiFi 指纹数据集的方法，以增强室内定位系统并解决 WiFi 指纹数据集创建方面的差距。我们使用同步定位与建图（SLAM）算法，并利用机器人平台构建精确地图并在室内环境中定位机器人。我们开发了软件应用程序来促进数据采集、指纹数据集收集和准确的地面实况地图构建。随后，我们将通过 SLAM 生成的空间信息与 WiFi 扫描进行对齐，以创建全面的 WiFi 指纹数据集。创建的数据集用于训练用于室内定位的深度神经网络（DNN），这可以证明网格密度的有用性。我们在办公室环境中进行了实验验证，以证明所提出方法的有效性，包括数据集中的热图，显示环境中放置的测试接入点的 WiFi 信号强度的空间分布。值得注意的是，我们的方法比现有方法具有明显的优势，因为它不需要预定义的环境地图，不需要任何准备步骤，减少人为干预，创建更密集的指纹数据集，并减少 WiFi 指纹数据集的创建时间。我们的方法比其他方法实现了 26% 的准确定位，并且与传统方法相比，可以在三分之一的时间内创建六倍密集的指纹数据集。总之，利用支持 SLAM 的机器人平台测量的 WiFi RSSI 指纹数据，我们可以将经过训练的 DNN 模型应用于任何动态环境中的室内定位，并增强其在现实场景中的可扩展性和适用性。

用于集成机器人运动学习和大语言模型的共享潜变量中的感觉运动注意力和基于语言的回归

分类： 机器人技术

作者： Kanata Suzuki, Tetsuya Ogata

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09044v1

摘要： 近年来，人们积极开展大语言模型（LLM）与机器人技术相结合的研究；然而，大多数人没有考虑机器人运动生成阶段的端到端反馈。深度神经网络的预测必然存在误差，需要更新训练好的模型以对应真实环境，自适应地生成机器人运动。本研究提出了一种使用共享潜变量连接机器人运动学习模型和大语言模型的集成方法。当生成机器人运动时，所提出的方法根据来自感觉运动注意点和给予机器人的任务语言指令的预测误差来更新共享参数。这使得模型能够有效地搜索适合机器人任务的潜在参数。通过对多个机器人任务的模拟器实验，我们从位置泛化和语言指令泛化能力两个角度证明了我们提出的方法的有效性。

通过拉格朗日算子推理对软机器人进行数据驱动模型简化

分类： 机器人技术, 机器学习, 数值分析, 数值分析

作者： Harsh Sharma, Iman Adibnazari, Jacobo Cervera-Torralba, Michael T. Tolley, Boris Kramer

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08840v1

摘要： 数据驱动的模型简化方法提供了一种非侵入式的方式来构建高保真模型的计算有效替代物，以实现软机器人的实时控制。这项工作利用模型方程的拉格朗日性质，通过拉格朗日算子推理导出结构保持线性降阶模型，并通过具有 231,336 自由度的鳗鱼状游泳软机器人模型示例，将其性能与突出的线性模型降阶技术进行比较。案例研究表明，保留潜在的拉格朗日结构可以使学习模型具有更高的预测准确性和对未见输入的鲁棒性。

使用单个相机统一各种机器人的 3D 表示和控制

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Sizhe Lester Li, Annan Zhang, Boyuan Chen, Hanna Matusik, Chao Liu, Daniela Rus, Vincent Sitzmann

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08722v1

摘要： 反映自然生物体的复杂结构和多样化功能是机器人技术中长期存在的挑战。现代制造技术极大地扩展了可行的硬件，但部署这些系统需要控制软件将所需的运动转换为执行器命令。虽然传统机器人可以很容易地建模为通过关节连接的刚性连杆，但对仿生机器人进行建模和控制仍然是一个公开的挑战，这些机器人通常是多材料或软体，缺乏传感能力，并且可能会随着使用而改变其材料特性。在这里，我们介绍神经雅可比场，这是一种仅通过视觉自主学习建模和控制机器人的架构。我们的方法不对机器人的材料、驱动或传感做出任何假设，只需要一个摄像头进行控制，并且通过观察随机命令的执行来学会在没有专家干预的情况下控制机器人。我们在不同的机器人操纵器上展示了我们的方法，这些机器人操纵器的驱动、材料、制造和成本各不相同。我们的方法实现了精确的闭环控制并恢复了每个机器人的因果动态结构。通过使用通用相机作为唯一传感器来实现机器人控制，我们预计我们的工作将极大地拓宽机器人系统的设计空间，并成为降低机器人自动化障碍的起点。

通过具体思想链推理进行机器人控制

分类： 机器人技术, 机器学习

作者： Michał Zawalski, William Chen, Karl Pertsch, Oier Mees, Chelsea Finn, Sergey Levine

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08693v2

摘要： 学习机器人控制策略的一个关键限制是它们无法在训练数据之外进行泛化。最近关于视觉语言动作模型（VLA）的研究表明，使用大型互联网预训练视觉语言模型作为学习机器人策略的支柱可以显着提高其鲁棒性和泛化能力。然而，其他领域的大型视觉语言模型最令人兴奋的功能之一是它们通过复杂问题进行迭代推理的能力。是否可以将同样的功能引入机器人技术中，以允许策略在采取行动之前通过推理给定任务来提高性能？对于标准 VLA，天真地使用“思想链”(CoT) 风格的提示效果明显较差，因为它们可以使用相对简单的训练示例。此外，关于子任务的纯粹语义推理（如常规 CoT 中常见的那样）对于需要将推理基于感官观察和机器人状态的机器人策略来说是不够的。为此，我们引入了 VLA 的具体思想链推理（ECoT），其中我们训练 VLA 对计划、子任务、运动和视觉基础特征（如对象边界框和末端执行器）执行多个推理步骤在预测机器人动作之前先确定位置。我们设计了一个可扩展的管道，用于在大型机器人数据集上生成 ECoT 的合成训练数据。我们证明，在没有任何额外的机器人训练数据的情况下，ECOT 在具有挑战性的泛化任务中将当前最强的开源 VLA 策略 OpenVLA 的绝对成功率提高了 28%。此外，ECOT 使人类更容易解释策略的失败并使用自然语言纠正其行为。

RoboMorph：使用大型语言模型进化机器人形态

分类： 机器学习, 机器人技术

作者： Kevin Qiu, Krzysztof Ciebiera, Paweł Fijałkowski, Marek Cygan, Łukasz Kuciński

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08626v1

摘要： 我们推出 RoboMorph，这是一种使用大语言模型 (LLM) 和进化算法生成和优化模块化机器人设计的自动化方法。在此框架中，我们将每个机器人设计表示为语法，并利用大语言模型的功能来导航广泛的机器人设计空间，而这在传统上是耗时且计算要求较高的。通过集成自动提示设计和基于强化学习的控制算法，RoboMorph 通过反馈循环迭代改进机器人设计。我们的实验结果表明，RoboMorph 可以成功生成针对单一地形进行优化的非凡机器人，同时展示连续进化的形态改进。我们的方法展示了使用大语言模型进行数据驱动和模块化机器人设计的潜力，提供了一种有前景的方法，可以扩展到具有类似设计框架的其他领域。

用于抓取户外环境中垃圾的视觉和触觉机器人系统

分类： 机器人技术

作者： Ignacio de Loyola Páez-Ubieta, Julio Castaño-Amorós, Santiago T. Puente, Pablo Gil

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08575v4

摘要： 许多地方的垃圾堆积不断增加，因此成为一个必须解决的问题。在本文中，我们提出了一种用于在室外环境中收集垃圾的机械手机器人系统。该系统具有三个功能。首先，它使用彩色图像来检测和识别包含不同材料的垃圾。其次，深度数据与垃圾对象的像素相结合，计算 3D 位置并分割场景中垃圾物品的三维点云。然后，针对每个废物实例的分段云，评估带有夹具的机器人手臂的 3 个自由度 (DoF) 抓取能力。最后，实现并使用两种基于触觉的算法，以便为抓手提供触觉。这项工作在指尖使用了两个基于视觉的低成本触觉传感器。其中一个解决了夹具和固体废物之间的接触检测（从触觉图像获得），而另一个则设计用于检测滑动，以防止抓取的物体掉落。通过在不同的室外环境（瓷砖路面、石头/土壤表面和草地）中对不同尺寸、纹理、几何形状和材料的不同物体进行广泛的实验，我们的提案得到了成功的测试。我们的系统的整体性能在检测和收集成功率 (CSR) 方面取得了 94% 的平均得分，在首次尝试收集垃圾时取得了 80% 的平均得分。

使用核化运动原语进行机器人辅助超声检查深静脉血栓形成的模仿学习

分类： 机器人技术

作者： Diego Dall'Alba, Lorenzo Busellato, Thiusius Rajeeth Savarimuthu, Zhuoqi Cheng, Iñigo Iturrate

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08506v1

摘要： 深静脉血栓 (DVT) 是一种常见但可能致命的疾病，通常会导致肺栓塞等严重并发症。 DVT 通常使用超声 (US) 成像进行诊断，但由于高度依赖于操作者的技能，因此结果可能不一致。机器人 US 系统 (RUS) 旨在提高诊断测试的一致性，但面临 DVT 评估所需的复杂扫描模式的挑战，其中精确控制 US 探头压力对于间接检测闭塞至关重要。这项工作引入了一种基于内核化运动原语 (KMP) 的模仿学习方法，通过使用超声技师演示来训练自主机器人控制器，从而标准化 DVT US 考试。新的记录设备设计增强了演示人体工程学，与美国探头集成并实现无缝力和位置数据记录。 KMP 用于捕获扫描技能，将扫描轨迹和力联系起来，从而实现演示之外的泛化。我们的方法对合成模型和志愿者进行了评估，结果表明基于 KMP 的 RUS 可以在 DVT US 检查中复制专家的力控制和图像质量。它优于以前使用手动定义的力分布的方法，提高了检查标准化并减少了对专业超声检查人员的依赖。

一种用于多机器人覆盖路径规划的量子计算方法

分类： 量子物理学, 新兴技术, 机器人技术

作者： Poojith U Rao, Florian Speelman, Balwinder Sodhi, Sachin Kinge

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08767v1

摘要： 本文解决了多车辆覆盖路径规划（CPP）问题，这对于搜索救援或环境监测等应用至关重要。由于其 NP 困难性质，对于较大的问题规模，找到最佳解决方案变得不可行。这推动了启发式方法的发展，甚至可以略微提高效率。我们提出了一种探索 2D 网格中路径的新颖方法，该方法专为轻松与量子交替算子 Ansatz (QAOA)（一种强大的量子启发式算法）集成而设计。我们的贡献包括：1) 为使用 QAOA 解决多车辆 CPP 而定制的目标函数。 2）保证所提出方法有效性的理论证明。 3）高效构建QAOA算子以供实际实施。 4) 资源估算以评估QAOA执行的可行性。 5) 与深度优先搜索等既定算法的性能比较。这项工作为利用量子计算优化多车辆路径规划铺平了道路，有可能带来各种应用的现实进步。

微创手术球形机器人的控制架构

分类： 机器人技术

作者： Gabriela Rus, Nadim Al Hajjar, Paul Tucan, Ionut Zima, Calin Vaida, Corina Radu, Daniel Jucan, Damien Chablat, Doina Pisla

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08286v1

摘要： 微创手术 (MIS) 中使用的控制系统在确保整个手术过程的精确性和安全性方面发挥着至关重要的作用。本文介绍了为 MIS 操作设计的机器人系统开发的控制架构。控制系统的模块化结构允许与腹部和胸部区域的一系列手术兼容。所提出的控制系统采用主从概念，与实验模型一起提出。通过执行西门子 NX 仿真并将结果与使用机器人实验模型的多次实验运行进行比较，获得了功能验证。凭借其紧凑的尺寸和刚度，该系统有望与其他机器人系统集成。未来将致力于探索和优化这种潜在的合作，以增强机器人辅助手术的整体能力。

PINN-Ray：一种用于模拟软机器人 Fin Ray 手指的物理信息神经网络

分类： 机器人技术

作者： Xing Wang, Joel Janek Dabrowski, Josh Pinskier, Lois Liow, Vinoth Viswanathan, Richard Scalzo, David Howard

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08222v1

摘要： 对软机器人的复杂变形进行建模可以为理解它们的行为提供指导，从而实现与环境的安全交互。然而，由于复杂几何、大变形、材料非线性等带来的非线性，建立高精度和快速推理速度的代理模型对于软机器人来说是一个挑战。代理模型的现实差距也阻碍了它们在软机器人领域的进一步部署。在这项研究中，我们提出了一种名为 PINN-Ray 的物理信息神经网络 (PINN)，用于对 Fin Ray 软机器人夹具的复杂变形进行建模，它将弹性力学的最小势能原理和附加的高保真实验数据嵌入到用于训练的神经网络的损失函数。与其他数据驱动的神经网络相比，该方法在对复杂几何的泛化和对数据稀缺的鲁棒性方面具有重要意义。此外，它已被广泛评估以模拟鳍射线手指在外部驱动下的变形。在应用数据同化方案处理模拟与实际差距后，PINN-Ray 与有限元建模 (FEM) 相比，显示出更高的精度。此外，我们引入了自动化框架来设计、制造软机器人手指，并通过视觉跟踪表征其变形，这为软机器人技术的快速原型提供了指导。

基于分层共识的多智能体强化学习，用于多机器人合作任务

分类： 人工智能, 多代理系统, 机器人技术

作者： Pu Feng, Junkang Liang, Size Wang, Xin Yu, Rongye Shi, Wenjun Wu

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08164v1

摘要： 在多智能体强化学习 (MARL) 中，集中训练与分散执行 (CTDE) 框架至关重要，但由于存在差距而陷入困境：训练中的全球国家指导与执行中依赖本地观察、缺乏全球信号。受人类社会共识机制的启发，我们引入了基于分层共识的多智能体强化学习（HC-MARL）框架来解决这一限制。 HC-MARL 采用对比学习来促进代理之间的全球共识，从而无需直接沟通即可实现合作行为。这种方法使代理能够根据本地观察形成全球共识，将其用作指导执行过程中协作行动的附加信息。为了适应各种任务的动态要求，共识分为多个层次，涵盖短期和长期考虑。短期观察有助于形成即时的、低层的共识，而长期观察则有助于形成战略性的、高层的共识。这个过程通过自适应注意力机制进一步完善，该机制动态调整每个共识层的影响。这种机制优化了即时反应和战略规划之间的平衡，并根据当前任务的具体要求进行调整。多机器人系统中的广泛实验和实际应用展示了我们的框架的卓越性能，标志着相对于基线的显着进步。

通过验证定位估计来改进基于视觉位置识别的机器人导航

分类： 计算机视觉和模式识别, 机器人技术

作者： Owen Claxton, Connor Malone, Helen Carson, Jason Ford, Gabe Bolton, Iman Shames, Michael Milford

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08162v1

摘要： 视觉位置识别（VPR）系统通常性能不完善，这会影响机器人的导航决策。这项研究引入了一种用于 VPR 的新型多层感知器 (MLP) 完整性监控器，与之前最先进的 SVM 方法相比，它展示了改进的性能和通用性，消除了每个环境的训练并减少了手动调整要求。我们在广泛的现实世界实验中测试了我们提出的系统，其中我们还提出了两种基于实时完整性的 VPR 验证方法：机器人导航到目标区域的瞬时拒绝方法（实验 1）；一种历史方法，从最近的轨迹中获取最佳的、经过验证的匹配，并使用里程表向前推断当前位置估计（实验 2）。实验 1 的值得注意的结果包括，在机器人追求完成的任务中，总平均沿轨道目标误差从约 9.8m 减少到约 3.1m，并且成功完成任务的总比率从约 41% 增加到约 55 %。实验 2 显示，总平均沿轨定位误差从约 2.0m 降低到约 0.5m，定位尝试的总精度从约 97% 增加到约 99%。总体而言，我们的结果证明了 VPR 完整性监控器在现实机器人技术中的实际用途，可改善 VPR 定位和随后的导航性能。

使用机器人团队进行未知负载的分散式自适应航空航天运输

分类： 机器人技术

作者： Longsen Gao, Kevin Aubert, David Saldana, Claus Danielson, Rafael Fierro

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08084v1

摘要： 航空航天中的运输任务受限于每个航空航天机器人的能力和目标运输物体的属性，例如质量、惯性和抓取位置。我们提出了一种新颖的分布式自适应控制器设计，适用于多个机器人，可以在不同类型的航空航天机器人中实现。我们的控制器适应不同重力环境中的未知物体。我们在空中场景中验证了我们的方法，使用多个具有抓取能力的全驱动六旋翼飞行器，并在太空场景中使用一组太空拖船。在这两种情况下，机器人都会通过所需的三维轨迹协作运输有效负载。我们证明，我们的方法可以适应意外的变化，包括运输任务期间机器人的丢失。

RoCap：用于外观变化对象的姿势估计的机器人数据收集管道

分类： 机器人技术, 人机交互

作者： Jiahao Nick Li, Toby Chong, Zhongyi Zhou, Hironori Yoshida, Koji Yatani, Xiang 'Anthony' Chen, Takeo Igarashi

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08081v1

摘要： 当用户将有形物体作为控制器进行操作时，物体姿态估计在混合现实交互中发挥着至关重要的作用。传统的基于视觉的物体姿态估计方法利用 3D 重建来合成训练数据。然而，这些方法是为具有漫射颜色的静态物体而设计的，对于在操作过程中改变外观的物体效果不佳，例如毛绒玩具等可变形物体、化学烧瓶等透明物体、金属水罐等反光物体以及诸如此类的铰接物体剪刀。为了解决这一限制，我们提出了 Rocap，这是一种机器人管道，可以模拟人类对目标对象的操作，同时生成标有地面真实姿势信息的数据。用户首先将目标物体交给机械臂，系统会以各种 6D 配置捕获该物体的许多图片。该系统使用捕获的图像以及根据机械臂的关节角度自动计算的地面真实姿态信息来训练模型。我们通过使用收集的数据训练简单的深度学习模型，并将结果与使用基于 3D 重建的合成数据训练的模型进行定量和定性评估进行比较，展示了外观变化对象的姿态估计。研究结果强调了 Rocap 的潜力。

走向可解释的机器人行为基础模型：特定于任务的策略生成方法

分类： 机器人技术, 人工智能, 机器学习

作者： Isaac Sheidlower, Reuben Aronson, Elaine Schaertl Short

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08065v1

摘要： 基础模型是通向通用且用户友好的机器人的一条有前途的道路。流行的方法涉及训练通才策略，该策略与强化学习策略一样，使用观察结果来输出动作。尽管这种方法取得了很大成功，但在考虑部署以及最终用户与这些系统的交互时，出现了一些问题。特别是，任务之间缺乏模块化意味着当更新模型权重时（例如，当用户提供反馈时），其他不相关任务中的行为可能会受到影响。这会对系统的可解释性和可用性产生负面影响。我们提出了一种机器人基础模型设计的替代方法，即策略参数扩散（DPP），它生成独立的、特定于任务的策略。由于这些策略与基础模型分离，因此它们仅在用户需要时通过反馈或个性化进行更新，从而使他们能够高度熟悉该策略。我们在模拟中演示了 DPP 的概念验证，然后讨论了其局限性和可解释基础模型的未来。

考虑抓取状态在线变化的自适应机器人工具提示控制学习

分类： 机器人技术

作者： Kento Kawaharazuka, Kei Okada, Masayuki Inaba

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08052v1

摘要： 迄今为止，已经开发了各种机器人工具操纵方法。然而，据我们所知，他们都没有考虑到在工具操纵过程中，抓取位置和工具角度等抓取状态可能随时发生变化。此外，很少有研究能够处理可变形工具。在这项研究中，我们开发了一种方法，使用包含参数偏差的神经网络来估计工具提示的位置、控制工具提示以及处理在线适应身体和工具之间关系的变化。我们在使用两种不同类型的机器人（轴驱动机器人 PR2 和肌腱驱动机器人 MusashiLarm）的实验中证明了我们的方法对于在线改变抓取状态和可变形工具的有效性。

AdaptiGraph：用于机器人操作的基于材料自适应图的神经动力学

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Kaifeng Zhang, Baoyu Li, Kris Hauser, Yunzhu Li

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07889v1

摘要： 预测模型是许多机器人系统的重要组成部分。然而，为各种可变形物体，特别是那些具有未知物理属性的物体构建准确的预测模型，仍然是一个重大挑战。本文介绍了 AdaptiGraph，这是一种基于学习的动力学建模方法，使机器人能够预测、适应和控制各种具有未知物理属性的具有挑战性的可变形材料。 AdaptiGraph 利用高度灵活的基于图的神经动力学 (GBND) 框架，该框架将材料位表示为粒子，并采用图神经网络 (GNN) 来预测粒子运动。其关键创新是统一的物理属性条件 GBND 模型，能够预测具有不同物理属性的不同材料的运动，而无需重新训练。在在线部署过程中遇到新材料时，AdaptiGraph 利用物理属性优化过程对模型进行几次调整，增强其与观察到的交互数据的拟合度。改编后的模型可以精确模拟动力学并预测各种可变形材料（例如绳索、颗粒介质、刚性盒子和布料）的运动，同时适应不同的物理属性，包括刚度、颗粒尺寸和压力中心。在涉及各种现实世界可变形物体的预测和操纵任务中，我们的方法比非材料条件和非自适应模型表现出卓越的预测精度和任务熟练度。该项目页面位于 https://robopil.github.io/adaptigraph/ 。

绿屏增强可实现机器人操作中的场景泛化

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Eugene Teoh, Sumit Patidar, Xiao Ma, Stephen James

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07868v1

摘要： 将基于视觉的操纵策略推广到新环境仍然是一个具有挑战性的领域，探索有限。当前的做法包括在一个位置收集数据，使用这些数据训练模仿学习或强化学习策略，然后在同一位置部署该策略。然而，这种方法缺乏可扩展性，因为它需要为每个任务在多个位置收集数据。本文提出了一种新颖的方法，在主要以绿屏为特色的位置收集数据。我们引入绿屏增强 (GreenAug)，采用色度键算法将背景纹理叠加到绿屏上。通过广泛的现实世界实证研究，包括超过 850 个训练演示和 8.2k 次评估集，我们证明 GreenAug 在性能方面超越了无增强、标准计算机视觉增强和先前的生成增强方法。虽然没有声称算法新颖，但我们的论文主张对数据收集实践进行根本性转变。我们建议未来研究中的实际演示应使用绿屏，然后应用 GreenAug。我们相信 GreenAug 能够将策略泛化到视觉上不同的新位置，解决当前机器人学习中场景泛化的局限性。

MoVEInt：从演示中学习人机交互的变分专家组合

分类： 机器人技术, 人机交互, 机器学习

作者： Vignesh Prasad, Alap Kshirsagar, Dorothea Koert, Ruth Stock-Homburg, Jan Peters, Georgia Chalvatzaki

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07636v1

摘要： 共享动力学模型对于捕捉人机交互 (HRI) 固有的复杂性和可变性非常重要。因此，学习这种共享的动态模型可以增强协调性和适应性，从而实现与人类伙伴的成功反应交互。在这项工作中，我们提出了一种新方法，用于从专家混合方式的演示中学习 HRI 的共享潜在空间表示，以便根据人类观察反应性地生成机器人动作。我们训练变分自动编码器（VAE）来学习使用信息丰富的潜在空间先验进行正则化的机器人运动，该潜在空间通过混合密度网络（MDN）捕获人类观察的多模态。我们展示了我们的公式如何源自高斯混合回归公式，该公式通常用于通过演示学习 HRI 的方法，例如使用 HMM/GMM 来学习人类和机器人动作的联合分布。我们进一步引入了额外的正则化来防止“模式崩溃”，这是使用带有 VAE 的潜在空间混合模型时的常见现象。我们发现，与之前基于 HMM 或学习共享潜在表示的循环方法相比，我们使用来自人类观察的信息丰富的 MDN 进行 VAE 的方法可以生成更准确的机器人运动，我们在涉及握手等交互的各种 HRI 数据集上进行了验证。碰拳、挥手和交接。在现实世界的人机切换场景中的进一步实验表明，我们的方法在与四个不同的人类交互伙伴产生成功交互方面的有效性。

用于模拟肌腱驱动机器人导管系统的 Cosserat 杆

分类： 机器人技术

作者： Pierre-Frederic Villard, Thomas M. Waite, Robert D. Howe

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07618v1

摘要： 肌腱驱动的机器人导管能够精确执行微创心脏手术，包括消融和成像。这些程序不仅需要导管和肌腱的精确数学模型，还需要它们与周围组织和脉管系统的相互作用的精确数学模型，以便控制机器人路径和相互作用。本文提出了基于 Cosserat 杆并与稳定的隐式欧拉方案集成的肌腱驱动机器人导管系统的机械模型。我们将 Cosserat 杆用作简单导管中心线的模型，并根据大变形分析模型和实验数据验证其物理精度。然后通过添加第二根 Cosserat 杆来对单个肌腱进行建模，并使用惩罚力来定义肌腱-导管系统的约束，从而对导管模型进行补充。所有模型参数均由设计建立的导管属性定义。根据实验数据验证组合模型，以确认其物理准确性。该模型代表了对机器人导管建模领域的新贡献，其中肌腱和导管均由机械 Cosserat 杆建模，并根据单杆系统的实验数据进行了充分验证。

悬臂结构稳定性分析及其在软体机械臂中的应用

分类： 软凝聚态物质, 经典分析和常微分方程, 应用物理

作者： Siva Prasad Chakri Dhanakoti

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07601v1

摘要： 变分结构在物理科学问题分析中的应用非常广泛。类似悬臂梁的问题，其中一端受固定值影响，另一端自由，目前研究较少，特别是在其稳定性方面，尽管其数量众多。在本文中，我们通过使用广义雅可比条件（包括计算共轭点）检查能量泛函的第二个变体来开发这些问题的稳定性条件。这些共轭点是通过从所得的线性平衡方程中求解一组初始值问题来确定的。我们应用这些条件来研究承受尖端载荷的本质弯曲弹性悬臂梁的非线性稳定性。采用基尔霍夫杆理论来模拟弹性杆变形。特别强调了固有曲率在引发复杂非线性现象（例如回弹不稳定性）中的作用。使用各种示例演示了这种快速恢复不稳定性，强调了它对各种系统参数的依赖性。所提供的示例说明了柔性软机器人手臂和机构设计中的潜在应用。

寻找高性能软机器人设计的“MAP”：使用 MAP 精英和拓扑优化遍历复杂的设计空间

分类： 机器人技术, 神经和进化计算

作者： Yue Xie, Josh Pinskier, Lois Liow, David Howard, Fumiya Iida

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07591v1

摘要： 软机器人技术已成为抓取可变形物体的标准解决方案，并已被证明对于极端环境中的移动机器人探索具有无价的价值。然而，尽管有这种增长，但还没有广泛采用的计算设计工具来产生高质量、可制造的设计。为了超越启发式生物灵感的收益递减，该领域需要有效的工具来探索软机器人中存在的复杂、非线性设计空间，并找到新颖的高性能设计。在这项工作中，我们研究了一种分层设计优化方法，该方法结合了拓扑优化和质量多样性优化的优势，通过发展设计领域来生成多样化的高性能软机器人。该方法在设计域中嵌入不同大小的空隙区域，并改变它们的大小和位置，以促进对设计空间的更丰富的探索，并找到一组多样化的高性能软机器人。我们展示了其在基准拓扑优化问题和软机器人设计问题上的功效，并表明该方法在应用于软抓手时可以增强抓取性能。我们的方法提供了一个新的框架来设计复杂设计领域（软性和刚性）中的零件。

使用检测算法的导弹检测和销毁机器人

分类： 机器人技术, 人工智能

作者： Md Kamrul Siam, Shafayet Ahmed, Md Habibur Rahman, Amir Hossain Mollah

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07452v2

摘要： 这项研究基于世界上现有的导弹探测技术并对这些技术进行分析，以找到在孟加拉国实施该系统的成本有效的解决方案。本文将介绍使用光电传感器和脉冲多普勒雷达的导弹探测技术。该系统用于探测目标导弹。借助超声波声纳、金属探测器传感器和烟雾探测器传感器进行自动检测和销毁。该系统主要基于超声波声纳传感器。它有一个传感器、一个发射器和一个接收器。传感器与控制器相连。当它按照算法检测到物体时，它会找到它的距离和角度。它还可以通过使用另一种算法的模拟来确定系统是否能够破坏物体。

基于子图的映射和噪声增强策略的分布式多机器人势场探索

分类： 机器人技术

作者： Khattiya Pongsirijinda, Zhiqiang Cao, Kaushik Bhowmik, Muhammad Shalihan, Billy Pik Lik Lau, Ran Liu, Chau Yuen, U-Xuan Tan

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07409v1

摘要： 多机器人协作由于其能够完成各种具有挑战性的情况而成为未知环境探索中必需的组成部分。基于势场的方法因其高效率和低旅行成本而被广泛用于自主探索。然而，探索速度和协作能力仍然是具有挑战性的话题。因此，我们提出了一种分布式多机器人基于势场的探索（DMPF-Explore）。特别是，我们首先提出了一种基于分布式子图的多机器人协作建图方法（DSMC-Map），该方法可以有效地估计机器人轨迹并通过合并每个机器人的局部地图来构建全局地图。其次，我们引入了一种改进的波前距离和有色噪声增强的基于势场的勘探策略（MWF-CN），其中扩展了可达边界邻域，并且有色噪声激发了勘探性能的增强。所提出的探索方法被部署用于模拟和现实场景。结果表明，我们的方法在探索速度和协作能力方面优于现有方法。

RoboCAS：复杂物体排列场景中机器人操作的基准

分类： 机器人技术

作者： Liming Zheng, Feng Yan, Fanfan Liu, Chengjian Feng, Zhuoliang Kang, Lin Ma

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06951v1

摘要： 基础模型在使机器人执行长期一般操作任务方面具有巨大潜力。然而，现有基准测试中任务的简单性和环境的统一性限制了它们在复杂场景中的有效部署。为了解决这个限制，本文引入了 \textit{RoboCAS} 基准，这是第一个专门为机器人操作中复杂的对象排列场景设计的基准。该基准采用灵活、简洁的脚本化策略来有效地收集各种演示，在高度真实的物理模拟环境中展示分散、有序和堆叠的对象排列。它包括目标检索、越障和机器人操作等复杂过程，测试代理执行空间推理的长期规划的能力以及在模糊指令下预测连锁反应的能力。对多个基线模型的大量实验揭示了它们在管理复杂对象排列场景方面的局限性，强调了对能够在实际部署中执行长视野操作的智能代理的迫切需求，并为未来的研究方向提供了宝贵的见解。项目网站：\url{https://github.com/notFoundThisPerson/RoboCAS-v0}。

同心管机器人入门套件

分类： 机器人技术

作者： Kalina Bonofiglio, Wenpeng Wang, Ethan R. Wilke, Adri Rajaraman, Loris Fichera

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06943v1

摘要： 同心管机器人 (CTR) 因其灵活性、灵巧性和易于小型化而在外科机器人领域引起了极大的兴趣。然而，掌握 CTR 独特的运动学和设计原理对于该领域的新手来说可能具有挑战性。在本文中，我们提出了一个教育套件，旨在降低进入同心管机器人研究的障碍。我们的目标是为 CTR 提供可访问的学习资源，弥合传统机械臂和这些专用设备之间的知识差距。拟议的套件包括 (1) 用于经济（材料成本约 700 美元）模块化 CTR 的开源设计和组装说明； (2) 一套自学材料，用于学习 CTR 建模和控制的基础知识，包括自动评分的作业。为了评估我们的教育套件的有效性，我们对工程学一年级研究生进行了一项人体研究。在四个星期的时间里，参与者（他们中没有人对同心管机器人有任何先验知识）使用提供的材料成功构建了他们的第一个 CTR，在 MATLAB 中实现了机器人的运动学，并使用光学传感器进行了尖端跟踪实验。跟踪装置。我们的研究结果表明，所提出的套件有助于 CTR 的学习和实践经验，此外，它有可能帮助早期研究生快速开始 CTR 研究。通过传播这些资源，我们希望将同心管机器人研究的参与范围扩大到更广泛、更多样化的研究人员群体。

使用强化学习在受控空域拦截未经授权的空中机器人

分类： 机器人技术, 人工智能, 机器学习

作者： Francisco Giral, Ignacio Gómez, Soledad Le Clainche

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06909v1

摘要： 无人机（UAV）在受控空域的扩散带来了巨大的风险，包括潜在的碰撞、空中交通中断和安全威胁。确保空域安全高效运行，特别是在城市环境和关键基础设施附近，需要有效的方法来拦截未经授权或不合作的无人机。这项工作满足了对能够通过使用强化学习（RL）来管理此类威胁的强大、自适应系统的迫切需求。我们提出了一种利用强化学习训练固定翼无人机追踪代理拦截动态逃避目标的新方法。我们的方法探索了基于模型和无模型的 RL 算法，特别是 DreamerV3、Truncated Quantile Critics (TQC) 和 Soft Actor-Critic (SAC)。这些算法的训练和评估是在不同的场景下进行的，包括看不见的规避策略和环境扰动。我们的方法利用高保真飞行动力学模拟来创建真实的训练环境。这项研究强调了开发用于无人机拦截的智能自适应控制系统的重要性，这对促进安全高效的空域管理做出了重大贡献。它展示了强化学习在训练能够自主完成这些关键任务的系统方面的潜力。

拥挤环境中多机器人集群的启发式预测控制

分类： 机器人技术

作者： Guobin Zhu, Qingrui Zhang, Bo Zhu, Tianjiang Hu

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06812v1

摘要： 多机器人集群在不同领域中比单机器人系统具有非凡的优势，但在拥挤的环境中确保安全和最佳性能具有挑战性。因此，本文重点研究拥挤环境中多个机器人的分布式最优集群控制。提出了一种基于吉布斯随机场（GRF）的启发式预测控制解决方案，其中仿生势函数用于表征机器人与机器人以及机器人与环境的相互作用。通过最大化 GRF 在未来某个时刻的后验联合分布来获得最优解。开发了基于梯度的启发式解决方案，可以显着加快最优控制的计算速度。还进行了数学分析以证明启发式解决方案的有效性。设计了多个碰撞风险级别，以提高机器人在动态环境中的避碰性能。在具有挑战性的仿真环境中，基于不同的指标，从多个角度对所提出的启发式预测控制进行综合评估。通过与非启发式预测控制和两种现有流行的集群控制方法的比较，验证了所提出算法的能力。还使用四架四旋翼无人机进行了实际实验，以进一步证明所提出设计的效率。

移动机器人的神经形态感知和导航：综述

分类： 机器人技术

作者： A. Novo, F. Lobon, H. G. De Marina, S. Romero, F. Barranco

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06792v1

摘要： 随着机器人和人工智能快速且不可阻挡的发展，现实场景中有效的自主导航已成为文献中最紧迫的挑战之一。然而，实时操作、能源和计算效率、稳健性和可靠性等苛刻要求使得大多数当前解决方案不适合应对现实世界的挑战。因此，研究人员被迫寻求创新方法，例如仿生解决方案。事实上，动物具有有效感知、理解和驾驭非结构化环境的内在能力。为此，他们在认知过程中利用自我运动线索、本体感觉和视觉流来绘制他们的环境并在其中定位自己。计算神经科学家的目标是回答大脑中“如何”和“为什么”发生这种认知过程，设计新颖的神经形态传感器和模仿生物处理的方法。本次调查旨在全面回顾类脑策略在自主导航中的应用，考虑：神经形态感知和异步事件处理、节能和自适应学习，或模仿在导航中发挥关键作用的大脑区域的工作原理例如海马体或内嗅皮层。