MiX Knowledge

通过自主现实世界强化学习不断改进移动操作

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习, 系统与控制, 系统与控制

作者： Russell Mendonca, Emmanuel Panov, Bernadette Bucher, Jiuguang Wang, Deepak Pathak

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20568v1

摘要： 我们提出了一个用于移动操作的完全自主的现实世界强化学习框架，该框架可以在没有大量仪器或人工监督的情况下学习策略。这是通过以下方式实现的：1) 任务相关的自主性，它指导对对象交互的探索并防止目标状态附近的停滞，2) 通过利用行为先验中的基本任务知识进行有效的策略学习，以及 3) 制定结合人类可解释语义的通用奖励具有低水平、细粒度观察的信息。我们证明，我们的方法允许 Spot 机器人在一组四个具有挑战性的移动操作任务中不断提高其性能，在任务中获得 80% 的平均成功率，比现有方法提高 3-4 倍。视频可以在 https://continual-mobile-manip.github.io/ 找到

LaMMA-P：使用 LM 驱动的 PDDL 规划器进行泛化多智能体长期任务分配和规划

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习, 多代理系统

作者： Xiaopan Zhang, Hao Qin, Fuquan Wang, Yue Dong, Jiachen Li

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20560v1

摘要： 语言模型（LM）具有很强的理解自然语言的能力，使其能够有效地将人类指令转化为简单机器人任务的详细计划。尽管如此，处理长期任务仍然是一个重大挑战，特别是在协作异构机器人团队的子任务识别和分配方面。为了解决这个问题，我们提出了一种语言模型驱动的多智能体 PDDL 规划器（LaMMA-P），这是一种新颖的多智能体任务规划框架，可以在长期任务上实现最先进的性能。 LaMMA-P 集成了 LM 的推理能力和传统启发式搜索规划器的优势，以实现高成功率和效率，同时展示跨任务的强大泛化能力。此外，我们还创建了 MAT-THOR，这是一个综合基准，基于 AI2-THOR 环境，以两种不同复杂程度的家庭任务为特征。实验结果表明，与现有基于 LM 的多智能体规划器相比，LaMMA-P 的成功率提高了 105%，效率提高了 36%。这项工作的实验视频、代码和数据集以及每个模块中使用的详细提示可以在 https://lamma-p.github.io 上找到。

通过交互式多模型估计在线识别打滑模式

分类： 机器人技术

作者： Ameya Salvi, Pardha Sai Krishna Ala, Jonathon M. Smereka, Mark Brudnak, David Gorsich, Matthias Schmid, Venkat Krovi

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20554v1

摘要： 滑移轮移动机器人（SSWMR）在各种室外环境中运行，表现出受复杂轮地相互作用影响的运动行为。从直接机器人自主角度（用于运动预测和控制）以及长期预测维护和诊断角度来看，描述这些相互作用都至关重要。理想的解决方案需要捕获精确的状态测量以进行决策和控制，这是相当困难的，特别是在这些机器人日益非结构化的户外操作环境中。在这种环境下，识别预定离散操作模式的框架可以大大简化运动模型识别过程。为此，我们提出了一种基于交互式多模型（IMM）的过滤框架，以概率地识别由于在不同地形中行驶或车轮牵引力损失而可能出现的预定义机器人操作模式。

UniAff：工具使用和视觉语言模型清晰度的功能可供性的统一表示

分类： 机器人技术

作者： Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20551v1

摘要： 先前关于机器人操纵的研究基于对底层 3D 运动约束和可供性的有限理解。为了应对这些挑战，我们提出了一个名为 UniAff 的综合范式，它将 3D 以对象为中心的操作和任务理解集成在一个统一的公式中。具体来说，我们构建了一个标有操作相关关键属性的数据集，包括 19 个类别的 900 个铰接对象和 12 个类别的 600 个工具。此外，我们利用 MLLM 来推断操作任务的以对象为中心的表示，包括可供性识别和关于 3D 运动约束的推理。模拟和现实环境中的综合实验表明，UniAff 显着提高了机器人操作工具和铰接物体的泛化能力。我们希望 UniAff 能够成为未来统一机器人操作任务的通用基线。图片、视频、数据集和代码发布在项目网站上：https://sites.google.com/view/uni-aff/home

Robi Butler：与家用机器人助手的远程多模式交互

分类： 机器人技术, 人工智能, 人机交互

作者： Anxing Xiao, Nuwan Janaka, Tianrun Hu, Anshul Gupta, Kaixin Li, Cunjun Yu, David Hsu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20548v1

摘要： 在本文中，我们介绍了 Robi Butler，这是一种新型家用机器人系统，可以与远程用户进行多模式交互。 Robi Butler 基于先进的通信接口，允许用户监控机器人的状态、发送文本或语音指令，并通过手势选择目标对象。我们系统的核心是一个由大型语言模型 (LLM) 提供支持的高级行为模块，它解释多模式指令以生成行动计划。这些计划由一组由视觉语言模型 (VLM) 支持的开放词汇基元组成，可处理文本和指向查询。上述组件的集成使得Robi Butler能够以零样本的方式在现实家庭环境中实现远程多模式指令。我们使用涉及远程用户发出多模式指令的各种日常家务任务来展示该系统的有效性和效率。此外，我们还进行了一项用户研究，以分析多模式交互如何影响远程人机交互过程中的效率和用户体验，并讨论潜在的改进。

球形机器人的视觉集体行为

分类： 机器人技术, 系统与控制, 系统与控制

作者： Diego Castro, Christophe Eloy, Franck Ruffier

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20539v1

摘要： 传统上，集体运动的实施忽视了个人有限的感知能力，而是假设对环境有无所不知的感知。这项研究以“机器人在环”方法实现了视觉集群模型，通过由 10 个独立的球形机器人组成的集群来重现这些行为。该模型仅利用每个机器人的全景视觉信息（例如相邻机器人的视网膜位置、光学尺寸和光流）来实现机器人集体运动。我们引入虚拟锚来限制机器人的集体运动，以避免墙壁相互作用。一种简单的视觉机器人在环方法首次成功地再现了几个集体运动阶段，特别是蜂群和铣削。该模型实现的另一个里程碑是通过使用相同的视觉模型在两种环境中展示几乎相同的行为，从而弥合模拟和物理实验之间的差距。总而言之，我们表明，我们的最小视觉集体运动模型足以在机器人在环系统上重建大多数集体行为，该系统是可扩展的，行为符合数值模拟预测，并且很容易与传统模型进行比较。

使用异构预训练 Transformer 扩展本体视觉学习

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20537v1

摘要： 如今训练通用机器人模型的障碍之一是异质性。以前的机器人学习方法通常会收集数据，以针对一项任务的特定实施例进行训练，这种方法成本高昂且容易过度拟合。这项工作研究了通过跨不同实施例和任务的机器人数据的异构预训练来学习策略表示的问题。我们提出了异构预训练变压器（HPT），它预训练一个大型的、可共享的策略神经网络主干，以学习任务和实施无关的共享表示。这种通用架构将来自不同实施例的特定本体感觉和视觉输入与短序列的令牌对齐，然后处理这些令牌以映射到控制机器人以执行不同的任务。利用最近的大规模多实施例现实世界机器人数据集以及模拟、部署的机器人和人类视频数据集，我们研究了跨异质性的预训练策略。我们进行实验来研究训练目标的缩放行为，涉及 52 个数据集。 HPT 的性能优于多个基准，并将在多个模拟器基准测试和现实环境中未见过的任务上的微调策略性能提高了 20% 以上。请参阅项目网站 (https://liruiw.github.io/hpt/) 以获取代码和视频。

用于灵巧遥控操作的双向动量触觉反馈和控制系统

分类： 机器人技术

作者： Haoyang Wang, Haoran Guo, He Ba, Zhengxiong Li, Lingfeng Tao

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20527v1

摘要： 触觉反馈对于灵巧的遥控操作至关重要，它使操作员能够以高技能和精确度远程控制机器人手，模仿人手的自然运动和感觉。然而，当前用于灵巧遥控操作的触觉方法无法支持扭矩反馈，导致物体旋转和滚动不匹配。操作员必须在这些任务中进行繁琐的调整，从而导致延误、态势感知能力下降和任务绩效不佳。这项工作提出了一种基于双向动量的触觉反馈和控制（Bi-Hap）系统，用于实时灵巧远程操作。 Bi-Hap 集成了多模态传感器来提取人类与物体的交互信息，并将其与机器人基于学习的控制器共享。开发了磁场定向控制 (FOC) 算法，使集成无刷主动动量轮能够生成精确的扭矩和振动反馈，从而弥合人类意图和机器人动作之间的差距。针对不同的错误状态设计了不同的反馈策略，以符合操作员的直觉。使用虚拟 Shadow Dexterous Hand 对人类受试者进行的大量实验证明了 Bi-Hap 在提高任务绩效和用户信心方面的有效性。 Bi-Hap实现了低指令跟随延迟（延迟<0.025s）和高精度扭矩反馈（RMSE<0.010 Nm）的实时反馈能力。

Opt2Skill：模仿动态可行的全身轨迹以实现多功能人形机器人操作

分类： 机器人技术

作者： Fukang Liu, Zhaoyuan Gu, Yilin Cai, Ziyi Zhou, Shijie Zhao, Hyunyoung Jung, Sehoon Ha, Yue Chen, Danfei Xu, Ye Zhao

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20514v1

摘要： 人形机器人被设计用来执行各种局部操作任务。然而，由于其高维和不稳定的动力学，以及任务的复杂、接触丰富的性质，它们面临着挑战。基于模型的最优控制方法提供精确和系统的控制，但受到高计算复杂性和精确接触传感的限制。另一方面，强化学习 (RL) 提供鲁棒性并可处理高维空间，但存在学习效率低、运动不自然以及模拟与真实差距等问题。为了应对这些挑战，我们引入了 Opt2Skill，这是一种端到端管道，它将基于模型的轨迹优化与 RL 相结合，以实现强大的全身局部操纵。我们使用微分动态规划 (DDP) 为数字人形机器人生成参考运动，并训练 RL 策略来跟踪这些轨迹。我们的结果表明，Opt2Skill 在训练效率和任务性能方面都优于纯 RL 方法，并具有考虑扭矩限制的最佳轨迹，增强了轨迹跟踪。我们成功地将我们的方法转移到现实世界的应用中。

评估卷积神经网络层深度对增强惯性导航系统解决方案的影响

分类： 机器人技术

作者： Mohammed Aftatah, Khalid Zebbara

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20488v1

摘要： 安全导航对于自动驾驶汽车、机器人和航空等多种应用至关重要。惯性导航系统通过航位推算来估计位置、速度和姿态，特别是当 GPS 等外部参考不可用时。然而，组成该系统的三个加速度计和三个陀螺仪面临各种类型的误差，包括偏置误差、比例因子误差和噪声，这些误差会显着降低导航的精度，这也是该系统的一个关键漏洞。这项工作旨在采用监督卷积神经网络（ConvNet）来解决惯性导航系统固有的漏洞。除此之外，本文还评估了 ConvNet 层的深度对这些校正的准确性的影响。该评估旨在确定最佳层配置，最大限度地提高 INS（惯性导航系统）纠错的有效性，从而实现精确的导航解决方案。

触觉传感器数量和放置对基于学习的灵巧操作的影响

分类： 机器人技术

作者： Haoran Guo, Haoyang Wang, Zhengxiong Li, He Bai, Lingfeng Tao

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20473v1

摘要： 触觉信息有效地为基于学习的手动操作提供更快的训练和更好的任务表现。现有方法在具有大量触觉传感器的模拟环境中得到验证。然而，由于成本高和物理限制，将这种传感器连接到真实的机器人手上并不适用。为了在现实世界中采用触觉传感器，本研究调查了触觉传感器（包括它们在机器人手上的不同数量和位置）对灵巧操作任务性能的影响，并分析了每个传感器的重要性。通过凭经验减少传感器数量，我们成功找到了一组优化的触觉传感器（21 个传感器）配置，与块操作任务的原始组（92 个传感器）相比，它仅用 20% 的传感器数量即可保持超过 93% 的任务性能，传感器制造和设计成本可能降低 80% 以上。为了将经验结果转化为可概括的理解，我们使用加权线性回归算法构建了任务性能预测模型，并用它来预测不同传感器配置的任务性能。为了显示其普适性，我们在鸡蛋和笔操作任务中验证了该模型，并取得了 3.12% 的平均预测误差。

在室外环境中使用物理接地视觉语言模型的机器人导航

分类： 机器人技术

作者： Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Ruiqi Xian, Tianrui Guan, Mohamed Khalid M Jaffar, Vignesh Rajagopal, Dinesh Manocha

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20445v1

摘要： 我们提出了一种适用于室外环境的新型自主机器人导航算法，能够处理不同的地形穿越条件。我们的方法 VLM-GroNav 使用视觉语言模型 (VLM) 并将其与物理接地相集成，用于评估固有地形特性，例如变形性和打滑性。我们使用基于本体感受的传感，它可以直接测量这些物理特性，并增强对地形的整体语义理解。我们的公式使用上下文学习将 VLM 的语义理解与本体感受数据结合起来，从而允许基于机器人与环境的实时物理交互动态更新可遍历性估计。我们使用更新的可遍历性估计来通知本地和全局规划者进行实时轨迹重新规划。我们在具有不同变形和湿滑地形的各种真实户外环境中，在腿式机器人（Ghost Vision 60）和轮式机器人（Clearpath Husky）上验证了我们的方法。在实践中，我们观察到与最先进的方法相比有了显着改进，导航成功率提高了 50%。

ALLO：用于月球轨道机器人接近操作期间异常检测的真实感数据集和数据生成管道

分类： 机器人技术

作者： Selina Leveugle, Chang Won Lee, Svetlana Stolpner, Chris Langley, Paul Grouchy, Steven Waslander, Jonathan Kelly

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20435v1

摘要： 美国宇航局即将建成的月球门户空间站大部分时间都是无人驾驶的，需要以前所未有的自主程度运行。增强网关的自主性提出了几个独特的挑战，其中之一是为网关的外部机器人系统 Canadaarm3 配备执行工作现场监控的能力。监控将涉及使用手臂的检查摄像头来检测操作环境中的任何异常情况，由于太空中变化多样的照明条件，这项任务变得更加复杂。在本文中，我们介绍了空间应用的视觉异常检测和定位任务，并使用我们名为 ALLO（月球轨道异常定位）的新型合成数据集建立了基准。我们开发了一个完整的数据生成管道来创建 ALLO，我们用它来评估最先进的视觉异常检测算法的性能。鉴于太空操作期间对风险的容忍度较低且缺乏相关数据，我们强调需要新颖、稳健且准确的异常检测方法来处理月球轨道及其他地区发现的具有挑战性的视觉条件。

触发式分布式反馈优化多机器人目标监控与包围

分类： 机器人技术

作者： Lorenzo Pichierri, Guido Carnevale, Lorenzo Sforni, Giuseppe Notarstefano

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20399v1

摘要： 我们设计了一种分布式反馈优化策略，嵌入到模块化 ROS 2 控制架构中，允许一组异构机器人在巡逻兴趣点时协作监视和包围目标。依靠聚合反馈优化框架，我们处理多机器人动力学，同时最小化取决于微观变量（例如，单个机器人的位置）和宏观变量（例如，团队的空间分布）的全局性能指数。所提出的分布式策略允许机器人通过仅采用本地测量和邻近数据交换来合作解决全局问题。这些交换是通过由本地可验证的触发条件控制的异步通信协议执行的。我们正式证明我们的策略将机器人引导到一组代表所考虑的优化问题的驻点的配置。整体策略的有效性和可扩展性通过真实的 Webots ROS 2 虚拟实验的蒙特卡罗活动进行了测试。最后，我们的解决方案的适用性通过地面和空中机器人的实际实验得到了证明。

从工人的角度来看自动化

分类： 人机交互, 机器人技术

作者： Ben Armstrong, Valerie K. Chen, Alex Cuellar, Alexandra Forsey-Smerek, Julie A. Shah

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20387v1

摘要： 关于自动化的常见说法常常使新技术与工人对立。先进机床、工业机器人和人工智能的引入都引发了人们的担忧，即技术进步将意味着就业机会减少。然而，工人们自己却提出了更乐观、更细致的观点。本文根据 2024 年对九个国家 9,000 多名工人进行的影响深远的调查发现，越来越多的工人表示，机器人和人工智能等新技术对他们的工作安全性和舒适度、工资以及工作自主权有潜在好处而不是报告潜在成本。从事需要解决复杂问题的工作的员工、感到受到雇主重视的员工以及有动力在职业生涯中晋升的员工都更有可能认为新技术是有益的。与之前研究中的假设相反，在某些情况下，更正规的教育与对自动化及其对工作的影响更消极的态度有关。在实验环境中，对工人进行经济激励的前景会改善他们对自动化技术的看法，而增加对如何使用新技术的投入的前景不会对工人对自动化的态度产生重大影响。

使用大语言模型在边缘设备上进行高效驾驶行为叙述和推理

分类： 人工智能, 计算机视觉和模式识别, 机器人技术

作者： Yizhou Huang, Yihua Cheng, Kezhi Wang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20364v1

摘要： 具有强大推理能力的深度学习架构推动了自动驾驶技术的重大进步。该领域应用的大型语言模型（LLM）可以以类似于人类感知的准确度描述驾驶场景和行为，特别是在视觉任务中。同时，边缘计算的快速发展，以其靠近数据源的优势，使得边缘设备在自动驾驶中变得越来越重要。边缘设备在本地处理数据，减少传输延迟和带宽使用，并实现更快的响应时间。在这项工作中，我们提出了一种将大语言模型应用于边缘设备的驾驶行为叙述和推理框架。该框架由多个路边单元组成，每个单元上都部署了大语言模型。这些路边单元收集道路数据并通过 5G NSR/NR 网络进行通信。我们的实验表明，部署在边缘设备上的LLM可以达到令人满意的响应速度。此外，我们提出了一种即时策略来增强系统的叙述和推理性能。该策略集成了多模态信息，包括环境、代理和运动数据。在 OpenDV-Youtube 数据集上进行的实验表明，我们的方法显着提高了这两项任务的性能。

由介电弹性体执行器驱动的软并联机器人的设计、制造和逆动态建模

分类： 机器人技术, 系统与控制, 系统与控制

作者： Jung-Che Chang, Xi Wang, Dragos Axinte, Xin Dong

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20344v1

摘要： 软并联机器人以其操纵安全性和较低的商业成本，为精细操作和安全的人机交互展示了广阔的前景。然而，由于产品质量改进不足以及多个执行器之间协作的动态建模，推广电活性聚合物（EAP）的使用仍然具有挑战性。本文介绍了由介电弹性体执行器 (DEA) 驱动的并联运动学 Delta 机器人的设计、制造、建模和控制。通过角行程放大机构重新权衡驱动力和行程之间的关系，并利用3D迷惑条结构减轻机器人框架的重量。在硅基薄膜上构建高稳定性导电涂料的通用方法是通过激光扫描 DE 薄膜，然后将导电颗粒基电极与由颗粒和光敏树脂混合的涂料夹在中间。与广泛使用的碳脂相比，制作的电极在现场测试前后的动态行为表现出更高的一致性。最后，为了预测机器人末端执行器的输出力和逆向运动，我们通过将扩展的 Bergstrom-Boyce 模型引入介电薄膜的本构行为来构建逆向动力学模型。实验结果表明，当末端执行器保持静止时，机器人输出力的 RSME 预测为 12.4%，轨迹跟踪良好，RSME 小于 2.5%。

RL-GSBridge：基于 3D 高斯分布的 Real2Sim2Real 机器人操作学习方法

分类： 机器人技术

作者： Yuxuan Wu, Lei Pan, Wenhua Wu, Guangming Wang, Yanzi Miao, Hesheng Wang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20291v1

摘要： Sim-to-Real 是指将模拟中学到的策略转移到现实世界的过程，这对于实现实际的机器人应用至关重要。然而，最近的 Sim2real 方法要么依赖于大量的增强数据，要么依赖于大型学习模型，这对于特定任务来说效率低下。近年来，基于辐射场的重建方法，特别是3D高斯溅射的出现，使得再现逼真的现实世界场景成为可能。为此，我们提出了一种新颖的真实到模拟到真实的强化学习框架 RL-GSBridge，它引入了基于网格的 3D 高斯 Splatting 方法来实现基于视觉的零样本模拟到真实的迁移深度强化学习。我们通过使用软绑定约束改进了基于网格的 3D GS 建模方法，提高了网格模型的渲染质量。然后，我们采用 GS 编辑方法将渲染与物理模拟器同步，从而更准确地反映物理机器人的交互。通过一系列从模拟到真实的机械臂实验，包括抓取和拾放任务，我们证明了 RL-GSBridge 在从模拟到真实的传输过程中，在现实世界的任务完成中保持了令人满意的成功率。此外，一系列渲染指标和可视化结果表明，我们提出的基于网格的 3D 高斯减少了非结构化对象中的伪影，展示了更真实的渲染性能。

用于协作多机器人感知的分布式 NeRF 学习

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Hongrui Zhao, Boris Ivanovic, Negar Mehr

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20289v1

摘要： 有效的环境感知对于实现下游机器人应用至关重要。单个机器人代理经常面临遮挡和可见性有限的问题，而多代理系统可以提供更全面的环境映射、更快的覆盖范围和更高的容错能力。在本文中，我们提出了一种协作式多智能体感知系统，其中智能体共同从摆出的 RGB 图像中学习神经辐射场 (NeRF) 来表示场景。每个代理处理其本地传感数据，并仅与其他代理共享其学习的 NeRF 模型，从而减少通信开销。鉴于 NeRF 的内存占用较低，这种方法非常适合带宽有限的机器人系统，在这些系统中传输所有原始数据是不切实际的。我们的分布式学习框架确保代理的本地 NeRF 模型之间的一致性，从而能够收敛到统一的场景表示。我们通过对包含具有挑战性的现实世界场景的数据集进行大量实验，展示了我们方法的有效性，实现了与数据发送到中央服务器进行处理的环境的集中式映射相当的性能。此外，我们发现多智能体学习提供了正则化的好处，提高了输入视图稀疏的场景中的几何一致性。我们表明，在这种情况下，多智能体映射甚至可以优于集中式训练。

用于鲁棒运动规划的证据网格地图融合的自我评估

分类： 机器人技术

作者： Oliver Schumann, Thomas Wodtko, Michael Buchholz, Klaus Dietmayer

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20286v1

摘要： 相互冲突的传感器测量给自主机器人的环境表示带来了巨大的问题。因此，在本文中，我们解决了证据网格地图的自我评估问题，其中融合了来自冲突的 LiDAR 传感器测量的数据，然后提出了在这些情况下进行稳健运动规划的方法。首先，对基于主观逻辑的证据网格图中聚合的冲突测量进行分类。然后，自我评估框架评估这些冲突，并通过计算降级分数来估计其对整个系统的严重性。这使得能够检测校准错误和不充分的传感器设置。与其他运动规划方法相比，从证据网格图中获得的信息在我们提出的路径规划算法中进一步使用。在这里，评估冲突测量对当前运动计划的影响，并导出稳健且好奇的路径规划策略，以在冲突数据的影响下规划路径。这确保了在严重退化的环境表示中保持系统完整性，从而可以防止规划任务不必要的中止。

大规模主动神经映射

分类： 计算机视觉和模式识别, 机器人技术

作者： Zijia Kuang, Zike Yan, Hao Zhao, Guyue Zhou, Hongbin Zha

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20276v1

摘要： 我们推出了一种基于 NeRF 的主动测绘系统，可以对大规模室内环境进行高效、稳健的探索。我们方法的关键是从不断更新的神经图中提取广义沃罗诺图（GVG），从而实现场景几何、外观、拓扑和不确定性的协同集成。将神经图引起的不确定区域锚定到 GVG 的顶点，使探索能够沿着有效穿越未知区域的安全路径进行自适应粒度。利用现代混合 NeRF 表示，即使扩展到大型室内环境，所提出的系统在重建精度、覆盖完整性和探索效率方面也取得了有竞争力的结果。不同规模的广泛结果验证了所提出系统的有效性。

传感器同步的自评估和校正

分类： 机器人技术

作者： Thomas Wodtko, Alexander Scheible, Michael Buchholz

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20266v1

摘要： 我们提出了一种根据刚性安装传感器的旋转运动来评估其同步性的方法。使用函数相似性度量与滑动窗口方法相结合，我们的方法能够估计随时间变化的时间偏移。此外，估计的偏移允许纠正测量上错误分配的时间戳。这减轻了同步问题对自主软件堆栈中后续模块的影响，例如严重依赖准确测量时间戳的跟踪系统。此外，还得出了基于不确定性度量的自我评估，并描述了纠正策略。我们的方法通过包含不同错误模式的蒙特卡罗实验进行评估。结果表明，我们的方法准确地估计了时间偏移，因此能够检测和评估同步问题。为了进一步认识我们的方法对自主系统的重要性，我们更详细地研究了跟踪系统中同步不一致的影响，并证明了我们提出的偏移校正的有益效果。

用于狭窄空间平面运动的双稳态薄型软体机器人

分类： 机器人技术, 经典物理学

作者： Xi Wang, Jung-che Chang, Feiran Wang, Dragos Axinte, Xin Dong

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20261v1

摘要： 介电弹性体执行器（DEA）也被认为是人造肌肉，已被广泛开发用于软运动机器人。具有良好的骨架和小型化的尺寸，非常适合狭窄空间的检测。在这项工作中，我们提出了一种新颖的薄型（1.1mm）和轻质（1.8g）双稳态面内DEA（Bi-DEA），通过将介电弹性体支撑到平坦双稳态机构上而构造。与不带双稳态机构的面内DEA（I-DEA）相比，它具有放大的位移和输出力。然后，将 Bi-DEA 应用于薄型软机器人，使用三个静电粘合垫（EA-Pad）作为锚定元件。该机器人能够爬行和攀爬以进入毫米级的狭窄间隙。提出了双稳态机构和 DEA 的理论模型。该机制引起的 Bi-DEA 性能增强得到了实验验证。 EA-Pad 提供执行器和运动基底之间的粘附力，允许在各种表面（即纸张和丙烯酸树脂）上爬行和攀爬。该薄型软体机器人已被证明能够以高达3.3毫米/秒的速度爬行通过4毫米狭窄的间隙（每秒0.07个身体长度和每秒2.78个身体厚度）。

特征提取器或决策者：重新思考视觉编码器在视觉运动策略中的作用

分类： 机器人技术

作者： Ruiyu Wang, Zheyu Zhuang, Shutong Jin, Nils Ingelhag, Danica Kragic, Florian T. Pokorny

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20248v1

摘要： 端到端（E2E）视觉运动策略通常被视为一个统一的整体，但最近使用域外（OOD）数据来预训练视觉编码器的方法已经将视觉编码器与网络完全分离，其余部分简称政策。我们提出了视觉对齐测试，这是一个实验框架，旨在评估这种功能分离的有效性。我们的结果表明，在 E2E 训练的模型中，视觉编码器积极促进运动数据监督的决策，这与假设的功能分离相矛盾。相比之下，与 E2E 策略实现的最先进性能相比，编码器缺乏此功能的 OOD 预训练模型在我们的基准测试结果中平均性能下降了 42%。我们相信，对视觉编码器作用的初步探索可以为指导未来的预训练方法解决其决策能力提供第一步，例如开发任务条件或上下文感知编码器。

人机团队的协同运动和信任发展

分类： 机器人技术, 人机交互

作者： Nicola Webb, Sanja Milivojevic, Mehdi Sobhani, Zachary R. Madin, James C. Ward, Sagir Yusuf, Chris Baber, Edmund R. Hunt

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20218v1

摘要： 为了让人类和机器人组成有效的人机团队 (HRT)，在整个任务过程中团队成员之间必须有足够的信任。我们分析了一项 HRT 实验的数据，该实验重点关注一个人和两个机器人组成的团队中的信任动态，其中信任是由暂时无反应的机器人操纵的。使用超声波信标以及来自人机界面的通信和性能日志来实现全身运动跟踪。我们发现证据表明，在一定的空间接近度内，人机运动的时间序列之间的同步与自我报告的信任的变化相关。这表明，空间关系学和运动学的相互作用，即通过空间一起移动，可以通过协调进行隐式通信，可以在建立和维持人类机器人团队的信任方面发挥作用。因此，团队成员之间协调动态的定量指标可用于预测一段时间内的信任，并在信任受损时提供需要及时修复信任的早期预警信号。因此，我们的目标是开发移动人类机器人团队的信任度量。

主动聆听者：在二元交互中连续生成聆听者的头部运动响应

分类： 机器人技术, 声音, 音频和语音处理

作者： Bishal Ghosh, Emma Li, Tanaya Guha

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20188v1

摘要： 二元口语交互的一个关键组成部分是上下文相关的非语言手势，例如反映听者对对话者语音反应的头部运动。尽管在生成共同语音手势方面已经取得了重大进展，但生成听众的响应仍然是一个挑战。我们介绍了实时生成听者对说话者语音的连续头部运动响应的任务。为此，我们提出了一种基于图的端到端跨模态模型，该模型以对话者的语音音频作为输入，并直接实时生成收听者的头部姿势角度（滚动、俯仰、偏航）。与以前的工作不同，我们的方法完全是数据驱动的，不需要手动注释或过度简化头部运动到仅仅点头和摇头。对 IEMOCAP 数据集上的二元交互会话的广泛评估表明，我们的模型产生较低的总体误差（4.5 度）和较高的帧速率，从而表明其在现实世界的人机交互系统中的可部署性。我们的代码位于 - https://github.com/bigzen/Active-Listener

通过自适应碰撞敏感性促进安全的人机协作

分类： 机器人技术

作者： Lukas Rustler, Matej Misar, Matej Hoffmann

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20184v1

摘要： 相应的 HRC 标准（例如欧洲 ISO/TS 15066）中规定了在物理人机协作 (HRC) 过程中机器人操作员认为安全的内容。允许移动机器人和操作员之间发生碰撞的机制称为功率和力限制 (PFL)，它限制了允许的接触力。在整个机器人表面上使用相同的固定接触阈值会导致显着且不必要的生产力损失，因为即使冲击力在限制范围内，机器人也需要停止。在这里，我们提出了一个框架，用于根据每个机器人连杆的有效质量和连杆速度，为机器人身体的不同部分单独设置保护皮肤阈值，并动态地动态设置。我们在 6 轴协作机器人手臂 (UR10e) 上进行实验，该机器人手臂完全覆盖有由 11 个独立垫组成的敏感皮肤 (AIRSKIN)。在具有瞬态和准静态碰撞的模拟拾放场景中，我们演示了皮肤敏感性如何影响任务性能和施加的力。我们发现，从最保守的碰撞阈值设置到最具适应性的设置，生产率提高了近 50%，同时确保了操作人员的安全。该方法适用于任何可以计算有效质量的机器人。

ILeSiA：通过摄像头输入进行态势感知的交互式学习

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Petr Vanc, Giovanni Franzese, Jan Kristof Behrens, Cosimo Della Santina, Karla Stepanova, Jens Kober

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20173v1

摘要： 从演示中学习是一种很有前途的教授机器人新技能的方法。然而，执行所获得的技能时的一个中心问题是认识到风险和失败。这是至关重要的，因为演示通常只涵盖少数大多数成功的案例。执行过程中不可避免的错误需要在演示中不明显的特定反应。在本文中，我们重点关注通过动觉教学和对自主技能执行的安全或风险的稀疏标记，从初始技能演示开始教授机器人态势感知。在运行时，我们的系统（称为 ILeSiA）通过将图像编码为低维潜在空间表示并根据编码和提供的标签训练分类器，根据感知的相机图像来检测风险。通过这种方式，ILeSiA 增强了执行机器人技能的信心和安全性。我们的实验表明，仅使用少量用户提供的数据进行训练的分类器就可以成功检测大量风险。该系统非常灵活，因为风险案例是通过标签数据定义的。这也意味着一旦人类主管发现风险就可以添加标签。我们在 imitrob.ciirc.cvut.cz/publications/ilesia 提供重现实验所需的所有代码和数据。

GravMAD：用于广义 3D 操作的接地空间值图引导动作扩散

分类： 机器人技术

作者： Yangtao Chen, Zixuan Chen, Junhui Yin, Jing Huo, Pinzhuo Tian, Jieqi Shi, Yang Gao

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20154v1

摘要： 机器人遵循语言指令并执行各种 3D 任务的能力对于机器人学习至关重要。传统的基于模仿学习的方法在见过的任务上表现良好，但由于可变性而难以处理新颖的、看不见的任务。最近的方法利用大型基础模型来帮助理解新任务，从而缓解这个问题。然而，这些方法缺乏特定于任务的学习过程，而这对于准确理解 3D 环境至关重要，常常导致执行失败。在本文中，我们介绍了 GravMAD，这是一种子目标驱动、语言条件的动作扩散框架，它结合了模仿学习和基础模型的优点。我们的方法根据语言指令将任务分解为子目标，从而在训练和推理过程中提供辅助指导。在训练期间，我们引入子目标关键姿势发现来从演示中识别关键子目标。推理与训练不同，因为没有可用的演示，因此我们使用预先训练的基础模型来弥补差距并确定当前任务的子目标。在这两个阶段中，GravMap 都是根据子目标生成的，与固定 3D 位置相比，提供灵活的 3D 空间指导。 RLBench 的实证评估表明，GravMAD 的性能显着优于最先进的方法，在新任务上提高了 28.63%，在训练期间遇到的任务上提高了 13.36%。这些结果证明了 GravMAD 在 3D 操作方面强大的多任务学习和泛化能力。视频演示位于：https://gravmad.github.io。

利用循环闭合的鲁棒高斯泼溅 SLAM

分类： 机器人技术

作者： Zunjie Zhu, Youxu Fang, Xin Li, Chengang Yan, Feng Xu, Chau Yuen, Yanyan Li

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20111v1

摘要： 3D Gaussian Splatting 算法在新颖的视图渲染应用中表现出色，并且经过调整可扩展传统 SLAM 系统的功能。然而，当前的高斯泼溅 SLAM 方法主要为手持式 RGB 或 RGB-D 传感器设计，在与旋转 RGB-D 相机设置一起使用时，会遇到跟踪漂移的问题。在本文中，我们提出了一种鲁棒的高斯泼溅 SLAM 架构，该架构利用旋转多个 RGB-D 相机的输入来实现准确的定位和逼真的渲染性能。精心设计的Gaussian Splatting Loop Closure模块有效解决了传统Gaussian Splatting SLAM系统中累积跟踪和建图误差的问题。首先，每个高斯都与一个锚帧相关联，并根据其时间戳分类为历史或小说。通过在同一视点渲染不同类型的高斯，所提出的循环检测策略考虑了共同可见性关系和不同的渲染结果。此外，还提出了一种闭环优化方法来消除相机位姿漂移并保持 3D 高斯模型的高质量。该方法使用轻量级位姿图优化算法来纠正位姿漂移并根据优化的位姿更新高斯。此外，捆绑调整方案使用光度和几何约束进一步细化相机姿势，最终增强场景的全局一致性。对合成数据集和真实数据集的定量和定性评估表明，我们的方法在相机姿态估计和新颖的视图渲染任务中优于最先进的方法。该代码将为社区开源。

使用黑盒多目标优化的旋转和棱柱关节机器人设计优化

分类： 机器人技术

作者： Kento Kawaharazuka, Kei Okada, Masayuki Inaba

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20038v1

摘要： 机器人通常具有以串行方式组合旋转关节和连杆的结构。另一方面，各种关节机构在实践中得到应用，例如棱柱关节、闭合连杆和线驱动系统。先前的研究主要集中在单个机构上，提出了通过优化连杆长度和关节布置来设计能够完成给定任务的机器人的方法。在这项研究中，我们提出了一种结合不同类型关节（特别是旋转关节和棱柱关节）的机器人设计优化方法。目标是通过利用黑盒多目标优化方法，自动生成一个机器人，在完成所需任务的同时最大限度地减少关节数量和连杆长度。这使得能够通过获得的帕累托解同时观察各种车身设计。我们的研究结果证实了旋转和棱柱关节的实际和已知组合的出现，以及新型关节组合的发现。

非线性模型预测控制的并行时间牛顿法

分类： 优化与控制, 机器人技术, 系统与控制, 系统与控制

作者： Casian Iacob, Hany Abdulsamad, Simo Särkkä

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20027v1

摘要： 模型预测控制（MPC）是动力系统最优控制的强大框架。然而，MPC 求解器的计算负担很高，这限制了它们在采样频率较低的系统中的应用。在需要在迭代过程中嵌套 MPC 求解器的非线性和约束系统中，这个问题会进一步放大。在本文中，我们通过开发用于约束非线性优化问题的时间并行算法来解决这些问题，该算法利用大规模并行硬件在规划范围内实现对数计算时间缩放。我们开发基于内点法和乘法器交替方向法的时间并行二阶求解器，利用快速收敛和较低的每次迭代计算成本。并行化基于根据关联操作重新表述子问题，可以使用关联扫描算法并行化这些子问题。我们在非线性和约束动力系统的数值例子上验证了我们的方法。

OccRWKV：重新思考具有线性复杂度的高效 3D 语义占用预测

分类： 计算机视觉和模式识别, 机器人技术

作者： Junming Wang, Wei Yin, Xiaoxiao Long, Xingyu Zhang, Zebin Xing, Xiaoyang Guo, Qian Zhang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19987v1

摘要： 3D 语义占用预测网络在重建 3D 场景的几何和语义结构方面表现出了卓越的能力，为机器人导航和自动驾驶系统提供了关键信息。然而，由于密集网络结构设计带来的巨大开销，现有网络面临着平衡准确性和延迟的挑战。在本文中，我们介绍了OccRWKV，一种受接收加权键值（RWKV）启发的高效语义占用网络。 OccRWKV 将语义、占用预测和特征融合分为不同的分支，每个分支都包含 Sem-RWKV 和 Geo-RWKV 块。这些块旨在捕获远程依赖性，使网络能够学习特定于域的表示（即语义和几何），从而提高预测准确性。利用现实世界 3D 占用的稀疏性质，我们通过将特征投影到鸟瞰图 (BEV) 空间中来减少计算开销，并提出用于高效特征增强和融合的 BEV-RWKV 块。这可以实现 22.2 FPS 的实时推理，而不会影响性能。实验表明，OccRWKV 在 SemanticKITTI 数据集上的表现优于最先进的方法，达到 25.1 的 mIoU，同时比最佳基线 Co-Occ 快 20 倍，使其适合在机器人上实时部署，以增强自主导航效率。代码和视频可以在我们的项目页面上找到：\url{https://jmwang0117.github.io/OccRWKV/}。

手术机器人的混合模型和基于学习的力估计框架

分类： 机器人技术

作者： Hao Yang, Haoying Zhou, Gregory S. Fischer, Jie Ying Wu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19970v1

摘要： 在机器人手术期间向外科医生提供的触觉反馈将使手术更加安全、更加身临其境，但事实证明，估计机器人控制的手术器械尖端的组织相互作用力具有挑战性。现有的手术机器人很少能够直接测量相互作用力，并且额外的传感器可能会限制仪器的使用寿命。我们提出了一种混合模型和基于学习的框架，用于达芬奇研究套件 (dVRK) 的患者侧机械臂 (PSM) 的力估计。基于模型的组件识别机器人的动态参数并估计自由空间关节扭矩，而基于学习的组件则补偿环境因素，例如 PSM 仪器与患者体壁之间的套管针相互作用引起的附加扭矩。我们在腹部模型中评估我们的方法，力估计误差低于 10% 归一化均方根误差。我们表明，通过使用基于模型的方法来执行动态识别，我们减少了对覆盖整个工作空间的训练数据的依赖。尽管最初是为 dVRK 开发的，但所提出的方法是其他兼容手术机器人的通用框架。该代码可在 https://github.com/vu-maple-lab/dvrk_force_estimation 获取。

DynORecon：用于导航的动态对象重建

分类： 机器人技术

作者： Yiduo Wang, Jesse Morris, Lan Wu, Teresa Vidal-Calleja, Viorela Ila

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19928v1

摘要： 本文介绍了 DynORecon，这是一种动态对象重建系统，它利用动态 SLAM 提供的信息，同时生成观察到的移动实体的体积图，同时估计可用空间以支持导航。通过利用动态 SLAM 提供的运动估计，DynORecon 不断完善动态对象的表示，以消除过去观察中的残留伪影，并逐步重建每个对象，无缝集成新的观察结果以捕获以前未见过的结构。我们的系统效率很高（约 20 FPS），并使用模拟和真实的户外数据集生成动态对象的精确（约 10 厘米）重建。

论OpenAI o1模型的规划能力：可行性、最优性和泛化性

分类： 人工智能, 机器学习, 机器人技术

作者： Kevin Wang, Junbo Li, Neel P. Bhatt, Yihan Xi, Qiang Liu, Ufuk Topcu, Zhangyang Wang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19924v2

摘要： 大型语言模型 (LLM) 的最新进展展示了它们执行复杂推理任务的能力，但它们在规划方面的有效性仍未得到充分探索。在本研究中，我们评估了 OpenAI o1 模型在各种基准任务中的规划能力，重点关注三个关键方面：可行性、最优性和通用性。通过对约束繁重的任务（例如，$\textit{Barman}$、$\textit{Tyreworld}$）和空间复杂环境（例如，$\textit{Termes}$、$\textit{Floortile}$）进行实证评估，我们强调了 o1-preview 在自我评估和约束跟踪方面的优势，同时还确定了决策和内存管理方面的瓶颈，特别是在需要强大空间推理的任务中。我们的结果表明，o1-preview 在遵守任务约束和管理结构化环境中的状态转换方面优于 GPT-4。然而，该模型通常会生成具有冗余操作的次优解决方案，并且难以在空间复杂的任务中有效地进行泛化。这项试点研究为大语言模型的规划局限性提供了基础见解，为未来改善基于大语言模型规划的内存管理、决策和泛化的研究提供了关键方向。

Playful DoggyBot：学习敏捷而精确的四足运动

分类： 机器人技术

作者： Xin Duan, Ziwen Zhuang, Hang Zhao, Soeren Schwertfeger

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19920v1

摘要： 四足动物能够执行敏捷而准确的任务：训练有素的狗可以在飞盘落地之前追逐并抓住它；独自在家的猫可以跳跃并准确地抓住门把手。然而，敏捷性和精确性通常是机器人问题中的一个权衡。最近的四足机器人工作要么专注于敏捷但不太精确的任务，例如在具有挑战性的地形中的运动，要么专注于精确但不太快速的任务，例如使用额外的操纵器与物体交互。在这项工作中，我们的目标是准确而敏捷的任务，捕捉悬挂在机器人上方的小物体。我们在机器人底盘前面安装了一个被动抓手，这样机器人就必须以极高的精度跳跃并抓住物体。我们的实验表明，我们的系统能够在模拟1.05m高和现实世界0.8m高处跳跃并成功接住球，而机器人站立时的高度为0.3m。

苹果精准授粉机器人系统：设计、开发和田间评估

分类： 机器人技术

作者： Uddhav Bhattarai, Ranjan Sapkota, Safal Kshetri, Changki Mo, Matthew D. Whiting, Qin Zhang, Manoj Karkee

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19918v1

摘要： 全球粮食生产取决于成功的授粉，这一过程依赖于自然和管理的授粉媒介。然而，由于气候变化、栖息地丧失和农药使用等不同因素，自然授粉媒介正在减少。因此，开发替代授粉方法对于可持续作物生产至关重要。本文介绍了一种用于苹果精确授粉的机器人系统，该系统不是自花授粉的，需要将花粉精确输送到花朵的柱头表面。所提出的机器人系统由识别目标花朵的机器视觉系统和带有 6 自由度 UR5e 机器人操纵器和静电喷雾器的机电系统组成。该系统在“Honeycrisp”和“Fuji”苹果园的田间试验显示出良好的结果，能够以平均 6.5 秒的喷雾周期为花簇授粉。机器人授粉系统取得了令人鼓舞的坐果率和质量，在颜色、重量、直径、硬度、可溶性固形物和淀粉含量方面可与自然授粉的水果相媲美。然而，不同苹果品种和花粉浓度的坐果和品质结果各不相同。这项研究证明了机器人人工授粉系统有可能成为商业苹果生产的高效且可持续的方法。需要进一步的研究来完善该系统并评估其在不同果园环境和苹果品种中的适用性。

通过段级选择和优化实现机器人操作中混合质量演示的有效利用

分类： 机器人技术

作者： Jingjing Chen, Hongjie Fang, Hao-Shu Fang, Cewu Lu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19917v1

摘要： 数据对于机器人操作至关重要，因为它支撑着复杂任务的机器人系统的开发。虽然高质量、多样化的数据集增强了机器人操作策略的性能和适应性，但收集广泛的专家级数据是资源密集型的。因此，许多当前的数据集由于操作员的可变性而存在质量不一致的问题，这突出表明需要有效利用混合质量数据的方法。为了缓解这些问题，我们提出了“选择要模仿的段”（S2I），这是一个在段级别选择和优化混合质量演示数据的框架，同时确保与现有机器人操作策略的即插即用兼容性。该框架由三个部分组成：演示分割，将原始数据划分为有意义的片段；使用对比学习来寻找高质量片段的片段选择；以及轨迹优化，以细化次优片段以实现更好的策略学习。我们通过模拟和现实环境中六项任务的综合实验来评估 S2I，证明仅需要 3 个专家演示作为参考，S2I 在经过混合质量演示训练时就可以提高各种下游策略的性能。项目网站：https://tonyfang.net/s2i/。

WildFusion：野外多模态隐式 3D 重建

分类： 机器人技术, 多媒体, 信号处理

作者： Yanbaihui Liu, Boyuan Chen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19904v1

摘要： 我们提出了 WildFusion，这是一种使用多模态隐式神经表示在非结构化野外环境中重建 3D 场景的新方法。 WildFusion 集成了来自 LiDAR、RGB 摄像头、接触式麦克风、触觉传感器和 IMU 的信号。这种多模态融合生成全面、连续的环境表示，包括像素级几何、颜色、语义和可遍历性。通过在充满挑战的森林环境中进行腿式机器人导航的真实实验，WildFusion 展示了通过准确预测可通行性来改进路线选择。我们的结果凸显了其在复杂的户外地形中推进机器人导航和 3D 测绘的潜力。

VAP：面向可靠自主机器的漏洞自适应保护范例

分类： 机器人技术

作者： Zishen Wan, Yiming Gan, Bo Yu, Shaoshan Liu, Arijit Raychowdhury, Yuhao Zhu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19892v1

摘要： 继个人电脑和智能手机之后，下一个无处不在的计算平台将具有本质上的自主性，涵盖无人机、机器人和自动驾驶汽车等技术。确保这些自主机器的可靠性至关重要。然而，当前的弹性解决方案在可靠性和成本之间进行了根本性的权衡，导致性能、能耗和芯片面积方面的巨大开销。这是由于普遍使用的“一刀切”方法，即在整个软件计算堆栈中应用相同的保护方案。本文提出的关键见解是，为了以最小的成本实现高保护覆盖率，我们必须利用自主机器软件堆栈不同层之间鲁棒性的固有变化。具体来说，我们证明了这个复杂堆栈中的各个节点对硬件故障表现出不同程度的鲁棒性。我们的研究结果表明，自主机器软件堆栈的前端往往更强大，而后端通常更容易受到攻击。基于这些固有的稳健性差异，我们提出了漏洞自适应保护（VAP）设计范例。在这种范例中，保护资源的分配——无论是空间上的（例如，通过模块化冗余）还是时间上的（例如，通过重新执行）——与自治机器系统内任务或算法的固有鲁棒性成反比。实验结果表明，VAP 在自动驾驶车辆和无人机系统中提供高保护范围，同时保持低开销。

选择加入摄像头：通过 UWB 定位进行视频中的人员识别及其在选择加入系统中的应用

分类： 机器人技术

作者： Matthew Ishige, Yasuhiro Yoshimura, Ryo Yonetani

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19891v1

摘要： 本文提出了选择加入摄像头，这是一种隐私保护摄像头系统的概念，能够仅记录人群中明确同意被记录的特定个人。我们的系统利用附着在个人物品上的移动无线通信标签作为选择加入的证明以及在视频片段中定位标签载体的方法。具体来说，首先使用无迹卡尔曼滤波器 (UKF) 随着时间的推移跟踪无线标签的地面位置。然后将标签轨迹与视频中发现的行人的视觉跟踪结果进行匹配，以识别标签载体。从技术上讲，我们设计了一种基于约束线性优化的专用轨迹匹配技术，以及一种新颖的校准技术，可以处理 UKF 的无线标签相机校准和超参数调整，从而缓解非视距 (NLoS) 问题在无线定位中。我们使用超宽带（UWB）设备和安装在环境中的现成网络摄像头来实现建议的选择加入摄像头系统。实验结果表明，我们的系统可以以 10 fps 的速度近乎实时地对个人进行选择记录，并且对于密闭空间内 8-23 人的人群具有可靠的识别准确性。

人机协作的自适应智能和计算机视觉基准测试

分类： 机器人技术, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Salaar Saraj, Gregory Shklovski, Kristopher Irizarry, Jonathan Vet, Yutian Ren

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19856v1

摘要： 人机协作 (HRC) 在工业 4.0 中至关重要，它使用传感器、数字孪生、协作机器人 (cobot) 和意图识别模型来实现高效的制造流程。然而，概念漂移是一个重大挑战，机器人很难适应新环境。我们通过集成自适应智能和自标记 (SLB) 来解决概念漂移问题，以提高 HRC 系统中意图识别的弹性。我们的方法首先使用摄像头和重量传感器收集数据，然后注释意图和状态变化。然后，我们使用不同的预处理技术训练各种深度学习模型来识别和预测意图。此外，我们开发了一种自定义状态检测算法来提高 SLB 的准确性，提供精确的状态更改定义和时间戳来标记意图。我们的结果表明，经过骨骼姿势预处理的 MViT2 模型在我们的数据环境上实现了 83% 的准确度，而没有进行骨骼姿势提取的 MViT2 的准确度为 79%。此外，我们的 SLB 机制实现了 91% 的标注准确率，大大减少了手动标注的时间。最后，我们观察到模型性能的快速扩展，通过在与原始训练环境有关键差异的转移域中对自标记数据的不同增量进行微调来对抗概念漂移。这项研究展示了快速部署智能协作机器人的潜力通过我们方法中所示的步骤，在制造过程中，为更具适应性和更高效的 HRC 系统铺平道路。

在单人指导下实现多机器人协作

分类： 机器人技术, 人机交互, 机器学习, 多代理系统

作者： Zhengran Ji, Lingyu Zhang, Paul Sajda, Boyuan Chen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19831v1

摘要： 学习协作行为对于多智能体系统至关重要。传统上，假设协作行为将会出现，多智能体强化学习通过联合奖励和集中观察隐式地解决了这个问题。其他研究建议从一组协作专家的演示中学习。相反，我们提出了一种有效且明确的方法，通过利用单个人的专业知识来学习多智能体系统中的协作行为。我们的见解是，人类可以自然地在团队中扮演各种角色。我们表明，通过允许人类操作员在控制代理之间动态切换短时间内并结合类似人类的队友心理理论模型，代理可以有效地学习协作。我们的实验表明，我们的方法只需 40 分钟的人工指导，即可将具有挑战性的协作捉迷藏任务的成功率提高高达 58%。我们通过进行多机器人实验进一步证明我们的发现可以转移到现实世界。

用于分散式无标记运动规划的图神经网络的通用性

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Shreyas Muthusamy, Damian Owerko, Charilaos I. Kanatsoulis, Saurav Agarwal, Alejandro Ribeiro

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19829v1

摘要： 无标签运动规划涉及将一组机器人分配到目标位置，同时确保避免碰撞，旨在最大限度地减少总行驶距离。该问题构成了探索、监视和运输等应用中多机器人系统的重要组成部分。我们在分散的设置中解决这个问题，其中每个机器人只知道其 $k$-最近的机器人和 $k$-最近的目标的位置。这种场景结合了组合分配和连续空间运动规划的元素，对传统的集中式方法提出了重大的可扩展性挑战。为了克服这些挑战，我们提出了一种通过图神经网络（GNN）学习的去中心化策略。 GNN 使机器人能够确定 (1) 与邻居交流哪些信息以及 (2) 如何将接收到的信息与本地观察结果相结合以做出决策。我们使用集中式匈牙利算法作为专家策略的模仿学习来训练 GNN，并使用强化学习进一步对其进行微调，以避免碰撞并提高性能。广泛的实证评估证明了我们方法的可扩展性和有效性。在 100 个机器人上训练的 GNN 策略可以推广到最多 500 个机器人的场景，平均比最先进的解决方案高 8.6%，并且显着超越贪婪的去中心化方法。这项工作为解决可扩展性很重要的环境中的多机器人协调问题奠定了基础。

扎根课程学习

分类： 机器人技术, 人工智能

作者： Linji Wang, Zifan Xu, Peter Stone, Xuesu Xiao

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19816v1

摘要： 机器人强化学习 (RL) 的真实世界数据成本高昂，导致模拟器的广泛使用。尽管在为模拟器构建更好的动力学模型以与现实世界相匹配方面进行了大量工作，但模拟与现实世界之间还存在另一个经常被忽视的不匹配问题，即可用训练任务的分配。现有的课程学习技术进一步加剧了这种不匹配，这些技术会自动改变模拟任务的分配，而不考虑其与现实世界的相关性。考虑到这些挑战，我们认为机器人强化学习的课程学习需要以现实世界的任务分配为基础。为此，我们提出了扎根课程学习（GCL），它将课程中的模拟任务分布与现实世界保持一致，并明确考虑给予机器人的任务以及机器人过去的表现。我们使用 BARN 数据集在复杂的导航任务上验证 GCL，与最先进的 CL 方法和人类专家设计的课程相比，成功率分别提高了 6.8% 和 6.5%。这些结果表明，GCL 可以通过在自适应课程中将现实世界中的模拟任务分配作为基础来提高学习效率和导航性能。

杜克人形机器人：利用被动动力学设计和控制节能双足运动

分类： 机器人技术

作者： Boxi Xia, Bokuan Li, Jacob Lee, Michael Scutari, Boyuan Chen

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19795v1

摘要： 我们推出了 Duke Humanoid，这是一个开源的 10 自由度人形机器人，作为运动研究的可扩展平台。该设计模仿了人体生理学，具有最小化的腿部距离和额状面对称的身体对齐，以保持直膝的静态平衡。我们开发了一种强化学习策略，可以在硬件上进行零样本部署，用于速度跟踪步行任务。此外，为了提高运动中的能源效率，我们提出了一种端到端强化学习算法，鼓励机器人利用被动动力学。我们的实验结果表明，我们的被动策略在模拟中可将运输成本降低高达 50%$，在实际测试中可降低 31%$。我们的网站是 http://generalroboticslab.com/DukeHumanoidv1/ 。

用于持续果园监测的 4D 度量语义映射：方法和数据集

分类： 机器人技术

作者： Jiuzhou Lei, Ankit Prabhu, Xu Liu, Fernando Cladera, Mehrad Mortazavi, Reza Ehsani, Pratik Chaudhari, Vijay Kumar

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19786v1

摘要： 对果园的单棵树或果实进行持续、细粒度的自动化监控有助于最大限度地提高作物产量并优化水、肥料和农药等资源，同时防止农业浪费。为了实现这一目标，我们提出了一种 4D 时空度量语义映射方法，该方法融合了来自多个传感器（包括 LiDAR、RGB 相机和 IMU）的数据，以监测果园中整个生长季节的水果。 LiDAR-RGB 融合模块专为 3D 水果跟踪和定位而设计，首先使用深度神经网络对水果进行分割，然后使用匈牙利分配算法对其进行跟踪。此外，4D 数据关联模块将不同生长阶段的数据对齐到一个公共参考系中，并在时空上跟踪水果，提供水果数量、大小和位置等信息。我们使用在自然、不受控制的季节性变化条件下从真实果园收集的数据来证明我们的方法在 4D 度量语义映射中的准确性。我们对 60 棵苹果树上的 1790 多个水果的总果实数估计误差为 3.1%，尺寸估计结果准确，平均误差为 1.1 厘米。该数据集由五种水果在其生长季节捕获的 LiDAR、RGB 和 IMU 数据以及相应的地面实况数据组成，将在以下网址公开提供：https://4d-metric-semantic-mapping.org/

开发以人为本的导盲犬行动辅助机器人的经验教训

分类： 机器人技术, 人机交互

作者： Hochul Hwang, Ken Suzuki, Nicholas A Giudice, Joydeep Biswas, Sunghoon Ivan Lee, Donghyun Kim

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19778v1

摘要： 虽然导盲犬提供必要的行动协助，但它们的高成本、有限的可用性和护理要求使大多数盲人或低视力 (BLV) 人士无法接近它们。四足机器人的最新进展为移动辅助提供了可扩展的解决方案，但由于缺乏对处理程序和导盲犬交互的了解，许多当前的设计无法满足现实世界的需求。在本文中，我们分享了开发以人为本的导盲犬机器人的经验教训，解决了优化硬件设计、强大的导航和供用户采用的信息丰富的场景描述等挑战。通过对 BLV 个人、导盲犬训练员和训练员进行半结构化访谈和人体实验，我们确定了提高机器人助行器的安全性、信任度和可用性的关键设计原则。我们的研究结果为导盲犬机器人的未来发展奠定了基础，最终提高了 BLV 个体的独立性和生活质量。

通过领域知识转移和扩散运动规划从广播视频中学习轮椅网球导航

分类： 机器人技术

作者： Zixuan Wu, Zulfiqar Zaidi, Adithya Patil, Qingyu Xiao, Matthew Gombolay

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19771v1

摘要： 在本文中，我们提出了一种新颖且可推广的零样本知识转移框架，该框架将专家体育导航策略从网络视频提炼到具有对抗性约束和非分布图像轨迹的机器人系统中。我们的流程通过从多个局部视图重建完整的 3D 任务空间，将其扭曲到 2D 图像空间，关闭该 2D 空间内的规划循环，并将感兴趣的受约束运动传输回任务空间，从而实现基于扩散的模仿学习。此外，我们还证明了学习到的策略可以与位置控制一起充当本地规划器。我们将该框架应用于轮椅网球导航问题，以引导轮椅进入击球区域。我们的管道在使用物理机器人轮椅到达真实记录的网球轨迹时实现了 97.67% 的导航成功率，并在全尺寸网球场上进行的真实世界实时实验中实现了 68.49% 的成功率。

GelSlim 4.0：专注于触感和再现性

分类： 机器人技术

作者： Andrea Sipos, William van den Bogert, Nima Fazeli

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19770v1

摘要： 触觉传感为机器人在操作过程中提供丰富的反馈，从而实现一系列感知和控制功能。在这里，我们提出了一种新的开源、基于视觉的触觉传感器，旨在提高研究和爱好者社区的可重复性和可访问性。我们的设计以 GelSlim 3.0 传感器为基础，具有两项关键改进：简化、可修改的手指结构和易于制造的镜头。为了补充硬件，我们提供了一个开源感知库，其中包括深度和剪切场估计算法，以实现手动姿态估计、滑动检测和其他操作任务。我们的传感器附有全面的制造文档，确保具有不同专业水平的用户可以轻松生产设计。我们通过广泛的人体可用性测试来验证传感器的再现性。如需文档、代码和数据，请访问项目网站：https://www.mmintlab.com/research/gelslim-4-0/

通过可解释的 Hamilton-Jacobi 可达性引导干扰学习稳健策略

分类： 机器人技术

作者： Hanyang Hu, Xilun Zhang, Xubo Lyu, Mo Chen

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19746v1

摘要： 深度强化学习（RL）在具有复杂和异构动力学的机器人技术中取得了显着的成功。然而，它对未知干扰和对抗性攻击的脆弱性仍然是一个重大挑战。在本文中，我们提出了一个强大的策略训练框架，它将基于模型的控制原理与对抗性强化学习训练相结合，以提高鲁棒性，而无需外部黑盒对手。我们的方法为对抗性 RL 训练引入了一种新颖的 Hamilton-Jacobi 可达性引导干扰，其中我们使用可解释的最坏情况或接近最坏情况的干扰作为针对稳健策略的对手。我们评估了其在三个不同任务中的有效性：模拟和现实环境中的避免触及游戏，以及模拟中的高度动态四旋翼稳定任务。我们验证了我们的学习批评网络与真实的 HJ 价值函数一致，而策略网络表现出与其他基于学习的方法相当的性能。

具有弹性多模态强化学习的障碍感知四足运动

分类： 机器人技术, 系统与控制, 系统与控制

作者： I Made Aswin Nahrendra, Byeongho Yu, Minho Oh, Dongkyu Lee, Seunghyun Lee, Hyeonwoo Lee, Hyungtae Lim, Hyun Myung

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19709v1

摘要： 四足机器人在杂乱的环境中具有与动物相似的适应能力，具有广阔的应用前景。然而，它们的浮动底座配置使它们容易受到现实世界不确定性的影响，从而给它们的运动控制带来巨大挑战。深度强化学习已成为实现鲁棒运动控制器的可行替代方案之一。然而，仅仅依靠本体感觉的方法会牺牲无碰撞运动，因为它们需要前脚接触来检测楼梯的存在以适应运动步态。同时，结合外感受需要外感受传感器在一段时间内观察到的精确建模的地图。因此，这项工作提出了一种融合本体感觉和外感觉的新方法，具有弹性多模态强化学习的特点。所提出的方法产生了一个控制器，该控制器展示了四足机器人在无数现实世界路线上的敏捷运动性能，包括崎岖的地形、陡峭的斜坡和高层楼梯，同时保持其针对分布外情况的鲁棒性。

用于车辆动力学模型估计的微调混合物理信息神经网络

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Shiming Fang, Kaiyan Yu

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19647v1

摘要： 准确的动态建模对于自动驾驶赛车至关重要，尤其是在高速和敏捷的操纵过程中，精确的运动预测对于安全至关重要。传统的参数估计方法面临着局限性，例如依赖初始猜测、劳动密集型拟合程序和复杂的测试设置。另一方面，纯粹数据驱动的机器学习方法很难捕获固有的物理约束，并且通常需要大型数据集才能获得最佳性能。为了应对这些挑战，本文引入了微调混合动力学（FTHD）方法，该方法集成了有监督和无监督的物理信息神经网络（PINN），将基于物理的建模与数据驱动技术相结合。 FTHD 使用较小的训练数据集对预训练的深度动力学模型 (DDM) 进行微调，与 Deep Pacejka 模型 (DPM) 等最先进的方法相比，提供了卓越的性能，并且性能优于原始 DDM。此外，FTHD (EKF-FTHD) 中嵌入了扩展卡尔曼滤波器 (EKF)，可有效管理嘈杂的现实世界数据，确保准确的去噪，同时保留车辆的基本物理特性。所提出的 FTHD 框架通过使用基于 BayesRace 物理的模拟器的规模模拟和 Indy Autonomous Challenge 的全面真实世界实验进行了验证。结果表明，即使数据减少，混合方法也能显着提高参数估计精度，并且优于现有模型。 EKF-FTHD 通过对现实世界数据进行去噪，同时保持物理洞察力来增强稳健性，代表了高速自动驾驶赛车的车辆动力学建模的显着进步。

LiRA：现实世界中基于模型的强化学习的轻鲁棒对手

分类： 机器人技术

作者： Taisuke Kobayashi

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19617v1

摘要： 基于模型的强化学习因其高样本效率而备受关注，有望应用于现实世界的机器人应用。在现实世界中，由于不可观察的干扰可能会导致意外情况，因此应采取机器人策略来提高控制性能和鲁棒性。对抗性学习是提高鲁棒性的有效方法，但过多的对抗性会增加故障风险，并使控制性能过于保守。因此，本研究提出了一种新的对抗性学习框架，使强化学习适度鲁棒，而不是过于保守。为此，首先通过变分推理重新推导对抗性学习。此外，光鲁棒性允许在可接受的性能下降范围内最大化鲁棒性，被用作约束。因此，所提出的框架，即所谓的 LiRA，可以自动调整对手级别，平衡鲁棒性和保守性。 LiRA 的预期行为在数值模拟中得到了证实。此外，LiRA 仅用不到两个小时收集的真实数据就成功学习了四足机器人的力反应步态控制。

CELLmap：通过弹性和轻量级球形地图表示增强 LiDAR SLAM

分类： 机器人技术

作者： Yifan Duan, Xinran Zhang, Yao Li, Guoliang You, Xiaomeng Chu, Jianmin Ji, Yanyong Zhang

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19597v1

摘要： SLAM是无人系统的基础能力，基于激光雷达的SLAM因其高精度而得到广泛应用。目前的SLAM系统可以在短时间内达到厘米级的精度。然而，在处理大规模测绘任务时仍然存在一些挑战，包括大量的存储需求和重复使用构建的地图的困难。为了解决这个问题，我们首先设计了一个弹性且轻量级的地图表示形式，称为 CELLmap，它由多个 CELL 组成，每个 CELL 代表相应位置的本地地图。然后，我们设计了一个通用后端，包括基于CELL的双向注册模块和回环检测模块，以提高全局地图一致性。我们的实验表明，CELLmap 仅需约 60 MB 的空间即可表示 KITTI 数据集大比例尺地图的精确几何结构。此外，我们的通用后端比各种 LiDAR 里程计方法提高了 26.88%。

RoboNurse-VLA：基于视觉-语言-动作模型的机器人擦洗护士系统

分类： 机器人技术

作者： Shunlei Li, Jin Wang, Rui Dai, Wanyu Ma, Wing Yin Ng, Yingbai Hu, Zheng Li

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19590v1

摘要： 在现代医疗保健领域，对自主机器人助手的需求显着增长，特别是在手术室中，手术任务需要精确性和可靠性。机器人擦洗护士已成为一种有前景的解决方案，可提高手术期间的效率并减少人为错误。然而，在准确抓取和移交手术器械方面仍然存在挑战，特别是在动态环境中处理复杂或困难的物体时。在这项工作中，我们介绍了一种新颖的机器人擦洗护士系统 RoboNurse-VLA，它通过集成 Segment Anything Model 2 (SAM 2) 和 Llama 2 语言模型，构建在视觉-语言-动作 (VLA) 模型上。拟议的 RoboNurse-VLA 系统能够根据外科医生的语音命令实时高精度地抓取和移交手术器械。该系统利用最先进的视觉和语言模型，可以解决物体检测、姿势优化以及复杂且难以掌握的仪器处理方面的关键挑战。通过广泛的评估，与现有模型相比，RoboNurse-VLA 表现出卓越的性能，即使使用看不见的工具和具有挑战性的物品，也能在手术器械移交中实现很高的成功率。这项工作在自主手术辅助方面向前迈出了重要一步，展示了将 VLA 模型集成到现实世界医疗应用中的潜力。更多详细信息请访问 https://robonurse-vla.github.io。

利用手术活动语法进行腹腔镜手术的主要意图预测

分类： 机器人技术

作者： Jie Zhang, Song Zhou, Yiwei Wang, Chidan Wan, Huan Zhao, Xiong Cai, Han Ding

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19579v1

摘要： 外科手术本质上是复杂和动态的，具有复杂的依赖性和各种执行路径。准确识别关键行动背后的意图（称为主要意图（PI））对于理解和规划程序至关重要。本文提出了一种新颖的框架，通过将自上而下的语法结构与自下而上的视觉线索相结合，推进教学视频中的 PI 识别。语法结构基于丰富的外科手术语料库，提供了外科活动的分层视角。语法解析器利用手术活动语法，处理通过手术动作探测器从腹腔镜图像获得的视觉数据，确保更精确地解释视觉信息。基准数据集的实验结果表明，我们的方法优于仅依赖视觉特征的现有手术活动检测器。我们的研究为开发具有增强规划和自动化能力的先进机器人手术系统提供了有前景的基础。

自动驾驶中的快速收敛和通信缓解的异构分层联邦学习

分类： 机器学习, 机器人技术

作者： Wei-Bin Kou, Qingfeng Lin, Ming Tang, Rongguang Ye, Shuai Wang, Guangxu Zhu, Yik-Chung Wu

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19560v1

摘要： 街景语义理解（表示为 TriSU）是自动驾驶（AD）的一项复杂任务。然而，由于城市间数据域的转移，从特定地理区域的数据训练的推理模型在应用于其他区域时面临着泛化性差的问题。分层联邦学习 (HFL) 提供了一种潜在的解决方案，通过对来自不同城市的分布式数据集进行协作隐私保护训练来改进 TriSU 模型泛化。不幸的是，它的收敛速度缓慢，因为来自不同城市的数据具有不同的统计特性。超越现有的 HFL 方法，我们提出了一种高斯异构 HFL 算法（FedGau）来解决城市间数据异构性，从而加速收敛。在提出的 FedGau 算法中，单个 RGB 图像和 RGB 数据集都被建模为高斯分布以进行聚合权重设计。这种方法不仅通过各自的统计分布来区分每个 RGB 图像，而且除了传统考虑的数据量之外，还利用了每个城市的数据集的统计数据。与现有最先进的 (SOTA) HFL 方法相比，采用所提出的方法，收敛速度加快了 35.5%-40.6%。另一方面，为了减少所涉及的通信资源，我们进一步引入了一种新颖的性能感知自适应资源调度（AdapRS）策略。与在两个相邻聚合之间交换固定数量的模型的传统静态资源调度策略不同，AdapRS 调整不同 HFL 级别的模型聚合数量，从而最大限度地减少不必要的通信。大量实验表明，在保持几乎相同性能的情况下，AdapRS 与传统静态资源调度策略相比节省了 29.65% 的通信开销。

凸集图中的多查询最短路径问题

分类： 机器人技术

作者： Savva Morozov, Tobia Marcucci, Alexandre Amice, Bernhard Paus Graesdal, Rohan Bosworth, Pablo A. Parrilo, Russ Tedrake

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19543v1

摘要： 凸集图中的最短路径问题（GCS 中的 SPP）是最近开发的优化框架，它融合了离散和连续决策。机器人技术中的许多相关问题，例如无碰撞运动规划，可以作为 GCS 中的 SPP 进行转换和解决，从而产生比最先进算法更低成本的解决方案和更快的运行时间。在本文中，我们的动机是对必须在静态环境中快速运行的机器人手臂进行运动规划。我们考虑 GCS 中 SPP 的多查询扩展，其目标是有效地预先计算给定的初始条件和目标条件集之间的最佳路径。我们的解决方案由两个阶段组成。离线时，我们使用半定规划来计算问题的成本函数的粗略下界。然后，在网上，这个下界用于通过求解短视野凸程序来增量生成可行路径。对于具有七个关节的机器人手臂，我们的方法设计出更高质量的轨迹，速度比现有的运动规划器快两个数量级。

FoAM：用于机器人操作的前瞻增强多任务模仿策略

分类： 机器人技术

作者： Litao Liu, Wentao Wang, Yifan Han, Zhuoli Xie, Pengfei Yi, Junyan Li, Yi Qin, Wenzhao Lian

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19528v1

摘要： 多任务模仿学习（MTIL）通过使代理能够使用统一的策略执行各种任务，在机器人操作方面显示出巨大的潜力。这简化了策略部署并增强了代理在不同上下文中的适应性。然而，关键的挑战仍然存在，例如维持动作可靠性（例如，避免偏离标称任务轨迹的异常动作序列）、区分相似的任务以及泛化到未见过的场景。为了应对这些挑战，我们引入了前瞻增强操纵策略 (FoAM)，这是一种创新的 MTIL 框架。 FoAM 不仅学习模仿专家的动作，还可以预测这些动作的视觉结果以增强决策能力。此外，它还集成了视觉和语言提示等多模式目标输入，克服了单一条件策略的局限性。我们在模拟和现实环境中评估了 100 多个任务中的 FoAM，证明它显着提高了 IL 策略性能，成功率比当前最先进的 IL 基线高出高达 41%。此外，我们还发布了机器人操作模拟基准，其中包含 10 个任务套件和 80 多个具有挑战性的任务，专为多任务策略训练和评估而设计。项目详情请参见项目主页https://projFoAM.github.io/。

Fast-UMI：可扩展且独立于硬件的通用操作接口

分类： 机器人技术

作者： Ziniu Wu, Tianyu Wang, Zhaxizhuoma, Chuyue Guan, Zhongjie Jia, Shuai Liang, Haoming Song, Delin Qu, Dong Wang, Zhigang Wang, Nieqing Cao, Yan Ding, Bin Zhao, Xuelong Li

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19499v1

摘要： 收集涉及机器人手臂的真实世界操纵轨迹数据对于制定机器人操纵的通用行动策略至关重要，但此类数据仍然稀缺。现有方法面临成本高、劳动强度大、硬件依赖性以及涉及 SLAM 算法的复杂设置要求等限制。在这项工作中，我们介绍了 Fast-UMI，这是一种界面介导的操纵系统，包括两个关键组件：由人类操作的用于数据收集的手持设备和在策略推理期间使用的机器人安装设备。我们的方法采用与各种夹具兼容的解耦设计，同时保持一致的观察视角，允许根据手持收集的数据训练的模型直接应用于真实的机器人。通过使用现有的商业硬件产品直接获取末端执行器位姿，我们无需复杂的SLAM部署和校准，简化了数据处理。 Fast-UMI为高效的机器人学习数据采集和转换提供支持软件工具，促进快速、即插即用的功能。该系统为机器人学习数据采集提供了高效且用户友好的工具。

OptiGrasp：使用 RGB 图像优化仓库拣选机器人的抓取姿势检测

分类： 机器人技术, 计算机视觉和模式识别

作者： Soofiyan Atar, Yi Li, Markus Grotz, Michael Wolf, Dieter Fox, Joshua Smith

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19494v1

摘要： 在仓库环境中，机器人需要强大的拣选能力来管理各种物体。有效的部署需要最少的硬件、对新产品的强大通用性以及在不同环境中的弹性。当前的方法通常依赖深度传感器来获取结构信息，但其成本高、设置复杂且存在技术限制。受计算机视觉最新进展的启发，我们提出了一种创新方法，利用基础模型仅使用 RGB 图像来增强吸力抓取。我们的方法仅在合成数据集上进行训练，将其抓取预测能力推广到现实世界的机器人和训练集中未包含的各种新物体。我们的网络在实际应用中取得了 82.3% 的成功率。包含代码和数据的项目网站将在 http://optigrasp.github.io 上提供。

KineDepth：利用机器人运动学进行在线公制深度估计

分类： 机器人技术, 计算机视觉和模式识别

作者： Soofiyan Atar, Yuheng Zhi, Florian Richter, Michael Yip

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19490v1

摘要： 深度感知对于机器人对其环境的空间和几何理解至关重要，许多任务传统上依赖于基于硬件的深度传感器，如 RGB-D 或立体相机。然而，这些传感器面临着实际的限制，包括透明和反射物体的问题、高成本、校准复杂性、空间和能量限制以及复合系统中故障率增加的问题。虽然单目深度估计方法提供了一种经济有效且更简单的替代方案，但由于其输出的是相对深度而不是公制深度，因此它们在机器人技术中的采用受到限制，而这对于机器人应用至关重要。在本文中，我们提出了一种利用单个校准相机的方法，使机器人能够充当“测量棒”，在执行任务时将相对深度估计实时转换为公制深度。我们的方法采用了 LSTM-基于度量深度回归器，在线训练并通过概率过滤进行细化，以准确地恢复单目深度图上的度量深度，特别是在接近机器人运动的区域。对真实机器人的实验表明，我们的方法明显优于当前的状态。 -先进的单目度量深度估计技术，实现深度误差降低22.1%，下游任务成功率提高52%。

SELP：使用大型语言模型为机器人代理生成安全高效的任务计划

分类： 机器人技术, 人工智能, 计算和语言, 形式语言和自动机理论

作者： Yi Wu, Zikang Xiong, Yiran Hu, Shreyash S. Iyengar, Nan Jiang, Aniket Bera, Lin Tan, Suresh Jagannathan

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19471v1

摘要： 尽管大型语言模型（LLM）取得了显着进步，增强了机器人代理对自然语言（NL）命令的理解和执行，但确保代理遵守用户指定的约束仍然具有挑战性，特别是对于复杂命令和长期任务。为了应对这一挑战，我们提出了三个关键见解：等价投票、约束解码和特定领域的微调，这些见解显着增强了 LLM 规划人员处理复杂任务的能力。等价投票通过从 NL 命令生成和采样多个线性时序逻辑 (LTL) 公式、对等价 LTL 公式进行分组以及选择多数公式组作为最终 LTL 公式来确保一致性。然后，约束解码使用生成的 LTL 公式来强制计划的自回归推理，确保生成的计划符合 LTL。特定领域的微调可定制大语言模型，以在特定任务领域内制定安全高效的计划。我们的方法，安全高效的 LLM 规划器 (SELP)，结合了这些见解来创建 LLM 规划器，以高度自信地生成遵循用户命令的计划。我们展示了 SELP 在不同机器人代理和任务（包括无人机导航和机器人操纵）中的有效性和通用性。对于无人机导航任务，SELP 在安全率（即完成符合 NL 命令的任务）方面比最先进的规划器高出 10.8%，在规划效率方面高出 19.8%。对于机器人操纵任务，SELP 的安全率提高了 20.4%。我们用于评估 NL-to-LTL 和机器人任务规划的数据集将在 github.com/lt-asset/selp 中发布。

具有视角限制的机器人引导疏散

分类： 机器人技术

作者： Gong Chen, Malika Meghjani, Marcel Bartholomeus Prasetyo

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19466v1

摘要： 我们提出了一种用于疏散引导机器人的基于视点的非线性模型预测控制（MPC）。具体来说，所提出的 MPC 算法使疏散引导机器人能够在紧急情况下跟踪和引导协作人类目标。我们的算法考虑了环境布局以及机器人和人类目标之间的距离以及到目标位置的距离。疏散引导机器人面临的一个关键挑战是在引导目标朝向目标位置的计划运动与保持目标视点同时保持引导视线的计划运动之间进行权衡。我们通过无人机（UAV）引导人类来说明我们提出的疏散引导算法在模拟和现实环境中的有效性。我们的结果表明，使用来自环境的上下文信息进行运动规划，可以提高引导无人机对人类的可见性，同时实现更快的总疏散时间。

动态变化环境中移动机器人的语言引导鲁棒导航

分类： 机器人技术, 计算机视觉和模式识别

作者： Cody Simons, Zhichao Liu, Brandon Marcus, Amit K. Roy-Chowdhury, Konstantinos Karydis

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19459v1

摘要： 在本文中，我们开发了一种具体的人工智能系统，用于轮式移动机器人的人机交互导航。我们提出了一种直接而有效的方法来监控机器人的当前计划，以检测显着影响机器人预期轨迹的环境变化，然后向人类询问反馈。我们还开发了一种方法，可以利用语义特征图和对齐的障碍物图，将用自然语言表达的人类反馈解析为本地导航路径点，并将其集成到全球规划系统中。使用资源受限的轮式机器人在现实环境中进行导航的模拟和物理硬件实验中进行了广泛的测试，验证了我们方法的有效性和鲁棒性。这项工作可以支持精准农业和建筑等应用，其中对环境的持续监测为人类提供有关环境状态的信息。

用于语言引导的物体接地和机器人抓取的参数高效调整框架

分类： 机器人技术

作者： Houjian Yu, Mingen Li, Alireza Rezazadeh, Yang Yang, Changhyun Choi

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19457v1

摘要： 语言引导的机器人抓取任务需要机器人代理集成来自视觉和语言输入的多模态信息，以预测目标驱动抓取的动作。虽然最近利用多模态大语言模型（MLLM）的方法已经显示出有希望的结果，但其大量的计算和数据需求限制了本地部署和定制的可行性。为了解决这个问题，我们提出了一种新颖的基于 CLIP 的多模态参数高效调整（PET）框架，专为三种语言引导的对象基础和抓取任务而设计：（1）引用表达分割（RES），（2）引用抓取合成（RGS））和（3）参考掌握可供性（RGA）。我们的方法引入了两项关键创新：双向视觉语言适配器，用于对齐多模态输入以实现像素级语言理解；深度融合分支，结合几何线索以促进机器人抓取预测。实验结果表明，与现有的基于 CLIP 的全模型调整或 PET 方法相比，RES 对象接地任务具有卓越的性能。在 RGS 和 RGA 任务中，我们的模型不仅基于简单的语言描述有效地解释对象属性，而且还显示出理解复杂空间推理场景的强大潜力，例如工作空间中存在的多个相同对象。

自适应决策对于自主远程行星表面移动的重要性

分类： 机器人技术

作者： Olivier Lamarre, Jonathan Kelly

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19455v1

摘要： 长途驾驶是行星表面探索的重要组成部分。不可预见的事件通常需要人类操作员调整移动计划，但这种方法无法扩展，并且不足以满足未来的任务。人们对自力更生的漫游车的兴趣与日俱增，但研究界尚未对自主、自适应决策给予足够的关注。在本文中，我们回顾了特定的行星机动行动，其中人类引导的自适应规划在任务安全和生产力方面发挥了重要作用。受人类专家能力的启发，我们发现了在行星表面等越野环境中运行的机器人现有自主移动算法的缺点。我们提倡适应性决策能力，例如从过去的经验中进行无辅助学习以及更多地依赖随机世界模型。这项工作的目的是强调有前途的研究途径，以增强地面规划工具，并最终增强行星漫游器上的远程自主算法。

G3R：梯度引导广义重建

分类： 计算机视觉和模式识别, 机器人技术

作者： Yun Chen, Jingkang Wang, Ze Yang, Sivabalan Manivasagam, Raquel Urtasun

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19405v1

摘要： 大规模 3D 场景重建对于虚拟现实和仿真等应用非常重要。现有的神经渲染方法（例如 NeRF、3DGS）已经在大场景上实现了逼真的重建，但要针对每个场景进行优化，成本高昂且缓慢，并且在大视图变化下由于过度拟合而表现出明显的伪影。可推广的方法或大型重建模型速度很快，但主要适用于小型场景/对象，并且通常会产生较低质量的渲染结果。在这项工作中，我们介绍了 G3R，这是一种通用的重建方法，可以有效地预测大型场景的高质量 3D 场景表示。我们建议学习一种重建网络，该网络利用可微渲染中的梯度反馈信号来迭代更新 3D 场景表示，将每个场景优化的高真实感的优点与快速前馈预测方法的数据驱动先验相结合。对城市驾驶和无人机数据集的实验表明，G3R 可以泛化到不同的大型场景，并将重建过程加速至少 10 倍，同时实现与 3DGS 相当或更好的真实感，并且对大视图变化更加鲁棒。

通过多传感器系统进行自动赛车转向预测

分类： 计算机视觉和模式识别, 机器人技术

作者： Zhuyun Zhou, Zongwei Wu, Florian Bolli, Rémi Boutteau, Fan Yang, Radu Timofte, Dominique Ginhac, Tobi Delbruck

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19356v1

摘要： 自动赛车迅速引起了研究关注。传统上，赛车依靠 2D LiDAR 作为主要视觉系统。在这项工作中，我们探索事件相机与现有系统的集成，以提供增强的时间信息。我们的目标是将 2D LiDAR 数据与事件数据融合在端到端学习框架中以进行转向预测，这对于自动驾驶赛车至关重要。据我们所知，这是第一项针对这一具有挑战性的研究主题的研究。我们首先创建专门用于转向预测的多传感器数据集。使用该数据集，我们通过评估各种 SOTA 融合方法来建立基准。我们的观察表明，现有方法通常会产生大量计算成本。为了解决这个问题，我们应用低秩技术来提出一种新颖、高效且有效的融合设计。我们引入了一种新的融合学习策略来指导融合过程，增强针对错位的鲁棒性。我们的融合架构提供了比单独 LiDAR 更好的转向预测，将 RMSE 从 7.72 显着降低到 1.28。与第二好的融合方法相比，我们的工作仅代表了 11% 的可学习参数，同时实现了更好的准确性。源代码、数据集和基准将被发布以促进未来的研究。

具有相似感知变压器的智能鱼类检测系统

分类： 机器人技术

作者： Shengchen Li, Haobo Zuo, Changhong Fu, Zhiyong Wang, Zhiqiang Xu

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19323v1

摘要： 水陆转移中的鱼类检测对渔业做出了重大贡献。然而，人群协作中的手动鱼类检测效率低下且成本高昂，且准确性不足。为了进一步提高水陆转运效率、提高检测精度、降低人工成本，本工作设计了一种新型轻量级、即插即用的边缘智能视觉系统，利用高速摄像头自动进行快速鱼类检测。此外，还提出了一种用于快速鱼类检测的新颖的相似性感知视觉变压器（FishViT），用于识别密集且相似的群体中的每条鱼。具体来说，开发了一种新颖的相似性感知多级编码器来并行增强多尺度特征，从而为不同大小的鱼产生区分性表示。此外，引入了一种新的软阈值注意力机制，不仅有效消除了图像中的背景噪声，而且能够准确识别不同相似鱼的边缘细节和整体特征。收集了85个具有挑战性的高帧率、高分辨率视频序列，以真实的鱼类水陆转移场景为基准。使用这一具有挑战性的基准进行的详尽评估证明了 FishViT 的稳健性和有效性，帧速率超过 80 FPS。实际工作场景测试验证了所提方法的实用性。代码和演示视频可在 https://github.com/vision4robotics/FishViT 获取。

基于反馈的混合现实和机器人制造的手势识别：UnLog 塔案例研究

分类： 人机交互, 新兴技术, 机器人技术

作者： Alexander Htet Kyaw, Lawson Spencer, Sasa Zivkovic, Leslie Lok

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19281v1

摘要： 混合现实 (MR) 平台使用户能够在高度定制和参数化建筑结构的组装和制造过程中与三维全息指令进行交互，而无需二维绘图。以前的 MR 制造项目主要依赖数字菜单和自定义按钮作为用户与 MR 环境交互的界面。尽管这种方法被广泛采用，但它允许人类与物理对象直接交互以修改 MR 环境中的制造指令的能力有限。这项研究通过实时手势识别将用户与物理对象的交互集成为输入，以修改、更新或生成新的数字信息，从而实现物理和虚拟环境之间的相互刺激。因此，数字环境生成用户提供的与物理对象的交互，以允许制造过程中的无缝反馈。这项研究研究了基于反馈的 MR 工作流程的手势识别，用于 UnLog 塔施工过程中的机器人制造、人体组装和质量控制。

可见度有限的健忘机器人群中的对称性保持

分类： 机器人技术, 数据结构和算法

作者： Raphael Gerlach, Sören von der Gracht, Christopher Hahn, Jonas Harbig, Peter Kling

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19277v1

摘要： 在一般模式形成（GPF）问题中，一群简单的自主、迷失方向的机器人必须形成给定的模式。机器人的简单性意味着一个很大的局限性：当初始配置是旋转对称时，只能形成具有相似对称性的图案[Yamashita，Suzyuki； TCS 2010]。唯一已知的形成可见性有限且没有记忆的大型图案的算法要求机器人以近聚集（直径恒定的群）开始[Hahn et al.;沙2024]。然而，我们不仅不知道任何保证保持对称性的近聚集算法，而且大多数自然聚集策略都会微不足道地增加对称性 [Castenow 等人； OPODIS 2022]。因此，我们在不改变能见度有限的迷失方向、遗忘机器人的群体旋转对称性的情况下研究近聚集（OBLOT 模型，参见 [Flocchini 等人；2019]）。我们引入了一种基于动力系统理论的技术来分析给定算法如何影响对称性并为对称性保持提供充分的条件。到目前为止，尚不清楚所考虑的 OBLOT 模型是否允许任何始终保持对称性的重要算法。我们的第一个结果表明，趋于平均的变体始终保持对称性，但有时可能会导致多个不相连的近聚集簇。我们的第二个结果是一种保持对称性的近聚集算法，该算法适用于具有凸边界（单位圆盘图的外边界）且没有孔（边界内直径为 1 的圆，没有任何机器人）的群体。

使用神经符号语言模型和多级目标分解快速准确的任务规划

分类： 机器人技术

作者： Minseo Kwon, Yaesol Kim, Young J. Kim

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19250v1

摘要： 在机器人任务规划中，使用基于规则的表示（例如 PDDL）的符号规划器是有效的，但由于搜索空间呈指数级增加，在复杂的规划环境中难以处理长顺序任务。最近，基于人工神经网络的大型语言模型 (LLM) 已成为自主机器人任务规划的有前途的替代方案，提供更快的推理并利用常识知识。然而，他们的成功率通常较低。在本文中，为了解决当前符号（速度慢）或基于 LLM 的方法（精度低）的局限性，我们提出了一种新颖的神经符号任务规划器，它使用 LLM 将复杂任务分解为子目标，并为每个子目标执行任务规划根据子目标的复杂性，使用符号或基于 MCTS 的 LLM 规划器来实现子目标。生成子目标可以缩小整体搜索空间，使大语言模型能够专注于更小、更易于管理的任务，从而有助于减少规划时间并提高成功率。我们的方法显着减少了规划时间，同时保持了有竞争力的成功率，正如在不同公共任务规划领域以及真实世界和模拟机器人环境中的实验所证明的那样。

学习弥合差距：通过规划和强化学习进行有效的新颖性恢复

分类： 机器人技术, 人工智能

作者： Alicia Li, Nishanth Kumar, Tomás Lozano-Pérez, Leslie Kaelbling

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19226v1

摘要： 现实世界是不可预测的。因此，为了解决自主机器人的长期决策问题，我们必须构建能够在部署过程中适应环境变化的代理。基于模型的规划方法可以使机器人能够在各种环境中解决复杂的长期任务。然而，当部署到具有其底层模型无法解释的新情况的环境中时，此类方法往往很脆弱。在这项工作中，我们建议通过强化学习（RL）学习“桥梁策略”以适应这些新奇事物。我们为这种学习引入了一个简单的公式，其中强化学习问题是通过一个特殊的“CallPlanner”动作构建的，该动作终止桥接策略并将代理的控制权交还给规划器。这使得强化学习策略能够了解查询规划器并遵循返回的计划将实现目标的状态集。我们证明，这种公式使智能体能够利用规划者的知识来快速学习，以避免因稀疏奖励而导致的长期探索的挑战。在三个不同复杂度的不同模拟领域的实验中，我们证明了我们的方法能够比几个基线（包括纯 RL 基线）更有效地学习适应新颖性的策略。我们还证明了学习到的桥接策略是可推广的，因为它可以与规划器相结合，使代理能够解决更复杂的任务以及遇到的新事物的多个实例。

RAIL：可达性辅助模仿学习以实现安全策略执行

分类： 机器人技术

作者： Wonsuhk Jung, Dennis Anthony, Utkarsh A. Mishra, Nadun Ranawaka Arachchige, Matthew Bronars, Danfei Xu, Shreyas Kousik

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19190v1

摘要： 模仿学习（IL）在学习复杂的机器人操作任务方面取得了巨大成功。然而，仍然需要实用的安全方法来证明广泛部署的合理性。特别是，当通过调整策略（即软约束）来设计性能和安全性之间的权衡不可接受时，证明系统遵守对设置中不安全行为的硬约束非常重要。这就引出了一个问题，强制实施硬约束如何影响 IL 策略的性能（即安全完成任务）？为了回答这个问题，本文构建了一个基于可达性的安全过滤器来对 IL 实施硬约束，我们称之为可达性辅助模仿学习（RAIL）。通过对移动机器人和操作任务中最先进的 IL 策略进行评估，我们得出了两个重要发现。首先，性能最高的策略有时只是因为它们经常违反约束，并且在硬约束下显着损失性能。其次，令人惊讶的是，对表现较差的政策的严格限制有时可以提高它们安全执行任务的能力。最后，硬件评估证实该方法可以实时运行。

用于骑乘球机器人的交互式免提控制器，可实现简单的共享控制任务

分类： 机器人技术

作者： Chenzhang Xiao, Seung Yun Song, Yu Chen, Mahshid Mansouri, Joao Ramos, William R. Norris, Elizabeth T. Hsiao-Wecksler

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19170v1

摘要： 我们的团队开发了一种骑行式球机器人（称为 PURE），它具有动态稳定、全向性，并由倾斜转向控制驱动。之前集成了免提准入控制方案（HACS），允许具有不同躯干功能的骑手通过躯干倾斜和扭转来控制机器人的运动。这样的界面需要运动协调能力，并且可能因熟练程度低而导致与障碍物发生碰撞。因此，限制 PURE 速度的共享控制器（SC）可能有助于确保骑手的安全。然而，PURE 的自平衡动力学可能会导致其运动控制能力较弱，其中骑手的躯干运动很容易导致共享控制器所指示的命令速度跟踪不佳。因此，我们提出了一种交互式免提导纳控制方案（iHACS），该方案在HACS的基础上增加了两个模块来提高PURE的速度跟踪性能：控制增益个性化模块和交互补偿模块。进行了简单任务、怠速保持和限速的人体骑行测试，以比较 HACS 和 iHACS 的性能。两名手动轮椅使用者和两名身体健全的人参与了这项研究。他们被指示使用“对抗性”躯干运动，这会对 SC 保持球机器人空转或低于设定速度的能力造成负担。在空闲保持任务中，即使躯干倾斜角度很大，iHACS 也表现出最小的平移运动和低命令速度跟踪 RMSE。在指令速度饱和于0.5 m/s的限速任务中，iHACS系统平均最高速度为1.1 m/s，而HACS系统平均最高速度超过1.9 m/s。这些结果表明，iHACS 可以增强 PURE 对骑手的控制权限，从而使 PURE 能够向骑手提供物理交互，并产生骑手与机器人之间的协作协同作用。

使用逻辑网络流的信号时态逻辑规范下基于优化的任务和运动规划

分类： 机器人技术, 形式语言和自动机理论

作者： Xuan Lin, Jiming Ren, Samuel Coogan, Ye Zhao

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19168v1

摘要： 本文提出了一种基于优化的任务和运动规划框架，名为“逻辑网络流”，将信号时态逻辑（STL）规范集成到高效的混合二进制线性规划中。在该框架中，时态谓词被编码为多面体约束与从这些 STL 规范导出的逻辑树相比，逻辑网络流呈现出更严格的凸松弛，而不是像传统的逻辑树公式那样作为节点之间的约束。几个多机器人运动规划案例研究表明，我们的公式在几个规划问题的计算时间方面优于逻辑树公式，随着问题规模的扩大，我们的方法仍然通过探索更少的数量来发现更好的下限和上限。分支定界过程中的节点数量，尽管这是以增加探索分支时每个节点的计算负载为代价的。

具有时变鲁棒性的信号时态逻辑规划

分类： 机器人技术

作者： Yating Yuan, Thanin Quartz, Jun Liu

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19131v1

摘要： 这封信的目的是生成由分段贝塞尔曲线组成的连续时间轨迹，该曲线满足具有分段时变鲁棒性的信号时态逻辑（STL）规范。我们的时变鲁棒性比实值鲁棒性更保守，这使得在实际应用中能够更有效地跟踪。具体来说，我们的连续时间轨迹考虑了动态可行性，从而导致更小的跟踪误差并确保跟踪轨迹能够满足STL规范。对比实验证明了该方法的效率和有效性。

基于S-RRT*的连续刚性机械臂避障自主运动规划器

分类： 机器人技术

作者： Yulin Li, Tetsuro Miyazaki, Yoshiki Yamamoto, Kenji Kawashima

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19110v1

摘要： Continuum 机器人紧凑且灵活，适合在工业和医疗手术中使用。快速探索随机树（RRT）是一种高效的路径规划方法，其变体S-RRT可以为末端执行器生成平滑的可行路径。通过将 RRT 与逆瞬时运动学 (IIK) 相结合，可以实现连续体臂的完整运动规划。由于连续臂的高自由度，IIK中的零空间可以用于避障。在这项工作中，我们提出了一种使用 S-RRT* 算法为连续刚性机械臂创建路径的新颖方法。通过采用 IIK 和零空间技术，生成连续的关节配置，不仅可以跟踪路径，还可以避开障碍物。仿真结果表明，我们的方法可以有效地处理运动规划和避障，同时在复杂环境中生成高质量的末端执行器路径。此外，与类似的 IIK 方法相比，我们的方法表现出优越的计算时间。

使用概率马尔可夫模型的鲁棒邻近操作

分类： 机器人技术, 系统与控制, 系统与控制

作者： Deep Parikh, Ali Hasnain Khowaja, Manoranjan Majji

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19062v1

摘要： 针对各种自动驾驶车辆的接近操作，设计、实现和分析了基于马尔可夫决策过程的状态切换。该框架包含一个姿态估计器以及一个多状态引导算法。统一姿态估计器利用扩展卡尔曼滤波器融合速率陀螺仪、单目视觉和超宽带雷达传感器的测量结果。它还配备了基于 Mahalonobis 距离的异常值拒绝和测量加权不足，以实现稳健的性能。建议使用概率马尔可夫模型在各种制导模式之间进行转换，以实现稳健且高效的接近操作。最后，通过两颗小卫星对接和飞行器精确着陆的实验分析验证了该框架。

UniCal：统一神经传感器校准

分类： 计算机视觉和模式识别, 机器人技术

作者： Ze Yang, George Chen, Haowei Zhang, Kevin Ta, Ioan Andrei Bârsan, Daniel Murphy, Sivabalan Manivasagam, Raquel Urtasun

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18953v1

摘要： 自动驾驶车辆 (SDV) 需要精确校准激光雷达和摄像头，以准确融合传感器数据以实现自动驾驶。传统的校准方法通常利用在受控和结构化场景中捕获的基准点并计算对应关系来进行优化。这些方法成本高昂，需要大量的基础设施和运营，因此扩大车队规模具有挑战性。在这项工作中，我们提出了 UniCal，这是一个统一框架，用于轻松校准配备多个 LiDAR 和摄像头的 SDV。我们的方法建立在可微的场景表示之上，能够渲染多视图几何和光度一致的传感器观察结果。我们通过可微分体积渲染共同学习传感器校准和底层场景表示，利用室外传感器数据，而不需要特定的校准基准。与现有校准系统相比，这种“驱动和校准”方法可显着降低成本和运营开销，从而实现大规模 SDV 车队的高效校准。为了确保不同传感器观察结果的几何一致性，我们引入了一种新颖的表面对齐损失，它将基于特征的配准与神经渲染相结合。对多个数据集的综合评估表明，UniCal 优于或匹配现有校准方法的准确性，同时效率更高，展示了 UniCal 在可扩展校准方面的价值。

迈向超标称有效负载处理：多技能机器人操纵的逆动力学分析

分类： 机器人技术

作者： Anuj Pasricha, Alessandro Roncone

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18939v1

摘要： 传统上，铰接式机器人的运动规划由在制造商定义的有效负载限制内运行的算法控制。我们对 Franka Emika Panda 机器人的实证分析表明，这种方法不必要地限制了机器人动态可达的任务空间。这些结果为此类机器人建立了扩展的操作范围，表明它们可以处理其额定容量两倍以上的有效负载。此外，我们的初步研究结果表明，将非抓取运动原语与基于抓取的操纵相结合有可能进一步提高涉及超过名义限制的有效载荷的操纵任务的成功率。

使用黑盒预测器、共形决策策略和控制屏障函数的安全分散多智能体控制

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制

作者： Sacha Huriot, Hussein Sibai

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18862v1

摘要： 我们解决了分散式多智能体机器人设置中安全控制的挑战，其中智能体使用不确定的黑盒模型来预测其他智能体的轨迹。我们使用最近提出的共形决策理论来根据观察到的预测误差来调整基于控制屏障函数的安全约束的限制性。我们使用这些约束来合成控制器，尽管存在预测误差，但仍能在安全目标和任务完成之间取得平衡。我们提供了基于预测轨迹的安全约束与基于地面真实轨迹的约束之间的差异的单调函数值随时间的平均值的上限。我们通过实验结果验证了我们的理论，这些实验结果显示了我们的控制器在斯坦福无人机数据集中的多智能体场景中导航机器人时的性能。

Open-Nav：利用开源大语言模型探索连续环境中的零射击视觉和语言导航

分类： 机器人技术, 计算机视觉和模式识别

作者： Yanyuan Qiao, Wenqi Lyu, Hui Wang, Zixu Wang, Zerui Li, Yuan Zhang, Mingkui Tan, Qi Wu

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18794v1

摘要： 视觉和语言导航 (VLN) 任务要求代理遵循文本指令在 3D 环境中导航。传统方法使用监督学习方法，严重依赖特定领域的数据集来训练 VLN 模型。最近的方法尝试利用 GPT-4 等闭源大型语言模型 (LLM) 以零样本方式解决 VLN 任务，但面临与实际应用中昂贵的代币成本和潜在数据泄露相关的挑战。在这项工作中，我们介绍了 Open-Nav，这是一项新颖的研究，探索连续环境中零样本 VLN 的开源 LLM。 Open-Nav 采用时空思维链 (CoT) 推理方法将任务分解为指令理解、进度估计和决策。它通过细粒度的物体和空间知识增强场景感知，以提高大语言模型在导航中的推理能力。我们在模拟和现实环境中进行的大量实验表明，与使用闭源大语言模型相比，Open-Nav 实现了具有竞争力的性能。

野外挖掘：用于语义分割的 GOOSE-Ex 数据集

分类： 机器人技术, 计算机视觉和模式识别

作者： Raphael Hagmanns, Peter Mortimer, Miguel Granero, Thorsten Luettel, Janko Petereit

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18788v1

摘要： 自主系统基于深度学习的技术的成功部署高度依赖于部署环境中各个系统的数据可用性。特别是对于非结构化的室外环境，甚至更少的机器人平台和场景的数据集也很少。在早期的工作中，我们提出了德国户外和越野数据集 (GOOSE) 框架以及来自越野车辆的 10000 个多模式框架，以增强非结构化环境中的感知能力。在这项工作中，我们解决了 GOOSE 框架的通用性。为了实现这一目标，我们开源了 GOOSE-Ex 数据集，其中包含来自各种完全不同环境的额外 5000 个带标签的多模态帧，记录在机器人挖掘机和四足平台上。我们对不可见环境中不同平台和传感器模式的语义分割性能进行了全面分析。此外，我们还演示了如何将组合数据集用于不同的下游应用或竞赛，例如越野导航、对象操作或场景完成。该数据集、其平台文档和经过预训练的最先进的越野感知模型将在 https://goose-dataset.de/ 上提供。 \

基于 POMDP 的层次化规划框架，用于不确定性下的操纵

分类： 机器人技术

作者： Muhammad Suhail Saleem, Rishi Veerapaneni, Maxim Likhachev

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18775v1

摘要： 机器人在视觉反馈无效的家庭环境中经常面临挑战，例如检索被遮挡物阻挡的物体或在黑暗中找到电灯开关。在这些情况下，利用接触来定位目标对象可能是有效的。我们提出了一种在线规划框架，使用二进制接触信号来执行具有不确定性的操作任务，将其表述为部分可观察马尔可夫决策过程（POMDP）。由于家庭环境中存在很大的不确定性，天真地将信念表示为粒子集使得规划变得不可行，因为确定最佳行动序列需要在数百万个粒子上推出数千个行动，这需要大量的计算时间。为了解决这个问题，我们提出了分层信念表示。最初，我们在 3D 体积空间中粗略地表示不确定性。计算并执行细化该空间中的不确定性的策略，一旦不确定性充分减少，问题就会被转换回粒子空间，以便在任务完成之前进一步细化。我们利用闭环规划和执行框架以及基于启发式搜索的随时求解器，在有限的时间预算内计算部分策略。该框架的性能在现实世界和使用 UR10e 操纵器将插头插入端口的高精度任务模拟中得到了证明，解决了高达 50 厘米的位置不确定性和接近 2\pi$ 的角度不确定性。实验结果凸显了该框架的有效性，与贪婪基线相比，在现实世界中实现了 93% 的成功率，解决方案质量提高了 50% 以上，显着加快了规划速度并实现了复杂问题的实时解决方案。

从隐式非线性动力学模型的演示中学习

分类： 人工智能, 机器学习, 机器人技术, 系统与控制, 系统与控制, I.2

作者： Peter David Fagan, Subramanian Ramamoorthy

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18768v1

摘要： 从演示中学习（LfD）是训练解决涉及复杂运动的任务的策略的有用范例。在实践中，LfD的成功应用需要克服策略执行过程中的误差累积，即由于误差随时间复合而导致的漂移问题以及随之而来的分布外行为。现有的工作试图通过扩展数据收集、通过人机交互纠正政策错误、临时集成政策预测或通过学习动态系统模型的参数来解决这个问题。在这项工作中，我们提出并验证了解决此问题的替代方法。受油藏计算的启发，我们开发了一种新颖的神经网络层，其中包括具有可调动力学特性的固定非线性动力学系统。我们验证了神经网络层在使用 LASA 人类手写数据集再现人类手写动作的任务中的有效性。通过实证实验，我们证明将我们的层合并到现有的神经网络架构中可以解决 LfD 中复合误差的问题。此外，我们对现有方法进行了比较评估，包括政策预测的时间集合和回声状态网络（ESN）实施。我们发现我们的方法在手写任务上产生了更高的策略精度和稳健性，同时还推广到多种动态机制并保持有竞争力的延迟分数。

通过人体-外骨骼交互建模对安全带运动设计的透明度进行评估

分类： 机器人技术, 系统与控制, 系统与控制

作者： Riccardo Bezzini, Carlo Alberto Avizzano, Francesco Porcini, Alessandro Filippeschi

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18755v1

摘要： 下肢外骨骼（LLE）是为用户提供机械动力的可穿戴机器人。人体外骨骼 (HE) 连接必须在交互过程中保持用户的自然行为，避免意外的力量。因此，许多工作都集中在它们的最小化上。考虑到重复原型设计和实验测试设备固有的复杂性，对外骨骼及其与用户的物理交互进行建模成为评估设计效果的一种有价值的方法。本文提出了一种利用灵活的仿真工具比较不同外骨骼配置的新方法。该方法考虑模拟设备的动力学，包括其与佩戴者的交互，以评估多个连接机构设计以及 LLE 的运动学和致动。该评估基于通过优化过程最小化相互作用扳手，该优化过程包括作为优化变量的界面处的阻抗参数以及LLE的关节变量轨迹与佩戴者关节运动的相似性。使用不同配置的可穿戴 Walker LLE 进行探索性测试并测量相互作用力。然后将实验数据与优化结果进行比较，证明所提出的方法提供的接触扳手估计与收集的测量结果和文献中的先前结果一致。版权所有 2024 IEEE。允许个人使用本材料。在任何当前或未来的媒体中用于所有其他用途，包括出于广告或促销目的重新印刷/重新发布本材料、创建新的集体作品、转售或重新分发到服务器或列表，或重复使用任何受版权保护的组件，必须获得 IEEE 的许可这项工作在其他作品中。

皇家揭秘：克伦堡城堡的激光雷达测绘，哈姆雷特大厅的回声

分类： 机器人技术

作者： Leon Davies, Simon Sølvsten

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18752v1

摘要： 本文介绍了在克伦堡宫 (Kronborg Castle) 进行的细致 360 度 LiDAR（光探测和测距）扫描的大型数据集。克伦堡宫是位于丹麦埃尔西诺（赫尔辛）的著名文艺复兴时期堡垒，与莎士比亚的《哈姆雷特》有关。 ”。采用垂直安装、万向稳定、16 通道、360 度 Velodyne VLP-16 LiDAR 扫描仪，搭配英特尔实感 L515 深度摄像头。这项研究为城堡错综复杂的建筑细节和结构细微差别提供了无与伦比的数字表示，使研究人员能够利用 SLAM（同步定位和建图）数据以及平面图生成来进行实验。

人类与虚拟代理交互中显式和隐式混合通信效果的研究

分类： 机器人技术

作者： Ana Christina Almada Campos, Bruno Vilhena Adorno

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18745v2

摘要： 人类和机器人（或虚拟代理）之间的交流对于交互至关重要，并且通常受到人类交流的启发，人类交流使用手势、面部表情、注视方向以及其他显式和隐式方式。这项工作提出了一个交互实验，其中人类和虚拟代理通过显式（手势、使用鼠标和键盘的手动输入、语音、声音和屏幕上的信息）和隐式（注视方向、位置、面部表情和眉毛抬起）通信进行交互评估混合显式-隐式通信相对于纯显式通信的效果。使用贝叶斯参数估计获得的结果表明，当使用显式和隐式混合通信时，错误数量和任务执行时间没有显着变化，交互的感知效率也没有显着变化。相比之下，当使用混合通信方式时，虚拟代理的接受度、社交性和透明度有所增加（每个变量的效应大小后验分布分别为 88.3%、92% 和 92.9%，高于区域的上限）实际等效）。这表明，在我们的特定实验中，与任务相关的度量，例如时间、错误数量和交互的感知效率，并未受到通信类型的影响。然而，与虚拟代理相关的主观指标的改进，例如接受度、社交性和透明度，表明人类更容易接受混合的显式和隐式通信。

OpenObject-NAV：基于动态载体关系场景图的开放词汇面向对象导航

分类： 机器人技术, 人工智能

作者： Yujie Tang, Meiling Wang, Yinan Deng, Zibo Zheng, Jiagui Zhong, Yufeng Yue

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18743v1

摘要： 在日常生活中，像杯子这样经常使用的物品往往位置不固定，同一类别内有多个实例，其载体也经常发生变化。因此，机器人有效导航到特定实例变得具有挑战性。为了应对这一挑战，机器人必须不断捕捉和更新场景变化和计划。然而，当前的对象导航方法主要关注语义级别，缺乏动态更新场景表示的能力。本文捕捉了常用对象与其静态载体之间的关系。它构建了开放词汇的载体关系场景图（CRSG），并在机器人导航过程中更新载体状态以反映场景的动态变化。基于 CRSG，我们进一步提出了一种实例导航策略，将导航过程建模为马尔可夫决策过程。在每个步骤中，决策都是根据大型语言模型的常识知识和视觉语言特征相似性来做出的。我们为栖息地模拟器中经常使用的日常物品设计了一系列长序列导航任务。结果表明，通过更新 CRSG，机器人可以有效地导航到移动目标。此外，我们将我们的算法部署在真实的机器人上，并验证了其实际效果。

携带悬挂有效载荷的悬停 n 四旋翼飞行器的优化配置

分类： 机器人技术, 动力系统

作者： Mohssen E. Elshaar, Pansie A. khodary, Meral L. Badr, Mohamad A. Sayegh, Zeyad M. Manaa, Ayman M. Abdallah

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18741v1

摘要： 这项工作提出了一种围绕有效载荷组织四旋翼飞行器的策略，以实现在没有外部刺激的情况下悬停，以及用于对四旋翼飞行器有效载荷系统的动力学进行建模的 MATLAB 软件。基于几何概念，所提出的设计使有效载荷和系统质心保持对齐。成功的悬停测试证实了该方法的效率。此外，改进了算法，将推力能力和螺旋桨距离考虑在内，计算悬停所需的最小四旋翼数量。该算法的有效性通过数值示例得到证明，表明较大的四旋翼飞行器可能需要较少的单元，而较小的四旋翼飞行器则具有更大的灵活性。我们的代码可以在以下位置找到：\href{https://github.com/Hosnooo/Swarm-Slung-Payload}{https://github.com/Hosnooo/Swarm-Slung-Payload}

离散策略：学习多任务机器人操作的解缠结动作空间

分类： 机器人技术

作者： Kun Wu, Yichen Zhu, Jinming Li, Junjie Wen, Ning Liu, Zhiyuan Xu, Qinru Qiu, Jian Tang

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18707v1

摘要： 学习多任务机器人操作的视觉运动策略一直是机器人社区面临的长期挑战。困难在于动作空间的多样性：通常，一个目标可以通过多种方式实现，从而导致单个任务的多模式动作分布。随着任务数量的增加，动作分配的复杂性也会增加。在这项工作中，我们提出了 \textbf{离散策略}，一种用于训练具有多任务操作技能的通用智能体的机器人学习方法。离散策略采用矢量量化将动作序列映射到离散潜在空间，从而促进特定任务代码的学习。然后，这些代码根据观察和语言指令被重建到动作空间中。我们在模拟和多个现实世界的实施例中评估我们的方法，包括单臂和双手机器人设置。我们证明，我们提出的离散策略优于完善的扩散策略基线和许多最先进的方法，包括 ACT、Octo 和 OpenVLA。例如，在具有 5 个任务的现实多任务训练环境中，离散策略的平均成功率比扩散策略高 26%，比 OpenVLA 高 15%。随着任务数量增加到 12 个，离散策略和扩散策略之间的性能差距扩大到 32.5%，进一步展示了我们方法的优势。我们的工作经验表明，学习潜在空间内的多任务策略是实现通用智能体的重要一步。

使用无梯度优化技术的人形机器人行走架构的自动增益调整

分类： 机器人技术

作者： Carlotta Sartore, Marco Rando, Giulio Romualdi, Cesare Molinari, Lorenzo Rosasco, Daniele Pucci

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18649v1

摘要： 开发复杂的控制架构赋予了机器人，特别是类人机器人许多能力。然而，调整这些架构仍然是一项具有挑战性且耗时的任务，需要专家干预。在这项工作中，我们提出了一种自动调整步行类人机器人分层控制架构所有层增益的方法。我们通过采用不同的无梯度优化方法来测试我们的方法：遗传算法（GA）、协方差矩阵适应进化策略（CMA-ES）、进化策略（ES）和差分进化（DE）。我们验证了在模拟和真实 ergoCub 人形机器人上发现的参数。我们的结果表明，GA 实现了最快的收敛（10 x 10^3 函数评估，而其他算法需要 25 x 10^3），并且在模拟中和在真实机器人平台上转移时完成任务的成功率均为 100%。这些发现凸显了我们提出的方法在自动化调整过程方面的潜力，减少了手动干预的需要。

履带车辆的拟运动轨迹控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Michele Focchi, Daniele Fontanelli, Luigi Palopoli

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18641v1

摘要： 履带式车辆用于复杂的场景，其中运动规划和导航可能非常复杂。它们具有复杂的动态特性，许多参数难以识别，并且会根据运行条件发生显着变化。我们提出了一个简单的伪运动学模型，其中车辆运动背后的复杂动态效应被捕获在一小组与速度相关的参数中。这种选择使得基于李亚普诺夫的轨迹控制器的开发能够具有保证的性能和较短的计算时间。我们通过模拟和实验数据证明了我们方法的正确性。

从一到多的力量：从单传感器数据集增强多 LiDAR 感知的不变性

分类： 计算机视觉和模式识别, 机器人技术

作者： Marc Uecker, J. Marius Zöllner

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18592v1

摘要： 最近，由深度神经网络支持的自动驾驶汽车 LiDAR 感知方法在 nuScenes 和 SemanticKITTI 等经典基准测试中的性能出现了急剧增长。然而，将在此类单传感器设置上训练的模型部署到现代多传感器车辆时，性能仍然存在很大差距。在这项工作中，我们研究了缺乏不变性是否可能导致这些性能差距，并以特定于应用程序的数据增强的形式提出一些初步解决方案，这可以促进更好地转移到多传感器激光雷达设置。我们提供的实验证据表明，我们提出的增强功能提高了 LiDAR 传感器设置的泛化能力，并研究了这些增强功能如何影响模型在不同 LiDAR 传感器设置的模拟中的不变性。

基于Koopman算子的变道模型截断奇异值分解分析

分类： 系统与控制, 人工智能, 机器人技术, 系统与控制

作者： Chinnawut Nantabut

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18586v1

摘要： 理解和建模复杂的动态系统对于提高车辆性能和安全性至关重要，特别是在自动驾驶的背景下。最近，库普曼算子及其近似器（称为扩展动态模式分解（EDMD））等流行方法因其在将强非线性系统行为转换为线性表示方面的有效性而出现。这使得它们能够与传统的线性控制器集成。为了实现这一目标，采用奇异值分解 (SVD)（特别是截断 SVD）来有效地从大量数据集中逼近 Koopman 算子。本研究评估了 EDMD 中使用的不同基函数以及用于表示变道行为模型的截断 SVD 的排名，旨在平衡计算效率与信息损失。然而，研究结果表明，截断 SVD 技术并不一定能够大幅减少计算训练时间，并且会导致显着的信息丢失。

不确定性下基于无味变换的纯追踪路径跟踪算法

分类： 机器人技术, 系统与控制, 系统与控制

作者： Chinnawut Nantabut

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18585v1

摘要： 自动驾驶越来越受欢迎，因为它有可能通过接管人类的驾驶任务来消除道路事故。剩下的挑战之一是自动遵循计划的路径，特别是当自我定位或理解周围环境的不确定性可能影响自动驾驶车辆做出的决策时，例如计算它们需要转向多少以最大限度地减少跟踪误差。本文提出了一种改进的几何纯追踪路径跟踪算法，考虑到使用无迹变换的不确定性。该算法通过典型道路几何形状（例如直线和圆形）的模拟进行测试。

RT-GuIDE：用于信息驱动探索的实时高斯分布

分类： 机器人技术

作者： Yuezhan Tao, Dexter Ong, Varun Murali, Igor Spasojevic, Pratik Chaudhari, Vijay Kumar

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18122v1

摘要： 我们提出了一个主动映射和探索的框架，利用高斯分布来构建信息丰富的地图。此外，我们开发了一种并行运动规划算法，可以利用高斯地图进行实时导航。机器人上构建的高斯地图针对光度和几何质量进行了优化，同时实现了自主的实时态势感知。我们通过模拟实验表明，我们的方法与使用替代信息增益指标的方法相比具有竞争力，同时计算速度要快几个数量级。在实际实验中，我们的算法比传统勘探基线构建的高斯地图获得了更好的地图质量（峰值信噪比 (PSNR) 高 10%，几何重建精度高 30%）。实验视频和更多详细信息可以在我们的项目页面上找到：https://tyuezhan.github.io/RT_GuIDE/

Robot See Robot Do：通过单目 4D 重建模拟铰接式物体操作

分类： 机器人技术, 计算机视觉和模式识别

作者： Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18121v1

摘要： 人类只需观察他人就可以学会操纵新物体；为机器人提供从此类演示中学习的能力将实现指定新行为的自然界面。这项工作开发了 Robot See Robot Do (RSRD)，这是一种在给定单个静态多视图对象扫描的情况下，通过单个单眼 RGB 人类演示来模拟铰接式对象操作的方法。我们首先提出 4D 可微部分模型 (4D-DPM)，这是一种通过可微渲染从单目视频中恢复 3D 部分运动的方法。这种综合分析方法在迭代优化中使用以部分为中心的特征字段，从而可以使用几何正则化器仅从单个视频中恢复 3D 运动。考虑到这种 4D 重建，机器人通过规划双手臂运动来复制物体轨迹，从而诱导所演示的物体部分运动。通过将演示表示为以部分为中心的轨迹，RSRD 专注于复制演示的预期行为，同时考虑机器人自身的形态限制，而不是尝试再现手的运动。我们评估了 4D-DPM 在地面实况注释的 3D 零件轨迹上的 3D 跟踪精度，以及 RSRD 在 9 个物体上的物理执行性能，每个物体都在双手 YuMi 机器人上进行了 10 次试验。 RSRD 每个阶段的平均成功率为 87%，90 项试验的端到端总成功率为 60%。值得注意的是，这是仅使用从大型预训练视觉模型中提取的特征字段来完成的，无需任何特定于任务的训练、微调、数据集收集或注释。项目页面：https://robot-see-robot-do.github.io

EvMAPPER：使用事件相机进行高空正射测绘

分类： 机器人技术, 计算机视觉和模式识别

作者： Fernando Cladera, Kenneth Chaney, M. Ani Hsieh, Camillo J. Taylor, Vijay Kumar

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18120v1

摘要： 传统上，无人机 (UAV) 依靠基于 CMOS 的相机来收集有关下方世界的图像。无人机最成功的应用之一是生成正射马赛克或正射地图，其中将一系列图像集成在一起以开发更大的地图。然而，使用带有全局或卷帘快门的基于 CMOS 的相机意味着正射图很容易受到具有挑战性的光照条件、运动模糊以及相机下独立移动物体的高速运动的影响。事件摄像机对这些问题不太敏感，因为它们的像素能够在亮度变化时异步触发。这项工作介绍了第一个使用事件相机的正射马赛克方法。与仅依赖 CMOS 相机的现有方法相比，我们的方法即使在具有挑战性的光照条件下（包括阳光直射和日落后）也能生成地图。

语言嵌入的高斯 Splats (LEGS)：使用移动机器人增量构建房间规模的表示

分类： 机器人技术

作者： Justin Yu, Kush Hari, Kishore Srinivas, Karim El-Refai, Adam Rashid, Chung Min Kim, Justin Kerr, Richard Cheng, Muhammad Zubair Irshad, Ashwin Balakrishna, Thomas Kollar, Ken Goldberg

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18108v1

摘要： 构建语义 3D 地图对于搜索办公室、仓库、商店和家庭中感兴趣的对象非常有价值。我们提出了一个地图系统，可以逐步构建语言嵌入的高斯 Splat (LEGS)：一种详细的 3D 场景表示，以统一的表示形式对外观和语义进行编码。当机器人遍历其环境时，LEGS 会进行在线训练，以实现开放词汇对象查询的本地化。我们在 4 个房间规模的场景上评估 LEGS，在这些场景中查询场景中的对象以评估 LEGS 如何捕获语义。我们将 LEGS 与 LERF 进行比较，发现虽然两个系统的对象查询成功率相当，但 LEGS 的训练速度比 LERF 快 3.5 倍以上。结果表明，多摄像头设置和增量束调整可以提高受限机器人轨迹中的视觉重建质量，并表明 LEGS 可以以高达 66% 的准确度定位开放词汇和长尾对象查询。

StackGen：通过扩散从轮廓生成稳定结构

分类： 机器人技术

作者： Luzhe Sun, Takuma Yoneda, Samuel W. Wheeler, Tianchong Jiang, Matthew R. Walter

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18098v1

摘要： 人类通过观察世界并与世界互动，自然地获得关于刚性物体之间的相互作用和稳定性的直觉。正是这种直觉决定了我们在环境中定期配置对象的方式，使我们能够从简单的日常对象构建复杂的结构。另一方面，机器人代理传统上需要一个明确的世界模型，其中包括每个对象的详细几何形状和环境动力学的分析模型，这些模型难以扩展并妨碍泛化。相反，机器人将受益于对直观物理学的认识，这使它们能够对环境中物体的稳定相互作用进行类似的推理。为了实现这一目标，我们提出了 StackGen，这是一种扩散模型，可以生成与目标轮廓匹配的构建块的多种稳定配置。为了证明该方法的功能，我们在模拟环境中对其进行评估，并使用机械臂将其部署在真实环境中，以组装模型生成的结构。

用于 1:10 比例自动驾驶汽车的基于模拟到真实视觉的车道保持系统

分类： 机器人技术, 系统与控制, 系统与控制

作者： Antonio Gallina, Matteo Grandin, Angelo Cenedese, Mattia Bruschetta

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18097v1

摘要： 近年来，一些竞赛强调了研究基于视觉的解决方案的必要性，以解决感知、世界建模和本地化方面功能不足的场景。本文介绍了 DEI-Unipd 团队在 2022 年博世未来移动挑战赛的背景下开发的基于视觉的车道保持系统 (VbLKS)。主要贡献在于模拟现实 (Sim2Real) GPS 拒绝的 VbLKS 1:10比例的自动驾驶汽车。在此 VbLKS 中，基于定制的纯追踪 (PP) 的控制策略的输入，即前瞻航向误差 (LHE)，是使用卷积神经网络 (CNN) 以恒定的前瞻距离进行估计的。提出了一种紧凑型 CNN 的训练策略，强调来自 3D Gazebo 模拟器的模拟相机图像的数据生成和增强，并实现在低级硬件上的实时操作。实现了一个定制的基于 PP 的横向控制器，配备了微分作用和基于 PP 的速度参考生成。调谐范围是通过系统的时滞稳定性分析确定的。提供了在代表性受控实验室环境中的验证。

DiffSSC：使用去噪扩散概率模型完成语义 LiDAR 扫描

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Helin Cao, Sven Behnke

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18092v1

摘要： 感知系统在自动驾驶中发挥着至关重要的作用，它结合了多个传感器和相应的计算机视觉算法。 3D LiDAR 传感器广泛用于捕获车辆周围环境的稀疏点云。然而，由于这些点云的稀疏性和缺乏语义，此类系统很难感知场景中的遮挡区域和间隙。为了应对这些挑战，语义场景完成 (SSC) 在给定原始 LiDAR 测量的情况下联合预测场景中未观察到的几何形状和语义，旨在获得更完整的场景表示。基于扩散模型在图像生成和超分辨率任务中的良好结果，我们提出通过在点和语义空间中分别实现噪声和去噪扩散过程来将其扩展到 SSC。为了控制生成，我们采用语义 LiDAR 点云作为条件输入，并设计局部和全局正则化损失来稳定去噪过程。我们评估了我们在自动驾驶数据集上的方法，我们的方法优于 SSC 的最新方法。

GSON：具有大型多模态模型的基于群组的社交导航框架

分类： 机器人技术, 人工智能

作者： Shangyi Luo, Ji Zhu, Peng Sun, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18084v1

摘要： 随着以人为中心的环境中服务机器人和自动驾驶车辆数量的增长，它们的要求不仅仅是导航到目的地。他们还必须考虑动态的社会环境，并确保共享空间中他人的尊重和舒适，这对感知和规划提出了重大挑战。在本文中，我们提出了一种基于群体的社交导航框架 GSON，通过提高大型多模态模型（LMM）的视觉推理能力，使移动机器人能够感知和利用周围的社交群体。对于感知，我们应用视觉提示技术来零样本提取行人之间的社会关系，并将结果与强大的行人检测和跟踪管道相结合，以缓解 LMM 推理速度低的问题。考虑到感知结果，规划系统旨在避免扰乱当前的社会结构。我们采用基于社会结构的中层规划器作为全局路径规划和局部运动规划之间的桥梁，以保留全局背景和反应响应。该方法在涉及复杂社会结构理解和推理的现实移动机器人导航任务上得到了验证。实验结果证明了系统在这些场景中与几个基线相比的有效性。

SKT：将状态感知关键点轨迹与机器人服装操作的视觉语言模型相集成

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18082v1

摘要： 由于服装的多样性和可变形性，自动化服装操作对辅助机器人技术提出了重大挑战。传统方法通常需要为每种服装类型提供单独的模型，这限制了可扩展性和适应性。相比之下，本文提出了一种使用视觉语言模型（VLM）的统一方法来改进各种服装类别的关键点预测。通过解释视觉和语义信息，我们的模型使机器人能够使用单个模型管理不同的服装状态。我们使用先进的模拟技术创建了一个大规模的合成数据集，无需大量的真实数据即可进行可扩展的训练。实验结果表明，基于VLM的方法显着提高了关键点检测精度和任务成功率，为机器人服装操作提供了更灵活和通用的解决方案。此外，这项研究还强调了 VLM 在单一框架内统一各种服装操作任务的潜力，为未来家庭自动化和辅助机器人领域的更广泛应用铺平了道路。

DualAD：自动驾驶推理的双层规划

分类： 机器人技术, 人工智能

作者： Dingrui Wang, Marc Kaufeld, Johannes Betz

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18053v1

摘要： 我们提出了一种新颖的自动驾驶框架 DualAD，旨在模仿人类在驾驶过程中的推理。 DualAD 包含两层：底层基于规则的运动规划器，用于处理需要最少推理的日常驾驶任务；上层具有基于规则的文本编码器，可将驾驶场景从绝对状态转换为文本描述。然后，该文本由大型语言模型 (LLM) 处理以做出驾驶决策。当检测到潜在危险时，上层会干预底层的决策，模仿人类在危急情况下的推理。闭环实验表明，使用零样本预训练模型的 DualAD 明显优于缺乏推理能力的基于规则的运动规划器。我们的实验还强调了文本编码器的有效性，这大大增强了模型的场景理解。此外，集成的 DualAD 模型随着更强大的大语言模型而得到改进，表明该框架有进一步增强的潜力。我们公开提供代码和基准。

解释解释

分类： 人工智能, 多代理系统, 机器人技术

作者： Sergei Nirenburg, Marjorie McShane, Kenneth W. Goodman, Sanjay Oruganti

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18052v1

摘要： 解释是人们对高风险人工智能系统充满信心的关键。然而，基于机器学习的系统——几乎涵盖了当前所有的人工智能——无法解释，因为它们通常是黑匣子。可解释的人工智能（XAI）运动通过重新定义“解释”来解决这个问题。以人为中心的可解释人工智能（HCXAI）运动识别了用户以解释为导向的需求，但由于其对机器学习的承诺而无法满足这些需求。为了获得在关键领域工作的真人所需的解释，我们必须重新思考如何处理人工智能。我们描述了一种开发认知代理的混合方法，该方法使用基于知识的基础设施，并在适用时通过机器学习获得的数据进行补充。这些代理将充当人类的助手，对人类机器人团队的决策和行动承担最终责任。我们使用演示系统的引擎盖下面板来说明此类代理的解释潜力，在该演示系统中，一组模拟机器人协作完成人类分配的搜索任务。

重温一切：通过图像片段检索进行视觉地点识别

分类： 计算机视觉和模式识别, 人工智能, 信息检索, 机器学习, 机器人技术

作者： Kartik Garg, Sai Shubodh Puligilla, Shishir Kolathaya, Madhava Krishna, Sourav Garg

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18049v1

摘要： 准确识别重访的地点对于实体智能体的定位和导航至关重要。尽管摄像机视点和场景外观存在很大差异，但这要求视觉表示清晰。现有的视觉位置识别管道对“整个”图像进行编码并搜索匹配项。这对匹配从不同相机视角拍摄的同一地点的两幅图像提出了根本性的挑战：“重叠部分的相似性可能会被不重叠部分的不同性所支配”。我们通过编码和搜索“图像片段”而不是整个图像来解决这个问题。我们建议使用开放集图像分割将图像分解为“有意义的”实体（即事物和东西）。这使我们能够创建一种新颖的图像表示形式，作为连接一个片段与其相邻片段的多个重叠子图的集合，称为“超级片段”。此外，为了有效地将这些超级分段编码为紧凑的向量表示，我们提出了一种新颖的特征聚合分解表示。我们表明，检索这些部分表示比典型的基于整个图像的检索具有显着更高的识别召回率。我们基于分段的方法被称为 SegVLAD，它在各种基准数据集上设置了新的最先进的就地识别，同时适用于通用和任务专用图像编码器。最后，我们通过在对象实例检索任务上评估我们的方法来展示我们的方法“重新访问任何东西”的潜力，该任务通过它们的共同目标连接了两个不同的研究领域：视觉位置识别和对象目标导航。识别特定于某个地点的目标对象。源代码：https://github.com/AnyLoc/Revisit-Anything。

HARMONIC：人机团队的认知和控制协作

分类： 机器人技术, 人工智能, 多代理系统

作者： Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18047v1

摘要： 本文提出了一种多机器人规划和协作的新颖方法。我们展示了人机团队中机器人的认知策略，其中结合了元认知、自然语言交流和可解释性。该系统采用 HARMONIC 架构，灵活地集成整个团队的认知和控制能力。我们通过模拟实验评估我们的方法，该实验涉及一组异构机器人（UGV 和无人机）和人类的联合搜索任务。我们详细介绍了系统对复杂的现实场景的处理、具有不同功能的机器人之间的有效动作协调以及自然的人机通信。这项工作表明，机器人推理计划、目标和态度以及为行动和决策提供解释的能力是现实人机协作的重要先决条件。

MMDVS-LF：多模态动态视觉传感器巡线数据集

分类： 机器人技术

作者： Felix Resch, Mónika Farsang, Radu Grosu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18038v1

摘要： 动态视觉传感器 (DVS) 由于其高时间分辨率和基于异步事件的数据，在控制应用中具有独特的优势。尽管如此，它们在机器学习算法中的采用仍然有限。为了解决这一差距，并促进利用 DVS 数据特定特征的模型的开发，我们引入了多模态动态视觉传感器巡线数据集 (MMDVS-LF)。这个综合数据集是第一个集成来自小型标准化车辆的多种传感器模式的数据集，包括 DVS 记录、RGB 视频、里程计和惯性测量单元 (IMU) 数据。此外，该数据集还包括在赛道上执行巡线任务的驾驶员的眼动追踪和人口统计数据。凭借其多样化的数据，MMDVS-LF 为开发深度学习算法、跨多个领域开展数据科学项目、支持自主系统和控制应用的创新提供了新的机会。

HARMONIC：解释性认知机器人的框架

分类： 机器人技术, 人工智能, 人机交互, 多代理系统

作者： Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18037v1

摘要： 我们提出了 HARMONIC，一个用于实现认知机器人的框架，它将通用机器人转变为能够进行复杂决策、自然沟通和人类水平解释的值得信赖的队友。该框架支持用于高级决策的战略（认知）层与用于低级控制和执行的战术（机器人）层之间的互操作性。我们描述了该框架的核心功能和我们的初始实现，其中 HARMONIC 部署在参与多机器人搜索和检索任务的模拟 UGV 和无人机上。

交互式自动驾驶的多智能体行为拓扑推理

分类： 机器人技术

作者： Haochen Liu, Li Chen, Yu Qiao, Chen Lv, Hongyang Li

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18031v1

摘要： 自动驾驶系统旨在通过交互代理之间的行为集成来实现安全和社会一致的驾驶。然而，由于多智能体场景的不确定性和异构交互，挑战仍然存在。当前的密集和稀疏行为表示在多智能体建模中遇到低效率和不一致的问题，导致集成预测和规划（IPP）时集体行为模式的不稳定。为了解决这个问题，我们启动了一种拓扑结构，作为顺从的行为前景来指导下游轨迹生成。具体来说，我们引入了行为拓扑（BeTop），这是一种关键的拓扑表述，它明确地表示了多智能体未来之间一致的行为模式。 BeTop 源自辫子理论，从多智能体未来轨迹中提取合规的交互式拓扑。由 BeTop 监督的协同学习框架 (BeTopNet) 有助于在预测的拓扑先验内实现行为预测和规划的一致性。通过模仿应急学习，BeTop 还可以有效管理预测和规划的行为不确定性。对大规模现实世界数据集（包括 nuPlan 和 WOMD）的广泛验证表明，BeTop 在预测和规划任务中均实现了最先进的性能。对拟议的交互式场景基准的进一步验证展示了交互式案例中的规划合规性。

ReliOcc：通过不确定性学习实现可靠的语义占用预测

分类： 计算机视觉和模式识别, 机器人技术

作者： Song Wang, Zhongdao Wang, Jiawei Yu, Wentong Li, Bailan Feng, Junbo Chen, Jianke Zhu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18026v1

摘要： 以视觉为中心的语义占用预测在自动驾驶中发挥着至关重要的作用，这需要低成本传感器进行准确可靠的预测。尽管与激光雷达的准确度差距显着缩小，但仍然很少有研究工作来探索相机预测语义占用的可靠性。在本文中，我们首次从可靠性角度对现有的语义占用预测模型进行了综合评估。尽管基于摄像头的模型在精度方面逐渐与激光雷达保持一致，但仍然存在显着的可靠性差距。为了解决这个问题，我们提出了 ReliOcc，一种旨在增强基于摄像头的占用网络可靠性的方法。 ReliOcc 为现有模型提供了一种即插即用方案，该方案通过混合学习将单个体素的混合不确定性与基于采样的噪声和相对体素集成在一起。此外，还设计了不确定性感知校准策略，以进一步增强离线模式下的模型可靠性。各种设置下的大量实验表明，ReliOcc 显着增强了模型可靠性，同时保持了几何和语义预测的准确性。重要的是，我们提出的方法在推理过程中表现出对传感器故障和域外噪声的鲁棒性。

使用大型语言模型控制工业自动化系统

分类： 系统与控制, 人工智能, 人机交互, 多代理系统, 机器人技术, 系统与控制

作者： Yuchen Xia, Nasser Jazdi, Jize Zhang, Chaitanya Shah, Michael Weyrich

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18009v1

摘要： 传统的工业自动化系统需要专门的专业知识来操作和复杂的重新编程以适应新的流程。大型语言模型提供的智能使其更加灵活且易于使用。然而，大语言模型在工业环境中的应用尚未得到充分探索。本文介绍了一个集成大语言模型以实现工业自动化系统端到端控制的框架。该框架的核心是针对工业任务设计的代理系统、结构化的提示方法以及为LLM推理提供实时数据的事件驱动的信息建模机制。该框架为大语言模型提供不同上下文语义级别的实时事件，使他们能够解释信息、生成生产计划并控制自动化系统上的操作。它还支持结构化数据集创建，以便对大语言模型的下游应用程序进行微调。我们的贡献包括正式的系统设计、概念验证实施以及生成用于 LLM 微调和测试的特定任务数据集的方法。这种方法使自动化系统更具适应性，可以响应自发事件，同时允许通过自然语言更轻松地进行操作和配置，从而实现更直观的人机交互。我们在 GitHub 上提供演示视频和详细数据：https://github.com/YuchenXia/LLM4IAS

使用扩散进行联合定位和规划

分类： 机器人技术, 人工智能, 机器学习

作者： L. Lao Beyer, S. Karaman

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17995v1

摘要： 扩散模型已成功应用于机器人问题，例如操纵和车辆路径规划。在这项工作中，我们通过考虑在已知但任意的 2D 环境中联合执行全局定位和路径规划的问题，探索它们在端到端导航（包括感知和规划）中的应用。特别是，我们引入了一种扩散模型，该模型在给定以自我为中心的激光雷达扫描、任意地图和所需目标位置的情况下，在全局参考系中生成无碰撞路径。为此，我们在 SE(2) 的路径空间中实现扩散，并描述如何根据障碍物和传感器观测来调节去噪过程。在我们的评估中，我们表明，所提出的调节技术能够泛化到外观与训练环境有很大不同的真实地图，证明我们的模型准确描述模糊解决方案的能力，并运行广泛的模拟实验，展示我们的模型作为实时、端到端本地化和规划堆栈。

LoopSR：循环模拟与真实，实现腿式机器人的终身策略适应

分类： 机器人技术, 机器学习

作者： Peilin Wu, Weiji Xie, Jiahang Cao, Hang Lai, Weinan Zhang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17992v1

摘要： 强化学习（RL）通过模拟到真实的迁移，在腿部运动中展示了其卓越且可推广的能力。然而，虽然域随机化等自适应方法有望使策略对不同的环境更加稳健，但根据“没有免费的午餐定理”，这种全面性可能会降低策略在任何特定环境中的性能，从而导致在现实世界中部署后出现次优解决方案。为了解决这个问题，我们提出了一个名为 LoopSR 的终身策略适应框架，它利用基于变压器的编码器将现实世界的轨迹投影到潜在空间中，并相应地在模拟中重建现实世界环境以进一步改进。采用自动编码器架构和对比学习方法来更好地提取现实世界动态的特征。通过将来自解码器的预测参数与来自模拟轨迹数据集的检索参数相结合来导出用于持续训练的模拟参数。通过利用持续训练，与强大的基线相比，LoopSR 实现了卓越的数据效率，仅用有限的数据量即可在模拟到模拟和模拟到真实的实验中产生出色的性能。

Deblur e-NeRF：高速或弱光条件下运动模糊事件的 NeRF

分类： 计算机视觉和模式识别, 图形, 机器人技术, 系统与控制, 系统与控制

作者： Weng Fei Low, Gim Hee Lee

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17988v1

摘要： 事件摄像机的设计理念形成鲜明对比，使其特别适合在高速、高动态范围和低光照条件下运行，而标准摄像机在这些条件下表现不佳。尽管如此，事件摄像机仍然存在一定程度的运动模糊，特别是在这些具有挑战性的条件下，这与大多数人的想法相反。这是由于事件传感器像素的带宽有限，该带宽主要与光强度成正比。因此，为了确保事件相机能够真正在比标准相机具有优势的条件下表现出色，在下游应用（尤其是重建）中考虑事件运动模糊至关重要。然而，最近关于从事件重建神经辐射场（NeRF）的工作以及事件模拟器都没有考虑事件运动模糊的全部影响。为此，我们提出了 Deblur e-NeRF，这是一种从高速运动或弱光条件下生成的运动模糊事件直接有效地重建模糊最小 NeRF 的新方法。这项工作的核心组成部分是一个物理精确的像素带宽模型，旨在解决任意速度和照明条件下的事件运动模糊。我们还引入了一种新颖的阈值归一化总变异损失，以改善大型无纹理补丁的正则化。对真实和新颖的真实模拟序列的实验验证了我们的有效性。我们的代码、事件模拟器和合成事件数据集将开源。

不同风况下固定翼无人机姿态控制的无模型与基于模型的强化学习

分类： 机器人技术, 机器学习, 系统与控制, 系统与控制

作者： David Olivares, Pierre Fournier, Pavan Vasishta, Julien Marzat

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17896v1

摘要： 本文以 PID 为参考点，评估和比较了无模型和基于模型的强化学习在固定翼无人机姿态控制中的性能。比较的重点是它们在模拟环境中处理不同的飞行动力学和风扰动的能力。我们的结果表明，时域差分模型预测控制代理在不同参考难度下的跟踪精度和鲁棒性方面优于 PID 控制器和其他无模型强化学习方法，特别是在非线性飞行状态下。此外，我们引入驱动波动作为评估能源效率和执行器磨损的关键指标，并且我们测试了文献中的两种不同方法：动作变化惩罚和动作策略平滑性调节。我们还分别评估了随机湍流和阵风时的所有控制方法，以衡量它们对跟踪性能的影响，观察它们的局限性并概述它们对马尔可夫决策过程形式主义的影响。

Swarm-LIO2：用于无人机群的分散式、高效 LiDAR 惯性里程计

分类： 机器人技术

作者： Fangcheng Zhu, Yunfan Ren, Longji Yin, Fanze Kong, Qingbo Liu, Ruize Xue, Wenyi Liu, Yixi Cai, Guozheng Lu, Haotian Li, Fu Zhang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17798v1

摘要： 空中集群系统在合作探索、目标跟踪、搜索救援等方面具有巨大的潜力。高效、准确的自我和相互状态估计是完成这些群体任务的关键前提，这仍然是具有挑战性的研究课题。本文提出了 Swarm-LIO2：一种完全分散、即插即用、计算效率高且带宽高效的激光雷达惯性里程计，适用于空中集群系统。 Swarm-LIO2 使用去中心化、即插即用的网络作为通信基础设施。仅交换带宽高效和低维信息，包括身份、自我状态、相互观察测量和全局外在转换。为了支持新队友参与者的即插即用，Swarm-LIO2 会检测潜在的队友无人机并自动初始化时间偏移和全局外在转换。为了提高初始化效率，提出了基于反射率的无人机检测、轨迹匹配和因子图优化方法。对于状态估计，Swarm-LIO2 在高效的 ESIKF 框架内融合了 LiDAR、IMU 和相互观测测量，并仔细补偿时间延迟和测量建模，以提高准确性和一致性。

安全：在无意识的情况下进行语义感知的具体对话，以实现机器人的终身学习

分类： 机器人技术, 人工智能, 计算和语言

作者： Rimvydas Rubavicius, Peter David Fagan, Alex Lascarides, Subramanian Ramamoorthy

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17755v1

摘要： 本文讨论了一个具有挑战性的交互式任务学习场景，我们称之为无意识重排：在机器人不知道解决指示任务的关键概念的情况下操纵刚体环境。我们提出了 SECURE，这是一种交互式任务学习框架，旨在通过使用具体对话修复有缺陷的领域模型来解决此类问题。通过对话，机器人发现并学会利用不可预见的可能性。使用 SECURE，机器人不仅可以在犯错误时从用户的纠正反馈中学习，而且还可以学习做出战略对话决策，以揭示有关解决指示任务的新概念的有用证据。这些能力共同使机器人能够利用新获得的知识泛化到后续任务。我们证明，具有语义意识的机器人——也就是说，它在学习和推理过程中利用句子和话语语义的逻辑结果——比缺乏这种能力的机器人更有效地学习在无意识的情况下解决重排问题。

使用四足机器人进行坚固的梯子攀爬

分类： 机器人技术

作者： Dylan Vogel, Robert Baines, Joseph Church, Julian Lotzer, Karl Werner, Marco Hutter

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17731v1

摘要： 四足机器人在工业环境中数量激增，它们携带传感器套件并充当自主检查平台。尽管在崎岖不平的地形上，腿式机器人比轮式机器人具有优势，但它们仍然无法可靠地应对工业基础设施中普遍存在的特征：梯子。由于无法爬过梯子，四足动物无法检查危险位置，使人类处于危险之中，并降低工业现场的生产力。在本文中，我们通过基于强化学习的控制策略和互补的钩状末端执行器来学习四足梯子攀爬。我们评估了不同梯子倾斜度、梯级几何形状和梯级间距的模拟鲁棒性。在硬件上，我们展示了零射击转移，在梯子角度从 70{\deg} 到 90{\deg} 范围内的总体成功率为 90%，在未建模扰动期间保持一致的攀爬性能，并且攀爬速度比状态下快 232 倍艺术。这项工作将工业四足机器人的应用范围扩展到了对名义地形的检查之外，扩展到环境中具有挑战性的基础设施特征，突出了机器人形态和控制策略在执行复杂技能时的协同作用。更多信息可以在项目网站上找到：https://sites.google.com/leggedrobotics.com/climbingladders。

Robotic-CLIP：针对机器人应用程序的动作数据微调 CLIP

分类： 机器人技术, 计算机视觉和模式识别

作者： Nghia Nguyen, Minh Nhat Vu, Tung D. Ta, Baoru Huang, Thieu Vo, Ngan Le, Anh Nguyen

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17727v1

摘要： 视觉语言模型在为各种机器人应用提取有意义的特征方面发挥了关键作用。其中，对比语言-图像预训练（CLIP）广泛应用于需要视觉和自然语言理解的机器人任务中。然而，CLIP 仅接受与文本提示配对的静态图像的训练，尚未完全适应涉及动态动作的机器人任务。在本文中，我们引入了 Robotic-CLIP 来增强机器人的感知能力。我们首先收集并标记大规模动作数据，然后使用对比学习对 309,433 个视频（约 740 万帧）的动作数据进行微调 CLIP，从而构建我们的 Robotic-CLIP。通过利用动作数据，Robotic-CLIP 继承了 CLIP 强大的图像性能，同时获得了理解机器人环境中动作的能力。密集实验表明，我们的 Robotic-CLIP 在各种语言驱动的机器人任务中优于其他基于 CLIP 的模型。此外，我们还展示了 Robotic-CLIP 在现实世界抓取应用中的实际有效性。

通过可微接触动力学在几何不确定性下稳定物体放置

分类： 机器人技术

作者： Linfeng Li, Gang Yang, Lin Shao, David Hsu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17725v1

摘要： 从提供一杯咖啡到仔细重新摆放精致的物品，稳定的物体放置是未来机器人的一项关键技能。由于所需的精度在几何不确定性下很难实现，因此这项技能具有挑战性。我们利用可微接触动力学来开发一种在几何不确定性下稳定物体放置的原理方法。我们通过梯度下降最小化力-扭矩传感器读数与模型预测之间的差异来估计几何不确定性。我们进一步跟踪对多个可能的几何参数的信念，以减轻基于梯度的方法对初始化的敏感性。我们在现实世界中针对各种几何不确定性验证了我们的方法，包括所抓取物体的手中姿势不确定性、物体的形状不确定性和环境的形状不确定性。

拾放任务中的场景理解：分析初始场景和最终场景之间的转换

分类： 计算机视觉和模式识别, 机器人技术, 系统与控制, 系统与控制, Computer Vision and Pattern Recognition (cs.CV), Systems and Control (eess.SY)

作者： Seraj Ghasemi, Hamed Hosseini, MohammadHossein Koosheshi, Mehdi Tale Masouleh, Ahmad Kalhor

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17720v1

摘要： 随着机器人在日常任务中越来越多地与人类协作，采取措施使机器人系统能够理解环境非常重要。这项工作的重点是场景理解，以在给定场景中的初始和最终图像的情况下检测拾取和放置任务。为此，收集数据集用于对象检测和拾取和放置任务检测。随后训练 YOLOv5 网络来检测初始和最终场景中的对象。给定检测到的对象及其边界框，提出了两种方法来检测将初始场景转换为最终场景的拾取和放置任务。提出了一种几何方法，该方法跟踪两个场景中对象的运动，并基于场景内移动的边界框的交集进行工作。相反，基于 CNN 的方法利用卷积神经网络将具有相交边界框的对象分为 5 类，显示所涉及对象之间的空间关系。然后，通过分析两个场景的实验得出所执行的拾取和放置任务。结果表明，使用 VGG16 主干的基于 CNN 的方法在某些场景下比几何方法高出大约 12 个百分点，总体成功率为 84.3%。

使用机器人终生体验的分层表示进行情景记忆语言化

分类： 机器人技术, 人工智能

作者： Leonard Bärmann, Chad DeChant, Joana Plewnia, Fabian Peller-Konrad, Daniel Bauer, Tamim Asfour, Alex Waibel

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17702v1

摘要： 机器人经验的语言化，即对机器人过去的总结和问答，是改善人机交互的关键能力。以前的工作应用基于规则的系统或微调的深度模型来表达短（几分钟长）的情景数据流，限制了泛化和可转移性。在我们的工作中，我们应用大型预训练模型来通过零个或很少的示例来解决这项任务，并特别关注用语言表达一生的经历。为此，我们从情景记忆（EM）中派生出一个树状数据结构，较低级别代表原始感知和本体感觉数据，较高级别将事件抽象为自然语言概念。给定从经验流构建的这种分层表示，我们应用大型语言模型作为代理来交互式搜索给定用户查询的 EM，动态扩展（最初折叠）树节点以查找相关信息。即使扩展到数月的机器人经验数据，该方法也能保持较低的计算成本。我们在模拟家用机器人数据、人类以自我为中心的视频和现实世界的机器人录音上评估我们的方法，证明其灵活性和可扩展性。

基于事件的立体深度估计：一项调查

分类： 计算机视觉和模式识别, 机器人技术

作者： Suman Ghosh, Guillermo Gallego

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17680v1

摘要： 立体视觉在机器人技术中具有广泛的吸引力，因为它是生物感知深度以导航 3D 世界的主要方式。事件相机是新型仿生传感器，可以异步检测每个像素的亮度变化，具有非常高的时间分辨率和高动态范围，使机器能够在高速运动和广泛的照明条件下进行感知。高时间精度也有利于立体匹配，使视差（深度）估计自诞生以来就成为事件相机的热门研究领域。在过去 30 年里，该领域发展迅速，从低延迟、低功耗电路设计到当前由计算机视觉社区推动的深度学习 (DL) 方法。由于其高度跨学科的性质，参考书目非常庞大，对于非专家来说很难浏览。过去的调查在应用程序的背景下解决了该主题的不同方面，或者仅关注特定类别的技术，但忽略了立体数据集。这项调查提供了全面的概述，涵盖适用于同步定位和建图 (SLAM) 的瞬时立体方法和长期方法，以及理论和实证比较。它是第一个广泛审查深度学习方法和立体数据集的文献，甚至为创建新基准以推进该领域发展提供了实用建议。还讨论了基于事件的立体深度估计的主要优点和挑战。尽管取得了重大进展，但在准确性和效率（基于事件的计算的基石）方面实现最佳性能仍然存在挑战。我们找出了一些差距并提出了未来的研究方向。我们希望这项调查能够作为新人的切入点，并为社区中经验丰富的研究人员提供实用指南，从而启发该领域的未来研究。

AssistantX：人类协作环境中由大语言模型支持的主动助理

分类： 机器人技术, 人工智能, 多代理系统

作者： Nan Sun, Bo Mao, Yongchang Li, Lumeng Ma, Di Guo, Huaping Liu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17655v1

摘要： 人类居住环境中对智能助手的需求不断增长，推动了自主机器人系统的重大研究。然而，传统的服务机器人和虚拟助手由于动态推理和交互的能力有限，尤其是在需要人类协作时，在执行现实世界的任务时遇到了困难。大型语言模型的最新发展为改进这些系统开辟了新途径，实现更复杂的推理和自然交互功能。在本文中，我们介绍了 AssistantX，这是一种由大语言模型支持的主动助理，旨在在物理办公环境中自主操作。与传统服务机器人不同，AssistantX 利用新颖的多代理架构 PPDR4X，提供先进的推理能力和全面的协作意识。通过有效弥合虚拟操作和物理交互之间的差距，AssistantX 在管理复杂的现实场景方面展现了强大的性能。我们的评估强调了该架构的有效性，表明 AssistantX 可以响应明确的指令，主动从内存中检索补充信息，并主动寻求团队成员的协作以确保成功完成任务。更多详细信息和视频可以在 https://assistantx-agent.github.io/AssistantX/ 找到。

FactorSim：通过因式分解表示的生成模拟

分类： 人工智能, 机器人技术

作者： Fan-Yun Sun, S. I. Harini, Angela Yi, Yihan Zhou, Alex Zook, Jonathan Tremblay, Logan Cross, Jiajun Wu, Nick Haber

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17652v1

摘要： 根据自然语言输入、用户输入或任务文档生成模拟来训练游戏和机器人中的智能代理，仍然是一个开放式挑战。现有方法侧重于这一挑战的部分内容，例如生成奖励函数或任务超参数。与之前的工作不同，我们引入了 FACTORSIM，它可以根据语言输入生成完整的代码模拟，可用于训练代理。利用编码模拟特有的结构模块化，我们建议使用分解的部分可观察马尔可夫决策过程表示，它允许我们减少生成的每个步骤中的上下文依赖性。为了进行评估，我们引入了一个生成模拟基准，用于评估生成的模拟代码在促进强化学习设置中的零样本迁移方面的准确性和有效性。我们表明，FACTORSIM 在生成有关即时对齐（例如准确性）、零样本传输能力和人工评估的模拟方面优于现有方法。我们还展示了它在生成机器人任务方面的有效性。

AP-VLM：视觉语言模型支持的主动感知

分类： 机器人技术

作者： Venkatesh Sripada, Samuel Carter, Frank Guerin, Amir Ghalamzan

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17641v1

摘要： 主动感知使机器人能够通过调整视角来动态收集信息，这是与复杂的、部分可观察的环境进行交互的关键能力。在本文中，我们提出了 AP-VLM，这是一种新颖的框架，它将主动感知与视觉语言模型（VLM）相结合，以指导机器人探索并回答语义查询。 AP-VLM 使用覆盖在场景和方向调整上的 3D 虚拟网格，使机器人操纵器能够智能地选择最佳视点和方向，以解决具有挑战性的任务，例如识别遮挡或倾斜位置的物体。我们在两个机器人平台上评估我们的系统：7 自由度 Franka Panda 和 6 自由度 UR5，跨越具有不同对象配置的各种场景。我们的结果表明，AP-VLM 的性能显着优于被动感知方法和基线模型，包括基于常识推理 (TGCSR)，特别是在固定摄像机视图不足的情况下。 AP-VLM 在现实环境中的适应性有望增强机器人系统对复杂环境的理解，弥合高级语义推理和低级控制之间的差距。

自动驾驶车辆感知故障的系统级安全监控和恢复

分类： 机器人技术

作者： Kaustav Chakraborty, Zeyuan Feng, Sushant Veer, Apoorva Sharma, Boris Ivanovic, Marco Pavone, Somil Bansal

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17630v1

摘要： 自动驾驶车辆 (AV) 操作的安全性至关重要，因此需要开发与任务相关的算法，这些算法可以在系统级别（而不仅仅是组件级别）推理安全性。为了推断感知故障对整个系统性能的影响，此类与任务相关的算法必须应对各种挑战：AV 堆栈的复杂性、操作环境的高度不确定性以及对实时性能的需求。为了克服这些挑战，在这项工作中，我们引入了一种名为 SPARQ（感知和恢复 Q 网络安全评估的缩写）的 Q 网络，它评估由规划算法生成的计划的安全性，并考虑到规划算法生成的感知失败。过程可能被忽略了。可以在系统运行时查询该 Q 网络，以评估提议的计划是否可以安全执行或是否会带来潜在的安全风险。如果检测到违规行为，网络可以在考虑感知故障的同时推荐纠正计划。我们使用 NuPlan-Vegas 数据集验证我们的算法，证明其处理感知失败损害提议计划而纠正计划保持安全的情况的能力。我们观察到，在未见过的测试数据集上保持 42Hz 的频率时，总体准确率和召回率为 90%。我们将我们的性能与流行的基于可达性的基线进行比较，并分析我们的方法在提高 AV 管道的安全性能方面的一些有趣的特性。

HGS-Planner：使用 3D 高斯分布进行活动场景重建的分层规划框架

分类： 机器人技术

作者： Zijun Xu, Rui Jin, Ke Wu, Yi Zhao, Zhiwei Zhang, Jieru Zhao, Zhongxue Gan, Wenchao Ding

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17624v1

摘要： 在搜索和救援等复杂任务中，机器人必须依靠其感知和理解周围环境的能力，在未知环境中做出智能决策。高质量和实时重建可以增强态势感知，对于智能机器人至关重要。传统方法通常会遇到场景表示不佳的问题，或者速度太慢而无法实时使用。受 3D 高斯分布 (3DGS) 功效的启发，我们提出了一种用于快速、高保真主动重建的分层规划框架。我们的方法评估完成度和质量增益，以自适应地指导重建，整合全球和本地规划以提高效率。模拟和现实环境中的实验表明我们的方法优于现有的实时方法。

利用语义和几何信息实现零射击机器人与人类的切换

分类： 机器人技术

作者： Jiangshan Liu, Wenlong Dong, Jiankun Wang, Max Q. -H. Meng

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17621v1

摘要： 人机交互 (HRI) 涵盖广泛的协作任务，其中切换是最基本的任务之一。随着机器人越来越融入人类环境，服务机器人协助人类搬运物品的潜力越来越大。在机器人到人类（R2H）的切换中，选择最佳抓握对于成功至关重要，因为它需要避免干扰人类首选的抓握区域并最大限度地减少对其工作空间的侵入。现有的方法要么没有充分考虑几何信息，要么依赖于数据驱动的方法，而这些方法往往很难在不同的对象之间进行泛化。为了解决这些限制，我们提出了一种新颖的零射击系统，该系统结合语义和几何信息来生成最佳的切换把握。我们的方法首先使用视觉语言模型（VLM）中的语义知识来识别掌握区域，并通过结合定制的视觉提示，在区域基础中实现更细的粒度。然后根据抓取距离和接近角度选择抓取，以最大限度地提高人类舒适度并避免干扰。我们通过消融研究和现实世界的比较实验验证了我们的方法。结果表明，我们的系统提高了切换成功率，并提供了更符合用户偏好的交互体验。视频、附录等内容请访问 https://sites.google.com/view/vlm-handover/。

通过主动感知从代理交互中学习遮挡感知决策

分类： 机器人技术

作者： Jie Jia, Yiming Shu, Zhongxue Gan, Wenchao Ding

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17618v1

摘要： 由于各种遮挡的高度不确定性，遮挡感知决策对于自动驾驶至关重要。最近的遮挡感知决策方法遇到了计算复杂性高、场景可扩展性挑战或依赖有限专家数据等问题。受益于通过探索随机化自动生成数据，我们发现强化学习（RL）可能在遮挡感知决策中显示出前景。然而，先前的遮挡感知强化学习面临着扩展到各种动态和静态遮挡场景、学习效率低和缺乏预测能力的挑战。为了解决这些问题，我们引入了 Pad-AI，这是一种自我强化框架，可通过主动感知来学习遮挡感知决策。 Pad-AI 利用矢量化表示来有效地表示遮挡环境，并学习语义运动原语以专注于高级主动感知探索。此外，Pad-AI将预测和强化学习集成在统一的框架内，提供风险感知学习和安全保证。我们的框架在动态和静态遮挡下的挑战性场景中进行了测试，并在闭环评估中向其他强大的基线展示了高效和一般的感知感知探索性能。

SpaceDREAM 机械臂软件

分类： 机器人技术

作者： Maximilian Mühlbauer, Maxime Chalon, Maximilian Ulmer, Alin Albu-Schäffer

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17562v1

摘要： 阻抗控制机器人在地球上被广泛用于执行交互丰富的任务，并将成为太空服务、组装和制造（ISAM）活动的关键推动者。本文介绍了德国航空航天中心 (DLR) 与 KINETIK Space GmbH 合作执行的 SpaceDREAM 任务中机载计算机 (OBC) 上使用的软件架构，该任务旨在验证低地球轨道 (LEO) 中的机械臂。慕尼黑工业大学（TUM）。在任务期间，将执行多项自由运动和接触任务，以验证机器人在关节级位置和阻抗控制以及笛卡尔控制方面的正确功能。这些任务被选择为具有代表性的后续服务任务，例如需要接口对接或精确操控。 OBC 上的软件通过 SpaceWire 命令机器人的关节执行这些任务，从附加传感器读取相机图像和数据，并通过航天器的以太网链路将遥测数据发送到地球。它被设置为在接收到来自航天器的启动信号后执行预定义的任务，同时它应该可以扩展以接收来自地球的命令以执行后续任务。核心设计原则是尽可能多地重用现有软件，并尽可能接近 DLR 现有的机器人软件堆栈。与所有机器人软件的定制开发相比，这使得机器人手臂可以快速全面运行，软件开发人员的进入门槛更低，并且可以重用现有库。虽然并非每一行代码都可以通过这种设计进行测试，但大多数软件已经通过在多个机器人系统上的日常执行来证明其功能。

用于灵巧视觉触觉策略学习的 3D 触觉规范表示和基于力的预训练

分类： 机器人技术

作者： Tianhao Wu, Jinzhou Li, Jiyao Zhang, Mingdong Wu, Hao Dong

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17549v1

摘要： 触觉传感在使机器人执行细粒度、接触丰富的任务方面发挥着至关重要的作用。然而，由于灵巧手的覆盖范围广，触觉数据的高维性给有效的触觉特征学习带来了重大挑战，特别是对于 3D 触觉数据，因为没有大型标准化数据集，也没有强大的预训练主干。为了应对这些挑战，我们提出了一种新颖的规范表示，可以降低 3D 触觉特征学习的难度，并进一步引入基于力的自监督预训练任务来捕获局部力和网络力特征，这对于灵巧的操作至关重要。在现实世界的实验中，我们的方法在四个细粒度、接触丰富的灵巧操作任务中实现了 78% 的平均成功率，与其他方法相比，证明了其有效性和鲁棒性。进一步的分析表明，我们的方法充分利用 3D 触觉数据中的空间和力信息来完成任务。这些视频可以在 https://3dtacdex.github.io 上观看。

使用预先训练的视觉语言模型和黑盒优化进行机器人环境状态识别

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Kento Kawaharazuka, Yoshiki Obinata, Naoaki Kanazawa, Kei Okada, Masayuki Inaba

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17519v1

摘要： 为了让机器人能够在不同的环境中自主导航和操作，它们必须识别环境的状态。另一方面，环境状态识别传统上涉及针对每个要识别的状态定制的不同方法。在这项研究中，我们通过预先训练的大规模视觉语言模型，通过口语对机器人进行统一的环境状态识别。我们应用视觉问答和图像到文本检索，这是视觉语言模型的任务。我们证明，通过我们的方法，不仅可以识别房间门是否打开/关闭，还可以识别透明门是否打开/关闭以及水槽中的水是否在流动，而无需训练神经网络或手动编程。此外，通过基于黑盒优化从准备好的文本集中选择合适的文本，可以提高识别精度。对于每个状态识别，只需要改变文本集及其权重，无需准备多个不同的模型和程序，并且方便源代码和计算机资源的管理。我们通过实验证明了我们方法的有效性，并将其应用于移动机器人 Fetch 的识别行为。

多旋翼图像视觉伺服精准拦截飞行目标

分类： 机器人技术

作者： Hailong Yan, Kun Yang, Yixiao Cheng, Zihao Wang, Dawei Li

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17497v1

摘要： 使用配备捷联摄像机的低成本无人机拦截低空入侵目标是一种有竞争力的选择。然而，非合作目标的恶意操纵和相机的耦合使任务具有挑战性。针对这一问题，设计了一种基于具有视场保持能力的比例导航制导的图像视觉伺服（IBVS）控制算法。所提出的控制器减少了脱靶距离，同时提高了视觉伺服系统在拦截过程中的稳定性。软件在环 (SITL) 仿真实验表明，与最新研究相比，循环误差概率 (CEP) 降低了 72.8%。这一改进将拦截精度从分米级提高到了厘米级。真实世界的实验进一步验证了所提出算法的有效性。

穿越不可穿越的区域：估计垂直挑战性地形上轮式机动性的可穿越性

分类： 机器人技术

作者： Chenhui Pan, Aniket Datar, Anuj Pokhrel, Matthew Choulas, Mohammad Nazeri, Xuesu Xiao

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17479v1

摘要： 大多数可通行性估计技术将越野地形分为可通行区域（例如，人行道、碎石和草地）和不可通行区域（例如，巨石、植被和沟渠），然后通知后续规划者在可通行部分上生成轨迹。然而，最近的研究表明，轮式机器人可以穿越垂直挑战性的地形（例如，与车辆本身大小相当的极其崎岖的巨石），不幸的是，现有技术被认为是无法穿越的。受这些限制的推动，这项工作旨在以数据驱动的方式基于过去的运动动力学车辆-地形相互作用，从看似不可穿越的、垂直挑战性的地形中识别出可穿越的地形。我们的新型 Traverse 不可穿越 (TNT) 可穿越性估计器可以有效地指导下游基于采样的规划器，其中包含高精度 6 自由度运动动力学模型，该模型可部署在小型车辆上。此外，估计的可遍历性还可以用作成本图来规划全局和局部路径，而无需采样。我们的实验结果表明，TNT 在物理机器人平台上可以将规划性能、效率和稳定性分别提高 50%、26.7% 和 9.2%。

未知物体的触觉概率接触动力学估计

分类： 机器人技术

作者： Jinhoo Kim, Yifan Zhu, Aaron Dollar

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17470v1

摘要： 我们研究在部分已知的环境中快速识别未知物体的接触动力学的问题。我们方法的关键创新是将接触动力学估计问题新颖地表述为接触几何形状和物理参数的联合估计。我们利用 DeepSDF（一种基于神经网络的紧凑且富有表现力的几何分布几何表示），并采用粒子滤波器来估计接触的几何形状和物理参数。此外，我们将估计器与主动探索策略结合起来，该策略计划信息收集行动以进一步加快在线估计。通过模拟和物理实验，我们表明，我们的方法可以通过不到 30 次探索移动来估计接触部分已知环境的未知物体的准确接触动力学。

Verti-Selector：垂直挑战性地形上轮式机动性的自动课程学习

分类： 机器人技术

作者： Tong Xu, Chenhui Pan, Xuesu Xiao

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17469v1

摘要： 强化学习 (RL) 有潜力通过模拟的端到端试错学习体验来规避复杂的运动动力学建模、规划和控制，从而实现极端的越野机动性。然而，大多数强化学习方法在大量手动设计的模拟环境中进行训练时样本效率低下，并且很难推广到现实世界。为了解决这些问题，我们引入了 Verti-Selector (VS)，这是一种自动课程学习框架，旨在通过选择性地采样训练地形来提高学习效率和泛化能力。 VS 优先考虑在重新访问时具有较高时间差 (TD) 误差的垂直挑战性地形，从而使机器人能够在其不断发展的能力的边缘进行学习。通过动态调整采样焦点，VS 显着提高了基于 Chrono 多物理引擎构建的 VW-Chrono 模拟器中的采样效率和泛化能力。此外，我们还在 Verti-4-Wheeler 平台上使用 VS 提供仿真和物理结果。这些结果表明，VS 通过在训练期间有效采样并稳健地推广到现实世界，可以将成功率提高 23.08%。

猫鼠卫星动力学：有争议的多智能体空间作战的发散对抗强化学习

分类： 机器人技术

作者： Cameron Mehlman, Joseph Abramov, Gregory Falco

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17443v1

摘要： 随着太空变得越来越拥挤和竞争，多智能体环境的强大自主能力变得至关重要。目前的太空自主系统主要依赖于基于优化的路径规划或远程轨道机动，但在一颗卫星主动追击另一颗卫星的对抗场景中，这些系统尚未被证明有效。我们引入发散对抗强化学习（DARL），这是一种两阶段多智能体强化学习（MARL）方法，旨在训练与多个对抗航天器交战的卫星的自主规避策略。我们的方法通过促进多样化的对抗策略来增强训练期间的探索，从而产生更强大和适应性更强的逃避模型。我们通过猫捉老鼠的卫星场景验证 DARL，该场景被建模为部分可观察的多智能体夺旗游戏，其中两个敌对的“猫”航天器追击单个“老鼠”逃避者。 DARL 的性能与多个基准进行了比较，包括基于优化的卫星路径规划器，证明了其为对抗性多智能体空间环境生成高度稳健的模型的能力。

主动视觉可能就是您所需要的：探索双手机器人操作中的主动视觉

分类： 机器人技术

作者： Ian Chuang, Andrew Lee, Dechen Gao, Iman Soltani

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17435v1

摘要： 模仿学习在利用摄像头的视觉反馈执行高精度操作任务方面表现出了巨大的潜力。然而，模仿学习中的常见做法是将摄像机固定在适当的位置，从而导致遮挡和视野有限等问题。此外，摄像机通常放置在宽阔、一般的位置，没有针对机器人任务的有效视点。在这项工作中，我们研究了主动视觉（AV）在模仿学习和操作中的实用性，其中，除了操作策略之外，机器人还从人类演示中学习 AV 策略，以动态改变机器人的相机视角以获得更好的信息关于它的环境和给定的任务。我们推出 AV-ALOHA，这是一种新型 AV 双手遥控机器人系统，是 ALOHA 2 机器人系统的扩展，包含一个额外的 7-DoF 机器人臂，该机器人臂仅携带立体摄像机，并且唯一的任务是寻找最佳视角。该摄像机将立体视频传输给佩戴虚拟现实 (VR) 耳机的操作员，允许操作员通过头部和身体运动来控制摄像机姿势。该系统通过双手第一人称控制提供身临其境的远程操作体验，使操作员能够动态探索和搜索场景，并同时与环境进行交互。我们在现实世界和模拟中对我们的系统进行模仿学习实验，涉及各种强调视点规划的任务。我们的结果证明了人工引导自动驾驶汽车在模仿学习方面的有效性，在可见度有限的任务中比固定摄像头有显着改进。项目网站：https://soltanilara.github.io/av-aloha/

真实世界数据启发的交互式互联交通场景生成

分类： 机器人技术

作者： Junwei You, Pei Li, Yang Cheng, Keshu Wu, Rui Gan, Steven T. Parker, Bin Ran

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17429v1

摘要： 仿真是确保准确、高效和真实的联网自动驾驶车辆 (CAV) 测试和验证的关键步骤。随着 CAV 的采用加速，将现实世界数据集成到仿真环境中变得越来越重要。在 CAV 使用的各种技术中，车联网 (V2X) 通信在确保 CAV、基础设施和其他道路使用者之间的信息无缝传输方面发挥着至关重要的作用。然而，大多数现有研究都集中在开发和测试 V2X 中的通信协议、资源分配策略和数据传播技术。将现实世界的 V2X 数据集成到模拟中以生成多样化的高保真交通场景方面存在差距。为了填补这一研究空白，我们利用来自路边单元 (RSU) 的真实信号相位和定时 (SPaT) 数据来增强 CAV 模拟的保真度。此外，我们开发了一种算法，使自动驾驶车辆 (AV) 能够动态响应实时交通信号数据，模拟现实的 V2X 通信场景。这种高保真模拟环境可以生成多模态数据，包括各种交通场景的轨迹、语义相机、深度相机和鸟瞰图数据。生成的场景和数据为自动驾驶汽车与交通基础设施和其他道路使用者的交互提供了宝贵的见解。这项工作旨在弥合 CAV 理论研究与实际部署之间的差距，促进更智能、更安全的交通系统的发展。

用于肺部超声检查辅助远程操作的解剖感知共享控制方法

分类： 机器人技术

作者： Davide Nardi, Edoardo Lamon, Luca Beber, Daniele Fontanelli, Matteo Saveriano, Luigi Palopoli

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17395v1

摘要： 在远程医疗中引入人工智能和机器人技术正在实现个性化治疗并支持肺部超声等远程操作程序，这在 COVID-19 大流行期间引起了人们的关注。尽管完全自主的系统由于解剖结构的变异性而面临挑战，但远程操作系统在当前的医疗保健环境中似乎更实用。本文提出了一种用于远程操作肺部超声的解剖感知控制框架。该系统使用 SMPL 和 SKEL 等生物力学精确的 3D 模型，提供实时视觉反馈并应用虚拟约束来协助精确的探针放置任务。对五个受试者的评估表明，与传统远程操作相比，生物力学模型的准确性以及系统在改进探头放置和减少手术时间方面的效率。结果表明，所提出的框架增强了医生执行远程肺部超声检查的能力，实现更客观和可重复的采集。

安全的叶子操纵可准确估计遮挡果实的形状和姿态

分类： 机器人技术

作者： Shaoxiong Yao, Sicong Pan, Maren Bennewitz, Kris Hauser

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17389v1

摘要： 水果监测在作物管理中发挥着重要作用，全球水果消费量的增加加上劳动力短缺，需要使用机器人进行自动化监测。然而，植物叶子的遮挡通常会妨碍准确的形状和姿态估计。因此，我们提出了一种主动水果形状和姿势估计方法，该方法可以物理操纵遮挡叶子以显示隐藏的水果。本文介绍了一个框架，该框架可以规划机器人的动作，以最大限度地提高可见性并最大限度地减少叶子损坏。我们开发了一种新颖的场景一致形状完成技术，以改进重度遮挡下的水果估计，并利用感知驱动的变形图模型来预测规划过程中的叶子变形。对人造和真实甜椒植物的实验表明，我们的方法使机器人能够安全地将叶子移到一边，暴露果实以进行准确的形状和姿势估计，优于基线方法。项目页面：https://shaoxiongyao.github.io/lmap-ssc/。

分散式非线性模型预测控制，用于在检测范围有限的四旋翼飞行器团队中安全避免碰撞

分类： 机器人技术, 多代理系统

作者： Manohari Goarin, Guanrui Li, Alessandro Saviolo, Giuseppe Loianno

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17379v1

摘要： 多四旋翼系统在分散控制方面面临着重大挑战，特别是在传感和通信限制下的安全性和协调性。最先进的方法利用控制屏障功能（CBF）来提供安全保证，但常常忽略驱动约束和有限的检测范围。为了解决这些差距，我们提出了一种新颖的分散式非线性模型预测控制（NMPC），它集成了指数CBF（ECBF）以增强多四旋翼系统的安全性和最优性。我们提供了保守且实用的最小范围界限，以保持 ECBF 的安全保证。我们通过使用多达 10 个四旋翼飞行器和 20 个障碍物进行的广泛模拟以及使用 3 个四旋翼飞行器进行的实际实验来验证我们的方法。结果证明了所提出的框架在现实环境中的有效性，突出了其可靠的四旋翼团队操作的潜力。

终端空域中数据驱动的高时间分辨率概率轨迹学习

分类： 机器人技术, 机器学习

作者： Jun Xiang, Jun Chen

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17359v1

摘要： 预测飞行轨迹是一个具有重大价值的研究领域。在本文中，我们提出了一种数据驱动的学习框架，该框架利用混合模型和基于 seq2seq 的神经网络的预测和特征提取功能，同时解决由错误传播和降维引起的普遍挑战。使用该框架进行训练后，考虑到过去的轨迹和上下文信息，学习的模型可以显着提高长步预测的准确性。通过将预测轨迹与地面真实情况进行比较来评估该方法的准确性和有效性。结果表明，所提出的方法在终端空域飞行轨迹数据集上优于最先进的预测方法。该方法生成的轨迹具有更高的时间分辨率（每秒 1 个时间步 vs 每秒 0.1 个时间步）并且更接近真实情况。

SeaSplat：使用 3D 高斯泼溅和物理接地图像形成模型来表示水下场景

分类： 计算机视觉和模式识别, 机器人技术

作者： Daniel Yang, John J. Leonard, Yogesh Girdhar

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17345v1

摘要： 我们介绍 SeaSplat，这是一种利用 3D 辐射场的最新进展实现水下场景实时渲染的方法。水下场景是具有挑战性的视觉环境，因为通过水等介质进行渲染会给图像捕捉带来范围和颜色相关的影响。我们约束 3D 高斯散射 (3DGS)，这是辐射场的最新进展，能够通过物理接地的水下图像形成模型快速训练和实时渲染完整的 3D 场景。将 SeaSplat 应用于 SeaThru-NeRF 数据集的现实世界场景、美属维尔京群岛的水下航行器收集的场景以及模拟退化的现实世界场景，我们不仅看到从渲染新视点的定量性能有所提高场景，但也能够恢复场景的底层真实色彩，并将渲染恢复为不存在中介介质的情况。我们表明，水下图像形成有助于学习场景结构和更好的深度图，并表明我们的改进保持了利用 3D 高斯表示所提供的显着计算改进。

通过 EMG 传感进行 Koopman 驱动的握力预测

分类： 机器人技术, 人工智能, 动力系统

作者： Tomislav Bazina, Ervin Kamenar, Maria Fonoberova, Igor Mezić

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17340v1

摘要： 中风或多发性硬化症等疾病导致的手部功能丧失会严重影响日常活动。机器人康复提供了恢复手部功能的工具，而基于表面肌电图（sEMG）的新颖方法可以根据用户的状况调整设备的力输出，从而改善康复效果。本研究旨在使用单个 sEMG 传感器对在中等包裹抓取过程中实现准确的力估计，从而解决精确预测的传感器要求不断提高的挑战。我们对 13 名受试者的两个前臂位置进行了 sEMG 测量，并使用手测力计验证了结果。我们建立了灵活的信号处理步骤，在处理的 sEMG 信号（代表有意义的肌肉活动）和握力之间产生高峰值互相关。随后通过敏感性分析确定了影响参数。利用新颖的数据驱动的库普曼算子理论方法和针对特定问题的数据提升技术，我们设计了一种根据处理后的表面肌电信号估计和短期预测握力的方法。加权平均绝对百分比误差 (wMAPE) 约为估计握力达到了 5.5%，而 0.5 秒预测范围的预测则导致 wMAPE 约为 10%。 17.9%。该方法在精确电极定位方面被证明是稳健的，因为传感位置对误差指标的影响并不显着。该算法执行速度非常快，只需大约 10 分钟即可处理、估计和预测 0.5 秒的 sEMG 信号批。 30ms，便于实时执行。

在自动驾驶车辆轨迹预测中建立实时分布外意识

分类： 机器人技术, 机器学习

作者： Tongfei, Guo, Taposh Banerjee, Rui Liu, Lili Su

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17277v1

摘要： 轨迹预测描述了自动驾驶车辆周围移动障碍物的运动；它在及时做出决策（例如避免碰撞和轨迹重新规划）方面发挥着至关重要的作用。准确的轨迹规划是开放世界环境中可靠车辆部署的关键，在开放世界环境中，非结构化障碍物带来了训练数据无法完全捕获的不确定性。对于传统的机器学习任务，这种不确定性通常可以通过持续学习等方法得到很好的解决。一方面，将这些方法简单地应用于轨迹预测可能会导致持续的数据收集和频繁的模型更新，这可能会占用资源。另一方面，预测的轨迹可能与真实轨迹相距甚远，导致不安全的决策。在本文中，我们的目标是在自动驾驶车辆的轨迹预测中建立对分布不均的实时感知。我们专注于具有挑战性且实际相关的环境，其中分布外具有欺骗性，即人类直觉不易察觉的环境。借鉴成熟的顺序分析技术，我们通过使用最快变化点检测 (QCD) 监控预测错误来建立对分布不均的实时感知。我们的解决方案是轻量级的，可以在轨迹预测推理过程中随时处理分布不均的情况。使用基准轨迹预测模型在多个现实世界数据集上的实验结果证明了我们方法的有效性。

CROSS-GAiT：基于交叉注意力的多模态表示融合，用于复杂地形中的参数步态适应

分类： 机器人技术

作者： Gershom Seneviratne, Kasun Weerakoon, Mohamed Elnoor, Vignesh Rajgopal, Harshavarthan Varatharajan, Mohamed Khalid M Jaffar, Jason Pusey, Dinesh Manocha

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17262v1

摘要： 我们提出了 CROSS-GAiT，这是一种用于四足机器人的新颖算法，它使用交叉注意力来融合来自视觉和时间序列输入的地形表示，包括线性加速度、角速度和联合努力。这些融合的表示用于调整机器人的步高和臀部张开，实现自适应步态，动态响应不同的地形条件。我们通过掩码视觉变换器（ViT）编码器处理视觉输入并通过扩张因果卷积编码器处理时间序列数据来生成这些地形表示。然后，交叉注意机制选择并集成每种模态中最相关的特征，将地形特征与机器人动力学相结合，以实现更明智的步态调整。 CROSS-GAiT 使用组合表示来动态调整步态参数，以响应不断变化和不可预测的地形。我们使用来自不同地形的数据来训练 CROSS-GAiT，包括沥青、混凝土、砖路面、草地、茂密的植被、卵石、砾石和沙子。我们的算法具有良好的泛化能力，能够适应未见过的环境条件，从而增强实时导航性能。 CROSS-GAiT 在 Ghost Robotics Vision 60 机器人上实施，并在具有高植被密度、不平坦/不稳定表面、沙堆、可变形基底等的复杂地形中进行了广泛测试。我们观察到 IMU 能量密度至少降低了 7.04%，并且与最先进的方法相比，总联合工作量减少了 27.3%，这与稳定性的提高和能源消耗的减少直接相关。此外，CROSS-GAiT 在四种复杂场景中显示成功率至少提高了 64.5%，实现目标的时间缩短了 4.91%。此外，在地形分类任务上，学习到的表征比最先进的表征表现好 4.48%。

2024 年 BRAVO 挑战赛道 1 第一名报告：评估语义分割视觉基础模型的鲁棒性

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Tommie Kerssies, Daan de Geus, Gijs Dubbelman

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17208v1

摘要： 在本报告中，我们介绍了 2024 年 BRAVO 挑战赛第一轨的解决方案，其中模型在城市景观上进行训练，并在多个分布外数据集上评估其稳健性。我们的解决方案通过将简单的分割解码器附加到 DINOv2 并微调整个模型，利用视觉基础模型学到的强大表示。这种方法优于更复杂的现有方法，并在挑战中获得第一名。我们的代码可在 https://github.com/tue-mps/benchmark-vfm-ss 上公开获取。

通过人类感知导航规划提高医疗机构机器人的可靠性

分类： 机器人技术

作者： Olga E. Sorokoletova, Lucca Iocchi

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17131v1

摘要： 为了使机器人能够与人类合作，执行类似人类的任务，或者在人类之间导航，我们需要确保它们具备理解人类行为并利用提取的知识进行智能决策的能力。这种能力在医疗保健机构的安全关键和以人为本的环境中尤其重要。在机器人导航领域，提高医疗设施应用领域机器人可靠性的最前沿方法，通常涉及增强具有人类感知特性的导航系统。为了在我们的工作中实现这一点，协作式人类感知导航规划器已集成到基于 ROS 的差速驱动机器人 MARRtina 中，并在各种模拟环境和场景（主要对医疗领域相关的情况进行建模）中进行详尽的挑战，以引起人们对集成系统优点的关注，并识别其缺点或性能不佳的情况，同时探索系统功能的范围并创建其适用性的完整特征。然后将模拟结果提交给医学专家，并在进一步计划部署机器人时与他们一起验证增强的机器人在该领域内的可接受性。

Blox-Net：使用 VLM 监督、物理模拟和具有重置功能的机器人进行机器人装配生成式设计

分类： 机器人技术, 人工智能, 机器学习

作者： Andrew Goldberg, Kavish Kondap, Tianshuang Qiu, Zehan Ma, Letian Fu, Justin Kerr, Huang Huang, Kaiyuan Chen, Kuan Fang, Ken Goldberg

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17126v1

摘要： 生成式人工智能系统在创建文本、代码和图像方面表现出了令人印象深刻的能力。受到工业“装配设计”丰富研究历史的启发，我们引入了一个新问题：机器人装配生成设计（GDfRA）。任务是根据自然语言提示（例如“长颈鹿”）和可用物理组件（例如 3D 打印块）的图像生成组件。输出是一个装配体、这些组件的空间排列以及机器人构建该装配体的指令。输出必须 1) 类似于所需的物体，2) 由带有吸力夹具的 6 DoF 机器人臂可靠地组装。然后，我们介绍了 Blox-Net，这是一个 GDfRA 系统，它将生成视觉语言模型与计算机视觉、模拟、扰动分析、运动规划和物理机器人实验中的成熟方法相结合，以最少的人类监督来解决一类 GDfRA 问题。 Blox-Net 在其设计的组件的“可识别性”方面达到了 63.5% 的 Top-1 准确度（例如，通过 VLM 判断类似于长颈鹿）。这些设计在自动扰动重新设计后，由机器人可靠地组装，仅在组装前重置期间通过人工干预，在 10 次连续组装迭代中实现了近乎完美的成功。令人惊讶的是，从文字（“长颈鹿”）到可靠的物理组装的整个设计过程是在零人工干预的情况下完成的。

PokeFlex：面向机器人操作的可变形物体的真实数据集

分类： 机器人技术

作者： Jan Obrist, Miguel Zamora, Hehui Zheng, Juan Zarate, Robert K. Katzschmann, Stelian Coros

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17124v1

摘要： 推进可变形物体的机器人操作可以实现从食品加工到纺织和医疗保健等多个行业重复任务的自动化。然而，机器人却难以应对可变形物体的高维性及其复杂的动力学。虽然数据驱动的方法已经显示出解决操纵任务的潜力，但它们在可变形物体领域的应用受到数据缺乏的限制。为了解决这个问题，我们提出了 PokeFlex，这是一个试点数据集，包含主动变形物体的真实 3D 网格数据，以及机械臂使用简单的戳戳策略施加的相应力和扭矩。使用专业的体积捕捉系统捕捉变形，可实现完整的 360 度重建。 PokeFlex 数据集由五个具有不同刚度和形状的可变形物体组成。此外，我们利用 PokeFlex 数据集来训练视觉模型，以便根据单个图像和模板网格进行在线 3D 网格重建。我们建议读者参考补充材料和我们的网站 (https://pokeflex-dataset.github.io/) 以获取数据集的演示和示例。

四足机器人视觉辅助水果采摘的分层三手动规划

分类： 机器人技术

作者： Zhichao Liu, Jingzong Zhou, Konstantinos Karydis

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17116v1

摘要： 本文解决了开发能够在复杂的自然环境中高效采摘水果的多臂四足机器人的挑战。为了克服传统双手操作的固有局限性，我们推出了第一个三臂四足机器人LocoHarv-3，并提出了一种新颖的分层三手规划方法，能够实现无碰撞轨迹的自动化水果采收。我们全面的半自主框架集成了远程操作，由基于激光雷达的里程计和测绘支持，与基于学习的视觉感知相结合，可实现准确的水果检测和姿态估计。验证是通过一系列使用动作捕捉的受控室内实验和自然环境中的广泛现场测试进行的。结果表明，在实验室环境中，一次尝试的成功率高达 90%，现场试验进一步验证了系统在更具挑战性的现实环境中的稳健性和效率。

工业机器人手臂的类人运动学：UR3 机器人的案例研究

分类： 机器人技术, 系统与控制, 系统与控制

作者： Adam Wolniakowski, Kanstantsin Miatliuk, Jose J. Quintana, Miguel A. Ferrer, Moises Diaz

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17114v1

摘要： 工业机器人环境中的安全是人机交互（HRI）领域的热门研究课题。到目前为止，装配线上的机械臂在远离人类工人的情况下与其他机器进行交互。如今，机械臂制造商的目标是让他们的机器人能够越来越多地执行与人类协作的任务。改善这种协作的方法之一是让机器人的动作更加人性化。这样，人类就可以更容易地预见机器人的运动并接近它，而不必担心接触。人类运动和机械臂运动之间的主要区别在于，前者具有钟形速度曲线，而后者具有匀速曲线。为了生成该速度曲线，使用了人体快速运动的运动学理论及其西格玛对数正态模型。该模型广泛用于解释与人体运动控制相关的大多数基本现象。类似人类和类似机器人的动作都被转移到 UR3 机器人上。在本文中，我们详细介绍了如何对 UR3 机器人进行编程以产生这两种运动。机器人输入运动和输出运动之间的差异证实了在 UR3 机器人中开发类似人类速度的可能性。

使用形状记忆合金人工肌肉的软机器人本体感觉和接触检测的自感知

分类： 机器人技术

作者： Ran Jing, Meredith L. Anderson, Juan C. Pacheco Garcia, Andrew P. Sabelhaus

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17111v1

摘要： 估计软机器人的姿势和施加的力（也称为本体感觉）对于机器人与其环境的安全交互至关重要。然而，大多数软机器人本体感知解决方案都使用专用传感器，特别是外力传感器，这会带来设计权衡、刚性和故障风险。这项工作提出了一种由形状记忆合金（SMA）人工肌肉驱动的软机器人的姿势估计和接触检测方法，不使用专用的力传感器。我们的框架利用 SMA 独特的材料特性，在现有的全软肢设计中，通过机外测量其电阻和原位温度读数来自我感知其内应力。我们证明，在非接触条件下，这些测量值的简单多项式回归模型足以预测机器人的姿势。然后，我们表明，如果可以对真实姿态进行额外的测量（例如，来自已就位的弯曲传感器），则可以使用自传感信号的多种组合来预测二元接触/非接触。我们的硬件测试通过与操作员的接触检测测试来验证我们的假设。这一概念验证验证了软 SMA 驱动的软机器人中的自感知信号可用于本体感觉和接触检测，并提出了将本体感觉集成到软机器人中而不需要妥协设计的方向。未来的工作可以利用机器学习来提高准确性。

多机器人团队的无碰撞时间最优路径参数化

分类： 机器人技术

作者： Katherine Mao, Igor Spasojevic, Malakhi Hopkins, M. Ani Hsieh, Vijay Kumar

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17079v1

摘要： 在杂乱的环境中协调多个机器人的运动仍然是一项具有计算挑战性的任务。我们研究了由具有状态相关驱动约束的机器人团队最小化一组几何路径的执行时间的问题。我们提出了一种适用于多个类汽车代理的时间最优路径参数化（TOPP）算法，其中每个机器人沿其指定路径的时序调制用于确保避免碰撞和动态可行性。这是通过使用优先级队列来确定每个机器人的轨迹执行顺序，同时考虑时空图中与更高优先级机器人的所有可能的碰撞来实现的。与现有最先进的方法相比，我们的完工时间缩短了 10-20%，并通过模拟和硬件实验验证了我们的方法。

人机交互的语义驱动消歧

分类： 机器人技术

作者： Fethiye Irmak Dogan, Weiyu Liu, Iolanda Leite, Sonia Chernova

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17004v1

摘要： 模糊性在人机交互中很常见，特别是当机器人在大型并置空间中遵循用户指令时。例如，当用户要求机器人在家庭环境中查找物体时，该物体可能位于多个位置，具体取决于其不同的语义属性（例如，碗可以位于厨房橱柜中或餐桌上，具体取决于是否干净/脏、满/空以及周围的其他物体）。先前关于对象语义的工作已经使用一次性推理来预测这种关系，这对于不明确或部分理解的指令可能会失败。本文重点关注这一差距，并提出了一种语义驱动的消歧方法，通过利用后续澄清来处理此类不确定性。为了实现这一目标，我们首先获得语义知识嵌入，然后使用这些嵌入通过迭代过程生成澄清问题。对我们方法的评估表明，我们的方法与模型无关，即适用于不同的语义嵌入模型，并且无论嵌入模型如何，后续澄清都可以提高性能。此外，我们的消融研究表明信息澄清和迭代预测对于提高系统准确性的重要性。

WasteGAN：通过生成对抗网络对机器人垃圾分类进行数据增强

分类： 机器人技术, 计算机视觉和模式识别

作者： Alberto Bacchin, Leonardo Barcellona, Matteo Terreran, Stefano Ghidoni, Emanuele Menegatti, Takuya Kiyokawa

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16999v1

摘要： 考虑到在杂乱的传送带上识别的物体存在极大的可变性，机器人垃圾分类在感知和操作方面都提出了重大挑战。虽然深度学习已被证明可以有效解决复杂任务，但大量数据收集和标记的必要性限制了其在垃圾分类等现实场景中的适用性。为了解决这个问题，我们引入了一种基于名为 WasteGAN 的新型 GAN 架构的数据增强方法。所提出的方法可以从非常有限的一组标记示例（例如 100 个）开始提高语义分割模型的性能。wasteGAN 的关键创新包括新颖的损失函数、新颖的激活函数和更大的生成器块。总体而言，此类创新有助于网络从有限数量的示例中学习并合成更好地反映现实世界分布的数据。然后，我们利用基于 WasteGAN 合成数据训练的模型预测的更高质量的分割掩模来计算语义感知的抓取姿势，使机械臂能够在现实场景中有效识别污染物并分离废物。通过包括基于数据集的评估和现实世界实验的综合评估，我们的方法证明了机器人废物分类的巨大潜力，在拾取污染物方面的性能提升高达 5.8%。项目页面位于 https://github.com/bach05/wasteGAN.git

用于水下勘探的液压体积软外翻藤蔓机器人转向机构

分类： 机器人技术

作者： Danyaal Kaleel, Benoit Clement, Kaspar Althoefer

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16976v1

摘要： 尽管地球很大一部分被水覆盖，但由于过程中固有的挑战和困难，对水下区域的探索受到了限制。目前最先进的机器人，如遥控潜水器 (ROV) 和自主水下航行器 (AUV) 体积庞大、僵硬且无法适应其环境。软机器人技术为这个问题提供了解决方案。流体驱动的外翻或生长机器人就是一个很好的例子。虽然目前的外翻机器人在陆地上有许多应用，但它们固有的特性使它们特别适合水下环境。考虑水下外翻机器人时的一个重要因素是建立合适的转向机构，使机器人能够根据需要改变方向。该项目提出了一种外翻机器人的设计，该机器人能够通过使用弯曲袋在水下进行转向，这是陆基外翻机器人文献中常见的设计。这些弯曲袋收缩以实现方向改变。与陆基机器人类似，水下外翻机器人在其工作介质中使用相同的流体来实现伸展和弯曲，同时还有助于中性浮力。弯曲袋子的驱动方法意味着机器人需要完全伸展才能转向。三个具有相同设计和尺寸的机器人由聚乙烯管制成并进行了测试。我们的研究表明，虽然本文中的软外翻机器人设计不能始终如一地为充气体积产生相同的弯曲量，但它仍然在一定的充气体积范围内实现了适当的弯曲，并且观察到弯曲到最大角度为2000 毫升时为 68 度，这与文献中报道的陆基外翻机器人的弯曲角度一致。

使用可配置用于 LiDAR 或深度相机的视觉惯性 SLAM 进行高效的基于子图的自主 MAV 探索

分类： 机器人技术

作者： Sotiris Papatheodorou, Simon Boche, Sebastián Barbas Laina, Stefan Leutenegger

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16972v1

摘要： 未知空间的自主探索是移动机器人在现实世界中部署的重要组成部分。安全导航对于所有机器人应用都至关重要，并且需要准确且一致的机器人周围环境地图。为了实现完全自主并允许在各种环境中部署，机器人必须依赖于机载状态估计，而该状态估计很容易随着时间的推移而发生漂移。我们提出了一种基于局部子图的微型飞行器（MAV）探索框架，通过对相对子图姿态应用闭环校正来保持全局一致性。为了实现大规模探索，我们从局部子地图边界有效计算全局、环境范围的边界，并使用基于采样的次佳视图探索规划器。我们的方法无缝支持使用 LiDAR 传感器或深度相机，使其适用于不同类型的 MAV 平台。我们在模拟中与最先进的基于子图的探索框架进行比较评估，以展示我们方法的效率和重建质量。最后，我们展示了我们的方法对现实世界 MAV 的适用性，其中一个配备了激光雷达，另一个配备了深度相机。视频可在 https://youtu.be/Uf5fwmYcuq4 获取。

使用深度强化学习进行高效目标映射的多机器人信息路径规划

分类： 机器人技术, 计算机视觉和模式识别

作者： Apoorva Vashisth, Dipam Patel, Damon Conover, Aniket Bera

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16967v1

摘要： 由于其效率高且劳动力成本低，自主机器人被用于多种测绘和数据收集任务。在这些任务中，机器人需要在未知环境中绘制感兴趣的目标，同时受限于给定的资源预算，例如路径长度或任务时间。这是一个具有挑战性的问题，因为每个机器人不仅必须检测和避免环境中静态障碍物的碰撞，而且还必须对其他机器人的轨迹进行建模，以避免机器人之间的碰撞。我们提出了一种新颖的深度强化学习方法，用于多机器人信息路径规划，以在未知的 3D 环境中映射感兴趣的目标。我们方法的一个关键方面是一个增强图，它可以对其他机器人的轨迹进行建模，以实现通信和避免机器人间碰撞的规划。我们通过集中训练和分散执行范式来训练分散强化学习策略。经过培训后，我们的策略也可以扩展到不同数量的机器人，并且不需要重新培训。在发现的感兴趣目标的数量方面，我们的方法比其他最先进的多机器人目标映射方法高出 33.75%。我们在以下位置开源我们的代码和模型：https://github.com/AccGen99/marl_ipp

DualLQR：使用演示中的任务参数化学习有效抓取振动的苹果

分类： 机器人技术

作者： Robert van de Ven, Ard Nieuwenhuizen, Eldert J. van Henten, Gert Kootstra

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16957v1

摘要： 从示范中学习为机器人学习执行农业任务（特别是选择性收割）提供了巨大的潜力。挑战之一是目标水果在接近时可能会振荡。抓取振荡目标有两个要求：1）在最终接近过程中紧密跟踪目标，以实现无损伤抓取；2）完整路径应尽可能短，以提高效率。我们提出了一种称为 DualLQR 的新方法。在该方法中，我们在移动目标上使用有限水平线性二次调节器（LQR），而不需要重新拟合LQR。为了实现这一点，我们使用双 LQR 设置，其中 LQR 在两个单独的参考系中运行。通过大量的模拟测试，发现最先进的方法在没有振荡的情况下勉强满足所需的最终精度，并且在目标振荡的情况下低于所需的精度。研究发现，即使在高振动的情况下，DualLQR 也能够满足所需的最终精度，高方向振动的精度提高了 60%。对现实世界中的苹果抓取任务的进一步测试表明，DualLQR 能够成功抓取振荡的苹果，成功率高达 99%。

通过基于不确定性的扩散自适应规划进行动态避障

分类： 机器人技术, 人工智能, 机器学习

作者： Vineet Punyamoorty, Pascal Jutras-Dubé, Ruqi Zhang, Vaneet Aggarwal, Damon Conover, Aniket Bera

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16950v1

摘要： 通过将强化学习视为序列建模问题，最近的工作已经能够使用生成模型（例如扩散模型）进行规划。虽然这些模型可以有效地预测确定性环境中的长视野状态轨迹，但它们在具有移动障碍物的动态环境中面临挑战。有效的避免碰撞需要持续监控和自适应决策。虽然在每个时间步重新规划可以确保安全，但由于重叠状态序列的重复预测，它引入了大量的计算开销——对于以其密集的迭代采样过程而闻名的扩散模型来说，这一过程的成本特别高。我们提出了一种自适应生成规划方法，该方法根据动作预测的不确定性动态调整重新规划频率。我们的方法最大限度地减少了频繁、计算昂贵且冗余的重新规划的需要，同时保持了强大的防撞性能。在实验中，与长视野规划相比，我们的平均轨迹长度增加了 13.5%，平均奖励增加了 12.7%，这表明碰撞率降低，安全导航环境的能力提高。

Go-SLAM：使用高斯泼溅 SLAM 进行接地对象分割和定位

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 图形

作者： Phu Pham, Dipam Patel, Damon Conover, Aniket Bera

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16944v1

摘要： 我们介绍了 Go-SLAM，这是一种新颖的框架，它利用 3D 高斯 Splatting SLAM 来重建动态环境，同时在场景表示中嵌入对象级信息。该框架采用先进的对象分割技术，为每个高斯图分配一个与其代表的对象相对应的唯一标识符。因此，我们的系统促进了开放词汇查询，允许用户使用自然语言描述来定位对象。此外，该框架还具有最佳路径生成模块，可以考虑障碍物和环境不确定性，计算机器人朝向查询对象的有效导航路径。各种场景设置的综合评估证明了我们的方法在提供高保真场景重建、精确的对象分割、灵活的对象查询和高效的机器人路径规划方面的有效性。这项工作代表着在弥合 3D 场景重建、语义对象理解和实时环境交互之间的差距方面又向前迈出了一步。

ADAS 在关键交通状况的代表性子集中的性能评估

分类： 机器人技术

作者： Luigi Di Lillo, Andrea Triscari, Xilin Zhou, Robert Dyro, Ruolin Li, Marco Pavone

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16942v1

摘要： 随着各种自动碰撞预防系统在个人车辆中的应用，对汽车模型的自动安全性能进行评级和区分对于消费者、制造商和保险公司来说变得越来越重要。 2023 年，瑞士再保险及其合作伙伴发起了一项为期八个月的车辆测试活动，在公认的 UNECE 型式审批机构和 Euro NCAP 认可的德国试验场进行。该活动向代表美国和欧盟事故情况的一系列安全关键交通场景展示了 12 种量产车型和一款配备防撞系统的原型车。在本文中，我们比较和评估了本次测试活动所证明的这十三个碰撞预防系统（硬件和软件堆栈）的相对安全性能。我们首先引入一个新的评分系统，它代表测试系统对整体现实世界碰撞频率和碰撞冲击能量减少的预测影响，并根据测试场景的现实世界相关性进行加权。接下来，我们引入一种新颖的指标，该指标可以量化协议的真实性，并确认我们的测试协议是现实世界驾驶的合理表示。最后，我们发现，在测试跑道上的大多数测试场景中，预发布状态的原型系统的性能优于量产（消费后发布）车辆。

让我们制定一个 Splan：标准化高斯 Splat 中的风险意识轨迹优化

分类： 机器人技术

作者： Jonathan Michaux, Seth Isaacson, Challen Enninful Adu, Adam Li, Rahul Kashyap Swayampakula, Parker Ewen, Sean Rice, Katherine A. Skinner, Ram Vasudevan

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16915v1

摘要： 神经辐射场和高斯散射通过实现复杂场景的照片级真实感表示，改变了计算机视觉领域。尽管取得了如此成功，但他们在现实世界的机器人任务（例如轨迹优化）中只看到了有限的使用。有两个关键因素促成了这一有限的成功。首先，推理辐射模型中的碰撞具有挑战性。其次，很难足够快地执行辐射模型的推理以进行实时轨迹合成。本文通过提出 SPLANNING 来解决这些挑战，SPLANNING 是一种在高斯 Splatting 模型中运行的风险感知轨迹优化器。本文首先推导了一种严格限制机器人与辐射场之间碰撞概率上限的方法。其次，本文介绍了高斯分布的归一化重构，可以有效计算高斯分布中的碰撞界限。第三，提出了一种优化轨迹的方法，同时避免与高斯图表示的场景发生碰撞。实验表明，SPLANNING 在高度混乱的环境中生成无碰撞轨迹方面优于最先进的方法。所提出的系统还在现实世界的机器人操纵器上进行了测试。项目页面位于 https://roahmlab.github.io/splanning。

大语言模型的实践和社会基础路线图

分类： 机器人技术, 人工智能, 计算和语言, 人机交互, I.2.7; I.2.9; J.4; F.3.2; D.3.1

作者： Sara Incao, Carlo Mazzola, Giulia Belgiovine, Alessandra Sciutti

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16900v1

摘要： 大型语言模型 (LLM) 和机器人系统的融合带来了机器人领域的变革范式，不仅在通信领域提供了无与伦比的功能，而且在多模式输入处理、高级推理和计划生成等技能方面也提供了无与伦比的功能。将大语言模型知识扎根于实证世界被认为是发挥机器人学大语言模型效率的重要途径。然而，通过多模式方法或机器人的身体将大语言模型的表征与外部世界连接起来并不足以让他们理解他们正在操作的语言的含义。这项工作从人类身上汲取灵感，提请人们关注智能体掌握和体验世界的三个必要要素。大语言模型的基础路线图被设想为以主动身体系统作为体验环境的参考点，为与外部世界进行连贯、自我相关的互动而提供的时间结构化体验，以及获得共同基础的共享体验的社交技能。

在线对话促进中的机器人反向渠道：一项跨代研究

分类： 机器人技术, 计算和语言, 人机交互

作者： Sota Kobuki, Katie Seaborn, Seiki Tokunaga, Kosuke Fukumori, Shun Hidaka, Kazuhiro Tamura, Koji Inoue, Tatsuya Kawahara, Mihoko Otake-Mastuura

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16899v1

摘要： 日本面临着与老龄化社会相关的许多挑战，包括人口认知能力下降速度加快和护理人员短缺。人们已经开始努力探索使用人工智能（AI）的解决方案，特别是能够与人交流的社交智能代理和机器人。然而，关于这些药物与老年人在各种日常情况下的相容性的研究很少。为此，我们进行了一项用户研究，以评估充当旨在防止认知能力下降的群组对话协议的促进者的机器人。我们对机器人进行了修改，使用反向通道（一种人类自然的说话方式）来提高机器人的接受能力和群体对话体验的享受。我们对年轻人和老年人进行了一项跨代研究。定性分析表明，年轻人认为反向渠道版本的机器人比非反向渠道机器人更友善、更值得信赖、更容易被接受。最后，我们发现机器人的反向沟通引发了年长参与者的非语言反向沟通。

重新审视太空任务规划：强化学习引导的多碎片交会方法

分类： 机器学习, 人工智能, 机器人技术

作者： Agni Bandyopadhyay, Guenther Waxenegger-Wilfing

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16882v1

摘要： 这项研究介绍了深度强化学习 (RL) 领域的掩码近端策略优化 (PPO) 算法的新颖应用，用于确定最有效的空间碎片访问序列，根据 Izzo 对个体交会的适应，利用兰伯特求解器。目的是优化访问所有给定残骸的顺序，以获得整个任务中最短的交会总时间。制定了神经网络 (NN) 策略，并针对具有不同碎片场的模拟太空任务进行了训练。训练后，神经网络使用 Izzo 对兰伯特机动的调整来计算近似最佳路径。性能是根据任务规划中的标准启发法进行评估的。强化学习方法通过优化碎片交会序列，显着提高了规划效率，与遗传算法和贪婪算法相比，总任务时间分别平均减少了约{10.96%}和{13.66%}。该模型平均以最快的计算速度确定了各种模拟场景中最省时的碎片访问序列。这种方法标志着在加强空间碎片清除任务规划战略方面向前迈出了一步。

GRACE：利用大语言模型和人类解释生成适合社交的机器人动作

分类： 机器人技术

作者： Fethiye Irmak Dogan, Umut Ozyurt, Gizem Cinar, Hatice Gunes

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16879v1

摘要： 在人类环境中操作时，机器人需要处理复杂的任务，同时遵守社会规范并适应个人偏好。例如，基于常识，家用机器人可以预测它应该避免在社交聚会期间吸尘，但仍然可能不确定是否应该在有客人之前或之后吸尘。在这种情况下，将常识知识与人类偏好（通常通过人类解释传达）相结合是基本的，但对现有系统来说也是一个挑战。在本文中，我们介绍了 GRACE，这是一种解决此问题的新方法，同时生成适合社交的机器人动作。 GRACE 利用大型语言模型 (LLM) 的常识知识，并通过生成网络架构将这些知识与人类解释相集成。 GRACE 的双向结构使机器人能够利用人类的解释来完善和增强 LLM 预测，并使机器人能够为人类指定的动作生成此类解释。我们的实验评估表明，整合人类解释可以提高 GRACE 的性能，它优于多个基线并提供合理的解释。

受行为进化启发的四足机器人步行步态强化训练方法

分类： 机器人技术

作者： Yu Wang, Wenchuan Jia, Yi Sun, Dong He

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16862v1

摘要： 强化学习方法在四足机器人步态生成技术中极具竞争力，这主要是因为强化训练中的随机探索有利于实现自主步态。然而，尽管增量强化学习依靠肢体运动过程中固有的连续性来提高训练成功率和运动平滑度，但在使步态策略适应不同地形和外部干扰方面仍然存在挑战。受强化学习与动物运动行为进化之间关联的启发，本文引入了参考步态的自我改进机制，使得动作的增量学习和参考动作的自我改进共同实现了对动物运动行为进化的模仿。此外，提出了一种新的四足步态强化训练框架。在该框架中，专门采用遗传算法对任意脚轨迹的初始值进行全局概率搜索，以更新适应度更好的参考轨迹。随后，改进的参考步态用于步态的增量强化学习。重复、交替执行上述过程，最终训练出步态策略。基于仿真，对地形、模型尺寸和运动条件进行了详细的分析，结果表明，与常规增量强化学习相比，该框架对地形的适应性显着增强。

通信主干网重新配置与连接维护

分类： 机器人技术

作者： Leonardo Santos, Caio C. G. Ribeiro, Douglas G. Macharet

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16851v1

摘要： 信息交换对于涉及多个代理的应用至关重要，例如搜索和救援、军事行动和灾难响应。在这项工作中，我们提出了一个简单而有效的轨迹规划框架，通过将网络多智能体运动规划问题重新定义为机械臂运动规划问题来解决通信主干的设计、部署和重新配置。我们的方法适用于可变配置的主干，无论是在使用的机器人数量还是每个机器人之间的距离限制方面。虽然近年来对多机器人系统的连接限制导航进行了研究，但机械手领域在理论和实践上都可以说更加发达。因此，我们的方法有助于在广泛使用的运动规划算法和机械臂框架之上构建实际应用。

CREVE：一种基于加速度的约束方法，用于稳健的雷达自速度估计

分类： 机器人技术, I.2.9

作者： Hoang Viet Do, Bo Sung Ko, Jin Woo Song

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16847v1

摘要： 通过毫米波调频连续波 (mmWave FMCW) 雷达的点云测量来估计自速度已成为雷达惯性里程计 (RIO) 系统的重要组成部分。当点云异常值的数量超过内部点的数量时，传统方法通常表现不佳。在本文中，我们提出了 CREVE，一种基于加速度的不等式约束滤波器，它利用惯性测量单元 (IMU) 的附加测量来实现稳健的自我速度估计。为了进一步提高传感器误差的准确性和鲁棒性，我们引入了实用的加速度计偏差估计方法和参数自适应规则。使用五个开源无人机数据集评估所提出方法的有效性。实验结果表明，我们的算法显着优于三种现有的最先进方法，与它们相比，绝对轨迹误差减少了约 53%、84% 和 35%。

用于夜间无人机跟踪的条件生成降噪器

分类： 机器人技术

作者： Yucheng Wang, Changhong Fu, Kunhan Lu, Liangliang Yao, Haobo Zuo

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16834v1

摘要： 最先进的（SOTA）视觉目标跟踪方法显着增强了无人机（UAV）的自主性。然而，在弱光条件下，环境中不规则真实噪声的存在会严重降低这些 SOTA 方法的性能。此外，现有的SOTA降噪技术在部署为无人机跟踪的即插即用降噪器时往往无法满足实时处理要求。为了应对这一挑战，这项工作提出了一种新颖的条件生成降噪器（CGDenoiser），它突破了传统确定性范式的限制，在输入上生成噪声条件，然后将其去除。为了更好地对齐输入维度并加速推理，开发了一种新颖的嵌套残差 Transformer 条件器。此外，创新的多内核条件细化器旨在有针对性地细化降噪输出。大量实验表明，CGDenoiser 在 DarkTrack2021 上将 SOTA 跟踪器的跟踪精度提高了 18.18%，同时工作速度比第二个性能良好的降噪器快 5.8 倍。具有复杂挑战的现实测试也证明了 CGDenoiser 的有效性和实用性。 CGDenoier 的代码、视频演示和补充证明现已提供：\url{https://github.com/vision4robotics/CGDenoiser}。

OffRIPP：基于强化学习的离线信息路径规划

分类： 机器人技术, 人工智能

作者： Srikar Babu Gadipudi, Srujan Deolasee, Siva Kailas, Wenhao Luo, Katia Sycara, Woojun Kim

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16830v1

摘要： 信息路径规划（IPP）是机器人技术中的一项关键任务，智能体必须设计路径来收集有关目标环境的有价值的信息，同时遵守资源限制。强化学习 (RL) 已被证明对 IPP 有效，但它需要环境交互，这在实践中存在风险且成本高昂。为了解决这个问题，我们提出了一种基于 RL 的离线 IPP 框架，该框架可以优化信息增益，而无需在训练期间进行实时交互，通过避免交互来提供安全性和成本效益，以及在执行过程中提供卓越的性能和快速计算 - 关键强化学习的优点。我们的框架利用批量约束强化学习来减少外推错误，使代理能够从任意算法生成的预先收集的数据集中学习。我们通过广泛的模拟和真实实验来验证该框架。数值结果表明我们的框架优于基线，证明了所提出方法的有效性。

人工智能方法在现代力控制造机器人任务中的作用

分类： 机器人技术, 人工智能

作者： Vincenzo Petrone, Enrico Ferrentino, Pasquale Chiacchio

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16828v1

摘要： 本立场文件探讨了先进制造（工业 4.0 的基石）范围内将人工智能 (AI) 集成到力控机器人任务中。人工智能在增强机器人操纵器（第四次工业革命的关键驱动力）方面的作用正在迅速导致智能制造领域的重大创新。本文的目的是在实际的力控制应用中构建这些创新 - 例如去毛刺、抛光和装配任务，如钉孔 (PiH) - 凸显了维持高质量生产标准的必要性。通过报告最新的基于人工智能的方法，本文对它们进行了对比，并确定了未来研究中需要解决的当前挑战。分析最后展望了未来的研究方向，强调需要通用的性能指标来验证人工智能技术、集成各种增强功能以实现性能优化，以及在相关场景中验证它们的重要性。这些未来的方向旨在与已采用的方法保持一致，以便与制造标准兼容，从而提高人工智能驱动方法在学术和工业环境中的相关性。

内联光度校准混合视觉 SLAM

分类： 机器人技术, 计算机视觉和模式识别, 系统与控制, 系统与控制

作者： Nicolas Abboud, Malak Sayour, Imad H. Elhajj, John Zelek, Daniel Asmar

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16810v1

摘要： 本文提出了一种视觉 SLAM 的集成方法，将在线顺序光度校准合并到混合直接-间接视觉 SLAM (H-SLAM) 中。光度校准有助于标准化不同光照条件下的像素强度值，从而提高 H-SLAM 的直接分量。鉴于检测到的特征在变化的照明条件下更加稳定，H-SLAM 的间接组件也会带来切向的好处。我们提出的光度校准 H-SLAM 在多个数据集上进行了测试，包括 TUM monoVO 以及我们创建的数据集。在所有实验中，经过校准的 H-SLAM 均优于其他最先进的直接、间接和混合视觉 SLAM 系统。此外，在我们现场测试的在线 SLAM 中，它的性能也显着优于其他 SLAM 系统。

机器人需要iPhone Moment还是小米Moment？用于健康监测的经济型家用机器人的设计

分类： 机器人技术

作者： Bo Wei, Yaya Bian, Mingcen Gao

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16802v1

摘要： 在本文中，我们研究了专为家庭健康监测而设计的经济高效的家庭机器人解决方案。人工智能 (AI) 的最新进展显着提高了机器人的能力，使它们能够更好、更高效地理解周围环境并与之互动。目前家庭中最常见的机器人是玩具机器人和清洁机器人。虽然这些相对便宜，但它们的功能非常有限。另一方面，类人机器人和四足机器人提供了更复杂的特征和功能，尽管成本更高。另一类是教育机器人，它为教育工作者提供了连接各种传感器并将不同设计方法与集成操作系统集成的灵活性。然而，在弥合负担能力和功能之间的差距方面仍然存在挑战。我们的研究旨在通过探索开发先进但价格实惠且易于使用的家庭机器人的潜力来解决这一问题，旨在通过使用边缘计算技术并利用家庭机器人的现有计算资源（例如手机）进行健康监测。

基于技能的机器人编程

分类： 机器人技术

作者： Taneli Lohi, Samuli Soutukorva, Tapio Heikkilä

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16800v1

摘要： 制造业面临着不断变化的市场需求，更快的创新周期导致对敏捷性和灵活性的要求不断提高。工业 4.0 正在将制造业转向数字自动化，软件的重要性也急剧增加。机器人传感器系统中简单快速的任务编程和执行成为敏捷灵活自动化的先决条件，在本文中，我们提出了这样一个系统。我们的解决方案依赖于机器人技能库，该库为用户提供用于任务编程和执行的高水平和参数化操作，即机器人技能。编程操作会在中立的产品环境中产生控制配方，并且基于产品 CAD 模型的使用或指针和跟踪传感器与真实零件的协作使用。实际测试也表明了我们方法的可行性。

基于世界模型的视觉腿部运动感知

分类： 机器人技术, 机器学习

作者： Hang Lai, Jiahang Cao, Jiafeng Xu, Hongtao Wu, Yunfeng Lin, Tao Kong, Yong Yu, Weinan Zhang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16784v1

摘要： 在各种地形上的腿式运动具有挑战性，需要从本体感觉和视觉上精确感知机器人及其周围环境。然而，直接从高维视觉输入中学习通常数据效率低下且复杂。为了解决这个问题，传统方法尝试首先学习访问特权信息的教师策略，然后学习学生策略以通过视觉输入模仿教师的行为。尽管取得了一些进展，但由于输入之间的信息差距，这种模仿框架阻碍了学生政策实现最佳绩效。此外，学习过程是不自然的，因为动物在没有特权知识的情况下根据对世界的理解直观地学习穿越不同的地形。受这种自然能力的启发，我们提出了一种简单而有效的方法，即基于世界模型的感知（WMP），它构建环境的世界模型并根据世界模型学习策略。我们说明，尽管经过完全模拟训练，世界模型可以准确预测现实世界的轨迹，从而为策略控制器提供信息信号。大量的模拟和现实实验表明，WMP 在可遍历性和鲁棒性方面优于最先进的基线。视频和代码可在以下网址获取：https://wmp-loco.github.io/。

冲向金色飞贼：采用多智能体强化学习的多无人机时间最优运动规划

分类： 机器人技术, 机器学习

作者： Xian Wang, Jin Zhou, Yuanli Feng, Jiahao Mei, Jiming Chen, Shuo Li

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16720v1

摘要： 自主无人机的最新创新通过应用最优控制和基于学习的方法，促进了单无人机配置的时间最佳飞行，并增强了多无人机系统的可操作性。然而，很少有研究实现多无人机系统的时间最优运动规划，特别是在高度敏捷的机动或动态场景中。本文提出了一种使用多智能体强化学习的时间最优多无人机飞行的去中心化策略网络。为了在飞行效率和避免碰撞之间取得平衡，我们引入了受基于优化的方法启发的软碰撞惩罚。通过以集中训练、分散执行（CTDE）的方式定制 PPO，我们可以提高训练效率和稳定性，同时确保轻量级实施。广泛的模拟表明，尽管与单无人机系统相比存在轻微的性能权衡，但我们的多无人机方法保持了近乎最佳的性能和低碰撞率。真实世界的实验验证了我们的方法，两个四旋翼飞行器使用与模拟相同的网络，在跨不同轨道的 5.5 m * 5.5 m * 2.0 m 空间内实现了 13.65 m/s 的最大速度和 13.4 rad/s 的最大机身速率，完全依靠机载计算。

通过简单的参数高效修改进行视觉语言模型微调

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习, 机器人技术

作者： Ming Li, Jike Zhong, Chenxin Li, Liuzhuozheng Li, Nie Lin, Masashi Sugiyama

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16718v1

摘要： 微调视觉语言模型（VLM）的最新进展见证了提示调整和适配器调整的成功，而对固有参数的经典模型微调似乎被忽视了。人们相信，用少量样本来微调 VLM 的参数会破坏预先训练的知识，因为微调 CLIP 模型甚至会降低性能。在本文中，我们重新审视了这一观点，并提出了一个新的视角：微调特定参数而不是全部参数将揭示经典模型微调在 VLM 上的威力。通过我们细致的研究，我们提出了 ClipFit，这是一种简单而有效的方法来微调 CLIP，而不引入任何额外参数的开销。我们证明，仅通过微调特定偏差项和归一化层，ClipFit 就可以将零样本 CLIP 的性能提高 7.27% 平均调和平均精度。最后，为了了解 CLIPFit 中的微调如何影响预训练模型，我们进行了广泛的实验分析。内部参数和表示的变化。我们发现低级文本偏差层和第一层归一化层的变化比其他层大得多。该代码可在 \url{https://github.com/minglllli/CLIPFit} 获取。

使用跨视图因子图优化和深度学习重新定位在森林中进行在线 6DoF 姿态估计

分类： 机器人技术

作者： Lucas Carvalho de Lima, Ethan Griffiths, Maryam Haghighat, Simon Denman, Clinton Fookes, Paulo Borges, Michael Brünig, Milad Ramezani

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16680v1

摘要： 本文提出了一种利用跨视图因子图优化和深度学习重新定位来实现森林环境中地面机器人鲁棒全局定位和 6DoF 位姿估计的新方法。所提出的方法解决了对齐空中和地面数据以进行姿态估计的挑战，这对于 GPS 拒绝环境中的精确点对点导航至关重要。通过将两个角度的信息整合到因子图框架中，我们的方法有效地估计了机器人的全局位置和方向。我们通过在不同的森林场景中进行大量实验来验证我们的方法的性能，证明其在这些具有挑战性的环境中在准确性和鲁棒性方面优于现有基线。实验结果表明，我们提出的定位系统可以实现定位误差有限的无漂移定位，确保冠层下机器人的可靠和安全导航。

基于演化特征视觉伺服的多旋翼非线性模型预测控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Sotirios N. Aspragkathos, Panagiotis Rousseas, George C. Karras, Kostas J. Kyriakopoulos

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16665v1

摘要： 本文提出了一种视觉伺服非线性模型预测控制 (NMPC) 方案，用于使用多旋翼无人机 (UAV) 自主跟踪移动目标。该方案是为监视和跟踪具有不断变化的特征的基于轮廓的区域而开发的。 NMPC 用于管理输入和状态约束，同时加入额外的屏障功能以确保系统安全和最佳性能。所提出的控制方案是基于描述目标和状态变量的特征的全动态模型的提取和实现而设计的。使用配备摄像头的四旋翼无人机进行实时仿真和实验证明了该策略的有效性。

使用潜在空间生成世界模型减轻自动驾驶汽车模仿学习中的协变量变化

分类： 机器人技术, 计算机视觉和模式识别, 机器学习, 系统与控制, 系统与控制, 68T40 (Primary) 68T05, 68T45 (Secondary), I.2.9; I.2.6; I.2.10; I.6

作者： Alexander Popov, Alperen Degirmenci, David Wehr, Shashank Hegde, Ryan Oldja, Alexey Kamenev, Bertrand Douillard, David Nistér, Urs Muller, Ruchi Bhargava, Stan Birchfield, Nikolai Smolyanskiy

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16663v1

摘要： 我们建议使用潜在空间生成世界模型来解决自动驾驶中的协变量转移问题。世界模型是一种神经网络，能够根据过去的状态和动作预测智能体的下一个状态。通过在训练期间利用世界模型，驱动策略可以有效地减轻协变量变化，而不需要过多的训练数据。在端到端训练期间，我们的策略通过与人类演示中观察到的状态保持一致来学习如何从错误中恢复，以便在运行时它可以从训练分布之外的扰动中恢复。此外，我们引入了一种新颖的基于变压器的感知编码器，它采用多视图交叉注意和学习的场景查询。我们提供定性和定量结果，展示了 CARLA 模拟器闭环测试中现有技术的显着改进，并展示了 CARLA 和 NVIDIA DRIVE Sim 中处理扰动的能力。

通过深度强化学习实现人形机器人稳定的高速运动

分类： 机器人技术

作者： Xinming Zhang, Xianghui Wang, Lerong Zhang, Guodong Guo, Xiaoyu Shen, Wei Zhang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16611v1

摘要： 人形机器人为执行各种任务提供了显着的多功能性，但它们的基本行走和跑步能力，特别是在高速下，仍然是一个挑战。这封信提出了一种新颖的方法，将深度强化学习与运动动力学先验相结合，以实现稳定运动控制（KSLC）。 KSLC 促进手臂协调运动，以抵消不稳定力量，从而增强整体稳定性。与基线方法相比，KSLC 提供了更准确的命令速度跟踪和更好的速度控制泛化能力。在模拟测试中，启用 KSLC 的人形机器人成功跟踪了 3.5 m/s 的目标速度，并减少了波动。高保真环境中的模拟到模拟验证进一步证实了其强大的性能，凸显了其在实际应用中的潜力。

Robo-Platform：用于记录传感器和控制机器人的机器人系统

分类： 机器人技术, 系统与控制, 系统与控制

作者： Masoud Dayani Najafabadi

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16595v1

摘要： 移动智能手机紧凑地提供相机、IMU、GNSS 测量单元等传感器以及机器人项目所需的无线和有线通信通道。它们经济实惠、便携且可编程，这使得它们非常适合测试、数据采集、控制移动机器人和许多其他机器人应用。本文提出了一种机器人系统，由 Android 手机、通过 USB 连接到手机的微控制器板和远程无线控制器站组成。在数据采集模式下，Android 设备可以以原始格式记录多个摄像头、IMU、GNSS 单元和外部 USB ADC 通道的多种配置的数据集，用于但不限于姿态估计和场景重建应用。在机器人控制模式下，Android手机、微控制器板和其他外围设备构成移动或固定机器人系统。该系统使用通过 Wi-Fi 或蓝牙连接的远程服务器进行控制。实验表明，尽管 SLAM 和 AR 应用程序可以利用获取的数据，但所提出的系统可以为处理这些噪声和零星测量的更高级算法铺平道路。此外，还研究了通信媒体的特征，并包括两个示例机器人项目，其中涉及控制玩具车和四轴飞行器。

FLaRe：通过大规模强化学习微调实现精湛且自适应的机器人策略

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Jiaheng Hu, Rose Hendrix, Ali Farhadi, Aniruddha Kembhavi, Roberto Martin-Martin, Peter Stone, Kuo-Hao Zeng, Kiana Ehsan

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16578v1

摘要： 近年来，机器人领域发起了多项努力，通过大规模多任务行为克隆来构建通用机器人策略。然而，这些政策的直接部署导致了绩效的不理想，政策与看不见的状态和任务作斗争。如何突破这些模型的性能瓶颈，将其能力提升到新的高度？在本文中，我们提出了 FLaRe，一种大规模强化学习微调框架，集成了鲁棒的预训练表示、大规模训练和梯度稳定技术。我们的方法将预先训练的策略与任务完成相结合，在先前演示的以及全新的任务和实施例上实现最先进的（SoTA）性能。具体来说，在一组长视距移动操纵任务中，FLaRe 在未见过的环境中实现了 79.5% 的平均成功率，与之前的 SoTA 方法相比，模拟绝对提高了 23.6%，真实机器人提高了 30.7%。通过仅利用稀疏奖励，我们的方法可以以最少的人力推广到预训练数据之外的新功能。此外，我们展示了对新实施例和行为的快速适应，只需不到一天的微调。视频可以在项目网站上找到：https://robot-flare.github.io/

通过人类偏好景观的不确定性感知主动学习，在室外环境中进行反应式多机器人导航

分类： 机器人技术, 人工智能

作者： Chao Huang, Wenshuo Zang, Carlo Pinciroli, Zhi Jane Li, Taposh Banerjee, Lili Su, Rui Liu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16577v1

摘要： 与单个机器人相比，多机器人系统（MRS）由于存在多个具有不同能力的成员，可以更有效地执行任务。然而，由于不确定性和各种障碍（例如，构建集群和树），在广泛的现实环境中部署 MRS 仍然具有挑战性。由于对环境不确定性对性能的影响了解有限，MRS 无法灵活调整其行为（例如分组、负载共享、轨迹规划）以确保环境适应和任务完成。在这项工作中，设计了一种新颖的联合偏好景观学习和行为调整框架（PLBA）。 PLBA 将实时人类指导有效地集成到 MRS 协调中，并利用具有变化输出噪声的稀疏变分高斯过程，通过利用环境特征之间的空间相关性来快速评估人类偏好。然后，基于优化的行为调整方法可以安全地使 MRS 行为适应环境。为了验证PLBA在MRS行为适应方面的有效性，设计了洪水灾害搜救任务。 20位人类用户根据从与“任务质量”、“任务进度”、“机器人安全”相关的MRS行为中获得的人类偏好，提供了1764条反馈。预测精度和适应速度结果表明了PLBA在偏好学习和MRS行为适应方面的有效性。

任务驱动的 SLAM 基准测试

分类： 机器人技术

作者： Yanwei Du, Shiyu Feng, Carlton G. Cort, Patricio A. Vela

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16573v1

摘要： 对于辅助机器人来说，SLAM 的一个关键用例是在它们在环境中导航完成任务时支持本地化。当前的 SLAM 基准没有考虑基于任务的部署，其中可重复性（精度）比准确性更重要。为了弥补这一差距，我们提出了一个任务驱动的基准测试框架来评估 SLAM 方法。该框架考虑了 SLAM 的地图功能，采用精度作为关键指标，并且实施时的资源需求较低。在模拟和现实场景中测试最先进的 SLAM 方法可以深入了解现代 SLAM 解决方案的性能特性。特别是，它表明被动立体 SLAM 在典型室内环境中的运行精度与基于激光雷达的 SLAM 相当。基准测试方法可以对任务驱动应用程序中的 SLAM 性能进行更相关、更准确的评估。

PANOS：越野场景中的有效负载感知导航

分类： 机器人技术

作者： Kartikeya Singh, Yash Turkar, Christo Aluckal, Charuvarahan Adhivarahan, Karthik Dantu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16566v1

摘要： 大自然通过对人类身体特征的详细了解，使人类能够在不同的地形上行走。同样，腿式机器人需要发展其在复杂地形上行走的能力，并具有各种与任务相关的有效载荷，以实现其目标。然而，传统的地形适应方法很容易因有效载荷的变化而失败。在这项工作中，我们介绍了 PANOS，这是一种弱监督方法，它集成了来自机载传感的本体感觉和外感觉，以在有腿机器人在各种地形上行走时实现稳定的步态。我们的工作还提供了其对不同有效载荷的适应性的证据。我们使用有腿机器人在多个地形和有效负载上评估我们的方法。 PANOS 在没有任何有效负载的情况下将稳定性提高了 44%，在 15 磅有效负载的情况下将稳定性提高了 53%。我们还注意到，与最先进的方法相比，各种地形类型的有效负载振动成本降低了 20%。

GSplatLoc：将关键点描述符融入 3D 高斯分布以改进视觉定位

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Gennady Sidorov, Malik Mohrat, Ksenia Lebedeva, Ruslan Rakhimov, Sergey Kolyubin

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16502v1

摘要： 尽管存在各种视觉定位方法，例如场景坐标和姿势回归，但这些方法通常会遇到高内存消耗或广泛的优化要求。为了应对这些挑战，我们利用新颖视图合成的最新进展，特别是 3D 高斯分布 (3DGS) 来增强定位。 3DGS 允许对 3D 几何体和场景外观及其空间特征进行紧凑编码。我们的方法利用 XFeat 的轻量级关键点检测和描述模型生成的密集描述图。我们建议将这些密集的关键点描述符提炼到 3DGS 中，以提高模型的空间理解，从而通过 2D-3D 对应关系实现更准确的相机姿态预测。估计初始姿势后，我们使用光度扭曲损失对其进行细化。对流行的室内和室外数据集的基准测试表明，我们的方法超越了最先进的神经渲染姿势（NRP）方法，包括 NeRFMatch 和 PNeRFLoc。

Clarke 变换——连续体机器人的基本工具

分类： 机器人技术

作者： Reinhard Grassmann, Anastasiia Senyk, Jessica Burgner-Kahrs

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16501v1

摘要： 本文介绍了克拉克变换和克拉克坐标，它们提出了连续体和软体机器人任意数量耦合位移驱动脱离的解决方案。 Clarke 变换利用广义 Clarke 变换及其逆变换将任意数量的关节值减少到二维空间，而不牺牲任何重要信息。该空间是关节空间的流形，由两个正交克拉克坐标描述。介绍了其在运动学、采样和控制方面的应用。通过导出任意数量关节的先前未知的前向机器人相关映射的解，正向和逆向运动学公式是无分支、封闭形式和无奇异的。采样被用作衡量各种方法和框架的性能影响的代理，从而形成无分支、封闭形式和可矢量化的采样方法，具有 100% 的成功率，并且有可能形成所需的分布。由于流形的利用，相当简单的约束通知、二维和线性控制器总是提供可行的控制输出。最重要的是，建立了与连续体和软机器人技术中改进表示的关系，其中克拉克坐标是它们的概括。克拉克变换提供了宝贵的几何见解，并为直接在高维联合空间内的二维流形上开发方法铺平了道路，确保符合约束。虽然是一个易于构建的线性映射，但所提出的克拉克变换在数学上是一致的、物理上有意义的，并且是可解释的，并有助于跨连续体和软机器人框架的统一。

BehAV：行为规则引导的自主性，使用 VLM 在户外场景中进行机器人导航

分类： 机器人技术

作者： Kasun Weerakoon, Mohamed Elnoor, Gershom Seneviratne, Vignesh Rajagopal, Senthil Hariharan Arul, Jing Liang, Mohamed Khalid M Jaffar, Dinesh Manocha

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16484v1

摘要： 我们提出了 BehAV，这是一种在人类指令引导下并利用视觉语言模型 (VLM) 在户外场景中进行自主机器人导航的新颖方法。我们的方法使用大型语言模型（LLM）解释人类命令，并将指令分类为导航和行为指南。导航指南由方向命令（例如，“向前移动直到”）和相关地标（例如，“有蓝色窗户的建筑物”）组成，而行为指南则包括监管行动（例如，“继续前进”）及其相应的对象（例如，、“人行道”）。我们利用 VLM 的零镜头场景理解功能，从 RGB 图像中估计地标位置，以进行机器人导航。此外，我们引入了一种新颖的场景表示，它利用 VLM 将行为规则转化为行为成本图。该成本图对场景中行为对象的存在进行编码，并根据其监管行为分配成本。行为成本地图与基于 LiDAR 的占用地图集成以进行导航。为了在遵守指示行为的同时导航户外场景，我们提出了一种基于无约束模型预测控制（MPC）的规划器，该规划器优先考虑到达地标和遵循行为指南。我们在不同的现实场景中评估了四足机器人上 BehAV 的性能，结果表明，通过 Frechet 距离测量，与人类遥控操作的一致性提高了 22.49%，并且与状态相比，导航成功率提高了 40% - 最先进的方法。

KinScene：基于模型的铰接场景移动操作

分类： 机器人技术

作者： Cheng-Chun Hsu, Ben Abbatematteo, Zhenyu Jiang, Yuke Zhu, Roberto Martín-Martín, Joydeep Biswas

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16473v1

摘要： 与铰接物体的顺序交互对于移动机械手在日常环境中有效运行至关重要。为了实现涉及铰接对象的长视野任务，本研究探索通过自主探索为室内场景构建场景级铰接模型。虽然之前的研究通过考虑对象运动学约束来研究铰接对象的移动操纵，但它主要关注单个对象场景，并且缺乏对任务级规划的场景级上下文的扩展。为了按顺序操纵多个物体部分，机器人需要推理每个部分的合成运动并预测其对未来动作的影响。我们引入 \ourtool{}，这是一种用于铰接物体的长视野操纵任务的全栈方法。机器人绘制场景、检测铰接物体并与其进行物理交互、收集观察结果并推断铰接特性。对于顺序任务，机器人根据推断的关节模型规划一系列可行的对象交互。我们证明了我们的方法可重复构建准确的场景级运动学和几何模型，从而能够在现实世界场景中进行长视距移动操作。代码和其他结果可在 https://hengchunhsu.github.io/KinScene/ 获取

高斯分布重建中基于频率的视图选择

分类： 计算机视觉和模式识别, 机器人技术

作者： Monica M. Q. Li, Pierre-Yves Lajoie, Giovanni Beltrame

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16470v1

摘要： 三维重建是机器人感知中的一个基本问题。我们研究了主动视图选择问题，以使用尽可能少的输入图像执行 3D 高斯分布重建。尽管 3D Gaussian Splatting 在图像渲染和 3D 重建方面取得了重大进展，但重建的质量受到 2D 图像的选择和通过运动结构 (SfM) 算法对相机姿态的估计的强烈影响。当前选择视图的方法直接依赖于遮挡、深度模糊或神经网络预测的不确定性，不足以处理该问题并且难以推广到新场景。通过对频域中的潜在视图进行排序，我们能够在没有地面实况数据的情况下有效地估计新视图的潜在信息增益。通过克服当前模型架构和功效的限制，我们的方法在视图选择方面取得了最先进的结果，展示了其高效的基于图像的 3D 重建的潜力。

具有可微因子图和旋转平移不变表示的球的学习动力学

分类： 机器人技术

作者： Qingyu Xiao, Zixuan Wu, Matthew Gombolay

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16467v1

摘要： 动态环境中的机器人需要快速、准确的模型来了解物体在其环境中如何移动，以支持敏捷规划。在乒乓球等运动中，由于复杂的空气动力学、弹性行为以及滑动和滚动摩擦建模的挑战，分析模型通常难以准确预测带有旋转的球轨迹。另一方面，尽管数据驱动方法前景广阔，但机器学习在没有精确输入的情况下很难做出准确、一致的预测。在本文中，我们提出了一种端到端学习框架，可以联合训练动态模型和因子图估计器。我们的方法利用 Gram-Schmidt (GS) 过程来提取旋转平移不变表示以提高模型性能，与数据增强方法相比，这可以进一步减少验证误差。此外，我们提出了一种网络架构，通过在层连接中使用自乘旁路来增强非线性。通过利用这些新颖的方法，我们提出的方法预测球的位置，第一次弹跳后顶点处球拍半径的 RMSE 为 37.2 毫米，第二次弹跳后为 71.5 毫米。

使用小运动的改进结构初始化自主代理的单目视觉导航

分类： 机器人技术, 计算机视觉和模式识别

作者： Juan-Diego Florez, Mehregan Dor, Panagiotis Tsiotras

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16465v1

摘要： 我们为太空中的自主机器人提出了一个独立的单目视觉同时定位和建图（vSLAM）初始化管道。我们的方法是最先进的因子图优化管道，增强了小运动（SfSM）的经典结构，以在弱透视投影场景中稳健地初始化单目代理。此外，它还克服了航天器检查轨迹引入的视觉估计挑战，例如：中心指向运动，这加剧了浅浮雕的模糊性，以及场景中主平面的存在，这导致经典运动结构中的运动估计退化（SfM）。我们在显示弱透视投影的真实模拟卫星检查图像上验证了我们的方法，并且与其他单目初始化程序相比，我们证明了其有效性和改进的性能。

MBC：四足机器人的多脑协同控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Hang Liu, Yi Cheng, Rankun Li, Xiaowen Hu, Linqi Ye, Houde Liu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16460v1

摘要： 在四足机器人的运动任务领域，盲策略和感知策略各有其优势和局限性。盲策略依赖于预设的传感器信息和算法，适用于已知和结构化的环境，但在复杂或未知环境中缺乏适应性。感知策略使用视觉传感器来获取详细的环境信息，使其能够适应复杂的地形，但其有效性在遮挡条件下受到限制，尤其是在感知失败时。与盲目策略不同，感知策略在这些条件下并不那么稳健。为了应对这些挑战，我们提出了一种 MBC：多脑协作系统，该系统结合了多智能体强化学习的概念，并引入了盲策略和感知策略之间的协作。通过将这种多策略协作模型应用于四足机器人，即使在感知系统受损或观测数据不完整的情况下，机器人也可以保持稳定的运动。我们的仿真和真实实验表明，该系统显着提高了机器人在复杂环境下的通过性和针对感知故障的鲁棒性，验证了多策略协作在增强机器人运动性能方面的有效性。

MultiTalk：人类-环境-大语言模型协调的内省和外省对话

分类： 机器人技术

作者： Venkata Naren Devarakonda, Ali Umut Kaypak, Shuaihang Yuan, Prashanth Krishnamurthy, Yi Fang, Farshad Khorrami

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16455v1

摘要： 大语言模型由于其强大的自然语言理解和推理能力，在任务规划方面表现出了可喜的成果。然而，幻觉、人类指令的模糊性、环境限制以及执行主体能力的限制等问题往往会导致计划有缺陷或不完整。本文提出了 MultiTalk，这是一种基于大语言模型的任务规划方法，通过内省和外省对话循环的框架来解决这些问题。这种方法有助于在环境和代理能力的背景下生成计划，同时还解决给定任务中的不确定性和模糊性。这些循环由专门的系统启用，该系统旨在提取和预测特定于任务的状态，并标记人类用户、LLM 代理和环境之间的不匹配或不一致。这些系统和大语言模型规划者之间的有效反馈途径可以促进有意义的对话。该方法的有效性通过其在机器人操作任务中的应用得到了证明。实验和消融凸显了我们方法的稳健性和可靠性，与基线的比较进一步说明了 MultiTalk 在实体代理任务规划中的优越性。

用于长视野、接触丰富的机器人装配的分层混合学习

分类： 机器人技术

作者： Jiankai Sun, Aidan Curtis, Yang You, Yan Xu, Michael Koehle, Leonidas Guibas, Sachin Chitta, Mac Schwager, Hui Li

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16451v1

摘要： 可推广的长视野机器人装配需要多个抽象级别的推理。端到端模仿学习（IL）已被证明是一种有前途的方法，但它需要大量的演示数据进行训练，并且往往无法满足装配任务的高精度要求。强化学习（RL）方法在高精度组装任务中取得了成功，但由于样本效率低下，因此在长期任务中能力较差。为了应对这些挑战，我们提出了一种名为 ARCH（自适应机器人组合层次结构）的分层模块化方法，它可以在接触丰富的环境中实现长视野高精度组装。 ARCH 采用分层规划框架，包括连续参数化技能的低级原始库和高级策略。低级基元库包含装配任务的基本技能，例如抓取和插入。这些原语由强化学习和基于模型的控制器组成。通过模仿学习从一些演示中学习到的高级策略选择适当的原始技能并使用连续输入参数将它们实例化。我们在真实的机器人操作平台上广泛评估了我们的方法。我们表明，在针对单个任务进行训练时，ARCH 可以很好地泛化到未见过的任务，并且在成功率和数据效率方面优于基线方法。视频可以在 https://long-horizon- assembly.github.io 找到。

使用 3D 卷积神经网络进行基于前臂超声视频片段的手势分类

分类： 计算机视觉和模式识别, 机器人技术, 图像和视频处理

作者： Keshav Bimbraw, Ankit Talele, Haichong K. Zhang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16431v1

摘要： 基于超声波的手部运动估计是人机交互应用的一个重要研究领域。前臂超声提供有关手部运动过程中肌肉形态变化的详细信息，可用于估计手势。之前的工作重点是使用卷积神经网络 (CNN) 等技术分析二维 (2D) 超声图像帧。然而，此类 2D 技术无法从与连续手部运动相对应的超声数据片段中捕获时间特征。本研究使用基于 3D CNN 的技术来捕获超声视频片段中的时空模式以进行手势识别。我们将基于 2D 卷积的网络与基于 (2+1)D 卷积、基于 3D 卷积以及我们提出的网络的性能进行了比较。与使用 2D 卷积层训练的网络相比，我们的方法将手势分类准确度从 96.5 +/- 2.3% 提高到 98.8 +/- 0.9%。这些结果证明了使用超声视频片段来提高手势分类性能的优势。

通过增量学习方法提高基于前臂超声的手势分类的会话间再现性

分类： 计算机视觉和模式识别, 机器人技术

作者： Keshav Bimbraw, Jack Rothenberg, Haichong K. Zhang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16415v1

摘要： 前臂的超声图像可用于对手势进行分类，以开发人机界面。在我们之前的工作中，我们已经在单个受试者上使用超声波演示了手势分类，而无需在评估之前移除探头。这在使用上存在局限性，因为一旦移除并更换探针，分类器性能对手臂上的探针位置敏感，准确性就会下降。在本文中，我们建议在多个数据收集会话上训练模型，以创建通用模型，通过微调利用增量学习。超声数据是在一个疗程中（无需移除并重新安装探头）和跨疗程中的 5 个手势获取的。本研究使用具有 5 个级联卷积层的卷积神经网络 (CNN)。使用充当特征提取器的卷积块对预训练的 CNN 进行微调，并以增量方式更新其余层的参数。微调是使用会话内和多个会话之间的不同会话拆分来完成的。我们发现增量微调可以通过更多的微调会话来帮助提高分类准确性。每个实验进行 2 次微调后，我们发现分类准确率提高了大约 10%。这项工作表明，通过对基于超声波的手势分类进行微调来进行增量学习，可以提高准确性，同时节省存储、处理能力和时间。它可以扩展到多个主题之间的泛化，并用于开发个性化的可穿戴设备。

茎水势测定中基于视觉的木质部湿度分类

分类： 机器人技术, 计算机视觉和模式识别

作者： Pamodya Peiris, Aritra Samanta, Caio Mucchiani, Cody Simons, Amit Roy-Chowdhury, Konstantinos Karydis

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16412v1

摘要： 灌溉中的水经常被过度使用，因此对其进行有效管理至关重要。精准农业强调茎水势 (SWP) 分析等工具，以更好地确定植物状态。然而，此类工具通常需要劳动密集型的原位采样。自动化和机器学习可以简化这一过程并提高结果。这项工作的重点是使用 Scholander 压力室实现茎干检测和木质部湿度分类的自动化，Scholander 压力室是一种广泛使用但要求很高的 SWP 测量方法。目的是改进茎检测并开发基于计算机视觉的方法，以更好地对木质部的水出现进行分类。为此，我们收集并手动注释视频数据，应用基于视觉和学习的方法进行检测和分类。此外，我们还探索了数据增强和微调参数，以确定最有效的模型。已确定的茎检测和木质部湿度分类的最佳性能模型经过 20 次 SWP 测量的端到端评估。通过 YOLOv8n 进行的基于学习的茎检测与基于 ResNet50 的分类相结合，实现了 80.98% 的 Top-1 准确率，使其成为木质部湿度分类的最佳方法。

Rao-Blackwellized POMDP 规划

分类： 人工智能, 机器学习, 机器人技术

作者： Jiho Lee, Nisar R. Ahmed, Kyle H. Wray, Zachary N. Sunberg

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16392v1

摘要： 部分可观察马尔可夫决策过程（POMDP）为不确定性下的决策提供了一个结构化框架，但其应用需要有效的信念更新。顺序重要性重采样粒子滤波器 (SIRPF)，也称为引导粒子滤波器，通常用作大型近似 POMDP 求解器中的置信更新器，但随着系统状态维度的增长，它们面临粒子剥夺和高计算成本等挑战。为了解决这些问题，本研究引入了 Rao-Blackwellized POMDP (RB-POMDP) 近似求解器，并概述了在信念更新和在线规划中应用 Rao-Blackwellization 的通用方法。我们比较了 SIRPF 和 Rao-Blackwellized 粒子滤波器 (RBPF) 在模拟定位问题中的性能，其中代理使用 POMCPOW 和 RB-POMCPOW 规划器在 GPS 拒绝的环境中导航到目标。我们的结果不仅证实了 RBPF 随着时间的推移以更少的粒子保持准确的置信近似，而且更令人惊讶的是，在相同的计算限制下，与基于 SIRPF 的规划相比，RBPF 与基于正交的积分相结合显着提高了规划质量。

嵌入式 IPC：机器人操作的缩减子空间中的快速无交集仿真

分类： 机器人技术

作者： Wenxin Du, Chang Yu, Siyu Ma, Ying Jiang, Zeshun Zong, Yin Yang, Joe Masterjohn, Alejandro Castro, Xuchen Han, Chenfanfu Jiang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16385v1

摘要： 基于物理的模拟对于开发和评估机器人操纵策略至关重要，特别是在涉及可变形物体和复杂接触交互的场景中。然而，现有的模拟器常常难以平衡计算效率和数值精度，特别是在对具有摩擦接触约束的可变形材料进行建模时。我们为增量势接触（IPC）方法引入了一种有效的子空间表示，利用模型简化来减少自由度的数量。我们的方法通过表示低分辨率子空间中的弹性，同时保持嵌入式高分辨率表面上的碰撞约束，将模拟复杂性与输入模型的分辨率解耦。我们的屏障配方可确保无交叉的轨迹和配置，无论材料刚度、时间步长或接触严重程度如何。我们通过使用软气泡夹具抓取的定量实验以及将盘子放在碗碟架上的定性演示来验证我们的模拟器。结果证明了我们的模拟器的效率、物理精度、计算稳定性和摩擦接触的稳健处理，使其非常适合生成演示数据和评估下游机器人训练应用。

使用在线轴估计和基于 SAM2 的跟踪进行铰接式对象操纵

分类： 机器人技术, 人工智能, 图形, 机器学习

作者： Xi Wang, Tianxing Chen, Qiaojun Yu, Tianling Xu, Zanxin Chen, Yiting Fu, Cewu Lu, Yao Mu, Ping Luo

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16287v1

摘要： 铰接式对象操纵需要精确的对象交互，其中必须仔细考虑对象的轴。先前的研究采用交互式感知来操纵铰接式物体，但通常开环方法常常会忽视交互动态。为了解决这一限制，我们提出了一种闭环管道，将交互式感知与分段 3D 点云的在线轴估计相结合。我们的方法利用任何交互式感知技术作为交互式感知的基础，诱导轻微的物体移动来生成不断变化的动态场景的点云帧。然后使用 Segment Anything Model 2 (SAM2) 对这些点云进行分割，然后遮盖物体的移动部分，以进行精确的运动在线轴估计，指导后续的机器人动作。我们的方法显着提高了涉及铰接物体的操纵任务的精度和效率。模拟环境中的实验表明，我们的方法优于基线方法，特别是在需要精确的基于轴控制的任务中。项目页面：https://hytidel.github.io/video-tracking-for-axis-estimation/。

Gen2Act：新场景中的人类视频生成实现了通用的机器人操作

分类： 机器人技术, 计算机视觉和模式识别, 机器学习, 图像和视频处理

作者： Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16283v1

摘要： 机器人操纵策略如何推广到涉及看不见的物体类型和新动作的新任务？在本文中，我们提供了一种解决方案，通过人类视频生成来预测网络数据中的运动信息，并根据生成的视频调整机器人策略。我们没有尝试扩展昂贵的机器人数据收集，而是展示了如何利用在易于获得的网络数据上训练的视频生成模型来实现泛化。我们的方法 Gen2Act 将语言条件操作转化为零镜头人类视频生成，然后使用以生成的视频为条件的单一策略执行。为了训练策略，我们使用的机器人交互数据比训练视频预测模型的数据少一个数量级。 Gen2Act 根本不需要对视频模型进行微调，我们直接使用预先训练的模型来生成人类视频。我们在各种现实场景中的结果表明，Gen2Act 如何能够操纵看不见的对象类型，并针对机器人数据中不存在的任务执行新颖的运动。视频位于 https://homangab.github.io/gen2act/

生成因子链：基于扩散的因子图的协调操作

分类： 机器人技术

作者： Utkarsh A. Mishra, Yongxin Chen, Danfei Xu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16275v1

摘要： 由于搜索空间大和复杂的约束满足问题，学习规划多步骤、多操纵器任务是出了名的困难。我们提出了生成因子链（GFC），一种用于规划的可组合生成模型。 GFC 将规划问题表示为时空因子图，其中节点表示场景中的对象和机器人，空间因子捕获节点之间有效关系的分布，时间因子表示技能转换的分布。每个因素都实现为模块化扩散模型，在推理过程中组合这些模型，以通过双向消息传递生成可行的长期计划。我们表明，GFC 可以解决复杂的双手操作任务，并通过对象和约束的新颖组合对看不见的规划任务表现出强大的泛化能力。更多详细信息可以访问：https://generative-fc.github.io/

REBEL：大语言模型基于规则和经验增强的学习，用于多人多机器人团队的初始任务分配

分类： 机器人技术

作者： Arjun Gupte, Ruiqi Wang, Vishnunandan L. N. Venkatesh, Taehyeon Kim, Dezhong Zhao, Byung-Cheol Min

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16266v1

摘要： 多人多机器人团队结合了人类和机器人的互补优势，可以解决跨不同应用的复杂任务。然而，这些团队固有的异构性给初始任务分配（ITA）带来了巨大的挑战，这涉及到在任务执行之前根据每个团队成员的个人能力将最合适的任务分配给每个团队成员。虽然当前基于学习的方法已经显示出有希望的结果，但它们的训练计算成本通常很高，并且缺乏将用户偏好纳入多目标优化和适应现实世界动态环境中最后一刻变化的灵活性。为了解决这些问题，我们提出了 REBEL，这是一个基于 LLM 的 ITA 框架，集成了基于规则和经验增强的学习。 REBEL利用检索增强生成，动态检索相关规则和过去的经验，提高推理效率。此外，REBEL 可以补充基于 RL 的预训练 ITA 策略，提高态势感知和整体团队绩效。大量的实验验证了我们的方法在各种设置下的有效性。更多详细信息请访问 https://sites.google.com/view/ita-rebel 。

视觉惯性系统中多个惯性测量单元的快速外参标定

分类： 机器人技术

作者： Youwei Yu, Yanqing Liu, Fengjie Fu, Sihan He, Dongchen Zhu, Lei Wang, Xiaolin Zhang, Jiamao Li

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16228v1

摘要： 在本文中，我们提出了一种融合多个惯性测量单元（MIMU）的快速外在校准方法，以提高视觉惯性里程计（VIO）定位精度。目前，MIMU的数据融合算法高度依赖于惯性传感器的数量。基于惯性传感器之间的外在参数被完美标定的假设，融合算法利用更多的IMU提供了更好的定位精度，同时忽略了外在标定误差的影响。我们的方法构建两个非线性最小二乘问题来分别估计 MIMU 相对位置和方向，独立于外部传感器和惯性噪声在线估计。然后我们给出了虚拟IMU（VIMU）方法的一般形式并提出了它在流形上的传播。我们在数据集、我们自制的传感器板和具有不同 IMU 的板上执行我们的方法，验证了我们的方法在速度、准确性和鲁棒性方面相对于竞争方法的优越性。在模拟实验中，我们表明，仅将两个 IMU 与我们的校准方法融合来预测运动就可以与 9 个 IMU 相媲美。真实世界的实验表明，与我们的校准方法和流形上的 VIMU 传播相结合的 VIO 具有更好的定位精度。

用于持续物体检测的微型机器人数据集和基准

分类： 机器人技术, 计算机视觉和模式识别

作者： Francesco Pasti, Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto, Nicola Bellotto

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16215v1

摘要： 移动机器人中的物体检测对于从自主导航到检查等众多应用至关重要。然而，机器人通常需要执行与训练不同的领域的任务，并且需要适应这些变化。微型移动机器人受到尺寸、功率和计算的限制，在运行和适应这些算法时会遇到更多困难。然而，这种适应性对于现实世界的部署至关重要，因为机器人必须在动态和不可预测的环境中有效运行。在这项工作中，我们引入了一种新颖的基准来评估微型机器人平台中物体检测系统的持续学习能力。我们的贡献包括：（i）微型机器人物体检测（TiROD），这是一个使用小型移动机器人收集的综合数据集，旨在测试物体检测器在不同领域和类别中的适应性； (ii) 结合该数据集的不同持续学习策略对最先进的实时物体检测器进行评估，提供对其性能和局限性的详细见解； (iii) 我们发布数据和代码来复制结果，以促进该领域的持续进步。我们的基准测试结果表明，为了推动微型机器人技术稳健、高效的物体检测系统的开发，必须解决一些关键挑战。

TE-PINN：使用 Transformer 增强物理信息神经网络进行基于四元数的方向估计

分类： 机器人技术, 系统与控制, 信号处理, 系统与控制

作者： Arman Asgharpoor Golroudbari

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16214v1

摘要： 本文介绍了一种变压器增强型物理信息神经网络 (TE-PINN)，旨在在高动态环境中（特别是在机器人领域）进行精确的基于四元数的方向估计。通过将变压器网络与物理知识学习相结合，我们的方法创新地捕获传感器数据中的时间依赖性，同时执行控制旋转运动的基本物理定律。 TE-PINN 利用多头注意力机制来处理来自惯性传感器（例如加速度计和陀螺仪）的顺序数据，确保时间一致性。同时，该模型将四元数运动学和刚体动力学嵌入到学习过程中，使网络的预测与欧拉运动定律等机械原理保持一致。基于物理的损失函数结合了角速度和外力的动力学，增强了网络在复杂场景中的泛化能力。我们的实验评估表明，TE-PINN 始终优于扩展卡尔曼滤波器 (EKF) 和基于 LSTM 的估计器等传统方法，特别是在以高角速度和噪声传感器数据为特征的场景中。结果表明，与最先进的技术相比，平均四元数误差显着降低，陀螺仪偏差估计得到改进。消融研究进一步分离了变压器架构和物理约束的贡献，突出了两个组件在提高模型性能方面的协同效应。所提出的模型在移动机器人典型的嵌入式系统上实现了实时性能，为自主系统中的方向估计提供了可扩展且高效的解决方案。

基于上下文的元强化学习，用于稳健且适应性强的孔中钉组装任务

分类： 机器人技术

作者： Ahmed Shokry, Walid Gomaa, Tobias Zaenker, Murad Dawood, Shady A. Maged, Mohammed I. Awad, Maren Bennewitz

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16208v1

摘要： 由于板载传感器误差，未知环境中的钉孔组装是一项具有挑战性的任务，这会导致任务参数（例如孔位置和方向）的不确定性和变化。元强化学习（Meta RL）被提出来缓解这个问题，因为它学习如何快速适应具有不同参数的新任务。然而，以前的方法要么依赖于样本效率低下的程序，要么依赖于人工演示来在现实世界中执行任务。我们的工作修改了 Meta RL 代理使用的数据，并使用了即使使用未校准的相机也可以在现实世界中轻松测量的简单特征。我们进一步调整 Meta RL 代理，使用来自力/扭矩传感器（而不是相机）的数据来执行组装，并使用少量训练数据。最后，我们提出了一种微调方法，该方法能够一致且安全地适应参数与训练任务相差 10 倍的分布外任务。我们的结果表明，所提出的数据修改显着提高了训练和适应效率，并使代理能够在具有不同孔位置和方向的任务中取得 100% 的成功。在真实机器人上进行的实验证实，配备摄像头和力/扭矩传感器的代理在孔位置未知的任务中均取得了 100% 的成功，与其模拟性能相匹配，并验证了该方法的稳健性和适用性。与之前样本效率低的适应工作相比，我们提出的方法在实际任务中样本效率提高了 10 倍。

结构化道路通用的混合整数势博弈多车协同决策方法

分类： 机器人技术

作者： Chengzhen Meng, Zhenmin Huang, Jun Ma

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16190v1

摘要： 由于现实世界道路拓扑的复杂性和自动驾驶汽车固有的复杂性，多辆联网自动驾驶汽车 (CAV) 的协作决策仍然是一个重大挑战。目前，大多数方法都是针对特定场景定制的，适用于不同场景的现有优化和学习方法的效率受到建模复杂性和数据依赖性的阻碍，从而限制了它们的实际适用性。针对这些问题，本文提出一种基于博弈论的结构化道路中通用的多车协同决策方法。我们将决策问题转化为路点图框架内的图路径搜索问题。该问题首先被表述为混合整数线性规划问题（MILP），然后转化为混合整数势博弈（MIPG），这减少了问题的范围，并确保没有玩家需要牺牲总体成本。提出了两种协同决策的Gauss-Seidel算法来解决MIPG问题并获得纳什均衡解。具体来说，用于协同决策的顺序Gauss-Seidel算法考虑了CAV相互作用的不同程度和调整策略的灵活性来确定优化优先级，从而降低了无效优化的频率。具有不同拓扑结构的各种城市交通场景的实验评估证明了该方法与 MILP 相比的有效性和效率，并且不同优化序列的比较验证了顺序 Gauss-Seidel 算法用于协作决策的效率。

SPIBOT：无人机系留移动抓手，用于动态环境中稳健的空中物体检索

分类： 机器人技术

作者： Gyuree Kang, Ozan Güneş, Seungwook Lee, Maulana Bisyir Azhari, David Hyunchul Shim

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16181v1

摘要： 在现实的现场作业中，由于强风、变化的表面以及需要处理重物，空中抓取系统在动态环境中面临着巨大的挑战。特别是在处理重物时，无人机强大的螺旋桨可能会在目标物体接近时无意中将其吹走，使任务变得更加困难。为了应对这些挑战，我们推出了 SPIBOT，这是一种新型无人机系留移动夹具系统，专为稳健且稳定的自主目标检索而设计。 SPIBOT 通过系绳进行操作，就像蜘蛛一样，使无人机能够与目标保持安全距离。为了确保稳定的移动性和安全的抓取能力，SPIBOT 配备了六个腿和传感器来估计机器人和任务的状态。与其他六足机器人相比，它的设计体积和重量更小，使其可以轻松存放在无人机下方并根据需要卷起。 SPIBOT 专为 2024 年 MBZIRC 海事挑战赛而设计，旨在在船舶移动甲板的高动态条件下检索 1 公斤的目标物体。该系统集成了实时动作选择算法，可根据与任务目标的接近程度和环境条件动态调整机器人的动作，从而实现快速、稳健的任务执行。在各种地形（包括湖上的浮桥、草地和沿海沙地的橡胶垫）上进行的实验结果证明了 SPIBOT 高效可靠地检索目标的能力。即使在处理不规则的初始状态和无人机引入的噪声信息时，SPIBOT 也能迅速收敛于目标并完成其任务。

高效运动预测：轻量级、准确的轨迹预测模型，训练和推理速度快

分类： 机器人技术, 计算机视觉和模式识别

作者： Alexander Prutsch, Horst Bischof, Horst Possegger

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16154v2

摘要： 为了实现高效、安全的自动驾驶，自动驾驶车辆必须能够预测其他交通主体的运动。虽然高度准确，但当前的运动预测模型通常在训练资源需求和嵌入式硬件部署方面带来重大挑战。我们提出了一种新的高效运动预测模型，该模型在单个 GPU 上仅训练几个小时即可实现极具竞争力的基准结果。由于我们的轻量级架构选择以及对减少所需培训资源的关注，我们的模型可以轻松应用于自定义数据集。此外，其低推理延迟使其特别适合部署在计算资源有限的自主应用程序中。

CloudTrack：具有云语义的可扩展无人机跟踪

分类： 机器人技术, 计算机视觉和模式识别

作者： Yannik Blei, Michael Krawez, Nisarga Nilavadi, Tanja Katharina Kaiser, Wolfram Burgard

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16111v1

摘要： 如今，无人机（UAV）通常用于搜索和救援场景，以收集搜索区域的信息。在航拍镜头中自动识别搜索者可以提高此类系统的自主性，减少搜索时间，从而增加失踪者的生存机会。在本文中，我们提出了一种执行语义条件开放词汇对象跟踪的新方法，该方法是专门为应对无人机硬件的限制而设计的。我们的方法有几个优点。它可以通过对失踪人员的口头描述（例如衬衫的颜色）来运行，不需要专门的培训来执行任务，并且可以有效地跟踪可能移动的人员。我们的实验结果证明了我们方法的多功能性和有效性。

敏捷无人机飞行最短时间轨迹实时规划

分类： 机器人技术

作者： Krystof Teissing, Matej Novosad, Robert Penicka, Martin Saska

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16074v1

摘要： 我们解决了机载多旋翼无人机多个航点上最短时间轨迹实时规划的挑战。之前的工作表明，实现真正的时间最优轨迹对计算的要求太高，无法在敏捷飞行期间进行频繁的重新规划，尤其是在功能较弱的飞行计算机上。我们的方法通过利用具有新颖的迭代推力分解算法的点质量模型克服了这一障碍，使无人机能够利用其所有的集体推力，这是以前的点质量方法无法实现的。该方法实现了重力和阻力建模集成，显着减少了高速轨迹中的跟踪误差，这已通过消融研究得到证明。当与新的多路点优化算法相结合时，该算法使用基于梯度的方法收敛到路点的最佳速度，该方法可在毫秒内生成最短时间的多路点轨迹。我们以开源包的形式提供所提出的方法，并使用非线性模型预测控制在模拟和现实世界中进行了验证。在加速度高达 3.5g 且速度超过 100 km/h 的情况下，所提出的方法生成的轨迹产生与完整多旋翼模型生成的轨迹相似甚至更小的跟踪误差。

具有实例表示学习的开放世界对象检测

分类： 计算机视觉和模式识别, 机器人技术

作者： Sunoh Lee, Minsik Jeon, Jihong Min, Junwon Seo

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16073v1

摘要： 虽然人类自然地识别新物体并理解它们之间的关系，但基于深度学习的物体检测器很难检测和关联训练期间未观察到的物体。为了解决这个问题，引入了开放世界对象检测（OWOD），使模型能够检测开放世界场景中的未知对象。然而，OWOD 方法无法捕获检测到的对象之间的细粒度关系，而这对于全面的场景理解和类发现和跟踪等应用至关重要。在本文中，我们提出了一种训练对象检测器的方法，该检测器既可以检测新对象，又可以利用视觉基础模型（VFM）的知识在开放世界条件下提取语义丰富的特征。我们首先利用 Segment Anything Model 中的语义掩码来监督未知对象的框回归，确保准确的定位。通过将从 VFM 特征获得的实例相似性转移到检测器的实例嵌入，我们的方法然后学习这些嵌入的语义丰富的特征空间。大量实验表明，我们的方法学习了鲁棒且可泛化的特征空间，优于其他基于 OWOD 的特征提取方法。此外，我们还证明了模型的增强功能提高了探测器对开放世界跟踪等任务的适用性。

全身末端执行器姿态跟踪

分类： 机器人技术, 人工智能, 机器学习, 系统与控制, 系统与控制

作者： Tifanny Portela, Andrei Cramariuc, Mayank Mittal, Marco Hutter

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16048v1

摘要： 将操纵与腿式机器人的移动性相结合对于广泛的机器人应用至关重要。然而，将手臂与移动底座集成显着增加了系统的复杂性，使得精确的末端执行器控制具有挑战性。现有的基于模型的方法通常受到建模假设的限制，导致鲁棒性有限。与此同时，最近的强化学习（RL）实现将手臂的工作空间限制在机器人前面，或者仅跟踪位置以获得不错的跟踪精度。在这项工作中，我们通过引入全身强化学习公式来解决这些限制，该公式用于在粗糙、非结构化地形的大型工作空间中进行末端执行器姿势跟踪。我们提出的方法涉及机器人初始配置和末端执行器姿势命令的地形感知采样策略，以及基于游戏的课程来扩展机器人的操作范围。我们在带有六自由度机械臂的 ANYmal 四足机器人上验证了我们的方法。通过我们的实验，我们表明学习控制器可以在大工作空间内实现精确的命令跟踪，并适应不同的地形，例如楼梯和斜坡。部署后，它的姿态跟踪误差为 2.64 厘米和 3.64 度，优于现有的竞争基准。

RTAGrasp：通过检索、传输和对齐从人类视频中学习面向任务的抓取

分类： 机器人技术

作者： Wenlong Dong, Dehao Huang, Jiangshan Liu, Chao Tang, Hong Zhang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16033v1

摘要： 任务导向的抓取（TOG）对于机器人完成操纵任务至关重要，需要确定TOG的位置和方向。现有方法要么依赖昂贵的手动 TOG 注释，要么仅从人类演示中提取粗略的抓取位置或区域，限制了它们在实际应用中的实用性。为了解决这些限制，我们引入了 RTAGrasp，这是一个受人类抓取策略启发的检索、传输和对齐框架。具体来说，我们的方法首先从人类抓取演示视频中轻松构建机器人记忆，提取 TOG 位置和方向约束。然后，给定任务指令和对目标物体的视觉观察，RTAGrasp从其记忆中检索最相似的人类抓取体验，并利用视觉基础模型的语义匹配能力以免训练的方式将TOG约束转移到目标物体。最后，RTAGrasp 将传输的 TOG 约束与机器人的执行动作对齐。对公共 TOG 基准、TaskGrasp 数据集的评估显示，与现有基线方法相比，RTAGrasp 在可见和不可见对象类别上的竞争性能。现实世界的实验进一步验证了其在机械臂上的有效性。我们的代码、附录和视频可在 \url{https://sites.google.com/view/rtagasp/home} 获取。

MHRC：具有大型语言模型的闭环分散式多异构机器人协作

分类： 机器人技术

作者： Wenhao Yu, Jie Peng, Yueliang Ying, Sai Li, Jianmin Ji, Yanyong Zhang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16030v1

摘要： 大语言模型（LLM）与机器人技术的集成显着提高了机器人在感知、认知和任务规划方面的能力。自然语言界面的使用提供了一种统一的方法来表达异构机器人的能力差异，促进它们之间的通信，并实现无缝的任务分配和协作。目前，利用大语言模型来实现分散的多异构机器人协作任务仍然是一个尚未探索的研究领域。在本文中，我们介绍了一种利用大语言模型实现多个异构机器人之间的去中心化协作的新颖框架。我们的框架支持三个机器人类别，移动机器人、操纵机器人和移动操纵机器人，共同完成探索、运输和组织等任务。我们开发了一套丰富的文本反馈机制和思想链（CoT）提示，以提高任务规划效率和整体系统性能。移动操纵机器人可以灵活调整其基座位置，确保抓取任务的最佳条件。操纵机器人可以理解任务要求，在必要时寻求帮助，并适当地处理物体。同时，移动机器人可以广泛地探索环境，绘制物体位置，并将这些信息传递给移动操纵机器人，从而提高任务执行效率。我们使用 PyBullet 评估了该框架，创建了具有三种不同房间布局和三种不同操作任务的场景。我们测试了各种大语言模型模型并进行了消融研究，以评估不同模块的贡献。实验结果证实了我们提出的框架的有效性和必要性。

AIR-Embodied：基于 3DGS 的高效主动交互与重构框架，具有 Embodied 大语言模型

分类： 机器人技术

作者： Zhenghao Qi, Shenghai Yuan, Fen Liu, Haozhi Cao, Tianchen Deng, Jianfei Yang, Lihua Xie

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16019v1

摘要： 3D 重建和神经渲染方面的最新进展增强了高质量数字资产的创建，但现有方法难以泛化不同的对象形状、纹理和遮挡。虽然下一个最佳视图 (NBV) 规划和基于学习的方法提供了解决方案，但它们通常受到预定义标准的限制，并且无法使用类似人类的常识来管理遮挡。为了解决这些问题，我们提出了 AIR-Embodied，这是一种新颖的框架，它将具体的 AI 代理与大规模预训练的多模态语言模型相集成，以改进主动 3DGS 重建。 AIR-Embodied 采用三阶段流程：通过多模态提示了解当前重建状态，通过视点选择和交互动作规划任务，并采用闭环推理确保准确执行。代理根据计划结果和实际结果之间的差异动态地完善其行动。虚拟和现实环境中的实验评估表明，AIR-Embodied 显着提高了重建效率和质量，为主动 3D 重建中的挑战提供了强大的解决方案。

PRESTO：使用基于关键配置环境表示的扩散模型进行快速运动规划

分类： 机器人技术

作者： Mingyo Seo, Yoonyoung Cho, Yoonchang Sung, Peter Stone, Yuke Zhu, Beomjoon Kim

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16012v1

摘要： 我们引入了一种学习引导的运动规划框架，该框架使用扩散模型提供初始种子轨迹以进行轨迹优化。给定一个工作空间，我们的方法通过由一组稀疏的任务相关关键配置组成的关键配置表示来近似配置空间（C 空间）障碍，并将其用作扩散模型的输入。扩散模型集成了正则化项，可在训练期间鼓励避免碰撞和平滑轨迹，轨迹优化可细化生成的种子轨迹，以进一步纠正任何碰撞段。我们的实验结果表明，使用通过 C 空间接地扩散模型学习的高质量轨迹先验，可以在狭窄通道环境中高效生成无碰撞轨迹，优于基于先验学习和规划的基线。视频和其他材料可以在项目页面上找到：https://kiwi-sherbet.github.io/PRESTO。

CrowdSurfer：利用矢量量化变分自动编码器增强采样优化，实现密集人群导航

分类： 机器人技术, 优化与控制

作者： Naman Kumar, Antareep Singha, Laksh Nanwani, Dhruv Potdar, Tarun R, Fatemeh Rastgar, Simon Idoko, Arun Kumar Singh, K. Madhava Krishna

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16011v1

摘要： 对于移动机器人来说，在拥挤的人群中导航仍然是一个挑战。如果环境布局发生变化，复杂性会进一步增加，使得先前计算的全局计划不可行。在本文中，我们证明只需改进局部规划器就可以显着增强人群导航。我们的方法将生成建模与推理时间优化相结合，以交互速率生成复杂的长期局部计划。更具体地说，我们训练一个矢量量化变分自动编码器来学习以感知输入为条件的专家轨迹分布的先验。在运行时，这用作基于采样的优化器的初始化，以进一步细化。我们的方法不需要对动态障碍进行任何复杂的预测，但却提供了最先进的性能。特别是，我们与最近的 DRL-VO 方法进行比较，结果显示成功率提高了 40%，行程时间提高了 6%。

研究信任对多人多机器人任务分配的影响

分类： 机器人技术

作者： Ike Obi, Ruiqi Wang, Wonse Jo, Byung-Cheol Min

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16009v1

摘要： 信任对于人机协作至关重要。在多人多机器人团队中更是如此，信任对于确保复杂操作环境中的团队凝聚力至关重要。然而，目前，在多人、多机器人协作环境中使用的算法中，在任务分配和重新分配期间，信任很少被视为一个因素。先前对单人机交互中信任的研究表明，将信任作为人机交互中的一个参数可以显着改善机器人系统的性能结果和人类体验。然而，很少有研究探讨信任对多人多机器人协作的影响，特别是在任务分配的背景下。在本文中，我们引入了一种新的信任模型，即期望比较信任（ECT）模型，并将其与先前工作中的三个信任模型和基线非信任模型一起使用，以研究信任对多任务分配结果的影响。人类多机器人协作。我们的实验涉及不同的团队配置，包括2人2机器人、5人5机器人、10人10机器人。结果表明，在较大的团队（10 个人和 10 个机器人）中，使用基于信任的模型通常会比在较小的团队中获得更好的任务分配结果。我们讨论了我们的研究结果的含义，并为未来将信任作为多人、多机器人协作中任务分配的变量的工作提供建议。

克服指令引导强化学习中的奖励模型噪声

分类： 机器学习, 机器人技术

作者： Sukai Huang, Nir Lipovetzky, Trevor Cohn

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15922v1

摘要： 视觉语言模型（VLM）作为辅助奖励模型而受到关注，可以在稀疏奖励环境中提供更多信息性的奖励信号。然而，我们的工作揭示了这种方法的一个关键漏洞：奖励信号中的少量噪声可能会严重降低代理的性能。在奖励稀疏的挑战性环境中，我们发现，使用基于 VLM 的奖励模型而没有适当的噪声处理的强化学习代理的性能比仅依赖于探索驱动方法的代理要差。我们假设假阳性奖励（奖励模型错误地将奖励分配给不满足给定指令的轨迹）比假阴性对学习更有害。我们的分析证实了这一假设，表明广泛使用的余弦相似度度量在应用于比较代理轨迹和语言指令时，很容易产生误报奖励信号。为了解决这个问题，我们引入了 BiMI（二进制互信息），这是一种新颖的抗噪声奖励函数。我们的实验表明，BiMI 显着提高了代理性能，在具有学习的非预言机 VLM 的不同环境中，平均改进率为 44.5%，从而使基于 VLM 的奖励模型适用于实际应用。

通过深度强化学习在未知环境中进行多无人机追逃在线规划

分类： 机器人技术, 机器学习

作者： Jiayu Chen, Chao Yu, Guosheng Li, Wenhao Tang, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15866v2

摘要： 多无人机追逃，即追捕者旨在捕获逃避者，对无人机群体智能提出了关键挑战。多智能体强化学习 (MARL) 已展现出对协作行为进行建模的潜力，但大多数基于 RL 的方法仍然仅限于动态有限或固定场景的简化模拟。之前将强化学习策略部署到现实世界的追逃中的尝试主要局限于二维场景，例如固定高度的地面车辆或无人机。在本文中，我们通过考虑无人机动力学和物理约束来解决多无人机追逃问题。我们引入了一种逃避者预测增强网络来解决合作策略学习中的部分可观察性问题。此外，我们在 MARL 训练中提出了一个自适应环境生成器，可以在不同场景中实现更高的探索效率和更好的策略泛化。模拟表明，我们的方法在具有挑战性的场景中显着优于所有基线，并以 100% 的捕获率推广到未见过的场景。最后，我们通过两阶段奖励细化得出可行的策略，并以零样本的方式将该策略部署在真实的四旋翼飞行器上。据我们所知，这是第一个使用集体推力和机身速率控制命令来导出和部署基于强化学习的策略的工作，用于未知环境中的多无人机追击规避。开源代码和视频可在 https://sites.google.com/view/pursuit-evasion-rl 上获取。

BeSimulator：大型语言模型驱动的基于文本的行为模拟器

分类： 机器人技术, 人工智能, 计算和语言

作者： Jianan Wang, Bin Li, Xueying Wang, Fu Li, Yunlong Wu, Juan Chen, Xiaodong Yi

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15865v1

摘要： 传统的机器人模拟器专注于物理过程建模和真实渲染，通常面临计算成本高、效率低和适应性有限的问题。为了解决这个问题，我们提出机器人学中的行为模拟，以强调检查机器人的行为逻辑并在机器人动作的结果与真实场景之间实现充分的一致性。在本文中，我们介绍了 BeSimulator，这是一种由大语言模型驱动的模块化新颖框架，作为在基于文本的环境中进行行为模拟的尝试。通过构建基于文本的虚拟环境并进行语义级仿真，BeSimulator 可以跨场景泛化并实现长视野复杂仿真。受人类认知过程的启发，它采用“考虑-决定-捕获-转移”方法，称为行为模拟链，擅长分析行动可行性和状态转换。此外，BeSimulator 还采用代码驱动推理来实现算术运算并增强可靠性，并集成反射反馈来完善模拟。基于我们手动构建的基于行为树的模拟基准 BTSIMBENCH，我们的实验表明，与基线相比，行为模拟的性能显着提高，范围从 14.7% 到 26.6%。

复杂环境下基于距离的多非合作地面目标包围

分类： 机器人技术

作者： Fen Liu, Shenghai Yuan, Kun Cao, Wei Meng, Lihua Xie

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15840v1

摘要： 本文受到城市峡谷中追击车辆或人类等实际场景的启发，提出了一种在障碍物丰富且无 GPS 的环境中复杂的多目标多无人机包围的综合策略。无人机具有全向距离传感器，可以稳健地检测地面目标并获得嘈杂的相对距离。在分配每个无人机任务后，通过估计测量输出噪声方差并利用卡尔曼滤波器提出了一种新颖的基于距离的目标状态估计器（DTSE）。通过集成反同步技术和伪力功能，加速度控制器使两架任务无人机能够在导航障碍物的同时从相反的位置协作包围目标。从理论上建立了离散时间双积分器系统的算法有效性，特别是在可观测性方面。此外，该算法的多功能性在空对地场景中得到了展示，并得到了令人信服的仿真结果的支持。实验验证证明了所提出方法的有效性。

TiltXter：基于 CNN 的倾斜角电触觉渲染，用于远程操作巴斯德移液器

分类： 机器人技术

作者： Miguel Altamirano Cabrera, Jonathan Tirado, Aleksey Fedoseev, Oleg Sautenkov, Vladimir Poliakov, Pavel Kopanev, Dzmitry Tsetserukou

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15838v1

摘要： 在机器人夹具抓取过程中，可变形物体的形状可能会发生巨大变化，导致对其对齐的感知不明确，从而导致机器人定位和远程操作中的错误。渲染清晰的触觉模式对于在远程操作过程中通过触觉反馈来提高用户的精确度和灵活性至关重要。因此，必须研究不同的方法将传感器数据解码为触觉刺激。这项工作提出了一种用于塑料移液器的远程操作系统，该系统由一个 Force Dimension Omega.7 触觉界面组成，该界面配备了两个电刺激阵列和两个嵌入 2 指 Robotiq 夹具中的触觉传感器阵列。我们提出了一种基于卷积神经网络（CNN）的新方法来检测可变形物体的倾斜。 CNN 根据识别的倾斜数据生成触觉模式，以在遥控操作期间向用户提供进一步的电触觉刺激。研究表明，使用CNN算法，用户的倾斜识别率从缩小数据时的23.13%提高到57.9%，遥操作的成功率从使用缩小数据时的53.12%提高到使用触觉模式生成的92.18%。美国有线电视新闻网。

使用电磁铁安全空中抓取和转移多个负载的涵道风扇无人机

分类： 机器人技术

作者： Zhong Yin, Hailong Pei

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15822v1

摘要： 近年来，物体的空中抓取、操纵和运输的研究引起了人们的广泛关注。这些任务通常需要无人机在靠近环境或物体的地方安全运行并有效抓取有效载荷。然而，目前广泛采用的飞行平台存在安全隐患：未受保护的高速旋转螺旋桨会对周围环境造成危害。此外，机身上承载有效载荷的空间有限，有效载荷的位置受限也阻碍了高效抓取。为了解决这些问题，本文提出了一种同轴涵道风扇无人机，该无人机配备了安装在机身外部的电磁体，无需复杂的附加执行器即可在空中安全抓取和转移多个负载。它还具有实现人机与无人机空中货物直接转运的能力。分析了磁性吸附过程中负载所受的力及其影响因素。 ADRC控制器用于抵消抓取过程中的干扰并实现姿态控制。最后，进行飞行测试，以验证无人机在飞行中直接抓取人手上的多个负载并同时保持姿态跟踪的能力。

复杂交通场景下自动驾驶的基于意图和风险感知的轨迹预测

分类： 机器人技术

作者： Wen Wei, Jiankun Wang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15821v1

摘要： 准确预测周围车辆的轨迹是自动驾驶汽车面临的严峻挑战。在复杂交通场景下，当前自动驾驶系统存在两个显着问题：预测的认知不确定性和风险意识的缺乏，限制了自动驾驶的进一步发展。为了应对这一挑战，我们引入了一种新颖的轨迹预测模型，该模型融合了驾驶行为、道德决策和风险评估的见解和原则。基于联合预测，我们的模型由交互、意图和风险评估模块组成。交互模块可以在每个时间戳全面捕捉车辆之间交互的动态变化。基于交互信息，我们的模型考虑车辆的主要意图，以增强轨迹生成的多样性。预测轨迹的优化遵循先进的风险意识决策原则。实验结果在 DeepAccident 数据集上进行评估；我们的方法在正常和事故场景下显示出卓越的预测性能，并且分别比最先进的算法至少高出 28.9% 和 26.5%。所提出的模型提高了复杂交通场景下轨迹预测的熟练程度和适应性。所提议模型的代码可在 https://sites.google.com/view/ir-prediction 获取。

自动驾驶汽车在施工区安全驾驶的计算机视觉方法

分类： 计算机视觉和模式识别, 机器人技术

作者： Abu Shad Ahammed, Md Shahi Amran Hossain, Roman Obermaisser

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15809v1

摘要： 建设更智慧、更安全的城市，安全、高效、可持续的交通系统是关键要求。自动驾驶系统（ADS）在智能交通的发展中发挥着重要作用，被认为是汽车行业近几十年来面临的主要挑战之一。配备自动驾驶系统 (ADS) 的汽车具有各种尖端功能，例如自适应巡航控制、碰撞警报、自动停车等。 ADAS 的一个主要研究领域涉及识别施工区域中的道路障碍物，无论驾驶环境如何。本文提出了一种利用计算机视觉技术的创新且高精度的道路障碍物检测模型，该模型可以在施工区域激活并在不同漂移条件下发挥作用，最终有助于建立更安全的道路交通系统。使用 YOLO 框架开发的模型实现了超过 94% 的平均精度，并在验证数据集上展示了 1.6 毫秒的推理时间，强调了用于减轻自动驾驶车辆危险和风险的方法的稳健性。

扭转螺旋弹簧双向串联弹性执行器的研制及其在腿式机器人上的实现

分类： 机器人技术

作者： Yuta Koda, Hiroshi Osawa, Norio Nagatsuka, Shinichi Kariya, Taeko Inagawa, Kensaku Ishizuka

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15791v1

摘要： 人们对用于机器人关节的串联弹性执行器（SEA）进行了许多研究，因为它们在灵活性、安全性和能源效率方面非常有效。 SEA 稳健处理意外干扰的能力提高了人们对机器人与人类交互环境中实际应用的期望。另一方面，用于室内娱乐应用的小型机器人的开发和商业化也在积极进行中，人们认为通过在这些机器人中使用SEA，可以实现跳跃和奔跑等动态动作。在这项工作中，我们开发了一种小型轻量的 SEA，使用螺旋弹簧作为弹性元件。通过设计固定螺旋弹簧的方法，可以吸收冲击并以简单的结构在两个旋转方向上进行高精度的力测量。此外，为了验证所开发的SEA的有效性，我们创建了一个小型单腿机器人，在髋、膝、踝三个关节中实施了SEA，并进行了跌落测试。通过调整各关节的初始姿态和控制增益，我们确认通过简单的PD位置控制可以实现灵活着陆和连续跳跃。测量结果表明SEA在减震和能量再利用方面是有效的。这项工作仅用于研究目的。

改进车辆行为档案发现

分类： 机器人技术

作者： Nelson de Moura, Fawzi Nashashibi, Fernando Garrido

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15786v1

摘要： 已经提出了多种方法来模拟真实驾驶员的行为。本文提出了一种新的方法，完全基于对交叉路口不受干扰的观察的探索。从它们中，将发现每个宏观动作的行为概况。利用之前工作中已经确定的宏观操作，提出了一种使用扩展卡尔曼滤波器（EKF）的不同长度轨迹之间的比较方法，该方法与期望最大化（EM）启发的方法相结合，定义了代表不同长度的轨迹的不同簇。观察到的行为。它还与 Kullback-Liebler 发散 (KL) 标准配对，以定义何时需要拆分或合并集群。最后，每个宏观操纵的行为由发现的每个集群决定，无需使用任何有关环境的地图信息，并且与车辆运动动态一致。通过观察可以清楚地看出，影响驾驶员行为的两个主要因素是他们的自信和与其他道路使用者的互动。

AnyCar to Anywhere：学习通用动力学模型以实现敏捷和自适应移动

分类： 机器人技术

作者： Wenli Xiao, Haoru Xue, Tony Tao, Dvij Kalaria, John M. Dolan, Guanya Shi

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15783v1

摘要： 机器人学习社区最近的工作已经成功引入了通用模型，能够控制各种任务中的各种机器人实施例，例如导航和运动。然而，实现敏捷控制（突破机器人性能的极限）仍然依赖于需要大量参数调整的专业模型。为了利用通才模型的适应性和灵活性，同时实现专家级敏捷性，我们提出了 AnyCar，这是一种基于变压器的通才动力学模型，专为各种轮式机器人的敏捷控制而设计。为了收集训练数据，我们统一了多个模拟器，并利用不同的物理后端来模拟各种地形上具有不同尺寸、比例和物理属性的车辆。通过强大的训练和现实世界的微调，我们的模型能够精确适应不同的车辆，即使在野外和状态估计误差较大的情况下也是如此。在现实世界的实验中，AnyCar 在各种车辆和环境中展示了少样本和零样本泛化能力，其中我们的模型与基于采样的 MPC 相结合，性能比专业模型高出 54%。这些结果代表了构建敏捷轮式机器人控制基础模型的关键一步。我们还将开源我们的框架以支持进一步的研究。

使用基于障碍的风格奖励的多种腿式机器人运动的学习框架

分类： 机器人技术

作者： Gijeong Kim, Yong-Hoon Lee, Hae-Won Park

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15780v2

摘要： 这项工作引入了一种无模型强化学习框架，该框架支持多种运动模式（四足、三足或两足）和腿式机器人运动的多种任务。我们采用基于宽松对数障碍函数的运动风格奖励作为软约束，使学习过程偏向所需的运动风格，例如步态、脚间隙、关节位置或身体高度。预定义的步态周期以灵活的方式编码，便于在整个学习过程中进行步态调整。大量实验表明，KAIST HOUND（一个重 45 公斤的机器人系统）可以使用所提出的框架实现两足、三足和四足运动；四足能力包括穿越不平坦的地形、以 4.67 m/s 的速度驰骋以及克服高达 58 厘米的障碍（HOUND2 为 67 厘米）；双足能力包括以 3.6 m/s 的速度奔跑、携带 7.5 kg 的物体以及爬楼梯，所有这些都无需外感受输入即可完成。

适用于大规模环境的稳健、任务无关且完全可扩展的体素映射系统

分类： 机器人技术

作者： Jinche La, Jun-Gill Kang, Dasol Lee

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15779v1

摘要： 对于未知环境下的自主导航，尤其是飞行器来说，感知仍然是一个具有挑战性的问题。大多数用于自主导航的地图算法都是专门针对其预期任务而设计的，这阻碍了扩展使用或协作任务。在本文中，我们提出了一种体素映射系统，可以为多个任务构建适应性强的映射。该系统采用基于哈希表的地图结构，并以空间和时间优先级管理每个体素，而没有明确的地图边界。我们还引入了一种高效的地图共享功能，以最小的带宽支持多代理应用程序。我们在现实世界和模拟环境中测试了该系统，将其应用于本地测绘、全局测绘、协作多智能体导航和高速导航等各种任务。我们的系统证明了其能够构建具有高分辨率、广覆盖范围和实时性能的可定制地图，无论传感器和环境如何。该系统可以使用地图共享功能构建全分辨率地图，原始传感器数据的带宽减少了 95% 以上。

不确定性下合规零件配合的双层置信空间搜索

分类： 机器人技术

作者： Sahit Chintalapudi, Leslie Kaelbling, Tomas Lozano-Perez

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15774v1

摘要： 对于自主机器人来说，以低间隙配合两个零件的问题仍然很困难。我们提出了双层信念装配（BILBA），这是一种基于模型的规划器，可计算一系列顺应运动，可以利用与环境的接触来减少不确定性，并以低间隙执行具有挑战性的装配任务。我们的方法首先从零件的配置空间障碍的结构中导出候选接触时间表，然后找到实现所需接触的顺从运动。我们证明了 BILBA 可以有效地计算多个模拟任务以及真实机器人矩形孔插入任务的稳健计划。

杂技机器人的阶段性奖励塑造：一种约束多目标强化学习方法

分类： 机器人技术, 人工智能

作者： Dohyeong Kim, Hyeokjin Kwon, Junseok Kim, Gunmin Lee, Songhwai Oh

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15755v1

摘要： 随着强化学习（RL）解决的任务复杂性的增加，奖励函数的定义也变得非常复杂。我们引入了一种强化学习方法，旨在通过直观的策略简化奖励塑造过程。最初，我们在约束多目标 RL (CMORL) 框架内定义多个奖励和成本函数，而不是由各种项组成的单个奖励函数。对于涉及连续复杂运动的任务，我们将任务分为不同的阶段，并为每个阶段定义多个奖励和成本。最后，我们介绍了一种实用的 CMORL 算法，该算法根据这些奖励最大化目标，同时满足成本定义的约束。所提出的方法已在模拟和现实环境中的各种杂技任务中成功得到验证。此外，与现有的 RL 和约束 RL 算法相比，它已被证明能够成功执行任务。我们的代码可在 https://github.com/rllab-snu/Stage-Wise-CMORL 获取。

SoMaSLAM：具有软曼哈顿世界约束的稀疏范围传感的 2D 图 SLAM

分类： 机器人技术

作者： Jeahn Han, Zichao Hu, Seonmo Yang, Minji Kim, Pyojin Kim

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15736v1

摘要： 我们提出了一种用于稀疏距离感测的图 SLAM 算法，该算法利用地标-地标约束结合了软曼哈顿世界。对于无法使用笨重且昂贵的传感器的微型机器人来说，稀疏范围传感是必要的。由于对数据点的访问有限，现有的处理稀疏距离感测的 SLAM 方法缺乏准确性，并且随着时间的推移会累积漂移误差。使用结构规律来弥补这一缺陷的算法（例如曼哈顿世界（MW））在绘制与规则不相符的现实世界环境时存在缺陷。我们提出了 SoMaSLAM，这是一种专为具有稀疏范围传感功能的微型机器人设计的 2D 图 SLAM。我们的方法有效地映射稀疏范围数据，而不强制执行严格的结构规律并维护自适应图。我们将 MW 假设实现为软约束，我们将其称为软曼哈顿世界。我们提出了新颖的软地标-地标约束，将软MW合并到图SLAM中。通过广泛的评估，我们证明了我们提出的 SoMaSLAM 方法提高了不同数据集上的定位精度，并且足够灵活，可以在现实世界中使用。我们在 https://SoMaSLAM.github.io/ 发布了源代码和稀疏范围数据集。

从自动驾驶的潜在世界模型中学习多个概率决策

分类： 机器人技术, 人工智能

作者： Lingyu Xiao, Jiang-Jiang Liu, Sen Yang, Xiaofan Li, Xiaoqing Ye, Wankou Yang, Jingdong Wang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15730v1

摘要： 自回归世界模型在矢量化场景理解中表现出强大的泛化能力，但由于不确定性建模不足和自我欺骗而在推导动作时遇到困难。在本文中，我们通过制定多个概率假设来应对这些挑战，从而探索从自回归世界模型中得出决策的可行性。我们提出 LatentDriver，一个框架将环境的下一个状态和自我车辆的可能动作建模为混合分布，然后从中导出确定性控制信号。通过结合混合模型，可以捕捉决策的随机性质。此外，通过向世界模型提供从分布中采样的中间动作，可以缓解自我欺骗问题。最近发布的闭环基准测试 Waymax 上的实验结果表明，LatentDriver 超越了最先进的强化学习和模仿学习方法，达到了专家级的性能。代码和模型将在 https://github.com/Sephirex-X/LatentDriver 上提供。

使用目标条件 Actor-Critic MPC 的自主轮式装载机导航

分类： 机器人技术, 系统与控制, 系统与控制

作者： Aleksi Mäki-Penttilä, Naeim Ebrahimi Toulkani, Reza Ghabcheloo

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15717v1

摘要： 本文提出了一种用于自动轮式装载机的新型控制方法，能够高效地导航到任意目标位姿。与之前将高级轨迹规划器与模型预测控制（MPC）相结合的工作不同，我们通过集成从 Actor-Critic 强化学习（RL）导出的成本函数来直接增强 MPC 的规划能力。具体来说，我们训练一个 RL 代理来解决模拟中的姿势到达任务，然后将经过训练的神经网络批评家作为 MPC 的阶段和终端成本。我们通过全面的模拟表明，最终的 MPC 继承了 RL 代理的时间高效行为，生成的轨迹与使用轨迹优化找到的轨迹相比毫不逊色。我们还将我们的方法部署在真正的轮式装载机上，成功导航到各种目标姿势。相比之下，强化学习参与者有损坏机器的风险，并且不适合现实世界使用。

使用 GRFM-Net 自动调整双足运动 MPC，实现高效的模拟到真实的传输

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Qianzhong Chen, Junheng Li, Sheng Cheng, Naira Hovakimyan, Quan Nguyen

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15710v1

摘要： 双足运动控制对于人形机器人导航复杂的、以人为中心的环境至关重要。虽然基于优化的控制设计在集成人形机器人的复杂模型方面很受欢迎，但它们通常需要劳动密集型的手动调整。在这项工作中，我们使用 DiffTune 解决双足运动控制中参数选择的挑战，DiffTune 是一种基于模型的自动调整方法，利用差分编程进行有效的参数学习。主要困难在于平衡模型保真度和可微性。我们使用低保真可微分模型来解决这一难题，并通过地面反作用力和力矩网络 (GRFM-Net) 进行增强，以捕获 MPC 命令与实际控制效果之间的差异。我们在硬件实验中使用 GRFM-Net 验证了 DiffTune 学习到的参数，这证明了与基线参数相比，多目标设置中参数的最优性，与专家调整的相比，总损失减少了高达 40.5$%$参数。结果证实了 GRFM-Net 在缩小仿真与真实差距、提高仿真学习参数到真实硬件的可迁移性方面的有效性。

与地形重建一起行走：学习穿越危险的稀疏立足点

分类： 机器人技术

作者： Ruiqi Yu, Qianshi Wang, Yizhen Wang, Zhicheng Wang, Jun Wu, Qiuguo Zhu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15692v1

摘要： 穿越立足点稀疏的危险地形对腿式机器人来说是巨大的挑战，需要将脚精确地放置在安全区域。当前基于学习的方法通常依赖于隐式特征表示，而不监督物理上重要的估计目标。这限制了策略充分理解复杂地形结构的能力，而这对于生成准确的行动至关重要。在本文中，我们利用端到端强化学习来遍历具有高稀疏性和随机性的危险地形。我们的方法将本体感觉与单视图深度图像相结合来重建机器人的局部地形，从而能够更全面地表示地形信息。同时，通过结合对机器人状态及其周围环境的隐式和显式估计，我们提高了策略对环境的理解，从而导致更精确的行动。我们将所提出的框架部署在低成本四足机器人上，实现了跨越各种具有挑战性的地形的敏捷和自适应运动，并在现实场景中展示了出色的性能。视频位于：http://youtu.be/ReQAR4D6tuc。

通过基于人工干预的强化学习实现机器人消化内窥镜的安全导航

分类： 机器人技术, 人工智能

作者： Min Tan, Yushun Tao, Boyun Zheng, GaoSheng Xie, Lijuan Feng, Zeyang Xia, Jing Xiong

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15688v1

摘要： 随着自动化机器人消化内窥镜（RDE）的应用不断增加，确保在非结构化且狭窄的消化道中安全高效地导航已成为一项关键挑战。现有的自动化强化学习导航算法，由于缺乏必要的人为干预，常常会导致潜在的危险碰撞，这极大地限制了 RDE 在实际临床实践中的安全性和有效性。为了解决这一限制，我们提出了一种基于人工干预（HI）的近端策略优化（PPO）框架，称为 HI-PPO，它结合了专家知识来增强 RDE 的安全性。具体来说，我们引入了增强勘探机制（EEM）来解决标准 PPO 勘探效率低的问题。此外，还实施奖惩调整（RPA）来惩罚初始干预期间的不安全行为。此外，行为克隆相似性（BCS）作为辅助目标被包含在内，以确保代理模仿专家的行为。在模拟平台上跨不同解剖结肠段进行的比较实验表明，我们的模型有效且安全地引导 RDE。

SYNERGAI：人机协作的感知对齐

分类： 机器人技术

作者： Yixin Chen, Guoxi Zhang, Yaowei Zhang, Hongming Xu, Peiyuan Zhi, Qing Li, Siyuan Huang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15684v1

摘要： 最近，大型语言模型（LLM）在促进人机交互和协作方面显示出强大的潜力。然而，现有的基于大语言模型的系统经常忽视人类和机器人感知之间的不一致，这阻碍了它们的有效通信和现实世界的机器人部署。为了解决这个问题，我们引入了 SYNERGAI，这是一个旨在实现感知对齐和人机协作的统一系统。 SYNERGAI 的核心采用 3D 场景图 (3DSG) 作为其显式和固有的表示。这使得系统能够利用 LLM 分解复杂的任务，并在中间步骤中分配适当的工具，以从 3DSG 中提取相关信息、修改其结构或生成响应。重要的是，SYNERGAI 采用了一种自动机制，可以通过在线交互更新其 3DSG 来纠正用户的感知偏差。 SYNERGAI 以零样本方式实现了与 ScanQA 中数据驱动模型相当的性能。通过对 10 个真实场景的综合实验，SYNERGAI 展示了其与人类建立共同点的有效性，实现了 61.9% 的对齐任务成功率。通过迁移对齐过程中获得的知识，它还可以将新任务的成功率从 3.7% 显着提高到 45.68%。

通过语义分割和几何分析进行自主远足路线导航

分类： 机器人技术, 计算机视觉和模式识别, 图像和视频处理

作者： Camndon Reed, Christopher Tatsch, Jason N. Gross, Yu Gu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15671v1

摘要： 自然环境对自主机器人导航提出了重大挑战，特别是由于其非结构化和不断变化的性质。徒步旅行的动态条件受天气、植被和人流的影响，就是这样的挑战之一。这项工作引入了一种新颖的自主远足路线导航方法，该方法可以平衡路线的遵循性和必要时适应越野路线的灵活性。该解决方案是一个可通行性分析模块，它将相机图像的语义数据与激光雷达的几何信息集成在一起，以全面了解周围的地形。规划者使用此可通行性地图来安全导航，遵循路线，同时在必要时允许偏离路线移动，以避免路线上的危险或安全的偏离路线的捷径。通过仿真对该方法进行评估，以确定可通性估计中语义信息和几何信息之间的平衡。这些模拟测试了各种权重，以评估它们对不同路径场景中导航性能的影响。然后通过西弗吉尼亚大学核心植物园的现场测试验证了权重，证明了该方法在现实环境中的有效性。

ReLEP：现实世界长期具体规划的新颖框架

分类： 机器人技术, 人工智能

作者： Siyuan Liu, Jiawei Du, Sicheng Xiang, Zibo Wang, Dingsheng Luo

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15658v1

摘要： 现实世界的长期具体规划支撑着具体人工智能。为了完成长期任务，智能体需要将抽象指令分解为详细的步骤。先前的工作主要依赖 GPT-4V 将任务分解为预定义的操作，由于 GPT-4V 对较大技能组的理解有限，这限制了任务的多样性。因此，我们提出了 ReLEP，这是现实世界长期具体规划的突破性框架，它可以完成广泛的日常任务。其核心是一个经过微调的大视觉语言模型，该模型根据输入指令和场景图像将计划制定为技能函数序列。这些功能选自精心设计的技能库。 ReLEP 还配备了用于计划和状态调用的内存模块，以及用于跨机器人类型的多功能性的机器人配置模块。此外，我们提出了一种半自动数据生成管道来解决数据集稀缺问题。八项日常具体任务的现实离线实验表明，ReLEP 能够完成长期具体任务，并且优于其他最先进的基线方法。

SurgIRL：通过增量强化学习实现手术自动化的终身学习

分类： 机器人技术, 机器学习

作者： Yun-Jie Ho, Zih-Yun Chiu, Yuheng Zhi, Michael C. Yip

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15651v1

摘要： 手术自动化在改善手术效果和可及性方面具有巨大潜力。最近的研究使用强化学习来学习自动化不同手术任务的策略。然而，这些策略是独立开发的，当任务发生变化时，其可重用性受到限制，使得机器人学习解决多个任务时更加耗时。受到人类外科医生如何建立专业知识的启发，我们通过手术增量强化学习 (SurgIRL) 来训练手术自动化策略。 SurgIRL 的目标是（1）通过参考外部政策（知识）获取新技能，以及（2）积累和重用这些技能以逐步解决多个未见过的任务（增量学习）。我们的 SurgIRL 框架包括三个主要组件。我们首先定义一个可扩展的知识集，其中包含有助于外科任务的异构策略。然后，我们提出了具有最大覆盖探索的知识包容性注意网络（KIAN-ACE），它通过在探索过程中最大化知识集的覆盖来提高学习效率。最后，我们开发基于 KIAN-ACE 的增量学习管道，以积累和重用学到的知识并依次解决多个手术任务。我们的模拟实验表明，KIAN-ACE 能够有效地学习单独或增量地自动执行 10 项手术任务。我们还评估了达芬奇研究套件 (dVRK) 上学到的策略，并展示了成功的模拟到真实的传输。

使用具有参数偏差的深度预测模型考虑可变刚度和材料变化的动态布料操纵

分类： 机器人技术

作者： Kento Kawaharazuka, Akihiro Miki, Masahiro Bando, Kei Okada, Masayuki Inaba

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15635v1

摘要： 难以建模的柔性物体（例如织物）的动态操纵是机器人技术的主要挑战之一。随着深度学习的发展，我们开始在模拟和一些实际机器人中看到结果，但仍有许多问题尚未解决。人类可以熟练地利用灵活的身体高速移动手臂，即使要操纵的物质发生变化，也可以在移动几次并了解其特性后操纵该物质。因此，在本研究中，我们重点关注以下两点：（1）使用可变刚度机制进行车身控制以实现更动态的操纵，以及（2）使用参数偏差响应被操纵物体材料的变化。通过将这两种方法整合到深度预测模型中，我们通过模拟和实际机器人实验表明，Musashi-W（一种具有可变刚度机制的肌肉骨骼人形机器人）可以动态操纵布料，同时检测被操纵物体物理特性的变化。

NavRL：学习动态环境中的安全飞行

分类： 机器人技术

作者： Zhefan Xu, Xinming Han, Haoyu Shen, Hanyu Jin, Kenji Shimada

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15634v1

摘要： 动态环境中的安全飞行需要自主无人机 (UAV) 在穿过有移动障碍物的杂乱空间时做出有效决策。传统方法通常将决策分解为用于预测和规划的分层模块。尽管这些手工制作的系统在特定设置下可以表现良好，但如果环境条件发生变化，它们可能会失败，并且通常需要仔细调整参数。此外，由于使用了不准确的数学模型假设和旨在实现计算效率的简化，他们的解决方案可能不是最优的。为了克服这些限制，本文引入了 NavRL 框架，这是一种基于近端策略优化（PPO）算法的基于深度强化学习的导航方法。 NavRL 利用我们精心设计的状态和动作表示，允许学习的策略在存在静态和动态障碍的情况下做出安全决策，并实现从模拟到现实世界飞行的零射击转移。此外，受速度障碍概念的启发，所提出的方法对训练策略采用了简单但有效的安全防护罩，以减轻与神经网络黑盒性质相关的潜在故障。为了加速收敛，我们使用 NVIDIA Isaac Sim 实施训练管道，从而实现数千个四轴飞行器的并行训练。仿真和物理实验表明，与动态障碍物场景中的基准相比，我们的方法可确保动态环境中的安全导航，并产生最少的碰撞。

动态环境中无人机规划和导航的意图预测驱动模型预测控制

分类： 机器人技术

作者： Zhefan Xu, Hanyu Jin, Xinming Han, Haoyu Shen, Kenji Shimada

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15633v1

摘要： 室内空中机器人的出现通过自主执行检查和测绘任务，在提高建筑工地工人的生产力方面具有巨大的潜力。该应用的主要挑战是确保人类工作人员的导航安全。虽然静态环境中的导航已被广泛研究，但由于感知和规划方面的挑战，动态环境中的导航仍然是开放的。无人机的有效载荷限制限制了它们使用视野有限的摄像头，导致在避碰过程中感知和跟踪不可靠。此外，动态环境的不可预测性很快就会使生成的最佳轨迹过时。为了应对这些挑战，本文提出了一个结合感知和规划的综合导航框架，引入了动态障碍物意图预测的概念。我们的感知模块可以有效地检测和跟踪动态障碍物，并在避免碰撞过程中处理跟踪丢失和遮挡问题。所提出的意图预测模块采用马尔可夫决策过程（MDP）来预测动态障碍物的潜在行为以及未来可能的轨迹。最后，应用一种新颖的基于意图的规划算法，利用模型预测控制（MPC）来生成安全的导航轨迹。模拟和物理实验表明，与基准相比，我们的方法可以在动态环境中安全导航，并实现最少的碰撞。

具有人类有限理性的车行人交互动态博弈论决策框架

分类： 机器人技术

作者： Meiting Dang, Dezong Zhao, Yafei Wang, Chongfeng Wei

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15629v1

摘要： 由于人类行为的复杂性和不确定性，人类参与的交互环境给自动驾驶汽车决策过程带来了重大挑战。为自动驾驶汽车与行人互动开发一个可解释且值得信赖的决策系统至关重要。先前的研究经常使用传统的博弈论来描述交互，因为其可解释性。然而，它假设人类具有完全的理性和无限的推理能力，这是不现实的。为了解决这一局限性并提高模型精度，本文提出了一种新颖的框架，将部分可观察的马尔可夫决策过程与行为博弈论相结合，以动态模拟无信号交叉口的自动驾驶汽车与行人的交互。考虑到决策过程中人类推理的局限性和有限理性，自动驾驶汽车和行人都被建模为动态信念诱导的量子认知层次（DB-QCH）模型。此外，动态信念更新机制允许自动驾驶根据观察到的行为实时更新对对手理性程度的理解，并相应地调整其策略。分析结果表明，我们的模型有效地模拟了车辆与行人的交互，并且我们提出的自动驾驶决策方法在安全性、效率和平稳性方面表现良好。与我们之前的虚拟现实实验数据相比，它非常类似于现实世界的驾驶行为，甚至实现了更舒适的驾驶导航。

ModCube：模块化、自组装立方体水下机器人

分类： 机器人技术

作者： Jiaxi Zheng, Guangmin Dai, Botao He, Zhaoyang Mu, Zhaochen Meng, Tianyi Zhang, Weiming Zhi, Dixia Fan

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15627v1

摘要： 本文提出了一种低成本、集中式模块化水下机器人平台 ModCube，可用于研究水下环境中各种任务的群体协调。 ModCube 结构由多个 ModCube 机器人组成。每个机器人都可以通过八个推进器在六个自由度内移动，并且可以通过机载计算机控制的电磁铁与其他 ModCube 机器人刚性连接。在本文中，我们提出了一种表征和可视化动态行为的新方法，以及评估机器人形态性能的四个基准。分析表明，与商业水下机器人广泛使用的配置相比，我们的 ModCube 设计非常适合全向任务。我们在两个水箱中进行了真实的机器人实验，以证明所提出的系统的鲁棒控制和自组装能力，我们还开源了设计和代码以方便未来的研究。

KISS-Matcher：重新审视快速、稳健的点云注册

分类： 计算机视觉和模式识别, 机器人技术

作者： Hyungtae Lim, Daebeom Kim, Gunhee Shin, Jingnan Shi, Ignacio Vizzo, Hyun Myung, Jaesik Park, and Luca Carlone

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15615v1

摘要： 虽然全球点云配准系统在各个方面都取得了显着进步，但许多研究都集中在特定组件上，例如特征提取、图论剪枝或位姿求解器。在本文中，我们从整体角度看待配准问题，并开发了一个用于点云配准的开源多功能 C++ 库，称为 \textit{KISS-Matcher}。 KISS-Matcher 结合了一种新颖的特征检测器 \textit{Faster-PFH}，它改进了经典的快速点特征直方图（FPFH）。此外，它采用基于$k$核的图论剪枝来降低拒绝异常值对应的时间复杂度。最后，它将这些模块组合成一个完整的、用户友好的、即用型的管道。经过大量实验验证，KISS-Matcher 具有卓越的可扩展性和广泛的适用性，与最先进的异常值鲁棒配准管道相比，在保持准确性的同时实现了大幅加速。我们的代码将在 \href{https://github.com/MIT-SPARK/KISS-Matcher}{\texttt{https://github.com/MIT-SPARK/KISS-Matcher}} 提供。

基于全阶采样的 MPC，通过扩散式退火实现扭矩级运动控制

分类： 机器人技术

作者： Haoru Xue, Chaoyi Pan, Zeji Yi, Guannan Qu, Guanya Shi

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15610v1

摘要： 由于高维和非凸性，使用全阶动力学模型对腿式机器人进行实时最优控制具有挑战性。因此，非线性模型预测控制（NMPC）方法通常仅限于降阶模型。基于采样的 MPC 在非凸甚至不连续问题中表现出了潜力，但通常会产生具有高方差的次优解，这限制了其在高维运动中的应用。这项工作介绍了 DIAL-MPC（Diffusion-Inspired Annealing for Legged MPC），这是一种基于采样的 MPC 框架，具有新颖的扩散式退火过程。这种退火过程得到了模型预测路径积分控制（MPPI）的理论景观分析以及 MPPI 和单步扩散之间的联系的支持。在算法上，DIAL-MPC在线迭代完善解决方案，实现全球覆盖和本地融合。在四足扭矩级控制任务中，DIAL-MPC 将标准 MPPI 的跟踪误差降低了 13.4 美元，在无需任何训练的挑战性攀爬任务中，其性能比强化学习 (RL) 策略高出 50%$。特别是，DIAL-MPC 可以实现现实世界中精确的带有效负载的四足跳跃。据我们所知，DIAL-MPC 是第一个无需训练即可实时优化全阶四足动物动力学的方法。

MapEx：利用全球地图预测的概率信息增益进行室内结构探索

分类： 机器人技术, 计算机视觉和模式识别

作者： Cherie Ho, Seungchan Kim, Brady Moon, Aditya Parandekar, Narek Harutyunyan, Chen Wang, Katia Sycara, Graeme Best, Sebastian Scherer

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15590v1

摘要： 探索是机器人技术的一项关键挑战，其核心是了解未知环境。在这项工作中，我们专注于探索结构化室内环境的机器人，这些环境通常是可预测的并且由重复模式组成。大多数现有方法，例如传统的前沿方法，难以利用可预测性并利用简单的启发式方法（例如“最接近的优先”）进行探索。最近的工作使用深度学习技术来预测地图的未知区域，并使用这些预测进行信息增益计算。然而，这些方法通常对预测的地图质量敏感，或者不会对传感器覆盖范围进行推理。为了克服这些问题，我们的关键见解是联合推理机器人可以观察到的内容及其不确定性，以计算概率信息增益。我们介绍了 MapEx，这是一种新的探索框架，它使用预测地图来形成用于信息增益估计的概率传感器模型。 MapEx 根据观察到的信息生成多个预测地图，并考虑预测地图的计算方差和估计的可见区域来估计给定视点的信息增益。对现实世界 KTH 数据集的实验表明，比基于代表性地图预测的探索平均提高 12.4%，比最近前沿方法平均提高 25.4%。

超越人形假手：提高用户性能的模块化终端设备

分类： 机器人技术

作者： Digby Chappell, Barry Mulvey, Shehara Perera, Fernando Bello, Petar Kormushev, Nicolas Rojas

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15589v1

摘要： 尽管经过数十年的研究和开发，肌电假手仍缺乏功能，经常被用户拒绝。这种功能上的缺乏可以归因于该领域广泛接受的拟人化设计思想；尽管控制和传感技术受到严重限制，但仍试图复制人手的形状和功能。相反，通过摆脱拟人化的限制，可以定制假手来执行特定任务，而不会增加复杂性。在本文中，我们开发和评估了四种开源模块化非人形设备，以执行复制人类轻弹运动和扭转螺丝刀所需的运动，以及拾取和放置平面物体和剪纸所需的功能。这些设备的实验结果表明，与人形假肢相比，非人形假肢设计极大地提高了任务性能，减少了用户补偿性运动，并减少了任务负荷。两个最终用户的案例研究证明了这项研究的转化效益。我们发现应特别注意监测最终用户的任务负荷，以确保积极的康复结果。

XMoP：零样本跨实体神经运动规划的全身控制策略

分类： 机器人技术

作者： Prabin Kumar Rath, Nakul Gopalan

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15585v1

摘要： 经典机械手运动规划器适用于不同的机器人实施例。然而，他们计划预先指定的静态环境表示，并且不能扩展到看不见的动态环境。神经运动规划器 (NMP) 是传统规划器的一个有吸引力的替代方案，因为它们结合了不同的环境约束，可以直接从原始传感器观察中学习运动策略。当代最先进的 NMP 可以成功地跨不同环境进行规划。然而，现有的 NMP 都不能概括机器人实施例。在本文中，我们提出了跨实体运动策略（XMoP），这是一种用于学习规划操纵器分布的神经策略。 XMoP 隐式学习满足机器人分布的运动学约束，并且 $\textit{zero-shot}$ 将规划行为转移到该分布内看不见的机器人操纵器。我们通过制定全身控制策略来实现这种概括，该策略经过在不同模拟环境中超过三百万个程序采样的机器人操纵器的规划演示的训练。尽管经过了综合实施例和环境的完全训练，我们的策略在具有不同运动变化和自由度的机械臂上表现出强大的模拟到真实的概括性，并且具有一组冻结的策略参数。我们在 7 美元的商业机械臂上评估 XMoP，并展示了成功的跨实施例运动规划，在基线基准上实现了平均 70%$ 的成功率。此外，我们在两个看不见的操纵器上演示了我们的政策模拟，即使存在动态障碍，也能解决三个现实世界领域的新规划问题。

使用 RGB 或事件相机混合数据驱动和几何模型进行卫星对接端口状态估计

分类： 机器人技术, 计算机视觉和模式识别

作者： Cedric Le Gentil, Jack Naylor, Nuwan Munasinghe, Jasprabhjit Mehami, Benny Dai, Mikhail Asavkin, Donald G. Dansereau, Teresa Vidal-Calleja

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15581v1

摘要： 在轨自动化服务是降低卫星运行成本和减少轨道碎片数量的一条有前途的途径。为此，我们提出了一种使用来自标准 RGB 传感或事件相机的单目视觉数据进行自动卫星对接端口检测和状态估计的管道。事件相机不是拍摄环境快照，而是具有独立的像素，可以异步响应光线变化，具有高动态范围、低功耗和延迟等优点。这项工作重点关注与卫星无关的操作（仅涉及几何知识）使用最近发布的洛克希德马丁任务增强端口（LM-MAP）作为目标。通过利用浅层数据驱动技术对传入数据进行预处理，以突出 LM-MAP 的反射导航辅助设备，然后使用基本几何模型进行状态估计，我们提出了一种轻量级且数据高效的管道，可以与 RGB 或事件独立使用相机。我们展示了管道的健全性，并根据光度精确测试台收集的数据对两种模式进行定量比较，该测试台包括一个机械臂来模拟目标卫星的不受控制的运动。

检查多模式反馈与假手连续控制相结合的生理和心理影响

分类： 机器人技术

作者： Digby Chappell, Zeyu Yang, Angus B. Clark, Alexandre Berkovic, Colin Laganier, Weston Baxter, Fernando Bello, Petar Kormushev, Nicolas Rojas

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15578v1

摘要： 肌电假手通常被控制在离散位置之间移动，并且不向用户提供感官反馈。在这项工作中，我们提出并评估了一种闭环、连续肌电假手控制器，它可以连续控制假肢的多个自由度的位置，同时通过触觉反馈臂带向用户提供本体感觉反馈。招募了 28 名没有肢体差异的参与者和 10 名有肢体差异的参与者，通过隔离控制和感觉任务、灵活性评估、体现和任务负荷问卷以及研究后访谈来全面评估控制器的身体和心理影响。本体感觉反馈和连续控制的结合实现了精确定位（平均绝对电机位置误差在 10% 以内）和抓力调制（平均绝对电机力误差在 20% 以内），并恢复了开环离散控制器的蒙眼物体识别能力水平。敏捷性评估和体现问卷结果显示，控制类型之间没有显着的身体表现或心理体现差异，但感知感觉除外，闭环控制器的感知感觉显着较高（p < 0.001）。确定了有上肢差异和没有上肢差异的参与者之间的主要差异，包括感知身体完整性和挫败感，这可以为未来的假肢开发和康复提供信息。

利用机器教学提升新手机器人教学技能

分类： 机器人技术

作者： Yuqing Zhu, Endong Sun, Matthew Howard

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15563v1

摘要： 最近的证据表明，与预期相反，用户，尤其是新手，很难通过 LfD 教机器人执行任务。本文介绍了一种利用 MT 算法来训练新手成为更好的机器人老师的框架，并验证这种教学能力是否在训练结束后仍保留并进行推广，以便新手更有效地教授机器人，即使是对于未经过训练的技能已收到。据报道，一项科目间研究要求新手教师向机器人教授简单的运动技能。结果表明，接受培训的受试者的教学能力平均提高了 78.83%（以机器人所学技能的准确性来衡量），未包含在培训中的新技能的教学平均提高了 63.69%。

使用扩散模型和运动学约束梯度引导学习多种机器人打击运动

分类： 机器人技术, 机器学习

作者： Kin Man Lee, Sean Ye, Qingyu Xiao, Zixuan Wu, Zulfiqar Zaidi, David B. D'Ambrosio, Pannag R. Sanketi, Matthew Gombolay

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15528v1

摘要： 机器人学习的进步使机器人能够产生执行各种任务的技能。然而，机器人学习通常样本效率低下，难以从表现出不同行为的数据源中学习，并且自然不包含约束。这些特性对于快速、敏捷的任务（例如打乒乓球）至关重要。从演示中学习的现代技术可以提高样本效率并扩大到不同数据的规模，但很少在敏捷任务上进行评估。在强化学习的情况下，获得良好的性能需要在高保真模拟器上进行训练。为了克服这些限制，我们开发了一种新颖的扩散建模方法，该方法是离线的、约束引导的并且能够表达不同的敏捷行为。我们方法的关键是运动学约束梯度引导（KCGG）技术，该技术通过机器人手臂的正向运动学和扩散模型计算梯度以指导采样过程。 KCGG 最大限度地减少了违反约束的成本，同时保持采样轨迹符合训练数据的分布。我们通过在两个具有挑战性的领域（模拟空气曲棍球和真实乒乓球）中评估 KCGG，展示了我们的方法对于时间关键的机器人任务的有效性。在模拟空气曲棍球中，与模仿学习基线相比，我们的拦网率提高了 25.4%，而在乒乓球中，我们的成功率提高了 17.3%。

匹配策略：从点云注册到操作策略的简单管道

分类： 机器人技术, 计算机视觉和模式识别

作者： Haojie Huang, Haotian Liu, Dian Wang, Robin Walters, Robert Platt

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15517v1

摘要： 许多操作任务需要机器人重新排列物体之间的相对位置。此类任务可以描述为一组刚体各部分之间的一系列相对姿势。在这项工作中，我们提出了 MATCH POLICY，这是一种简单但新颖的管道，用于解决高精度拾放任务。我们的方法不是直接预测动作，而是将拾取和放置目标注册到存储的演示中。这将动作推理转移到点云注册任务中，使我们能够在没有任何训练的情况下实现非平凡的操纵策略。 MATCH POLICY 旨在通过关键帧设置解决高精度任务。通过利用任务的几何相互作用和对称性，它实现了极高的样本效率和对未见过的配置的概括性。我们在 RLBench 基准测试中与几个强大的基准进行比较，展示了其在各种任务中的最先进的性能，并在具有六项任务的真实机器人上对其进行了测试。

通过使用感知动作 API 提示大型语言模型来发现对象属性

分类： 机器人技术

作者： Angelos Mavrogiannis, Dehao Yuan, Yiannis Aloimonos

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15505v1

摘要： 人们对通过视觉上下文将自然语言与物理实体建立联系产生了很大的兴趣。虽然视觉语言模型 (VLM) 可以将语言指令转化为视觉感官信息，但它们很难将非视觉属性（例如物体的重量）转化为基础。我们的主要见解是，通过视觉推理引导的主动感知可以有效地实现非视觉属性检测。为此，我们提出了一种感知-动作编程 API，它由 VLM 和大型语言模型 (LLM) 作为主干，以及一组机器人控制功能。当使用此 API 和自然语言查询提示时，大语言模型会生成一个程序来主动识别给定输入图像的属性。 Odd-One-Out 数据集的离线测试表明，我们的框架在检测相对对象位置、大小和重量等属性方面优于普通 VLM。 AI2-THOR 上真实家庭场景的在线测试以及 DJI RoboMaster EP 机器人上的真实机器人演示凸显了我们方法的有效性。

移动机器人对大规模室内环境的自主探索和语义更新

分类： 机器人技术, 计算机视觉和模式识别

作者： Sai Haneesh Allu, Itay Kadosh, Tyler Summers, Yu Xiang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15493v1

摘要： 我们引入了一种新的机器人系统，使移动机器人能够自主探索未知环境，构建环境的语义图，并随后更新语义图以反映环境变化，例如物体的位置变化。我们的系统利用 LiDAR 扫描仪进行 2D 占用网格映射，并利用 RGB-D 相机进行物体感知。我们引入了一种语义图表示，它将用于几何的 2D 占用网格图与用于对象语义的拓扑图相结合。这种地图表示使我们能够通过在拓扑图中删除或添加节点来有效地更新语义。我们的系统已经在 Fetch 机器人上进行了测试。该机器人可以对 93m x 90m 的地板进行语义映射，并在物体在环境中移动时更新语义映射。

AgriNeRF：具有挑战性的照明条件下农业的神经辐射场

分类： 机器人技术

作者： Samarth Chopra, Fernando Cladera, Varun Murali, Vijay Kumar

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15487v1

摘要： 神经辐射场 (NeRF) 在 3D 场景重建和新颖的视图合成方面显示出了巨大的前景。在农业环境中，NeRF 可以充当数字孪生，为农民提供有关水果检测、产量估算和其他重要指标的关键信息。然而，传统的 NeRF 对于具有挑战性的照明条件并不稳健，例如低光、极亮光和变化的照明。为了解决这些问题，这项工作利用了三种不同的传感器：RGB 相机、事件相机和热感相机。我们的 RGB 场景重建显示 PSNR 和 SSIM 分别提高了 +2.06 dB 和 +8.3%。我们的跨光谱场景重建将下游水果检测在 mAP50 中增强了 43.0%，在 mAP50-95 中增强了 61.1%。附加传感器的集成使 NeRF 更加强大且信息丰富。我们证明，我们的多模态系统可以在不同的树冠覆盖下和一天中的不同时间产生高质量的逼真重建。这项工作开发了一种有弹性的 NeRF，能够在明显退化的场景中表现良好，以及学习的跨光谱表示，用于自动水果检测。

采用 Segment Anything 模型进行不可见的对象实例分割

分类： 机器人技术, 计算机视觉和模式识别

作者： Rui Cao, Chuanxin Song, Biqi Yang, Jiangliu Wang, Pheng-Ann Heng, Yun-Hui Liu

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15481v1

摘要： 看不见的对象实例分割（UOIS）对于在非结构化环境中运行的自主机器人至关重要。以前的方法需要对大规模桌面数据集进行全面监督才能进行有效的预训练。在本文中，我们提出了 UOIS-SAM，这是一种针对 UOIS 任务的数据高效解决方案，利用 SAM 的高精度和强大的泛化能力。 UOIS-SAM 集成了两个关键组件：(i) 基于热图的提示生成器 (HPG)，用于生成具有精确前景预测的类不可知点提示；(ii) 分层判别网络 (HDNet)，用于适应 SAM 的掩模解码器，从而缓解SAM 基线引入的问题，例如背景混乱和过度分割，特别是在涉及遮挡和纹理丰富的对象的场景中。对 OCID、OSD 以及其他光度测量挑战性数据集（包括 PhoCAL 和 HouseCat6D）的大量实验结果表明，与之前的方法相比，即使仅使用 10% 的训练样本，UOIS-SAM 也能在看不见的物体中实现最先进的性能分割，突出其在各种桌面场景中的有效性和鲁棒性。

UUV 稳健定位和网围栏测绘框架

分类： 机器人技术

作者： David Botta, Luca Ebner, Andrej Studer, Victor Reijgwart, Roland Siegwart, Eleni Kelasidi

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15475v1

摘要： 本文提出了一个集成视觉和声学传感器数据的通用框架，以增强高度动态和复杂的水下环境中的定位和绘图，特别关注鱼类养殖。所提出的管道适用于获得无人水下航行器（UUV）的网络相对位姿估计和纯粹基于视觉数据的网笔深度图。此外，本文提出了一种将网络相对位姿估计与声学数据融合起来估计 UUV 全局位姿的方法。本文提出的流程展示了从工业规模养鱼场获得的数据集的结果，并成功证明基于视觉的 TRU-Depth 模型在提供 FFT 方法的稀疏深度先验并与 Wavemap 方法相结合时，可以估计实时获取 UUV 的网络相对位置和全球位置，并生成适合自主导航和检查目的的详细 3D 地图。

在野外用双手非抓取操作拾取不可抓取的物体

分类： 机器人技术

作者： Albert Wu, Dan Kruse

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15465v1

摘要： 在现实世界中挑选不同的物体是一项基本的机器人技能。然而，此类环境中的许多物体体积庞大、笨重或形状不规则，导致传统末端执行器（例如吸力夹具和平行颚式夹具 (PJG)）无法抓取它们。在本文中，我们使用双手非抓取操作扩展了可拾取项目的范围，而无需修改硬件。我们专注于杂货购物场景，其中配备吸力夹具和 PJG 的双手移动机械手的任务是从紧凑的杂货货架上检索无法抓取的物品。从视觉观察中，我们的方法首先根据力闭合和摩擦约束确定最佳抓握点。如果抓握点被遮挡，则会执行一系列非抓握的轻推动作以清除障碍物。然后利用末端执行器侧面的接触执行双手抓取以抓取目标物品。在我们的复制品杂货店中，我们在整洁场景中进行了 102 次试验，取得了 90% 的成功率；在杂乱场景中进行了 45 次试验，取得了 67% 的成功率。我们还将我们的系统部署到现实世界的杂货店，并成功挑选了以前未见过的物品。我们的结果凸显了双手非抓取操作在野外机器人采摘任务中的潜力。总结这项工作的视频可以在 youtu.be/g0hOrDuK8jM 上找到

迈向具有双虚拟空间的预测性扩展现实远程操作系统

分类： 机器人技术, 人机交互

作者： Ziliang Zhang, Cong Liu, Hyoseung Kim

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15464v1

摘要： 与传统的 2D 控制相比，扩展现实 (XR) 为远程操作机器人提供了更直观的交互方法。最近的研究为 XR 的可用远程操作奠定了基础，但由于用户运动和代理反馈之间存在较大延迟，它无法完成需要快速运动和精确操作的任务。在这项工作中，我们分析了最先进的 XR 远程操作系统中的端到端延迟，并提出了通过实施双虚拟空间设计以及本地化用户中的代理和对象来优化延迟的想法侧虚拟空间，同时使用来自代理侧虚拟空间的周期性地面实况姿势进行校准。

标签地图：基于文本的地图，用于大型语言模型的空间推理和导航

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Mike Zhang, Kaixian Qu, Vaishakh Patil, Cesar Cadena, Marco Hutter

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15451v1

摘要： 大型语言模型 (LLM) 已成为机器人使用常识推理生成任务计划的工具。为了让大语言模型生成可行的计划，必须提供场景背景（通常通过地图）。最近的工作已经从具有固定语义类的显式映射转向基于能够表示任何语义类的可查询嵌入的隐式开放词汇图。然而，嵌入不能直接报告场景上下文，因为它们是隐式的，需要进一步处理以进行 LLM 集成。为了解决这个问题，我们提出了一种基于文本的显式映射，它可以表示数千个语义类别，同时通过建立大规模图像识别模型，由于其基于文本的性质，可以轻松地与大语言模型集成。我们研究了如何本地化地图中的实体，并通过评估表明我们基于文本的地图本地化的性能与开放词汇地图的定位相当，同时使用的内存少了两到四个数量级。真实的机器人实验展示了大语言模型使用基于文本的地图来解决用户任务的基础。

ZeroSCD：零镜头街道场景变化检测

分类： 机器人技术, 计算机视觉和模式识别

作者： Shyam Sundar Kannan, Byung-Cheol Min

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15255v1

摘要： 场景变化检测是计算机视觉和机器人技术中的一项具有挑战性的任务，旨在识别在不同时间捕获的同一场景的两个图像之间的差异。传统的变化检测方法依赖于训练模型，将这些图像对作为输入并估计变化，这需要大量的注释数据，这是一个昂贵且耗时的过程。为了克服这个问题，我们提出了 ZeroSCD，一种零镜头场景变化检测框架，无需训练。 ZeroSCD 利用预先存在的模型进行地点识别和语义分割，利用其特征和输出来执行变化检测。在此框架中，从地点识别模型中提取的特征用于估计对应关系并检测两个图像之间的变化。然后将它们与语义分割模型的分割结果相结合，以精确地描绘检测到的变化的边界。对基准数据集的大量实验表明，尽管没有在任何基准数据集上进行训练，ZeroSCD 在变化检测准确性方面优于几种最先进的方法，证明了其在不同场景下的有效性和适应性。

研究用于施工监控的机器狗：规格与现场要求的比较分析

分类： 机器人技术, 硬件架构, 计算机视觉和模式识别

作者： Miguel Arturo Vega Torres, Fabian Pfitzner

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15253v1

摘要： 机器狗在各个研究领域受到越来越多的关注。然而，调查其在建筑工地潜在可用性的研究数量很少。建筑行业涉及多项人力资源需求较高的任务，例如安全监控、材料运输和现场检查。机器狗可以通过提供自动化支持和减少人工来解决其中一些挑战。在本文中，我们研究了当前可用的机器狗在建筑工地上的潜在可用性，重点关注它们的不同规格和现场要求以支持数据采集。此外，我们还使用四足机器人在大型建筑工地进行了真实实验。总之，我们认为机器狗是未来监控复杂建筑环境的宝贵资产，特别是随着技术进步减轻了它们的局限性。

ReVLA：恢复机器人基础模型的视觉域限制

分类： 计算机视觉和模式识别, 机器人技术

作者： Sombit Dey, Jan-Nico Zaech, Nikolay Nikolov, Luc Van Gool, Danda Pani Paudel

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15250v1

摘要： 大型语言模型和大规模机器人数据集的最新进展引发了机器人模型的范式转变，将它们转变为能够适应各种任务、场景和机器人模式的通才。开放的视觉语言动作模型是社区迈出的一大步，它在各种任务中展示了强大的性能。在这项工作中，我们研究了三种现有机器人基础模型的视觉泛化能力，并提出了相应的评估框架。我们的研究表明，现有模型对视觉域外场景没有表现出鲁棒性。这可能是由训练数据的有限变化和/或灾难性遗忘引起的，导致视觉基础模型的领域限制。我们进一步探索 OpenVLA，它使用两个预先训练的视觉基础模型，因此有望推广到域外实验。然而，我们通过未能完成深度回归任务来展示 OpenVLA 中 DINO-v2 的灾难性遗忘。为了克服上述视觉灾难性遗忘问题，我们提出了一种基于模型合并的渐进主干反转方法。这使得 OpenVLA 需要在初始训练期间适应视觉主干——以重新获得其视觉泛化能力。重新获得这种能力使我们的 ReVLA 模型在视觉 OOD 任务中的抓取和提升方面比 OpenVLA 提高了 77% 和 66%。

TacPalm：带有仿生光学触觉手掌的软抓手，可实现稳定、精确的抓取

分类： 机器人技术

作者： Xuyang Zhang, Tianqi Yang, Dandan Zhang, Nathan F. Lepora

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15239v1

摘要： 在家庭和工厂等环境中操作易碎物体需要稳定、轻柔的抓握以及精确、安全的放置。与传统的刚性抓手相比，软抓手的使用降低了控制复杂性和损坏物体的风险。然而，将基于摄像头的光学触觉传感集成到软抓手中而不影响手指的灵活性和适应性，同时还要确保触觉感知的精度在物体接触过程中不受软结构被动变形的影响是具有挑战性的。在本文中，我们展示了一种模块化软两指夹持器，其手掌中集成了 3D 打印光学触觉传感器（TacTip）。我们提出了一种软抓取策略，包括轻接触检测、抓取姿势调整和失去接触检测三个功能，从而可以稳定地抓取不同形状和大小的物体并精确放置，我们用人工和人工测试来测试这一点。家居用品。通过依次实现这三个功能，抓取成功率从无任何功能的 45% 逐步提高到轻接触检测的 59%、抓取姿势调整的 90%、失去接触检测的 97%，实现了亚毫米贴装精度。总的来说，这项工作证明了将光学触觉传感器集成到软抓手手掌中的可行性和实用性，适用于各种类型的软机械手。所提出的抓取策略在易碎产品加工和家庭援助等领域具有潜在的应用前景。

低雷诺数和高雷诺数游泳的软连续体机器人的几何设计和步态协同优化

分类： 机器人技术

作者： Yanhao Yang, Ross L. Hatton

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15220v1

摘要： 软执行器的最新进展使软连续游泳机器人能够实现更高的效率并更接近地模仿真实海洋动物的行为。然而，优化这些软连续体机器人的设计和控制仍然是一个重大挑战。在本文中，我们从几何运动分析的角度提出了一个软连续体机器人设计和控制协同优化的实用框架。该框架基于几何力学原理，考虑了低雷诺数和高雷诺数的游泳情况。通过将几何原理推广到连续体，我们在不同的功耗指标和游泳环境中实现了设计和步态的有效几何变分协同优化。与具有相同自由度的三连杆或蛇形游泳器相比，由此产生的最佳设计和步态在低雷诺数和高雷诺数下都表现出更高的效率，接近甚至超过无限灵活游泳器和更高自由度的游泳器的效率。

循环运动：多细胞机器人中旋转的出现

分类： 机器人技术

作者： Trevor Smith, Yu Gu

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15187v1

摘要： 与大多数人类设计的系统不同，许多生物系统依赖于低级交互的突发行为，从而实现更大的多样性和对复杂动态环境的卓越适应。本研究探讨了 Loopy 多细胞机器人中新兴的分散旋转，该机器人由同质、物理连接的 1 自由度细胞组成。受向日葵等生物系统的启发，Loopy 使用简单的局部相互作用 - 模拟化学物质（称为形态发生素）的扩散、反应和主动运输 - 无需集中控制或了解其整体形态。通过这些相互作用，机器人自组织以实现协调的旋转运动，并形成由运动细胞簇产生的叶局部突起。这项研究调查了这些相互作用如何驱动 Loopy 的旋转、其形态的影响以及其对执行器故障的恢复能力。我们的研究结果揭示了两种不同的行为：1）叶之间的内部谷比外部峰旋转得更快，与刚体动力学形成对比，2）细胞以与整体形态相反的方向旋转。实验表明，虽然 Loopy 的形态不会影响其相对于细胞的角速度，但较大的叶会增加细胞旋转并减少相对于环境的形态旋转。即使其多达三分之一的执行器被禁用且形态发生显着变化，Loopy 仍保持其旋转能力，凸显了分散式、仿生策略对于弹性和适应性强的机器人系统的潜力。

用于搜索和救援任务的异构双足和空中机器人协调的地形感知模型预测控制

分类： 机器人技术

作者： Abdulaziz Shamsah, Jesse Jiang, Ziwon Yoon, Samuel Coogan, Ye Zhao

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15174v1

摘要： 人形机器人能够穿越崎岖的地形并执行运输任务，因此在搜索和救援任务中具有显着的优势。在这项研究中，我们提出了一个使用由人形机器人和空中机器人组成的异构机器人团队进行搜索和救援行动的任务和运动规划框架。我们提出了一种地形感知模型预测控制器（MPC），它结合了使用高斯过程（GP）学习的地形海拔梯度。这种地形感知 MPC 可以为双足机器人生成安全的导航路径，以穿越崎岖的地形，同时最大限度地减少地形坡度，并指导四旋翼飞行器执行空中搜索和测绘任务。救援对象的位置由目标信念 GP 估计，并在地图探索过程中在线更新。通过使用句法共安全线性时序逻辑（scLTL）对导航任务进行编码，设计了用于任务分配的高级规划器，并设计了基于共识的算法用于单个机器人的任务分配。我们评估了我们的规划框架在具有各种地形和随机救援对象放置的不确定环境中的模拟效果。

技能定制：多种形式的互联网数据引导机器人烹饪技能高效习得

分类： 机器人技术, 人工智能, 机器学习

作者： Mrinal Verghese, Christopher Atkeson

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15172v1

摘要： 本研究探讨了各种互联网数据源的效用，以从一组模板机器人行为中进行选择来执行技能。由于缺乏诸如接触存在、位置、区域和力等物理信息，从互联网数据源学习涉及工具使用的丰富接触技能通常具有挑战性。先前的工作通常使用互联网数据和基于该数据训练的基础模型来生成低级机器人行为。我们假设这些数据和模型可能更适合在一组基本机器人行为中进行选择来执行这些接触丰富的技能。我们探索了三种模板选择方法：查询大型语言模型，使用先前工作中常见的预训练视频编码器的特征将机器人执行的视频与检索的人类视频进行比较，以及使用在互联网数据上训练的光流编码器的特征执行相同的比较。我们的结果表明，尽管大语言模型缺乏视觉信息，但其模板选择器的能力却令人惊讶，光流编码的性能显着优于使用多一个数量级数据训练的视频编码器，并且用于模板选择的各种形式的互联网数据之间存在重要的协同作用。通过利用这些协同作用，我们使用多种形式的互联网数据创建了一个模板选择器，在涉及工具使用的 16 种不同烹饪技能上实现了 79% 的成功率。

DeepCloth-ROB$^2_{\text{QS}}$P&P：针对准静态拾取和放置布料成形神经控制器的稳健机器人部署

分类： 机器人技术, 人工智能

作者： Halid Abdulrahim Kadi, Jose Alex Chandy, Luis Figueredo, Kasim Terzić, Praminda Caleb-Solly

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15159v1

摘要： 经过仿真训练的基于视觉的数据驱动布料神经控制器与现实世界操作之间的保真度差距阻碍了从仿真到物理试验的方法的可靠部署。现实世界中的抓取错误，例如误抓取和多层抓取，会降低它们的表现；此外，一些合成材料制成的织物也容易粘在常用的 Franka Emika Panda 的原始夹具上。不同的方法采用不同的策略来解决这些问题，使最先进方法之间的现实比较变得更加复杂。我们提出 DeepCloth-ROB$^2_{\text{QS}}$P&P 具有模拟到现实的传输策略 Towel-Sim2Real 和布料抓取协议，以考虑和减轻这些抓取错误，从而稳健地部署准静态拾取-将神经控制器置于布料成型中，并证明其在不同深度学习方法、织物环境和机器人平台上的通用性。我们的方法使我们能够首次在真实环境中比较多个神经控制器，为布料操纵社区提供有价值的见解。

COHERENT：异构多机器人系统与大型语言模型的协作

分类： 机器人技术, 人工智能

作者： Kehui Liu, Zixin Tang, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15146v2

摘要： 利用大语言模型（LLM）强大的推理能力，最近基于LLM的机器人任务规划方法产生了有希望的结果。然而，他们主要关注单个或多个同质机器人来执行简单的任务。实际上，复杂的长视野任务总是需要多个异构机器人之间的协作，特别是在更复杂的动作空间中，这使得这些任务更具挑战性。为此，我们提出了 COHERENT，这是一种基于 LLM 的新型任务规划框架，用于异构多机器人系统（包括四旋翼飞行器、机器狗和机器臂）的协作。具体来说，提案-执行-反馈-调整（PEFA）机制旨在分解和分配各个机器人的动作，其中集中式任务分配器提出任务规划建议，将复杂任务分解为子任务，然后将子任务分配给机器人执行器。每个机器人执行者选择一个可行的动作来执行所分配的子任务，并将自我反思反馈给任务分配者进行计划调整。 PEFA 循环直至任务完成。此外，我们创建了一个具有挑战性的异构多机器人任务规划基准，包含 100 个复杂的长期任务。实验结果表明，我们的工作在成功率和执行效率方面大幅超越了以前的方法。实验视频、代码和基准测试发布于 https://github.com/MrKeee/COHERENT。

通过大语言模型引导的分层思想链推理进行可控交通模拟

分类： 机器人技术

作者： Zhiyuan Liu, Leheng Li, Yuning Wang, Haotian Lin, Zhizhe Liu, Lei He, Jianqiang Wang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15135v1

摘要： 通过可控仿真评估复杂多样交通场景下的自动驾驶系统对于确保其安全性和可靠性至关重要。然而，现有的交通模拟方法在可控性方面面临挑战。为了解决这个问题，本文提出了一种新颖的基于扩散和大语言模型增强的交通模拟框架。我们的方法采用了独特的思想链（CoT）机制，系统地检查交通要素的层次结构，并引导大语言模型一步步彻底分析交通场景描述，增强他们对复杂情况的理解。此外，我们提出了一种基于 Frenet 框架的成本函数框架，为大语言模型提供几何上有意义的数量，提高他们对场景中空间关系的掌握，并实现更准确的成本函数生成。 Waymo 开放运动数据集（WOMD）上的实验表明，我们的方法可以处理更复杂的描述，以可控的方式生成更广泛的场景，并且在效率方面优于现有的基于扩散的方法。

用于移动操控的零成本全身远程操作

分类： 机器人技术, 人工智能

作者： Daniel Honerkamp, Harsh Mahesheka, Jan Ole von Hartz, Tim Welschehold, Abhinav Valada

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15095v1

摘要： 演示数据在学习复杂行为和训练机器人基础模型方面发挥着关键作用。虽然静态机械手存在有效的控制接口，但由于移动机械手具有大量自由度，数据收集仍然很麻烦且耗时。虽然专用硬件、化身或运动跟踪可以实现全身控制，但这些方法要么价格昂贵，要么是特定于机器人的，要么会受到机器人和人类演示者之间的实施例不匹配的影响。在这项工作中，我们提出了 MoMa-Teleop，这是一种新颖的远程操作方法，它将基本运动委托给强化学习代理，使操作员能够完全专注于与任务相关的末端执行器运动。这使得通过操纵杆或手动引导等标准接口能够以零额外硬件或设置成本对移动机械手进行全身远程操作。此外，操作员不受跟踪工作空间的限制，可以与机器人一起在空间扩展的任务中自由移动。我们证明，我们的方法可以显着减少各种机器人和任务的任务完成时间。由于生成的数据涵盖了多种全身运动，且没有体现不匹配的情况，因此可以实现高效的模仿学习。通过专注于特定任务的末端执行器运动，我们的方法可以从短短五个演示中学习转移到看不见的环境的技能，例如新的障碍物或改变的物体位置。我们在 http://moma-teleop.cs.uni-freiburg.de 提供代码和视频。

生物与技术相互作用：研究确定机器人系统对工业规模养鱼场中鱼类行为变化的影响

分类： 机器人技术

作者： Linn Danielsen Evjemo, Qin Zhang, Hanne-Grete Alvheim, Herman Biørn Amundsen, Martin Føre, Eleni Kelasidi

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15069v1

摘要： 过去几十年来水产养殖业的显着增长鼓励采用新技术和机器人解决方案来帮助提高生产效率和安全性。在挪威的大西洋鲑鱼海上养殖中，无人水下航行器（UUV）已被用于执行检查任务。虽然海底作业的新方法、系统和概念正在不断开发，但这些系统通常没有考虑到它们的存在可能对鱼类产生怎样的影响。本摘要介绍了一项实验研究，涉及挪威养鱼场的水下机器人操作如何影响养殖的大西洋鲑鱼，以及鱼类在接触机器人时行为如何变化。摘要概述了案例研究、分析方法和一些初步结果。

FisheyeDepth：鱼眼相机的真实规模自监督深度估计模型

分类： 计算机视觉和模式识别, 机器人技术

作者： Guoyang Zhao, Yuxuan Liu, Weiqing Qi, Fulong Ma, Ming Liu, Jun Ma

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15054v1

摘要： 准确的深度估计对于机器人和自动驾驶车辆的 3D 场景理解至关重要。鱼眼相机以其宽视野而闻名，具有固有的几何优势。然而，它们在深度估计中的使用受到地面实况数据缺乏和图像失真的限制。我们推出了 FisheyeDepth，这是一种专为鱼眼相机量身定制的自监督深度估计模型。我们在训练期间将鱼眼相机模型纳入投影和重投影阶段，以处理图像失真，从而提高深度估计精度和训练稳定性。此外，我们将真实尺度的姿态信息合并到连续帧之间的几何投影中，取代传统姿态网络估计的姿态。从本质上讲，这种方法为机器人任务提供了必要的物理深度，并且还简化了训练和推理程序。此外，我们设计了一种多通道输出策略，通过自适应融合不同尺度的特征来提高鲁棒性，从而减少真实姿态数据的噪声。我们通过对公共数据集和现实场景的评估，展示了我们的模型在鱼眼图像深度估计方面的卓越性能和鲁棒性。项目网站地址：https://github.com/guoyangzhao/FisheyeDepth。

基于深度强化学习的仓库环境中机器人运动避障

分类： 机器人技术, 人工智能

作者： Keqin Li, Jiajing Chen, Denzhi Yu, Tao Dajun, Xinyu Qiu, Lian Jieting, Sun Baiwei, Zhang Shengyuan, Zhenyu Wan, Ran Ji, Bo Hong, Fanghao Ni

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14972v1

摘要： 目前，在大多数仓库环境中，货物堆积情况复杂，管理人员在控制货物的同时与仓库移动机器人进行轨迹交互，传统的移动机器人不能很好的对货物和行人进行监控为了反馈正确的避障策略，以便控制移动机器人在仓库环境中高效、友好地完成避障任务，提出一种基于深度强化学习的仓库环境移动机器人避障算法。首先，针对深度强化学习算法中价值函数网络学习能力不足的问题，基于行人交互对价值函数网络进行改进，通过行人角度网格提取行人之间的交互信息，并结合个体的时间特征通过注意力机制提取行人，使我们能够学习获得当前状态与历史轨迹状态的相对重要性以及对机器人避障策略的联合影响，这为多目标的学习提供了机会之后再分层感知机器。其次，根据行人的空间行为设计强化学习的奖励函数，对机器人角度变化过大的状态进行惩罚，从而达到舒适避障的要求；最后通过仿真实验验证了基于深度强化学习的移动机器人避障算法在仓库复杂环境下的可行性和有效性。

用于增强无碰撞机器人运动的高效碰撞检测框架

分类： 机器人技术

作者： Xiankun Zhu, Yucheng Xin, Shoujie Li, Houde Liu, Chongkun Xia, Bin Liang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14955v1

摘要： 快速高效的碰撞检测对于机器人运动生成至关重要。在本文中，我们提出了一种基于机器人有符号距离场（SDF）的高效碰撞检测框架，与自碰撞检测模块无缝集成。首先，我们使用正向运动学分解机器人的 SDF，并并行利用多个极轻量级网络来有效地逼近 SDF。此外，我们引入支持向量机将自碰撞检测模块集成到框架中，我们将其称为SDF-SC框架。使用统计特征，我们的方法统一了 SDF 和自碰撞检测的碰撞距离表示。在此过程中，我们保持并利用框架的可微属性来优化无碰撞机器人轨迹。最后，我们基于我们的框架开发了一个反应式运动控制器，能够实时避开多个动态障碍物。在保持高精度的同时，我们的框架的推理速度比以前的方法快五倍。 Franka 机械臂上的实验结果证明了我们方法的有效性。

使用肌肉骨骼类人冗余互感网络的在线学习来对抗肌肉断裂的鲁棒连续运动策略

分类： 机器人技术

作者： Kento Kawaharazuka, Manabu Nishiura, Yasunori Toshimitsu, Yusuke Omura, Yuya Koga, Yuki Asano, Koji Kawasaki, Masayuki Inaba

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14951v1

摘要： 肌肉骨骼类人生物具有多种仿生优势，其中冗余的肌肉排列是最重要的特征之一。这一功能可以实现可变刚度控制，并允许机器人在其中一根多余肌肉断裂的情况下继续移动其关节，但这一点很少被探索。在这项研究中，我们构建了一个神经网络来表示肌肉骨骼人形机器人灵活且难以建模的身体中的传感器之间的关系，通过学习这个神经网络，可以实现精确的运动。为了利用肌肉的冗余性，我们讨论了使用该网络进行肌肉破裂检测、考虑肌肉破裂的感觉关系的在线更新以及使用肌肉破裂信息的身体控制和状态估计。这项研究解释了一种构建肌肉骨骼类人动物的方法，即使在一块肌肉断裂的情况下，该类人动物也能继续稳健地移动和执行任务。

使用元学习方法在线适应学习的车辆动力学模型

分类： 机器人技术

作者： Yuki Tsuchiya, Thomas Balch, Paul Drews, Guy Rosman

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14950v1

摘要： 我们通过多层神经网络构建了接近处理极限的自动驾驶车辆动力学模型。为了应对看不见的环境，在线适应是可取的。然而，模型需要适应新的环境，同时又不能忘记以前遇到的环境。在本研究中，我们应用Continual-MAML来克服这个困难。它使模型能够通过从优化的初始参数开始更新来快速有效地适应以前遇到的环境。我们使用 TRIKart 平台评估在线模型自适应对推理性能的影响以及对模型预测路径积分 (MPPI) 控制器控制性能的影响。使用在我们的测试环境中收集的驾驶数据对神经网络进行预训练，并在训练数据中未包含的多种不同路况上执行在线自适应实验。实证结果表明，使用Continual-MAML的模型在测试集损失和MPPI在线跟踪性能方面优于固定模型和使用梯度下降的模型。

多个移动机械手协作物体运输的运动动力学运动规划

分类： 机器人技术, 多代理系统, 优化与控制

作者： Keshab Patra, Arpita Sinha, Anirban Guha

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14910v1

摘要： 这项工作提出了一种运动动力学运动规划技术，用于动态环境中多个移动机械手的协作对象运输。全局路径规划器计算从起点到目标的线性分段路径。一种新颖的算法可以检测静态障碍物之间的狭窄区域，并帮助定义无障碍区域，以增强全局路径的可行性。然后，我们制定了一种用于轨迹生成的本地在线运动规划技术，以最小化地平线后退方式的控制工作。它规划有限时间范围内的轨迹，考虑运动动力学约束以及静态和动态障碍。该规划技术对移动基座和机械臂进行联合规划，有效利用移动基座的运动能力和机械臂的操纵能力。我们使用凸锥方法通过修改移动机械手的允许状态来避免地层的自碰撞，而不施加额外的约束。数值模拟和硬件实验展示了所提出方法的效率。

KARMA：用长短期记忆系统增强嵌入式人工智能代理

分类： 机器人技术, 人工智能

作者： Zixuan Wang, Bo Yu, Junzhe Zhao, Wenhao Sun, Sai Hou, Shuai Liang, Xing Hu, Yinhe Han, Yiming Gan

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14908v1

摘要： 负责执行相互关联的长序列家务任务的具体人工智能代理经常面临上下文记忆的困难，导致任务执行效率低下和错误。为了解决这个问题，我们引入了 KARMA，这是一种创新的记忆系统，它集成了长期和短期记忆模块，通过记忆增强提示增强了大语言模型（LLM），用于在实体代理中进行规划。 KARMA 区分长期记忆和短期记忆，长期记忆捕获全面的 3D 场景图作为环境的表示，而短期记忆则动态记录对象位置和状态的变化。这种双记忆结构允许智能体检索相关的过去场景经验，从而提高任务规划的准确性和效率。短期记忆采用有效和适应性记忆替换的策略，确保保留关键信息，同时丢弃不太相关的数据。与最先进的内存增强型体现智能体相比，我们的内存增强型体现型 AI 智能体在 AI2-THOR 模拟器中的复合任务和复杂任务中的成功率分别提高了 1.3 倍和 2.3 倍，并增强了任务执行能力效率分别提高 3.4 倍和 62.7 倍。此外，我们还证明了 KARMA 的即插即用功能可以在现实世界的机器人系统（例如移动操作平台）上无缝部署。通过这种即插即用的内存系统，KARMA 显着增强了实体代理生成连贯信息的能力。以及适合具体情况的计划，使复杂的家务任务的执行更加高效。该作品的实验视频可以在 https://youtu.be/4BT7fnw9ehs 找到。

缺点：在看不见和不熟悉的地方通过无数据的代理间知识传输进行持续对象导航

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Kouki Terashima, Daiki Iwata, Kanji Tanaka

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14899v1

摘要： 这项工作探索了简短的智能体间知识转移（KT）的潜力，以增强在不可见和不熟悉的环境中机器人对象目标导航（ON）。借鉴人类旅行者获取当地知识的类比，我们提出了一个框架，其中旅行者机器人（学生）与当地机器人（教师）进行通信，以通过最少的交互来获取 ON 知识。我们将此过程定义为无数据持续学习（CL）挑战，旨在将知识从黑盒模型（教师）转移到新模型（学生）。与使用大语言模型 (LLM) 的零样本 ON 等方法（利用本质上易于通信的自然语言进行知识表示）相比，另外两种主要的 ON 方法——使用对象特征图的前沿驱动方法和基于学习的 ON 方法使用神经状态-动作图——提出了复杂的挑战，而无数据的 KT 在很大程度上仍然是未知的。为了解决这一差距，我们提出了一种轻量级、即插即用的 KT 模块，针对开放世界环境中不合作的黑盒教师。使用每个教师机器人都具有视觉和移动能力的普遍假设，我们将状态动作历史定义为主要知识库。我们的公式导致了基于查询的占用图的开发，该地图动态地表示目标对象位置，作为有效且易于沟通的知识表示。我们通过在栖息地环境中进行的实验验证了我们方法的有效性。

构建不同：触觉感知克服协作操作中的跨实体能力差异

分类： 机器人技术, 机器学习

作者： William van den Bogert, Madhavan Iyengar, Nima Fazeli

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14896v1

摘要： 触觉传感是人类和机器人助手之间隐式通信的强大手段。在本文中，我们研究了触觉感知如何在协作操作的背景下超越机器人系统之间的跨实体差异。考虑诸如协作物体搬运之类的任务，其中人机交互是力量丰富的。学习和执行这些技能需要机器人服从人类并学习关节扭矩水平的行为。然而，大多数机器人不提供这种合规性或提供对其关节扭矩的访问。为了应对这一挑战，我们提出了一种方法，使用触觉传感器将策略从具有这些功能的机器人传输到不具备这些功能的机器人。我们展示了我们的方法如何实现协作任务，其中机器人和人类必须共同努力在空间中操纵物体。我们首先在配备触觉传感的具有阻抗控制能力的机器人上展示了该技能，然后展示了触觉策略向仅能够进行位置控制且不配备任何类型的力/扭矩的平面棱柱机器人的正向传递反馈，但仅使用触觉反馈就能够遵循人类动作。更多详细信息和视频可以在我们的项目网站上找到：https://www.mmintlab.com/research/tactile-collaborative/。

观察然后行动：机器人操作的异步主动视觉动作模型

分类： 机器人技术, 计算机视觉和模式识别

作者： Guokang Wang, Hang Li, Shuyuan Zhang, Yanhong Liu, Huaping Liu

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14891v1

摘要： 在现实场景中，许多机器人操作任务受到遮挡和有限视野的阻碍，这对依赖固定或腕式摄像头的被动观察模型构成了重大挑战。在本文中，我们研究了有限视觉观察下的机器人操纵问题，并提出了一种任务驱动的异步主动视觉动作模型。我们的模型将相机下一个最佳视图（NBV）策略与夹具下一个最佳姿势串联起来（NBP）策略，并使用少样本强化学习在传感器-运动协调框架中训练它们。这种方法允许代理调整第三人称摄像头，以根据任务目标主动观察环境，并随后推断出适当的操作动作。我们在 RLBench 中的 8 个视点受限任务上训练和评估了我们的模型。结果表明，我们的模型始终优于基线算法，展示了其在处理操作任务中的视觉约束方面的有效性。

具有正式目标达成保证的新型代理：移动机器人的实验研究

分类： 机器人技术, 人工智能, 动力系统, 优化与控制

作者： Grigory Yaremenko, Dmitrii Dobriborsci, Roman Zashchitin, Ruben Contreras Maestre, Ngoc Quoc Huy Hoang, Pavel Osinenko

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14867v1

摘要： 强化学习（RL）已被证明对于机器人技术中的许多任务来说是有效且方便的。然而，它需要探索足够多的状态-动作对，其中许多可能是不安全或不重要的。例如，如果无法保证在某个事件期间达到一组特定的期望状态，在线无模型学习可能是危险且低效的。解决安全问题的一种越来越常见的方法是添加屏蔽系统，将 RL 操作限制为一组安全操作。反过来，此类框架的一个难点是如何将强化学习与屏蔽系统有效耦合，以确保探索不会受到过度限制。这项工作提出了一种名为 Critic As Lyapunov Function (CALF) 的新型安全无模型 RL 代理，并展示了如何使用 CALF 以高效、便捷的方式改进机器人的控制基线，同时确保稳定的目标实现。正如一般所见，后者是安全的关键部分。通过 CALF，所有状态-动作对仍然是可探索的，并且正式保证达到期望的目标状态。提供的形式分析显示了 CALF 的目标稳定性确保特性，以及使用非完整轮式移动机器人 (WMR) TurtleBot3 Burger 进行的一组真实世界和数值实验，证实了 CALF 相对于这种成熟的 RL 智能体的优越性作为近端策略优化（PPO），以及在几集环境中就已达到的总成本而言的 SARSA 的修改版本。

GroCo：公制自监督单目深度的地面约束

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Aurélien Cecille, Stefan Duffner, Franck Davoine, Thibault Neveu, Rémi Agier

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14850v1

摘要： 近年来，单目深度估计有了很大的改进，但预测度量深度的模型仍然难以在不同的相机姿势和数据集上进行泛化。虽然最近的监督方法通过在推理时利用地面先验信息来缓解这个问题，但由于规模恢复的额外挑战，它们对自我监督设置的适应性受到限制。为了解决这一差距，我们在本文中提出了一种专门为自我监督范式设计的地面区域的新颖约束。这种机制不仅可以准确地恢复尺度，还可以确保深度预测和地面先验之间的一致性。实验结果表明，我们的方法在 KITTI 基准上超越了现有的规模恢复技术，并显着增强了模型泛化能力。这种改进可以通过其在不同相机旋转中更强大的性能以及在零镜头条件下使用以前未见过的驾驶数据集（例如 DDAD）的适应性来观察。

评估机器人对行人行为模型的影响，以进行人群模拟和基准测试

分类： 机器人技术

作者： Subham Agrawal, Nils Dengler, Maren Bennewitz

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14844v1

摘要： 行人中机器人的存在会影响他们，导致他们的轨迹发生偏差。现有方法的局限性在于无法在未见的情况下客观地测量这种偏差。为了解决这个问题，我们引入了一个模拟框架，该框架可以重复测量和基准测试由不同导航算法驱动的机器人导致的行人轨迹偏差。我们使用增强的社会力模型（SFM）和机器人力分量来模拟行人的偏差行为，该模型考虑了机器人对行人行为的影响，从而产生了社会机器人力模型（SRFM）。该模型的参数是使用 JRDB 数据集中的行人轨迹学习的。然后使用带有和不带有机器人力分量的 SRFM 来模拟行人，以客观地测量机器人在 5 种不同场景中对其轨迹造成的偏差。我们在本文中的工作是一个概念证明，表明客观测量行人对机器人的反应是可能的。我们使用模拟来训练两种不同的强化学习策略，并根据传统导航模型对其进行评估。

SymAware：具有态势感知功能的值得信赖的多代理系统的软件开发框架

分类： 机器人技术

作者： Ernesto Casablanca, Zengjie Zhang, Gregorio Marchesini, Sofie Haesaert, Dimos V. Dimarogonas, Sadegh Soudjani

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14833v1

摘要： 由于代理之间的态势感知（SA）通信复杂，为实际应用开发值得信赖的多代理系统具有挑战性。本文展示了一种新颖、高效且易于使用的多智能体模拟软件框架，名为 SymAware，它提供了一组丰富的预定义数据结构来为智能体计算、存储和通信 SA。它还为代理提供了一个抽象接口，以计算其控制输入，同时考虑到周围代理的情况、知识和风险的意识。此外，SymAware利用一组专用组件，将物理渲染和模拟引擎通信接口的大量计算隐藏在控制线程后面，从而实现高执行效率，弥合概念原型与实际应用之间的差距。使用三个多智能体案例研究来验证该软件框架的功效和效率。

解析逆运动学的自动几何分解

分类： 机器人技术

作者： Daniel Ostermeier, Jonathan Külz, Matthias Althoff

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14815v1

摘要： 计算逆运动学 (IK) 是机器人运动规划的基础。与基于数值或基于学习的方法相比，分析 IK 提供更高的效率和准确性。然而，现有的分析方法需要手动干预，条件较差，或者依赖于耗时的符号操作。在本文中，我们提出了一种快速稳定的方法，可以自动在线推导和计算解析逆运动学。我们的方法基于重塑机械臂的运动链，以自动将其 IK 分解为预先解决的几何子问题。我们利用相交和平行的关节轴将给定的操纵器分配给特定的运动学类别和相应的子问题分解。在数值实验中，我们证明我们的分解在导出 IK 方面比采用符号操作的现有工具要快几个数量级。经过这一一次性推导，我们的方法在显式 IK 解决方案的在线计算过程中的速度和准确性方面匹配甚至超越了 IKFast 等基线。最后，我们提供了一个带有 Python 包装器的 C++ 工具箱，首次能够在不到一毫秒的时间内实现即插即用的分析 IK。

像武术躲闪一样：安全快速地控制移动机械手的全身以避免碰撞

分类： 机器人技术

作者： Bingjie Chen, Houde Liu, Chongkun Xia, Liang Han, Xueqian Wang, Bin Liang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14775v1

摘要： 在移动机械臂（MM）的控制任务中，在动态环境下实现高效、敏捷的避障是一项具有挑战性的任务。在这封信中，我们为 MM 提供了一种安全快速全身 (SEWB) 控制，可确保外部和内部无碰撞。 SEWB由两层优化结构构建。首先，MM 采用控制屏障函数（CBF）来建立初始安全约束。此外，为了解决 CBF 的伪平衡问题并提高回避敏捷性，我们提出了一种称为自适应循环不等式（ACI）的新型子优化。 ACI 考虑障碍物位置、速度和预定义方向来生成方向约束。然后，我们结合 CBF 和 ACI 来分解安全约束以及期望控制的等式约束。考虑到所有这些约束，我们制定了二次规划（QP）作为我们的主要优化。在QP成本函数中，我们考虑了底座和机械臂之间的运动精度差异以及障碍物的影响，以实现优化的运动。我们通过模拟和现实实验验证了 SEWB 控制在避免碰撞和到达目标点方面的有效性，特别是在涉及快速移动障碍物的挑战性场景中。 SEWB已被证明可以实现全身无碰撞并提高回避敏捷性，类似于“武术闪避”。

CushionCatch：通过结合优化和学习实现移动机械手的合规捕捉机制

分类： 机器人技术

作者： Bingjie Chen, Keyu Fan, Houde Liu, Chongkun Xia, Liang Han, Bin Liang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14754v1

摘要： 本文提出了一种用于移动机械手实现柔性捕捉缓冲机构（CCCM）的框架。首先，我们引入一个两级运动优化方案，包括一个高级捕获规划器和一个低级联合规划器。低级联合规划器由两个不同的组件组成：捕捉前（PRC）规划器和捕捉后（POC）规划器。接下来，我们提出了一个网络，利用 LSTM 的时间依赖性和空间上下文位置编码的优势（P-LSTM）。 P-LSTM 旨在从人类演示中有效学习合规控制策略。为了考虑人类和机器人之间的结构差异，POC 规划器中纳入了安全约束，以避免潜在的碰撞。我们通过模拟和现实接球场景验证 CCCM 框架，模拟成功率达到 98.70%，实际测试成功率达到 92.59%，冲击扭矩降低 33.2%。

通过线性高斯过程实现片上高频自适应线性最优控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Yuan Gao, Yinyi Lai, Jun Wang, Yini Fang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14738v1

摘要： 不可预测且复杂的空气动力效应对实现精确的飞行控制提出了重大挑战，例如从上部飞行器到下部飞行器的下洗效应。传统方法通常很难准确地对这些交互进行建模，导致控制器需要车辆之间有很大的安全裕度。此外，真实无人机上的控制器通常需要高频且片上计算有限，使得自适应控制设计更难以实现。为了应对这些挑战，我们结合高斯过程（GP）来通过线性模型预测控制对自适应外部空气动力学进行建模。 GP 被线性化以实现实时高频解决方案。此外，为了处理线性化引起的误差，我们在样本收集阶段集成了端到端贝叶斯优化，以提高控制性能。模拟和真实四旋翼飞行器的实验结果表明，我们可以在可接受的跟踪误差下实现实时可求解的计算速度。

DynaMo：视觉运动控制的域内动力学预训练

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12192v1

摘要： 模仿学习已被证明是训练复杂视觉运动策略的有力工具。然而，当前的方法通常需要数百到数千次专家演示才能处理高维视觉观察。数据效率低下的一个关键原因是视觉表示主要要么是在域外数据上进行预训练，要么是通过行为克隆目标直接进行训练。在这项工作中，我们提出了 DynaMo，一种用于学习视觉表示的新的域内自监督方法。给定一组专家演示，我们在一系列图像嵌入上共同学习潜在逆动力学模型和正向动力学模型，预测潜在空间中的下一帧，无需增强、对比采样或访问地面真实动作。重要的是，DynaMo 不需要任何域外数据，例如互联网数据集或跨实体数据集。在一组六个模拟和真实环境中，我们表明，与之前的自监督学习目标和预训练表示相比，使用 DynaMo 学习的表示显着提高了下游模仿学习性能。使用 DynaMo 的收益适用于各种策略类别，例如行为转换器、扩散策略、MLP 和最近邻居。最后，我们消除了 DynaMo 的关键组件并衡量其对下游政策绩效的影响。机器人视频的最佳观看方式是 https://dynamo-ssl.github.io

Eager 模式下的捆绑调整

分类： 机器人技术, 计算机视觉和模式识别

作者： Zitong Zhan, Huan Xu, Zihang Fang, Xinpeng Wei, Yaoyu Hu, Chen Wang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12190v1

摘要： 束调整 (BA) 是各种机器人应用中的一项关键技术，例如同步定位和建图 (SLAM)、增强现实 (AR) 和摄影测量。 BA 优化相机姿态和 3D 地标等参数，使其与观测结果保持一致。随着深度学习在感知系统中的重要性日益增加，越来越需要将 BA 与深度学习框架集成以提高可靠性和性能。然而，广泛使用的基于 C++ 的 BA 框架，例如 GTSAM、g$^2$o 和 Ceres，缺乏与 PyTorch 等现代深度学习库的本机集成。这种限制影响了它们的灵活性、适应性、调试的简易性和整体实现效率。为了解决这个问题，我们引入了与 PyPose 无缝集成的 eager-mode BA 框架，提供了高效的 PyTorch 兼容接口。我们的方法包括专为二阶优化而设计的 GPU 加速、可微分和稀疏运算、李群和李代数运算以及线性求解器。我们的 GPU 上的急切模式 BA 表现出了极高的运行时效率，与 GTSAM、g$^2$o 和 Ceres 相比，平均加速分别为 18.5$\times$、22$\times$ 和 23$\times$ 。

WeHelp：轮椅使用者的共享自治系统

分类： 机器人技术

作者： Abulikemu Abuduweili, Alice Wu, Tianhao Wei, Weiye Zhao

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12159v2

摘要： 有大量轮椅使用者。大多数轮椅使用者需要帮助来完成日常任务。然而，根据最近的报告，由于缺乏护理人员，他们的需求未能得到适当满足。因此，在这个项目中，我们开发了WeHelp，一个针对轮椅使用者的共享自主系统。搭载WeHelp系统的机器人具有跟随模式、遥控模式和远程操作模式三种模式。在跟随模式下，机器人通过视觉跟踪自动跟随轮椅使用者。轮椅使用者可以要求机器人从后面、左边或右边跟随他们。当轮椅使用者请求帮助时，机器人会通过语音识别来识别命令，然后切换到遥操作模式或远程控制模式。在远程操作模式下，轮椅使用者通过操纵杆接管机器人，控制机器人完成一些自己需要的复杂任务，如开门、移动途中障碍物、到达高架子或低架子上的物体等。在远程控制模式下，远程助手接管机器人并帮助轮椅使用者完成一些复杂的任务。我们的评估表明，该管道对于轮椅使用者来说是有用且实用的。论文的源代码和演示可在 \url{https://github.com/Walleclipse/WeHelp} 获取。

机器人学会通过基于预测的避免动态游戏来安全地影响

分类： 机器人技术

作者： Ravi Pandya, Changliu Liu, Andrea Bajcsy

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12153v1

摘要： 机器人可以影响人们更有效地完成任务：自动驾驶汽车可以在十字路口缓慢前行通过，桌面机械手可以先去抓取桌子上的物体。然而，如果不小心执行，机器人的影响能力也会危及附近人员的安全。在这项工作中，我们提出并解决了一种新颖的稳健的触及避免动态游戏，该游戏使机器人能够发挥最大的影响力，但前提是存在安全备份控制。在人类方面，我们将人类的行为建模为目标驱动但以机器人的计划为条件，使我们能够捕捉影响力。在机器人方面，我们解决了联合物理和信念空间中的动态博弈，使机器人能够推理人类行为的不确定性将如何随着时间的推移而演变。我们在通过离线博弈论强化学习解决的高维（39维）模拟人机协作操作任务中实例化了我们的方法，称为 SLIDE（在动态环境中安全地利用影响）。我们将我们的方法与将人类视为最坏情况对手的稳健基线、未明确推理影响的安全控制器以及基于能量函数的安全防护罩进行比较。我们发现，SLIDE 始终使机器人能够在安全的情况下利用其对人类的影响，最终使机器人不那么保守，同时仍确保任务执行期间的高安全率。

剩余下降微分动态博弈（RD3G）——约束一般和博弈的快速牛顿求解器

分类： 机器人技术

作者： Zhiyuan Zhang, Panagiotis Tsiotras

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12152v1

摘要： 我们提出了残差下降微分动态博弈（RD3G），这是一种基于牛顿的求解器，用于解决约束多智能体博弈控制问题。所提出的求解器寻求局部纳什均衡，以解决代理通过其奖励和状态约束耦合的问题。我们将所提出的方法与竞争的最先进技术进行比较，并展示 RD3G 算法在几个示例问题上的计算优势。

危险环境下机器人团队定向双目标路径规划

分类： 机器人技术

作者： Cory M. Simon, Jeffrey Richley, Lucas Overbey, Darleen Perez-Lavin

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12114v1

摘要： 移动[空中、地面或水生]机器人团队可应用于资源输送、巡逻、信息收集、农业、森林消防、化学羽流源定位和测绘以及搜索和救援。机器人团队穿越危险环境——例如崎岖的地形或海洋、强风或能够攻击或捕获机器人的对手——应考虑到残疾、破坏或捕获的风险来规划和协调其路径。具体来说，机器人应该采取最安全的路径，协调它们的路径以合作实现团队级目标，并对机器人故障具有鲁棒性，并平衡访问位置的奖励与机器人损失的风险。在这里，我们考虑在危险环境中为机器人定向运动移动团队进行双目标路线规划。危险环境被抽象为有向图，当机器人穿过该图时，其弧线呈现出已知的生存概率。如果机器人访问该图的每个节点，则该节点会向团队提供奖励（例如，向节点传递商品或对节点进行成像）。我们希望寻找帕累托最优的机器人团队跟踪计划，以最大化两个[相互冲突的]团队目标：预期的（i）团队奖励和（ii）在任务中幸存的机器人数量。然后，人类决策者可以根据自己的价值观、奖励和机器人生存来选择平衡的路线计划。我们在启发式的指导下实施蚁群优化，以搜索帕累托最优的机器人团队轨迹计划集。作为一个案例研究，我们以艺术博物馆的信息收集任务为例进行说明。

一种基于投影的高效未知物体重建的次最佳视图规划框架

分类： 机器人技术

作者： Zhizhou Jia, Shaohui Zhang, Qun Hao

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12096v1

摘要： 高效、完整地捕获物体的三维数据是工业和机器人应用中的一个基本问题。下一个最佳视图（NBV）规划的任务是根据当前数据推断下一个视点的位姿，并逐步实现完整的三维重建。然而，许多现有算法由于使用光线投射而承受巨大的计算负担。为了解决这个问题，本文提出了一个基于预测的新业务价值规划框架。它可以以极快的速度选择下一个最佳视图，同时保证物体的完整扫描。具体来说，该框架根据体素结构将不同类型的体素簇重新拟合为椭球体。然后，使用基于投影的视点质量评估函数结合全局分区策略从候选视图中选择下一个最佳视图。该过程取代了体素结构中的光线投射，显着提高了计算效率。在仿真环境下与其他算法的对比实验表明，本文提出的框架在捕获大致相同覆盖范围的基础上可以实现10倍的效率提升。现实世界的实验结果也证明了该框架的效率和可行性。

用于声学反射器映射的机器学习框架

分类： 机器人技术

作者： Usama Saqib, Letizia Marchegiani, Jesper Rindom Jensen

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12094v1

摘要： 基于声纳的室内测绘系统已广泛应用于机器人领域数十年。虽然此类系统仍然是水下和管道检查设置的主流，但随着时间的推移，其对噪声的脆弱性降低了，它们的普遍广泛使用有利于其他模式（\textit{例如}，相机，激光雷达），而这些模式的技术正在遇到，相反，非凡的进步。尽管如此，使用声学信号和回声定位来绘制物理环境可以为机器人在不利情况下的导航带来显着的好处，这要归功于它们与其他传感器相比的互补特性。事实上，相机和激光雷达在恶劣的天气条件下、缺乏照明或不反光的墙壁上都表现不佳。然而，为了使声学传感器能够生成准确的地图，必须正确有效地处理噪声。在这些情况下，传统的信号处理技术并不总是解决方案。在本文中，我们提出了一个框架，利用机器学习来帮助更传统的信号处理方法来应对背景噪声，通过使用声学传感器从生成的地图中删除异常值和伪影。我们的目标是证明即使在特别嘈杂的条件下，传统回声定位映射技术的性能也可以大大增强，从而促进声学传感器在最先进的多模式机器人导航系统中的使用。我们的模拟评估表明，该系统可以在 $-10$dB 的 SNR 下可靠运行。此外，我们还表明所提出的方法能够在不同的混响环境中运行。在本文中，我们还使用所提出的方法使用机器人平台绘制模拟房间的轮廓。

IMRL：集成视觉、物理、时间和几何表示以增强食物采集

分类： 机器人技术, 人工智能

作者： Rui Liu, Zahiruddin Mahammad, Amisha Bhaskar, Pratap Tokekar

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12092v1

摘要： 机器人辅助喂养对于改善饮食障碍患者的生活质量具有重大前景。然而，在不同条件下获取不同的食物并将其推广到看不见的食物提出了独特的挑战。依赖于从视觉线索（例如颜色、形状和纹理）衍生的表面几何信息（例如边界框和姿势）的现有方法通常缺乏适应性和鲁棒性，特别是当食物具有相似的物理特性但视觉外观不同时。我们采用模仿学习（IL）来学习食物获取策略。现有方法采用 IL 或强化学习 (RL) 来学习基于现成图像编码器（例如 ResNet-50）的策略。然而，这种表示方法并不稳健，并且很难在不同的收购场景中进行概括。为了解决这些局限性，我们提出了一种新的方法，IMRL（集成多维表示学习），它集成了视觉、物理、时间和几何表示，以增强 IL 在食物采集中的鲁棒性和泛化性。我们的方法捕获食物类型和物理特性（例如固体、半固体、颗粒、液体和混合物），对采集动作的时间动态进行建模，并引入几何信息来确定最佳舀取点并评估碗的饱满度。 IMRL 使 IL 能够根据上下文自适应调整舀取策略，从而提高机器人处理不同食物采集场景的能力。在真实机器人上进行的实验证明了我们的方法对各种食物和碗配置的稳健性和适应性，包括对不可见设置的零样本泛化。与表现最佳的基线相比，我们的方法将成功率提高了 35%$。

视觉惯性里程计中折射相机模型在线标定

分类： 机器人技术, 计算机视觉和模式识别

作者： Mohit Singh, Kostas Alexis

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12074v1

摘要： 本文提出了通用折射相机模型以及里程计和未知介质折射率的在线联合估计。只要在空气中进行相机校准，就可以在各种不同的折射流体中进行操作。使用所提出的相机模型在迭代公式中在线估计折射率作为单眼视觉惯性里程计框架的状态变量。该方法通过水下机器人在水池内移动收集的数据进行了验证。评估表明，尽管初始化过程中存在显着扰动，但仍收敛于水的理想折射率。同时，该方法可以在折射介质中实现同等的视觉惯性里程计性能，而无需事先了解折射率或需要介质特定的相机校准。

通用机器人学习框架

分类： 机器人技术, 人工智能

作者： Jiahuan Yan, Zhouyang Hong, Yu Zhao, Yu Tian, Yunxin Liu, Travis Davies, Luhui Hu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12061v1

摘要： 基于模仿的机器人学习由于其可迁移性和泛化性的理论潜力，最近在机器人领域获得了极大的关注。然而，它在硬件和数据收集方面仍然非常昂贵，并且在现实环境中部署它需要对机器人进行细致的设置和精确的实验条件。在本文中，我们提出了一种低成本的机器人学习框架，该框架既易于复制又可转移到各种机器人和环境。我们证明，可部署的模仿学习甚至可以成功应用于工业级机器人，而不仅仅是昂贵的协作机器人手臂。此外，我们的结果表明，多任务机器人学习可以通过简单的网络架构和比以前认为必要的更少的演示来实现。由于当前的评估方法在现实世界的操作任务中几乎是主观的，因此我们提出了投票积极率（VPR）——一种新颖的评估策略，可以提供更客观的绩效评估。我们对各种自行设计的任务的成功率进行了广泛的比较，以验证我们的方法。为了促进协作并支持机器人学习社区，我们开源了所有相关数据集和模型检查点，可在 Huggingface.co/ZhiChengAI 上获取。

具有体积占用映射的不确定性视觉惯性 SLAM

分类： 机器人技术

作者： Jaehyung Jung, Simon Boche, Sebastian Barbas Laina, Stefan Leutenegger

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12051v1

摘要： 我们提出视觉惯性同步定位和映射，将稀疏重投影误差、惯性测量单元预积分和相对位姿因子与密集体积占用映射紧密耦合。由此，深度神经网络的深度预测以完全概率的方式融合。具体来说，我们的方法具有严格的不确定性意识：首先，我们不仅使用来自机器人立体装备的深度网络的深度和不确定性预测，而且还进一步概率地融合运动立体，该运动立体提供跨一系列基线的深度信息，因此大大增加了测绘精度。接下来，预测和融合的深度不确定性不仅传播到占用概率，而且传播到进入概率非线性最小二乘估计器的生成的密集子图之间的对齐因子。这种子图表示提供了全局一致的比例几何形状。我们的方法在两个基准数据集中进行了彻底评估，其定位和绘图精度超过了现有技术水平，同时提供了可直接用于下游机器人实时规划和控制的体积占用率。

处理安全强化学习中的长期安全性和不确定性

分类： 机器学习, 机器人技术

作者： Jonas Günster, Puze Liu, Jan Peters, Davide Tateo

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12045v1

摘要： 安全性是阻碍强化学习技术在现实世界机器人中部署的关键问题之一。虽然安全强化学习领域的大多数方法不需要约束和机器人运动学的先验知识，并且仅依赖于数据，但通常很难在复杂的现实环境中部署它们。相反，将约束和动态的先验知识纳入学习框架的基于模型的方法已被证明能够将学习算法直接部署在真实的机器人上。不幸的是，虽然通常可以获得机器人动力学的近似模型，但安全约束是特定于任务的并且很难获得：它们可能太复杂而无法进行分析编码，计算成本太高，或者可能很难先验地设想长期安全要求。在本文中，我们通过扩展安全勘探方法 ATACOM 来弥补这一差距，该方法具有可学习的约束，特别注重确保长期安全和处理不确定性。我们的方法在最终表现方面具有竞争力或优于最先进的方法，同时在训练期间保持更安全的行为。

全景深度预测

分类： 计算机视觉和模式识别, 机器人技术

作者： Juana Valeria Hurtado, Riya Mohan, Abhinav Valada

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12008v1

摘要： 预测场景的语义和 3D 结构对于机器人安全导航和计划行动至关重要。最近的方法探索了语义和全景场景预测；然而，他们没有考虑场景的几何形状。在这项工作中，我们提出了全景深度预测任务，用于从单目相机图像中联合预测未观察到的未来帧的全景分割和深度图。为了促进这项工作，我们通过计算 LiDAR 点云的深度图并利用顺序标记数据来扩展流行的 KITTI-360 和 Cityscapes 基准。我们还引入了一种合适的评估指标，以一致的方式量化预测的全景质量和深度估计准确性。此外，我们提出了两个基线并提出了新颖的 PDcast 架构，该架构通过结合基于 Transformer 的编码器、预测模块和特定于任务的解码器来学习丰富的时空表示，以预测未来的全景深度输出。广泛的评估证明了 PDcast 在两个数据集和三个预测任务中的有效性，始终如一地解决了主要挑战。我们在 https://pdcast.cs.uni-freiburg.de 上公开提供代码。

椭球体实时可行的无碰撞运动规划

分类： 机器人技术, 系统与控制, 系统与控制

作者： Yunfan Gao, Florian Messerer, Niels van Duijkeren, Boris Houska, Moritz Diehl

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12007v1

摘要： 无碰撞轨迹的在线规划是机器人和自动驾驶汽车应用的一项基本任务。本文重新讨论了使用可微约束来避免椭球体之间的碰撞。当且仅当两个椭球体中心点之间的向量的端点不位于椭球体的明可夫斯基和的内部时，两个椭球体才不重叠。该条件是使用 Minkowski 和的参数过近似来表述的，该条件可以在任何给定方向上变得紧密。由此产生的防撞约束包含在最优控制问题 (OCP) 中，并与分离超平面方法进行比较进行评估。我们不仅观察到 Minkowski-sum 公式在我们的实验中计算效率更高，而且使用基于热启动轨迹的预先确定的过逼近参数导致次优性的增加非常有限。这就产生了一种新颖的实时方案，用于通过模型预测控制（MPC）进行无碰撞运动规划。约束公式的实时可行性和有效性都在具有挑战性的现实世界实验中得到了证明。

在对象操作的生成世界模型中表示位置信息

分类： 机器人技术, 人工智能

作者： Stefano Ferraro, Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Sai Rajeswar

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12005v2

摘要： 对象操纵能力是区分实体代理与世界互动的基本技能，尤其是在机器人领域。在这种情况下，预测与物体交互结果的能力至关重要。虽然基于模型的控制方法已开始用于处理操纵任务，但它们在准确操纵对象方面面临着挑战。当我们分析这种限制的原因时，我们通过当前世界模型表示关键位置信息的方式确定了性能不佳的原因，特别是关于目标定位任务的目标规范。我们引入了一种通用方法，使基于世界模型的代理能够有效地解决对象定位任务。我们提出了这种方法对于生成世界模型的两个偏向：位置条件（PCP）和潜在条件（LCP）策略学习。特别是，LCP 采用以对象为中心的潜在表示，可以显式捕获目标指定的对象位置信息。这自然会导致多模式功能的出现，从而能够通过空间坐标或视觉目标来指定目标。我们的方法在多个操纵环境中经过严格评估，与当前基于模型的控制方法相比，显示出良好的性能。

使用多模式对象实例重新识别实现全球本地化

分类： 机器人技术, 计算机视觉和模式识别, 68T40, I.2.9; I.2.10

作者： Aneesh Chavan, Vaibhav Agrawal, Vineeth Bhat, Sarthak Chittawar, Siddharth Srivastava, Chetan Arora, K Madhava Krishna

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12002v1

摘要： 重新识别（ReID）是计算机视觉领域的一个关键挑战，主要在行人和车辆的背景下进行研究。然而，鲁棒的对象实例 ReID 对自主探索、长期感知和场景理解等任务具有重大影响，但仍未得到充分探索。在这项工作中，我们通过提出一种新颖的双路径对象实例重新识别转换器架构来解决这一差距，该架构集成了多模态 RGB 和深度信息。通过利用深度数据，我们展示了在混乱或具有不同照明条件的场景中 ReID 的改进。此外，我们开发了一个基于 ReID 的定位框架，可以实现跨不同视点的准确相机定位和姿势识别。我们使用两个定制的 RGB-D 数据集以及开源 TUM RGB-D 数据集的多个序列来验证我们的方法。我们的方法展示了对象实例 ReID（mAP 为 75.18）和定位精度（TUM-RGBD 上的成功率为 83%）方面的显着改进，凸显了对象 ReID 在推进机器人感知方面的重要作用。我们的模型、框架和数据集已公开。

LMMCoDrive：大型多模式协同驾驶

分类： 机器人技术

作者： Haichao Liu, Ruoyu Yao, Zhenmin Huang, Shaojie Shen, Jun Ma

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11981v1

摘要： 为了解决自主按需出行 (AMoD) 系统中分散协作调度和运动规划的复杂挑战，本文介绍了 LMMCoDrive，这是一种新颖的协作驾驶框架，利用大型多模式模型 (LMM) 来提高动态城市中的交通效率环境。该框架无缝集成调度和运动规划流程，以确保协作自动驾驶车辆（CAV）的有效运行。 CAV 和乘客请求之间的空间关系被抽象为鸟瞰图 (BEV)，以充分发挥 LMM 的潜力。此外，每个 CAV 的轨迹都经过仔细细化，同时通过安全约束确保避免碰撞。提出了一种由 LMM 框架内的交替方向乘子法 (ADMM) 促进的去中心化优化策略来驱动 CAV 的图演化。仿真结果证明了 LMM 在优化 CAV 调度和增强每辆车的分散式协作优化过程中的关键作用和重大影响。这标志着朝着实现实用、高效和安全的 AMoD 系统迈出了一大步，这些系统有望彻底改变城市交通。该代码可在 https://github.com/henryhcliu/LMMCoDrive 获取。

动态环境中基于粒子的实例感知语义占用映射

分类： 机器人技术

作者： Gang Chen, Zhaoying Wang, Wei Dong, Javier Alonso-Mora

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11975v1

摘要： 使用实例感知语义和几何信息表示 3D 环境对于动态环境中的交互感知机器人至关重要。尽管如此，由于传感器噪声、实例分割和跟踪错误以及对象的动态运动，创建这种表示仍面临挑战。本文介绍了一种新颖的基于粒子的实例感知语义占用图来应对这些挑战。具有增强实例状态的粒子用于估计对象的概率假设密度（PHD）并对环境进行隐式建模。利用状态增强顺序蒙特卡罗 PHD (S$^2$MC-PHD) 滤波器，这些粒子被更新以联合估计占用状态、语义和实例 ID，从而减轻噪声。此外，还采用了内存模块来增强地图对先前观察到的物体的响应能力。 Virtual KITTI 2 数据集上的实验结果表明，所提出的方法在不同噪声条件下的多个指标上都超越了最先进的方法。随后使用真实数据的测试进一步验证了所提出方法的有效性。

基于图神经网络的度量语义因子图生成

分类： 机器人技术, 机器学习

作者： Jose Andres Millan-Romera, Hriday Bavle, Muhammad Shaheer, Holger Voos, Jose Luis Sanchez-Lopez

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11972v1

摘要： 理解几何结构和语义概念之间的关系对于构建复杂环境的准确模型至关重要。在室内，尽管布局发生变化，某些空间限制（例如平面的相对位置）仍保持一致。本文探讨了如何通过表示房间和墙壁等高级概念，并通过可优化的因子图将它们与平面等几何元素联系起来，在图 SLAM 框架中捕获这些不变关系。一些努力已经通过针对每个概念生成的附加解决方案和手动定义的因素来解决这个问题。本文提出了一种度量语义因子图生成的新方法，包括定义语义场景图、集成几何信息和学习互连因子，所有这些都基于图神经网络（GNN）。边缘分类网络 (G-GNN) 将平面之间的边缘分类为同一房间、同一墙壁或无类型。生成的关系被聚类，为每个聚类生成一个房间或墙壁。第二个网络系列 (F-GNN) 推断新节点的几何原点。因子的定义采用与生成节点的度量属性相同的 F-GNN。此外，与S-Graphs+算法共享新的因子图，扩展其图表达能力和场景表示能力，最终目标是提高SLAM性能。通过在 L 形房间上训练网络，环境的复杂性增加到 N 平面房间。由于没有所需复杂布局的真实数据集，因此在合成和模拟场景中评估该框架。

反应式碰撞避免实现安全敏捷导航

分类： 机器人技术

作者： Alessandro Saviolo, Niko Picello, Rishabh Verma, Giuseppe Loianno

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11962v1

摘要： 反应式避碰对于敏捷机器人在复杂和动态环境中导航、实现实时障碍物响应至关重要。然而，这项任务本身就具有挑战性，因为它需要感知、规划和控制的紧密集成，而传统方法通常单独处理这些任务，从而导致复杂的错误和延迟。本文介绍了一种新颖的方法，仅使用机载传感和计算将这些任务统一到单个反应框架中。我们的方法将非线性模型预测控制与自适应控制障碍函数相结合，将感知驱动的约束直接链接到实时规划和控制。通过使用神经网络来细化嘈杂的 RGB-D 数据、提高深度精度并选择具有最短碰撞时间的点来确定最直接的威胁的优先级，从而确定约束。为了保持安全性和敏捷性之间的平衡，启发式动态调整优化过程，实时防止过度约束。使用敏捷四旋翼飞行器进行的大量实验证明，它可以在不同的室内和室外环境中有效避免碰撞，而无需针对特定环境进行调整或显式映射。

基于学习的实时音乐伴奏人机协作钢琴演奏

分类： 机器人技术

作者： Huijiang Wang, Xiaoping Zhang, Fumiya Iida

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11952v1

摘要： 机器学习的最新进展为音乐和娱乐机器人的发展铺平了道路。然而，人机协作乐器演奏仍然是一个挑战，特别是由于复杂的运动协调和时间同步。在本文中，我们提出了一种基于非语言提示的人机合作钢琴演奏的理论框架。首先，我们提出了一种音乐即兴创作模型，该模型采用循环神经网络（RNN）根据人类的旋律输入来预测适当的和弦进行。其次，我们提出了一种行为自适应控制器，以促进无缝时间同步，使协作机器人能够产生和谐的声音。这种协作考虑了人类和机器人之间的双向信息流。我们开发了一种基于熵的系统，通过分析人机协作期间不同通信方式的影响来评估合作质量。实验表明，我们基于 RNN 的即兴创作可以达到 93% 的准确率。同时，通过MPC自适应控制器，机器人可以在实时伴奏下响应人类队友的谐音表演。我们设计的框架已被验证可以有效地允许人类和机器人在艺术钢琴演奏任务中协作。

GauTOAO：基于高斯的面向任务的对象可供性

分类： 机器人技术

作者： Jiawen Wang, Dingsheng Luo

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11941v1

摘要： 当您的机器人使用灵巧的手或抓手抓取物体时，它应该理解物体的面向任务的功能可供性（TOAO），因为不同的任务通常需要注意物体的特定部分。为了应对这一挑战，我们提出了 GauTOAO，一个基于高斯的面向任务的对象可供性框架，它在给定自然语言查询的情况下，以零样本的方式利用视觉语言模型来预测对象的可供性相关区域。我们的方法引入了一种新的范例：“静态相机，移动物体”，使机器人在操作过程中能够更好地观察和理解手中的物体。 GauTOAO 通过使用 DINO 特征提取全面的 3D 对象掩模，解决了现有方法的局限性，这些方法通常缺乏有效的空间分组。然后使用该掩码有条件地查询高斯，为指定任务的对象生成精细的语义分布。这种方法可以实现更准确的 TOAO 提取，增强机器人对物体的理解并提高任务性能。我们通过现实世界的实验验证了 GauTOAO 的有效性，展示了其泛化各种任务的能力。

机器人李群方向的强化学习

分类： 机器人技术, 机器学习

作者： Martin Schuck, Jan Brüdigam, Sandra Hirche, Angela Schoellig

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11935v1

摘要： 处理机器人和物体的方向是许多应用的一个重要方面。然而，在处理方向时，特别是在涉及人工神经网络等的学习管道中，经常缺乏数学正确性。在本文中，我们研究了具有方向的强化学习，并提出了一种遵循方向李群结构的网络输入和输出的简单修改。因此，我们获得了一种简单高效的实现，可以直接与现有的学习库一起使用，并且比其他常见的方向表示获得明显更好的性能。我们简要介绍了专门针对机器人技术方向的李理论，以激励和概述我们的方法。随后，对状态和动作的方向表示的不同组合进行彻底的实证评估，证明了我们提出的方法在不同场景中的优越性能，包括：直接方向控制、末端执行器方向控制和拾取放置任务。

Haptic-ACT：通过沉浸式 VR 将人类直觉与兼容的机器人操作联系起来

分类： 机器人技术

作者： Kelin Li, Shubham M Wagh, Nitish Sharma, Saksham Bhadani, Wei Chen, Chang Liu, Petar Kormushev

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11925v1

摘要： 机器人操纵对于机器人在工业和家庭环境中的广泛采用至关重要，并且长期以来一直是机器人社区的焦点。人工智能的进步引入了有前途的基于学习的方法来应对这一挑战，其中模仿学习尤其有效。然而，有效地获得高质量的演示仍然是一个挑战。在这项工作中，我们引入了一种基于 VR 的沉浸式远程操作设置，旨在收集远程人类用户的演示。我们还提出了一种模仿学习框架，称为 Haptic Action Chunking with Transformers (Haptic-ACT)。为了评估该平台，我们进行了拾放任务并收集了 50 个演示片段。结果表明，与没有触觉反馈的系统相比，沉浸式 VR 平台显着减少了演示者指尖的压力，从而实现更精细的操作。此外，在 MuJoCo 模拟器和真实机器人上对 Haptic-ACT 框架的评估表明，与原始 ACT 相比，它可以有效地教导机器人进行更顺从的操作。其他材料可在 https://sites.google.com/view/hapticact 上获取。

使用软夹具为扑翼机器人进行可重复的节能栖息

分类： 机器人技术

作者： Krispin C. V. Broers, Sophie F. Armanini

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11921v1

摘要： 随着新型扑翼微型飞行器 (FWMAV) 设计的出现，对广泛且先进的任务能力的需求出现了。 FWMAV 试图适应和模仿鸟类和飞虫的飞行特征。虽然当前的设计已经实现了高机动性，但它们仍然几乎完全缺乏栖息和起飞能力。例如，这些能力可以实现长期监测和监视任务，以及在杂乱环境或人类和动物附近的操作。我们展示了一个框架的开发和测试，该框架利用柔软、无损坏的夹具，使中小型 FWMAV 能够重复栖息和起飞。得益于其新颖的主动-被动驱动系统，可以在车辆停泊时实现并无限期地维持节能状态。所提出系统的原型重量低于 39 克，并在 110 克扑翼机器人上进行了广泛测试。成功的自由飞行测试展示了着陆、栖息和随后起飞的完整任务周期。飞行期间记录的遥测数据可以深入了解系统的行为，是迈向整个起飞和着陆周期的完全自动化和优化的宝贵一步。

上下文融合：情感状态识别的多模态方法

分类： 机器人技术

作者： Youssef Mohamed, Severin Lemaignan, Arzu Guneysu, Patric Jensfelt, Christian Smith

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11906v1

摘要： 准确识别人类情感是情感计算和人机交互（HRI）中的关键挑战。情绪状态在塑造行为、决策和社交互动方面发挥着至关重要的作用。然而，情绪表达可能会受到情境因素的影响，如果不考虑情境，就会导致误解。多模态融合结合了面部表情、语音和生理信号等模态，在改善情感识别方面显示出了希望。本文提出了一种基于变压器的多模态融合方法，该方法利用面部热数据、面部动作单元和文本上下文信息进行上下文感知情绪识别。我们探索特定于模态的编码器来学习定制的表示，然后使用加性融合进行融合，并由共享变压器编码器进行处理以捕获时间依赖性和交互。所提出的方法是在从参与有形桌面吃豆人游戏的参与者收集的数据集上进行评估的，该游戏旨在诱发各种情感状态。我们的结果证明了结合上下文信息和多模态融合来识别情感状态的有效性。

AlignBot：通过家用机器人的微调，将 VLM 支持的定制任务规划与用户提醒结合起来

分类： 机器人技术, 人工智能, 信息检索

作者： Zhaxizhuoma, Pengan Chen, Ziniu Wu, Jiawei Sun, Dong Wang, Peng Zhou, Nieqing Cao, Yan Ding, Bin Zhao, Xuelong Li

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11905v1

摘要： 本文介绍了 AlignBot，这是一种新颖的框架，旨在通过有效地与用户提醒保持一致来优化由 VLM 驱动的家用机器人的定制任务规划。在家庭环境中，由于提醒的数量有限、多样性和多模式性质，使任务计划与用户提醒保持一致提出了重大挑战。为了应对这些挑战，AlignBot 采用了经过微调的 LLaVA-7B 模型，作为 GPT-4o 的适配器。该适配器模型将多种形式的用户提醒（例如个性化偏好、纠正指导和上下文帮助）内化为结构化指令格式的提示，提示 GPT-4o 生成定制的任务计划。此外，AlignBot还集成了动态检索机制，可以选择与任务相关的历史成功案例作为GPT-4o的提示，进一步提高任务规划的准确性。为了验证 AlignBot 的有效性，我们在真实的家庭环境中进行了实验，这些环境是在实验室内构建的，以复制典型的家庭环境。包含来自志愿者提醒的 1,500 多个条目的多模式数据集用于培训和评估。结果表明，AlignBot 显着改进了定制任务规划，通过解释和与用户提醒进行协调，优于现有的由 LLM 和 VLM 驱动的规划器，与普通 GPT-4o 基线的 21.6% 相比，成功率达到 86.8%，提高了 65%效率提高四倍以上。补充材料可在以下网址获取：https://yding25.com/AlignBot/

自主四旋翼飞行器的安全控制系统抵御网络攻击

分类： 机器人技术, 密码学和安全, 机器学习

作者： Samuel Belkadi

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11897v1

摘要： 机器人系统的安全问题已得到广泛研究。然而，四旋翼飞行器等三维系统的安全问题却很少受到关注。恶意对手可能会破坏机器人传感器和通信网络，引发事故、实现非法目标，甚至造成人员伤害。本研究首先设计了自主四旋翼飞行器的智能控制系统。然后，研究了无人机最优虚假数据注入攻击调度和对策设计问题。使用最先进的基于深度学习的方法，提出了一种最佳的虚假数据注入攻击方案，以有限的攻击能量降低四旋翼飞行器的跟踪性能。随后，学习最佳跟踪控制策略以减轻攻击并恢复四旋翼飞行器的跟踪性能。我们的工作基于 Agilicious，这是一款最近部署用于自主设置的最先进的四旋翼飞行器。该论文是英国首次部署这种四旋翼飞行器并在其平台上实施强化学习。因此，为了以最小的工程开销促进轻松的再现性，我们进一步提供（1）该四旋翼飞行器的全面细分，包括软件堆栈和硬件替代方案； (2) 详细的强化学习框架，用于训练敏捷代理的自主控制器； (3) 基于 PyFlyt 的新开源环境，用于 Agilicious 平台上的未来强化学习研究。进行模拟和现实实验来证明第 5.2 节中提出的框架的有效性。

SpotLight：通过交互和可供性检测来理解机器人场景

分类： 机器人技术

作者： Tim Engelbracht, René Zurbrügg, Marc Pollefeys, Hermann Blum, Zuria Bauer

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11870v1

摘要： 尽管对家用机器人的研究力度不断加大，但用于家庭环境中部署的机器人仍然难以完成更复杂的任务，例如与抽屉或电灯开关等功能元件交互，这很大程度上是由于特定任务的理解和交互能力有限。这些任务不仅需要检测和姿态估计，还需要了解这些元素提供的功能可供性。为了应对这些挑战并增强机器人场景理解，我们推出了 SpotLight：一个用于机器人与功能元素（特别是电灯开关）交互的综合框架。此外，该框架使机器人能够通过交互来提高对环境的理解。利用基于 VLM 的可供性预测来估计灯开关交互的运动基元，我们在现实世界的实验中实现了高达 84% 的操作成功率。我们进一步引入了包含 715 张图像的专用数据集以及用于灯开关检测的自定义检测模型。我们演示了该框架如何通过让机器人探索环境并发现场景图表示中以前未知的关系来促进机器人通过物理交互进行学习。最后，我们建议对框架进行扩展，以适应其他功能交互，例如平开门，展示其灵活性。视频和代码：timengelbracht.github.io/SpotLight/

从多阶段接触丰富操作的多模态演示学习任务规划

分类： 机器人技术, 人工智能

作者： Kejia Chen, Zheng Shen, Yue Zhang, Lingyun Chen, Fan Wu, Zhenshan Bing, Sami Haddadin, Alois Knoll

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11863v1

摘要： 大型语言模型 (LLM) 在长范围操作任务的任务规划中越来越受欢迎。为了提高大语言模型生成计划的有效性，视觉演示和在线视频已被广泛采用来指导规划过程。然而，对于涉及微妙动作但丰富接触交互的操作任务，仅靠视觉感知可能不足以让大语言模型充分解释演示。此外，视觉数据提供了与力相关的参数和条件的有限信息，这对于真实机器人的有效执行至关重要。在本文中，我们介绍了一种情境学习框架，该框架结合了来自人类演示的触觉和力-扭矩信息，以增强大语言模型为新任务场景生成计划的能力。我们提出了一个引导推理管道，它将每种模式依次集成到一个全面的任务计划中。然后，该任务计划将用作新任务配置中规划的参考。对两种不同顺序操作任务的真实世界实验证明了我们的框架在提高大语言模型对多模式演示的理解和提高整体规划性能方面的有效性。

非朗伯环境中基于物理的光度束调整

分类： 机器人技术, 计算机视觉和模式识别

作者： Lei Cheng, Junpeng Hu, Haodong Yan, Mariia Gladkova, Tianyu Huang, Yun-Hui Liu, Daniel Cremers, Haoang Li

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11854v1

摘要： 光度束平差 (PBA) 广泛用于通过假设朗伯世界来估计相机位姿和 3D 几何形状。然而，由于非漫反射在现实环境中很常见，因此光度一致性的假设经常被违反。光度不一致显着影响现有 PBA 方法的可靠性。为了解决这个问题，我们提出了一种新颖的基于物理的 PBA 方法。具体来说，我们介绍了有关材料、照明和光路的基于物理的权重。这些权重区分具有不同光度不一致程度的像素对。我们还设计了相应的基于序列图像的材料估计和基于点云的照明估计的模型。此外，我们建立了第一个与 SLAM 相关的非朗伯场景数据集，具有完整的光照和材质的地面实况。大量实验表明，我们的 PBA 方法在准确性方面优于现有方法。

XP-MARL：多智能体强化学习中的辅助优先级处理非平稳性

分类： 机器人技术, 计算机科学与博弈论, 多代理系统

作者： Jianye Xu, Omar Sobhy, Bassam Alrifaee

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11852v1

摘要： 非平稳性对多智能体强化学习（MARL）提出了根本性挑战，这是由于智能体同时学习和改变其策略而产生的。从每个个体的角度来看，这会创建一个非平稳的环境，通常会导致学习结果不理想甚至不收敛。我们提出了一个名为 XP-MARL 的开源框架，它通过辅助优先级来增强 MARL，以应对合作环境中的这一挑战。 XP-MARL 1) 基于我们的假设，即对代理进行优先级排序并让较高优先级的代理首先建立其操作将稳定学习过程，从而减轻非平稳性；2) 由我们提出的称为操作传播的机制实现，其中较高优先级的代理代理首先采取行动并传达他们的行为，为其他人提供一个更加稳定的环境。此外，XP-MARL 不使用预定义或启发式优先级分配，而是通过辅助 MARL 问题学习优先级分配策略，从而形成联合学习方案。涉及联网和自动驾驶车辆 (CAV) 的运动规划场景中的实验表明，XP-MARL 将基线模型的安全性提高了 84.4%，并且优于最先进的方法，后者仅将基线提高了 12.8% 。代码：github.com/cas-lab-munich/sigmarl

RaggeDi：基于扩散的无序抹布、床单、毛巾和毯子的状态估计

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Jikai Ye, Wanze Li, Shiraz Khan, Gregory S. Chirikjian

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11831v1

摘要： 布料状态估计是机器人技术中的一个重要问题。对于机器人来说，了解准确的状态对于操纵布料和执行机器人穿衣、缝合、遮盖/揭开人类等任务至关重要。然而，由于其高度灵活性和自遮挡，准确估计布料状态仍然具有挑战性。本文提出了一种基于扩散模型的流程，通过将布料状态表示为 RGB 图像，将布料状态估计公式化为图像生成问题，该图像描述了预定义的展平网格与变形网格之间的逐点平移（平移图）。规范空间中的网格。然后，我们训练基于条件扩散的图像生成模型来根据观察预测平移图。在模拟和现实世界中进行实验以验证我们方法的性能。结果表明，我们的方法在准确性和速度方面都优于两种最近的方法。

RoboMorph：机器人动力学建模的上下文元学习

分类： 机器人技术

作者： Manuel Bianchi Bazzi, Asad Ali Shahid, Christopher Agia, John Alora, Marco Forgione, Dario Piga, Francesco Braghin, Marco Pavone, Loris Roveda

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11815v1

摘要： 随着基于 Transformer 的架构的普遍采用，深度学习的格局经历了重大转变，特别是在自然语言处理 (NLP) 领域。人们已经探索了物理应用的新途径，例如求解偏微分方程和图像视觉。然而，在机器人等具有挑战性的领域，高非线性带来了重大挑战，基于 Transformer 的应用程序很少。虽然 Transformer 已被用来为机器人提供有关高级任务的知识，但在执行系统识别方面却很少做出努力。本文提出了一种新颖的方法来学习高维物理系统（例如 Franka 机械臂）的元动力学模型，使用基于 Transformer 的架构，无需事先了解系统的物理参数。目标是在给定每个关节的扭矩信号的情况下预测感兴趣的量（末端执行器姿势和关节位置）。该预测可用作机器人技术中深度模型预测控制框架的组件。元模型建立了扭矩和位置之间的相关性，并预测完整轨迹的输出。这项工作提供了上下文学习范式有效性的经验证据，表明未来在不明确了解物理参数的情况下学习机器人系统动力学的改进。代码、视频和补充材料可以在项目网站上找到。请参阅 https://sites.google.com/view/robomorph/

从移动平台抓取基于钩子的空中有效负载

分类： 机器人技术, 系统与控制, 系统与控制

作者： Péter Antal, Tamás Péni, Roland Tóth

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11788v1

摘要： 本文研究了使用配备钩子的空中机械手从移动平台抓取有效负载。首先，提出了一种基于互补约束的计算高效轨迹优化来确定最佳抓取时间。为了在复杂、动态变化的环境中应用，需要使用基于物理模拟器的模型来预测有效负载的未来运动。通过基于积分二次约束的鲁棒性分析方法，对模型不确定性和外部干扰下有效载荷抓取的成功进行了形式化验证。所提出的算法在高保真物理模拟器中进行评估，并在使用定制设计的空中操纵器平台的真实飞行实验中进行评估。

一张地图即可找到所有内容：用于零样本多对象导航的实时开放词汇映射

分类： 机器人技术, 人工智能

作者： Finn Lukas Busch, Timon Homberger, Jesús Ortega-Peimbert, Quantao Yang, Olov Andersson

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11764v1

摘要： 在复杂环境中有效搜索物体的能力是许多现实世界机器人应用的基础。开放词汇视觉模型的最新进展带来了语义信息对象导航方法，使机器人无需事先训练即可搜索任意对象。然而，到目前为止，这些零样本方法对于每个连续查询都将环境视为未知。在本文中，我们引入了零射击多目标导航的新基准，允许机器人利用从先前搜索中收集的信息来更有效地找到新目标。为了解决这个问题，我们构建了一个专为实时对象搜索而定制的可重用的开放词汇特征图。我们进一步提出了一种概率语义图更新，可以减少语义特征提取中常见的错误来源，并利用这种语义不确定性进行知情的多对象探索。我们在模拟以及在 Jetson Orin AGX 上实时运行的真实机器人上评估了一组对象导航任务的方法。我们证明它在单目标和多目标导航任务上都优于现有的最先进方法。其他视频、代码和多对象导航基准将在 https://finnbsch.github.io/OneMap 上提供。

RockTrack：3D 鲁棒多摄像头-Ken 多对象跟踪框架

分类： 计算机视觉和模式识别, 机器人技术

作者： Xiaoyu Li, Peidong Li, Lijun Zhao, Dedong Liu, Jinghan Gao, Xian Wu, Yitao Wu, Dixiao Cui

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11749v1

摘要： 随着 3D 对象检测的快速进步，3D 多对象跟踪 (MOT) 获得了显着的性能改进，特别是在经济高效的多摄像头设置中。然而，多摄像头跟踪器流行的端到端训练方法会产生特定于探测器的模型，从而限制了它们的多功能性。此外，当前的通用跟踪器忽略了多摄像头探测器的独特功能，即运动观察的不可靠性和视觉信息的可行性。为了应对这些挑战，我们提出了 RockTrack，一种用于多摄像机探测器的 3D MOT 方法。遵循“按检测跟踪”框架，RockTrack 与各种现成的检测器兼容。 RockTrack 结合了置信引导的预处理模块，可从单个探测器的不同表示空间中提取可靠的运动和图像观测结果。然后将这些观察结果融合到关联模块中，该模块利用几何和外观线索来最大限度地减少不匹配。产生的匹配通过分阶段的估计过程传播，形成启发式噪声建模的基础。此外，我们引入了一种新颖的外观相似性度量，用于明确表征多相机设置中的对象亲和力。 RockTrack 在 nuScenes 纯视觉跟踪排行榜上以 59.1% AMOTA 实现了最先进的性能，同时展示了令人印象深刻的计算效率。

多机器人连接实现集体障碍场穿越

分类： 机器人技术, 多代理系统

作者： Haodi Hu, Xingjue Liao, Wuhao Du, Feifei Qian

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11709v1

摘要： 地形高度变化较大的环境对腿式机器人的运动提出了巨大的挑战。受到火蚁集体组装行为的启发，我们研究了一些策略，可以使两个“可连接”机器人共同在高度变化大于机器人腿长的崎岖地形上导航。每个机器人都设计得极其简单，有一个立方体主体和一个旋转电机，驱动四个成对移动的垂直木腿。两个或多个机器人可以物理上相互连接，以增强集体移动性。我们用两个机器人组进行了运动实验，穿过充满均匀分布的半球形“巨石”的障碍物场。实验测量的机器人速度表明，机器人之间的连接长度对集体移动性有显着影响：[0.86，0.9]机器人单位身体长度（UBL）中的连接长度C能够产生跨越障碍物场的可持续运动，而连接[0.63, 0.84] 和 [0.92, 1.1] UBL 中的长度 C 导致可遍历性较低。基于能量景观的模型揭示了连接长度如何通过系统的势能景观调节集体移动性的基本机制，并为双机器人系统提供了适应策略，以调整其连接长度以穿越具有不同空间频率的障碍物场。我们的结果表明，通过改变机器人之间的连接配置，双机器人系统可以利用机械智能更好地利用障碍物相互作用力并产生改进的运动。展望未来，我们设想机器人与环境耦合的通用原理可以为一大群小型机器人的设计和控制策略提供信息，以实现类似蚂蚁的集体环境协商。

使用铰接对象的分析本体模板发现概念知识

分类： 机器人技术, 计算机视觉和模式识别

作者： Jianhua Sun, Yuxuan Li, Longfei Xu, Jiude Wei, Liang Chai, Cewu Lu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11702v1

摘要： 人类认知可以利用几何和运动学等基本概念知识来正确感知、理解新物体并与之交互。受这一发现的激励，我们的目标是通过在概念层面上执行，赋予机器智能类似的能力，以便理解铰接的对象，然后与铰接的对象进行交互，特别是对于那些新类别的对象，由于复杂的几何结构和复杂的几何结构，这具有挑战性。铰接物体的多种关节类型。为了实现这一目标，我们提出了分析本体模板（AOT），这是广义概念本体的参数化和可微的程序描述。相应地设计了由 AOT 驱动的称为 AOTNet 的基线方法，为智能代理配备这些通用概念，然后使代理能够有效地发现有关铰接对象的结构和可供性的概念知识。 AOT 驱动的方法在三个关键方面带来好处：i）在不依赖任何真实训练数据的情况下实现对铰接对象的概念级理解，ii）提供分析结构信息，以及 iii）引入指示正确交互方式的丰富可供性信息。我们进行了详尽的实验，结果证明了我们的方法在理解铰接物体并与之交互方面的优越性。

RMP-YOLO：即使您只看一次，也可用于部分可观察场景的鲁棒运动预测器

分类： 机器人技术

作者： Jiawei Sun, Jiahui Li, Tingchen Liu, Chengran Yuan, Shuo Sun, Zefan Huang, Anthony Wong, Keng Peng Tee, Marcelo H. Ang Jr

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11696v1

摘要： 我们引入了 RMP-YOLO，这是一个统一的框架，旨在即使在输入数据不完整的情况下也能提供稳健的运动预测。我们的关键见解源于这样的观察：完整且可靠的历史轨迹数据在确保准确的运动预测方面发挥着关键作用。因此，我们提出了一种新的范式，在将完整的历史轨迹输入预测模块之前优先重建完整的历史轨迹。我们的方法引入了一种新颖的场景标记化模块来增强空间和时间特征的提取和融合。接下来，我们提出的恢复模块通过利用本地地图拓扑和与附近代理的交互来重建代理的不完整历史轨迹。然后将重建的、干净的历史数据集成到下游预测模块中。我们的框架能够有效地处理不同长度的缺失数据，并对观测噪声保持鲁棒性，同时保持较高的预测精度。此外，我们的恢复模块与现有的预测模型兼容，确保无缝集成。大量的实验验证了我们方法的有效性，并且在现实世界的自动驾驶车辆中的部署证实了其实用性。在 2024 年 Waymo 运动预测竞赛中，我们的方法 RMP-YOLO 取得了最先进的性能，获得了第三名。

从文字到车轮：自动驾驶定制策略生成

分类： 机器人技术

作者： Xu Han, Xianda Chen, Zhenghan Cai, Pinlong Cai, Meixin Zhu, Xiaowen Chu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11694v1

摘要： 自动驾驶技术发展迅速，基础模型改善了交互性和用户体验。然而，当前的自动驾驶汽车 (AV) 在提供基于命令的驾驶方式方面面临着重大限制。大多数现有方法要么依赖于需要专家输入的预定义驾驶风格，要么使用逆强化学习等数据驱动技术从驾驶数据中提取风格。这些方法虽然在某些情况下有效，但面临挑战：难以获取用于风格匹配的特定驾驶数据（例如，在 Robotaxis 中），无法将驾驶风格指标与用户偏好保持一致，以及对现有风格的限制，限制定制和泛化新命令。本文介绍了Words2Wheels，这是一个基于自然语言用户命令自动生成定制驾驶策略的框架。 Words2Wheels 采用风格定制奖励功能来生成风格定制驾驶政策，而无需依赖先前的驾驶数据。通过利用大型语言模型和驾驶风格数据库，该框架可以有效地检索、调整和概括驾驶风格。统计评估模块确保与用户偏好保持一致。实验结果表明，Words2Wheels 在准确性、泛化性和适应性方面优于现有方法，为定制 AV 驾驶行为提供了一种新颖的解决方案。代码和演示位于 https://yokhon.github.io/Words2Wheels/。

SLAM辅助腹腔镜手术3D跟踪系统

分类： 机器人技术, 计算机视觉和模式识别

作者： Jingwei Song, Ray Zhang, Wenwei Zhang, Hao Zhou, Maani Ghaffari

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11688v1

摘要： 微创手术的一个主要限制是由于缺乏触觉反馈和透明度而难以准确定位目标器官的内部解剖结构。增强现实 (AR) 为克服这一挑战提供了一个有前途的解决方案。大量研究表明，结合基于学习和几何的方法可以实现准确的术前和术中数据配准。这项工作提出了一种用于配准后任务的实时单目 3D 跟踪算法。采用并修改了 ORB-SLAM2 框架以实现基于先验的 3D 跟踪。原始 3D 形状用于单目 SLAM 的快速初始化。采用伪分割策略将目标器官与背景分离以用于跟踪目的，并且 3D 形状的几何先验被纳入姿势图中作为附加约束。体内和体外测试表明，所提出的 3D 跟踪系统提供了强大的 3D 跟踪，并有效地处理了快速运动、视野外场景、部分可见性和“器官背景”等典型挑战。 ” 相对运动。

基于超图的多模态交互关系推理运动生成

分类： 机器人技术, 人工智能, 机器学习, 多代理系统

作者： Keshu Wu, Yang Zhou, Haotian Shi, Dominique Lord, Bin Ran, Xinyue Ye

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11676v1

摘要： 现实世界驾驶环境的复杂性，其特点是多辆车辆之间及其未来可能的状态之间动态和多样化的相互作用，这对准确预测车辆的运动状态和处理预测中固有的不确定性提出了相当大的挑战。应对这些挑战需要全面的建模和推理，以捕获车辆之间的隐含关系以及相应的不同行为。本研究引入了自动驾驶车辆 (AV) 运动预测的集成框架，利用新型关系超图交互通知神经运动生成器 (RHINO) 来解决这些复杂性。 RHINO 通过集成多尺度超图神经网络来利用基于超图的关系推理，对多辆车之间的分组交互及其多模式驾驶行为进行建模，从而提高运动预测的准确性和可靠性。使用真实世界数据集的实验验证证明了该框架在提高预测准确性和在动态交通场景中促进社会意识自动驾驶方面具有卓越的性能。

学习加速 A* 搜索风险意识路径规划

分类： 机器人技术

作者： Jun Xiang, Junfei Xie, Jun Chen

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11634v1

摘要： 安全是自主无人机城市飞行的一个关键问题。在人口稠密的环境中，应考虑风险以产生有效且安全的路径，称为风险感知路径规划。风险感知路径规划可以建模为约束最短路径（CSP）问题，旨在识别符合指定安全阈值的最短可能路径。 CSP 是 NP 难题，带来了巨大的计算挑战。虽然许多传统方法可以准确地解决它，但它们都非常慢。我们的方法为传统 A*（称为 ASD A*）引入了额外的安全维度，使 A* 能够处理 CSP。此外，我们使用基于变压器的神经网络开发了一种基于定制学习的启发式算法，这显着减少了计算负载并提高了 ASD A* 算法的性能。所提出的方法在随机和现实模拟场景中都得到了很好的验证。

三自由度软连续动觉触觉显示器，用于通过手指感觉替代进行遥控操作

分类： 机器人技术, 人机交互, 系统与控制, 系统与控制

作者： Jiaji Su, Kaiwen Zuo, Zonghe Chua

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11606v1

摘要： 感觉替代是在时间延迟下向远程操作员显示稳定触觉反馈的有效方法。手指的关节活动度很高，可以感知多个方向的运动和力，这使其成为基于动觉反馈的感觉替代的有前途的位置。然而，现有的手指动觉设备要么仅提供单自由度反馈，要么体积庞大，要么力输出低。软气动执行器具有高功率密度，使其适合以紧凑的外形尺寸实现高力动觉反馈。我们提出了一种用于食指的软气动手持式动觉反馈装置，该装置使用恒定曲率运动学模型进行控制。 \changed{其横向位置和受力范围分别为+-3.18mm和+-1.00N，纵向为+-4.89mm和+-6.01N，表明其高功率密度和紧凑性。运动学模型的平均开环径向位置和力精度分别为0.72mm和0.34N。}其3Hz带宽使其适合软环境中的中速触觉交互。我们展示了我们的设备的三维动觉力反馈能力，用于在虚拟遥控场景中的索引数字处进行感觉替代。

有界理性代理的上下文生成默认策略

分类： 机器人技术

作者： Durgakant Pushp, Junhong Xu, Zheng Chen, Lantao Liu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11604v1

摘要： 有界理性主体通常通过评估有限的选择来做出决策，这些选择通常是根据以前的经验从称为“默认策略”的参考点得出的。然而，静态默认策略固有的刚性给智能体在未知环境中操作时带来了重大挑战，而这些挑战不包括在智能体的先验知识中。在这项工作中，我们引入了一种上下文生成默认策略，该策略利用机器人观察到的区域来预测环境中未观察到的部分，从而使机器人能够根据实际观察到的地图和 $\textit 自适应地调整其默认策略{想象}$未观察到的地图。此外，有限理性框架的自适应性质使机器人能够通过选择性地采样默认策略附近的一些轨迹来管理不可靠或不正确的想象力。我们的方法利用扩散模型进行地图预测，并利用基于采样的规划和 B 样条轨迹优化来生成默认策略。广泛的评估表明，上下文生成策略在识别和避免看不见的障碍方面优于基线方法。此外，使用 Crazyflie 无人机进行的现实世界实验证明了我们提出的方法的适应性，即使在训练分布域之外的环境中也是如此。

PLATO：利用大语言模型和工具操作的可供性进行规划

分类： 机器人技术

作者： Arvind Car, Sai Sravan Yarlagadda, Alison Bartsch, Abraham George, Amir Barati Farimani

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11580v1

摘要： 随着机器人系统越来越多地集成到复杂的现实世界环境中，越来越需要一种方法，使机器人能够理解自然语言指令并根据自然语言指令采取行动，而无需依赖于对其周围环境的广泛预编程知识。本文介绍了 PLATO，这是一种创新系统，它通过利用专门的大型语言模型代理来处理自然语言输入、了解环境、预测工具可供性并为机器人系统生成可执行操作，从而应对这一挑战。与依赖于硬编码环境信息的传统系统不同，PLATO 采用专门代理的模块化架构，无需对环境有任何初始了解即可运行。这些代理识别场景中的对象及其位置，生成全面的高级计划，将该计划转换为一系列低级操作，并验证每个步骤的完成情况。该系统特别针对具有挑战性的工具使用任务进行了测试，其中涉及处理不同的物体并需要长期规划。 PLATO 的设计使其能够适应动态和非结构化设置，显着增强其灵活性和鲁棒性。通过在各种复杂场景中评估系统，我们展示了其处理各种任务的能力，并提供了一种将大语言模型与机器人平台集成的新颖解决方案，从而推进了自主机器人任务执行的最先进水平。有关视频和提示详细信息，请参阅我们的项目网站：https://sites.google.com/andrew.cmu.edu/plato

使用不变扩展卡尔曼滤波进行 3D 水质测绘用于水下机器人定位

分类： 机器人技术

作者： Kaustubh Joshi, Tianchen Liu, Alan Williams, Matthew Gray, Xiaomin Lin, Nikhil Chopra

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11578v1

摘要： 温度、盐度和浊度等关键参数的水质测绘对于评估水产养殖场的健康和产量能力至关重要。传统方法涉及使用船只或人类潜水员，这些方法具有时间限制且缺乏深度可变性。这项工作提出了一种使用配备 GPS 和水质传感器的 BlueROV2 在浅水环境中进行 3D 水质测绘的创新方法。该系统允许在发生错误时通过重新定位来进行准确的位置校正。这项研究是在美国切萨皮克湾的一个牡蛎养殖场进行的，旨在为水产养殖环境提供更全面、更精确的水质分析。

VertiEncoder：垂直挑战性地形上的自监督运动动力学表示学习

分类： 机器人技术

作者： Mohammad Nazeri, Aniket Datar, Anuj Pokhrel, Chenhui Pan, Garrett Warnell, Xuesu Xiao

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11570v1

摘要： 我们推出了 VertiEncoder，这是一种用于机器人在垂直挑战性地形上移动的自监督表示学习方法。使用相同的预训练过程，VertiEncoder 可以处理四种不同的下游任务，包括正向运动动力学学习、逆向运动动力学学习、行为克隆和使用单一表示的补丁重建。 VertiEncoder 使用 TransformerEncoder 通过随机掩蔽和下一个补丁重建来了解其周围环境的局部上下文。我们表明，与参数减少 77% 的专用端到端模型相比，VertiEncoder 在所有四种不同任务中都实现了更好的性能。我们还展示了 VertiEncoder 与现实世界机器人部署中最先进的运动动力学建模和规划方法的性能相当。这些结果强调了 VertiEncoder 在减轻过度拟合和促进跨不同环境背景和下游车辆运动动力学任务的更强大泛化方面的功效。

Hyper-SAMARL：基于超图的多机器人系统协调任务分配和社交感知导航

分类： 机器人技术, 多代理系统

作者： Weizheng Wang, Aniket Bera, Byung-Cheol Min

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11561v1

摘要： 由多个机器人组成的团队在充满人类的公共环境中无缝、安全地工作，需要自适应任务分配和社会意识导航来解释动态人类行为。当前的方法难以应对高度动态的行人运动以及灵活任务分配的需求。我们提出了 Hyper-SAMARL，这是一种基于超图的系统，利用多智能体强化学习（MARL）进行多机器人任务分配和社交感知导航。 Hyper-SAMARL 使用超图对机器人、人类和兴趣点 (POI) 之间的环境动态进行建模，从而通过超图扩散机制实现自适应任务分配和社交兼容导航。我们的框架经过 MARL 训练，可以有效捕获机器人和人类之间的交互，根据人类活动的实时变化来调整任务。实验结果表明，Hyper-SAMARL 在社交导航、任务完成效率以及各种模拟场景的适应性方面均优于基线模型。

开集语义不确定性感知度量语义图匹配

分类： 机器人技术, 计算机视觉和模式识别

作者： Kurran Singh, John J. Leonard

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11555v1

摘要： 水下对象级测绘需要结合视觉基础模型来处理海洋场景中遇到的不常见且通常以前未见过的对象类。在这项工作中，计算了视觉基础模型产生的开放集对象检测的语义不确定性度量，然后将其合并到对象级不确定性跟踪框架中。对象级不确定性和对象之间的几何关系用于实现未知对象类的鲁棒对象级闭环检测。上述闭环检测问题被表述为图匹配问题。虽然图匹配通常是 NP 完全的，但在多个具有挑战性的水下场景中测试了所提出的图匹配问题的等效公式作为图编辑问题的求解器。该求解器以及其他三个求解器的结果表明，所提出的方法可在海洋环境中实时用于鲁棒、开放集、多对象、语义不确定性感知的闭环检测。 KITTI 数据集上的进一步实验结果表明该方法可以推广到大规模陆地场景。

二维笛卡尔网格上全局最优一对多路径规划的精确波前传播

分类： 机器人技术, 计算几何

作者： Ibrahim Ibrahim, Joris Gillis, Wilm Decré, Jan Swevers

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11545v1

摘要： 本文介绍了一种高效的 $\mathcal{O}(n)$ 计算和内存复杂度算法，用于二维笛卡尔网格上的全局最优路径规划。与依赖于 Eikonal 方程的近似离散解的现有行进方法不同，我们的方法通过基于可见性旋转解析距离函数来实现精确的波前传播。该算法利用动态编程子例程来有效评估可见性查询。通过与最先进的任意角度路径规划器进行基准测试，我们证明我们的方法在速度和准确性方面都优于现有方法，特别是在杂乱的环境中。值得注意的是，我们的方法本质上提供了到所有网格点的全局最优路径，消除了每个路径查询额外的梯度下降步骤的需要。相同的功能可以扩展到多个起始位置。我们还提供了算法的贪婪版本以及求解器的开源 C++ 实现。

增强 LiDAR 点云采样的可靠性：基于 LiDAR 生成图像的彩色化和超分辨率方法

分类： 机器人技术

作者： Sier Ha, Honghao Du, Xianjia Yu, Jian Song, Tomi Westerlund

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11532v1

摘要： 近年来，光探测和测距（LiDAR）技术作为机器人和自主系统中的关键传感器，取得了显着的进步。这些改进包括增强的点云分辨率以及提供 360{\deg} 低分辨率图像的能力。这些图像在像素内编码各种数据，例如深度、反射率和近红外光。然而，过多的点密度和传统的点云采样可能会适得其反，特别是在激光雷达里程计等应用中，误导性的点和退化的几何信息可能会引起漂移误差。目前，广泛的研究工作致力于利用激光雷达生成的图像来提高态势感知能力。本文全面回顾了当前的深度学习 (DL) 技术，包括传统计算机视觉任务中使用的彩色化和超分辨率。这些技术应用于激光雷达生成的图像并进行定性分析。基于此分析，我们开发了一种新颖的方法，有选择地将最适合的着色和超分辨率方法与 LiDAR 图像集成，以从 LiDAR 点云中采样可靠的点。这种方法的目的不仅是提高点云配准的准确性，而且可以避免由于缺乏几何信息而导致的失配，从而增强激光雷达系统在实际应用中的实用性和精度。在我们的评估中，与我们之前的工作相比，所提出的方法表现出了卓越的性能，以减少的点数实现了较低的平移和旋转误差。

${\tt KRAFT}$：对车辆系统的近似识别模型进行基于采样的运动动力学重新规划和反馈控制

分类： 机器人技术, I.2.9; I.2.8

作者： Aravind Sivaramakrishnan, Sumanth Tangirala, Dhruv Metha Ramesh, Edgar Granados, Kostas E. Bekris

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11522v1

摘要： 本文的目的是在给定轻量级近似动力学模型的情况下，提高具有非平凡动力学的机器人执行规划轨迹的安全性和可靠性。场景包括移动机器人在具有不完美建模表面和未知摩擦力的工作空间中导航。所提出的方法，带有反馈跟踪的近似模型的运动动力学重新规划（KRAFT），集成了：（i）通过基于渐近最优采样的运动动力学树规划器进行重新规划，（ii）通过反馈控制进行轨迹跟踪，以及（iii）安全机制以减少二阶动力学引起的碰撞。规划和控制组件使用通过微分方程分析表达的粗略动力学模型，该模型通过训练环境中的系统识别（SysId）进行调整，而不是部署环境中的系统识别。这使得该过程能够快速进行，并在每个重新计划周期内实现长期推理。与此同时，即使在 SysID 之后，在新环境中，该模型仍然与现实存在差距。实验证明了运动路径规划和路径跟踪方法的局限性，强调了以下几点的重要性：(a) 在规划层面关闭反馈环路； (b) 长视野推理，在模型不准确的情况下安全高效地执行轨迹。

使用混合整数线性规划的刚体路径规划

分类： 机器人技术

作者： Mingxin Yu, Chuchu Fan

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11520v1

摘要： 在拥挤的环境中导航刚体物体可能具有挑战性，尤其是在狭窄的通道中。现有的基于采样的规划器和基于优化的方法（例如混合整数线性规划（MILP）公式）在工作空间大小或障碍物数量方面都受到有限的可扩展性的影响。为了解决可扩展性问题，我们提出了一种三阶段算法，首先在工作空间中生成无碰撞的凸多面体图，然后提出一大组小型 MILP 来生成多面体之间的可行路径，最后查询一对在线可行路径的开始和结束配置。凸多胞形图用作自由工作空间的分解，并且通过将子问题限制在两个或三个自由多胞形而不是整个自由区域内来限制每个 MILP 中的决策变量的数量。我们的模拟结果表明，与基线方法相比，在线计算时间更短，并且在 2D 和 3D 环境中比基于采样的规划器更好地适应环境大小和隧道宽度。

通过参考图像分割和几何约束在显着视觉中进行机器人操作

分类： 机器人技术, 计算机视觉和模式识别

作者： Chen Jiang, Allie Luo, Martin Jagersand

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11518v1

摘要： 在本文中，我们通过将紧凑的参考图像分割模型集成到机器人的感知模块中，在具有语言上下文的现实环境中执行机器人操作活动。首先，我们提出 CLIPU$^2$Net，这是一种轻量级参考图像分割模型，专为语言表达的细粒度边界和结构分割而设计。然后，我们将该模型部署在手眼视觉伺服系统中，以在现实世界中实现机器人控制。我们系统的关键是将显着视觉信息表示为几何约束，将机器人的视觉感知与可操作的命令联系起来。 46 个现实世界机器人操作任务的实验结果表明，我们的方法优于依赖于劳动密集型特征注释的传统视觉伺服方法，擅长以 6.6 MB 的紧凑解码器大小进行细粒度参考图像分割，并支持跨多种机器人控制上下文。

Good Grasps Only：使用抓取姿势进行自监督微调姿势估计的数据引擎以进行验证

分类： 机器人技术, 计算机视觉和模式识别

作者： Frederik Hagelskjær

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11512v1

摘要： 在本文中，我们提出了一种用于分箱拾取的姿态估计自监督微调的新方法。利用零镜头姿态估计，我们的方法使机器人能够自动获取训练数据，而无需手动标记。在姿势估计之后，抓取物体，并使用手中的姿势估计来进行数据验证。我们的管道允许系统在流程运行时进行微调，从而无需学习阶段。我们工作背后的动机在于快速设置姿态估计解决方案的需要。具体来说，我们解决了垃圾箱拣选这一具有挑战性的任务，这在灵活的机器人设置中发挥着关键作用。我们的方法在机器人工作单元上实施，并用四个不同的物体进行测试。对于所有对象，我们的方法都提高了性能，并且优于在对象 CAD 模型上训练的最先进方法。

用于步态训练的单向人-机器人-人物理交互

分类： 机器人技术

作者： Lorenzo Amato, Lorenzo Vianello, Emek Baris Kucuktabak, Clement Lhoste, Matthew Short, Daniel Ludvig, Kevin Lynch, Levi Hargrove, Jose L. Pons

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11510v1

摘要： 这项工作提出了一种新颖的康复框架，专为治疗师设计，穿着惯性测量单元（IMU）套装，与运动障碍患者佩戴的下肢外骨骼进行虚拟交互。该框架旨在将治疗师的技能和知识与外骨骼的功能相协调。治疗师可以通过移动自己的关节来引导患者的动作，并进行实时调整，以满足患者的需求，同时减少治疗师的体力消耗。这消除了患者需要遵循的预定义轨迹，如传统的机器人步态训练。对于治疗师和患者之间的虚拟交互介质，我们提出了一种在低频时僵硬而在高频时不太僵硬的阻抗曲线，可以根据患者的个体需求和不同的康复阶段进行定制。来自该介质的所需相互作用扭矩被命令到整个外骨骼闭环补偿控制器。所提出的虚拟交互框架通过一对未受损的个体在不同的师生步态训练练习中进行了评估。结果表明，所提出的交互控制有效地传递触觉线索，为未来在康复场景中的应用提供信息。

利用计算机视觉和贝叶斯优化对粉末饮料进行机器人优化

分类： 机器人技术

作者： Emilia Szymanska, Josie Hughes

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11499v1

摘要： 食品行业对创新研究不断增长的需求正在推动机器人在大规模实验中的采用，因为它提高了产品制造和评估的精度、可复制性和效率。为此，我们引入了一种旨在优化食品质量的机器人系统，重点以卡布奇诺粉制备作为案例研究。通过利用优化算法和计算机视觉，机器人探索参数空间，以确定生产具有最佳泡沫质量的卡布奇诺的理想条件。该系统还在闭环控制中融入了计算机视觉驱动的反馈，以进一步改善饮料。我们的研究结果证明了机器人自动化在实现高重复性和广泛参数探索方面的有效性，为更先进、更可靠的食品开发铺平了道路。

学习用于自主移动机器人导航的地形和机器人感知动力学模型

分类： 机器人技术, 机器学习

作者： Jan Achterhold, Suresh Guttikonda, Jens U. Kreber, Haolong Li, Joerg Stueckler

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11452v1

摘要： 移动机器人应该能够规划具有成本效益的自主导航路径。通常，地形和机器人属性会发生变化。例如，地形的属性（例如摩擦力）可能在不同位置有所不同。此外，机器人的属性可能会发生变化，例如有效负载或磨损，例如导致执行器增益或关节摩擦力的变化。因此，自主导航方法应该能够适应这种变化。在本文中，我们提出了一种学习概率、地形和机器人感知的前向动力学模型（TRADYN）的新方法，该模型可以适应这种变化并展示其在导航中的用途。我们的学习方法扩展了基于移动机器人导航神经过程的元学习前向动力学模型的最新进展。我们评估了我们的方法，用于机器人的二维导航模拟，该机器人具有单循环动力学，在具有空间变化摩擦系数的地形上具有不同的特性。在我们的实验中，我们证明 TRADYN 在长时间范围内比不适应机器人或地形变化的模型消融具有更低的预测误差。我们还在模型预测控制框架和各种噪声源下评估我们的导航规划模型。我们证明，通过考虑机器人和地形属性，我们的方法可以提高规划控制有效路径的性能。

高性能登月模拟

分类： 天体物理学仪器和方法, 地球和行星天体物理学, 图形, 机器人技术

作者： Jérémy Lebreton, Roland Brochard, Nicolas Ollagnier, Matthieu Baudry, Adrien Hadj Salah, Grégory Jonniaux, Keyvan Kanani, Matthieu Le Goff, Aurore Masson

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11450v1

摘要： 登陆月球的自主精确导航依赖于视觉传感器。计算机视觉算法是使用合成模拟来设计、训练和测试的。多个国家开发的月球轨道飞行器已经制作了高质量的地形模型，分辨率从全球几十或几百米到局部几米不等。 SurRender 软件是一款功能强大的模拟器，能够充分发挥这些数据集在光线追踪方面的潜力。新界面包括融合多分辨率 DEM 和程序纹理生成的工具。集成了分辨率为 20m 的月球全球模型，代表了 SurRender 可以连续实时渲染的数 TB 数据。该模拟器将成为未来任务开发的宝贵资产。

UniLCD：通过强化学习统一本地云决策

分类： 机器人技术

作者： Kathakoli Sengupta, Zhongkai Shagguan, Sandesh Bharadwaj, Sanjay Arora, Eshed Ohn-Bar, Renato Mancuso

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11403v1

摘要： 基于视觉的现实系统（例如移动机器人）需要在能耗、计算延迟和安全约束之间进行仔细平衡，以优化动态任务和环境中的操作。由于本地计算往往受到限制，因此将计算卸载到远程服务器可以节省本地资源，同时提供对强大大型模型的高质量预测的访问。然而，由此产生的通信和延迟开销导致云模型在动态、安全关键的实时环境中的可用性受到限制。为了有效解决这种权衡问题，我们引入了 UniLCD，这是一种新颖的混合推理框架，用于实现灵活的本地云协作。通过强化学习和合适的多任务目标，有效优化灵活的路由模块，UniLCD 专门设计用于支持安全关键型端到端移动系统的多重约束。我们使用具有挑战性的、拥挤的导航任务来验证所提出的方法，该任务需要在本地和云操作之间频繁且及时地切换。 UniLCD 展示了整体性能和效率的提高，与基于各种分割计算和早期退出策略的最先进基准相比，提高了 35% 以上。

通过控制屏障方法的分布式感知感知安全领导者跟随者系统

分类： 系统与控制, 机器人技术, 系统与控制

作者： Richie R. Suganda, Tony Tran, Miao Pan, Lei Fan, Qin Lin, Bin Hu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11394v1

摘要： 本文解决了一组智能体的分布式领导者-跟随者编队控制问题，每个智能体使用具有有限视场（FOV）的身体固定相机进行状态估计。主要的挑战来自于需要协调代理的运动与摄像机的视场，以保持领导者的可见性，从而实现准确可靠的状态估计。为了应对这一挑战，我们提出了一种新颖的感知感知分布式领导者-跟随者安全控制方案，该方案将视场限制作为状态约束。采用基于控制屏障函数（CBF）的二次规划来确保由这些约束定义的安全集的前向不变性。此外，开发了新的基于神经网络和基于双边界框的估计器，与时间滤波器相结合，可以直接从实时图像数据估计系统状态，从而在各种环境下提供一致的性能。 Gazebo 模拟器中的比较结果证明了所提出的框架在两种不同环境中的有效性和鲁棒性。

PC-SRIF：用于视觉辅助惯性导航的基于 Cholesky 的预处理平方根信息滤波器

分类： 机器人技术

作者： Tong Ke, Parth Agrawal, Yun Zhang, Weikun Zhen, Chao X. Guo, Toby Sharp, Ryan C. Dutoit

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11372v1

摘要： 在本文中，我们介绍了一种用于视觉辅助惯性导航系统（VINS）的新型估计器，即基于预条件乔列斯基的平方根信息滤波器（PC-SRIF）。求解线性系统时，采用 Cholesky 分解可提供卓越的效率，但会损害数值稳定性。因此，现有的利用（平方根）信息过滤器的 VINS 通常会在首选单精度的平台上选择 QR 分解，从而避免与 Cholesky 分解相关的数值挑战。虽然这些问题通常归因于 VINS 中的病态信息矩阵，但我们的分析表明，这不是 VINS 的固有属性，而是特定参数化的结果。我们确定了导致病态信息矩阵的几个因素，并提出了一种预处理技术来减轻这些条件问题。在此分析的基础上，我们提出了 PC-SRIF，它在求解 VINS 中的线性系统时以单精度执行 Cholesky 分解时表现出卓越的稳定性。因此，与替代估计器相比，PC-SRIF 实现了卓越的理论效率。为了验证基于 PC-SRIF 的 VINS 的效率优势和数值稳定性，我们进行了良好的控制实验，为支持我们的理论发现提供了经验证据。值得注意的是，在我们的 VINS 实现中，PC-SRIF 的运行时间比基于 QR 的 SRIF 快 41%。

通过对船冰相互作用的学习预测在冰覆盖水域中进行自主导航

分类： 机器人技术

作者： Ninghan Zhong, Alessandro Potenza, Stephen L. Smith

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11326v2

摘要： 由于经常缺乏可行的无碰撞轨迹，冰雪覆盖水域的自主导航面临着重大挑战。当完全避障不可行时，导航策略必须尽量减少碰撞。此外，冰的动态特性会随着船舶的操纵而移动，这使得路径规划过程变得复杂。为了应对这些挑战，我们提出了一种新颖的深度学习模型，通过占用估计来估计船舶动作引发的冰运动的粗略动态。为了确保实时适用性，我们提出了一种新颖的方法，可以缓存中间预测结果并将预测模型无缝集成到图搜索规划器中。我们在模拟和物理测试台中针对现有方法评估了所提出的规划器，并表明与最先进的技术相比，我们的规划器显着减少了与冰的碰撞。这项工作的代码和演示可在 https://github.com/IvanIZ/predictive-asv-planner 获取。

DroneDiffusion：使用扩散模型进行鲁棒四旋翼动力学学习

分类： 机器人技术

作者： Avirup Das, Rishabh Dev Yadav, Sihao Sun, Mingfei Sun, Samuel Kaski, Wei Pan

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11292v1

摘要： 四旋翼飞行器系统固有的脆弱性源于模型的不准确性和外部干扰。这些因素会阻碍性能并损害系统的稳定性，从而给精确控制带来挑战。现有的基于模型的方法要么做出确定性假设，利用基于高斯的不确定性表示，要么依赖名义模型，所有这些通常都无法捕捉现实世界动态的复杂、多模态性质。这项工作介绍了 DroneDiffusion，这是一种利用条件扩散模型来学习四旋翼飞行器动力学的新颖框架，将其表述为序列生成任务。 DroneDiffusion 通过捕获不确定性的时间性质并减轻错误传播，实现了对看不见的复杂场景的卓越泛化。我们将学习到的动力学与自适应控制器相结合，以实现具有稳定性保证的轨迹跟踪。模拟和现实飞行中的大量实验证明了该框架在各种场景下的稳健性，包括不熟悉的飞行路径和变化的有效载荷、速度和风扰动。

P-RAG：用于规划具体日常任务的渐进检索增强生成

分类： 机器人技术, 计算和语言, 信息检索

作者： Weiye Xu, Min Wang, Wengang Zhou, Houqiang Li

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11279v1

摘要： 体现日常任务是体现人工智能社区中的一项流行任务，要求智能体根据自然语言指令和视觉观察做出一系列动作。传统的基于学习的方法面临两个挑战。首先，自然语言指令往往缺乏明确的任务规划。其次，需要进行广泛的培训以使模型了解任务环境。以前基于大型语言模型（LLM）的工作要么由于缺乏特定于任务的知识而表现不佳，要么依赖地面事实作为少数样本。为了解决上述限制，我们提出了一种称为渐进检索增强生成（P-RAG）的新方法，它不仅有效地利用了大语言模型强大的语言处理能力，而且还逐步积累了没有事实依据的特定任务知识。与传统的 RAG 方法一次性从数据库中检索相关信息以辅助生成相比，P-RAG 引入了一种迭代方法来逐步更新数据库。在每次迭代中，P-RAG都会检索最新的数据库，并从之前的交互中获取历史信息，作为当前交互的经验参考。此外，我们还引入了更细粒度的检索方案，不仅检索相似的任务，还结合检索相似的情况，以提供更有价值的参考经验。大量实验表明，P-RAG 在不利用真实数据的情况下取得了有竞争力的结果，甚至可以通过自我迭代进一步提高性能。

利用对称性加速自由飞行机器人系统轨迹跟踪控制器的学习

分类： 机器人技术, 机器学习, 系统与控制, 系统与控制

作者： Jake Welde, Nishanth Rao, Pratik Kunapuli, Dinesh Jayaraman, Vijay Kumar

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11238v1

摘要： 跟踪控制器使机器人系统能够准确地遵循计划的参考轨迹。特别是，强化学习 (RL) 在为具有复杂动态和适度在线计算预算的系统合成控制器方面显示出了前景。然而，强化学习的样本效率较差以及奖励设计的挑战使得训练速度缓慢，有时甚至不稳定，尤其是对于高维系统。在这项工作中，我们利用具有浮动底座的机器人系统固有的李群对称性来缓解学习跟踪控制器时的这些挑战。我们将一般跟踪问题建模为马尔可夫决策过程（MDP），它捕获物理状态和参考状态的演变。接下来，我们证明底层动态和运行成本的对称性会导致 MDP 同态，这种映射允许在低维“商”MDP 上训练的策略提升为原始系统的最佳跟踪控制器。我们将这种对称信息方法与非结构化基线进行比较，使用近端策略优化 (PPO) 来学习三个系统的跟踪控制器：粒子（受迫点质量）、Astrobee（完全驱动的太空机器人）和四旋翼飞行器（欠驱动系统）。结果表明，在相同数量的训练步骤后，对称感知方法既可以加速训练，又可以减少跟踪误差。

具有传感和通信危险区域的多机器人目标跟踪的弹性和自适应重新规划

分类： 机器人技术

作者： Peihan Li, Yuwei Wu, Jiazhen Liu, Gaurav S. Sukhatme, Vijay Kumar, Lifeng Zhou

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11230v1

摘要： 用于目标跟踪的多机器人协作在危险环境中提出了重大挑战，包括解决机器人故障、动态优先级变化和其他不可预测因素。此外，如果环境未知，这些挑战在对抗性环境中会增加。在本文中，我们提出了一种弹性和自适应框架，用于在未知传感和通信危险区域的环境中进行多机器人、多目标跟踪。这些区域造成的损害是暂时的，允许机器人跟踪目标，同时接受进入危险区域的风险。我们将该问题表述为具有软机会约束的优化，从而能够根据不同类型的危险和故障实时调整机器人的行为。引入了自适应重新规划策略，具有不同的触发器来提高团队绩效。这种方法允许根据不断变化的资源和实时条件对目标跟踪和风险规避或弹性进行动态优先级排序。为了验证所提出方法的有效性，我们在模拟中的多个场景中对其进行了基准测试和评估，并进行了多次实际实验。

通过渐近表示自动驾驶车辆的词典层次结构优化规则手册

分类： 机器人技术, F.4.3; G.1.6; J.2

作者： Matteo Penlington, Alessandro Zanardi, Emilio Frazzoli

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11199v1

摘要： 自动驾驶的一个关键挑战是自动驾驶车辆 (AV) 必须应对多种且常常相互冲突的规划要求。这些要求自然地形成层次结构——例如，避免碰撞比维持车道更重要。虽然这个层次结构的确切结构仍然未知，但为了确保自动驾驶汽车满足预先确定的行为规范，开发系统地解释它的方法至关重要。受自动驾驶汽车中字典式行为规范的推动，这项工作解决了字典式多目标运动规划问题，其中每个目标都比下一个目标更重要——考虑避免碰撞比变道违规更重要。这项工作将两个元素联系在一起。首先，引入渐近表示词典顺序的多目标候选函数。与现有的多目标成本函数公式不同，这种方法确保返回的解决方案渐近地与词典行为规范保持一致。其次，受连续方法的启发，我们提出了两种渐进逼近最小秩决策的算法——即满足尽可能多的重要规则的决策。通过几个实际例子，我们展示了所提出的候选函数渐近地表示词典层次结构，并且两种所提出的算法都返回最小排名决策，即使其他方法不返回。

SDP：具有可学习的通道方式膜阈值的机器人操作的尖峰扩散策略

分类： 机器人技术, 人工智能

作者： Zhixing Hou, Maoxu Gao, Hang Yu, Mengyu Yang, Chio-In Ieong

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11195v1

摘要： 本文介绍了一种用于机器人操作的尖峰扩散策略（SDP）学习方法，通过将尖峰神经元和可学习通道薄膜阈值（LCMT）集成到扩散策略模型中，从而提高计算效率并在评估任务中实现高性能。具体来说，所提出的 SDP 模型采用 U-Net 架构作为尖峰神经网络 (SNN) 内扩散学习的骨干。它战略性地在尖峰卷积运算和泄漏积分与激发 (LIF) 节点之间放置剩余连接，从而防止尖峰状态中断。此外，我们引入了时间编码块和时间解码块，以时间步 $T_S$ 相互转换静态和动态数据，从而能够以尖峰格式在 SNN 内传输数据。此外，我们提出 LCMT 能够自适应采集膜电位阈值，从而匹配不同通道的膜电位和放电速率的条件，避免手动设置和调整超参数的繁琐过程。使用 SNN 时间步长 $T_S=4$ 评估七个不同任务的 SDP 模型，我们获得了与 ANN 对应模型相当的结果，并且收敛速度比基线 SNN 方法更快。这一改进伴随着 45 纳米硬件上估计的动态能耗降低了 94.3%。

Air-FAR：大规模复杂未知环境中空中导航的快速、适应性强的路由

分类： 机器人技术

作者： Botao He, Guofei Chen, Cornelia Fermuller, Yiannis Aloimonos, Ji Zhang

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11188v1

摘要： 本文提出了一种使用分层 3D 可见性图（V-graph）在大规模复杂环境中进行实时 3D 导航的新颖方法。所提出的算法同时解决了 V 图构建和图上最短路径搜索的计算挑战。通过引入具有启发式可见性更新的分层3D V图构造，3D V图的构造时间为O(K*n^2logn)，保证了实时性能。所提出的迭代分治路径搜索方法可以在实时操作的约束下实现接近最优的路径解决方案。该算法确保高效的 3D V 图构建和路径搜索。广泛的模拟和现实环境验证了我们的算法将行程时间减少了 42%，轨迹效率提高了 24.8%，并且在复杂环境中的运行速度比大多数基准测试快几个数量级。代码和开发的模拟器已开源，以方便未来的研究。

运动预测的赢家通吃

分类： 机器人技术, 计算机视觉和模式识别

作者： Yihong Xu, Victor Letzelter, Mickaël Chen, Éloi Zablocki, Matthieu Cord

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11172v2

摘要： 在自动驾驶中，运动预测旨在预测附近智能体的未来轨迹，帮助自我车辆预测行为并安全驾驶。一个关键的挑战是生成多样化的未来预测，通常使用具有多项选择学习 (MCL) 架构和赢家通吃 (WTA) 训练目标的数据驱动模型来解决。然而，这些方法面临初始化敏感性和训练不稳定性。此外，为了弥补有限的性能，一些方法依赖于使用大量假设进行训练，需要在推理过程中进行后选择步骤以显着减少预测数量。为了解决这些问题，我们从退火 MCL 中汲取灵感，这是一种最近推出的技术，通过退火赢家通吃损失 (aWTA) 来提高 MCL 方法的收敛特性。在本文中，我们演示了如何将 aWTA 损失与最先进的运动预测模型集成，以仅使用最少的假设集来提高其性能，从而消除繁琐的后选择步骤。我们的方法可以轻松地融入到通常使用 WTA 训练的任何轨迹预测模型中，并产生显着的改进。为了促进我们的方法在未来运动预测模型中的应用，代码将在接受后公开：https://github.com/valeoai/MF_aWTA。

第一届InterAI研讨会：以人为中心的机器人的交互式人工智能

分类： 机器人技术

作者： Yuchong Zhang, Elmira Yadollahi, Yong Ma, Di Fu, Iolanda Leite, Danica Kragic

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11150v1

摘要： 该研讨会隶属第33届IEEE机器人与人类交互通信国际会议（RO-MAN 2024），将于2023年8月26~30日/美国加利福尼亚州帕萨迪纳举行。它被设计为为期半天的活动，从太平洋标准时间 9:00 到 12:30 持续四个多小时。它可容纳现场和虚拟与会者（通过 Zoom），确保灵活的参与模式。议程经过精心设计，包括各种会议：两场主题演讲，承诺提供富有洞察力的观点；两场专门的论文演讲会议；一场互动小组讨论，以促进专家之间的对话，从而促进更深入地探讨特定主题；以及 15 场专题研讨会。分钟的咖啡休息时间。研讨会网站：https://sites.google.com/view/interaiworkshops/home。

MI-HGNN：用于腿式机器人接触感知的形态学异构图神经网络

分类： 机器人技术, E.1; I.2.6; I.2.9; J.2

作者： Daniel Butterfield, Sandilya Sai Garimella, Nai-Jen Cheng, Lu Gan

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11146v1

摘要： 我们提出了一种基于形态学的异构图神经网络（MI-HGNN），用于基于学习的接触感知。 MI-HGNN 的架构和连接性是根据机器人形态构建的，其中节点和边缘分别是机器人关节和连杆。通过将形态信息约束合并到神经网络中，我们使用基于模型的知识改进了基于学习的方法。我们将所提出的 MI-HGNN 应用于两个接触感知问题，并使用两个四足机器人收集的真实世界和模拟数据进行了广泛的实验。我们的实验证明了我们的方法在有效性、泛化能力、模型效率和样本效率方面的优越性。我们的 MI-HGNN 将利用机器人形态对称性的最先进模型的性能提高了 8.4%，而参数仅占 0.21%。尽管 MI-HGNN 在这项工作中应用于腿式机器人的接触感知问题，但它可以无缝地应用于其他类型的多体动力系统，并且有潜力改进其他机器人学习框架。我们的代码已在 https://github.com/lunarlab-gatech/Morphology-Informed-HGNN 上公开发布。

使用原力，机器人！ -- 具有基于事件的重新规划功能的强制感知 ProDMP

分类： 机器人技术, 机器学习

作者： Paul Werner Lödige, Maximilian Xiling Li, Rudolf Lioutikov

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11144v1

摘要： 运动基元 (MP) 是一种用于表示和生成模块化机器人轨迹的成熟方法。这项工作提出了 FA-ProDMP，这是一种将力感知引入概率动态运动基元 (ProDMP) 的新方法。 FA-ProDMP 在运行时调整轨迹以考虑测量的力和所需的力。它提供平滑的轨迹并捕获多个轨迹上的位置和力的相关性，例如一系列人类示范。 FA-ProDMP 支持多个力轴，因此与笛卡尔或关节空间控制无关。这使得 FA-ProDMP 成为通过演示学习接触丰富的操作任务（例如抛光、切割或工业装配）的宝贵工具。为了可靠地评估 FA-ProDMP，这项工作还引入了一个名为 POEMPEL 的模块化 3D 打印任务套件，其灵感来自于流行的 Lego Technic 引脚。 POEMPEL 模仿具有力要求的工业钉孔组装任务。它提供多个调节参数，例如位置、方向和插头刚度水平，从而改变所需力的方向和大小。我们的实验表明，FA-ProDMP 在 POEMPEL 设置和电源插头插入任务方面优于其他 MP 配方，因为它具有基于测量的力的重新规划功能。这些发现强调了 FA-ProDMP 如何增强机器人系统在接触丰富的操作任务中的性能。

ULOC：学习在具有超宽带范围的复杂大型环境中进行定位

分类： 机器人技术, 机器学习

作者： Thien-Minh Nguyen, Yizhuo Yang, Tien-Dat Nguyen, Shenghai Yuan, Lihua Xie

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11122v1

摘要： 虽然基于UWB的方法可以在小范围区域内实现较高的定位精度，但其准确性和可靠性在大规模环境中受到显着挑战。在本文中，我们提出了一种名为 ULOC 的基于学习的框架，用于在此类复杂的大规模环境中基于超宽带（UWB）的定位。首先，锚点被部署在环境中，而不知道它们的实际位置。然后，当车辆在环境中行驶时收集 UWB 观测结果。同时，通过将（机载自定位）数据与先前的地图进行配准来开发地图一致的姿态估计，以提供训练标签。然后，我们提出了一个基于 MAMBA 的网络，该网络可以在复杂的大规模环境中学习 UWB 的测距模式。实验表明，与最先进的技术相比，我们的解决方案可以确保大规模的高定位精度。我们在 https://github.com/brytsknguyen/uloc 发布源代码以使社区受益。

未知环境中的多无人机均匀扫掠覆盖：基于可合并神经系统（MNS）的随机探索

分类： 机器人技术

作者： Aryo Jamshidpey, Hugh H. -T. Liu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11116v1

摘要： 本文研究了多无人机均匀扫描覆盖问题，即一群同质无人机必须集体均匀地访问未知环境的每个部分以执行采样任务，而无法获取自己的位置和方向。基于随机游走的探索策略对于这种覆盖场景是实用的，因为它们不依赖于定位并且很容易在机器人群中实现。我们证明，可合并神经系统（MNS）框架使机器人群能够使用本地通信自组织成分层自组织通信网络，是无人机群在未知环境中进行随机探索的一种有前景的控制方法。为此，我们提出了一种基于 MNS 的随机游走方法，其中无人机使用 MNS 框架自组织成线队形，然后遵循随机游走策略来覆盖环境，同时保持队形。通过模拟，我们以几种分散的基于随机游走的策略作为基准来测试我们的方法的效率。我们的结果表明，在整个环境和局部区域内进行评估时，基于 MNS 的随机游走在实现完全覆盖所需的时间和当时的覆盖均匀性方面优于基准。

共同设计鲁棒操纵的工具和控制策略

分类： 机器人技术

作者： Yifei Dong, Shaohang Han, Xianyi Cheng, Werner Friedl, Rafael I. Cabral Muchacho, Máximo A. Roa, Jana Tumova, Florian T. Pokorny

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11113v1

摘要： 由于现实世界的不确定性和干扰，操纵的固有鲁棒性在生物系统中普遍存在，并且对于机器人操纵系统至关重要。这种鲁棒性不仅依赖于鲁棒的控制策略，还依赖于末端执行器的设计特征。本文介绍了一种双层优化方法来共同设计工具和控制策略，以实现稳健的操纵。该方法采用强化学习进行下层控制策略学习，采用多任务贝叶斯优化进行上层设计优化。与以前的方法不同，我们将基于笼子的鲁棒性指标纳入两个级别，确保针对干扰和环境变化的操作鲁棒性。我们的方法在四种非全面的操作环境中进行了评估，证明了在干扰和环境变化下任务成功率的提高。还进行了真实世界的实验来验证该框架的实际有效性。

激光系统对准自动化的三种方法及其资源影响：案例研究

分类： 系统与控制, 机器学习, 机器人技术, 系统与控制

作者： David A. Robb, Donald Risbridger, Ben Mills, Ildar Rakhmatulin, Xianwen Kong, Mustafa Erden, M. J. Daniel Esser, Richard M. Carter, Mike J. Chantler

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11090v1

摘要： 光学系统的对准是其制造中的关键步骤。对准通常需要熟练操作员具有丰富的知识和专业知识。此类流程的自动化具有多种潜在优势，但需要额外的资源和前期成本。通过对简单的两个镜像系统的案例研究，我们确定并研究了三种不同的自动化方法。它们是：人工神经网络；以实践为主导，模仿手动对齐实践；以设计为主导，根据第一原则进行建模。我们发现这些方法利用了三种不同类型的知识：1）基本系统知识（控制、测量和目标）； 2) 行为技能和专业知识，以及 3) 基本系统设计知识。我们证明，不同的自动化方法在人力资源和测量抽样预算方面存在显着差异。这将对考虑此类任务自动化的从业者和管理层产生影响。

HMF：动态术中低血压预测的混合多因素框架

分类： 机器学习, 机器人技术

作者： Mingyue Cheng, Jintao Zhang, Zhiding Liu, Chunli Liu, Yanhu Xie

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11064v1

摘要： 使用平均动脉压 (MAP) 预测术中低血压 (IOH) 是一个关键的研究领域，对手术期间患者的预后具有重大影响。然而，现有方法主要采用静态建模范例，忽略了生理信号的动态性质。在本文中，我们介绍了一种新颖的混合多因素（HMF）框架，该框架将 IOH 预测重新表述为血压预测任务。我们的框架利用 Transformer 编码器，专门设计用于通过基于补丁的输入表示有效捕获 MAP 系列的时间演化，将输入生理序列分割成信息丰富的补丁以进行准确分析。为了解决生理序列中分布变化的挑战，我们的方法采用了两项关键创新：（1）对称归一化和反归一化过程有助于减轻统计特性的分布漂移，从而确保模型在不同条件下的稳健性，以及（2）序列分解，将输入序列分解为趋势和季节性分量，从而可以对固有序列依赖性进行更精确的建模。对两个真实世界数据集进行的大量实验表明，与竞争基线相比，我们的方法具有卓越的性能，特别是在捕获输入序列中的细微变化方面，这对于准确的 IOH 预测至关重要。

经典机械系统的统一作用原理

分类： 经典物理学, 机器人技术

作者： A. Rothkopf, W. A. Horowitz

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11063v1

摘要： 由拉格朗日、汉密尔顿和诺特提出的现代经典力学理论，试图将所有经典运动转化为优化问题的形式，基于称为经典作用的能量泛函。这种形式主义最重要的优点是能够明显地结合和利用对称性和守恒定律。这种重新表述对于最多服从位置平等约束的无约束和完整系统来说是成功的。非完整系统遵循速度相关约束或位置不等式约束，其本质上非常丰富，并且与科学、工程和工业具有重要的相关性。迄今为止，所有将非完整动力学作为经典动作优化问题来解决的尝试都失败了。在这里，我们利用量子场论作用原理的经典极限为非完整系统构建了一种新颖的经典作用。因此，我们对经典力学是否变分这一 190 年的老问题作出了回答，答案是肯定的。我们通过对新动作进行直接数值优化来解决三个典型模型问题，从而说明和验证我们的方法。这项工作中发展的形式主义显着地将作用原理的范围扩展到一大类相关机械系统，为它们的分析和数值分析和控制开辟了新的途径。

基于力肌动描记法的人体膝关节和踝关节扭矩估计

分类： 机器人技术

作者： Charlotte Marquardt, Arne Schulz, Miha Dezman, Gunther Kurz, Thorsten Stein, Tamim Asfour

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11061v1

摘要： 基于肌肉活动传感的外骨骼控制在线适应是一种基于用户生物信号个性化外骨骼的有前途的方法。虽然多种基于肌电图 (EMG) 的方法已被证明可以改善关节扭矩估计，但 EMG 传感器需要直接皮肤接触和复杂的后处理。相比之下，肌力描记法（FMG）测量由于肌肉活动引起的肌肉体积变化所产生的正常力。我们提出了一种基于 FMG 的方法，通过将关节角度和速度与肌肉活动信息相结合来估计膝关节和踝关节扭矩。我们学习使用高斯过程回归（GPR）进行关节扭矩估计的模型。所提出的基于 FMG 的方法的有效性在两个受试者进行的等速运动上得到了验证。该模型与仅使用关节角度和速度的基线模型以及通过肌电图数据增强的模型进行了比较。结果表明，将 FMG 集成到外骨骼控制中可以改善踝关节和膝关节的关节扭矩估计，因此是提高对不同外骨骼用户的适应性的一种有前途的方法。

TacDiffusion：用于精确触觉操纵的力域扩散策略

分类： 机器人技术

作者： Yansong Wu, Zongxie Chen, Fan Wu, Lingyun Chen, Liding Zhang, Zhenshan Bing, Abdalla Swikir, Alois Knoll, Sami Haddadin

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11047v1

摘要： 装配是现代制造和服务机器人领域机器人的一项关键技能。然而，掌握可转移的插入技能来处理各种高精度组装任务仍然是一个重大挑战。本文提出了一种新颖的框架，利用扩散模型生成 6D 扳手，用于高精度触觉机器人插入任务。它从单个任务上执行的演示中学习，并在各种新颖的高精度任务中实现了 95.7% 的零样本传输成功率。我们的方法有效地继承了我们之前的工作所证明的自适应性。在此框架中，我们使用基于动态系统的滤波器解决了扩散策略和实时控制环路之间的频率不一致问题，将任务成功率显着提高了 9.15%。此外，我们提供了关于扩散模型的推理能力和速度之间的权衡的实用指南。

可拉伸电动液压人造肌肉，可实现肌肉骨骼拮抗关节的全运动范围

分类： 机器人技术

作者： Amirhossein Kazemipour, Ronan Hinchet, Robert K. Katzschmann

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11017v1

摘要： 人造肌肉在肌肉骨骼机器人和假肢中发挥着至关重要的作用，以模拟生物肌肉的力生成功能。然而，当前的人造肌肉系统通常仅限于收缩或伸展，而不是两者。这种限制阻碍了功能齐全的人造肌肉骨骼系统的发展。我们通过引入能够收缩和伸展的人工对抗肌肉系统来应对这一挑战。我们的设计将不可拉伸的电动液压软执行器 (HASEL) 与静电离合器集成在对抗性肌肉骨骼框架内。这种配置使对抗关节能够实现全范围的运动，而不会因肌腱松弛而造成位移损失。我们采用同步方法来协调肌肉和离合器单元，确保平滑的运动曲线和速度。这种方法有利于拮抗肌之间以高达 3.2 Hz 的操作频率进行无缝过渡。虽然我们的原型采用电动液压执行器，但这种肌肉离合器概念适用于其他不可拉伸的人造肌肉，例如 McKibben 执行器，从而扩展了它们在对抗设置中的伸展和全方位运动的能力。我们的设计代表了功能更强大、更高效的人工肌肉骨骼系统的基本组件开发的重大进步，使其功能更接近生物同类系统。

MoDex：通过学习神经手模型规划高维灵巧控制

分类： 机器人技术

作者： Tong Wu, Shoujie Li, Chuqiao Lyu, Kit-Wa Sou, Wang-Sing Chan, Wenbo Ding

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10983v1

摘要： 在高维动作空间中控制双手一直是一个长期的挑战，但人类自然而然地可以轻松地执行灵巧的任务。在本文中，我们从人类具身认知中汲取灵感，并将灵巧的双手重新视为可学习的系统。具体来说，我们引入了 MoDex，这是一个采用神经手模型来捕获手部运动的动态特征的框架。基于该模型，开发了一种双向规划方法，证明了训练和推理的效率。该方法进一步与大型语言模型集成，以生成各种手势，例如“剪刀手”和“摇滚”。此外，我们表明，理论分析和实证实验都支持，将系统动力学分解为预训练的手模型和外部模型可以提高数据效率。其他可视化结果可在 https://tongwu19.github.io/MoDex 获取。

GLC-SLAM：具有高效环路闭合的高斯泼溅 SLAM

分类： 机器人技术

作者： Ziheng Xu, Qingfeng Li, Chen Chen, Xuefeng Liu, Jianwei Niu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10982v1

摘要： 3D 高斯分布 (3DGS) 因其在密集同步定位与建图 (SLAM) 中的应用而受到广泛关注，可实现实时渲染和高保真建图。然而，现有的基于 3DGS 的 SLAM 方法经常受到累积跟踪误差和地图漂移的影响，特别是在大规模环境中。为了解决这些问题，我们引入了 GLC-SLAM，这是一种集成了相机位姿和场景模型全局优化的高斯 Splatting SLAM 系统。我们的方法采用帧到模型跟踪，并使用全局到局部策略触发分层闭环，以最大限度地减少漂移积累。通过将场景划分为 3D 高斯子图，我们可以在大场景中进行循环校正后促进高效的地图更新。此外，我们的不确定性最小化关键帧选择策略优先考虑观察更有价值的 3D 高斯函数的关键帧，以增强子图优化。各种数据集上的实验结果表明，与最先进的密集 RGB-D SLAM 系统相比，GLC-SLAM 实现了卓越或有竞争力的跟踪和建图性能。

使用雷达速度因子进行越野导航的鲁棒高速状态估计

分类： 机器人技术

作者： Morten Nissov, Jeffrey A. Edlund, Patrick Spieler, Curtis Padgett, Kostas Alexis, Shehryar Khattak

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10953v1

摘要： 在任务关键型应用的复杂环境中实现机器人自主需要强大的状态估计。特别是在导航所依赖的外部传感器可能因环境挑战而退化的情况下，从而导致任务失败。正是在这些挑战中，FMCW 雷达传感器的潜力凸显出来：作为具有直接速度测量功能的补充性外感受传感方式。在这项工作中，我们使用径向速度因子集成 FMCW 雷达传感器的径向速度测量，以将线速度更新提供到滑动窗口状态估计器中，以便与 LiDAR 位姿和 IMU 测量融合。我们证明，这种增强提高了状态估计器对环境中存在的挑战性条件的鲁棒性，以及它们可能对脆弱的外感受模式造成的负面影响。使用机器人现场实验对所提出的方法进行了广泛的评估，该实验使用在复杂沙漠环境中高速（~12 m/s）运行的自主、全尺寸越野车辆进行。此外，针对激光雷达里程计性能的模拟和现实退化情况，以及与公共数据集上最先进的雷达惯性里程计方法的比较，证明了该方法的鲁棒性。

RoadRunner M&M——学习用于自主越野导航的多范围多分辨率可穿越性地图

分类： 机器人技术, 计算机视觉和模式识别

作者： Manthan Patel, Jonas Frey, Deegan Atha, Patrick Spieler, Marco Hutter, Shehryar Khattak

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10940v1

摘要： 越野环境中的自主机器人导航需要全面了解地形几何形状和可通行性。较长范围内感知条件的退化和稀疏的几何信息使得该问题具有挑战性，尤其是在高速行驶时。此外，传感到映射的延迟和前瞻地图范围会限制车辆的最大速度。在最近的工作 RoadRunner 的基础上，在这项工作中，我们解决了长距离（100 m）可通行性估计的挑战。我们的 RoadRunner (M&M) 是一个基于端到端学习的框架，可直接预测多个范围（50 m、100 m）和分辨率（0.2 m、0.8 m）的可通行性和高程图，以多个图像和激光雷达体素图。我们的方法以自我监督的方式进行训练，利用密集的监督信号，该信号是通过融合后见之明中现有可通行性估计堆栈（X-Racer）和卫星数字高程地图的预测而生成的。与 RoadRunner 相比，RoadRunner M&M 在高程测绘方面显着提高了 50%，在可通行性估计方面显着提高了 30%，并且与 X-Racer 相比，能够在实现实时性能的同时预测多出 30% 的区域。对各种分布外数据集的实验也表明，我们的数据驱动方法开始推广到新颖的非结构化环境。我们将我们提出的框架与路径规划器集成在闭环中，以在具有挑战性的现实环境中展示自主高速越野机器人导航。项目页面：https://leggedrobotics.github.io/roadrunner_mm/

Frontier Shepherding：用于大规模探索的仿生多机器人框架

分类： 机器人技术

作者： John Lewis, Meysam Basiri, Pedro U. Lima

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10931v1

摘要： 对大规模环境的有效探索仍然是机器人技术的一个关键挑战，其应用范围从环境监测到搜索和救援行动。本文提出了一种仿生多机器人框架 \textit{Frontier Shepherding (FroShe)}，用于大规模探索。所提出的仿生框架启发式地模拟了类似于牧羊犬的牧羊行为的前沿探索。这是通过将边界建模为羊群对建模为牧羊犬的机器人的反应来实现的。该框架在不同的环境大小和障碍物密度下都很强大，并且可以轻松地跨多个代理部署。仿真结果表明，无论模拟环境的大小和障碍物密度如何变化，所提出的方法都能始终如一地执行。随着智能体数量的增加，所提出的方法优于其他最先进的探索方法，与次优方法（对于 3$ 美元的无人机）平均提高了 20%$。所提出的技术在真实森林环境中的单无人机和双无人机场景中进行了实施和测试。

不连续地形敏捷连续跳跃

分类： 机器人技术

作者： Yuxiang Yang, Guanya Shi, Changyi Lin, Xiangyun Meng, Rosario Scalise, Mateo Guaman Castro, Wenhao Yu, Tingnan Zhang, Ding Zhao, Jie Tan, Byron Boots

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10923v1

摘要： 我们专注于四足机器人在楼梯和踏脚石等不连续地形中的敏捷、连续和地形自适应跳跃。与单步跳跃不同，连续跳跃需要在长视野内准确地执行高度动态的运动，这对现有方法来说是一个挑战。为了完成这项任务，我们设计了一个分层学习和控制框架，其中包括用于鲁棒地形感知的学习高度图预测器、用于多功能和地形自适应规划的基于强化学习的质心级运动策略以及低层基于模型的腿部控制器，用于精确的运动跟踪。此外，我们通过精确建模硬件特性来最小化模拟与真实的差距。据我们所知，我们的框架首次使 Unitree Go1 机器人能够在人类大小的楼梯和稀疏的踏脚石上进行敏捷、连续的跳跃。特别是，机器人每次跳跃可以跨越两个楼梯台阶，并在4.5秒内完成长3.5m、高2.8m、14级楼梯。此外，相同的策略在各种其他跑酷任务中的表现优于基线，例如跳过单个水平或垂直不连续性。实验视频可以在 \url{https://yxyang.github.io/jumping\_cod/} 找到。

多层零样本对象导航策略

分类： 机器人技术

作者： Lingfeng Zhang, Hao Wang, Erjia Xiao, Xinyao Zhang, Qiang Zhang, Zixuan Jiang, Renjing Xu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10906v1

摘要： 多层环境中的对象导航对机器人技术提出了巨大的挑战，需要复杂的空间推理和自适应探索策略。传统方法主要关注单层场景，忽视了多层结构带来的复杂性。为了应对这些挑战，我们首先提出了多层导航策略（MFNP）并在零样本对象导航任务中实现它。我们的框架包括三个关键组成部分：（i）多层导航策略，使代理能够跨多个楼层进行探索； (ii) 用于导航过程中推理的多模态大语言模型（MLLM）； (iii) 楼层间导航，确保高效的楼层转换。我们在 Habitat-Matterport 3D (HM3D) 和 Matterport 3D (MP3D) 数据集上评估 MFNP，这两个数据集都包含多层场景。我们的实验结果表明，MFNP 显着优于零射击目标导航中的所有现有方法，实现了更高的成功率并提高了探索效率。消融研究进一步强调了每个组件在解决多层导航的独特挑战方面的有效性。同时，我们进行了现实世界的实验来评估我们政策的可行性。部署 MFNP 后，Unitree 四足机器人展示了成功的多层导航，并在完全看不见的环境中找到了目标物体。通过引入 MFNP，我们提供了一种新的范例来处理对象导航任务中复杂的多层环境，为未来在现实的多层环境中基于视觉的导航研究开辟了途径。

通过质心动力学利用简化的全身动力学进行全身控制的高效计算

分类： 机器人技术

作者： Junewhee Ahn, Jaesug Jung, Yisoo Lee, Hokyun Lee, Sami Haddadin, Jaeheung Park

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10903v1

摘要： 在这项研究中，我们提出了一种提高人形机器人全身控制计算效率的新方法，这是由于其高自由度而加剧的挑战。浮基机器人的降维刚体动力学是通过将其运动链分割为约束链和无约束链来构建的，并通过质心动力学简化无约束链的动力学。所提出的动力学模型可以应用于全身控制方法，允许将问题分为两部分以进行更有效的计算。通过模拟中的比较实验证明了该框架的效率。计算结果表明处理时间显着减少，凸显了对当前方法报告的时间的改进。此外，结果还表明，随着机器人模型自由度的增加，计算效率也随之提高。

P2 Explore：通过平面图预测在未知集群环境中进行高效探索

分类： 机器人技术

作者： Kun Song, Gaoming Chen, Masayoshi Tomizuka, Wei Zhan, Zhenhua Xiong, Mingyu Ding

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10878v1

摘要： 机器人探索的目的是构建未知的环境，通过更短的路径来实现这一目标非常重要。传统方法侧重于根据当前观察来优化访问顺序，这可能会导致局部最小结果。最近，通过预测未见环境的结构，可以进一步提高探索效率。然而，在杂乱的环境中，由于障碍物的随机性，预测能力受到限制。因此，为了解决这个问题，我们提出了一种地图预测算法，可以有效地预测嘈杂的室内环境的布局。我们重点关注2D探索的场景。首先，我们通过使用深度学习对杂乱的地图进行去噪来执行平面图提取。然后，我们使用基于平面图的算法来提高预测精度。此外，我们提取房间的分割并根据预测的地图构建它们的连接，这可用于下游任务。为了验证所提出方法的有效性，将其应用于探索任务。大量的实验表明，即使在杂乱的场景中，我们提出的方法也可以提高效率。

LVBA：用于 RGB 点云映射的 LiDAR-Visual Bundle 调整

分类： 机器人技术

作者： Rundong Li, Xiyuan Liu, Haotian Li, Zheng Liu, Jiarong Lin, Yixi Cai, Fu Zhang

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10868v1

摘要： 具有准确颜色的点云图对于机器人和地图应用至关重要。现有的生成 RGB 彩色地图的方法主要基于使用基于滤波器的估计或滑动窗口优化的实时定位，这可能缺乏准确性和全局一致性。在这项工作中，我们引入了一种名为 LVBA 的新颖的全局 LiDAR-Visual 束调整（BA），以将 RGB 点云映射的质量提高到现有基线之上。 LVBA 首先通过全局 LiDAR BA 优化 LiDAR 位姿，然后采用光度视觉 BA，结合 LiDAR 点云的平面特征来优化相机位姿。此外，为了解决构建优化问题时地图点遮挡的挑战，我们在 LVBA 中实现了一种新颖的 LiDAR 辅助全局可见性算法。为了评估 LVBA 的有效性，我们进行了广泛的实验，将其映射质量与现有最先进的基线（即 R$^3$LIVE 和 FAST-LIVO）进行比较。我们的结果证明，LVBA 可以熟练地重建高保真、精确的 RGB 点云图，优于同类产品。

SIFToM：遵循心理理论的强有力的口头指导

分类： 机器人技术, 人工智能, 人机交互, 多代理系统

作者： Lance Ying, Jason Xinyu Liu, Shivam Aarya, Yizirui Fang, Stefanie Tellex, Joshua B. Tenenbaum, Tianmin Shu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10849v1

摘要： 口头语言指令在代理协作中无处不在。然而，在人机协作中，人类语音的识别准确性往往受到各种语音和环境因素的影响，例如背景噪声、说话者的口音和发音错误。当面对嘈杂或陌生的听觉输入时，人类利用上下文和先验知识来消除刺激的歧义并采取务实的行动，这一过程在认知科学中被称为自上而下的处理。我们提出了一种认知启发模型，即通过心理理论进行语音指令（SIFToM），通过推断人类的目标和联合计划作为语音感知和理解的先验，使机器人能够在不同的语音条件下务实地遵循人类指令。我们在模拟家庭实验 (VirtualHome 2) 中测试 SIFToM。结果表明，SIFToM 模型的性能优于最先进的语音和语言模型，在执行具有挑战性的语音指令任务时接近人类水平的准确性。然后，我们在用于早餐准备任务的移动机械手上展示其任务规划级别的能力。

DIGIMON：机器人导航中基于强化学习元规划器的采样偏差的诊断和缓解

分类： 机器人技术

作者： Shiwei Feng, Xuan Chen, Zhiyuan Cheng, Zikang Xiong, Yifei Gao, Siyuan Cheng, Sayali Kate, Xiangyu Zhang

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10832v1

摘要： 机器人导航在送货服务和仓库管理等应用中变得越来越重要。强化学习 (RL) 与经典规划的集成催生了元规划器，它将 RL 的适应性与经典规划器的可解释决策结合起来。然而，基于强化学习的元规划器在训练过程中的探索能力通常受到底层经典规划器能力的限制。这种限制可能会导致探索受到限制，从而导致采样偏差问题。为了解决这些问题，我们的论文引入了一种新颖的框架 DIGIMON，它首先对元规划器内的探索瓶颈进行行为引导诊断，然后采用从诊断的瓶颈数据进行上采样的缓解策略。我们的评估显示，导航性能提高了 13.5% 以上，在分布外环境中具有更强的鲁棒性，并且训练效率提高了 4 倍。 DIGIMON 被设计为多功能、即插即用的解决方案，允许无缝集成到各种基于 RL 的元规划器中。

用于波动机器人运动的几何力学变分方法

分类： 机器人技术

作者： Sean Even, Patrick S. Martinez, Cora Keogh, Oliver Gross, Yasemin Ozkan-Aydin, Peter Schröder

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10827v1

摘要： 各种大小的无肢生物都利用自我变形的波动模式来运动。将变形映射到运动的几何力学提供了一个强大的框架来形式化和研究此类运动模式的理论特性和局限性。然而，在弥合理论或模拟与实验室实验之间的差距时，固有的抽象水平提出了挑战。我们通过比较使用变分积分器进行的实验和模拟，研究了对波动机器人运动轨迹进行建模的挑战。尽管基于几何变分原理的模型需要进行大量简化，但模拟结果平均显示出良好的一致性。值得注意的是，我们的方法只需要了解\emph{耗散度量}——配置空间上的黎曼度量，实际上可以通过与\emph{阻力理论}非常相似的方法来近似。

评估和提高基于 LiDAR 的定位和测绘的鲁棒性

分类： 机器人技术

作者： Bo Yang, Tri Minh Triet Pham, Jinqiu Yang

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10824v1

摘要： LiDAR 是同步定位与建图 (SLAM) 和基于地图的全球定位最常用的传感器之一。 SLAM 和基于地图的定位对于自主系统的独立运行至关重要，特别是当 GNSS 等外部信号不可用或不可靠时。虽然最先进的 (SOTA) LiDAR SLAM 系统可以实现 0.5%（即每 100m 0.5m）的误差，并且基于地图的定位可以实现厘米级的全局定位，但仍不清楚它们在各种常见的激光雷达数据损坏。在这项工作中，我们在 18 种常见场景级 LiDAR 点云数据 (PCD) 损坏下广泛评估了 5 个基于 SOTA LiDAR 的定位系统。我们发现，基于 LiDAR 的定位的鲁棒性因类别而异。对于 SLAM，手工制作的方法通常对于大多数类型的损坏都很稳健，但对于特定的损坏却极其脆弱（高达 +80% 的错误）。基于学习的方法很容易受到大多数类型的腐败的影响。对于基于地图的全球定位，我们发现 SOTA 能够抵抗所有应用的损坏。最后，我们发现简单的双边滤波器去噪可以有效消除基于噪声的损坏，但对基于密度的损坏没有帮助。再训练可以更有效地保护基于学习的 SLAM 免受所有类型的损坏。

机器人运动标定的贝叶斯最优实验设计

分类： 机器人技术

作者： Ersin Das, Thomas Touma, Joel W. Burdick

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10802v2

摘要： 本文开发了一种贝叶斯最优实验设计，用于 ${\mathbb{S}^3 !\times! 上的机器人运动学校准。 \mathbb{R}^3}$。我们的方法建立在高斯过程方法的基础上，该方法结合了基于 ${\mathbb{S}^3}$ 上黎曼 Mat'ern 内核的几何感知内核。为了通过高斯过程的贝叶斯优化来学习正向运动学误差，我们定义了一个基于测地距离的目标函数。该函数的逐点值是通过使用相机通过末端执行器上的基准标记进行噪声测量来采样的，并使用标称运动学计算出姿态。校正的 Denavit-Hartenberg 参数是使用对收集的数据集进行运算的高效二次程序获得的。通过在 NASA 海洋世界着陆器自主测试台 (OWLAT) 上进行的模拟和校准实验证明了所提出方法的有效性。

Sim2Real Gap 基准测试：敏捷制造的高保真数字孪生

分类： 机器人技术

作者： Sunny Katyara, Suchita Sharma, Praveen Damacharla, Carlos Garcia Santiago, Lubina Dhirani, Bhawani Shankar Chowdhry

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10784v1

摘要： 随着制造业从大规模生产转向大规模定制，人们越来越重视采用符合工业 5.0 指令的敏捷、有弹性和以人为本的方法。这一转型的核心是数字孪生的部署，这是一种以数字方式复制制造资产的技术，以实现增强的流程优化、预测性维护、合成数据生成以及加速的定制和原型设计。本章深入探讨了支持数字孪生创建的技术，该数字孪生专门针对机器人自动化领域的敏捷制造场景而定制。它探索通过领域随机化、领域适应、课程学习和基于模型的系统识别等先进技术，将训练有素的策略和流程优化从模拟设置转移到现实世界的应用。本章还研究了 Sim2Real 条件下的各种工业制造自动化场景，包括箱式拣选、零件检查和产品装配。使用数据延迟、适应率、模拟保真度等报告的实际指标来评估数字孪生技术在这些场景中的性能，从而对其功效和对现代制造流程的潜在影响进行全面评估。

用于脊柱固定手术的新型柔性椎弓根螺钉的可行性分析和增材制造

分类： 机器人技术

作者： Yash Kulkarni, Susheela Sharma, Jared Allison, Jordan Amadio, Maryam Tilton, Farshid Alambeigi

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10778v1

摘要： 在本文中，我们探讨了开发一种新型柔性椎弓根螺钉（FPS）来增强骨质疏松椎骨脊柱固定的可行性。椎弓根螺钉对于脊柱骨折治疗至关重要，自 20 世纪初以来就已出现，并经历了多次迭代以增强脊柱内固定。然而，由于多种不适当的变量，脊柱固定治疗对于骨质疏松患者来说往往会出现问题。椎弓根螺钉固有的刚性性质以及螺钉路径的强制线性轨迹经常导致将这些螺钉放置在骨骼的高度骨质疏松区域中。这最终会导致螺钉打滑并给患者带来神经和呼吸系统问题。为了解决这个问题，我们专注于开发一种新型 FPS，它在结构上能够安全弯曲以适应可操纵钻孔机器人钻出的弯曲轨迹，并绕过椎体的高度骨质疏松区域。然后，我们使用有限元分析（FEA）模拟其变形能力。然后，我们使用不锈钢 (SS) 316L 合金通过直接金属激光烧结 (DMLS) 增材制造 FPS。最后，对制作的FPS进行弯曲性能实验评估，并与FEA结果进行比较进行验证。结果证明了使用 DMLS 方法增材制造 FPS 的可行性，以及开发的 FEA 与实验的一致性。

安全关键多机器人系统的面向公平的控制框架：替代权威控制

分类： 机器人技术

作者： Lei Shi, Qichao Liu, Cheng Zhou, Xiong Li

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10749v1

摘要： 本文提出了一种多机器人系统的公平控制框架，该框架集成了新引入的替代权威控制（AAC）和灵活控制屏障功能（F-CBF）。控制权是指单个机器人可以规划自己的轨迹，同时将其他机器人视为移动障碍物，这意味着其他机器人没有权力规划自己的路径。 AAC方法动态分配控制权限，从而实现整个系统的公平和协调的移动。这种方法显着提高了复杂环境中的计算效率、可扩展性和鲁棒性。所提出的 F-CBF 通过结合障碍物形状、速度和方向来扩展传统的 CBF。 F-CBF 通过精确的动态避障来增强安全性。该框架通过多机器人场景的模拟进行了验证，展示了其安全性、鲁棒性和计算效率。

揭开类人运动的秘密：运动规划的新视角

分类： 机器人技术

作者： Lei Shi, Qichao Liu, Cheng Zhou, Wentao Gao, Haotian Wu, Yu Zheng, Xiong Li

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10747v2

摘要： 本文从运动规划的全新角度探讨了类人运动。我们从生物力学的角度分析人体协调顺应的运动机制。基于这些机制，我们提出了一种集成顺应控制动力学的最优控制框架，通过响应时间矩阵优化机械臂运动。该矩阵设置关节运动的时序参数，将系统转变为时间参数化的最优控制问题。该模型重点研究主动关节和被动关节在外部干扰下的相互作用，提高适应性和顺应性。该方法实现了最优轨迹生成并平衡了精度和合规性。机械手和人形机器人的实验结果验证了该方法。

机器人决策中神经网络的值得信赖的概念解释

分类： 机器人技术, 机器学习

作者： Som Sagar, Aditya Taparia, Harsh Mankodiya, Pranav Bidare, Yifan Zhou, Ransalu Senanayake

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10733v1

摘要： 黑盒神经网络是现代机器人不可或缺的一部分。然而，当工程师和立法机构等利益相关者缺乏对神经网络决策过程的深入了解时，在现实场景中部署此类高风险系统会带来重大挑战。目前，可解释的人工智能主要针对自然语言处理和计算机视觉，应用于机器人时在两个关键方面存在不足：决策任务的基础和评估其解释的可信度的能力。在本文中，我们介绍了一种值得信赖的可解释机器人技术，该技术基于人类可解释的高级概念，这些概念归因于神经网络做出的决策。我们提出的技术通过将神经网络的激活与人类可解释的可视化相匹配来提供相关不确定性分数的解释。为了验证我们的方法，我们使用各种模拟和现实世界的机器人决策模型进行了一系列实验，证明了所提出的方法作为事后、人性化的机器人学习诊断工具的有效性。

心感机器人：社交机器人驱动的儿童深层情感艺术反思

分类： 机器人技术, 人机交互

作者： Isabella Pu, Golda Nguyen, Lama Alsultan, Rosalind Picard, Cynthia Breazeal, Sharifa Alghowinem

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10710v1

摘要： 社交情感学习（SEL）技能对于儿童的发展至关重要，为未来的人际关系和学业成功奠定基础。使用艺术作为创作媒介或作为引发对话的话题是一种众所周知的 SEL 学习方法。同样，社交机器人也被用来教授 SEL 能力，例如同理心，但艺术与社交机器人技术的结合却很少被探索。在本文中，我们提出了一种新颖的儿童机器人交互，旨在通过社交机器人搭建的关于艺术的对话来培养同理心并提升 SEL 能力。参与者（N=11，年龄范围：7-11）与社交机器人谈论情感和中性艺术。对视频和语音数据的分析表明，这种交互设计成功地让孩子们参与了 SEL 技能的实践，例如情感识别和自我意识，并且当孩子们与机器人讨论情感艺术时，我们观察到更高的同理心推理率。这项研究表明，与社交机器人进行基于艺术的反思，尤其是情感艺术，可以培养儿童的同理心，而与社交机器人的互动有助于减轻在分享深刻或脆弱的情感时的不适。

旋转超声波电机表面行波摩擦驱动的有限元建模

分类： 机器人技术

作者： Zhanyue Zhao, Yang Wang, Charles Bales, Yiwei Jiang, Gregory Fischer

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10707v1

摘要： 有限元建模 (FEM) 是压电器件设计和分析的关键工具，可提供指导各种应用的详细数值模拟。虽然 FEM 传统上应用于特征频率分析和瞬态研究，以预测激励特征频率和估计行波振幅，但 FEM 的潜力可扩展到更复杂的任务。先进的有限元应用（例如对摩擦驱动的动态运动和反作用力进行建模）对于准确模拟现实条件下压电执行器的复杂行为至关重要。本文提出了一个综合电机模型，其中包含压电超声电机 (USM) 中定子和转子之间的耦合动力学。该模型利用接触理论，模拟 USM 初始启动阶段及其向稳态运行过渡期间遇到的复杂条件。该模型在 COMSOL Multiphysics 中实现，可对旋转压电执行器进行深入分析，捕获影响其性能的动态相互作用和反作用力。这种基于 FEM 的模型的引入代表了压电执行器模拟和理解方面的重大进步。通过更全面地了解电机从启动到稳定状态的行为，这项研究可以更准确地控制和优化压电器件，从而提高其在实际应用中的效率和可靠性。

将可重用的多机器人规划策略编码为抽象超图

分类： 机器人技术, 人工智能, 多代理系统

作者： Khen Elimelech, James Motes, Marco Morales, Nancy M. Amato, Moshe Y. Vardi, Lydia E. Kavraki

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10692v1

摘要： 多机器人任务规划（MR-TP）是寻找机器人团队完成任务时应采取的离散行动计划。此类问题的复杂性随着机器人数量和任务复杂性呈指数级增长，这使得它们对在线解决方案具有挑战性。为了在系统的生命周期内加速 MR-TP，这项工作着眼于结合两项最新进展：（i）可分解状态空间超图（DaSH），一种基于超图的新型框架，可有效建模和解决 MR-TP 问题；和 \mbox{(ii) 抽象学习}，一种能够从个人规划经验中自动提取通用规划策略以供以后重用的技术。具体来说，我们希望扩展这种最初为单机器人规划设计的策略学习技术，以使用基于超图的 MR-TP 来有益于多机器人规划。

基于信号时序逻辑约束的自动驾驶汽车安全验证与导航

分类： 系统与控制, 机器人技术, 系统与控制

作者： Aditya Parameshwaran, Yue Wang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10689v1

摘要： 现代自动驾驶汽车 (AV) 背后的软件架构正变得越来越复杂。在大规模部署此类复杂模型之前，安全验证是迫在眉睫的任务。对于导航中的安全关键任务，必须在部署之前对规划算法提出的轨迹执行验证程序。信号时态逻辑 (STL) 约束可以决定自动驾驶汽车的安全要求。 STL 约束的组合称为规范。 STL 和其他逻辑约束之间的一个关键区别是 STL 允许我们处理连续信号。我们通过计算规范内每个信号的鲁棒性值来验证 STL 规范的满足程度。稳健性值越高表示系统越安全。模型预测控制 (MPC) 是控制自动驾驶汽车导航的最广泛使用的方法之一，具有一组底层状态和输入约束。我们的研究旨在制定和测试 MPC 控制器，以 STL 规范为约束，可以安全地导航 AV。成本函数的主要目标是最小化控制输入。 STL 约束将充当附加的约束层，该约束将根据当前的场景和任务而变化。我们建议使用 sTaliro，这是一种基于 MATLAB 的 STL 规范鲁棒性计算器，以用于 AV 导航任务的后退地平线控制方式制定。它输入一个简化的AV状态空间模型和一组STL规范，并为其构造一个闭环控制器。我们针对不同的测试用例/场景测试我们的控制器，并验证我们的 AV 模型的安全导航。

使用视觉变压器进行人机交互中的个性化语音情感识别

分类： 音频和语音处理, 人机交互, 机器人技术, 声音

作者： Ruchik Mishra, Andrew Frye, Madan Mohan Rayguru, Dan O. Popa

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10687v1

摘要： 情感是言语交流中的一个重要元素，因此了解人机交互 (HRI) 期间个人的情感变得势在必行。本文研究了视觉变换器模型，即 ViT（视觉变换器）和 BEiT（BERT 图像变换器预训练）管道在 HRI 语音情感识别（SER）中的应用。重点是通过在基准数据集上微调这些模型并利用集成方法来概括单个语音特征的 SER 模型。为此，我们收集了不同人类受试者与 NAO 机器人进行伪自然对话的音频数据。然后，我们对基于 ViT 和 BEiT 的模型进行微调，并在参与者未见过的语音样本上测试这些模型。在结果中，我们表明，在基准数据集上微调视觉变换器，然后使用这些已经微调过的模型或集成 ViT/BEiT 模型，可以让我们在从个人的四种主要情绪中识别四种主要情绪时获得最高的分类准确度。言语：与微调普通 ViT 或 BEiT 相比，中性、快乐、悲伤和愤怒。

MotIF：运动指令微调

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Minyoung Hwang, Joey Hejna, Dorsa Sadigh, Yonatan Bisk

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10683v1

摘要： 虽然许多机器人任务的成功只能通过观察最终状态及其与初始状态的差异来确定（例如，如果拿起一个苹果），但许多任务需要观察机器人的完整运动才能正确确定成功。例如，梳理头发需要根据头发的轮廓和类型进行重复的抚摸。之前的工作经常使用现成的视觉语言模型（VLM）作为成功检测器；然而，当成功取决于完整的轨迹时，VLM 很难做出正确的判断，原因有两个。首先，现代 VLM 仅在单帧上进行训练，无法捕获完整轨迹上的变化。其次，即使我们提供具有多个帧聚合输入的最先进的 VLM，由于缺乏机器人数据，它们仍然无法检测到成功。我们的关键想法是使用抽象表示来微调 VLM，这些抽象表示能够捕获轨迹级信息，例如通过在最终图像上叠加关键点轨迹来捕获机器人所采取的路径。我们提出了运动指令微调（MotIF），这是一种使用上述抽象表示来微调 VLM 的方法，以在语义上为机器人在环境中的行为奠定基础。为了对机器人运动理解的 VLM 进行基准测试和微调，我们引入了 MotIF-1K 数据集，其中包含 13 个任务类别的 653 个人类和 369 个机器人演示。 MotIF 根据轨迹的图像观察、任务指令和运动描述来评估机器人运动的成功程度。我们的模型在精确度上明显优于最先进的 VLM 至少两倍，在召回率上显着优于最先进的 VLM 至少两倍，并概括了未见过的运动、任务和环境。最后，我们展示了 MotIF 在改进和终止机器人规划以及根据任务和运动描述如何对齐轨迹进行排序方面的实际应用。项目页面：https://motif-1k.github.io

基于概率地图协调的前沿基于扩散的在线 3D 占用预测

分类： 机器人技术

作者： Alec Reed, Lorin Achey, Brendan Crowe, Bradley Hayes, Christoffer Heckman

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10681v1

摘要： 由于机器人在对未观察到的几何形状进行常识性推理方面面临困难，因此在未绘制地图的环境中进行自主导航和探索仍然是机器人技术中的重大挑战。最近的进展表明，生成建模技术，特别是扩散模型，可以使系统从部分观察中推断出这些几何形状。在这项工作中，我们展示了使用修改后的扩散模型进行实时在线占用预测的实施细节和结果。通过消除基于注意力的视觉调节和视觉特征提取组件，我们在运行时间上减少了 73$%$，同时精度降低最小。这些修改可以实现整个地图上的占用预测，而不是仅限于机器人周围可以收集相机数据的区域。我们引入了一种概率更新方法，用于将预测的占用数据合并到正在运行的占用地图中，与以前的方法相比，在预测地图边界的占用方面取得了 71$%$ 的改进。最后，我们在 github.com/arpg/sceneSense_ws 上发布了代码和用于机器人操作的 ROS 节点<发布后>。

生成真实的极端行为以改进 AV 测试

分类： 优化与控制, 机器人技术

作者： Robert Dyro, Matthew Foutter, Ruolin Li, Luigi Di Lillo, Edward Schmerling, Xilin Zhou, Marco Pavone

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10669v1

摘要： 这项工作引入了一个框架来诊断自动驾驶车辆（AV）防撞技术的优点和缺点，并根据现实世界的无碰撞数据改编而成的合成但现实的潜在碰撞场景。我们的框架通过向对手从学习的 AV 行为模型中预测的轨迹添加扰动，在对手和目标车辆之间生成具有不同碰撞属性（例如碰撞角度和速度）的反事实碰撞。我们的主要贡献是将这些对抗性扰动建立在通过行为模型参数空间中的数据对齐镜头定义的现实行为中。然后，我们对这些合成反事实进行聚类，以识别合理且具有代表性的碰撞场景，从而形成下游 AV 系统评估测试套件的基础。我们使用两个最先进的行为预测模型作为现实对抗性扰动的来源来演示我们的框架，并表明我们的场景聚类从评估中的基线 AV 策略中唤起可解释的故障模式。

使用深度强化学习消除安全社交导航的不确定性

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Daniel Flögel, Marcos Gómez Villafañe, Joshua Ransiek, Sören Hohmann

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10655v1

摘要： 自主移动机器人越来越多地应用于行人较多的环境中，其中安全导航和适当的人机交互至关重要。虽然深度强化学习 (DRL) 能够实现社会整合的机器人行为，但在新颖或扰动的场景中仍然存在挑战，以表明政策何时以及为何不确定。决策中未知的不确定性可能会导致碰撞或人体不适，这也是安全和风险意识导航仍然是一个悬而未决的问题的原因之一。这项工作引入了一种新颖的方法，它将任意、认知和预测不确定性估计集成到基于 DRL 的导航框架中，以进行决策中的不确定性估计。因此，我们将观察相关方差 (ODV) 和 dropout 合并到近端策略优化 (PPO) 算法中。对于不同类型的扰动，我们比较了深度集成和蒙特卡罗 Dropout (MC-Dropout) 估计策略不确定性的能力。在不确定的决策情况下，我们建议将机器人的社交行为改为保守的避免碰撞。结果表明，ODV-PPO 算法收敛速度更快，泛化能力更好，并消除了任意和认知不确定性。此外，MC-Dropout 方法对扰动更敏感，并且能够更好地将不确定性类型与扰动类型相关联。通过所提出的安全动作选择方案，机器人可以在扰动环境中导航并减少碰撞。

动态环境中四旋翼飞行器的安全区间运动规划

分类： 机器人技术

作者： Songhao Huang, Yuwei Wu, Yuezhan Tao, Vijay Kumar

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10647v1

摘要： 动态环境中的轨迹生成对四旋翼飞行器提出了重大挑战，特别是由于时空域中的非凸性。许多现有方法要么假设简化的静态环境，要么难以实时产生最佳解决方案。在这项工作中，我们提出了一种用于动态环境中导航的高效安全区间运动规划框架。安全间隔是指特定配置安全的时间窗口。我们的方法通过两阶段过程解决轨迹生成问题：前端图搜索步骤，然后是后端基于梯度的优化。我们通过构建动态连接可见性图并将低阶动态边界纳入安全间隔和时间走廊内来确保完整性和最优性。为了避免局部最小值，我们提出了均匀时间可见性变形（UTVD）来完整评估时空拓扑等价性。我们用 B 样条曲线表示轨迹，并应用基于梯度的优化来绕过时空走廊内的静态和移动障碍物。通过仿真和实际实验，我们表明我们的方法在不同密度水平的环境中可以实现超过 95% 的成功率，超过其他方法的性能，展示了其在高动态环境中实际部署的潜力。

通过基于模型的风险最小化进行运动预测

分类： 机器学习, 人工智能, 机器人技术

作者： Aron Distelzweig, Eitan Kosman, Andreas Look, Faris Janjoš, Denesh K. Manivannan, Abhinav Valada

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10585v1

摘要： 预测周围智能体的未来轨迹对于自动驾驶汽车确保安全、高效、舒适的路线规划至关重要。虽然模型集成提高了各个领域的预测精度，但由于预测的多模态性质，其在轨迹预测中的应用受到限制。在本文中，我们提出了一种适用于基于多个模型预测的轨迹预测的新颖采样方法。我们首先表明，基于预测概率的传统采样可能会由于模型之间缺乏对齐而降低性能。为了解决这个问题，我们引入了一种新方法，可以从一组神经网络生成最佳轨迹，将其视为具有可变损失函数的风险最小化问题。通过使用最先进的模型作为基础学习器，我们的方法构建了多样化且有效的集成，以实现最佳轨迹采样。对 nuScenes 预测数据集的大量实验表明，我们的方法超越了当前最先进的技术，在排行榜上名列前茅。我们还提供了关于集成策略的全面实证研究，提供了对其有效性的见解。我们的研究结果凸显了先进集成技术在轨迹预测中的潜力，显着提高了预测性能，并为更可靠的预测轨迹铺平了道路。

雷达教学和重复：架构和初始现场测试

分类： 机器人技术

作者： Xinyuan Qiao, Alexander Krawciw, Sven Lilge, Timothy D. Barfoot

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10491v1

摘要： 调频连续波 (FMCW) 扫描雷达已成为旋转激光雷达的替代方案，用于移动机器人的状态估计。雷达的较长波长受小颗粒物的影响较小，从而在灰尘、烟雾和雾等具有挑战性的环境中提供操作优势。本文介绍了雷达示教和重复 (RT&R)：一种用于长期越野机器人自主的全栈雷达系统。 RT&R 可以在越野杂乱区域可靠地行驶路线，无需任何 GPS。我们对雷达系统的闭环路径跟踪性能进行基准测试，并将其与 3D LiDAR 对应产品进行比较。仅使用雷达和陀螺仪进行导航，在无干预的情况下完成了 11.8 公里的自动驾驶。 RT&R 在不同的路线上进行评估，场景几何结构逐渐减少。随着路线变得更具挑战性，RT&R 的横向路径跟踪均方根误差 (RMSE) 分别为 5.6 厘米、7.5 厘米和 12.1 厘米。在我们用于测试的机器人上，这些 RMSE 值小于一个轮胎宽度（24 厘米）的一半。这些相同路线的最坏情况误差分别为 21.7 厘米、24.0 厘米和 43.8 厘米。我们的结论是，雷达是激光雷达的可行替代方案，可在充满挑战的越野场景中实现长期自主。 RT&R 的实现是开源的，可从以下网址获取：https://github.com/utiasASRL/vtr3。

利用模型预测路径积分控制对腿式机器人进行实时全身控制

分类： 机器人技术

作者： Juan Alvarez-Padilla, John Z. Zhang, Sofia Kwok, John M. Dolan, Zachary Manchester

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10469v1

摘要： 本文提出了一种能够实时合成现实世界的腿式机器人的全身运动和操纵策略的系统。受机器人模拟最新进展的推动，我们利用 MuJoCo 模拟器的高效并行化功能来实现对机器人状态和动作轨迹的快速采样。我们的结果表明，通过非常简单的控制策略，可以实现令人惊讶的有效现实世界运动和操纵能力。我们在几个硬件和模拟实验上展示了我们的方法：在平坦和不平坦的地形上进行稳健的运动，爬过与机器人高度相当的盒子，并将盒子推到目标位置。据我们所知，这是基于全身采样的 MPC 在现实世界的腿式机器人硬件上的首次成功部署。实验视频和代码可以在：https://whole-body-mppi.github.io/

大语言模型作为 BT-Planner：利用大语言模型在机器人任务规划中生成行为树

分类： 机器人技术

作者： Jicong Ao, Fan Wu, Yansong Wu, Abdalla Swikir, Sami Haddadin

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10444v1

摘要： 由于任务期限长和零件关系复杂，机器人装配任务是一个开放的挑战。行为树（BT）因其模块化性和灵活性而越来越多地用于机器人任务规划，但手动设计它们可能会耗费大量精力。大型语言模型 (LLM) 最近已应用于机器人任务规划中以生成动作序列，但其生成 BT 的能力尚未得到充分研究。为此，我们建议将 LLM 作为 BT 规划器，这是一种利用 LLM 在机器人装配任务规划和执行中进行 BT 生成的新颖框架。引入了四种情境学习方法，利用大语言模型的自然语言处理和推理能力来生成 BT 格式的任务计划，减少人工工作量并确保鲁棒性和可理解性。我们还评估了经过微调、参数较少的大语言模型在相同任务上的表现。模拟和现实环境中的实验表明，我们的框架增强了大语言模型在 BT 生成中的性能，通过上下文学习和监督微调提高 BT 生成的成功率。

CtRNet-X：使用单个相机在现实条件下进行相机到机器人的姿势估计

分类： 机器人技术, 计算机视觉和模式识别

作者： Jingpei Lu, Zekai Liang, Tristin Xie, Florian Ritcher, Shan Lin, Sainan Liu, Michael C. Yip

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10441v1

摘要： 相机到机器人的校准对于基于视觉的机器人控制至关重要，需要努力使其准确。无标记姿态估计方法的最新进展消除了对相机到机器人校准的耗时物理设置的需要。虽然现有的无标记姿态估计方法已经证明了令人印象深刻的准确性，并且不需要繁琐的设置，但它们依赖于所有机器人关节在相机视野内可见的假设。然而，在实践中，机器人通常会移入和移出视野，并且由于现实世界的限制，机器人的某些部分在整个操作任务期间可能会保持在框架外，从而导致缺乏足够的视觉特征并导致后续故障这些方法。为了应对这一挑战并增强基于视觉的机器人控制的适用性，我们提出了一种新颖的框架，能够使用部分可见的机器人操纵器估计机器人姿态。我们的方法利用视觉语言模型进行细粒度机器人组件检测，并将其集成到基于关键点的姿态估计网络中，从而在不同的操作条件下实现更稳健的性能。该框架在公共机器人数据集和自行收集的部分视图数据集上进行了评估，以证明我们的稳健性和通用性。因此，该方法对于更广泛的现实操作场景中的机器人位姿估计是有效的。

HiFi-CS：使用视觉语言模型实现机器人抓取的开放词汇视觉基础

分类： 机器人技术, 人工智能

作者： Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri, Farshad Khorrami

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10419v1

摘要： 通过自然语言与人类交互的机器人可以解锁许多应用程序，例如参考抓取合成（RGS）。给定文本查询，RGS 确定稳定的抓取姿势以操纵机器人工作空间中的参考对象。 RGS 包括两个步骤：视觉基础和抓取姿势估计。最近的研究利用强大的视觉语言模型（VLM）在现实世界的机器人执行中为自由流动的自然语言提供视觉基础。然而，缺乏在复杂、混乱的环境中与同一对象的多个实例的比较。本文介绍了 HiFi-CS，其特点是分层应用特征线性调制 (FiLM) 来融合图像和文本嵌入，增强机器人抓取中遇到的复杂属性富文本查询的视觉基础。视觉基础将 2D/3D 空间中的对象与自然语言输入相关联，并在两种场景下进行研究：封闭词汇和开放词汇。 HiFi-CS 采用轻量级解码器与冻结 VLM 相结合，在封闭词汇设置中优于竞争基线，同时尺寸缩小 100 倍。我们的模型可以有效地指导诸如 GroundedSAM 之类的开放集目标检测器来增强开放词汇性能。我们使用 7-DOF 机械臂通过现实世界的 RGS 实验验证了我们的方法，在 15 个桌面场景中实现了 90.33% 的视觉接地精度。我们将我们的代码库包含在补充材料中。

建筑工地的去中心化和非对称多智能体学习

分类： 机器人技术

作者： Yakov Miron, Dan Navon, Yuval Goldfracht, Dotan Di Castro, Itzik Klein

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10375v1

摘要： 多代理协作涉及多个参与者在共享环境中共同工作以实现共同目标。这些代理共享信息、划分任务并同步其操作。多主体协作的关键方面包括协调、通信、任务分配、合作、适应和权力下放。在建筑工地上，表面平整是平整沙堆以增加特定区域高度的过程。在这种情况下，推土机进行平整，而自卸车则分配沙堆。我们的工作旨在利用多代理方法使这些车辆能够有效协作。为此，我们提出了一种用于建筑工地的分散且非对称的多智能体学习方法（DAMALCS）。我们制定 DAALCS 来减少运营车辆的预期碰撞。因此，我们开发了两名启发式专家，能够通过应用创新的优先级排序方法以最佳方式实现其共同目标。在这种方法中，推土机的移动优先于自卸车的操作，使推土机能够为自卸车清理道路并确保两辆车的连续操作。由于启发式方法在现实场景中是不够的，因此我们利用它们来训练人工智能代理，事实证明这是非常有效的。我们同时训练推土机和自卸车代理在同一环境中操作，旨在避免碰撞并优化时间效率和沙量处理方面的性能。我们训练有素的代理和启发式方法在模拟和现实世界的实验室实验中进行评估，并在各种条件下进行测试，例如视觉噪声和定位错误。结果表明，我们的方法显着降低了这些车辆的碰撞率。

从人类自由力控制演示中学习温和的抓取

分类： 机器人技术, 机器学习

作者： Mingxuan Li, Lunwei Zhang, Tiemin Li, Yao Jiang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10371v1

摘要： 人类可以基于触觉感知稳定而轻轻地抓住不熟悉的物体。由于难以学习准确的抓握力预测和可以从有限数据中概括的力控制策略，机器人在实现类似性能方面仍然面临挑战。在本文中，我们提出了一种从理想力控制演示中学习抓取的方法，以在有限的数据大小下实现与人手相似的性能。我们的方法利用具有已知接触特性的物体来自动生成参考力曲线，无需人工演示。此外，我们设计了双卷积神经网络（Dual-CNN）架构，其中结合了基于物理的力学模块，用于从演示中学习目标抓取力预测。所描述的方法可以有效地应用于基于视觉的触觉传感器，并且能够从地面轻柔且稳定地抓取物体。所描述的预测模型和抓取策略在离线评估和在线实验中得到验证，并证明了准确性和通用性。

基于磁异常的导航的全局不确定性感知规划

分类： 机器人技术, 系统与控制, 系统与控制

作者： Aditya Penumarti, Jane Shin

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10366v1

摘要： 在具有磁异常的部分可观测的随机环境中进行导航和定位面临着巨大的挑战，特别是在平衡状态估计的准确性和定位的稳定性时。由于本地化更新和动态条件有限，传统方法通常难以保持性能。本文介绍了一种用于磁异常导航（MagNav）的多目标全局路径规划器，它利用熵图来评估磁场的空间频率变化并识别高信息区域。该系统通过使用潜在的现场规划器来生成通往这些区域的路径，从而增强主动定位。硬件实验表明，与现有的主动定位技术相比，所提出的方法显着提高了定位稳定性和准确性。结果强调了该方法在减少定位不确定性方面的有效性，并强调了其对各种基于梯度的导航地图的适应性，包括地形和水下基于深度的环境。

Point2Graph：用于机器人导航的基于点云的端到端 3D 开放词汇场景图

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Yifan Xu, Ziming Luo, Qianwei Wang, Vineet Kamat, Carol Menassa

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10350v1

摘要： 当前的开放词汇场景图生成算法高度依赖 3D 场景点云数据和姿势 RGB-D 图像，因此在 RGB-D 图像或相机姿势不易获得的场景中应用有限。为了解决这个问题，我们提出了 Point2Graph，一种新颖的基于点云的端到端 3D 开放词汇场景图生成框架，其中消除了对 RGB-D 图像系列的要求。该分层框架包含房间和对象检测/分割以及开放词汇分类。对于房间层，我们利用基于几何的边界检测算法与基于学习的区域检测相结合的优势来分割房间，并创建用于开放词汇房间分类的“Snap-Lookup”框架。此外，我们还为对象层创建了一个端到端管道，以仅基于 3D 点云数据来检测和分类 3D 对象。我们的评估结果表明，我们的框架在广泛使用的真实场景数据集上优于当前最先进的（SOTA）开放词汇对象和房间分割和分类算法。

数字孪生遇见 Koopman 操作员：数据驱动学习实现强大的自主性

分类： 机器人技术

作者： Chinmay Vilas Samak, Tanmay Vilas Samak, Ajinkya Joglekar, Umesh Vaidya, Venkat Krovi

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10347v1

摘要： 与道路自主导航相反，越野自主导航因传感挑战和地形变化等各种因素而变得复杂。在这样的环境中，数据驱动的方法通常被用来有效地捕获复杂的车辆与环境的交互。然而，数据驱动方法的成功关键取决于数据的质量和数量，而越野环境的巨大变化可能会影响数据的质量和数量。为了解决这些问题，我们提出了一种新颖的工作流程，以数字方式重新创建精确的车辆及其目标操作条件，以生成特定领域的数据。这使我们能够使用库普曼算子理论根据仿真数据有效地对越野车辆动力学进行建模，并利用获得的模型进行局部运动规划和最优车辆控制。所提出方法的功能通过 1:5 比例车辆的自主导航问题得到证明，其中采用地形信息规划器进行全球任务规划。结果表明，所提出的算法的越野导航性能得到了显着改善（5.84 倍），并强调了数字孪生在提高样本效率（3.2 倍）和减少 sim2real 差距（5.2%）方面的功效。

嵌入软机器人的可伸缩 Arduino

分类： 机器人技术

作者： Stephanie J. Woodman, Dylan S. Shah, Melanie Landesberg, Anjali Agrawala, Rebecca Kramer-Bottiglio

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10333v1

摘要： 为了实现现实世界的功能，机器人必须具备执行决策计算的能力。然而，软机器人可以伸展，因此需要刚性计算机以外的解决方案。目前，将计算能力嵌入到软机器人中的示例包括将刚性印刷电路板（PCB）附加到机器人上、集成软逻辑门以及利用材料响应进行材料嵌入式计算。尽管前景广阔，但这些方法也带来了一些限制，例如刚性、束缚或低逻辑门密度。可拉伸电子领域一直在寻求解决这些挑战，但将单板计算机、微控制器和其他复杂电路直接集成到软机器人中的完整管道仍然难以实现。我们提出了一种通用方法，可以将任何复杂的两层电路转化为柔软、可拉伸的形式。这使得可伸缩单板微控制器（包括 Arduino）和其他商业电路（包括 Sparkfun 电路）的创建成为可能，而无需简化设计。为了演示该方法的实用性，我们将高度可拉伸（>300% 应变）的 Arduino Pro Mini 嵌入到多个软机器人的体内。这利用了惰性结构材料，实现了可拉伸电子领域的承诺，即在主动使用期间将最先进的计算能力集成到坚固的可拉伸系统中。

逃离局部极小值：用于分散式多机器人导航的带有墙壁跟随器的混合人工势场

分类： 机器人技术

作者： Joonkyung Kim, Sangjin Park, Wonjong Lee, Woojun Kim, Nakju Doh, Changjoo Nam

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10332v1

摘要： 我们解决了在有非凸障碍物的环境中进行分散式多机器人导航的挑战，在这些环境中，无法获得完整的环境知识。虽然人工势场 (APF) 等反应方法简单高效，但它们存在局部极小值，导致机器人因缺乏全球环境意识而陷入困境。其他现有的解决方案要么依赖于机器人间通信，要么仅限于单机器人场景，要么难以有效克服非凸障碍。我们提出的方法可以仅使用本地传感器和状态信息来实现无碰撞导航，而无需地图。通过将沿墙 (WF) 行为融入 APF 方法中，我们的方法允许机器人逃脱局部最小值，即使存在包括其他机器人在内的非凸和动态障碍物。我们介绍了两种在 APF 和 WF 之间切换的算法：基于规则的系统和经过专家演示训练的编码器网络。实验结果表明，与最先进的方法相比，我们的方法取得了更高的成功率，突显了其克服复杂环境中局部最小值限制的能力

DRIVE：自动驾驶中可靠、稳健、可解释的有远见的集成框架

分类： 机器人技术, 计算机视觉和模式识别

作者： Songning Lai, Tianlang Xue, Hongru Xiao, Lijie Hu, Jiemin Wu, Ninghui Feng, Runwei Guan, Haicheng Liao, Zhenning Li, Yutao Yue

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10330v1

摘要： 自动驾驶的最新进展已经见证了向端到端学习范式的范式转变，该范式将感官输入直接映射到驾驶动作，从而增强自动驾驶车辆的鲁棒性和适应性。然而，这些模型通常会牺牲可解释性，给信任、安全和监管合规性带来重大挑战。为了解决这些问题，我们引入了 DRIVE——自动驾驶中可靠、鲁棒、可解释的愿景集成框架，这是一个综合框架，旨在提高端到端无监督自动驾驶模型解释的可靠性和稳定性。我们的工作专门针对在“穿越概念僵局”（DCG）模型中观察到的固有不稳定性问题，这些问题破坏了其解释和决策过程的可信度。我们定义了 DRIVE 的四个关键属性：一致的可解释性、稳定的可解释性、一致的输出和稳定的输出。这些属性共同确保解释在不同的场景和扰动下保持可靠和稳健。通过广泛的实证评估，我们证明了我们的框架在增强解释的稳定性和可靠性方面的有效性，从而解决了当前模型的局限性。我们的贡献包括对 DCG 模型中可靠性问题的深入分析、对 DRIVE 及其基本属性的严格定义、实施 DRIVE 的框架以及用于评估基于概念的可解释自动驾驶模型可靠性的新颖指标。这些进步为开发更可靠、更值得信赖的自动驾驶系统奠定了基础，为其在实际应用中得到更广泛的接受和部署铺平了道路。

SEAL：通过技能支持的对手学习来生成闭环场景，实现安全自动驾驶

分类： 机器人技术, 人工智能, 机器学习

作者： Benjamin Stoler, Ingrid Navarro, Jonathan Francis, Jean Oh

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10320v1

摘要： 随着自动驾驶 (AD) 技术在现实世界中的普及程度不断提高，自动驾驶 (AD) 系统和组件的验证和确认变得越来越重要。安全关键场景生成是通过闭环训练强化 AD 策略的关键方法。然而，现有的场景生成方法依赖于简单化的目标，导致过度攻击性或非反应性的对抗行为。为了生成多样化的对抗性但现实的场景，我们提出了 SEAL，这是一种场景扰动方法，它利用学习的评分函数和对抗性、类人技能。海豹突击队扰动的场景比 SOTA 基线更现实，导致在现实世界、分布内和分布外场景中自我任务成功率提高了 20% 以上。为了方便未来的研究，我们发布了我们的代码和工具：https://github.com/cmubig/SEAL

抓住它！学习用灵巧的双手在飞行中接球

分类： 机器人技术

作者： Yuanhang Zhang, Tianhai Liang, Zhenyang Chen, Yanjie Ze, Huazhe Xu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10319v1

摘要： 捕捉飞行中的物体（即抛出的物体）是人类的一项常见日常技能，但这对机器人来说是一个巨大的挑战。这项任务需要机器人具有敏捷、准确的运动、大的空间工作空间以及与不同物体交互的能力。在本文中，我们构建了一个由移动底座、6 自由度手臂和 12 自由度灵巧手组成的移动机械臂来解决这一具有挑战性的任务。我们提出了一个两阶段强化学习框架，可以在模拟中有效地训练这种高自由度系统的全身控制捕捉策略。物体的投掷配置、形状和大小在训练过程中是随机的，以增强策略对飞行中各种轨迹和物体特征的适应性。结果表明，我们训练有素的策略以随机抛出的轨迹捕捉不同的物体，在模拟中成功率高达约 80%，与基线相比有显着改进。在模拟中训练的策略可以通过机载传感和计算直接部署在现实世界中，从而实现捕获人类随机抛出的各种形状的沙袋。我们的项目页面位于 https://mobile-dex-catch.github.io/。

通过并行共识优化在部分观测环境中对自动驾驶车辆进行安全实时一致的规划

分类： 机器人技术, 系统与控制, 系统与控制

作者： Lei Zheng, Rui Yang, Minzhe Zheng, Michael Yu Wang, Jun Ma

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10310v1

摘要： 对于在部分观测环境中运行的自动驾驶汽车来说，确保安全性和驾驶一致性是一项重大挑战。这项工作引入了一致的并行轨迹优化（CPTO）方法，可以在具有感知不确定性的密集障碍物环境中实现安全一致的驾驶。利用离散时间障碍函数理论，我们开发了一种共识安全障碍模块，确保跨潜在障碍物配置的时空轨迹空间内可靠的安全覆盖。随后，推导了双凸并行轨迹优化问题，该问题有助于分解为一系列低维二次规划问题以加速计算。通过利用共识交替方向乘法器（ADMM）进行并行优化，每个生成的候选轨迹对应于可能的环境配置，同时共享公共共识轨迹段。这确保了实时执行自我车辆共识轨迹段时的驾驶安全性和一致性。我们通过与部分可观察环境中多个驾驶任务的最先进基线进行广泛比较来验证我们的 CPTO 框架。我们的结果表明，使用合成和真实交通数据集可以提高安全性和一致性。

了解你的极限！通过自我意识优化机器人的行为

分类： 机器人技术, 人工智能

作者： Esteve Valls Mascaro, Dongheui Lee

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10308v1

摘要： 随着人形机器人从实验室过渡到现实世界环境，对于非专家用户来说，实现机器人控制的民主化至关重要。最近的人机模仿算法专注于高精度地跟踪参考人类运动，但它们容易受到参考运动质量的影响，并且需要人类操作员简化其运动以匹配机器人的能力。相反，我们认为机器人应该理解参考运动并使其适应其自身的能力，从而促进操作员的任务。为此，我们引入了一种深度学习模型，可以预测机器人在模仿给定参考时的表现。然后，我们的系统可以根据高级任务命令生成多个参考，为每个参考分配一个分数，并选择最佳参考来实现所需的机器人行为。我们的自我意识模型 (SAW) 根据各种标准对潜在的机器人行为进行排名，例如跌倒可能性、对参考运动的遵守情况以及平滑度。我们将先进的运动生成、机器人控制和 SAW 集成到一个独特的系统中，确保机器人针对任何任务命令都能实现最佳行为。例如，SAW 可以以 99.29% 的准确率预测跌倒。有关更多信息，请查看我们的项目页面：https://evm7.github.io/Self-AWare

ASMA：通过场景感知控制屏障功能实现视觉语言无人机导航的自适应安全裕度算法

分类： 机器人技术, 人工智能, 系统与控制, 图像和视频处理, 系统与控制

作者： Sourav Sanyal, Kaushik Roy

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10283v1

摘要： 在快速发展的视觉语言导航（VLN）领域，确保强大的安全机制仍然是一个开放的挑战。控制屏障函数（CBF）是通过解决最优控制问题来保证安全的有效工具。在这项工作中，我们考虑了 VLN 设置中的遥控无人机的情况，并通过使用通过 RGB-D 传感器获得的以自我为中心的观察来制定新颖的场景感知 CBF，从而添加安全功能。作为基线，我们实现了一个视觉语言理解模块，该模块使用对比语言图像预训练（CLIP）模型来查询用户指定的（以自然语言）地标。使用 YOLO（只看一次）对象检测器，查询 CLIP 模型以验证裁剪后的地标，从而触发下游导航。为了提高基线的导航安全性，我们提出了 ASMA（一种自适应安全裕度算法），该算法可以裁剪无人机的深度图以跟踪移动物体，从而在飞行中执行场景感知 CBF 评估。通过识别现场潜在的风险观察结果，ASMA 能够实时适应不可预测的环境条件，确保 VLN 驱动的无人机行动的最佳安全范围。在凉亭环境中的 parrot bebop2 四旋翼飞行器上使用机器人操作系统 (ROS) 中间件，与基线无 CBF VLN 相比，ASMA 的成功率提高了 59.4% - 61.8%，轨迹长度仅增加了 5.4% - 8.2%，同时从不安全的情况中恢复。

双足机器人在不可行路径中的安全关键运动：在导航至目的地期间克服障碍

分类： 机器人技术

作者： Jaemin Lee, Min Dai, Jeeseop Kim, Aaron D. Ames

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10274v1

摘要： 本文提出了一种安全关键的运动控制框架，用于腿式机器人在障碍物丰富的环境中探索不可行的路径。我们的研究重点是实现安全、稳健的运动，让机器人在到达指定目的地的途中遇到不可避免的障碍。通过利用与未知物体的物理交互的结果，我们在避免障碍的安全关键条件之间建立了层次结构。这种层次结构能够生成安全参考轨迹，巧妙地缓解安全条件之间的冲突并降低风险，同时控制机器人朝目的地移动，而无需额外的运动规划方法。此外，通过利用混合线性倒立摆模型并结合解决物理交互干扰的干扰观测器，可以实现稳健的双足运动。

手术机器人助手的语音控制界面

分类： 机器人技术, 人机交互

作者： Ana Davila, Jacinto Colan, Yasuhisa Hasegawa

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10225v1

摘要： 机器人辅助微创手术的传统控制界面给外科医生带来了巨大的认知负担。为了提高手术效率、外科医生与机器人的协作能力并减轻外科医生的负担，我们为手术机器人助手提供了一种新颖的语音控制界面。我们的系统将最先进的语音识别技术 Whisper 集成到 ROS 框架内，以实现实时解释和执行手术机械手控制的语音命令。该系统由语音识别模块、动作映射模块和机器人控制模块组成。实验结果证明了该系统的高精度和推理速度，并证明了其在组织三角测量任务中外科应用的可行性。未来的工作将集中于进一步提高其稳健性和临床适用性。

BEINGS：使用高斯泼溅的贝叶斯具体图像目标导航

分类： 机器人技术

作者： Wugang Meng, Tianfu Wu, Huan Yin, Fumin Zhang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10216v1

摘要： 图像目标导航使机器人能够使用视觉提示进行引导，到达捕获目标图像的位置。然而，当前的方法要么严重依赖数据和计算成本昂贵的基于学习的方法，要么由于探索策略不足而在复杂环境中缺乏效率。为了解决这些限制，我们提出了使用高斯分布的贝叶斯具体图像目标导航，这是一种将 ImageNav 表述为模型预测控制框架内的最优控制问题的新颖方法。 BEINGS 利用 3D 高斯泼溅作为预测未来观测结果的场景，从而实现基于机器人感官体验的高效、实时导航决策。通过集成贝叶斯更新，我们的方法动态地完善机器人的策略，而不需要大量的先前经验或数据。我们的算法通过广泛的模拟和物理实验进行了验证，展示了其在视觉复杂场景中的具体机器人系统的潜力。

基于同步的协作分布式模型预测控制

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制

作者： Julius Beerwerth, Maximilian Kloock, Bassam Alrifaee

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10215v1

摘要： 众所周知，与集中式控制算法相比，分布式控制算法可以减少总体计算时间。然而，它们可能会导致解决方案不一致，从而违反安全关键约束。当两个或多个代理在对彼此的控制操作进行预测时同时计算时，可能会出现不一致的解决方案。为了解决这个问题，我们提出了一种称为基于同步的协作分布式模型预测控制的迭代算法，我们在[1]中提出了该算法。该算法由两个步骤组成：1. 计算每个智能体的最优控制输入；2. 同步所有智能体的预测状态。我们在网络物理移动实验室中展示了我们的算法在控制多个小型车辆方面的功效。

嵌入式图像到图像转换，可在基于学习的机器人辅助软操作中实现高效的模拟到真实的转换

分类： 机器人技术, 机器学习

作者： Jacinto Colan, Keisuke Sugita, Ana Davila, Yutaro Yamada, Yasuhisa Hasegawa

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10204v1

摘要： 机器人模拟学习的最新进展在加速学习复杂的操作技能方面取得了令人印象深刻的成果。然而，由于模拟与现实之间的差异造成的模拟与真实的差距，给自主手术系统的有效部署带来了重大挑战。我们提出了一种利用图像翻译模型来减轻领域不匹配并促进在模拟环境中有效的机器人技能学习的新颖方法。我们的方法涉及使用对比不成对的图像到图像转换，允许从这些转换后的图像中获取嵌入表示。随后，这些嵌入用于提高训练手术操作模型的效率。我们进行了实验来评估我们的方法的性能，证明与传统方法相比，它显着提高了任务成功率并减少了完成任务所需的步骤。结果表明，我们提出的系统有效地弥合了模拟与真实的差距，为推进微创手术中手术机器人的自主性提供了一个强大的框架。

SteeredMarigold：引导扩散以实现很大程度上不完整的深度图的深度完成

分类： 机器人技术, 计算机视觉和模式识别

作者： Jakub Gregorek, Lazaros Nalpantidis

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10202v1

摘要： 即使真实环境中部署的 RGB-D 传感器捕获的深度图通常具有大面积缺少有效深度测量的特征，但绝大多数深度补全方法仍然假设深度值覆盖场景的所有区域。为了解决这个限制，我们引入了 SteeredMarigold，这是一种免训练、零样本深度补全方法，即使对于很大程度上不完整的深度图，也能够生成度量密集深度。 SteeredMarigold 通过使用可用的稀疏深度点作为条件来引导去噪扩散概率模型来实现这一目标。在没有为大面积提供深度的测试中，我们的方法优于 NYUv2 数据集上的相关顶级方法，实现了最先进的性能，并针对深度图不完整性表现出卓越的鲁棒性。我们的代码将公开。

NEUSIS：复杂无人机搜索任务中自主感知、推理和规划的组合神经符号框架

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Zhixi Cai, Cristian Rojas Cardenas, Kevin Leo, Chenyuan Zhang, Kal Backman, Hanbing Li, Boying Li, Mahsa Ghorbanali, Stavya Datta, Lizhen Qu, Julian Gutierrez Santiago, Alexey Ignatiev, Yuan-Fang Li, Mor Vered, Peter J Stuckey, Maria Garcia de la Banda, Hamid Rezatofighi

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10196v1

摘要： 本文解决了无人机自主搜索任务的问题，其中无人机必须根据在带有禁区的大型、易发生危险的环境中的简要描述，在时限内找到特定的感兴趣实体（EOI）。无人机必须利用有限且不确定的信息进行感知、推理并做出决策。我们提出了 NEUSIS，一种组合神经符号系统，专为现实场景中可解释的无人机搜索和导航而设计。 NEUSIS 集成了神经符号视觉感知、推理和基础 (GRiD) 来处理原始感官输入，维护用于环境表示的概率世界模型，并使用分层规划组件 (SNaC) 进行高效的路径规划。使用 AirSim 和 Unreal Engine 模拟城市搜索任务的实验结果表明，NEUSIS 在成功率、搜索效率和 3D 定位方面优于最先进的 (SOTA) 视觉语言模型和 SOTA 搜索规划模型。这些结果证明了我们的组合神经符号方法在处理复杂的真实场景方面的有效性，使其成为搜索任务中自主无人机系统的有前景的解决方案。

鱼网围栏中的水下机器人引导、导航和控制

分类： 机器人技术

作者： Sveinung Johan Ohrem

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10194v1

摘要： 水产养殖机器人技术正受到越来越多的关注，并面临着独特的研究和开发挑战和机遇。制导、导航和控制都是实现水产养殖机器人解决方案的重要方面，可以使该行业在未来受益匪浅。传感器技术、导航方法、运动规划器和状态控制都可以发挥作用，本文介绍了目前在研究和工业中应用的一些技术和方法，然后提供了一些未来可以针对的挑战的示例。

GPS 失效环境下空中机器人路径规划的相对定位

分类： 机器人技术, 人工智能

作者： Farzad Sanati

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10193v1

摘要： 众所周知，智能空中机器人最有用的应用之一是丛林火灾监测和预测行动，在澳大利亚有时被称为无人机（UAV）。一群自主无人机/无人机被编程为使用机载传感器实时观察火灾参数，这对于减少火灾对生命的威胁非常有价值。然而，在关键的丛林大火条件下，例如偏远地区和恶劣天气条件下，GPS 信号也可能不可靠，自主无人机在定位和导航方面面临着严峻的挑战。本文讨论了无人机自主导航中最重要的因素之一，即初始定位，有时也称为定位。本文提供的解决方案将使一组自主无人机能够建立与其行动基地的相对位置，以便能够在受丛林大火影响的地区开始团队搜索和侦察，并在没有帮助的情况下找到返回基地的路GPS 信号。

LiLoc：使用自适应子图连接和自我中心因子图进行终身定位

分类： 机器人技术

作者： Yixin Fang, Yanyan Li, Kun Qian, Federico Tombari, Yue Wang, Gim Hee Lee

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10172v1

摘要： 本文提出了一种基于图的多功能终身定位框架LiLoc，该框架通过维护单个中央会话来增强其及时性，同时通过中央会话和辅助会话之间的多模态因素来提高准确性。首先，采用自适应子图连接策略来生成中央会话的先验子图（关键帧和姿势），并在需要约束来实现稳健定位时为附属机构提供先验。接下来，使用全局坐标系中的垂直识别和 ICP 细化来执行辅助会话的从粗到细的姿态初始化。为了提高后续定位的准确性，我们提出了一种以自我为中心的因子图（EFG）模块，该模块以联合优化的方式集成了 IMU 预积分、LiDAR 里程计和扫描匹配因子。具体来说，扫描匹配因子是通过一种新颖的传播模型构建的，该模型有效地将先验约束作为边缘分布到相关的先验姿势节点，并根据关键帧配准误差通过噪声进行加权。此外，该框架支持两种模式之间的灵活切换：重新定位（RLM）和增量定位（ILM），基于所提出的基于重叠的机制，以从中央会话中选择或更新先前的子图。所提出的 LiLoc 在公共和自定义数据集上进行了测试，证明了针对最先进方法的准确定位性能。我们的代码将在 https://github.com/Yixin-F/LiLoc 上公开提供。

自动驾驶车辆轨迹流预测的机动决策

分类： 机器人技术

作者： Mais Jamal, Aleksandr Panov

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10165v1

摘要： 决策、运动规划和轨迹预测对于自动驾驶系统至关重要。通过准确预测其他道路使用者的运动，可以增强自主系统的决策能力，使其更有效地应对动态和不可预测的环境，并更适应多样化的道路场景。本文介绍了 FFStreams++ 方法，用于不同操作的决策和运动规划，包括无保护左转、超车和保持车道。 FFStreams++ 是基于采样和基于搜索的方法的组合，其中针对不同的操作迭代地生成和优化新的采样轨迹，然后调用启发式搜索规划器来搜索最佳计划。我们使用规划域定义语言（PDDL）对自主潜水系统进行建模，并使用启发式快进规划器搜索最佳计划。在这种方法中，问题的初始状态通过流迭代修改，这将生成特定于机动的候选轨迹，增加迭代级别，直到找到最佳计划。 FFStreams++ 集成了一个查询连接的网络模型，用于预测每个周围障碍物未来可能的轨迹及其概率。所提出的方法在 CommonRoad 模拟框架上进行了测试。我们使用一组随机生成的交叉路口超车和无保护左转驾驶场景来评估 FFStreams++ 规划器。测试结果证实，所提出的方法可以有效地执行各种机动，以确保安全并降低与附近交通人员发生碰撞的风险。

SplatSim：使用高斯泼溅的 RGB 操作策略的零射击 Sim2Real 传输

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Mohammad Nomaan Qureshi, Sparsh Garg, Francisco Yandun, David Held, George Kantor, Abhishesh Silwal

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10161v1

摘要： 由于合成和真实世界视觉数据之间存在显着的域转移，Sim2Real 传输，特别是依赖 RGB 图像的操作策略，仍然是机器人技术中的一个关键挑战。在本文中，我们提出了 SplatSim，这是一种新颖的框架，它利用 Gaussian Splatting 作为主要渲染基元来减少基于 RGB 的操作策略的 Sim2Real 差距。通过在模拟器中用高斯 Splats 替换传统的网格表示，SplatSim 可以生成高度逼真的合成数据，同时保持模拟的可扩展性和成本效益。我们通过在 SplatSim 中训练操纵策略并以零样本的方式将其部署在现实世界中来证明我们框架的有效性，实现了 86.25% 的平均成功率，而在现实世界数据上训练的策略的平均成功率为 97.5%。

P2U-SLAM：基于点不确定性和位姿不确定性的单目宽视场 SLAM 系统

分类： 机器人技术, 计算机视觉和模式识别, 图像和视频处理

作者： Yufan Zhang, Kailun Yang, Ze Wang, Kaiwei Wang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10143v1

摘要： 本文提出了 P2U-SLAM，这是一种具有宽视场 (FoV) 相机的视觉同步定位与建图 (SLAM) 系统，它利用了位姿不确定性和点不确定性。虽然宽视场能够对历史地图点进行大量重复观察以匹配跨视图特征，但历史地图点的数据属性和历史关键帧的姿态在优化过程中发生了变化。忽视数据属性变化会导致优化时缺少部分信息矩阵，导致长期定位性能下降的风险。我们研究的目的是降低 SLAM 系统的宽视场视觉输入的风险。本文基于条件概率模型，揭示了上述数据属性变化对优化过程的确定影响，将其具体化为点不确定性和位姿不确定性，并给出了具体的数学形式。 P2U-SLAM分别将点不确定性和姿态不确定性嵌入到跟踪模块和局部映射中，并在每次优化操作（包括局部映射、地图合并和闭环）之后更新这些不确定性。我们对来自两个流行公共数据集的 27 个序列进行了详尽的评估，并具有宽视场视觉输入。与其他最先进的方法相比，P2U-SLAM 显示出优异的性能。源代码将在 https://github.com/BambValley/P2U-SLAM 上公开发布。

机器人辅助微创手术中避免碰撞的分层框架

分类： 机器人技术

作者： Jacinto Colan, Ana Davila, Khusniddin Fozilov, Yasuhisa Hasegawa

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10135v1

摘要： 由于机器人系统提高了精度和灵活性，微创手术 (MIS) 程序显着受益。然而，确保这些动态和杂乱环境中的安全是一项持续的挑战。本文提出了一种用于 MIS 中避免碰撞的新型分层框架。该框架集成了多项任务，包括维护远程运动中心 (RCM) 约束、跟踪所需的工具姿势、避免碰撞、优化可操作性以及遵守关节限制。所提出的方法利用分层二次规划（HQP）来无缝管理这些约束，同时实现任务优先级之间的平滑过渡以避免冲突。通过模拟场景进行的实验验证证明了该框架在处理涉及静态和动态障碍物以及工具间碰撞的各种场景方面的稳健性和有效性。

使用速度障碍和控制障碍函数的多智能体避障

分类： 机器人技术, 多代理系统

作者： Alejandro Sánchez Roncero, Rafael I. Cabral Muchacho, Petter Ögren

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10117v1

摘要： 速度障碍（VO）方法形成了移动障碍物和智能体之间避免碰撞策略的范例。虽然 VO 方法在简单的多智能体环境中表现良好，但它们不能保证安全性，并且在常见情况下会表现出过于保守的行为。在本文中，我们建议将 VO 指导策略与 CBF 安全方法相结合，克服 VO 过于保守的行为并正式保证安全。我们使用二阶积分器和类汽车动力学在基线比较研究中验证了我们的方法。结果表明我们的方法优于基线。路径平滑度、避免碰撞和成功率。

工业6.0：生成式人工智能和异构机器人群驱动的新一代工业

分类： 机器人技术, 人工智能

作者： Artem Lykov, Miguel Altamirano Cabrera, Mikhail Konenkov, Valerii Serpiva, Koffivi Fid`ele Gbagbe, Ali Alabbas, Aleksey Fedoseev, Luis Moreno, Muhammad Haris Khan, Ziang Guo, Dzmitry Tsetserukou

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10106v1

摘要： 本文提出了工业6.0的概念，介绍了世界上第一个完全自动化的生产系统，该系统根据用户提供的自然语言描述自主处理整个产品设计和制造过程。通过利用生成式人工智能，该系统可实现生产关键环节的自动化，包括产品蓝图设计、零部件制造、物流和装配。一群异构的机器人通过与大型语言模型 (LLM) 集成，每个机器人都配备了单独的人工智能，协调生产过程。该机器人系统包括机械臂、送货无人机和能够生成装配蓝图的 3D 打印机。该系统使用商业和开源大语言模型进行评估，通过 API 和本地部署发挥作用。一项用户研究表明，该系统将平均生产时间缩短至 119.10 分钟，明显优于人类专家开发团队的平均生产时间 528.64 分钟（改进系数为 4.4）。此外，在产品蓝图阶段，该系统比人类 CAD 操作员前所未有地超越了 47 倍，在 0.5 分钟内完成了任务，而此前的任务时间为 23.5 分钟。这一突破代表着朝着完全自主制造的重大飞跃。

IRIS：用于 3D 可供性分析的交互式响应式智能分割

分类： 机器人技术

作者： Meng Chu, Xuan Zhang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10078v2

摘要： 大语言和视觉语言模型的最新进展显着增强了多模态理解，但将高级语言指令转化为 3D 空间中的精确机器人动作仍然具有挑战性。本文介绍了 IRIS（交互式响应智能分割），这是一种用于 3D 可供性分割的新型免训练多模式系统，以及用于评估日常环境中交互式语言引导可供性的基准。 IRIS 将大型多模态模型与专门的 3D 视觉网络集成，实现 2D 和 3D 视觉理解与语言理解的无缝融合。为了便于评估，我们提供了 10 个典型室内环境的数据集，每个环境都有 50 张针对对象动作和 3D 可供性分割进行注释的图像。大量实验证明了 IRIS 在处理不同设置下的交互式 3D 可供性分割任务方面的能力，展示了跨各种指标的竞争性能。我们的结果凸显了 IRIS 在复杂室内环境中基于可供性理解增强人机交互的潜力，从而推动为现实世界应用开发更直观、更高效的机器人系统。

面向具体视觉导航中物理可实现的对抗性攻击

分类： 计算机视觉和模式识别, 机器人技术

作者： Meng Chen, Jiawei Tu, Chao Qi, Yonghao Dang, Feng Zhou, Wei Wei, Jianqin Yin

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10071v1

摘要： 在安全关键环境中部署嵌入式导航代理引起了人们对其易受深度神经网络对抗性攻击的担忧。然而，由于从数字世界到物理世界过渡的挑战，当前的攻击方法往往缺乏实用性，而现有的目标检测物理攻击无法同时实现多视图有效性和自然性。为了解决这个问题，我们提出了一种实用的实体导航攻击方法，通过将具有可学习纹理和不透明度的对抗性补丁附加到对象上。具体来说，为了确保不同视点的有效性，我们采用了基于对象感知采样的多视图优化策略，该策略使用来自导航模型的反馈来优化补丁的纹理。为了使补丁对于人类观察者来说不显眼，我们引入了两阶段不透明度优化机制，其中在纹理优化后细化不透明度。实验结果表明，我们的对抗补丁将导航成功率降低了约 40%，在实用性、有效性和自然性方面优于以前的方法。代码位于：[https://github.com/chen37058/Physical-Attacks-in-Embodied-Navigation]。

GlobalMapNet：矢量化全球高精地图构建的在线框架

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Anqi Shi, Yuze Cai, Xiangyu Chen, Jian Pu, Zeyu Fu, Hong Lu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10063v2

摘要： 高清 (HD) 地图对于自动驾驶系统至关重要。传统上，采用昂贵且劳动密集型的管道来构建高清地图，其可扩展性受到限制。近年来，众包和在线地图作为两种替代方法出现，但它们各自都有局限性。在本文中，我们提供了一种新颖的方法，即全球地图构建，来直接生成矢量化全球地图，结合了众包和在线地图的优点。我们介绍 GlobalMapNet，这是第一个用于矢量化全球高清地图构建的在线框架，它更新和利用自我车辆上的全球地图。为了从头开始生成全局地图，我们建议 GlobalMapBuilder 不断匹配和合并局部地图。我们设计了一种新的算法——Map NMS，来删除重复的地图元素并生成干净的地图。我们还提出 GlobalMapFusion 来聚合历史地图信息，提高预测的一致性。我们在两个广泛认可的数据集 Argoverse2 和 nuScenes 上检查 GlobalMapNet，表明我们的框架能够生成全球一致的结果。

多智能体系统的社会力模型及其在杂乱环境中机器人遍历的应用

分类： 机器人技术

作者： Chenxi Li, Weining Lu, Qingquan Lin, Litong Meng, Haolu Li, Bin Liang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10049v1

摘要： 这封信提出了一个从微观机制的角度来解决多智能体系统中的协同效应的模型。该模型在遍历应用中利用机器人群的分布式控制。受行人规划动力学的启发，该模型采用三种类型的力来调节智能体的行为：内在推进力、智能体之间的相互作用以及障碍物的排斥力。这些力量能够平衡主体之间的收敛、发散和回避效应。此外，我们提出了一种基于合力的规划和决策方法，以实现模型的实际部署。实验结果证明了未知杂乱环境中系统路径优化的有效性。传感器数据经过快速数字过滤，传输的数据被显着压缩。因此，该模型具有较低的计算成本和最小的通信负载，从而提高了环境适应性和系统可扩展性。

通过对象部分场景流进行与实施例无关的动作规划

分类： 机器人技术

作者： Weiliang Tang, Jia-Hui Pan, Wei Zhan, Jianshu Zhou, Huaxiu Yao, Yun-Hui Liu, Masayoshi Tomizuka, Mingyu Ding, Chi-Wing Fu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10032v1

摘要： 观察到机器人动作规划的关键是理解当其相关部分由末端执行器操纵时的目标-物体运动，我们建议生成 3D 物体-部分场景流并提取其变换以解决不同实施例的动作轨迹。我们的方法的优点是它从对象运动预测中明确地得出机器人动作，通过理解对象运动产生更稳健的策略。此外，除了在以实施例为中心的数据上训练的策略之外，我们的方法与实施例无关，可以在不同的实施例中推广，并且能够从人类演示中学习。我们的方法包括三个组件：一个对象部分预测器，用于定位末端执行器要操纵的部分；一个 RGBD 视频生成器，用于预测未来的 RGBD 视频；以及一个轨迹规划器，用于提取与实施例无关的变换序列并求解不同实施例的轨迹。即使没有轨迹数据，我们的方法在视频上进行训练，在流行的虚拟环境 MetaWorld 和 Franka-Kitchen 上仍然比现有的方法分别显着优于现有方法 27.7% 和 26.2%。此外，我们进行了现实世界的实验，表明我们的策略仅通过人类演示进行训练，可以部署到各种实施例中。

E2Map：使用语言模型进行自我反思机器人导航的体验和情感地图

分类： 机器人技术, 人工智能

作者： Chan Kim, Keonwoo Kim, Mintaek Oh, Hanbi Baek, Jiyang Lee, Donghwi Jung, Soojin Woo, Younkyung Woo, John Tucker, Roya Firoozi, Seung-Woo Seo, Mac Schwager, Seong-Woo Kim

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10027v1

摘要： 大型语言模型（LLM）在引导实体代理执行一系列任务（包括机器人操作和导航）的语言指令方面显示出巨大的潜力。然而，现有的方法主要是针对静态环境而设计的，并且没有利用代理自身的经验来完善其初始计划。鉴于现实环境本质上是随机的，与静态场景不同，仅基于大语言模型一般知识的初始计划可能无法实现其目标。为了解决这一局限性，本研究引入了经验与情感地图（E2Map），它不仅集成了大语言模型知识，还集成了代理的现实世界经验，从人类情感反应中汲取灵感。所提出的方法通过根据代理的经验更新 E2Map 来实现一次性行为调整。我们在随机导航环境（包括模拟和现实场景）中的评估表明，与现有的基于 LLM 的方法相比，所提出的方法显着提高了随机环境中的性能。代码和补充材料可在 https://e2map.github.io/ 获取。

机器人的高动态物理交互：主动远程合规中心的设计和控制

分类： 机器人技术

作者： Christian Friedrich, Patrick Frank, Marco Santin, Matthias Haag

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10024v1

摘要： 机器人交互控制通常仅限于低动态或低灵活性，具体取决于选择主动还是被动方法。在这项工作中，我们引入了一种结合了主动和被动交互控制优点的混合控制方案。为了实现这一目标，我们提出了一种新型主动远程合规中心（ARCC）的设计，该中心基于可用于直接控制交互力的被动和主动元件。我们引入代理模型来与纯粹基于机器人的交互方案进行动态比较。在比较验证中，ARCC 极大地改善了交互动态，导致运动带宽增加了多达 31 倍。我们进一步介绍我们的控制方法以及机器人控制器中的集成。最后，我们在不同的工业基准上分析 ARCC，例如孔中钉、顶帽导轨装配和轮廓跟踪问题，并将其与现有技术进行比较，以突出动态性和灵活性。如果应用需要短循环时间和灵敏的操作，则所提出的系统特别适合。

学习敏捷游泳：一种无需 CPG 的端到端方法

分类： 机器人技术

作者： Xiaozhu Lin, Xiaopei Liu, Yang Wang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10019v1

摘要： 对敏捷高效的水下机器人，尤其是仿生机器鱼的追求，一直受到创建能够充分利用其水动力能力的运动控制器的挑战的阻碍。本文通过引入一种新颖的、无模型的端到端控制框架来解决这些挑战，该框架利用深度强化学习（DRL）来实现机器鱼敏捷且节能的游泳。与依赖于中央模式生成器（CPG）等预定义三角游泳模式的现有方法不同，我们的方法直接输出低级执行器命令而没有强约束，使机器鱼能够学习敏捷的游泳行为。此外，通过将高性能计算流体动力学（CFD）模拟器与创新的模拟到真实策略（例如归一化密度匹配和伺服响应匹配）相集成，所提出的框架显着缩小了模拟到真实的差距，促进直接无需微调即可将控制策略转移到现实世界环境。对比实验表明，与传统的基于 CPG-PID 的控制器相比，我们的方法实现了更快的游泳速度、更小的转弯半径和更低的能耗。此外，所提出的框架显示出在解决不同场景中的复杂任务方面的前景，为在真实水生环境中更有效地部署机器鱼铺平了道路。

RPC：用于机器人规划、控制和部署的模块化框架

分类： 机器人技术

作者： Seung Hyeon Bang, Carlos Gonzalez, Gabriel Moore, Dong Ho Kang, Mingyo Seo, Luis Sentis

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10015v1

摘要： 本文提出了一个开源、轻量级且全面的软件框架，名为 RPC，它集成了基于物理的模拟器、规划和控制库、调试工具以及用户友好的操作界面。 RPC 使用户能够彻底评估和开发机器人系统的控制算法。虽然现有的软件框架提供了其中一些功能，但将它们集成到一个内聚的系统中可能具有挑战性且麻烦。为了克服这一挑战，我们对 RPC 中的每个组件进行了模块化，以确保轻松无缝地集成或更换新模块。此外，我们的框架目前支持用于机器人操纵器和腿式机器人的各种基于模型的规划和控制算法，以及必要的调试工具，使用户可以更轻松地设计和执行复杂的机器人任务。 RPC的代码和使用说明可以在https://github.com/shbang91/rpc获取。

GA-TEB：基于目标线的高效导航目标自适应框架

分类： 机器人技术

作者： Qianyi Zhang, Wentao Luo, Ziyang Zhang, Yaoyuan Wang, Jingtai Liu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10009v1

摘要： 在人群导航中，局部目标在轨迹初始化、优化和评估中起着至关重要的作用。认识到当全局目标很远时，机器人的主要目标是避免碰撞，使得通过准确的局部目标点变得不那么重要，这项工作引入了球门线的概念，它将传统的局部目标从单个点扩展到多条候选线。结合将障碍物分组为尽可能凸的拓扑地图构建策略，提出了目标自适应导航框架来有效规划多个候选轨迹。仿真和实验表明，所提出的 GA-TEB 框架有效地防止了死锁情况，即机器人在拥挤的环境中由于缺乏可行的轨迹而被冻结。此外，该框架大大提高了在有大量非凸障碍物的场景中的规划频率，增强了鲁棒性和安全性。

用于密闭瓦砾环境中城市搜索和救援的藤蔓机器人的开发和测试

分类： 机器人技术

作者： Zheyu Zhou, Yaqing Wang, Elliot W. Hawkes, Chen Li

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10000v1

摘要： 城市环境中发生自然灾害和人为灾害后对快速响应和安全操作的要求刺激了机器人系统的发展，这些系统旨在协助复杂瓦砾场内的搜索和救援行动。传统的无人驾驶飞行器 (UAV) 和无人驾驶地面车辆 (UGV) 在这种受限和阻塞的环境中面临着巨大的限制。本文介绍了一种新型藤蔓机器人，其设计用于在密集的碎石中导航，其灵感来自于植物的自然生长机制。与传统机器人不同，藤蔓机器人是软机器人，可以通过翻转其材料来生长，从而使它们能够穿过狭窄的空间和障碍物。本研究中提出的原型包含用于转向和振荡的气动肌肉、基于方程的机器人长度控制以及用于伸展和缩回机器人主体的反馈压力调节系统。我们在人造碎石试验台上进行了一系列受控实验，以评估机器人在不同环境条件和机器人参数（包括体积比、环境重量、振动和转向）下的性能。结果表明，藤蔓机器人可以在具有混合障碍物大小和重量的杂乱环境中实现显着的穿透深度，并且可以保持重复的轨迹，展示了绘制和导航复杂地下路径的潜力。我们的研究结果强调了藤蔓机器人适合城市搜索和救援任务，并计划进一步研究以增强其在现实场景中的稳健性和可部署性。

ViewActive：单个图像的活动视点优化

分类： 机器人技术

作者： Jiayi Wu, Xiaomin Lin, Botao He, Cornelia Fermuller, Yiannis Aloimonos

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09997v1

摘要： 当观察物体时，人类受益于他们的空间可视化和心理旋转能力，可以根据当前的观察设想潜在的最佳视角。此功能对于使机器人在操作过程中实现高效且强大的场景感知至关重要，因为最佳视点为准确表示 2D 图像中的场景提供了必要且信息丰富的特征，从而增强了下游任务。为了赋予机器人这种类似人类的主动视点优化能力，我们提出了 ViewActive，这是一种从方面图汲取灵感的现代化机器学习方法，它仅基于当前的 2D 图像输入提供视点优化指导。具体来说，我们引入了 3D 视点质量场（VQF），这是一种类似于方面图的视点质量分布的紧凑且一致的表示，由三个通用视点质量指标组成：自遮挡率、占用感知表面正态熵、和视觉熵。我们利用预先训练的图像编码器来提取强大的视觉和语义特征，然后将其解码为 3D VQF，使我们的模型能够有效地泛化不同的对象，包括看不见的类别。轻量级 ViewActive 网络（单个 GPU 上 72 FPS）显着增强了最先进的对象识别管道的性能，并且可以集成到机器人应用的实时运动规划中。我们的代码和数据集可以在这里找到：https://github.com/jiayi-wu-umd/ViewActive

SHIRE：在强化学习中利用人类直觉提高样本效率

分类： 机器学习, 神经和进化计算, 机器人技术

作者： Amogh Joshi, Adarsh Kumar Kosta, Kaushik Roy

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09990v1

摘要： 神经网络执行机器人感知和控制任务（例如深度和光流估计、同步定位和建图（SLAM）以及自动控制）的能力使其近年来得到了广泛采用。深度强化学习已在这些环境中广泛使用，因为它没有与监督学习相关的不可持续的培训成本。然而，DeepRL 的样本效率较差，即它需要大量的环境交互才能收敛到可接受的解决方案。 Deep Q Learning 和 Soft Actor-Critic 等现代 RL 算法试图弥补这一缺点，但无法提供自主机器人等应用所需的可解释性。人类直观地理解机器人技术中常见的长期连续任务。正确使用这种直觉可以使强化学习策略更容易解释，同时提高样本效率。在这项工作中，我们提出了 SHIRE，这是一种使用概率图形模型 (PGM) 编码人类直觉的新颖框架，并将其用于深度 RL 训练流程以提高样本效率。我们的框架在我们评估的环境中实现了 25-78% 的样本效率提升，而开销成本可以忽略不计。此外，通过教授 RL 代理编码的基本行为，SHIRE 增强了政策的可解释性。现实世界的演示进一步凸显了使用我们的框架训练的政策的有效性。

通过智能背包实现动态环境中多机器人导航的受限带宽观测共享

分类： 机器人技术

作者： Anirudh Chari, Rui Chen, Changliu Liu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09975v1

摘要： 多机器人导航在灾难响应、自动驾驶汽车以及仓库和制造自动化等各个领域中变得越来越重要。机器人团队通常必须在高度动态的环境中以及通信基础设施施加的严格带宽限制下运行，这使得系统内有效的观察共享成为一个具有挑战性的问题。本文提出了一种新颖的最优通信方案——智能背包（iKnap），用于带宽限制下动态环境中的多机器人导航。我们将多机器人通信建模为推理代理图中的信念传播。然后，我们将观察共享的组合优化制定为 0/1 背包问题，其中机器人之间的每个潜在的成对通信都被分配一个决策实用程序，以权衡其带宽成本，并且系统具有一些累积带宽限制。与最先进的基于广播的最佳通信方案相比，iKnap 在场景复杂性方面显着提高了导航性能，同时保持了类似的运行时间。此外，iKnap 比现有方法更有效地利用分配的带宽和观测资源，特别是在资源非常匮乏和高度不确定性的环境中。基于这些结果，我们声称所提出的方法可以使多机器人团队在现实世界的导航问题中实现更强大的协作。

确保未来：探索机器人系统中的隐私风险和安全问题

分类： 机器人技术, 人机交互

作者： Diba Afroze, Yazhou Tu, Xiali Hei

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09972v1

摘要： 人工智能的集成，特别是机器人技术中的大型语言模型，导致了该领域的快速进步。我们现在观察到机器人在日常生活中的使用出现了前所未有的激增。机器人的发展和持续改进正以惊人的速度发展。尽管这些显着的进步促进并改善了我们的生活，但一些安全和隐私问题尚未得到解决。因此，在改善我们的体验的同时解决机器人系统的隐私和安全威胁变得至关重要。在本文中，我们的目标是介绍机器人技术的现有应用和威胁、预期的未来演变以及它们可能意味着的安全和隐私问题。我们提出了一系列开放性问题供研究人员和从业者进一步探索。

用于 MRI 兼容前列腺机器人系统的初步附加差速驱动系统

分类： 机器人技术

作者： Zhanyue Zhao, Yiwei Jiang, Charles Bales, Yang Wang, Gregory Fischer

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09971v1

摘要： 与传统的随机六分仪活检相比，MRI 靶向活检显示出显着的优势，可以检测出更多具有临床意义的癌症并改善风险分层。然而，由于针的偏转，针瞄准的准确性提出了挑战，特别是在经会阴 MRI 引导的活检中。如果没有正确收集癌组织，这可能会对患者的治疗结果产生负面影响，导致重复采样和不准确的诊断。为了解决这个问题，我们开发了一种新颖的差动驱动原型，旨在提高针头控制和瞄准精度。该系统具有 2 自由度 (2-DOF) MRI 兼容的协作针驱动器，可将机器人与 MRI 成像区域保持一定距离，从而最大限度地减少图像伪影和失真。通过使用两个电机同时进行针插入和旋转而无需相对运动，该设计减少了 MRI 干扰。在这项工作中，我们介绍了两种机械差速驱动设计：滚珠丝杠/花键和丝杠/衬套类型，并探索了空心型和侧滑轮差速器。通过低分辨率快速原型验证证明了差分驱动在前列腺活检中的可行性，定制的中空型混合超声电机 (USM) 的转速达到 75 rpm。侧滑轮差速器进一步将速度提高至 168 rpm，非常适合针旋转应用。精度评估显示插入和旋转运动的误差极小，表明这种概念验证设计具有进一步开发的巨大前景。最终，差动驱动器为 MRI 引导的前列腺活检中针瞄准精度的关键问题提供了一个有希望的解决方案。

满足肌腱驱动连续体机器人形状约束的非线性模型预测任务空间控制器

分类： 机器人技术

作者： Maximillian Hachen, Chengnan Shentu, Sven Lilge, Jessica Burgner-Kahrs

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09970v1

摘要： 肌腱驱动连续体机器人（TDCR）有潜力用于微创手术和工业检查，这些机器人必须进入狭窄和密闭的空间。我们提出了一种模型预测控制 (MPC) 方法，利用 TDCR 的非线性运动学和冗余来避免全身碰撞，并具有处理 30Hz 输入的实时功能。我们方法有效性的关键是将用于有效计算可行轨迹的标称分段常曲率（PCC）模型与用于处理建模不确定性和干扰的本地反馈控制器相集成。我们的仿真实验表明，我们的 MPC 在位置跟踪方面优于传统的基于雅可比的控制器，特别是在干扰和用户定义的形状约束下，同时还允许合并控制限制。我们在硬件原型上进一步验证了我们的方法，展示了其增强远程操作任务安全性的潜力。

GPS 拒绝环境中的混合空中-地面车辆自主

分类： 机器人技术

作者： Tara Bartlett

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09967v1

摘要： DARPA 地下挑战赛正在引领机器人的开发，该机器人能够绘制长达 8 公里的地下矿井和隧道地图，并识别物体和人员。发展这些自主能力为未来的行星洞穴和地表探索任务铺平了道路。参与这项挑战的 Co-STAR 团队正在开发一种混合式空中地面飞行器，称为 Rollocopter。该车辆当前的设计是带有轮子的无人机。这允许飞行器在螺旋桨驱动下滚动，并且仅在必要时飞行，从而受益于地面模式功耗的降低和空中模式增强的机动性。本论文重点关注 Rollocopter 本地规划架构的开发和增强稳健性。论文的第一个发展是能够避免碰撞的局部规划器。本地规划节点提供车辆自主导航所需的基本功能。下一阶段是通过更可靠地规划而无需本地化的能力来增强这一点。然后将其与能够滚动和飞行的混合移动模式集成，以利用各自配置的动力和移动优势。可穿越性分析算法以及确定车辆能够穿越的地形正处于开发的后期阶段，以便为混合规划器的决策提供信息。开发了模拟器来测试规划算法并提高车辆对不同环境的鲁棒性。本论文提出的结果与滚轴直升机的移动性和车辆能够穿越的环境范围有关。视频中车辆成功穿过尘土飞扬的隧道、水平迷宫和地形崎岖的区域。

航天器遭遇轨道碎片自主避让任务规划

分类： 机器人技术, 系统与控制, 系统与控制

作者： Chen Xingwen, Wang Tong, Qiu Jianbin, Feng Jianbo

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09959v1

摘要： 本文研究航天器面对轨道碎片实现自主回避的任务规划问题。首先，结合避让需求，提出了轨道碎片自主避让闭环框架。在既定的任务规划模型下，提出了两阶段规划来协调日常任务和避免碎片之间的冲突。在规划扩展期间，持续时间操作的时间约束由排序选择来处理。同时，在动作执行过程中推理出满足瞬时数值变化和连续线性变化的动态资源变量。线性规划（LP）可以求解每个状态下变量的界限，用于检查持续时间和资源的交互约束的一致性。然后，合理地开发时间松弛规划图（TRPG）启发法来指导计划实现目标。最后，仿真表明所提出的任务规划策略能够有效实现航天器的自主避障。

有态度的机器人：敏捷腿机器人的无奇点四元数模型预测控制

分类： 机器人技术

作者： Zixin Zhang, John Z. Zhang, Shuo Yang, Zachary Manchester

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09940v2

摘要： 我们提出了一种用于腿式机器人的模型预测控制（MPC）框架，该框架避免了与大角度旋转期间的欧拉角等常见三参数姿态表示相关的奇点。我们的方法使用无奇点单位四元数参数化机器人的姿态，并对迭代线性二次调节器（iLQR）算法进行修改以处理生成的几何形状。我们的算法的推导只需要初等微积分和线性代数，刻意避免了李群的抽象和符号。我们在四足机器人和类人机器人上的多个实验中展示了四元数 MPC 的性能和计算效率。

ROS2WASM：将机器人操作系统引入网络

分类： 机器人技术

作者： Tobias Fischer, Isabel Paredes, Michael Batchelor, Thorsten Beier, Jesse Haviland, Silvio Traversaro, Wolf Vollprecht, Markus Schmitz, Michael Milford

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09941v1

摘要： 机器人操作系统（ROS）已成为机器人领域事实上的标准中间件，广泛应用于从教育到工业应用的各个领域。 RoboStack 发行版通过促进跨所有主要操作系统和架构的安装、与 PyTorch 和 Open3D 等科学工具无缝集成，扩展了 ROS 的可访问性。本文介绍了 ROS2WASM，这是 RoboStack 与 WebAssembly 的一种新颖集成，可以直接在 Web 浏览器中执行 ROS 2 及其相关软件，而无需本地安装。这种方法显着增强了研究的可重复性和可共享性，降低了机器人教育的障碍，并利用 WebAssembly 强大的安全框架来防范恶意代码。我们详细介绍了将 ROS 2 包交叉编译到 WebAssembly 中的方法、开发用于浏览器内 ROS 2 通信的专用中间件，以及实现 www.ros2wasm.dev 上提供的 Web 平台，该平台允许用户与 ROS 2 环境进行交互。此外，我们还扩展了对 Robotics Toolbox for Python 的支持，并调整其 Swift 模拟器以实现浏览器兼容性。我们的工作为机器人技术前所未有的可访问性铺平了道路，提供了可扩展、安全和可重复的环境，有可能改变教育和研究范式。

双足机器人实时耦合质心运动和足迹规划

分类： 机器人技术

作者： Tara Bartlett, Ian R. Manchester

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09939v1

摘要： 本文提出了一种算法，可以比实时更快地为类似弹簧加载倒立摆 (SLIP) 的双足机器人模型找到质心运动和足迹计划。这是通过动态足迹规划问题的新颖表示来实现的，其中环境中的每个点都被认为是一个潜在的立足点，可以向质心施加力以使其保持在所需的轨迹上。对于 Biped，每个时间步最多必须选择两个这样的立足点，并且我们通过迭代重新加权 $l_1$-norm 最小化来近似此基数约束。与角动量约束的线性化近似一起，可以通过自动步态发现来求解二次程序，以求解接触时间表和质心轨迹。每次有 13 个时间步长和 20 个可用表面的 2 秒规划范围在 142 毫秒内求解，大约比文献中现有的同类方法快十倍。我们在各种模拟环境中展示了该程序的多功能性。

为户外移动机器人远程操作实时生成延迟补偿视频源

分类： 机器人技术, 计算机视觉和模式识别

作者： Neeloy Chakraborty, Yixiao Fang, Andre Schreiber, Tianchen Ji, Zhe Huang, Aganze Mihigo, Cassidy Wall, Abdulrahman Almana, Katherine Driggs-Campbell

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09921v1

摘要： 远程操作是管理者远程控制农业机器人的一项重要技术。然而，密集作物行的环境因素和网络基础设施的限制阻碍了远程操作员传输数据的可靠性。这些问题导致视频输入延迟且帧速率可变，通常与机器人的实际视角有很大偏差。我们提出了一种基于模块化学习的视觉管道，为主管实时生成延迟补偿图像。我们广泛的离线评估表明，与我们环境中最先进的方法相比，我们的方法可以生成更准确的图像。此外，我们是利用来自真实机器人的数据实时评估具有复杂地形的室外现场环境中的延迟补偿方法的少数工作之一。其他视频请参见 https://sites.google.com/illinois.edu/comp-teleop。

用于 GPU 上离散和连续碰撞检测的硬件加速光线追踪

分类： 机器人技术

作者： Sizhe Sui, Luis Sentis, Andrew Bylard

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09918v1

摘要： 本文提出了一组简单直观的机器人碰撞检测算法，通过利用 GPU 上的硬件加速光线追踪，这些算法在高几何复杂性和大量碰撞查询方面显示出显着的扩展改进。它是第一个利用硬件加速光线追踪进行直接体积网格到网格离散碰撞检测并将其应用于连续碰撞检测的产品。我们介绍两种方法：用于精确机器人网格到障碍物网格碰撞检测的光线追踪离散姿态碰撞检测，以及用于机器人球体表示到障碍物网格扫掠碰撞检测的光线追踪连续碰撞检测，使用分段线性或二次 B 样条。对于总共 24k 个三角形的机器人链接网格和超过 190k 个三角形的障碍物网格，我们的方法在批量离散姿势查询中的速度比使用球体机器人表示的最先进的基于 GPU 的方法快 3 倍。对于相同的障碍物网格场景，我们的球体机器人连续碰撞检测速度提高了 9 倍，具体取决于轨迹批量大小。我们还对各种球体/网格姿态/路径表示的体积覆盖精度进行了详细测量，以深入了解不同机器人碰撞检测方法的速度和精度之间的权衡。

基于前臂超声的边缘手势识别

分类： 计算机视觉和模式识别, 机器人技术

作者： Keshav Bimbraw, Haichong K. Zhang, Bashima Islam

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09915v1

摘要： 前臂超声成像已经证明了准确手势分类的巨大潜力。尽管取得了这些进展，但人们对开发独立的端到端手势识别系统的关注仍然有限，该系统使其具有移动性、实时性和用户友好性。为了弥补这一差距，本文探讨了在边缘设备上部署基于前臂超声的手势识别的深度神经网络。利用量化技术，我们在保持高精度和低延迟的同时大幅减小了模型大小。我们最好的模型采用 Float16 量化，在 Raspberry Pi 上实现了 92% 的测试精度和 0.31 秒的推理时间。这些结果证明了在资源有限的边缘设备上进行高效、实时手势识别的可行性，为基于超声波的可穿戴系统铺平了道路。

通过磁测量增强视觉惯性 SLAM

分类： 机器人技术, 计算机视觉和模式识别

作者： Bharat Joshi, Ioannis Rekleitis

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09904v1

摘要： 本文通过引入磁力计测量的紧耦合融合，提出了视觉惯性里程计 (VIO) 的扩展。通过最小化重投影误差、相对惯性误差和相对磁力计方向误差来优化关键帧的滑动窗口。 IMU 方向传播的结果用于有效地转换帧之间的磁力计测量结果，从而在连续帧之间产生相对方向约束。使用椭球拟合算法校准软铁和硬铁效果。磁力计数据的引入导致方向误差显着减少，并且还恢复了相对于磁北的真实偏航方向。所提出的框架适用于所有磁场缓慢变化的环境，主要是室外和水下。我们的工作重点是水下领域，特别是在水下洞穴中，因为狭窄的通道和湍流使得执行环路闭合和重置定位漂移变得困难。由于缺乏环境光和环境的有限性，水下洞穴给 VIO 带来了挑战，同时也是淡水的重要来源并提供了宝贵的历史记录。水下洞穴的实验结果证明了所提出的 VIO 扩展在准确性和鲁棒性方面的改进。

Semantic2D：用于 2D 激光雷达语义分割的语义数据集

分类： 机器人技术

作者： Zhanteng Xie, Philip Dames

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09899v1

摘要： 本文提出了一个 2D 激光雷达语义分割数据集，以增强不同室内机器人应用中移动机器人的语义场景理解。虽然大多数现有的激光雷达语义数据集都专注于 3D 激光雷达传感器和自动驾驶场景，但所提出的 2D 激光雷达语义数据集是第一个针对 2D 激光雷达传感器和移动机器人的公共数据集。它包含在六种不同的室内环境中收集的数据，并具有九类室内环境中的典型物体。提出了一种新颖的半自动语义标记框架，以最少的人力为数据集提供逐点注释。基于该2D激光雷达数据集，提出了一种硬件友好的随机语义分割基准，以使2D激光雷达传感器具有语义场景理解能力。进行了一系列分割测试，以证明与传统的基于几何的提取算法相比，所提出的基于学习的分割基准可以为每个激光雷达点实现更准确、更丰富的分割。

材料很重要：通过模拟机器人跳跃研究仿生材料的功能优势

分类： 机器人技术

作者： Andrew K. Schulz, Ayah G. Ahmad, Maegan Tucker

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09895v1

摘要： 与自然界中发现的材料多样性相反，大多数机器人都是采用铝、不锈钢和 3D 打印长丝的某种组合设计的。此外，通常假设机器人系统遵循基本的刚体动力学。然而，自然界中的几个例子说明了物理材料特性的变化如何产生功能优势。在本文中，我们探讨了物理材料（非刚体）如何影响跳跃机器人的功能性能。在此过程中，我们解决了如何建模和模拟材料属性的实际问题。通过这些模拟，我们证明单肢料斗的肢系统中的材料梯度与同质设计相比具有功能优势。例如，当考虑倾斜斜坡跳跃时，与各向同性不锈钢相比，密度增加的材料梯度可减少 35% 的跟踪误差和 23% 的功耗。通过为机器人系统中的刚性肢体提供生物启发，我们试图表明未来的机器人制造应该考虑利用自然界中发现的材料模量和密度的各向异性。这将减少系统的振动，并抵消关节扭矩和振动，同时保护其结构完整性，减少疲劳和磨损。该模拟系统可以激发未来定制机器人机车设备的智能材料梯度。

提出安全替代方案的机器人

分类： 机器人技术

作者： Hyun Joe Jeong, Andrea Bajcsy

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09883v1

摘要： 目标条件策略，例如通过模仿学习学到的策略，为人类提供了一种影响机器人完成任务的简单方法。但是，这些机器人策略不能保证在面临分发外请求时能够安全执行或成功。在这项工作中，我们使机器人知道何时可以自信地执行用户期望的目标，并在无法执行时自动建议安全的替代方案。我们的方法受到控制理论安全过滤的启发，其中安全过滤器最小化地调整机器人的候选动作以使其安全。我们的关键思想是将替代建议作为目标空间中的安全控制问题，而不是行动空间中的安全控制问题。离线时，我们使用可达性分析来计算目标参数化的可达避免价值网络，该网络量化了机器人预训练策略的安全性和活跃性。在网上，我们的机器人使用避免到达价值网络作为安全过滤器，监控人类的给定目标并积极建议类似但符合安全规范的替代方案。我们在室内导航和 Franka Panda 桌面操作以及离散和连续目标表示的模拟实验中展示了我们的安全替代方案 (SALT) 框架。我们发现，SALT 能够学习预测成功和失败的闭环执行，与开环不确定性量化相比，它是一种不太悲观的监视器，并且提出了与人们认为可以接受的一致的替代方案。

通过安全指数自适应对不同动态下的四足动物进行安全控制

分类： 系统与控制, 机器人技术, 系统与控制

作者： Kai S. Yun, Rui Chen, Chase Dunaway, John M. Dolan, Changliu Liu

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09882v1

摘要： 在现实世界中部署安全控制法时，变化的动态构成了根本性的困难。安全指数合成（SIS）深深依赖于系统动力学，一旦动力学发生变化，先前合成的安全指数就会失效。在这项工作中，我们展示了安全指数适应（SIA）在不同动态下的实时功效。 SIA 能够实时适应不断变化的动态，以便适应的安全控制律仍然可以保证 1) 安全区域内的前向不变性和 2) 有限时间收敛到该安全区域。这项工作在搬运包裹的四足机器人上采用了 SIA，其有效负载重量实时变化。当动态发生变化（例如有效负载重量发生变化）时，SIA 会更新安全指数，以便四足动物能够避开障碍物，同时实现其性能目标。数值研究为SIA提供了理论保证，一系列硬件实验证明了SIA在实际部署中在不同动态下避障的有效性。

边缘化和条件化高斯到光滑流形的线性近似及其在机器人中的应用

分类： 机器人技术

作者： Zi Cong Guo, James R. Forbes, Timothy D. Barfoot

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09871v1

摘要： 我们提出了将高斯边缘化和调节到线性流形上的封闭式表达式，并演示了如何通过线性化应用这些表达式来平滑非线性流形。尽管对轴对齐流形的边缘化和调节是成熟的程序，但对非轴对齐流形的边缘化和调节还没有得到很好的理解。我们通过三个应用展示了我们的表达式的实用性：1）投影正态分布的近似，其中线性化近似的质量随着问题非线性的降低而增加； 2）Koopman SLAM 中的协方差提取，其中我们的协方差在真实数据集上显示是一致的； 3）约束 GTSAM 中的协方差提取，其中我们的协方差在模拟中显示是一致的。

TransForce：具有顺序图像转换功能的基于视觉的触觉传感器的可传递力预测

分类： 机器人技术

作者： Zhuo Chen, Ni Ou, Xuyang Zhang, Shan Luo

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09870v1

摘要： 基于视觉的触觉传感器 (VBTS) 提供对于机器人手动操作至关重要的高分辨率触觉图像。然而，由于获取配对触觉图像和力标签的过程成本高昂且耗时，VBTS 中的力感测并未得到充分利用。在这项研究中，我们引入了一种可转移力预测模型 TransForce，旨在利用收集的图像力配对数据为新传感器在不同的照明颜色和标记图案下提供支持，同时提高预测力的准确性，特别是在剪切方向上。我们的模型有效地实现了触觉图像从源域到目标域的转换，确保生成的触觉图像反映新传感器的照明颜色和标记图案，同时准确对齐现有传感器中观察到的弹性体变形，这有利于力新传感器的预测。因此，采用使用生成的连续触觉图像和现有力标签训练的循环力预测模型来估计新传感器的更高精度的力，其平均误差最低为 0.69N（在整个工作范围内为 5.8%），单位为 $x$-与使用单图像训练的模型相比，$y$ 轴为 0.70N (5.8%)，$z$ 轴为 1.11N (6.9%)。实验结果还表明，纯标记模态比 RGB 模态更有利于提高剪切方向上的力的准确性，而 RGB 模态在法线方向上表现出更好的性能。

Lyapunov 函数 (CALF) 的评论家：一种无模型、确保稳定性的代理

分类： 机器人技术, 人工智能, 优化与控制

作者： Pavel Osinenko, Grigory Yaremenko, Roman Zashchitin, Anton Bolychev, Sinan Ibrahim, Dmitrii Dobriborsci

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09869v1

摘要： 这项工作提出并展示了一种名为 Critic As Lyapunov Function (CALF) 的新型强化学习代理，它是无模型的并确保在线环境，换句话说，动态系统稳定性。在线意味着在每个学习阶段，所述环境都是稳定的。正如移动机器人模拟器的案例研究所证明的那样，这极大地提高了整体学习性能。 CALF 的基本演员-评论家方案类似于 SARSA。后者在我们的研究中没有显示出达到目标的任何成功。然而，其修改版本（此处称为 SARSA-m）确实在某些学习场景中取得了成功。尽管如此，CALF 的表现仍然远远优于上述方法。 CALF 还被证明可以改善为其提供的标称稳定剂。总之，所提出的代理可以被认为是将经典控制与强化学习融合的可行方法。它的并发方法大多是离线的或基于模型的，例如将模型预测控制融合到代理中的方法。

SAFER-Splat：利用在线高斯泼溅图进行安全导航的控制屏障函数

分类： 机器人技术

作者： Timothy Chen, Aiden Swann, Javier Yu, Ola Shorinwa, Riku Murai, Monroe Kennedy III, Mac Schwager

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09868v1

摘要： SAFER-Splat（同时动作过滤和环境重建）是一种实时、可扩展、微创的动作过滤器，基于控制屏障功能，用于在使用高斯分布 (GSplat) 运行时构建的详细地图中进行安全的机器人导航。我们提出了一种新颖的控制屏障函数（CBF），它不仅可以提高场景中所有高斯基元的安全性，而且当合成到控制器中时，能够处理数十万个高斯函数，同时保持最小的内存占用并在在线 Splat 训练期间为 15 Hz。在总计算时间中，一小部分消耗 GPU 资源，从而实现不间断的训练。安全层是微创的，仅在机器人动作不安全时才纠正它们。为了展示安全过滤器，我们还推出了 SplatBridge，这是一个使用 ROS 构建的开源软件包，用于机器人的实时 GSplat 映射。我们首先在模拟中展示了我们的流程的安全性和鲁棒性，我们的方法比基于神经辐射场的竞争方法快 20-50 倍、更安全、更保守。此外，我们仅使用机载感知在无人机硬件平台上演示了同步 GSplat 测绘和安全过滤。我们验证了在远程操作下，人类飞行员无法引发碰撞。我们的视频和代码库可以在 https://hengine.github.io/safer-splat 找到。

带障碍的移动目标旅行商问题的完整算法

分类： 机器人技术

作者： Anoop Bhat, Geordan Gutow, Bhaskar Vundurthy, Zhongqiang Ren, Sivakumar Rathinam, Howie Choset

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09852v1

摘要： 带障碍物的移动目标旅行商问题 (MT-TSP-O) 是旅行商问题 (TSP) 的推广，顾名思义，目标是移动的。 MT-TSP-O 的解决方案是在特定时间窗口内访问每个移动目标的轨迹，并且该轨迹避开静止障碍物。我们假设每个目标在每个时间窗口内以恒定速度移动。代理有一个速度限制，并且这个速度限制不小于任何目标的速度。本文提出了第一个用于寻找 MT-TSP-O 可行解决方案的完整算法。我们的算法构建了一棵树，其中节点是代理轨迹，在唯一的时间窗口序列内拦截唯一的目标序列。我们通过扩展父节点的轨迹来拦截一个额外的目标来生成父节点的每个子节点，每个子节点对应于目标和时间窗口的不同选择。此扩展包括规划从父轨迹的时空终点到移动目标的轨迹。为了解决这个点到移动目标的子问题，我们定义了一种新颖的可见性图概括，称为移动目标可见性图（MTVG）。我们的整体算法称为 MTVG-TSP。为了验证 MTVG-TSP，我们在 570 个实例（最多 30 个目标）上进行了测试。基于之前对 MT-TSP-O 特殊情况的研究，我们实现了一种将目标轨迹采样为点的基线方法。 MTVG-TSP 在基线存在的所有情况下找到可行的解决方案，并且当目标时间窗口长度的总和进入临界范围时，MTVG-TSP 找到可行的解决方案，计算时间最多减少 38 倍。

接触机器人的物理一致参数识别

分类： 机器人技术

作者： Shahram Khorshidi, Murad Dawood, Benno Nederkorn, Maren Bennewitz, Majid Khadiv

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09850v1

摘要： 准确的惯性参数识别对于间歇性接触环境的机器人的仿真和控制至关重要。传统上，机器人的惯性参数是从不精确的 CAD 模型获得的（有时无法获得，例如 Boston Dynamics 的 Spot），因此需要识别。为此，现有方法需要接触力测量，这是现代四足机器人和人形机器人中不存在的方式。本文提出了一种替代技术，利用关节电流/扭矩测量（现代机器人的标准传感方式）来识别惯性参数，而不需要直接接触力测量。通过将全身动力学投影到接触约束的零空间中，我们消除了对接触力的依赖，并将识别问题重新表述为可以处理物理和几何约束的线性矩阵不等式。我们将我们提出的方法与使用深度神经网络的常见黑盒识别方法进行比较，结果表明，结合物理一致性显着提高了模型的样本效率和泛化性。最后，我们在 Spot 四足机器人上跨各种运动任务验证了我们的方法，展示了其在不同步态的现实场景中的准确性和通用性。

使用 DenseTact 光学触觉传感器对薄丝布进行动态层检测

分类： 机器人技术

作者： Ankush Kundan Dhawan, Camille Chungyoun, Karina Ting, Monroe Kennedy III

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09849v1

摘要： 布料操作是许多日常任务的一个重要方面，对于机器人来说仍然是一个重大挑战。虽然现有的研究在布料平滑和折叠等任务方面取得了长足的进步，但许多研究都在努力解决常见的故障模式（褶皱的角/边缘、不正确的抓取配置），而布料层检测的初步步骤可以解决这些问题。我们提出了一种新颖的方法，使用配备 DenseTact 2.0 光学触觉传感器的定制夹具对抓取的布料层数进行分类。抓取布料后，夹具会执行拟人摩擦动作，同时收集光流、6 轴扳手和关节状态数据。在基于 Transformer 的网络中使用这些数据，在正确分类掌握的层数方面达到了 98.21% 的测试精度，显示了我们动态摩擦方法的有效性。评估不同的输入和模型架构凸显了使用触觉传感器信息和变压器模型来完成此任务的有用性。收集了 368 个标记试验的综合数据集，并与本文一起开源。我们的项目页面位于 https://armlabstanford.github.io/dynamic-cloth-detection。

自动车辆导航的 PID 和纯追踪控制算法综合综述

分类： 机器人技术

作者： Harshit Jain, Priyal Babel

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09848v1

摘要： 在技术快速进步和对更安全、更高效的交通需求不断增长的推动下，自动驾驶行业正在经历前所未有的增长。这场革命的核心是两个关键因素：横向和纵向控制，它们共同使车辆能够以高精度和最小的误差跟踪复杂的环境。本文详细概述了该领域两种最常用且稳定的控制算法：比例积分微分 (PID) 和纯追踪算法。事实证明，这些算法对于解决自动驾驶车辆的横向（转向）和纵向（速度和距离）控制问题非常有用。这项调查旨在让研究人员、工程师和行业专业人士深入了解这些基本控制算法、它们当前的应用以及它们塑造自动驾驶技术未来的潜力。

FSL-LVLM：在轮式机器人中使用大视觉语言模型的摩擦感知安全运动

分类： 机器人技术

作者： Bo Peng, Donghoon Baek, Qijie Wang, Joao Ramos

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09845v1

摘要： 轮腿机器人具有显着的机动性和多功能性，但在湿滑地形上操作时面临着巨大的挑战。这些机器人的传统基于模型的控制器假设不会打滑。虽然强化学习 (RL) 可以帮助四足机器人适应不同的表面，但从滑倒中恢复仍然具有挑战性，特别是对于接触点很少的系统。估计地面摩擦系数是另一个公开的挑战。在本文中，我们提出了一种新颖的摩擦感知安全运动框架，它将大视觉语言模型（LVLM）与强化学习策略相集成。我们的方法明确地将估计的摩擦系数纳入强化学习策略中，使机器人能够在到达表面类型之前提前调整其行为。我们引入了视觉摩擦 (FFV) 模块，该模块利用 LVLM 来估计地面摩擦系数，从而无需大型数据集和大量训练。该框架在定制的轮式倒立摆上进行了验证，实验结果表明，我们的框架通过根据地形类型调整速度来提高完成驾驶任务的成功率，同时与基线方法相比实现更好的跟踪性能。我们的框架可以简单地与任何其他强化学习策略集成。

NARF24：估计隐式渲染的铰接对象结构

分类： 机器人技术, 计算机视觉和模式识别

作者： Stanley Lewis, Tom Gao, Odest Chadwicke Jenkins

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09829v1

摘要： 铰接物体及其表示形式给机器人带来了难题。这些对象不仅需要几何和纹理的表示，还需要构成每个关节的各种连接和关节参数。我们提出了一种方法，可以在少量收集的场景中学习通用的神经辐射场（NeRF）表示。这种表示与基于部件的图像分割相结合，产生隐式空间部件定位，从中可以估计铰接对象的连接性和关节参数，从而实现配置条件渲染。

机器人错误对人类教学动力的影响

分类： 机器人技术, 人工智能, 人机交互

作者： Jindan Huang, Isaac Sheidlower, Reuben M. Aronson, Elaine Schaertl Short

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09827v1

摘要： 人机循环学习越来越受欢迎，特别是在机器人领域，因为它利用人类关于现实世界任务的知识来促进代理学习。当人们指导机器人时，他们会自然地调整自己的教学行为以响应机器人性能的变化。虽然当前的研究主要集中在从算法的角度整合人类教学动态，但从以人为中心的角度理解这些动态是一个尚未充分探索的基本问题。解决这个问题将增强机器人学习和用户体验。因此，本文探讨了影响人类教学动态性的一个潜在因素：机器人错误。我们进行了一项用户研究，以调查机器人错误的存在和严重程度如何影响人类教学动态的三个维度：反馈粒度、反馈丰富度和教学时间，无论是在强制选择还是开放式教学环境中。结果表明，人们倾向于花更多的时间来教有错误的机器人，对机器人轨迹的特定部分提供更详细的反馈，并且机器人的错误会影响老师对反馈方式的选择。我们的研究结果为设计有效的交互式学习界面和优化算法以更好地理解人类意图提供了宝贵的见解。

介绍 DAIMYO：一次成功的动态设计架构及其在尾座 UAS 开发中的应用

分类： 优化与控制, 机器人技术, 系统与控制, 系统与控制

作者： Jolan Wauters, Tom Lefebvre, Joris Degroote, Ivo Couckuyt, Guillaume Crevecoeur

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09820v1

摘要： 近年来，动态系统的各种多学科设计方法发生了显着的演变。在这些方法中，一个值得注意的概念是并行概念和控制设计或协同设计。这种方法涉及结合动态系统的概念设计来调整前馈和/或反馈控制策略。主要目标是发现超越通过脱节或解耦方法可实现的集成解决方案。这种并行设计范式在混合无人机系统 (UAS) 的背景下表现出特别的前景，例如尾翼无人机，其中多功能性（由控制考虑因素驱动）和效率（受概念设计影响）的目标经常提出相互冲突的需求。然而，一个持续的挑战在于支撑设计过程的理论模型与现实操作环境之间的潜在差异，即所谓的现实差距。当设计的系统在现实中部署时，这种差异可能会导致性能不佳。为了解决这个问题，本文介绍了 DAIMYO，这是一种新颖的设计架构，它将模拟现实世界条件的高保真环境融入到追求“一次成功”设计的过程中。这种创新方法的成果是一种设计程序，可产生多功能且高效的无人机系统设计，能够承受现实差距带来的挑战。

具有 G1 连续性和有界曲率的快速最短路径折线平滑

分类： 机器人技术

作者： Patrick Pastorelli, Simone Dagnino, Enrico Saccon, Marco Frego, Luigi Palopoli

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09816v1

摘要： 在这项工作中，我们提出了一种新颖且有效的方法来平滑运动规划任务中的折线。该算法适用于曲率有界的车辆运动规划。在本文中，我们表明生成的路径：1）具有最小长度，2）是 $G^1$ 连续的，并且 3）如果尊重假设，则通过构造是无碰撞的。我们将我们的解决方案与最先进的解决方案进行比较，并在计算时间和计算路径长度方面展示其便利性。

具有约束重新加权深度矩阵分解的多次旋转平均

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Shiqi Li, Jihua Zhu, Yifan Xie, Naiwen Hu, Mingchen Zhu, Zhongyu Li, Di Wang

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09790v1

摘要： 多次旋转平均在计算机视觉和机器人领域中起着至关重要的作用。传统的基于优化的方法基于某些噪声假设来优化非线性成本函数，而以前的大多数基于学习的方法在监督训练过程中需要地面实况标签。认识到手工制作的噪声假设在所有现实场景中可能并不合理，本文提出了一种有效的旋转平均方法，以学习的方式挖掘数据模式，同时避免标签的要求。具体来说，我们应用深度矩阵分解来直接解决无约束线性空间中的多次旋转平均问题。对于深度矩阵分解，我们设计了一个神经网络模型，该模型具有明确的低秩和对称性，以更好地适应多次旋转平均的背景。同时，我们利用基于生成树的边缘过滤来抑制旋转异常值的影响。更重要的是，我们还采用了重新加权方案和动态深度选择策略来进一步提高鲁棒性。我们的方法综合了基于优化和基于学习的方法的优点。各种数据集的实验结果验证了我们提出的方法的有效性。

DiFSD：以自我为中心的完全稀疏范式，具有不确定性去噪和迭代细化，以实现高效的端到端自动驾驶

分类： 计算机视觉和模式识别, 机器人技术

作者： Haisheng Su, Wei Wu, Junchi Yan

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09777v1

摘要： 当前的端到端自动驾驶方法诉诸于针对各种任务（例如感知、预测和规划）的统一模块化设计。尽管以完全可微的框架以规划为导向的精神进行了优化，但由于光栅化场景表示学习和冗余信息传输，现有的没有以自我为中心的设计的端到端驱动系统仍然存在性能不理想和效率低下的问题。在本文中，我们重新审视人类驾驶行为，并提出一种以自我为中心的完全稀疏范式，称为 DiFSD，用于端到端自动驾驶。具体来说，DiFSD主要由稀疏感知、层次交互和迭代运动规划器组成。稀疏感知模块基于驾驶场景的稀疏表示进行检测、跟踪和在线建图。分层交互模块旨在从粗略到精细选择最近路径车辆/静止车辆（CIPV / CIPS），受益于额外的几何先验。对于迭代运动规划器，选择的交互代理和自我车辆都被考虑用于联合运动预测，其中输出多模态自我轨迹以迭代方式优化。此外，引入位置级运动扩散和轨迹级规划去噪来进行不确定性建模，从而促进整个框架的训练稳定性和收敛性。在 nuScenes 数据集上进行的大量实验证明了 DiFSD 的卓越规划性能和高效性，与 UniAD 相比，其平均 L2 误差显着降低了 \textbf{66%}，碰撞率显着降低了 \textbf{77%}，同时实现了 \textbf{ 8.2$\times$} 更快的运行效率。

线性时序逻辑规范的风险感知自动驾驶

分类： 系统与控制, 形式语言和自动机理论, 机器人技术, 系统与控制

作者： Shuhao Qi, Zengjie Zhang, Zhiyong Sun, Sofie Haesaert

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09769v1

摘要： 考虑不同类型风险的自动驾驶决策是一个具有挑战性的话题。本文提出了一种新颖的风险度量，通过平衡不同不确定事件带来的风险来促进线性时序逻辑（LTL）指定的驾驶任务。这种平衡是通过根据这些不确定事件发生的时间和严重程度来贴现其成本来实现的，从而体现了类似人类的风险意识。我们已经在该风险度量和占用度量之间建立了联系，占用度量是随机可达性问题的基本概念，从而为使用占用度量的自动驾驶车辆制定了零担规范下的风险感知控制综合问题。因此，综合政策在不同类型的风险和相关成本之间实现了平衡决策，展示了有利的多功能性和普遍性。 Carla 模拟器中的三个典型交通场景验证了所提出方法的有效性和可扩展性。

Range-SLAM：基于超宽带的防烟实时定位和建图

分类： 机器人技术

作者： Yi Liu, Zhuozhu Jian, Shengtao Zheng, Houde Liu, Xueqian Wang, Xinlei Chen, Bin Liang

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09763v1

摘要： 本文介绍了 Range-SLAM，这是一种实时、轻量级 SLAM 系统，旨在使用超宽带 (UWB) 信号解决烟雾和其他恶劣条件环境中的定位和地图绘制挑战。虽然 LiDAR 和摄像头等光学传感器在低能见度环境中表现不佳，但 UWB 信号为实时定位提供了强大的替代方案。所提出的系统使用通用的UWB设备来实现精确的测绘和定位，而不依赖于昂贵的激光雷达或其他专用硬件。通过仅利用 UWB 传感器提供的与锚点相关的距离和接收信号强度指示器 (RSSI)，我们将标签携带代理的运动与光线投射算法相结合，实时构建 2D 占用网格图。为了增强挑战性条件下的定位，采用了加权最小二乘法 (WLS)。广泛的现实世界实验，包括充满烟雾的环境和模拟

通过全焦点像差校正和单眼深度估计实现单镜头可控景深成像

分类： 计算机视觉和模式识别, 机器人技术, 图像和视频处理, 光学

作者： Xiaolong Qian, Qi Jiang, Yao Gao, Shaohua Gao, Zhonghua Yi, Lei Sun, Kai Wei, Haifeng Li, Kailun Yang, Kaiwei Wang, Jian Bai

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09754v1

摘要： 可控景深 (DoF) 成像通常基于笨重且昂贵的高端镜头产生令人惊叹的视觉效果。然而，面对日益增长的移动场景需求，希望通过极简光学系统（MOS）实现轻量化解决方案。这项工作围绕MOS的两个主要局限性，即严重的光学像差和不可控的景深，通过计算方法实现单镜头可控景深成像。提出了一种配备全聚焦（AiF）像差校正和单目深度估计的深度感知可控DoF成像（DCDI）框架，其中恢复的图像和相应的深度图用于在任何高的不同DoF下产生成像结果通过逐块卷积的端透镜。为了解决深度变化的光学退化问题，我们引入了深度感知退化自适应训练（DA2T）方案。在数据集层面，基于不同物距下点扩散函数（PSF）的模拟，建立了深度感知像差MOS（DAMOS）数据集。此外，我们设计了两种即插即用的深度感知机制，将深度信息嵌入像差图像恢复中，以更好地解决深度感知退化问题。此外，我们提出了一种高效存储的 Omni-Lens-Field 模型来表示各种镜头的 4D PSF 库。利用全向镜头场推断的预测深度图、恢复图像和深度感知PSF图，实现单镜头可控景深成像。综合实验结果表明，所提出的框架增强了恢复性能，并获得了令人印象深刻的单镜头可控景深成像结果，为该领域提供了开创性的基线。源代码和建立的数据集将在https://github.com/XiaolongQian/DCDI公开提供。

高清地图绘制和更新：总体概述和未来方向

分类： 机器人技术, 新兴技术

作者： Benny Wijaya, Kun Jiang, Mengmeng Yang, Tuopu Wen, Yunlong Wang, Xuewei Tang, Zheng Fu, Taohua Zhou, Diange Yang

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09726v1

摘要： 随着自动驾驶汽车（AV）的快速增长，对环境感知技术的需求越来越大。其中，高清地图已成为帮助车辆实现定位、路径规划等基本任务的较为突出的角色之一。与此同时，越来越多的研究工作已转向高精地图的开发。然而，仍然缺乏对整体高精地图测绘和更新框架的全面概述。本文介绍了高精地图绘制及其维护所涉及的算法的发展和现状。作为本研究的一部分，还简要回顾了将原始数据处理为准备用于映射和更新目的的信息的主要数据预处理方法、语义分割和本地化。此外，还广泛讨论了地图分类、本体和质量评估，提出了地图数据的一般表示方法，并讨论了从 SLAM 到基于 Transformer 学习的方法的地图算法。还介绍了高精地图更新算法的发展，从变化检测到更新方法。最后，作者讨论了高精地图测绘和更新技术未来可能的发展和剩余挑战。本文同时作为高精地图制图和更新领域新手的立场文件和教程。

使用基于分数的扩散网络进行精确拾取和放置

分类： 机器人技术, 计算机视觉和模式识别

作者： Shih-Wei Guo, Tsu-Ching Hsiao, Yu-Lun Liu, Chun-Yi Lee

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09725v1

摘要： 在本文中，我们提出了一种新颖的从粗到细的连续姿态扩散方法，以提高机器人操纵任务中拾取和放置操作的精度。利用扩散网络的功能，我们促进了对物体姿势的准确感知。这种准确的感知提高了拾放成功率和整体操作精度。我们的方法利用从 RGB-D 相机投影的自上而下的 RGB 图像，并采用从粗到细的架构。这种架构能够有效地学习粗略和精细模型。我们的方法的一个显着特征是它专注于连续姿态估计，这使得能够更精确的对象操作，特别是在旋转角度方面。此外，我们还采用姿势和颜色增强技术来利用有限的数据进行有效的训练。通过在模拟和现实场景中进行大量实验以及消融研究，我们全面评估了我们提出的方法。总而言之，这些发现验证了其在实现高精度拾放任务方面的有效性。

考虑局部一致性的基于鲁棒概率的多点云联合配准方法

分类： 机器人技术

作者： Lingjie Su, Wei Xu, Shuyang Zhao, Yuqi Cheng, Wenlong Li

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09682v1

摘要： 在机器人检测中，多个点云的联合配准是估计被测部件（例如螺旋桨中的多个叶片）之间的变换关系的一项重要技术。然而，数据中存在的噪声和异常值会影响对应的正确性，从而显着损害配准性能。为了解决这个问题，我们将局部一致性属性纳入基于概率的联合配准方法中。具体来说，每个测量点集被视为来自未知高斯混合模型（GMM）的样本，并且配准问题被框架为估计概率模型。通过将局部一致性纳入优化过程，我们增强了后验分布的鲁棒性和准确性，后验分布表示直接决定配准结果的一对一对应关系。使用期望最大化（EM）算法导出变换和概率参数的有效封闭式解。大量的实验表明，我们的方法优于现有方法，在存在噪声和异常值的情况下实现了高精度和鲁棒性。该代码可在 https://github.com/sulingjie/JPRLC_registration 获取。

可扩展的桌面卫星自动化测试台：设计与实验

分类： 机器人技术, 系统与控制, 系统与控制

作者： Deep Parikh, Ali Hasnain Khowaja, Nathan Long, Ian Down, James McElreath, Aniket Bire, Manoranjan Majji

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09633v1

摘要： 本文介绍了转变邻近操作和对接服务（TPODS）模块的详细系统设计和组件选择，该模块旨在通过交会和邻近操作（RPO）获得不受控制的常驻空间物体（RSO）的托管。除了作为自由飞行的机器人操纵器与合作和非合作 RSO 合作外，TPODS 模块还经过精心设计，能够相互合作，为更复杂的卫星服务活动搭建脚手架。原型模块的结构设计受到张拉整体原理的启发，最大限度地减少了模块框架的结构质量。原型 TPODS 模块采用轻质聚碳酸酯和铝或碳纤维框架制成。容纳各种电子和气动元件的内壳是使用 ABS 材料 3D 打印的。四个 OpenMV H7 R1 相机用于常驻空间物体 (RSO) 的位姿估计，包括其他 TPODS 模块。由外部源提供的压缩空气用于初始测试，并且可以由安装在模块上的氮气压力容器代替，以便稍后进行完整的船上推进。 Teensy 4.1 单板计算机用作中央命令单元，接收来自四个 OpenMV 摄像机的数据，并根据控制逻辑命令其推进器。

具有大语言模型的自动驾驶汽车自然语言描述的交通场景生成

分类： 机器人技术

作者： Bo-Kai Ruan, Hao-Tang Tsui, Yung-Hui Li, Hong-Han Shuai

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09575v1

摘要： 文本到场景的生成，将文本描述转换为详细的场景，通常依赖于沿着预定路径生成关键场景，限制了环境多样性并限制了定制灵活性。为了解决这些限制，我们提出了一种新颖的文本到交通场景框架，该框架利用大型语言模型在基于自然语言描述的 Carla 模拟器中生成不同的交通场景。用户可以定义天气条件、车辆类型和道路信号等特定参数，而我们的管道可以自主选择起点和场景细节，从头开始生成场景，而不依赖于预定位置或轨迹。此外，我们的框架支持关键和常规流量场景，增强了其适用性。实验结果表明，我们的方法促进了多样化的智能体规划和道路选择，增强了交通环境中自主智能体的训练。值得注意的是，我们的方法使平均碰撞率降低了 16%。我们的工作已在 https://basiclab.github.io/TTSG 上公开发布。

有限驱动下的分散式安全且可扩展的多智能体控制

分类： 机器人技术, 多代理系统, 系统与控制, 系统与控制

作者： Vrushabh Zinage, Abhishek Jha, Rohan Chandra, Efstathios Bakolas

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09573v1

摘要： 为了在杂乱的环境中部署安全敏捷的机器人，需要开发完全分散的控制器，以保证安全、尊重驱动限制、防止死锁并扩展到数千个代理。当前的方法无法满足所有这些目标：基于优化的方法确保安全性但缺乏可扩展性，而基于学习的方法可扩展但不能保证安全性。我们提出了一种新颖的算法，可以在有限的驱动下实现对多个代理的安全和可扩展的控制。具体来说，我们的方法包括：$(i)$学习分散式神经积分控制屏障函数（神经ICBF）以实现可扩展的输入约束控制，$(ii)$嵌入基于轻量级分散模型预测控制的积分控制屏障函数（ MPC-ICBF）纳入神经网络策略中，以确保安全性，同时保持可扩展性，并且 $(iii)$ 引入了一种新颖的方法来最小化死锁，该方法基于机器学习中基于梯度的优化技术，以解决死锁中的局部最小值。我们的数值模拟表明，这种方法在安全性、输入约束满足和最小化死锁方面优于最先进的多智能体控制算法。此外，我们在不同代理数量的场景中展示了强大的泛化能力，最多可扩展到 1000 个代理。

一种新型变刚度推进模块水陆两用机器人

分类： 机器人技术

作者： Junzhe Hu, Pengyu Chen, Tianxiang Feng, Yuxuan Wen, Ke Wu, Janet Dong

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09572v1

摘要： 近年来，能够在空中和水下环境中操作的机器人的开发受到了广泛关注。本研究介绍了一种新型空中水上运动机器人（AALR）的设计和制造。受到潜水甲虫的启发，AALR 结合了具有动力和恢复冲程的仿生推进机制。变刚度推进模块（VSPM）采用低熔点合金（LMPA）和变刚度接头（VSJ）来实现高效的水上运动，同时减少对海洋生物的伤害。 AALR 的创新设计将 VSPM 集成到传统四旋翼飞行器的机臂中，从而实现有效的空中-水中运动。 VSPM 通过温度控制来调节关节刚度，满足空中和水中模式的运动要求。开发了 VSPM 的动态模型，通过优化尺寸参数来增加推进力。实验重点是水下模式分析，并展示了AALR的游泳能力，在水下实现了77毫米/秒的最大游泳速度。结果证实了 AALR 在水环境中的有效性能，突显了其多功能、环保操作的潜力。

适应性强、形状一致的机器人内窥镜

分类： 机器人技术, 系统与控制, 系统与控制

作者： Jiayang Du, Lin Cao, Sanja Dogramazi

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09557v1

摘要： 本文介绍了一种尺寸自适应的机器人内窥镜设计，旨在提高结肠镜检查的效率和舒适度。本文提出的机器人内窥镜将扩张机构和外部驱动系统相结合，可以根据不同的管径调整形状，从而提高推进时的稳定性和推进力。柔性波纹管作为膨胀机构中的执行器，在最大压力下可提供3.89 N的法向力和近10mm的轴向变形，在可膨胀尖端尺寸下具有53%的膨胀率。在原型机的运动性能测试中，通过改变管道的摩擦系数和电机角速度，得到了与原型机推进力的关系。在人工肠组织实验中，样机可产生2.83 N的推进力，平均最大线速度为29.29 m/s，在通过不同尺寸的管道时均能产生有效的推进力。结果表明，原型机能够实现形状适应能力，以获得更大的推进力。推进力与牵引力的关系、结构优化和小型化仍需进一步探索。

未知环境中动态任务分配的群体算法

分类： 多代理系统, 机器人技术

作者： Adithya Balachandran, Noble Harasha, Nancy Lynch

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09550v1

摘要： 机器人群是由许多以分布式方式运行的机器人组成的系统，在搜索救援、自然灾害响应和自组装等领域有许多应用。其中一些应用程序可以抽象为环境中任务分配的一般问题，其中机器人必须分配自己并完成任务。虽然已经提出了几种任务分配算法，但大多数算法都假设任务位置的先验知识或一组静态任务。在任务动态出现在未知位置的离散通用模型下运行，我们提出了三种新的任务分配群体算法。我们证明，当任务出现缓慢时，我们基于传播任务信息的分布式算法的变体比 Levy 随机游走算法更有效地完成任务，Levy 随机游走算法是自然界中许多生物体用来有效搜索环境的策略。我们还提出了一种分工算法，其中一些代理使用我们基于传播任务信息的算法，而其余代理则使用 Levy 随机游走算法。最后，我们引入了一种混合算法，其中每个代理在使用传播任务信息和遵循 Levy 随机游走之间动态切换。我们表明，我们的分工和混合算法可以比基于传播任务信息的算法和 Levy walk 算法表现得更好，特别是在中低任务率下。当任务出现得很快时，我们观察到与这些新方法相比，Levy 随机游走策略的表现同样好甚至更好。我们的工作展示了这些算法在各种任务速率上的相对性能，并提供了根据环境参数优化我们的算法的见解。

VernaCopter：通过正式规范消除歧义的自然语言驱动机器人

分类： 机器人技术, 人工智能

作者： Teun van de Laar, Zengjie Zhang, Shuhao Qi, Sofie Haesaert, Zhiyong Sun

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09536v1

摘要： 使用自然语言 (NL) 控制机器人执行复杂任务一直是许多人的梦想。大型语言模型（LLM）的兴起使其更接近于实现。然而，大语言模型支持的系统仍然受到 NL 固有的模糊性和大语言模型带来的不确定性的影响。本文提出了一种新型的基于 LLM 的机器人运动规划器，名为 \textit{VernaCopter}，其信号时序逻辑（STL）规范充当 NL 命令和特定任务目标之间的桥梁。形式规范的严格性和抽象性使得规划者能够生成高质量且高度一致的路径来指导机器人的运动控制。与传统的基于 NL 提示的规划器相比，所提出的 VernaCopter 规划器由于模糊不确定性更少而更加稳定和可靠。它的功效和优势已经通过两个小型但具有挑战性的实验场景得到了验证，这意味着它在设计非线性驱动机器人方面的潜力。

Lab2Car：用于在复杂的现实环境中部署实验规划器的多功能包装器

分类： 机器人技术

作者： Marc Heim, Francisco Suarez-Ruiz, Ishraq Bhuiyan, Bruno Brito, Momchil S. Tomov

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09523v1

摘要： 人类水平的自动驾驶是一个永远难以捉摸的目标，规划和决策——决定驾驶行为的认知功能——构成了最大的挑战。尽管有希望的方法不断涌现，但由于在自然环境中部署实验规划器的困难，进展受到抑制。在这项工作中，我们提出了 Lab2Car，这是一种基于优化的包装器，可以从任意运动规划器中获取轨迹草图，并将其转换为汽车可以遵循的安全、舒适、动态可行的轨迹。这使得不提供此类保证的运动规划器可以在现实环境中进行安全测试和优化。我们通过使用 Lab2Car 在拉斯维加斯的自动驾驶汽车上部署机器学习 (ML) 规划器和基于搜索的规划器来展示 Lab2Car 的多功能性。由此产生的系统可以处理具有挑战性的场景，例如赌场接送区域等复杂的城市环境中的切入、超车和让行。我们的工作为在现实环境中快速部署和评估候选运动规划器铺平了道路，确保快速迭代并加速实现人类水平的自主性。

自动驾驶车队安全可扩展监管的数据分析

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制

作者： Cameron Hickert, Zhongxia Yan, Cathy Wu

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09500v1

摘要： 自动驾驶是一种备受期待的消除道路死亡事故的方法。与此同时，安全性的门槛很高，验证成本也很高。这项工作考虑了远程操作人员在监督自动驾驶车辆 (AV) 车队安全方面的作用。此前提出的这种“可扩展监管”概念是为了弥合仍在成熟的自动驾驶技术与自动驾驶商业化压力之间的差距。本文提出了 DISCES，一种基于数据的安全关键事件模拟框架，从动态网络负载的角度研究这一概念的实用性。重点关注自动驾驶汽车融入混合自主交通的安全关键环境，利用微观交通重建和来自加州三个县州际公路的历史数据，对 1,097 个高速公路汇合点的车辆到达过程进行了建模。结合排队理论模型，这些结果表征了动态监管要求，从而表征了远程操作方法的可扩展性。在所有场景中，我们发现与分析时间段内的车载监控员相比，操作员要求减少了 99% 以上。这项工作还展示了减少这些经验监督要求的两种方法：（i）使用协作连接的自动驾驶汽车——在所研究的场景中，这可以使系统可靠性平均提高 3.67 个数量级——以及（ii）更大区域的聚合。

机器人学习作为一门实证科学：政策评估的最佳实践

分类： 机器人技术

作者： Hadas Kress-Gazit, Kunimatsu Hashimoto, Naveen Kuppuswamy, Paarth Shah, Phoebe Horgan, Gordon Richardson, Siyuan Feng, Benjamin Burchfiel

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09491v1

摘要： 近年来，机器人学习社区取得了长足的进步，提出了新的架构并展示了令人印象深刻的新功能；然而，文献中使用的主要指标，尤其是物理实验，是“成功率”，即成功运行的百分比。此外，论文在报告这个数字时通常很少甚至没有关于运行次数、初始条件和成功标准的信息，很少甚至没有对观察到的行为和失败的叙述性描述，也很少甚至没有统计分析调查结果。在本文中，我们认为，为了推动该领域向前发展，研究人员应该对其方法进行细致入微的评估，特别是在评估和比较物理机器人的学习策略时。为此，我们提出了未来评估的最佳实践：明确报告实验条件，评估旨在补充成功率的几个指标，进行统计分析，并添加故障模式的定性描述。我们通过对物理机器人的几个学习操作任务策略的评估来说明这些。

MAC-VO：基于学习的立体视觉里程计的度量感知协方差

分类： 机器人技术, 计算机视觉和模式识别

作者： Yuheng Qiu, Yutian Chen, Zihao Zhang, Wenshan Wang, Sebastian Scherer

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09479v1

摘要： 我们提出了 MAC-VO，一种新颖的基于学习的立体 VO，它利用学习到的度量感知匹配不确定性来实现双重目的：选择关键点并权衡位姿图优化中的残差。与优先考虑边缘等纹理丰富特征的传统几何方法相比，我们的关键点选择器利用学习到的不确定性来过滤基于全局不一致的低质量特征。与对协方差的尺度无关对角权重矩阵进行建模的基于学习的算法相比，我们设计了一个度量感知的协方差模型来捕获关键点配准期间的空间误差以及不同轴之间的相关性。将此协方差模型集成到位姿图优化中可以增强位姿估计的鲁棒性和可靠性，特别是在具有变化照明、特征密度和运动模式的挑战性环境中。在公共基准数据集上，MAC-VO 的性能优于现有的 VO 算法，甚至在具有挑战性的环境中优于某些 SLAM 算法。协方差图还提供了有关估计姿势可靠性的宝贵信息，这有利于自主系统的决策。

学习在崎岖的地形上增强多足机器人

分类： 机器人技术, 机器学习

作者： Juntao He, Baxi Chong, Zhaochen Xu, Sehoon Ha, Daniel I. Goldman

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09473v1

摘要： 在崎岖的地形中航行对腿部运动提出了重大挑战。多足机器人（6 条或更多）为此类地形提供了一种有前途的解决方案，这主要是由于其固有的高静态稳定性，这是由于低质心和宽支撑基础造成的。此类系统只需极少的努力即可保持平衡。最近的研究表明，线性控制器可以根据地形粗糙度的变化来调节多足机器人的垂直身体波动，可以确保在具有挑战性的地形上可靠的移动性。然而，调整多个参数以解决地形异质性的基于学习的控制框架的潜力仍未得到充分开发。我们认为，为该机器人开发经过实验验证的基于物理的模拟器可以通过允许广泛的参数空间探索来快速提高其能力。在这里，我们开发了一个专门针对该机器人平台的基于 MuJoCo 的模拟器，并使用该模拟开发基于强化学习的控制框架，该框架可以实时动态调整水平和垂直身体波动以及肢体步进。我们的方法提高了机器人在模拟、实验室实验和户外测试中的性能。值得注意的是，我们的实际实验表明，与仅调制垂直体波的线性控制器相比，基于学习的控制器的速度提高了 30% 至 50%。我们假设基于学习的控制器的优越性能源于其同时调整多个参数的能力，包括肢体步进、水平体波和垂直体波。

PIP-Loco：四足机器人运动的本体无限视野规划框架

分类： 机器人技术, 机器学习

作者： Aditya Shirwatkar, Naman Saxena, Kishore Chandra, Shishir Kolathaya

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09441v2

摘要： 四足运动模型预测控制 (MPC) 的核心优势在于它能够强制执行约束并提供地平线上命令序列的可解释性。然而，尽管能够进行规划，MPC 仍难以根据任务复杂性进行扩展，通常无法在快速变化的表面上实现稳健的行为。另一方面，无模型强化学习 (RL) 方法在多种地形上的表现优于 MPC，可以显示紧急运动，但本质上缺乏处理约束或执行规划的能力。为了解决这些限制，我们提出了一个将本体感受规划与强化学习相结合的框架，允许在地平线上灵活、安全的运动行为。受 MPC 的启发，我们整合了一个内部模型，其中包括速度估计器和 Dreamer 模块。在训练过程中，该框架学习相互依赖的专家策略和内部模型，促进探索改进的运动行为。在部署过程中，Dreamer 模块解决了无限范围 MPC 问题，调整动作和速度命令以遵守约束。我们通过对内部模型组件的消融研究来验证训练框架的稳健性，并证明对训练噪声的稳健性有所提高。最后，我们在模拟和硬件方面评估了我们在多地形场景中的方法。

使用大型语言模型生成行为树，用于通过人类指令和反馈进行顺序操作规划

分类： 机器人技术

作者： Jicong Ao, Yansong Wu, Fan Wu, Sami Haddadin

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09435v1

摘要： 在这项工作中，我们提出了一个基于 LLM 的 BT 生成框架，以利用两者的优势进行顺序操作规划。为了实现人机协作任务规划并增强非专家的直观机器人编程，该框架采用人类指令来启动动作序列的生成和人类反馈，以在运行时完善 BT 生成。框架内提出的所有方法都在真实的机器人装配示例上进行了测试，该示例使用西门子机器人装配挑战赛中的齿轮组模型。我们使用带有换刀机构的单个机械手（这是柔性制造中的常见做法）来促进对各种物体的稳健抓取。实验结果从成功率、逻辑一致性、可执行性、时间消耗和令牌消耗等方面进行评估。据我们所知，这是第一个以人为指导的基于 LLM 的 BT 生成框架，它统一了使用 LLM 的各种合理方式来完全生成可在真实测试台上执行的 BT，并考虑到工具使用的详细知识。

实时自适应工业机器人：提高人机协作的安全性和舒适度

分类： 机器人技术

作者： Damian Hostettler, Simon Mayer, Jan Liam Albert, Kay Erik Jenss, Christian Hildebrand

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09429v1

摘要： 工业机器人变得越来越普遍，导致对直观、舒适的人机协作的需求不断增长。我们提出了一种用户感知的机器人系统，可以实时适应操作员的行为，同时非侵入性地监控生理信号，以创建一个反应更快、更有同理心的环境。我们的原型动态调整机器人速度和运动模式，同时测量操作员瞳孔扩张和接近度。我们的用户研究将该自适应系统与非自适应系统进行了比较，并表明自适应系统显着降低了感知和生理测量的认知负荷，同时增强了可用性。参与者表示，在与自适应机器人一起工作时，舒适感、安全感、信任感和协作感都增强了。这凸显了将实时生理数据集成到人机交互范例中的潜力。这种新颖的方法创造了更加直观和协作的工业环境，机器人可以有效地“读取”并响应人类的认知状态，并且我们提供所有数据和代码以供将来使用。

AnySkin：用于机器人触摸的即插即用皮肤感应

分类： 机器人技术, 人工智能

作者： Raunaq Bhirangi, Venkatesh Pattabiraman, Enes Erciyes, Yifeng Cao, Tess Hellebrekers, Lerrel Pinto

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08276v1

摘要： 虽然触觉感知被广泛认为是一种重要且有用的感知方式，但与视觉和本体感觉等其他感知方式相比，它的使用显得相形见绌。 AnySkin 解决了阻碍触觉传感使用的关键挑战——多功能性、可替换性和数据可重用性。 AnySkin 基于 ReSkin 的简单设计，并将传感电子设备与传感接口分离，简化了集成，使其像戴上手机壳和连接充电器一样简单。此外，AnySkin 是第一个未经校准的触觉传感器，具有学习操作策略的跨实例通用性。总而言之，这项工作做出了三个关键贡献：首先，我们介绍了一种简化的制造工艺和设计工具，用于创建无粘合剂、耐用且易于更换的磁性触觉传感器；其次，我们使用 AnySkin 传感器来表征滑倒检测和策略学习；第三，我们演示了在 AnySkin 的一个实例上训练的模型到新实例的零样本泛化，并将其与流行的现有触觉解决方案（如 DIGIT 和 ReSkin）进行比较。https://any-skin.github.io/

从视频进行手-物体交互预训练

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Himanshu Gaurav Singh, Antonio Loquercio, Carmelo Sferrazza, Jane Wu, Haozhi Qi, Pieter Abbeel, Jitendra Malik

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08273v1

摘要： 我们提出了一种从 3D 手-物体交互轨迹中学习一般机器人操作先验的方法。我们构建了一个框架，使用野外视频来生成感觉运动机器人轨迹。我们通过在共享 3D 空间中举起人手和被操纵物体并将人类动作重新定位到机器人动作来实现这一点。对这些数据的生成建模为我们提供了一个与任务无关的基本策略。该策略捕获了一般但灵活的操纵先验。我们凭经验证明，通过强化学习（RL）和行为克隆（BC）来微调该策略，可以实现对下游任务的样本高效适应，同时与之前的方法相比提高了鲁棒性和泛化性。定性实验位于：\url{https://hgaurav2k.github.io/hop/}。

Touch2Touch：用于对象操作的跨模式触觉生成

分类： 机器人技术

作者： Samanta Rodriguez, Yiming Dou, Miquel Oller, Andrew Owens, Nima Fazeli

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08269v1

摘要： 当今的触摸传感器有多种形状和尺寸。这使得开发通用触摸处理方法变得具有挑战性，因为模型通常与一种特定的传感器设计相关。我们通过在触摸传感器之间执行跨模式预测来解决这个问题：给定来自一个传感器的触觉信号，我们使用生成模型来估计另一个传感器如何感知相同的物理接触。这使我们能够将传感器特定的方法应用于生成的信号。我们通过训练扩散模型来实现这个想法，以在流行的 GelSlim 和 Soft Bubble 传感器之间进行转换。作为下游任务，我们使用 GelSlim 传感器执行手持物体姿态估计，同时使用仅对 Soft Bubble 信号进行操作的算法。数据集、代码和其他详细信息可以在 https://www.mmintlab.com/research/touch2touch/ 找到。

半自主网络物理系统的信息接管请求的设计：在无人机控制器设置中结合口语和视觉图标

分类： 人机交互, 计算和语言, 机器人技术

作者： Ashwini Gundappa, Emilia Ellsiepen, Lukas Schmitz, Frederik Wiehr, Vera Demberg

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08253v2

摘要： 随着这些系统被部署用于范围越来越广的任务，网络物理系统应如何与能够接管控制或进行监督的人类合作伙伴进行交互的问题变得越来越紧迫。借鉴半自动驾驶和人机交互期间移交控制权的文献，我们提出了一种接管请求的设计，将抽象的预警与信息丰富的 TOR 相结合：相关传感器信息在控制器的显示屏上突出显示，而口头信息则用语言描述了 TOR 的原因。我们在半自主无人机控制场景作为测试平台的背景下进行研究。我们在线研究的目标是更详细地评估基于语言的 TOR 应该采取什么形式。具体来说，我们将完整的句子条件与较短的片段进行比较，并测试视觉突出显示是否应该与语音同步或异步完成。参与者在使用我们的双模式 TOR 选择正确解决方案方面表现出更高的准确性，并认为他们能够更好地识别紧急情况。在口头信息中仅使用片段而不是完整的句子并不能提高准确性或加快反应速度。此外，将视觉突出显示与口头消息同步并不会提高准确性，在这种情况下甚至会增加响应时间。

通过局部共形校准量化任意和认知动力学不确定性

分类： 机器人技术, 系统与控制, 系统与控制

作者： Luís Marques, Dmitry Berenson

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08249v1

摘要： 无论是学习的、模拟的还是分析的，当机器人遇到新环境时，其动力学的近似值都可能不准确。已经提出了许多方法来量化此类方法的任意不确定性，即随机性引起的不确定性，然而，仅这些估计不足以正确估计新环境中模型的不确定性，在新环境中，实际动态可能会发生变化。这种变化可能会引起认知不确定性，即由于缺乏信息/数据而导致的不确定性。以理论为基础的方式解释认知和任意动态不确定性仍然是一个悬而未决的问题。我们引入了局部不确定性共形校准（LUCCa），这是一种基于共形预测的方法，可校准动态模型提供的任意不确定性估计，以生成系统状态的概率有效的预测区域。我们非渐进地解释了认知不确定性和任意不确定性，没有对真实动态的形式或其变化方式做出强有力的假设。校准在状态-动作空间中本地执行，从而产生对规划有用的不确定性估计。我们通过在动态发生重大变化的情况下为双积分器构建概率安全计划来验证我们的方法。

机器人操作策略的在线安全修正

分类： 机器人技术

作者： Ariana Spalter, Mark Roberts, Laura M. Hiatt

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08233v1

摘要： 最近在机器人技术中应用强化学习 (RL) 的成功表明，它是构建机器人控制器的可行方法。然而，强化学习控制器在执行过程中出现新障碍物的环境中可能会产生许多碰撞。这在安全关键的环境中带来了问题。我们提出了一种称为 iKinQP-RL 的混合方法，它使用逆运动学二次规划 (iKinQP) 控制器来纠正运行时 RL 策略提出的操作。这确保了在训练期间不存在新障碍的情况下安全执行。初步实验表明，我们的 iKinQP-RL 框架完全消除了与新障碍物的碰撞，同时保持了较高的任务成功率。

通过对抗性图遍历游戏在危险环境中诱导多机器人协调

分类： 计算机科学与博弈论, 机器人技术

作者： James Berneburg, Xuan Wang, Xuesu Xiao, Daigo Shishika

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08222v1

摘要： 本文提出了图遍历问题的博弈论公式，适用于在有对手的情况下穿过危险环境的机器人，如军事和安全应用。蓝队机器人在由时变图表建模的环境中移动，试图以最小成本达到某个目标，而红队则控制图表如何变化以最大化成本。该问题被表述为随机博弈，以便可以数值计算纳什均衡策略。为游戏值提供了界限，并保证它解决了原始问题。数值模拟证明了该方法的结果和有效性，特别是显示了混合动作对两个玩家的好处，以及有益的协调行为，其中蓝色机器人分开和/或同步穿越危险边缘。

机器人运动规划的图形检查：算术电路有帮助吗？

分类： 机器人技术, 数据结构和算法

作者： Matthias Bentert, Daniel Coimbra Salomao, Alex Crane, Yosuke Mizutani, Felix Reidl, Blair D. Sullivan

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08219v1

摘要： 我们研究基于算术电路的算法是否是现有图形检查求解器的可行替代方案，这是一个直接应用于机器人运动规划的问题。具体来说，我们寻求解决现有求解器的高内存使用问题。在新颖的理论结果的帮助下，可以快速恢复解决方案，我们实现了一种基于电路的图形检查求解器，该求解器仅使用多项式空间，并在几个真实的机器人运动规划数据集上进行测试。特别是，我们为三个关键子程序的一套工程算法提供了全面的实验评估。虽然这一评估表明基于电路的方法对于我们的机器人应用来说尚未具有实际竞争力，但它也提供了一些见解，可以指导未来将基于电路的算法从理论付诸实践的努力。

自适应语言引导的对比解释抽象

分类： 机器人技术, 机器学习

作者： Andi Peng, Belinda Z. Li, Ilia Sucholutsky, Nishanth Kumar, Julie A. Shah, Jacob Andreas, Andreea Bobu

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08212v1

摘要： 许多机器人学习方法都是从一组人类演示中推断奖励函数开始的。为了学习好的奖励，有必要在确定如何使用这些特征来计算奖励之前确定环境的哪些特征是相关的。用于联合特征和奖励学习的端到端方法（例如，使用深度网络或程序合成技术）通常会产生对虚假状态特征敏感的脆弱奖励函数。相比之下，人类通常可以通过结合关于演示的哪些特征可能对感兴趣的任务有意义的强大先验，从少量演示中普遍学习。我们如何构建在从新演示中学习时利用此类背景知识的机器人？本文描述了一种名为 ALGAE（来自[对比]解释的自适应语言引导抽象）的方法，该方法交替使用语言模型迭代地识别解释所表现行为所需的人类有意义的特征，然后使用标准逆强化学习技术为这些特征分配权重。在各种模拟和现实机器人环境中进行的实验表明，ALGAE 仅使用少量演示即可学习在可解释特征上定义的通用奖励函数。重要的是，ALGAE 可以识别特征何时缺失，然后在无需任何人工输入的情况下提取和定义这些特征，从而可以快速有效地获取用户行为的丰富表示。

通过适应来组合选项序列：初始结果

分类： 机器人技术

作者： Charles A. Meehan, Paul Rademacher, Mark Roberts, Laura M. Hiatt

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08195v1

摘要： 现实世界中的机器人操纵通常需要使机器人的行为适应当前情况，例如通过更改策略执行的顺序来实现所需的任务。然而，问题在于，我们发现，即使它们的启动和终止条件一致，组合五个深度 RL 选项的新颖序列来执行拾放任务也不太可能成功完成。我们提出了一个框架来确定序列是否会先验成功，并检查三种方法，如果不成功的话，可以调整选项以成功序列。至关重要的是，我们的适应方法考虑了选项训练的实际点子集或结束点：（1）训练第二个选项从第一个选项结束的地方开始； (2) 训练第一个选项到达第二个选项开始的质心； (3) 训练第一个选项以达到第二个选项开始位置的中值。我们的结果表明，我们的框架和适应方法有望使选项适应新的序列。

协作取得成功：在敏捷工业环境下优化系统效率和弹性

分类： 机器人技术

作者： Sunny Katyara, Suchita Sharma, Praveen Damacharla, Carlos Garcia Santiago, Francis O'Farrell, Philip Long

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08166v1

摘要： 设计一种高效且有弹性的人机协作策略，不仅要维护共享工作空间的安全性和人体工程学，还要提高协作设置的性能和敏捷性，这对环境感知和机器人控制提出了重大挑战。在这项研究中，我们引入了一种协作环境监控和机器人运动调节的新方法来解决这个多方面的问题。我们的研究提出了安全监测区域的新颖计算和划分，遵循 ISO 13855 和 TS 15066 标准，利用 2D 激光信息。这些区域不仅配置为标准三层布置，而且还扩展到两个相邻的象限，从而延长系统正常运行时间并防止不必要的死锁。此外，我们还利用 3D 视觉信息来跟踪动态人类关节和扩展入侵。利用来自 2D 和 3D 感知空间的融合传感数据，我们提出的分层控制器可以稳定地调节机器人速度，并使用拉萨尔不变原理进行验证。实证评估表明，我们的方法显着减少了任务执行时间和系统响应延迟，从而提高了协作环境中的效率和弹性。

MosquitoMiner：用于检测和消除蚊子孳生地的轻型流动站

分类： 机器人技术

作者： Md. Adnanul Islam, Md. Faiyaz Abdullah Sayeedi, Jannatul Ferdous Deepti, Shahanur Rahman Bappy, Safrin Sanzida Islam, Fahim Hafiz

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08078v1

摘要： 在本文中，我们提出了一种开发和部署自主蚊子繁殖地检测流动站的新方法，该流动站具有控制蚊子的物体和障碍物检测功能。蚊媒疾病继续对全球健康构成重大威胁，而传统的控制方法被证明缓慢且低效。人们越来越担心这些疾病的迅速传播，迫切需要创新和有效的策略来管理蚊子种群并预防疾病传播。为了减轻体力劳动和传统方法的局限性，我们的流动站采用了自主控制策略。利用我们自己的自定义数据集，流动站可以沿着预定义的路径自主导航，精确识别和减少潜在的繁殖地。然后，它通过喷洒化学剂来消除这些滋生地，有效地消除蚊子的栖息地。我们的项目展示了控制和保障公众健康的传统方式所缺乏的有效性。该项目的代码可在 GitHub 上找到：https://github.com/faiyazabdullah/MosquitoMiner

用于离线强化学习的 Q 值正则化决策 ConvFormer

分类： 机器学习, 机器人技术

作者： Teng Yan, Zhendong Ruan, Yaobang Cai, Yu Han, Wenxian Li, Yang Zhang

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08062v1

摘要： 作为一种数据驱动的范式，离线强化学习（Offline RL）被制定为序列建模，其中决策转换器（DT）展示了卓越的功能。与之前拟合价值函数或计算策略梯度的强化学习方法不同，DT 根据预期收益、过去的状态和动作来调整自回归模型，使用因果屏蔽的 Transformer 来输出最优动作。然而，由于单个轨迹内的采样回报与多个轨迹上的最优回报之间不一致，因此设置预期回报以输出最优动作并将次优轨迹缝合在一起具有挑战性。与 DT 相比，Decision ConvFormer (DC) 在马尔可夫决策过程中对 RL 轨迹进行建模的背景下更容易理解。我们提出了 Q 值正则化决策ConvFormer (QDC)，它结合了 DC 对 RL 轨迹的理解，并结合了在训练期间使用动态规划方法最大化动作值的术语。这确保了采样动作的预期回报与最优回报一致。 QDC 在 D4RL 基准测试中实现了出色的性能，在所有测试环境中均优于或接近最佳水平。尤其在轨迹拼接能力上展现出突出的竞争力。

基于单目图像的索驱动软体机器人三维力估计方法

分类： 机器人技术

作者： Xiaohan Zhu, Ran Bu, Zhen Li, Fan Xu, Hesheng Wang

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08033v1

摘要： 软体机械臂以其在应对高安全要求的交互任务（例如机器人辅助手术、老年人护理等）方面的优越性而闻名。然而，实时接触反馈中存在的挑战阻碍了其在精确操纵方面的进一步应用。本文提出了一种端到端网络来估计软机器人的3D接触力，旨在增强其在交互任务中的能力。该方法的特点是直接利用与多维驱动信息融合的单目图像作为网络输入。与利用 3D 形状信息进行网络输入的相关研究相比，该方法简化了原始数据的预处理，从而减少了配置重建错误。统一特征表示模块旨在将系统驱动信号的低维特征提升到与图像特征相同的水平，从而促进多模态信息更平滑的集成。该方法已在软体机器人测试台上进行了实验验证，在 3D 力估计中实现了令人满意的精度（平均相对误差为 0.84%，而相关工作中最好报告的结果为 2.2%）。

LED：夜间光增强深度估计

分类： 计算机视觉和模式识别, 机器人技术

作者： Simon de Moreau, Yasser Almehio, Andrei Bursuc, Hafid El-Idrissi, Bogdan Stanciulescu, Fabien Moutarde

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08031v1

摘要： 基于夜间摄像头的深度估计是一项极具挑战性的任务，特别是对于自动驾驶应用而言，准确的深度感知对于确保安全导航至关重要。我们的目标是提高夜间感知系统的可靠性，在缺乏精确但昂贵的激光雷达传感器的情况下，根据白天数据训练的模型经常会失败。在这项工作中，我们介绍了光增强深度（LED），这是一种新颖的经济高效的方法，通过利用现代车辆中可用的高清车头灯投射的图案，显着改善低光环境中的深度估计。 LED 可以显着提升合成数据集和真实数据集上的多种深度估计架构（编码器-解码器、Adabins、DepthFormer）的性能。此外，照明区域之外的性能增强揭示了场景理解的整体增强。最后，我们发布了夜间合成驾驶数据集，这是一个新的合成且逼真的夜间数据集，其中包含 49,990 张全面注释的图像。

来自端到端可微分仿真的自动驾驶车辆控制器

分类： 人工智能, 机器人技术

作者： Asen Nachkov, Danda Pani Paudel, Luc Van Gool

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07965v1

摘要： 目前学习自动驾驶汽车（AV）控制器的方法主要集中在行为克隆。仅根据精确的历史数据进行训练，生成的代理通常很难概括新的场景。模拟器提供了超越离线数据集的机会，但它们仍然被视为复杂的黑匣子，仅用于更新全局模拟状态。因此，这些强化学习算法速度缓慢、样本效率低下且与先验无关。在这项工作中，我们利用可微分模拟器并设计了一种分析策略梯度 (APG) 方法来在大规模 Waymo 开放运动数据集上训练 AV 控制器。我们提出的框架将可微分模拟器带入端到端训练循环，其中环境动态的梯度可以作为有用的先验知识，帮助代理学习更扎实的策略。我们将此设置与循环架构相结合，可以在长模拟轨迹上有效地传播时间信息。这种 APG 方法使我们能够学习稳健、准确和快速的策略，同时只需要广泛可用的专家轨迹，而不是稀缺的专家动作。我们与行为克隆进行比较，发现动态性能和对噪声的鲁棒性有了显着改进，并且总体上更加直观的类人处理。

差动驱动机器人类通用轨迹优化框架

分类： 机器人技术

作者： Mengke Zhang, Zhichao Han, Chao Xu, Fei Gao, Yanjun Cao

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07924v1

摘要： 差速驱动机器人因其简单的原理而被广泛应用于各种场景，从家庭服务机器人到灾难应对现场机器人。考虑到实际应用，有几种不同类型的衍生机构，包括两轮、四轮滑移转向、履带式机器人等。驱动机构的差异在需要精确控制时通常需要特定的运动学建模。此外，非完整动力学和可能的横向滑移导致获得可行且高质量的轨迹存在不同程度的困难。因此，非常需要一个全面的轨迹优化框架来有效地计算各种差动驱动机器人的轨迹。在本文中，我们提出了一种通用轨迹优化框架，可应用于差分驱动机器人类，从而能够在有限的计算时间内生成高质量的轨迹。我们引入了一种基于运动状态或其积分（例如角速度和线速度）的多项式参数化的新颖轨迹表示，其本质上将机器人的运动与差动驱动机器人类的控制原理相匹配。制定轨迹优化问题是为了最大限度地降低复杂性，同时优先考虑安全性和运行效率。然后，我们构建了一个全栈自主规划和控制系统，以展示可行性和鲁棒性。我们在拥挤的环境中使用三种差速驱动机器人进行了广泛的模拟和实际测试，以验证我们方法的有效性。我们将把我们的方法作为开源包发布。

InterACT：使用分层注意力变压器进行双手操作的相互依赖性感知动作分块

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Andrew Lee, Ian Chuang, Ling-Yuan Chen, Iman Soltani

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07914v1

摘要： 我们提出了 InterACT：具有分层注意力变换器的相互依赖性感知动作分块，这是一种用于双手操作的新型模仿学习框架，它集成了分层注意力以捕获双臂关节状态和视觉输入之间的相互依赖性。 InterACT 由分层注意力编码器和多臂解码器组成，两者都旨在增强信息聚合和协调。编码器通过分段和跨分段注意机制处理多模态输入，而解码器利用同步块来细化单个动作预测，提供对应方的预测作为上下文。我们对各种模拟和现实世界的双手操作任务进行的实验表明，InterACT 的性能明显优于现有方法。详细的消融研究验证了我们工作的关键组成部分的贡献，包括 CLS 代币、跨段编码器和同步块的影响。

通过大规模并行强化学习为人形机器人学习滑板

分类： 机器人技术

作者： William Thibault, Vidyasagar Rajendran, William Melek, Katja Mombaur

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07846v1

摘要： 事实证明，基于学习的方法对于为机器人（包括人形机器人）生成复杂的运动非常有用。强化学习（RL）已被用来学习运动策略，其中一些策略利用周期性奖励公式。这项工作将运动的周期性奖励公式扩展到 REEM-C 机器人的滑板运动。使用Brax/MJX来实现RL问题，实现快速训练。仿真的初步结果与正在进行的硬件实验一起呈现。

实景机器人与自动驾驶实时多视角全向深度估计系统

分类： 计算机视觉和模式识别, 机器人技术

作者： Ming Li, Xiong Yang, Chaofan Wu, Jiaheng Li, Pinzhi Wang, Xuejiao Hu, Sidan Du, Yang Li

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07843v1

摘要： 全向深度估计在机器人导航、自动驾驶等领域具有广阔的应用前景。在本文中，我们提出了一种机器人原型系统和相应的算法，旨在验证机器人和车辆在现实场景中导航和避障的全向深度估计。所提出的 HexaMODE 系统使用六个周围排列的鱼眼相机捕获 360$^\circ$ 深度图。我们引入了组合球形扫描方法并优化了所提出的 RtHexa-OmniMVS 算法的模型架构，以实现实时全向深度估计。为了确保现实环境中的高精度、鲁棒性和泛化性，我们采用师生自训练策略，利用大规模未标记的现实世界数据进行模型训练。所提出的算法在室内和室外各种复杂的现实场景中表现出高精度，在边缘计算平台上实现了 15 fps 的推理速度。

ReGentS：现实世界的安全关键驾驶场景生成变得稳定

分类： 机器学习, 计算机视觉和模式识别, 机器人技术

作者： Yuan Yin, Pegah Khayatan, Éloi Zablocki, Alexandre Boulch, Matthieu Cord

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07830v1

摘要： 基于机器学习的自动驾驶系统经常面临现实世界数据中罕见的安全关键场景的挑战，阻碍了其大规模部署。虽然增加现实世界的训练数据覆盖范围可以解决这个问题，但它成本高昂且危险。这项工作探索通过轨迹优化修改复杂的现实世界常规场景来生成安全关键的驾驶场景。我们提出了 ReGentS，它可以稳定生成的轨迹并引入启发式以避免明显的碰撞和优化问题。我们的方法解决了不切实际的发散轨迹和不可避免的碰撞场景，这些场景对于训练强大的规划器没有用处。我们还扩展了场景生成框架，以处理最多 32 个代理的真实世界数据。此外，通过使用可微模拟器，我们的方法简化了涉及模拟器的基于梯度下降的优化，为未来的进步铺平了道路。代码可在 https://github.com/valeoai/ReGentS 获取。

与人机协作的相关性

分类： 机器人技术, 人工智能

作者： Xiaotong Zhang, Dingcheng Huang, Kamal Youcef-Toumi

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07753v1

摘要： 有效的人机协作（HRC）要求机器人拥有类似人类的智能。受人类在复杂环境中选择性处理和过滤元素的认知能力的启发，本文引入了一种称为“相关性”的新概念和场景理解方法。它识别场景中的相关组件。为了准确有效地量化相关性，我们开发了一个基于事件的框架，可以选择性地触发相关性确定，以及基于结构化场景表示的概率方法。仿真结果表明，相关性框架和方法可以准确预测一般 HRC 设置的相关性，达到 0.99 的精度和 0.94 的召回率。相关性可广泛应用于 HRC 的多个领域，与谷物任务的纯粹规划相比，任务规划时间缩短 79.56%，将物体检测器的感知延迟减少高达 26.53%，将 HRC 安全性提高高达 13.50%，并减少HRC查询量同比增长75.36%。现实世界的演示展示了相关性框架智能地协助人类完成日常任务的能力。

FIReStereo：用于视觉退化环境中 UAS 深度感知的森林红外立体数据集

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Devansh Dhrafani, Yifei Liu, Andrew Jong, Ukcheol Shin, Yao He, Tyler Harp, Yaoyu Hu, Jean Oh, Sebastian Scherer

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07715v1

摘要： 在视觉退化的环境中强大的深度感知对于自主航空系统至关重要。热像仪可捕获红外辐射，对视觉退化具有很强的鲁棒性。然而，由于缺乏大规模数据集，热像仪用于无人机系统（UAS）深度感知的用途在很大程度上仍未得到探索。本文提出了用于自主航空感知应用的立体热深度感知数据集。该数据集由立体热图像、LiDAR、IMU 和在白天、夜晚、雨和烟雾等不同条件下在城市和森林环境中捕获的地面真实深度图组成。我们对代表性立体深度估计算法进行基准测试，深入了解其在退化条件下的性能。在我们的数据集上训练的模型可以很好地推广到看不见的烟雾条件，突出了立体热成像对于深度感知的鲁棒性。我们的目标是增强机器人在灾难场景中的感知，从而允许在以前无法到达的区域进行探索和操作。数据集和源代码可在 https://firestereo.github.io 获取。

抗干扰备份控制屏障功能：不确定动态下的安全性

分类： 系统与控制, 机器人技术, 系统与控制, 动力系统

作者： David E. J. van Wijk, Samuel Coogan, Tamas G. Molnar, Manoranjan Majji, Kerianne L. Hobbs

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07700v1

摘要： 获得受控不变集对于具有控制屏障函数 (CBF) 的安全关键控制至关重要，但对于复杂的非线性系统和约束而言并非易事。备份控制屏障函数允许通过在已知的备份控制定律下检查系统的演化（或流程），以计算上易于处理的方式在线构建这样的集合。然而，对于具有未建模扰动的系统，无法直接计算该流量，使得当前的方法不足以确保这些情况下的安全。为了解决这一差距，我们利用标称流和扰动流的界限来在线计算前向不变集，确保以标称系统演化为中心的扩展范数球管的安全性。我们证明，这组结果产生了鲁棒的控制约束，通过我们的抗扰备份控制屏障功能（DR-BCBF）解决方案保证了受扰系统的安全。此外，所提出框架的有效性在模拟中得到了证明，应用于双积分器问题和具有速率约束的刚体航天器旋转问题。

空心圆柱形超声波电机的表征和设计

分类： 机器人技术

作者： Zhanyue Zhao, Yang Wang, Charles Bales, Daniel Ruiz-Cadalso, Howard Zheng, Cosme Furlong-Vazquez, Gregory Fischer

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07690v1

摘要： 与气动和液压电机等其他运动单元相比，压电超声波电机具有设计紧凑、反应时间更快、设置更简单的优点，特别是与传统直流电机相比，其非铁磁特性使其成为 MRI 兼容机器人系统的完美匹配电机。空心轴电机具有重量轻、可与相同直径的实心轴相媲美、转动惯量低、重量轻而对旋转不平衡具有高耐受性以及由于比重低而耐高温等优点。本文介绍了一种空心圆柱形超声波电机 (HCM) 原型，用于执行直接驱动、消除机械非线性并减小执行器或末端执行器组件的尺寸和复杂性。本文提出了两种等效的 HCM，在转子上施加 50g 预压力时，在施加 282$V_{pp}$ 驱动电压时，其转速为 383.3333rpm，扭矩输出为 57.3504mNm。

用于野外自主空中操纵的开源软机器人平台

分类： 机器人技术, 系统与控制, 系统与控制

作者： Erik Bauer, Marc Blöchlinger, Pascal Strauch, Arman Raayatsanati, Curdin Cavelti, Robert K. Katzschmann

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07662v1

摘要： 空中操纵将飞行平台的多功能性和速度与移动操纵的功能能力相结合，由于需要精确的定位和控制，这提出了重大挑战。传统上，研究人员依赖于机外感知系统，该系统仅限于昂贵且不切实际的专门配备的室内环境。在这项工作中，我们介绍了一种新颖的自主空中操纵平台，专门利用机载感知系统。我们的平台可以在各种室内外环境下进行空中操控，而不依赖于外部感知系统。我们的实验结果证明了该平台能够在不同的环境中自主抓取各种物体。这一进步消除了对昂贵的跟踪解决方案的需求，显着提高了空中操纵应用的可扩展性和实用性。为了加速未来的研究，我们开源了 ROS 2 软件堆栈和定制硬件设计，让更广泛的研究社区可以使用我们的贡献。

行人意图预测中的特征重要性：情境感知综述

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术, 图像和视频处理

作者： Mohsen Azarmi, Mahdi Rezaei, He Wang, Ali Arabian

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07645v1

摘要： 使用计算机视觉和深度神经网络预测自动驾驶车辆行人过路意图的最新进展令人鼓舞。然而，DNN 的黑盒性质给理解模型如何工作以及输入特征如何影响最终预测带来了挑战。这种可解释性的缺乏限制了对模型性能的信任，并阻碍了对特征选择、表示和模型优化的明智决策；从而影响该领域未来研究的有效性。为了解决这个问题，我们引入了上下文感知排列特征重要性（CAPFI），这是一种专为行人意图预测而定制的新颖方法。 CAPFI 通过利用细分的场景上下文，通过有针对性的改组来减轻特征值的随机性，从而实现对特征重要性的更多可解释性和可靠评估。这样做的目的是减少方差并防止排列过程中重要性分数的偏差估计。我们将行人意图估计 (PIE) 数据集分为 16 个可比较的上下文集，测量每个上下文中用于意图预测的五个不同神经网络架构的基线性能，并使用 CAPFI 评估输入特征的重要性。我们观察到不同背景特征的模型之间存在细微差别。该研究揭示了行人边界框和自我车辆速度在预测行人意图中的关键作用，以及通过跨上下文排列评估的速度特征造成的潜在预测偏差。我们提出了一种替代特征表示，通过考虑邻近变化率来渲染动态行人车辆运动，从而增强输入特征对意图预测的贡献。这些发现强调了上下文特征及其多样性对于开发准确且稳健的意图预测模型的重要性。

使用立体视觉和 SLAM 集成进行物体深度和大小估计

分类： 机器人技术, 计算机视觉和模式识别

作者： Layth Hamad, Muhammad Asif Khan, Amr Mohamed

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07623v1

摘要： 自主机器人使用同步定位和地图构建 (SLAM) 在各种环境中实现高效、安全的导航。 LiDAR 传感器是这些系统中不可或缺的一部分，用于物体识别和定位。然而，激光雷达系统虽然可以有效地检测固体物体（例如垃圾桶、瓶子等），但由于反射特性差，在识别半透明或无形物体（例如火、烟雾、蒸汽等）时遇到限制。此外，激光雷达也无法检测导航标志等特征，并且经常难以检测某些缺乏有效激光反射的明显表面的危险材料。在本文中，我们提出了一种高精度立体视觉方法来补充自主机器人中的激光雷达。该系统采用先进的基于立体视觉的物体检测来检测有形和无形物体，然后使用简单的机器学习来精确估计物体的深度和大小。然后将深度和尺寸信息集成到 SLAM 流程中，以增强机器人在复杂环境中的导航能力。我们在配备激光雷达和立体视觉系统的自主机器人上进行的评估表明，其在估计物体深度和尺寸方面具有很高的准确性。拟议方案的视频说明请访问：\url{https://www.youtube.com/watch?v=nusI6tA9eSk}。

CAVERNAUTE：用于洞穴探险的刚性但可折叠的室内飞艇航空系统的设计和制造管道

分类： 机器人技术, 其他凝聚态物质

作者： Catar Louis, Tabiai Ilyass, St-Onge David

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07591v1

摘要： 飞艇以其独特的有效载荷/能量比而闻名，为工程领域带来了令人着迷的挑战。它们的建造和操作需要材料和规则的微妙平衡，这使它们成为引人注目的研究对象。它们体现了物理、设计和创新的独特交叉，为未来的交通和探索提供了广泛的可能性。由于其长途飞行耐力，它们适合执行长期任务。为了在复杂的环境（例如室内杂乱的空间）中运行，需要保护其膜和机电一体化装置免受影响。本文提出了一种受折纸和 Kresling 图案启发的新型室内飞艇设计。飞艇结构结合了碳纤维外骨骼和用于减震的UV树脂微晶格。我们的设计增强了机器人的强度，同时通过折叠结构使其能够进入狭窄的空间 - 体积膨胀比高达 19.8。为了优化飞艇的众多参数，我们提出了设计、制造和组装的流程。它考虑了制造限制、目标部署区域的尺寸和空气静力学，从而可以轻松快速地测试新配置。我们还展示了通过将折纸与飞艇设计相结合而实现的独特功能，从而减少了任务失败的可能性。我们通过完整的模拟展示了该设计的潜力，包括利用轻量级机电一体化的有效控制策略来优化非结构化环境探索任务中的飞行自主性。

FaVoR：通过体素渲染实现相机重新定位的功能

分类： 计算机视觉和模式识别, 机器人技术

作者： Vincenzo Polizzi, Marco Cannici, Davide Scaramuzza, Jonathan Kelly

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07571v1

摘要： 相机重定位方法的范围从密集图像对齐到从查询图像直接进行相机姿态回归。其中，稀疏特征匹配作为一种高效、通用且轻量级的方法脱颖而出，具有众多应用。然而，基于特征的方法常常难以应对重大的视点和外观变化，导致匹配失败和姿势估计不准确。为了克服这一限制，我们提出了一种利用全局稀疏但局部密集的 2D 特征 3D 表示的新方法。通过对一系列帧上的地标进行跟踪和三角测量，我们构建了一个稀疏体素图，该图经过优化以渲染跟踪期间观察到的图像块描述符。给定初始姿态估计，我们首先使用体积渲染从体素合成描述符，然后执行特征匹配来估计相机姿态。这种方法可以为未见过的视图生成描述符，从而增强视图变化的鲁棒性。我们在 7-Scenes 和 Cambridge Landmarks 数据集上广泛评估了我们的方法。我们的结果表明，我们的方法在室内环境中显着优于现有的最先进的特征表示技术，中值翻译误差提高了 39%。此外，我们的方法在户外场景中产生与其他方法相当的结果，同时保持较低的内存和计算成本。

MPPI-Generic：用于随机优化的 CUDA 库

分类： 数学软件, 分布式、并行和集群计算, 机器人技术, 系统与控制, 系统与控制

作者： Bogdan Vlahov, Jason Gibson, Manan Gandhi, Evangelos A. Theodorou

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07563v1

摘要： 本文介绍了一种用于 GPU 加速随机优化的新 C++/CUDA 库，称为 MPPI-Generic。它提供了模型预测路径积分控制、管模型预测路径积分控制和鲁棒模型预测路径积分控制的实现，并允许在许多预先存在的动力学模型和成本函数中使用这些算法。此外，研究人员可以按照我们的 API 定义创建自己的动态模型或成本函数，而无需更改实际的模型预测路径积分控制代码。最后，我们将计算性能与各种 GPU 上的模型预测路径积分控制的其他流行实现进行比较，以展示我们的库可以实现的实时功能。库代码可以在以下位置找到：https://acdslab.github.io/mppi-generic-website/。

人机交互中的动态公平感知

分类： 机器人技术, 人机交互

作者： Houston Claure, Kate Candon, Inyoung Shin, Marynel Vázquez

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07560v1

摘要： 人们非常关心机器人对待他们的公平程度。探索人机交互（HRI）公平性的既定范式涉及测量机器人在交互结束时对公平性的感知。然而，这种方法是有限的，因为交互随着时间的推移而变化，也可能导致公平观念的变化。为了验证这个想法，我们进行了混合设计 (N=40) 的 2x2 用户研究，其中我们调查了两个因素：不公平机器人行为的时间（交互的早期或晚期）以及这些行为的受益人（另一个机器人）或参与者）。我们的结果表明，公平判断不是静态的。它们可以根据机器人不公平行为的时间进行调整。此外，我们探索了利用组织正义的公平理论提出的三个关键因素（福利减少、行为和道德违规）的看法来预测我们研究中对公平的瞬时看法。有趣的是，我们发现福利减少和道德违规因素比所有因素加在一起的预测效果更好。我们的研究结果强化了这样的观点，即不公平的机器人行为可以塑造群体动态的感知和对机器人的信任，并为未来关于即时公平感知的研究方向铺平道路

通过自蒸馏进行无监督点云配准

分类： 计算机视觉和模式识别, 机器学习, 机器人技术

作者： Christian Löwens, Thorben Funke, André Wagner, Alexandru Paul Condurache

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07558v1

摘要： 刚性点云配准是一个基本问题，与机器人和自动驾驶高度相关。如今，考虑到点云之间的转换，可以训练深度学习方法来匹配一对点云。然而，由于收集地面真实姿势的成本很高，这种训练通常不可扩展。因此，我们提出了一种自蒸馏方法，以无监督的方式学习点云配准。在这里，每个样本都会传递到教师网络，而增强视图会传递到学生网络。教师包括一个可训练的特征提取器和一个免学习的鲁棒求解器，例如 RANSAC。求解器强制对应关系之间的一致性，并优化无监督的内点比率，从而消除了对真实标签的需要。我们的方法通过消除相关方法中对初始手工制作的特征或连续点云帧的需要来简化训练过程。我们证明，我们的方法不仅在 RGB-D 基准 3DMatch 上超越了它们，而且还可以很好地推广到汽车雷达，而其他人采用的经典功能却失败了。该代码可在 https://github.com/boschresearch/direg 获取。

使用深度强化学习通过 Load-Haul-Dump 机自主装载矿堆

分类： 机器人技术

作者： Rodrigo Salas, Francisco Leiva, Javier Ruiz-del-Solar

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07449v1

摘要： 这项工作提出了一种基于深度强化学习的方法来训练控制器，用于使用装载-运输-卸载 (LHD) 机器自动装载矿堆。这些控制器必须执行完整的装载操作，将铲运机的铲斗装满物料，同时避免车轮漂移、倾倒物料或卡在料堆中。训练过程完全在模拟中进行，使用简单的环境，利用地球运动力学的基本方程，以实现较低的计算成本。训练两种不同类型的策略：一种具有混合行动空间，另一种具有连续行动空间。基于强化学习的策略在模拟和现实世界中使用缩放的 LHD 和缩放的渣土堆进行评估，并将其性能与基于启发式的控制器和人类远程操作的性能进行比较。我们还进行了额外的现实世界实验，以评估基于强化学习的策略对桩表征中测量误差的稳健性。总体而言，基于 RL 的控制器在现实世界中表现出良好的性能，实现了 71-94% 之间的填充因数，并且在装载操作过程中车轮漂移比其他基线更小。显示训练环境和模拟中学习行为以及现实世界中进行的一些实验的视频可以在 https://youtu.be/jOpA1rkwhDY 中找到。

坚固的步行机器人：学习在微小陷阱中的敏捷运动

分类： 机器人技术, 人工智能

作者： Shaoting Zhu, Runhan Huang, Linzhan Mou, Hang Zhao

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07409v2

摘要： 四足机器人在实际应用中必须表现出强大的行走能力。在这项工作中，我们提出了一种新颖的方法，使四足机器人能够通过各种小障碍物或“微小陷阱”。现有的方法通常依赖于外部感受传感器，这对于检测如此微小的陷阱来说可能不可靠。为了克服这一限制，我们的方法仅关注本体感受输入。我们引入了一个两阶段训练框架，结合了接触编码器和分类头来学习不同陷阱的隐式表示。此外，我们设计了一组量身定制的奖励函数，以提高训练的稳定性和目标跟踪任务的部署简易性。为了有利于进一步的研究，我们为微小陷阱任务设计了一个新的基准。模拟和现实环境中的大量实验证明了我们方法的有效性和鲁棒性。项目页面：https://robust-robot-walker.github.io/

基于事件的马赛克捆绑调整

分类： 计算机视觉和模式识别, 机器人技术, 图像和视频处理

作者： Shuang Guo, Guillermo Gallego

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07365v1

摘要： 我们解决了纯旋转事件相机的镶嵌束调整问题（即同时细化相机方向和场景图）。我们将该问题表述为正则化非线性最小二乘优化。目标函数是使用相机方向的线性化事件生成模型和场景的全景梯度图来定义的。我们证明了这种 BA 优化具有可利用的块对角线稀疏结构，从而可以有效地解决问题。据我们所知，这是第一个利用这种稀疏性来加速基于事件的相机环境中的优化的工作，而不需要将事件转换为类似图像的表示。我们在合成数据集和真实数据集上评估我们的方法（称为 EMBA），以显示其有效性（光度误差减少 50%），产生前所未有的质量结果。此外，我们使用高空间分辨率事件相机演示了 EMBA，即使没有初始地图，也能在野外生成精致的全景图。项目页面：https://github.com/tub-rip/emba

使用条件流匹配从点云学习机器人操作策略

分类： 机器人技术

作者： Eugenio Chisari, Nick Heppert, Max Argus, Tim Welschehold, Thomas Brox, Abhinav Valada

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07343v1

摘要： 从专家演示中学习是利用有限数据训练机器人操纵策略的一种有前景的方法。然而，模仿学习算法需要多种设计选择，包括输入模态、训练目标和 6-DoF 末端执行器姿态表示。基于扩散的方法越来越受欢迎，因为它们能够预测长视野轨迹并处理多模态动作分布。最近，条件流匹配（CFM）（或整流流）被提出作为扩散模型的更灵活的推广。在本文中，我们研究了 CFM 在机器人策略学习背景下的应用，并专门研究了与构建模仿学习算法所需的其他设计选择的相互作用。我们表明，CFM 在与点云输入观测值相结合时可提供最佳性能。此外，我们研究了 SO(3) 流形上 CFM 公式的可行性，并通过一个简化的例子评估其适用性。我们在 RLBench 上进行了大量实验，证明我们提出的 PointFlowMatch 方法在八个任务中实现了 67.8% 的最先进的平均成功率，是次佳方法性能的两倍。

在线决策 MetaMorphFormer：基于休闲 Transformer 的通用具身智能强化学习框架

分类： 机器学习, 人工智能, 机器人技术

作者： Luo Ji, Runji Lin

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07341v1

摘要： 运动控制领域的交互式人工智能是一个有趣的话题，特别是当通用知识适应多种任务和通用环境时。尽管借助 Transformer 在强化学习（RL）领域做出了越来越多的努力，但其中大多数可能受到离线训练管道的限制，从而阻碍了探索和泛化能力。为了解决这个限制，我们提出了在线决策MetaMorphFormer（ODM）的框架，旨在通过统一的模型架构实现自我意识、环境识别和行动规划。在认知和行为心理学的驱动下，ODM代理能够向他人学习，认识世界，并根据自己的经验实践自己。 ODM 还可以应用于具有多关节主体、位于不同环境中的任意代理，并使用大规模预训练数据集进行不同类型任务的训练。通过使用预先训练的数据集，ODM 可以快速预热并学习执行所需任务所需的知识，同时目标环境继续强化通用策略。通过大量的在线实验以及少样本和零样本环境测试来验证ODM的性能和泛化能力。我们的研究结果有助于实体和认知领域的通用人工智能研究。代码、结果和视频示例可以在网站 \url{https://rlodm.github.io/odm/} 上找到。

电子集成微型机器人的动电推进

分类： 机器人技术

作者： Lucas C. Hanson, William H. Reinhardt, Scott Shrager, Tarunyaa Sivakumar, Marc Z. Miskin

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07293v1

摘要： 由于机载微电子技术的结合，尺寸太小而无法用肉眼看到的机器人近年来得到了迅速发展。半导体电路已用于微型机器人，能够执行受控无线转向、规定的腿部步态模式以及用户触发的数字状态之间的转换。然而，这些有希望的新功能是以复杂制造为代价的。尽管半导体代工厂可以可靠地制造电路元件，但目前用于电子集成微型机器人的执行器是采用复杂的多步骤洁净室协议构建的，并使用难以设计和控制的铰接腿或气泡发生器等机制。在这里，我们提出了一种用于电子集成微型机器人的推进系统，该系统可以通过一步光刻处理来构建，由于低电流/低电压操作（1V，10nA），可以轻松地与微电子集成，并产生以超过 1 米的速度游泳的机器人。每秒的身体长度。受到微电机工作的启发，这些机器人在周围的流体中产生电场，并通过扩展产生推进电动流。基础物理由一个模型捕获，其中机器人速度与施加的电流成正比，使设计和控制变得简单。作为证明，我们构建了基本机器人，使用板载电路和闭环光学控制方案来导航路径点并以协调的群体移动。从广义上讲，固态推进为坚固、易于制造、电子控制的微型机器人扫清了道路，这些机器人可以可靠地运行数月至数年。

评估不同类型 Theta-phi 定位器碰撞概率的通用方法

分类： 机器人技术, 60J20

作者： Baolong Chen, Jianping Wang, Zhigang Liu, Zengxiang Zhou, Hongzhuan Hu, Feifan Zhang

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07288v1

摘要： 在许多现代天文设施中，多目标望远镜是至关重要的仪器。大多数这些望远镜的焦平面上安装了数千个机器人光纤定位器（RFP），共享重叠的工作空间。 RFP 在移动过程中发生碰撞可能会导致某些目标无法到达并造成结构损坏。因此，有必要对RFP的碰撞概率进行合理的评估和评价。在本研究中，我们提出了碰撞概率的数学模型，并使用蒙特卡罗模拟验证了其结果。此外，还提出了一种新的碰撞计算方法，计算速度更快（接近原始时间的0.15%）。仿真实验验证了我们的方法可以评估等臂长和不等臂长的RFP之间的碰撞概率。此外，我们发现采用基于泊松分布的目标分布可以平均降低约2.6%的碰撞概率。

通过 SO(2)-等变高斯雕刻网络进行单视图 3D 重建

分类： 计算机视觉和模式识别, 机器人技术

作者： Ruihan Xu, Anthony Opipari, Joshua Mah, Stanley Lewis, Haoran Zhang, Hanzhe Guo, Odest Chadwicke Jenkins

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07245v1

摘要： 本文介绍了 SO(2)-等变高斯雕刻网络 (GSN) 作为从单视图图像观测中重建 SO(2)-等变 3D 对象的方法。 GSN 将单个观测值作为输入来生成描述观测对象的几何形状和纹理的高斯图表示。通过在解码高斯颜色、协方差、位置和不透明度之前使用共享特征提取器，GSN 实现了极高的吞吐量 (>150FPS)。实验表明，GSN 可以使用多视图渲染损失进行有效训练，并且在质量上与昂贵的基于扩散的重建算法相比具有竞争力。 GSN 模型在多个基准实验中得到验证。此外，我们还展示了 GSN 在机器人操作管道中用于以对象为中心的抓取的潜力。

机器人软件的可重用性和可修改性（扩展版）

分类： 机器人技术, 软件工程

作者： Laura Pomponio, Maximiliano Cristiá, Estanislao Ruiz Sorazábal, Maximiliano García

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07228v1

摘要： 我们展示了基于过程控制架构风格和设计模式的除草机器人微控制器单元的软件设计。该设计由 133 个模块组成，使用 8 种设计模式解决总共 30 个问题。因此，该设计产生了更多可重用组件以及易于修改和扩展的程序。还提供了设计文档。最后，对实现（12 KLOC 的 C++ 代码）进行实证评估，以证明该设计不会产生低效的实现。

自动驾驶的行为克隆模型现实检验

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Mustafa Yildirim, Barkin Dagda, Vinal Asodia, Saber Fallah

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07218v1

摘要： 自动驾驶车辆感知系统的最新进展应用于现实世界的自动驾驶车辆控制时效果如何？虽然许多基于视觉的自动驾驶车辆系统已经在模拟环境中进行了训练和评估，但这些系统明显缺乏现实世界的验证。本文通过介绍最先进的感知系统的现实验证来解决这一差距，该系统利用行为克隆（BC）进行横向控制，处理原始图像数据以预测转向命令。该数据集是使用比例研究车辆收集的，并在各种轨道设置上进行了测试。实验结果表明，这些方法能够以较低的误差范围实时预测转向角，这表明其在实际应用中具有广阔的前景。

感知调节与局部避障

分类： 机器人技术

作者： Jonas Stolle, Philip Arm, Mayank Mittal, Marco Hutter

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07195v1

摘要： 足动利用腿式机器人的脚进行移动操作，无需专用的机械臂。虽然之前的作品展示了盲目的和针对特定任务的操纵技能，但它们未能考虑环境中的静态和动态障碍。为了解决这一限制，我们引入了一种基于强化学习的方法来训练全身障碍物感知策略，该策略可以跟踪脚部位置命令，同时避开障碍物。尽管在模拟中仅在五种不同的静态场景中训练该策略，但我们表明它可以推广到具有不同数量和类型障碍物的未知环境。我们通过一组模拟实验分析了我们方法的性能，并成功地将学习到的策略部署在 ANYmal 四足动物上，展示了其在绕过静态和动态障碍物时遵循脚部命令的能力。

Mamba 策略：利用混合选择性状态模型实现高效 3D 扩散策略

分类： 机器人技术, 计算机视觉和模式识别

作者： Jiahang Cao, Qiang Zhang, Jingkai Sun, Jiaxu Wang, Hao Cheng, Yulin Li, Jun Ma, Yecheng Shao, Wen Zhao, Gang Han, Yijie Guo, Renjing Xu

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07163v1

摘要： 扩散模型因其有效的分布学习能力而被广泛应用于 3D 操纵领域，从而可以精确预测动作轨迹。然而，扩散模型通常依赖大参数 UNet 主干作为策略网络，这在资源受限的设备上部署可能具有挑战性。最近，Mamba 模型已成为一种有前途的高效建模解决方案，在序列建模中提供较低的计算复杂性和强大的性能。在这项工作中，我们提出了 Mamba 策略，这是一种更轻但更强的策略，与原始策略网络相比，它减少了 80% 以上的参数数量，同时实现了卓越的性能。具体来说，我们引入了 XMamba Block，它有效地将输入信息与条件特征集成，并利用 Mamba 和 Attention 机制的组合进行深度特征提取。大量实验表明，Mamba 策略在 Adroit、Dexart 和 MetaWorld 数据集上表现出色，所需的计算资源显着减少。此外，我们强调与基线方法相比，Mamba 策略在长期场景中增强的鲁棒性，并探讨了 Mamba 策略框架内各种 Mamba 变体的性能。我们的项目页面位于 https://andycao1125.github.io/mamba_policy/。

深部危险隧道中无人机测距

分类： 机器人技术

作者： Vishal Choudhary, Shashi Kant Gupta, Shaohui Foong, Hock Beng Lim

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07160v1

摘要： 由于难以进入且环境危险，无人机（UAV）在深隧道中的定位极具挑战性。传统的室外定位技术（例如使用GPS）和室内定位技术（例如基于WiFi、红外（IR）、超宽带等的定位技术）在深层隧道中不起作用。我们正在开发一种基于无人机的系统，用于检查新加坡深层隧道污水处理系统 (DTSS) 的缺陷。为了实现DTSS中的无人机定位，我们开发了基于光流技术的距离测量模块。然而，标准光流技术在照明较差且缺乏功能的隧道中效果不佳。因此，我们开发了一种具有预测功能的增强型光流算法，以改进无人机在深层危险隧道中的距离测量。

安全多模式人机协作中的协作对话

分类： 机器人技术

作者： Davide Ferrari, Andrea Pupa, Cristian Secchi

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07158v1

摘要： 在人机协作（HRC）的背景下，两个参与者能够以自然而有效的方式相互沟通至关重要。缺乏通信接口通常是导致意外速度下降的原因。一方面，这是因为可能会发生不可预见的事件，从而导致错误。另一方面，由于人类和机器人之间的密切接触，必须大幅降低速度才能符合安全标准 ISO/TS 15066。在本文中，我们提出了一种新颖的架构，使操作员和机器人能够有效地进行通信，模拟人与人之间的对话，同时解决安全问题。这种方法旨在建立一个通信框架，不仅可以促进协作，还可以减少不必要的速度降低。通过使用预测模拟器，我们可以预测与安全相关的限制，确保工作流程更加顺畅，最大限度地降低风险并优化效率。整体架构已通过 UR10e 进行了验证，并与最先进的技术进行了比较。结果显示，用户体验显着改善，执行时间相应减少 23%，机器人停机时间减少 50%。

人机协作的合规盲切换控制

分类： 机器人技术

作者： Davide Ferrari, Andrea Pupa, Cristian Secchi

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07155v1

摘要： 本文提出了人机协作（HRC）背景下的人机盲切换架构。重点在于盲交接场景，其中操作员故意背向一侧，专注于任务，并需要机器人提供一个物体。在此背景下，机器人自主管理整个交接过程势在必行。关键考虑因素包括确保将物体交给操作员手中时的安全性，以及检测释放物体的适当时机。本文探讨了应对这些挑战的策略，强调机器人需要安全、独立地操作以促进盲切换，从而促进 HRC 协议的进步并促进人类与机器人之间自然而高效的协作。

有效沟通在人机协作装配中的关键作用

分类： 机器人技术

作者： Davide Ferrari, Cristian Secchi

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07145v1

摘要： 在快速发展的人机协作 (HRC) 领域，人类和机器人之间的有效沟通对于复杂任务的执行至关重要。传统的请求-响应系统往往缺乏自然性，可能会降低效率。这项研究强调了采用类人通信交互的重要性，以实现人类操作员和机器人之间流畅的语音通信，模拟协作人机工业装配。我们提出了一种新颖的方法，通过自然对话采用类人交互，使人类操作员能够与机器人进行语音对话。通过比较实验，我们证明了我们的方法在提高任务绩效和协作效率方面的有效性。机器人能够进行有意义的语音对话，使其能够寻求澄清、提供状态更新并在需要时寻求帮助，从而改善协调并使工作流程更加顺畅。结果表明，采用类人对话交互对人机协作动态产生积极影响。人类操作员发现更容易传达复杂的指令和偏好，从而带来更高效、更令人满意的协作体验。

iKalibr-RGBD：通过连续时间速度估计对 RGBD 进行部分专用的无目标视觉惯性时空校准

分类： 机器人技术

作者： Shuolong Chen, Xingxing Li, Shengyu Li, Yuxuan Zhou

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07116v1

摘要： 视觉惯性系统在过去二十年中得到了广泛的研究和应用，主要是由于其成本低、功耗低、占地面积小、可用性高。这种趋势同时导致了大量的视觉惯性校准方法的出现，因为传感器之间准确的时空参数是视觉惯性融合的先决条件。在我们之前的工作 iKalibr 中，提出了一种基于连续时间的视觉惯性校准方法，作为一次性多传感器弹性时空校准的一部分。虽然不需要人工目标带来了相当大的便利，但在初始化和批量优化中需要计算昂贵的姿态估计，限制了其可用性。幸运的是，通过使用无映射的自我速度估计而不是基于映射的姿态估计，对于具有附加深度信息的 RGBD 来说，这可以得到极大的改进。在本文中，我们提出了基于连续时间自我速度估计的 RGBD 惯性时空校准，称为 iKalibr-RGBD，它也是无目标但计算效率高。 iKalibr-RGBD的通用流程继承自iKalibr，由严格的初始化过程和多个连续时间批量优化组成。 iKalibr-RGBD 的实现在 (https://github.com/Unsigned-Long/iKalibr) 上开源，以使研究社区受益。

机器人端到端高效微分仿真

分类： 机器人技术

作者： Quentin Le Lidec, Louis Montaut, Yann de Mont-Marin, Justin Carpentier

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07107v1

摘要： 在过去的几年里，机器人模拟器在效率和可扩展性方面有了很大的提高，使它们能够在几个小时内生成多年的模拟数据。然而，高效、准确地计算模拟导数仍然是一个开放的挑战，可能会提高强化学习和轨迹优化算法的收敛速度，特别是对于涉及物理接触交互的问题。本文通过引入一种统一且高效的算法解决方案来计算机器人模拟器的解析导数，为实现这一目标做出了贡献。该方法考虑了碰撞和摩擦阶段，解释了它们固有的不平滑性，并利用了底层多体系统引起的稀疏性。这些衍生产品已经用C++实现，代码将在Simple模拟器中开源。它们描述了最先进的时序，范围从 7 自由度机械臂的 5 微秒到 36 自由度人形机器人的 95 微秒，比替代解决方案至少高出 100 倍。

从概率自动机的演示中学习任务规范

分类： 机器人技术

作者： Mattijs Baert, Sam Leroux, Pieter Simoens

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07091v1

摘要： 传统上，为机器人系统指定任务需要编码专业知识、深厚的领域知识和大量的时间投入。虽然从演示中学习提供了一种有前途的替代方案，但现有的方法往往难以完成更长期的任务。为了解决这个限制，我们引入了一种计算有效的方法来学习概率确定性有限自动机（PDFA），该方法可以直接从演示中捕获任务结构和专家偏好。我们的方法推断子目标及其时间依赖性，生成一个可解释的任务规范，领域专家可以轻松理解和调整。我们通过涉及对象操纵任务的实验验证了我们的方法，展示了我们的方法如何使机器人手臂能够有效地复制不同的专家策略，同时适应不断变化的条件。

机器人场景执行：一个与后端无关的通用库，用于运行可重复的机器人实验和测试

分类： 机器人技术, I.2.9

作者： Frederik Pasch, Florian Mirus, Yongzhou Zhang, Kay-Ulrich Scholl

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07080v1

摘要： 由于系统复杂且缺乏进行可重复机器人实验的工具，机器人系统的测试和评估是一项困难且通常乏味的任务。此外，几乎所有可用的工具都是针对特定应用程序域、模拟器或中间件量身定制的。特别是基于场景的测试（自动驾驶领域的常见做法）在机器人领域并未得到充分覆盖。在本文中，我们提出了一种与后端和中间件无关的新颖方法，用于进行系统的、可重复的和自动化的机器人实验，称为机器人场景执行。我们的方法是作为一个 Python 库实现的，构建在通用场景描述语言 OpenSCENARIO 2 和行为树之上，并在 GitHub 上公开发布。在大量的实验中，我们证明了我们的方法支持多个模拟器作为后端，并且可以用作独立的 Python 库或 ROS2 生态系统的一部分。此外，我们还演示了我们的方法如何能够在不同值的范围内进行测试。最后，我们展示了机器人场景执行如何通过对场景描述文件进行最小程度的调整，从基于模拟的实验转向现实世界的实验。

未知车轮半径和未知 GNSS 杠杆臂的轮式车辆定位的不变滤波

分类： 机器人技术

作者： Paul Chauchat, Silvère Bonnabel, Axel Barrau

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07050v1

摘要： 我们考虑非完整汽车（更一般地说是轮式机器人）的观察者设计问题，该汽车配备了未知车轮半径的轮速，并且其位置是通过放置在汽车中未知位置的 GNSS 天线测量的。在教程和统一的阐述中，我们回顾了不变卡尔曼滤波领域内的双框架系统的最新理论。然后，我们展示如何在几何上调整它来解决所考虑的问题，尽管乍一看似乎超出了其范围。这产生了具有自主误差方程和状态无关雅可比行列式的不变扩展卡尔曼滤波器，这在模拟中表现得非常好。因此，所提出的新颖结构扩展了不变滤波的应用范围。

为骑乘 Ballbot 系统启用共享控制

分类： 机器人技术, I.2.9

作者： Yu Chen, Mahshid Mansouri, Chenzhang Xiao, Ze Wang, Elizabeth T. Hsiao-Wecksler, William R. Norris

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07013v1

摘要： 本研究介绍了一种在自平衡骑行球机器人中避免碰撞的共享控制方法，称为 PURE，其特点是动态稳定性、全向运动和免提界面。 PURE 与传感器阵列和新颖的被动人工势场 (PAPF) 方法集成，提供直观的导航、减速辅助和触觉/音频反馈，有效降低碰撞风险。这种方法解决了传统 APF 方法的局限性，例如在具有挑战性的场景中控制振荡和不必要的速度降低。我们对 20 名手动轮椅使用者和健全人进行了人机交互实验，以评估所提出的共享控制算法的室内导航和避障性能。结果表明，共享控制显着减少了碰撞和认知负荷，而不影响行驶速度，提供直观、安全的操作。这些发现强调了共享控制系统适用于增强自平衡移动设备的碰撞避免，这是辅助移动研究中相对未经探索的领域。

软自振荡肢体的物理同步，实现快速自主运动

分类： 软凝聚态物质, 机器人技术, 应用物理

作者： Alberto Comoretto, Harmannus A. H. Schomaker, Johannes T. B. Overvelde

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07011v1

摘要： 动物通过将大脑的调节转移到体内的物理耦合来实现强劲的运动。相反，人工系统中的运动通常依赖于集中处理器。在这里，我们引入了一种快速自主的运动策略，通过自振荡肢体与环境之间的物理相互作用而出现同步步态，无需控制信号。每个肢体都是一根软管，只需要恒定的气流即可以达到 300 赫兹的频率执行循环步进运动。通过组合几个这样的自振荡肢体，它们的物理同步使得系留和不受系留的运动速度比同类最先进的速度快几个数量级。我们证明，这些看似简单的设备表现出自主性，包括避障和趋光性，为各种规模的强大且功能齐全的机器人开辟了道路。

ODYSSEE：边缘电子传感器系统产生的牡蛎检测

分类： 计算机视觉和模式识别, 机器人技术

作者： Xiaomin Lin, Vivek Mange, Arjun Suresh, Bernhard Neuberger, Aadi Palnitkar, Brendan Campbell, Alan Williams, Kleio Baxevani, Jeremy Mallette, Alhim Vera, Markus Vincze, Ioannis Rekleitis, Herbert G. Tanner, Yiannis Aloimonos

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07003v2

摘要： 牡蛎是沿海生态系统中重要的基石物种，具有显着的经济、环境和文化效益。随着牡蛎的重要性不断增加，自主系统对其检测和监控的重要性也随之增加。然而，当前的监测策略往往依赖于破坏性方法。虽然从视频片段中手动识别牡蛎是非破坏性的，但它非常耗时，需要专家的输入，并且由于水下环境的挑战而变得更加复杂。为了应对这些挑战，我们提出了一种新颖的管道，使用稳定扩散来用真实的合成数据来增强收集的真实数据集。该方法增强了用于训练基于 YOLOv10 的视觉模型的数据集。然后，该模型在水下机器人边缘平台上进行部署和测试，在 Aqua2 平台上的牡蛎检测中实现了最先进的 0.657 mAP@50。

SIS：T 恤展开的接缝知情策略

分类： 机器人技术

作者： Xuzhao Huang, Akira Seino, Fuyuki Tokuda, Akinari Kobayashi, Dayuan Chen, Yasuhisa Hirata, Norman C. Tien, Kazuhiro Kosuge

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.06990v2

摘要： 接缝是服装中信息丰富的组成部分。不同类型接缝及其组合的存在有助于选择服装处理的抓握点。在本文中，我们提出了一种新的接缝知情策略（SIS），用于寻找处理服装的动作，例如抓住和展开 T 恤。使用所提出的接缝特征提取方法（SFEM）提取双臂机械手系统的一对抓取点的候选点。通过所提出的决策矩阵迭代方法（DMIM）选择机器人系统的一对抓取点。首先通过多次人类演示计算出决策矩阵，并根据机器人执行结果进行更新，以提高机器人的抓取和展开性能。请注意，所提出的方案是在真实数据上进行训练的，而不依赖于模拟。实验结果证明了所提出策略的有效性。该项目视频可在 https://github.com/lancexz/sis 上获取。

通过气动物理储层计算控制具有前馈迟滞补偿的气动软弯曲执行器

分类： 机器人技术, 系统与控制, 系统与控制

作者： Junyi Shen, Tetsuro Miyazaki, Kenji Kawashima

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.06961v1

摘要： 软机器人的非线性带来了滞后等控制挑战，但也为它们提供了计算能力。本文介绍了一种模糊气动物理储层计算（FPRC）模型，用于软执行器运动跟踪控制中的前馈磁滞补偿。我们的方法利用气动弯曲执行器作为具有非线性计算能力的物理储存器来控制另一个气动弯曲执行器。 FPRC 模型采用 Takagi-Sugeno (T-S) 模糊模型来处理物理油藏的输出。在比较评估中，FPRC 模型显示出与回波状态网络 (ESN) 模型相当的训练性能，而它表现出更好的测试精度，并且显着缩短了执行时间。实验验证了所提出的 FPRC 模型在使用开环和闭环控制系统控制气动软执行器弯曲运动方面的有效性。所提出的 FPRC 模型对环境干扰的鲁棒性也得到了实验验证。据作者所知，这是用于控制软执行器的前馈磁滞补偿模型中物理系统的首次实现。这项研究有望推进非线性控制应用中的物理储层计算，并扩展用于控制软执行器的前馈磁滞补偿方法。

密集杂波中的金字塔-单区协同抓取策略

分类： 机器人技术

作者： Chenghao Li, Nak Young Chong

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.06959v1

摘要： 由于这些物体之间的遮挡，从密集的杂乱中抓取各种新奇的物体对机器人来说是一个巨大的挑战。在这项工作中，我们提出了金字塔-单区协同抓取策略（PMSGP），使机器人能够在抓取过程中巧妙地避免大多数遮挡。具体来说，我们首先构建金字塔排序策略（PSP），将场景中的每个对象排序为金字塔结构。通过逐层隔离对象，抓取候选者将在每次抓取期间专注于单个层。然后，我们设计单区采样策略（MSP）来对顶层的抓取候选进行采样。通过这种方式，每次抓取都会针对最上面的物体，从而有效避免大部分遮挡。我们在密集杂乱场景中对 300 个新物体进行了 7000 多次现实世界抓取，证明 PMSGP 显着优于七种竞争性抓取方法。所有抓握视频均可在以下网址获取：https://www.youtube.com/@ Chenghaoli4532/playlists。

受流程启发的轻量级多机器人实时调度规划器

分类： 机器人技术

作者： Han Liu, Yu Jin, Tianjiang Hu, Kai Huang

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.06952v1

摘要： 避免碰撞和轨迹规划在多机器人系统中至关重要，特别是在有大量障碍物的环境中。尽管在这一领域已经进行了广泛的研究，但快速穿越此类环境的挑战尚未得到充分解决。本文通过提出一种新颖的实时调度方案来解决这个问题，该方案旨在优化多机器人系统通过复杂、障碍物丰富的地图的通道。受网络流优化的启发，我们的方案将环境分解为网络结构，使得机器人能够根据实时拥塞数据有效地分配到路径。所提出的调度规划器在现有防撞算法之上运行，重点是通过平衡机器人绕道和等待时间来最小化遍历时间。我们的仿真结果证明了所提出方案的效率。此外，我们还通过使用十个四旋翼飞行器的真实飞行测试验证了其有效性。这项工作提供了一种轻量级、有效的调度规划器，能够满足障碍物丰富的环境中多机器人系统的实时需求。

用于紧耦合激光雷达惯性里程计的等变滤波器

分类： 机器人技术, 系统与控制, 系统与控制

作者： Anbo Tao, Yarong Luo, Chunxi Xia, Chi Guo, Xingxing Li

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.06948v1

摘要： 姿态估计是同步定位与建图（SLAM）中的一个关键问题。然而，开发鲁棒且一致的状态估计器仍然是一个重大挑战，因为传统的扩展卡尔曼滤波器（EKF）难以处理模型非线性，特别是对于惯性测量单元（IMU）和光检测和测距（LiDAR）。为了提供一致且高效的位姿估计解决方案，我们提出了 Eq-LIO，这是一种基于等变滤波器（EqF）的紧密耦合 LIO 系统的鲁棒状态估计器。与基于$\SE_2(3)$群结构的不变卡尔曼滤波器相比，EqF利用半直积群的对称性来耦合系统状态，包括IMU偏置、导航状态和激光雷达外标定状态，从而抑制线性化误差并改进估计器在意外状态变化时的行为。所提出的Eq-LIO具有天然的一致性和更高的鲁棒性，这在理论上通过数学推导得到了证明，并通过在公共和私人数据集上的一系列测试得到了实验验证。

用于通过触摸进行主动物体识别、姿势估计和形状迁移学习的贝叶斯框架

分类： 机器人技术, 人工智能

作者： Haodong Zheng, Andrei Jalba, Raymond H. Cuijpers, Wijnand IJsselsteijn, Sanne Schoenmakers

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06912v2

摘要： 正如人类可以通过触觉来探索和理解世界一样，触觉感知也是机器人感知的一个重要方面。在非结构化环境中，机器人可能会遇到已知和新颖的物体，这就需要一种方法来处理已知和新颖的物体。在本研究中，我们将粒子滤波器（PF）和高斯过程隐式曲面（GPIS）结合在统一的贝叶斯框架中。该框架可以以主动学习的方式区分已知对象和新对象、执行对象识别、估计已知对象的姿势以及重建未知对象的形状。通过将 GPIS 先验选择与 PF 的最大似然估计 (MLE) 形状结合起来，可以将有关已知物体形状的知识转移到学习新的形状。提出了一种具有全局形状估计的探索程序来指导主动数据采集并在获得足够的信息时结束探索。所提出的贝叶斯框架的性能通过对已知和新物体的模拟进行评估，并用随机姿势初始化。结果表明，所提出的利用全局形状估计的探索过程比基于快速探索随机树（RRT）的局部探索过程实现了更快的探索。总的来说，我们的结果表明所提出的框架在对象识别、姿态估计和形状重建方面是有效且高效的。此外，我们表明学习的形状可以作为新的先验包含在内，并有效地用于未来的对象识别和姿态估计。

PRO-MIND：机器人运动的接近度和反应性优化，以调整工业环境中的安全限制、人类压力和生产力

分类： 机器人技术

作者： Marta Lagomarsino, Marta Lorenzini, Elena De Momi, Arash Ajoudani

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06864v1

摘要： 尽管工业协作机器人取得了令人瞩目的进步，但由于难以在人类安全和舒适性与快速生产限制之间取得平衡，因此其潜力在很大程度上尚未得到开发。为了帮助应对这一挑战，我们推出了 PRO-MIND，这是一种新颖的人机交互框架，它利用有关人类同事的宝贵数据来优化机器人轨迹。通过估计人类的注意力和脑力劳动，我们的方法可以动态调整安全区域，并能够动态改变机器人路径，以提高人类的舒适度和最佳的停止条件。此外，我们根据心率变异性和疯狂运动估计的当前人类心理身体压力，制定了多目标优化，以适应机器人的轨迹执行时间和平滑度。这些调整利用 B 样条曲线的特性来保持连续性和平滑度，这是提高运动可预测性和舒适度的关键因素。对两个现实案例研究的评估表明，该框架能够抑制操作员的工作量和压力，并确保他们的安全，同时提高人机生产率。 PRO-MIND 的进一步优势包括它能够适应每个人的具体需求，以及对任务执行过程中注意力、脑力劳动和压力变化的敏感性。

超声驱动机器人插管的分叉识别

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Cecilia G. Morales, Dhruv Srikanth, Jack H. Good, Keith A. Dufendach, Artur Dubrawski

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06817v1

摘要： 在创伤和重症监护环境中，快速、精确的血管内通路是患者生存的关键。我们的研究旨在确保这种机会，即使在缺乏熟练的医务人员的情况下也是如此。血管分叉是解剖学标志，可以指导在医疗手术过程中安全放置导管或针头。尽管由于其便携性和安全性，超声在紧急情况下导航解剖标志方面具有优势，但据我们所知，没有现有算法可以使用超声图像自动提取血管分叉。这主要是由于训练和验证可靠模型所需的地面实况数据（特别是来自活体受试者的数据）的可用性有限。研究人员经常求助于使用来自解剖模型或模拟的数据。我们推出 BIFURC（超声驱动机器人插管分叉识别），这是一种识别血管分叉并为自主机器人插管系统提供最佳针插入位点的新颖算法。 BIFURC 将专家知识与深度学习技术相结合，可有效检测股骨区域内的血管分叉，并可以根据有限的体内数据进行训练。我们使用医学模型以及涉及活猪的真实实验来评估我们的算法。在所有情况下，BIFURC 一致确定的分叉点和针插入位置与临床专家确定的一致。

Kino-PAX：高度并行的基于运动动力学采样的规划器

分类： 机器人技术, 分布式、并行和集群计算, 表现

作者： Nicolas Perrault, Qi Heng Ho, Morteza Lahijanian

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06807v1

摘要： 基于采样的运动规划器（SBMP）对于高维空间中复杂运动动力学约束的规划是有效的，但它们仍然难以实现实时性能，这主要是由于它们的串行计算设计。我们提出了运动动力学并行加速扩展 (Kino-PAX)，这是一种专为 GPU 等并行设备设计的新型高度并行运动动力学 SBMP。 Kino-PAX 直接并行地生成轨迹段树。我们的主要见解是如何将迭代树生长过程分解为三个大规模并行的子例程。 Kino-PAX 旨在与并行设备执行层次结构保持一致，确保线程在很大程度上独立、共享相同的工作负载并利用低延迟资源，同时最大限度地减少高延迟数据传输和进程同步。这种设计可以实现非常高效的 GPU 实现。我们证明 Kino-PAX 在概率上是完整的，并通过计算硬件的改进来分析其可扩展性。实证评估证明了解决方案在桌面 GPU 上的时间约为 10 毫秒，在嵌入式 GPU 上的时间约为 100 毫秒，与最先进的顺序算法的粗粒度 CPU 并行化相比，性能提高了 1000 倍。一系列复杂的环境和系统。

通过控制约束配方共同优化安全性和性能

分类： 系统与控制, 机器人技术, 系统与控制

作者： Hao Wang, Adityaya Dhande, Somil Bansal

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06696v1

摘要： 自主系统的能力迅速增强，但有效、安全地执行任务仍然是一个挑战。事实上，性能和安全有时可能是相互竞争的目标，这使得它们之间的协同优化变得困难。一种思想流派是将这种协同优化视为约束最优控制问题，以性能为导向的目标函数和安全性作为约束。然而，解决一般非线性系统的约束最优控制问题仍然具有挑战性。在这项工作中，我们使用约束最优控制的一般框架，但给定安全状态约束，我们将其转换为等效控制约束，从而产生状态和时间相关的控制约束最优控制问题。使用动态规划原理可以很容易地解决这个等效的最优控制问题。我们证明相应的值函数是某个 Hamilton-Jacobi-Bellman 偏微分方程 (HJB-PDE) 的粘度解。此外，我们通过二维案例研究证明了我们的方法的有效性，并且实验表明使用我们的方法合成的控制器在安全性和性能方面始终优于基线。

工业环境移动机械手机器人技术报告

分类： 机器人技术

作者： Erfan Amoozad Khalili, Kiarash Ghasemzadeh, Hossein Gohari, Mohammadreza Jafari, Matin Jamshidi, Mahdi Khaksar, AmirReza AkramiFard, Mana Hatamzadeh, Saba Sadeghi, Mohammad Hossein Moaiyeri

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06693v1

摘要： 本文介绍了由 Shahid Beheshti 大学电气工程系机器人与智能自动化实验室为 2024 年 RoboCup 竞赛设计的 Auriga @Work 机器人的开发情况。该机器人专为工业应用量身定制，专注于提高重复或危险环境中的效率。它配备了用于全向移动的 4 轮麦克纳姆驱动系统和带有定制 3D 打印夹具的 5 自由度机械臂，用于物体操纵和导航任务。该机器人的电子设备由定制设计的电路板提供动力，这些电路板利用 ESP32 微控制器和 Nvidia Jetson Nano 进行实时控制和决策。关键软件堆栈集成了用于地图绘制的 Hector SLAM、用于路径规划的 A* 算法、用于物体检测的 YOLO，以及用于改进导航和避免碰撞的先进传感器融合。

使用幂函数对图像色调二分法进行建模

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Axel Martinez, Gustavo Olague, Emilio Hernandez

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06764v1

摘要： 本文的主要目的是提出基于幂函数的图像照明建模中的二分法概念。特别是，我们回顾了幂函数的几个数学特性，以确定其局限性，并提出了一种能够抽象照明二分法的新数学模型。该方程的简单性为经典和现代图像分析和处理开辟了新途径。本文提供了实用且说明性的图像示例来解释新模型如何管理图像感知中的二分法。该文章展示了二分图像空间是一种从图像中提取丰富信息的可行方法，尽管与色调、亮度和颜色感知相关的对比度较差。此外，与图像增强中最先进的方法的比较提供了该方法价值的证据。

定位结构元素：将 RGB-D 数据中的几何检测与语义验证相结合

分类： 计算机视觉和模式识别, 机器人技术, I.4.9; I.2.9; I.2.10

作者： Ali Tourani, Saad Ejaz, Hriday Bavle, Jose Luis Sanchez-Lopez, Holger Voos

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06625v1

摘要： RGB-D 相机为场景理解、地图重建和定位等各种机器人任务提供丰富而密集的视觉和空间信息。集成深度和视觉信息可以帮助机器人进行定位和元素映射，从而推进 3D 场景图生成和视觉同步定位和映射 (VSLAM) 等应用。虽然包含此类信息的点云数据主要用于增强场景理解，但尚未充分利用其捕获和表示丰富语义信息的潜力。本文提出了一种用于本地化建筑组件（包括墙壁和地面）的实时管道，方法是集成纯 3D 平面检测的几何计算，然后使用 RGB-D 相机的点云数据验证其语义类别。它具有并行多线程架构，可以精确估计环境中检测到的所有平面的位姿和方程，使用全景分割验证过滤形成地图结构的平面，并仅保留经过验证的建筑组件。将所提出的方法纳入 VSLAM 框架证实，用检测到的环境驱动语义元素约束地图可以提高场景理解和地图重建精度。它还可以确保将这些检测到的组件（重新）关联到统一的 3D 场景图中，从而弥合几何精度和语义理解之间的差距。此外，该管道还可以根据布局识别建筑组件之间的关系，从而检测潜在的更高级别的结构实体（例如房间）。

不匹配执行下的一次性模仿

分类： 机器人技术, 人工智能, 机器学习

作者： Kushal Kedia, Prithwish Dan, Sanjiban Choudhury

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06615v1

摘要： 作为提示的人类演示是对机器人进行编程以执行长视野操纵任务的有效方法。然而，由于执行不匹配，例如不同的运动风格和身体能力，将此类演示直接转化为机器人可执行的动作会带来重大挑战。现有的方法要么依赖于机器人-演示者配对数据，而这无法扩展，要么过度依赖于帧级视觉相似性，而这无法成立。为了应对这些挑战，我们提出了 RHyME，这是一种新颖的框架，可通过使用最佳运输成本自动在机器人和演示器之间建立任务执行对应关系。给定长视距机器人演示，RHyME 通过检索和组合类似的短视距人类剪辑来合成语义上等效的人类演示，从而无需配对数据即可促进有效的政策训练。我们表明，RHyME 在所有不匹配程度上都优于各种跨实施数据集的一系列基线。通过详细的分析，我们发现了学习和利用跨实体视觉表示的见解。

DemoStart：演示主导的自动课程应用于多指机器人的模拟到真实

分类： 机器人技术, 机器学习

作者： Maria Bauza, Jose Enrique Chen, Valentin Dalibard, Nimrod Gileadi, Roland Hafner, Murilo F. Martins, Joss Moore, Rugile Pevceviciute, Antoine Laurens, Dushyant Rao, Martina Zambelli, Martin Riedmiller, Jon Scholz, Konstantinos Bousmalis, Francesco Nori, Nicolas Heess

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06613v2

摘要： 我们提出了 DemoStart，这是一种新颖的自动课程强化学习方法，能够通过稀疏的奖励和少量的模拟演示来学习配备三指机器人手的手臂上的复杂操作行为。从模拟中学习大大缩短了行为生成的开发周期，并利用域随机化技术来实现成功的零样本模拟到真实的迁移。传输的策略是直接从多个摄像头和机器人本体感知的原始像素中学习的。我们的方法优于从真实机器人演示中学到的策略，并且需要在模拟中收集的演示次数减少 100 倍。更多详细信息和视频请访问 https://sites.google.com/view/demostart。

基于仿真的场景生成，实现鲁棒混合人工智能的自主性

分类： 机器人技术, 人工智能, 68T20, 68T45, 68T40, J.7; C.3

作者： Hambisa Keno, Nicholas J. Pioch, Christopher Guagliano, Timothy H. Chung

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06608v1

摘要： 随着低成本平台和传感器有效载荷的出现，无人机 (UAV) 在搜索救援、应急管理和执法方面的应用越来越受到关注。随着人类干预水平的降低，用于复杂推理的混合神经和符号人工智能方法的出现预计将进一步突破这些应用的界限。然而，当前的无人机模拟环境缺乏适合这种混合方法的语义上下文。为了弥补这一差距，HAMERITT（用于 RapId 训练和测试的混合人工智能任务环境）提供了一个基于模拟的自主软件框架，该框架支持用于自主操纵和感知推理的神经符号算法的训练、测试和保证。 HAMERITT 包括场景生成功能，除了原始传感器数据之外，还提供与任务相关的上下文符号信息。场景包括对感兴趣的实体及其与场景元素的关系的符号描述，以及时空约束，其形式为具有先验概率的有时间限制的感兴趣区域以及这些区域内的限制区域。 HAMERITT 还支持训练不同的算法线程，以在端到端任务运行中进行机动与感知。未来的工作包括通过自动化工作流程提高场景真实性和扩展符号上下文生成。

MAPS：通过大语言模型渗透科学进行自动驾驶汽车的能源可靠性权衡管理

分类： 硬件架构, 机器人技术

作者： Mahdieh Aliazam, Ali Javadi, Amir Mahdi Hosseini Monazzah, Ahmad Akbari Azirani

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06558v1

摘要： 随着自动驾驶汽车变得越来越普遍，高精度和高效的系统对于提高安全性、性能和能耗变得越来越重要。这些系统中能源可靠性权衡的有效管理需要能够预测车辆运行期间的各种条件。随着大型语言模型（LLM）的有望改进以及 ChatGPT 等知名模型的出现，近年来为自动驾驶汽车相关预测提供了独特的机会。本文提出了 MAPS，使用大语言模型作为地图阅读器副驾驶员来预测自动驾驶车辆运行期间要设置的重要参数，以平衡能源可靠性权衡。与最佳基线方法相比，MAPS 方法的导航精度提高了 20%。 MAPS 还显示计算单元节能 11%，机械和计算单元节能高达 54%。

通过机器人进行社交调解——使用扩展群体过程模型通过定向机器人行动改善群体互动的范围界定审查

分类： 机器人技术, 人机交互

作者： Thomas H. Weisswange, Hifza Javed, Manuel Dietrich, Malte F. Jung, Nawid Jamali

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06557v1

摘要： 群体过程是指群体内部发生的动态，对于理解群体如何运作至关重要。随着机器人越来越多地被放置在小团体中，改进这些流程已成为社交机器人的重要应用。社交中介机器人通过故意影响群体的进程来引发群体内的行为变化。尽管该领域的研究表明机器人可以有效影响人际动态，但在整合这些见解以发展连贯的理解和理论方面存在显着差距。我们对文献进行了范围审查，旨在通过机器人代理的有意行动来改变多人之间的社交互动。为了指导我们的审查，我们采用了经典的输入-过程-输出 (I-P-O) 模型，我们称之为“中介 I-P-O 模型”。我们评估了 1633 篇出版物，得出了 89 个不同的社交中介概念。我们构建了 11 种机器人可以用来塑造小组和团队流程的调解方法。这项工作致力于产生可推广的见解，并评估迄今为止通过机器人进行社交调解的潜力的实现程度。我们希望拟议的框架鼓励采用整体方法来研究社交调解，并为该领域未来报告的标准化奠定基础。

最大范围约束下的多机器人任务分配和路径规划

分类： 机器人技术

作者： Gang Xu, Yuchen Wu, Sheng Tao, Yifan Yang, Tao Liu, Tao Huang, Huifeng Wu, Yong Liu

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06531v1

摘要： 这封信提出了一种新颖的多机器人任务分配和路径规划方法，该方法考虑了机器人在大型工作空间中的最大范围限制，使机器人能够在其范围限制内完成分配的任务。首先，我们开发了一个快速路径规划器来有效地解决全局路径。随后，我们提出了一种基于拍卖的创新方法，将我们的路径规划器集成到拍卖阶段进行奖励计算，同时考虑机器人的范围限制。该方法考虑了额外的避障行驶距离而不是理想的直线距离，解决了任务分配和路径规划之间的耦合。此外，为了避免迭代期间的冗余计算，我们实施了惰性拍卖策略来加速任务分配的收敛。最后，我们通过广泛的仿真和实际实验验证了所提出方法的有效性和应用潜力。我们方法的实现代码可在 https://github.com/wuuya1/RangeTAP 获取。

基于渐近最优惰性终身采样的动态环境中高效运动规划算法

分类： 机器人技术

作者： Lu Huang, Xingjian Jing

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06521v1

摘要： 本文介绍了一种基于渐近最优终身采样的路径规划算法，该算法结合了终身规划算法和惰性搜索算法的优点，可在边缘评估成本高昂的动态环境中快速重新规划。通过仅评估最佳解决方案的子路径候选，该算法节省了大量的评估时间，从而降低了总体规划成本。当底层搜索图发生变化时，它采用新颖的知情重连级联来有效修复搜索树。仿真结果表明，该算法在解决静态和动态运动规划问题方面优于各种最先进的基于采样的规划器。

用于增强人机交互的手势识别技术和机器学习的进步：全面回顾

分类： 机器人技术

作者： Sajjad Hussain, Khizer Saeed, Almas Baimagambetov, Shanay Rab, Md Saad

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06503v1

摘要： 近年来，机器人已经成为我们日常生活的重要组成部分，有着各种各样的应用。人机交互在机器人领域与机器人进行交互和交流产生了积极的影响。近年来，手势识别技术与机器学习算法相结合取得了显着的进步，特别是在人机交互（HRI）方面。本文全面回顾了手势识别方法的最新进展及其与机器学习方法的集成以增强 HRI。此外，本文提出了基于视觉的手势识别，通过深度传感系统实现安全可靠的人机交互，分析了深度学习、强化学习和迁移学习等机器学习算法在提高准确性和手势识别系统的鲁棒性，可实现人类与机器人之间的有效通信。

一种用于在恶劣环境中定位无人机的新型三元演化估计器

分类： 机器人技术

作者： Kaiwen Xiong, Sijia Chen, Wei Dong

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06501v2

摘要： 获得可靠的位置估计对于无人机在任务执行过程中至关重要，尤其是在恶劣的环境中。然而，环境干扰和突变通常会降低测量可靠性，导致估计偏差。为了解决这个问题，现有的工作探索了传感器置信度的自适应调整。不幸的是，现有方法很少包括估计精度的同步评估，从而导致调整对异常数据敏感并且容易出现发散。为了解决这个问题，我们提出了一种配备在线误差监视器的三元通道自适应演化估计器，其中三元通道、状态、噪声协方差矩阵，尤其是空气阻力与环境同时演化。首先，采用增强滤波器来预处理多维数据，然后采用逆威沙特平滑器来获得后验状态和协方差矩阵。分析了估计过程中的误差传播关系，设计了在线监测估计误差的指标。在此前提下，应用一些限制来抑制干扰导致的潜在发散。此外，考虑到运动动力学，根据更新的状态和协方差矩阵重新制定空中阻力矩阵。最后，对所提出的估计器的可观测性、数值灵敏度和算术复杂度进行了数学分析。在普通和恶劣环境下（平均 RMSE 分别为 0.17m 和 0.39m）进行了大量实验，以验证算法的适应性和限制设计的有效性，这表明我们的方法优于现有技术。

自动驾驶汽车多模态大语言模型驱动场景测试

分类： 机器人技术, 人工智能, 新兴技术

作者： Qiujing Lu, Xuanhan Wang, Yiwei Jiang, Guangming Zhao, Mingyue Ma, Shuo Feng

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06450v1

摘要： 对于在道路部署之前有效测试自动驾驶汽车而言，极端情况的生成变得越来越重要。然而，现有的方法很难适应不同的测试要求，并且通常缺乏泛化到未见过的情况的能力，从而降低了生成场景的便利性和可用性。非常需要一种能够轻松控制场景生成的方法，以便在现实和具有挑战性的情况下进行高效的自动驾驶汽车（AV）测试。为了解决这个问题，我们提出了 OmniTester：一个基于多模式大语言模型 (LLM) 的框架，充分利用了 LLM 广泛的世界知识和推理能力。 OmniTester 旨在在模拟环境中生成真实且多样化的场景，为测试和评估 AV 提供强大的解决方案。除了快速工程之外，我们还使用城市交通模拟中的工具来简化大语言模型生成的代码的复杂性。此外，我们结合检索增强生成和自我改进机制来增强大语言模型对场景的理解，从而提高其生成更真实场景的能力。在实验中，我们展示了我们的方法在生成三种类型的具有挑战性和复杂场景时的可控性和现实性。此外，我们还展示了其在大语言模型泛化能力的推动下重建崩溃报告中描述的新场景的有效性。

用于肌肉骨骼类人机器人任务实现的仿人双耳设计和声源方向估计

分类： 机器人技术, 声音, 音频和语音处理

作者： Yusuke Omura, Kento Kawaharazuka, Yuya Nagamatsu, Yuya Koga, Manabu Nishiura, Yasunori Toshimitsu, Yuki Asano, Kei Okada, Koji Kawasaki, Masayuki Inaba

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06429v1

摘要： 肌肉骨骼类人机器人的类人环境识别对于在真实复杂环境中实现任务以及用作测试对象的假人非常重要。人类整合各种感官信息来感知周围环境，而听觉对于识别看不见或摸不到的物体特别有用。在这项研究中，我们的目标是通过为肌肉骨骼类人配备类人听觉处理系统，实现类人听觉环境识别和任务实现。人类根据传入声音的时域和频域变化以及中枢神经系统听觉信息的整合来估计声源的方向并检测环境声音，从而实现基于声音的环境识别。我们提出了一种仿人听觉信息处理系统，该系统由三个部分组成：仿人双耳单元（模仿人耳结构和特征）、声源方向估计系统和环境声音检测系统（模仿人耳中的处理）。中枢神经系统。我们将其应用于 Musashi（一种模仿人类的肌肉骨骼人形机器人），并让它在真实的嘈杂环境中执行需要视野之外的声音信息的任务，以确认所提出的方法的有用性。

GeMuCo：用于身体图式学习的广义多感官相关模型

分类： 机器人技术, 人工智能, 机器学习

作者： Kento Kawaharazuka, Kei Okada, Masayuki Inaba

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06427v1

摘要： 人类可以自主学习自己身体中的感觉和运动之间的关系，估计和控制自己的身体状态，并在不断适应当前环境的同时进行移动。另一方面，当前的机器人通过学习人类从经验中描述的网络结构来控制自己的身体，并对传感器和执行器之间的关系做出一定的假设。此外，网络模型不适应机器人身体、抓取的工具或环境的变化，而且没有统一的理论，不仅用于控制，还用于状态估计、异常检测、仿真等。在。在本研究中，我们提出了一种广义多感官相关模型（GeMuCo），其中机器人本身根据自身经验获取描述传感器和执行器之间相关性的身体图式，包括网络输入/输出等模型结构。机器人通过在线更新这个身体图式模型来适应当前环境，估计和控制其身体状态，甚至进行异常检测和模拟。我们通过将其应用于考虑轴驱动机器人抓取状态变化的工具使用、肌肉骨骼机器人的关节肌肉映射学习以及低刚性塑料的全身工具操作来证明该方法的有效性- 制造人形生物。

四指机械手的数学建模

分类： 机器人技术

作者： Sajjad Hussain, M. Suhaib

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06419v1

摘要： 机器人抓手是机器人系统中处理任何任务的末端执行器，用于执行工业应用和危险任务的各种操作。在本文中，我们开发了多指机器人抓手的数学模型。我们关注的是 Jamia'shand，它是在印度 Jamia Millia Islamia 工程与技术学院机械工程系机器人实验室开发的。这是一个肌腱驱动的夹具，每个手指具有三个自由度，总共有 11 个自由度。术语“腱”广泛用于表示皮带、电缆或类似类型的应用。它由三个手指和一个拇指组成。每个手指和拇指都有一个自由度。动力传输机构是绳索和滑轮系统。两只手的结构相似。该产品采用 5083 系列铝材制造。抓取力可以调节，我们通过为四指机器人抓取器及其拇指开发数学模型，完成了运动学、力和动态分析。我们重点关注它控制 X 和 Y 位移以及角度位置运动的运动，并对四个手指和拇指进行力分析，计算以质量移动它所需的最大重量、力和扭矩。绘制力-位移图，显示高达 250 N 的线性行为，并显示超出此范围的非线性行为。抓取最大 1 kg 负载所需的线直径为 0.86 mm，还开发了动态模型（使用能量）拉格朗日方法来找到移动手指所需的扭矩。

软声曲率传感器：设计与开发

分类： 声音, 机器人技术, 音频和语音处理

作者： Mohammad Sheikh Sofla, Hanita Golshanian, Vishnu Rajendran S, Amir Ghalamzan E

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06395v1

摘要： 本文介绍了一种新型软声学曲率（SAC）传感器。 SAC 结合了集成音频组件，并在灵活的结构中设有声道。由通道一端的扬声器产生的参考声波传播并被另一通道末端的麦克风接收。我们之前的研究表明，声波能量耗散随声通道变形而变化，这促使我们设计了一种能够因弯曲而产生大变形的新型通道。然后，我们使用机器学习 (ML) 模型在通道变形和声音调制之间建立复杂的映射。对各种声音频率和机器学习模型进行了评估，以提高曲率检测的准确性。该传感器采用软材料和 3D 打印构建，并经过实验验证，在 0 至 60 m-1 曲率范围内，曲率测量误差保持在 3.5 m-1 以内。这些结果证明了所提出的曲率估计方法的有效性。凭借其灵活的结构，SAC 传感器在软体机器人领域具有应用潜力，包括连续体机械手、软体抓手和可穿戴设备的形状测量。

图上的离线任务辅助规划：理论和算法基础

分类： 机器人技术

作者： Eitan Bloch, Oren Salzman

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06373v1

摘要： 在这项工作中，我们介绍了任务辅助规划问题，其中我们有两个机器人 Rtask 和 Rassist。第一个机器人 Rtask 负责通过执行预先计算的路径来执行给定的任务。第二个机器人 Rassist 负责使用机载传感器协助 Rtask 执行任务。 Rassist 向 Rtask 提供帮助的能力取决于两个机器人的位置。由于 Rtask 正在沿着它的道路前进，Rassist 可能也需要采取行动以提供尽可能多的帮助。我们研究的问题是如何计算Rassist的路径，从而最大化Rtask路径中提供帮助的部分。我们将问题限制为 Rassist 在路线图上移动的设置，该路线图是嵌入其配置空间中的图，并表明该问题是 NP 困难的。幸运的是，我们证明，当 Rassist 在给定路径上移动时，我们所要做的就是计算 Rassist 从一种配置移动到下一种配置的时间，我们可以在多项式时间内最优地解决问题。与精心设计的上限一起，该多项式时间算法被集成到基于分支定界的算法中，该算法可以计算问题的最佳解决方案，其性能优于基线几个数量级。我们在包含平面机械手和 UR 机器人的模拟场景以及真实机器人的实验室中凭经验展示了我们的工作。

用于安全人机交互的自适应电子皮肤敏感性

分类： 机器人技术

作者： Lukas Rustler, Matej Misar, Matej Hoffmann

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06369v1

摘要： 覆盖整个机器人身体的人造电子皮肤可以使人机协作安全并成为可能。协作机器人的标准（例如 ISO/TS 15066）规定了与人体接触时允许的力和压力。碰撞的这些特征取决于碰撞机器人连杆的速度，也取决于其有效质量。因此，为了保证接触符合功率和力限制（PFL）协作制度，同时最大限度地提高生产率，应为机器人身体的不同部分单独设置保护性皮肤阈值，并在运行时动态设置。在这里，我们提出并凭经验评估四种场景：（a）静态和统一 - 整个皮肤的固定阈值，（b）机器人身体部位的静态但不同的设置，（c）基于每个链接速度动态设置，（d）动态根据每个机器人连杆的有效质量设置。我们在模拟中和真实的 6 轴协作机器人手臂 (UR10e) 上进行实验，该手臂完全覆盖有敏感皮肤 (AIRSKIN)，其中包括 11 个单独的垫。在与机器人身体部位发生短暂碰撞和两次碰撞反应（停止和避免）的模拟拾放场景中，我们证明了从最保守的蒙皮阈值设置 (a) 到最保守的蒙皮阈值设置可提高生产率。自适应设置 (d)。每个皮肤垫的阈值设置均以 25 Hz 的频率进行调整。这项工作可以很容易地扩展到具有更多自由度和更大皮肤覆盖范围的平台（人形机器人）以及社交人机交互场景，其中与机器人的接触将用于通信。

一个策略即可运行所有这些：一种多实施体运动的端到端学习方法

分类： 机器人技术, 机器学习

作者： Nico Bohlinger, Grzegorz Czechmanowski, Maciej Krupka, Piotr Kicki, Krzysztof Walas, Jan Peters, Davide Tateo

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06366v1

摘要： 深度强化学习技术在稳健的腿部运动方面取得了最先进的成果。虽然存在各种各样的有腿平台，例如四足动物、类人机器人和六足动物，但该领域仍然缺少一个单一的学习框架，该框架可以轻松有效地控制所有这些不同的实施例，并可能零次或几次转移到看不见的机器人实施例。我们引入 URMA（统一机器人形态架构）来缩小这一差距。我们的框架将端到端多任务强化学习方法引入有腿机器人领域，使学习策略能够控制任何类型的机器人形态。我们方法的关键思想是允许网络学习抽象的运动控制器，由于我们的形态不可知的编码器和解码器，该控制器可以在实施例之间无缝共享。这种灵活的架构可以被视为构建腿式机器人运动基础模型的潜在第一步。我们的实验表明，URMA 可以在多个实施例上学习运动策略，这些策略可以轻松地转移到模拟和现实世界中看不见的机器人平台上。

用于自动心肌注射的 SCARA 机器人的自主迭代运动学习 (AI-MOLE)

分类： 机器人技术, 系统与控制, 系统与控制

作者： Michael Meindl, Raphael Mönkemöller, Thomas Seel

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06361v1

摘要： 干细胞疗法是治疗心功能不全的一种有前途的方法，并受益于自动心肌注射，这需要配备注射器的机器人操纵器进行高精度运动。这项工作研究了通过结合 SCARA 机器人和学习控制方法是否可以实现足够精确的运动。为此，自主迭代运动学习（AI-MOLE）方法被扩展为适用于多输入/多输出系统。所提出的学习方法通过以即插即用的方式迭代更新输入轨迹来解决具有未知、非线性、多输入/多输出动态的系统中的参考跟踪任务，并且不需要手动参数调整。所提出的学习方法在简化的 SCARA 机器人的初步模拟研究中得到了验证，该机器人必须执行三个所需的运动。结果表明，所提出的学习方法无需任何先验模型信息或手动参数调整，每个运动只需 15 次试验即可实现高精度参考跟踪。结果进一步表明，如果在现实环境中能够获得类似的结果，SCARA 机器人和学习方法的结合可以实现足够精确的运动，从而有可能实现自动心肌注射。

光谱过度减法？半实时机器人自我语音过滤后的语音增强方法

分类： 机器人技术, 声音, 音频和语音处理, 68T50

作者： Yue Li, Koen V. Hindriks, Florian A. Kunneman

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06274v1

摘要： 频谱减法因其简单性而被广泛使用，已被用来解决机器人自我语音过滤（RESF）问题，用于从机器人说话时的单通道麦克风录音中检测人类中断的语音内容。然而，这种方法在基频范围 (FFR) 中存在过度减法的问题，导致语音内容识别性能下降。为了解决这个问题，我们提出了一种基于双掩模一致性的度量生成对抗网络（CMGAN）来增强检测到的语音并改善识别结果。我们的模型利用高频信息和长期特征来补偿过度减去的 FFR 值，然后对新的频谱图进行去噪。此外，我们引入了一种增量处理方法，允许在经过长固定长度输入训练的网络上进行流输入的半实时音频处理。对两个数据集（包括一个具有看不见的噪声的数据集）的评估表明，识别精度以及所提出的双掩模方法和增量处理的有效性有了显着提高，从而增强了所提出的 RESF 管道在现实 HRI 场景中的鲁棒性。

通过操纵感觉差异来恢复慢性疼痛引起的自我效能感下降

分类： 机器人技术

作者： Matti Itkonen, Riku Kawabata, Satsuki Yamauchi, Shotaro Okajima, Hitoshi Hirata, Shingo Shimoda

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06262v1

摘要： 人类的身体机能由自我效能（即对一个人的运动能力的信念）控制。在慢性疼痛患者中，在引起疼痛的损伤治愈后很长一段时间内，这种能力可能仍会降低。慢性疼痛会改变身体模式，影响患者感知身体尺寸和姿势的方式。我们利用机器人操纵技术并通过虚拟现实技术增强感官刺激来利用这一缺陷。我们提出了一种感官刺激操纵方法，旨在修改身体图式以恢复失去的自我效能。

测试时可验证的自我监督可弥补 Sim2Real 在基于事件的卫星位姿估计中的差距

分类： 计算机视觉和模式识别, 机器人技术

作者： Mohsi Jawaid, Rajat Talak, Yasir Latif, Luca Carlone, Tat-Jun Chin

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06240v1

摘要： 深度学习在基于视觉的卫星姿态估计中发挥着至关重要的作用。然而，来自太空环境的真实数据的稀缺意味着需要使用合成数据来训练深层模型，这引发了 Sim2Real 域差距问题。 Sim2Real 差距的主要原因是测试期间遇到的新颖的照明条件。事件传感器已被证明可以在基于视觉的姿态估计中针对光照变化提供一定的鲁棒性。然而，强定向光带来的挑战性照明条件仍然会对商用现成事件传感器的输出造成不良影响，例如物体上的噪声/杂散事件和不均匀事件密度。在软件中模拟此类效应并非易事，因此导致事件域中存在 Sim2Real 差距。为了缩小基于事件的卫星位姿估计中 Sim2Real 的差距，本文提出了一种带有验证器模块的测试时自我监督方案。自我监督是通过优化例程实现的，该优化例程将预测卫星位姿的密集点云与事件数据对齐，以尝试纠正不准确的估计位姿。验证者尝试验证校正后的姿势，并且仅通过隐式微分反向传播经过认证的测试时间输入，以细化预测的地标，从而改进姿势估计并缩小 Sim2Real 差距。结果表明，我们的方法优于已建立的测试时间适应方案。

通过梯度匹配进行损失蒸馏以加权倒角距离完成点云

分类： 计算机视觉和模式识别, 机器学习, 机器人技术

作者： Fangzhou Lin, Haotian Liu, Haoying Zhou, Songlin Hou, Kazunori D Yamada, Gregory S. Fischer, Yanhua Li, Haichong K. Zhang, Ziming Zhang

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06171v1

摘要： 3D点云增强了机器人感知环境几何信息的能力，使得许多下游任务成为可能，例如抓取姿势检测和场景理解。然而，这些任务的性能在很大程度上依赖于数据输入的质量，因为不完整可能会导致不良结果和失败案例。最近为基于深度学习的点云补全而设计的训练损失函数，例如倒角距离（CD）及其变体（例如 HyperCD ），意味着良好的梯度加权方案可以显着提高性能。然而，这些基于 CD 的损失函数通常需要与数据相关的参数调整，这对于数据密集型任务来说可能非常耗时。为了解决这个问题，我们的目标是找到一系列不需要参数调整的加权训练损失（{\em 加权 CD}）。为此，我们提出了一种搜索方案，{\em Loss Distillation via Gradient Matching}，通过模仿 HyperCD 和加权 CD 之间反向传播的学习行为来找到良好的候选损失函数。完成此操作后，我们提出了一种新颖的双层优化公式来基于加权 CD 损失来训练骨干网络。我们观察到：（1）通过适当的加权函数，加权 CD 始终可以实现与 HyperCD 相似的性能，并且（2）Landau 加权 CD，即 {\em Landau CD}，可以在点云补全方面优于 HyperCD 并导致在多个基准数据集上获得最新的最新结果。 {\it 我们的演示代码可在 \url{https://github.com/Zhang-VISLab/IROS2024-LossDistillationWeightedCD} 获取。}

通过学习零动态策略实现强大的敏捷性

分类： 机器人技术

作者： Noel Csomay-Shanklin, William D. Compton, Ivan Dario Jimenez Rodriguez, Eric R. Ambrose, Yisong Yue, Aaron D. Ames

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06125v1

摘要： 我们研究用于混合欠驱动系统的稳健且敏捷的控制器的设计。我们的方法将创建稳定控制器的任务分解为：1）学习在最优控制下不变的映射，2）将驱动坐标驱动到该映射的输出。这种方法被称为零动力学策略，通过将目标映射的输入限制到不能直接驱动的自由度子集来利用欠驱动结构，从而实现显着的维度减小。此外，我们保留了最优控制的稳定性和约束满足，同时减少了在线计算开销。我们证明这种类型的控制器可以稳定混合欠驱动系统，并在 3D 跳跃平台 ARCHER 上通过实验验证我们的方法。在 3000 次跳跃的过程中，所提出的框架展示了强大的敏捷性，保持稳定的跳跃，同时拒绝崎岖地形上的干扰。

PaRCE：感知不确定性下安全导航的概率和基于重建的能力估计

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 系统与控制, 系统与控制

作者： Sara Pohland, Claire Tomlin

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.06111v1

摘要： 基于感知的导航系统对于复杂地形中的无人地面车辆（UGV）导航非常有用，而传统的基于深度的导航方案在这种情况下是不够的。然而，这些数据驱动的方法高度依赖于它们的训练数据，并且可能会在几乎没有任何警告的情况下以令人惊讶和戏剧性的方式失败。为了保证车辆和周围环境的安全，导航系统必须能够识别感知模型的预测不确定性，并在面对不确定性时安全有效地做出反应。为了在感知不确定性下实现安全导航，我们开发了一种基于概率和重建的能力估计（PaRCE）方法来估计模型对整个输入图像以及图像中特定区域的熟悉程度。我们发现整体能力得分可以正确预测正确分类、错误分类和分布外（OOD）样本。我们还确认区域能力图可以准确区分图像中熟悉和不熟悉的区域。然后，我们使用这些能力信息来开发规划和控制方案，以实现有效导航，同时保持较低的错误概率。我们发现，与没有能力意识的基线控制器相比，能力意识方案大大减少了与不熟悉的障碍物的碰撞次数。此外，区域能力信息对于实现高效导航非常有价值。

PEERNet：实时网络机器人系统的端到端分析工具

分类： 机器人技术, 系统与控制, 系统与控制

作者： Aditya Narayanan, Pranav Kasibhatla, Minkyu Choi, Po-han Li, Ruihan Zhao, Sandeep Chinchali

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.06078v1

摘要： 网络机器人系统平衡自动驾驶车辆、无人机群和远程手术等应用中的计算、功率和延迟限制。该领域的一个核心问题是决定何时将计算量大的任务卸载到云（远程服务器），而代价是通信延迟。任务卸载算法通常依赖于对系统特定性能指标的精确了解，例如传感器数据速率、网络带宽和机器学习模型延迟。虽然可以在系统设计期间对这些指标进行建模，但连接质量、服务器负载和硬件条件的不确定性会引入实时性能变化，从而影响整体性能。我们推出 PEERNet，这是一种用于云机器人的端到端实时分析工具。 PEERNet 通过对传感器、网络、深度学习管道和设备等系统组件进行有针对性的自适应分析，实现异构硬件的性能监控。我们通过网络机器人任务展示 PEERNet 的功能，例如 Franka Emika Panda 手臂的基于图像的远程操作以及使用 Nvidia Jetson Orin 查询视觉语言模型。 PEERNet揭示了机器人系统中的非直观行为，例如不对称网络传输和双模态语言模型输出。我们的评估强调了网络机器人基准测试的有效性和重要性，展示了 PEERNet 的适应性。我们的代码是开源的，可在 github.com/UTAustin-SwarmLab/PEERNet 上获取。

基于 Voronoi 的多机器人编队通过协作梯度估计进行 3D 寻源

分类： 机器人技术, 多代理系统

作者： Lara Briñón-Arranz, Martin Abou Hamad, Alessandro Renzaglia

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05995v1

摘要： 在本文中，我们通过一组移动机器人解决了定位三维信号场源的问题，该团队能够收集其强度的噪声测量结果并相互共享信息。所采用的策略是协同计算信号场梯度的闭合形式估计，然后用于引导多机器人系统朝源位置移动。为了保证准确和鲁棒的梯度估计，机器人被放置在固定半径的球体的表面上。更具体地说，它们的位置对应于球面上受约束质心沃罗诺伊分区的生成元。我们表明，通过保持这些特定的形态，可以同时实现关键的几何特性和高水平的场覆盖，并且它们允许通过简单的解析表达式来估计梯度。最后，我们提供模拟结果来评估所提出方法的性能，同时考虑无噪声和噪声测量。特别是，比较分析显示了其针对错误测量的更高鲁棒性如何优于替代的最先进的解决方案。

机器人实用模型：新环境中零射击部署的一般策略

分类： 机器人技术, 机器学习

作者： Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05865v1

摘要： 机器人模型，特别是那些经过大量数据训练的机器人模型，最近显示出大量的现实世界操纵和导航能力。几项独立的研究表明，如果环境中有足够的训练数据，机器人策略可以推广到该环境中所表现出的变化。然而，需要对每个新环境进行微调的机器人模型与可以针对开放世界问题零样本部署的语言或视觉模型形成鲜明对比。在这项工作中，我们提出了机器人实用模型（RUM），这是一个用于训练和部署零样本机器人策略的框架，可以直接推广到新环境而无需任何微调。为了高效地创建 RUM，我们开发了新工具来快速收集移动操作任务的数据，将这些数据集成到具有多模态模仿学习的策略中，并在 Hello Robot Stretch（一种廉价的商品机器人）上部署设备上的策略，具有外部用于重试的 mLLM 验证程序。我们训练了五个这样的实用模型，用于打开柜门、打开抽屉、捡起餐巾、捡起纸袋以及重新定位掉落的物体。我们的系统在与看不见的物体交互的看不见的新颖环境中平均达到 90% 的成功率。此外，实用模型还可以在不同的机器人和相机设置中取得成功，而无需进一步的数据、训练或微调。我们的课程中最主要的是训练数据相对于训练算法和策略类的重要性、有关数据扩展的指导、多样化但高质量演示的必要性，以及机器人内省和重试以提高单个环境性能的秘诀。我们的代码、数据、模型、硬件设计以及实验和部署视频都是开源的，可以在我们的项目网站上找到：https://robotutilitymodels.com

Neural MP：多面手神经运动规划器

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Murtaza Dalal, Jiahui Yang, Russell Mendonca, Youssef Khaky, Ruslan Salakhutdinov, Deepak Pathak

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05864v1

摘要： 当前的运动规划范例从头开始为每个新问题生成解决方案，这会消耗大量的时间和计算资源。对于复杂、杂乱的场景，运动规划方法通常需要几分钟才能产生解决方案，而人类可以利用他们之前的经验在几秒钟内准确、安全地达到任何目标。我们寻求通过大规模应用数据驱动学习来解决运动规划问题来实现同样的目标。我们的方法在模拟中构建大量复杂场景，从运动规划器收集专家数据，然后将其提炼成反应性通才策略。然后，我们将其与轻量级优化相结合，以获得现实世界部署的安全路径。我们对现实世界中四种不同环境中具有随机姿势、场景和障碍的 64 个运动规划任务的方法进行了全面评估，结果表明运动规划成功率比真实世界的状态提高了 23%、17% 和 79%。艺术采样、优化和基于学习的规划方法。视频结果可在 mihdalal.github.io/neuralmotionplanner 获取

及时的闭环交通模拟

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Shuhan Tan, Boris Ivanovic, Yuxiao Chen, Boyi Li, Xinshuo Weng, Yulong Cao, Philipp Krähenbühl, Marco Pavone

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05863v1

摘要： 仿真是安全高效的自动驾驶开发的基石。仿真系统的核心应该产生真实的、反应性的、可控的流量模式。在本文中，我们提出了 ProSim，一种多模式提示闭环交通仿真框架。 ProSim 允许用户给出一组复杂的数字、分类或文本提示来指示每个代理的行为和意图。然后，ProSim 以闭环方式推出交通场景，对每个代理与其他交通参与者的交互进行建模。我们的实验表明，ProSim 在给定不同用户提示的情况下实现了较高的提示可控性，同时在没有给出提示的情况下在 Waymo Sim Agents Challenge 中达到了有竞争力的表现。为了支持提示交通模拟的研究，我们创建了 ProSim-Instruct-520k，这是一个多模式提示场景配对驾驶数据集，包含超过 1000 万个文本提示，适用于超过 52 万个真实驾驶场景。我们将在 https://ariostgx.github.io/ProSim 发布 ProSim 的代码以及 ProSim-Instruct-520k 的数据和标注工具。

基于模型的强化学习欠驱动双摆的学习控制

分类： 机器人技术

作者： Niccolò Turcato, Alberto Dalla Libera, Giulio Giacomuzzo, Ruggero Carli, Diego Romeres

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05811v1

摘要： 本报告介绍了我们为 IROS 2024 举办的第二届人工智能奥运会提出的解决方案。我们的解决方案基于最新的基于模型的强化学习算法，名为 MC-PILCO。除了简要回顾算法之外，我们还讨论了手头任务中 MC-PILCO 实现的最关键方面。

利用对象先验进行点跟踪

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Bikram Boote, Anh Thai, Wenqi Jia, Ozgur Kara, Stefan Stojanov, James M. Rehg, Sangmin Lee

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05786v1

摘要： 点跟踪是计算机视觉中的一个基本问题，在增强现实和机器人技术中有着广泛的应用。当预测点离开其所属的对象并落在背景或另一个对象上时，会发生长期点跟踪中的常见故障模式。我们认为这是在学习跟踪时未能正确捕捉对象性属性。为了解决先前工作的这一局限性，我们提出了一种新颖的对象正则化方法，该方法通过迫使点留在对象实例的边界内来引导点了解对象先验。通过在训练时捕获对象性线索，我们避免了在测试期间计算对象掩码的需要。此外，我们利用上下文注意力来增强特征表示，以更有效地捕获特征级别的对象性。因此，我们的方法在三点跟踪基准上实现了最先进的性能，并且我们通过消融研究进一步验证了我们组件的有效性。源代码位于：https://github.com/RehgLab/tracking_objectness

从机器到音乐家的创造力和视觉交流：通过机器人相机分享乐谱

分类： 人机交互, 人工智能, 计算机视觉和模式识别, 机器人技术

作者： Ross Greer, Laura Fleig, Shlomo Dubnov

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05773v1

摘要： 本文通过在“Guided Harmony”音乐游戏中实现机器人摄像头来探索视觉传达和音乐交互的整合。我们的目标是研究人类音乐家和机器人系统之间的共同创作行为。我们的研究探索了即兴游戏等现有方法，并将这些概念扩展到包括使用 PTZ 摄像机的机器人参与。机器人系统解释并响应音乐家的非语言提示，创造协作和自适应的音乐体验。这个最初的案例研究强调了直观视觉沟通渠道的重要性。我们还提出了未来的研究方向，包括完善视觉提示工具包的参数和数据收集方法，以进一步了解人机协同创造力。我们的研究结果有助于更广泛地理解机器智能在增强人类创造力方面的作用，特别是在音乐环境中。

变刚度准直驱拉索驱动张拉整体机器人的设计

分类： 机器人技术

作者： Jonathan Mi, Wenzhe Tong, Yilin Ma, Xiaonan Huang

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05751v1

摘要： 张拉整体机器人在需要极高变形能力和鲁棒性的任务中表现出色。然而，由于其高自由度和非常规形状，在状态估计和有效载荷多功能性方面存在挑战。本文介绍了一种模块化三杆张拉整体机器人，具有可定制的有效负载设计。我们的张拉整体机器人采用新型准直接驱动（QDD）电缆执行器与低拉伸聚合物电缆配对，无需外力或扭矩传感器即可实现精确的本体感觉。该设计允许动态刚度调整，以实现更好的环境和有效负载适应性。在本文中，我们介绍了机器人的设计、制造、组装和实验结果。实验数据证明了缆索长度估计的高精度（相对于杆长度的误差<1%）和缆索致动器的可变刚度控制高达自支撑最小刚度的 7 倍。所展示的张拉整体机器人可作为未来自主操作和开源模块设计进步的平台。

有限真实值下物体抓取的鲁棒损失函数

分类： 机器人技术, 计算机视觉和模式识别

作者： Yangfan Deng, Mengyao Zhang, Yong Zhao

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05742v1

摘要： 物体抓取是机器人充分感知环境并与环境交互的关键技术。然而，在实际应用中，研究人员在训练卷积神经网络时面临着缺失或有噪声的基本事实，这降低了模型的准确性。因此，提出了不同的损失函数来处理这些问题，以提高神经网络的准确性。对于缺失的真实值，为未标记样本定义了一种新的预测类别概率方法，该方法与伪标记方法结合有效。此外，对于噪声地面事实，引入对称损失函数来抵抗标签噪声的损坏。所提出的损失函数功能强大、稳健且易于使用。基于典型抓取神经网络的实验结果表明，我们的方法可以将性能提高 2% 到 13%。

使用微分运动学控制的 RCM 约束机械臂轨迹跟踪

分类： 机器人技术, 优化与控制

作者： Omar Rayyan, Vinicius Gonçalves, Nikolaos Evangeliou, Anthony Tzes

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05740v1

摘要： 本文提出了一种控制手术机器人系统的方法，同时遵守机器人辅助微创手术（RA-MIS）中的远程运动中心（RCM）约束。在这种方法中，RCM 约束在算法上得到支持，为插入点的定位提供了灵活性，并实现了与各种通用机器人的兼容性。本文进一步研究了工具插入率对RCM误差的影响，并引入了考虑RCM误差的机器人可操纵性指标，用于寻找起始构型。为了准确评估所提出的方法在 RCM 约束环境中的轨迹跟踪，采用了电磁跟踪系统。结果证明了该方法在解决 RA-MIS 中 RCM 约束问题方面的有效性。

无信号交叉口 CAV 的合作决策：具有注意力和分层博弈先验的 MARL 方法

分类： 机器人技术

作者： Jiaqi Liu, Peng Hang, Xiaoxiang Na, Chao Huang, Jian Sun

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05712v1

摘要： 自动驾驶汽车的发展显示出提高交通系统效率和安全性的巨大潜力。然而，复杂的人机混合交通场景（例如无信号交叉口）的决策问题仍然是自动驾驶车辆面临的挑战。虽然强化学习（RL）已被用来解决复杂的决策问题，但现有的强化学习方法在处理多台联网自动驾驶车辆（CAV）的协作决策、确保探索过程中的安全以及模拟现实的人类驾驶员行为方面仍然存在局限性。本文提出了一种新颖有效的算法——多智能体博弈先验注意力深度确定性策略梯度（MA-GA-DDPG）来解决这些局限性。我们提出的算法将无信号交叉口的 CAV 决策问题表述为分散的多智能体强化学习问题，并采用注意力机制来捕获自我 CAV 与其他智能体之间的交互依赖关系。然后利用自我车辆与其他智能体之间的注意力权重来筛选交互对象并获得先验的分层博弈关系，在此基础上设计安全检查器模块以提高交通安全。此外，还进行了仿真和硬件在环实验，证明我们的方法在驾驶安全性、效率和舒适性方面优于其他基线方法。

通过局部轨迹调制对通用技能进行交互式增量学习

分类： 机器学习, 人工智能, 机器人技术

作者： Markus Knauer, Alin Albu-Schäffer, Freek Stulp, João Silvério

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05655v1

摘要： 多年来，从演示中学习（LfD）的泛化问题受到了相当多的关注，特别是在运动原语的背景下，出现了多种方法。最近，两种重要的方法得到了认可。一种方法利用通过点通过调节演示轨迹来局部调整技能，另一种方法则依赖于所谓的任务参数化模型，该模型使用概率的乘积来编码相对于不同坐标系的运动，以进行泛化。虽然前者非常适合精确的局部调制，但后者旨在泛化工作空间的大区域，并且通常涉及多个对象。通过同时利用这两种方法来解决泛化质量问题很少受到关注。在这项工作中，我们提出了一种交互式模仿学习框架，该框架同时利用轨迹分布的局部和全局调制。在内核化运动原语（KMP）框架的基础上，我们引入了来自直接人类纠正反馈的技能调节的新颖机制。我们的方法特别利用了通过点的概念，以增量和交互方式1）提高本地模型的准确性，2）在执行过程中向任务添加新对象，3）将技能扩展到未提供演示的区域。我们使用扭矩控制、7 自由度、DLR SARA 机器人在轴承环加载任务中评估我们的方法。

StratXplore：视觉和语言导航的战略新颖性和指令性探索

分类： 机器人技术, I.2.7; I.2.9; I.2.10

作者： Muraleekrishna Gopinathan, Jumana Abu-Khalaf, David Suter, Martin Masek

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05593v1

摘要： 实体导航要求机器人根据给定的任务理解环境并与环境交互。视觉语言导航（VLN）是一种具体化的导航任务，机器人根据语言指令和视觉输入在以前见过和未见过的环境中进行导航。 VLN 特工需要访问本地和全球行动空间；前者用于立即决策，后者用于从导航错误中恢复。先前的 VLN 智能体仅依赖指令-视点对齐来进行本地和全局决策，如果指令与其当前视点不匹配，则回溯到先前访问的视点。由于指令的复杂性和环境的部分可观察性，这些方法很容易出错。我们认为，回溯不是最优的，意识到错误的智能体可以有效地恢复。为了获得最佳恢复，探索应扩展到未探索的观点（或前沿）。最佳前沿是最近观察到但未经探索的观点，与指导一致且新颖。我们为 VLN 代理引入了一种基于内存和错误感知的路径规划策略，称为 \textit{StratXplore}，它提供全局和局部行动规划来选择路径校正的最佳前沿。该方法收集导航过程中所有过去的动作和视点特征，然后选择适合恢复的最佳边界。实验结果表明，这种简单而有效的策略提高了两个具有不同任务复杂度的 VLN 数据集的成功率。

可解释的责任共享作为任务和运动规划的启发式

分类： 机器人技术, 人工智能

作者： Arda Sarp Yenicesu, Sepehr Nourmohammadi, Berk Cicek, Ozgur S. Oguz

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05586v1

摘要： 本文介绍了一种名为可解释责任共享（IRS）的新型任务和运动规划（TAMP）启发式方法，它通过利用人类构建的环境和固有偏差来提高家用机器人的规划效率。 IRS 利用家庭环境中常见的辅助物品（例如托盘和水罐），系统地整合这些元素来简化和优化任务执行。该启发式植根于责任共享（RS）的新概念，其中辅助对象与具体代理共享任务的责任，将复杂的任务划分为可管理的子问题。这种划分不仅反映了人类的使用模式，而且还帮助机器人在人类空间内更有效地导航和操作。通过集成优化规则综合 (ORS) 进行决策，IRS 确保辅助对象的使用既具有战略性又具有上下文感知性，从而提高了机器人规划的可解释性和有效性。对各种家务任务进行的实验表明，IRS 通过减少任务执行所需的工作量并增强整体决策过程，显着优于传统方法。这种方法不仅符合人类直觉方法，而且提供了适应不同家庭环境的可扩展解决方案。代码可在 https://github.com/asyncs/IRS 获取。

LEROjD：激光雷达扩展仅雷达物体检测

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Patrick Palmer, Martin Krüger, Stefan Schütte, Richard Altendorfer, Ganesh Adam, Torsten Bertram

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05564v1

摘要： 准确的 3D 物体检测对于自动驾驶至关重要。虽然激光雷达传感器非常适合这项任务，但它们价格昂贵，并且在恶劣天气条件下存在局限性。 3+1D 成像雷达传感器提供了一种经济高效、强大的替代方案，但由于分辨率低和测量噪声高而面临挑战。现有的3+1D成像雷达数据集包括雷达和激光雷达数据，可实现跨模态模型改进。尽管在推理过程中不应使用激光雷达，但它可以帮助训练仅雷达物体检测器。我们探索了两种将知识从激光雷达转移到雷达域和仅雷达目标检测器的策略：1. 连续激光雷达点云稀疏的多阶段训练，2. 跨模式知识蒸馏。在多阶段过程中，研究了三种稀疏方法。我们的结果显示，通过多阶段训练，平均精度显着提高高达 4.2 个百分点；通过使用教师的权重初始化学生，知识蒸馏可显着提高高达 3.9 个百分点。这些方法的主要好处是它们适用于其他 3D 对象检测网络，而无需改变其架构，正如我们通过在两个不同的对象检测器上分析它所展示的那样。我们的代码位于 https://github.com/rst-tu-dortmund/lerojd

不确定动态定向问题的自适应概率规划

分类： 系统与控制, 机器人技术, 系统与控制

作者： Qiuchen Qian, Yanran Wang, David Boyle

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05545v1

摘要： 定向问题 (OP) 是一个经过充分研究的路线问题，已扩展到包含不确定性，反映随机或动态的旅行成本、奖品收集成本和奖品。然而，由于建模知识不足以及在线场景中最初不可知的参数，现有方法在现实应用中可能效率低下。因此，我们提出了不确定动态定向问题（UDOP），将旅行成本建模为具有未知且随时间变化的参数的分布。由于其目标和预算限制，UDOP 还将不确定的差旅成本与动态奖品和奖品收集成本联系起来。为了解决 UDOP，我们开发了一种概率路径自适应方法 - ADAPT，它基于初始“离线”解决方案迭代执行“执行”和“在线规划”。执行阶段更新系统状态并记录在线成本观察结果。在线规划器采用贝叶斯方法来自适应估计功耗并根据安全信念优化路径序列。我们在无线可充电传感器网络的实际无人机 (UAV) 充电调度问题中评估 ADAPT。无人机必须优化其路径，以有效地为传感器节点充电，同时在不确定的条件下管理其能量。 ADAPT 保持可比较的解决方案质量和计算时间，同时提供卓越的稳健性。广泛的模拟表明，ADAPT 在所有测试场景中实现了 100% 的任务成功率 (MSR)，优于类似的启发式方法和频率论方法，后者的失败率分别高达 70%（在具有挑战性的条件下）和平均 67% MSR。这项工作推动了不确定性OP领域的发展，为不确定和动态环境中的实际应用提供了可靠且高效的方法。

DexDiff：在不受限制的环境中实现对不可抓取物体的外在灵巧操作

分类： 机器人技术

作者： Chengzhong Ma, Houxue Yang, Hanbo Zhang, Zeyang Liu, Chao Zhao, Jian Tang, Xuguang Lan, Nanning Zheng

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05493v1

摘要： 抓取大而扁平的物体（例如一本书或一个平底锅）通常被认为是一项无法抓取的任务，由于无法达到的抓取姿势，这带来了巨大的挑战。之前的作品利用墙壁或桌子边缘等外在敏捷性来抓住此类物体。然而，它们仅限于针对具体任务的政策，缺乏任务规划来寻找预先掌握的条件。这使得难以适应各种环境和外在的灵活性限制。因此，我们提出了 DexDiff，一种强大的机器人操纵方法，用于具有外在灵活性的长期规划。具体来说，我们利用视觉语言模型（VLM）来感知环境状态并生成高级任务计划，然后使用目标条件动作扩散（GCAD）模型来预测低级动作的序列。该模型以高层规划指导下的累积奖励为目标条件，从离线数据中学习低层策略，从而改进对机器人动作的预测。实验结果表明，我们的方法不仅可以有效地执行难以理解的任务，而且可以推广到以前未见过的对象。它的模拟成功率比基准高出 47%，并有助于在现实场景中进行高效部署和操作。

DWA-3D：用于稳健、高效自主无人机导航的反应式规划器

分类： 机器人技术

作者： Jorge Bes, Juan Dendarieta, Luis Riazuelo, Luis Montano

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05421v1

摘要： 尽管无人机 (UAV) 对各个行业的影响越来越大，但当前大多数可用的解决方案都缺乏强大的自主导航系统来安全地处理障碍物的出现。这项工作提出了一种在由于杂乱的环境和狭窄的移动空间而需要安全和高机动性的场景中执行自主无人机规划和导航的方法。该系统将 RRT* 全局规划器与新提出的反应式规划器 DWA-3D 相结合，DWA-3D 是众所周知的 2D 机器人 DWA 方法的扩展。我们提供了一种理论经验方法来调整目标函数的参数进行优化，减轻了调整它们的经典困难。机载 LiDAR 提供 3D 点云，该点云被投影在 Octomap 上，并在其中做出规划和导航决策。没有事先的地图；该系统根据 Octomap 中包含的当前和过去的 LiDAR 信息在线构建和更新地图。进行了大量的实际实验来验证系统并获得所涉及参数的微调。这些实验使我们能够提供一组值，确保在所有测试场景中安全运行。只需对两个参数进行加权，就可以优先考虑水平路径对齐或垂直（高度）跟踪，从而分别增强垂直或横向回避。此外，即使在没有全局规划者或不考虑无人机尺寸的情况下，我们的 DWA-3D 提案也能够成功导航。最后，进行的实验表明，无论场景复杂程度如何，所提出的参数的计算时间不仅是有限的，而且保持稳定在 40 毫秒左右。

从单词到姿势：利用视觉语言模型增强新颖的物体姿势估计

分类： 计算机视觉和模式识别, 机器人技术

作者： Tessa Pulli, Stefan Thalhammer, Simon Schwaiger, Markus Vincze

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05413v1

摘要： 机器人越来越多地被设想在现实场景中进行交互，它们必须不断适应新的情况。为了检测和掌握新物体，零样本姿态估计器无需先验知识即可确定姿态。最近，视觉语言模型（VLM）通过建立语言输入和图像输入之间的理解，在机器人应用中显示出相当大的进步。在我们的工作中，我们利用 VLM 的零样本功能，并将这种能力转化为 6D 物体姿态估计。我们提出了一种使用语言嵌入进行快速零样本 6D 物体姿态估计的新颖框架。这个想法是基于语言嵌入的 NeRF 重建的相关性图导出对象的粗略位置，并使用点云配准方法计算姿态估计。此外，我们还分析了 LERF 对于开放集物体姿态估计的适用性。我们检查超参数，例如相关性图的激活阈值，并研究实例和类别级别的零样本功能。此外，我们计划在现实环境中进行机器人抓取实验。

利用期望模型的计算进行 3D 场景图的常识可供性估计

分类： 机器人技术

作者： Mario Alberto Valdes Saucedo, Nikolaos Stathoulopoulos, Akash Patel, Christoforos Kanellakis, George Nikolakopoulos

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05392v1

摘要： 本文研究了常识性对象可供性概念，以实现城市环境中实体机器人代理的接近人类的任务规划和任务优化。对象可供性的重点是推理如何在任务执行过程中有效地识别对象的固有效用，在这项工作中，这是通过分析 3D 场景图稀疏信息的上下文关系来实现的。所提出的框架开发了一个相关信息（CECI）模型来使用图卷积网络来学习概率分布，从而允许提取语义类的各个成员的常识可供性。整体框架在真实的室内环境中进行了实验验证，展示了该方法符合人类常识的能力。有关展示实验演示的文章视频，请参阅以下链接：https://youtu.be/BDCMVx2GiQE

GOPT：通过基于 Transformer 的深度强化学习进行泛化在线 3D Bin Packing

分类： 机器人技术

作者： Heng Xiong, Changrong Guo, Jian Peng, Kai Ding, Xuchong Qiu, Long Bai, Jianfeng Xu

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05344v1

摘要： 机器人物体包装在物流和自动化行业中具有广泛的实际应用，研究人员通常将其表述为在线 3D 装箱问题 (3D-BPP)。然而，现有的基于 DRL 的方法主要侧重于增强有限包装环境中的性能，而忽略了跨以不同箱尺寸为特征的多个环境的泛化能力。为此，我们提出了 GOPT，这是一种通过基于 Transformer 的深度强化学习 (DRL) 进行推广的在线 3D Bin Packing 方法。首先，我们设计一个放置生成器模块来生成有限子空间作为放置候选和容器的表示。其次，我们提出了一个 Packing Transformer，它融合了物品和 bin 的特征，以识别要包装的物品和 bin 内可用子空间之间的空间相关性。将这两个组件耦合起来使 GOPT 能够对不同维度的 bin 进行推理。我们进行了大量的实验，证明 GOPT 不仅在基线上取得了优异的性能，而且还表现出了出色的泛化能力。此外，机器人的部署展示了我们的方法在现实世界中的实际适用性。源代码将在 https://github.com/Xiong5Heng/GOPT 公开提供。

LiDAR 视觉系统的神经表面重建和渲染

分类： 机器人技术, 计算机视觉和模式识别

作者： Jianheng Liu, Chunran Zheng, Yunfei Wan, Bowen Wang, Yixi Cai, Fu Zhang

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05310v1

摘要： 本文提出了一个用于激光雷达视觉系统的统一表面重建和渲染框架，集成了神经辐射场（NeRF）和神经距离场（NDF），以从姿势图像和点云中恢复外观和结构信息。我们通过利用可见感知占用图将空间分类为空闲、占用、可见未知和背景区域来解决 NeRF 和 NDF 之间的结构可见差距。这种分类有利于恢复场景的完整外观和结构。我们使用空间变化尺度的 SDF 到密度变换来统一 NDF 和 NeRF 的训练，以实现结构和外观的细节级别。该方法利用学习到的 NDF 进行结构感知 NeRF 训练，通过自适应球体跟踪采样策略进行精确的结构渲染。作为回报，NeRF 进一步细化结构以恢复 NDF 中丢失或模糊的结构。大量的实验证明了所提出的方法在各种场景下的卓越质量和多功能性。为了造福社区，代码将在 \url{https://github.com/hku-mars/M2Mapping} 发布。

用于在轨服务的自适应视觉服务

分类： 机器人技术, 系统与控制, 系统与控制

作者： Farhad Aghili

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05295v1

摘要： 本文提出了一种用于机器人在轨服务（OOS）的自适应视觉伺服框架，专门为捕获翻滚卫星而设计。视觉引导机器人系统能够在视觉系统部分或全部故障的情况下选择最佳控制动作，特别是在短期内。自主系统考虑了物理和操作限制，执行视觉伺服任务以最小化成本函数。开发了分层控制架构，集成了用于图像配准的迭代最近点（ICP）算法的变体、受限噪声自适应卡尔曼滤波器、故障检测和恢复逻辑以及受限最优路径规划器。动态估计器提供运动预测所必需的未知状态和不确定参数的实时估计，同时通过一组不等式约束确保一致性。它还自适应地调整卡尔曼滤波器参数以响应意外的视觉误差。如果视觉系统出现故障，则会在故障检测逻辑的指导下激活恢复策略，该逻辑通过图像配准的度量拟合误差来监控视觉反馈。估计/预测的姿态和参数随后被输入到最佳路径规划器中，该规划器将机器人的末端执行器引导到目标的抓取点。此过程受到多种限制，包括加速度限制、平滑捕获以及目标的视线维持。实验结果表明，尽管视觉系统完全被遮挡，所提出的视觉伺服系统仍成功捕获了自由漂浮的物体。

通过行为克隆和近端策略优化来开发轨迹规划，用于路径跟踪和静态障碍物推动

分类： 机器人技术, 系统与控制, 系统与控制

作者： Mingyan Zhou, Biao Wang, Xiatao Sun

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05289v1

摘要： 强化学习（RL）和模仿学习（IL）的端到端方法在自动驾驶领域越来越受欢迎。然而，它们不像经典的机器人工作流程那样涉及明确的推理，也不涉及视野规划，领导策略隐含且短视。在本文中，我们介绍了我们的轨迹规划方法，该方法使用行为克隆（BC）进行路径跟踪，并使用 BC 引导的近端策略优化（PPO）进行静态障碍物微调。它输出横向偏移值来调整给定的参考轨迹，并对不同的控制器执行修改路径。我们的实验结果表明，该算法可以进行模仿专家表现的路径跟踪，并通过反复试验避免与固定障碍物发生碰撞。该方法为基于学习的方法在自动驾驶轨迹规划问题上进行了很好的尝试。

欠驱动系统的路径参数化 RRT

分类： 机器人技术

作者： Damian Abood, Ian R. Manchester

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05278v1

摘要： 我们提出了一种基于样本的运动规划算法，专门用于使用路径参数化的一类欠驱动系统。此类在路径参数化下呈现的结构使得能够沿着路径进行动态可行性的简单计算。利用这一点，在 RRT 运动规划算法中开发了一种专门的基于状态的转向机制，能够生成几何路径及其时间参数化，而不会引入过多的计算开销。我们发现，与现有方法相比，我们的算法在两个系统中计算可行轨迹的成功率更高，平均计算时间更短。

机器人自组织网络

分类： 机器人技术, 网络和互联网架构

作者： Marius Silaghi, Khulud Alawaji, Mohammed Alghamdi, Akram Alghanmi, Ameerah Alsulami

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05268v1

摘要： 实用机器人自组织网络 (RANET) 是一种支持物联网和电话设备中常见的 WiFi-Direct 模式的移动无线自组织网络 (WANET)，基于利用 WiFi-Direct 连接模式克服硬件限制的策略而提出。在一段时间内，社区热衷于通过无需专用接入点的 WiFi IEEE 802.11 独立基本服务集 (IBSS) 配置的 Adhoc 模式所创造的公平、稳健、高效和廉价通信的无限机会。该模式是无线 Adhoc 网络 (WANETS) 的主要推动者。不幸的是，这种通信模式没有进入物联网和手机中的标准网卡，可能是因为它需要高能耗。相反，此类设备实施专为星形拓扑设计的 WiFi-Direct。人们曾多次尝试克服限制并支持 WANET，但它们至少破坏了公平性和对称性，从而降低了适用性。在这里，我们展示了公平 RANET 的解决方案，并使用模拟评估各种策略的行为。

具有不断变化的能力的机器人的高级协作任务的在线重新合成

分类： 机器人技术

作者： Amy Fang, Tenny Yin, Hadas Kress-Gazit

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05251v1

摘要： 给定一个协作的高级任务以及一组异构机器人和满足该任务的行为，这项工作的重点是在运行时自动调整单个机器人的行为，以便当机器人遇到其自身的变化时，任务仍然得到满足。能力——失败或他们可以执行的额外操作。我们考虑以 LTL^\psi 编码的任务，并在机器人能力发生变化时最大限度地减少全局分组重新分配（从而导致本地重新合成）。我们还通过在用户可以指定的整体分组分配上添加额外类型的约束来提高 LTL^\psi 的表达能力，例如每个分配所需的最小机器人数量。我们在模拟仓库场景中演示了该框架。

CARDinality：利用振动实现运动和触觉的交互式卡形机器人

分类： 人机交互, 机器人技术, H.5.2

作者： Aditya Retnanto, Emilie Faracci, Anup Sathya, Yukai Hung, Ken Nakagaki

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05203v1

摘要： 本文介绍了一种交互式机器人的新颖方法，利用卡片的形状因素来创建配备振动功能的薄型机器人，用于运动和触觉反馈。该系统由具有设备端传感和无线控制功能的扁平机器人组成，具有轻便的便携性和可扩展性。本研究介绍了一个硬件原型。应用包括增强纸牌游戏、教育工具和辅助技术，展示了 CARDinality 在有形交互方面的多功能性。

人工智能驱动的机器人晶体探索器，用于快速多晶型识别

分类： 机器人技术

作者： Edward C Lee, Daniel Salley, Abhishek Sharma, Leroy Cronin

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05196v1

摘要： 结晶是一种重要现象，有助于使用晶体学方法进行纯化以及结构和体相材料表征。然而，不同的条件可能会产生大量不同的晶体结构多晶型物，并且这些多晶型物通常表现出不同的物理特性，从而允许材料根据特定目的进行定制。这意味着影响结晶的条件变化以及它们之间的相互作用可能导致高维性，这意味着彻底的探索是困难、耗时且昂贵的。在此，我们提出了一种机器人晶体搜索引擎，用于以自动化、高效的高通量方法探索结晶条件。该系统包括一个闭环计算机晶体视觉系统，该系统使用机器学习来识别晶体并在多路复用机器人平台中对其身份进行分类。通过探索众所周知的多晶型物的形成，我们能够展示如何使用机器人系统有效地搜索作为相对多晶型物数量的函数的实验空间，并以最少的实验预算和无需昂贵的费用来有效地创建高维相图。分析技术，例如晶体学。通过这种方式，我们确定了在一组实验条件下可能的多晶型物集合，以及这些条件下生长每种多晶型物的最佳值。

机器人系统远程控制高层建筑外墙涂装系统

分类： 机器人技术, 密码学和安全

作者： Diganta Das, Dipanjali Kundu, Anichur Rahman, Muaz Rahman, Sadia Sazzad

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05153v1

摘要： 高层建筑的外墙涂装是一项具有挑战性的任务。在我国以及世界其他国家，这项任务都是手工完成的，这对工人来说是有风险和生命危险的。研究人员和行业专家正在努力寻找一种用于高层建筑墙体外墙涂漆的自动机器人解决方案。在本文中，我们提出了解决这个问题的方法。我们设计并实现了一个自动粉刷建筑墙壁外部的原型。原型中引入了可以在四个不同方向（上下和左右）移动的喷射机构。所有的运动都是通过使用微控制器操作的伺服电机来实现的。此外，这些组件创造了未来将拟议的远程控制系统升级为机器人系统的范围。在所提出的系统中，所有操作都是通过智能手机界面远程控制的。蓝牙技术用于远程通信。预计所建议的系统将提高生产力并提高工作场所安全性。

基于自适应控制的机器人机械臂跟踪控制摩擦估计

分类： 机器人技术

作者： Junning Huang, Davide Tateo, Puze Liu, Jan Peters

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05054v1

摘要： 自适应控制通常用于轨迹跟踪任务中的摩擦补偿，因为它不需要扭矩传感器。然而，它也有一些缺点：首先，最常见的确定性等价自适应控制设计是基于摩擦模型的线性化参数化，因此通常忽略了非线性效应，包括粘滞和Stribeck效应。其次，基于自适应控制的估计可能由于非零稳态误差而产生偏差。第三，忽略未知的模型不匹配可能会导致估计不稳健。本文提出了一种新颖的线性参数化摩擦模型，捕捉非线性静摩擦现象。随后，提出了一种基于自适应控制的摩擦估计器，以减少基于反步估计期间的偏差。最后，我们提出了一种算法来生成鲁棒估计的激励。使用 KUKA iiwa 14，我们进行了轨迹跟踪实验来评估估计的摩擦模型，包括随机傅里叶和绘制轨迹，显示了我们的方法在不同控制方案中的有效性。

人口统计差异对工业机器人运动感知的影响

分类： 机器人技术, 人机交互

作者： Damian Hostettler

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05049v1

摘要： 几十年来，人们一直在研究个体差异对机器人交互的感知和评估的影响。一些人类人口统计特征已被证明会影响个人如何看待与机器人的互动。然而，迄今为止，尚不清楚个体差异是否、哪些以及在多大程度上影响我们对机器人的感知，更不清楚人为因素及其对机器人运动感知的影响。此外，大多数关于个体差异相关性的结果都调查了人机与类人机器人或社交机器人的交互，而与工业机器人的交互则代表性不足。我们对机器人运动的关系和人口变化的影响进行了文献综述。我们的审查揭示了由于缺乏标准化的机器人操作、使用的各种因变量以及包括不同机器人类型在内的不同实验设置，现有研究结果的可比性有限。此外，大多数研究的样本量不足，无法得出可推广的结果。为了克服这些缺点，我们报告了一项由 930 名参与者参与的基于网络的实验的结果，该实验研究了人口特征对铰接式机器人手臂运动行为评估的影响。我们的研究结果表明，大多数参与者更喜欢从侧面接近、动作范围大、旋转次数常规、动作平稳、动作速度不快也不慢。关于个体差异，大多数偏好对人口统计变化具有很强的影响，并且只有性别和年龄被发现会导致慢速和快速运动之间的轻微偏好差异。

在安全保证的情况下限制优先轨迹规划中的计算水平

分类： 机器人技术, 多代理系统, 系统与控制, 系统与控制

作者： Jianye Xu, Patrick Scheffe, Bassam Alrifaee

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05029v1

摘要： 在车辆优先规划中，车辆并行或顺序规划轨迹。无论车辆数量如何，并行优先规划都能提供大致一致的计算时间，但很难保证无碰撞轨迹。相反，顺序优先规划可以保证无碰撞，但随着顺序计算车辆数量（我们称之为计算级别）的增长，会导致计算时间增加。这个数字是由车辆耦合和优先级排序产生的有向耦合图确定的。在这项工作中，我们通过可达性分析保证并行规划中的安全轨迹。尽管这些轨迹是无碰撞的，但它们往往是保守的。我们通过按顺序规划一部分车辆来解决这个问题。我们将选择这个子集的问题表述为图划分问题，使我们能够独立设置计算级别。我们的模拟表明，与顺序优先级规划相比，计算级别减少了约 64%，同时保持了解决方案的质量。

使用与购买工业机器人：为工业 HRI 添加组织视角

分类： 机器人技术, 人机交互

作者： Damian Hostettler

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05016v1

摘要： 目的：工业机器人使制造企业能够提高生产力并保持竞争力。机器人要使用，一方面要被操作者接受，另一方面要被决策者购买。此类组织流程中涉及的角色具有非常不同的观点。因此，供应商和机器人客户必须了解这些动机，以便机器人能够成功集成到制造车间。方法：我们介绍了对两家瑞士制造业中小企业的经营者和决策者进行的定性研究的结果。使用阶梯访谈和手段-目的分析，我们比较操作员和决策者的相关元素以及这些元素如何在不同的抽象级别上相互链接。这些发现代表了行业中机器人的获取、集成和接受的驱动因素和障碍。研究结果：我们介绍了操作员和决策者的不同关注点，以及机器人需求者和供应商如何利用它们来实现机器人的接受和部署。首先，我们列出了构成机器人接受和/或拒绝的相关属性、后果和价值观。其次，我们提供这些元素的量化相关性，以及它们在操作者和决策者之间的差异。第三，我们演示了元素如何在不同的抽象级别上相互链接，以及这些链接在两组之间有何不同。

人形机器人的三模态上下文手势生成

分类： 机器人技术

作者： Shiyi Tang, Christian Dondrup

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05010v1

摘要： 自然的协同语音手势是改善人机交互 (HRI) 体验的重要组成部分。然而，当前的手势生成方法存在许多局限性，例如不自然、与语音和内容不相符或缺乏多样化的演讲者风格。因此，这项工作旨在重现 Yoon 等人基于三模态输入在模拟中生成自然手势的工作，并将其应用于机器人。在评估过程中，采用“运动方差”和“Frechet手势距离（FGD）”来客观评估性能。然后，招募人类参与者来主观评估这些手势。结果表明，该论文中的动作已成功转移到机器人上，并且手势风格多样且与语音相关。此外，不同手势之间存在显着的喜爱度和风格差异。

HelmetPoser：头盔式 IMU 数据集，用于在不同条件下对人体头部运动进行数据驱动估计

分类： 机器人技术

作者： Jianping Li, Qiutong Leng, Jinxing Liu, Xinhang Xu, Tongxin Jin, Muqing Cao, Thien-Minh Nguyen, Shenghai Yuan, Kun Cao, Lihua Xie

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05006v1

摘要： 头盔式可穿戴定位系统对于增强工业、建筑和紧急救援环境中的安全性和促进协调至关重要。这些系统，包括激光雷达惯性里程计（LIO）和视觉惯性里程计（VIO），由于灰尘、烟雾和有限的视觉特征等不利环境条件，经常面临定位挑战。为了解决这些限制，我们提出了一种具有地面实况的新型头戴式惯性测量单元（IMU）数据集，旨在推进数据驱动的 IMU 位姿估计。我们的数据集使用头盔式系统捕获人体头部运动模式，其中包含来自十名参与者执行各种活动的数据。我们探索神经网络的应用，特别是长短期记忆 (LSTM) 和 Transformer 网络，以纠正 IMU 偏差并提高定位精度。此外，我们还评估了这些方法在不同 IMU 数据窗口尺寸、运动模式和传感器类型上的性能。我们发布了一个公开的数据集，展示了用于基于头盔的定位的先进神经网络方法的可行性，并提供了评估指标，为该领域的未来研究建立基线。数据和代码可以在\url{https://lqiutong.github.io/HelmetPoser.github.io/}找到。

通过双向自然语言对话增强具有社交意识的机器人导航

分类： 机器人技术

作者： Congcong Wen, Yifan Liu, Geeta Chandra Raju Bethala, Zheng Peng, Hui Lin, Yu-Shen Liu, Yi Fang

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.04965v1

摘要： 机器人导航是一个重要的研究领域，在各个领域都有应用。然而，传统方法往往优先考虑效率和避障，而忽略了对共享空间中人类行为或意图的细致入微的理解。随着服务机器人的兴起，人们越来越重视赋予机器人在复杂的现实环境中导航和交互的能力。社会意识导航最近已成为一个关键研究领域。然而，现有的工作要么预测行人的运动，要么只是向行人发出警报信号，无法促进人与机器人之间的真正互动。在本文中，我们介绍了具有大型语言模型的混合软演员评论家（HSAC-LLM），这是一种专为机器人社交感知导航而设计的创新模型。该模型将深度强化学习与大型语言模型无缝集成，使其能够预测连续和离散的导航动作。值得注意的是，HSAC-LLM 促进了基于自然语言与行人模型的双向交互。当检测到与行人的潜在碰撞时，机器人可以发起或响应与行人的通信，获取并执行后续的避让策略。 2D 仿真、Gazebo 环境和现实环境中的实验结果表明，与最先进的 DRL 算法相比，HSAC-LLM 不仅能够有效地实现与人类的交互，而且在导航和避障方面表现出卓越的性能。我们相信，这种创新范式为动态环境中有效且具有社会意识的人机交互开辟了新途径。视频可在 https://hsacllm.github.io/ 获取。

用于在各种退化场景中进行鲁棒定位基准测试的异构 LiDAR 数据集

分类： 机器人技术

作者： Zhiqiang Chen, Yuhua Qi, Dapeng Feng, Xuebin Zhuang, Hongbo Chen, Xiangcheng Hu, Jin Wu, Kelin Peng, Peng Lu

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.04961v1

摘要： 使用 3D LiDAR 估计姿态和生成地图的能力显着增强了机器人系统的自主性。然而，现有的开源数据集缺乏对几何退化环境的表示，限制了鲁棒 LiDAR SLAM 算法的开发和基准测试。为了解决这一差距，我们引入了 GEODE，这是一个综合性的多激光雷达、多场景数据集，专门设计用于包含现实世界的几何退化环境。 GEODE 包含 64 条轨迹，跨越 64 公里，跨越七个具有不同简并程度的不同环境。这些数据经过精心收集，通过结合各种激光雷达传感器、立体相机、IMU 和不同的运动条件来促进多功能算法的开发。我们使用 GEODE 数据集评估最先进的 SLAM 方法，以突出 LiDAR SLAM 技术当前的局限性。这个广泛的数据集将在 https://geode.github.io 上公开提供，支持基于 LiDAR 的 SLAM 的进一步发展。

血管中微型机器人的化学功率变异性

分类： 机器人技术

作者： Tad Hogg

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04916v1

摘要： 使用氧气和葡萄糖的燃料电池可以为在血管中运行的微型机器人提供动力。这种机器人群可以显着降低氧气浓度，具体取决于肺部连续传输之间的时间、血管中的血细胞比容变化和组织耗氧量。这些因素因体内循环路径而异。本文评估了这些变化如何影响由于机器人消耗而导致的最低氧气浓度以及它发生的位置：主要是在长路径末端的中等大小静脉中，然后与较短路径的静脉合并。这表明，数百亿个机器人可以在总氧略有减少的情况下，在全身获得数百皮瓦的能量。然而，一万亿个机器人会严重消耗身体某些部位的氧气。通过储存氧气或限制其在长循环路径中的消耗，机器人可以主动减轻这种消耗。行为的变化通过三种情况进行说明：涉及通过两个毛细血管网络的门静脉系统、其狭缝显着减慢部分血流的脾脏以及冠状循环中的大量组织消耗。

学习用腿式机械手打开和穿过门

分类： 机器人技术, 人工智能, 机器学习

作者： Mike Zhang, Yuntao Ma, Takahiro Miki, Marco Hutter

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04882v1

摘要： 使用门是机器人技术中的一个长期挑战，并且对于让机器人更好地进入以人为中心的空间具有重大的实际意义。这项任务具有挑战性，因为需要在线适应不同的门属性，并需要精确控制操纵门板和穿过狭窄的门口。为了解决这个问题，我们提出了一种基于学习的控制器，用于腿式机械手打开和穿过门。控制器使用模拟中的师生方法进行训练，以学习稳健的任务行为并估计交互过程中的关键门属性。与以前的工作不同，我们的方法是一个单一的控制策略，可以通过学习的行为来处理推拉门，这些行为在部署过程中无需先验知识即可推断出打开方向。该策略部署在 ANYmal 带手臂的腿式机器人上，在实验环境中进行的重复试验中取得了 95.0% 的成功率。其他实验验证了该策略对各种门和干扰的有效性和鲁棒性。该方法和实验的视频概述可以在 youtu.be/tQDZXN_k5NU 上找到。

使用预先探索的对象导航语义图进行上下文感知重新规划

分类： 机器人技术

作者： Hung-Ting Su, Ching-Yuan Chen, Po-Chen Ko, Jia-Fong Yeh, Min Sun, Winston H. Hsu

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04837v1

摘要： 预先探索的语义图是通过使用视觉语言模型 (VLM) 进行预先探索而构建的，已被证明是免训练机器人应用程序的有效基础元素。然而，现有方法假设地图的准确性，并且没有提供有效的机制来修改基于不正确地图的决策。为了解决这个问题，我们引入了上下文感知重新规划（CARe），它通过置信度得分和多视图一致性来估计地图不确定性，使代理能够修改由于不准确的地图而导致的错误决策，而无需额外的标签。我们通过将我们提出的方法与两个现代地图主干（VLMaps 和 OpenMask3D）集成来证明其有效性，并观察到对象导航任务的显着性能改进。更多详细信息可以在项目页面上找到：https://carmaps.github.io/supplements/。

使用 MATLAB 计算扭矩控制 3 DOF RRR 机械臂的仿真和优化

分类： 机器人技术

作者： Md Saad, Sajjad Hussain

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04785v1

摘要： 机器人机械手凭借其高速、准确、安全、重复性等优势，已成为生产行业的重要工具。本文模拟并优化了三自由度铰接式机器人操纵器（RRR 配置）的设计。利用正向和逆向动态模型。使用末端执行器所需的初始位置来规划轨迹。扭矩计算模型用于计算物理末端执行器的轨迹、位置和速度。 MATLAB Simulink 平台用于 RRR 操纵器的所有仿真。在 MATLAB 的帮助下，我们主要关注机器人的操纵器控制，使用计算出的扭矩控制策略来实现所需的位置。

利用 LLM、图形和对象层次结构在大规模环境中进行任务规划

分类： 机器人技术, 人工智能

作者： Rodrigo Pérez-Dattari, Zhaoting Li, Robert Babuška, Jens Kober, Cosimo Della Santina

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04775v1

摘要： 在解决大规模环境中的任务级问题时，规划方法面临着计算困难的问题。这项工作探索利用大语言模型中编码的常识知识来增强规划技术来处理这些复杂的场景。我们通过有效地使用 LLM 从规划问题的状态空间中删除不相关的组件来实现这一点，从而大大简化其复杂性。我们通过家庭模拟环境中的大量实验以及使用 7-DoF 操纵器进行的实际验证来展示该系统的功效（视频 https://youtu.be/6ro2UOtOQS4）。

我应该留下还是应该走：基于无人机的传感应用的学习方法

分类： 机器人技术

作者： Giorgos Polychronis, Manos Koutsoubelias, Spyros Lalis

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04764v1

摘要： 多旋翼无人机正在成为多个应用领域的关键平台，可实现精确的现场传感和/或驱动。我们关注无人机必须处理传感器数据的情况，以便根据结果决定是否需要执行一些额外的操作，例如更准确的传感或某种形式的驱动。一方面，如果结果表明不需要采取进一步的操作，则等待计算完成可能会浪费时间。另一方面，如果无人机在计算结束之前开始向下一个兴趣点移动，如果需要采取某些操作，它可能需要返回到前一个点。在本文中，我们提出了一种学习方法，使无人机能够根据从之前的任务中收集的经验，就是否等待计算结果做出明智的决定。通过广泛的评估，我们表明，在适当配置的情况下，所提出的方法在各种不同的场景中优于几种静态策略，高达 25.8%，在这些场景中，在给定兴趣点需要采取某些操作的概率保持稳定，如下所示：以及该概率随时间变化的场景。

通过注意力对驾驶员的风险感知进行建模以改善驾驶辅助

分类： 机器人技术, 人机交互

作者： Abhijat Biswas, John Gideon, Kimimasa Tamura, Guy Rosman

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04738v1

摘要： 高级驾驶员辅助系统 (ADAS) 在安全关键场景下向驾驶员发出警报，但由于缺乏考虑驾驶员的知识或场景意识，通常会提供多余的警报。由于缺乏将车内驾驶员状态和世界状态记录在一起的关键场景数据，以数据驱动的方式对这些方面进行建模具有挑战性。我们探讨了前向碰撞警告 (FCW) 系统中驾驶员建模的优势。通过使用道路 FCW 部署的真实视频数据集，我们收集观察者对已部署警报的主观有效性评级。我们还注释参与者对物体的注视，并半自动提取本车和其他车辆的 3D 轨迹。我们通过两步过程生成场景和驾驶员感知的风险估计：首先，我们将给定场景中车辆的运动建模为联合轨迹预测问题。然后，我们通过反事实地修改预测模型的输入以代表驾驶员对场景中车辆的实际观察来推断驾驶员对场景的风险感知。这些行为的差异使我们能够估计驾驶员的行为，从而解释他们的实际（疏忽）观察及其对整体场景风险的下游影响。我们比较了学习的场景表示以及更传统的“最坏情况”减速模型，以实现未来的轨迹预测。我们的实验表明，使用这种风险公式来生成 FCW 警报可能会提高 FCW 的误报率并改善 FCW 时机。

IR2：稀疏间歇连接下机器人探索队的隐式交会

分类： 机器人技术

作者： Derek Ming Siang Tan, Yixiao Ma, Jingsong Liang, Yi Cheng Chng, Yuhong Cao, Guillaume Sartoretti

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04730v1

摘要： 信息共享对于时间敏感且现实的多机器人探索至关重要，特别是对于连接可能稀疏且间歇性的大规模环境中的小型机器人团队而言。现有方法常常通过假设不切实际的全球连接来忽略此类通信限制。其他工作考虑了通信限制（通过在信息交换期间保持近距离或视线），但通常效率低下。例如，预先计划的交会方法通常会因交会时机不佳而导致不必要的绕道，而基于追踪的方法由于其贪婪的本质而常常导致短视的决策。我们提出了 IR2，一种用于多机器人探索的信息共享的深度强化学习方法。利用通过强化和课程学习训练的基于注意力的神经网络，IR2 允许机器人有效地推理单独探索的断开连接和信息共享的重新连接之间的长期权衡。此外，我们提出了一种分层图公式来维护稀疏但信息丰富的图，使我们的方法能够扩展到大规模环境。我们在三个大型 Gazebo 环境中展示了模拟结果，表明与最先进的基线相比，我们的方法使探索路径缩短了 6.6-34.1%，并显着提高了机器人之间的映射区域一致性。我们的模拟训练和测试代码可在 https://github.com/marmotlab/IR2 获取。

使用 GNN 驱动的蒙特卡罗树搜索解决具有机会约束的随机定向问题

分类： 机器人技术, 人工智能

作者： Marcos Abel Zuzuárregui, Stefano Carpin

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04653v1

摘要： 利用图神经网络 (GNN) 和消息传递的强大功能，我们提出了一种蒙特卡罗树搜索 (MCTS) 方法来解决具有机会约束的随机定向问题。在遵守分配的旅行预算的同时，该算法力求在产生随机旅行成本的同时最大化收集的奖励。在这种情况下，超出指定预算的可接受概率被表示为机会约束。我们的 MCTS 解决方案是一种在线随时算法，交替规划和执行，通过持续监控剩余旅行预算来确定要访问的下一个顶点。我们工作的新颖之处在于 MCTS 框架中的推出阶段是使用消息传递 GNN 来实现的，预测每个可用操作的效用和失败概率。这可以极大地加快搜索过程。我们的实验评估表明，通过所提出的方法和架构，我们能够有效地解决复杂的问题实例，同时在收集的奖励方面产生适度的损失。此外，我们还演示了该方法如何能够泛化到训练数据集的特征之外。该论文的网站、开源代码和补充文档可以在 ucmercedrobotics.github.io/gnn-sop 上找到。

人形机器人的高速、抗冲击远程操作

分类： 机器人技术

作者： Sylvain Bertrand, Luigi Penco, Dexton Anderson, Duncan Calvert, Valentine Roy, Stephen McCrory, Khizar Mohammed, Sebastian Sanchez, Will Griffith, Steve Morfey, Alexis Maslyczyk, Achintya Mohan, Cody Castello, Bingyin Ma, Kartik Suryavanshi, Patrick Dills, Jerry Pratt, Victor Ragusila, Brandon Shrewsbury, Robert Griffin

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04639v1

摘要： 人形机器人的远程操作长期以来一直是一个具有挑战性的领域，需要硬件和软件的进步才能实现无缝和直观的控制。本文提出了一种基于以下几个要素的集成解决方案：免校准运动捕捉和重定向、低延迟快速全身运动学流工具箱和高带宽摆线执行器。我们的运动重定向方法以其简单性而著称，只需要 7 个 IMU 即可为机器人生成全身参考。运动学流工具箱可确保对机器人运动进行实时、响应灵敏的控制，从而显着减少延迟并提高运营效率。此外，使用摆线执行器可以承受高速和环境影响。这些方法共同构建了一个提供前所未有性能的远程操作框架。人形机器人Nadia的实验结果证明了集成系统的有效性。

结构不变距离视觉惯性里程计

分类： 机器人技术, 计算机视觉和模式识别

作者： Ivan Alberico, Jeff Delaune, Giovanni Cioffi, Davide Scaramuzza

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04633v1

摘要： 火星科学直升机（MSH）任务旨在在火星上部署下一代无人直升机，目标是高度不规则地形的着陆点，例如水手谷（Valles Marineris），这是太阳系中最大的峡谷，海拔差异高达8000米。与之前的火星 2020 任务不同，火星 2020 任务依赖于假设平面地形的状态估计系统，而由于着陆点地形复杂，MSH 需要一种新颖的方法。这项工作介绍了一种新颖的距离-视觉-惯性里程计系统，专为 MSH 任务的独特挑战而定制。我们的系统通过将一致的距离信息与视觉和惯性测量融合在一起，扩展了最先进的 xVIO 框架，在没有视觉惯性激励（单摄像头和等速下降）的情况下防止公制刻度漂移，并能够在任何位置着陆地形结构，不需要任何平面地形假设。通过使用在火星轨道上收集的实际地形结构和纹理进行基于图像的模拟的广泛测试，我们证明了我们的距离 VIO 方法估计的地形相对速度满足严格的任务要求，并且优于现有方法。

用于 3D 物体检测的点金字塔多尺度特征融合

分类： 计算机视觉和模式识别, 机器人技术, 系统与控制, 系统与控制

作者： Weihao Lu, Dezong Zhao, Cristiano Premebida, Li Zhang, Wenjing Zhao, Daxin Tian

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04601v1

摘要： 有效的点云处理对于基于激光雷达的自动驾驶系统至关重要。智能车辆的目标检测需要具有理解多个尺度特征的能力，其中道路使用者可能会以不同的尺寸出现。最近的方法侧重于特征聚合算子的设计，它从编码器主干收集不同尺度的特征并将其分配给感兴趣的点。虽然在聚合模块上做出了努力，但如何融合这些多尺度特征的重要性却被忽视了。这导致跨尺度的特征通信不足。为了解决这个问题，本文提出了点金字塔 RCNN (POP-RCNN)，这是一种基于特征金字塔的点云 3D 对象检测框架。 POP-RCNN 由点金字塔特征增强 (PPFE) 模块组成，用于建立跨空间尺度和语义深度的连接以进行信息交换。 PPFE模块有效地融合了多尺度特征以获得丰富的信息，而不会增加特征聚合的复杂性。为了弥补点密度不一致的影响，部署了点密度置信模块。这种设计集成支持使用轻量级特征聚合器，并强调浅层和深层语义，实现 3D 对象检测的检测框架。该方法具有很强的适应性，可以应用于各种现有框架以增加特征丰富度，特别是对于长距离检测。通过在基于体素和基于点体素的基线中采用 PPFE，KITTI 和 Waymo 开放数据集上的实验结果表明，即使计算空间有限，该方法也能实现出色的性能。

开发用于可穿戴振动触觉触觉安全带快速原型设计的模块化工具包

分类： 人机交互, 机器人技术

作者： Sandeep Kollannur, Katherine, Robertson, Heather Culbertson

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04579v1

摘要： 本文提出了一个用于快速线束原型设计的工具包。这些可穿戴结构使用 3D 打印接头、激光切割或乙烯基切割片和磁性扣等模块化元件将振动触觉执行器连接到身体上。这有利于轻松定制和组装。该工具包的主要目标是简化触觉可穿戴设备的设计，使该领域的研究变得更容易、更平易近人。

ActionFlow：具有空间对称流匹配的等变、准确、高效的策略

分类： 机器人技术, 人工智能

作者： Niklas Funk, Julen Urain, Joao Carvalho, Vignesh Prasad, Georgia Chalvatzaki, Jan Peters

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04576v1

摘要： 空间理解是大多数机器人任务的一个关键方面，特别是当泛化很重要时。尽管深度生成模型在复杂的操作任务中取得了令人印象深刻的结果，但缺乏对观察和动作之间复杂的空间关系进行编码的表示通常会限制空间泛化，从而需要大量的演示。为了解决这个问题，我们引入了一个新的策略类，ActionFlow。 ActionFlow 集成了空间对称归纳偏差，同时生成富有表现力的动作序列。在表示层面上，ActionFlow 引入了 SE(3) Invariant Transformer 架构，该架构能够根据观察和动作之间的相对 SE(3) 位姿进行知情空间推理。对于动作生成，ActionFlow 利用 Flow Matching，这是一种最先进的深度生成模型，以通过快速推理生成高质量样本而闻名，这是反馈控制的基本属性。结合起来，ActionFlow 策略表现出强烈的空间和局部性偏差以及 SE(3) 等变动作生成。我们的实验证明了 ActionFlow 及其两个主要组件在几个模拟和现实世界机器人操作任务上的有效性，并证实我们可以通过空间对称流匹配获得等变、准确和高效的策略。项目网站：https://flowbasedpolicies.github.io/

受 Kubelka Munk 模型启发，利用人工神经网络解决喷漆机器人轨迹优化中的油漆颜色效果预测问题

分类： 机器人技术

作者： Hexiang Wang, Zhiyuan Bi, Zhen Cheng, Xinru Li, Jiake Zhu, Liyuan Jiang, Hao Li, Shizhou Lu

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04558v1

摘要： 目前，以喷漆质量为目标的喷漆机器人轨迹规划技术主要应用于单色喷涂。传统的基于模拟厚度优化喷枪轨迹的方法只能定性地反映颜色分布，无法在像素级模拟喷漆的颜色效果。因此，无法精确控制颜色覆盖的区域以及该区域边缘的渐变，也难以应对多种颜色油漆组合喷涂的情况。针对上述问题，本文受到Kubelka-Munk模型的启发，结合3D机器视觉方法和人工神经网络，提出了一种喷漆色彩效果预测方法。该方法能够从喷漆后工件表面颜色的维度以像素级精度预测喷枪轨迹的执行效果。在此基础上，可以用该方法代替传统的厚度模拟方法建立喷枪轨迹优化问题的目标函数，从而解决多色涂料组合喷涂的喷枪轨迹优化难题。本文首先通过对Kubelka-Munk漆膜显色模型的分析，确定了喷漆色彩效果预测问题的数学模型，同时借助以下公式建立了喷漆色彩效果数据集：深度相机和点云处理算法。之后，借助门控和残差结构改进多层感知器模型，并将其用于颜色预测任务。为了验证...

通过深度碰撞概率场在不确定性下安全高效的路径规划

分类： 机器人技术, 人工智能

作者： Felix Herrmann, Sebastian Zach, Jacopo Banfi, Jan Peters, Georgia Chalvatzaki, Davide Tateo

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04306v1

摘要： 估计机器人与环境障碍物或其他移动主体之间的碰撞概率对于确保路径规划期间的安全至关重要。这是许多应用场景中现代规划算法的重要组成部分，例如自动驾驶，其中噪声传感器感知障碍物。虽然存在许多方法，但它们要么提供过于保守的碰撞概率估计，要么由于其基于采样的性质而需要大量计算。为了解决这些问题，我们引入了深度碰撞概率场，这是一种基于神经的方法，用于计算具有任意单峰不确定性分布的任意物体的碰撞概率。我们的方法通过在训练步骤中采样来降低碰撞概率的计算密集型估计，从而允许在规划期间快速神经网络推断约束。在大量实验中，我们表明深度碰撞概率场可以为规划产生相当准确的碰撞概率（高达 10^{-3}），并且我们的方法可以轻松插入标准路径规划方法中，以在二维上规划安全路径包含不确定的静态和动态障碍物的地图。其他材料、代码和视频可在 https://sites.google.com/view/ral-dcpf 上获取。

SPACE：基于 Python 的模拟器，用于评估分散式多机器人任务分配算法

分类： 机器人技术, 人工智能, 多代理系统

作者： Inmo Jang

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04230v1

摘要： 群体机器人技术探索多个机器人的协调以实现集体目标，其中集体决策是核心焦点。这个过程涉及分散的机器人自主地做出本地决策并进行沟通，这会影响整体的紧急行为。在现实场景中使用数百个或更多机器人测试这种去中心化算法通常是不切实际的，这凸显了对有效模拟工具的需求。我们提出了 SPACE（群体规划和控制评估），这是一种基于 Python 的模拟器，旨在支持分散式多机器人任务分配（MRTA）算法的研究、评估和比较。 SPACE 允许用户将决策算法作为 Python 插件实现，通过直观的 GUI 轻松构建代理行为树，并利用对代理间通信和本地任务感知的内置支持，从而简化了核心算法开发。为了展示其实用性，我们在模拟器中实现和评估 CBBA 和 GRAPE，比较它们在不同指标上的性能，特别是在动态引入任务的场景中。该评估显示了 SPACE 在对 MRTA 算法进行严格和标准化比较方面的有用性，有助于支持该领域的未来研究。

引入用于单目深度估计的类感知指标：汽车视角

分类： 计算机视觉和模式识别, 机器人技术

作者： Tim Bader, Leon Eisemann, Adrian Pogorzelski, Namrata Jangid, Attila-Balazs Kis

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04086v1

摘要： 公制单目深度估计模型的准确性不断提高，引起了汽车领域日益增长的兴趣。当前的模型评估无法更深入地了解模型的性能，也无法深入了解与安全关键或看不见的类别相关的性能。在本文中，我们提出了一种评估深度估计模型的新方法。我们提出的度量利用三个组件：类组件、边缘和角图像特征组件以及全局一致性保持组件。类别进一步根据场景中的距离和汽车应用的重要性进行加权。在评估中，我们通过与经典指标的比较、分类分析和关键情况的检索来展示我们的指标的优点。结果表明，我们的指标可以更深入地了解模型结果，同时满足安全关键要求。我们在以下存储库中发布了代码和权重：\href{https://github.com/leisemann/ca_mmde}

兼容 MRI 的塑料超声波电机的设计和表征

分类： 机器人技术

作者： Zhanyue Zhao, Charles Bales, Gregory Fischer

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04006v1

摘要： 精确的外科手术可能受益于使用磁共振成像 (MRI) 的术中图像引导。然而，MRI 的强磁场、快速切换梯度和有限的空间需要 MR 引导的机器人系统来协助外科医生。通过利用逆压电效应，压电致动器可用于 MRI 环境中的不同应用目的。压电超声电机 (USM) 是一种与 MRI 兼容的执行器，可以驱动这些机器人，且响应时间快、结构紧凑且配置简单。尽管压电电机主要由非铁磁材料制成，但 MRI 梯度场产生的涡流可能会导致磁场扭曲，从而导致图像伪影。由于 MRI 磁场与涡流产生的磁场之间的相互作用而产生的电机振动会导致图像伪影，从而进一步降低图像质量。在这项工作中，开发了一种具有更高程度MRI兼容性的塑料压电超声（USM）电机，并进行了初步优化。使用多个参数，即齿数、缺口尺寸、边缘斜角或直角以及表面光洁度水平参数与预压力进行实验，结果表明使用 48 个齿、0.39mm 的薄齿缺口、斜边和表面使用粒度约为 1000 的砂纸进行精加工，在转速和扭矩方面均表现出更好的输出。在此组合下，预压较低时最高转速可达436.6665rpm，预压约为500g时最高扭矩可达0.0348Nm。

基于匹配滤波的 LiDAR 城市和自然环境地点识别

分类： 机器人技术

作者： Therese Joseph, Tobias Fischer, Michael Milford

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.03998v1

摘要： 地点识别是自主导航中的一项重要任务，涉及从初始遍历中重新识别之前访问过的位置。与视觉地点识别 (VPR) 不同，LiDAR 地点识别 (LPR) 能够容忍光照、季节和纹理的变化，从而在结构化城市环境的基准数据集上实现高性能。然而，人们越来越需要能够在不同环境中以高性能和最少培训的方式运行的方法。在本文中，我们提出了一种手工匹配策略，可以对城市和非结构化自然环境执行旋转平移不变位置识别和相对姿态估计。我们的方法构建了鸟瞰图 (BEV) 全局描述符，并采用使用匹配过滤的两阶段搜索——一种用于检测噪声中已知信号的信号处理技术。对 NCLT、Oxford Radar 和 WildPlaces 数据集的广泛测试一致证明了在地点识别和相对姿势估计指标方面最先进的 (SoTA) 性能，召回率比之前的 SoTA 高出 15%。

通过有效的子目标指导从非专家观察中学习实现目标的政策

分类： 机器学习, 机器人技术

作者： RenMing Huang, Shaochong Liu, Yunqiang Pei, Peng Wang, Guoqing Wang, Yang Yang, Hengtao Shen

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.03996v1

摘要： 在这项工作中，我们解决了从非专家、不采取行动的观察数据中学习长期目标的政策这一具有挑战性的问题。与完全标记的专家数据不同，我们的数据更易于访问，并且避免了昂贵的操作标记过程。此外，与通常涉及漫无目的探索的在线学习相比，我们的数据为更有效的探索提供了有用的指导。为了实现我们的目标，我们提出了一种新颖的子目标指导学习策略。这一策略背后的动机是，长期目标为有效探索和准确的状态转换提供了有限的指导。我们制定基于扩散策略的高层政策，以生成合理的子目标作为路径点，更喜欢更容易实现最终目标的状态。此外，我们学习状态目标价值函数以鼓励有效地实现子目标。这两个组件自然地集成到非策略行为者批评家框架中，通过信息探索实现有效的目标实现。我们在复杂的机器人导航和操作任务上评估了我们的方法，证明了比现有方法具有显着的性能优势。我们的消融研究进一步表明，我们的方法对于具有各种损坏的观测数据具有鲁棒性。

开发用于术前手术规划的先进有限元模拟技术

分类： 医学物理, 机器人技术

作者： Zhanyue Zhao, Yiwei Jiang, Charles Bales, Yang Wang, Gregory Fischer

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.03990v1

摘要： 体内针基超声治疗 (NBTU) 为恶性脑肿瘤（包括原发性癌症和转移性癌症）的热消融提供了一种微创方法。 NBTU 利用高频交变电场激发压电换能器，产生声波，导致局部加热和肿瘤细胞消融，它通过直接向目标肿瘤提供较低的声功率剂量，同时保护周围的健康组织，从而提供更精确的消融。在我们之前的工作基础上，本研究引入了一个通过模拟不同组织环境中的消融效果来优化术前手术计划的数据库，并开发了一个包含各种肿瘤类型和大小的扩展模拟模型，以评估跨组织条件下的热损伤。根据这些模拟创建了一个综合数据库，详细说明了关键参数，例如 CEM43 等剂量图、温度变化、热剂量区域以及四个定向探头的最大消融距离。该数据库是未来研究的宝贵资源，有助于 NBTU 程序的复杂轨迹规划和参数优化。此外，提出了一种新颖的探针选择方法来增强术前计划，提供了一种选择探针的战略方法，可最大限度地提高治疗效率并最大限度地缩短消融时间。通过避免不必要的热传播和优化探头角度，该方法有可能改善患者的治疗效果并简化手术程序。总体而言，这项研究的结果对 NBTU 领域做出了重大贡献，为提高临床环境中的治疗精度和疗效提供了一个强大的框架。

使用具有优化提示的视觉语言模型自动执行机器人故障恢复

分类： 机器人技术

作者： Hongyi Chen, Yunchao Yao, Ruixuan Liu, Changliu Liu, Jeffrey Ichnowski

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.03966v1

摘要： 当前的机器人自主性很难超出假定的操作设计域（ODD），即系统设计运行的特定条件和环境，而现实世界充满了可能导致故障的不确定性。自动化恢复仍然是一个重大挑战。传统方法往往依靠人工干预来手动解决故障，或者需要详尽列举故障案例并针对每种情况设计具体的恢复策略，这两种方法都是劳动密集型的。基础视觉语言模型 (VLM) 表现出卓越的常识泛化和推理能力，具有更广泛、潜在无限的 ODD。然而，当应用于机器人控制和运动级错误恢复时，空间推理的局限性仍然是许多 VLM 面临的常见挑战。在本文中，我们研究了优化视觉和文本提示如何增强 VLM 的空间推理，使它们能够有效地充当黑盒控制器，用于运动级位置校正和未知故障的任务级恢复。具体来说，优化包括识别视觉提示中的关键视觉元素，在文本提示中突出显示这些元素以供查询，以及分解故障检测和控制生成的推理过程。在实验中，提示优化在纠正运动级位置误差方面显着优于预训练的视觉-语言-动作模型，并且与未优化提示的 VLM 相比，准确度提高了 65.78%。此外，对于任务级故障，优化的提示将 VLM 检测故障、分析问题和生成恢复计划的能力分别提高了 5.8%、5.8% 和 7.5%。乐高组装。

DRAL：未知室内环境下多无人机导航的深度强化自适应学习

分类： 机器人技术

作者： Kangtong Mo, Linyue Chu, Xingyu Zhang, Xiran Su, Yang Qian, Yining Ou, Wian Pretorius

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03930v1

摘要： 无人机室内自主导航面临许多挑战，主要是由于封闭环境中 GPS 的精度有限。此外，无人机携带重型或高功率传感器（例如超高包裹）的能力有限，加剧了在室内实现自主导航的难度。本文介绍了一种先进的系统，其中无人机仅使用单个摄像头即可自主导航室内空间以定位特定目标，例如未知的亚马逊包裹。采用深度学习方法，训练深度强化自适应学习算法来开发模拟专家飞行员决策过程的控制策略。我们通过在各种室内环境中进行的实时模拟来展示我们系统的功效。我们应用多种可视化技术来更深入地了解我们训练过的网络。此外，我们扩展了我们的方法，包括自适应控制算法，用于协调多架无人机在室内环境中协作提升物体。集成我们的 DRAL 算法使多个无人机能够学习适应动态条件和不确定性的最佳控制策略。这项创新增强了室内导航的稳健性和灵活性，并为有限空间内复杂的多无人机操作开辟了新的可能性。所提出的框架强调了自适应控制和深度强化学习方面的重大进步，为现实应用中复杂的多智能体系统提供了强大的解决方案。

二维移动凸多边形的渐近最优多查询路径规划

分类： 机器人技术

作者： Duo Zhang, Zihe Ye, Jingjin Yu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03920v1

摘要： 经典的最短路径路线图，也称为减少可见性图，提供了一种在二维环境中快速计算最佳路径的多查询方法。与 Minkowski 求和计算相结合，最短路径路线图可以计算 2D 翻译机器人的最佳路径。在这项研究中，我们探索了在凸形完整机器人的不同方向上堆叠一组降低的可见度图的直观想法，以支持快速计算允许同时进行 2D 平移和旋转的近乎最佳路径。由此产生的算法，旋转堆叠可见性图（RVG），被证明是分辨率完整且渐近最优的。 RVG 在计算时间和解决方案最优性方面均优于基于 SOTA 单查询采样的方法，包括 BIT* 和 AIT*。

实现端到端AV管道的安全保障

分类： 机器人技术, 密码学和安全

作者： Noah T. Curran, Minkyoung Cho, Ryan Feng, Liangkai Liu, Brian Jay Tang, Pedram MohajerAnsari, Alkim Domeke, Mert D. Pesé, Kang G. Shin

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03899v1

摘要： 在当前的自动驾驶汽车 (AV) 安全和保障研究领域，整个社区正在解决多个孤立的问题。由于缺乏共同的评价标准，几个重要的研究问题相互矛盾。例如，虽然对欺骗视听感知系统的物理攻击进行了大量研究，但对工作防御和安全车辆控制的下游影响的调查往往不够充分。本文全面描述了自动驾驶汽车安全和安保研究的现状。我们针对与该研究领域相关的主要研究问题提供了单独的部分，包括 AV 监控、传感器系统可靠性、AV 堆栈的安全性、算法稳健性和安全环境交互。我们通过讨论涉及这些单独问题之间的相互作用的问题来结束本文。在每个部分的结论中，我们提出了仍缺乏结论性答案的未来研究问题。这篇职位文章将作为寻求参与该研究领域的新手和资深研究人员的切入点。

混合自治流量协调的多代理路径查找

分类： 机器人技术, 人工智能, 多代理系统

作者： Han Zheng, Zhongxia Yan, Cathy Wu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03881v1

摘要： 在不断发展的城市交通格局中，联网自动驾驶车辆 (CAV) 与人力驾驶车辆 (HDV) 的预期整合为自动驾驶系统带来了一系列复杂的挑战和机遇。虽然机器人技术的最新进展已经产生了针对代理协调任务量身定制的多代理路径查找 (MAPF) 算法，其特点是简化的运动学和对代理行为的完全控制，但这些解决方案不适用于无法控制的 HDV 必须与 CAV 共存并交互的混合流量环境。为了解决这一差距，我们提出了基于行为预测运动学优先级的搜索（BK-PBS），它利用离线训练的条件预测模型来预测 HDV 对 CAV 操作的响应，将这些见解集成到基于优先级的搜索（PBS）中，其中 A * 搜索在运动基元上进行以适应运动学约束。我们将 BK-PBS 与基于规则的汽车跟随模型和强化学习导出的 CAV 规划算法进行比较。通过对 CAV 渗透率和交通密度的不同场景下的高速公路合流场景进行全面模拟，BK-PBS 在降低碰撞率和提高系统级行驶延迟方面优于这些基线。我们的工作直接适用于多人多机器人协调的许多场景。

Lexicon3D：探索复杂 3D 场景理解的视觉基础模型

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习, 机器人技术

作者： Yunze Man, Shuhong Zheng, Zhipeng Bao, Martial Hebert, Liang-Yan Gui, Yu-Xiong Wang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03757v1

摘要： 复杂的 3D 场景理解越来越受到关注，场景编码策略在这一成功中发挥着至关重要的作用。然而，各种场景的最佳场景编码策略仍不清楚，特别是与基于图像的对应策略相比。为了解决这个问题，我们提出了一项全面的研究，探索用于 3D 场景理解的各种视觉编码模型，确定每个模型在不同场景中的优势和局限性。我们的评估涵盖七个视觉基础编码器，包括基于图像、基于视频和 3D 基础模型。我们在四个任务中评估这些模型：视觉语言场景推理、视觉基础、分割和配准，每个任务都侧重于场景理解的不同方面。我们的评估得出了重要结论：DINOv2 表现出卓越的性能，视频模型在对象级任务中表现出色，扩散模型有利于几何任务，语言预训练模型在语言相关任务中显示出意想不到的局限性。这些见解挑战了一些传统的理解，提供了利用视觉基础模型的新颖视角，并强调在未来的视觉语言和场景理解任务中需要更灵活的编码器选择。

物理智能欠驱动机器人的可重新编程排序

分类： 机器人技术, 其他凝聚态物质

作者： Leon M. Kamp, Mohamed Zanaty, Ahmad Zareei, Benjamin Gorissen, Robert J. Wood, Katia Bertoldi

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03737v1

摘要： 将物理智能编程到机制中为机器带来了巨大的希望，这些机器可以在利用最少量的计算资源和电子组件的同时完成非结构化环境导航等任务。在这项研究中，我们介绍了一种新颖的物理智能欠驱动机构设计方法，能够根据环境相互作用自主调整其运动。具体来说，利用多稳定性按编程顺序对不同自由度的运动进行排序。这种方法的一个关键方面是这些序列可以通过与环境相互作用产生的机械刺激被动地重新编程。为了展示我们的方法，我们构建了一个四自由度机器人，能够自主导航迷宫并远离障碍物。值得注意的是，该机器人的运行不依赖于传统的计算架构，并且仅使用单个线性执行器。

通过零样本新颖视图合成进行视图不变策略学习

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Stephen Tian, Blake Wulfe, Kyle Sargent, Katherine Liu, Sergey Zakharov, Vitor Guizilini, Jiajun Wu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03685v1

摘要： 大规模视觉运动政策学习是开发通用操纵系统的一种有前途的方法。然而，可以在不同的实施例、环境和观察方式上部署的策略仍然难以捉摸。在这项工作中，我们研究了如何使用来自世界大规模视觉数据的知识来解决可概括性操作的一个变异轴：观察视角。具体来说，我们研究单图像新颖的视图合成模型，该模型通过给定单个输入图像从备用相机视点渲染同一场景的图像来学习 3D 感知场景级先验。为了实际应用到不同的机器人数据，这些模型必须进行零样本操作，对看不见的任务和环境执行视图合成。我们在一个简单的数据增强方案中对视图合成模型进行实证分析，我们称之为视图合成增强（VISTA），以了解它们从单视点演示数据中学习视点不变策略的能力。在评估使用我们的方法对分布外摄像机视点训练的策略的稳健性时，我们发现它们在模拟和现实世界的操纵任务中都优于基线。视频和其他可视化效果可在 https://s-tian.github.io/projects/vista 上找到。

1 用于长期软体机器人数据收集的模块化并联机械手

分类： 机器人技术, 机器学习

作者： Kiyn Chin, Carmel Majidi, Abhinav Gupta

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03614v1

摘要： 由于所需的硬件稳健性和实验灵活性，在软机器人领域进行机器学习的长期实验或大规模数据收集具有挑战性。在这项工作中，我们提出了一种模块化并行机器人操作平台，适用于此类大规模数据收集并与各种软机器人制造方法兼容。考虑到复制高保真、快于实时的模拟以实现刚性机器人系统中大规模数据收集的计算和理论难度，强大的软机器人硬件平台成为该领域的一项高度优先的开发任务。该平台的模块由一对现成的电动机组成，可驱动由顺应性并行结构组成的可定制手指。由于电机能够完全驱动被动结构，因此手指的并联机构可以像单个 3D 打印聚氨酯或模制硅胶块状结构一样简单。这种设计灵活性允许对不同几何形状、体积特性和表面特性的软机构进行实验。此外，虽然并联机构不需要单独的电子设备或附加部件，但可以包含这些部件，并且可以使用多功能软材料构建它，以在学习过程中研究兼容的软传感器和执行器。在这项工作中，我们验证了该平台在基准 2D 操作任务中直接在硬件上用于策略梯度强化学习的能力。我们还演示了与多个手指的兼容性，并描述了兼容扩展的设计限制。

MaskVal：简单但有效的 6D 姿态估计不确定性量化

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Philipp Quentin, Daniel Goehring

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03556v1

摘要： 对于在机器人应用中使用 6D 位姿估计，可靠的位姿对于确保安全、可靠和可预测的操作性能至关重要。尽管有这些要求，最先进的 6D 姿态估计器通常根本不为其姿态估计提供任何不确定性量化，或者即使提供，也已表明所提供的不确定性与实际真实误差仅微弱相关。为了解决这个问题，我们研究了一种简单但有效的不确定性量化，我们称之为 MaskVal，它通过渲染将姿势估计与其相应的实例分割进行比较，并且不需要对姿势估计器本身进行任何修改。尽管很简单，MaskVal 在数据集和机器人设置上都显着优于最先进的集成方法。我们表明，通过使用 MaskVal，最先进的 6D 位姿估计器的性能显着提高，实现安全可靠的操作。此外，我们提出了一种新的具体方法来比较和评估机器人操纵背景下 6D 姿态估计的不确定性量化方法。

用于胆囊切除术训练的交互式肝脏手术模型

分类： 机器人技术, 计算机与社会

作者： Alexander Schuessler, Rayan Younis, Jamie Paik, Martin Wagner, Franziska Mathis-Ullrich, Christian Kunz

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03535v1

摘要： 机器人辅助手术的培训和原型开发需要适当且安全的环境来执行手术程序。目前的干实验室腹腔镜模型通常缺乏模拟复杂、交互式手术任务的能力。这项工作提出了一种用于胆囊切除术的交互式手术模型。通过允许操作和切割与合成组织的相互作用，模型可以在胆囊切除术期间切除胆囊。胆囊的力-位移行为是根据回缩演示进行建模的。将力模型与离体猪胆囊的力模型进行比较，并评估其估计回缩力的能力。

FLAF：用于视觉教学和重复的焦线和特征受限的活动视图规划

分类： 机器人技术

作者： Changfei Fu, Weinan Chen, Wenjun Xu, Hong Zhang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03457v1

摘要： 本文提出了 FLAF，一种焦线和特征约束的主动视图规划方法，用于在基于特征的移动机器人视觉导航中跟踪避免故障。我们基于 FLAF 的视觉导航建立在基于特征的视觉教学和重复 (VT&R) 框架之上，该框架通过教导机器人在涵盖大部分日常自主导航需求的各种路径上导航来支持许多机器人应用。然而，人造环境中无纹理区域导致的基于特征的视觉同步定位与建图（VSLAM）的跟踪失败仍然限制了 VT&R 在现实世界中的采用。为了解决这个问题，所提出的视图规划器被集成到基于特征的视觉 SLAM 系统中，以构建一个主动的 VT&R 系统，避免跟踪失败。在我们的系统中，移动机器人上安装了基于云台单元（PTU）的主动摄像机。使用 FLAF，基于主动相机的 VSLAM 在教学阶段构建完整的路径图，并在重复阶段保持稳定的定位。 FLAF 将机器人定向到更多地图点，以避免路径学习期间的映射失败，并将机器人定向到更多可识别特征的地图点，有利于在遵循学习轨迹的同时进行定位。真实场景中的实验表明，FLAF 优于不考虑特征可识别性的方法，并且我们的主动 VT&R 系统通过有效处理低纹理区域，在复杂环境中表现良好。

从自动驾驶车辆本地生成的多个矢量化图块生成神经高清地图

分类： 机器人技术

作者： Miao Fan, Yi Yao, Jianping Zhang, Xiangbo Song, Daihui Wu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03445v1

摘要： 高清（HD）地图是自动驾驶系统的基本组成部分，因为它可以提供有关驾驶场景的精确环境信息。最近关于矢量化地图生成的工作只能在运行时通过车载传感器进行一次巡游来生成自我车辆周围 65% 的本地地图元素，这留下了如何构建在高质量标准下投影在世界坐标系中的全球高清地图的难题。为了解决这个问题，我们将 GNMap 作为一种端到端的生成神经网络来自动构建具有多个矢量化图块的高清地图，这些图块是由自动驾驶车辆通过多次旅行在本地生成的。它利用多层基于注意力的自动编码器作为共享网络，其参数是从两个不同的任务（分别是预训练和微调）中学习的，以确保生成的映射的完整性和元素类别的正确性。在真实数据集上进行了大量的定性评估，实验结果表明，GNMap可以超越SOTA方法5%以上的F1分数，只需少量的手动修改即可达到工业使用的水平。我们已经在四维图新部署了它，作为自动驾驶系统自动构建高清地图不可或缺的软件。

KiloBot：一种用于大规模部署感知引导工业机械手的编程语言

分类： 机器人技术, 人工智能, 编程语言

作者： Wei Gao, Jingqiang Wang, Xinv Zhu, Jun Zhong, Yue Shen, Youshuang Ding

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03439v1

摘要： 我们希望工业机器人能够通过摄像头和感知管道来处理非结构化环境。与重放离线制作轨迹的传统工业机器人相比，这些感知引导的工业应用需要在线行为规划。除了感知和规划算法之外，部署感知引导的机械手还需要在集成方面付出大量努力。一种方法是用传统语言（例如Python）编写脚本来构建规划问题并与其他算法模块和外部设备进行集成。虽然 Python 脚本对于少数机器人和应用程序来说是可行的，但大规模部署感知引导的操作（例如，2000 多个客户站点中的 10000 多个机器人工作站）变得棘手。为了解决这一挑战，我们提出了一种用于感知引导操作应用程序的领域特定语言（DSL）。为了扩大部署规模，我们的 DSL 提供：1）一个易于访问的接口，用于构建和解决在实际应用中很重要的任务和运动规划（TAMP）问题的子类； 2) 一种实施灵活控制流的机制，以执行集成并满足不同工业应用的定制需求。结合直观的图形编程前端，我们的 DSL 主要由没有传统编程语言编码经验的机器操作员使用。在几个小时的培训内，操作员能够使用我们的 DSL 编排有趣的复杂操作行为。广泛的实际部署证明了我们方法的有效性。

用于优化表面检测轮廓传感器轨迹的强化学习方法

分类： 机器人技术, 人工智能

作者： Sara Roos-Hoefgeest, Mario Roos-Hoefgeest, Ignacio Alvarez, Rafael C. González

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03429v1

摘要： 制造过程中高精度表面缺陷检测对于确保质量控制至关重要。激光三角测量轮廓传感器是此过程的关键，可提供详细且准确的直线表面测量。为了实现完整、精确的表面扫描，需要传感器和工件之间精确的相对运动。控制传感器姿态以保持与表面的最佳距离和相对方向至关重要。确保整个扫描过程中轮廓分布均匀也很重要。本文提出了一种基于强化学习 (RL) 的新颖方法来优化轮廓测量传感器的机器人检查轨迹。基于 Boustropedon 扫描方法，我们的技术动态调整传感器位置和倾斜，以保持最佳方向和距表面的距离，同时还确保一致的轮廓距离，以实现均匀和高质量的扫描。利用基于零件 CAD 模型的模拟环境，我们复制了真实世界的扫描条件，包括传感器噪声和表面不规则性。这种基于仿真的方法可实现基于 CAD 模型的离线轨迹规划。主要贡献包括状态空间、动作空间和奖励函数的建模，专门为使用轮廓测量传感器的检查应用而设计。我们使用近端策略优化 (PPO) 算法来有效地训练 RL 代理，展示其利用轮廓测量传感器优化检查轨迹的能力。为了验证我们的方法，我们进行了几次实验，在模拟中的各个部分上测试了在特定训练件上训练的模型。此外，我们还通过执行从 CAD 模型离线生成的优化轨迹进行了实际实验，以使用 UR3e 机械臂模型检查零件。

F3T：具有 3D 力和温度数学解耦能力的机器人软触觉单元

分类： 机器人技术

作者： Xiong Yang, Hao Ren, Dong Guo, Zhengrong Ling, Tieshan Zhang, Gen Li, Yifeng Tang, Haoxiang Zhao, Jiale Wang, Hongyuan Chang, Jia Dong, Yajing Shen

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03421v1

摘要： 人类皮肤表现出卓越的感知接触力和环境温度的能力，为细致的操作提供了至关重要的复杂信息。尽管软触觉传感器最近取得了进展，但准确解耦信号仍然存在重大挑战，特别是将力与方向和温度分开，导致无法满足机器人的高级应用要求。这项研究提出了一种多层软传感器单元（F3T），旨在实现法向压力、全向切向力和温度的隔离测量和数学解耦。我们开发了一种具有浮山多层电容器的圆形同轴磁性薄膜，有助于各个方向上法向力和切向力的物理解耦。此外，我们还在触觉传感器顶部加入了基于离子凝胶的温度传感薄膜。该传感器对外部压力和变形具有弹性，使其能够测量温度，最重要的是，消除由环境温度变化引起的电容器误差。这种创新设计允许对多个信号进行解耦测量，为更高级别的机器人运动控制、自主决策和任务规划的进步铺平了道路。

RoVi-Aug：跨实体机器人学习的机器人和视角增强

分类： 机器人技术

作者： Lawrence Yunliang Chen, Chenfeng Xu, Karthik Dharmarajan, Zubair Irshad, Richard Cheng, Kurt Keutzer, Masayoshi Tomizuka, Quan Vuong, Ken Goldberg

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03403v1

摘要： 扩大机器人学习需要大量且多样化的数据集，如何有效地重用收集的数据并将策略转移到新的实施例仍然是一个悬而未决的问题。 Open-X体现（OXE）项目等新兴研究已经显示出通过组合包括不同机器人的数据集来利用技能的前景。然而，许多数据集中机器人类型和摄像机角度分布的不平衡使得策略容易过度拟合。为了缓解这个问题，我们提出了 RoVi-Aug，它利用最先进的图像到图像生成模型，通过合成不同机器人和摄像机视图的演示来增强机器人数据。通过大量的物理实验，我们表明，通过对机器人和视点增强数据进行训练，RoVi-Aug 可以在摄像机角度显着不同的看不见的机器人上进行零镜头部署。与 Mirage 等测试时自适应算法相比，RoVi-Aug 在测试时不需要额外的处理，不假设已知的摄像机角度，并且允许策略微调。此外，通过对原始机器人数据集和增强机器人数据集进行协同训练，RoVi-Aug 可以学习多机器人和多任务策略，从而实现机器人和技能之间更有效的转移，并将成功率提高高达 30%。

游戏开始：作为 RL 实验者走向语言模型

分类： 人工智能, 机器人技术

作者： Jingwei Zhang, Thomas Lampe, Abbas Abdolmaleki, Jost Tobias Springenberg, Martin Riedmiller

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03402v1

摘要： 我们提出了一种代理架构，可以自动执行部分常见的强化学习实验工作流程，以实现对具体代理的控制域的自动掌握。为此，它利用 VLM 来执行人类实验者通常需要的一些功能，包括监控和分析实验进度、根据代理过去的成功和失败提出新任务、将任务分解为序列子任务（技能），并检索执行技能 - 使我们的系统能够构建自动化的学习课程。我们相信，这是在强化学习的整个实验周期中利用 VLM 的系统的首批提案之一。我们提供该系统的第一个原型，并检查当前模型和技术达到所需自动化水平的可行性。为此，我们使用标准的 Gemini 模型，无需额外的微调，为语言条件的 Actor-Critic 算法提供技能课程，以引导数据收集，从而帮助学习新技能。以这种方式收集的数据被证明对于学习和迭代改进机器人领域的控制策略很有用。对系统建立不断增长的技能库以及判断这些技能培训进度的能力的额外检查也显示出有希望的结果，这表明所提出的架构为完全自动化掌握任务和领域提供了潜在的秘诀对于具体代理人。

使用模型预训练进行无传感器接触估计的快速有效负载校准

分类： 机器人技术

作者： Shilin Shan, Quang-Cuong Pham

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03369v1

摘要： 力和扭矩传感对于协作和工业环境中的机器人操作至关重要。传统的动态识别方法无需昂贵的传感器即可检测和控制外力和扭矩。然而，这些方法在机器人动力学（特别是末端执行器有效负载）发生变化的场景中表现出局限性。此外，由于对联合空间覆盖的担忧，现有的校准技术面临着效率和准确性之间的权衡。在本文中，我们介绍了一种校准方案，该方案利用预先训练的神经网络模型来提前学习跨广泛关节空间的校准动态。这种离线学习策略显着减少了在线数据收集的需求，无论是选择最佳模型还是识别有效负载特征，只需要 4 秒的轨迹即可进行在线校准。该方法对于需要频繁动态重新校准以进行精确接触估计的任务特别有效。我们通过在无传感器关节和任务合规性中的应用进一步证明了这种方法的有效性，并考虑了有效负载的变化。

MouseSIS：用于小鼠时空实例分割的帧和事件数据集

分类： 计算机视觉和模式识别, 机器学习, 机器人技术

作者： Friedhelm Hamann, Hanxiong Li, Paul Mieske, Lars Lewejohann, Guillermo Gallego

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03358v1

摘要： 近年来，在大型注释数据集的支持下，视频中对象的跟踪和分割取得了显着的进展。尽管取得了这些进步，算法在退化条件下和快速运动过程中仍然举步维艰。事件相机是具有高时间分辨率和高动态范围的新型传感器，为应对这些挑战提供了有希望的优势。然而，用于开发基于学习的事件掩模级跟踪算法的注释数据尚不可用。为此，我们引入：（$i$）一个名为 \emph{时空实例分割} 的新任务，类似于视频实例分割，其目标是在传感器输入的整个持续时间内对实例进行分割（这里，输入是准连续事件和可选的对齐帧）； ($ii$) \emph{\dname}，新任务的数据集，包含对齐的灰度帧和事件。它包括一组最多七只自由移动和交互的小鼠的带注释的地面实况标签（像素级实例分割掩模）。我们还提供了两种参考方法，表明利用事件数据可以持续提高跟踪性能，特别是与传统相机结合使用时。结果凸显了事件辅助跟踪在困难场景中的潜力。我们希望我们的数据集能够打开基于事件的视频实例分割领域，并能够针对具有挑战性的条件开发强大的跟踪算法。\url{https://github.com/tub-rip/MouseSIS}

四足动物运动中传感器泛化的蒙蔽感觉-时间注意力

分类： 机器人技术

作者： Dikai Liu, Tianwei Zhang, Jianxiong Yin, Simon See

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03332v1

摘要： 随着对四足动物的日益关注，能够处理不同机器人模型和感官输入的通用策略将非常有益。尽管已经提出了几种方法来解决不同的形态，但基于学习的策略来管理本体感受信息的各种组合仍然是一个挑战。本文提出了掩蔽感觉时间注意力（MSTA），这是一种基于变压器的新型模型，具有四足动物运动掩蔽。它采用直接的传感器级注意力来增强感觉时间理解并处理传感器数据的不同组合，作为合并看不见的信息的基础。即使在大量丢失信息的情况下，该模型也可以有效地理解其状态，并且即使输入序列很长，也足够灵活，可以部署在物理系统上。

将 RT-1-X 基础模型引入 SCARA 机器人

分类： 机器人技术, 机器学习, 68, I.2.9

作者： Jonathan Salzer, Arnoud Visser

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03299v1

摘要： 传统的机器人系统需要针对每个任务、环境和机器人形态的特定训练数据。虽然机器学习的最新进展使模型能够泛化新的任务和环境，但使这些模型适应全新环境的挑战在很大程度上仍未得到探索。本研究通过调查 RT-1-X 机器人基础模型对训练期间未见过的一种机器人（来自 UMI-RTX 的 SCARA 机器人）的泛化能力来解决这个问题。初步实验表明，RT-1-X 并未将零样本推广到看不见的机器人类型。然而，通过演示对 RT-1-X 模型进行微调，使机器人能够学习拾取任务，该任务是基础模型的一部分（但针对另一种类型的机器人进行了学习）。当向机器人呈现一个包含在基础模型中但不包含在微调数据集中的对象时，这表明仅转移了技能，而不转移了特定于对象的知识。

OccLLaMA：自动驾驶的占用-语言-动作生成世界模型

分类： 计算机视觉和模式识别, 机器人技术

作者： Julong Wei, Shanshuai Yuan, Pengfei Li, Qingda Hu, Zhongxue Gan, Wenchao Ding

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03272v1

摘要： 多模态大语言模型（MLLM）的兴起刺激了它们在自动驾驶中的应用。最近基于 MLLM 的方法通过学习从感知到行动的直接映射来执行行动，忽略了世界的动态以及行动与世界动态之间的关系。相比之下，人类拥有世界模型，使他们能够基于 3D 内部视觉表示来模拟未来状态并相应地计划行动。为此，我们提出了 OccLLaMA，一种占用-语言-动作生成世界模型，它使用语义占用作为一般视觉表示，并通过自回归模型统一视觉-语言-动作（VLA）模态。具体来说，我们引入了一种新颖的类似 VQVAE 的场景标记器，考虑到其稀疏性和类别不平衡，可以有效地离散和重建语义占用场景。然后，我们为视觉、语言和动作构建统一的多模态词汇。此外，我们增强了LLM，特别是LLaMA，以在统一词汇上执行下一个令牌/场景预测，以完成自动驾驶中的多个任务。大量实验表明，OccLLaMA 在多个任务中实现了具有竞争力的性能，包括 4D 占用预测、运动规划和视觉问答，展示了其作为自动驾驶基础模型的潜力。

通过感知预训练提高流体环境中的代理性能

分类： 机器人技术, 流体动力学

作者： Jin Zhang, Jianyang Xue, Bochao Cao

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03230v1

摘要： 在本文中，我们构建了一个用于流体环境感知的预训练框架，其中包括信息压缩模型和相应的预训练方法。我们通过数值模拟在两缸问题中测试这个框架。结果表明，通过该框架进行无监督预训练后，智能体能够获取周围流体环境的关键特征，从而更快、更有效地适应后续的多场景任务。在我们的研究中，这些任务包括感知上游障碍物的位置并主动避免流场中的脱落涡流以实现减阻。敏感性分析中讨论了预训练代理的更好性能。

双模式个性化外骨骼机器人的上肢康复：基于生成模型的解决方案

分类： 机器人技术

作者： Yu Chen, Shu Miao, Jing Ye, Gong Chen, Jianghua Cheng, Ketao Du, Xiang Li

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03193v1

摘要： 已经开发了几种用于中风康复的上肢外骨骼机器人，但它们的个性化辅助水平相当低，通常限制了它们的有效性和实用性。个性化帮助包括上肢外骨骼机器人不断评估中风患者的反馈，然后精心调整交互力以适应特定条件和在线变化。本文描述了一种新型上肢外骨骼机器人的开发，该机器人具有新颖的在线生成能力，使其能够提供个性化帮助以支持中风患者的康复训练。具体来说，上肢外骨骼机器人利用生成模型为患者定制精细且适合的轨迹，因为训练期间患者的医疗状况、反应和舒适反馈通常有所不同。这种生成能力被集成到上肢外骨骼机器人的两种工作模式中：主动镜像模式适用于身体一侧保留运动能力的患者，被动跟随模式适用于身体两侧缺乏运动能力的患者身体。上肢外骨骼机器人的性能在健康受试者和中风患者的实验中得到了证明。

使用蒙特卡罗树搜索解决具有机会约束的随机定向问题

分类： 机器人技术

作者： Stefano Carpin

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03170v1

摘要： 我们提出了一种新的蒙特卡罗树搜索（MCTS）算法来解决具有机会约束的随机定向问题，即旅行成本是随机的问题的一个版本，并且为超出预算的可容忍概率分配了一个界限。我们提出的算法是在线且随时的，即它交替规划和执行，并且它产生的解决方案的质量随着允许的计算时间的增加而提高。与大多数以前的 MCTS 算法不同，对于某个状态下可用的每个动作，该算法维护其值及其执行最终导致违反机会约束的概率的估计。然后，在动作选择时，我们提出的解决方案会修剪掉估计违反失败概率的轨迹。大量的仿真结果表明，该方法可以快速产生高质量的解决方案，并且与最优但耗时的解决方案具有竞争力。

通过对话持续学习技能和任务

分类： 机器人技术, 人工智能, 计算和语言

作者： Weiwei Gu, Suresh Kondepudi, Lixiao Huang, Nakul Gopalan

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03166v1

摘要： 持续和交互式的机器人学习是一个具有挑战性的问题，因为机器人与人类用户在一起，他们希望机器人学习新的技能，以永远以样本效率解决新的任务。在这项工作中，我们提出了一个机器人框架，可以通过与人类用户的自然语言对话交互来查询和学习视觉运动机器人技能和任务相关信息。以前的方法要么专注于提高遵循指令的代理的性能，要么被动地学习新的技能或概念。相反，我们使用对话与语言技能基础嵌入相结合来查询或确认用户请求的技能和/或任务。为了实现这一目标，我们为我们的代理开发并集成了三个不同的组件。首先，我们提出了一种新颖的视觉运动控制策略 ACT with Low Rank Adaptation (ACT-LoRA)，它使得现有的 SoTA ACT 模型能够执行少样本连续学习。其次，我们开发了一个对齐模型，将跨技能实施例的演示投影到共享嵌入中，使我们知道何时向用户提出问题和/或演示。最后，我们集成了现有的大语言模型来与人类用户交互，以执行扎根的交互式持续技能学习来解决任务。我们的 ACT-LoRA 模型在仅通过 5 次新技能演示进行训练时，就能以 100% 的准确率学习新的微调技能，同时在 RLBench 数据集中的预训练技能仍保持 74.75% 的准确率，而其他模型则明显落后。我们还对 8 名受试者进行了人类受试者研究，以展示我们组合框架的持续学习能力。我们在三明治制作任务中实现了 75% 的成功率，真实的机器人从参与者数据中学习，表明机器人可以使用我们的方法通过与非专家用户的对话来学习新技能或任务知识。

基于最大安全概率学习的自主漂移

分类： 机器人技术, 系统与控制, 系统与控制

作者： Hikaru Hoshino, Jiaxing Li, Arnav Menon, John M. Dolan, Yorie Nakahira

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03160v1

摘要： 本文提出了一种基于最大安全概率概念的新型基于学习的自动驾驶框架。有效的学习需要提供有关期望/不期望状态的信息的奖励，但由于难以在许多安全状态中区分更好的状态，因此手动设计此类奖励具有挑战性。另一方面，学习最大化安全概率的策略不需要费力的奖励塑造，但在数值上具有挑战性，因为算法必须基于时间稀疏的二元奖励来优化策略。在这里，我们证明基于物理的强化学习可以有效地学习这种形式的最大安全策略。与现有的漂移控制方法不同，我们的方法不需要特定的参考轨迹或复杂的奖励塑造，并且只能从稀疏的二元奖励中学习安全行为。这是通过使用物理损失来实现的，物理损失在奖励塑造中起着类似的作用。通过正常转弯场景中的车道保持和高速赛车场景中的安全漂移证明了所提出方法的有效性。

我们可以增强亲社会行为吗？使用骑行后反馈来改善微移动交互

分类： 人机交互, 机器人技术

作者： Sidney T. Scott-Sharoni, Shashank Mehrotra, Kevin Salubre, Miao Song, Teruhisa Misu, Kumar Akash

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03153v1

摘要： 电动滑板车和送货机器人等微型移动设备有望成为未来城市交通的环保且经济高效的替代方案。然而，它们缺乏社会接受度仍然是一个挑战。因此，我们必须考虑如何在微移动交互中促进亲社会行为。我们研究了骑行后反馈如何鼓励电动滑板车骑手在与人行道用户（包括行人和送货机器人）互动时的亲社会行为。我们使用基于网络的平台来衡量电动滑板车骑手的亲社会行为。结果发现，骑行后反馈可以成功促进亲社会行为，客观测量表明更好的间隙行为、较低的互动速度以及在其他人行道参与者周围更长的停留时间。这项研究的结果证明了乘车后反馈的有效性，并为设计改善出行用户亲社会行为的方法提供了一步。

使用子模集覆盖进行机器人覆盖规划的近似环境分解

分类： 机器人技术

作者： Megnath Ramesh, Frank Imeson, Baris Fidan, Stephen L. Smith

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03120v1

摘要： 在本文中，我们研究了机器人覆盖规划的二维环境分解问题。覆盖路径规划（CPP）涉及为配备覆盖或传感工具的机器人计算成本最小化路径，以便该工具访问环境中的所有点。 CPP 是一个 NP-Hard 问题，因此现有方法通过将环境分解为最少数量的扇区来简化问题。扇区是环境的子区域，每个区域都可以使用以一定角度定向的割草机路径（即沿着平行的直线路径）覆盖。然而，传统方法要么将覆盖方向限制为轴平行（水平/垂直），要么不保证分解中的扇区数量。我们引入了一种将环境分解为可能重叠的矩形扇区的方法。我们为给定环境使用我们的方法计算的扇区数量提供近似保证。我们通过利用扇区覆盖函数的子模属性来实现这一点，这使我们能够将分解问题表述为子模集覆盖（SSC）问题，并为贪婪算法提供众所周知的近似保证。我们的方法改进了现有的覆盖规划方法，正如通过使用复杂的现实环境地图进行的评估所证明的那样。

使用线控电动汽车开发、分析和评估自动驾驶算法

分类： 机器人技术, 计算机视觉和模式识别

作者： Beñat Froemming-Aldanondo, Tatiana Rastoskueva, Michael Evans, Marcial Machado, Anna Vadella, Rickey Johnson, Luis Escamilla, Milan Jostes, Devson Butani, Ryan Kaddis, Chan-Jin Chung, Joshua Siegel

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03114v1

摘要： 可靠的车道跟随算法对于安全有效的自动驾驶至关重要。该项目主要专注于开发和评估不同的车道跟随程序，为车辆互联 (V2X) 项目找到最可靠的算法。这些算法首先在模拟器上进行测试，然后在配备使用 ROS（机器人操作系统）的线控系统的真实车辆上进行测试。他们的表现通过可靠性、舒适度、速度和适应性指标进行评估。结果表明，两种最可靠的方法可以检测两条车道线，并使用无监督学习将它们分开。事实证明，这些方法在各种驾驶场景中都很稳健，使其成为集成到 V2X 项目中的合适候选者。

RoboKoop：使用 Koopman 操作符从机器人视觉输入中有效控制条件表示

分类： 机器人技术, 机器学习, 系统与控制, 系统与控制

作者： Hemant Kumawat, Biswadeep Chakraborty, Saibal Mukhopadhyay

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03107v1

摘要： 开发能够根据高维观察执行复杂控制任务的代理是自主代理的核心能力，它需要底层强大的任务控制策略并根据任务调整底层视觉表示。大多数现有策略需要大量训练样本，并从两阶段学习的角度来处理这个问题，并在预先训练的视觉模型之上学习控制器。我们从库普曼理论的角度解决这个问题，并在学习稳定代理控制的背景下，从以特定下游任务为条件的机器人代理中学习视觉表示。我们引入了对比谱库普曼嵌入网络，该网络使我们能够从高维潜在空间中代理的视觉数据中学习有效的线性化视觉表示，并利用强化学习通过线性控制器在提取的表示之上执行离策略控制。我们的方法随着时间的推移增强了梯度动态的稳定性和控制，通过提高长期学习任务策略的效率和准确性，显着优于现有方法。

将密集度量深度融入神经 3D 表示中，以进行视图合成和重新照明

分类： 计算机视觉和模式识别, 图形, 机器人技术

作者： Arkadeep Narayan Chaudhury, Igor Vasiljevic, Sergey Zakharov, Vitor Guizilini, Rares Ambrus, Srinivasa Narasimhan, Christopher G. Atkeson

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03061v1

摘要： 合成小场景的精确几何形状和照片般逼真的外观是一个活跃的研究领域，在游戏、虚拟现实、机器人操作、自动驾驶、便捷产品捕捉和消费者级摄影等领域具有引人注目的用例。当将场景几何和外观估计技术应用于机器人时，我们发现由于机器人运动范围有限和场景混乱而导致可能视点的狭窄锥体导致当前的估计技术产生质量差的估计甚至失败。另一方面，在机器人应用中，通常可以使用立体直接测量密集的度量深度，并且可以控制照明。深度可以提供对物体几何形状的良好初始估计，以改善重建，而多照明图像可以促进重新照明。在这项工作中，我们演示了一种将密集度量深度纳入神经 3D 表示训练中的方法，并通过消除纹理和几何边缘之间的歧义来共同细化几何和外观，从而解决观察到的伪影问题。我们还讨论了一种多闪光灯立体相机系统，该系统旨在捕获我们的管道所需的数据，并通过一些训练视图显示重新照明和视图合成的结果。

PIETRA：用于遍历分布外地形的物理信息证据学习

分类： 机器人技术, 机器学习, 系统与控制, 系统与控制

作者： Xiaoyi Cai, James Queeney, Tong Xu, Aniket Datar, Chenhui Pan, Max Miller, Ashton Flather, Philip R. Osteen, Nicholas Roy, Xuesu Xiao, Jonathan P. How

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03005v1

摘要： 自监督学习是开发越野导航可通行性模型的有效方法，但这些模型常常难以应对训练期间看不见的输入。现有方法利用证据深度学习等技术来量化模型不确定性，帮助识别和避免分布外的地形。然而，总是避免分布外的地形可能过于保守，例如，当可以使用基于物理的模型有效分析新地形时。为了克服这一挑战，我们引入了物理信息证据可遍历性（PIETRA），这是一种自我监督学习框架，它将物理先验直接集成到证据神经网络的数学公式中，并通过不确定性感知、物理信息训练隐式引入物理知识损失。我们的证据网络在学习和基于物理的预测之间无缝转换，以适应分布外的输入。此外，基于物理的损失对学习模型进行了正则化，确保与物理模型更好地保持一致。大量的模拟和硬件实验表明，PIETRA 在具有显着分布变化的环境中提高了学习准确性和导航性能。

RoboTwin：具有生成数字孪生的双臂机器人基准（早期版本）

分类： 机器人技术, 人工智能, 计算和语言

作者： Yao Mu, Tianxing Chen, Shijia Peng, Zanxin Chen, Zeyu Gao, Yude Zou, Lunkai Lin, Zhiqiang Xie, Ping Luo

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02920v1

摘要： 双臂机器人的有效协作及其工具使用能力是机器人技术进步中日益重要的领域。这些技能在扩展机器人在不同的现实环境中操作的能力方面发挥着重要作用。然而，专业培训数据的缺乏阻碍了进展。本文介绍了 RoboTwin，这是一种新颖的基准数据集，它将现实世界的远程操作数据与数字孪生的合成数据相结合，专为双臂机器人场景而设计。使用 COBOT Magic 平台，我们收集了有关工具使用和人机交互的各种数据。我们提出了一种创新方法，使用人工智能生成的内容创建数字孪生，将 2D 图像转换为详细的 3D 模型。此外，我们利用大型语言模型来生成专家级训练数据和面向功能的特定任务姿势序列。我们的主要贡献是：1）RoboTwin 基准数据集，2）高效的真实到模拟管道，以及 3）使用语言模型自动生成专家级数据。这些进步旨在解决机器人训练数据的短缺问题，有可能加速开发更强大、更通用的机器人系统，以适应广泛的现实世界应用。项目页面位于 https://robotwin-benchmark.github.io/early-version/

用于城市驾驶的混合模仿学习运动规划器

分类： 机器人技术, 人工智能, 机器学习

作者： Cristian Gariboldi, Matteo Corno, Beng Jin

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02871v1

摘要： 随着 nuPlan 和 Argoverse 等开源数据集的发布，围绕基于学习的规划器的研究在过去几年中得到了广泛传播。现有系统在模仿人类驾驶员行为方面表现出了出色的能力，但它们难以保证安全的闭环驾驶。相反，基于优化的规划器在短期规划场景中提供了更大的安全性。为了应对这一挑战，在本文中，我们提出了一种新颖的混合运动规划器，它集成了基于学习和基于优化的技术。最初，多层感知器 (MLP) 生成类似人类的轨迹，然后通过基于优化的组件对其进行细化。该组件不仅可以最大限度地减少跟踪误差，还可以计算运动学上可行且与障碍物和道路边界无碰撞的轨迹。我们的模型有效地平衡了安全性和人性化，减轻了这些目标中固有的权衡。我们通过模拟实验验证我们的方法，并通过将其部署在现实世界的自动驾驶车辆中进一步证明其有效性。

CONClave——使用经过验证的共识和信任评分为 CAV 提供安全、稳健的合作感知

分类： 机器人技术, 密码学和安全, 多代理系统

作者： Edward Andert, Francis Mendoza, Hans Walter Behrens, Aviral Shrivastava

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02863v1

摘要： 联网自动驾驶汽车在改善汽车安全和交通流量方面具有巨大潜力，特别是在车辆之间共享感知数据的协作应用中。然而，这种合作必须避免可能导致事故的恶意和无意错误。以前的工作通常解决特定场景下协同驾驶的单一安全性或可靠性问题，而不是解决一组错误。在本文中，我们提出了 CONClave，一种紧密耦合的身份验证、共识和信任评分机制，为自动驾驶车辆的协作感知提供全面的安全性和可靠性。 CONClave 受益于步骤的流水线性质，因此可以更快地检测到故障，并且计算量更少。总体而言，CONClave 在防止安全缺陷、检测相对较小的传感故障以及提高 CAV 协作感知的鲁棒性和准确性方面显示出巨大的前景，同时增加最小的开销。

SOAR：异构无人机同时探索和拍摄，实现快速自主重建

分类： 机器人技术

作者： Mingjie Zhang, Chen Feng, Zengzhi Li, Guiyong Zheng, Yiming Luo, Zhu Wang, Jinni Zhou, Shaojie Shen, Boyu Zhou

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02738v1

摘要： 无人机（UAV）在场景重建中受到广泛欢迎。本文介绍了 SOAR，这是一种 LiDAR-Visual 异构多无人机系统，专为复杂环境的快速自主重建而设计。我们的系统包括一个配备 LiDAR 且具有大视场 (FoV) 的探险家，以及配备相机的摄影师。为了确保快速获取场景的表面几何形状，我们为探索器采用了基于表面边界的探索策略。随着表面的逐步探索，我们识别出未覆盖的区域并逐渐生成观点。然后，通过解决一致的多个仓库多个旅行商问题（一致-MDMTSP），将这些视点分配给摄影师，从而优化扫描效率，同时确保任务一致性。最后，摄影师利用指定的视点来确定获取图像的最佳覆盖路径。我们在现实模拟器中提供了广泛的基准，验证了 SOAR 与经典和最先进方法相比的性能。有关更多详细信息，请参阅我们的项目页面：https://sysu-star.github.io/SOAR}{sysu-star.github.io/SOAR。

使用 Actor-Critic 框架和自我监督模仿学习的手术任务自动化

分类： 机器人技术

作者： Jingshuai Liu, Alain Andres, Yonghang Jiang, Xichun Luo, Wenmiao Shu, Sotirios Tsaftaris

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02724v1

摘要： 手术机器人任务自动化最近引起了极大的关注，因为它有可能使外科医生和患者受益。基于强化学习 (RL) 的方法已证明能够为各种任务的自动化手术操作提供解决方案。为了应对探索挑战，可以利用专家演示，通过模仿学习（IL）方法来提高学习效率。然而，此类方法的成功通常依赖于状态和操作标签。不幸的是，由于需要专业知识，动作标签可能很难捕获，或者它们的手动注释成本过高。因此，在强化学习中利用由纯状态组成的专家演示仍然是一个有吸引力且悬而未决的问题。在这项工作中，我们提出了一个名为 AC-SSIL 的行动者批评家 RL 框架，以通过遵循未知的专家策略收集的仅状态演示来克服学习的挑战。它采用一种称为 SSIL 的自监督 IL 方法，通过检索查询状态的最近邻居并利用参与者网络的引导，有效地将演示状态合并到 RL 范式中。我们通过在开源手术模拟平台上进行的实验展示，我们的方法在 RL 基线上取得了显着的改进，并且与基于动作的 IL 方法表现出可比的性能，这意味着我们的方法在专家演示引导的学习场景中的有效性和潜力。

基于超声波传感器和速率编码的低成本实时障碍物检测尖峰系统

分类： 机器人技术, 神经和进化计算

作者： Alvaro Ayuso-Martinez, Daniel Casanueva-Morato, Juan Pedro Dominguez-Morales, Angel Jimenez-Fernandez, Gabriel Jimenez-Moreno

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02680v1

摘要： 自从移动机器人出现以来，障碍物检测一直是人们非常感兴趣的话题。这也是神经科学的一个研究主题，就基于视觉和基于声音的障碍物检测机制而言，飞行的昆虫和蝙蝠分别被认为是最有趣的两个案例。目前，许多研究集中在基于视觉的障碍物检测，但关于基于声音的障碍物检测的研究并不多。这项工作重点关注后一种方法，该方法还利用尖峰神经网络来利用这些架构的优势并实现更接近生物学的方法。整个系统通过一系列实验进行了测试，证实了尖峰架构用于障碍物检测的有效性。经验证明，当机器人与障碍物之间的距离减小时，系统的输出发射率会按预期响应增加，反之亦然。因此，两者之间存在着直接的关系。此外，可检测和不可检测物体之间存在一个距离阈值，该阈值也在本工作中凭经验测量。基于尖峰间间隔概念，对该系统如何在低级别工作进行了深入研究，这可能对未来基于尖峰滤波器的应用的开发有用。

用于机器人导航的因果感知变压器网络

分类： 机器人技术, 人工智能, 机器学习

作者： Ruoyu Wang, Yao Liu, Yuanjiang Cao, Lina Yao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02669v1

摘要： 机器学习算法的最新进展引起了人们对开发多功能嵌入式人工智能系统越来越大的兴趣。然而，该领域当前的研究揭示了改进的机会。首先，直接采用 RNN 和 Transformer 往往会忽略 Embodied AI 和传统顺序数据建模之间的具体差异，从而可能限制其在 Embodied AI 任务中的性能。其次，对特定于任务的配置（例如预训练的模块和特定于数据集的逻辑）的依赖损害了这些方法的通用性。为了解决这些限制，我们首先从因果关系的角度探索嵌入式人工智能任务和其他顺序数据任务之间的独特差异，提出一个因果框架来阐明嵌入式人工智能传统顺序方法的不足之处。通过利用这种因果视角，我们提出了用于导航的因果感知变压器（CAT）网络，其特点是因果理解模块，以增强模型的环境理解能力。同时，我们的方法没有特定于任务的归纳偏差，并且可以以端到端的方式进行训练，这增强了该方法在各种上下文中的通用性。实证评估表明，我们的方法在一系列设置、任务和模拟环境中始终超越基准性能。广泛的消融研究表明，性能提升可归因于因果理解模块，该模块展示了强化学习和监督学习环境中的有效性和效率。

用于高级车辆仪表盘渲染的基于学习的错误检测系统

分类： 计算机视觉和模式识别, 人机交互, 机器学习, 机器人技术, 图像和视频处理

作者： Cornelius Bürkle, Fabian Oboril, Kay-Ulrich Scholl

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02647v1

摘要： 汽车行业目前正在通过每一款上市的新车型来扩展数字显示选项。这不仅需要尺寸、分辨率和定制选择的扩展，还需要在组装显示集群的内容时采用叠加等新颖的显示效果的能力。不幸的是，这就需要适当的监控系统来检测渲染错误并在需要时采取适当的对策。循环冗余检查 (CRC) 等经典解决方案很快将不再可行，因为任何类型的 alpha 混合、内容缩放扭曲都可能导致不必要的 CRC 违规。因此，我们提出了一种新颖的监控方法，以使用信号（例如警告标志）为例来验证显示内容的正确性。它使用基于学习的方法来区分“好的”信号装置，即人类驾驶员能够正确理解的信号装置和“损坏的”信号装置，即那些无法正确看到或感知的信号装置。因此，它具有针对单个像素错误的固有弹性，并隐式支持改变背景、覆盖或缩放效果。我们的实验研究强调了这一点，其中所有“损坏”的测试模式都被正确分类，同时没有触发误报。

Mamba 作为机器人模仿学习的运动编码器

分类： 机器人技术, 系统与控制, 系统与控制

作者： Toshiaki Tsuji

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02636v1

摘要： 模仿学习的最新进展，特别是大语言模型技术的整合，将显着提高机器人的灵活性和适应性。在这项研究中，我们建议使用 Mamba（一种在大语言模型中具有潜在应用的最先进架构）进行机器人模仿学习，强调其作为有效捕获上下文信息的编码器的能力。通过降低状态空间的维数，Mamba 的运行方式与自动编码器类似。它有效地将顺序信息压缩为状态变量，同时保留准确运动预测所需的基本时间动态。杯子放置和箱子装载等任务的实验结果表明，尽管存在较高的估计误差，但与 Transformer 相比，Mamba 在实际任务执行中取得了更高的成功率。这种性能归功于 Mamba 的结构，其中包含状态空间模型。此外，该研究还调查了 Mamba 在有限训练数据下作为实时运动生成器的能力。

膝关节外骨骼建模、设计优化和原型开发

分类： 机器人技术, 优化与控制

作者： Shashank Mani Gautam, Ekta Singla, Ashish Singla

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02635v1

摘要： 本研究的重点是通过解决从坐到站 (STS) 运动过程中运动范围 (ROM) 的限制来增强现有膝关节外骨骼的设计。虽然当前的膝外骨骼强调韧性和康复，但它们的闭环机制阻碍了最佳活动度，而这对于有效康复至关重要。本研究旨在优化外骨骼设计以实现必要的活动度，提高其康复功能。这可以通过利用运动学建模和公式来实现，现有设计以非线性和非凸数学函数表示。应用优化技术，考虑基于人体腿部测量的约束，来确定外骨骼的最佳尺寸。与现有型号相比，ROM 显着增加。开发了一个 MATLAB 程序来将优化外骨骼的 ROM 与原始设计进行比较。为了验证优化设计的实用性，使用具有平均人体尺寸的人体模型进行分析，然后构建纸板假人模型来验证模拟结果。使用相机和 TRACKER 软件捕获普通人的 STS 运动，并将该运动与假人模型的运动进行比较，以识别人类和外骨骼膝关节之间的任何错位。此外，膝关节外骨骼原型正在开发中，以进一步研究错位并改进设计。未来的工作包括使用肌电图传感器进行更详细的分析和更好的结果。

SurgTrack：真实手术器械的无 CAD 3D 跟踪

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Wenwu Guo, Jinlin Wu, Zhen Chen, Qingxiang Zhao, Miao Xu, Zhen Lei, Hongbin Liu

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02598v1

摘要： 基于视觉的手术导航因其无创、经济、灵活的优势而受到越来越多的关注。特别是，基于视觉的导航系统的一个关键要素是跟踪手术器械。与 2D 仪器跟踪方法相比，3D 仪器跟踪在临床实践中具有更广泛的价值，但由于纹理较弱、遮挡以及缺乏用于 3D 配准的计算机辅助设计 (CAD) 模型，因此也更具挑战性。为了解决这些挑战，我们提出了 SurgTrack，这是一种两阶段 3D 仪器跟踪方法，适用于无 CAD 且强大的实际应用。在第一个配准阶段，我们结合了仪器有符号距离场 (SDF)，对仪器的 3D 表示进行建模，实现了无需 CAD 的 3D 配准。因此，我们可以通过将视频流与注册的SDF模型进行匹配来获得仪器在3D空间中的位置和方向。在第二跟踪阶段，我们设计了姿势图优化模块，利用姿势内存池的历史跟踪结果来优化跟踪结果并提高遮挡鲁棒性。此外，我们还收集了 Instrument3D 数据集来全面评估手术器械的 3D 跟踪。大量的实验验证了我们的 SurgTrack 的优越性和可扩展性，其性能显着改进，超越了最先进的技术。代码和数据集可在 https://github.com/wenwucode/SurgTrack 获取。

持续学习的视觉语言导航

分类： 人工智能, 机器人技术

作者： Zhiyuan Li, Yanfeng Lv, Ziqin Tu, Di Shang, Hong Qiao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02561v1

摘要： 视觉语言导航 (VLN) 是嵌入式智能中的一个关键领域，要求代理根据自然语言指令在 3D 环境中导航。传统的 VLN 研究重点是提高环境理解和决策准确性。然而，当代理部署在新环境中时，这些方法通常会表现出显着的性能差距，这主要是由于训练数据的多样性有限。扩展数据集以覆盖更广泛的环境是不切实际且成本高昂的。我们提出了带有持续学习的视觉语言导航（VLNCL）范例来应对这一挑战。在这种范式中，代理逐步学习新环境，同时保留以前获得的知识。 VLNCL 使智能体能够维护环境记忆并提取相关知识，从而可以快速适应新环境，同时保留现有信息。我们引入了一种新颖的双循环场景重放方法（Dual-SR），其灵感来自于与 VLN 代理集成的大脑记忆重放机制。这种方法有助于巩固过去的经验并增强新任务的泛化能力。通过利用多场景内存缓冲区，代理可以有效地组织和重播任务记忆，从而增强其快速适应新环境并减轻灾难性遗忘的能力。我们的工作开创了 VLN 代理的持续学习，引入了新颖的实验设置和评估指标。我们通过广泛的评估证明了我们方法的有效性，并为 VLNCL 范式建立了基准。与现有持续学习和 VLN 方法的比较实验显示出显着的改进，在持续学习能力方面实现了最先进的性能，并突显了我们的方法在保留先验知识的同时实现快速适应的潜力。

想搭车吗？对自动驾驶的态度和自动驾驶汽车的行为

分类： 机器人技术, 人机交互

作者： Enrico Del Re, Leonie Sauer, Marco Polli, Cristina Olaverri-Monreal

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02556v1

摘要： 之前进行的研究主要关注与自动驾驶相关的态度或行为。在本文中，我们通过探索对自动驾驶的态度如何影响自动驾驶汽车的行为来弥合这两个维度。我们对 12 名参与非驾驶相关任务的参与者进行了现场实验。我们的研究结果表明，对自动驾驶的态度不会影响参与者对车辆控制和目光扫视行为的驾驶干预。因此，缺乏现场测试的自动驾驶技术研究对于评估自动驾驶汽车的潜在行为、态度和接受度可能不可靠。

小天体重力场建模的模块化管道：变密度球谐系数的有效表示

分类： 机器人技术, 天体物理学仪器和方法

作者： Antonio Rizza, Carmine Buonagura, Paolo Panicucci, Francesco Topputo

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02531v1

摘要： 小行星和彗星等小型天体的近距离作业需要高水平的自主性，以实现经济高效、安全可靠的制导、导航和控制 (GNC) 解决方案。因此，在这些目标附近启用自主 GNC 功能对于未来的太空应用至关重要。然而，其附近的高度非线性和不确定的环境带来了独特的挑战，需要对其进行评估，以赋予对未知形状和重力场的鲁棒性。本文提出了一种旨在生成变密度重力场模型的管道，允许生成一组连贯的场景，可用于 GNC 算法的设计、验证和测试。所提出的方法包括处理具有给定密度分布的物体的多面体形状模型，以计算与重力场相关的球谐展开系数。为了验证该方法，针对具有不同形态和物理特性的多种目标的分析解决方案、文献结果和更高保真度模型进行了多次比较。仿真结果证明了该方法的有效性，在建模精度和计算效率方面表现出良好的性能。这项研究提出了一个更快、更稳健的框架，用于生成环境模型，用于板载 GNC 算法的仿真和硬件在环测试。

Cog-GA：基于大型语言模型的连续环境中视觉语言导航的生成代理

分类： 人工智能, 机器人技术

作者： Zhiyuan Li, Yanfeng Lu, Yao Mu, Hong Qiao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02522v1

摘要： 连续环境中的视觉语言导航 (VLN-CE) 代表了嵌入式人工智能的前沿，要求智能体仅在自然语言指令的指导下在无界 3D 空间中自由导航。这项任务在多模态理解、空间推理和决策方面提出了独特的挑战。为了应对这些挑战，我们引入了 Cog-GA，这是一种基于大语言模型 (LLM) 的生成代理，专为 VLN-CE 任务而定制。 Cog-GA 采用双管齐下的策略来模拟类人的认知过程。首先，它构建了一个认知图，整合了时间、空间和语义元素，从而促进了大语言模型空间记忆的发展。其次，Cog-GA采用航路点预测机制，战略性地优化探索轨迹，以最大限度地提高导航效率。每个路径点都附有双通道场景描述，将环境线索分类为“什么”和“哪里”流作为大脑。这种分离增强了智能体的注意力集中，使其能够辨别相关的空间信息以进行导航。反思机制通过捕获先前导航经验的反馈来补充这些策略，促进持续学习和适应性重新规划。对 VLN-CE 基准进行的广泛评估验证了 Cog-GA 的最先进性能和模拟类人导航行为的能力。这项研究对战略性和可解释的 VLN-CE 药物的开发做出了重大贡献。

eRSS-RAMP：基于扩展责任敏感安全的自动驾驶规则遵守运动规划器

分类： 机器人技术

作者： Pengfei Lin, Ehsan Javanmardi, Yuze Jiang, Dou Hu, Shangkai Zhang, Manabu Tsukada

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02503v1

摘要： 驾驶安全和责任判定是自动驾驶难题中不可或缺的部分。它们还与路权的分配和事故责任的确定密切相关。因此，英特尔/Mobileye设计了责任敏感安全（RSS）框架，以进一步加强自动驾驶的安全监管，该框架从数学上定义了自动驾驶汽车（AV）在各种交通场景下的行为规则。然而，在某些交互不确定性的场景下，特别是在紧急避碰时需要协同驾驶的场景下，RSS框架的规则相对比较初级。此外，目前的研究很少讨论RSS框架与运动规划的集成。因此，我们提出了一种基于扩展RSS（eRSS）规则的规则遵守运动规划器（RAMP），适用于合并和紧急避免场景中的非连接和连接自动驾驶汽车。仿真结果表明，该方法可以实现更快、更安全的并道性能（并道长度缩短53.0%，并道时间减少73.5%），并在紧急避碰时实现更稳定的转向操作，从而使自我路径更平滑车辆及周围车辆。

利用一种基于循环惯性图的估计器 (RING) 消除惯性运动跟踪中的四大挑战

分类： 机器人技术

作者： Simon Bachhuber, Ive Weygers, Thomas Seel

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02502v1

摘要： 在本文中，我们扩展了基于循环惯性图的估计器（RING），这是一种新颖的基于神经网络的惯性运动跟踪（IMT）解决方案，以概括大范围的采样率，并且我们证明它可以克服四个现实世界的挑战：不均匀磁场、传感器与段之间的未对准、稀疏的传感器设置和非刚性传感器附件。 RING 可以根据惯性数据估计具有双铰链关节的三段运动链的旋转状态，并且如果同时存在所有四个挑战，则可以实现 8.10 +/- 1.19 度的实验平均绝对（跟踪）误差。该网络接受了模拟数据的训练，并根据实验数据进行了评估，突显了其从模拟到实验的零样本泛化能力。我们进行了一项消融研究，以分析四个挑战中每一个对 RING 性能的影响，展示其对不同采样率的鲁棒性，并证明 RING 能够实时运行。这项研究不仅通过使其更易于使用和通用来推进 IMT 技术，而且还增强了其在新应用领域的潜力，包括在不受约束的环境中非专家使用带有非刚性传感器附件的稀疏 IMT。

极端海况下水下任务的 USV-AUV 协作框架

分类： 机器人技术, 系统与控制, 系统与控制

作者： Jingzehua Xu, Guanwen Xie, Xinqi Wang, Yiyuan Yang, Shuai Zhang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02444v1

摘要： 自主水下航行器 (AUV) 由于其灵活性以及携带通信和探测单元的能力，对于海洋探索非常有价值。然而，仅 AUV 本身就经常面临恶劣和极端海洋条件的挑战。本研究介绍了一种无人水面车辆（USV）-AUV协作框架，其中包括使用USV路径规划通过Fisher信息矩阵优化和强化学习进行多AUV协作任务的高精度多AUV定位。应用于多AUV水下数据采集任务场景，广泛的模拟验证了该框架的可行性和卓越性能，突出了极端海洋条件下卓越的协调性和鲁棒性。模拟代码将作为开源提供，以促进该领域的未来研究。

移动机器人室内导航的模糊逻辑控制

分类： 机器人技术

作者： Akshay Kumar, Ashwin Sahasrabudhe, Sanjuksha Nirgude

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02437v1

摘要： 自主移动机器人在室内非结构化环境中有许多应用，其中需要机器人的最佳运动。因此，机器人需要在未知的动态环境中导航。本文提出了一种模糊逻辑控制器的实现，用于未知动态杂乱环境中移动机器人的导航。这里使用模糊逻辑控制器，因为它即使在不确定的情况下也能够做出推断。它有助于规则生成和决策过程，以便在各种情况下达到目标位置。来自机器人的传感器读数和所需的运动方向是模糊逻辑控制器的输入，各个轮子的加速度是控制器的输出。因此，移动机器人避开障碍物并到达目标位置。关键词：模糊逻辑控制器，隶属函数，Takagi-Sugeno-Kang FIS，质心去模糊化

基于遮挡的微型移动机器人群对凹面物体的协作运输

分类： 机器人技术

作者： Sanjuksha Nirgude, Animesh Nema, Aishwary Jagetia

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02436v1

摘要： 本文提出了一种基于遮挡的策略，使用一群移动机器人来集体运输凹面物体。我们的目标是克服使用分散方法运输凹面物体的挑战。这项任务的有趣之处在于，代理没有关于对象几何形状的先验知识，并且彼此之间没有明确的通信。这个概念是通过在物体的空腔中填充多个机器人来消除物体的凹面，然后对新形成的凸面物体或“伪物体”执行基于遮挡的传输策略。我们的工作分为两部分：各种凹面物体的凹面填充和凸面物体基于遮挡的集体传输。

深部脑超声消融热剂量建模及体内实验验证

分类： 医学物理, 机器人技术

作者： Zhanyue Zhao, Benjamin Szewczyk, Matthew Tarasek, Charles Bales, Yang Wang, Ming Liu, Yiwei Jiang, Chitresh Bhushan, Eric Fiveland, Zahabiya Campwala, Rachel Trowbridge, Phillip M. Johansen, Zachary Olmsted, Goutam Ghoshal, Tamas Heffter, Katie Gandomi, Farid Tavakkolmoghaddam, Christopher Nycz, Erin Jeannotte, Shweta Mane, Julia Nalwalk, E. Clif Burdette, Jiang Qian, Desmond Yeo, Julie Pilitsis, Gregory S. Fischer

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02395v2

摘要： 体内针基超声治疗 (NBTU) 是一种用于干预恶性脑肿瘤的微创选择，通常用于热消融手术。该技术适用于原发性癌症和转移性癌症，利用高频交变电场（高达 10 MHz）来激发压电换能器。由此产生的换能器快速变形会产生通过组织传播的声波，导致目标肿瘤部位局部高温加热并诱导细胞快速死亡。为了优化治疗期间热剂量输送的 NBTU 换能器的设计，经常采用对变形压电换能器产生的声压场进行数值模拟。输入压力场产生的生物热传递过程用于跟踪涂抹器随时间的热传播。磁共振热成像（MRTI）可用于通过实验验证这些模型。使用 MRTI 的验证结果证明了该模型的可行性，显示出一致的热传播模式。然而，热损伤等剂量图更有利于评估治疗效果。为了实现基于实际脑组织环境的更准确的模拟，进行了具有增强的损伤评估能力的新的有限元法（FEM）模拟。结果表明，实验结果和模拟结果的最高温度和烧蚀体积分别相差2.1884{\deg}C (3.71%)和0.0631 cm$^3$ (5.74%)。峰值温度的最低 Pearson 相关系数 (PCC) 为 0.7117，烧蚀区域的最低 Dice 系数为 0.7021，表明模拟和实验之间的精度吻合良好。

3D 场景中的多模态情景推理

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Xiongkun Linghu, Jiangyong Huang, Xuesong Niu, Xiaojian Ma, Baoxiong Jia, Siyuan Huang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02389v1

摘要： 态势感知对于理解和推理具体 AI 代理中的 3D 场景至关重要。然而，现有的情境理解数据集和基准在数据模式、多样性、规模和任务范围方面受到限制。为了解决这些限制，我们提出了多模态情境问答 (MSQA)，这是一种大规模多模态情境推理数据集，利用 3D 场景图和视觉语言模型 (VLM) 在各种现实世界中进行可扩展收集3D 场景。 MSQA 包括 9 个不同问题类别的 251K 个定位问答对，涵盖 3D 场景中的复杂场景。我们在基准测试中引入了一种新颖的交错多模态输入设置，为情况和问题描述提供文本、图像和点云，解决了之前单模态约定（例如文本）中的歧义。此外，我们还设计了多模式情景下一步导航 (MSNN) 基准来评估模型的导航情景推理。对 MSQA 和 MSNN 的综合评估凸显了现有视觉语言模型的局限性，并强调了处理多模态交错输入和情境建模的重要性。数据扩展和跨域传输的实验进一步证明了利用 MSQA 作为预训练数据集来开发更强大的情境推理模型的有效性。

垂直挑战性地形上轮式移动的强化学习

分类： 机器人技术

作者： Tong Xu, Chenhui Pan, Xuesu Xiao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02383v1

摘要： 在垂直挑战性地形（包括陡坡和崎岖的巨石）上进行越野导航，对轮式机器人在规划层面实现平滑无碰撞轨迹和在控制层面避免翻滚或卡住提出了重大挑战。考虑到车轮与地形相互作用的复杂模型，我们为自动驾驶车辆开发了一种端到端强化学习（RL）系统，通过模拟试错体验来学习轮式移动性。我们的方法使用基于 Chrono 多物理引擎构建的定制设计模拟器，利用近端策略优化 (PPO) 和地形难度课程，根据奖励函数完善策略，以鼓励实现目标并惩罚过度的滚动和俯仰角度，从而避免了复杂且昂贵的运动动力学建模、规划和控制的需要。此外，我们在模拟器中展示了实验结果，并将我们的方法部署在物理 Verti-4-Wheeler (V4W) 平台上，证明强化学习可以为传统轮式机器人配备以前未实现的在垂直挑战性地形中导航的潜力。

指导机器人超声检查师：通过稀疏专家的反馈学习机器人超声检查

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Deepak Raina, Mythra V. Balakuntala, Byung Wook Kim, Juan Wachs, Richard Voyles

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02337v1

摘要： 超声因其无创、无辐射、实时成像等优点，广泛应用于临床干预和诊断。然而，由于操作员需要大量的培训和专业知识，这种灵巧程序的可及性受到限制。机器人超声（RUS）为解决这一限制提供了可行的解决方案；尽管如此，达到人类水平的熟练程度仍然具有挑战性。 RUS 探索了从演示中学习 (LfD) 方法，该方法从离线演示数据集中学习策略，以编码专家超声医师的心理模型。然而，迄今为止，尚未探索在 RUS 培训期间专家的积极参与（即辅导）。教练以提高人类训练的效率和表现而闻名。本文提出了 RUS 的辅导框架，以增强其绩效。该框架将 DRL（自我监督实践）与通过辅导提供的稀疏专家反馈相结合。 DRL 采用离策略 Soft Actor-Critic (SAC) 网络，并根据图像质量评级进行奖励。专家的指导被建模为部分可观察马尔可夫决策过程（POMDP），它根据专家的修正更新策略参数。对模型的验证研究表明，辅导将学习率提高了 $25%$，将高质量图像采集的数量提高了 $74.5%$。

YoloTag：带有基准标记的基于视觉的鲁棒无人机导航

分类： 机器人技术, 计算机视觉和模式识别

作者： Sourav Raxit, Simant Bahadur Singh, Abdullah Al Redwan Newaz

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02334v1

摘要： 通过利用基准标记作为环境中的视觉地标，无人机 (UAV) 可以快速构建精确的地图并安全高效地导航空间，从而释放其与人类流畅协作和共存的潜力。现有的基准标记方法依赖于手工特征提取，这会牺牲准确性。另一方面，用于标记检测的深度学习管道无法满足对于导航应用程序至关重要的实时运行时约束。在这项工作中，我们提出了 YoloTag \textemdash 一个基于基准标记的实时定位系统。 YoloTag 使用轻量级 YOLO v8 对象检测器来准确检测图像中的基准标记，同时满足导航所需的运行时约束。然后，高效的透视 n 点算法使用检测到的标记来估计无人机状态。然而，该定位系统会引入噪声，导致轨迹跟踪不稳定。为了抑制噪声，我们设计了高阶巴特沃斯滤波器，通过频域分析有效消除噪声。我们通过室内环境中的真实机器人实验来评估我们的算法，在几个距离指标方面将我们的方法的轨迹跟踪性能与其他方法进行比较。

机器人在轨服务的视觉伺服：调查

分类： 机器人技术, 计算机视觉和模式识别, 系统与控制, 系统与控制

作者： Lina María Amaya-Mejía, Mohamed Ghita, Jan Dentler, Miguel Olivares-Mendez, Carol Martinez

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02324v1

摘要： 在轨服务（OOS）活动将为可持续太空探索和商业化迈出下一步提供动力。开发用于自主 OOS 操作的机器人能力是航天工业的首要任务。视觉伺服 (VS) 使机器人能够利用视觉信息进行运动控制，从而实现关键 OOS 任务所需的精确机动。本文概述了利用空间操纵器系统 (SMS) 进行自主 OOS 操作的现有 VS 方法。我们根据方法对机器人 OOS 任务的典型阶段的贡献来划分：a) 识别，b) 接近，c) 接触。我们还对经过审查的 VS 方法进行了讨论，确定了当前的趋势。最后，我们强调了机器人 OOS VS 技术未来研究的挑战和领域。

研究人类与移动机械手之间通信的混合现实

分类： 机器人技术

作者： Mohamad Shaaban, Simone Maccio, Alessandro Carfı, Fulvio Mastrogiovanni

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02312v1

摘要： 本文研究了混合现实 (MR) 以增强人机协作 (HRC)。所提出的解决方案采用 MR 作为通信层，向与之交互的人类传达移动机械手的意图和即将采取的行动，从而改善他们的协作。一项涉及 20 名参与者的用户研究证明了这种以 MR 为中心的方法在促进协作任务方面的有效性，对整体协作性能和人类满意度产生了积极影响。

机器人学的动觉教学：混合现实方法

分类： 机器人技术

作者： Simone Maccio, Mohamad Shaaban, Alessandro Carfı, Fulvio Mastrogiovanni

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02305v1

摘要： 随着协作机器人在制造场景中变得越来越普遍，并在混合人机团队中得到采用，我们应该开发新的交互和通信策略，以确保代理之间的顺利协作。在本文中，我们提出了一种新颖的通信界面，它使用混合现实作为媒介在任何机器人平台上执行动觉教学（KT）。我们在涉及多个受试者和两个不同机器人的用户研究中评估了我们提出的方法，通过用户体验调查问卷和任务相关指标将传统物理 KT 与基于全息的 KT 进行比较。

使用音频和视频进行无监督焊接缺陷检测

分类： 机器人技术, 计算机视觉和模式识别, 图像和视频处理

作者： Georg Stemmer, Jose A. Lopez, Juan A. Del Hoyo Ontiveros, Arvind Raju, Tara Thimmanaik, Sovan Biswas

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02290v1

摘要： 在这项工作中，我们探索人工智能在机器人焊接中的应用。机器人焊接是许多行业广泛使用的技术，但机器人目前不具备检测焊接过程中由于各种原因引入的焊接缺陷的能力。我们描述了如何应用深度学习方法通过麦克风和摄像头记录焊接过程来实时检测焊接缺陷。我们的研究结果基于一个大型数据库，其中包含我们收集的 4000 多个焊接样本，涵盖不同的焊接类型、材料和各种缺陷类别。所有深度学习模型都以无监督的方式进行训练，因为可能的缺陷空间很大，并且我们数据中的缺陷可能包含偏差。我们证明，通过音频和视频对大多数类别的焊接缺陷进行可靠的实时检测是可行的，并通过结合这两种方式实现了改进。具体来说，多模态方法在我们的数据中的所有 11 种缺陷类型中实现了 0.92 的平均 ROC 曲线下面积 (AUC)。我们通过按缺陷类型分析结果并讨论未来工作来总结本文。

SlipNet：异构可变形地形自主导航的滑动成本图

分类： 机器人技术

作者： Mubarak Yakubu, Yahya Zweiri, Ahmad Abubakar, Rana Azzam, Ruqayya Alhammadi, Lakmal Seneviratne

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02273v1

摘要： 在太空探索过程中，自主太空漫游器在可变形和异质地形中导航时面临着重大挑战。受不同土壤特性的影响，地形类型的变化往往会导致严重的车轮打滑，从而影响导航效率并可能导致卡住。本文提出了 SlipNet，一种预测异构可变形地形表面分段区域中滑动的方法，以增强导航算法。与以前的方法不同，SlipNet 不依赖于先前的地形分类，通过部署期间的动态地形分割和滑动分配来减少预测误差和错误分类，同时保留地形类别的历史记录。这种自适应重分类机制提高了预测性能。大量的仿真结果表明，我们的模型（DeepLab v3+ + SlipNet）比 TerrainNet 实现了更好的滑动预测性能，在五个地形样本测试中平均绝对误差（MAE）更低。

GraspSplats：通过 3D 特征展开进行高效操作

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Mazeyu Ji, Ri-Zhao Qiu, Xueyan Zou, Xiaolong Wang

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02084v1

摘要： 机器人对物体部件进行高效、零次抓取的能力对于实际应用至关重要，并且随着视觉语言模型（VLM）的最新进展而变得越来越普遍。为了弥合 2D 到 3D 表示的差距以支持这种功能，现有方法依靠可微渲染或基于点的投影方法的神经场 (NeRF)。然而，我们证明 NeRF 不适合场景变化，因为它们的隐式性，并且基于点的方法在没有基于渲染的优化的情况下对于零件定位来说是不准确的。为了修正这些问题，我们提出了 GraspSplats。 GraspSplats 使用深度监督和新颖的参考特征计算方法，可在 60 秒内生成高质量的场景表示。我们进一步验证了基于高斯表示的优势，表明 GraspSplats 中的显式和优化几何结构足以原生支持 (1) 实时抓取采样和 (2) 使用点跟踪器进行动态和铰接式对象操作。通过对 Franka 机器人进行大量实验，我们证明 GraspSplats 在不同的任务设置下显着优于现有方法。特别是，GraspSplats 优于基于 NeRF 的方法（如 F3RM 和 LERF-TOGO）以及 2D 检测方法。

用于抓取规划的视觉关系推理的现代视角

分类： 机器人技术, 计算机视觉和模式识别

作者： Paolo Rabino, Tatiana Tommasi

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02035v1

摘要： 与现实世界的杂乱场景交互给机器人代理带来了一些挑战，机器人代理需要了解观察到的对象之间复杂的空间依赖性，以确定最佳的拾取序列或有效的对象检索策略。现有的解决方案通常管理简化的场景，并专注于预测初始对象检测阶段后的成对对象关系，但常常忽略全局上下文或难以处理冗余和缺失的对象关系。在这项工作中，我们提出了用于抓取规划的视觉关系推理的现代视角。我们推出了 D3GD，这是一个新颖的测试平台，其中包括来自 97 个不同类别的多达 35 个物体的垃圾箱拣选场景。此外，我们提出了 D3G，一种新的基于端到端变压器的依赖图生成模型，它可以同时检测对象并生成表示其空间关系的邻接矩阵。认识到标准指标的局限性，我们首次采用关系平均精度来评估模型性能，进行了广泛的实验基准。所获得的结果确立了我们的方法作为这项任务的最新技术，为未来的机器人操纵研究奠定了基础。我们在 https://paolotron.github.io/d3g.github.io 公开发布代码和数据集。

通过对主动推理代理中的非线性传感器进行高斯近似来规划避免模糊状态

分类： 系统与控制, 人工智能, 机器人技术, 系统与控制, 机器学习

作者： Wouter M. Kouw

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01974v1

摘要： 在自然界中，主动推理主体必须了解对世界的观察如何代表主体的状态。在工程中，传感器背后的物理原理通常是相当准确的，并且测量函数可以合并到生成模型中。当测量函数是非线性时，变换后的变量通常用高斯分布来近似，以确保易于推理。我们表明，对测量函数的曲率敏感的高斯近似（例如二阶泰勒近似）会产生状态相关的模糊度项。这会导致对状态的偏好，基于从观察中推断状态的准确程度。我们通过机器人导航实验证明了这种偏好，其中智能体规划轨迹。

使用图注意力网络学习无人机的弹性编队控制

分类： 机器人技术

作者： Jiaping Xiao, Xu Fang, Qianlei Jia, Mir Feroskhan

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01953v1

摘要： 无人机技术的快速发展对搜救、环境监测和工业检查等各个领域产生了重大影响。多无人机系统具有显着的优势，例如比单无人机操作更高的效率、可扩展性和冗余性。尽管有这些好处，但确保在动态和对抗环境中（例如在通信丢失或网络攻击下）的弹性编队控制仍然是一个重大挑战。弹性编队控制的经典方法虽然在某些情况下有效，但通常会遇到复杂的建模和维数灾难的问题，特别是当代理数量增加时。本文提出了一种新颖的、基于学习的编队控制，用于使用图注意网络（GAT）增强多无人机编队的适应性和弹性。通过利用 GAT 的动态功能基于注意力机制提取节点间关系，这种基于 GAT 的编队控制器显着提高了无人机编队抵御拒绝服务 (DoS) 攻击等各种威胁的鲁棒性。我们的方法不仅提高了正常条件下的编队性能，而且还确保了多无人机系统在多变和敌对环境中的弹性。大量的仿真结果证明了我们的方法比基线编队控制器具有优越的性能。此外，物理实验验证了经过训练的控制策略在现实飞行中的有效性。

评估 HTC VIVE Ultimate Tracker 在不同环境条件下机器人和人体运动的精度

分类： 机器人技术, 人机交互

作者： Julian Kulozik, Nathanaël Jarrassé

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01947v2

摘要： HTC VIVE Ultimate Tracker 利用由内而外的跟踪和内部立体摄像头提供 6 DoF 跟踪，无需外部摄像头，为运动跟踪提供经济高效且简单的设置。最初是为游戏和 VR 行业设计的，我们探索了 VR 之外的应用，提供了 C++ 和 Python 数据捕获源代码，无需 VR 耳机。这项研究首次评估了跟踪器在各种实验场景中的精度。为了评估跟踪精度的稳健性，我们采用机械臂作为精确且可重复的运动源。以 OptiTrack 系统为参考，我们在不同的实验条件下进行了测试：照明、移动速度、场景中物体位移引起的环境变化、跟踪器前面的人体移动，以及相对于物体的位移大小的变化校准中心。平均而言，HTC VIVE Ultimate Tracker 在各种条件下的精确度为 4.98 毫米 +/- 4 毫米。影响精度的最关键因素是照明条件、运动速度以及相对于校准中心的运动范围。为了进行实际评估，我们在真实的动作捕捉场景中使用 5 个跟踪器捕捉人体动作。我们的研究结果表明，捕捉人类动作的精度足够高，并通过两项任务进行了验证：低动态拾放任务和精英运动员执行的高动态击剑动作。尽管其精度低于传统的基于固定摄像头的运动捕捉系统，并且其性能受到多种因素的影响，但 HTC VIVE Ultimate Tracker 仍为各种运动跟踪应用展示了足够的精度。它能够捕捉 VR 或 MOCAP 环境之外的人体或物体运动，这使得它的用途特别广泛。

增强现实与移动机器人室内 SLAM 集成，增强空间感知

分类： 机器人技术

作者： Michael D. Friske

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01915v1

摘要： 这项研究探索了室内同步定位与地图构建 (SLAM) 与增强现实 (AR) 的集成，以增强态势感知能力，提高危险或紧急情况下的安全性。这项工作的主要贡献是使移动机器人能够为不与机器人共处一地的用户提供实时空间感知。这是一种综合方法，包括为室内 SLAM 选择合适的传感器、设计和构建平台、开发在 AR 设备上显示地图的方法、将其实现到 AR 设备上的软件中，以及提高机器人和机器人之间通信和定位的鲁棒性。 AR设备在现实世界中的测试。通过采用这种方法并分析集成系统的每个组件，本文强调了未来研究的众多领域，这些领域可以进一步推进 SLAM 和 AR 技术的集成。这些进步旨在显着提高救援行动期间的安全性和效率。

使用区块链技术保护机器人群中的联邦学习

分类： 机器人技术

作者： Alexandre Pacheco, Sébastien De Vos, Andreagiovanni Reina, Marco Dorigo, Volker Strobel

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01900v1

摘要： 联邦学习是分布式机器学习的一种新方法，它具有潜在的优势，例如减少通信要求和分散训练算法的成本。因此，它在群体机器人应用中具有广阔的前景。然而，联邦学习通常需要一个集中服务器来聚合模型。在本文中，我们提出了一种在机器人群中联邦学习的概念验证实现，该方法不会影响去中心化。为此，我们使用区块链技术使我们的机器人群能够安全地同步共享模型，该模型是各个模型的聚合，而无需依赖中央服务器。然而，我们随后证明，引入单个故障机器人可能会严重扰乱训练过程。为了防止这种情况发生，我们设计了通过安全且防篡改的区块链智能合约实施的保护机制。我们的实验是在 ARGoS（一种基于物理的群体机器人模拟器）中进行的，使用由每个模拟机器人执行的以太坊区块链协议。

7自由度关节臂逆运动学三维几何分辨率

分类： 机器人技术

作者： Antonio Losada González

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01792v1

摘要： 这项工作提出了一种三维几何解析方法来计算 7 自由度关节臂（包括手本身）的完整逆运动学。该方法被归类为具有几何解的解析方法，因为它在封闭的步骤中获得精确的解，将逆运动学问题转换为三维几何模型。为了简化问题，使用了运动学解耦方法，从而利用手的方向信息独立计算一只手的手腕位置，并根据手腕计算手臂其余部分的角度。

绘制人机共置交互的安全区

分类： 机器人技术

作者： Ayodeji O. Abioye, Lisa Bidgood, Sarvapali D. Ramchurn, Mohammad D. Soorati

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01768v1

摘要： 机器人技术的最新进展使我们更接近与机器人生活、同居和共享个人空间的现实。然而，目前尚不清楚在共享环境中，共处一地的机器人可以与人类保持多近的距离，而不会让人类感到不舒服或焦虑。这项研究旨在为同位置的空中机器人绘制安全和舒适的区域。目标是确定无人机对同一地点的人类造成不适的距离，并创建一张显示禁飞区、适度飞行区和安全飞行区的地图。我们总共招募了 18 名参与者，进行了两次室内实验室实验，一次使用一架无人机，另一次使用两架无人机。我们的结果表明，当靠近同一地点的人类时，多架无人机比单架无人机会造成更多不适。我们观察到，在单架无人机实验中，200厘米以下的距离会引起不适，适度飞行区域为200-300厘米，安全飞行区域为任何大于300厘米的距离。为了进行多次无人机实验，安全区被推远了 100 厘米。在本文中，我们介绍了多架无人机安全飞行区的初步发现。进一步的工作将调查更多数量的空中机器人、接近速度、行进方向和噪音水平对共处一地的人类的影响，并自主开发共处一地的空中群的信任区和安全区的 3D 模型。

ReKep：机器人操作关系关键点约束的时空推理

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Wenlong Huang, Chen Wang, Yunzhu Li, Ruohan Zhang, Li Fei-Fei

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01652v1

摘要： 将机器人操作任务表示为关联机器人和环境的约束是编码所需机器人行为的一种有前途的方法。然而，目前尚不清楚如何制定约束条件，使其 1) 能够适应不同的任务，2) 无需手动标记，3) 可通过现成的求解器进行优化以实时产生机器人动作。在这项工作中，我们引入了关系关键点约束（ReKep），这是一种基于视觉的机器人操作约束表示。具体来说，ReKep 表示为将环境中的一组 3D 关键点映射到数值成本的 Python 函数。我们证明，通过将操作任务表示为一系列关系关键点约束，我们可以采用分层优化程序来求解具有感知-动作循环的机器人动作（由 SE(3) 中的一系列末端执行器姿势表示）以实时频率。此外，为了避免对每个新任务手动指定 ReKep 的需要，我们设计了一种自动化程序，利用大型视觉模型和视觉语言模型从自由格式语言指令和 RGB-D 观察结果生成 ReKep。我们在轮式单臂平台和固定双臂平台上展示系统实现，这些平台可以执行多种操纵任务，具有多阶段、野外、双手和反应行为，所有这些都没有特定于任务的行为数据或环境模型。网站 https://rekep-robot.github.io。

BEVNav：通过鸟瞰时空对比学习实现机器人自主导航

分类： 机器人技术

作者： Jiahao Jiang, Yuxiang Yang, Yingqi Deng, Chenlong Ma, Jing Zhang

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01646v1

摘要： 无地图环境中的目标驱动移动机器人导航需要有效的状态表示才能做出可靠的决策。受点云中鸟瞰图 (BEV) 视觉感知的有利特性的启发，本文介绍了一种名为 BEVNav 的新颖导航方法。它采用深度强化学习来学习 BEV 表示并增强决策可靠性。首先，我们提出了一种自监督时空对比学习方法来学习 BEV 表示。在空间上，点云中的两个随机增强视图相互预测，从而增强了空间特征。在时间上，我们将当前观察与连续帧的动作相结合来预测未来的特征，建立观察转换和动作之间的关系以捕获时间线索。然后，将这种时空对比学习纳入 Soft Actor-Critic 强化学习框架中，我们的 BEVNav 提供了卓越的导航策略。大量实验证明了 BEVNav 在行人密集的环境中的鲁棒性，在多个基准测试中均优于最先进的方法。 \rev{该代码将在 https://github.com/LanrenzzzZ/BEVNav 上公开发布。

SafeEmbodAI：嵌入式人工智能系统中移动机器人的安全框架

分类： 机器人技术, 人工智能, 新兴技术

作者： Wenxiao Zhang, Xiangrui Kong, Thomas Braunl, Jin B. Hong

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01630v1

摘要： 实体人工智能系统，包括与物理世界自主交互的人工智能机器人，将通过大型语言模型（LLM）得到显着进步，使机器人能够更好地理解复杂的语言命令并以增强的理解力和适应性执行高级任务，强调他们提高具体人工智能能力的潜力。然而，这一进步也带来了安全挑战，特别是在机器人导航任务中。安全管理不当会导致复杂环境下出现故障，并使系统容易受到恶意命令注入，从而产生绕道、碰撞等不安全行为。为了解决这些问题，我们提出了 \textit{SafeEmbodAI}，这是一个用于将移动机器人集成到具体人工智能系统中的安全框架。 \textit{SafeEmbodAI} 结合了安全提示、状态管理和安全验证机制，以保护和协助大语言模型通过多模式数据进行推理并验证响应。我们设计了一个指标来评估面向任务的探索，在模拟环境中的评估表明，我们的框架有效地减轻了恶意命令的威胁，并提高了各种环境设置中的性能，确保了嵌入式人工智能系统的安全。值得注意的是，在具有混合障碍的复杂环境中，与攻击场景中的基线相比，我们的方法表现出 267% 的显着性能提升，凸显了其在挑战性条件下的鲁棒性。

高精度定位系统

分类： 机器人技术

作者： Antonio Losada González

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01617v1

摘要： SAPPO是一种高精度、低成本、高扩展性的室内定位系统。该系统采用改进的 HC-SR04 超声波换能器作为基础进行设计，用作信标和移动机器人之间的距离计。此外，它的元件布置非常不寻常，使得移动机器人的信标和发射器阵列位于非常接近的平面上，采用水平发射布置，与地面平行，每个传感器的范围几乎达到12米。 SAPPO 代表了超声定位系统的重大飞跃，在降低信标密度的同时保持毫米范围内的平均精度。

GaussianPU：一种混合 2D-3D 上采样框架，用于通过 3D 高斯泼溅增强彩色点云

分类： 机器人技术, 人工智能

作者： Zixuan Guo, Yifan Xie, Weijing Xie, Peng Huang, Fei Ma, Fei Richard Yu

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01581v1

摘要： 密集的彩色点云增强了视觉感知，在各种机器人应用中具有重要价值。然而，现有的基于学习的点云上采样方法受到计算资源和批处理策略的限制，这通常需要将点云细分为更小的块，从而导致失真，从而降低感知质量。为了应对这一挑战，我们提出了一种基于 3D 高斯泼溅 (3DGS) 的新型 2D-3D 混合彩色点云上采样框架 (GaussianPU)，用于机器人感知。这种方法利用 3DGS 将 3D 点云与机器人视觉系统中的 2D 渲染图像连接起来。双尺度渲染图像恢复网络将稀疏点云渲染转换为密集表示，然后将其与精确的机器人相机姿势和插值稀疏点云一起输入到 3DGS 中，以重建密集的 3D 点云。我们对普通 3DGS 进行了一系列增强，能够精确控制点的数量，并显着提高用于机器人场景理解的上采样点云的质量。我们的框架支持在单个消费级 GPU（例如 NVIDIA GeForce RTX 3090）上处理整个点云，无需进行分割，从而生成具有数百万个点的高质量、密集彩色点云，用于机器人导航和操作任务。生成百万级点云数据的大量实验结果验证了我们方法的有效性，显着提高了彩色点云的质量，并展示了在自主机器人和人机交互场景中涉及大规模点云的应用的巨大潜力。

PR2：实体人工智能和人形机器人的物理和照片真实感测试平台

分类： 机器人技术

作者： Hangxin Liu, Qi Xie, Zeyu Zhang, Tao Yuan, Xiaokun Leng, Lining Sun, Song-Chun Zhu, Jingwen Zhang, Zhicheng He, Yao Su

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01559v1

摘要： 本文介绍了物理真实感和照片真实感人形机器人测试台 PR2 的开发，以促进具体人工智能（Embodied AI）和机器人之间的协作研究。 PR2提供高质量的场景渲染和机器人动态模拟，能够（i）使用各种数字资产创建多样化的场景，（ii）集成先进的感知或基础模型，以及（iii）实施规划和控制算法基于环境反馈的动态人形机器人行为。 PR2测试版已部署在全国大学生全尺寸人形机器人竞赛模拟赛道上，四个月内吸引了137支队伍、400余名参赛者。此次比赛涵盖了双足行走的传统任务，以及机器人操作和基于语言指令的物体搜索方面的新颖挑战，这标志着公立大学机器人竞赛的首次。对比赛的回顾性分析表明，未来的赛事应该强调运动与操纵和感知的结合。通过在 https://github.com/pr2- humanoid/PR2-Platform 公开 PR2 测试床，我们的目标是进一步推进人形机器人技术的教育和培训。

使用机载传感器对无人机进行基于 DOB 的风估计

分类： 机器人技术

作者： Haowen Yu, Xianqi Liang, Ximin Lyu

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01549v1

摘要： 无人机（UAV）在气象研究中发挥着至关重要的作用，特别是在环境风场测量中。然而，当前使用无人机的测风方法存在一些需要解决的挑战。首先，测量精度低，测量范围有限。其次，所采用的算法缺乏鲁棒性和跨不同无人机平台的适应性。第三，动态飞行期间可用于风估计的方法有限。最后，虽然水平面测量是可行的，但垂直方向估计常常缺失。为了应对这些挑战，我们提出并实施了一种全面的风力估计算法。我们的算法提供了几个关键功能，包括估计 3-D 风矢量的能力，即使在无人机动态飞行期间也能进行风估计。此外，我们的算法表现出跨各种无人机平台的适应性。风洞中的实验结果验证了我们算法的有效性，展示了诸如风速精度为 $0.11$ m/s 和风向误差小于 $2.8^\circ$ 等改进。此外，我们的方法将测量范围扩展至 $10$ m/s。

具有按需协作感知的态势感知自动驾驶决策

分类： 机器人技术

作者： Wei Liu

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01504v1

摘要： 本文研究了合作感知对城市道路自动驾驶决策的影响。可以适当地利用协作感知带来的扩展感知范围来解决车辆内的隐式依赖性，从而提高车辆决策性能。同时，我们承认无线通信的固有局限性，并提出了一种按需协作感知（CPoD）策略，其中只有当需要扩展感知范围来实现适当的态势感知时，才会激活协作感知。 CPoD 的态势感知决策被建模为部分可观察马尔可夫决策过程 (POMDP)，并以在线方式求解。评估结果表明，所提出的方法可以安全有效地在城市道路上自动驾驶。

用于未映射和动态环境中安全的时变软最大屏障函数

分类： 机器人技术, 系统与控制, 系统与控制

作者： Amirsaeid Safari, Jesse B. Hoagg

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01458v1

摘要： 我们提出了一种封闭式最优反馈控制方法，可确保先验未知和潜在动态环境中的安全。本文考虑了定期获取本地感知数据（例如 LiDAR）的场景，并且该数据可用于构建本地控制屏障函数（CBF），该函数对未来一段时间内安全的本地集进行建模。然后，我们使用平滑的时变软极大值函数将 N 个最近获得的局部 CBF 组合成单个障碍函数，该函数对 N 个最近获得的局部集合的近似并集进行建模。该复合障碍函数用于约束二次优化，以封闭形式求解以获得安全且最优的反馈控制。我们还将时变软最大障碍函数控制应用于两个机器人系统（具有不可忽略惯性的非完整地面机器人和四旋翼机器人），其目标是安全地导航先验未知环境并到达目标目的地。在这些应用中，我们提出了一种简单的方法，可以从定期获取的感知数据中生成本地 CBF。

通过扩散模型和近端策略优化的集成提高强化学习中的样本效率和探索

分类： 机器学习, 机器人技术

作者： Gao Tianci, Dmitriev D. Dmitry, Konstantin A. Neusypin, Yang Bo, Rao Shengren

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01427v1

摘要： 大规模数据和深度神经网络推动了强化学习（RL）的最新进展，特别是对于高维和复杂的任务。近端策略优化 (PPO) 等在线强化学习方法在动态场景中有效，但需要大量实时数据，这在资源受限或缓慢的模拟环境中带来了挑战。离线强化学习通过从大型数据集中预学习策略来解决这个问题，尽管它的成功取决于数据的质量和多样性。这项工作提出了一个框架，通过合并扩散模型来增强 PPO 算法，为离线数据集生成高质量的虚拟轨迹。这种方法提高了探索和样本效率，从而在复杂任务中显着提高累积奖励、收敛速度和策略稳定性。我们的贡献有三个方面：我们探索了强化学习中扩散模型的潜力，特别是对于离线数据集，将在线强化学习的应用扩展到离线环境，并通过实验验证了扩散模型对 PPO 的性能改进。这些发现为将强化学习应用于高维、复杂任务提供了新的见解和方法。最后，我们在 https://github.com/TianciGao/DiffPPO 开源我们的代码

性能感知的自配置多代理网络：一种用于同时协调和网络设计的分布式子模块方法

分类： 系统与控制, 人工智能, 多代理系统, 机器人技术, 系统与控制, 优化与控制

作者： Zirui Xu, Vasileios Tzoumas

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01411v1

摘要： 据我们所知，我们引入了第一种严格的方法，使多代理网络能够自我配置其通信拓扑，以在多代理规划期间平衡可扩展性和最优性之间的权衡。我们受到无处不在的协作自治的未来的激励，其中众多分布式代理将通过代理间通信进行协调，以执行复杂的任务，例如流量监控、事件检测和环境探索。但是，由于现有近乎最优协调算法的计算和通信要求导致决策时间不切实际，此类大规模网络中的信息爆炸目前限制了其部署。为了克服这一挑战，我们提出了 AlterNAting 协调和网络设计算法（Anaconda），这是一种可扩展的算法，也享有近乎最优的保证。根据代理的带宽限制，Anaconda 使代理能够优化其本地通信邻域，从而最大化网络的动作协调近似性能。与最先进的技术相比，Anaconda 是一种随时可自配置的算法，可以量化任何类型网络（从完全断开连接到完全集中式）的次优保证，并且对于稀疏网络，决策速度快一个数量级。为了开发该算法，我们量化了由于去中心化（即由于通信最小化分布式协调）导致的次优成本。我们还采用受多臂老虎机和受基数约束的子模最大化文献启发的工具。我们在区域监控的模拟场景中演示了 Anaconda，并将其与最先进的算法进行比较。

自主局部操作任务中的语言模型基础

分类： 机器人技术, 人工智能, 机器学习

作者： Jin Wang, Nikos Tsagarakis

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01326v1

摘要： 具有行为自主权的人形机器人一直被认为是我们日常生活中的理想合作者，也是具身智能的有前景的代表。与固定式机械臂相比，仿人机器人提供了更大的操作空间，同时显着增加了控制和规划的难度。尽管通用类人机器人取得了快速进展，但大多数研究仍然集中在运动能力上，而对全身协调和任务规划的研究很少，从而限制了在开放式语言下展示涉及移动性和操纵性的长期任务的潜力指示。在这项工作中，我们提出了一种新颖的框架，可以根据不同场景中的任务来学习、选择和规划行为。我们将强化学习（RL）与全身优化相结合，生成机器人运动并将其存储到运动库中。我们进一步利用大语言模型（LLM）的规划和推理功能，构建一个包含一系列运动原语的分层任务图，以将较低级别的执行与较高级别的规划联系起来。使用 CENTAURO 机器人进行的仿真和现实世界实验表明，基于语言模型的规划器可以有效地适应新的局部操作任务，在非结构化场景中展示自由文本命令的高度自主性。

对运行中的自动驾驶软硬件的拒绝服务攻击调查

分类： 系统与控制, 机器人技术, 系统与控制

作者： Tillmann Stübler, Andrea Amodei, Domenico Capriglione, Giuseppe Tomasso, Nicolas Bonnotte, Shawan Mohammed

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01324v1

摘要： 本研究调查了拒绝服务 (DoS) 攻击，特别是互联网控制消息协议 (ICMP) 洪水攻击对自动驾驶 (AD) 系统的影响，重点关注其控制模块。创建了两个实验设置：第一个涉及对运行 AD 软件堆栈的 Raspberry Pi 进行 ICMP 洪水攻击，第二个检查单次和双重 ICMP 洪水攻击对全球导航卫星系统实时动态 (GNSS-RTK) 的影响）市场上出售的用于自动驾驶车辆高精度定位的设备。结果表明 DoS 攻击对 AD 堆栈产生中等影响，其中中值计算时间的增加微乎其微，这表明对这些类型的攻击具有一定程度的恢复能力。相比之下，GNSS 设备表现出严重的漏洞：在 DoS 攻击期间，单攻击者配置和双攻击者配置的采样率分别急剧下降至标称率的 50% 和 5% 左右。此外，在攻击期间观察到的最长时间增量在数秒范围内。这些结果强调了 AD 系统容易遭受 DoS 攻击，并且迫切需要强大的网络安全措施。这项工作为 AD 软件堆栈的设计要求提供了宝贵的见解，并强调了外部硬件和模块可能是重要的攻击面。

通过磁力驱动对藤蔓机器人进行外部转向

分类： 机器人技术

作者： Nam Gyun Kim, Nikita J. Greenidge, Joshua Davy, Shinwoo Park, James H. Chandler, Jee-Hwan Ryu, Pietro Valdastri

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01319v1

摘要： 本文探讨了藤蔓机器人的外部磁控制概念，使其能够在腔内应用中实现高曲率转向和导航。藤蔓机器人受到自然生长和运动策略的启发，具有独特的形状适应能力，可以在障碍物周围进行被动变形。然而，如果没有额外的引导机制，它们缺乏主动选择所需增长方向的能力。讨论了磁控生长机器人的原理，实验结果展示了所提出的磁驱动方法的有效性。我们展示了一款直径 25 毫米的藤蔓机器人，配有集成磁性尖端胶囊，包括 6 自由度 (DOF) 定位和摄像头，并展示了 3.85 厘米的最小弯曲半径和 30 kPa 的内部压力。此外，我们还评估了机器人通过复杂的导航任务形成紧密曲率的能力，并通过磁驱动实现扩展的自由空间导航而不会屈曲。还使用 6 DOF 定位系统对磁性尖端的悬架进行了验证，以确保保留藤蔓机器人的无剪切特性。此外，通过利用尖端的磁性扳手，我们展示了藤蔓收缩的初步结果。这些发现有助于开发用于腔内应用的可控藤蔓机器人，提供高尖端力和无剪切导航。

机器人系统的自适应人工延时控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Swati Dantu

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01277v1

摘要： 人工时滞控制器的概念是针对非线性系统，以减少对精确系统建模的依赖，这与传统的自适应和鲁棒控制策略不同。在这种方法中，通过使用在刚刚过去的时刻（即人为延迟）收集的输入和状态测量来补偿未知的动态。这种方法的优点在于其简单性和易于实现。然而，人工时延控制器在机器人技术中的应用仍然普遍缺失，这种控制器对于未知的状态相关的不确定性也具有鲁棒性。本论文介绍了针对两类重要的机器人系统（即完全驱动的双足步行机器人和欠驱动的四旋翼系统）的这种控制方法的研究。在第一项工作中，我们探索了统一控制设计的想法，而不是自适应双足行走控制中不同行走阶段的多个控制器，同时绕过计算约束力，因为它们通常会导致复杂的设计。第二项工作重点关注用于有效载荷输送、检查和搜救等应用的四旋翼飞行器。使用实验结果验证了该控制器的有效性。

重新审视安全强化学习中的安全探索

分类： 机器学习, 人工智能, 机器人技术

作者： David Eckel, Baohe Zhang, Joschka Bödecker

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01245v1

摘要： 安全强化学习 (SafeRL) 通过安全理念扩展了标准强化学习，其中安全性通常是通过轨迹的预期成本回报低于设定限制的约束来定义的。然而，该指标无法区分成本是如何产生的，将不常见的严重成本事件视为与频繁的轻微成本事件相同，这可能会导致风险更高的行为并导致不安全的勘探。我们引入了一个新的指标，即预期最大连续成本步骤（EMCC），它通过根据连续发生的不安全步骤的严重性来评估训练期间的安全性。该指标对于区分长期和偶然的安全违规行为特别有效。我们在on-policy和off-policy算法中应用EMMC来衡量它们的安全探索能力。最后，我们通过一组基准验证我们的指标，并提出一个新的轻量级基准任务，它可以快速评估算法设计。

告别旋转手机：SLAM 期间的磁力计校准

分类： 机器人技术, I.2.9

作者： Ilari Vallivaara, Yinhuan Dong, Tughrul Arslan

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01242v1

摘要： 虽然 Wi-Fi 定位在室内仍然更为常见，但使用磁场特征已广为人知，并被用作替代或支持信息源。磁力计偏差给磁场导航和 SLAM 带来了重大挑战。传统上，磁力计是使用标准球体或椭球体拟合方法并要求手动用户程序进行校准的，例如将智能手机旋转为 8 字形。这并不总是可行的，特别是当磁力计连接到重型或快速移动的平台时，或者当无法可靠地控制用户行为时。最近的研究提出在定位过程中使用地图数据进行校准。本文更进一步验证了不需要预先收集的地图；相反，校准可以作为 SLAM 过程的一部分来完成。所提出的解决方案使用分解粒子滤波器，除了磁场图之外，还可以分解校准。使用来自购物中心的智能手机数据和来自办公环境的移动机器人数据对该方法进行了验证。结果支持这样的说法：在 SLAM 期间可以实现磁力计校准，其精度可与手动校准相当。此外，该方法似乎在其基础上使用时稍微改进了手动校准，这表明集成各种校准方法的潜力。

CyberCortex.AI：用于自主机器人和复杂自动化的基于人工智能的操作系统

分类： 机器人技术, 人工智能, 操作系统

作者： Sorin Grigorescu, Mihai Zaha

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01241v1

摘要： 控制自主机器人和复杂自动化应用程序的底层框架是操作系统（OS），该操作系统能够调度感知和控制任务，并为其他机器人对等体和远程云计算机提供实时数据通信。在本文中，我们介绍了 CyberCortex.AI，这是一种机器人操作系统，旨在实现基于人工智能的异构机器人和复杂的自动化应用程序。 CyberCortex.AI 是一种去中心化的分布式操作系统，使机器人能够相互通信，并与云中的高性能计算机 (HPC) 通信。来自机器人的传感和控制数据被传输到 HPC 系统，目的是训练人工智能算法，然后将其部署在机器人上。机器人的每个功能（例如，传感数据采集、路径规划、运动控制等）都是在通过互联网共享的所谓过滤器数据块内执行的，其中每个过滤器要么在机器人本身本地计算，要么在机器人上远程计算。不同的机器人系统。数据通过所谓的\textit{临时可寻址存储器}（TAM）进行存储和访问，该存储器充当每个过滤器的输入和输出之间的网关。 CyberCortex.AI 有两个主要组件：i) CyberCortex.AI.inference 系统，它是在机器人嵌入式硬件上运行的 DataBlock 的实时实现；ii) CyberCortex.AI.dojo，它在机器人上运行云中的 HPC 计算机，用于设计、训练和部署人工智能算法。我们使用两个协作机器人应用程序对所提出的方法进行定量和定性性能分析：\textit{i}）基于 Unitree A1 腿式机器人和 Anafi Parrot 4K 无人机的森林防火系统，以及 \textit{ii }）一个自动驾驶系统，使用 CyberCortex.AI 进行协作感知和运动控制。

一自由度有理连杆的正运动学、逆运动学和运动规划

分类： 机器人技术

作者： Daniel Huczala, Andreas Mair, Tomas Postulka

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01198v1

摘要： 本研究提出了一组算法，用于处理具有一个自由度 (DoF) 的理性单环机构的轨迹规划。受益于有理运动的对偶四元数表示，提供了直接（正向）运动学公式、数值逆运动学算法以及驱动关节轨迹的生成。提出了一种使用高斯-牛顿搜索来解决单参数逆运动学问题的新方法。另外，通过应用弧长重新参数化提供了一种用于执行工具平滑等距行进的方法。这种通用方法可以应用于具有四到七个以合理运动为特征的单自由度机构，而无需任何额外的几何分析。进行了一项实验来演示在实验室设置中的用法。

集成端到端和模块化驾驶方法以实现自动驾驶中的在线极端情况检测

分类： 人工智能, 机器人技术

作者： Gemb Kaljavesi, Xiyan Su, Frank Diermeyer

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01178v1

摘要： 在线极端情况检测对于确保自动驾驶车辆的安全至关重要。当前的自动驾驶方法可以分为模块化方法和端到端方法。为了利用两者的优势，我们提出了一种在线极端情况检测方法，将端到端方法集成到模块化系统中。模块化系统接管主要驱动任务，端到端网络作为辅助任务并行运行，系统之间的分歧随后用于极端情况检测。我们在真实车辆上实施了这种方法并对其进行定性评估。我们的结果表明，以其卓越的态势感知能力而闻名的端到端网络作为辅助驾驶系统，可以有效地促进极端情况检测。这些发现表明，这种方法有可能提高自动驾驶汽车的安全性。

用于下肢外骨骼步态分析和控制的基于模块化传感器的系统的开发和验证

分类： 机器人技术, 人机交互

作者： Giorgos Marinou, Ibrahima Kourouma, Katja Mombaur

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01174v1

摘要： 随着外骨骼硬件技术的快速进步，成功的评估和精确的控制仍然具有挑战性。本研究引入了一种基于传感器的模块化系统，利用先进的传感器技术和模糊逻辑来增强下肢外骨骼的生物力学评估和控制。我们的目标是超越当前仅限于实验室的生物力学评估方法的局限性，并解决外骨骼控制系统的高成本和复杂性。该系统将惯性测量单元、力敏电阻和称重传感器集成到仪表拐杖和 3D 打印鞋垫中。这些组件既独立又共同发挥作用，以捕获全面的生物力学数据，包括前后压力中心和拐杖地面反作用力。该数据通过中央单元使用模糊逻辑算法进行处理，以进行实时步态相位估计和外骨骼控制。由三名参与者进行的验证实验，以黄金标准动作捕捉和测力台技术为基准，展示了我们的系统可靠的步态阶段检测和精确的生物力学测量的能力。通过提供开源设计并集成具有成本效益的技术，这项研究推动了可穿戴机器人技术的发展，并促进了外骨骼研究领域更广泛的创新和采用。

通过机器人化身进行远距离远程呈现：案例研究

分类： 机器人技术

作者： Mohamed Elobaid, Stefano Dafarra, Ehsan Ranjbari, Giulio Romualdi, Tomohiro Chaki, Tomohiro Kawakami, Takahide Yoshiike, Daniele Pucci

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01159v1

摘要： 本文讨论了必要的考虑因素和调整，使最近提出的化身系统架构能够与不同的机器人化身形态（具有各种类型的手和运动结构的轮式和腿式机器人）一起使用，以实现远程（洲际）远程呈现。通信带宽限制。报告的案例研究涉及使用位置和扭矩控制模式的机器人，独立于其软件中间件。

在线非线性质心 MPC 为腿式机器人的稳健运动提供稳定性保证

分类： 机器人技术

作者： Mohamed Elobaid, Giulio Turrisi, Lorenzo Rapetti, Giulio Romualdi, Stefano Dafarra, Tomohiro Kawakami, Tomohiro Chaki, Takahide Yoshiike, Claudio Semini, Daniele Pucci

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01144v1

摘要： 基于简化质心动力学的非线性模型预测运动控制器如今在腿式机器人中普遍存在。这些方案，即使它们假设了机器人动力学的固有简化，也被证明赋予机器人对小推力做出反应的步进调整能力，而且，在参数不确定的情况下——作为未知的有效载荷——它们被证明能够提供一些实用的、尽管有限的稳健性。在这项工作中，我们通过重新制定质心 MPC 控制器来提供其闭环稳定性的严格证书。这是由于受自适应控制机制启发的系统程序以及来自控制李雅普诺夫函数的想法而实现的。此外，我们的重新表述为一类不可测量的持续扰动提供了鲁棒性。为了证明我们方法的通用性，我们在新一代人形机器人 - 56.7 公斤重的 ergoCub 以及市售的 21 公斤四足机器人 Aliengo 上验证了我们的配方。

自动驾驶系统场景评估场景数据库的覆盖率指标

分类： 机器人技术

作者： Erwin de Gelder, Maren Buermann, Olaf Op den Camp

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01139v1

摘要： 自动驾驶系统 (ADS) 有潜力为所有人提供安全且可用的移动服务。为 ADS 的型式核准流程提出了多支柱安全评估框架 (SAF)。 SAF 要求 ADS 的测试场景充分涵盖 ADS 的操作设计域 (ODD)。生成测试场景的常用方法是将测试场景基于从驾驶数据中识别和表征的场景。这项工作解决了从驾驶数据收集场景时的两个问题。首先，收集的场景是否涵盖了 ADS ODD 的所有相关方面？其次，收集的场景是否涵盖了驾驶数据中的所有相关方面，从而不会遗漏任何潜在的重要情况？这项工作提出了覆盖率指标，为这些问题提供了定量答案。所提出的覆盖率指标通过实验来说明，其中从 HighD 数据集中收集了来自 10 个不同场景类别的 200000 多个场景。该实验表明，在某些条件下可以实现 100% 的覆盖率，并且还确定了在未实现 100% 覆盖率的情况下可以添加哪些数据和场景来增强覆盖结果。鉴于这项工作提出了驾驶数据覆盖范围和已识别场景的量化指标，本文总结了未来的研究方向，包括驾驶数据完整性和已识别场景的量化。

基于场景的自动驾驶系统评估：如何（不）参数化场景？

分类： 机器人技术

作者： Erwin de Gelder, Olaf Op den Camp

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01117v1

摘要： 自动驾驶系统（ADS）的发展取得了显着进展。为了实现大规模部署，关于批准自动车道保持系统 (ALKS) 的联合国条例 157 (UN R157) 已于 2021 年获得批准。UN R157 要求激活 ALKS 以避免任何可合理预防的碰撞，并建议一种使用“熟练且细心的人类驾驶员的模拟表现”来区分可合理预防的碰撞与不可预防的碰撞的方法。根据不同的驾驶员模型，为 ALKS 设置了三种场景的基准。 UN R157 中提议的方法中考虑的三类场景假设了某种参数化，无需任何进一步考虑。这项工作研究了这些场景的参数化，表明参数化的选择显着影响模拟结果。通过比较真实场景和参数化场景，我们表明参数化的影响取决于场景类型、驾驶员模型和评估标准。提出了替代参数化，导致在召回率、精度和 F1 分数方面更接近非参数化场景的结果。该研究强调了仔细情景参数化的重要性，并建议改进当前的 UN R157 方法。

人工智能奥运挑战与进化软演员评论家

分类： 机器人技术, 人工智能, 机器学习, 神经和进化计算

作者： Marco Calì, Alberto Sinigaglia, Niccolò Turcato, Ruggero Carli, Gian Antonio Susto

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01104v1

摘要： 在下面的报告中，我们描述了为 IROS 2024 举办的人工智能奥运会提出的解决方案。我们的解决方案基于无模型深度强化学习方法与进化策略相结合。我们将简要描述已使用的算法，然后提供该方法的详细信息

具有闭环检测的在线一维磁场 SLAM

分类： 机器人技术

作者： Manon Kok, Arno Solin

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01091v1

摘要： 我们提出了一种轻量级磁场同步定位和建图（SLAM）方法，用于里程计路径中的漂移校正，其中的兴趣纯粹在于里程计而不是地图构建。我们将过去的磁场读数表示为一维轨迹，与当前的磁场观测值相匹配。这种方法归结为基于当前姿态状态估计和磁场的顺序闭环检测和决策。我们将此设置与使用扩展卡尔曼平滑器的路径估计框架相结合，该平滑器将里程计增量与检测到的闭环计时融合在一起。我们通过手持 iPad 在室内场景中移动的几个不同的实际示例来展示该模型的实际适用性。

基于可供性的机器人操作与流匹配

分类： 机器人技术, 人工智能

作者： Fan Zhang, Michael Gienger

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01083v1

摘要： 我们提出了一个辅助机器人操作框架，重点关注两个基本挑战：首先，有效地将大型模型适应下游场景可供性理解任务，特别是在日常生活场景中，收集涉及人类的多任务数据需要付出艰苦的努力；其次，通过建立视觉可供性模型来有效地学习机器人轨迹。我们通过采用参数有效的提示调整方法来解决第一个挑战，该方法将可学习的文本提示添加到冻结视觉模型中，以预测多任务场景中的操作可供性。然后，我们建议在监督流匹配方法中学习由可供性引导的机器人轨迹。流匹配将机器人视觉运动策略表示为将随机路径点流动到所需机器人轨迹的条件过程。最后，我们引入了一个包含 10 个日常生活活动任务的真实数据集来测试我们的框架。我们的广泛评估强调，所提出的使用语言提示器进行学习操作可供性的提示调整方法实现了有竞争力的性能，甚至在数据规模上优于其他微调协议，同时满足参数效率。使用单一流匹配策略学习多任务机器人轨迹也比其他行为克隆方法始终获得更好的性能，特别是在考虑到多模态机器人动作分布的情况下。我们的框架将可供性模型学习和轨迹生成与机器人操作的流程匹配无缝地结合起来。

使用未知执行器和传感器配置驾驶四旋翼飞行器

分类： 机器人技术, 系统与控制, 系统与控制

作者： Till M. Blaha, Ewoud J. J. Smeur, Bart D. W. Remes, Coen C. de Visser

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01080v1

摘要： 尽管多旋翼无人机 (UAV) 的控制算法很好理解，但飞行控制算法的配置、参数估计和调整需要相当多的时间和资源。在之前的工作中，我们已经证明，可以足够快地识别多旋翼飞行器的控制有效性和电机动力学，使其在被抛向空中 4 米后恢复稳定悬停。在本文中，我们将其扩展为包括估计惯性测量单元（IMU）相对于重心（CoG）的位置、估计IMU旋转、所有电机的推力方向和最佳组合推力方向。为了保证正确的 IMU 位置估计，需要预先对车辆进行两次抛接，并绕不同轴旋转。对于这些投掷，低至 1 米的高度就足够了。四旋翼飞行实验证实了该方法的有效性，模拟表明其适用于具有多种可能悬停方向的全驱动飞行器。

使用改进的 Q 学习算法加速多目标任务学习

分类： 机器人技术, 人工智能, 68T05, 93C85, 93B40, 90C29, I.2.6; I.2.9; I.2.8; F.1.1; F.2.1; H.1.2; G.1.6

作者： Varun Prakash Rajamohan, Senthil Kumar Jagatheesaperumal

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01046v1

摘要： 机器人在工业中有着广泛的应用。近年来，机器人在国内场景的影响力也迅速提升。 Q-learning 算法旨在最大化实现目标的奖励。本文提出了 Q 学习算法的修改版本，称为带有缩放距离度量的 Q 学习（Q-SD）。该算法增强了任务学习并使任务完成更有意义。机器人操纵器（代理）将 Q-SD 算法应用于桌子清洁任务。使用 Q-SD，代理获取完成任务所需的步骤序列，同时最小化操纵器的移动距离。我们将表划分为不同维度的网格。第一个的网格数为 3 乘以 3，第二个的网格数为 4 乘以 4。使用 Q-SD 算法，在这两个环境中获得的最大成功率分别为 86% 和 59%。此外，与传统的Q-learning算法相比，使用Q-SD算法的代理在这两种环境中移动的平均距离分别下降了8.61%和6.7%。

使用街道地图在雨中进行强大的车辆定位和跟踪

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Yu Xiang Tan, Malika Meghjani

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01038v1

摘要： 基于 GPS 的车辆定位和跟踪面临着隧道段和密集城市地区常见的位置信息不稳定的问题。此外，视觉里程计 (VO) 和视觉惯性里程计 (VIO) 都容易受到恶劣天气条件的影响，导致视觉输入遮挡或模糊。在本文中，我们提出了一种新的车辆定位方法，该方法使用基于街道网络的地图信息来纠正漂移里程计估计和间歇性 GPS 测量，特别是在雨天和隧道等对抗场景中。具体来说，我们的方法是一种灵活的融合算法，它将间歇性 GPS、漂移 IMU 和 VO 估计与 2D 地图信息集成在一起，以实现稳健的车辆定位和跟踪。我们将我们的方法称为地图融合。我们对来自不同国家的四个地理不同的数据集（晴天和雨天条件下的情况）对我们提出的方法进行了稳健的评估。这些数据集还包括隧道和地下通道中具有挑战性的视觉部分。我们证明，通过整合地图信息，我们的 Map-Fusion 算法减少了所有数据集上最先进的 VO 和 VIO 方法的错误。我们还在现实环境中以及在硬件受限的移动机器人上实时验证了我们提出的算法。对于 150m 的路线，Map-Fusion 在晴天时的误差为 2.46m，在雨天时的误差为 6.05m。

通过先进的硬件和感知增强来升级 Pepper 机器人的社交互动

分类： 机器人技术, 系统与控制, 系统与控制

作者： Paolo Magri, Javad Amirian, Mohamed Chetouani

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01036v1

摘要： 在本文中，我们提出了 Pepper 机器人的硬件和软件增强方案，以提高其人机交互能力。其中包括集成 NVIDIA Jetson GPU（用于增强计算能力并执行实时算法）、RealSense D435i 摄像头（用于捕获深度图像）以及计算机视觉算法（用于检测和定位机器人周围的人员并估计其身体方向）并注视方向。新的堆栈在 ROS 上实现，并在扩展的 Pepper 硬件上运行，与机器人固件的通信是通过 NAOqi ROS 驱动程序 API 完成的。我们还收集了受控环境中人类活动的 MoCap 数据集以及相应的 RGB-D 数据，以验证所提出的感知算法。