MiX Knowledge

VLM-Grounder：用于零镜头 3D 视觉基础的 VLM 代理

分类： 计算机视觉和模式识别, 机器人技术

作者： Runsen Xu, Zhiwei Huang, Tai Wang, Yilun Chen, Jiangmiao Pang, Dahua Lin

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13860v1

摘要： 3D 视觉基础对于机器人至关重要，需要将自然语言和 3D 场景理解相结合。依赖于 3D 点云监督学习的传统方法受到数据集稀缺的限制。最近有人提出了利用大语言模型的零样本方法来解决数据问题。虽然有效，但这些方法仅使用以对象为中心的信息，限制了它们处理复杂查询的能力。在这项工作中，我们提出了 VLM-Grounder，这是一种使用视觉语言模型 (VLM) 进行仅基于 2D 图像的零镜头 3D 视觉基础的新颖框架。 VLM-Grounder 动态拼接图像序列，采用接地和反馈方案来查找目标对象，并使用多视图集成投影来准确估计 3D 边界框。 ScanRefer 和 Nr3D 数据集上的实验表明，VLM-Grounder 优于以前的零样本方法，在 ScanRefer 上实现了 51.6% Acc@0.25，在 Nr3D 上实现了 48.0% Acc，并且不依赖 3D 几何或对象先验。代码可在 https://github.com/OpenRobotLab/VLM-Grounder 获取。

可微机器人渲染

分类： 机器人技术, 计算机视觉和模式识别, 图形

作者： Ruoshi Liu, Alper Canberk, Shuran Song, Carl Vondrick

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13851v1

摘要： 经过大量视觉数据训练的视觉基础模型在开放世界环境中表现出了前所未有的推理和规划能力。将它们应用于机器人任务的一个关键挑战是视觉数据和动作数据之间的模态差距。我们引入了可微的机器人渲染，这是一种允许机器人身体的视觉外观相对于其控制参数直接可微的方法。我们的模型集成了运动学感知变形模型和高斯泼溅，并且与任何机器人形状因素和自由度兼容。我们展示了其在应用中的功能和用途，包括从图像重建机器人姿势以及通过视觉语言模型控制机器人。定量和定性结果表明，我们的可微渲染模型直接从像素为机器人控制提供了有效的梯度，为视觉基础模型在机器人领域的未来应用奠定了基础。

自适应子采样和学习模型提高触觉皮肤的时空分辨率

分类： 机器人技术, 系统与控制, 系统与控制

作者： Ariel Slepyan, Dian Li, Aidan Aug, Sriramana Sankar, Trac Tran, Nitish Thakor

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13847v1

摘要： 高速触觉阵列对于非结构化环境中的实时机器人控制至关重要，但高像素数将大多数大型触觉阵列的读出率限制在 100Hz 以下。我们引入了 ACTS - 自适应压缩触觉子采样 - 一种有效地采样触觉矩阵并使用稀疏恢复和学习的触觉字典重建交互的方法。在 1024 像素传感器阵列 (32x32) 上进行测试，与光栅扫描相比，ACTS 将帧速率提高了 18 倍，且误差最小。我们首次在大面积触觉皮肤中展示了接触后 20 毫秒内的快速物体分类、高速弹丸检测、跳弹角度估计以及通过增强的时空分辨率进行变形跟踪。我们的方法可以在固件中实现，将现有的低成本、灵活且强大的触觉阵列升级为用于大面积时空触摸传感的高分辨率系统。

ORSO：通过在线奖励选择和政策优化加速奖励设计

分类： 机器学习, 人工智能, 机器人技术

作者： Chen Bo Calvin Zhang, Zhang-Wei Hong, Aldo Pacchiano, Pulkit Agrawal

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13837v1

摘要： 奖励塑造是强化学习（RL）的关键组成部分，特别是对于奖励稀疏会阻碍学习的复杂任务。虽然引入了塑造奖励来提供额外的指导，但选择有效的塑造函数仍然具有挑战性并且计算成本昂贵。本文介绍了在线奖励选择和策略优化（ORSO），这是一种将奖励选择构建为在线模型选择问题的新颖方法。 ORSO 采用有原则的探索策略来自动识别有希望的塑造奖励函数，无需人工干预，平衡探索和利用与可证明的后悔保证。我们使用 Isaac Gym 模拟器展示了 ORSO 在各种连续控制任务中的有效性。与全面评估每个塑造奖励函数的传统方法相比，ORSO 显着提高了样本效率，减少了计算时间，并一致地识别了高质量的奖励函数，这些函数产生的策略可与领域专家通过手工设计的奖励生成的策略相媲美。

使用角速率进行完整磁力计校准和陀螺仪偏差估计的基于因子图的方法

分类： 机器人技术

作者： Sebastián Rodríguez-Martínez, Giancarlo Troni

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13827v1

摘要： MEMS 姿态航向参考系统广泛用于确定系统的姿态，但传感器测量偏差限制了其准确性。本文介绍了一种基于因子图的新颖方法，称为磁力计和陀螺仪校准（MAGYC）。 MAGYC 利用角速率陀螺仪的三轴角速率测量来增强批量和在线应用的校准。我们的方法对校准所需的仪器运动施加了较少的限制，消除了对局部磁场或仪器姿态的了解的需要，并有助于集成到平滑和映射框架内的因子图算法中。我们使用安装在水下航行器上的传感器通过数值模拟和现场实验评估来评估所提出的方法。最终，我们提出的方法将标准海底测绘测量的水下航行器航向误差标准偏差从 6.21 度降低到 0.57 度。

用于鲁棒多接触局部操纵的引导强化学习

分类： 机器人技术, 人工智能

作者： Jean-Pierre Sleiman, Mayank Mittal, Marco Hutter

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13817v1

摘要： 强化学习 (RL) 通常需要针对每项任务进行细致的马尔可夫决策过程 (MDP) 设计。这项工作旨在通过提出一种系统的方法来解决这一挑战，该方法用于多接触局部操纵任务（例如导航弹簧门和操纵重型洗碗机）的行为合成和控制。我们定义了一个独立于任务的 MDP，仅使用基于模型的轨迹优化器生成的每个任务的单个演示来训练 RL 策略。我们的方法采用了自适应相位动力学公式，可以稳健地跟踪演示，同时适应动态不确定性和外部干扰。我们将我们的方法与之前的运动模仿 RL 工作进行比较，结果表明，学习到的策略在所有考虑的任务中都取得了更高的成功率。这些策略学习演示中未出现的恢复操作，例如在执行过程中重新抓取对象或处理滑动。最后，我们成功地将策略转移到真正的机器人上，证明了我们方法的实际可行性。

指导您的通才：通过价值指导改进机器人基础模型

分类： 机器人技术, 机器学习

作者： Mitsuhiko Nakamoto, Oier Mees, Aviral Kumar, Sergey Levine

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13816v1

摘要： 在不同的演示数据集上训练的大型通用机器人策略已被证明对于控制各种不同场景中的各种机器人以及获取广泛的操作技能都非常有效。然而，训练此类策略的数据通常质量参差不齐——不仅人类收集的演示不太可能完美地执行任务，而且数据集越大，就越难仅管理最高质量的示例。还不清楚来自一个实施例的最佳数据如何用于在另一实施例上进行训练。在本文中，我们提出了一种通用且广泛适用的方法，通过根据通过离线强化学习学习的价值函数对它们的动作重新排序，来增强此类通用机器人策略在部署时的性能。这种方法，我们称之为价值引导政策引导（V-GPS），与各种不同的通才政策兼容，无需微调甚至访问政策的权重。我们证明，相同的价值函数可以提高具有不同架构的五种不同的最先进策略的性能，即使它们是在不同的数据集上进行训练的，在总共 12 项任务中的多个机器人平台上实现了一致的性能改进。代码和视频可以在：https://nakamotoo.github.io/V-GPS

CLIMB：通过迭代模型构建进行任务规划的语言引导持续学习

分类： 机器人技术, 人工智能, 机器学习

作者： Walker Byrnes, Miroslav Bogdanovic, Avi Balakirsky, Stephen Balakirsky, Animesh Garg

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13756v1

摘要： 智能且可靠的任务规划是广义机器人技术的核心能力，需要描述性域表示来充分建模场景的所有对象和状态信息。我们提出了 CLIMB，这是一个用于机器人任务规划的持续学习框架，它利用基础模型和执行反馈来指导领域模型构建。 CLIMB 可以根据自然语言描述构建模型，在解决任务时学习非显而易见的谓词，并存储该信息以供将来解决问题。与基线方法相比，我们展示了 CLIMB 在常见规划环境中提高性能的能力。我们还开发了 BlocksWorld++ 域，这是一个具有易于使用的真实对应物的模拟环境，以及用于评估持续学习的难度逐渐增加的任务课程。该系统的其他详细信息和演示可以在 https://plan-with-climb.github.io/ 找到。

人类和机器人的交互可以通过调整粘弹性来改善感官预测

分类： 机器人技术

作者： Xiaoxiao Cheng, Jonathan Eden, Bastien Berret, Atsushi Takagi, Etienne Burdet

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13755v1

摘要： 为了操纵物体或一起跳舞，人类和机器人交换能量和触觉信息。虽然人机交互中的能量交换已被广泛研究，但触觉信息的潜在交换尚不清楚。在这里，我们开发了一个代理之间机械和感觉相互作用的计算模型，可以在考虑其感觉和运动噪声的同时调整其粘弹性。由此产生的随机最优信息和努力（SOIE）控制器可以预测如何通过调整粘弹性来改善触觉信息的交换和性能。该控制器首先在具有跟踪任务的机器人-机器人实验中实现，与刚性或柔顺控制相比，该控制器显示出其优越的性能。重要的是，最佳控制器还可以预测互联人类如何改变肌肉激活以改善触觉交流，并根据其自身的感知噪声和触觉扰动进行差异化的粘弹性调整。然后，人机实验说明了这种最优控制策略对机器人的适用性，当机器人根据自身和用户的噪声特征调整其粘弹性时，可以提高跟踪性能和有效的触觉通信。因此，所提出的 SOIE 控制器可用于改善人类和机器人的触觉通信和协作。

越狱大语言模型控制的机器人

分类： 机器人技术, 人工智能

作者： Alexander Robey, Zachary Ravichandran, Vijay Kumar, Hamed Hassani, George J. Pappas

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13691v1

摘要： 最近引入的大语言模型 (LLM) 通过在操纵、运动和自动驾驶车辆等各种领域实现上下文推理和直观的人机交互，彻底改变了机器人领域。当被视为一种独立技术时，LLM 很容易受到越狱攻击，其中恶意提示器通过绕过 LLM 安全护栏来引出有害文本。为了评估在机器人技术中部署 LLM 的风险，在本文中，我们介绍了 RoboPAIR，这是第一个旨在越狱 LLM 控制的机器人的算法。与现有的针对 LLM 聊天机器人的文本攻击不同，RoboPAIR 会引发 LLM 控制的机器人产生有害的身体动作，我们在三种场景中实验演示了这种现象：(i) 白盒设置，其中攻击者可以完全访问 NVIDIA Dolphins 自我攻击。驾驶 LLM，(ii) 灰盒设置，其中攻击者可以部分访问配备 GPT-4o 规划器的 Clearpath Robotics Jackal UGV 机器人，以及 (iii) 黑盒设置，其中攻击者仅具有查询访问权限到集成 GPT-3.5 的 Unitree Robotics Go2 机器狗。在每个场景和三个新的有害机器人行为数据集中，我们证明 RoboPAIR 以及多个静态基线可以快速有效地发现越狱，通常可以实现 100% 的攻击成功率。我们的研究结果首次表明，越狱的大语言模型的风险远远超出了文本生成的范围，因为越狱的机器人很可能在现实世界中造成物理损害。事实上，我们在 Unitree Go2 上的结果代表了已部署的商业机器人系统的首次成功越狱。解决这一新出现的漏洞对于确保大语言模型在机器人领域的安全部署至关重要。其他媒体请访问：https://robopair.org

自动导航和语音克隆技术在仿人机器人上的部署

分类： 机器人技术, 00-02

作者： Dongkun Han, Boyuan Shao

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13612v1

摘要： 移动机器人展现出巨大的潜力，有望在服务行业得到广泛应用。自动导航和语音克隆的重要性怎么强调都不为过，因为它们使功能机器人能够提供高质量的服务。这项工作的目的是开发一种控制算法，用于名为 Cruzr 的人形移动机器人的自动导航，Cruzr 是 Ubtech 制造的服务机器人。首先，利用同步定位与建图（SLAM）在仿真软件Gazebo中构建虚拟环境，并通过局部路径跟踪的方式进行全局路径规划。采用两轮差动底盘运动学模型保证机器人底盘自主动态避障。此外，在仿真环境中开发的建图和轨迹生成算法已在真实机器人 Cruzr 上成功实现。对动态窗口方法 (DWA) 和模型预测控制 (MPC) 算法的自动导航性能进行了比较。此外，基于隐马尔可夫模型创建了用于语音克隆的移动应用程序，并且所提出的聊天机器人也在 Cruzr 上进行了测试和部署。

用于四足运动控制的偏好对齐扩散规划器

分类： 机器人技术

作者： Xinyi Yuan, Zhiwei Shang, Zifan Wang, Chenkai Wang, Zhao Shan, Zhenchao Qi, Meixin Zhu, Chenjia Bai, Xuelong Li

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13586v1

摘要： 扩散模型在从大规模数据集中捕获复杂分布方面表现出卓越的性能，为四足运动控制提供了一种有前景的解决方案。然而，由于数据集中的状态覆盖范围有限，离线策略对分布外 (OOD) 状态很敏感。在这项工作中，我们提出了一个结合离线学习和在线偏好调整的两阶段学习框架，用于腿部运动控制。通过离线阶段，扩散规划器从专家数据集中学习状态-动作序列的联合分布，而不使用奖励标签。随后，我们基于训练好的离线规划器在模拟环境中进行在线交互，这显着解决了OOD问题并提高了鲁棒性。具体来说，我们提出了一种新颖的弱偏好标记方法，没有真实奖励或人类偏好。该方法在慢速和高速场景下的起搏、小跑和弹跳步态中都表现出优异的稳定性和速度跟踪精度，并且可以对真实的 Unitree Go1 机器人进行零样本迁移。本文的项目网站为 https://shangjaven.github.io/preference-aligned-diffusion-legged/。

SPF-EMPC Planner：针对具有不确定性的复杂环境的实时多机器人轨迹规划器

分类： 机器人技术

作者： Peng Liu, Pengming Zhu, Zhiwen Zeng, Xuekai Qiu, Yu Wang, Huimin Lu

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13573v1

摘要： 在实际应用中，障碍物的不可预测运动和机器人状态观测的不精确给机器人群带来了显着的不确定性，尤其是在集群环境中。然而，考虑到不确定性、复杂的环境结构和机器人群体，现有方法很难实现安全导航。本文介绍了一种具有安全概率场的扩展状态模型预测控制规划器，以解决复杂、动态和不确定环境中的多机器人导航问题。最初，安全概率场提供了一种创新方法来模拟外部动态障碍物的不确定性，并将其与无约束优化方法相结合，为多机器人在线生成安全轨迹。随后，扩展状态模型预测控制器可以在考虑机器人固有模型约束和状态不确定性的同时准确跟踪这些生成的轨迹，从而确保规划轨迹的实际可行性。模拟实验表明，成功率是最先进算法的四倍。物理实验证明了该方法实时运行的能力，能够在不确定的环境中实现多机器人的安全导航。

DualQuat-LOAM：在双四元数上参数化的 LiDAR 里程计和测绘

分类： 机器人技术

作者： Edison P. Velasco-Sánchez, Luis F. Recalde, Guanrui Li, Francisco A. Candelas-Herias, Santiago T. Puente-Mendez, Fernando Torres-Medina

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13541v1

摘要： 本文报告了一种 LiDAR 里程计估计的新方法，该方法用双四元数完全参数化系统。为了实现这一点，从点云导出的特征（包括边缘、表面和稳定三角形描述符（STD））以及优化问题都在对偶四元数集中表示。这种方法能够通过对偶四元数运算直接组合平移和方向误差，极大地增强了姿态估计，正如与其他最先进方法的比较实验所证明的那样。与其他仅使用激光雷达的测距方法相比，我们的方法减少了漂移误差，特别是在急弯和大角位移的剧烈运动的情况下。 DualQuat-LOAM 针对多个公共数据集进行了基准测试。在 KITTI 数据集中，它的平移和旋转误差分别为 0.79% 和 0.0039{\deg}/m，平均运行时间为 53 ms。

CERES：通过时间场景图完成进行关键事件重建

分类： 机器人技术, 机器学习

作者： Efimia Panagiotaki, Georgi Pramatarov, Lars Kunze, Daniele De Martini

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13514v1

摘要： 本文提出了一种基于真实数据的模拟中按需场景生成的方法。评估自动驾驶汽车 (AV) 在安全关键场景和常规场景中的行为对于在实际部署之前评估其稳健性至关重要。通过将从现实数据集导出的场景集成到模拟中，我们增强了测试集的合理性和有效性。这项工作引入了一种新颖的方法，该方法采用时间场景图来捕获现实世界数据集中场景实体之间不断变化的时空关系，从而能够通过图神经网络（GNN）在模拟中生成动态场景。用户定义的操作和关键性条件用于确保灵活、定制的场景创建。我们的模型在准确预测与请求场景相对应的链接方面显着优于基准。我们在现成的模拟器中进一步评估我们生成的场景的有效性和兼容性。

用于敏捷腿部运动的状态估计变压器

分类： 机器人技术

作者： Chen Yu, Yichu Yang, Tianlin Liu, Yangwei You, Mingliang Zhou, Diyun Xiang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13496v1

摘要： 我们提出了一种状态估计方法，可以准确预测机器人的特权状态，以突破四足机器人在执行高级技能（例如在野外跳跃）时的极限。特别是，我们提出了状态估计变换器（SET），这是一种将状态估计问题转化为条件序列建模的架构。 SET 通过利用因果屏蔽的 Transformer 来输出在现实世界中难以直接获得的机器人状态，例如身体高度和速度。通过根据机器人过去的状态调整自回归模型，我们的 SET 模型即使在高度动态的运动中也可以准确地预测这些特殊的观察结果。我们在低成本四足机器人 Cyberdog2 上评估了我们在三个任务上的方法——奔跑跳跃、奔跑后空翻和奔跑侧滑。结果表明，SET 在模拟中的估计精度和可传递性以及现实世界中跳跃和触发恢复控制器的成功率方面均优于其他方法，表明这种基于 Transformer 的显式状态估计器在高动态运动任务中的优越性。

用于连续机器人控制的基于新颖性的样本重复利用

分类： 机器人技术, 机器学习

作者： Ke Duan, Kai Yang, Houde Liu, Xueqian Wang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13490v1

摘要： 在强化学习中，智能体通过环境交互收集状态信息和奖励，这对于政策细化至关重要。这个过程非常耗时，特别是在复杂的机器人模拟和现实应用中。传统算法通常在处理单批样本后重新融入环境，从而无法充分利用历史数据。然而，频繁观察的状态以及可靠的值估计只需要很少的更新；相反，罕见的观察到的状态需要更频繁的更新才能实现准确的值估计。为了解决样本利用率不均匀的问题，我们提出了新颖性引导样本重用（NSR）。 NSR 为不常见的新颖状态提供额外更新，并跳过频繁状态的额外更新，从而在再次与环境交互之前最大化样本使用。我们的实验表明，NSR 在不显着增加时间消耗的情况下提高了算法的收敛速度和成功率。我们的代码可在 https://github.com/ppksigs/NSR-DDPG-HER 上公开获取。

具有自适应非综合移动操作的交互式导航

分类： 机器人技术

作者： Cunxi Dai, Xiaohan Liu, Koushil Sreenath, Zhongyu Li, Ralph Hollis

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13418v1

摘要： 本文介绍了一种通过自适应非可抓取移动操作进行交互式导航的框架。这个过程中的一个关键挑战是处理具有未知动态的物体，这些物体很难从视觉观察中推断出来。为了解决这个问题，我们通过学习 SE(2) 动力学表示，提出了一种针对常见可移动室内物体的自适应动力学模型。该模型集成到模型预测路径积分 (MPPI) 控制中，以指导机器人的交互。此外，在无法操纵的对象周围导航时，学习到的动力学有助于为决策提供信息。我们的方法在模拟和现实场景中都得到了验证，证明了其准确表示对象动力学和有效操纵各种对象的能力。我们通过将所提出的框架部署在动态平衡移动机器人 Shmoobot 上，进一步强调了其在可移动物体导航 (NAMO) 任务中的成功。项目网站：https://cmushmoobot.github.io/AdaptivePushing/。

RAMPA：用于机器编程和自动化的机器人增强现实

分类： 机器人技术, 人机交互, 机器学习

作者： Fatih Dogangun, Serdar Bahar, Yigit Yildirim, Bora Toprak Temir, Emre Ugur, Mustafa Doga Dogan

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13412v1

摘要： 随着机器人技术不断进入传统工业应用之外的各个领域，对直观的机器人训练和交互系统的需求变得越来越重要。本文介绍了用于机器编程的机器人增强现实 (RAMPA)，该系统利用最先进的商用 AR 耳机（例如 Meta Quest 3）的功能来促进演示编程 (PfD) 的应用工业机器人手臂的方法，例如Universal Robots UR10。我们的方法可以直接在用户的物理环境中进行现场数据记录、可视化和技能演示的微调。 RAMPA 解决了 PfD 的关键挑战，例如安全问题、编程障碍以及在实际硬件上收集演示的效率低下。我们的系统的性能是根据传统的动觉控制方法在教授三种不同的机器人操作任务时进行评估的，并通过定量指标进行分析，使用标准化调查测量任务性能和完成时间、轨迹平滑度、系统可用性、用户体验和任务负载。我们的研究结果表明机器人任务的教学和改进方式取得了重大进步，有望提高机器人编程的操作安全性、效率和用户参与度。

BestMan：具有统一仿真硬件 API 的嵌入式 AI 模块化移动机械手平台

分类： 机器人技术

作者： Kui Yang, Nieqing Cao, Yan Ding, Chao Chen

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13407v1

摘要： 具身人工智能（Embodied AI）强调智能体在物理环境中感知、理解和行动的能力。仿真平台通过验证和优化算法，在推动这一领域发挥着至关重要的作用。然而，现有平台面临多级技术集成复杂性、模块化程度不足、接口异构、适配多样化硬件等挑战。我们推出了 BestMan，一个基于 PyBullet 的模拟平台，旨在解决这些问题。 BestMan 引入了集成的多层次技能链，可实现感知、规划和控制之间的无缝协调；高度模块化的架构，实现灵活的算法集成；统一的接口可实现仿真到现实的平滑转换；以及一种与硬件无关的方法，用于适应各种移动机械手配置。这些功能共同简化了开发并增强了平台的可扩展性，使 BestMan 成为 Embodied AI 研究的宝贵工具。

基于弧长的变形用于多次演示的机器人技能综合

分类： 机器人技术

作者： Giovanni Braglia, Davide Tebaldi, André Eugenio Lazzaretti, Luigi Biagiotti

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13322v1

摘要： 在机器人技术中，从演示中学习（LfD）旨在通过使用同一任务的多个演示将技能转移给机器人。这些演示被记录和处理以提取一致的技能表示。此过程通常需要通过动态时间规整 (DTW) 等技术进行时间对齐。在本文中，我们介绍了一种名为空间采样（SS）的新颖算法，专门为机器人轨迹设计，该算法通过提供信号的弧长参数化来实现与时间无关的轨迹对齐。这种方法消除了时间对齐的需要，提高了技能表示的准确性和鲁棒性。具体来说，我们表明，所演示的轨迹中的大时间偏移可能会在最终轨迹的合成中引入不确定性，与各种最先进的基于时间的信号相比，弧长域中的对齐可以大大减少对齐算法。为此，我们构建了一个自定义的公开可用的机器人记录数据集来测试真实世界的轨迹。

TRLO：具有 3D 动态对象跟踪和移除功能的高效 LiDAR 里程计

分类： 机器人技术

作者： Yanpeng Jia, Ting Wang, Xieyuanli Chen, Shiliang Shao

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13240v1

摘要： 同步状态估计和绘图是在动态城市环境中工作的移动机器人的一项基本能力。大多数现有 SLAM 解决方案严重依赖于静态假设。然而，由于移动车辆和行人的存在，这一假设并不总是成立，导致定位精度下降和地图扭曲。为了应对这一挑战，我们提出了 TRLO，一种动态 LiDAR 里程计，可以有效提高状态估计的准确性并生成更清晰的点云图。为了有效地检测周围环境中的动态物体，应用了基于深度学习的方法，生成检测边界框。然后，我们设计了一个基于无味卡尔曼滤波器 (UKF) 和最近邻 (NN) 策略的 3D 多对象跟踪器，以可靠地识别和删除动态对象。随后，采用快速两阶段迭代最近点求解器来使用清理后的静态点云来求解状态估计。请注意，提出了一种新颖的基于散列的关键帧数据库管理，用于快速访问搜索关键帧。此外，所有检测到的对象边界框都被用来施加姿势一致性约束，以进一步细化最终的状态估计。对 KITTI 和 UrbanLoco 数据集进行的广泛评估和消融研究表明，与基线相比，我们的方法不仅实现了更准确的状态估计，而且生成了更清晰的地图。

数字的力量：未知环境中群体机器人导航的原始算法

分类： 机器人技术

作者： Yusuke Tsunoda, Shoken Otsuka, Kazuki Ito, Runze Xiao, Keisuke Naniwa, Yuichiro Sueoka, Koichi Osuka

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13149v1

摘要： 近年来，移动机器人在未知环境中的导航已成为一个特别重要的研究课题。以前的研究主要采用使用摄像头和激光雷达的实时环境测绘，以及基于这些地图的自定位和路径生成。此外，还有关于模拟到真实迁移的研究，其中机器人通过预先训练的强化学习来获取行为，并将这些学习到的动作应用到现实世界的导航中。然而，严格观察随时间变化的未知环境的行为和建模是一项极其复杂的工作。本研究提出了一种利用群体机器人数量穿越未知环境的简单导航算法。所提出的算法假设机器人仅具有感知目标方向和周围机器人相对位置的简单功能。机器人只需绕过周围的机器人，继续朝目标前进，就可以在未知的环境中导航。该方法不需要感知环境，确定自己或其他机器人是否被卡住，或者进行复杂的机器人间通信。我们对所提出的导航算法进行数学验证，基于势场法进行数值模拟，并使用开发的基于声场导航的机器人进行实验演示。

ALOHA 释放：机器人灵活性的简单秘诀

分类： 机器人技术

作者： Tony Z. Zhao, Jonathan Tompson, Danny Driess, Pete Florence, Kamyar Ghasemipour, Chelsea Finn, Ayzaan Wahid

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13126v1

摘要： 最近的工作显示了使用模仿学习来学习端到端机器人策略的有希望的结果。在这项工作中，我们解决了这样的问题：对于具有挑战性的灵巧操作任务，我们可以将模仿学习推进到什么程度。我们证明，在 ALOHA 2 平台上收集大规模数据的简单方法，与扩散策略等表达模型相结合，可以有效地学习涉及可变形物体和复杂的接触丰富动态的具有挑战性的双手操作任务。我们在 5 个具有挑战性的现实世界和 3 个模拟任务上展示了我们的配方，并展示了相对于最先进的基线的改进性能。该项目网站和视频可以在 aloha-unleashed.github.io 上找到。

只需为接触丰富的机器人策略添加力量

分类： 机器人技术

作者： William Xie, Stefan Caldararu, Nikolaus Correll

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13124v1

摘要： 用于学习端到端机器人策略的机器人轨迹通常包含末端执行器和夹具位置、工作空间图像和语言。从此类轨迹中学习的策略不适合精细抓取，这需要紧密耦合且精确的夹持力和夹持位置。我们收集并公开了 130 条轨迹，以及成功抓取 30 个独特物体的力反馈。我们基于电流的力感测方法虽然有噪音，但与夹具无关，并且不需要额外的硬件。我们训练和评估两种扩散策略：一种具有（强有力的）收集到的力反馈，另一种则没有（仅位置）。我们发现，对于精细抓取，强有力的策略优于仅位置策略，并且能够泛化到看不见的精细对象，同时相对于基于 LLM 的方法，将抓取策略延迟减少近 4 倍。凭借我们在有限数据上取得的有希望的结果，我们希望向其他人发出信号，考虑投资在新数据集中收集力和其他此类触觉信息，从而在未来的机器人基础模型中实现更强大、接触丰富的操作。我们的数据、代码、模型和视频可以在 https://justaddforce.github.io/ 上查看。

GyroCopter：用于跟踪和定位射频源的差动轴承测量轨迹规划器

分类： 机器人技术, 系统与控制, 信号处理, 系统与控制

作者： Fei Chen, S. Hamid Rezatofighi, Damith C. Ranasinghe

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.13081v1

摘要： 自主飞行器可以为从野生动物保护到搜救行动等应用的射频（RF）源跟踪和定位问题提供高效且有效的解决方案。现有的轻量级、低成本、基于方位测量的方法具有单天线接收器传感器系统配置，需要原位旋转，导致大量的测量采集时间限制了可搜索区域和测量数量。我们建议使用陀螺仪来完成这项任务。我们的方法规划多旋翼无人机 (UAV) 的轨迹，同时利用无人机飞行动力学执行恒定的回转运动，以获得“伪方位”测量结果来跟踪射频源。基于回转的伪方位方法： i) 显着减少与原位旋转方位相关的限制； ii) 利用信号强度测量采集硬件的简单性、经济性和轻便性来估计方位。该方法与其他伪轴承方法的区别在于不需要额外的硬件来保持简单性、轻量性和成本效益。为了验证我们的方法，我们得出了最佳旋转速度，并使用陀螺仪进行了广泛的模拟和现场任务，以跟踪和定位多个射频源。结果证实了我们方法的有效性，突显了其作为射频源定位任务实用且快速解决方案的潜力。

由充气旋转关节实现的软机器人的各向异性刚度和可编程驱动

分类： 机器人技术

作者： Sicheng Wang, Eugenio Frias-Miranda, Antonio Alvarez Valdivia, Laura H. Blumenschein

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.13003v1

摘要： 软机器人因其分布式、非均匀的刚度和驱动而具有很强的适应性来执行任务而闻名。弯曲是软体机器人设计中最基本的运动，但创建坚固且易于制造且具有可调特性的软体弯曲关节仍然是一个活跃的研究问题。在这项工作中，我们演示了一种用于软机器人的充气驱动模块，该模块具有通过强制部分起皱实现的定义弯曲平面。这降低了弯曲方向上的结构刚度，最终刚度很容易通过起皱区域和无起皱区域的比率来设计。我们提出的模型和实验表征显示了驱动模块的刚度特性，以及它在大范围的负载条件下保持运动学约束的能力。我们展示了软连续机器人中复杂驱动的潜力以及将驱动力和效率与负载能力解耦的潜力。该模块提供了一种将智能驱动嵌入软气动机器人的新颖方法。

Flex：使用基础模型的端到端文本指导视觉导航

分类： 机器人技术, 人工智能, 68T40, 68T05, 68T50, I.2.6; I.2.9; I.2.10; I.4.8

作者： Makram Chahine, Alex Quach, Alaa Maalouf, Tsun-Hsuan Wang, Daniela Rus

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.13002v1

摘要： 端到端学习直接将感官输入映射到动作，为复杂的机器人任务创建高度集成且高效的策略。然而，此类模型很难有效训练，并且通常难以推广到训练场景之外，从而限制了对新环境、任务和概念的适应性。在这项工作中，我们研究了在看不见的文本指令和视觉分布变化下通过基于视觉的控制策略实现强大的闭环性能所需的最低数据要求和架构调整。为此，我们设计了具有不同数据表示丰富程度的数据集，利用多模态基础模型编码器细化特征提取协议，并评估不同策略网络头的适用性。我们的研究结果在 Flex (Fly-lexically) 中综合，该框架使用预先训练的视觉语言模型 (VLM) 作为冻结的补丁式特征提取器，生成集成语义和视觉信息的空间感知嵌入。这些丰富的功能构成了训练高度稳健的下游策略的基础，这些策略能够跨平台、环境和文本指定的任务进行泛化。我们展示了这种方法在四旋翼飞行目标任务中的有效性，其中通过在小型模拟数据集上进行行为克隆训练的代理成功地推广到现实世界场景，处理各种新颖的目标和命令公式。

用于类别无关 RGB-D 视频分割的可配置体现数据生成

分类： 机器人技术, 计算机视觉和模式识别

作者： Anthony Opipari, Aravindhan K Krishnan, Shreekant Gayaka, Min Sun, Cheng-Hao Kuo, Arnie Sen, Odest Chadwicke Jenkins

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12995v1

摘要： 本文提出了一种生成大规模数据集的方法，以改进具有不同外形尺寸的机器人之间的类别无关视频分割。具体来说，我们考虑这样的问题：如果将机器人实施例纳入数据生成过程，那么在通用分割数据上训练的视频分割模型对于特定机器人平台是否会更有效。为了回答这个问题，我们制定了一个管道，用于使用 3D 重建（例如来自 HM3DSem）来生成可根据机器人的实施例（例如传感器类型、传感器放置和照明源）进行配置的分段视频。引入了由此产生的大规模 RGB-D 视频全景分割数据集 (MVPd)，用于基础和视频分割模型的广泛基准测试，并支持视频分割中以实施例为中心的研究。我们的实验结果表明，当将基础模型转移到某些机器人实施例（例如特定的相机位置）时，使用 MVPd 进行微调可以提高性能。这些实验还表明，使用 3D 模式（深度图像和相机姿势）可以提高视频分割的准确性和一致性。该项目网页位于 https://topipari.com/projects/MVPd

使用语义分割进行城市环境中自主着陆的风险评估

分类： 机器人技术, 计算机视觉和模式识别

作者： Jesús Alejandro Loera-Ponce, Diego A. Mercado-Ravell, Israel Becerra-Durán, Luis Manuel Valentin-Coronado

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12988v1

摘要： 在本文中，我们使用深度神经网络进行语义分割和风险评估，解决复杂城市环境中基于视觉的自主着陆问题。我们建议使用 SegFormer（一种最先进的视觉变换器网络）来对复杂、非结构化的城市环境进行语义分割。这种方法产生的有价值的信息可用于智能自主着陆任务，特别是在因系统故障或人为错误而导致的紧急着陆场景中。评估是在实时飞行中完成的，此时无人机 (UAV) 上的 RGB 摄像机的图像被 SegFormer 分割成城市环境中最常见的类别。然后将这些类别映射为风险级别，总体考虑潜在的物质损失、无人机本身的损坏以及人员的危险。所提出的策略通过多个案例研究得到验证，证明了基于语义分割的策略在确定自主紧急着陆的最安全着陆区域方面的巨大潜力，我们相信这将有助于释放无人机在城市地区民用应用中的全部潜力。

BlabberSeg：实时嵌入式开放词汇航空分割

分类： 机器人技术

作者： Haechan Mark Bong, Ricardo de Azambuja, Giovanni Beltrame

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12979v1

摘要： 实时航空图像分割在无人飞行器（UAV）的环境感知中发挥着重要作用。我们推出 BlabberSeg，这是一种基于 CLIPSeg 构建的优化视觉语言模型，用于无人机对航拍图像进行机载实时处理。 BlabberSeg 通过重用提示和模型特征来提高 CLIPSeg 的效率，减少计算开销，同时实现实时开放词汇空中分割。我们使用动态开放词汇增强智能安全着陆 (DOVESEI) 框架在安全着陆场景中验证了 BlabberSeg，该框架使用视觉伺服和开放词汇分割。 BlabberSeg 显着降低了计算成本，与原始 CLIPSeg (1.81Hz) 相比，在 NVIDIA Jetson Orin AGX (64GB) 上速度提高了 927.41% (16.78 Hz)，实现了实时空中分割，精度损失可以忽略不计 (2.1%)作为正确分割区域相对于 CLIPSeg 的比率）。 BlabberSeg 的源代码是开放的并且可以在线获取。

情境学习支持大语言模型中的机器人动作预测

分类： 机器人技术, 计算和语言

作者： Yida Yin, Zekai Wang, Yuvan Sharma, Dantong Niu, Trevor Darrell, Roei Herzig

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12782v1

摘要： 最近，大型语言模型（LLM）在语言领域使用上下文学习（ICL）取得了显着的成功。然而，利用大语言模型内的 ICL 功能来直接预测机器人动作在很大程度上仍未得到探索。在本文中，我们介绍了 RoboPrompt，这是一个框架，使现成的纯文本大语言模型无需训练即可通过 ICL 直接预测机器人动作。我们的方法首先启发式地识别捕获剧集中重要时刻的关键帧。接下来，我们从这些关键帧中提取末端执行器动作以及估计的初始物体姿势，并将两者转换为文本描述。最后，我们构建一个结构化模板，根据这些文本描述和任务指令形成 ICL 演示。这使得大语言模型能够在测试时直接预测机器人的动作。通过大量的实验和分析，RoboPrompt 在模拟和现实环境中显示出比零样本和 ICL 基线更强的性能。

Harmon：根据语言描述生成人形机器人的全身运动

分类： 机器人技术, 人工智能

作者： Zhenyu Jiang, Yuqi Xie, Jinhan Li, Ye Yuan, Yifeng Zhu, Yuke Zhu

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12773v1

摘要： 人形机器人具有与人类相似的体现，具有无缝融入人类环境的潜力。它们与人类共存和合作的关键是理解自然语言交流和表现出类人行为的能力。这项工作的重点是根据语言描述为人形机器人生成不同的全身运动。我们利用大量人体运动数据集中的人体运动先验来初始化人形运动，并利用视觉语言模型 (VLM) 的常识推理功能来编辑和细化这些运动。我们的方法展示了产生自然、富有表现力和文本对齐的人形动作的能力，并通过模拟和现实实验进行了验证。更多视频请访问 https://ut-austin-rpl.github.io/Harmon/。

高比谐波驱动摩擦建模的物理信息学习

分类： 机器人技术

作者： Ines Sorrentino, Giulio Romualdi, Fabio Bergonti, Giuseppe ĽErario, Silvio Traversaro, Daniele Pucci

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12685v1

摘要： 本文提出了一种利用物理信息神经网络 (PINN) 对配备电动机和高比谐波传动的机器人进行摩擦识别的可扩展方法。这种方法通过利用机器人的内在模型和状态数据，消除了对专用设置和关节扭矩传感器的需求。我们提供了一个全面的管道，包括数据采集、预处理、地面实况生成和模型识别。基于 PINN 的摩擦识别的有效性通过对人形机器人 ergoCub 的两个不同关节的广泛测试得到验证，并将其性能与库仑粘性模型和 Stribeck-库仑粘性模型等传统静摩擦模型进行比较。将已识别的基于 PINN 的摩擦模型集成到两层扭矩控制架构中可增强实时摩擦补偿。结果表明，控制性能显着提高，能量损失减少，突出了所提出方法的可扩展性和鲁棒性，也适用于人形机器人等大量关节的应用。

利用凸包和预测最近点的多体系统的非保守避障

分类： 机器人技术

作者： Lotte Rassaerts, Eke Suichies, Bram van de Vrande, Marco Alonso, Bas Meere, Michelle Chong, Elena Torta

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12659v1

摘要： 本文介绍了一种新颖的方法，该方法利用凸包和最近点距离计算，将未来最近点预测集成到防撞控制器的距离约束中。通过解决最近点的突变问题，该方法有效降低了碰撞风险并提高了控制器性能。该框架应用于图像引导治疗机器人并通过模拟和用户实验进行验证，展示了距离预测精度的提高、轨迹更平滑以及障碍物附近导航更安全。

可扩展多智能体导航的混合决策：集成语义图、离散协调和模型预测控制

分类： 机器人技术

作者： Koen de Vos, Elena Torta, Herman Bruyninckx, Cesar Lopez Martinez, Rene van de Molengraft

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12651v1

摘要： 本文提出了一个在结构化但动态的环境中进行多智能体导航的框架，集成了三个关键组件：共享语义地图编码度量和语义环境知识、用于协调对环境内区域的访问的声明策略以及用于生成尊重环境和协调约束的运动轨迹。这种方法的主要优点包括： (i) 根据具体任务要求强制执行区域占用限制； (ii) 通过消除机器人代理之间的碰撞避免约束来增强计算可扩展性； (iii) 预测和避免代理之间僵局的能力。该论文包括模拟和物理实验，证明了该框架在各种代表性场景中的有效性。

在机器人配置空间中生长无碰撞凸多面体的更快算法

分类： 机器人技术, 计算几何

作者： Peter Werner, Thomas Cohn, Rebecca H. Jiang, Tim Seyde, Max Simchowitz, Russ Tedrake, Daniela Rus

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12649v1

摘要： 我们提出了两种在机器人配置空间中构造凸无碰撞多胞体的新颖算法。找到这些多面体可以应用更强大的运动规划框架，例如使用凸集图进行轨迹优化[1]，并且目前是采用这些方法的主要障碍。在本文中，我们以 IRIS-NP（半定和非线性规划迭代区域膨胀）[2] 为基础，显着提高了可调节性、运行时间以及复杂环境的扩展性。 IRIS-NP 使用非线性编程与均匀随机初始化相结合来查找自由配置空间边界上的配置。我们的主要见解是，使用采样查找附近的配置空间障碍物成本低廉，并且大大加速了区域生成。我们提出了两种使用此类样本的算法，要么更有效地采用非线性规划（IRIS-NP2），要么使用大规模并行零阶优化策略（IRIS-ZO）完全规避它。我们还提出了一个终止条件，控制超过用户指定的允许碰撞分数的概率，消除了 IRIS-NP 中调整困难的一个重要来源。我们比较了八个机器人环境的性能，结果表明 IRIS-ZO 比 IRIS-NP 实现了数量级的速度优势。 IRISNP2 也比 IRIS-NP 快得多，它使用更少的超平面构建更大的多面体，从而实现更快的下游计算。网站：https://sites.google.com/view/fastiris

具有大语言模型驱动的数据合成和自动驾驶政策适应的鲁棒强化学习

分类： 机器人技术, 人工智能

作者： Sihao Wu, Jiaxu Liu, Xiangyu Yin, Guangliang Cheng, Meng Fang, Xingyu Zhao, Xinping Yi, Xiaowei Huang

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12568v1

摘要： 将大型语言模型（LLM）集成到自动驾驶系统中表现出强大的常识和推理能力，有效解决了纯数据驱动方法的缺陷。当前基于 LLM 的代理需要很长的推理时间，并且在与实时自动驾驶环境交互时面临挑战。一个关键的悬而未决的问题是我们是否可以有效地利用大语言模型的知识来训练高效且强大的强化学习（RL）代理。本文介绍了 RAPID，一种新颖的 \underline{\textbf{R}}obust \underline{\textbf{A}}daptive \underline{\textbf{P}}olicy \underline{\textbf{I}}nfusion 和 \underline {\textbf{D}}蒸馏框架，使用基于 LLM 的驱动代理和在线适应合成的数据来训练专门的混合策略 RL 代理。 RAPID 具有三个关键设计：1）利用从 LLM 代理收集的离线数据将专家知识提炼为 RL 策略，以实现更快的实时推理； 2）在强化学习中引入鲁棒蒸馏，继承LLM老师的性能和鲁棒性； 3）采用策略混合方法与策略适配器进行联合决策解码。通过在线环境交互进行微调，RAPID减少了LLM知识的遗忘，同时保持了对不同任务的适应性。大量实验证明 RAPID 能够以高效、适应性强且稳健的方式将 LLM 知识有效地整合到规模缩小的 RL 策略中。代码和检查点将在接受后公开。

在无人机驱动的搜索和救援任务中利用增强现实提高态势感知

分类： 机器人技术

作者： Rushikesh Nalamothu, Puneet Sontha, Janardhan Karravula, Ankit Agrawal

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12556v1

摘要： 在高风险的搜救任务领域，无人机 (UAV) 的部署变得越来越重要。这些任务需要响应团队中不同角色之间的无缝实时通信，特别是远程操作员 (RO) 和现场操作员 (OSO) 之间。传统上，RO 和 OSO 依靠无线电通信来交换关键信息，例如受害者的地理位置、危险区域和兴趣点。然而，无线电通信缺乏信息可视化、存在噪音、需要耗费脑力来解读信息，从而导致沟通不畅和误解。为了应对这些挑战，本文提出了 VizCom-AR，这是一种增强现实系统，旨在促进 RO 和 OSO 之间的视觉通信以及无人机驱动的搜索和救援任务期间的态势感知。我们的实验、与警官的焦点小组会议以及现场研究表明，VizCom-AR 增强了 RO 和 OSO 的空间意识，促进地理定位信息交换，并有效补充无人机驱动的应急响应任务中的现有通信工具。总体而言，VizCom-AR 为设计用于大规模无人机驱动的救援任务的增强现实系统提供了一个基本框架。

描述自动驾驶汽车和人类驾驶员在无信号交叉口的行为差异和适应：来自 Waymo 和 Lyft 开放数据集的见解

分类： 机器人技术, 人工智能, 应用领域

作者： Saeed Rahmani, Zhenlin, Xu, Simeon C. Calvert, Bart van Arem

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12538v1

摘要： 自动驾驶汽车 (AV) 与交通系统的集成为提高道路安全和效率提供了前所未有的机会。然而，了解自动驾驶汽车和人类驾驶车辆 (HV) 在十字路口之间的相互作用仍然是一个悬而未决的研究问题。本研究旨在利用 Waymo 和 Lyft 的两个综合自动驾驶数据集，研究自动驾驶汽车和高压汽车在无信号交叉口的行为差异和适应性，从而弥补这一差距。该研究采用系统方法，通过计算关键安全和效率指标来识别和分析并道和交叉冲突，包括碰撞时间（TTC）、侵入后时间（PET）、最大所需减速度（MRD）、时间优势（TA），以及速度和加速度曲线。研究结果揭示了混合交通流中的一个悖论：虽然自动驾驶汽车保持了较大的安全裕度，但它们的保守行为可能会导致人类驾驶员出现意想不到的情况，从而可能导致不安全的情况。从性能角度来看，与其他 HV 相比，人类驾驶员在与 AV 交互时表现出更一致的行为，这表明 AV 可能有助于协调交通流模式。此外，Waymo 和 Lyft 车辆之间存在显着差异，这凸显了在交通建模和自动驾驶安全集成管理策略中考虑制造商特定自动驾驶行为的重要性。本研究中使用的处理数据集已公开发布，以促进 AV-HV 相互作用的研究。

根据接触点的鲁棒性进行稳定的物体放置规划

分类： 机器人技术, 人工智能

作者： Philippe Nadeau, Jonathan Kelly

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12483v1

摘要： 我们引入了一种规划器，旨在指导机器人操纵器在复杂的场景中稳定地放置物体。我们提出的方法逆转了传统的对象放置方法：我们的规划器首先选择接触点，然后确定征求所选点的放置姿势。这不是对姿势进行采样、识别接触点和评估姿势质量。我们的算法有助于稳定性感知的对象放置规划，对对象形状、凸度或质量密度均匀性没有限制，同时避免组合计算复杂性。与不使用启发式的相同算法相比，我们提出的稳定性启发式算法使我们的规划人员找到解决方案的速度快了约 20 倍，比使用传统采样和评估的最先进方法快了 8 倍方法。我们提出的规划器在找到稳定的位置方面也比其他五个基准算法更成功。我们的规划器源自第一原理并在十个真实的机器人实验中得到验证，提供了一种通用且可扩展的方法来解决刚性物体的物体放置规划问题。

Imagine2Servo：具有扩散驱动目标生成功能的智能视觉伺服机器人任务

分类： 机器人技术

作者： Pranjali Pathre, Gunjan Gupta, M. Nomaan Qureshi, Mandyam Brunda, Samarth Brahmbhatt, K. Madhava Krishna

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12432v1

摘要： 视觉伺服是一种通过视觉传感器的反馈来控制机器人运动的方法，随着基于光流的方法的集成，已经取得了显着的进步。然而，其应用仍然受到固有挑战的限制，例如测试时需要目标图像、初始图像和目标图像之间大量重叠的要求以及对单个相机反馈的依赖。本文介绍了 Imagine2Servo，这是一种利用基于扩散的图像编辑技术通过生成中间目标图像来增强视觉伺服算法的创新方法。这种方法允许将视觉伺服应用扩展到传统限制之外，从而无需预定义目标图像即可实现远程导航和操纵等任务。我们提出了一种管道，可以合成基于当前任务的子目标图像，促进在初始图像和目标图像重叠最小的场景中进行伺服，并集成多相机反馈以实现全面的任务执行。我们的贡献展示了图像生成在机器人控制中的新颖应用，显着拓宽了视觉伺服系统的功能。现实世界的实验验证了 Imagine2Servo 框架在完成各种任务方面的有效性和多功能性，标志着视觉伺服领域的显着进步。

AdaCropFollow：用于视觉树冠下导航的自我监督在线适应

分类： 机器人技术, 计算机视觉和模式识别

作者： Arun N. Sivakumar, Federico Magistri, Mateus V. Gasparino, Jens Behley, Cyrill Stachniss, Girish Chowdhary

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12411v1

摘要： 冠层下农业机器人可以在整个生长季节实现各种应用，例如精确监测、喷洒、除草和植物操纵任务。由于 RTK-GPS 精度下降以及场景视觉外观随时间变化很大，树冠下的自主导航具有挑战性。在之前的工作中，我们开发了一种具有语义关键点表示的基于监督学习的感知系统，并将其部署在各种现场条件下。该系统的大量故障可归因于感知模型无法适应部署过程中遇到的域转移。在本文中，我们提出了一种自监督在线适应方法，使用视觉基础模型、几何先验和伪标签来适应语义关键点表示。我们的初步实验表明，通过最少的数据和参数的微调，在源域上使用标签训练的关键点预测模型可以使用我们的方法以自我监督的方式适应机器人计算机上的各种具有挑战性的目标域。这可以使冠层机器人在田地和农作物上实现完全自主的行跟随能力，而无需人工干预。

以人为本的环境中的受人启发的长期室内定位

分类： 机器人技术

作者： Nicky Zimmerman, Matteo Sodano

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12362v1

摘要： 终身本地化对于实现服务机器人的自主性至关重要。在本文中，我们概述了我们过去在长期定位和地图方面的研究，利用平面图等几何先验并整合文本和语义信息。我们的方法在跨越数月的具有挑战性的序列上得到了验证，并且我们发布了开源实现。

一种数据驱动的轮式双足机器人接触估计方法

分类： 机器人技术, 可能性

作者： Ü. Bora Gökbakan, Frederike Dümbgen, Stéphane Caron

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12345v2

摘要： 接触估计是四肢机器人的一项关键能力，接触和断开接触对状态估计和平衡控制有直接影响。现有方法通常依赖于门周期先验或指定的接触传感器。我们设计了一种接触估计器，适用于不具备这些功能的新兴轮式双足机器人类型。为此，我们提出了一种贝叶斯滤波器，其中更新步骤是从真实机器人扭矩测量中学习的，而预测步骤则依赖于惯性测量。我们在广泛的真实机器人和模拟实验中评估了这种方法。我们的方法实现了更好的性能，同时比同类深度学习基线的样本效率更高。

PAPL-SLAM：主轴锚定单目点线SLAM

分类： 机器人技术, 计算机视觉和模式识别

作者： Guanghao Li, Yu Cao, Qi Chen, Yifan Yang, Jian Pu

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12324v1

摘要： 在点线SLAM系统中，线结构信息的利用和线的优化是两个重要的问题。前者通常通过结构规律来解决，而后者通常涉及在优化中使用线的最小参数表示。然而，分离这两个步骤会导致彼此的约束信息丢失。我们锚定与主轴方向相似的线，并使用 $n+2$ 参数对 $n$ 线进行优化，同时解决这两个问题。我们的方法考虑了场景结构信息，可以轻松扩展到不同的世界假设，同时显着减少要优化的线参数数量，从而实现快速准确的绘图和跟踪。为了进一步增强系统的鲁棒性并避免失配，我们对线轴概率数据关联进行了建模，并提供了轴创建、更新和优化的算法。此外，考虑到大多数现实世界场景符合亚特兰大世界假设，我们提供了一种基于垂直先验和消失点的结构线检测策略。对各种室内和室外数据集的实验结果和消融研究证明了我们系统的有效性。

使用惯性传感器进行现场建筑机器人的机器人运动学模型估计

分类： 机器人技术

作者： Hiroya Sato, Tasuku Makabe, Iori Yanokura, Naoya Yamaguchi, Kei Okada, Masayuki Inaba

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12277v1

摘要： 为了使机器人在各种环境中更加有用，它们需要具有高度便携性，以便可以运输到任何需要它们的地方，并且具有高度可存储性，以便在不使用时可以存放。我们提出了“现场机器人技术”，即使用在机器人活动地点采购的零件，并针对便携性和可存储性问题提出了新的解决方案。在本文中，作为现场机器人技术的概念证明，我们描述了一种通过在刚性连杆上使用惯性测量单元（IMU）传感器模块来估计机器人运动学模型的方法，根据角速度估计模块之间的相对方向，并根据离心力的测量来估计相对位置。在本文的最后，作为对该方法的评估，我们提出了一个由木棍组成的机器人到达目标位置的实验。在本实验中，即使改变连杆的组合，机器人在估计后也能立即再次到达目标位置，表明即使重新组装后也能进行操作。我们的实现可以在 https://github.com/hiroya1224/urdf_estimation_with_imus 上找到。

机器人技术中的 3D 高斯泼溅：一项调查

分类： 机器人技术

作者： Siting Zhu, Guangming Wang, Dezhi Kong, Hesheng Wang

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12262v1

摘要： 环境的密集 3D 表示一直是机器人领域的长期目标。虽然以前的神经辐射场 (NeRF) 表示因其隐式、基于坐标的模型而很流行，但最近出现的 3D 高斯分布 (3DGS) 在其显式辐射场表示方面展现了巨大的潜力。通过利用 3D 高斯基元进行显式场景表示并实现可微分渲染，3DGS 在实时渲染和照片级真实感性能方面显示出优于其他辐射场的显着优势，这对于机器人应用来说是有利的。在本次调查中，我们对机器人领域的 3DGS 有了全面的了解。我们将相关工作的讨论分为两大类：3DGS 的应用和 3DGS 技术的进步。在应用部分，我们从场景理解和交互的角度探讨了 3DGS 如何应用于各种机器人任务。 3DGS部分的推进重点是3DGS自身特性在适应性和效率方面的改进，旨在提升其在机器人领域的性能。然后我们总结了机器人技术中最常用的数据集和评估指标。最后，我们确定了当前 3DGS 方法的挑战和局限性，并讨论了 3DGS 在机器人领域的未来发展。

稳健的模拟到真实强化学习的双重行动策略

分类： 机器学习, 人工智能, 机器人技术

作者： Ng Wen Zheng Terence, Chen Jianda

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12250v1

摘要： 本文提出了双重行动策略（DAP），这是一种解决强化学习模拟与真实差距中固有的动态不匹配问题的新方法。 DAP 使用单一策略来预测两组动作：一组用于在模拟中最大化任务奖励，另一组专门用于通过奖励调整进行领域适应。这种解耦使得在训练期间更容易最大化源域中的总体奖励。此外，DAP 在训练期间结合了基于不确定性的探索，以增强代理的鲁棒性。实验结果证明，DAP 在弥合模拟与真实差距方面的有效性，在模拟中具有挑战性的任务上优于基线，并且通过结合不确定性估计实现了进一步的改进。

非动力学条件扩散规划器

分类： 机器学习, 机器人技术

作者： Wen Zheng Terence Ng, Jianda Chen, Tianwei Zhang

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12238v1

摘要： 离线强化学习 (RL) 通过利用预先存在的数据集，为交互式数据采集提供了一种有吸引力的替代方案。然而，其有效性取决于数据样本的数量和质量。这项工作探索使用更容易获得的、非动态数据集来解决离线强化学习中数据稀缺的挑战。我们提出了一种使用条件扩散概率模型（DPM）来学习大规模非动态数据集和有限目标数据集的联合分布的新方法。为了使模型能够捕获底层动态结构，我们为条件模型引入了两个上下文：（1）连续动态分数允许两个数据集中的轨迹之间存在部分重叠，为模型提供更丰富的信息； (2) 逆动态环境引导模型生成遵循目标环境动态约束的轨迹。实证结果表明，我们的方法明显优于几个强大的基线。消融研究进一步揭示了每种动态背景的关键作用。此外，我们的模型表明，通过修改上下文，我们可以在源动态和目标动态之间进行插值，使其对环境中的细微变化更加鲁棒。

在不断变化的环境中快速在线学习 CLiFF 地图

分类： 机器人技术

作者： Yufei Zhu, Andrey Rudenko, Luigi Palmieri, Lukas Heuer, Achim J. Lilienthal, Martin Magnusson

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12237v1

摘要： 动态图是从先前观察中学习到的运动模式的有效表示，最近的研究表明它们能够增强各种下游任务的性能，例如人类感知机器人导航、长期人类运动预测和机器人定位。当前的进展主要集中在在人流静态的环境中学习人流地图的方法，即不假设随时间变化的环境中。在本文中，我们提出了一种更新 CLiFF 地图（一种动态地图）的方法，以实现机器人的高效终身操作。随着新观测值的收集，我们的目标是更新 CLiFF 地图，以有效、准确地整合新观测值，同时保留相关的历史运动模式。所提出的在线更新方法在每个观察位置维护概率表示，通过连续跟踪足够的统计数据来更新参数。在使用合成数据集和真实世界数据集的实验中，我们表明我们的方法能够保持人体运动动力学的准确表示，有助于高性能的符合流程的规划下游任务，同时比可比较的基线快几个数量级。

提高基于强化学习的局部运动规划器对不可见人群行为的泛化

分类： 机器人技术, 人工智能, 机器学习

作者： Wen Zheng Terence Ng, Jianda Chen, Sinno Jialin Pan, Tianwei Zhang

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12232v1

摘要： 由于行人的运动不可预测，在有人类行人的场景中部署安全的移动机器人策略具有挑战性。当前基于强化学习的运动规划器依靠单一策略来模拟行人运动，并且可能会遇到过度拟合问题。或者，将防撞问题构建为多智能体框架，其中智能体在学习实现目标的同时产生动态运动，但由于其同质性，可能会导致与人类行人的冲突。为了解决这个问题，我们引入了一种有效的方法，通过最大化信息论目标来增强单个策略内的代理多样性。这种多样性丰富了每个智能体的经验，提高了其对看不见的人群行为的适应能力。在评估智能体针对看不见的人群的鲁棒性时，我们受行人人群行为的启发提出了多种场景。在这些具有挑战性的场景中，我们的行为条件策略优于现有的工作，无需额外的时间或旅行即可减少潜在的碰撞。

使用图神经网络学习可微分张拉整体动力学

分类： 机器人技术

作者： Nelson Chen, Kun Wang, William R. Johnson III, Rebecca Kramer-Bottiglio, Kostas Bekris, Mridul Aanjaneya

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12216v1

摘要： 张拉整体机器人由刚性支柱和柔性电缆组成。它们构成了一类新兴的混合刚软机器人系统，是从运动到装配等广泛应用的有前途的系统。然而，由于它们的合规性和高自由度，它们很难准确地控制和建模。为了解决这个问题，之前的工作引入了一种基于第一原理为张拉整体机器人设计的可微分物理引擎。相比之下，这项工作提出使用图神经网络在张拉整体机器人的图表示上对接触动力学进行建模，该机器人利用了刚性杆端盖之间的自然图状电缆连接。该学习模拟器可以在使用 MuJoCo 作为地面实况的模拟到模拟实验中准确地模拟 3 杆和 6 杆张拉整体机器人动力学。与之前的真实 3 杆张拉整体机器人的可微分引擎相比，它还可以实现更高的精度，对于真实的 3 杆张拉整体机器人来说，机器人状态只能部分观察。与最近基于网格的图神经网络模拟器的直接应用相比，所提出的方法在训练和推理方面都在计算上更加高效，同时实现了更高的精度。代码和数据可在 https://github.com/nchen9191/tensegrity_gnn_simulator_public 获取

使用基于弧长的地图匹配在 GPS 拒绝场景中进行车辆定位

分类： 机器人技术, 系统与控制, 系统与控制

作者： Nur Uddin Javed, Yuvraj Singh, Qadeer Ahmed

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12208v1

摘要： 自动驾驶系统在 GPS 被拒绝的情况下面临挑战。为了解决这个问题，使用车辆上的转向角、转向速率、偏航速率和轮速传感器的测量值来实现运动航位推算。然而，航位推算方法会出现漂移。本文提供了一种基于弧长的地图匹配方法，该方法使用场景的数字二维地图来纠正航位推算估计中的漂移。运动学模型的预测用于向地图数据中可用的空间信息引入时间概念。结果表明，在本研究中测试的所有 GPS 拒绝场景中，漂移都有可靠的改善。这种创新方法可确保自动驾驶车辆能够保持连续可靠的导航，从而显着提高其在 GPS 信号受损或不可用的环境中的安全性和操作可靠性。

用于快速自适应运动动力学运动规划的轨迹流形优化

分类： 机器人技术, 人工智能

作者： Yonghyeon Lee

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12193v1

摘要： 快速运动动力学运动规划对于系统有效适应动态变化的环境至关重要。尽管做出了一些努力，现有方法仍然难以快速规划高维度、复杂的问题。毫不奇怪，主要挑战来自搜索空间的高维性，特别是轨迹空间。我们用两步方法解决这个问题：首先，我们确定一个低维轨迹流形{\it离线}，包括与当前任务特别相关的不同轨迹，同时满足运动动力学约束。随后，我们在这个流形中搜索解决方案{\it online}，显着提高了规划速度。为了编码和生成一系列连续时间、可微分的轨迹，我们提出了一种新颖的神经网络模型，{\it 可微分运动流形基元（DMMP）}，以及实用的训练策略。使用负责动态投掷到任意目标位置的 7-DoF 机器人臂进行的实验表明，我们的方法在规划速度、任务成功和约束满足方面超越了现有方法。

机器人运动生成的现状

分类： 机器人技术, 人工智能, 机器学习, I.2.9; I.2.8; I.2.6

作者： Kostas E. Bekris, Joe Doerr, Patrick Meng, Sumanth Tangirala

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12172v1

摘要： 本文回顾了 50 年来机器人研究中提出的各种产生机器人运动的方法，以及最近的发展。它跨越了方法论的界限，从那些在显式模型上运行的方法到那些学习隐式模型的方法，通常不会一起进行调查。本文讨论了当前的最新技术以及不同方法的特性，强调了集成的机会。

迈向自主室内停车：全球一致的语义 SLAM 系统和语义定位子系统

分类： 机器人技术

作者： Yichen Sha, Siting Zhu, Hekui Guo, Zhong Wang, Hesheng Wang

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12169v1

摘要： 我们提出了一个全局一致的语义 SLAM 系统（GCSLAM）和一个语义融合定位子系统（SF-Loc），可以在复杂的停车场中实现准确的语义映射和鲁棒的定位。视觉相机（前视和环视）、IMU 和车轮编码器构成了我们系统的输入传感器配置。我们工作的第一部分是GCSLAM。 GCSLAM 引入了一种新颖的因子图来优化姿势和语义图，它结合了基于多传感器数据和 BEV（鸟瞰图）语义信息的创新错误项。此外，GCSLAM 还集成了全局停车位管理模块，用于存储和管理停车位观察结果。 SF-Loc是我们工作的第二部分，它利用GCSLAM构建的语义地图来进行基于地图的定位。 SF-Loc 将配准结果和里程计姿势与新颖的因子图集成在一起。我们的系统在两个真实数据集上展示了优于现有 SLAM 的性能，显示出强大的全局定位和精确语义映射的出色能力。

用于实时最优控制的嵌入式 SoC 架构的设计空间探索

分类： 机器人技术, 系统与控制, 系统与控制

作者： Kris Shengjun Dong, Dima Nikiforov, Christopher Fletcher, Yakun Sophia Shao

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12142v1

摘要： 让资源有限的机器人执行计算密集型任务（例如基于模型/学习的算法）具有挑战性。由于工作负载特征的复杂性，不同系统中的瓶颈可能取决于应用程序需求，从而导致单个硬件架构无法满足所有机器人应用程序的需求。该项目提供了全面的设计空间探索，以确定适合机器人算法的最佳硬件计算平台和架构。我们跨通用核心和专用加速器分析和优化代表性架构设计。具体来说，我们将 CPU、向量机和领域专用加速器与内核级基准测试和端到端代表性机器人工作负载进行比较。我们的探索提供了定量的性能、面积和利用率比较，并分析了这些代表性的不同建筑设计之间的权衡。我们证明，硬件架构选择的变化取决于工作负载特征和应用程序要求。最后，我们探讨了架构修改和软件生态系统优化如何缓解瓶颈并提高利用率。

具有时间逻辑目标的样本高效强化学习：利用任务规范来指导探索

分类： 机器人技术, 人工智能

作者： Yiannis Kantaros, Jun Wang

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12136v1

摘要： 本文解决了学习具有不确定动态和指定为线性时序逻辑（LTL）公式的高级控制目标的系统的最优控制策略的问题。工作空间结构和控制决策结果中考虑了不确定性，从而产生未知的马尔可夫决策过程 (MDP)。用于 LTL 任务的现有强化学习 (RL) 算法通常依赖于统一探索产品 MDP 状态空间（使用例如 $\epsilon$-贪婪策略），从而损害样本效率。随着奖励变得越来越稀疏并且 MDP 大小或任务复杂性增加，这个问题变得更加明显。在本文中，我们提出了一种加速强化学习算法，它可以比竞争方法更快地学习控制策略。它的样本效率依赖于一种新颖的任务驱动的探索策略，该策略将探索偏向可能有助于任务满意度的方向。我们提供理论分析和广泛的比较实验，证明所提出方法的样本效率。随着任务复杂性或 MDP 大小的增加，我们方法的好处变得更加明显。

以可供性为中心的策略学习：使用以可供性为中心的任务框架进行高效且可通用的机器人策略学习示例

分类： 机器人技术, 人工智能

作者： Krishan Rana, Jad Abou-Chakra, Sourav Garg, Robert Lee, Ian Reid, Niko Suenderhauf

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.12124v1

摘要： 可供性是机器人操作的核心，其中大多数任务可以简化为与对象上特定任务区域的交互。通过关注这些关键区域，我们可以抽象出与任务无关的信息，简化学习过程并增强泛化能力。在本文中，我们提出了一种以可供性为中心的策略学习方法，该方法将 \textit{orients} 集中在这些可供性区域上，使我们能够实现 \textbf{intra-category invariance} ——其中策略可以在同一对象类别内的不同实例之间进行泛化，并且具有空间不变性，无论对象在环境中的放置如何，都可以实现一致的性能。我们提出了一种利用现有的通用大视觉模型来提取和跟踪这些可供性框架的方法，并证明我们的方法可以使用来自少至 10 个演示的行为克隆来学习操作任务，并等效于在 305 上训练的基于图像的策略示威活动。我们在项目网站上提供视频演示：https://affordance-policy.github.io。

用于机器人应用的新型扭绞绳致动器：设计与验证

分类： 机器人技术

作者： Ryan Poon, Vineet Padia, Ian W. Hunter

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.12097v1

摘要： 本文提出了一种将扭弦致动器（TSA）与绞盘机构相结合的新型致动器系统。相对于机器人领域的传统液压和气动系统，TSA 结构紧凑、重量轻，但在行程长度和力传递比方面面临限制。我们的集成 TSA 绞盘系统通过动态调整提供可变传动比，从而克服了这些限制。它通过绞盘而不是过度扭转来增加执行器行程，并通过扭转来提高力输出。该设计采用装有绞盘的旋转转塔，绞盘安装在由通孔驱动轴驱动的锥齿轮组件上。为该系统的位移和速度组合控制开发了数学模型。实验验证表明执行器能够实现广泛的传动比和精确的运动控制。我们提供有关运动精度和产生的力的性能数据，并在现有文献的背景下讨论结果。这项研究有助于开发更通用、更高效的驱动系统，用于先进的机器人应用和改进的自动化解决方案。

V3D-SLAM：动态环境中具有 3D 语义几何投票的鲁棒 RGB-D SLAM

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Tuan Dang, Khang Nguyen, Mandfred Huber

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.12068v1

摘要： 由于移动物体和相机姿态之间的相关复杂性，高度动态环境中的同步定位和建图 (SLAM) 具有挑战性。已经提出了许多方法来解决这个问题；然而，移动相机的动态物体的移动特性仍不清楚。因此，为了提高 SLAM 的性能，需要通过对物体 3D 形状和动态的物理理解来最大限度地减少移动物体的破坏事件。在本文中，我们提出了一种鲁棒方法 V3D-SLAM，通过两个轻量级重新评估阶段来删除移动对象，包括使用空间合理的霍夫投票机制识别潜在的移动和静态对象，并通过检测引起的动态噪声来细化静态对象通过使用倒角距离作为相似性测量的对象内运动。我们在 TUM RGB-D 基准上对具有地面实况相机轨迹的动态序列进行的实验表明，我们的方法优于最新的最先进的 SLAM 方法。我们的源代码可在 https://github.com/tuantdang/v3d-slam 获取。

MFC-EQ：使用包络 Q 学习进行平均场控制，用于移动编队中的分散智能体

分类： 机器人技术, 人工智能, 机器学习, 多代理系统

作者： Qiushi Lin, Hang Ma

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.12062v1

摘要： 我们研究了移动代理编队（MAiF）的分散版本，这是多代理路径查找的一种变体，旨在为多个代理规划无碰撞路径，其双重目标是快速实现目标，同时保持所需的编队。代理人必须在部分观察和有限沟通的条件下平衡这些目标。编队维持取决于所有智能体的联合状态，其维度随着智能体数量呈指数级增长，使得学习过程变得棘手。此外，学习可以适应这两个目标的不同线性偏好的单一策略提出了重大挑战。在本文中，我们提出了带有包络$Q$学习的平均场控制（MFC-EQ），这是一个针对这种双目标多智能体问题的可扩展且适应性强的学习框架。我们使用平均场理论来近似所有智能体的动态，同时通过包络 $Q$ 学习来学习通用的偏好不可知策略。我们在众多实例中对 MFC-EQ 的实证评估表明，它的性能优于最先进的集中式 MAiF 基线。此外，MFC-EQ 可以有效处理更复杂的场景，其中所需的队形会动态变化，这是现有 MAiF 规划人员无法解决的挑战。

基于李亚普诺夫的飞行过程中稳定闭环固定姿态误差四元数选择切换方案

分类： 机器人技术, 系统与控制, 系统与控制

作者： Francisco M. F. R. Goncalves, Ryan M. Bena, Konstantin I. Matveev, Nestor O. Perez-Arancibia

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.12054v1

摘要： 我们提出了一种切换方案，它使用姿态误差四元数（AEQ）和角速度误差来控制无人驾驶飞行器（UAV）在飞行过程中的旋转自由度。在这种方法中，所提出的控制器不断选择稳定的闭环 (CL) 平衡 AEQ，该 AEQ 对应于使用两个基于能量的 Lyapunov 函数计算的成本之间的最小成本。为了分析和增强 CL 开关动态的稳定性，我们使用基本的非线性理论。这个研究问题是相关的，因为稳定的 CL 平衡 AEQ 的选择直接决定了受控无人机在飞行过程中的功率和能量需求。为了测试和演示所提出方法的实施、适用性、功能和性能，我们展示了使用 31 克四旋翼飞行器获得的实验结果，该四旋翼飞行器被控制以在飞行中执行高速偏航机动。这些飞行测试表明，与常用的基准控制器相比，所提出的切换控制器平均可以分别减少控制工作量和旋转功率高达 49.75% 和 28.14%。

用于长期语言引导移动操作的动态开放词汇 3D 场景图

分类： 机器人技术

作者： Zhijie Yan, Shufei Li, Zuoxu Wang, Lixiu Wu, Han Wang, Jun Zhu, Lijiang Chen, Jihong Liu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11989v2

摘要： 使移动机器人能够在动态的现实环境中执行长期任务是一项艰巨的挑战，特别是当环境因人机交互或机器人自身行为而频繁变化时。传统方法通常假设静态场景，这限制了它们在不断变化的现实世界中的适用性。为了克服这些限制，我们提出了 DovSG，这是一种新颖的移动操作框架，它利用动态开放词汇 3D 场景图和语言引导的任务规划模块来执行长期任务。 DovSG 以 RGB-D 序列作为输入，并利用视觉语言模型（VLM）进行对象检测，以获得高级对象语义特征。基于分割的对象，为低级空间关系生成结构化 3D 场景图。此外，用于本地更新场景图的有效机制允许机器人在交互过程中动态调整图的部分，而不需要完整的场景重建。这种机制在动态环境中尤其有价值，使机器人能够不断适应场景变化，有效支持长期任务的执行。我们通过不同程度的手动修改在现实环境中验证了我们的系统，证明了其在长期任务中的有效性和卓越性能。我们的项目页面位于：https://BJHYZJ.github.io/DoviSG。

一种基于图的在线自学习自动驾驶汽车横向控制器

分类： 机器人技术

作者： Jilan Samiuddin, Benoit Boulet, Di Wu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11979v1

摘要： 过去几年，围绕自动驾驶汽车的炒作不断升温，并引发了大量研究。自动驾驶汽车的多个模块都经过深入研究，以确保安全性、舒适性和效率，其中控制器至关重要。控制器模块可分为纵向控制器和横向控制器，前者的任务是跟随参考速度，后者的任务是减少相对于参考路径的横向位移误差。通常，经过调整的控制器不足以在所有环境中执行。因此，自动驾驶需要一个能够适应不断变化的条件的控制器。此外，这些控制器通常依赖于车辆模型，这些车辆模型也需要随着时间的推移而适应环境的变化。本文使用图来展示在线学习车辆模型和横向控制器的新技术。首先，呈现一个异构图，描述车辆的当前状态和输入。然后使用已知的物理约束并通过图神经网络结构对图进行处理来在线学习车辆模型。接下来，另一个异构图（描述从当前状态到所需状态的转变）通过另一个图神经网络结构进行处理，以动态生成转向命令。最后，这种基于自学习模型的横向控制器的性能在名为 CARLA 的开源自动驾驶平台上进行了评估，结果显示令人满意。

对比触摸预训练

分类： 机器人技术

作者： Samanta Rodriguez, Yiming Dou, William van den Bogert, Miquel Oller, Kevin So, Andrew Owens, Nima Fazeli

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11834v1

摘要： 当今的触觉传感器具有多种不同的设计，这使得开发处理触摸信号的通用方法具有挑战性。在本文中，我们学习了一种统一的表示形式，可以捕获不同触觉传感器之间的共享信息。与当前专注于重建或特定任务监督的方法不同，我们利用对比学习将来自两个不同传感器的触觉信号集成到共享嵌入空间中，使用多个传感器探测相同对象的数据集。我们将此方法应用于来自 GelSlim 和 Soft Bubble 传感器的配对触摸信号。我们表明，我们学习的特征为下游姿态估计和分类任务提供了强大的预训练。我们还表明，我们的嵌入使得使用一个触摸传感器训练的模型可以使用另一个触摸传感器进行部署，而无需额外的训练。项目详情请访问 https://www.mmintlab.com/research/cttp/。

减轻复杂 Q 函数中确定性策略梯度的次优性

分类： 机器学习, 人工智能, 机器人技术, 机器学习

作者： Ayush Jain, Norio Kosaka, Xinhu Li, Kyung-Min Kim, Erdem Bıyık, Joseph J. Lim

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11833v1

摘要： 在强化学习中，像 DDPG 和 TD3 这样的非策略行为批评方法是基于确定性策略梯度的。在此，Q 函数是根据离策略环境数据进行训练的，并且参与者（策略）经过训练以通过梯度上升来最大化 Q 函数。我们观察到，在灵巧操作和受限运动等复杂任务中，Q 值是动作的复杂函数，具有多个局部最优值或不连续性。这对梯度上升遍历提出了挑战，并使参与者容易陷入局部最优。为了解决这个问题，我们引入了一种新的参与者架构，它结合了两个简单的见解：（i）使用多个参与者并评估 Q 值最大化动作，以及（ii）学习 Q 函数的代理，这些代理更容易使用梯度进行优化 -为基础的方法。我们评估了诸如受限运动、灵巧操作和大型离散动作空间推荐系统等任务，并表明我们的参与者更频繁地找到最佳动作，并且优于替代参与者架构。

通过 Lipschitz 约束策略学习平滑的人形运动

分类： 机器人技术, 人工智能

作者： Zixuan Chen, Xialin He, Yen-Jen Wang, Qiayuan Liao, Yanjie Ze, Zhongyu Li, S. Shankar Sastry, Jiajun Wu, Koushil Sreenath, Saurabh Gupta, Xue Bin Peng

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11825v1

摘要： 强化学习与模拟到真实的迁移相结合，为开发腿式机器人的运动控制器提供了通用框架。为了促进在现实世界中的成功部署，通常采用平滑技术（例如低通滤波器和平滑奖励）来开发具有平滑行为的策略。然而，由于这些技术是不可微的，并且通常需要对大量超参数进行繁琐的调整，因此它们往往需要对每个机器人平台进行大量的手动调整。为了应对这一挑战并建立一种强制执行平稳行为的通用技术，我们提出了一种简单而有效的方法，该方法对学习策略施加 Lipschitz 约束，我们将其称为 Lipschitz 约束策略（LCP）。我们证明了 Lipschitz 约束可以以梯度惩罚的形式实现，它提供了一个可微分的目标，可以轻松地与自动微分框架合并。我们证明，LCP 有效地取代了对平滑奖励或低通滤波器的需求，并且可以轻松集成到许多不同的人形机器人的训练框架中。我们在模拟和现实世界的人形机器人中广泛评估 LCP，产生平滑且强大的运动控制器。所有模拟和部署代码以及完整的检查点都可以在我们的项目页面上找到：https://lipschitz-constrained-policy.github.io。

双足人形机器人在水平和垂直运动未知的表面上行走的自适应踝关节扭矩控制

分类： 机器人技术

作者： Jacob Stewart, I-Chia Chang, Yan Gu, Petros A. Ioannou

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11799v1

摘要： 由于机器人的混合、时变、部分未知的动力学以及精确状态和表面运动估计的困难，在未知运动的表面上实现稳定的双足行走仍然是一个具有挑战性的控制问题。表面运动给步行机器人动力学中的系统参数和非均匀扰动带来了不确定性。在本文中，我们设计了一种自适应脚踝扭矩控制器来同时解决这两个不确定性，并提出了一种步长规划器来最小化所需的控制扭矩。通常，自适应控制器用于连续系统。为了对步行机器人等混合系统应用自适应控制，引入了中间命令配置文件以确保连续误差系统。对平面双足机器人的仿真以及与基线控制器的比较表明，所提出的方法有效地确保了在未知的时变干扰下的稳定行走和准确跟踪。

OKAMI：通过单个视频模仿教授人形机器人操作技能

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Jinhan Li, Yifeng Zhu, Yuqi Xie, Zhenyu Jiang, Mingyo Seo, Georgios Pavlakos, Yuke Zhu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11792v1

摘要： 我们研究通过模仿单个视频演示来教授人形机器人操作技能的问题。我们介绍 OKAMI，这是一种从单个 RGB-D 视频生成操纵计划并导出执行策略的方法。我们方法的核心是对象感知重定向，它使人形机器人能够模仿 RGB-D 视频中的人类动作，同时在部署过程中调整到不同的对象位置。 OKAMI 使用开放世界视觉模型来识别与任务相关的物体，并分别重新定位身体运动和手部姿势。我们的实验表明，OKAMI 在不同的视觉和空间条件下实现了很强的泛化，超越了开放世界观察模仿的最先进基线。此外，OKAMI 推出轨迹用于训练闭环视觉运动策略，无需劳动密集型远程操作即可实现 79.2% 的平均成功率。更多视频可以在我们的网站 https://ut-austin-rpl.github.io/OKAMI/ 上找到。

潜在 BKI：具有可量化不确定性的视觉语言潜在空间中的开放字典连续映射

分类： 计算机视觉和模式识别, 机器人技术

作者： Joey Wilson, Ruihan Xu, Yile Sun, Parker Ewen, Minghan Zhu, Kira Barton, Maani Ghaffari

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11783v1

摘要： 本文介绍了一种新颖的概率映射算法 Latent BKI，它能够实现具有可量化不确定性的开放词汇表映射。传统上，语义映射算法专注于一组固定的语义类别，这限制了它们对复杂机器人任务的适用性。视觉语言（VL）模型最近作为一种在潜在空间中联合建模语言和视觉特征的技术而出现，使得语义识别超出了预定义的、固定的语义类集。潜在 BKI 经常将 VL 模型的神经嵌入合并到具有可量化不确定性的体素图中，通过贝叶斯核推理 (BKI) 利用附近观测值的空间相关性。在流行的 MatterPort-3D 和 Semantic KITTI 数据集上，针对类似的显式语义映射和 VL 映射框架对潜在 BKI 进行了评估，表明潜在 BKI 保持了连续映射的概率优势以及开放字典查询的额外优势。现实世界的实验证明了其适用于具有挑战性的室内环境。

具有柔软不对称手臂的章鱼游泳机器人

分类： 机器人技术

作者： Bobing Zhang, Yiyuan Zhang, Yiming Li, Sicheng Xuan, Hong Wei Ng, Yuliang Liufu, Zhiqiang Tang, Cecilia Laschi

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11764v1

摘要： 水下航行器在过去七十年中取得了长足的发展。然而，仿生推进机器人仍处于早期阶段，需要生物学家和机器人学家之间加强跨学科合作。章鱼是最聪明的海洋动物之一，在用手臂游泳时表现出非凡的能力，例如伪装、探索和狩猎。尽管仿生机器人研究人员的目标是复制这些能力，但设计八臂仿生游泳平台的复杂性从一开始就构成了挑战。在这项工作中，我们提出了一种新型仿生机器人游泳平台，该平台将不对称被动变形臂与伞状快速返回机构相结合。该设计仅使用两个简单的恒速电机，通过复制章鱼般的手臂运动和划水时间比率来实现高效游泳。机器人在第二次动力冲程中达到了 314 毫米/秒的峰值速度。这种设计降低了传统章鱼游泳机器人驱动系统的复杂性，同时保持良好的游泳性能。它为生物学家和机器人专家提供了一个更容易实现和更高效的平台，以进行更深入的受章鱼启发的机器人和生物学研究。

视频中的潜在动作预训练

分类： 机器人技术, 计算和语言, 计算机视觉和模式识别, 机器学习

作者： Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11758v1

摘要： 我们引入了通用动作模型（LAPA）的潜在动作预训练，这是一种在没有地面实况机器人动作标签的情况下预训练视觉-语言-动作（VLA）模型的无监督方法。现有的视觉-语言-动作模型需要通常由人类远程操作员在预训练期间收集的动作标签，这极大地限制了可能的数据源和规模。在这项工作中，我们提出了一种从没有机器人动作标签的互联网规模视频中学习的方法。我们首先利用基于 VQ-VAE 的目标训练动作量化模型来学习图像帧之间的离散潜在动作，然后预训练潜在 VLA 模型以根据观察和任务描述预测这些潜在动作，最后在小型机器人上微调 VLA操纵数据以将潜在动作映射到机器人动作。实验结果表明，我们的方法明显优于从大规模视频中训练机器人操作策略的现有技术。此外，它优于在现实世界的操作任务上使用机器人动作标签训练的最先进的 VLA 模型，这些任务需要语言调节、对不可见物体的泛化以及对不可见指令的语义泛化。仅针对人类操作视频的训练也显示出积极的迁移，开启了利用网络规模数据用于机器人基础模型的潜力。

通过 Transformer 多模态学习生成可推广的航天器轨迹

分类： 机器人技术, 人工智能, 优化与控制

作者： Davide Celestini, Amirhossein Afsharrad, Daniele Gammelli, Tommaso Guffanti, Gioele Zardini, Sanjay Lall, Elisa Capello, Simone D'Amico, Marco Pavone

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11723v1

摘要： 有效的轨迹生成对于可靠的星载航天器自主性至关重要。在其他方法中，基于学习的热启动代表了解决轨迹生成问题的一种有吸引力的范例，有效地结合了优化和数据驱动方法的优点。当前基于学习的轨迹生成方法通常侧重于固定的单一场景环境，其中关键场景特征（例如障碍物位置或最终时间要求）在问题实例中保持不变。然而，实际的轨迹生成需要频繁地重新配置场景，使得单一场景方法成为潜在不切实际的解决方案。为了应对这一挑战，我们提出了一种新颖的轨迹生成框架，通过利用能够从多模态数据源学习的高容量变压器神经网络，该框架可以泛化不同的问题配置。具体来说，我们的方法将基于变压器的神经网络模型集成到轨迹优化过程中，通过以下方式编码场景级信息（例如障碍物位置、初始状态和目标状态）和轨迹级约束（例如时间范围、燃油消耗目标）多模态表示。然后，变压器网络为非凸优化问题生成接近最优的初始猜测，从而显着提高收敛速度和性能。该框架通过在自由飞行平台上进行的广泛模拟和真实实验进行了验证，与传统方法相比，成本降低了 30%，不可行的情况减少了 80%，并在不同的场景变化中展示了强大的泛化能力。

用于微创手术中多视角图像采集和 3D 重建的机械臂平台

分类： 机器人技术, 计算机视觉和模式识别

作者： Alexander Saikia, Chiara Di Vece, Sierra Bonilla, Chloe He, Morenike Magbagbeola, Laurent Mennillo, Tobias Czempiel, Sophia Bano, Danail Stoyanov

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11703v1

摘要： 微创手术 (MIS) 具有显着的优势，例如缩短恢复时间和最大限度地减少患者创伤，但在可见性和可及性方面提出了挑战，这使得精确的 3D 重建成为手术规划和导航的重要工具。这项工作介绍了一个机械臂平台，可在 MIS 设置中实现高效的多视图图像采集和精确的 3D 重建。我们将腹腔镜安装到机械臂上，并在不同的照明条件（手术室和腹腔镜）和轨迹（球形和腹腔镜）下捕获了多个绵羊器官的离体图像。我们采用最近发布的基于学习的特征匹配器与 COLMAP 相结合来生成我们的重建。根据高精度激光扫描对重建进行评估以进行定量评估。我们的结果表明，虽然重建在真实的 MIS 照明和轨迹下受到的影响最大，但我们管道的许多版本都实现了接近亚毫米的精度，平均均方根误差为 1.05 毫米，倒角距离为 0.82 毫米。我们最好的重建结果是在手术室照明和球形轨迹的情况下实现的。我们的机器人平台提供了一种用于在 MIS 环境中进行 3D 生成的受控、可重复的多视图数据采集工具，我们希望能够为训练基于学习的模型带来新的数据集。

训练时的安全过滤：提高强化学习代理的性能和样本效率

分类： 机器人技术, 机器学习, 系统与控制, 系统与控制

作者： Federico Pizarro Bejarano, Lukas Brunke, Angela P. Schoellig

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11671v1

摘要： 强化学习 (RL) 控制器灵活且高性能，但很少保证安全性。安全滤波器为 RL 控制器提供严格的安全保证，同时保持灵活性。然而，由于控制器和安全滤波器之间的分离，安全滤波器可能会导致不良行为，通常会降低性能和鲁棒性。在本文中，我们提出了一些修改，将安全滤波器合并到训练 RL 控制器中，而不是仅仅在评估过程中应用它。这些修改使 RL 控制器能够学习考虑安全滤波器，从而提高性能。此外，我们的修改显着提高了样本效率并消除了训练时间约束违规。我们使用 Crazyflie 2.0 无人机在模拟和真实实验中验证了所提出的修改。在实验中，我们表明，与标准 RL 训练相比，所提出的训练方法需要的环境交互显着减少，性能提高高达 20%。

通过域收缩的鲁棒操作原始学习

分类： 机器人技术

作者： Teng Xue, Amirreza Razmjoo, Suhan Shetty, Sylvain Calinon

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11600v1

摘要： 丰富的接触操作在人类日常活动中发挥着重要作用，但不确定的参数对机器人通过规划和控制实现可比较的性能提出了重大挑战。为了解决这个问题，域适应和域随机化被提出来进行鲁棒的策略学习。然而，它们要么失去跨不同实例的泛化能力，要么由于忽略特定于实例的信息而表现得保守。在本文中，我们提出了一种双层方法来学习鲁棒的操作原语，包括使用多个模型的参数增强策略学习，以及通过域收缩进行参数条件策略检索。这种方法统一了域随机化和域适应，在保持泛化能力的同时提供最佳行为。我们在三种接触丰富的操作原语上验证了所提出的方法：击打、推动和重新定向。实验结果展示了我们的方法在为具有不同物理参数的实例生成稳健策略方面的卓越性能。

DeformPAM：通过基于偏好的动作对齐进行长视野可变形对象操纵的数据高效学习

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Wendi Chen, Han Xue, Fangyuan Zhou, Yuan Fang, Cewu Lu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11584v1

摘要： 近年来，模仿学习在机器人操纵领域取得了进展。然而，在处理复杂的长视界可变形物体任务时，例如高维状态空间、复杂动力学和多模态动作分布，它仍然面临挑战。传统的模仿学习方法通常需要大量数据，并且在这些任务中会遇到分布变化和累积误差。为了解决这些问题，我们提出了一种基于偏好学习和奖励引导的行动选择的数据高效通用学习框架（DeformPAM）。 DeformPAM 将长视野任务分解为多个动作原语，利用 3D 点云输入和扩散模型对动作分布进行建模，并使用人类偏好数据训练隐式奖励模型。在推理阶段，奖励模型对多个候选动作进行评分，选择最佳动作执行，从而减少异常动作的发生，提高任务完成质量。对三个具有挑战性的现实世界长视可变形物体操纵任务进行的实验证明了该方法的有效性。结果表明，即使数据有限，与基线方法相比，DeformPAM 也能提高任务完成质量和效率。代码和数据可在 https://deform-pam.robotflow.ai 上获取。

SDS——看、做、排序：单个视频演示的四足动物技能综合

分类： 机器人技术

作者： Jeffrey Li, Maria Stamatopoulou, Dimitrios Kanoulas

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11571v1

摘要： 在本文中，我们提出了 SDS（“看它。做它。排序。”），这是一种通过单个演示视频直观学习四足技能的新颖管道。利用 GPT-4o 的视觉功能，SDS 通过我们新颖的思想链促进技术 (SUS) 处理输入视频，并通过学习近端策略优化 (PPO) 生成可执行的奖励函数 (RF)，驱动运动技能的模仿）基于强化学习（RL）策略，使用来自 NVIDIA IsaacGym 模拟器的环境信息。 SDS 通过监控各个奖励组件并将训练片段和健身指标提供回 GPT-4o 来自动评估 RF，然后提示 GPT-4o 改进 RF，以在每次迭代中实现更高的任务健身。我们在 Unitree Go1 机器人上验证了我们的方法，展示了其执行小跑、弹跳、踱步和跳跃等多种技能的能力，实现了高模仿保真度和运动稳定性。 SDS 在任务适应性方面比 SOTA 方法有所改进，减少了对特定领域知识的依赖，并绕过了对劳动密集型奖励工程和大规模训练数据集的需求。其他信息和开源代码可以在以下位置找到：https://rpl-cs-ucl.github.io/SDSweb

数据驱动的主动式自主赛车框架，利用局部轨迹规划和速度预测

分类： 机器人技术, 系统与控制, 系统与控制

作者： Zhouheng Li, Bei Zhou, Cheng Hu, Lei Xie, Hongye Su

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11570v1

摘要： 自动驾驶的发展推动了自动驾驶赛车的研究。然而，现有的局部轨迹规划方法很难在有尖角的赛道上规划具有最佳速度剖面的轨迹，从而削弱了自动驾驶赛车的性能。为了解决这个问题，我们提出了一种基于模型预测轮廓控制（VPMPCC）的集成速度预测的局部轨迹规划方法。 VPMPCC 的最佳参数是通过贝叶斯优化 (BO) 学习的，该优化基于提出的适合赛车 (OFR) 的新颖目标函数。具体来说，VPMPCC 通过将赛道编码为参考速度曲线并将其纳入优化问题来实现速度预测。该方法优化了局部轨迹的速度分布，特别是在曲率较大的拐角处。拟议的 OFR 平衡了赛车性能和车辆安全，确保安全高效的 BO 训练。在模拟中，与最先进的方法相比，基于 OFR 的 BO 的训练迭代次数减少了 42.86%。然后，将经过仿真训练的最佳参数应用于现实世界的 F1TENTH 车辆，而无需重新训练。在具有明显急弯的定制赛道上进行长时间比赛时，VPMPCC 的平均速度达到车辆操控极限的 93.18%。发布的代码可在https://github.com/zhouhengli/VPMPCC获取。

PAVLM：通过视觉语言模型推进基于点云的功能可供理解

分类： 机器人技术, 计算机视觉和模式识别

作者： Shang-Ching Liu, Van Nhiem Tran, Wenkai Chen, Wei-Lun Cheng, Yen-Lin Huang, I-Bin Liao, Yung-Hui Li, Jianwei Zhang

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11564v1

摘要： 可供性理解是识别 3D 对象上可操作区域的任务，在允许机器人系统与物理世界互动和操作方面发挥着至关重要的作用。尽管视觉语言模型 (VLM) 在机器人操作的高级推理和长期规划方面表现出色，但它们在掌握有效人机交互所需的细微物理属性方面仍然存在不足。在本文中，我们介绍了 PAVLM（点云可供性视觉语言模型），这是一种创新框架，利用预训练语言模型中嵌入的广泛多模态知识来增强对点云的 3D 可供性理解。 PAVLM 将几何引导传播模块与大型语言模型 (LLM) 的隐藏嵌入集成在一起，以丰富视觉语义。在语言方面，我们提示 Llama-3.1 模型生成精炼的上下文感知文本，通过更深层次的语义线索增强教学输入。 3D-AffordanceNet 基准测试的实验结果表明，PAVLM 在完整点云和部分点云方面均优于基线方法，特别是在对 3D 对象的新颖开放世界可供性任务的泛化方面表现出色。欲了解更多信息，请访问我们的项目网站：pavlm-source.github.io。

LogS：通过高斯分布以更少的训练图像进行视觉定位

分类： 计算机视觉和模式识别, 机器人技术

作者： Yuzhou Cheng, Jianhao Jiao, Yue Wang, Dimitrios Kanoulas

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11505v1

摘要： 视觉定位涉及估计查询图像的 6-DoF（自由度）相机姿态，这是各种计算机视觉和机器人任务的基本组成部分。本文介绍了 LoGS，这是一种基于视觉的定位管道，利用 3D 高斯泼溅 (GS) 技术作为场景表示。这种新颖的表示方式可以实现高质量的新颖视图合成。在映射阶段，首先应用运动结构 (SfM)，然后生成 GS 映射。定位时，通过图像检索、局部特征匹配结合PnP求解器获得初始位置，然后在GS地图上通过综合分析的方式获得高精度位姿。四个大型数据集的实验结果证明了所提出的方法在估计相机姿态方面的 SoTA 准确性以及在具有挑战性的少镜头条件下的鲁棒性。

NavTopo：利用拓扑图进行移动机器人的自主导航

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, I.2.9; I.2.10

作者： Kirill Muravyev, Konstantin Yakovlev

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11492v1

摘要： 移动机器人的自主导航是一项具有挑战性的任务，需要绘图、定位、路径规划和路径跟踪的能力。传统的建图方法会构建像占用网格一样的密集度量地图，该地图会受到里程计误差累积的影响，并在大型环境中消耗大量内存和计算量。另一种映射方法是使用拓扑属性，例如环境中位置的邻近性。拓扑图不易出现里程计误差积累和高资源消耗，并且由于图的稀疏性，还可以实现快速路径规划。基于这个想法，我们提出了NavTopo——基于拓扑图和两级路径规划的完整导航管道。该管道通过匹配神经网络描述符和输入点云的二维投影来在图中进行定位，与基于度量和拓扑点云的方法相比，这显着减少了内存消耗。我们在大型室内照片真实模拟环境中测试我们的方法，并将其与基于流行度量映射方法 RTAB-MAP 的基于度量映射的方法进行比较。实验结果表明，我们的拓扑方法在性能方面明显优于度量方法，并保持了适当的导航效率。

M2Diffuser：基于扩散的轨迹优化，用于 3D 场景中的移动操作

分类： 机器人技术

作者： Sixu Yan, Zeyu Zhang, Muzhi Han, Zaijin Wang, Qi Xie, Zhitian Li, Zhehan Li, Hangxin Liu, Xinggang Wang, Song-Chun Zhu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11402v1

摘要： 扩散模型的最新进展为实体人工智能代理和机器人的研究开辟了新的途径。尽管在复杂的机器人运动和技能方面取得了重大成就，但移动操纵（一种需要协调导航和操纵的能力）仍然是生成人工智能技术的挑战。这主要是由于高维动作空间、扩展的运动轨迹以及与周围环境的相互作用。在本文中，我们介绍了 M2Diffuser，这是一种基于扩散的场景条件生成模型，可直接生成协调且高效的全身运动轨迹，用于基于以机器人为中心的 3D 扫描的移动操纵。 M2Diffuser 首先从专家规划者提供的移动操纵轨迹中学习轨迹级分布。至关重要的是，它包含一个优化模块，可以在推理过程中灵活地适应物理约束和任务目标，建模为成本和能量函数。这使得能够以完全可微分的方式减少每个去噪步骤的物理违规和执行错误。通过对 20 多个场景中的三种类型的移动操作任务进行基准测试，我们证明 M2Diffuser 的性能优于最先进的神经规划器，并成功地将生成的轨迹传输到现实世界的机器人。我们的评估强调了生成式人工智能在增强传统规划和基于学习的机器人方法的泛化方面的潜力，同时也强调了强制物理约束对于安全和稳健执行的关键作用。

LLM2Swarm：通过大语言模型进行响应式推理、规划和协作的机器人群

分类： 机器人技术

作者： Volker Strobel, Marco Dorigo, Mario Fritz

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11387v1

摘要： 机器人群由许多简单的机器人组成，它们通过通信和协作来完成复杂的任务。机器人控制器通常需要由专家根据具体情况通过编程代码指定。这个过程非常耗时，容易出错，并且无法考虑到部署过程中可能遇到的所有情况。另一方面，最近的大型语言模型（LLM）已经展示了推理和规划能力，引入了与机器交互和编程的新方法，并表示领域和常识知识。因此，我们建议通过将大语言模型与机器人群集成来解决上述挑战，并展示概念验证（展示）的潜力。对于这种集成，我们探索了两种方法。第一种方法是“间接集成”，其中大语言模型用于综合和验证机器人控制器。这种方法可以减少部署前的开发时间和人为错误。此外，在部署过程中，它可以用于动态创建新的机器人行为。第二种方法是“直接集成”，每个机器人在部署过程中本地执行一个单独的 LLM 实例，以实现机器人与机器人协作和人类与群体交互。这些本地 LLM 实例使每个机器人能够使用自然语言进行推理、计划和协作。为了进一步研究我们的主要概念贡献，我们发布了 LLM2Swarm 系统的软件和视频：https://github.com/Pold87/LLM2Swarm。

迈向无局部极小值的机器人导航：通过排斥势增强进行模型预测路径积分控制

分类： 机器人技术

作者： Takahiro Fuke, Masafumi Endo, Kohei Honda, Genya Ishigami

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11379v1

摘要： 基于模型的控制是机器人导航的重要组成部分。然而，由于其作为有限的、短视的优化过程的固有性质，它经常陷入局部极小值的困境。先前的研究已经解决了这个问题，但由于其反应性或在生成主动指导的显式路径时的计算效率而牺牲了解决方案质量。为此，我们提出了一种运动规划方法，可以在没有全局路径指导的情况下主动避免局部极小值。关键思想是排斥势增强，通过人工势场将高级方向信息集成到模型预测路径积分控制中作为单个排斥项。我们通过理论分析和在具有引起局部最小值的障碍的环境中进行模拟来评估我们的方法。结果表明，我们的方法保证了避免局部极小值，并且在全局最优性方面优于现有方法，而不会降低计算效率。

适应不同用户群体的人机交互框架

分类： 机器人技术, 计算和语言, 人机交互

作者： Theresa Pekarek Rosin, Vanessa Hassouna, Xiaowen Sun, Luca Krohm, Henri-Leon Kordt, Michael Beetz, Stefan Wermter

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11377v1

摘要： 为了促进在现实世界中与不同用户群体进行自然、直观的交互，社交机器人必须能够满足这些群体的不同需求和期望，同时根据用户反馈调整其行为。虽然之前的研究通常侧重于特定的人口统计数据，但我们提出了一种自适应人机交互（HRI）的新颖框架，该框架可以根据不同的用户组定制交互，并使单个用户能够通过轻微和主要的中断来调节交互。我们的主要贡献包括开发具有开源代码库的自适应、基于 ROS 的 HRI 框架。该框架通过高级语音识别和语音活动检测支持自然交互，并利用大型语言模型 (LLM) 作为对话桥梁。我们通过模块测试和系统试验来验证框架的效率，证明其在年龄识别方面的高精度及其对重复用户输入和计划更改的鲁棒性。

DODT：通过梦想家的演员-评论家轨迹预测增强在线决策变压器学习

分类： 机器学习, 机器人技术, 机器学习

作者： Eric Hanchen Jiang, Zhi Zhang, Dinghuai Zhang, Andrew Lizarraga, Chenheng Xu, Yasi Zhang, Siyan Zhao, Zhengjie Xu, Peiyu Yu, Yuer Tang, Deqian Kong, Ying Nian Wu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11359v1

摘要： 强化学习的进步导致了能够学习复杂决策任务的复杂模型的发展。然而，有效地将世界模型与决策转换器集成仍然是一个挑战。在本文中，我们介绍了一种新颖的方法，它将 Dreamer 算法生成预期轨迹的能力与 Online Decision Transformer 的自适应学习优势相结合。我们的方法支持并行训练，其中 Dreamer 生成的轨迹增强了 Transformer 的上下文决策，从而创建了双向增强循环。我们凭经验证明了我们的方法在一系列具有挑战性的基准上的有效性，与现有方法相比，在样本效率和奖励最大化方面取得了显着改进。我们的结果表明，所提出的集成框架不仅加速了学习，而且展示了在多样化和动态场景中的鲁棒性，标志着基于模型的强化学习向前迈出了重要一步。

GSORB-SLAM：高斯泼溅 SLAM 受益于 ORB 特征和透射率信息

分类： 机器人技术

作者： Wancai Zheng, Xinyi Yu, Jintao Rong, Linlin Ou, Yan Wei, Libo Zhou

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11356v1

摘要： 3D Gaussian Splatting (3DGS) 的出现最近引发了新一轮密集视觉 SLAM 研究浪潮。然而，当前的方法面临着诸如对伪影和噪声的敏感性、训练视点的次优选择以及缺乏全局优化等挑战。在本文中，我们提出了一种密集 SLAM 系统，将 3DGS 与 ORB 特征紧密耦合。我们设计了一种联合优化方法，用于稳健跟踪并有效减少噪声和伪影的影响。这涉及将从累积透射率得出的新颖几何观察结果与从像素数据中提取的 ORB 特征相结合。此外，为了提高映射质量，我们提出了一种自适应高斯扩展和正则化方法，使高斯基元能够紧凑地表示场景。这与基于混合图的视点选择策略相结合，以减轻过度拟合效应并提高收敛质量。最后，我们的方法实现了紧凑且高质量的场景表示和准确的定位。 GSORB-SLAM 已在不同的数据集上进行了评估，表现出了出色的性能。该代码将可用。

用腿进行视觉操纵

分类： 机器人技术

作者： Xialin He, Chengjing Yuan, Wenxuan Zhou, Ruihan Yang, David Held, Xiaolong Wang

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11345v1

摘要： 动物使用四肢进行运动和操纵。我们的目标是为四足机器人配备类似的多功能性。这项工作介绍了一种系统，该系统使四足机器人能够利用腿部与物体进行交互，其灵感来自于非抓取操作。该系统有两个主要组件：视觉操纵策略模块和局部操纵器模块。视觉操纵策略通过使用点云观察和以对象为中心的动作的强化学习（RL）进行训练，决定腿部应如何与对象交互。机车控制器基于阻抗控制和模型预测控制（MPC）来管理腿部运动和身体姿势调整。除了用单腿操纵物体外，系统还可以根据批评图选择左腿或右腿，并通过基础调整将物体移动到远处的目标。实验评估了系统在模拟和现实世界中的物体姿态对齐任务，展示了比以前的工作更通用的腿部物体操纵技能。

使用区域充气和体积转移来设计兼具效率和耐磨性的基于织物的气动外装

分类： 机器人技术

作者： Chendong Liu, Dapeng Yang, Jiachen Chen, Yiming Dai, Li Jiang, Shengquan Xie, Hong Liu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11341v1

摘要： 基于织物的气动外骨骼因其良好的人机交互性能而具有广阔的应用前景，但其结构设计范式尚未最终确定，需要深入研究。本文提出了区域充气和体积转移的概念，用于设计兼具效率和耐磨性的基于织物的气动外装。分区充气的含义是将气动外衣的充气区域分为充放气区和保压区，这样可以减少压缩空气的消耗，提高效率。体积转移是一种服装内部充气区域的策略分布方法，可以有效增强外装的耐磨性。该外装采用廉价的热塑性聚氨酯薄膜和服装面料，通过热压和缝制制成。该外骨骼响应时间为0.5秒，受力面积为1500mm2，外形仅32毫米，可以隐藏在普通衣服内。开发了一个数学模型来预测外装的输出扭矩，误差为 3.6%。力学实验表明，外骨骼在100kPa的压力下可输出9.1Nm的扭矩。表面肌电实验表明，外骨骼套装可以为用户提供从坐姿到站立的助力，肌电信号平均减少 14.95%。使用这些方法设计的外骨骼综合了效率和耐磨性，有望成为基于织物的气动外骨骼的理想范例。

DIAR：扩散模型引导的隐式 Q 学习与自适应重估

分类： 机器学习, 人工智能, 机器人技术

作者： Jaehyun Park, Yunho Kim, Sejin Kim, Byung-Jun Lee, Sundong Kim

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11338v1

摘要： 我们提出了一种新颖的离线强化学习（离线 RL）方法，引入了具有自适应重估（DIAR）框架的扩散模型引导的隐式 Q 学习。我们解决了离线强化学习中的两个关键挑战：分布外样本和长期问题。我们利用扩散模型来学习状态-动作序列分布，并结合价值函数以实现更加平衡和自适应的决策。 DIAR 引入了自适应重估机制，通过比较当前和未来的状态值来动态调整决策长度，从而实现灵活的长期决策。此外，我们通过将 Q 网络学习与扩散模型引导的价值函数相结合来解决 Q 值高估问题。扩散模型产生不同的潜在轨迹，增强政策的稳健性和泛化性。正如 Maze2D、AntMaze 和 Kitchen 等任务所证明的那样，DIAR 在长视野、稀疏奖励环境中始终优于最先进的算法。

解开无监督技能发现，实现高效的分层强化学习

分类： 机器学习, 机器人技术

作者： Jiaheng Hu, Zizhao Wang, Peter Stone, Roberto Martín-Martín

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11251v1

摘要： 智能代理的一个标志是能够纯粹从与环境的无监督交互中学习可重用的技能。然而，现有的无监督技能发现方法通常会学习纠缠技能，其中一个技能变量同时影响环境中的许多实体，使得下游技能链极具挑战性。我们提出了解缠结无监督技能发现（DUSDi），这是一种学习解缠结技能的方法，可以有效地重用该技能来解决下游任务。 DUSDi 将技能分解为分离的组件，其中每个技能组件仅影响状态空间的一个因素。重要的是，这些技能组件可以同时组合以生成低级操作，并通过分层强化学习有效链接以处理下游任务。 DUSDi 定义了一种新颖的基于互信息的目标，以强制解开不同技能组成部分的影响，并利用价值分解来有效地优化该目标。在一系列具有挑战性的环境中进行评估后，DUSDi 成功学习了分离的技能，并且在应用所学技能来解决下游任务时，显着优于以前的技能发现方法。代码和技能可视化位于 jiahenghu.github.io/DUSDi-site/。

仿生群体动态目标跟踪和避障

分类： 机器人技术, 神经和进化计算

作者： Lucas Page

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11237v1

摘要： 本研究提出了一种新型人工智能（AI）驱动的飞行计算机，集成了在线自由再训练预测模型、群体控制和避障策略，以使用分布式无人机群跟踪动态目标，用于军事应用。为了实现动态目标跟踪，集群需要轨迹预测能力来实现拦截，从而允许跟踪快速机动和运动，同时保持有效的路径规划。传统的预测方法，如曲线拟合或长短期记忆（LSTM），由于基于单智能体的轨迹预测收敛速度慢，鲁棒性较低，难以在短期内进行动态目标跟踪，并且通常需要大量的离线训练或调整才能有效。因此，本文引入了一种新颖的鲁棒自适应双向模糊大脑情绪学习预测（BFBEL-P）方法来应对这些挑战。该控制器集成了模糊接口、能够快速适应的神经网络、预测能力和多智能体求解功能，能够聚合多个解决方案，以在短期和长期内实现快速收敛时间和高精度。通过使用数值模拟来验证这一点，看到一群无人机预测和跟踪复杂的轨迹。这些模拟显示了短期内对最先进方法的适应性和准确性的提高，以及长期范围内的强大结果，从而实现了准确的群体目标跟踪和预测能力。

使用量子退火进行城市空中交通机队管理的路线和调度优化

分类： 量子物理学, 统计力学, 机器人技术

作者： Renichiro Haba, Takuya Mano, Ryosuke Ueda, Genichiro Ebe, Kohei Takeda, Masayoshi Terabe, Masayuki Ohzeki

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11231v1

摘要： 由于交通拥堵加剧及其对环境和经济的影响，城市空中交通（UAM）在城市交通和配送中的日益一体化加速了。有效管理城市中预期的高密度空中交通对于确保安全有效的运营至关重要。在本研究中，我们提出了一个路线和调度框架，以满足在城市地区运营的大量城市空中交通车辆的需求。使用数学优化技术，我们为车队规划高效且无冲突的路线。将路线规划制定为最大加权独立集问题使我们能够利用各种算法和专门的优化硬件，例如近年来取得了实质性进展的量子退火器。我们的方法使用专为新加坡空域定制的交通管理模拟器进行了验证。我们的方法通过在整个区域分配流量来提高空域利用率。这项研究拓宽了优化技术在 UAM 交通管理中的潜在应用。

动态环境中鲁棒机器人抓取的自监督学习

分类： 机器人技术

作者： Ankit Shaw

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11229v1

摘要： 动态环境中的一些威胁包括物体运动的不可预测性以及对机器人抓取的干扰。在这种情况下，传统的监督和强化学习方法并不适合，因为它们依赖于大量标记数据和预定义的奖励信号。更具体地说，在本文中，我们介绍了一个重要且有前途的框架，称为自监督学习（SSL），其目标是将 RGBD 传感器和来自机器人手的本体感受数据应用于机器人，以便让机器人实时学习和改进其抓取策略。不变SSL框架通过使SSL系统适应对象行为的变化并提高动态情况下的性能，克服了固定标签的缺陷。上述提出的方法通过各种模拟和现实世界试验进行了测试，该系列的抓取成功率比其他现有方法提高了 15%，特别是在动态场景下。此外，通过测试适应时间，证实该系统可以更快地适应，因此适用于现实世界，例如工业自动化和服务机器人。在未来的工作中，所提出的方法将扩展到更复杂的任务，例如杂乱环境中的多对象操纵和功能，以便将所提出的方法应用于更广泛的机器人任务。

RPCBF：通过策略控制屏障函数构建对错误和干扰建模具有鲁棒性的安全过滤器

分类： 优化与控制, 机器人技术

作者： Luzia Knoedler, Oswin So, Ji Yin, Mitchell Black, Zachary Serlin, Panagiotis Tsiotras, Javier Alonso-Mora, Chuchu Fan

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11157v1

摘要： 控制势垒函数 (CBF) 已被证明是对非线性系统执行安全控制综合的有效工具。然而，对于高相关度系统来说，在存在干扰和输入约束的情况下保证安全是一个难题。在这项工作中，我们提出了鲁棒策略 CBF (RPCBF)，这是一种构建 CBF 近似的实用方法，该方法易于实现，并且通过价值函数的估计对干扰具有鲁棒性。我们证明了我们的方法在各种高相对度输入约束系统的模拟中的有效性。最后，我们通过将模型误差视为干扰，展示了 RPCBF 在补偿硬件四轴飞行器平台上的模型误差方面的优势。项目页面可以在 https://oswinso.xyz/rpcbf 找到。

使用高效的基于梯度的方法对基于自动机的目标进行运动规划

分类： 形式语言和自动机理论, 机器人技术

作者： Anand Balakrishnan, Merve Atasever, Jyotirmoy V. Deshmukh

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11156v1

摘要： 近年来，人们越来越关注使用基于形式化方法的技术来安全地实现临时任务，例如目标的定时序列或巡逻目标。此类任务通常以实时逻辑（例如信号时态逻辑（STL））来表达，从而将逻辑规范编码为优化问题。此类方法通常涉及对有界范围内的逻辑的定量语义或鲁棒性程度进行优化：语义可以被编码为混合整数线性约束或鲁棒性程度的平滑近似。这种方法的一个主要限制是它面临着时间复杂性方面的可扩展性挑战：例如，编码长期任务需要存储系统的整个历史记录。在本文中，我们以符号自动机目标的形式提出了此类任务的定量概括。具体来说，我们表明符号自动机可以表示为矩阵运算符，这些运算符有助于自动微分，从而允许使用现成的基于梯度的优化器。我们展示了这如何帮助解决存储任意长的系统轨迹的需求，同时有效地利用自动机中编码的任务结构。

潜在预测赋权：无需模拟器即可测量赋权

分类： 人工智能, 机器学习, 机器人技术

作者： Andrew Levy, Alessandro Allievi, George Konidaris

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11155v1

摘要： 赋权有潜力帮助智能体学习大量技能，但还不是用于培训通用智能体的可扩展解决方案。最近的赋权方法通过最大化技能和状态之间的相互信息来学习不同的技能；然而，这些方法需要一个过渡动力学模型，在具有高维和随机观察的现实环境中学习该模型可能具有挑战性。我们提出了潜在预测赋权（LPE），这是一种可以以更实用的方式计算赋权的算法。 LPE 通过最大化目标来学习大型技能集，该目标是技能和状态之间相互信息的原则性替代，并且只需要更简单的潜在预测模型，而不是环境的完整模拟器。我们在各种环境中（包括具有高维观察和高度随机过渡动态的环境）凭经验证明，我们的赋权目标 (i) 学习与领先的赋权算法类似大小的技能，该算法假设可以访问过渡模型(ii) 优于其他基于模型的赋权方法。

生成传感器对象模型的具体主动学习

分类： 机器人技术

作者： Allison Pinosky, Todd D. Murphey

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11130v1

摘要： 当机器人遇到新物体时，它应该如何反应$\unicode{x2014}$应该收集什么数据$\unicode{x2014}$以便将来能够找到该物体？在这项工作中，我们提出了一种学习未知数量新物体的图像特征的方法。为此，我们对新颖描述的潜在不确定性进行主动覆盖。我们应用遍历稳定性和 PAC-Bayes 理论将 VAE 的统计保证扩展到具体代理。我们用机械臂在硬件中演示了该方法；该管道也在模拟环境中实施。算法和模拟都是开源的，请参阅 http://sites.google.com/u.northwestern.edu/embodied-learning-hardware 。

HoloSpot：通过混合现实拖放进行直观的对象操作

分类： 机器人技术, 人机交互, I.2.9; H.5.2

作者： Pablo Soler Garcia, Petar Lukovic, Lucie Reynaud, Andrea Sgobbi, Federica Bruni, Martin Brun, Marc Zünd, Riccardo Bollati, Marc Pollefeys, Hermann Blum, Zuria Bauer

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11110v1

摘要： 通过混合现实 (MR) 技术的人机交互可实现新颖、直观的界面来控制远程操作中的机器人。这种界面有助于在危险环境中进行操作，在危险环境中，人类的存在存在风险，但人类的监督仍然至关重要。潜在的环境包括灾难响应场景和高辐射或有毒化学品的区域。在本文中，我们提出了一个界面系统，将扫描房间的 3D 表示投影为缩小的“玩具屋”全息图，允许用户使用简单的拖放界面选择和操作对象。然后，我们基于最新的 Spot-Compose 框架将这些拖放用户命令转换为实时机器人动作。基于 Unity 的应用程序提供了交互式教程和用户友好的体验，确保了易用性。通过全面的端到端测试，我们验证了系统执行拾放任务的能力，并且补充的用户研究确认了界面的直观控制。我们的研究结果凸显了该界面在改善用户体验和运营效率方面的优势。这项工作为一个强大的框架奠定了基础，该框架提高了各种应用中无缝人机协作的潜力。论文网站：https://holospot.github.io/

我是什么？评估语言流畅性和任务能力对社交机器人感知的影响

分类： 机器人技术

作者： Shahira Ali, Haley N. Green, Tariq Iqbal

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11085v1

摘要： 机器人能力的最新进展使它们能够在各种人类社会环境（HSE）中与人互动。在许多这样的环境中，机器人的感知通常取决于其能力，例如任务能力、语言流畅性等。为了在 HSE 中实现流畅的人机交互 (HRI)，了解这些能力的影响至关重要关于机器人的感知。尽管许多工作分别研究了各种机器人能力对机器人感知的影响，但在本文中，我们提出了一项大规模 HRI 研究（n = 60），以研究语言流利度和任务能力对机器人感知的综合影响。一个机器人。结果表明，虽然语言流畅性在机器人语言能力的感知中可能比任务能力发挥更重要的作用，但语言流畅性和任务能力都有助于机器人智能和可靠性的感知。结果还表明，在满足期望和成为好队友的认知中，任务能力可能比语言流利程度发挥更重要的作用。这项研究的结果强调了社交 HRI 背景下语言流畅性和任务能力之间的关系，并将有助于未来开发更智能的机器人。

NAR-*ICP：基于经典 ICP 的点云配准算法的神经执行

分类： 机器人技术, 人工智能, 机器学习

作者： Efimia Panagiotaki, Daniele De Martini, Lars Kunze, Petar Veličković

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11031v1

摘要： 本研究通过神经算法推理 (NAR) 框架探索神经网络与经典机器人算法的交叉点，允许通过学习执行神经网络来训练神经网络，使其像经典机器人算法一样进行有效推理。算法是机器人和安全关键应用不可或缺的一部分，因为它们通过逻辑和数学原理实现了可预测和一致的性能。相比之下，虽然神经网络具有高度适应性，可以处理复杂的高维数据并跨任务进行泛化，但它们的内部计算往往缺乏可解释性和透明度。我们提出了一种基于图神经网络（GNN）的学习框架 NAR-*ICP，它学习经典的基于 ICP 的点云配准算法的中间算法步骤，并用经典的机器人感知算法扩展 CLRS 算法推理基准。我们跨不同的数据集（从现实世界到合成数据集）评估我们的方法，展示其处理复杂和嘈杂输入的灵活性，以及作为更大学习系统一部分的潜力。我们的结果表明，我们的方法在所有基准测试和数据集上都实现了卓越的性能，甚至持续超越了它所训练的算法，进一步证明了其泛化能力超出了传统算法的能力。

GSRM：使用反应扩散系统构建查询高效和近乎最优路径规划的路线图

分类： 机器人技术

作者： Christian Henkel, Marc Toussaint, Wolfgang Hönig

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11024v1

摘要： 在医疗保健、酒店和仓库自动化等应用中，移动机器人经常在路线图上导航，即边缘代表安全运动的图表。通常环境是准静态的，即构建一次路线图就足够了，然后将其用于任何未来的规划查询。路线图通常与图搜索算法一起使用来为机器人找到可行的路径。因此，路线图应该是良好连接的，图搜索应该产生具有短解决方案路径的接近最优的解决方案，同时具有计算效率以快速执行查询。我们提出了一种基于 Gray-Scott 反应扩散系统和 Delaunay 三角剖分构建路线图的新方法。我们的方法 GSRM 可以生成具有均匀分布的顶点和边的路线图，即使在具有挑战性的狭窄通道的环境中，这些路线图也能良好连接。根据经验，我们与 8 个连接网格生成的经典路线图、概率路线图（PRM、SPARS2）和优化路线图（ORM）进行比较。我们的结果表明，GSRM 始终能够生成连接良好、查询效率高且解决方案路径短的优质路线图。

离散地形上协作腿式局部操纵的安全关键运动规划

分类： 机器人技术

作者： Mohsen Sombolestan, Quan Nguyen

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11023v1

摘要： 由于腿式机器人被部署在需要协作操纵的工业和自主建筑任务中，因此它们必须在保持稳定运动的同时处理物体操纵。在现实环境中，挑战会加剧，他们需要穿越离散的地形，避开障碍物，并与其他机器人协调以进行安全的局部操纵。这项工作解决了安全运动规划问题，以便在离散地形上协作操纵未知有效负载，同时避开障碍物。我们的方法使用两组模型预测控制器（MPC）作为运动规划器：全局 MPC 为团队生成避障的安全轨迹，而每个机器人的分散 MPC 确保在遵循全局轨迹时在离散地形上安全立足。然后，模型参考自适应全身控制器 (MRA-WBC) 跟踪所需路径，补偿未知有效负载的模型不确定性。我们在 Unitree 机器人团队中验证了我们的模拟和硬件方法。结果表明，我们的方法成功引导团队通过障碍路线，需要平面定位和高度调整，并且所有这些都发生在离散地形（例如踏脚石）上。

肌内高密度微电极阵列能够对脊髓运动神经元进行高精度解码和映射，以揭示手部控制

分类： 神经元和认知, 人机交互, 机器人技术, 信号处理

作者： Agnese Grison, Jaime Ibanez Pereda, Silvia Muceli, Aritra Kundu, Farah Baracat, Giacomo Indiveri, Elisa Donati, Dario Farina

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11016v1

摘要： 解码神经系统活动是神经科学和神经接口领域的一个关键挑战。在这项研究中，我们提出了一种新颖的神经解码系统，可以对肌肉活动进行前所未有的大规模采样。使用嵌入前臂肌肉内的具有 100 多个通道的微电极阵列，我们记录了捕获多单元运动神经元活动的高密度信号。这种广泛的采样辅以先进的神经分解、分析和分类方法，使我们能够准确检测和解释支配手部肌肉的脊髓运动神经元的尖峰活动。我们在两名健康参与者身上评估了该系统，每名参与者的前臂均植入了三个肌电图 (EMG) 微电极阵列（每个包含 40 个电极）。这些阵列记录了单位数和多位数等长收缩期间的肌肉活动。我们首次在受控条件下证明，多位数任务会引发针对每个任务的独特运动神经元招募模式，而不是采用单位数任务的招募模式组合。这一观察结果使我们推测，可以根据解码的神经活动对手动任务进行高精度分类。我们在 12 个不同的单位数和多位数任务中实现了完美的分类准确度 (100%)，并且在所有条件和主题上（最多 16 个任务类别）始终保持高精度 (>96%)。这些结果明显优于传统的肌电图分类方法。该系统的卓越性能为开发基于侵入式高密度肌电图技术的先进神经接口铺平了道路。这项创新可以极大地增强人机交互，并导致辅助技术的实质性改进，为临床应用中恢复运动功能提供新的可能性。

通过图像编辑将任务进度知识纳入机器人操作中的子目标生成

分类： 机器人技术

作者： Xuhui Kang, Yen-Ling Kuo

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11013v1

摘要： 了解任务的进度不仅可以让人们跟踪已经完成的事情，还可以更好地规划未来的目标。我们演示了 TaKSIE，这是一种新颖的框架，它将任务进度知识融入到机器人操作任务的视觉子目标生成中。我们联合训练一个具有潜在扩散模型的循环网络，以根据机器人当前的观察和输入语言命令生成下一个视觉子目标。在执行时，机器人利用视觉进度表示来监控任务进度，并自适应地从模型中采样下一个视觉子目标来指导操作策略。我们在模拟和现实世界的机器人任务中训练和验证我们的模型，在 CALVIN 操纵基准上实现最先进的性能。我们发现，包含任务进度知识可以提高演示过程中针对不同初始机器人姿势或各种运动速度的训练策略的鲁棒性。该项目网站可以在 https://live-robotics-uva.github.io/TaKSIE/ 找到。

V2I-Calib++：城市交叉口多终端协同感知空间标定方法

分类： 机器人技术

作者： Qianxin Qu, Xinyu Zhang, Yijin Xiong, Shichun Guo, Ziqiang Song, Jun Li

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11008v1

摘要： 城市十字路口行人和车辆交通密集，且高层建筑对 GPS 信号造成阻碍，是城市交通系统中最具挑战性的区域之一。由于缺乏全局交通流信息和对突发事件的响应能力，传统的单车智能系统在此类环境中往往表现不佳。车联网 (V2X) 技术通过车辆 (V2V) 和车辆与基础设施 (V2I) 之间的实时通信，提供了强大的解决方案。然而，实际应用仍面临诸多挑战。多端激光雷达系统中异构车辆和基础设施端点之间的校准对于确保感知系统数据的准确性和一致性至关重要。现有的多端标定方法大多依赖于定位系统提供的初始标定值，但城市峡谷中高层建筑导致的GPS信号不稳定对这些方法提出了严峻的挑战。针对这一问题，本文提出了一种新颖的多端激光雷达系统标定方法，该方法不需要定位先验来确定初始外部参数，并且满足实时性要求。我们的方法引入了创新的多端感知对象关联技术，利用新的总距离度量（oDist）来测量感知对象之间的空间关联，并将全局一致性搜索算法与最优传输理论有效地结合起来。通过这种方式，我们可以从对象关联结果中提取共同观察的目标，以进行进一步的外部参数计算和优化。在模拟数据集 V2X-Sim 和真实数据集 DAIR-V2X 上进行的广泛比较和消融实验证实了我们方法的有效性和效率。此方法的代码可以在以下位置访问：\url{https://github.com/MassimoQu/v2i-calib}。

具有改进的 3D 扩散策略的通用人形操纵

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Yanjie Ze, Zixuan Chen, Wenhao Wang, Tianyi Chen, Xialin He, Ying Yuan, Xue Bin Peng, Jiajun Wu

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10803v1

摘要： 能够在不同环境下自主操作的人形机器人长期以来一直是机器人专家的目标。然而，人形机器人的自主操作在很大程度上仅限于某一特定场景，这主要是由于难以获得通用技能。 3D 视觉运动策略（例如 3D 扩散策略 (DP3)）的最新进展已显示出将这些功能扩展到更野外环境的希望。然而，3D 视觉运动策略通常依赖于相机校准和点云分割，这给在类人机器人等移动机器人上的部署带来了挑战。在这项工作中，我们引入了改进的 3D 扩散策略 (iDP3)，这是一种新颖的 3D 视觉运动策略，它通过利用以自我为中心的 3D 视觉表示来消除这些限制。我们证明，iDP3 使全尺寸人形机器人能够仅使用实验室收集的数据在不同的现实场景中自主执行技能。视频可访问：https:// humanoid-manipulation.github.io

用于点到平面误差最小化的概率简并检测

分类： 机器人技术

作者： Johan Hatleskog, Kostas Alexis

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10784v1

摘要： 众所周知，由无信息几何引起的简并会恶化基于激光雷达的定位和绘图。这项工作引入了一种新的概率方法来检测和减轻点到平面误差最小化中简并的影响。点到平面优化问题的 Hessian 矩阵上的噪声由其构造中使用的点和表面法线上的噪声来表征。我们利用这种特征来量化方向退化的概率。简并检测过程用于一种新的实时简并感知迭代最近点算法，用于 LiDAR 配准，其中我们平滑地衰减简并方向上的更新。该方法的参数是根据激光雷达数据表中提供的噪声特性来选择的。我们在四个现实世界的实验中验证了该方法，证明它在检测和减轻简并的不利影响方面优于最先进的方法。为了社区的利益，我们在以下位置发布了该方法的代码：github.com/ntnu-arl/drpm。

用于自主不平坦地形导航的自适应扩散地形生成器

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Youwei Yu, Junhong Xu, Lantao Liu

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10766v1

摘要： 无模型强化学习已成为开发鲁棒机器人控制策略的强大方法，该策略能够在复杂和非结构化地形中导航。这些方法的有效性取决于两个基本要素：（1）使用大规模并行物理模拟来加快政策培训，（2）环境生成器的任务是精心设计具有足够挑战性但可实现的地形，以促进持续的政策改进。现有的环境生成方法通常依赖于受一组参数约束的启发式方法，限制了多样性和真实性。在这项工作中，我们介绍了自适应扩散地形生成器（ADTG），这是一种利用去噪扩散概率模型通过添加适应当前策略的更加多样化和复杂的地形来动态扩展现有训练环境的新颖方法。 ADTG 通过初始噪声优化来指导扩散模型的生成过程，混合现有训练环境中受噪声破坏的地形，并根据每个相应环境中的策略性能进行加权。通过操纵噪声损坏水平，ADTG 在生成用于政策微调的相似地形和用于扩展训练多样性的新颖地形之间无缝过渡。我们的实验表明，ADTG 训练的策略优于程序生成的环境和自然环境以及流行的导航方法。

扭转驾驭：用于工业驾驭任务的单臂可变形线性物体操纵

分类： 机器人技术

作者： Xiang Zhang, Hsien-Chung Lin, Yu Zhao, Masayoshi Tomizuka

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10729v1

摘要： 由于可变形导线的复杂动力学和不可预测的行为，线束任务对机器人自动化提出了巨大的挑战。传统方法通常依赖双机器人臂或触觉传感，在适应性、成本和可扩展性方面面临限制。本文介绍了一种新型单机器人线束管道，该管道仅使用一个带有集成力/扭矩 (F/T) 传感器的机器人臂，利用机器人的扭转运动产生必要的线张力，以便精确插入夹具中。受益于这种设计，单个机械臂可以有效地施加张力，以便在狭窄的空间内布线和插入夹具。我们的方法围绕四个主要组件构建：基于 Koopman 算子的模型预测控制 (MPC)，用于张力跟踪和线跟踪、用于对线束路径点进行排序的运动规划器、用于夹具接合的一套插入原语以及固定点用于线约束更新的切换机制。通过对工业级线束任务的评估，我们的方法表现出优于传统方法的性能和可靠性，能够有效处理单线和多线配置，且成功率很高。

使用自适应路径规划的机器人视觉主动学习

分类： 机器人技术

作者： Julius Rückin, Federico Magistri, Cyrill Stachniss, Marija Popović

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10684v1

摘要： 机器人需要强大而灵活的视觉系统来感知和推理几何之外的环境。大多数此类系统都建立在深度学习方法之上。由于自主机器人通常部署在最初未知的环境中，静态数据集的预训练并不总能捕获各种领域，并限制了机器人在任务期间的视觉性能。最近，出现了自监督和完全监督的主动学习方法来改善机器人视觉。这些方法依赖于大型域内预训练数据集或需要大量的人工标记工作。为了解决这些问题，我们提出了一个最新的自适应规划框架，用于有效的训练数据收集，以大大减少语义地形监测任务中的人工标记要求。为此，我们将高质量的人类标签与自动生成的伪标签相结合。实验结果表明，该框架的分割性能接近于完全监督的方法，大大减少了人工标记工作，同时优于纯粹的自我监督方法。我们讨论了当前方法的优点和局限性，并概述了未来在未知环境中实现更强大、更灵活的机器人视觉系统的有价值的研究途径。

MLP-SLAM：使用动态和静态对象鉴别器的基于多层感知器的同步定位和建图

分类： 机器人技术

作者： Taozhe Li, Wei Sun

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10669v1

摘要： 视觉同步定位与建图（V-SLAM）系统近年来取得了长足的发展，在动态物体有限的环境中表现出了高精度。然而，当部署在可移动物体较多的环境中时，例如户外场景中常见的行人、汽车和公共汽车的环境，它们的性能会显着恶化。为了解决这个问题，我们提出了一种基于多层感知器（MLP）的实时立体 SLAM 系统，该系统利用完整的几何信息来避免信息丢失。此外，目前还没有公开的数据集可以直接评估动态和静态特征分类方法的有效性，为了弥补这一差距，我们创建了一个包含超过 50,000 个特征点的公开数据集。实验结果表明，与该数据集上的其他方法相比，我们基于 MLP 的动态和静态特征点鉴别器取得了优异的性能。此外，与其他动态SLAM系统相比，基于MLP的实时立体SLAM系统在室外KITTI跟踪数据集上表现出最高的平均精度和最快的速度。开源代码和数据集可在https://github上获取。 com/TaozheLi/MLP-SLAM.

不确定性下的导航：切换动力系统的轨迹预测和遮挡推理

分类： 机器人技术, 机器学习

作者： Ran Wei, Joseph Lee, Shohei Wakayama, Alexander Tschantz, Conor Heins, Christopher Buckley, John Carenbauer, Hari Thiruvengada, Mahault Albarracin, Miguel de Prado, Petter Horling, Peter Winzell, Renjith Rajagopal

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10653v1

摘要： 预测附近物体的未来轨迹，特别是在遮挡情况下，是自动驾驶和安全机器人导航的一项关键任务。先前的工作通常忽略保持被遮挡物体的不确定性，而仅使用大容量模型（例如在大型数据集上训练的 Transformer）来预测观察物体的轨迹。虽然这些方法在标准场景中有效，但它们可能很难推广到长尾、安全关键场景。在这项工作中，我们探索了一个在同一类结构化概率生成模型（即切换动力系统）下统一轨迹预测和遮挡推理的概念框架。然后，我们使用 Waymo 开放数据集展示了一些初步实验，说明其功能。

DR-MPC：现实世界社交导航的深度残差模型预测控制

分类： 机器人技术, 人工智能, 机器学习

作者： James R. Han, Hugues Thomas, Jian Zhang, Nicholas Rhinehart, Timothy D. Barfoot

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10646v1

摘要： 机器人如何在表现出复杂运动模式的人周围安全地导航？强化学习 (RL) 或深度强化学习 (DRL) 在模拟中具有一定的前景，尽管之前的许多工作依赖于模拟器，而模拟器无法精确捕捉真实人体运动的细微差别。为了解决这一差距，我们提出了深度残差模型预测控制（DR-MPC），这种方法使机器人能够根据现实世界的人群导航数据快速、安全地执行 DRL。通过将 MPC 与无模型 DRL 相结合，DR-MPC 克服了大数据要求和不安全初始行为的传统 DRL 挑战。 DR-MPC 通过基于 MPC 的路径跟踪进行初始化，并逐渐学习如何更有效地与人类交互。为了进一步加速学习，安全组件会估计机器人何时遇到分布外状态，并引导其远离可能的碰撞。在仿真中，我们表明 DR-MPC 大大优于之前的工作，包括传统的 DRL 和残差 DRL 模型。现实世界的实验表明，我们的方法成功地使机器人能够使用不到 4 小时的训练数据在各种拥挤的情况下导航，并且几乎没有错误。

通过学习真实世界的视觉数据实现可遍历性感知的腿式导航

分类： 机器人技术

作者： Hongbo Zhang, Zhongyu Li, Xuanqi Zeng, Laura Smith, Kyle Stachowicz, Dhruv Shah, Linzhu Yue, Zhitao Song, Weipeng Xia, Sergey Levine, Koushil Sreenath, Yun-hui Liu

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10621v1

摘要： 腿式运动带来的增强的移动性使四足机器人能够在复杂和非结构化的环境中导航。然而，优化敏捷运动，同时考虑穿越不同地形的不同能源成本仍然是一个开放的挑战。之前的大多数工作都侧重于根据人类标记的环境特征来规划轨迹和可通行成本估计。然而，这种以人为中心的方法是不够的，因为它没有考虑到机器人运动控制器在具有挑战性的地形上的不同能力。为了解决这个问题，我们基于机器人运动控制器的价值函数，以机器人为中心的方式开发了一种新颖的可遍历性估计器。该估计器被集成到一个新的基于学习的 RGBD 导航框架中。该框架开发了一个规划器，引导机器人避开障碍物和难以穿越的地形，同时实现目标。导航规划器的训练是使用样本有效的强化学习方法直接在现实世界中进行的。通过广泛的基准测试，我们证明所提出的框架在准确的可遍历性成本估计和从多模态数据（机器人的颜色和深度视觉以及本体感觉反馈）中进行有效学习以进行实际训练方面实现了最佳性能。使用所提出的方法，四足机器人通过在各种现实环境中的反复试验来学习执行可遍历性感知导航，这些环境具有挑战性的地形，仅使用深度视觉很难进行分类。

使用 Loihi 芯片实现移动机器人躲避的完全异步神经形态感知

分类： 机器人技术

作者： Junjie Jiang, Delei Kong, Chenming Hu, Zheng Fang

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10601v1

摘要： 自然生物体中的稀疏和异步传感和处理可实现超低延迟和节能的感知。事件摄像机（称为神经形态视觉传感器）旨在模仿这些特征。然而，充分利用稀疏和异步事件流仍然具有挑战性。受标准相机成熟算法的影响，大多数现有的基于事件的算法在处理事件流时仍然依赖于“事件组”处理范式（例如事件帧、3D体素）。这种范式遇到了特征丢失、事件堆叠和高计算负担等问题，这偏离了事件相机的预期目的。为了解决这些问题，我们提出了一种完全异步的神经形态范例，集成了事件摄像机、尖峰网络和神经形态处理器（Intel Loihi）。这种范例可以在每个事件到达时忠实地异步处理它，模仿生物大脑中尖峰驱动的信号处理。我们在真实的移动机器人躲避任务上详细比较了所提出的范式与现有的“事件组”处理范式。实验结果表明，我们的方案在不同时间窗和光照条件下比基于帧的方法表现出更好的鲁棒性。此外，我们的方案在嵌入式 Loihi 处理器上的每次推理能耗仅为节能模式下 NVIDIA Jetson Orin NX 上事件尖峰张量方法的 4.30%，以及 NVIDIA Jetson Orin NX 上事件帧方法的 1.64%。相同的神经形态处理器。据我们所知，这是第一次在真正的移动机器人上实现完全异步的神经形态范式来解决顺序任务。

使用最大平均差异的广义域上的遍历轨迹优化

分类： 机器人技术, 93C85

作者： Christian Hughes, Houston Warren, Darrick Lee, Fabio Ramos, Ian Abraham

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10599v1

摘要： 我们提出了一种新颖的遍历轨迹优化公式，可以使用核最大均值差异在一般域上指定。遍历轨迹优化是一种有效的方法，可以为与机器人检查、信息收集问题以及搜索和救援相关的问题生成覆盖路径。这些优化方案迫使机器人在与访问该区域的预期效用成比例的区域中花费时间。当前的遍历轨迹优化方法依赖于特定领域的知识，例如定义的效用图和明确定义的空间基函数来产生遍历轨迹。在这里，我们提出了基于最大平均差异的遍历轨迹优化的概括，该优化仅需要来自搜索域的样本。我们证明了我们的方法能够在各种问题领域产生覆盖轨迹，包括机器人检查具有微分运动学约束的物体和李群，而无需访问特定领域的知识。此外，与现有最先进的遍历轨迹优化方法相比，我们展示了有利的计算扩展，并在领域特定知识和计算扩展之间进行权衡，从而将遍历覆盖范围的多功能性扩展到更广泛的应用领域。

从文字到车轮：基于视觉的自动驾驶使用基础模型理解人类语言指令

分类： 机器人技术

作者： Chanhoe Ryu, Hyunki Seong, Daegyu Lee, Seongwoo Moon, Sungjae Min, D. Hyunchul Shim

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10577v1

摘要： 本文介绍了基础模型的创新应用，使配备 RGB-D 摄像头的无人地面车辆 (UGV) 能够根据人类语言指令导航到指定目的地。与基于学习的方法不同，这种方法不需要事先训练，而是利用现有的基础模型，从而促进对新环境的泛化。在接收到人类语言指令后，这些指令会使用大语言模型（LLM）转化为“认知路线描述”——用人类语言表达的详细导航路线。然后，车辆将这种描述分解为地标和导航动作。该车辆还通过在开放数据集上训练的地形分割模型 GANav 确定海拔成本并识别不同区域的通航水平。语义高程成本（同时考虑高程和通航水平）被估计并提供给负责本地路径规划的模型预测路径积分（MPPI）规划器。同时，车辆使用基础模型（包括 YOLO-World 和 EfficientViT-SAM）搜索目标地标。最终，车辆执行导航命令到达指定目的地，即最终地标。我们的实验表明，该应用程序可以在新环境（例如不熟悉的地形或城市环境）中按照人类语言指令成功引导 UGV 到达目的地。

自反性输入输出因果机制

分类： 机器人技术, 新兴技术, 系统与控制, 系统与控制

作者： Ryotaro Kayawake, Haruto Miida, Shunsuke Sano, Issei Onda, Kazuki Abe, Masahiro Watanabe, Josephine Galipon, Riichiro Tadakuma, Kenjiro Tadakuma

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10568v1

摘要： 本文探讨了反射驱动的概念，研究机器人如何利用内部和外部刺激来触发机器人的运动、性能或物理特征（例如其尺寸、形状或配置等）的变化。这些变化本身可以依次重新用作输入以驱动进一步的适应。从生物系统中汲取灵感，反射是响应环境变化的重要组成部分，反射驱动对于使机器人适应不同的情况和执行复杂的任务至关重要。分析了反射驱动的基本原理，并提供了现有实现的示例，例如接触敏感反射臂、物理计数器及其应用。该论文还概述了推进该研究领域的未来方向和挑战，强调了其在开发自适应、响应式机器人系统中的重要性。

ROSAR：用于鲁棒侧扫声纳目标检测的对抗性再训练框架

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Martin Aubard, László Antal, Ana Madureira, Luis F. Teixeira, Erika Ábrahám

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10554v1

摘要： 本文介绍了 ROSAR，这是一种新颖的框架，增强了专为侧扫声纳 (SSS) 图像定制的深度学习目标检测模型的鲁棒性，这些图像是由自主水下航行器使用声纳传感器生成的。通过扩展我们之前在知识蒸馏（KD）方面的工作，该框架将 KD 与对抗性再训练相结合，以解决模型效率和针对 SSS 噪声的鲁棒性的双重挑战。我们介绍了三个新颖的、公开的 SSS 数据集，捕获不同的声纳设置和噪声条件。我们提出并形式化了两个 SSS 安全属性，并利用它们生成用于再训练的对抗数据集。通过对投影梯度下降（PGD）和基于补丁的对抗攻击的比较分析，ROSAR在SSS特定条件下展示了模型鲁棒性和检测精度的显着改进，将模型的鲁棒性提高了高达1.85%。 ROSAR 可在 https://github.com/remaro-network/ROSAR-framework 获取。

利用局部特征和范围图像进行小数据实时点云语义分割

分类： 计算机视觉和模式识别, 机器人技术

作者： Daniel Fusaro, Simone Mosco, Emanuele Menegatti, Alberto Pretto

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10510v1

摘要： 点云的语义分割是理解自动驾驶和机器人环境的一项重要任务。最近基于范围的工作实现了实时效率，而基于点和体素的方法产生了更好的结果，但受到高计算复杂性的影响。此外，高度复杂的深度学习模型通常不适合从小型数据集中有效学习。它们的泛化能力可以很容易地由丰富的数据而不是架构设计来驱动。在本文中，我们利用三维表示中的信息来熟练地捕获局部特征，同时引入范围图像表示来合并附加信息并促进快速计算。基于 GPU 的 KDTree 允许通过简单的操作快速构建、查询和增强投影。对 SemanticKITTI 和 nuScenes 数据集的大量实验证明了我们在“小数据”设置中进行修改的好处，其中仅使用数据集的一个序列来训练模型，而且在传统设置中，除了一个序列之外的所有序列用于训练。我们表明，我们模型的简化版本不仅表现出与全尺寸最先进模型相比的强大竞争力，而且还可以实时运行，使其成为现实案例应用的可行选择。我们方法的代码可在 https://github.com/Bender97/WaffleAndRange 获取。

四足运动的强化学习：当前进展和未来展望

分类： 机器人技术

作者： Maurya Gurram, Prakash Kumar Uttam, Shantipal S. Ohol

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10438v1

摘要： 近年来，与传统控制方法相比，由于自主学习和适应的潜在优势，基于强化学习（RL）的四足运动控制已成为一个广泛研究的领域。本文全面研究了应用强化学习技术开发四足机器人运动控制器的最新研究。我们详细概述了基于强化学习的运动控制器的核心概念、方法和关键进展，包括学习算法、训练课程、奖励公式和模拟到真实的迁移技术。该研究涵盖了步态约束和无步态方法，强调了它们各自的优点和局限性。此外，我们还讨论了这些控制器与机器人硬件的集成以及传感器反馈在实现自适应行为中的作用。该论文还概述了未来的研究方向，例如结合外部感知传感、结合基于模型和无模型技术以及开发在线学习能力。我们的研究旨在让研究人员和从业者全面了解基于强化学习的运动控制器的最新技术，使他们能够在现有工作的基础上探索新颖的解决方案，以实际增强四足机器人的移动性和适应性-世界环境。

SMART-TRACK：一种新颖的卡尔曼滤波器引导传感器融合，用于动态环境中稳健的无人机目标跟踪

分类： 机器人技术

作者： Khaled Gabr, Mohamed Abdelkader, Imen Jarraya, Abdullah AlMusalami, Anis Koubaa

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10409v1

摘要： 在用于目标检测和定位的传感器融合和状态估计领域，确保动态环境中的准确跟踪提出了重大挑战。当测量是间歇性的时，卡尔曼滤波器 (KF) 等传统方法通常会失败，从而导致状态估计迅速发散。为了解决这个问题，我们引入了 SMART（传感器测量增强和重新捕获跟踪器），这是一种利用 KF 的高频状态估计来指导新测量值搜索的新颖方法，即使在直接测量出现问题时也能保持跟踪连续性。这对于传统方法举步维艰的动态环境至关重要。我们的贡献包括： 1) 使用 KF 反馈的多功能测量增强：我们实现了一种多功能测量增强系统，当主要物体检测器间歇性故障时，该系统可作为备用系统。该系统适用于各种传感器，并使用深度相机进行演示，其中 KF 的 3D 预测被投影到 2D 深度图像坐标中，集成了简化为一阶近似的非线性协方差传播技术。 2) 开源 ROS2 实现：我们提供 SMART-TRACK 框架的开源 ROS2 实现，并在使用 Gazebo 和 ROS2 的真实模拟环境中进行验证，从而促进更广泛的适应和进一步研究。我们的结果展示了跟踪稳定性的显着增强，在测量中断期间估计 RMSE 低至 0.04 m，提高了无人机跟踪的鲁棒性，并扩大了复杂场景中可靠的自主无人机操作的潜力。该实现可在 https://github.com/mzahana/SMART-TRACK 上找到。

PIVOT-R：用于机器人操作的原始驱动的路径点感知世界模型

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Kaidong Zhang, Pengzhen Ren, Bingqian Lin, Junfan Lin, Shikui Ma, Hang Xu, Xiaodan Liang

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10394v1

摘要： 语言引导的机器人操作是一项具有挑战性的任务，需要实体代理遵循抽象的用户指令来完成各种复杂的操作任务。以前的工作只是简单地拟合数据，而没有揭示指令和低级可执行动作之间的关系，这些模型容易记住数据的表面模式，而不是获取可转移的知识，因此对动态环境变化很脆弱。为了解决这个问题，我们提出了一种用于机器人操纵的主动驱动的路径点感知世界模型（PIVOT-R），该模型仅专注于与任务相关的路径点的预测。具体来说，PIVOT-R 由航点感知世界模型（WAWM）和轻量级动作预测模块组成。前者执行原始动作解析和原始驱动的路点预测，而后者则专注于解码低级动作。此外，我们还设计了异步分层执行器（AHE），它可以对模型的不同模块使用不同的执行频率，从而帮助模型减少计算冗余，提高模型执行效率。我们的 PIVOT-R 在 SeaWave 基准上的性能优于最先进的 (SoTA) 开源模型，在四个级别的指令任务中实现了 19.45% 的平均相对改进。而且，与同步执行的PIVOT-R相比，采用AHE的PIVOT-R的执行效率提高了28倍，性能仅下降2.9%。这些结果提供了令人信服的证据，证明我们的 PIVOT-R 可以显着提高机器人操作的性能和效率。

有效获得机器人接触任务正式分析的触及范围一致性

分类： 机器人技术, 系统与控制, 系统与控制

作者： Chencheng Tang, Matthias Althoff

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10391v1

摘要： 机器人任务的形式验证需要所用机器人的简单但一致的模型。我们提出了第一个工作，为考虑混合（混合连续和离散）动力学的机器人接触任务生成到达集一致模型。到达集一致性要求抽象模型的可达输出集包含所有先前的测量以传输安全属性。针对工业应用，我们使用具有线性动力学的简单混合自动机来描述该系统。我们将不确定性注入连续动态和离散转换中，并以最佳方式识别所有模型参数以及捕获记录行为所需的非确定性。使用两个三自由度机器人，我们表明我们的方法可以有效地生成模型来捕获系统行为的不确定性，并大大减少工业应用中所需的测试工作。

HumanFT：类人指尖多模态视觉触觉传感器

分类： 机器人技术

作者： Yifan Wu, Yuzhou Chen, Zhengying Zhu, Xuhao Qin, Chenxi Xiao

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10353v1

摘要： 触觉传感器在使机器人在日常任务中与物体有效、安全地交互方面发挥着至关重要的作用。特别是，由于其高质量的反馈，视觉触觉传感器在两指和三指抓手中的使用越来越多。然而，适用于人形机器人，特别是五指灵巧手的传感器的开发仍然存在很大差距。原因之一是设计和制造尺寸紧凑的传感器面临挑战。在本文中，我们提出了 HumanFT，这是一种多模态视觉触觉传感器，可以复制人类指尖的形状和功能。为了弥合人类和机器人触觉传感之间的差距，我们的传感器具有实时力测量、高频振动检测和过热警报功能。为了实现这一目标，我们开发了一套新型弹性体的制造技术，针对力传播和温度传感进行了优化。此外，我们的传感器集成了能够感测压力和振动的电路。这些功能已通过实验得到验证。所提出的设计简单且制造成本效益高。我们相信 HumanFT 可以通过捕获和解释多模式触觉信息来增强人形机器人的感知。

超声引导自主经皮介入机器人系统的初步评估

分类： 机器人技术

作者： Pratima Mohan, Aayush Agrawal, Niravkumar A. Patel

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10299v1

摘要： 全球癌症病例不断增加，到 2023 年将导致近 1000 万人死亡。活检对于诊断至关重要，通常在超声波 (US) 引导下进行，需要精确的手部协调和认知决策。通过解决诸如嘈杂的二维图像和保持一致的探头与表面接触等挑战，机器人辅助干预已显示出提高了病变定位的准确性。最近的研究重点是完全自主的机器人超声系统，以实现标准化的诊断程序和可重复的超声引导治疗。这项研究提出了一个完全自主的超声引导置针系统，能够执行端到端的临床工作流程。该系统自主地：1) 识别患者腹部表面的肝脏区域，2) 使用阻抗控制规划和执行超声扫描路径，3) 实时定位超声图像中的病变，4) 瞄准已识别的病变，一切都无需人工干预。这项研究评估了位置和阻抗控制系统。对琼脂模型的验证表明，靶向误差为 5.74 ± 2.70 毫米，凸显了其精确靶向大于 5 毫米的肿瘤的潜力。所取得的结果显示了其作为美国引导活检的完全自主系统的潜力。

信任或破产：确保自主武器系统的可信度

分类： 计算机与社会, 人工智能, 机器人技术

作者： Kasper Cools, Clara Maathuis

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10284v1

摘要： 将自主武器系统 (AWS) 集成到军事行动中既带来了重大机遇，也带来了挑战。本文探讨了对 AWS 的信任的多方面性质，强调了建立可靠且透明的系统以减轻与偏见、操作失败和责任相关的风险的必要性。尽管人工智能 (AI) 取得了进步，但这些系统的可信度，尤其是在高风险的军事应用中，仍然是一个关键问题。通过对现有文献的系统回顾，本研究发现了 AWS 开发和部署阶段对信任动态的理解上的差距。它提倡采用包括技术专家、伦理学家和军事战略家在内的协作方法来应对这些持续存在的挑战。研究结果强调了人机协作和增强系统可理解性的重要性，以确保问责制和遵守国际人道主义法。最终，本文旨在为有关 AWS 的道德影响以及国防环境中值得信赖的人工智能的必要性的持续讨论做出贡献。

Kinematic-ICP：通过运动学约束增强在平面上移动的轮式移动机器人的 LiDAR 里程计

分类： 机器人技术

作者： Tiziano Guadagnino, Benedikt Mersch, Ignacio Vizzo, Saurabh Gupta, Meher V. R. Malladi, Luca Lobefaro, Guillaume Doisy, Cyrill Stachniss

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10277v1

摘要： LiDAR 里程计对于许多机器人应用至关重要，包括 3D 测绘、导航以及同步定位和测绘。激光雷达测距系统通常基于某种形式的点云配准来计算移动机器人的自我运动。然而，当今的激光雷达测距系统很少在点云对准过程中考虑特定领域的知识和移动平台的运动学模型。在本文中，我们提出了 Kinematic-ICP，这是一种 LiDAR 测距系统，专注于配备 3D LiDAR 并在平面上移动的轮式移动机器人，这是仓库、办公室、医院等的常见假设。我们的方法引入了运动学传统点对点迭代最近点方案优化中的约束。通过这种方式，产生的运动遵循平台的运动学约束，有效地利用机器人的车轮里程计和 3D LiDAR 观测结果。我们在优化方案中动态调整激光雷达测量和车轮里程计的影响，使系统能够处理功能贫乏的走廊等退化场景。我们评估了在大型仓库环境和室外运行的机器人的方法。实验表明，我们的方法实现了最佳性能，并且比车轮里程计和常见的激光雷达里程计系统更准确。 Kinematic-ICP 最近已部署在 Dexory 机器人车队中，这些机器人在全球客户的仓库中运行，这表明我们的方法可以在现实世界中与完整的导航堆栈一起运行。

用于露天矿自主遥感的地面自适应初视检查规划器

分类： 机器人技术

作者： Vignesh Kottayam Viswanathan, Vidya Sumathy, Christoforos Kanellakis, George Nikolakopoulos

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10256v1

摘要： 在这项工作中，我们提出了一个用于活跃露天矿遥感任务的自主检查框架。具体来说，这些贡献集中于开发一种方法，其中在线视图规划器利用操作员定义的初始近似检查计划来预测检查路径，该路径可以适应由路线采矿活动引起的当前矿面形态的变化。所提出的检查框架利用瞬时 3D LiDAR 和定位测量以及建模的传感器足迹来进行视图规划，以满足所需的观看和摄影测量条件。通过 Feiring-Bruk 露天矿环境中的模拟和基于硬件的户外实验试验，证明了所提出框架的有效性。展示拟议工作性能的视频可以在这里找到：https://youtu.be/uWWbDfoBvFc

使用场地地图在开放世界中进行标牌感知探索

分类： 机器人技术

作者： Chang Chen, Liang Lu, Lei Yang, Yinqiang Zhang, Yizhou Chen, Ruixing Jia, Jia Pan

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10143v1

摘要： 由于缺乏先验知识和文本识别能力，当前的探索方法很难在未知的开放世界环境中搜索商店。场地地图提供了有价值的信息，可以通过将场景标牌与地图数据相关联来帮助进行探索规划。然而，标牌上文本的任意形状和样式以及多视图不一致给机器人的准确识别带来了重大挑战。此外，现实世界环境和场地地图之间的差异阻碍了将文本信息纳入规划人员中。本文介绍了一种新颖的标牌感知探索系统来解决这些挑战，使机器人能够有效地利用场地地图。我们提出了一种标牌理解方法，该方法使用基于扩散的文本实例检索方法结合 2D 到 3D 语义融合策略来准确检测和识别标牌上的文本。此外，我们设计了一个场地地图引导的探索-利用规划器，它使用从场地地图导出的方向启发式来平衡未知区域的探索与利用来接近和调整方向以获得更好的识别。在大型购物中心的实验证明了我们的方法具有卓越的标牌识别精度和覆盖效率，优于最先进的场景文本识别方法和传统探索方法。

用于障碍物识别的创新深度学习技术：现代检测算法的比较研究

分类： 计算机视觉和模式识别, 机器人技术

作者： Santiago Pérez, Camila Gómez, Matías Rodríguez

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10096v1

摘要： 本研究探索了使用先进的 YOLO 模型（特别是 YOLOv8、YOLOv7、YOLOv6 和 YOLOv5）进行障碍物检测的综合方法。利用深度学习技术，研究重点是这些模型在实时检测场景中的性能比较。研究结果表明，YOLOv8 通过改进的精确召回指标实现了最高的准确率。给出了详细的训练过程、算法原理和一系列实验结果来验证模型的有效性。

机器人扩散变压器的成分

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Sudeep Dasari, Oier Mees, Sebastian Zhao, Mohan Kumar Srirama, Sergey Levine

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10088v1

摘要： 近年来，机器人专家通过利用高容量 Transformer 网络架构和生成扩散模型，在解决灵巧机器人硬件上日益普遍的任务方面取得了显着进展。不幸的是，事实证明，将这两种正交改进结合起来非常困难，因为没有明确且易于理解的流程来做出重要的设计选择。在本文中，我们确定、研究和改进高容量扩散变压器策略的关键架构设计决策。由此产生的模型可以有效地解决多个机器人实施例上的各种任务，而无需每次设置超参数调整的痛苦。通过将我们的研究结果与改进的模型组件相结合，我们能够提出一种新颖的架构，名为 \method，它在解决长期（1500 美元+时间步长）灵巧任务方面显着优于现有技术。双手动 ALOHA 机器人。此外，我们发现，在经过 10 小时的高度多模态、语言注释的 ALOHA 演示数据训练后，我们的策略显示出了更高的扩展性能。我们希望这项工作将为未来的机器人学习技术打开大门，这些技术利用生成扩散建模的效率和大规模变压器架构的可扩展性。代码、机器人数据集和视频可在以下位置获取：https://dit-policy.github.io

利用 NeRF 进行分析-综合，利用稀疏且嘈杂的 UWB 雷达数据对日常小型物体进行 ISAR 成像

分类： 机器人技术, 人机交互, 机器学习

作者： Md Farhan Tasnim Oshim, Albert Reed, Suren Jayasuriya, Tauhidur Rahman

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10085v1

摘要： 由于雷达截面 (RCS) 有限以及雷达系统固有的分辨率限制，逆合成孔径雷达 (ISAR) 成像在日常小型物体成像方面面临着巨大的挑战。包括反投影 (BP) 在内的现有 ISAR 重建方法通常需要复杂的设置和受控环境，这使得它们对于许多现实世界的噪声场景来说不切实际。在本文中，我们提出了一种由神经辐射场（NeRF）支持的新型分析综合（ATS）框架，用于使用稀疏和嘈杂的超宽带（UWB）雷达数据以低廉的成本对小物体进行高分辨率相干ISAR成像。和便携式设置。我们的端到端框架集成了超宽带雷达波传播、反射特性和场景先验，无需昂贵的电波暗室或复杂的测量测试台即可实现高效的 2D 场景重建。通过定性和定量比较，我们证明所提出的方法优于传统技术，可以在非视距（NLOS）和噪声场景中生成具有多个目标和复杂结构的复杂场景的 ISAR 图像，特别是在视图数量有限和稀疏的 UWB 雷达扫描。这项工作代表了朝着实用、经济高效的日常小型物体 ISAR 成像迈出的重要一步，对机器人和移动传感应用具有广泛的影响。

梦想提供帮助：学习与人类目标保持一致，以实现高速赛车中的共享控制

分类： 机器人技术, 人工智能, 人机交互

作者： Jonathan DeCastro, Andrew Silva, Deepak Gopinath, Emily Sumner, Thomas M. Balch, Laporsha Dees, Guy Rosman

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10062v1

摘要： 在涉及快速动态和战术决策的领域（例如多赛车比赛），有效的人机团队需要紧密协调。在这种情况下，机器人队友必须对人类队友战术目标的提示做出反应，以与目标一致的方式提供协助（例如，绕过障碍物向左或向右导航）。为了应对这一挑战，我们提出了 Dream2Assist，这是一个框架，它结合了能够推断人类目标和价值函数的丰富世界模型，以及为给定的人类队友提供适当的专家帮助的辅助代理。我们的方法建立在循环状态空间模型的基础上，以明确推断人类意图，使辅助代理能够选择与人类一致的动作，并实现流畅的团队交互。我们在高速赛车领域展示了我们的方法，一群合成人类驾驶员追求相互排斥的目标，例如“落后”和“超车”。我们表明，组合的人机团队在将其行为与人类的行为相结合时，表现优于单独的合成人类以及几种基线辅助策略，并且意图调节能够在任务执行过程中遵循人类的偏好，从而改善性能，同时满足人类的目标。

VQ-CNMP：双层规划的神经符号技能学习

分类： 机器人技术, 人工智能, 机器学习

作者： Hakan Aktas, Emre Ugur

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.10045v1

摘要： 本文提出了一种新颖的神经网络模型，能够从未标记的演示数据中发现高级技能表示。我们还提出了一个双层规划管道，该管道利用我们的模型，使用基于梯度的规划方法。在提取高级表示的同时，我们的模型还保留了低级信息，这些信息可用于低级行动规划。在实验中，我们测试了模型在不同条件下的技能发现性能，测试了多模态 LLM 是否可以用于标记学习到的高级技能表示，最后测试了模型的高级和低级规划性能我们的管道。

REPeat：在机器人辅助喂养中预先获取软食品的 Real2Sim2Real 方法

分类： 机器人技术, 计算机视觉和模式识别, 图形

作者： Nayoung Ha, Ruolin Ye, Ziang Liu, Shubhangi Sinha, Tapomayukh Bhattacharjee

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.10017v1

摘要： 该论文提出了 REPeat，这是一个 Real2Sim2Real 框架，旨在增强机器人辅助软食喂养中的咬合获取。它利用推、切、翻转等“预获取动作”来提高串、舀、旋转等咬合获取动作的成功率。如果数据驱动模型预测直接咬合采集的成功率较低，系统将启动 Real2Sim 阶段，在模拟中重建食物的几何形状。机器人在模拟中探索各种预采集动作，然后 Sim2Real 步骤渲染逼真的图像以重新评估成功率。如果成功率提高，机器人就会在现实中应用该动作。我们在 15 个不同的盘子（包含 10 种软食饮食的食品）上评估了该系统，结果显示所有盘子的咬合成功率平均提高了 27%。请参阅我们的项目网站 https://emprise.cs.cornell.edu/repeat。

突出相关内容：任务相关的重建，以实现干扰下的视觉控制

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 机器人技术

作者： Kyungmin Kim, JB Lanier, Pierre Baldi, Charless Fowlkes, Roy Fox

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09972v1

摘要： 基于模型的强化学习（MBRL）的最新进展使其成为视觉控制任务的强大工具。尽管数据效率有所提高，但训练具有普遍感知能力的 MBRL 智能体仍然具有挑战性。在存在视觉干扰的情况下进行训练尤其困难，因为它们给表征学习带来了很大的变化。基于 DREAMER（一种流行的 MBRL 方法），我们提出了一种简单而有效的辅助任务，以促进分散注意力的环境中的表示学习。假设图像观察的任务相关组件可以通过给定任务中的先验知识直接识别，我们在图像观察上使用分割掩模来仅重建任务相关组件。这样做，我们消除了在潜在表示中编码与任务无关的对象的需要，从而大大降低了表示学习的复杂性。我们的方法 Segmentation Dreamer (SD) 可以与在模拟中轻松访问的地面真实掩模一起使用，也可以通过利用可能不完美的分割基础模型来使用。通过选择性地应用重建损失来进一步改进后者，以避免由于掩模预测错误而提供误导性的学习信号。在修改后的 DeepMind 控制套件 (DMC) 和添加了视觉干扰的 Meta-World 任务中，SD 比之前的工作显着提高了样本效率和更好的最终性能。我们发现，SD 对于之前的工作无法解决的稀疏奖励任务特别有帮助，无需进行大量的奖励工程即可训练视觉鲁棒的智能体。

用于球体避障的共形可达集

分类： 机器人技术

作者： Yongseok Kwon, Jonathan Michaux, Seth Isaacson, Bohao Zhang, Matthew Ejakov, Katherine A. Skinner, Ram Vasudevan

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09924v1

摘要： 在非结构化环境中部署自主机器人需要安全的运动规划算法。运动计划必须安全，以确保机器人不会伤害人类或损坏任何附近的物体。实时生成这些运动计划对于确保机器人能够适应环境的突然变化也很重要。许多轨迹优化方法引入了平衡安全性和实时性能的启发式方法，这可能会增加机器人与其环境碰撞的风险。本文通过提出球体保形可达集 (CROWS) 来应对这一挑战。 CROWS 是一种新颖的实时后退轨迹规划器，可生成概率安全的运动计划。离线时，CROWS 学习一种新颖的基于神经网络的基于球体可达集的表示，该表示过度近似机器人运动的扫掠体积。然后，CROWS 使用保形预测来计算置信界限，为学习到的可达集提供概率安全保证。在运行时，CROWS 执行轨迹优化以选择概率保证无碰撞的轨迹。我们证明，CROWS 在解决杂乱环境中具有挑战性的运动规划任务方面优于各种最先进的方法，同时保持无碰撞。代码、数据和视频演示可以在 https://roahmlab.github.io/crows/ 找到

使用可变形姿态图进行森林点云的无标记空中-地面联合配准

分类： 机器人技术

作者： Benoit Casseau, Nived Chebrolu, Matias Mattamala, Leonard Freissmuth, Maurice Fallon

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09896v1

摘要： 对于生物多样性和林业应用，最终用户希望获得从森林地面到树冠的全面详细的森林地图。地面激光扫描和航空激光扫描是精确且日益成熟的森林扫描方法。然而，由于视野和绘图过程的固有差异，它们无法单独估计树高、树干直径和树冠密度等属性。在这项工作中，我们提出了一个可以自动生成单个联合陆地和空中森林重建的管道。该方法的新颖之处在于无标记配准管道，它可以估计空中云和地面子云之间的一组相对变换约束，而不需要在场景中物理放置任何共同配准反射标记。然后，我们的方法在位姿图公式中使用这些约束，这使我们能够精细地对齐相应的云，同时尊重地面 SLAM 扫描过程引入的空间约束。我们证明，我们的方法可以对大规模自然环境进行细粒度和完整的重建，从而无需外部基础设施即可实现林业应用的多平台数据捕获。

未知环境中基于物理的神经映射和运动规划

分类： 机器人技术

作者： Yuchen Liu, Ruiqi Ni, Ahmed H. Qureshi

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09883v1

摘要： 地图绘制和运动规划是机器人智能的两个基本要素，它们在生成环境地图和绕过障碍物时相互依赖。现有的映射方法创建的地图需要计算成本昂贵的运动规划工具来找到路径解决方案。在本文中，我们提出了一种新的映射特征，称为到达时间场，它是 Eikonal 方程的解。到达时间字段可以直接指导机器人在给定的环境中导航。因此，本文介绍了一种称为主动神经时间场（Active NTFields）的新方法，它是一种基于物理的神经框架，可以主动探索未知环境并动态映射其到达时间场以用于机器人运动规划。我们的方法不需要任何专家数据进行学习，并使用神经网络直接求解 Ekonal 方程以进行到达时间场映射和运动规划。我们将我们的方法与最先进的映射和运动规划方法进行基准测试，并通过差动驱动机器人和 6 自由度 (DOF) 机器人操纵器在模拟和现实环境中展示其卓越性能。补充视频可在 https://youtu.be/qTPL5a6pRKk 找到，实现代码存储库可在 https://github.com/Rtlyc/antfields-demo 获取。

ImagineNav：通过场景想象促进视觉语言模型作为具体导航器

分类： 机器人技术

作者： Xinxin Zhao, Wenzhe Cai, Likun Tang, Teng Wang

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09874v1

摘要： 视觉导航是家庭辅助机器人的一项基本技能，提供物体搜索能力来完成长期的日常任务。最近的许多方法使用大型语言模型（LLM）进行常识推理，以提高探索效率。然而，大语言模型的规划过程仅限于文本，仅通过文本很难表示空间占用和几何布局。两者对于做出合理的导航决策都很重要。在这项工作中，我们寻求释放视觉语言模型（VLM）的空间感知和规划能力，并探索VLM在仅使用机载摄像头捕获RGB/RGB-D流输入的情况下是否可以有效地完成视觉导航以无地图方式执行任务。我们通过开发想象力驱动的导航框架 ImagineNav 来实现这一目标，该框架可以在有价值的机器人视图中想象未来的观察图像，并将复杂的导航规划过程转化为 VLM 的相当简单的最佳视图图像选择问题。为了生成适合想象力的候选机器人视图，我们引入了Where2Imagine模块，该模块经过提炼以符合人类导航习惯。最后，为了达到 VLM 首选视图，使用现成的点目标导航策略。对具有挑战性的开放词汇对象导航基准的实证实验证明了我们提出的系统的优越性。

通过对话生成驾驶模拟

分类： 计算和语言, 信息检索, 机器人技术

作者： Rimvydas Rubavicius, Antonio Valerio Miceli-Barone, Alex Lascarides, Subramanian Ramamoorthy

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09829v1

摘要： 自动驾驶汽车等网络物理系统在部署之前会进行模拟测试，并使用特定于场景的程序进行场景规范。为了帮助在模拟中测试自动驾驶汽车，我们使用遵循指令的大型语言模型设计了一个自然语言界面，以协助非编码领域专家综合所需的场景和车辆行为。我们证明，尽管训练数据集非常小，但使用它将话语转换为符号程序是可行的。人体实验表明，对话对于成功的模拟生成至关重要，其成功率比不进行扩展对话的生成高 4.5 倍。

使用 LiDAR 和 RGB-D 相机的服务机器人的社交意识运动规划

分类： 机器人技术

作者： Duc Phu Nguyen, Thanh Long Nguyen, Minh Dang Tu, Cong Hoang Quach, Xuan Tung Truong, Manh Duong Phung

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09803v1

摘要： 在共享环境中与人类一起工作的服务机器人需要一个导航系统，该系统不仅要考虑人身安全，还要考虑相互合作的社会规范。在本文中，我们介绍了一种运动规划系统，其中包括人类状态（例如位置和速度）以及用于社交感知导航的个人空间。该系统首先从 LiDAR 和 RGB-D 相机中提取人体位置。然后，它使用卡尔曼滤波器融合该信息以进行人类状态估计。然后采用不对称高斯函数根据人类的状态对个人空间进行建模。该模型用作动态窗口逼近算法的输入，以生成机器人的轨迹。实验表明，机器人能够在动态环境中与人类一起导航，同时尊重他们的身体和心理舒适度。

无人机最优运动规划的模型预测控制

分类： 机器人技术

作者： Duy-Nam Bui, Thu Hang Khuat, Manh Duong Phung, Thuan-Hoang Tran, Dong LT Tran

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09799v1

摘要： 运动规划是无人机 (UAV) 导航的重要过程，无人机需要适应障碍物和不同的操作环境结构才能实现目标。本文提出了一种用于在未知复杂环境中运行的无人机的最佳运动规划器。运动规划器从本地范围传感器接收点云数据，然后将其转换为表示周围环境的体素网格。然后根据体素网格生成引导无人机到达目标的局部轨迹。使用模型预测控制（MPC）进一步优化该轨迹，以提高无人机操作的安全性、速度和平稳性。优化是通过定义几个成本函数和约束来进行的，同时考虑到无人机的动态和要求。在具有许多障碍的复杂环境中进行了许多模拟和与最先进方法的比较，以评估我们方法的性能。结果表明，我们的方法不仅提供了更短、更平滑的轨迹，而且提供了更快、更稳定的速度曲线。它还具有高能效，适合各种无人机应用。

t-READi：变压器驱动的稳健高效的自动驾驶多模态推理

分类： 计算机视觉和模式识别, 人工智能, 分布式、并行和集群计算, 机器学习, 机器人技术

作者： Pengfei Hu, Yuhang Qian, Tianyue Zheng, Ang Li, Zhe Chen, Yue Gao, Xiuzhen Cheng, Jun Luo

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09747v1

摘要： 鉴于自动驾驶汽车 (AV) 广泛采用多模态传感器（例如摄像头、激光雷达、雷达），深度分析融合其输出以实现强大的感知变得势在必行。然而，现有的融合方法通常会做出两个在实践中很少成立的假设：i）所有输入的数据分布相似；ii）所有传感器的恒定可用性。例如，由于激光雷达具有不同的分辨率，并且可能会发生雷达故障，因此这种变化通常会导致融合性能显着下降。为此，我们提出了 tREADi，这是一种自适应推理系统，可以适应多模态感知数据的可变性，从而实现稳健且高效的感知。 t-READi 识别变化敏感但结构特定的模型参数；然后它只调整这些参数，同时保持其余参数不变。 t-READi 还利用跨模态对比学习方法来补偿缺失模态造成的损失。实现这两个功能是为了保持与现有多模态深度融合方法的兼容性。大量实验清楚地表明，与现有方法相比，t-READi 不仅将平均推理精度提高了 6% 以上，而且将推理延迟降低了近 15 倍，在最坏的情况下仅增加 5% 的额外内存开销实际数据和模态变化下的情况。

用于粒状媒体操作的高斯泼溅视觉 MPC

分类： 机器人技术

作者： Wei-Cheng Tseng, Ellina Zhang, Krishna Murthy Jatavallabhula, Florian Shkurti

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09740v1

摘要： 学习 3D 表示的最新进展使得在解决复杂的机器人操作任务方面取得了重大进展，特别是对于刚体物体。然而，由于粒子相互作用的复杂物理原理、高维和部分可观察状态、无法视觉跟踪一堆中的单个粒子以及精确动力学的计算要求，操纵豆类、坚果和大米等颗粒材料仍然具有挑战性预言。由于缺乏归纳偏差，当前的深层潜在动力学模型通常难以推广颗粒材料操纵。在这项工作中，我们提出了一种新颖的方法，该方法可以学习场景的高斯泼溅表示的视觉动力学模型，并利用该模型通过模型预测控制来操纵颗粒媒体。我们的方法可以有效优化成堆颗粒介质上的复杂操作任务。我们在模拟和现实环境中评估我们的方法，证明其解决看不见的规划任务并以零样本迁移的方式推广到新环境的能力。与现有的粒度媒体操作方法相比，我们还展示了预测和操作性能的显着改进。

使用基于学习的模型预测控制以紧密编队飞行四旋翼飞行器

分类： 机器人技术, 机器学习, 系统与控制, 系统与控制

作者： Kong Yao Chee, Pei-An Hsieh, George J. Pappas, M. Ani Hsieh

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09727v1

摘要： 在紧密编队中飞行四旋翼飞行器是一个具有挑战性的问题。众所周知，在四旋翼飞行器的近场气流中，螺旋桨引起的气动效应非常复杂且难以表征。尽管机器学习工具有可能用于派生模型来捕获这些影响，但这些数据驱动的方法可能样本效率低下，并且生成的模型通常不能像其第一原理模型那样具有泛化能力。在这项工作中，我们提出了一个框架，该框架结合了第一原理建模和数据驱动方法的优点，以构建四旋翼飞行器编队飞行所产生的复杂空气动力效应的准确且样本有效的表示。我们模型中的数据驱动组件是轻量级的，使其适合基于优化的控制设计。通过仿真和物理实验，我们表明，将该模型合并到一种新颖的基于学习的非线性模型预测控制（MPC）框架中，可以在轨迹跟踪和干扰抑制方面带来显着的性能改进。特别是，我们的框架在物理实验中显着优于名义 MPC，平均轨迹跟踪误差提高了 40.1%，最大垂直分离误差降低了 57.5%。我们的框架还实现了卓越的样本效率，仅使用总共 46 秒的飞行数据来进行模拟和物理实验的训练。此外，通过我们提出的框架，四旋翼飞行器实现了异常紧密的编队，在整个飞行过程中平均间隔小于 1.5 个机身长度。这里给出了说明我们的框架和物理实验的视频：https://youtu.be/Hv-0JiVoJGo

Oogway：为 RoboSub 2023 设计、实施和测试 AUV

分类： 机器人技术

作者： Will Denton, Lilly Chiavetta, Michael Bryant, Vedarsh Shah, Rico Zhu, Ricky Weerts, Phillip Xue, Vincent Chen, Hung Le, Maxwell Lin, Austin Camacho, Drew Council, Ethan Horowitz, Jackie Ong, Morgan Chu, Alex Pool

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.10900v1

摘要： 杜克机器人俱乐部很自豪地向 2023 年 RoboSub 竞赛展示我们的机器人：Oogway。乌龟标志着俱乐部历史上最大的设计改革之一。除了改进的外形之外，Oogway 的一些显着功能还包括全新的计算机视觉软件、先进的声纳集成、新颖的声学硬件处理和升级的立体相机。 Oogway 建立在独立、集成良好且可靠的子系统原则之上。各个组件和子系统分别进行了测试和设计。 Oogway 最先进的功能是这些子系统之间紧密集成的结果。此类示例包括声纳辅助计算机视觉算法和部分通过机器人 3D 模型配置的与机器人无关的控制。 Oogway 在不到 2 年时间内的成功构建和测试可归功于 20 多名做出贡献的俱乐部成员、杜克大学普拉特工程学院的支持者以及外部赞助商。

杜克机器人俱乐部 Oogway 的技术设计回顾：RoboSub 2024 的 AUV

分类： 机器人技术

作者： Will Denton, Michael Bryant, Lilly Chiavetta, Vedarsh Shah, Rico Zhu, Philip Xue, Vincent Chen, Maxwell Lin, Hung Le, Austin Camacho, Raul Galvez, Nathan Yang, Nathanael Ren, Tyler Rose, Mathew Chu, Amir Ergashev, Saagar Arya, Kaelyn Pieter, Ethan Horowitz, Maanav Allampallam, Patrick Zheng, Mia Kaarls, June Wood

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09684v1

摘要： 杜克机器人俱乐部很自豪地向 2024 年 RoboSub 竞赛展示我们的机器人：Oogway。现在已经是第二年了，Oogway 的功能和可靠性都得到了显着升级。 Oogway 建立在独立、集成良好且可靠的子系统原则之上。各个组件和子系统分别进行了测试和设计。 Oogway 最先进的功能是这些子系统之间紧密集成的结果。这些例子包括重新设计的控制系统、全新的电气堆栈、先进的声纳集成、额外的摄像头和系统监控、新的标记滴管和防水胶囊机构。这些补充使 Oogway 能够获得 Robosub 2024 的资格预审。

LoRD：调整差异化驱动政策以适应分配变化

分类： 机器人技术, 人工智能, 机器学习

作者： Christopher Diehl, Peter Karkus, Sushant Veer, Marco Pavone, Torsten Bertram

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09681v2

摘要： 操作域之间的分布变化可能会严重影响自动驾驶车辆（SDV）中学习模型的性能。虽然这是一个公认的问题，但之前的工作大多探索了简单的解决方案，例如微调，重点关注运动预测任务。在这项工作中，我们探索了由预测、规划和控制组成的可微自治堆栈的新颖适应策略，在闭环中进行评估，并研究了经常被忽视的灾难性遗忘问题。具体来说，我们介绍了两种简单但有效的技术：低秩残差解码器（LoRD）和多任务微调。通过在两个真实自动驾驶数据集（nuPlan、exiD）上进行的三个模型的实验，我们证明了我们方法的有效性，并强调了先前方法中开环和闭环评估之间的显着性能差距。与标准微调相比，我们的方法将遗忘提高了 23.33%，闭环 OOD 驾驶得分提高了 8.83%。

混合现实双边人体远程操作的稳定性和透明度

分类： 机器人技术, 人机交互, 系统与控制, 系统与控制

作者： David Gregory Black, Septimiu Salcudean

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09679v1

摘要： 最近的工作引入了人类远程操作（HT）的概念，其中传统双边远程操作中通常考虑的远程机器人被佩戴混合现实头戴式显示器并跟踪由专家控制的虚拟工具的运动的新手所取代。 HT 在资源匮乏社区或偏远地区远程医疗的成本、复杂性和患者接受度方面具有优势。然而，双边 HT 的稳定性、透明度和性能尚未得到探索。因此，在本文中，我们使用测试数据开发了 HT 系统的数学模型和仿真。然后，我们使用该模型分析各种控制架构，并使用 HT 系统实现它们，以找到可实现的性能，研究稳定性，并确定存在时间延迟时最有前途的远程操作方案。我们证明，HT 的不稳定性虽然不具有破坏性或危险性，但会使系统无法使用。然而，通过 3 通道远程操作，可以实现稳定且透明的远程操作，并且具有较小的时间延迟（<200 毫秒），或者通过模型介导的远程操作，为新手提供本地姿态和力反馈，从而实现较大的时间延迟。

具有重力和阻力的机械系统的几何优化控制

分类： 机器人技术, 优化与控制

作者： Jinwoo Choi, Alejandro Cabrera, Ross L. Hatton

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09657v1

摘要： 最优控制在众多机械和机器人应用中起着至关重要的作用。广义上，最优控制方法分为直接方法（通过离散化直接优化轨迹）和间接方法（将最优条件转化为保证最优轨迹的方程）。虽然直接方法可能由于离散化而掩盖了对系统动力学的几何洞察，但间接方法可以更深入地了解系统的几何形状。在本文中，我们提出了一个用于理解机械系统最优控制的几何框架，重点关注惯性、阻力和重力的综合影响。通过将机械系统建模为配备有动力学和阻力指标以及势场的配置流形，我们探索了这些因素如何影响轨迹优化。我们推导了结合这些效应的最佳控制方程，并将其应用于二连杆和 UR5 机器人操纵器，展示了流形曲率和阻力如何塑造最佳轨迹。这项工作提供了一种全面的几何方法来实现最优控制，并广泛应用于机器人系统。

无人机六足协作团队在全球导航卫星系统 (GNSS) 遮挡的海洋环境中实现自主检索系统

分类： 机器人技术

作者： Seungwook Lee, Maulana Bisyir Azhari, Gyuree Kang, Ozan Günes, Donghun Han, David Hyunchul Shim

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09606v1

摘要： 我们提出了一种集成的无人机-六足机器人系统，专为 GNSS 拒绝的海上作业而设计，能够通过安装在无人机上的绞盘机构自主部署和检索六足机器人。该系统旨在解决动态海洋环境中的定位、控制和移动性挑战。我们的解决方案利用传感器融合技术，结合光流、激光雷达和深度数据来实现精确定位。实验结果证明了该系统在现实场景中的有效性，验证了其在 MBZIRC 2023 海事挑战赛的受控条件和操作条件下的现场测试中的性能。

EmbodiedCity：现实城市环境中体现智能体的基准平台

分类： 人工智能, 机器人技术

作者： Chen Gao, Baining Zhao, Weichen Zhang, Jinzhu Mao, Jun Zhang, Zhiheng Zheng, Fanhang Man, Jianjie Fang, Zile Zhou, Jinqiang Cui, Xinlei Chen, Yong Li

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09604v1

摘要： 具身人工智能强调智能体的身体在产生类人行为方面的作用。最近EmbodiedAI的工作非常注重建立机器学习模型，使其具有感知、规划和行动能力，从而实现与世界的实时交互。然而，大多数作品都关注有界的室内环境，例如在房间中导航或操纵设备，而对在开放世界场景中体现代理的探索有限。也就是说，对开放和室外环境中的体现智能的探索较少，其中一个潜在原因是缺乏高质量的模拟器、基准测试和数据集。为了解决这个问题，在本文中，我们构建了一个在现实城市环境中进行体现智能评估的基准平台。具体来说，我们首先基于真实城市中的真实建筑物、道路和其他元素构建高度逼真的3D模拟环境。在这种环境下，我们结合历史收集的数据和模拟算法，对行人和车流进行高保真度的模拟。此外，我们设计了一套涵盖不同 EmbodiedAI 能力的评估任务。此外，我们提供了一套完整的输入输出接口供访问，使实体智能体能够轻松地将任务需求和当前环境观测结果作为输入，然后做出决策并获得绩效评估。一方面，它将现有的具身智能的能力扩展到更高的水平。另一方面，它在现实世界中具有更高的实用价值，可以支持人工智能的更多潜在应用。基于这个平台，我们评估了一些流行的大语言模型的不同维度和难度的体现智能能力。

TOP-ERL：基于 Transformer 的离策略情景强化学习

分类： 机器学习, 机器人技术

作者： Ge Li, Dong Tian, Hongyi Zhou, Xinkai Jiang, Rudolf Lioutikov, Gerhard Neumann

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09536v1

摘要： 这项工作介绍了基于 Transformer 的离策略情景强化学习 (TOP-ERL)，这是一种能够在 ERL 框架中实现离策略更新的新颖算法。在 ERL 中，策略预测多个时间步长的整个动作轨迹，而不是每个时间步长的单个动作。这些轨迹通常由运动基元 (MP) 等轨迹生成器进行参数化，从而可以在长范围内进行平稳有效的探索，同时捕获高级时间相关性。然而，由于难以评估整个动作序列的状态动作值，ERL 方法通常受限于在策略框架，从而限制了其样本效率并阻碍了更高效的离策略架构的使用。 TOP-ERL 通过分割长动作序列并使用基于 Transformer 的批评架构以及 n 步返回估计来估计每个片段的状态动作值，从而解决了这一缺点。这些贡献带来了高效稳定的训练，这反映在复杂的机器人学习环境中进行的实证结果中。 TOP-ERL 显着优于最先进的 RL 方法。彻底的消融研究还显示了关键设计选择对模型性能的影响。

设计和开发用于浅水环境水产养殖水质监测的低成本无人水面车辆

分类： 机器人技术, 系统与控制, 系统与控制

作者： Aiyelari Temilolorun, Yogang Singh

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09513v1

摘要： 无人水面舰艇通常是自主或远程操作的，专门设计用于各种水生环境中的环境监测水产养殖需要对水质进行持续监测和管理，以保证水产养殖系统的健康和生产力。甚至养殖物种大量死亡许多小型水产养殖作业预算紧张，而且是在浅水环境中运营，例如内陆池塘、沿海泻湖、河口和浅水河流，特别是在发展中地区。高效监测系统本文提出了一种低成本 3D 打印双体双体船式平台，配备惯性测量单元 IMU 和全球导航卫星系统 GNSS，具有两层控制框架和使用两个高效 T200 推进器开发的差动驱动配置。利用机器人操作系统 ROS 创建控制框架，并结合基于扩展卡尔曼滤波器 EKF 的传感器融合技术进行定位本文通过开放水域俘虏模型实验评估 USV 的自主性，采用远程控制方法评估船舶在浅水中的机动性和整体性能状况

最优周期轨迹库的间接生成方法及其在经济双足行走中的应用

分类： 机器人技术

作者： Maximilian Raff, Kathrin Flaßkamp, C. David Remy

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09512v1

摘要： 轨迹优化是在腿部运动中生成高效且动态一致的步态的重要工具。本文探讨了轨迹优化的间接方法，强调其在为腿式系统创建最佳周期性步态方面的应用，并将其与更常用的直接方法进行对比。虽然直接方法在其实现中提供了相当大的灵活性，但它受到输入空间参数化的限制。相反，间接方法通过将控制输入定义为系统状态和成本的函数来提高准确性。我们解决了与间接射击方法相关的收敛挑战，特别是通过利用数值连续方法系统开发步态库。我们的贡献包括：（1）一般周期性轨迹优化问题的形式化，该问题将现有的一阶必要条件扩展到更广泛的成本函数和操作条件；（2）一种利用单次射击方法结合数值连续方法有效生成最佳轨迹（步态）库的方法，包括一种从被动步态重建拉格朗日乘子和共律的新方法； (3)以罗盘步态步行器为例，对间接和直接射击方法进行对比分析，证明间接射击方法在生成最佳步态方面具有较高的准确性。研究结果强调了间接方法在生成最佳步态族方面的潜力，从而推进了腿式机器人轨迹优化领域的发展。

ActSafe：强化学习的安全约束主动探索

分类： 机器学习, 机器人技术

作者： Yarden As, Bhavya Sukhija, Lenart Treven, Carmelo Sferrazza, Stelian Coros, Andreas Krause

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09486v1

摘要： 强化学习（RL）在现代人工智能系统的开发中无处不在。然而，最先进的强化学习智能体需要与环境进行广泛且可能不安全的交互才能有效学习。这些限制将强化学习智能体限制在模拟环境中，阻碍了它们在现实环境中直接学习的能力。在这项工作中，我们提出了 ActSafe，一种基于模型的新型 RL 算法，用于安全高效的探索。 ActSafe 学习系统的经过良好校准的概率模型，并乐观地进行计划。对未知动态的认知不确定性，同时强化悲观主义。安全限制。在约束和动态的规律性假设下，我们表明 ActSafe 保证了学习过程中的安全，同时还在有限时间内获得了接近最优的策略。此外，我们提出了 ActSafe 的实用变体，它建立在最新的基于模型的 RL 进步之上，即使在视觉控制等高维环境中也能实现安全探索。我们的经验表明，ActSafe 在标准安全深度 RL 基准上的困难探索任务中获得了最先进的性能，同时确保了学习过程中的安全性。

使用视觉 SLAM 和语义分割的快速空间平均辐射温度绘图框架

分类： 机器人技术, 计算机视觉和模式识别

作者： Wei Liang, Yiting Zhang, Ji Zhang, Erica Cochran Hameen

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09443v1

摘要： 确保热舒适度对于建筑环境中个人的福祉和生产力至关重要。在各种热舒适度指标中，平均辐射温度（MRT）的测量非常具有挑战性。最常见的测量方法既耗时又不方便用户使用。为了解决这个问题，本文提出了一种新颖的 MRT 测量框架，该框架使用视觉同步定位与建图（SLAM）和语义分割技术。所提出的方法遵循使用表面温度和视角因子的传统 MRT 计算方法的经验法则。然而，它采用视觉 SLAM 并创建具有丰富表面温度信息的 3D 热点云。然后，该框架实现了 Grounded SAM，这是一种新的对象检测和分割工具，用于提取建筑物表面上具有不同温度分布的特征。热特征的详细分割不仅减少了MRT计算中的潜在错误，而且还提供了室内环境中空间MRT分布的有效重建。我们还使用参考测量方法验证了计算结果。与传统方法相比，这种数据驱动的框架提供更快、更高效的 MRT 测量和空间映射。它可以使研究人员和从业人员直接参与 MRT 测量，并有助于热舒适性和辐射制冷和供暖系统的研究。

REGNet V2：点云中不同尺寸抓取器的基于端到端区域的抓取检测网络

分类： 机器人技术

作者： Binglei Zhao, Han Wang, Jian Tang, Chengzhong Ma, Hanbo Zhang, Jiayuan Zhang, Xuguang Lan, Xingyu Chen

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09431v1

摘要： 多年来，抓取一直是机器人技术中一个至关重要但具有挑战性的问题。最重要的挑战之一是如何使抓取对于新物体以及非结构化环境中的抓手具有通用性和鲁棒性。我们提出\regnet，一种机器人抓取系统，可以适应不同的平行钳口来抓取多样化的物体。为了支持不同的抓取器，\regnet 将抓取器参数嵌入到点云中，并据此预测合适的抓取配置。它包括三个组件：评分网络（SN）、抓取区域网络（GRN）和细化网络（RN）。在第一阶段，SN用于通过抓取置信度分数来过滤适合抓取的点。在第二阶段，GRN 根据选定的点生成一组抓取建议。最后，RN 改进了抓取建议，以实现更准确、更稳健的预测。我们设计一个分析策略来从预测的抓取集中选择要执行的最佳抓取。为了训练 \regnet，我们构建了一个大规模抓取数据集，其中包含使用不同平行爪夹具的无碰撞抓取配置。实验结果表明，采用分析策略的 regnet 在具有 $20$ 对象的现实杂乱场景中实现了最高成功率 $74.98%$，显着优于几种最先进的方法，包括 GPD、PointNetGPD 和S4G。代码和数据集可在 https://github.com/zhaobinglei/REGNet-V2 获取。

ESVO2：使用立体事件摄像机的直接视觉惯性里程计

分类： 计算机视觉和模式识别, 机器人技术

作者： Junkai Niu, Sheng Zhong, Xiuyuan Lu, Shaojie Shen, Guillermo Gallego, Yi Zhou

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09374v1

摘要： 基于事件的视觉里程计是视觉同步定位与建图（SLAM）技术的一个特定分支，旨在通过利用神经形态（即基于事件）相机的特殊工作原理来并行解决跟踪和建图子问题。由于事件数据的运动相关性，很难建立显式数据关联，即大基线视点变化下的特征匹配，这使得直接方法成为更合理的选择。然而，最先进的直接方法受到映射子问题的高计算复杂性和特定旋转自由度（DoF）下相机姿态跟踪的简并性的限制。在本文中，我们通过在之前的直接管道基于事件的立体视觉里程计之上构建基于事件的立体视觉惯性里程计系统来解决这些问题。具体来说，为了加速映射操作，我们提出了一种根据事件的局部动态对轮廓点进行采样的有效策略。通过合并时间立体和静态立体结果，映射性能在结构完整性和局部平滑度方面也得到了改善。为了避免相机姿态跟踪在恢复一般六自由度运动的俯仰和偏航分量时的退化，我们通过预积分引入 IMU 测量作为运动先验。为此，提出了一个紧凑的后端来持续更新 IMU 偏差并预测线速度，从而为相机姿态跟踪提供准确的运动预测。由此产生的系统可以与现代高分辨率事件摄像机很好地扩展，并在大规模户外环境中实现更好的全球定位精度。对五个具有不同分辨率和场景的公开数据集进行了广泛评估，证明所提出的系统相对于五种最先进的方法具有优越的性能。

一种新颖的多步态策略，用于稳定、高效的四足机器人运动

分类： 机器人技术

作者： Daoxun Zhang, Xieyuanli Chen, Zhengyu Zhong, Ming Xu, Zhiqiang Zheng, Huimin Lu

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09336v1

摘要： 受四足动物自然步态转换机制的启发，设计良好的步态转换策略对于四足机器人在各种地形和速度下实现节能运动非常重要。虽然之前的研究已经认识到与速度相关的步态模式会影响两个关键因素，即运输成本（CoT）和机器人运动的稳定性，但只有有限的研究有效地将这些因素结合起来，设计出一种确保效率和稳定性的机制。四足机器人运动稳定性。在本文中，我们提出了一种多步态选择和过渡策略，以实现跨不同地形的稳定有效的运动。我们的策略首先建立考虑 CoT 和运动稳定性的步态映射，以指导运动过程中的步态选择过程。然后，我们通过引入步态参数的仿射变换和设计的有限状态机来构建切换顺序来实现及时的步态切换。我们对不断变化的地形和速度的策略进行了全面的实验，结果表明，在考虑 CoT 和稳定性的情况下，我们提出的策略在实现同步运动效率方面优于基线方法。

基于肘部的生物力学能量采集器的设计和性能评估

分类： 机器人技术, I.2.9

作者： Hubert Huang, Jeffrey Huang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09036v1

摘要： 长期以来，碳排放一直被归因于气候变化的加剧。过去几年，随着气候变化的影响不断升级，人们越来越努力寻找绿色发电替代方案，而发电一直是碳排放的主要贡献者。已出现的一种重要方式是生物力学能量，或基于人类自然运动收集能量。这项研究将评估在肘关节中使用基于齿轮和发电机的生物机械能量收集器发电的可行性。该关节是通过 MediaPipe 使用动力臂分析来选择的，其中肘关节在行走过程中显示出更高的角速度，因此显示出作为构建收割机的更大潜力。腿部关节被排除，以免妨碍日常运动。齿轮和发电机的类型是为了最大限度地提高肘关节的能量产生而确定的。该设备是使用变速箱和发电机构建的。结果表明，使用最佳电阻时，其产生的功率高达 0.16 瓦。这证明了用肘关节齿轮和发电机型生物机械能量采集器发电的可行性。

带小型触觉操纵杆的全向空中机器人的设计与控制用于物理交互

分类： 机器人技术

作者： Julien Mellet, Andrea Berra, Salvatore Marcellini, Miguel Ángel Trujillo Soto, Guillermo Heredia, Fabio Ruggiero, Vincenzo Lippiello

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09003v1

摘要： 过去几年，全驱动空中机器人证明了其在空中物理交互（APhI）方面的优越性。这项工作提出了空中遥控的最小设置，提高了这些技术的可访问性。详细介绍了具有 4-DoF 触觉反馈的 6-DoF 操纵杆的设计和控制。它是首款具有 APhI 标准遥控器 (RC) 外形尺寸的触觉设备。通过触觉装置的小型化，增强了RC的触觉，提高了身体意识。目标是为操作员提供除视觉和声音之外的额外感觉，以帮助执行安全的 APhI。据作者所知，这是第一个能够解耦每个单轴输入命令的远程操作系统。在全向四旋翼飞行器上，通过新设计减少部件数量，我们的目标是简化维护，并提高力和推重比。基于开源物理的模拟和成功的初步飞行测试凸显了该工具在未来 APhI 应用中的前景。

Voxel-SLAM：完整、准确且多功能的激光雷达惯性 SLAM 系统

分类： 机器人技术

作者： Zheng Liu, Haotian Li, Chongjian Yuan, Xiyuan Liu, Jiarong Lin, Rundong Li, Chunran Zheng, Bingyang Zhou, Wenyi Liu, Fu Zhang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08935v1

摘要： 在这项工作中，我们提出了Voxel-SLAM：一个完整、准确、多功能的激光雷达惯性SLAM系统，充分利用短期、中期、长期和多地图数据关联来实现实时估计和预测高精度测绘。该系统由五个模块组成：初始化、里程计、局部映射、闭环和全局映射，所有模块都采用相同的地图表示形式，即自适应体素地图。初始化为后续模块提供了准确的初始状态估计和一致的局部映射，使系统能够以高度动态的初始状态启动。里程计利用短期数据关联，快速估计当前状态并检测潜在的系统偏差。局部映射利用中期数据关联，采用局部 LiDAR 惯性束调整 (BA) 来细化最近 LiDAR 扫描的滑动窗口内的状态（和局部地图）。循环闭合检测当前和所有先前会话中先前访问过的位置。全局映射通过高效的分层全局 BA 来细化全局映射。闭环和全局映射都利用长期和多映射数据关联。我们对来自三个代表性场景的 30 个序列与其他最先进的方法进行了全面的基准比较，包括使用手持设备的狭窄室内环境、使用空中机器人的大规模荒野环境以及车辆平台上的城市环境。其他实验证明了初始化的稳健性和效率、在多个会话中工作的能力以及退化环境中的重新定位。

凸集图规划的隐式图搜索

分类： 机器人技术

作者： Ramkumar Natarajan, Chaoqi Liu, Howie Choset, Maxim Likhachev

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08909v1

摘要： 凸集图（GCS）是一种合成平滑轨迹的最新方法，通过将规划空间分解为凸集，形成一个图来编码分解内的邻接关系，然后同时搜索该图并优化部分轨迹以获得最终的轨迹。为此，必须求解混合整数凸规划 (MICP)，并且为了减少计算时间，GCS 提出了一种在经验上非常严格的凸松弛。尽管存在这种严格的放松，但针对现实世界机器人问题的 GCS 运动规划可转化为解决同时批量优化问题，该问题可能包含数百万个约束，因此速度可能很慢。 GCS 问题的大小对于规划查询来说是不变的，这一事实进一步加剧了这种情况。由于轨迹解仅位于凸集集合的一小部分上，我们提出了两种隐式图搜索方法，用于在凸集图上进行规划，称为 INSATxGCS (IxG) 和 IxG*。交错搜索和轨迹优化 (INSAT) 是一种先前开发的算法，它交替搜索图和优化部分路径以找到平滑轨迹。通过在凸集图上使用隐式图搜索方法 INSAT，我们实现了更快的规划，同时确保更强的完整性和最优性保证。此外，引入基于搜索的技术来规划凸集图，使我们能够轻松利用成熟的技术，例如搜索并行化、惰性规划、随时规划和重新规划作为未来的工作。与 GCS 的数值比较证明了 IxG 在多种应用中的优越性，包括规划 18 自由度多臂装配场景。

动态基准：ADS 性能评估的空间和时间一致性

分类： 机器人技术

作者： Yin-Hsiu Chen, John M. Scanlon, Kristofer D. Kusano, Timothy L. McMurry, Trent Victor

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08903v1

摘要： 部署的 SAE 4+ 级自动驾驶系统 (ADS) 无需人类驾驶员，目前已在美国地面街道上运行的叫车车队中。该技术当前的用例和未来的应用将决定车队运行的地点和时间，这可能会导致特定地点内某些人类基准人口的驾驶分布出现偏差。现有的评估 ADS 绩效的基准仅对 ADS 进行了县级地理匹配，并对撞车率的驾驶暴露进行了基准测试。这项研究提出了一种构建动态人类基准的新颖方法，该基准可以根据 ADS 和整个人类驾驶车队之间驾驶分布的空间和时间变化进行调整。动态基准是使用人类警方报告的碰撞数据、人类车辆行驶里程 (VMT) 数据以及 Waymo 在美国三个县积累的超过 2000 万英里的纯骑手 (RO) 运营数据生成的。空间调整显示，与未调整的基准相比，不同严重程度的调整后碰撞率存在显着差异，其中旧金山高出 10% 至 47%，马里科帕高出 12% 至 20%，低 7% 至高 34%在洛杉矶各县。由于数据可用性，旧金山的时间调整仅限于该地区，导致调整后的事故率比未调整的事故率低 2% 至高 16%，具体取决于严重程度。研究结果强调了在基准分析中调整空间和时间混杂因素的重要性，这最终有助于为 ADS 性能评估制定更公平的基准。

SegGrasp：通过语义和几何引导分割进行零射击、面向任务的抓取

分类： 机器人技术

作者： Haosheng Li, Weixin Mao, Weipeng Deng, Chenyu Meng, Rui Zhang, Fan Jia, Tiancai Wang, Haoqiang Fan, Hongan Wang, Xiaoming Deng

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08901v1

摘要： 面向任务的抓取涉及根据物体的功能抓取物体的特定部分，这对于开发能够在动态环境中执行复杂任务的先进机器人系统至关重要。在本文中，我们提出了一种免训练框架，该框架结合了语义和几何先验，用于零样本任务导向的掌握生成。所提出的框架 SegGrasp 首先利用 GLIP 等视觉语言模型进行粗分割。然后，它使用凸分解中的详细几何信息，通过名为 GeoFusion 的融合策略来提高分割质量。有效的抓取姿势可以通过具有改进的分割的抓取网络生成。我们在分割基准和现实世界的机器人抓取上进行了实验。实验结果表明，SegGrasp 在抓取和分割性能方面超越基线 15% 以上。

戏剧：Mamba 支持的基于模型的强化学习样本和参数高效

分类： 机器学习, 人工智能, 机器人技术

作者： Wenlong Wang, Ivana Dusparic, Yucheng Shi, Ke Zhang, Vinny Cahill

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08893v1

摘要： 基于模型的强化学习 (RL) 为困扰大多数无模型 RL 算法的数据效率低下提供了解决方案。然而，学习鲁棒的世界模型通常需要复杂而深入的架构，而这些架构的计算和训练成本很高。在世界模型中，动力学模型对于准确预测尤其重要，并且已经探索了各种动力学模型架构，每种架构都有自己的挑战。目前，基于循环神经网络（RNN）的世界模型面临着梯度消失和难以有效捕获长期依赖关系等问题。相比之下，使用 Transformer 会遇到众所周知的自注意力机制问题，其中内存和计算复杂度都为 $O(n^2)$，其中 $n$ 表示序列长度。为了应对这些挑战，我们提出了一种基于状态空间模型 (SSM) 的世界模型，特别是基于 Mamba，它实现了 $O(n)$ 内存和计算复杂性，同时有效捕获长期依赖性并促进有效使用较长的训练序列。我们还引入了一种新颖的采样方法，以减轻训练早期阶段不正确的世界模型导致的次优性，并将其与上述技术相结合，以实现与其他最先进的基于模型的 RL 算法相当的归一化分数仅使用 700 万个可训练参数的世界模型。该模型易于访问，并且可以在现成的笔记本电脑上进行训练。我们的代码可在 https://github.com/realwenlongwang/drama.git 获取。

保形交互式模仿学习：处理专家轮班和间歇反馈

分类： 机器人技术, 人工智能, 人机交互, 机器学习

作者： Michelle Zhao, Reid Simmons, Henny Admoni, Aaditya Ramdas, Andrea Bajcsy

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08852v1

摘要： 在交互式模仿学习（IL）中，不确定性量化为学习者（即机器人）提供了一种通过主动在线寻求专家（即人类）的额外反馈来应对部署过程中遇到的分布变化的方法。当黑盒 IL 政策不确定时，先前的工作使用集成分歧或蒙特卡洛退出等机制来量化；然而，当面临部署时间分布变化时，这些方法可能会导致过度自信的估计。相反，我们认为我们需要不确定性量化算法，该算法可以利用在部署期间收到的专家人类反馈来在线调整机器人的不确定性。为了解决这个问题，我们利用在线共形预测，这是一种在给定地面实况标签流的情况下在线构建预测区间的无分布方法。然而，在交互式 IL 设置中，人类标签是间歇性的。因此，从保形预测方面，我们引入了一种称为间歇分位数跟踪（IQT）的新型不确定性量化算法，该算法利用间歇标签的概率模型，保持渐近覆盖保证，并凭经验实现所需的覆盖水平。从交互式 IL 方面，我们开发了 ConformalDAgger，这是一种新方法，其中机器人使用 IQT 校准的预测间隔作为部署时间不确定性的可靠度量，以主动查询更多专家反馈。我们将 ConformalDAgger 与之前的不确定性感知 DAgger 方法进行了比较，在这种情况下，由于专家策略的变化而出现（或不出现）分布变化。我们发现，在 7DOF 机器人操纵器上的模拟和硬件部署中，ConformalDAgger 在专家移动时检测到高度不确定性，并与基线相比增加了干预次数，从而使机器人能够更快地学习新行为。

基于可供区和人体示范的学习空间双手动作模型

分类： 机器人技术

作者： Björn S. Plonka, Christian Dreher, Andre Meixner, Rainer Kartmann, Tamim Asfour

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08848v1

摘要： 在本文中，我们提出了一种新方法，通过提取所涉及对象的可供性区域之间的空间约束（称为可供性约束）来从人类演示中学习双手操作动作。可供性区域被定义为向代理提供交互可能性的对象部分。例如，瓶子的底部提供了要放置在表面上的物体，而其喷嘴则提供了要倒出的液体。我们提出了一种新方法来学习人类演示中可供性约束的变化，以构建表示对象交互的空间双手动作模型。为了利用这些空间双手动作模型中编码的信息，我们制定了一个优化问题，以确定跨多个执行关键点的最佳对象配置，同时考虑初始场景、学习到的可供性约束和机器人的运动学。我们通过两个示例任务（倒饮料和擀面团）评估模拟方法，并比较可供性约束的三种不同定义：（i）笛卡尔空间中可供性区域之间的组件距离，（ii）可供性区域之间的组件距离在圆柱形空间中，以及（iii）手动定义的符号空间可供性约束的满意度。

已售：使用以槽对象为中心的潜在动态进行强化学习

分类： 机器学习, 人工智能, 机器人技术

作者： Malte Mosbach, Jan Niklas Ewertz, Angel Villar-Corrales, Sven Behnke

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08822v1

摘要： 学习潜在动力学模型提供了代理对其环境的理解的与任务无关的表示。利用这些知识进行基于模型的强化学习，通过在想象中的部署中进行学习，有可能比无模型方法提高样本效率。此外，由于潜在空间作为行为模型的输入，世界模型学习到的信息表示有助于有效学习所需技能。大多数现有方法依赖于环境状态的整体表示。相比之下，人类对物体及其相互作用进行推理，预测行为将如何影响周围环境的特定部分。受此启发，我们提出了 Slot-Attention for Object-centric Latent Dynamics (SOLD)，这是一种新颖的算法，可以从像素输入中以无监督的方式学习以对象为中心的动态模型。我们证明，结构化的潜在空间不仅提高了模型的可解释性，而且还为行为模型的推理提供了宝贵的输入空间。我们的结果表明，在评估关系推理和低级操作能力的一系列基准机器人环境中，SOLD 的性能优于 DreamerV3（一种最先进的基于模型的 RL 算法）。视频可在 https://slot-latent-dynamics.github.io/ 获取。

DCNet：DVL 的数据驱动框架

分类： 机器人技术, 人工智能

作者： Zeev Yampolsky, Itzik Klein

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08809v1

摘要： 自主水下航行器 (AUV) 是用于多种应用的水下机器人平台。 AUV 的导航解决方案在很大程度上依赖于惯性传感器和多普勒速度计程仪 (DVL) 的融合，后者可提供准确的速度更新。为了确保精确导航，在任务开始估计其误差项之前进行 DVL 校准。在校准过程中，AUV 遵循复杂的轨迹并采用非线性估计滤波器来估计误差项。在本文中，我们介绍了 DCNet，这是一种以创新方式利用二维卷积核的数据驱动框架。使用 DCNet 和我们提出的 DVL 误差模型，我们提供快速校准程序。这可以应用于几乎恒定速度的轨迹。为了训练和测试我们提出的方法，使用了 276 分钟长的数据集，其中包含真实的 DVL 记录测量值。我们证明，与基线方法相比，使用低性能 DVL 的准确度平均提高了 70%，校准时间平均提高了 80%。由于这些改进，采用低成本 DVL 的 AUV 可以实现更高的精度、更短的校准时间，并应用简单的近乎恒定速度的校准轨迹。我们的研究结果还为利用低成本、高精度 DVL 的海洋机器人技术开辟了新的应用。

MEMROC：多眼到移动机器人校准

分类： 机器人技术

作者： Davide Allegro, Matteo Terreran, Stefano Ghidoni

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08805v1

摘要： 本文介绍了 MEMROC（多眼移动机器人校准），这是一种基于运动的新型校准方法，可简化相对于移动机器人参考系精确校准多个摄像机的过程。 MEMROC 利用已知的校准模式，以便在优化过程中以较少数量的图像进行精确校准。此外，它利用强大的地平面检测进行全面的 6-DoF 外在校准，克服了许多难以估计完整相机位姿的现有方法的关键限制。所提出的方法解决了动态环境中频繁重新校准的需求，在动态环境中，由于日常使用、操作调整或移动机器人运动的振动，摄像机可能会轻微移动或改变其位置。 MEMROC 对嘈杂的里程计数据表现出卓越的鲁棒性，需要最少的校准输入数据。这种组合使其非常适合涉及移动机器人的日常操作。对合成数据和真实数据进行的一系列综合实验证明了 MEMROC 的效率，在准确性、稳健性和易用性方面超越了现有的最先进方法。为了便于进一步研究，我们已在 https://github.com/davidea97/MEMROC.git 上公开提供我们的代码。

VLM 看，机器人做：通过视觉语言模型将人类演示视频转换为机器人行动计划

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Beichen Wang, Juexiao Zhang, Shuwen Dong, Irving Fang, Chen Feng

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08792v1

摘要： 视觉语言模型（VLM）最近因其常识推理和泛化能力而被机器人技术采用。现有工作已应用 VLM 根据自然语言指令生成任务和运动规划，并模拟机器人学习的训练数据。在这项工作中，我们探索使用 VLM 来解释人类演示视频并生成机器人任务规划。我们的方法将关键帧选择、视觉感知和 VLM 推理集成到管道中。我们将其命名为 SeeDo，因为它使 VLM 能够“看到”人类演示并向机器人解释相应的计划以供其“执行”。为了验证我们的方法，我们收集了一组长期人类视频，展示了三个不同类别的拾取和放置任务，并设计了一组指标，以根据多个基准（包括最先进的视频）对 SeeDo 进行全面基准测试。输入 VLM。实验证明了 SeeDo 的卓越性能。我们进一步在模拟环境和真实的机器人手臂上部署生成的任务计划。

用于离散化 2D 连续环境的传感器放置问题的混合过滤启发式

分类： 机器人技术, 计算几何

作者： Jan Mikula, Miroslav Kulich

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08784v1

摘要： 本文在将大型、复杂的连续二维环境离散化为图形的背景下解决了传感器放置问题（SPP），以实现高效的面向任务的路线规划。 SPP 旨在最大限度地减少实现用户定义的覆盖率所需的传感器数量，同时考虑通用可见性模型。我们提出了混合过滤启发式（HFH）框架，该框架增强或组合了现有传感器放置方法的输出，并结合了过滤步骤。此步骤消除了冗余传感器或对覆盖范围影响很小的传感器，确保覆盖率保持在所需的区间内。我们实现了 HFH 的两个版本：基本版本和变体 HFHB，它结合了称为分桶的预处理技术来加速区域裁剪。我们在大型、复杂的多边形环境数据集上评估 HFH 和 HFHB，并将它们与无限和有限范围全向可见性模型下的几种基线方法进行比较。结果表明，在实现所需覆盖率所需的传感器数量方面，HFH 和 HFHB 优于基线。此外，HFHB 显着缩短了更具竞争力的基线方法的运行时间。我们还将 HFHB 适应具有本地化不确定性的可见性模型，证明其在一定程度的不确定性下的有效性。

使用轨迹平滑度约束优化基于 NeRF 的 SLAM

分类： 机器人技术

作者： Yicheng He, Guangcheng Chen, Hong Zhang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08780v1

摘要： 神经辐射场（NeRF）和相机轨迹的联合优化由于其卓越的密集建图质量和一致性而在 SLAM 任务中得到了广泛的应用。基于 NeRF 的 SLAM 通过隐式地图表示使用约束来学习相机姿势。由于这种形式的约束而导致的一个广泛观察到的现象是估计的相机运动不稳定且物理上不切实际，这反过来又影响了地图质量。为了解决当前基于 NeRF 的 SLAM 的这一缺陷，我们在本文中提出了 TS-SLAM（TS for Trajectory Smoothness）。它通过使用具有连续加速度的均匀三次 B 样条曲线来表示相机轨迹，从而引入平滑度约束，以保证相机运动的平滑。受益于 B 样条的可微性和局部控制特性，TS-SLAM 可以使用滑动窗口范例增量地端到端地学习控制点。此外，我们在进一步平滑轨迹之前利用动力学来规范相机轨迹。实验结果表明，与不采用上述平滑度约束的基于 NeRF 的 SLAM 相比，TS-SLAM 实现了卓越的轨迹精度并提高了建图质量。

TřiVis：用于计算多边形环境中可见性的多功能、可靠且高性能的工具

分类： 机器人技术, 计算几何

作者： Jan Mikula, Miroslav Kulich

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08752v1

摘要： 可见性是计算几何中的一个基本概念，在机器人、监控系统、视频游戏和其他领域有着广泛的应用。本软件论文介绍了 T\v{r}iVis，这是作者开发的一个 C++ 库，用于在高度复杂的多边形环境中计算大量与可见性相关的查询。 T\v{r}iVis 采用三角展开算法 (TEA)，作为当前解决方案的通用、高性能、更可靠且易于使用的替代方案而脱颖而出，而且没有严重的依赖性。通过对具有挑战性的数据集进行评估，T\v{r}iVis 已针对现有可见性库进行了基准测试。结果表明，T\v{r}iVis 在查询时间上比竞争解决方案至少高出一个数量级，同时表现出更可靠的运行时行为。 T\v{r}iVis 可免费供私人、研究和机构使用，网址为 https://github.com/janmikulacz/trivis。

使用全向相机的仿生可重构机器人立体视觉

分类： 机器人技术

作者： Suchang Chen, Dongliang Fan, Huijuan Feng, Jian S Dai

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08691v1

摘要： 这项工作介绍了一种用于机器人的新型仿生可重构立体视觉系统，利用全向相机和新颖的算法来实现灵活的视觉功能。受各种物种自适应视觉的启发，我们的视觉系统通过向机器人引入可重新配置的立体视觉系统，解决了传统立体视觉的局限性，即不可改变的相机与狭窄视场的对齐。我们的主要创新包括允许动态相机对准的可重构立体视觉策略、利用非校正几何方法与深度神经网络相结合进行特征匹配的稳健深度测量系统，以及提高视觉精度的几何补偿技术。该视觉系统在变形机器人上实现，通过切换316{\deg}单目与79{\deg}双目视野的配置以实现快速目标搜索，以及242{\deg}单目与150{\deg}视野的配置，展示了其对各种场景的强大适应性。 deg} 双目视场进行详细的近距离检查。

SmartPretrain：用于运动预测的模型无关和数据集无关表示学习

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Yang Zhou, Hao Shao, Letian Wang, Steven L. Waslander, Hongsheng Li, Yu Liu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08669v1

摘要： 预测周围智能体的未来运动对于自动驾驶汽车 (AV) 在动态的人机混合环境中安全运行至关重要。然而，大规模驾驶数据集的稀缺阻碍了稳健且可推广的运动预测模型的开发，限制了它们捕获复杂交互和道路几何形状的能力。受自然语言处理 (NLP) 和计算机视觉 (CV) 最新进展的启发，自监督学习 (SSL) 由于学习丰富且可转移的场景表示而在运动预测社区中获得了极大的关注。尽管如此，现有的运动预测预训练方法主要集中在特定的模型架构和单个数据集上，限制了它们的可扩展性和通用性。为了应对这些挑战，我们提出了 SmartPretrain，这是一种通用且可扩展的 SSL 运动预测框架，它与模型和数据集无关。我们的方法集成了对比和重构 SSL，利用生成范式和判别范式的优势来有效地表示时空演化和交互，而无需施加架构限制。此外，SmartPretrain 采用与数据集无关的场景采样策略，集成了多个数据集，增强了数据量、多样性和鲁棒性。对多个数据集的广泛实验表明，SmartPretrain 能够持续提高跨数据集、数据分割和主要指标的最先进预测模型的性能。例如，SmartPretrain 将 Forecast-MAE 的 MissRate 显着降低了 10.6%。这些结果凸显了 SmartPretrain 作为统一、可扩展的运动预测解决方案的有效性，突破了小数据机制的限制。代码可在 https://github.com/youngzhou1999/SmartPretrain 获取

FRASA：用于人形机器人跌倒恢复和站立的端到端强化学习代理

分类： 机器人技术

作者： Clément Gaspard, Marc Duclusaud, Grégoire Passault, Mélodie Daniel, Olivier Ly

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08655v1

摘要： 人形机器人在动态环境中实现稳定运动和从跌倒中恢复方面面临着重大挑战。模型预测控制 (MPC) 和基于关键帧 (KFB) 等传统方法要么需要大量微调，要么缺乏实时适应性。本文介绍了 FRASA，这是一种深度强化学习 (DRL) 代理，它将跌倒恢复和站立策略集成到一个统一的框架中。利用 Cross-Q 算法，FRASA 显着减少了训练时间，并提供了适应不可预测干扰的多功能恢复策略。对 Sigmaban 人形机器人的对比测试表明，FRASA 的性能优于儿童联盟世界冠军 Rhoban Team 在 2023 年 RoboCup 上部署的 KFB 方法。

从体操到虚拟非完整约束：杂技机器人的能量注入、耗散和调节

分类： 机器人技术, 优化与控制

作者： Adan Moran-MacDonald, Manfredi Maggiore, Xingbo Wang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08653v1

摘要： 在本文中，我们研究虚拟非完整约束，它是机械系统的广义坐标和动量之间的关系，可以通过反馈控制来强制执行。我们设计了一个模拟杂技机器人体操巨型运动的约束，并证明该约束可以根据设计参数的符号注入或耗散能量。所提出的约束在现实世界的杂技机器人上进行了模拟和实验测试，展示了高效的能量调节特性和对各种干扰的鲁棒性。

用于伺服执行器物理模拟的扩展摩擦模型

分类： 机器人技术

作者： Marc Duclusaud, Grégoire Passault, Vincent Padois, Olivier Ly

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08650v1

摘要： 准确的物理模拟对于机器人系统控制算法的开发和验证至关重要。强化学习（RL）领域的最新工作显着利用了广泛的模拟来产生高效的机器人控制。最先进的伺服执行器模型通常无法捕捉这些系统的复杂摩擦动力学。这限制了模拟行为到现实世界应用的可转移性。在这项工作中，我们提出了扩展的摩擦模型，可以更准确地模拟伺服执行器动力学。我们提出了对各种摩擦模型的综合分析，提出了一种使用摆锤测试台记录的轨迹来识别模型参数的方法，并演示了如何将这些模型集成到物理引擎中。所提出的摩擦模型在四个不同的伺服执行器上进行了验证，并在 2R 机械臂上进行了测试，结果表明，与标准库仑-粘性模型相比，精度有了显着提高。我们的结果强调了在伺服执行器仿真中考虑高级摩擦效应对于提高机器人仿真的真实性和可靠性的重要性。

制造混乱并侥幸逃脱：旅行推销员杜宾斯车辆圆圈放置问题

分类： 机器人技术

作者： David Woller, Masoumeh Mansouri, Miroslav Kulich

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08627v1

摘要： 本文探讨了旅行推销员问题的一种变体，其中代理在访问每个节点后在每个节点旁边放置一个圆形障碍物。被称为圆形放置的旅行推销员问题（TSP-CP），其目的是最大化存在有效封闭游览的障碍物半径，然后最小化游览成本。 TSP-CP 在各种实际应用中都有相关性，例如采伐、采石和露天采矿。我们提出了几种新颖的求解器来解决 TSP-CP、其为 Dubins 车辆量身定制的变体，以及称为自删除图上的旅行推销员问题 (TSP-SD) 的关键子问题。我们广泛的实验结果表明，所提出的求解器在解决方案质量方面的相关问题优于当前最先进的解决方案。

具有局部驱动和传感的格子结构的数据驱动反馈控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Dominik Fischer, Loi Do, Miana Smith, Jiří Zemánek

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08625v1

摘要： 用离散的构建块组装晶格可以组成大型、异构且易于重新配置的物体，并具有理想的质量刚度比。这种类型的建筑系统也可以称为数字材料，因为它由离散的纠错组件构成。研究人员已经展示了各种主动结构，甚至机器人系统，它们利用了离散晶格结构的可重构、质量高效的特性。然而，现有文献主要使用开环控制策略，限制了所提出系统的性能。在本文中，我们提出了一种利用系统动力学实时测量的数字晶格结构反馈控制的新方法。我们引入了一种驱动体素，它构成了一种驱动晶格结构的新方法。我们的控制方法基于扩展动态模式分解算法以及线性二次调节器和库夫曼模型预测控制。我们的方法的主要优势在于其纯粹的数据驱动性质，不需要任何系统结构的先验知识。我们通过使用定制的柔性晶格梁进行真实实验来说明所开发的方法，展示了即使使用最少的传感和驱动资源也能完成各种任务的能力。特别是，我们解决了两个问题：稳定与干扰衰减以及参考跟踪。

TactileAR：主动触觉模式重建

分类： 机器人技术

作者： Bing Wu, Qian Liu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08619v1

摘要： 高分辨率 (HR) 接触面信息对于机器人抓取和精确操作任务至关重要。然而，当前基于紫杉醇的传感器获取心率触觉信息仍然是一个挑战。在本文中，我们重点关注利用低分辨率 (LR) 触觉传感器来重建接触表面的局部、密集和 HR 表示。特别是，我们建立了高斯三轴触觉传感器退化模型，并提出了基于卡尔曼滤波器的触觉模式重建框架。该框架能够使用收集的 LR 触觉序列重建 2-D HR 接触表面形状。此外，我们提出了积极的探索策略来提高重建效率。我们在现实场景中评估所提出的方法，并与现有的基于先验信息的方法进行比较。实验结果证实了所提出方法的效率，并证明了复杂接触表面形状的令人满意的重建。代码：https://github.com/wmtlab/tactileAR

双 AEB：协同基于规则和多模态大语言模型以实现有效的紧急制动

分类： 机器人技术

作者： Wei Zhang, Pengfei Li, Junli Wang, Bingchuan Sun, Qihao Jin, Guangjun Bao, Shibo Rui, Yang Yu, Wenchao Ding, Peng Li, Yilun Chen

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08616v1

摘要： 自动紧急制动（AEB）系统是确保自动驾驶车辆乘客安全的关键组成部分。传统的AEB系统主要依靠封闭的感知模块来识别交通状况并评估碰撞风险。为了增强 AEB 系统在开放场景中的适应性，我们提出了 Dual-AEB，该系统结合了用于全面场景理解的先进多模态大语言模型 (MLLM) 和传统的基于规则的快速 AEB，以确保快速响应时间。据我们所知，双 AEB 是第一种将 MLLM 纳入 AEB 系统的方法。通过大量的实验，我们验证了我们方法的有效性。源代码可在 https://github.com/ChipsICU/Dual-AEB 获取。

机电线性执行器驱动的可持续并串重型机械手运动学参数的节能设计

分类： 机器人技术, 系统与控制, 系统与控制

作者： Alvaro Paz, Mohammad Bahari, Jouni Mattila

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08600v1

摘要： 电气化是应对气候变化的一项关键战略，正在改变行业，非公路机械 (OHM) 将从内燃机和液压驱动过渡到可持续的全电气化机械。机电线性执行器 (EMLA) 提供卓越的效率、安全性和减少的维护，并释放高性能自主操作的巨大潜力。然而，一个关键的挑战在于优化 OHM 机载机械手的运动学参数以进行 EMLA 集成，以充分利用驱动系统的功能并最大限度地提高其性能。这项工作通过深入研究 OHM 机械臂中常用的闭合运动链配置的结构优化来解决这一挑战。我们的方法旨在保留机械手的现有功能，同时减少其能源消耗，为工业自动化的绿色未来铺平道路，在这个未来中，可持续和高性能的机器人化 OHM 可以不断发展。我们的方法的可行性通过安装在电池电动汽车上的市售并行串行重型机械手上获得的模拟结果得到验证。结果证明了我们的方法在修改运动学参数方面的有效性，以促进用 EMLA 替换传统液压执行器，同时最大限度地减少系统的总体能耗。

通过环境预测增强机器人规划和感知

分类： 机器人技术

作者： Vishnu Dutt Sharma

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08560v1

摘要： 移动机器人依靠地图在环境中导航。在没有任何地图的情况下，机器人必须在环境中移动时根据部分观察在线构建地图。传统方法仅使用直接观察来构建地图。相比之下，人类会识别观察到的环境中的模式，并对未来的预期做出明智的猜测。由于环境的复杂性，对这些模式进行显式建模非常困难。然而，使用基于学习的方法结合大量训练数据可以很好地近似这些复杂模型。通过提取模式，机器人可以利用对前方情况的直接观察和预测来更好地导航未知环境。在本论文中，我们提出了几种基于学习的方法，为移动机器人配备预测能力，以实现高效、安全的操作。在论文的第一部分，我们学习使用环境中的几何和结构模式进行预测。部分观测到的地图为准确预测未观测到的区域提供了宝贵的线索。我们首先展示了基于通用学习的方法为各种俯视图模式对这些模式进行建模的能力。然后，我们通过预测附近区域的 2D 占用情况，采用特定于任务的学习来在室内环境中实现更快的导航。这个想法进一步扩展到用于对象重建的 3D 点云表示。我们的方法仅从部分视图预测整个对象的形状，为高效的次佳视图规划铺平了道路。在论文的第二部分，我们学习使用环境中的时空模式进行预测。我们专注于动态任务，例如目标跟踪和覆盖，寻求机器人之间的分散协调。我们首先展示如何使用图神经网络进行更具可扩展性和更快的推理。

空中机器人团队的分散式不确定性感知主动搜索

分类： 机器人技术

作者： Wennie Tabib, John Stecklein, Caleb McDowell, Kshitij Goel, Felix Jonathan, Abhishek Rathod, Meghan Kokoski, Edsel Burkholder, Brian Wallace, Luis Ernesto Navarro-Serment, Nikhil Angad Bakshi, Tejus Gupta, Norman Papernick, David Guttendorf, Erik E. Kahn, Jessica Kasemer, Jesse Holdaway, Jeff Schneider

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08507v1

摘要： 快速搜救对于最大限度地提高自然灾害后的生存率至关重要。然而，这些努力面临着以下挑战：需要搜索大片灾区、通信基础设施缺乏可靠性以及先验未知数量的感兴趣对象（OOI），例如受伤的幸存者。由于空中机器人具有高机动性，越来越多地被部署用于搜索和救援，但在部署多机器人自主空中系统以对大型环境进行系统搜索方面仍然存在差距。先前的工作依赖于人类操作员的预编程路径或仅在模拟中进行评估。我们通过开发和演示分散式主动搜索系统来弥补现有技术中的这些差距，该系统会偏向其轨迹以对不确定的 OOI 采取额外的观点。该方法利用随机性在通信被拒绝的情况下快速覆盖。当通信可用时，机器人共享姿势、目标和 OOI 信息以加快搜索速度。为了验证该方法，我们在俄亥俄州布卢明代尔进行了广泛的模拟和硬件实验。结果表明，主动搜索方法在通信被拒绝的场景中优于基于覆盖的贪婪规划，同时在通信启用的场景中保持可比较的性能。

CoHRT：人机团队合作的协作系统

分类： 机器人技术, 人机交互

作者： Sujan Sarker, Haley N. Green, Mohammad Samin Yasar, Tariq Iqbal

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08504v1

摘要： 协作机器人越来越多地与人类一起部署在工厂、医院、学校和其他领域，以增强团队合作和效率。需要将人类和机器人无缝集成到有凝聚力的团队中以协调和高效执行任务的系统，从而能够研究机器人协作策略如何影响团队绩效以及队友感知的公平性、信任和安全性。这样的系统还可以用于研究机器人的规范行为对团队协作的影响。此外，它还可以调查机器人行为的易读性和可预测性如何影响人机团队合作以及感知的安全性和信任。现有的系统是有限的，通常涉及一个人和一个机器人，因此需要更深入地了解更广泛的团队动态。许多人依赖游戏或虚拟模拟，忽略了机器人物理存在的影响。大多数任务都是回合制的，阻碍了同时执行并影响效率。本文介绍了CoHRT（人机团队协作系统），它通过无缝协作、协调和沟通促进多人机团队合作。 CoHRT 利用基于服务器-客户端的架构、基于视觉的系统来跟踪任务环境，以及用于团队行动协调的简单界面。它允许在设计任务时考虑人类队友的身体和精神工作量以及团队成员的不同技能标签。我们使用 CoHRT 在一个由 Franka Emika Panda 机器人和两个人类组成的团队中设计了一个协作块操作和拼图解决任务。该系统能够记录多模式协作数据，以便为机器人制定自适应协作策略。为了进一步利用 CoHRT，我们概述了各种人机协作任务的潜在研究方向。

通过语义拓扑度量表示引导的大语言模型推理进行空中视觉和语言导航

分类： 机器人技术, 人工智能

作者： Yunpeng Gao, Zhigang Wang, Linglin Jing, Dong Wang, Xuelong Li, Bin Zhao

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08500v1

摘要： 空中视觉和语言导航（VLN）是一项新颖的任务，使无人机（UAV）能够通过自然语言指令和视觉提示在室外环境中进行导航。由于室外航空场景中复杂的空间关系，这仍然具有挑战性。在本文中，我们提出了一种用于空中 VLN 任务的端到端零样本框架，其中引入大语言模型（LLM）作为我们的动作预测代理。具体来说，我们开发了一种新颖的语义拓扑度量表示（STMR）来增强大语言模型的空间推理能力。这是通过提取地标的与指令相关的语义掩码并将其投影到包含周围地标的位置信息的自上而下的地图中来实现的。此外，该图被转换为具有距离度量的矩阵表示作为LLM的文本提示，以根据指令进行动作预测。在真实和模拟环境中进行的实验成功证明了我们方法的有效性和鲁棒性，在 AerialVLN-S 数据集上的 Oracle 成功率 (OSR) 分别实现了 15.9% 和 12.5% 的提高（绝对）。

自动驾驶中边缘情况检测的系统回顾：方法、挑战和未来方向

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Saeed Rahmani, Sabine Rieder, Erwin de Gelder, Marcel Sonntag, Jorge Lorente Mallada, Sytze Kalisvaart, Vahid Hashemi, Simeon C. Calvert

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08491v1

摘要： 自动驾驶汽车 (AV) 的快速发展有望通过提高安全性和效率来彻底改变交通运输。然而，确保它们在各种现实条件下的可靠性仍然是一项重大挑战，特别是由于被称为边缘情况的罕见和意外情况。尽管存在多种检测边缘情况的方法，但明显缺乏系统审查这些技术的全面调查。本文通过对边缘情况检测和评估方法进行实用的、层次化的审查和系统分类来填补这一空白。我们的分类分为两个层次：首先，根据自动驾驶模块对检测方法进行分类，包括与感知相关和与轨迹相关的边缘情况；其次，基于指导这些技术的基本方法和理论。我们通过引入一种称为“知识驱动”方法的新类别来扩展这种分类法，这种方法在文献中很大程度上被忽视了。此外，我们回顾了评估边缘情况检测方法和识别的边缘情况的技术和指标。据我们所知，这是第一个全面涵盖所有 AV 子系统的边缘情况检测方法、讨论知识驱动的边缘情况并探索检测方法评估技术的调查。这种结构化和多方面的分析旨在促进自动驾驶汽车的针对性研究和模块化测试。此外，通过确定各种方法的优缺点并讨论挑战和未来方向，本次调查旨在帮助自动驾驶开发人员、研究人员和政策制定者通过有效的边缘情况检测来增强自动驾驶（AD）系统的安全性和可靠性。

ARCap：通过增强现实反馈收集高质量的机器人学习人类演示

分类： 机器人技术, 人工智能

作者： Sirui Chen, Chen Wang, Kaden Nguyen, Li Fei-Fei, C. Karen Liu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08464v1

摘要： 人类演示模仿学习的最新进展在教授机器人操作技能方面取得了可喜的成果。为了进一步扩大训练数据集，最近的工作开始使用便携式数据收集设备，而不需要物理机器人硬件。然而，由于在数据收集过程中缺乏机器人反馈，数据质量在很大程度上取决于用户的专业知识，并且许多设备仅限于特定的机器人实施例。我们提出 ARCap，一种便携式数据收集系统，通过增强现实 (AR) 和触觉警告提供视觉反馈，指导用户收集高质量的演示。通过广泛的用户研究，我们表明 ARCap 使新手用户能够收集与机器人运动学相匹配的机器人可执行数据，并避免与场景发生碰撞。利用 ARCap 收集的数据，机器人可以执行具有挑战性的任务，例如在杂乱环境中进行操作和长视界跨实体操作。 ARCap完全开源，易于校准；所有组件均采用现成产品构建。更多详细信息和结果可以在我们的网站上找到：https://stanford-tml.github.io/ARCap

AdvDiffuser：通过引导扩散生成对抗性安全关键驾驶场景

分类： 机器学习, 机器人技术

作者： Yuting Xie, Xianda Guo, Cong Wang, Kunhua Liu, Long Chen

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08453v1

摘要： 安全关键场景在自然驾驶环境中并不常见，但对于自动驾驶系统的训练和测试具有重要意义。流行的方法是通过对自然环境进行对抗性调整，在模拟中自动生成安全关键场景。这些调整通常是针对特定的测试系统量身定制的，从而忽略了它们在不同系统之间的可转移性。在本文中，我们提出了 AdvDiffuser，这是一种通过引导扩散生成安全关键驾驶场景的对抗框架。通过结合扩散模型来捕获背景车辆的合理集体行为和轻量级引导模型来有效处理对抗场景，AdvDiffuser 促进了可转移性。 nuScenes 数据集上的实验结果表明，经过离线驾驶日志训练的 AdvDiffuser 可以应用于具有最少预热数据的各种测试系统，并且在真实性、多样性和对抗性能方面优于其他现有方法。

CE-MRS：多机器人系统的对比解释

分类： 机器人技术, 人机交互, 多代理系统

作者： Ethan Schneider, Daniel Wu, Devleena Das, Sonia Chernova

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08408v1

摘要： 随着多机器人系统的复杂性不断增加，包含更多数量的机器人、更复杂的任务和更长的时间范围，此类问题的解决方案往往变得过于复杂，以至于人类用户无法完全理解。在这项工作中，我们引入了一种生成自然语言解释的方法，该方法可以向用户证明系统解决方案的有效性，或者帮助用户纠正导致次优系统解决方案的任何错误。为了实现这一目标，我们首先为多机器人系统提供一种可推广的对比解释形式，然后引入一种整体方法来为多机器人场景生成对比解释，该方法有选择地结合来自多机器人任务分配、调度和运动的数据。计划解释系统行为。通过与人类操作员的用户研究，我们证明我们的集成对比解释方法可以显着提高用户识别和解决系统错误的能力，从而显着提高整体多机器人团队的绩效。

在风道中飞行

分类： 机器人技术, 神经和进化计算

作者： Thomas Martin, Adrien Guénard, Vladislav Tempez, Lucien Renaud, Thibaut Raharijaona, Franck Ruffier, Jean-Baptiste Mouret

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08379v1

摘要： 空气管道是现代建筑不可或缺的一部分，但进入检查却很困难。小型四旋翼无人机提供了一个潜在的解决方案，因为它们可以在水平和垂直区域导航并平稳地飞越碎片。然而，由于旋翼产生的气流会在风道内再循环并使无人机不稳定，因此在风道内悬停会出现问题，而悬停是许多检查任务的关键特征。在本文中，我们使用机器人设置和力/扭矩传感器绘制了影响管道中悬停无人机的空气动力。根据收集到的空气动力学数据，我们确定了稳定飞行的推荐位置，该位置对应于圆形管道的底部三分之一。然后，我们开发了一种基于神经网络的定位系统，该系统利用低成本的飞行时间传感器。通过结合这些空气动力学见解和数据驱动的定位系统，我们证明小型四旋翼无人机（此处为 180 毫米）可以在直径为 350 毫米的小型风道内悬停和飞行。这些结果为无人机开辟了一个新的、有前景的应用领域。

我们准备好在自动驾驶中进行实时 LiDAR 语义分割了吗？

分类： 机器人技术, 计算机视觉和模式识别

作者： Samir Abou Haidar, Alexandre Chariot, Mehdi Darouich, Cyril Joly, Jean-Emmanuel Deschaud

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08365v1

摘要： 在自主移动和机器人系统的感知框架中，通常由 LiDAR 生成的 3D 点云的语义分析是许多应用的关键，例如对象检测和识别以及场景重建。场景语义分割可以通过直接将 3D 空间数据与专门的深度神经网络集成来实现。尽管此类数据提供了有关周围环境的丰富几何信息，但它也带来了许多挑战：其非结构化和稀疏性、不可预测的大小以及苛刻的计算要求。这些特征阻碍了实时语义分析，特别是在构成众多机器人应用程序的主要计算组件的资源受限的硬件架构上。因此，在本文中，我们研究了各种 3D 语义分割方法，并分析了它们在嵌入式 NVIDIA Jetson 平台上进行资源受限推理的性能和功能。我们通过标准化训练协议和数据增强对它们进行评估，以便进行公平比较，并提供 Jetson AGX Orin 和 AGX Xavier 系列上两个大型户外数据集：SemanticKITTI 和 nuScenes 的基准结果。

使用控制李亚普诺夫和屏障函数进行安全且动态可行的运动规划

分类： 机器人技术, 系统与控制, 系统与控制, 优化与控制

作者： Pol Mestres, Carlos Nieto-Granda, Jorge Cortés

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08364v1

摘要： 本文考虑了为控制仿射系统设计运动规划算法的问题，该算法生成从初始到最终目的地的无碰撞路径，并且可以使用安全且动态可行的控制器来执行。我们引入了 C-CLF-CBF-RRT 算法，该算法生成具有此类属性的路径，并利用快速探索随机树 (RRT)、控制李雅普诺夫函数 (CLF) 和控制屏障函数 (CBF)。我们证明了 C-CLF-CBF-RRT 对于各种不同的动力学和障碍物来说具有计算效率，并建立了其概率完整性。我们展示了 C-CLF-CBF-RRT 在不同仿真和硬件实验中的性能。

DTactive：具有主动表面的基于视觉的触觉传感器

分类： 机器人技术

作者： Jikai Xu, Lei Wu, Changyi Lin, Ding Zhao, Huazhe Xu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08337v1

摘要： 基于视觉的触觉传感器的发展显着增强了机器人的感知和操纵能力，特别是对于需要与物体进行丰富接触交互的任务。在这项工作中，我们推出了 DTactive，这是一种具有主动表面的新型基于视觉的触觉传感器。 DTactive继承并修改了DTact的触觉3D形状重建方法，同时集成了机械传动机制，有利于其表面的移动性。由于这种设计，传感器能够同时执行触觉感知和表面运动的手动操作。利用传感器的高分辨率触觉图像和传动机构的磁性编码器数据，我们提出了一种基于学习的方法，可以在手动操作期间实现精确的角轨迹控制。在我们的实验中，我们成功地对各种物体实现了[ -180{\deg},180{\deg} ]范围内的精确滚动操纵，且期望角度轨迹与实际角度轨迹之间的均方根误差小于12{ \deg} 在 9 个经过训练的对象上，在 3 个新对象上小于 19{\deg}。结果证明了 DTactive 在手持物体操作方面的有效性、鲁棒性和精度方面的潜力。

使用凸运动松弛和动态优化引导无碰撞人形多接触运动

分类： 机器人技术

作者： Carlos Gonzalez, Luis Sentis

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08335v1

摘要： 人形机器人依靠多接触规划器来导航各种不同的环境，包括那些非结构化和高度受限的环境。为了在合理的时间范围内合成稳定的多接触计划，大多数规划者假设静态稳定运动或依赖降阶模型。然而，这些方法也可能使问题在存在大型障碍物或接近运动学和动态极限时变得不可行。为此，我们提出了一种新的多接触框架，该框架利用将无碰撞路径规划放松为凸优化问题的最新进展，将其扩展到适用于人形多接触导航。我们的方法生成近乎可行的轨迹，用作动态轨迹优化器的指南，完全解决了上述限制。我们评估了我们的计算方法，展示了三个不同大小的人形机器人使用我们提出的模拟框架穿过高高的海军膝门。我们的方法可以在几秒钟内生成由多个多接触状态组成的运动计划，包括关节空间的动态可行性。

未知动态耦合力下的模块化自适应空中操纵

分类： 机器人技术

作者： Rishabh Dev Yadav, Swati Dantu, Wei Pan, Sihao Sun, Spandan Roy, Simone Baldi

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08285v1

摘要： 成功的空中操纵很大程度上取决于控制器如何有效地处理飞行器和操纵器之间的耦合动态力。然而，该控制问题在很大程度上仍未得到解决，因为现有的控制方法要么需要飞行器/操纵器惯性耦合的精确知识，要么忽略了状态相关的不确定性，特别是在交互阶段出现的不确定性。这项工作提出了一种自适应控制解决方案，以克服这一长期存在的控制挑战，而无需任何耦合动态项的先验知识。此外，与现有的自适应控制解决方案相比，所提出的控制框架是模块化的，也就是说，它允许独立调整车辆位置子动力学、车辆姿态子动力学和机械臂子动力学的自适应增益。通过分析得出所提出方案下闭环的稳定性，并且实时实验验证了所提出方案相对于最先进方法的有效性。

FusionSense：连接常识、视觉和触觉，实现稳健的稀疏视图重建

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 图形, I.4.5; I.4.8

作者： Irving Fang, Kairui Shi, Xujin He, Siqi Tan, Yifan Wang, Hanwen Zhao, Hung-Jui Huang, Wenzhen Yuan, Chen Feng, Jing Zhang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08282v1

摘要： 人类毫不费力地将常识知识与视觉和触觉的感官输入相结合，以了解周围的环境。为了模拟这种能力，我们引入了 FusionSense，这是一种新颖的 3D 重建框架，使机器人能够将基础模型的先验与来自视觉和触觉传感器的高度稀疏的观察融合起来。 FusionSense 解决了三个关键挑战：（i）机器人如何有效地获取有关周围场景和物体的强大的全局形状信息？ (ii) 机器人如何利用几何和常识先验策略性地选择物体上的接触点？ (iii) 触觉信号等局部观察如何改善对象的整体表征？我们的框架采用 3D Gaussian Splatting 作为核心表示，并结合了涉及全局结构构建、对象视觉外壳修剪和局部几何约束的分层优化策略。这一进步可以在传统上具有挑战性的透明、反射或黑暗物体的环境中实现快速、稳健的感知，从而实现更多的下游操纵或导航任务。对现实世界数据的实验表明，我们的框架优于以前最先进的稀疏视图方法。所有代码和数据均在项目网站上开源。

ROMAN：用于鲁棒视图不变全局本地化的开放集对象映射对齐

分类： 机器人技术

作者： Mason B. Peterson, Yi Xuan Jia, Yulun Tian, Annika Thomas, Jonathan P. How

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08262v1

摘要： 全球定位是长期、无漂移机器人导航所需的基本能力。然而，当前的方法在面对明显不同的观点时无法重新定位。我们提出了 ROMAN（Robust Object Map Alignment Anywhere），这是一种强大的全局定位方法，能够基于创建和对齐开放集和视图不变对象的地图，在具有挑战性和多样化的环境中进行本地化。为了解决由特征稀疏或感知别名环境引起的定位困难，ROMAN 使用统一的图论全局数据关联方法来制定并解决对象子图之间的配准问题，该方法同时考虑对象形状和语义相似性以及重力方向的先验。通过在室内、城市和非结构化/森林环境中进行的一系列具有挑战性的大规模多机器人或多会话 SLAM 实验，我们证明了 ROMAN 的最大召回率比其他基于对象的地图对齐方法高出 36%，并且具有绝对轨迹与使用视觉特征进行环路闭合相比，错误率降低了 37%。我们的项目页面可以在 https://acl.mit.edu/ROMAN/ 找到。

从 CAD 到 URDF：包括 CAD 几何结构的喷气动力人形机器人的协同设计

分类： 机器人技术

作者： Punith Reddy Vanteddu, Gabriele Nava, Fabio Bergonti, Giuseppe L'Erario, Antonello Paolino, Daniele Pucci

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07963v2

摘要： 协同设计优化策略通常依赖于从 CAD 中提取的简化机器人模型。虽然这些模型对于优化机器人控制的几何和惯性参数很有用，但它们可能会忽略对优化机械设计进行原型设计所必需的重要细节。例如，它们可能没有考虑施加在优化几何形状上的机械应力以及装配级设计的复杂性。在本文中，我们介绍了一个协同设计框架，旨在提高机器人的控制性能和机械设计。具体来说，我们确定了显着影响控制性能的机器人链接。使用多目标进化算法对这些连杆的几何特性进行参数化和优化，以实现最佳的控制性能。此外，框架中还集成了自动有限元法 (FEM) 分析，以过滤不满足所需结构安全裕度的解决方案。我们通过应用该框架来增强喷气动力人形机器人 iRonCub 的飞行性能的机械设计来验证该框架。

ForceMimic：以力为中心的模仿学习，具有力运动捕捉系统，可实现丰富的接触操作

分类： 机器人技术

作者： Wenhai Liu, Junbo Wang, Yiming Wang, Weiming Wang, Cewu Lu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07554v2

摘要： 在大多数接触丰富的操作任务中，人类会对目标物体施加随时间变化的力，以补偿视觉引导的手部轨迹的不准确性。然而，当前的机器人学习算法主要关注基于轨迹的策略，而对学习力相关技能的关注有限。为了解决这个限制，我们引入了ForceMimic，一个以力为中心的机器人学习系统，提供了一个自然的、力感知的、无机器人的机器人演示收集系统，以及用于稳健的接触丰富操作的混合力-运动模仿学习算法。使用拟议的 ForceCapture 系统，操作员可以在 5 分钟内剥西葫芦，而力反馈远程操作则需要 13 分钟以上，并且难以完成任务。利用收集到的数据，我们提出 HybridIL 来训练以力为中心的模仿学习模型，该模型配备混合力位置控制原语，以适应机器人执行期间预测的扳手位置参数。实验表明，我们的方法使模型能够在蔬菜剥皮等接触丰富的任务下学习更稳健的策略，与最先进的基于纯视觉的模仿学习相比，成功率相对提高了 54.5%。硬件、代码、数据和更多结果将在项目网站 https://forcemimic.github.io 上开源。

SPA：3D 空间意识实现有效的具体化表示

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Haoyi Zhu, Honghui Yang, Yating Wang, Jiange Yang, Limin Wang, Tong He

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08208v1

摘要： 在本文中，我们介绍了 SPA，这是一种新颖的表示学习框架，强调 3D 空间意识在具体人工智能中的重要性。我们的方法利用多视图图像上的可微神经渲染来赋予普通视觉变换器（ViT）内在的空间理解。我们提出了迄今为止对具身表征学习最全面的评估，涵盖了 8 个模拟器的 268 个任务，在单任务和语言条件多任务场景中具有不同的策略。结果令人信服：SPA 始终优于 10 多种最先进的表示方法，包括专门为实体 AI、以视觉为中心的任务和多模式应用程序设计的方法，同时使用较少的训练数据。此外，我们进行了一系列真实世界的实验，以证实其在实际场景中的有效性。这些结果凸显了 3D 空间意识对于具身表征学习的关键作用。我们最强大的模型需要超过 6000 个 GPU 小时来训练，我们致力于开源所有代码和模型权重，以促进具身表示学习的未来研究。项目页面：https://haoyizhu.github.io/spa/。

SG-Nav：基于 LLM 的零样本对象导航的在线 3D 场景图提示

分类： 计算机视觉和模式识别, 机器人技术

作者： Hang Yin, Xiuwei Xu, Zhenyu Wu, Jie Zhou, Jiwen Lu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08189v1

摘要： 在本文中，我们提出了一种零样本对象导航的新框架。现有的零样本对象导航方法通过空间封闭对象的文本提示LLM，缺乏足够的场景上下文来进行深入推理。为了更好地保存环境信息并充分发挥LLM的推理能力，我们建议用3D场景图来表示观察到的场景。场景图以LLM友好的结构对对象、组和房间之间的关系进行编码，为此我们设计了分层思想链提示，帮助LLM通过遍历节点和边根据场景上下文推理目标位置。此外，受益于场景图表示，我们进一步设计了重新感知机制，使对象导航框架具有纠正感知错误的能力。我们在 MP3D、HM3D 和 RoboTHOR 环境中进行了广泛的实验，其中 SG-Nav 在所有基准测试中都超越了之前最先进的零样本方法 10% 以上的 SR，同时决策过程是可解释的。据我们所知，SG-Nav 是第一个零样本方法，它在具有挑战性的 MP3D 基准测试中实现了比监督对象导航方法更高的性能。

关于生成机器人模拟的评估

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Feng Chen, Botian Xu, Pu Hua, Peiqi Duan, Yanchao Yang, Yi Ma, Huazhe Xu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08172v1

摘要： 由于获取大量现实世界数据的困难，机器人仿真对于并行训练和模拟到真实的迁移变得至关重要，凸显了可扩展的模拟机器人任务的重要性。基础模型在自主生成可行的机器人任务方面表现出了令人印象深刻的能力。然而，这种新范式强调了充分评估这些自主生成的任务的挑战。为了解决这个问题，我们提出了一个针对生成模拟的综合评估框架。我们的框架将评估分为三个核心方面：质量、多样性和概括性。对于单任务质量，我们使用大型语言模型和视觉语言模型评估生成任务的真实性和生成轨迹的完整性。在多样性方面，我们通过任务描述的文本相似性和在收集的任务轨迹上训练的世界模型损失来衡量任务和数据的多样性。对于任务级泛化，我们评估了使用多个生成任务训练的策略在未见过的任务上的零样本泛化能力。在三个代表性任务生成管道上进行的实验表明，我们框架的结果与人类评估高度一致，证实了我们方法的可行性和有效性。研究结果表明，虽然可以通过某些方法实现质量和多样性指标，但没有一种方法在所有指标上都表现出色，这表明需要更加注重平衡这些不同的指标。此外，我们的分析进一步强调了当前工作面临的泛化能力低的共同挑战。我们的匿名网站：https://sites.google.com/view/evaltasks。

LiPO：用于 ICP 比较的 LiDAR 惯性里程计

分类： 机器人技术

作者： Darwin Mick, Taylor Pool, Madankumar Sathenahally Nagaraju, Michael Kaess, Howie Choset, Matt Travers

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08097v1

摘要： 我们引入了一种名为 LiPO 的 LiDAR 惯性里程计 (LIO) 框架，它可以直接比较不同的迭代最近点 (ICP) 点云配准方法。我们比较的两种常见 ICP 方法是点对点 (P2P) 和点对特征 (P2F)。根据我们的经验，在 LIO 的背景下，与 P2P-ICP 相比，当机器人在充满挑战的环境中积极移动时，P2F-ICP 可以减少漂移并提高映射精度。然而，P2F-ICP 方法需要更多手动调整的超参数，这使得 P2F-ICP 在所有环境和运动中的通用性较差。在现实世界的现场机器人应用中，机器人在不同的环境中使用，尽管漂移增加，但更通用的 P2P-ICP 方法可能是首选。在本文中，我们寻求更好地量化 P2P-ICP 和 P2F-ICP 之间的权衡，以帮助告知何时应使用每种方法。为了探索这种权衡，我们使用 LiPO 直接比较 ICP 方法并在相关基准数据集以及我们的定制无人驾驶地面车辆 (UGV) 上进行测试。我们发现，总体而言，P2F-ICP 减少了漂移并提高了映射精度，但是，P2P-ICP 在所有环境和运动中都更加一致，漂移增加最小。

UW-SDF：利用混合几何先验从水下多视图单目图像进行神经 SDF 重建

分类： 计算机视觉和模式识别, 机器人技术

作者： Zeyu Chen, Jingyi Tang, Gu Wang, Shengquan Li, Xinghui Li, Xiangyang Ji, Xiu Li

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08092v1

摘要： 由于水下环境的独特特征，水下物体的精确3D重建在水下探索和测绘等任务中提出了具有挑战性的问题。传统方法依赖多个传感器数据进行 3D 重建，不仅耗时，而且在水下场景中的数据采集方面面临挑战。我们提出了 UW-SDF，一种基于神经 SDF 从多视图水下图像重建目标对象的框架。我们引入混合几何先验来优化重建过程，显着提高神经SDF重建的质量和效率。此外，为了解决多视图图像中分割一致性的挑战，我们提出了一种使用通用分割模型（SAM）的新颖的少镜头多视图目标分割策略，从而能够快速自动分割不可见的对象。通过对不同数据集进行广泛的定性和定量实验，我们证明了我们提出的方法优于传统的水下 3D 重建方法和水下 3D 重建领域的其他神经渲染方法。

四足机器人前腿动态物体捕捉

分类： 机器人技术

作者： André Schakkal, Guillaume Bellegarda, Auke Ijspeert

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08065v1

摘要： 本文提出了一种使用四足机器人后腿站立时的前腿进行动态物体捕捉的框架。该系统集成了计算机视觉、轨迹预测和腿部控制，使四足动物能够使用机载摄像头视觉检测、跟踪并成功捕捉抛出的物体。利用经过微调的 YOLOv8 模型进行物体检测和基于回归的轨迹预测模块，四足动物迭代地调整其前腿位置以预测和拦截物体。捕捉动作包括确定最佳捕捉位置、通过笛卡尔 PD 控制控制前腿，并在适当的时刻将腿合拢。我们提出并验证了三种不同的方法来选择最佳捕捉位置：1）将预测轨迹与垂直平面相交，2）选择预测轨迹上与处于标称位置的机器人腿部中心距离最小的点， 3) 在对机器人可到达空间进行建模的高斯混合模型 (GMM) 上选择预测轨迹上可能性最高的点。实验结果表明，在各种场景下都有强大的捕获能力，其中GMM方法取得了最佳性能，捕获成功率达到80%。可以在 https://youtu.be/sm7RdxRfIYg 上找到系统实际运行的视频演示。

通过自适应策略切换强化学习中时态逻辑约束的概率满足

分类： 人工智能, 机器人技术, 系统与控制, 系统与控制

作者： Xiaoshan Lin, Sadık Bera Yüksel, Yasin Yazıcıoğlu, Derya Aksaray

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08022v1

摘要： 约束强化学习 (CRL) 是机器学习的一个子集，它将约束引入到传统的强化学习 (RL) 框架中。与仅以最大化累积奖励为目标的传统强化学习不同，CRL 包含了额外的约束，这些约束代表了代理在学习过程中必须遵守的特定任务要求或限制。在本文中，我们解决了一类 CRL 问题，其中代理旨在学习最优策略以最大化奖励，同时确保在整个学习过程中达到所需的时间逻辑约束满足水平。我们提出了一种新颖的框架，该框架依赖于纯学习（奖励最大化）和约束满足之间的切换。该框架根据早期试验估计约束满足的概率，并适当调整学习和约束满足策略之间切换的概率。我们从理论上验证了所提出算法的正确性，并通过综合仿真证明了其性能和可扩展性。

迈向协同、通用、高效的机器人操作双系统

分类： 机器人技术, 人工智能

作者： Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08001v1

摘要： 对在多样化和动态环境中运行的多功能机器人系统的需求不断增长，强调了通才政策的重要性，该政策利用大型跨实体数据语料库来促进广泛的适应性和高级推理。然而，通才会因低效的推理和昂贵的培训而苦苦挣扎。相反，专家策略是针对特定领域数据制定的，并且在任务级精度和效率方面表现出色。然而，它缺乏广泛应用的泛化能力。受这些观察的启发，我们推出了 RoboDual，这是一种协同双系统，可以补充通才政策和专业政策的优点。基于扩散变压器的专家专为多步骤动作推出而设计，以基于视觉-语言-动作（VLA）的通才的高级任务理解和离散化动作输出为条件。与 OpenVLA 相比，RoboDual 通过引入仅 20M 可训练参数的专家策略，在现实环境中实现了 26.7% 的改进，在 CALVIN 上实现了 12% 的增益。仅用 5% 的演示数据即可保持强劲性能，并在实际部署中实现 3.8 倍的控制频率。代码将公开。我们的项目页面托管在：https://opendrivelab.com/RoboDual/

分类： 机器人技术

作者： Kazuki Kai, Le Duc Long, Hirotaka Sato

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07558v1

摘要： 厘米级的机器人昆虫在人类无法操作的狭窄环境中具有潜在的优势。为了实现这些任务，研究人员开发了一种小型印刷电路板（PCB），昆虫可以携带并控制它。电子元件通常裸露在板上，整个板安装在平台动物上，导致整个机器人的形态不均匀，边缘锋利。众所周知，人造车辆或机器人的流线型车身形状有助于通过减少介质中的阻力来实现有效的运动。然而，人们对整个身体形状如何影响机器人昆虫的运动性能知之甚少。在这里，我们开发了一块 10 毫米 x 10 毫米的板，通过 Sub-GHz 通信提供电刺激，并使用马达加斯加嘶嘶蟑螂研究了板的物理布置的影响。我们比较了安装板机器人和植入板机器人之间的间隙协商成功率，发现后者优于前者。我们证明了带有植入板的机器人蟑螂可以通过触角或宫颈刺激忠实地遵循运动命令，并穿过像通风口盖一样的狭窄间隙。与传统的布置相比，我们的机器人昆虫适合在隐蔽环境中应用。

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Xinyi Liu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06014v1

摘要： 机器人代表环境的许多最新进展都集中在照片级真实感重建上。本文特别关注从真实感高斯泼溅模型生成图像序列，这些图像序列与用户输入语言给出的指令相匹配。我们贡献了一个新颖的框架 SplaTraj，它将真实环境表示中的图像生成表述为连续时间轨迹优化问题。成本的设计使得遵循轨迹姿势的相机能够平滑地穿越环境并以上镜的方式渲染指定的空间信息。这是通过查询具有语言嵌入的真实感表示来隔离与用户指定的输入相对应的区域来实现的。然后，当相机随时间移动时，这些区域会被投影到相机的视图中，并构建成本。然后，我们可以应用基于梯度的优化并通过渲染进行区分，以优化定义成本的轨迹。生成的轨迹移动以拍摄出适合照片的每个指定对象。我们在一系列环境和指令上根据经验评估我们的方法，并演示生成的图像序列的质量。