2024-10
VLM-Grounder:用于零镜头 3D 视觉基础的 VLM 代理
分类: 计算机视觉和模式识别, 机器人技术
作者: Runsen Xu, Zhiwei Huang, Tai Wang, Yilun Chen, Jiangmiao Pang, Dahua Lin
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13860v1
摘要: 3D 视觉基础对于机器人至关重要,需要将自然语言和 3D 场景理解相结合。依赖于 3D 点云监督学习的传统方法受到数据集稀缺的限制。最近有人提出了利用大语言模型的零样本方法来解决数据问题。虽然有效,但这些方法仅使用以对象为中心的信息,限制了它们处理复杂查询的能力。在这项工作中,我们提出了 VLM-Grounder,这是一种使用视觉语言模型 (VLM) 进行仅基于 2D 图像的零镜头 3D 视觉基础的新颖框架。 VLM-Grounder 动态拼接图像序列,采用接地和反馈方案来查找目标对象,并使用多视图集成投影来准确估计 3D 边界框。 ScanRefer 和 Nr3D 数据集上的实验表明,VLM-Grounder 优于以前的零样本方法,在 ScanRefer 上实现了 51.6% Acc@0.25,在 Nr3D 上实现了 48.0% Acc,并且不依赖 3D 几何或对象先验。代码可在 https://github.com/OpenRobotLab/VLM-Grounder 获取。
可微机器人渲染
分类: 机器人技术, 计算机视觉和模式识别, 图形
作者: Ruoshi Liu, Alper Canberk, Shuran Song, Carl Vondrick
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13851v1
摘要: 经过大量视觉数据训练的视觉基础模型在开放世界环境中表现出了前所未有的推理和规划能力。将它们应用于机器人任务的一个关键挑战是视觉数据和动作数据之间的模态差距。我们引入了可微的机器人渲染,这是一种允许机器人身体的视觉外观相对于其控制参数直接可微的方法。我们的模型集成了运动学感知变形模型和高斯泼溅,并且与任何机器人形状因素和自由度兼容。我们展示了其在应用中的功能和用途,包括从图像重建机器人姿势以及通过视觉语言模型控制机器人。定量和定性结果表明,我们的可微渲染模型直接从像素为机器人控制提供了有效的梯度,为视觉基础模型在机器人领域的未来应用奠定了基础。
自适应子采样和学习模型提高触觉皮肤的时空分辨率
分类: 机器人技术, 系统与控制, 系统与控制
作者: Ariel Slepyan, Dian Li, Aidan Aug, Sriramana Sankar, Trac Tran, Nitish Thakor
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13847v1
摘要: 高速触觉阵列对于非结构化环境中的实时机器人控制至关重要,但高像素数将大多数大型触觉阵列的读出率限制在 100Hz 以下。我们引入了 ACTS - 自适应压缩触觉子采样 - 一种有效地采样触觉矩阵并使用稀疏恢复和学习的触觉字典重建交互的方法。在 1024 像素传感器阵列 (32x32) 上进行测试,与光栅扫描相比,ACTS 将帧速率提高了 18 倍,且误差最小。我们首次在大面积触觉皮肤中展示了接触后 20 毫秒内的快速物体分类、高速弹丸检测、跳弹角度估计以及通过增强的时空分辨率进行变形跟踪。我们的方法可以在固件中实现,将现有的低成本、灵活且强大的触觉阵列升级为用于大面积时空触摸传感的高分辨率系统。
ORSO:通过在线奖励选择和政策优化加速奖励设计
分类: 机器学习, 人工智能, 机器人技术
作者: Chen Bo Calvin Zhang, Zhang-Wei Hong, Aldo Pacchiano, Pulkit Agrawal
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13837v1
摘要: 奖励塑造是强化学习(RL)的关键组成部分,特别是对于奖励稀疏会阻碍学习的复杂任务。虽然引入了塑造奖励来提供额外的指导,但选择有效的塑造函数仍然具有挑战性并且计算成本昂贵。本文介绍了在线奖励选择和策略优化(ORSO),这是一种将奖励选择构建为在线模型选择问题的新颖方法。 ORSO 采用有原则的探索策略来自动识别有希望的塑造奖励函数,无需人工干预,平衡探索和利用与可证明的后悔保证。我们使用 Isaac Gym 模拟器展示了 ORSO 在各种连续控制任务中的有效性。与全面评估每个塑造奖励函数的传统方法相比,ORSO 显着提高了样本效率,减少了计算时间,并一致地识别了高质量的奖励函数,这些函数产生的策略可与领域专家通过手工设计的奖励生成的策略相媲美。
使用角速率进行完整磁力计校准和陀螺仪偏差估计的基于因子图的方法
分类: 机器人技术
作者: Sebastián Rodríguez-Martínez, Giancarlo Troni
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13827v1
摘要: MEMS 姿态航向参考系统广泛用于确定系统的姿态,但传感器测量偏差限制了其准确性。本文介绍了一种基于因子图的新颖方法,称为磁力计和陀螺仪校准(MAGYC)。 MAGYC 利用角速率陀螺仪的三轴角速率测量来增强批量和在线应用的校准。我们的方法对校准所需的仪器运动施加了较少的限制,消除了对局部磁场或仪器姿态的了解的需要,并有助于集成到平滑和映射框架内的因子图算法中。我们使用安装在水下航行器上的传感器通过数值模拟和现场实验评估来评估所提出的方法。最终,我们提出的方法将标准海底测绘测量的水下航行器航向误差标准偏差从 6.21 度降低到 0.57 度。
用于鲁棒多接触局部操纵的引导强化学习
分类: 机器人技术, 人工智能
作者: Jean-Pierre Sleiman, Mayank Mittal, Marco Hutter
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13817v1
摘要: 强化学习 (RL) 通常需要针对每项任务进行细致的马尔可夫决策过程 (MDP) 设计。这项工作旨在通过提出一种系统的方法来解决这一挑战,该方法用于多接触局部操纵任务(例如导航弹簧门和操纵重型洗碗机)的行为合成和控制。我们定义了一个独立于任务的 MDP,仅使用基于模型的轨迹优化器生成的每个任务的单个演示来训练 RL 策略。我们的方法采用了自适应相位动力学公式,可以稳健地跟踪演示,同时适应动态不确定性和外部干扰。我们将我们的方法与之前的运动模仿 RL 工作进行比较,结果表明,学习到的策略在所有考虑的任务中都取得了更高的成功率。这些策略学习演示中未出现的恢复操作,例如在执行过程中重新抓取对象或处理滑动。最后,我们成功地将策略转移到真正的机器人上,证明了我们方法的实际可行性。
指导您的通才:通过价值指导改进机器人基础模型
分类: 机器人技术, 机器学习
作者: Mitsuhiko Nakamoto, Oier Mees, Aviral Kumar, Sergey Levine
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13816v1
摘要: 在不同的演示数据集上训练的大型通用机器人策略已被证明对于控制各种不同场景中的各种机器人以及获取广泛的操作技能都非常有效。然而,训练此类策略的数据通常质量参差不齐——不仅人类收集的演示不太可能完美地执行任务,而且数据集越大,就越难仅管理最高质量的示例。还不清楚来自一个实施例的最佳数据如何用于在另一实施例上进行训练。在本文中,我们提出了一种通用且广泛适用的方法,通过根据通过离线强化学习学习的价值函数对它们的动作重新排序,来增强此类通用机器人策略在部署时的性能。这种方法,我们称之为价值引导政策引导(V-GPS),与各种不同的通才政策兼容,无需微调甚至访问政策的权重。我们证明,相同的价值函数可以提高具有不同架构的五种不同的最先进策略的性能,即使它们是在不同的数据集上进行训练的,在总共 12 项任务中的多个机器人平台上实现了一致的性能改进。代码和视频可以在:https://nakamotoo.github.io/V-GPS
CLIMB:通过迭代模型构建进行任务规划的语言引导持续学习
分类: 机器人技术, 人工智能, 机器学习
作者: Walker Byrnes, Miroslav Bogdanovic, Avi Balakirsky, Stephen Balakirsky, Animesh Garg
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13756v1
摘要: 智能且可靠的任务规划是广义机器人技术的核心能力,需要描述性域表示来充分建模场景的所有对象和状态信息。我们提出了 CLIMB,这是一个用于机器人任务规划的持续学习框架,它利用基础模型和执行反馈来指导领域模型构建。 CLIMB 可以根据自然语言描述构建模型,在解决任务时学习非显而易见的谓词,并存储该信息以供将来解决问题。与基线方法相比,我们展示了 CLIMB 在常见规划环境中提高性能的能力。我们还开发了 BlocksWorld++ 域,这是一个具有易于使用的真实对应物的模拟环境,以及用于评估持续学习的难度逐渐增加的任务课程。该系统的其他详细信息和演示可以在 https://plan-with-climb.github.io/ 找到。
人类和机器人的交互可以通过调整粘弹性来改善感官预测
分类: 机器人技术
作者: Xiaoxiao Cheng, Jonathan Eden, Bastien Berret, Atsushi Takagi, Etienne Burdet
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13755v1
摘要: 为了操纵物体或一起跳舞,人类和机器人交换能量和触觉信息。虽然人机交互中的能量交换已被广泛研究,但触觉信息的潜在交换尚不清楚。在这里,我们开发了一个代理之间机械和感觉相互作用的计算模型,可以在考虑其感觉和运动噪声的同时调整其粘弹性。由此产生的随机最优信息和努力(SOIE)控制器可以预测如何通过调整粘弹性来改善触觉信息的交换和性能。该控制器首先在具有跟踪任务的机器人-机器人实验中实现,与刚性或柔顺控制相比,该控制器显示出其优越的性能。重要的是,最佳控制器还可以预测互联人类如何改变肌肉激活以改善触觉交流,并根据其自身的感知噪声和触觉扰动进行差异化的粘弹性调整。然后,人机实验说明了这种最优控制策略对机器人的适用性,当机器人根据自身和用户的噪声特征调整其粘弹性时,可以提高跟踪性能和有效的触觉通信。因此,所提出的 SOIE 控制器可用于改善人类和机器人的触觉通信和协作。
越狱大语言模型控制的机器人
分类: 机器人技术, 人工智能
作者: Alexander Robey, Zachary Ravichandran, Vijay Kumar, Hamed Hassani, George J. Pappas
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13691v1
摘要: 最近引入的大语言模型 (LLM) 通过在操纵、运动和自动驾驶车辆等各种领域实现上下文推理和直观的人机交互,彻底改变了机器人领域。当被视为一种独立技术时,LLM 很容易受到越狱攻击,其中恶意提示器通过绕过 LLM 安全护栏来引出有害文本。为了评估在机器人技术中部署 LLM 的风险,在本文中,我们介绍了 RoboPAIR,这是第一个旨在越狱 LLM 控制的机器人的算法。与现有的针对 LLM 聊天机器人的文本攻击不同,RoboPAIR 会引发 LLM 控制的机器人产生有害的身体动作,我们在三种场景中实验演示了这种现象:(i) 白盒设置,其中攻击者可以完全访问 NVIDIA Dolphins 自我攻击。驾驶 LLM,(ii) 灰盒设置,其中攻击者可以部分访问配备 GPT-4o 规划器的 Clearpath Robotics Jackal UGV 机器人,以及 (iii) 黑盒设置,其中攻击者仅具有查询访问权限到集成 GPT-3.5 的 Unitree Robotics Go2 机器狗。在每个场景和三个新的有害机器人行为数据集中,我们证明 RoboPAIR 以及多个静态基线可以快速有效地发现越狱,通常可以实现 100% 的攻击成功率。我们的研究结果首次表明,越狱的大语言模型的风险远远超出了文本生成的范围,因为越狱的机器人很可能在现实世界中造成物理损害。事实上,我们在 Unitree Go2 上的结果代表了已部署的商业机器人系统的首次成功越狱。解决这一新出现的漏洞对于确保大语言模型在机器人领域的安全部署至关重要。其他媒体请访问:https://robopair.org
自动导航和语音克隆技术在仿人机器人上的部署
分类: 机器人技术, 00-02
作者: Dongkun Han, Boyuan Shao
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13612v1
摘要: 移动机器人展现出巨大的潜力,有望在服务行业得到广泛应用。自动导航和语音克隆的重要性怎么强调都不为过,因为它们使功能机器人能够提供高质量的服务。这项工作的目的是开发一种控制算法,用于名为 Cruzr 的人形移动机器人的自动导航,Cruzr 是 Ubtech 制造的服务机器人。首先,利用同步定位与建图(SLAM)在仿真软件Gazebo中构建虚拟环境,并通过局部路径跟踪的方式进行全局路径规划。采用两轮差动底盘运动学模型保证机器人底盘自主动态避障。此外,在仿真环境中开发的建图和轨迹生成算法已在真实机器人 Cruzr 上成功实现。对动态窗口方法 (DWA) 和模型预测控制 (MPC) 算法的自动导航性能进行了比较。此外,基于隐马尔可夫模型创建了用于语音克隆的移动应用程序,并且所提出的聊天机器人也在 Cruzr 上进行了测试和部署。
用于四足运动控制的偏好对齐扩散规划器
分类: 机器人技术
作者: Xinyi Yuan, Zhiwei Shang, Zifan Wang, Chenkai Wang, Zhao Shan, Zhenchao Qi, Meixin Zhu, Chenjia Bai, Xuelong Li
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13586v1
摘要: 扩散模型在从大规模数据集中捕获复杂分布方面表现出卓越的性能,为四足运动控制提供了一种有前景的解决方案。然而,由于数据集中的状态覆盖范围有限,离线策略对分布外 (OOD) 状态很敏感。在这项工作中,我们提出了一个结合离线学习和在线偏好调整的两阶段学习框架,用于腿部运动控制。通过离线阶段,扩散规划器从专家数据集中学习状态-动作序列的联合分布,而不使用奖励标签。随后,我们基于训练好的离线规划器在模拟环境中进行在线交互,这显着解决了OOD问题并提高了鲁棒性。具体来说,我们提出了一种新颖的弱偏好标记方法,没有真实奖励或人类偏好。该方法在慢速和高速场景下的起搏、小跑和弹跳步态中都表现出优异的稳定性和速度跟踪精度,并且可以对真实的 Unitree Go1 机器人进行零样本迁移。本文的项目网站为 https://shangjaven.github.io/preference-aligned-diffusion-legged/。
SPF-EMPC Planner:针对具有不确定性的复杂环境的实时多机器人轨迹规划器
分类: 机器人技术
作者: Peng Liu, Pengming Zhu, Zhiwen Zeng, Xuekai Qiu, Yu Wang, Huimin Lu
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13573v1
摘要: 在实际应用中,障碍物的不可预测运动和机器人状态观测的不精确给机器人群带来了显着的不确定性,尤其是在集群环境中。然而,考虑到不确定性、复杂的环境结构和机器人群体,现有方法很难实现安全导航。本文介绍了一种具有安全概率场的扩展状态模型预测控制规划器,以解决复杂、动态和不确定环境中的多机器人导航问题。最初,安全概率场提供了一种创新方法来模拟外部动态障碍物的不确定性,并将其与无约束优化方法相结合,为多机器人在线生成安全轨迹。随后,扩展状态模型预测控制器可以在考虑机器人固有模型约束和状态不确定性的同时准确跟踪这些生成的轨迹,从而确保规划轨迹的实际可行性。模拟实验表明,成功率是最先进算法的四倍。物理实验证明了该方法实时运行的能力,能够在不确定的环境中实现多机器人的安全导航。
DualQuat-LOAM:在双四元数上参数化的 LiDAR 里程计和测绘
分类: 机器人技术
作者: Edison P. Velasco-Sánchez, Luis F. Recalde, Guanrui Li, Francisco A. Candelas-Herias, Santiago T. Puente-Mendez, Fernando Torres-Medina
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13541v1
摘要: 本文报告了一种 LiDAR 里程计估计的新方法,该方法用双四元数完全参数化系统。为了实现这一点,从点云导出的特征(包括边缘、表面和稳定三角形描述符(STD))以及优化问题都在对偶四元数集中表示。这种方法能够通过对偶四元数运算直接组合平移和方向误差,极大地增强了姿态估计,正如与其他最先进方法的比较实验所证明的那样。与其他仅使用激光雷达的测距方法相比,我们的方法减少了漂移误差,特别是在急弯和大角位移的剧烈运动的情况下。 DualQuat-LOAM 针对多个公共数据集进行了基准测试。在 KITTI 数据集中,它的平移和旋转误差分别为 0.79% 和 0.0039{\deg}/m,平均运行时间为 53 ms。
CERES:通过时间场景图完成进行关键事件重建
分类: 机器人技术, 机器学习
作者: Efimia Panagiotaki, Georgi Pramatarov, Lars Kunze, Daniele De Martini
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13514v1
摘要: 本文提出了一种基于真实数据的模拟中按需场景生成的方法。评估自动驾驶汽车 (AV) 在安全关键场景和常规场景中的行为对于在实际部署之前评估其稳健性至关重要。通过将从现实数据集导出的场景集成到模拟中,我们增强了测试集的合理性和有效性。这项工作引入了一种新颖的方法,该方法采用时间场景图来捕获现实世界数据集中场景实体之间不断变化的时空关系,从而能够通过图神经网络(GNN)在模拟中生成动态场景。用户定义的操作和关键性条件用于确保灵活、定制的场景创建。我们的模型在准确预测与请求场景相对应的链接方面显着优于基准。我们在现成的模拟器中进一步评估我们生成的场景的有效性和兼容性。
用于敏捷腿部运动的状态估计变压器
分类: 机器人技术
作者: Chen Yu, Yichu Yang, Tianlin Liu, Yangwei You, Mingliang Zhou, Diyun Xiang
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13496v1
摘要: 我们提出了一种状态估计方法,可以准确预测机器人的特权状态,以突破四足机器人在执行高级技能(例如在野外跳跃)时的极限。特别是,我们提出了状态估计变换器(SET),这是一种将状态估计问题转化为条件序列建模的架构。 SET 通过利用因果屏蔽的 Transformer 来输出在现实世界中难以直接获得的机器人状态,例如身体高度和速度。通过根据机器人过去的状态调整自回归模型,我们的 SET 模型即使在高度动态的运动中也可以准确地预测这些特殊的观察结果。我们在低成本四足机器人 Cyberdog2 上评估了我们在三个任务上的方法——奔跑跳跃、奔跑后空翻和奔跑侧滑。结果表明,SET 在模拟中的估计精度和可传递性以及现实世界中跳跃和触发恢复控制器的成功率方面均优于其他方法,表明这种基于 Transformer 的显式状态估计器在高动态运动任务中的优越性。
用于连续机器人控制的基于新颖性的样本重复利用
分类: 机器人技术, 机器学习
作者: Ke Duan, Kai Yang, Houde Liu, Xueqian Wang
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13490v1
摘要: 在强化学习中,智能体通过环境交互收集状态信息和奖励,这对于政策细化至关重要。这个过程非常耗时,特别是在复杂的机器人模拟和现实应用中。传统算法通常在处理单批样本后重新融入环境,从而无法充分利用历史数据。然而,频繁观察的状态以及可靠的值估计只需要很少的更新;相反,罕见的观察到的状态需要更频繁的更新才能实现准确的值估计。为了解决样本利用率不均匀的问题,我们提出了新颖性引导样本重用(NSR)。 NSR 为不常见的新颖状态提供额外更新,并跳过频繁状态的额外更新,从而在再次与环境交互之前最大化样本使用。我们的实验表明,NSR 在不显着增加时间消耗的情况下提高了算法的收敛速度和成功率。我们的代码可在 https://github.com/ppksigs/NSR-DDPG-HER 上公开获取。
具有自适应非综合移动操作的交互式导航
分类: 机器人技术
作者: Cunxi Dai, Xiaohan Liu, Koushil Sreenath, Zhongyu Li, Ralph Hollis
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13418v1
摘要: 本文介绍了一种通过自适应非可抓取移动操作进行交互式导航的框架。这个过程中的一个关键挑战是处理具有未知动态的物体,这些物体很难从视觉观察中推断出来。为了解决这个问题,我们通过学习 SE(2) 动力学表示,提出了一种针对常见可移动室内物体的自适应动力学模型。该模型集成到模型预测路径积分 (MPPI) 控制中,以指导机器人的交互。此外,在无法操纵的对象周围导航时,学习到的动力学有助于为决策提供信息。我们的方法在模拟和现实场景中都得到了验证,证明了其准确表示对象动力学和有效操纵各种对象的能力。我们通过将所提出的框架部署在动态平衡移动机器人 Shmoobot 上,进一步强调了其在可移动物体导航 (NAMO) 任务中的成功。项目网站:https://cmushmoobot.github.io/AdaptivePushing/。
RAMPA:用于机器编程和自动化的机器人增强现实
分类: 机器人技术, 人机交互, 机器学习
作者: Fatih Dogangun, Serdar Bahar, Yigit Yildirim, Bora Toprak Temir, Emre Ugur, Mustafa Doga Dogan
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13412v1
摘要: 随着机器人技术不断进入传统工业应用之外的各个领域,对直观的机器人训练和交互系统的需求变得越来越重要。本文介绍了用于机器编程的机器人增强现实 (RAMPA),该系统利用最先进的商用 AR 耳机(例如 Meta Quest 3)的功能来促进演示编程 (PfD) 的应用工业机器人手臂的方法,例如Universal Robots UR10。我们的方法可以直接在用户的物理环境中进行现场数据记录、可视化和技能演示的微调。 RAMPA 解决了 PfD 的关键挑战,例如安全问题、编程障碍以及在实际硬件上收集演示的效率低下。我们的系统的性能是根据传统的动觉控制方法在教授三种不同的机器人操作任务时进行评估的,并通过定量指标进行分析,使用标准化调查测量任务性能和完成时间、轨迹平滑度、系统可用性、用户体验和任务负载。我们的研究结果表明机器人任务的教学和改进方式取得了重大进步,有望提高机器人编程的操作安全性、效率和用户参与度。
BestMan:具有统一仿真硬件 API 的嵌入式 AI 模块化移动机械手平台
分类: 机器人技术
作者: Kui Yang, Nieqing Cao, Yan Ding, Chao Chen
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13407v1
摘要: 具身人工智能(Embodied AI)强调智能体在物理环境中感知、理解和行动的能力。仿真平台通过验证和优化算法,在推动这一领域发挥着至关重要的作用。然而,现有平台面临多级技术集成复杂性、模块化程度不足、接口异构、适配多样化硬件等挑战。我们推出了 BestMan,一个基于 PyBullet 的模拟平台,旨在解决这些问题。 BestMan 引入了集成的多层次技能链,可实现感知、规划和控制之间的无缝协调;高度模块化的架构,实现灵活的算法集成;统一的接口可实现仿真到现实的平滑转换;以及一种与硬件无关的方法,用于适应各种移动机械手配置。这些功能共同简化了开发并增强了平台的可扩展性,使 BestMan 成为 Embodied AI 研究的宝贵工具。
基于弧长的变形用于多次演示的机器人技能综合
分类: 机器人技术
作者: Giovanni Braglia, Davide Tebaldi, André Eugenio Lazzaretti, Luigi Biagiotti
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13322v1
摘要: 在机器人技术中,从演示中学习(LfD)旨在通过使用同一任务的多个演示将技能转移给机器人。这些演示被记录和处理以提取一致的技能表示。此过程通常需要通过动态时间规整 (DTW) 等技术进行时间对齐。在本文中,我们介绍了一种名为空间采样(SS)的新颖算法,专门为机器人轨迹设计,该算法通过提供信号的弧长参数化来实现与时间无关的轨迹对齐。这种方法消除了时间对齐的需要,提高了技能表示的准确性和鲁棒性。具体来说,我们表明,所演示的轨迹中的大时间偏移可能会在最终轨迹的合成中引入不确定性,与各种最先进的基于时间的信号相比,弧长域中的对齐可以大大减少对齐算法。为此,我们构建了一个自定义的公开可用的机器人记录数据集来测试真实世界的轨迹。
TRLO:具有 3D 动态对象跟踪和移除功能的高效 LiDAR 里程计
分类: 机器人技术
作者: Yanpeng Jia, Ting Wang, Xieyuanli Chen, Shiliang Shao
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13240v1
摘要: 同步状态估计和绘图是在动态城市环境中工作的移动机器人的一项基本能力。大多数现有 SLAM 解决方案严重依赖于静态假设。然而,由于移动车辆和行人的存在,这一假设并不总是成立,导致定位精度下降和地图扭曲。为了应对这一挑战,我们提出了 TRLO,一种动态 LiDAR 里程计,可以有效提高状态估计的准确性并生成更清晰的点云图。为了有效地检测周围环境中的动态物体,应用了基于深度学习的方法,生成检测边界框。然后,我们设计了一个基于无味卡尔曼滤波器 (UKF) 和最近邻 (NN) 策略的 3D 多对象跟踪器,以可靠地识别和删除动态对象。随后,采用快速两阶段迭代最近点求解器来使用清理后的静态点云来求解状态估计。请注意,提出了一种新颖的基于散列的关键帧数据库管理,用于快速访问搜索关键帧。此外,所有检测到的对象边界框都被用来施加姿势一致性约束,以进一步细化最终的状态估计。对 KITTI 和 UrbanLoco 数据集进行的广泛评估和消融研究表明,与基线相比,我们的方法不仅实现了更准确的状态估计,而且生成了更清晰的地图。
数字的力量:未知环境中群体机器人导航的原始算法
分类: 机器人技术
作者: Yusuke Tsunoda, Shoken Otsuka, Kazuki Ito, Runze Xiao, Keisuke Naniwa, Yuichiro Sueoka, Koichi Osuka
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13149v1
摘要: 近年来,移动机器人在未知环境中的导航已成为一个特别重要的研究课题。以前的研究主要采用使用摄像头和激光雷达的实时环境测绘,以及基于这些地图的自定位和路径生成。此外,还有关于模拟到真实迁移的研究,其中机器人通过预先训练的强化学习来获取行为,并将这些学习到的动作应用到现实世界的导航中。然而,严格观察随时间变化的未知环境的行为和建模是一项极其复杂的工作。本研究提出了一种利用群体机器人数量穿越未知环境的简单导航算法。所提出的算法假设机器人仅具有感知目标方向和周围机器人相对位置的简单功能。机器人只需绕过周围的机器人,继续朝目标前进,就可以在未知的环境中导航。该方法不需要感知环境,确定自己或其他机器人是否被卡住,或者进行复杂的机器人间通信。我们对所提出的导航算法进行数学验证,基于势场法进行数值模拟,并使用开发的基于声场导航的机器人进行实验演示。
ALOHA 释放:机器人灵活性的简单秘诀
分类: 机器人技术
作者: Tony Z. Zhao, Jonathan Tompson, Danny Driess, Pete Florence, Kamyar Ghasemipour, Chelsea Finn, Ayzaan Wahid
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13126v1
摘要: 最近的工作显示了使用模仿学习来学习端到端机器人策略的有希望的结果。在这项工作中,我们解决了这样的问题:对于具有挑战性的灵巧操作任务,我们可以将模仿学习推进到什么程度。我们证明,在 ALOHA 2 平台上收集大规模数据的简单方法,与扩散策略等表达模型相结合,可以有效地学习涉及可变形物体和复杂的接触丰富动态的具有挑战性的双手操作任务。我们在 5 个具有挑战性的现实世界和 3 个模拟任务上展示了我们的配方,并展示了相对于最先进的基线的改进性能。该项目网站和视频可以在 aloha-unleashed.github.io 上找到。
只需为接触丰富的机器人策略添加力量
分类: 机器人技术
作者: William Xie, Stefan Caldararu, Nikolaus Correll
发布时间: 2024-10-17
链接: http://arxiv.org/abs/2410.13124v1
摘要: 用于学习端到端机器人策略的机器人轨迹通常包含末端执行器和夹具位置、工作空间图像和语言。从此类轨迹中学习的策略不适合精细抓取,这需要紧密耦合且精确的夹持力和夹持位置。我们收集并公开了 130 条轨迹,以及成功抓取 30 个独特物体的力反馈。我们基于电流的力感测方法虽然有噪音,但与夹具无关,并且不需要额外的硬件。我们训练和评估两种扩散策略:一种具有(强有力的)收集到的力反馈,另一种则没有(仅位置)。我们发现,对于精细抓取,强有力的策略优于仅位置策略,并且能够泛化到看不见的精细对象,同时相对于基于 LLM 的方法,将抓取策略延迟减少近 4 倍。凭借我们在有限数据上取得的有希望的结果,我们希望向其他人发出信号,考虑投资在新数据集中收集力和其他此类触觉信息,从而在未来的机器人基础模型中实现更强大、接触丰富的操作。我们的数据、代码、模型和视频可以在 https://justaddforce.github.io/ 上查看。
GyroCopter:用于跟踪和定位射频源的差动轴承测量轨迹规划器
分类: 机器人技术, 系统与控制, 信号处理, 系统与控制
作者: Fei Chen, S. Hamid Rezatofighi, Damith C. Ranasinghe
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.13081v1
摘要: 自主飞行器可以为从野生动物保护到搜救行动等应用的射频(RF)源跟踪和定位问题提供高效且有效的解决方案。现有的轻量级、低成本、基于方位测量的方法具有单天线接收器传感器系统配置,需要原位旋转,导致大量的测量采集时间限制了可搜索区域和测量数量。我们建议使用陀螺仪来完成这项任务。我们的方法规划多旋翼无人机 (UAV) 的轨迹,同时利用无人机飞行动力学执行恒定的回转运动,以获得“伪方位”测量结果来跟踪射频源。基于回转的伪方位方法: i) 显着减少与原位旋转方位相关的限制; ii) 利用信号强度测量采集硬件的简单性、经济性和轻便性来估计方位。该方法与其他伪轴承方法的区别在于不需要额外的硬件来保持简单性、轻量性和成本效益。为了验证我们的方法,我们得出了最佳旋转速度,并使用陀螺仪进行了广泛的模拟和现场任务,以跟踪和定位多个射频源。结果证实了我们方法的有效性,突显了其作为射频源定位任务实用且快速解决方案的潜力。
由充气旋转关节实现的软机器人的各向异性刚度和可编程驱动
分类: 机器人技术
作者: Sicheng Wang, Eugenio Frias-Miranda, Antonio Alvarez Valdivia, Laura H. Blumenschein
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.13003v1
摘要: 软机器人因其分布式、非均匀的刚度和驱动而具有很强的适应性来执行任务而闻名。弯曲是软体机器人设计中最基本的运动,但创建坚固且易于制造且具有可调特性的软体弯曲关节仍然是一个活跃的研究问题。在这项工作中,我们演示了一种用于软机器人的充气驱动模块,该模块具有通过强制部分起皱实现的定义弯曲平面。这降低了弯曲方向上的结构刚度,最终刚度很容易通过起皱区域和无起皱区域的比率来设计。我们提出的模型和实验表征显示了驱动模块的刚度特性,以及它在大范围的负载条件下保持运动学约束的能力。我们展示了软连续机器人中复杂驱动的潜力以及将驱动力和效率与负载能力解耦的潜力。该模块提供了一种将智能驱动嵌入软气动机器人的新颖方法。
Flex:使用基础模型的端到端文本指导视觉导航
分类: 机器人技术, 人工智能, 68T40, 68T05, 68T50, I.2.6; I.2.9; I.2.10; I.4.8
作者: Makram Chahine, Alex Quach, Alaa Maalouf, Tsun-Hsuan Wang, Daniela Rus
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.13002v1
摘要: 端到端学习直接将感官输入映射到动作,为复杂的机器人任务创建高度集成且高效的策略。然而,此类模型很难有效训练,并且通常难以推广到训练场景之外,从而限制了对新环境、任务和概念的适应性。在这项工作中,我们研究了在看不见的文本指令和视觉分布变化下通过基于视觉的控制策略实现强大的闭环性能所需的最低数据要求和架构调整。为此,我们设计了具有不同数据表示丰富程度的数据集,利用多模态基础模型编码器细化特征提取协议,并评估不同策略网络头的适用性。我们的研究结果在 Flex (Fly-lexically) 中综合,该框架使用预先训练的视觉语言模型 (VLM) 作为冻结的补丁式特征提取器,生成集成语义和视觉信息的空间感知嵌入。这些丰富的功能构成了训练高度稳健的下游策略的基础,这些策略能够跨平台、环境和文本指定的任务进行泛化。我们展示了这种方法在四旋翼飞行目标任务中的有效性,其中通过在小型模拟数据集上进行行为克隆训练的代理成功地推广到现实世界场景,处理各种新颖的目标和命令公式。
用于类别无关 RGB-D 视频分割的可配置体现数据生成
分类: 机器人技术, 计算机视觉和模式识别
作者: Anthony Opipari, Aravindhan K Krishnan, Shreekant Gayaka, Min Sun, Cheng-Hao Kuo, Arnie Sen, Odest Chadwicke Jenkins
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12995v1
摘要: 本文提出了一种生成大规模数据集的方法,以改进具有不同外形尺寸的机器人之间的类别无关视频分割。具体来说,我们考虑这样的问题:如果将机器人实施例纳入数据生成过程,那么在通用分割数据上训练的视频分割模型对于特定机器人平台是否会更有效。为了回答这个问题,我们制定了一个管道,用于使用 3D 重建(例如来自 HM3DSem)来生成可根据机器人的实施例(例如传感器类型、传感器放置和照明源)进行配置的分段视频。引入了由此产生的大规模 RGB-D 视频全景分割数据集 (MVPd),用于基础和视频分割模型的广泛基准测试,并支持视频分割中以实施例为中心的研究。我们的实验结果表明,当将基础模型转移到某些机器人实施例(例如特定的相机位置)时,使用 MVPd 进行微调可以提高性能。这些实验还表明,使用 3D 模式(深度图像和相机姿势)可以提高视频分割的准确性和一致性。该项目网页位于 https://topipari.com/projects/MVPd
使用语义分割进行城市环境中自主着陆的风险评估
分类: 机器人技术, 计算机视觉和模式识别
作者: Jesús Alejandro Loera-Ponce, Diego A. Mercado-Ravell, Israel Becerra-Durán, Luis Manuel Valentin-Coronado
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12988v1
摘要: 在本文中,我们使用深度神经网络进行语义分割和风险评估,解决复杂城市环境中基于视觉的自主着陆问题。我们建议使用 SegFormer(一种最先进的视觉变换器网络)来对复杂、非结构化的城市环境进行语义分割。这种方法产生的有价值的信息可用于智能自主着陆任务,特别是在因系统故障或人为错误而导致的紧急着陆场景中。评估是在实时飞行中完成的,此时无人机 (UAV) 上的 RGB 摄像机的图像被 SegFormer 分割成城市环境中最常见的类别。然后将这些类别映射为风险级别,总体考虑潜在的物质损失、无人机本身的损坏以及人员的危险。所提出的策略通过多个案例研究得到验证,证明了基于语义分割的策略在确定自主紧急着陆的最安全着陆区域方面的巨大潜力,我们相信这将有助于释放无人机在城市地区民用应用中的全部潜力。
BlabberSeg:实时嵌入式开放词汇航空分割
分类: 机器人技术
作者: Haechan Mark Bong, Ricardo de Azambuja, Giovanni Beltrame
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12979v1
摘要: 实时航空图像分割在无人飞行器(UAV)的环境感知中发挥着重要作用。我们推出 BlabberSeg,这是一种基于 CLIPSeg 构建的优化视觉语言模型,用于无人机对航拍图像进行机载实时处理。 BlabberSeg 通过重用提示和模型特征来提高 CLIPSeg 的效率,减少计算开销,同时实现实时开放词汇空中分割。我们使用动态开放词汇增强智能安全着陆 (DOVESEI) 框架在安全着陆场景中验证了 BlabberSeg,该框架使用视觉伺服和开放词汇分割。 BlabberSeg 显着降低了计算成本,与原始 CLIPSeg (1.81Hz) 相比,在 NVIDIA Jetson Orin AGX (64GB) 上速度提高了 927.41% (16.78 Hz),实现了实时空中分割,精度损失可以忽略不计 (2.1%)作为正确分割区域相对于 CLIPSeg 的比率)。 BlabberSeg 的源代码是开放的并且可以在线获取。
情境学习支持大语言模型中的机器人动作预测
分类: 机器人技术, 计算和语言
作者: Yida Yin, Zekai Wang, Yuvan Sharma, Dantong Niu, Trevor Darrell, Roei Herzig
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12782v1
摘要: 最近,大型语言模型(LLM)在语言领域使用上下文学习(ICL)取得了显着的成功。然而,利用大语言模型内的 ICL 功能来直接预测机器人动作在很大程度上仍未得到探索。在本文中,我们介绍了 RoboPrompt,这是一个框架,使现成的纯文本大语言模型无需训练即可通过 ICL 直接预测机器人动作。我们的方法首先启发式地识别捕获剧集中重要时刻的关键帧。接下来,我们从这些关键帧中提取末端执行器动作以及估计的初始物体姿势,并将两者转换为文本描述。最后,我们构建一个结构化模板,根据这些文本描述和任务指令形成 ICL 演示。这使得大语言模型能够在测试时直接预测机器人的动作。通过大量的实验和分析,RoboPrompt 在模拟和现实环境中显示出比零样本和 ICL 基线更强的性能。
Harmon:根据语言描述生成人形机器人的全身运动
分类: 机器人技术, 人工智能
作者: Zhenyu Jiang, Yuqi Xie, Jinhan Li, Ye Yuan, Yifeng Zhu, Yuke Zhu
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12773v1
摘要: 人形机器人具有与人类相似的体现,具有无缝融入人类环境的潜力。它们与人类共存和合作的关键是理解自然语言交流和表现出类人行为的能力。这项工作的重点是根据语言描述为人形机器人生成不同的全身运动。我们利用大量人体运动数据集中的人体运动先验来初始化人形运动,并利用视觉语言模型 (VLM) 的常识推理功能来编辑和细化这些运动。我们的方法展示了产生自然、富有表现力和文本对齐的人形动作的能力,并通过模拟和现实实验进行了验证。更多视频请访问 https://ut-austin-rpl.github.io/Harmon/。
高比谐波驱动摩擦建模的物理信息学习
分类: 机器人技术
作者: Ines Sorrentino, Giulio Romualdi, Fabio Bergonti, Giuseppe ĽErario, Silvio Traversaro, Daniele Pucci
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12685v1
摘要: 本文提出了一种利用物理信息神经网络 (PINN) 对配备电动机和高比谐波传动的机器人进行摩擦识别的可扩展方法。这种方法通过利用机器人的内在模型和状态数据,消除了对专用设置和关节扭矩传感器的需求。我们提供了一个全面的管道,包括数据采集、预处理、地面实况生成和模型识别。基于 PINN 的摩擦识别的有效性通过对人形机器人 ergoCub 的两个不同关节的广泛测试得到验证,并将其性能与库仑粘性模型和 Stribeck-库仑粘性模型等传统静摩擦模型进行比较。将已识别的基于 PINN 的摩擦模型集成到两层扭矩控制架构中可增强实时摩擦补偿。结果表明,控制性能显着提高,能量损失减少,突出了所提出方法的可扩展性和鲁棒性,也适用于人形机器人等大量关节的应用。
利用凸包和预测最近点的多体系统的非保守避障
分类: 机器人技术
作者: Lotte Rassaerts, Eke Suichies, Bram van de Vrande, Marco Alonso, Bas Meere, Michelle Chong, Elena Torta
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12659v1
摘要: 本文介绍了一种新颖的方法,该方法利用凸包和最近点距离计算,将未来最近点预测集成到防撞控制器的距离约束中。通过解决最近点的突变问题,该方法有效降低了碰撞风险并提高了控制器性能。该框架应用于图像引导治疗机器人并通过模拟和用户实验进行验证,展示了距离预测精度的提高、轨迹更平滑以及障碍物附近导航更安全。
可扩展多智能体导航的混合决策:集成语义图、离散协调和模型预测控制
分类: 机器人技术
作者: Koen de Vos, Elena Torta, Herman Bruyninckx, Cesar Lopez Martinez, Rene van de Molengraft
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12651v1
摘要: 本文提出了一个在结构化但动态的环境中进行多智能体导航的框架,集成了三个关键组件:共享语义地图编码度量和语义环境知识、用于协调对环境内区域的访问的声明策略以及用于生成尊重环境和协调约束的运动轨迹。这种方法的主要优点包括: (i) 根据具体任务要求强制执行区域占用限制; (ii) 通过消除机器人代理之间的碰撞避免约束来增强计算可扩展性; (iii) 预测和避免代理之间僵局的能力。该论文包括模拟和物理实验,证明了该框架在各种代表性场景中的有效性。
在机器人配置空间中生长无碰撞凸多面体的更快算法
分类: 机器人技术, 计算几何
作者: Peter Werner, Thomas Cohn, Rebecca H. Jiang, Tim Seyde, Max Simchowitz, Russ Tedrake, Daniela Rus
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12649v1
摘要: 我们提出了两种在机器人配置空间中构造凸无碰撞多胞体的新颖算法。找到这些多面体可以应用更强大的运动规划框架,例如使用凸集图进行轨迹优化[1],并且目前是采用这些方法的主要障碍。在本文中,我们以 IRIS-NP(半定和非线性规划迭代区域膨胀)[2] 为基础,显着提高了可调节性、运行时间以及复杂环境的扩展性。 IRIS-NP 使用非线性编程与均匀随机初始化相结合来查找自由配置空间边界上的配置。我们的主要见解是,使用采样查找附近的配置空间障碍物成本低廉,并且大大加速了区域生成。我们提出了两种使用此类样本的算法,要么更有效地采用非线性规划(IRIS-NP2),要么使用大规模并行零阶优化策略(IRIS-ZO)完全规避它。我们还提出了一个终止条件,控制超过用户指定的允许碰撞分数的概率,消除了 IRIS-NP 中调整困难的一个重要来源。我们比较了八个机器人环境的性能,结果表明 IRIS-ZO 比 IRIS-NP 实现了数量级的速度优势。 IRISNP2 也比 IRIS-NP 快得多,它使用更少的超平面构建更大的多面体,从而实现更快的下游计算。网站:https://sites.google.com/view/fastiris
具有大语言模型驱动的数据合成和自动驾驶政策适应的鲁棒强化学习
分类: 机器人技术, 人工智能
作者: Sihao Wu, Jiaxu Liu, Xiangyu Yin, Guangliang Cheng, Meng Fang, Xingyu Zhao, Xinping Yi, Xiaowei Huang
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12568v1
摘要: 将大型语言模型(LLM)集成到自动驾驶系统中表现出强大的常识和推理能力,有效解决了纯数据驱动方法的缺陷。当前基于 LLM 的代理需要很长的推理时间,并且在与实时自动驾驶环境交互时面临挑战。一个关键的悬而未决的问题是我们是否可以有效地利用大语言模型的知识来训练高效且强大的强化学习(RL)代理。本文介绍了 RAPID,一种新颖的 \underline{\textbf{R}}obust \underline{\textbf{A}}daptive \underline{\textbf{P}}olicy \underline{\textbf{I}}nfusion 和 \underline {\textbf{D}}蒸馏框架,使用基于 LLM 的驱动代理和在线适应合成的数据来训练专门的混合策略 RL 代理。 RAPID 具有三个关键设计:1)利用从 LLM 代理收集的离线数据将专家知识提炼为 RL 策略,以实现更快的实时推理; 2)在强化学习中引入鲁棒蒸馏,继承LLM老师的性能和鲁棒性; 3)采用策略混合方法与策略适配器进行联合决策解码。通过在线环境交互进行微调,RAPID减少了LLM知识的遗忘,同时保持了对不同任务的适应性。大量实验证明 RAPID 能够以高效、适应性强且稳健的方式将 LLM 知识有效地整合到规模缩小的 RL 策略中。代码和检查点将在接受后公开。
在无人机驱动的搜索和救援任务中利用增强现实提高态势感知
分类: 机器人技术
作者: Rushikesh Nalamothu, Puneet Sontha, Janardhan Karravula, Ankit Agrawal
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12556v1
摘要: 在高风险的搜救任务领域,无人机 (UAV) 的部署变得越来越重要。这些任务需要响应团队中不同角色之间的无缝实时通信,特别是远程操作员 (RO) 和现场操作员 (OSO) 之间。传统上,RO 和 OSO 依靠无线电通信来交换关键信息,例如受害者的地理位置、危险区域和兴趣点。然而,无线电通信缺乏信息可视化、存在噪音、需要耗费脑力来解读信息,从而导致沟通不畅和误解。为了应对这些挑战,本文提出了 VizCom-AR,这是一种增强现实系统,旨在促进 RO 和 OSO 之间的视觉通信以及无人机驱动的搜索和救援任务期间的态势感知。我们的实验、与警官的焦点小组会议以及现场研究表明,VizCom-AR 增强了 RO 和 OSO 的空间意识,促进地理定位信息交换,并有效补充无人机驱动的应急响应任务中的现有通信工具。总体而言,VizCom-AR 为设计用于大规模无人机驱动的救援任务的增强现实系统提供了一个基本框架。
描述自动驾驶汽车和人类驾驶员在无信号交叉口的行为差异和适应:来自 Waymo 和 Lyft 开放数据集的见解
分类: 机器人技术, 人工智能, 应用领域
作者: Saeed Rahmani, Zhenlin, Xu, Simeon C. Calvert, Bart van Arem
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12538v1
摘要: 自动驾驶汽车 (AV) 与交通系统的集成为提高道路安全和效率提供了前所未有的机会。然而,了解自动驾驶汽车和人类驾驶车辆 (HV) 在十字路口之间的相互作用仍然是一个悬而未决的研究问题。本研究旨在利用 Waymo 和 Lyft 的两个综合自动驾驶数据集,研究自动驾驶汽车和高压汽车在无信号交叉口的行为差异和适应性,从而弥补这一差距。该研究采用系统方法,通过计算关键安全和效率指标来识别和分析并道和交叉冲突,包括碰撞时间(TTC)、侵入后时间(PET)、最大所需减速度(MRD)、时间优势(TA) ,以及速度和加速度曲线。研究结果揭示了混合交通流中的一个悖论:虽然自动驾驶汽车保持了较大的安全裕度,但它们的保守行为可能会导致人类驾驶员出现意想不到的情况,从而可能导致不安全的情况。从性能角度来看,与其他 HV 相比,人类驾驶员在与 AV 交互时表现出更一致的行为,这表明 AV 可能有助于协调交通流模式。此外,Waymo 和 Lyft 车辆之间存在显着差异,这凸显了在交通建模和自动驾驶安全集成管理策略中考虑制造商特定自动驾驶行为的重要性。本研究中使用的处理数据集已公开发布,以促进 AV-HV 相互作用的研究。
根据接触点的鲁棒性进行稳定的物体放置规划
分类: 机器人技术, 人工智能
作者: Philippe Nadeau, Jonathan Kelly
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12483v1
摘要: 我们引入了一种规划器,旨在指导机器人操纵器在复杂的场景中稳定地放置物体。我们提出的方法逆转了传统的对象放置方法:我们的规划器首先选择接触点,然后确定征求所选点的放置姿势。这不是对姿势进行采样、识别接触点和评估姿势质量。我们的算法有助于稳定性感知的对象放置规划,对对象形状、凸度或质量密度均匀性没有限制,同时避免组合计算复杂性。与不使用启发式的相同算法相比,我们提出的稳定性启发式算法使我们的规划人员找到解决方案的速度快了约 20 倍,比使用传统采样和评估的最先进方法快了 8 倍方法。我们提出的规划器在找到稳定的位置方面也比其他五个基准算法更成功。我们的规划器源自第一原理并在十个真实的机器人实验中得到验证,提供了一种通用且可扩展的方法来解决刚性物体的物体放置规划问题。
Imagine2Servo:具有扩散驱动目标生成功能的智能视觉伺服机器人任务
分类: 机器人技术
作者: Pranjali Pathre, Gunjan Gupta, M. Nomaan Qureshi, Mandyam Brunda, Samarth Brahmbhatt, K. Madhava Krishna
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12432v1
摘要: 视觉伺服是一种通过视觉传感器的反馈来控制机器人运动的方法,随着基于光流的方法的集成,已经取得了显着的进步。然而,其应用仍然受到固有挑战的限制,例如测试时需要目标图像、初始图像和目标图像之间大量重叠的要求以及对单个相机反馈的依赖。本文介绍了 Imagine2Servo,这是一种利用基于扩散的图像编辑技术通过生成中间目标图像来增强视觉伺服算法的创新方法。这种方法允许将视觉伺服应用扩展到传统限制之外,从而无需预定义目标图像即可实现远程导航和操纵等任务。我们提出了一种管道,可以合成基于当前任务的子目标图像,促进在初始图像和目标图像重叠最小的场景中进行伺服,并集成多相机反馈以实现全面的任务执行。我们的贡献展示了图像生成在机器人控制中的新颖应用,显着拓宽了视觉伺服系统的功能。现实世界的实验验证了 Imagine2Servo 框架在完成各种任务方面的有效性和多功能性,标志着视觉伺服领域的显着进步。
AdaCropFollow:用于视觉树冠下导航的自我监督在线适应
分类: 机器人技术, 计算机视觉和模式识别
作者: Arun N. Sivakumar, Federico Magistri, Mateus V. Gasparino, Jens Behley, Cyrill Stachniss, Girish Chowdhary
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12411v1
摘要: 冠层下农业机器人可以在整个生长季节实现各种应用,例如精确监测、喷洒、除草和植物操纵任务。由于 RTK-GPS 精度下降以及场景视觉外观随时间变化很大,树冠下的自主导航具有挑战性。在之前的工作中,我们开发了一种具有语义关键点表示的基于监督学习的感知系统,并将其部署在各种现场条件下。该系统的大量故障可归因于感知模型无法适应部署过程中遇到的域转移。在本文中,我们提出了一种自监督在线适应方法,使用视觉基础模型、几何先验和伪标签来适应语义关键点表示。我们的初步实验表明,通过最少的数据和参数的微调,在源域上使用标签训练的关键点预测模型可以使用我们的方法以自我监督的方式适应机器人计算机上的各种具有挑战性的目标域。这可以使冠层机器人在田地和农作物上实现完全自主的行跟随能力,而无需人工干预。
以人为本的环境中的受人启发的长期室内定位
分类: 机器人技术
作者: Nicky Zimmerman, Matteo Sodano
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12362v1
摘要: 终身本地化对于实现服务机器人的自主性至关重要。在本文中,我们概述了我们过去在长期定位和地图方面的研究,利用平面图等几何先验并整合文本和语义信息。我们的方法在跨越数月的具有挑战性的序列上得到了验证,并且我们发布了开源实现。
一种数据驱动的轮式双足机器人接触估计方法
分类: 机器人技术, 可能性
作者: Ü. Bora Gökbakan, Frederike Dümbgen, Stéphane Caron
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12345v2
摘要: 接触估计是四肢机器人的一项关键能力,接触和断开接触对状态估计和平衡控制有直接影响。现有方法通常依赖于门周期先验或指定的接触传感器。我们设计了一种接触估计器,适用于不具备这些功能的新兴轮式双足机器人类型。为此,我们提出了一种贝叶斯滤波器,其中更新步骤是从真实机器人扭矩测量中学习的,而预测步骤则依赖于惯性测量。我们在广泛的真实机器人和模拟实验中评估了这种方法。我们的方法实现了更好的性能,同时比同类深度学习基线的样本效率更高。
PAPL-SLAM:主轴锚定单目点线SLAM
分类: 机器人技术, 计算机视觉和模式识别
作者: Guanghao Li, Yu Cao, Qi Chen, Yifan Yang, Jian Pu
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12324v1
摘要: 在点线SLAM系统中,线结构信息的利用和线的优化是两个重要的问题。前者通常通过结构规律来解决,而后者通常涉及在优化中使用线的最小参数表示。然而,分离这两个步骤会导致彼此的约束信息丢失。我们锚定与主轴方向相似的线,并使用 $n+2$ 参数对 $n$ 线进行优化,同时解决这两个问题。我们的方法考虑了场景结构信息,可以轻松扩展到不同的世界假设,同时显着减少要优化的线参数数量,从而实现快速准确的绘图和跟踪。为了进一步增强系统的鲁棒性并避免失配,我们对线轴概率数据关联进行了建模,并提供了轴创建、更新和优化的算法。此外,考虑到大多数现实世界场景符合亚特兰大世界假设,我们提供了一种基于垂直先验和消失点的结构线检测策略。对各种室内和室外数据集的实验结果和消融研究证明了我们系统的有效性。
使用惯性传感器进行现场建筑机器人的机器人运动学模型估计
分类: 机器人技术
作者: Hiroya Sato, Tasuku Makabe, Iori Yanokura, Naoya Yamaguchi, Kei Okada, Masayuki Inaba
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12277v1
摘要: 为了使机器人在各种环境中更加有用,它们需要具有高度便携性,以便可以运输到任何需要它们的地方,并且具有高度可存储性,以便在不使用时可以存放。我们提出了“现场机器人技术”,即使用在机器人活动地点采购的零件,并针对便携性和可存储性问题提出了新的解决方案。在本文中,作为现场机器人技术的概念证明,我们描述了一种通过在刚性连杆上使用惯性测量单元(IMU)传感器模块来估计机器人运动学模型的方法,根据角速度估计模块之间的相对方向,并根据离心力的测量来估计相对位置。在本文的最后,作为对该方法的评估,我们提出了一个由木棍组成的机器人到达目标位置的实验。在本实验中,即使改变连杆的组合,机器人在估计后也能立即再次到达目标位置,表明即使重新组装后也能进行操作。我们的实现可以在 https://github.com/hiroya1224/urdf_estimation_with_imus 上找到。
机器人技术中的 3D 高斯泼溅:一项调查
分类: 机器人技术
作者: Siting Zhu, Guangming Wang, Dezhi Kong, Hesheng Wang
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12262v1
摘要: 环境的密集 3D 表示一直是机器人领域的长期目标。虽然以前的神经辐射场 (NeRF) 表示因其隐式、基于坐标的模型而很流行,但最近出现的 3D 高斯分布 (3DGS) 在其显式辐射场表示方面展现了巨大的潜力。通过利用 3D 高斯基元进行显式场景表示并实现可微分渲染,3DGS 在实时渲染和照片级真实感性能方面显示出优于其他辐射场的显着优势,这对于机器人应用来说是有利的。在本次调查中,我们对机器人领域的 3DGS 有了全面的了解。我们将相关工作的讨论分为两大类:3DGS 的应用和 3DGS 技术的进步。在应用部分,我们从场景理解和交互的角度探讨了 3DGS 如何应用于各种机器人任务。 3DGS部分的推进重点是3DGS自身特性在适应性和效率方面的改进,旨在提升其在机器人领域的性能。然后我们总结了机器人技术中最常用的数据集和评估指标。最后,我们确定了当前 3DGS 方法的挑战和局限性,并讨论了 3DGS 在机器人领域的未来发展。
稳健的模拟到真实强化学习的双重行动策略
分类: 机器学习, 人工智能, 机器人技术
作者: Ng Wen Zheng Terence, Chen Jianda
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12250v1
摘要: 本文提出了双重行动策略(DAP),这是一种解决强化学习模拟与真实差距中固有的动态不匹配问题的新方法。 DAP 使用单一策略来预测两组动作:一组用于在模拟中最大化任务奖励,另一组专门用于通过奖励调整进行领域适应。这种解耦使得在训练期间更容易最大化源域中的总体奖励。此外,DAP 在训练期间结合了基于不确定性的探索,以增强代理的鲁棒性。实验结果证明,DAP 在弥合模拟与真实差距方面的有效性,在模拟中具有挑战性的任务上优于基线,并且通过结合不确定性估计实现了进一步的改进。
非动力学条件扩散规划器
分类: 机器学习, 机器人技术
作者: Wen Zheng Terence Ng, Jianda Chen, Tianwei Zhang
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12238v1
摘要: 离线强化学习 (RL) 通过利用预先存在的数据集,为交互式数据采集提供了一种有吸引力的替代方案。然而,其有效性取决于数据样本的数量和质量。这项工作探索使用更容易获得的、非动态数据集来解决离线强化学习中数据稀缺的挑战。我们提出了一种使用条件扩散概率模型(DPM)来学习大规模非动态数据集和有限目标数据集的联合分布的新方法。为了使模型能够捕获底层动态结构,我们为条件模型引入了两个上下文:(1)连续动态分数允许两个数据集中的轨迹之间存在部分重叠,为模型提供更丰富的信息; (2) 逆动态环境引导模型生成遵循目标环境动态约束的轨迹。实证结果表明,我们的方法明显优于几个强大的基线。消融研究进一步揭示了每种动态背景的关键作用。此外,我们的模型表明,通过修改上下文,我们可以在源动态和目标动态之间进行插值,使其对环境中的细微变化更加鲁棒。
在不断变化的环境中快速在线学习 CLiFF 地图
分类: 机器人技术
作者: Yufei Zhu, Andrey Rudenko, Luigi Palmieri, Lukas Heuer, Achim J. Lilienthal, Martin Magnusson
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12237v1
摘要: 动态图是从先前观察中学习到的运动模式的有效表示,最近的研究表明它们能够增强各种下游任务的性能,例如人类感知机器人导航、长期人类运动预测和机器人定位。当前的进展主要集中在在人流静态的环境中学习人流地图的方法,即不假设随时间变化的环境中。在本文中,我们提出了一种更新 CLiFF 地图(一种动态地图)的方法,以实现机器人的高效终身操作。随着新观测值的收集,我们的目标是更新 CLiFF 地图,以有效、准确地整合新观测值,同时保留相关的历史运动模式。所提出的在线更新方法在每个观察位置维护概率表示,通过连续跟踪足够的统计数据来更新参数。在使用合成数据集和真实世界数据集的实验中,我们表明我们的方法能够保持人体运动动力学的准确表示,有助于高性能的符合流程的规划下游任务,同时比可比较的基线快几个数量级。
提高基于强化学习的局部运动规划器对不可见人群行为的泛化
分类: 机器人技术, 人工智能, 机器学习
作者: Wen Zheng Terence Ng, Jianda Chen, Sinno Jialin Pan, Tianwei Zhang
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12232v1
摘要: 由于行人的运动不可预测,在有人类行人的场景中部署安全的移动机器人策略具有挑战性。当前基于强化学习的运动规划器依靠单一策略来模拟行人运动,并且可能会遇到过度拟合问题。或者,将防撞问题构建为多智能体框架,其中智能体在学习实现目标的同时产生动态运动,但由于其同质性,可能会导致与人类行人的冲突。为了解决这个问题,我们引入了一种有效的方法,通过最大化信息论目标来增强单个策略内的代理多样性。这种多样性丰富了每个智能体的经验,提高了其对看不见的人群行为的适应能力。在评估智能体针对看不见的人群的鲁棒性时,我们受行人人群行为的启发提出了多种场景。在这些具有挑战性的场景中,我们的行为条件策略优于现有的工作,无需额外的时间或旅行即可减少潜在的碰撞。
使用图神经网络学习可微分张拉整体动力学
分类: 机器人技术
作者: Nelson Chen, Kun Wang, William R. Johnson III, Rebecca Kramer-Bottiglio, Kostas Bekris, Mridul Aanjaneya
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12216v1
摘要: 张拉整体机器人由刚性支柱和柔性电缆组成。它们构成了一类新兴的混合刚软机器人系统,是从运动到装配等广泛应用的有前途的系统。然而,由于它们的合规性和高自由度,它们很难准确地控制和建模。为了解决这个问题,之前的工作引入了一种基于第一原理为张拉整体机器人设计的可微分物理引擎。相比之下,这项工作提出使用图神经网络在张拉整体机器人的图表示上对接触动力学进行建模,该机器人利用了刚性杆端盖之间的自然图状电缆连接。该学习模拟器可以在使用 MuJoCo 作为地面实况的模拟到模拟实验中准确地模拟 3 杆和 6 杆张拉整体机器人动力学。与之前的真实 3 杆张拉整体机器人的可微分引擎相比,它还可以实现更高的精度,对于真实的 3 杆张拉整体机器人来说,机器人状态只能部分观察。与最近基于网格的图神经网络模拟器的直接应用相比,所提出的方法在训练和推理方面都在计算上更加高效,同时实现了更高的精度。代码和数据可在 https://github.com/nchen9191/tensegrity_gnn_simulator_public 获取
使用基于弧长的地图匹配在 GPS 拒绝场景中进行车辆定位
分类: 机器人技术, 系统与控制, 系统与控制
作者: Nur Uddin Javed, Yuvraj Singh, Qadeer Ahmed
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12208v1
摘要: 自动驾驶系统在 GPS 被拒绝的情况下面临挑战。为了解决这个问题,使用车辆上的转向角、转向速率、偏航速率和轮速传感器的测量值来实现运动航位推算。然而,航位推算方法会出现漂移。本文提供了一种基于弧长的地图匹配方法,该方法使用场景的数字二维地图来纠正航位推算估计中的漂移。运动学模型的预测用于向地图数据中可用的空间信息引入时间概念。结果表明,在本研究中测试的所有 GPS 拒绝场景中,漂移都有可靠的改善。这种创新方法可确保自动驾驶车辆能够保持连续可靠的导航,从而显着提高其在 GPS 信号受损或不可用的环境中的安全性和操作可靠性。
用于快速自适应运动动力学运动规划的轨迹流形优化
分类: 机器人技术, 人工智能
作者: Yonghyeon Lee
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12193v1
摘要: 快速运动动力学运动规划对于系统有效适应动态变化的环境至关重要。尽管做出了一些努力,现有方法仍然难以快速规划高维度、复杂的问题。毫不奇怪,主要挑战来自搜索空间的高维性,特别是轨迹空间。我们用两步方法解决这个问题:首先,我们确定一个低维轨迹流形{\it离线},包括与当前任务特别相关的不同轨迹,同时满足运动动力学约束。随后,我们在这个流形中搜索解决方案{\it online},显着提高了规划速度。为了编码和生成一系列连续时间、可微分的轨迹,我们提出了一种新颖的神经网络模型,{\it 可微分运动流形基元(DMMP)},以及实用的训练策略。使用负责动态投掷到任意目标位置的 7-DoF 机器人臂进行的实验表明,我们的方法在规划速度、任务成功和约束满足方面超越了现有方法。
机器人运动生成的现状
分类: 机器人技术, 人工智能, 机器学习, I.2.9; I.2.8; I.2.6
作者: Kostas E. Bekris, Joe Doerr, Patrick Meng, Sumanth Tangirala
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12172v1
摘要: 本文回顾了 50 年来机器人研究中提出的各种产生机器人运动的方法,以及最近的发展。它跨越了方法论的界限,从那些在显式模型上运行的方法到那些学习隐式模型的方法,通常不会一起进行调查。本文讨论了当前的最新技术以及不同方法的特性,强调了集成的机会。
迈向自主室内停车:全球一致的语义 SLAM 系统和语义定位子系统
分类: 机器人技术
作者: Yichen Sha, Siting Zhu, Hekui Guo, Zhong Wang, Hesheng Wang
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12169v1
摘要: 我们提出了一个全局一致的语义 SLAM 系统(GCSLAM)和一个语义融合定位子系统(SF-Loc),可以在复杂的停车场中实现准确的语义映射和鲁棒的定位。视觉相机(前视和环视)、IMU 和车轮编码器构成了我们系统的输入传感器配置。我们工作的第一部分是GCSLAM。 GCSLAM 引入了一种新颖的因子图来优化姿势和语义图,它结合了基于多传感器数据和 BEV(鸟瞰图)语义信息的创新错误项。此外,GCSLAM 还集成了全局停车位管理模块,用于存储和管理停车位观察结果。 SF-Loc是我们工作的第二部分,它利用GCSLAM构建的语义地图来进行基于地图的定位。 SF-Loc 将配准结果和里程计姿势与新颖的因子图集成在一起。我们的系统在两个真实数据集上展示了优于现有 SLAM 的性能,显示出强大的全局定位和精确语义映射的出色能力。
用于实时最优控制的嵌入式 SoC 架构的设计空间探索
分类: 机器人技术, 系统与控制, 系统与控制
作者: Kris Shengjun Dong, Dima Nikiforov, Christopher Fletcher, Yakun Sophia Shao
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12142v1
摘要: 让资源有限的机器人执行计算密集型任务(例如基于模型/学习的算法)具有挑战性。由于工作负载特征的复杂性,不同系统中的瓶颈可能取决于应用程序需求,从而导致单个硬件架构无法满足所有机器人应用程序的需求。该项目提供了全面的设计空间探索,以确定适合机器人算法的最佳硬件计算平台和架构。我们跨通用核心和专用加速器分析和优化代表性架构设计。具体来说,我们将 CPU、向量机和领域专用加速器与内核级基准测试和端到端代表性机器人工作负载进行比较。我们的探索提供了定量的性能、面积和利用率比较,并分析了这些代表性的不同建筑设计之间的权衡。我们证明,硬件架构选择的变化取决于工作负载特征和应用程序要求。最后,我们探讨了架构修改和软件生态系统优化如何缓解瓶颈并提高利用率。
具有时间逻辑目标的样本高效强化学习:利用任务规范来指导探索
分类: 机器人技术, 人工智能
作者: Yiannis Kantaros, Jun Wang
发布时间: 2024-10-16
链接: http://arxiv.org/abs/2410.12136v1
摘要: 本文解决了学习具有不确定动态和指定为线性时序逻辑(LTL)公式的高级控制目标的系统的最优控制策略的问题。工作空间结构和控制决策结果中考虑了不确定性,从而产生未知的马尔可夫决策过程 (MDP)。用于 LTL 任务的现有强化学习 (RL) 算法通常依赖于统一探索产品 MDP 状态空间(使用例如 $\epsilon$-贪婪策略),从而损害样本效率。随着奖励变得越来越稀疏并且 MDP 大小或任务复杂性增加,这个问题变得更加明显。在本文中,我们提出了一种加速强化学习算法,它可以比竞争方法更快地学习控制策略。它的样本效率依赖于一种新颖的任务驱动的探索策略,该策略将探索偏向可能有助于任务满意度的方向。我们提供理论分析和广泛的比较实验,证明所提出方法的样本效率。随着任务复杂性或 MDP 大小的增加,我们方法的好处变得更加明显。
以可供性为中心的策略学习:使用以可供性为中心的任务框架进行高效且可通用的机器人策略学习示例
分类: 机器人技术, 人工智能
作者: Krishan Rana, Jad Abou-Chakra, Sourav Garg, Robert Lee, Ian Reid, Niko Suenderhauf
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.12124v1
摘要: 可供性是机器人操作的核心,其中大多数任务可以简化为与对象上特定任务区域的交互。通过关注这些关键区域,我们可以抽象出与任务无关的信息,简化学习过程并增强泛化能力。在本文中,我们提出了一种以可供性为中心的策略学习方法,该方法将 \textit{orients} 集中在这些可供性区域上,使我们能够实现 \textbf{intra-category invariance} ——其中策略可以在同一对象类别内的不同实例之间进行泛化,并且具有空间不变性,无论对象在环境中的放置如何,都可以实现一致的性能。我们提出了一种利用现有的通用大视觉模型来提取和跟踪这些可供性框架的方法,并证明我们的方法可以使用来自少至 10 个演示的行为克隆来学习操作任务,并等效于在 305 上训练的基于图像的策略示威活动。我们在项目网站上提供视频演示:https://affordance-policy.github.io。
用于机器人应用的新型扭绞绳致动器:设计与验证
分类: 机器人技术
作者: Ryan Poon, Vineet Padia, Ian W. Hunter
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.12097v1
摘要: 本文提出了一种将扭弦致动器(TSA)与绞盘机构相结合的新型致动器系统。相对于机器人领域的传统液压和气动系统,TSA 结构紧凑、重量轻,但在行程长度和力传递比方面面临限制。我们的集成 TSA 绞盘系统通过动态调整提供可变传动比,从而克服了这些限制。它通过绞盘而不是过度扭转来增加执行器行程,并通过扭转来提高力输出。该设计采用装有绞盘的旋转转塔,绞盘安装在由通孔驱动轴驱动的锥齿轮组件上。为该系统的位移和速度组合控制开发了数学模型。实验验证表明执行器能够实现广泛的传动比和精确的运动控制。我们提供有关运动精度和产生的力的性能数据,并在现有文献的背景下讨论结果。这项研究有助于开发更通用、更高效的驱动系统,用于先进的机器人应用和改进的自动化解决方案。
V3D-SLAM:动态环境中具有 3D 语义几何投票的鲁棒 RGB-D SLAM
分类: 机器人技术, 人工智能, 计算机视觉和模式识别
作者: Tuan Dang, Khang Nguyen, Mandfred Huber
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.12068v1
摘要: 由于移动物体和相机姿态之间的相关复杂性,高度动态环境中的同步定位和建图 (SLAM) 具有挑战性。已经提出了许多方法来解决这个问题;然而,移动相机的动态物体的移动特性仍不清楚。因此,为了提高 SLAM 的性能,需要通过对物体 3D 形状和动态的物理理解来最大限度地减少移动物体的破坏事件。在本文中,我们提出了一种鲁棒方法 V3D-SLAM,通过两个轻量级重新评估阶段来删除移动对象,包括使用空间合理的霍夫投票机制识别潜在的移动和静态对象,并通过检测引起的动态噪声来细化静态对象通过使用倒角距离作为相似性测量的对象内运动。我们在 TUM RGB-D 基准上对具有地面实况相机轨迹的动态序列进行的实验表明,我们的方法优于最新的最先进的 SLAM 方法。我们的源代码可在 https://github.com/tuantdang/v3d-slam 获取。
MFC-EQ:使用包络 Q 学习进行平均场控制,用于移动编队中的分散智能体
分类: 机器人技术, 人工智能, 机器学习, 多代理系统
作者: Qiushi Lin, Hang Ma
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.12062v1
摘要: 我们研究了移动代理编队(MAiF)的分散版本,这是多代理路径查找的一种变体,旨在为多个代理规划无碰撞路径,其双重目标是快速实现目标,同时保持所需的编队。代理人必须在部分观察和有限沟通的条件下平衡这些目标。编队维持取决于所有智能体的联合状态,其维度随着智能体数量呈指数级增长,使得学习过程变得棘手。此外,学习可以适应这两个目标的不同线性偏好的单一策略提出了重大挑战。在本文中,我们提出了带有包络$Q$学习的平均场控制(MFC-EQ),这是一个针对这种双目标多智能体问题的可扩展且适应性强的学习框架。我们使用平均场理论来近似所有智能体的动态,同时通过包络 $Q$ 学习来学习通用的偏好不可知策略。我们在众多实例中对 MFC-EQ 的实证评估表明,它的性能优于最先进的集中式 MAiF 基线。此外,MFC-EQ 可以有效处理更复杂的场景,其中所需的队形会动态变化,这是现有 MAiF 规划人员无法解决的挑战。
基于李亚普诺夫的飞行过程中稳定闭环固定姿态误差四元数选择切换方案
分类: 机器人技术, 系统与控制, 系统与控制
作者: Francisco M. F. R. Goncalves, Ryan M. Bena, Konstantin I. Matveev, Nestor O. Perez-Arancibia
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.12054v1
摘要: 我们提出了一种切换方案,它使用姿态误差四元数(AEQ)和角速度误差来控制无人驾驶飞行器(UAV)在飞行过程中的旋转自由度。在这种方法中,所提出的控制器不断选择稳定的闭环 (CL) 平衡 AEQ,该 AEQ 对应于使用两个基于能量的 Lyapunov 函数计算的成本之间的最小成本。为了分析和增强 CL 开关动态的稳定性,我们使用基本的非线性理论。这个研究问题是相关的,因为稳定的 CL 平衡 AEQ 的选择直接决定了受控无人机在飞行过程中的功率和能量需求。为了测试和演示所提出方法的实施、适用性、功能和性能,我们展示了使用 31 克四旋翼飞行器获得的实验结果,该四旋翼飞行器被控制以在飞行中执行高速偏航机动。这些飞行测试表明,与常用的基准控制器相比,所提出的切换控制器平均可以分别减少控制工作量和旋转功率高达 49.75% 和 28.14%。
用于长期语言引导移动操作的动态开放词汇 3D 场景图
分类: 机器人技术
作者: Zhijie Yan, Shufei Li, Zuoxu Wang, Lixiu Wu, Han Wang, Jun Zhu, Lijiang Chen, Jihong Liu
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11989v2
摘要: 使移动机器人能够在动态的现实环境中执行长期任务是一项艰巨的挑战,特别是当环境因人机交互或机器人自身行为而频繁变化时。传统方法通常假设静态场景,这限制了它们在不断变化的现实世界中的适用性。为了克服这些限制,我们提出了 DovSG,这是一种新颖的移动操作框架,它利用动态开放词汇 3D 场景图和语言引导的任务规划模块来执行长期任务。 DovSG 以 RGB-D 序列作为输入,并利用视觉语言模型(VLM)进行对象检测,以获得高级对象语义特征。基于分割的对象,为低级空间关系生成结构化 3D 场景图。此外,用于本地更新场景图的有效机制允许机器人在交互过程中动态调整图的部分,而不需要完整的场景重建。这种机制在动态环境中尤其有价值,使机器人能够不断适应场景变化,有效支持长期任务的执行。我们通过不同程度的手动修改在现实环境中验证了我们的系统,证明了其在长期任务中的有效性和卓越性能。我们的项目页面位于:https://BJHYZJ.github.io/DoviSG。
一种基于图的在线自学习自动驾驶汽车横向控制器
分类: 机器人技术
作者: Jilan Samiuddin, Benoit Boulet, Di Wu
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11979v1
摘要: 过去几年,围绕自动驾驶汽车的炒作不断升温,并引发了大量研究。自动驾驶汽车的多个模块都经过深入研究,以确保安全性、舒适性和效率,其中控制器至关重要。控制器模块可分为纵向控制器和横向控制器,前者的任务是跟随参考速度,后者的任务是减少相对于参考路径的横向位移误差。通常,经过调整的控制器不足以在所有环境中执行。因此,自动驾驶需要一个能够适应不断变化的条件的控制器。此外,这些控制器通常依赖于车辆模型,这些车辆模型也需要随着时间的推移而适应环境的变化。本文使用图来展示在线学习车辆模型和横向控制器的新技术。首先,呈现一个异构图,描述车辆的当前状态和输入。然后使用已知的物理约束并通过图神经网络结构对图进行处理来在线学习车辆模型。接下来,另一个异构图(描述从当前状态到所需状态的转变)通过另一个图神经网络结构进行处理,以动态生成转向命令。最后,这种基于自学习模型的横向控制器的性能在名为 CARLA 的开源自动驾驶平台上进行了评估,结果显示令人满意。
对比触摸预训练
分类: 机器人技术
作者: Samanta Rodriguez, Yiming Dou, William van den Bogert, Miquel Oller, Kevin So, Andrew Owens, Nima Fazeli
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11834v1
摘要: 当今的触觉传感器具有多种不同的设计,这使得开发处理触摸信号的通用方法具有挑战性。在本文中,我们学习了一种统一的表示形式,可以捕获不同触觉传感器之间的共享信息。与当前专注于重建或特定任务监督的方法不同,我们利用对比学习将来自两个不同传感器的触觉信号集成到共享嵌入空间中,使用多个传感器探测相同对象的数据集。我们将此方法应用于来自 GelSlim 和 Soft Bubble 传感器的配对触摸信号。我们表明,我们学习的特征为下游姿态估计和分类任务提供了强大的预训练。我们还表明,我们的嵌入使得使用一个触摸传感器训练的模型可以使用另一个触摸传感器进行部署,而无需额外的训练。项目详情请访问 https://www.mmintlab.com/research/cttp/。
减轻复杂 Q 函数中确定性策略梯度的次优性
分类: 机器学习, 人工智能, 机器人技术, 机器学习
作者: Ayush Jain, Norio Kosaka, Xinhu Li, Kyung-Min Kim, Erdem Bıyık, Joseph J. Lim
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11833v1
摘要: 在强化学习中,像 DDPG 和 TD3 这样的非策略行为批评方法是基于确定性策略梯度的。在此,Q 函数是根据离策略环境数据进行训练的,并且参与者(策略)经过训练以通过梯度上升来最大化 Q 函数。我们观察到,在灵巧操作和受限运动等复杂任务中,Q 值是动作的复杂函数,具有多个局部最优值或不连续性。这对梯度上升遍历提出了挑战,并使参与者容易陷入局部最优。为了解决这个问题,我们引入了一种新的参与者架构,它结合了两个简单的见解:(i)使用多个参与者并评估 Q 值最大化动作,以及(ii)学习 Q 函数的代理,这些代理更容易使用梯度进行优化 -为基础的方法。我们评估了诸如受限运动、灵巧操作和大型离散动作空间推荐系统等任务,并表明我们的参与者更频繁地找到最佳动作,并且优于替代参与者架构。
通过 Lipschitz 约束策略学习平滑的人形运动
分类: 机器人技术, 人工智能
作者: Zixuan Chen, Xialin He, Yen-Jen Wang, Qiayuan Liao, Yanjie Ze, Zhongyu Li, S. Shankar Sastry, Jiajun Wu, Koushil Sreenath, Saurabh Gupta, Xue Bin Peng
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11825v1
摘要: 强化学习与模拟到真实的迁移相结合,为开发腿式机器人的运动控制器提供了通用框架。为了促进在现实世界中的成功部署,通常采用平滑技术(例如低通滤波器和平滑奖励)来开发具有平滑行为的策略。然而,由于这些技术是不可微的,并且通常需要对大量超参数进行繁琐的调整,因此它们往往需要对每个机器人平台进行大量的手动调整。为了应对这一挑战并建立一种强制执行平稳行为的通用技术,我们提出了一种简单而有效的方法,该方法对学习策略施加 Lipschitz 约束,我们将其称为 Lipschitz 约束策略(LCP)。我们证明了 Lipschitz 约束可以以梯度惩罚的形式实现,它提供了一个可微分的目标,可以轻松地与自动微分框架合并。我们证明,LCP 有效地取代了对平滑奖励或低通滤波器的需求,并且可以轻松集成到许多不同的人形机器人的训练框架中。我们在模拟和现实世界的人形机器人中广泛评估 LCP,产生平滑且强大的运动控制器。所有模拟和部署代码以及完整的检查点都可以在我们的项目页面上找到:https://lipschitz-constrained-policy.github.io。
双足人形机器人在水平和垂直运动未知的表面上行走的自适应踝关节扭矩控制
分类: 机器人技术
作者: Jacob Stewart, I-Chia Chang, Yan Gu, Petros A. Ioannou
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11799v1
摘要: 由于机器人的混合、时变、部分未知的动力学以及精确状态和表面运动估计的困难,在未知运动的表面上实现稳定的双足行走仍然是一个具有挑战性的控制问题。表面运动给步行机器人动力学中的系统参数和非均匀扰动带来了不确定性。在本文中,我们设计了一种自适应脚踝扭矩控制器来同时解决这两个不确定性,并提出了一种步长规划器来最小化所需的控制扭矩。通常,自适应控制器用于连续系统。为了对步行机器人等混合系统应用自适应控制,引入了中间命令配置文件以确保连续误差系统。对平面双足机器人的仿真以及与基线控制器的比较表明,所提出的方法有效地确保了在未知的时变干扰下的稳定行走和准确跟踪。
OKAMI:通过单个视频模仿教授人形机器人操作技能
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习
作者: Jinhan Li, Yifeng Zhu, Yuqi Xie, Zhenyu Jiang, Mingyo Seo, Georgios Pavlakos, Yuke Zhu
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11792v1
摘要: 我们研究通过模仿单个视频演示来教授人形机器人操作技能的问题。我们介绍 OKAMI,这是一种从单个 RGB-D 视频生成操纵计划并导出执行策略的方法。我们方法的核心是对象感知重定向,它使人形机器人能够模仿 RGB-D 视频中的人类动作,同时在部署过程中调整到不同的对象位置。 OKAMI 使用开放世界视觉模型来识别与任务相关的物体,并分别重新定位身体运动和手部姿势。我们的实验表明,OKAMI 在不同的视觉和空间条件下实现了很强的泛化,超越了开放世界观察模仿的最先进基线。此外,OKAMI 推出轨迹用于训练闭环视觉运动策略,无需劳动密集型远程操作即可实现 79.2% 的平均成功率。更多视频可以在我们的网站 https://ut-austin-rpl.github.io/OKAMI/ 上找到。
潜在 BKI:具有可量化不确定性的视觉语言潜在空间中的开放字典连续映射
分类: 计算机视觉和模式识别, 机器人技术
作者: Joey Wilson, Ruihan Xu, Yile Sun, Parker Ewen, Minghan Zhu, Kira Barton, Maani Ghaffari
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11783v1
摘要: 本文介绍了一种新颖的概率映射算法 Latent BKI,它能够实现具有可量化不确定性的开放词汇表映射。传统上,语义映射算法专注于一组固定的语义类别,这限制了它们对复杂机器人任务的适用性。视觉语言(VL)模型最近作为一种在潜在空间中联合建模语言和视觉特征的技术而出现,使得语义识别超出了预定义的、固定的语义类集。潜在 BKI 经常将 VL 模型的神经嵌入合并到具有可量化不确定性的体素图中,通过贝叶斯核推理 (BKI) 利用附近观测值的空间相关性。在流行的 MatterPort-3D 和 Semantic KITTI 数据集上,针对类似的显式语义映射和 VL 映射框架对潜在 BKI 进行了评估,表明潜在 BKI 保持了连续映射的概率优势以及开放字典查询的额外优势。现实世界的实验证明了其适用于具有挑战性的室内环境。
具有柔软不对称手臂的章鱼游泳机器人
分类: 机器人技术
作者: Bobing Zhang, Yiyuan Zhang, Yiming Li, Sicheng Xuan, Hong Wei Ng, Yuliang Liufu, Zhiqiang Tang, Cecilia Laschi
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11764v1
摘要: 水下航行器在过去七十年中取得了长足的发展。然而,仿生推进机器人仍处于早期阶段,需要生物学家和机器人学家之间加强跨学科合作。章鱼是最聪明的海洋动物之一,在用手臂游泳时表现出非凡的能力,例如伪装、探索和狩猎。尽管仿生机器人研究人员的目标是复制这些能力,但设计八臂仿生游泳平台的复杂性从一开始就构成了挑战。在这项工作中,我们提出了一种新型仿生机器人游泳平台,该平台将不对称被动变形臂与伞状快速返回机构相结合。该设计仅使用两个简单的恒速电机,通过复制章鱼般的手臂运动和划水时间比率来实现高效游泳。机器人在第二次动力冲程中达到了 314 毫米/秒的峰值速度。这种设计降低了传统章鱼游泳机器人驱动系统的复杂性,同时保持良好的游泳性能。它为生物学家和机器人专家提供了一个更容易实现和更高效的平台,以进行更深入的受章鱼启发的机器人和生物学研究。
视频中的潜在动作预训练
分类: 机器人技术, 计算和语言, 计算机视觉和模式识别, 机器学习
作者: Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11758v1
摘要: 我们引入了通用动作模型(LAPA)的潜在动作预训练,这是一种在没有地面实况机器人动作标签的情况下预训练视觉-语言-动作(VLA)模型的无监督方法。现有的视觉-语言-动作模型需要通常由人类远程操作员在预训练期间收集的动作标签,这极大地限制了可能的数据源和规模。在这项工作中,我们提出了一种从没有机器人动作标签的互联网规模视频中学习的方法。我们首先利用基于 VQ-VAE 的目标训练动作量化模型来学习图像帧之间的离散潜在动作,然后预训练潜在 VLA 模型以根据观察和任务描述预测这些潜在动作,最后在小型机器人上微调 VLA操纵数据以将潜在动作映射到机器人动作。实验结果表明,我们的方法明显优于从大规模视频中训练机器人操作策略的现有技术。此外,它优于在现实世界的操作任务上使用机器人动作标签训练的最先进的 VLA 模型,这些任务需要语言调节、对不可见物体的泛化以及对不可见指令的语义泛化。仅针对人类操作视频的训练也显示出积极的迁移,开启了利用网络规模数据用于机器人基础模型的潜力。
通过 Transformer 多模态学习生成可推广的航天器轨迹
分类: 机器人技术, 人工智能, 优化与控制
作者: Davide Celestini, Amirhossein Afsharrad, Daniele Gammelli, Tommaso Guffanti, Gioele Zardini, Sanjay Lall, Elisa Capello, Simone D'Amico, Marco Pavone
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11723v1
摘要: 有效的轨迹生成对于可靠的星载航天器自主性至关重要。在其他方法中,基于学习的热启动代表了解决轨迹生成问题的一种有吸引力的范例,有效地结合了优化和数据驱动方法的优点。当前基于学习的轨迹生成方法通常侧重于固定的单一场景环境,其中关键场景特征(例如障碍物位置或最终时间要求)在问题实例中保持不变。然而,实际的轨迹生成需要频繁地重新配置场景,使得单一场景方法成为潜在不切实际的解决方案。为了应对这一挑战,我们提出了一种新颖的轨迹生成框架,通过利用能够从多模态数据源学习的高容量变压器神经网络,该框架可以泛化不同的问题配置。具体来说,我们的方法将基于变压器的神经网络模型集成到轨迹优化过程中,通过以下方式编码场景级信息(例如障碍物位置、初始状态和目标状态)和轨迹级约束(例如时间范围、燃油消耗目标)多模态表示。然后,变压器网络为非凸优化问题生成接近最优的初始猜测,从而显着提高收敛速度和性能。该框架通过在自由飞行平台上进行的广泛模拟和真实实验进行了验证,与传统方法相比,成本降低了 30%,不可行的情况减少了 80%,并在不同的场景变化中展示了强大的泛化能力。
用于微创手术中多视角图像采集和 3D 重建的机械臂平台
分类: 机器人技术, 计算机视觉和模式识别
作者: Alexander Saikia, Chiara Di Vece, Sierra Bonilla, Chloe He, Morenike Magbagbeola, Laurent Mennillo, Tobias Czempiel, Sophia Bano, Danail Stoyanov
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11703v1
摘要: 微创手术 (MIS) 具有显着的优势,例如缩短恢复时间和最大限度地减少患者创伤,但在可见性和可及性方面提出了挑战,这使得精确的 3D 重建成为手术规划和导航的重要工具。这项工作介绍了一个机械臂平台,可在 MIS 设置中实现高效的多视图图像采集和精确的 3D 重建。我们将腹腔镜安装到机械臂上,并在不同的照明条件(手术室和腹腔镜)和轨迹(球形和腹腔镜)下捕获了多个绵羊器官的离体图像。我们采用最近发布的基于学习的特征匹配器与 COLMAP 相结合来生成我们的重建。根据高精度激光扫描对重建进行评估以进行定量评估。我们的结果表明,虽然重建在真实的 MIS 照明和轨迹下受到的影响最大,但我们管道的许多版本都实现了接近亚毫米的精度,平均均方根误差为 1.05 毫米,倒角距离为 0.82 毫米。我们最好的重建结果是在手术室照明和球形轨迹的情况下实现的。我们的机器人平台提供了一种用于在 MIS 环境中进行 3D 生成的受控、可重复的多视图数据采集工具,我们希望能够为训练基于学习的模型带来新的数据集。
训练时的安全过滤:提高强化学习代理的性能和样本效率
分类: 机器人技术, 机器学习, 系统与控制, 系统与控制
作者: Federico Pizarro Bejarano, Lukas Brunke, Angela P. Schoellig
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11671v1
摘要: 强化学习 (RL) 控制器灵活且高性能,但很少保证安全性。安全滤波器为 RL 控制器提供严格的安全保证,同时保持灵活性。然而,由于控制器和安全滤波器之间的分离,安全滤波器可能会导致不良行为,通常会降低性能和鲁棒性。在本文中,我们提出了一些修改,将安全滤波器合并到训练 RL 控制器中,而不是仅仅在评估过程中应用它。这些修改使 RL 控制器能够学习考虑安全滤波器,从而提高性能。此外,我们的修改显着提高了样本效率并消除了训练时间约束违规。我们使用 Crazyflie 2.0 无人机在模拟和真实实验中验证了所提出的修改。在实验中,我们表明,与标准 RL 训练相比,所提出的训练方法需要的环境交互显着减少,性能提高高达 20%。
通过域收缩的鲁棒操作原始学习
分类: 机器人技术
作者: Teng Xue, Amirreza Razmjoo, Suhan Shetty, Sylvain Calinon
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11600v1
摘要: 丰富的接触操作在人类日常活动中发挥着重要作用,但不确定的参数对机器人通过规划和控制实现可比较的性能提出了重大挑战。为了解决这个问题,域适应和域随机化被提出来进行鲁棒的策略学习。然而,它们要么失去跨不同实例的泛化能力,要么由于忽略特定于实例的信息而表现得保守。在本文中,我们提出了一种双层方法来学习鲁棒的操作原语,包括使用多个模型的参数增强策略学习,以及通过域收缩进行参数条件策略检索。这种方法统一了域随机化和域适应,在保持泛化能力的同时提供最佳行为。我们在三种接触丰富的操作原语上验证了所提出的方法:击打、推动和重新定向。实验结果展示了我们的方法在为具有不同物理参数的实例生成稳健策略方面的卓越性能。
DeformPAM:通过基于偏好的动作对齐进行长视野可变形对象操纵的数据高效学习
分类: 机器人技术, 人工智能, 计算机视觉和模式识别
作者: Wendi Chen, Han Xue, Fangyuan Zhou, Yuan Fang, Cewu Lu
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11584v1
摘要: 近年来,模仿学习在机器人操纵领域取得了进展。然而,在处理复杂的长视界可变形物体任务时,例如高维状态空间、复杂动力学和多模态动作分布,它仍然面临挑战。传统的模仿学习方法通常需要大量数据,并且在这些任务中会遇到分布变化和累积误差。为了解决这些问题,我们提出了一种基于偏好学习和奖励引导的行动选择的数据高效通用学习框架(DeformPAM)。 DeformPAM 将长视野任务分解为多个动作原语,利用 3D 点云输入和扩散模型对动作分布进行建模,并使用人类偏好数据训练隐式奖励模型。在推理阶段,奖励模型对多个候选动作进行评分,选择最佳动作执行,从而减少异常动作的发生,提高任务完成质量。对三个具有挑战性的现实世界长视可变形物体操纵任务进行的实验证明了该方法的有效性。结果表明,即使数据有限,与基线方法相比,DeformPAM 也能提高任务完成质量和效率。代码和数据可在 https://deform-pam.robotflow.ai 上获取。
SDS——看、做、排序:单个视频演示的四足动物技能综合
分类: 机器人技术
作者: Jeffrey Li, Maria Stamatopoulou, Dimitrios Kanoulas
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11571v1
摘要: 在本文中,我们提出了 SDS(“看它。做它。排序。”),这是一种通过单个演示视频直观学习四足技能的新颖管道。利用 GPT-4o 的视觉功能,SDS 通过我们新颖的思想链促进技术 (SUS) 处理输入视频,并通过学习近端策略优化 (PPO) 生成可执行的奖励函数 (RF),驱动运动技能的模仿)基于强化学习(RL)策略,使用来自 NVIDIA IsaacGym 模拟器的环境信息。 SDS 通过监控各个奖励组件并将训练片段和健身指标提供回 GPT-4o 来自动评估 RF,然后提示 GPT-4o 改进 RF,以在每次迭代中实现更高的任务健身。我们在 Unitree Go1 机器人上验证了我们的方法,展示了其执行小跑、弹跳、踱步和跳跃等多种技能的能力,实现了高模仿保真度和运动稳定性。 SDS 在任务适应性方面比 SOTA 方法有所改进,减少了对特定领域知识的依赖,并绕过了对劳动密集型奖励工程和大规模训练数据集的需求。其他信息和开源代码可以在以下位置找到:https://rpl-cs-ucl.github.io/SDSweb
数据驱动的主动式自主赛车框架,利用局部轨迹规划和速度预测
分类: 机器人技术, 系统与控制, 系统与控制
作者: Zhouheng Li, Bei Zhou, Cheng Hu, Lei Xie, Hongye Su
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11570v1
摘要: 自动驾驶的发展推动了自动驾驶赛车的研究。然而,现有的局部轨迹规划方法很难在有尖角的赛道上规划具有最佳速度剖面的轨迹,从而削弱了自动驾驶赛车的性能。为了解决这个问题,我们提出了一种基于模型预测轮廓控制(VPMPCC)的集成速度预测的局部轨迹规划方法。 VPMPCC 的最佳参数是通过贝叶斯优化 (BO) 学习的,该优化基于提出的适合赛车 (OFR) 的新颖目标函数。具体来说,VPMPCC 通过将赛道编码为参考速度曲线并将其纳入优化问题来实现速度预测。该方法优化了局部轨迹的速度分布,特别是在曲率较大的拐角处。拟议的 OFR 平衡了赛车性能和车辆安全,确保安全高效的 BO 训练。在模拟中,与最先进的方法相比,基于 OFR 的 BO 的训练迭代次数减少了 42.86%。然后,将经过仿真训练的最佳参数应用于现实世界的 F1TENTH 车辆,而无需重新训练。在具有明显急弯的定制赛道上进行长时间比赛时,VPMPCC 的平均速度达到车辆操控极限的 93.18%。发布的代码可在https://github.com/zhouhengli/VPMPCC获取。
PAVLM:通过视觉语言模型推进基于点云的功能可供理解
分类: 机器人技术, 计算机视觉和模式识别
作者: Shang-Ching Liu, Van Nhiem Tran, Wenkai Chen, Wei-Lun Cheng, Yen-Lin Huang, I-Bin Liao, Yung-Hui Li, Jianwei Zhang
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11564v1
摘要: 可供性理解是识别 3D 对象上可操作区域的任务,在允许机器人系统与物理世界互动和操作方面发挥着至关重要的作用。尽管视觉语言模型 (VLM) 在机器人操作的高级推理和长期规划方面表现出色,但它们在掌握有效人机交互所需的细微物理属性方面仍然存在不足。在本文中,我们介绍了 PAVLM(点云可供性视觉语言模型),这是一种创新框架,利用预训练语言模型中嵌入的广泛多模态知识来增强对点云的 3D 可供性理解。 PAVLM 将几何引导传播模块与大型语言模型 (LLM) 的隐藏嵌入集成在一起,以丰富视觉语义。在语言方面,我们提示 Llama-3.1 模型生成精炼的上下文感知文本,通过更深层次的语义线索增强教学输入。 3D-AffordanceNet 基准测试的实验结果表明,PAVLM 在完整点云和部分点云方面均优于基线方法,特别是在对 3D 对象的新颖开放世界可供性任务的泛化方面表现出色。欲了解更多信息,请访问我们的项目网站:pavlm-source.github.io。
LogS:通过高斯分布以更少的训练图像进行视觉定位
分类: 计算机视觉和模式识别, 机器人技术
作者: Yuzhou Cheng, Jianhao Jiao, Yue Wang, Dimitrios Kanoulas
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11505v1
摘要: 视觉定位涉及估计查询图像的 6-DoF(自由度)相机姿态,这是各种计算机视觉和机器人任务的基本组成部分。本文介绍了 LoGS,这是一种基于视觉的定位管道,利用 3D 高斯泼溅 (GS) 技术作为场景表示。这种新颖的表示方式可以实现高质量的新颖视图合成。在映射阶段,首先应用运动结构 (SfM),然后生成 GS 映射。定位时,通过图像检索、局部特征匹配结合PnP求解器获得初始位置,然后在GS地图上通过综合分析的方式获得高精度位姿。四个大型数据集的实验结果证明了所提出的方法在估计相机姿态方面的 SoTA 准确性以及在具有挑战性的少镜头条件下的鲁棒性。
NavTopo:利用拓扑图进行移动机器人的自主导航
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, I.2.9; I.2.10
作者: Kirill Muravyev, Konstantin Yakovlev
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11492v1
摘要: 移动机器人的自主导航是一项具有挑战性的任务,需要绘图、定位、路径规划和路径跟踪的能力。传统的建图方法会构建像占用网格一样的密集度量地图,该地图会受到里程计误差累积的影响,并在大型环境中消耗大量内存和计算量。另一种映射方法是使用拓扑属性,例如环境中位置的邻近性。拓扑图不易出现里程计误差积累和高资源消耗,并且由于图的稀疏性,还可以实现快速路径规划。基于这个想法,我们提出了NavTopo——基于拓扑图和两级路径规划的完整导航管道。该管道通过匹配神经网络描述符和输入点云的二维投影来在图中进行定位,与基于度量和拓扑点云的方法相比,这显着减少了内存消耗。我们在大型室内照片真实模拟环境中测试我们的方法,并将其与基于流行度量映射方法 RTAB-MAP 的基于度量映射的方法进行比较。实验结果表明,我们的拓扑方法在性能方面明显优于度量方法,并保持了适当的导航效率。
M2Diffuser:基于扩散的轨迹优化,用于 3D 场景中的移动操作
分类: 机器人技术
作者: Sixu Yan, Zeyu Zhang, Muzhi Han, Zaijin Wang, Qi Xie, Zhitian Li, Zhehan Li, Hangxin Liu, Xinggang Wang, Song-Chun Zhu
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11402v1
摘要: 扩散模型的最新进展为实体人工智能代理和机器人的研究开辟了新的途径。尽管在复杂的机器人运动和技能方面取得了重大成就,但移动操纵(一种需要协调导航和操纵的能力)仍然是生成人工智能技术的挑战。这主要是由于高维动作空间、扩展的运动轨迹以及与周围环境的相互作用。在本文中,我们介绍了 M2Diffuser,这是一种基于扩散的场景条件生成模型,可直接生成协调且高效的全身运动轨迹,用于基于以机器人为中心的 3D 扫描的移动操纵。 M2Diffuser 首先从专家规划者提供的移动操纵轨迹中学习轨迹级分布。至关重要的是,它包含一个优化模块,可以在推理过程中灵活地适应物理约束和任务目标,建模为成本和能量函数。这使得能够以完全可微分的方式减少每个去噪步骤的物理违规和执行错误。通过对 20 多个场景中的三种类型的移动操作任务进行基准测试,我们证明 M2Diffuser 的性能优于最先进的神经规划器,并成功地将生成的轨迹传输到现实世界的机器人。我们的评估强调了生成式人工智能在增强传统规划和基于学习的机器人方法的泛化方面的潜力,同时也强调了强制物理约束对于安全和稳健执行的关键作用。
LLM2Swarm:通过大语言模型进行响应式推理、规划和协作的机器人群
分类: 机器人技术
作者: Volker Strobel, Marco Dorigo, Mario Fritz
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11387v1
摘要: 机器人群由许多简单的机器人组成,它们通过通信和协作来完成复杂的任务。机器人控制器通常需要由专家根据具体情况通过编程代码指定。这个过程非常耗时,容易出错,并且无法考虑到部署过程中可能遇到的所有情况。另一方面,最近的大型语言模型(LLM)已经展示了推理和规划能力,引入了与机器交互和编程的新方法,并表示领域和常识知识。因此,我们建议通过将大语言模型与机器人群集成来解决上述挑战,并展示概念验证(展示)的潜力。对于这种集成,我们探索了两种方法。第一种方法是“间接集成”,其中大语言模型用于综合和验证机器人控制器。这种方法可以减少部署前的开发时间和人为错误。此外,在部署过程中,它可以用于动态创建新的机器人行为。第二种方法是“直接集成”,每个机器人在部署过程中本地执行一个单独的 LLM 实例,以实现机器人与机器人协作和人类与群体交互。这些本地 LLM 实例使每个机器人能够使用自然语言进行推理、计划和协作。为了进一步研究我们的主要概念贡献,我们发布了 LLM2Swarm 系统的软件和视频:https://github.com/Pold87/LLM2Swarm。
迈向无局部极小值的机器人导航:通过排斥势增强进行模型预测路径积分控制
分类: 机器人技术
作者: Takahiro Fuke, Masafumi Endo, Kohei Honda, Genya Ishigami
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11379v1
摘要: 基于模型的控制是机器人导航的重要组成部分。然而,由于其作为有限的、短视的优化过程的固有性质,它经常陷入局部极小值的困境。先前的研究已经解决了这个问题,但由于其反应性或在生成主动指导的显式路径时的计算效率而牺牲了解决方案质量。为此,我们提出了一种运动规划方法,可以在没有全局路径指导的情况下主动避免局部极小值。关键思想是排斥势增强,通过人工势场将高级方向信息集成到模型预测路径积分控制中作为单个排斥项。我们通过理论分析和在具有引起局部最小值的障碍的环境中进行模拟来评估我们的方法。结果表明,我们的方法保证了避免局部极小值,并且在全局最优性方面优于现有方法,而不会降低计算效率。
适应不同用户群体的人机交互框架
分类: 机器人技术, 计算和语言, 人机交互
作者: Theresa Pekarek Rosin, Vanessa Hassouna, Xiaowen Sun, Luca Krohm, Henri-Leon Kordt, Michael Beetz, Stefan Wermter
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11377v1
摘要: 为了促进在现实世界中与不同用户群体进行自然、直观的交互,社交机器人必须能够满足这些群体的不同需求和期望,同时根据用户反馈调整其行为。虽然之前的研究通常侧重于特定的人口统计数据,但我们提出了一种自适应人机交互(HRI)的新颖框架,该框架可以根据不同的用户组定制交互,并使单个用户能够通过轻微和主要的中断来调节交互。我们的主要贡献包括开发具有开源代码库的自适应、基于 ROS 的 HRI 框架。该框架通过高级语音识别和语音活动检测支持自然交互,并利用大型语言模型 (LLM) 作为对话桥梁。我们通过模块测试和系统试验来验证框架的效率,证明其在年龄识别方面的高精度及其对重复用户输入和计划更改的鲁棒性。
DODT:通过梦想家的演员-评论家轨迹预测增强在线决策变压器学习
分类: 机器学习, 机器人技术, 机器学习
作者: Eric Hanchen Jiang, Zhi Zhang, Dinghuai Zhang, Andrew Lizarraga, Chenheng Xu, Yasi Zhang, Siyan Zhao, Zhengjie Xu, Peiyu Yu, Yuer Tang, Deqian Kong, Ying Nian Wu
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11359v1
摘要: 强化学习的进步导致了能够学习复杂决策任务的复杂模型的发展。然而,有效地将世界模型与决策转换器集成仍然是一个挑战。在本文中,我们介绍了一种新颖的方法,它将 Dreamer 算法生成预期轨迹的能力与 Online Decision Transformer 的自适应学习优势相结合。我们的方法支持并行训练,其中 Dreamer 生成的轨迹增强了 Transformer 的上下文决策,从而创建了双向增强循环。我们凭经验证明了我们的方法在一系列具有挑战性的基准上的有效性,与现有方法相比,在样本效率和奖励最大化方面取得了显着改进。我们的结果表明,所提出的集成框架不仅加速了学习,而且展示了在多样化和动态场景中的鲁棒性,标志着基于模型的强化学习向前迈出了重要一步。
GSORB-SLAM:高斯泼溅 SLAM 受益于 ORB 特征和透射率信息
分类: 机器人技术
作者: Wancai Zheng, Xinyi Yu, Jintao Rong, Linlin Ou, Yan Wei, Libo Zhou
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11356v1
摘要: 3D Gaussian Splatting (3DGS) 的出现最近引发了新一轮密集视觉 SLAM 研究浪潮。然而,当前的方法面临着诸如对伪影和噪声的敏感性、训练视点的次优选择以及缺乏全局优化等挑战。在本文中,我们提出了一种密集 SLAM 系统,将 3DGS 与 ORB 特征紧密耦合。我们设计了一种联合优化方法,用于稳健跟踪并有效减少噪声和伪影的影响。这涉及将从累积透射率得出的新颖几何观察结果与从像素数据中提取的 ORB 特征相结合。此外,为了提高映射质量,我们提出了一种自适应高斯扩展和正则化方法,使高斯基元能够紧凑地表示场景。这与基于混合图的视点选择策略相结合,以减轻过度拟合效应并提高收敛质量。最后,我们的方法实现了紧凑且高质量的场景表示和准确的定位。 GSORB-SLAM 已在不同的数据集上进行了评估,表现出了出色的性能。该代码将可用。
用腿进行视觉操纵
分类: 机器人技术
作者: Xialin He, Chengjing Yuan, Wenxuan Zhou, Ruihan Yang, David Held, Xiaolong Wang
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11345v1
摘要: 动物使用四肢进行运动和操纵。我们的目标是为四足机器人配备类似的多功能性。这项工作介绍了一种系统,该系统使四足机器人能够利用腿部与物体进行交互,其灵感来自于非抓取操作。该系统有两个主要组件:视觉操纵策略模块和局部操纵器模块。视觉操纵策略通过使用点云观察和以对象为中心的动作的强化学习(RL)进行训练,决定腿部应如何与对象交互。机车控制器基于阻抗控制和模型预测控制(MPC)来管理腿部运动和身体姿势调整。除了用单腿操纵物体外,系统还可以根据批评图选择左腿或右腿,并通过基础调整将物体移动到远处的目标。实验评估了系统在模拟和现实世界中的物体姿态对齐任务,展示了比以前的工作更通用的腿部物体操纵技能。
使用区域充气和体积转移来设计兼具效率和耐磨性的基于织物的气动外装
分类: 机器人技术
作者: Chendong Liu, Dapeng Yang, Jiachen Chen, Yiming Dai, Li Jiang, Shengquan Xie, Hong Liu
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11341v1
摘要: 基于织物的气动外骨骼因其良好的人机交互性能而具有广阔的应用前景,但其结构设计范式尚未最终确定,需要深入研究。本文提出了区域充气和体积转移的概念,用于设计兼具效率和耐磨性的基于织物的气动外装。分区充气的含义是将气动外衣的充气区域分为充放气区和保压区,这样可以减少压缩空气的消耗,提高效率。体积转移是一种服装内部充气区域的策略分布方法,可以有效增强外装的耐磨性。该外装采用廉价的热塑性聚氨酯薄膜和服装面料,通过热压和缝制制成。该外骨骼响应时间为0.5秒,受力面积为1500mm2,外形仅32毫米,可以隐藏在普通衣服内。开发了一个数学模型来预测外装的输出扭矩,误差为 3.6%。力学实验表明,外骨骼在100kPa的压力下可输出9.1Nm的扭矩。表面肌电实验表明,外骨骼套装可以为用户提供从坐姿到站立的助力,肌电信号平均减少 14.95%。使用这些方法设计的外骨骼综合了效率和耐磨性,有望成为基于织物的气动外骨骼的理想范例。
DIAR:扩散模型引导的隐式 Q 学习与自适应重估
分类: 机器学习, 人工智能, 机器人技术
作者: Jaehyun Park, Yunho Kim, Sejin Kim, Byung-Jun Lee, Sundong Kim
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11338v1
摘要: 我们提出了一种新颖的离线强化学习(离线 RL)方法,引入了具有自适应重估(DIAR)框架的扩散模型引导的隐式 Q 学习。我们解决了离线强化学习中的两个关键挑战:分布外样本和长期问题。我们利用扩散模型来学习状态-动作序列分布,并结合价值函数以实现更加平衡和自适应的决策。 DIAR 引入了自适应重估机制,通过比较当前和未来的状态值来动态调整决策长度,从而实现灵活的长期决策。此外,我们通过将 Q 网络学习与扩散模型引导的价值函数相结合来解决 Q 值高估问题。扩散模型产生不同的潜在轨迹,增强政策的稳健性和泛化性。正如 Maze2D、AntMaze 和 Kitchen 等任务所证明的那样,DIAR 在长视野、稀疏奖励环境中始终优于最先进的算法。
解开无监督技能发现,实现高效的分层强化学习
分类: 机器学习, 机器人技术
作者: Jiaheng Hu, Zizhao Wang, Peter Stone, Roberto Martín-Martín
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11251v1
摘要: 智能代理的一个标志是能够纯粹从与环境的无监督交互中学习可重用的技能。然而,现有的无监督技能发现方法通常会学习纠缠技能,其中一个技能变量同时影响环境中的许多实体,使得下游技能链极具挑战性。我们提出了解缠结无监督技能发现(DUSDi),这是一种学习解缠结技能的方法,可以有效地重用该技能来解决下游任务。 DUSDi 将技能分解为分离的组件,其中每个技能组件仅影响状态空间的一个因素。重要的是,这些技能组件可以同时组合以生成低级操作,并通过分层强化学习有效链接以处理下游任务。 DUSDi 定义了一种新颖的基于互信息的目标,以强制解开不同技能组成部分的影响,并利用价值分解来有效地优化该目标。在一系列具有挑战性的环境中进行评估后,DUSDi 成功学习了分离的技能,并且在应用所学技能来解决下游任务时,显着优于以前的技能发现方法。代码和技能可视化位于 jiahenghu.github.io/DUSDi-site/。
仿生群体动态目标跟踪和避障
分类: 机器人技术, 神经和进化计算
作者: Lucas Page
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11237v1
摘要: 本研究提出了一种新型人工智能(AI)驱动的飞行计算机,集成了在线自由再训练预测模型、群体控制和避障策略,以使用分布式无人机群跟踪动态目标,用于军事应用。为了实现动态目标跟踪,集群需要轨迹预测能力来实现拦截,从而允许跟踪快速机动和运动,同时保持有效的路径规划。传统的预测方法,如曲线拟合或长短期记忆(LSTM),由于基于单智能体的轨迹预测收敛速度慢,鲁棒性较低,难以在短期内进行动态目标跟踪,并且通常需要大量的离线训练或调整才能有效。因此,本文引入了一种新颖的鲁棒自适应双向模糊大脑情绪学习预测(BFBEL-P)方法来应对这些挑战。该控制器集成了模糊接口、能够快速适应的神经网络、预测能力和多智能体求解功能,能够聚合多个解决方案,以在短期和长期内实现快速收敛时间和高精度。通过使用数值模拟来验证这一点,看到一群无人机预测和跟踪复杂的轨迹。这些模拟显示了短期内对最先进方法的适应性和准确性的提高,以及长期范围内的强大结果,从而实现了准确的群体目标跟踪和预测能力。
使用量子退火进行城市空中交通机队管理的路线和调度优化
分类: 量子物理学, 统计力学, 机器人技术
作者: Renichiro Haba, Takuya Mano, Ryosuke Ueda, Genichiro Ebe, Kohei Takeda, Masayoshi Terabe, Masayuki Ohzeki
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11231v1
摘要: 由于交通拥堵加剧及其对环境和经济的影响,城市空中交通(UAM)在城市交通和配送中的日益一体化加速了。有效管理城市中预期的高密度空中交通对于确保安全有效的运营至关重要。在本研究中,我们提出了一个路线和调度框架,以满足在城市地区运营的大量城市空中交通车辆的需求。使用数学优化技术,我们为车队规划高效且无冲突的路线。将路线规划制定为最大加权独立集问题使我们能够利用各种算法和专门的优化硬件,例如近年来取得了实质性进展的量子退火器。我们的方法使用专为新加坡空域定制的交通管理模拟器进行了验证。我们的方法通过在整个区域分配流量来提高空域利用率。这项研究拓宽了优化技术在 UAM 交通管理中的潜在应用。
动态环境中鲁棒机器人抓取的自监督学习
分类: 机器人技术
作者: Ankit Shaw
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11229v1
摘要: 动态环境中的一些威胁包括物体运动的不可预测性以及对机器人抓取的干扰。在这种情况下,传统的监督和强化学习方法并不适合,因为它们依赖于大量标记数据和预定义的奖励信号。更具体地说,在本文中,我们介绍了一个重要且有前途的框架,称为自监督学习(SSL),其目标是将 RGBD 传感器和来自机器人手的本体感受数据应用于机器人,以便让机器人实时学习和改进其抓取策略。不变SSL框架通过使SSL系统适应对象行为的变化并提高动态情况下的性能,克服了固定标签的缺陷。上述提出的方法通过各种模拟和现实世界试验进行了测试,该系列的抓取成功率比其他现有方法提高了 15%,特别是在动态场景下。此外,通过测试适应时间,证实该系统可以更快地适应,因此适用于现实世界,例如工业自动化和服务机器人。在未来的工作中,所提出的方法将扩展到更复杂的任务,例如杂乱环境中的多对象操纵和功能,以便将所提出的方法应用于更广泛的机器人任务。
RPCBF:通过策略控制屏障函数构建对错误和干扰建模具有鲁棒性的安全过滤器
分类: 优化与控制, 机器人技术
作者: Luzia Knoedler, Oswin So, Ji Yin, Mitchell Black, Zachary Serlin, Panagiotis Tsiotras, Javier Alonso-Mora, Chuchu Fan
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11157v1
摘要: 控制势垒函数 (CBF) 已被证明是对非线性系统执行安全控制综合的有效工具。然而,对于高相关度系统来说,在存在干扰和输入约束的情况下保证安全是一个难题。在这项工作中,我们提出了鲁棒策略 CBF (RPCBF),这是一种构建 CBF 近似的实用方法,该方法易于实现,并且通过价值函数的估计对干扰具有鲁棒性。我们证明了我们的方法在各种高相对度输入约束系统的模拟中的有效性。最后,我们通过将模型误差视为干扰,展示了 RPCBF 在补偿硬件四轴飞行器平台上的模型误差方面的优势。项目页面可以在 https://oswinso.xyz/rpcbf 找到。
使用高效的基于梯度的方法对基于自动机的目标进行运动规划
分类: 形式语言和自动机理论, 机器人技术
作者: Anand Balakrishnan, Merve Atasever, Jyotirmoy V. Deshmukh
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11156v1
摘要: 近年来,人们越来越关注使用基于形式化方法的技术来安全地实现临时任务,例如目标的定时序列或巡逻目标。此类任务通常以实时逻辑(例如信号时态逻辑(STL))来表达,从而将逻辑规范编码为优化问题。此类方法通常涉及对有界范围内的逻辑的定量语义或鲁棒性程度进行优化:语义可以被编码为混合整数线性约束或鲁棒性程度的平滑近似。这种方法的一个主要限制是它面临着时间复杂性方面的可扩展性挑战:例如,编码长期任务需要存储系统的整个历史记录。在本文中,我们以符号自动机目标的形式提出了此类任务的定量概括。具体来说,我们表明符号自动机可以表示为矩阵运算符,这些运算符有助于自动微分,从而允许使用现成的基于梯度的优化器。我们展示了这如何帮助解决存储任意长的系统轨迹的需求,同时有效地利用自动机中编码的任务结构。
潜在预测赋权:无需模拟器即可测量赋权
分类: 人工智能, 机器学习, 机器人技术
作者: Andrew Levy, Alessandro Allievi, George Konidaris
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.11155v1
摘要: 赋权有潜力帮助智能体学习大量技能,但还不是用于培训通用智能体的可扩展解决方案。最近的赋权方法通过最大化技能和状态之间的相互信息来学习不同的技能;然而,这些方法需要一个过渡动力学模型,在具有高维和随机观察的现实环境中学习该模型可能具有挑战性。我们提出了潜在预测赋权(LPE),这是一种可以以更实用的方式计算赋权的算法。 LPE 通过最大化目标来学习大型技能集,该目标是技能和状态之间相互信息的原则性替代,并且只需要更简单的潜在预测模型,而不是环境的完整模拟器。我们在各种环境中(包括具有高维观察和高度随机过渡动态的环境)凭经验证明,我们的赋权目标 (i) 学习与领先的赋权算法类似大小的技能,该算法假设可以访问过渡模型(ii) 优于其他基于模型的赋权方法。
生成传感器对象模型的具体主动学习
分类: 机器人技术
作者: Allison Pinosky, Todd D. Murphey
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.11130v1
摘要: 当机器人遇到新物体时,它应该如何反应$\unicode{x2014}$应该收集什么数据$\unicode{x2014}$以便将来能够找到该物体?在这项工作中,我们提出了一种学习未知数量新物体的图像特征的方法。为此,我们对新颖描述的潜在不确定性进行主动覆盖。我们应用遍历稳定性和 PAC-Bayes 理论将 VAE 的统计保证扩展到具体代理。我们用机械臂在硬件中演示了该方法;该管道也在模拟环境中实施。算法和模拟都是开源的,请参阅 http://sites.google.com/u.northwestern.edu/embodied-learning-hardware 。
HoloSpot:通过混合现实拖放进行直观的对象操作
分类: 机器人技术, 人机交互, I.2.9; H.5.2
作者: Pablo Soler Garcia, Petar Lukovic, Lucie Reynaud, Andrea Sgobbi, Federica Bruni, Martin Brun, Marc Zünd, Riccardo Bollati, Marc Pollefeys, Hermann Blum, Zuria Bauer
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.11110v1
摘要: 通过混合现实 (MR) 技术的人机交互可实现新颖、直观的界面来控制远程操作中的机器人。这种界面有助于在危险环境中进行操作,在危险环境中,人类的存在存在风险,但人类的监督仍然至关重要。潜在的环境包括灾难响应场景和高辐射或有毒化学品的区域。在本文中,我们提出了一个界面系统,将扫描房间的 3D 表示投影为缩小的“玩具屋”全息图,允许用户使用简单的拖放界面选择和操作对象。然后,我们基于最新的 Spot-Compose 框架将这些拖放用户命令转换为实时机器人动作。基于 Unity 的应用程序提供了交互式教程和用户友好的体验,确保了易用性。通过全面的端到端测试,我们验证了系统执行拾放任务的能力,并且补充的用户研究确认了界面的直观控制。我们的研究结果凸显了该界面在改善用户体验和运营效率方面的优势。这项工作为一个强大的框架奠定了基础,该框架提高了各种应用中无缝人机协作的潜力。论文网站:https://holospot.github.io/
我是什么?评估语言流畅性和任务能力对社交机器人感知的影响
分类: 机器人技术
作者: Shahira Ali, Haley N. Green, Tariq Iqbal
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.11085v1
摘要: 机器人能力的最新进展使它们能够在各种人类社会环境(HSE)中与人互动。在许多这样的环境中,机器人的感知通常取决于其能力,例如任务能力、语言流畅性等。为了在 HSE 中实现流畅的人机交互 (HRI),了解这些能力的影响至关重要关于机器人的感知。尽管许多工作分别研究了各种机器人能力对机器人感知的影响,但在本文中,我们提出了一项大规模 HRI 研究(n = 60),以研究语言流利度和任务能力对机器人感知的综合影响。一个机器人。结果表明,虽然语言流畅性在机器人语言能力的感知中可能比任务能力发挥更重要的作用,但语言流畅性和任务能力都有助于机器人智能和可靠性的感知。结果还表明,在满足期望和成为好队友的认知中,任务能力可能比语言流利程度发挥更重要的作用。这项研究的结果强调了社交 HRI 背景下语言流畅性和任务能力之间的关系,并将有助于未来开发更智能的机器人。
NAR-*ICP:基于经典 ICP 的点云配准算法的神经执行
分类: 机器人技术, 人工智能, 机器学习
作者: Efimia Panagiotaki, Daniele De Martini, Lars Kunze, Petar Veličković
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.11031v1
摘要: 本研究通过神经算法推理 (NAR) 框架探索神经网络与经典机器人算法的交叉点,允许通过学习执行神经网络来训练神经网络,使其像经典机器人算法一样进行有效推理。算法是机器人和安全关键应用不可或缺的一部分,因为它们通过逻辑和数学原理实现了可预测和一致的性能。相比之下,虽然神经网络具有高度适应性,可以处理复杂的高维数据并跨任务进行泛化,但它们的内部计算往往缺乏可解释性和透明度。我们提出了一种基于图神经网络(GNN)的学习框架 NAR-*ICP,它学习经典的基于 ICP 的点云配准算法的中间算法步骤,并用经典的机器人感知算法扩展 CLRS 算法推理基准。我们跨不同的数据集(从现实世界到合成数据集)评估我们的方法,展示其处理复杂和嘈杂输入的灵活性,以及作为更大学习系统一部分的潜力。我们的结果表明,我们的方法在所有基准测试和数据集上都实现了卓越的性能,甚至持续超越了它所训练的算法,进一步证明了其泛化能力超出了传统算法的能力。
GSRM:使用反应扩散系统构建查询高效和近乎最优路径规划的路线图
分类: 机器人技术
作者: Christian Henkel, Marc Toussaint, Wolfgang Hönig
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.11024v1
摘要: 在医疗保健、酒店和仓库自动化等应用中,移动机器人经常在路线图上导航,即边缘代表安全运动的图表。通常环境是准静态的,即构建一次路线图就足够了,然后将其用于任何未来的规划查询。路线图通常与图搜索算法一起使用来为机器人找到可行的路径。因此,路线图应该是良好连接的,图搜索应该产生具有短解决方案路径的接近最优的解决方案,同时具有计算效率以快速执行查询。我们提出了一种基于 Gray-Scott 反应扩散系统和 Delaunay 三角剖分构建路线图的新方法。我们的方法 GSRM 可以生成具有均匀分布的顶点和边的路线图,即使在具有挑战性的狭窄通道的环境中,这些路线图也能良好连接。根据经验,我们与 8 个连接网格生成的经典路线图、概率路线图(PRM、SPARS2)和优化路线图(ORM)进行比较。我们的结果表明,GSRM 始终能够生成连接良好、查询效率高且解决方案路径短的优质路线图。
离散地形上协作腿式局部操纵的安全关键运动规划
分类: 机器人技术
作者: Mohsen Sombolestan, Quan Nguyen
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.11023v1
摘要: 由于腿式机器人被部署在需要协作操纵的工业和自主建筑任务中,因此它们必须在保持稳定运动的同时处理物体操纵。在现实环境中,挑战会加剧,他们需要穿越离散的地形,避开障碍物,并与其他机器人协调以进行安全的局部操纵。这项工作解决了安全运动规划问题,以便在离散地形上协作操纵未知有效负载,同时避开障碍物。我们的方法使用两组模型预测控制器(MPC)作为运动规划器:全局 MPC 为团队生成避障的安全轨迹,而每个机器人的分散 MPC 确保在遵循全局轨迹时在离散地形上安全立足。然后,模型参考自适应全身控制器 (MRA-WBC) 跟踪所需路径,补偿未知有效负载的模型不确定性。我们在 Unitree 机器人团队中验证了我们的模拟和硬件方法。结果表明,我们的方法成功引导团队通过障碍路线,需要平面定位和高度调整,并且所有这些都发生在离散地形(例如踏脚石)上。
肌内高密度微电极阵列能够对脊髓运动神经元进行高精度解码和映射,以揭示手部控制
分类: 神经元和认知, 人机交互, 机器人技术, 信号处理
作者: Agnese Grison, Jaime Ibanez Pereda, Silvia Muceli, Aritra Kundu, Farah Baracat, Giacomo Indiveri, Elisa Donati, Dario Farina
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.11016v1
摘要: 解码神经系统活动是神经科学和神经接口领域的一个关键挑战。在这项研究中,我们提出了一种新颖的神经解码系统,可以对肌肉活动进行前所未有的大规模采样。使用嵌入前臂肌肉内的具有 100 多个通道的微电极阵列,我们记录了捕获多单元运动神经元活动的高密度信号。这种广泛的采样辅以先进的神经分解、分析和分类方法,使我们能够准确检测和解释支配手部肌肉的脊髓运动神经元的尖峰活动。我们在两名健康参与者身上评估了该系统,每名参与者的前臂均植入了三个肌电图 (EMG) 微电极阵列(每个包含 40 个电极)。这些阵列记录了单位数和多位数等长收缩期间的肌肉活动。我们首次在受控条件下证明,多位数任务会引发针对每个任务的独特运动神经元招募模式,而不是采用单位数任务的招募模式组合。这一观察结果使我们推测,可以根据解码的神经活动对手动任务进行高精度分类。我们在 12 个不同的单位数和多位数任务中实现了完美的分类准确度 (100%),并且在所有条件和主题上(最多 16 个任务类别)始终保持高精度 (>96%)。这些结果明显优于传统的肌电图分类方法。该系统的卓越性能为开发基于侵入式高密度肌电图技术的先进神经接口铺平了道路。这项创新可以极大地增强人机交互,并导致辅助技术的实质性改进,为临床应用中恢复运动功能提供新的可能性。
通过图像编辑将任务进度知识纳入机器人操作中的子目标生成
分类: 机器人技术
作者: Xuhui Kang, Yen-Ling Kuo
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.11013v1
摘要: 了解任务的进度不仅可以让人们跟踪已经完成的事情,还可以更好地规划未来的目标。我们演示了 TaKSIE,这是一种新颖的框架,它将任务进度知识融入到机器人操作任务的视觉子目标生成中。我们联合训练一个具有潜在扩散模型的循环网络,以根据机器人当前的观察和输入语言命令生成下一个视觉子目标。在执行时,机器人利用视觉进度表示来监控任务进度,并自适应地从模型中采样下一个视觉子目标来指导操作策略。我们在模拟和现实世界的机器人任务中训练和验证我们的模型,在 CALVIN 操纵基准上实现最先进的性能。我们发现,包含任务进度知识可以提高演示过程中针对不同初始机器人姿势或各种运动速度的训练策略的鲁棒性。该项目网站可以在 https://live-robotics-uva.github.io/TaKSIE/ 找到。
V2I-Calib++:城市交叉口多终端协同感知空间标定方法
分类: 机器人技术
作者: Qianxin Qu, Xinyu Zhang, Yijin Xiong, Shichun Guo, Ziqiang Song, Jun Li
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.11008v1
摘要: 城市十字路口行人和车辆交通密集,且高层建筑对 GPS 信号造成阻碍,是城市交通系统中最具挑战性的区域之一。由于缺乏全局交通流信息和对突发事件的响应能力,传统的单车智能系统在此类环境中往往表现不佳。车联网 (V2X) 技术通过车辆 (V2V) 和车辆与基础设施 (V2I) 之间的实时通信,提供了强大的解决方案。然而,实际应用仍面临诸多挑战。多端激光雷达系统中异构车辆和基础设施端点之间的校准对于确保感知系统数据的准确性和一致性至关重要。现有的多端标定方法大多依赖于定位系统提供的初始标定值,但城市峡谷中高层建筑导致的GPS信号不稳定对这些方法提出了严峻的挑战。针对这一问题,本文提出了一种新颖的多端激光雷达系统标定方法,该方法不需要定位先验来确定初始外部参数,并且满足实时性要求。我们的方法引入了创新的多端感知对象关联技术,利用新的总距离度量(oDist)来测量感知对象之间的空间关联,并将全局一致性搜索算法与最优传输理论有效地结合起来。通过这种方式,我们可以从对象关联结果中提取共同观察的目标,以进行进一步的外部参数计算和优化。在模拟数据集 V2X-Sim 和真实数据集 DAIR-V2X 上进行的广泛比较和消融实验证实了我们方法的有效性和效率。此方法的代码可以在以下位置访问:\url{https://github.com/MassimoQu/v2i-calib}。
具有改进的 3D 扩散策略的通用人形操纵
分类: 机器人技术, 计算机视觉和模式识别, 机器学习
作者: Yanjie Ze, Zixuan Chen, Wenhao Wang, Tianyi Chen, Xialin He, Ying Yuan, Xue Bin Peng, Jiajun Wu
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10803v1
摘要: 能够在不同环境下自主操作的人形机器人长期以来一直是机器人专家的目标。然而,人形机器人的自主操作在很大程度上仅限于某一特定场景,这主要是由于难以获得通用技能。 3D 视觉运动策略(例如 3D 扩散策略 (DP3))的最新进展已显示出将这些功能扩展到更野外环境的希望。然而,3D 视觉运动策略通常依赖于相机校准和点云分割,这给在类人机器人等移动机器人上的部署带来了挑战。在这项工作中,我们引入了改进的 3D 扩散策略 (iDP3),这是一种新颖的 3D 视觉运动策略,它通过利用以自我为中心的 3D 视觉表示来消除这些限制。我们证明,iDP3 使全尺寸人形机器人能够仅使用实验室收集的数据在不同的现实场景中自主执行技能。视频可访问:https:// humanoid-manipulation.github.io
用于点到平面误差最小化的概率简并检测
分类: 机器人技术
作者: Johan Hatleskog, Kostas Alexis
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10784v1
摘要: 众所周知,由无信息几何引起的简并会恶化基于激光雷达的定位和绘图。这项工作引入了一种新的概率方法来检测和减轻点到平面误差最小化中简并的影响。点到平面优化问题的 Hessian 矩阵上的噪声由其构造中使用的点和表面法线上的噪声来表征。我们利用这种特征来量化方向退化的概率。简并检测过程用于一种新的实时简并感知迭代最近点算法,用于 LiDAR 配准,其中我们平滑地衰减简并方向上的更新。该方法的参数是根据激光雷达数据表中提供的噪声特性来选择的。我们在四个现实世界的实验中验证了该方法,证明它在检测和减轻简并的不利影响方面优于最先进的方法。为了社区的利益,我们在以下位置发布了该方法的代码:github.com/ntnu-arl/drpm。
用于自主不平坦地形导航的自适应扩散地形生成器
分类: 机器人技术, 人工智能, 计算机视觉和模式识别
作者: Youwei Yu, Junhong Xu, Lantao Liu
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10766v1
摘要: 无模型强化学习已成为开发鲁棒机器人控制策略的强大方法,该策略能够在复杂和非结构化地形中导航。这些方法的有效性取决于两个基本要素:(1)使用大规模并行物理模拟来加快政策培训,(2)环境生成器的任务是精心设计具有足够挑战性但可实现的地形,以促进持续的政策改进。现有的环境生成方法通常依赖于受一组参数约束的启发式方法,限制了多样性和真实性。在这项工作中,我们介绍了自适应扩散地形生成器(ADTG),这是一种利用去噪扩散概率模型通过添加适应当前策略的更加多样化和复杂的地形来动态扩展现有训练环境的新颖方法。 ADTG 通过初始噪声优化来指导扩散模型的生成过程,混合现有训练环境中受噪声破坏的地形,并根据每个相应环境中的策略性能进行加权。通过操纵噪声损坏水平,ADTG 在生成用于政策微调的相似地形和用于扩展训练多样性的新颖地形之间无缝过渡。我们的实验表明,ADTG 训练的策略优于程序生成的环境和自然环境以及流行的导航方法。
扭转驾驭:用于工业驾驭任务的单臂可变形线性物体操纵
分类: 机器人技术
作者: Xiang Zhang, Hsien-Chung Lin, Yu Zhao, Masayoshi Tomizuka
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10729v1
摘要: 由于可变形导线的复杂动力学和不可预测的行为,线束任务对机器人自动化提出了巨大的挑战。传统方法通常依赖双机器人臂或触觉传感,在适应性、成本和可扩展性方面面临限制。本文介绍了一种新型单机器人线束管道,该管道仅使用一个带有集成力/扭矩 (F/T) 传感器的机器人臂,利用机器人的扭转运动产生必要的线张力,以便精确插入夹具中。受益于这种设计,单个机械臂可以有效地施加张力,以便在狭窄的空间内布线和插入夹具。我们的方法围绕四个主要组件构建:基于 Koopman 算子的模型预测控制 (MPC),用于张力跟踪和线跟踪、用于对线束路径点进行排序的运动规划器、用于夹具接合的一套插入原语以及固定点用于线约束更新的切换机制。通过对工业级线束任务的评估,我们的方法表现出优于传统方法的性能和可靠性,能够有效处理单线和多线配置,且成功率很高。
使用自适应路径规划的机器人视觉主动学习
分类: 机器人技术
作者: Julius Rückin, Federico Magistri, Cyrill Stachniss, Marija Popović
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10684v1
摘要: 机器人需要强大而灵活的视觉系统来感知和推理几何之外的环境。大多数此类系统都建立在深度学习方法之上。由于自主机器人通常部署在最初未知的环境中,静态数据集的预训练并不总能捕获各种领域,并限制了机器人在任务期间的视觉性能。最近,出现了自监督和完全监督的主动学习方法来改善机器人视觉。这些方法依赖于大型域内预训练数据集或需要大量的人工标记工作。为了解决这些问题,我们提出了一个最新的自适应规划框架,用于有效的训练数据收集,以大大减少语义地形监测任务中的人工标记要求。为此,我们将高质量的人类标签与自动生成的伪标签相结合。实验结果表明,该框架的分割性能接近于完全监督的方法,大大减少了人工标记工作,同时优于纯粹的自我监督方法。我们讨论了当前方法的优点和局限性,并概述了未来在未知环境中实现更强大、更灵活的机器人视觉系统的有价值的研究途径。
MLP-SLAM:使用动态和静态对象鉴别器的基于多层感知器的同步定位和建图
分类: 机器人技术
作者: Taozhe Li, Wei Sun
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10669v1
摘要: 视觉同步定位与建图(V-SLAM)系统近年来取得了长足的发展,在动态物体有限的环境中表现出了高精度。然而,当部署在可移动物体较多的环境中时,例如户外场景中常见的行人、汽车和公共汽车的环境,它们的性能会显着恶化。为了解决这个问题,我们提出了一种基于多层感知器(MLP)的实时立体 SLAM 系统,该系统利用完整的几何信息来避免信息丢失。此外,目前还没有公开的数据集可以直接评估动态和静态特征分类方法的有效性,为了弥补这一差距,我们创建了一个包含超过 50,000 个特征点的公开数据集。实验结果表明,与该数据集上的其他方法相比,我们基于 MLP 的动态和静态特征点鉴别器取得了优异的性能。此外,与其他动态SLAM系统相比,基于MLP的实时立体SLAM系统在室外KITTI跟踪数据集上表现出最高的平均精度和最快的速度。开源代码和数据集可在https://github上获取。 com/TaozheLi/MLP-SLAM.
不确定性下的导航:切换动力系统的轨迹预测和遮挡推理
分类: 机器人技术, 机器学习
作者: Ran Wei, Joseph Lee, Shohei Wakayama, Alexander Tschantz, Conor Heins, Christopher Buckley, John Carenbauer, Hari Thiruvengada, Mahault Albarracin, Miguel de Prado, Petter Horling, Peter Winzell, Renjith Rajagopal
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10653v1
摘要: 预测附近物体的未来轨迹,特别是在遮挡情况下,是自动驾驶和安全机器人导航的一项关键任务。先前的工作通常忽略保持被遮挡物体的不确定性,而仅使用大容量模型(例如在大型数据集上训练的 Transformer)来预测观察物体的轨迹。虽然这些方法在标准场景中有效,但它们可能很难推广到长尾、安全关键场景。在这项工作中,我们探索了一个在同一类结构化概率生成模型(即切换动力系统)下统一轨迹预测和遮挡推理的概念框架。然后,我们使用 Waymo 开放数据集展示了一些初步实验,说明其功能。
DR-MPC:现实世界社交导航的深度残差模型预测控制
分类: 机器人技术, 人工智能, 机器学习
作者: James R. Han, Hugues Thomas, Jian Zhang, Nicholas Rhinehart, Timothy D. Barfoot
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10646v1
摘要: 机器人如何在表现出复杂运动模式的人周围安全地导航?强化学习 (RL) 或深度强化学习 (DRL) 在模拟中具有一定的前景,尽管之前的许多工作依赖于模拟器,而模拟器无法精确捕捉真实人体运动的细微差别。为了解决这一差距,我们提出了深度残差模型预测控制(DR-MPC),这种方法使机器人能够根据现实世界的人群导航数据快速、安全地执行 DRL。通过将 MPC 与无模型 DRL 相结合,DR-MPC 克服了大数据要求和不安全初始行为的传统 DRL 挑战。 DR-MPC 通过基于 MPC 的路径跟踪进行初始化,并逐渐学习如何更有效地与人类交互。为了进一步加速学习,安全组件会估计机器人何时遇到分布外状态,并引导其远离可能的碰撞。在仿真中,我们表明 DR-MPC 大大优于之前的工作,包括传统的 DRL 和残差 DRL 模型。现实世界的实验表明,我们的方法成功地使机器人能够使用不到 4 小时的训练数据在各种拥挤的情况下导航,并且几乎没有错误。
通过学习真实世界的视觉数据实现可遍历性感知的腿式导航
分类: 机器人技术
作者: Hongbo Zhang, Zhongyu Li, Xuanqi Zeng, Laura Smith, Kyle Stachowicz, Dhruv Shah, Linzhu Yue, Zhitao Song, Weipeng Xia, Sergey Levine, Koushil Sreenath, Yun-hui Liu
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10621v1
摘要: 腿式运动带来的增强的移动性使四足机器人能够在复杂和非结构化的环境中导航。然而,优化敏捷运动,同时考虑穿越不同地形的不同能源成本仍然是一个开放的挑战。之前的大多数工作都侧重于根据人类标记的环境特征来规划轨迹和可通行成本估计。然而,这种以人为中心的方法是不够的,因为它没有考虑到机器人运动控制器在具有挑战性的地形上的不同能力。为了解决这个问题,我们基于机器人运动控制器的价值函数,以机器人为中心的方式开发了一种新颖的可遍历性估计器。该估计器被集成到一个新的基于学习的 RGBD 导航框架中。该框架开发了一个规划器,引导机器人避开障碍物和难以穿越的地形,同时实现目标。导航规划器的训练是使用样本有效的强化学习方法直接在现实世界中进行的。通过广泛的基准测试,我们证明所提出的框架在准确的可遍历性成本估计和从多模态数据(机器人的颜色和深度视觉以及本体感觉反馈)中进行有效学习以进行实际训练方面实现了最佳性能。使用所提出的方法,四足机器人通过在各种现实环境中的反复试验来学习执行可遍历性感知导航,这些环境具有挑战性的地形,仅使用深度视觉很难进行分类。
使用 Loihi 芯片实现移动机器人躲避的完全异步神经形态感知
分类: 机器人技术
作者: Junjie Jiang, Delei Kong, Chenming Hu, Zheng Fang
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10601v1
摘要: 自然生物体中的稀疏和异步传感和处理可实现超低延迟和节能的感知。事件摄像机(称为神经形态视觉传感器)旨在模仿这些特征。然而,充分利用稀疏和异步事件流仍然具有挑战性。受标准相机成熟算法的影响,大多数现有的基于事件的算法在处理事件流时仍然依赖于“事件组”处理范式(例如事件帧、3D体素)。这种范式遇到了特征丢失、事件堆叠和高计算负担等问题,这偏离了事件相机的预期目的。为了解决这些问题,我们提出了一种完全异步的神经形态范例,集成了事件摄像机、尖峰网络和神经形态处理器(Intel Loihi)。这种范例可以在每个事件到达时忠实地异步处理它,模仿生物大脑中尖峰驱动的信号处理。我们在真实的移动机器人躲避任务上详细比较了所提出的范式与现有的“事件组”处理范式。实验结果表明,我们的方案在不同时间窗和光照条件下比基于帧的方法表现出更好的鲁棒性。此外,我们的方案在嵌入式 Loihi 处理器上的每次推理能耗仅为节能模式下 NVIDIA Jetson Orin NX 上事件尖峰张量方法的 4.30%,以及 NVIDIA Jetson Orin NX 上事件帧方法的 1.64%。相同的神经形态处理器。据我们所知,这是第一次在真正的移动机器人上实现完全异步的神经形态范式来解决顺序任务。
使用最大平均差异的广义域上的遍历轨迹优化
分类: 机器人技术, 93C85
作者: Christian Hughes, Houston Warren, Darrick Lee, Fabio Ramos, Ian Abraham
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10599v1
摘要: 我们提出了一种新颖的遍历轨迹优化公式,可以使用核最大均值差异在一般域上指定。遍历轨迹优化是一种有效的方法,可以为与机器人检查、信息收集问题以及搜索和救援相关的问题生成覆盖路径。这些优化方案迫使机器人在与访问该区域的预期效用成比例的区域中花费时间。当前的遍历轨迹优化方法依赖于特定领域的知识,例如定义的效用图和明确定义的空间基函数来产生遍历轨迹。在这里,我们提出了基于最大平均差异的遍历轨迹优化的概括,该优化仅需要来自搜索域的样本。我们证明了我们的方法能够在各种问题领域产生覆盖轨迹,包括机器人检查具有微分运动学约束的物体和李群,而无需访问特定领域的知识。此外,与现有最先进的遍历轨迹优化方法相比,我们展示了有利的计算扩展,并在领域特定知识和计算扩展之间进行权衡,从而将遍历覆盖范围的多功能性扩展到更广泛的应用领域。
从文字到车轮:基于视觉的自动驾驶使用基础模型理解人类语言指令
分类: 机器人技术
作者: Chanhoe Ryu, Hyunki Seong, Daegyu Lee, Seongwoo Moon, Sungjae Min, D. Hyunchul Shim
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10577v1
摘要: 本文介绍了基础模型的创新应用,使配备 RGB-D 摄像头的无人地面车辆 (UGV) 能够根据人类语言指令导航到指定目的地。与基于学习的方法不同,这种方法不需要事先训练,而是利用现有的基础模型,从而促进对新环境的泛化。在接收到人类语言指令后,这些指令会使用大语言模型(LLM)转化为“认知路线描述”——用人类语言表达的详细导航路线。然后,车辆将这种描述分解为地标和导航动作。该车辆还通过在开放数据集上训练的地形分割模型 GANav 确定海拔成本并识别不同区域的通航水平。语义高程成本(同时考虑高程和通航水平)被估计并提供给负责本地路径规划的模型预测路径积分(MPPI)规划器。同时,车辆使用基础模型(包括 YOLO-World 和 EfficientViT-SAM)搜索目标地标。最终,车辆执行导航命令到达指定目的地,即最终地标。我们的实验表明,该应用程序可以在新环境(例如不熟悉的地形或城市环境)中按照人类语言指令成功引导 UGV 到达目的地。
自反性输入输出因果机制
分类: 机器人技术, 新兴技术, 系统与控制, 系统与控制
作者: Ryotaro Kayawake, Haruto Miida, Shunsuke Sano, Issei Onda, Kazuki Abe, Masahiro Watanabe, Josephine Galipon, Riichiro Tadakuma, Kenjiro Tadakuma
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10568v1
摘要: 本文探讨了反射驱动的概念,研究机器人如何利用内部和外部刺激来触发机器人的运动、性能或物理特征(例如其尺寸、形状或配置等)的变化。这些变化本身可以依次重新用作输入以驱动进一步的适应。从生物系统中汲取灵感,反射是响应环境变化的重要组成部分,反射驱动对于使机器人适应不同的情况和执行复杂的任务至关重要。分析了反射驱动的基本原理,并提供了现有实现的示例,例如接触敏感反射臂、物理计数器及其应用。该论文还概述了推进该研究领域的未来方向和挑战,强调了其在开发自适应、响应式机器人系统中的重要性。
ROSAR:用于鲁棒侧扫声纳目标检测的对抗性再训练框架
分类: 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术
作者: Martin Aubard, László Antal, Ana Madureira, Luis F. Teixeira, Erika Ábrahám
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10554v1
摘要: 本文介绍了 ROSAR,这是一种新颖的框架,增强了专为侧扫声纳 (SSS) 图像定制的深度学习目标检测模型的鲁棒性,这些图像是由自主水下航行器使用声纳传感器生成的。通过扩展我们之前在知识蒸馏(KD)方面的工作,该框架将 KD 与对抗性再训练相结合,以解决模型效率和针对 SSS 噪声的鲁棒性的双重挑战。我们介绍了三个新颖的、公开的 SSS 数据集,捕获不同的声纳设置和噪声条件。我们提出并形式化了两个 SSS 安全属性,并利用它们生成用于再训练的对抗数据集。通过对投影梯度下降(PGD)和基于补丁的对抗攻击的比较分析,ROSAR在SSS特定条件下展示了模型鲁棒性和检测精度的显着改进,将模型的鲁棒性提高了高达1.85%。 ROSAR 可在 https://github.com/remaro-network/ROSAR-framework 获取。
利用局部特征和范围图像进行小数据实时点云语义分割
分类: 计算机视觉和模式识别, 机器人技术
作者: Daniel Fusaro, Simone Mosco, Emanuele Menegatti, Alberto Pretto
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10510v1
摘要: 点云的语义分割是理解自动驾驶和机器人环境的一项重要任务。最近基于范围的工作实现了实时效率,而基于点和体素的方法产生了更好的结果,但受到高计算复杂性的影响。此外,高度复杂的深度学习模型通常不适合从小型数据集中有效学习。它们的泛化能力可以很容易地由丰富的数据而不是架构设计来驱动。在本文中,我们利用三维表示中的信息来熟练地捕获局部特征,同时引入范围图像表示来合并附加信息并促进快速计算。基于 GPU 的 KDTree 允许通过简单的操作快速构建、查询和增强投影。对 SemanticKITTI 和 nuScenes 数据集的大量实验证明了我们在“小数据”设置中进行修改的好处,其中仅使用数据集的一个序列来训练模型,而且在传统设置中,除了一个序列之外的所有序列用于训练。我们表明,我们模型的简化版本不仅表现出与全尺寸最先进模型相比的强大竞争力,而且还可以实时运行,使其成为现实案例应用的可行选择。我们方法的代码可在 https://github.com/Bender97/WaffleAndRange 获取。
四足运动的强化学习:当前进展和未来展望
分类: 机器人技术
作者: Maurya Gurram, Prakash Kumar Uttam, Shantipal S. Ohol
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10438v1
摘要: 近年来,与传统控制方法相比,由于自主学习和适应的潜在优势,基于强化学习(RL)的四足运动控制已成为一个广泛研究的领域。本文全面研究了应用强化学习技术开发四足机器人运动控制器的最新研究。我们详细概述了基于强化学习的运动控制器的核心概念、方法和关键进展,包括学习算法、训练课程、奖励公式和模拟到真实的迁移技术。该研究涵盖了步态约束和无步态方法,强调了它们各自的优点和局限性。此外,我们还讨论了这些控制器与机器人硬件的集成以及传感器反馈在实现自适应行为中的作用。该论文还概述了未来的研究方向,例如结合外部感知传感、结合基于模型和无模型技术以及开发在线学习能力。我们的研究旨在让研究人员和从业者全面了解基于强化学习的运动控制器的最新技术,使他们能够在现有工作的基础上探索新颖的解决方案,以实际增强四足机器人的移动性和适应性-世界环境。
SMART-TRACK:一种新颖的卡尔曼滤波器引导传感器融合,用于动态环境中稳健的无人机目标跟踪
分类: 机器人技术
作者: Khaled Gabr, Mohamed Abdelkader, Imen Jarraya, Abdullah AlMusalami, Anis Koubaa
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10409v1
摘要: 在用于目标检测和定位的传感器融合和状态估计领域,确保动态环境中的准确跟踪提出了重大挑战。当测量是间歇性的时,卡尔曼滤波器 (KF) 等传统方法通常会失败,从而导致状态估计迅速发散。为了解决这个问题,我们引入了 SMART(传感器测量增强和重新捕获跟踪器),这是一种利用 KF 的高频状态估计来指导新测量值搜索的新颖方法,即使在直接测量出现问题时也能保持跟踪连续性。这对于传统方法举步维艰的动态环境至关重要。我们的贡献包括: 1) 使用 KF 反馈的多功能测量增强:我们实现了一种多功能测量增强系统,当主要物体检测器间歇性故障时,该系统可作为备用系统。该系统适用于各种传感器,并使用深度相机进行演示,其中 KF 的 3D 预测被投影到 2D 深度图像坐标中,集成了简化为一阶近似的非线性协方差传播技术。 2) 开源 ROS2 实现:我们提供 SMART-TRACK 框架的开源 ROS2 实现,并在使用 Gazebo 和 ROS2 的真实模拟环境中进行验证,从而促进更广泛的适应和进一步研究。我们的结果展示了跟踪稳定性的显着增强,在测量中断期间估计 RMSE 低至 0.04 m,提高了无人机跟踪的鲁棒性,并扩大了复杂场景中可靠的自主无人机操作的潜力。该实现可在 https://github.com/mzahana/SMART-TRACK 上找到。
PIVOT-R:用于机器人操作的原始驱动的路径点感知世界模型
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习
作者: Kaidong Zhang, Pengzhen Ren, Bingqian Lin, Junfan Lin, Shikui Ma, Hang Xu, Xiaodan Liang
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10394v1
摘要: 语言引导的机器人操作是一项具有挑战性的任务,需要实体代理遵循抽象的用户指令来完成各种复杂的操作任务。以前的工作只是简单地拟合数据,而没有揭示指令和低级可执行动作之间的关系,这些模型容易记住数据的表面模式,而不是获取可转移的知识,因此对动态环境变化很脆弱。为了解决这个问题,我们提出了一种用于机器人操纵的主动驱动的路径点感知世界模型(PIVOT-R),该模型仅专注于与任务相关的路径点的预测。具体来说,PIVOT-R 由航点感知世界模型(WAWM)和轻量级动作预测模块组成。前者执行原始动作解析和原始驱动的路点预测,而后者则专注于解码低级动作。此外,我们还设计了异步分层执行器(AHE),它可以对模型的不同模块使用不同的执行频率,从而帮助模型减少计算冗余,提高模型执行效率。我们的 PIVOT-R 在 SeaWave 基准上的性能优于最先进的 (SoTA) 开源模型,在四个级别的指令任务中实现了 19.45% 的平均相对改进。而且,与同步执行的PIVOT-R相比,采用AHE的PIVOT-R的执行效率提高了28倍,性能仅下降2.9%。这些结果提供了令人信服的证据,证明我们的 PIVOT-R 可以显着提高机器人操作的性能和效率。
有效获得机器人接触任务正式分析的触及范围一致性
分类: 机器人技术, 系统与控制, 系统与控制
作者: Chencheng Tang, Matthias Althoff
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10391v1
摘要: 机器人任务的形式验证需要所用机器人的简单但一致的模型。我们提出了第一个工作,为考虑混合(混合连续和离散)动力学的机器人接触任务生成到达集一致模型。到达集一致性要求抽象模型的可达输出集包含所有先前的测量以传输安全属性。针对工业应用,我们使用具有线性动力学的简单混合自动机来描述该系统。我们将不确定性注入连续动态和离散转换中,并以最佳方式识别所有模型参数以及捕获记录行为所需的非确定性。使用两个三自由度机器人,我们表明我们的方法可以有效地生成模型来捕获系统行为的不确定性,并大大减少工业应用中所需的测试工作。
HumanFT:类人指尖多模态视觉触觉传感器
分类: 机器人技术
作者: Yifan Wu, Yuzhou Chen, Zhengying Zhu, Xuhao Qin, Chenxi Xiao
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10353v1
摘要: 触觉传感器在使机器人在日常任务中与物体有效、安全地交互方面发挥着至关重要的作用。特别是,由于其高质量的反馈,视觉触觉传感器在两指和三指抓手中的使用越来越多。然而,适用于人形机器人,特别是五指灵巧手的传感器的开发仍然存在很大差距。原因之一是设计和制造尺寸紧凑的传感器面临挑战。在本文中,我们提出了 HumanFT,这是一种多模态视觉触觉传感器,可以复制人类指尖的形状和功能。为了弥合人类和机器人触觉传感之间的差距,我们的传感器具有实时力测量、高频振动检测和过热警报功能。为了实现这一目标,我们开发了一套新型弹性体的制造技术,针对力传播和温度传感进行了优化。此外,我们的传感器集成了能够感测压力和振动的电路。这些功能已通过实验得到验证。所提出的设计简单且制造成本效益高。我们相信 HumanFT 可以通过捕获和解释多模式触觉信息来增强人形机器人的感知。
超声引导自主经皮介入机器人系统的初步评估
分类: 机器人技术
作者: Pratima Mohan, Aayush Agrawal, Niravkumar A. Patel
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10299v1
摘要: 全球癌症病例不断增加,到 2023 年将导致近 1000 万人死亡。活检对于诊断至关重要,通常在超声波 (US) 引导下进行,需要精确的手部协调和认知决策。通过解决诸如嘈杂的二维图像和保持一致的探头与表面接触等挑战,机器人辅助干预已显示出提高了病变定位的准确性。最近的研究重点是完全自主的机器人超声系统,以实现标准化的诊断程序和可重复的超声引导治疗。这项研究提出了一个完全自主的超声引导置针系统,能够执行端到端的临床工作流程。该系统自主地:1) 识别患者腹部表面的肝脏区域,2) 使用阻抗控制规划和执行超声扫描路径,3) 实时定位超声图像中的病变,4) 瞄准已识别的病变,一切都无需人工干预。这项研究评估了位置和阻抗控制系统。对琼脂模型的验证表明,靶向误差为 5.74 ± 2.70 毫米,凸显了其精确靶向大于 5 毫米的肿瘤的潜力。所取得的结果显示了其作为美国引导活检的完全自主系统的潜力。
信任或破产:确保自主武器系统的可信度
分类: 计算机与社会, 人工智能, 机器人技术
作者: Kasper Cools, Clara Maathuis
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10284v1
摘要: 将自主武器系统 (AWS) 集成到军事行动中既带来了重大机遇,也带来了挑战。本文探讨了对 AWS 的信任的多方面性质,强调了建立可靠且透明的系统以减轻与偏见、操作失败和责任相关的风险的必要性。尽管人工智能 (AI) 取得了进步,但这些系统的可信度,尤其是在高风险的军事应用中,仍然是一个关键问题。通过对现有文献的系统回顾,本研究发现了 AWS 开发和部署阶段对信任动态的理解上的差距。它提倡采用包括技术专家、伦理学家和军事战略家在内的协作方法来应对这些持续存在的挑战。研究结果强调了人机协作和增强系统可理解性的重要性,以确保问责制和遵守国际人道主义法。最终,本文旨在为有关 AWS 的道德影响以及国防环境中值得信赖的人工智能的必要性的持续讨论做出贡献。
Kinematic-ICP:通过运动学约束增强在平面上移动的轮式移动机器人的 LiDAR 里程计
分类: 机器人技术
作者: Tiziano Guadagnino, Benedikt Mersch, Ignacio Vizzo, Saurabh Gupta, Meher V. R. Malladi, Luca Lobefaro, Guillaume Doisy, Cyrill Stachniss
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10277v1
摘要: LiDAR 里程计对于许多机器人应用至关重要,包括 3D 测绘、导航以及同步定位和测绘。激光雷达测距系统通常基于某种形式的点云配准来计算移动机器人的自我运动。然而,当今的激光雷达测距系统很少在点云对准过程中考虑特定领域的知识和移动平台的运动学模型。在本文中,我们提出了 Kinematic-ICP,这是一种 LiDAR 测距系统,专注于配备 3D LiDAR 并在平面上移动的轮式移动机器人,这是仓库、办公室、医院等的常见假设。我们的方法引入了运动学传统点对点迭代最近点方案优化中的约束。通过这种方式,产生的运动遵循平台的运动学约束,有效地利用机器人的车轮里程计和 3D LiDAR 观测结果。我们在优化方案中动态调整激光雷达测量和车轮里程计的影响,使系统能够处理功能贫乏的走廊等退化场景。我们评估了在大型仓库环境和室外运行的机器人的方法。实验表明,我们的方法实现了最佳性能,并且比车轮里程计和常见的激光雷达里程计系统更准确。 Kinematic-ICP 最近已部署在 Dexory 机器人车队中,这些机器人在全球客户的仓库中运行,这表明我们的方法可以在现实世界中与完整的导航堆栈一起运行。
用于露天矿自主遥感的地面自适应初视检查规划器
分类: 机器人技术
作者: Vignesh Kottayam Viswanathan, Vidya Sumathy, Christoforos Kanellakis, George Nikolakopoulos
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10256v1
摘要: 在这项工作中,我们提出了一个用于活跃露天矿遥感任务的自主检查框架。具体来说,这些贡献集中于开发一种方法,其中在线视图规划器利用操作员定义的初始近似检查计划来预测检查路径,该路径可以适应由路线采矿活动引起的当前矿面形态的变化。所提出的检查框架利用瞬时 3D LiDAR 和定位测量以及建模的传感器足迹来进行视图规划,以满足所需的观看和摄影测量条件。通过 Feiring-Bruk 露天矿环境中的模拟和基于硬件的户外实验试验,证明了所提出框架的有效性。展示拟议工作性能的视频可以在这里找到:https://youtu.be/uWWbDfoBvFc
使用场地地图在开放世界中进行标牌感知探索
分类: 机器人技术
作者: Chang Chen, Liang Lu, Lei Yang, Yinqiang Zhang, Yizhou Chen, Ruixing Jia, Jia Pan
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10143v1
摘要: 由于缺乏先验知识和文本识别能力,当前的探索方法很难在未知的开放世界环境中搜索商店。场地地图提供了有价值的信息,可以通过将场景标牌与地图数据相关联来帮助进行探索规划。然而,标牌上文本的任意形状和样式以及多视图不一致给机器人的准确识别带来了重大挑战。此外,现实世界环境和场地地图之间的差异阻碍了将文本信息纳入规划人员中。本文介绍了一种新颖的标牌感知探索系统来解决这些挑战,使机器人能够有效地利用场地地图。我们提出了一种标牌理解方法,该方法使用基于扩散的文本实例检索方法结合 2D 到 3D 语义融合策略来准确检测和识别标牌上的文本。此外,我们设计了一个场地地图引导的探索-利用规划器,它使用从场地地图导出的方向启发式来平衡未知区域的探索与利用来接近和调整方向以获得更好的识别。在大型购物中心的实验证明了我们的方法具有卓越的标牌识别精度和覆盖效率,优于最先进的场景文本识别方法和传统探索方法。
用于障碍物识别的创新深度学习技术:现代检测算法的比较研究
分类: 计算机视觉和模式识别, 机器人技术
作者: Santiago Pérez, Camila Gómez, Matías Rodríguez
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10096v1
摘要: 本研究探索了使用先进的 YOLO 模型(特别是 YOLOv8、YOLOv7、YOLOv6 和 YOLOv5)进行障碍物检测的综合方法。利用深度学习技术,研究重点是这些模型在实时检测场景中的性能比较。研究结果表明,YOLOv8 通过改进的精确召回指标实现了最高的准确率。给出了详细的训练过程、算法原理和一系列实验结果来验证模型的有效性。
机器人扩散变压器的成分
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习
作者: Sudeep Dasari, Oier Mees, Sebastian Zhao, Mohan Kumar Srirama, Sergey Levine
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10088v1
摘要: 近年来,机器人专家通过利用高容量 Transformer 网络架构和生成扩散模型,在解决灵巧机器人硬件上日益普遍的任务方面取得了显着进展。不幸的是,事实证明,将这两种正交改进结合起来非常困难,因为没有明确且易于理解的流程来做出重要的设计选择。在本文中,我们确定、研究和改进高容量扩散变压器策略的关键架构设计决策。由此产生的模型可以有效地解决多个机器人实施例上的各种任务,而无需每次设置超参数调整的痛苦。通过将我们的研究结果与改进的模型组件相结合,我们能够提出一种新颖的架构,名为 \method,它在解决长期(1500 美元+时间步长)灵巧任务方面显着优于现有技术。双手动 ALOHA 机器人。此外,我们发现,在经过 10 小时的高度多模态、语言注释的 ALOHA 演示数据训练后,我们的策略显示出了更高的扩展性能。我们希望这项工作将为未来的机器人学习技术打开大门,这些技术利用生成扩散建模的效率和大规模变压器架构的可扩展性。代码、机器人数据集和视频可在以下位置获取:https://dit-policy.github.io
利用 NeRF 进行分析-综合,利用稀疏且嘈杂的 UWB 雷达数据对日常小型物体进行 ISAR 成像
分类: 机器人技术, 人机交互, 机器学习
作者: Md Farhan Tasnim Oshim, Albert Reed, Suren Jayasuriya, Tauhidur Rahman
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10085v1
摘要: 由于雷达截面 (RCS) 有限以及雷达系统固有的分辨率限制,逆合成孔径雷达 (ISAR) 成像在日常小型物体成像方面面临着巨大的挑战。包括反投影 (BP) 在内的现有 ISAR 重建方法通常需要复杂的设置和受控环境,这使得它们对于许多现实世界的噪声场景来说不切实际。在本文中,我们提出了一种由神经辐射场(NeRF)支持的新型分析综合(ATS)框架,用于使用稀疏和嘈杂的超宽带(UWB)雷达数据以低廉的成本对小物体进行高分辨率相干ISAR成像。和便携式设置。我们的端到端框架集成了超宽带雷达波传播、反射特性和场景先验,无需昂贵的电波暗室或复杂的测量测试台即可实现高效的 2D 场景重建。通过定性和定量比较,我们证明所提出的方法优于传统技术,可以在非视距(NLOS)和噪声场景中生成具有多个目标和复杂结构的复杂场景的 ISAR 图像,特别是在视图数量有限和稀疏的 UWB 雷达扫描。这项工作代表了朝着实用、经济高效的日常小型物体 ISAR 成像迈出的重要一步,对机器人和移动传感应用具有广泛的影响。
梦想提供帮助:学习与人类目标保持一致,以实现高速赛车中的共享控制
分类: 机器人技术, 人工智能, 人机交互
作者: Jonathan DeCastro, Andrew Silva, Deepak Gopinath, Emily Sumner, Thomas M. Balch, Laporsha Dees, Guy Rosman
发布时间: 2024-10-14
链接: http://arxiv.org/abs/2410.10062v1
摘要: 在涉及快速动态和战术决策的领域(例如多赛车比赛),有效的人机团队需要紧密协调。在这种情况下,机器人队友必须对人类队友战术目标的提示做出反应,以与目标一致的方式提供协助(例如,绕过障碍物向左或向右导航)。为了应对这一挑战,我们提出了 Dream2Assist,这是一个框架,它结合了能够推断人类目标和价值函数的丰富世界模型,以及为给定的人类队友提供适当的专家帮助的辅助代理。我们的方法建立在循环状态空间模型的基础上,以明确推断人类意图,使辅助代理能够选择与人类一致的动作,并实现流畅的团队交互。我们在高速赛车领域展示了我们的方法,一群合成人类驾驶员追求相互排斥的目标,例如“落后”和“超车”。我们表明,组合的人机团队在将其行为与人类的行为相结合时,表现优于单独的合成人类以及几种基线辅助策略,并且意图调节能够在任务执行过程中遵循人类的偏好,从而改善性能,同时满足人类的目标。
VQ-CNMP:双层规划的神经符号技能学习
分类: 机器人技术, 人工智能, 机器学习
作者: Hakan Aktas, Emre Ugur
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.10045v1
摘要: 本文提出了一种新颖的神经网络模型,能够从未标记的演示数据中发现高级技能表示。我们还提出了一个双层规划管道,该管道利用我们的模型,使用基于梯度的规划方法。在提取高级表示的同时,我们的模型还保留了低级信息,这些信息可用于低级行动规划。在实验中,我们测试了模型在不同条件下的技能发现性能,测试了多模态 LLM 是否可以用于标记学习到的高级技能表示,最后测试了模型的高级和低级规划性能我们的管道。
REPeat:在机器人辅助喂养中预先获取软食品的 Real2Sim2Real 方法
分类: 机器人技术, 计算机视觉和模式识别, 图形
作者: Nayoung Ha, Ruolin Ye, Ziang Liu, Shubhangi Sinha, Tapomayukh Bhattacharjee
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.10017v1
摘要: 该论文提出了 REPeat,这是一个 Real2Sim2Real 框架,旨在增强机器人辅助软食喂养中的咬合获取。它利用推、切、翻转等“预获取动作”来提高串、舀、旋转等咬合获取动作的成功率。如果数据驱动模型预测直接咬合采集的成功率较低,系统将启动 Real2Sim 阶段,在模拟中重建食物的几何形状。机器人在模拟中探索各种预采集动作,然后 Sim2Real 步骤渲染逼真的图像以重新评估成功率。如果成功率提高,机器人就会在现实中应用该动作。我们在 15 个不同的盘子(包含 10 种软食饮食的食品)上评估了该系统,结果显示所有盘子的咬合成功率平均提高了 27%。请参阅我们的项目网站 https://emprise.cs.cornell.edu/repeat。
突出相关内容:任务相关的重建,以实现干扰下的视觉控制
分类: 机器学习, 人工智能, 计算机视觉和模式识别, 机器人技术
作者: Kyungmin Kim, JB Lanier, Pierre Baldi, Charless Fowlkes, Roy Fox
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09972v1
摘要: 基于模型的强化学习(MBRL)的最新进展使其成为视觉控制任务的强大工具。尽管数据效率有所提高,但训练具有普遍感知能力的 MBRL 智能体仍然具有挑战性。在存在视觉干扰的情况下进行训练尤其困难,因为它们给表征学习带来了很大的变化。基于 DREAMER(一种流行的 MBRL 方法),我们提出了一种简单而有效的辅助任务,以促进分散注意力的环境中的表示学习。假设图像观察的任务相关组件可以通过给定任务中的先验知识直接识别,我们在图像观察上使用分割掩模来仅重建任务相关组件。这样做,我们消除了在潜在表示中编码与任务无关的对象的需要,从而大大降低了表示学习的复杂性。我们的方法 Segmentation Dreamer (SD) 可以与在模拟中轻松访问的地面真实掩模一起使用,也可以通过利用可能不完美的分割基础模型来使用。通过选择性地应用重建损失来进一步改进后者,以避免由于掩模预测错误而提供误导性的学习信号。在修改后的 DeepMind 控制套件 (DMC) 和添加了视觉干扰的 Meta-World 任务中,SD 比之前的工作显着提高了样本效率和更好的最终性能。我们发现,SD 对于之前的工作无法解决的稀疏奖励任务特别有帮助,无需进行大量的奖励工程即可训练视觉鲁棒的智能体。
用于球体避障的共形可达集
分类: 机器人技术
作者: Yongseok Kwon, Jonathan Michaux, Seth Isaacson, Bohao Zhang, Matthew Ejakov, Katherine A. Skinner, Ram Vasudevan
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09924v1
摘要: 在非结构化环境中部署自主机器人需要安全的运动规划算法。运动计划必须安全,以确保机器人不会伤害人类或损坏任何附近的物体。实时生成这些运动计划对于确保机器人能够适应环境的突然变化也很重要。许多轨迹优化方法引入了平衡安全性和实时性能的启发式方法,这可能会增加机器人与其环境碰撞的风险。本文通过提出球体保形可达集 (CROWS) 来应对这一挑战。 CROWS 是一种新颖的实时后退轨迹规划器,可生成概率安全的运动计划。离线时,CROWS 学习一种新颖的基于神经网络的基于球体可达集的表示,该表示过度近似机器人运动的扫掠体积。然后,CROWS 使用保形预测来计算置信界限,为学习到的可达集提供概率安全保证。在运行时,CROWS 执行轨迹优化以选择概率保证无碰撞的轨迹。我们证明,CROWS 在解决杂乱环境中具有挑战性的运动规划任务方面优于各种最先进的方法,同时保持无碰撞。代码、数据和视频演示可以在 https://roahmlab.github.io/crows/ 找到
使用可变形姿态图进行森林点云的无标记空中-地面联合配准
分类: 机器人技术
作者: Benoit Casseau, Nived Chebrolu, Matias Mattamala, Leonard Freissmuth, Maurice Fallon
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09896v1
摘要: 对于生物多样性和林业应用,最终用户希望获得从森林地面到树冠的全面详细的森林地图。地面激光扫描和航空激光扫描是精确且日益成熟的森林扫描方法。然而,由于视野和绘图过程的固有差异,它们无法单独估计树高、树干直径和树冠密度等属性。在这项工作中,我们提出了一个可以自动生成单个联合陆地和空中森林重建的管道。该方法的新颖之处在于无标记配准管道,它可以估计空中云和地面子云之间的一组相对变换约束,而不需要在场景中物理放置任何共同配准反射标记。然后,我们的方法在位姿图公式中使用这些约束,这使我们能够精细地对齐相应的云,同时尊重地面 SLAM 扫描过程引入的空间约束。我们证明,我们的方法可以对大规模自然环境进行细粒度和完整的重建,从而无需外部基础设施即可实现林业应用的多平台数据捕获。
未知环境中基于物理的神经映射和运动规划
分类: 机器人技术
作者: Yuchen Liu, Ruiqi Ni, Ahmed H. Qureshi
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09883v1
摘要: 地图绘制和运动规划是机器人智能的两个基本要素,它们在生成环境地图和绕过障碍物时相互依赖。现有的映射方法创建的地图需要计算成本昂贵的运动规划工具来找到路径解决方案。在本文中,我们提出了一种新的映射特征,称为到达时间场,它是 Eikonal 方程的解。到达时间字段可以直接指导机器人在给定的环境中导航。因此,本文介绍了一种称为主动神经时间场(Active NTFields)的新方法,它是一种基于物理的神经框架,可以主动探索未知环境并动态映射其到达时间场以用于机器人运动规划。我们的方法不需要任何专家数据进行学习,并使用神经网络直接求解 Ekonal 方程以进行到达时间场映射和运动规划。我们将我们的方法与最先进的映射和运动规划方法进行基准测试,并通过差动驱动机器人和 6 自由度 (DOF) 机器人操纵器在模拟和现实环境中展示其卓越性能。补充视频可在 https://youtu.be/qTPL5a6pRKk 找到,实现代码存储库可在 https://github.com/Rtlyc/antfields-demo 获取。
ImagineNav:通过场景想象促进视觉语言模型作为具体导航器
分类: 机器人技术
作者: Xinxin Zhao, Wenzhe Cai, Likun Tang, Teng Wang
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09874v1
摘要: 视觉导航是家庭辅助机器人的一项基本技能,提供物体搜索能力来完成长期的日常任务。最近的许多方法使用大型语言模型(LLM)进行常识推理,以提高探索效率。然而,大语言模型的规划过程仅限于文本,仅通过文本很难表示空间占用和几何布局。两者对于做出合理的导航决策都很重要。在这项工作中,我们寻求释放视觉语言模型(VLM)的空间感知和规划能力,并探索VLM在仅使用机载摄像头捕获RGB/RGB-D流输入的情况下是否可以有效地完成视觉导航以无地图方式执行任务。我们通过开发想象力驱动的导航框架 ImagineNav 来实现这一目标,该框架可以在有价值的机器人视图中想象未来的观察图像,并将复杂的导航规划过程转化为 VLM 的相当简单的最佳视图图像选择问题。为了生成适合想象力的候选机器人视图,我们引入了Where2Imagine模块,该模块经过提炼以符合人类导航习惯。最后,为了达到 VLM 首选视图,使用现成的点目标导航策略。对具有挑战性的开放词汇对象导航基准的实证实验证明了我们提出的系统的优越性。
通过对话生成驾驶模拟
分类: 计算和语言, 信息检索, 机器人技术
作者: Rimvydas Rubavicius, Antonio Valerio Miceli-Barone, Alex Lascarides, Subramanian Ramamoorthy
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09829v1
摘要: 自动驾驶汽车等网络物理系统在部署之前会进行模拟测试,并使用特定于场景的程序进行场景规范。为了帮助在模拟中测试自动驾驶汽车,我们使用遵循指令的大型语言模型设计了一个自然语言界面,以协助非编码领域专家综合所需的场景和车辆行为。我们证明,尽管训练数据集非常小,但使用它将话语转换为符号程序是可行的。人体实验表明,对话对于成功的模拟生成至关重要,其成功率比不进行扩展对话的生成高 4.5 倍。
使用 LiDAR 和 RGB-D 相机的服务机器人的社交意识运动规划
分类: 机器人技术
作者: Duc Phu Nguyen, Thanh Long Nguyen, Minh Dang Tu, Cong Hoang Quach, Xuan Tung Truong, Manh Duong Phung
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09803v1
摘要: 在共享环境中与人类一起工作的服务机器人需要一个导航系统,该系统不仅要考虑人身安全,还要考虑相互合作的社会规范。在本文中,我们介绍了一种运动规划系统,其中包括人类状态(例如位置和速度)以及用于社交感知导航的个人空间。该系统首先从 LiDAR 和 RGB-D 相机中提取人体位置。然后,它使用卡尔曼滤波器融合该信息以进行人类状态估计。然后采用不对称高斯函数根据人类的状态对个人空间进行建模。该模型用作动态窗口逼近算法的输入,以生成机器人的轨迹。实验表明,机器人能够在动态环境中与人类一起导航,同时尊重他们的身体和心理舒适度。
无人机最优运动规划的模型预测控制
分类: 机器人技术
作者: Duy-Nam Bui, Thu Hang Khuat, Manh Duong Phung, Thuan-Hoang Tran, Dong LT Tran
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09799v1
摘要: 运动规划是无人机 (UAV) 导航的重要过程,无人机需要适应障碍物和不同的操作环境结构才能实现目标。本文提出了一种用于在未知复杂环境中运行的无人机的最佳运动规划器。运动规划器从本地范围传感器接收点云数据,然后将其转换为表示周围环境的体素网格。然后根据体素网格生成引导无人机到达目标的局部轨迹。使用模型预测控制(MPC)进一步优化该轨迹,以提高无人机操作的安全性、速度和平稳性。优化是通过定义几个成本函数和约束来进行的,同时考虑到无人机的动态和要求。在具有许多障碍的复杂环境中进行了许多模拟和与最先进方法的比较,以评估我们方法的性能。结果表明,我们的方法不仅提供了更短、更平滑的轨迹,而且提供了更快、更稳定的速度曲线。它还具有高能效,适合各种无人机应用。
t-READi:变压器驱动的稳健高效的自动驾驶多模态推理
分类: 计算机视觉和模式识别, 人工智能, 分布式、并行和集群计算, 机器学习, 机器人技术
作者: Pengfei Hu, Yuhang Qian, Tianyue Zheng, Ang Li, Zhe Chen, Yue Gao, Xiuzhen Cheng, Jun Luo
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09747v1
摘要: 鉴于自动驾驶汽车 (AV) 广泛采用多模态传感器(例如摄像头、激光雷达、雷达),深度分析融合其输出以实现强大的感知变得势在必行。然而,现有的融合方法通常会做出两个在实践中很少成立的假设:i)所有输入的数据分布相似;ii)所有传感器的恒定可用性。例如,由于激光雷达具有不同的分辨率,并且可能会发生雷达故障,因此这种变化通常会导致融合性能显着下降。为此,我们提出了 tREADi,这是一种自适应推理系统,可以适应多模态感知数据的可变性,从而实现稳健且高效的感知。 t-READi 识别变化敏感但结构特定的模型参数;然后它只调整这些参数,同时保持其余参数不变。 t-READi 还利用跨模态对比学习方法来补偿缺失模态造成的损失。实现这两个功能是为了保持与现有多模态深度融合方法的兼容性。大量实验清楚地表明,与现有方法相比,t-READi 不仅将平均推理精度提高了 6% 以上,而且将推理延迟降低了近 15 倍,在最坏的情况下仅增加 5% 的额外内存开销实际数据和模态变化下的情况。
用于粒状媒体操作的高斯泼溅视觉 MPC
分类: 机器人技术
作者: Wei-Cheng Tseng, Ellina Zhang, Krishna Murthy Jatavallabhula, Florian Shkurti
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09740v1
摘要: 学习 3D 表示的最新进展使得在解决复杂的机器人操作任务方面取得了重大进展,特别是对于刚体物体。然而,由于粒子相互作用的复杂物理原理、高维和部分可观察状态、无法视觉跟踪一堆中的单个粒子以及精确动力学的计算要求,操纵豆类、坚果和大米等颗粒材料仍然具有挑战性预言。由于缺乏归纳偏差,当前的深层潜在动力学模型通常难以推广颗粒材料操纵。在这项工作中,我们提出了一种新颖的方法,该方法可以学习场景的高斯泼溅表示的视觉动力学模型,并利用该模型通过模型预测控制来操纵颗粒媒体。我们的方法可以有效优化成堆颗粒介质上的复杂操作任务。我们在模拟和现实环境中评估我们的方法,证明其解决看不见的规划任务并以零样本迁移的方式推广到新环境的能力。与现有的粒度媒体操作方法相比,我们还展示了预测和操作性能的显着改进。
使用基于学习的模型预测控制以紧密编队飞行四旋翼飞行器
分类: 机器人技术, 机器学习, 系统与控制, 系统与控制
作者: Kong Yao Chee, Pei-An Hsieh, George J. Pappas, M. Ani Hsieh
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09727v1
摘要: 在紧密编队中飞行四旋翼飞行器是一个具有挑战性的问题。众所周知,在四旋翼飞行器的近场气流中,螺旋桨引起的气动效应非常复杂且难以表征。尽管机器学习工具有可能用于派生模型来捕获这些影响,但这些数据驱动的方法可能样本效率低下,并且生成的模型通常不能像其第一原理模型那样具有泛化能力。在这项工作中,我们提出了一个框架,该框架结合了第一原理建模和数据驱动方法的优点,以构建四旋翼飞行器编队飞行所产生的复杂空气动力效应的准确且样本有效的表示。我们模型中的数据驱动组件是轻量级的,使其适合基于优化的控制设计。通过仿真和物理实验,我们表明,将该模型合并到一种新颖的基于学习的非线性模型预测控制(MPC)框架中,可以在轨迹跟踪和干扰抑制方面带来显着的性能改进。特别是,我们的框架在物理实验中显着优于名义 MPC,平均轨迹跟踪误差提高了 40.1%,最大垂直分离误差降低了 57.5%。我们的框架还实现了卓越的样本效率,仅使用总共 46 秒的飞行数据来进行模拟和物理实验的训练。此外,通过我们提出的框架,四旋翼飞行器实现了异常紧密的编队,在整个飞行过程中平均间隔小于 1.5 个机身长度。这里给出了说明我们的框架和物理实验的视频:https://youtu.be/Hv-0JiVoJGo
Oogway:为 RoboSub 2023 设计、实施和测试 AUV
分类: 机器人技术
作者: Will Denton, Lilly Chiavetta, Michael Bryant, Vedarsh Shah, Rico Zhu, Ricky Weerts, Phillip Xue, Vincent Chen, Hung Le, Maxwell Lin, Austin Camacho, Drew Council, Ethan Horowitz, Jackie Ong, Morgan Chu, Alex Pool
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.10900v1
摘要: 杜克机器人俱乐部很自豪地向 2023 年 RoboSub 竞赛展示我们的机器人:Oogway。乌龟标志着俱乐部历史上最大的设计改革之一。除了改进的外形之外,Oogway 的一些显着功能还包括全新的计算机视觉软件、先进的声纳集成、新颖的声学硬件处理和升级的立体相机。 Oogway 建立在独立、集成良好且可靠的子系统原则之上。各个组件和子系统分别进行了测试和设计。 Oogway 最先进的功能是这些子系统之间紧密集成的结果。此类示例包括声纳辅助计算机视觉算法和部分通过机器人 3D 模型配置的与机器人无关的控制。 Oogway 在不到 2 年时间内的成功构建和测试可归功于 20 多名做出贡献的俱乐部成员、杜克大学普拉特工程学院的支持者以及外部赞助商。
杜克机器人俱乐部 Oogway 的技术设计回顾:RoboSub 2024 的 AUV
分类: 机器人技术
作者: Will Denton, Michael Bryant, Lilly Chiavetta, Vedarsh Shah, Rico Zhu, Philip Xue, Vincent Chen, Maxwell Lin, Hung Le, Austin Camacho, Raul Galvez, Nathan Yang, Nathanael Ren, Tyler Rose, Mathew Chu, Amir Ergashev, Saagar Arya, Kaelyn Pieter, Ethan Horowitz, Maanav Allampallam, Patrick Zheng, Mia Kaarls, June Wood
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09684v1
摘要: 杜克机器人俱乐部很自豪地向 2024 年 RoboSub 竞赛展示我们的机器人:Oogway。现在已经是第二年了,Oogway 的功能和可靠性都得到了显着升级。 Oogway 建立在独立、集成良好且可靠的子系统原则之上。各个组件和子系统分别进行了测试和设计。 Oogway 最先进的功能是这些子系统之间紧密集成的结果。这些例子包括重新设计的控制系统、全新的电气堆栈、先进的声纳集成、额外的摄像头和系统监控、新的标记滴管和防水胶囊机构。这些补充使 Oogway 能够获得 Robosub 2024 的资格预审。
LoRD:调整差异化驱动政策以适应分配变化
分类: 机器人技术, 人工智能, 机器学习
作者: Christopher Diehl, Peter Karkus, Sushant Veer, Marco Pavone, Torsten Bertram
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09681v2
摘要: 操作域之间的分布变化可能会严重影响自动驾驶车辆(SDV)中学习模型的性能。虽然这是一个公认的问题,但之前的工作大多探索了简单的解决方案,例如微调,重点关注运动预测任务。在这项工作中,我们探索了由预测、规划和控制组成的可微自治堆栈的新颖适应策略,在闭环中进行评估,并研究了经常被忽视的灾难性遗忘问题。具体来说,我们介绍了两种简单但有效的技术:低秩残差解码器(LoRD)和多任务微调。通过在两个真实自动驾驶数据集(nuPlan、exiD)上进行的三个模型的实验,我们证明了我们方法的有效性,并强调了先前方法中开环和闭环评估之间的显着性能差距。与标准微调相比,我们的方法将遗忘提高了 23.33%,闭环 OOD 驾驶得分提高了 8.83%。
混合现实双边人体远程操作的稳定性和透明度
分类: 机器人技术, 人机交互, 系统与控制, 系统与控制
作者: David Gregory Black, Septimiu Salcudean
发布时间: 2024-10-13
链接: http://arxiv.org/abs/2410.09679v1
摘要: 最近的工作引入了人类远程操作(HT)的概念,其中传统双边远程操作中通常考虑的远程机器人被佩戴混合现实头戴式显示器并跟踪由专家控制的虚拟工具的运动的新手所取代。 HT 在资源匮乏社区或偏远地区远程医疗的成本、复杂性和患者接受度方面具有优势。然而,双边 HT 的稳定性、透明度和性能尚未得到探索。因此,在本文中,我们使用测试数据开发了 HT 系统的数学模型和仿真。然后,我们使用该模型分析各种控制架构,并使用 HT 系统实现它们,以找到可实现的性能,研究稳定性,并确定存在时间延迟时最有前途的远程操作方案。我们证明,HT 的不稳定性虽然不具有破坏性或危险性,但会使系统无法使用。然而,通过 3 通道远程操作,可以实现稳定且透明的远程操作,并且具有较小的时间延迟(<200 毫秒),或者通过模型介导的远程操作,为新手提供本地姿态和力反馈,从而实现较大的时间延迟。
具有重力和阻力的机械系统的几何优化控制
分类: 机器人技术, 优化与控制
作者: Jinwoo Choi, Alejandro Cabrera, Ross L. Hatton
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09657v1
摘要: 最优控制在众多机械和机器人应用中起着至关重要的作用。广义上,最优控制方法分为直接方法(通过离散化直接优化轨迹)和间接方法(将最优条件转化为保证最优轨迹的方程)。虽然直接方法可能由于离散化而掩盖了对系统动力学的几何洞察,但间接方法可以更深入地了解系统的几何形状。在本文中,我们提出了一个用于理解机械系统最优控制的几何框架,重点关注惯性、阻力和重力的综合影响。通过将机械系统建模为配备有动力学和阻力指标以及势场的配置流形,我们探索了这些因素如何影响轨迹优化。我们推导了结合这些效应的最佳控制方程,并将其应用于二连杆和 UR5 机器人操纵器,展示了流形曲率和阻力如何塑造最佳轨迹。这项工作提供了一种全面的几何方法来实现最优控制,并广泛应用于机器人系统。
无人机六足协作团队在全球导航卫星系统 (GNSS) 遮挡的海洋环境中实现自主检索系统
分类: 机器人技术
作者: Seungwook Lee, Maulana Bisyir Azhari, Gyuree Kang, Ozan Günes, Donghun Han, David Hyunchul Shim
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09606v1
摘要: 我们提出了一种集成的无人机-六足机器人系统,专为 GNSS 拒绝的海上作业而设计,能够通过安装在无人机上的绞盘机构自主部署和检索六足机器人。该系统旨在解决动态海洋环境中的定位、控制和移动性挑战。我们的解决方案利用传感器融合技术,结合光流、激光雷达和深度数据来实现精确定位。实验结果证明了该系统在现实场景中的有效性,验证了其在 MBZIRC 2023 海事挑战赛的受控条件和操作条件下的现场测试中的性能。
EmbodiedCity:现实城市环境中体现智能体的基准平台
分类: 人工智能, 机器人技术
作者: Chen Gao, Baining Zhao, Weichen Zhang, Jinzhu Mao, Jun Zhang, Zhiheng Zheng, Fanhang Man, Jianjie Fang, Zile Zhou, Jinqiang Cui, Xinlei Chen, Yong Li
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09604v1
摘要: 具身人工智能强调智能体的身体在产生类人行为方面的作用。最近EmbodiedAI的工作非常注重建立机器学习模型,使其具有感知、规划和行动能力,从而实现与世界的实时交互。然而,大多数作品都关注有界的室内环境,例如在房间中导航或操纵设备,而对在开放世界场景中体现代理的探索有限。也就是说,对开放和室外环境中的体现智能的探索较少,其中一个潜在原因是缺乏高质量的模拟器、基准测试和数据集。为了解决这个问题,在本文中,我们构建了一个在现实城市环境中进行体现智能评估的基准平台。具体来说,我们首先基于真实城市中的真实建筑物、道路和其他元素构建高度逼真的3D模拟环境。在这种环境下,我们结合历史收集的数据和模拟算法,对行人和车流进行高保真度的模拟。此外,我们设计了一套涵盖不同 EmbodiedAI 能力的评估任务。此外,我们提供了一套完整的输入输出接口供访问,使实体智能体能够轻松地将任务需求和当前环境观测结果作为输入,然后做出决策并获得绩效评估。一方面,它将现有的具身智能的能力扩展到更高的水平。另一方面,它在现实世界中具有更高的实用价值,可以支持人工智能的更多潜在应用。基于这个平台,我们评估了一些流行的大语言模型的不同维度和难度的体现智能能力。
TOP-ERL:基于 Transformer 的离策略情景强化学习
分类: 机器学习, 机器人技术
作者: Ge Li, Dong Tian, Hongyi Zhou, Xinkai Jiang, Rudolf Lioutikov, Gerhard Neumann
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09536v1
摘要: 这项工作介绍了基于 Transformer 的离策略情景强化学习 (TOP-ERL),这是一种能够在 ERL 框架中实现离策略更新的新颖算法。在 ERL 中,策略预测多个时间步长的整个动作轨迹,而不是每个时间步长的单个动作。这些轨迹通常由运动基元 (MP) 等轨迹生成器进行参数化,从而可以在长范围内进行平稳有效的探索,同时捕获高级时间相关性。然而,由于难以评估整个动作序列的状态动作值,ERL 方法通常受限于在策略框架,从而限制了其样本效率并阻碍了更高效的离策略架构的使用。 TOP-ERL 通过分割长动作序列并使用基于 Transformer 的批评架构以及 n 步返回估计来估计每个片段的状态动作值,从而解决了这一缺点。这些贡献带来了高效稳定的训练,这反映在复杂的机器人学习环境中进行的实证结果中。 TOP-ERL 显着优于最先进的 RL 方法。彻底的消融研究还显示了关键设计选择对模型性能的影响。
设计和开发用于浅水环境水产养殖水质监测的低成本无人水面车辆
分类: 机器人技术, 系统与控制, 系统与控制
作者: Aiyelari Temilolorun, Yogang Singh
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09513v1
摘要: 无人水面舰艇通常是自主或远程操作的,专门设计用于各种水生环境中的环境监测水产养殖需要对水质进行持续监测和管理,以保证水产养殖系统的健康和生产力。甚至养殖物种大量死亡 许多小型水产养殖作业预算紧张,而且是在浅水环境中运营,例如内陆池塘、沿海泻湖、河口和浅水河流,特别是在发展中地区。高效监测系统 本文提出了一种低成本 3D 打印双体双体船式平台,配备惯性测量单元 IMU 和全球导航卫星系统 GNSS,具有两层控制框架和使用两个高效 T200 推进器开发的差动驱动配置。利用机器人操作系统 ROS 创建控制框架,并结合基于扩展卡尔曼滤波器 EKF 的传感器融合技术进行定位本文通过开放水域俘虏模型实验评估 USV 的自主性,采用远程控制方法评估船舶在浅水中的机动性和整体性能状况
最优周期轨迹库的间接生成方法及其在经济双足行走中的应用
分类: 机器人技术
作者: Maximilian Raff, Kathrin Flaßkamp, C. David Remy
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09512v1
摘要: 轨迹优化是在腿部运动中生成高效且动态一致的步态的重要工具。本文探讨了轨迹优化的间接方法,强调其在为腿式系统创建最佳周期性步态方面的应用,并将其与更常用的直接方法进行对比。虽然直接方法在其实现中提供了相当大的灵活性,但它受到输入空间参数化的限制。相反,间接方法通过将控制输入定义为系统状态和成本的函数来提高准确性。我们解决了与间接射击方法相关的收敛挑战,特别是通过利用数值连续方法系统开发步态库。我们的贡献包括:(1)一般周期性轨迹优化问题的形式化,该问题将现有的一阶必要条件扩展到更广泛的成本函数和操作条件; (2)一种利用单次射击方法结合数值连续方法有效生成最佳轨迹(步态)库的方法,包括一种从被动步态重建拉格朗日乘子和共律的新方法; (3)以罗盘步态步行器为例,对间接和直接射击方法进行对比分析,证明间接射击方法在生成最佳步态方面具有较高的准确性。研究结果强调了间接方法在生成最佳步态族方面的潜力,从而推进了腿式机器人轨迹优化领域的发展。
ActSafe:强化学习的安全约束主动探索
分类: 机器学习, 机器人技术
作者: Yarden As, Bhavya Sukhija, Lenart Treven, Carmelo Sferrazza, Stelian Coros, Andreas Krause
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09486v1
摘要: 强化学习(RL)在现代人工智能系统的开发中无处不在。然而,最先进的强化学习智能体需要与环境进行广泛且可能不安全的交互才能有效学习。这些限制将强化学习智能体限制在模拟环境中,阻碍了它们在现实环境中直接学习的能力。在这项工作中,我们提出了 ActSafe,一种基于模型的新型 RL 算法,用于安全高效的探索。 ActSafe 学习系统的经过良好校准的概率模型,并乐观地进行计划。对未知动态的认知不确定性,同时强化悲观主义。安全限制。在约束和动态的规律性假设下,我们表明 ActSafe 保证了学习过程中的安全,同时还在有限时间内获得了接近最优的策略。此外,我们提出了 ActSafe 的实用变体,它建立在最新的基于模型的 RL 进步之上,即使在视觉控制等高维环境中也能实现安全探索。我们的经验表明,ActSafe 在标准安全深度 RL 基准上的困难探索任务中获得了最先进的性能,同时确保了学习过程中的安全性。
使用视觉 SLAM 和语义分割的快速空间平均辐射温度绘图框架
分类: 机器人技术, 计算机视觉和模式识别
作者: Wei Liang, Yiting Zhang, Ji Zhang, Erica Cochran Hameen
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09443v1
摘要: 确保热舒适度对于建筑环境中个人的福祉和生产力至关重要。在各种热舒适度指标中,平均辐射温度(MRT)的测量非常具有挑战性。最常见的测量方法既耗时又不方便用户使用。为了解决这个问题,本文提出了一种新颖的 MRT 测量框架,该框架使用视觉同步定位与建图(SLAM)和语义分割技术。所提出的方法遵循使用表面温度和视角因子的传统 MRT 计算方法的经验法则。然而,它采用视觉 SLAM 并创建具有丰富表面温度信息的 3D 热点云。然后,该框架实现了 Grounded SAM,这是一种新的对象检测和分割工具,用于提取建筑物表面上具有不同温度分布的特征。热特征的详细分割不仅减少了MRT计算中的潜在错误,而且还提供了室内环境中空间MRT分布的有效重建。我们还使用参考测量方法验证了计算结果。与传统方法相比,这种数据驱动的框架提供更快、更高效的 MRT 测量和空间映射。它可以使研究人员和从业人员直接参与 MRT 测量,并有助于热舒适性和辐射制冷和供暖系统的研究。
REGNet V2:点云中不同尺寸抓取器的基于端到端区域的抓取检测网络
分类: 机器人技术
作者: Binglei Zhao, Han Wang, Jian Tang, Chengzhong Ma, Hanbo Zhang, Jiayuan Zhang, Xuguang Lan, Xingyu Chen
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09431v1
摘要: 多年来,抓取一直是机器人技术中一个至关重要但具有挑战性的问题。最重要的挑战之一是如何使抓取对于新物体以及非结构化环境中的抓手具有通用性和鲁棒性。我们提出\regnet,一种机器人抓取系统,可以适应不同的平行钳口来抓取多样化的物体。为了支持不同的抓取器,\regnet 将抓取器参数嵌入到点云中,并据此预测合适的抓取配置。它包括三个组件:评分网络(SN)、抓取区域网络(GRN)和细化网络(RN)。在第一阶段,SN用于通过抓取置信度分数来过滤适合抓取的点。在第二阶段,GRN 根据选定的点生成一组抓取建议。最后,RN 改进了抓取建议,以实现更准确、更稳健的预测。我们设计一个分析策略来从预测的抓取集中选择要执行的最佳抓取。为了训练 \regnet,我们构建了一个大规模抓取数据集,其中包含使用不同平行爪夹具的无碰撞抓取配置。实验结果表明,采用分析策略的 regnet 在具有 $20$ 对象的现实杂乱场景中实现了最高成功率 $74.98%$,显着优于几种最先进的方法,包括 GPD、PointNetGPD 和S4G。代码和数据集可在 https://github.com/zhaobinglei/REGNet-V2 获取。
ESVO2:使用立体事件摄像机的直接视觉惯性里程计
分类: 计算机视觉和模式识别, 机器人技术
作者: Junkai Niu, Sheng Zhong, Xiuyuan Lu, Shaojie Shen, Guillermo Gallego, Yi Zhou
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09374v1
摘要: 基于事件的视觉里程计是视觉同步定位与建图(SLAM)技术的一个特定分支,旨在通过利用神经形态(即基于事件)相机的特殊工作原理来并行解决跟踪和建图子问题。由于事件数据的运动相关性,很难建立显式数据关联,即大基线视点变化下的特征匹配,这使得直接方法成为更合理的选择。然而,最先进的直接方法受到映射子问题的高计算复杂性和特定旋转自由度(DoF)下相机姿态跟踪的简并性的限制。在本文中,我们通过在之前的直接管道基于事件的立体视觉里程计之上构建基于事件的立体视觉惯性里程计系统来解决这些问题。具体来说,为了加速映射操作,我们提出了一种根据事件的局部动态对轮廓点进行采样的有效策略。通过合并时间立体和静态立体结果,映射性能在结构完整性和局部平滑度方面也得到了改善。为了避免相机姿态跟踪在恢复一般六自由度运动的俯仰和偏航分量时的退化,我们通过预积分引入 IMU 测量作为运动先验。为此,提出了一个紧凑的后端来持续更新 IMU 偏差并预测线速度,从而为相机姿态跟踪提供准确的运动预测。由此产生的系统可以与现代高分辨率事件摄像机很好地扩展,并在大规模户外环境中实现更好的全球定位精度。对五个具有不同分辨率和场景的公开数据集进行了广泛评估,证明所提出的系统相对于五种最先进的方法具有优越的性能。
一种新颖的多步态策略,用于稳定、高效的四足机器人运动
分类: 机器人技术
作者: Daoxun Zhang, Xieyuanli Chen, Zhengyu Zhong, Ming Xu, Zhiqiang Zheng, Huimin Lu
发布时间: 2024-10-12
链接: http://arxiv.org/abs/2410.09336v1
摘要: 受四足动物自然步态转换机制的启发,设计良好的步态转换策略对于四足机器人在各种地形和速度下实现节能运动非常重要。虽然之前的研究已经认识到与速度相关的步态模式会影响两个关键因素,即运输成本(CoT)和机器人运动的稳定性,但只有有限的研究有效地将这些因素结合起来,设计出一种确保效率和稳定性的机制。四足机器人运动稳定性。在本文中,我们提出了一种多步态选择和过渡策略,以实现跨不同地形的稳定有效的运动。我们的策略首先建立考虑 CoT 和运动稳定性的步态映射,以指导运动过程中的步态选择过程。然后,我们通过引入步态参数的仿射变换和设计的有限状态机来构建切换顺序来实现及时的步态切换。我们对不断变化的地形和速度的策略进行了全面的实验,结果表明,在考虑 CoT 和稳定性的情况下,我们提出的策略在实现同步运动效率方面优于基线方法。
基于肘部的生物力学能量采集器的设计和性能评估
分类: 机器人技术, I.2.9
作者: Hubert Huang, Jeffrey Huang
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.09036v1
摘要: 长期以来,碳排放一直被归因于气候变化的加剧。过去几年,随着气候变化的影响不断升级,人们越来越努力寻找绿色发电替代方案,而发电一直是碳排放的主要贡献者。已出现的一种重要方式是生物力学能量,或基于人类自然运动收集能量。这项研究将评估在肘关节中使用基于齿轮和发电机的生物机械能量收集器发电的可行性。该关节是通过 MediaPipe 使用动力臂分析来选择的,其中肘关节在行走过程中显示出更高的角速度,因此显示出作为构建收割机的更大潜力。腿部关节被排除,以免妨碍日常运动。齿轮和发电机的类型是为了最大限度地提高肘关节的能量产生而确定的。该设备是使用变速箱和发电机构建的。结果表明,使用最佳电阻时,其产生的功率高达 0.16 瓦。这证明了用肘关节齿轮和发电机型生物机械能量采集器发电的可行性。
带小型触觉操纵杆的全向空中机器人的设计与控制用于物理交互
分类: 机器人技术
作者: Julien Mellet, Andrea Berra, Salvatore Marcellini, Miguel Ángel Trujillo Soto, Guillermo Heredia, Fabio Ruggiero, Vincenzo Lippiello
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.09003v1
摘要: 过去几年,全驱动空中机器人证明了其在空中物理交互(APhI)方面的优越性。这项工作提出了空中遥控的最小设置,提高了这些技术的可访问性。详细介绍了具有 4-DoF 触觉反馈的 6-DoF 操纵杆的设计和控制。它是首款具有 APhI 标准遥控器 (RC) 外形尺寸的触觉设备。通过触觉装置的小型化,增强了RC的触觉,提高了身体意识。目标是为操作员提供除视觉和声音之外的额外感觉,以帮助执行安全的 APhI。据作者所知,这是第一个能够解耦每个单轴输入命令的远程操作系统。在全向四旋翼飞行器上,通过新设计减少部件数量,我们的目标是简化维护,并提高力和推重比。基于开源物理的模拟和成功的初步飞行测试凸显了该工具在未来 APhI 应用中的前景。
Voxel-SLAM:完整、准确且多功能的激光雷达惯性 SLAM 系统
分类: 机器人技术
作者: Zheng Liu, Haotian Li, Chongjian Yuan, Xiyuan Liu, Jiarong Lin, Rundong Li, Chunran Zheng, Bingyang Zhou, Wenyi Liu, Fu Zhang
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08935v1
摘要: 在这项工作中,我们提出了Voxel-SLAM:一个完整、准确、多功能的激光雷达惯性SLAM系统,充分利用短期、中期、长期和多地图数据关联来实现实时估计和预测高精度测绘。该系统由五个模块组成:初始化、里程计、局部映射、闭环和全局映射,所有模块都采用相同的地图表示形式,即自适应体素地图。初始化为后续模块提供了准确的初始状态估计和一致的局部映射,使系统能够以高度动态的初始状态启动。里程计利用短期数据关联,快速估计当前状态并检测潜在的系统偏差。局部映射利用中期数据关联,采用局部 LiDAR 惯性束调整 (BA) 来细化最近 LiDAR 扫描的滑动窗口内的状态(和局部地图)。循环闭合检测当前和所有先前会话中先前访问过的位置。全局映射通过高效的分层全局 BA 来细化全局映射。闭环和全局映射都利用长期和多映射数据关联。我们对来自三个代表性场景的 30 个序列与其他最先进的方法进行了全面的基准比较,包括使用手持设备的狭窄室内环境、使用空中机器人的大规模荒野环境以及车辆平台上的城市环境。其他实验证明了初始化的稳健性和效率、在多个会话中工作的能力以及退化环境中的重新定位。
凸集图规划的隐式图搜索
分类: 机器人技术
作者: Ramkumar Natarajan, Chaoqi Liu, Howie Choset, Maxim Likhachev
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08909v1
摘要: 凸集图(GCS)是一种合成平滑轨迹的最新方法,通过将规划空间分解为凸集,形成一个图来编码分解内的邻接关系,然后同时搜索该图并优化部分轨迹以获得最终的轨迹。为此,必须求解混合整数凸规划 (MICP),并且为了减少计算时间,GCS 提出了一种在经验上非常严格的凸松弛。尽管存在这种严格的放松,但针对现实世界机器人问题的 GCS 运动规划可转化为解决同时批量优化问题,该问题可能包含数百万个约束,因此速度可能很慢。 GCS 问题的大小对于规划查询来说是不变的,这一事实进一步加剧了这种情况。由于轨迹解仅位于凸集集合的一小部分上,我们提出了两种隐式图搜索方法,用于在凸集图上进行规划,称为 INSATxGCS (IxG) 和 IxG*。交错搜索和轨迹优化 (INSAT) 是一种先前开发的算法,它交替搜索图和优化部分路径以找到平滑轨迹。通过在凸集图上使用隐式图搜索方法 INSAT,我们实现了更快的规划,同时确保更强的完整性和最优性保证。此外,引入基于搜索的技术来规划凸集图,使我们能够轻松利用成熟的技术,例如搜索并行化、惰性规划、随时规划和重新规划作为未来的工作。与 GCS 的数值比较证明了 IxG 在多种应用中的优越性,包括规划 18 自由度多臂装配场景。
动态基准:ADS 性能评估的空间和时间一致性
分类: 机器人技术
作者: Yin-Hsiu Chen, John M. Scanlon, Kristofer D. Kusano, Timothy L. McMurry, Trent Victor
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08903v1
摘要: 部署的 SAE 4+ 级自动驾驶系统 (ADS) 无需人类驾驶员,目前已在美国地面街道上运行的叫车车队中。该技术当前的用例和未来的应用将决定车队运行的地点和时间,这可能会导致特定地点内某些人类基准人口的驾驶分布出现偏差。现有的评估 ADS 绩效的基准仅对 ADS 进行了县级地理匹配,并对撞车率的驾驶暴露进行了基准测试。这项研究提出了一种构建动态人类基准的新颖方法,该基准可以根据 ADS 和整个人类驾驶车队之间驾驶分布的空间和时间变化进行调整。动态基准是使用人类警方报告的碰撞数据、人类车辆行驶里程 (VMT) 数据以及 Waymo 在美国三个县积累的超过 2000 万英里的纯骑手 (RO) 运营数据生成的。空间调整显示,与未调整的基准相比,不同严重程度的调整后碰撞率存在显着差异,其中旧金山高出 10% 至 47%,马里科帕高出 12% 至 20%,低 7% 至高 34%在洛杉矶各县。由于数据可用性,旧金山的时间调整仅限于该地区,导致调整后的事故率比未调整的事故率低 2% 至高 16%,具体取决于严重程度。研究结果强调了在基准分析中调整空间和时间混杂因素的重要性,这最终有助于为 ADS 性能评估制定更公平的基准。
SegGrasp:通过语义和几何引导分割进行零射击、面向任务的抓取
分类: 机器人技术
作者: Haosheng Li, Weixin Mao, Weipeng Deng, Chenyu Meng, Rui Zhang, Fan Jia, Tiancai Wang, Haoqiang Fan, Hongan Wang, Xiaoming Deng
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08901v1
摘要: 面向任务的抓取涉及根据物体的功能抓取物体的特定部分,这对于开发能够在动态环境中执行复杂任务的先进机器人系统至关重要。在本文中,我们提出了一种免训练框架,该框架结合了语义和几何先验,用于零样本任务导向的掌握生成。所提出的框架 SegGrasp 首先利用 GLIP 等视觉语言模型进行粗分割。然后,它使用凸分解中的详细几何信息,通过名为 GeoFusion 的融合策略来提高分割质量。有效的抓取姿势可以通过具有改进的分割的抓取网络生成。我们在分割基准和现实世界的机器人抓取上进行了实验。实验结果表明,SegGrasp 在抓取和分割性能方面超越基线 15% 以上。
戏剧:Mamba 支持的基于模型的强化学习样本和参数高效
分类: 机器学习, 人工智能, 机器人技术
作者: Wenlong Wang, Ivana Dusparic, Yucheng Shi, Ke Zhang, Vinny Cahill
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08893v1
摘要: 基于模型的强化学习 (RL) 为困扰大多数无模型 RL 算法的数据效率低下提供了解决方案。然而,学习鲁棒的世界模型通常需要复杂而深入的架构,而这些架构的计算和训练成本很高。在世界模型中,动力学模型对于准确预测尤其重要,并且已经探索了各种动力学模型架构,每种架构都有自己的挑战。目前,基于循环神经网络(RNN)的世界模型面临着梯度消失和难以有效捕获长期依赖关系等问题。相比之下,使用 Transformer 会遇到众所周知的自注意力机制问题,其中内存和计算复杂度都为 $O(n^2)$,其中 $n$ 表示序列长度。为了应对这些挑战,我们提出了一种基于状态空间模型 (SSM) 的世界模型,特别是基于 Mamba,它实现了 $O(n)$ 内存和计算复杂性,同时有效捕获长期依赖性并促进有效使用较长的训练序列。我们还引入了一种新颖的采样方法,以减轻训练早期阶段不正确的世界模型导致的次优性,并将其与上述技术相结合,以实现与其他最先进的基于模型的 RL 算法相当的归一化分数仅使用 700 万个可训练参数的世界模型。该模型易于访问,并且可以在现成的笔记本电脑上进行训练。我们的代码可在 https://github.com/realwenlongwang/drama.git 获取。
保形交互式模仿学习:处理专家轮班和间歇反馈
分类: 机器人技术, 人工智能, 人机交互, 机器学习
作者: Michelle Zhao, Reid Simmons, Henny Admoni, Aaditya Ramdas, Andrea Bajcsy
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08852v1
摘要: 在交互式模仿学习(IL)中,不确定性量化为学习者(即机器人)提供了一种通过主动在线寻求专家(即人类)的额外反馈来应对部署过程中遇到的分布变化的方法。当黑盒 IL 政策不确定时,先前的工作使用集成分歧或蒙特卡洛退出等机制来量化;然而,当面临部署时间分布变化时,这些方法可能会导致过度自信的估计。相反,我们认为我们需要不确定性量化算法,该算法可以利用在部署期间收到的专家人类反馈来在线调整机器人的不确定性。为了解决这个问题,我们利用在线共形预测,这是一种在给定地面实况标签流的情况下在线构建预测区间的无分布方法。然而,在交互式 IL 设置中,人类标签是间歇性的。因此,从保形预测方面,我们引入了一种称为间歇分位数跟踪(IQT)的新型不确定性量化算法,该算法利用间歇标签的概率模型,保持渐近覆盖保证,并凭经验实现所需的覆盖水平。从交互式 IL 方面,我们开发了 ConformalDAgger,这是一种新方法,其中机器人使用 IQT 校准的预测间隔作为部署时间不确定性的可靠度量,以主动查询更多专家反馈。我们将 ConformalDAgger 与之前的不确定性感知 DAgger 方法进行了比较,在这种情况下,由于专家策略的变化而出现(或不出现)分布变化。我们发现,在 7DOF 机器人操纵器上的模拟和硬件部署中,ConformalDAgger 在专家移动时检测到高度不确定性,并与基线相比增加了干预次数,从而使机器人能够更快地学习新行为。
基于可供区和人体示范的学习空间双手动作模型
分类: 机器人技术
作者: Björn S. Plonka, Christian Dreher, Andre Meixner, Rainer Kartmann, Tamim Asfour
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08848v1
摘要: 在本文中,我们提出了一种新方法,通过提取所涉及对象的可供性区域之间的空间约束(称为可供性约束)来从人类演示中学习双手操作动作。可供性区域被定义为向代理提供交互可能性的对象部分。例如,瓶子的底部提供了要放置在表面上的物体,而其喷嘴则提供了要倒出的液体。我们提出了一种新方法来学习人类演示中可供性约束的变化,以构建表示对象交互的空间双手动作模型。为了利用这些空间双手动作模型中编码的信息,我们制定了一个优化问题,以确定跨多个执行关键点的最佳对象配置,同时考虑初始场景、学习到的可供性约束和机器人的运动学。我们通过两个示例任务(倒饮料和擀面团)评估模拟方法,并比较可供性约束的三种不同定义:(i)笛卡尔空间中可供性区域之间的组件距离,(ii)可供性区域之间的组件距离在圆柱形空间中,以及(iii)手动定义的符号空间可供性约束的满意度。
已售:使用以槽对象为中心的潜在动态进行强化学习
分类: 机器学习, 人工智能, 机器人技术
作者: Malte Mosbach, Jan Niklas Ewertz, Angel Villar-Corrales, Sven Behnke
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08822v1
摘要: 学习潜在动力学模型提供了代理对其环境的理解的与任务无关的表示。利用这些知识进行基于模型的强化学习,通过在想象中的部署中进行学习,有可能比无模型方法提高样本效率。此外,由于潜在空间作为行为模型的输入,世界模型学习到的信息表示有助于有效学习所需技能。大多数现有方法依赖于环境状态的整体表示。相比之下,人类对物体及其相互作用进行推理,预测行为将如何影响周围环境的特定部分。受此启发,我们提出了 Slot-Attention for Object-centric Latent Dynamics (SOLD),这是一种新颖的算法,可以从像素输入中以无监督的方式学习以对象为中心的动态模型。我们证明,结构化的潜在空间不仅提高了模型的可解释性,而且还为行为模型的推理提供了宝贵的输入空间。我们的结果表明,在评估关系推理和低级操作能力的一系列基准机器人环境中,SOLD 的性能优于 DreamerV3(一种最先进的基于模型的 RL 算法)。视频可在 https://slot-latent-dynamics.github.io/ 获取。
DCNet:DVL 的数据驱动框架
分类: 机器人技术, 人工智能
作者: Zeev Yampolsky, Itzik Klein
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08809v1
摘要: 自主水下航行器 (AUV) 是用于多种应用的水下机器人平台。 AUV 的导航解决方案在很大程度上依赖于惯性传感器和多普勒速度计程仪 (DVL) 的融合,后者可提供准确的速度更新。为了确保精确导航,在任务开始估计其误差项之前进行 DVL 校准。在校准过程中,AUV 遵循复杂的轨迹并采用非线性估计滤波器来估计误差项。在本文中,我们介绍了 DCNet,这是一种以创新方式利用二维卷积核的数据驱动框架。使用 DCNet 和我们提出的 DVL 误差模型,我们提供快速校准程序。这可以应用于几乎恒定速度的轨迹。为了训练和测试我们提出的方法,使用了 276 分钟长的数据集,其中包含真实的 DVL 记录测量值。我们证明,与基线方法相比,使用低性能 DVL 的准确度平均提高了 70%,校准时间平均提高了 80%。由于这些改进,采用低成本 DVL 的 AUV 可以实现更高的精度、更短的校准时间,并应用简单的近乎恒定速度的校准轨迹。我们的研究结果还为利用低成本、高精度 DVL 的海洋机器人技术开辟了新的应用。
MEMROC:多眼到移动机器人校准
分类: 机器人技术
作者: Davide Allegro, Matteo Terreran, Stefano Ghidoni
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08805v1
摘要: 本文介绍了 MEMROC(多眼移动机器人校准),这是一种基于运动的新型校准方法,可简化相对于移动机器人参考系精确校准多个摄像机的过程。 MEMROC 利用已知的校准模式,以便在优化过程中以较少数量的图像进行精确校准。此外,它利用强大的地平面检测进行全面的 6-DoF 外在校准,克服了许多难以估计完整相机位姿的现有方法的关键限制。所提出的方法解决了动态环境中频繁重新校准的需求,在动态环境中,由于日常使用、操作调整或移动机器人运动的振动,摄像机可能会轻微移动或改变其位置。 MEMROC 对嘈杂的里程计数据表现出卓越的鲁棒性,需要最少的校准输入数据。这种组合使其非常适合涉及移动机器人的日常操作。对合成数据和真实数据进行的一系列综合实验证明了 MEMROC 的效率,在准确性、稳健性和易用性方面超越了现有的最先进方法。为了便于进一步研究,我们已在 https://github.com/davidea97/MEMROC.git 上公开提供我们的代码。
VLM 看,机器人做:通过视觉语言模型将人类演示视频转换为机器人行动计划
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习
作者: Beichen Wang, Juexiao Zhang, Shuwen Dong, Irving Fang, Chen Feng
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08792v1
摘要: 视觉语言模型(VLM)最近因其常识推理和泛化能力而被机器人技术采用。现有工作已应用 VLM 根据自然语言指令生成任务和运动规划,并模拟机器人学习的训练数据。在这项工作中,我们探索使用 VLM 来解释人类演示视频并生成机器人任务规划。我们的方法将关键帧选择、视觉感知和 VLM 推理集成到管道中。我们将其命名为 SeeDo,因为它使 VLM 能够“看到”人类演示并向机器人解释相应的计划以供其“执行”。为了验证我们的方法,我们收集了一组长期人类视频,展示了三个不同类别的拾取和放置任务,并设计了一组指标,以根据多个基准(包括最先进的视频)对 SeeDo 进行全面基准测试。输入 VLM。实验证明了 SeeDo 的卓越性能。我们进一步在模拟环境和真实的机器人手臂上部署生成的任务计划。
用于离散化 2D 连续环境的传感器放置问题的混合过滤启发式
分类: 机器人技术, 计算几何
作者: Jan Mikula, Miroslav Kulich
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08784v1
摘要: 本文在将大型、复杂的连续二维环境离散化为图形的背景下解决了传感器放置问题(SPP),以实现高效的面向任务的路线规划。 SPP 旨在最大限度地减少实现用户定义的覆盖率所需的传感器数量,同时考虑通用可见性模型。我们提出了混合过滤启发式(HFH)框架,该框架增强或组合了现有传感器放置方法的输出,并结合了过滤步骤。此步骤消除了冗余传感器或对覆盖范围影响很小的传感器,确保覆盖率保持在所需的区间内。我们实现了 HFH 的两个版本:基本版本和变体 HFHB,它结合了称为分桶的预处理技术来加速区域裁剪。我们在大型、复杂的多边形环境数据集上评估 HFH 和 HFHB,并将它们与无限和有限范围全向可见性模型下的几种基线方法进行比较。结果表明,在实现所需覆盖率所需的传感器数量方面,HFH 和 HFHB 优于基线。此外,HFHB 显着缩短了更具竞争力的基线方法的运行时间。我们还将 HFHB 适应具有本地化不确定性的可见性模型,证明其在一定程度的不确定性下的有效性。
使用轨迹平滑度约束优化基于 NeRF 的 SLAM
分类: 机器人技术
作者: Yicheng He, Guangcheng Chen, Hong Zhang
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08780v1
摘要: 神经辐射场(NeRF)和相机轨迹的联合优化由于其卓越的密集建图质量和一致性而在 SLAM 任务中得到了广泛的应用。基于 NeRF 的 SLAM 通过隐式地图表示使用约束来学习相机姿势。由于这种形式的约束而导致的一个广泛观察到的现象是估计的相机运动不稳定且物理上不切实际,这反过来又影响了地图质量。为了解决当前基于 NeRF 的 SLAM 的这一缺陷,我们在本文中提出了 TS-SLAM(TS for Trajectory Smoothness)。它通过使用具有连续加速度的均匀三次 B 样条曲线来表示相机轨迹,从而引入平滑度约束,以保证相机运动的平滑。受益于 B 样条的可微性和局部控制特性,TS-SLAM 可以使用滑动窗口范例增量地端到端地学习控制点。此外,我们在进一步平滑轨迹之前利用动力学来规范相机轨迹。实验结果表明,与不采用上述平滑度约束的基于 NeRF 的 SLAM 相比,TS-SLAM 实现了卓越的轨迹精度并提高了建图质量。
TřiVis:用于计算多边形环境中可见性的多功能、可靠且高性能的工具
分类: 机器人技术, 计算几何
作者: Jan Mikula, Miroslav Kulich
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08752v1
摘要: 可见性是计算几何中的一个基本概念,在机器人、监控系统、视频游戏和其他领域有着广泛的应用。本软件论文介绍了 T\v{r}iVis,这是作者开发的一个 C++ 库,用于在高度复杂的多边形环境中计算大量与可见性相关的查询。 T\v{r}iVis 采用三角展开算法 (TEA),作为当前解决方案的通用、高性能、更可靠且易于使用的替代方案而脱颖而出,而且没有严重的依赖性。通过对具有挑战性的数据集进行评估,T\v{r}iVis 已针对现有可见性库进行了基准测试。结果表明,T\v{r}iVis 在查询时间上比竞争解决方案至少高出一个数量级,同时表现出更可靠的运行时行为。 T\v{r}iVis 可免费供私人、研究和机构使用,网址为 https://github.com/janmikulacz/trivis。
使用全向相机的仿生可重构机器人立体视觉
分类: 机器人技术
作者: Suchang Chen, Dongliang Fan, Huijuan Feng, Jian S Dai
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08691v1
摘要: 这项工作介绍了一种用于机器人的新型仿生可重构立体视觉系统,利用全向相机和新颖的算法来实现灵活的视觉功能。受各种物种自适应视觉的启发,我们的视觉系统通过向机器人引入可重新配置的立体视觉系统,解决了传统立体视觉的局限性,即不可改变的相机与狭窄视场的对齐。我们的主要创新包括允许动态相机对准的可重构立体视觉策略、利用非校正几何方法与深度神经网络相结合进行特征匹配的稳健深度测量系统,以及提高视觉精度的几何补偿技术。该视觉系统在变形机器人上实现,通过切换316{\deg}单目与79{\deg}双目视野的配置以实现快速目标搜索,以及242{\deg}单目与150{\deg}视野的配置,展示了其对各种场景的强大适应性。 deg} 双目视场进行详细的近距离检查。
SmartPretrain:用于运动预测的模型无关和数据集无关表示学习
分类: 计算机视觉和模式识别, 人工智能, 机器人技术
作者: Yang Zhou, Hao Shao, Letian Wang, Steven L. Waslander, Hongsheng Li, Yu Liu
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08669v1
摘要: 预测周围智能体的未来运动对于自动驾驶汽车 (AV) 在动态的人机混合环境中安全运行至关重要。然而,大规模驾驶数据集的稀缺阻碍了稳健且可推广的运动预测模型的开发,限制了它们捕获复杂交互和道路几何形状的能力。受自然语言处理 (NLP) 和计算机视觉 (CV) 最新进展的启发,自监督学习 (SSL) 由于学习丰富且可转移的场景表示而在运动预测社区中获得了极大的关注。尽管如此,现有的运动预测预训练方法主要集中在特定的模型架构和单个数据集上,限制了它们的可扩展性和通用性。为了应对这些挑战,我们提出了 SmartPretrain,这是一种通用且可扩展的 SSL 运动预测框架,它与模型和数据集无关。我们的方法集成了对比和重构 SSL,利用生成范式和判别范式的优势来有效地表示时空演化和交互,而无需施加架构限制。此外,SmartPretrain 采用与数据集无关的场景采样策略,集成了多个数据集,增强了数据量、多样性和鲁棒性。对多个数据集的广泛实验表明,SmartPretrain 能够持续提高跨数据集、数据分割和主要指标的最先进预测模型的性能。例如,SmartPretrain 将 Forecast-MAE 的 MissRate 显着降低了 10.6%。这些结果凸显了 SmartPretrain 作为统一、可扩展的运动预测解决方案的有效性,突破了小数据机制的限制。代码可在 https://github.com/youngzhou1999/SmartPretrain 获取
FRASA:用于人形机器人跌倒恢复和站立的端到端强化学习代理
分类: 机器人技术
作者: Clément Gaspard, Marc Duclusaud, Grégoire Passault, Mélodie Daniel, Olivier Ly
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08655v1
摘要: 人形机器人在动态环境中实现稳定运动和从跌倒中恢复方面面临着重大挑战。模型预测控制 (MPC) 和基于关键帧 (KFB) 等传统方法要么需要大量微调,要么缺乏实时适应性。本文介绍了 FRASA,这是一种深度强化学习 (DRL) 代理,它将跌倒恢复和站立策略集成到一个统一的框架中。利用 Cross-Q 算法,FRASA 显着减少了训练时间,并提供了适应不可预测干扰的多功能恢复策略。对 Sigmaban 人形机器人的对比测试表明,FRASA 的性能优于儿童联盟世界冠军 Rhoban Team 在 2023 年 RoboCup 上部署的 KFB 方法。
从体操到虚拟非完整约束:杂技机器人的能量注入、耗散和调节
分类: 机器人技术, 优化与控制
作者: Adan Moran-MacDonald, Manfredi Maggiore, Xingbo Wang
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08653v1
摘要: 在本文中,我们研究虚拟非完整约束,它是机械系统的广义坐标和动量之间的关系,可以通过反馈控制来强制执行。我们设计了一个模拟杂技机器人体操巨型运动的约束,并证明该约束可以根据设计参数的符号注入或耗散能量。所提出的约束在现实世界的杂技机器人上进行了模拟和实验测试,展示了高效的能量调节特性和对各种干扰的鲁棒性。
用于伺服执行器物理模拟的扩展摩擦模型
分类: 机器人技术
作者: Marc Duclusaud, Grégoire Passault, Vincent Padois, Olivier Ly
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08650v1
摘要: 准确的物理模拟对于机器人系统控制算法的开发和验证至关重要。强化学习(RL)领域的最新工作显着利用了广泛的模拟来产生高效的机器人控制。最先进的伺服执行器模型通常无法捕捉这些系统的复杂摩擦动力学。这限制了模拟行为到现实世界应用的可转移性。在这项工作中,我们提出了扩展的摩擦模型,可以更准确地模拟伺服执行器动力学。我们提出了对各种摩擦模型的综合分析,提出了一种使用摆锤测试台记录的轨迹来识别模型参数的方法,并演示了如何将这些模型集成到物理引擎中。所提出的摩擦模型在四个不同的伺服执行器上进行了验证,并在 2R 机械臂上进行了测试,结果表明,与标准库仑-粘性模型相比,精度有了显着提高。我们的结果强调了在伺服执行器仿真中考虑高级摩擦效应对于提高机器人仿真的真实性和可靠性的重要性。
制造混乱并侥幸逃脱:旅行推销员杜宾斯车辆圆圈放置问题
分类: 机器人技术
作者: David Woller, Masoumeh Mansouri, Miroslav Kulich
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08627v1
摘要: 本文探讨了旅行推销员问题的一种变体,其中代理在访问每个节点后在每个节点旁边放置一个圆形障碍物。被称为圆形放置的旅行推销员问题(TSP-CP),其目的是最大化存在有效封闭游览的障碍物半径,然后最小化游览成本。 TSP-CP 在各种实际应用中都有相关性,例如采伐、采石和露天采矿。我们提出了几种新颖的求解器来解决 TSP-CP、其为 Dubins 车辆量身定制的变体,以及称为自删除图上的旅行推销员问题 (TSP-SD) 的关键子问题。我们广泛的实验结果表明,所提出的求解器在解决方案质量方面的相关问题优于当前最先进的解决方案。
具有局部驱动和传感的格子结构的数据驱动反馈控制
分类: 机器人技术, 系统与控制, 系统与控制
作者: Dominik Fischer, Loi Do, Miana Smith, Jiří Zemánek
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08625v1
摘要: 用离散的构建块组装晶格可以组成大型、异构且易于重新配置的物体,并具有理想的质量刚度比。这种类型的建筑系统也可以称为数字材料,因为它由离散的纠错组件构成。研究人员已经展示了各种主动结构,甚至机器人系统,它们利用了离散晶格结构的可重构、质量高效的特性。然而,现有文献主要使用开环控制策略,限制了所提出系统的性能。在本文中,我们提出了一种利用系统动力学实时测量的数字晶格结构反馈控制的新方法。我们引入了一种驱动体素,它构成了一种驱动晶格结构的新方法。我们的控制方法基于扩展动态模式分解算法以及线性二次调节器和库夫曼模型预测控制。我们的方法的主要优势在于其纯粹的数据驱动性质,不需要任何系统结构的先验知识。我们通过使用定制的柔性晶格梁进行真实实验来说明所开发的方法,展示了即使使用最少的传感和驱动资源也能完成各种任务的能力。特别是,我们解决了两个问题:稳定与干扰衰减以及参考跟踪。
TactileAR:主动触觉模式重建
分类: 机器人技术
作者: Bing Wu, Qian Liu
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08619v1
摘要: 高分辨率 (HR) 接触面信息对于机器人抓取和精确操作任务至关重要。然而,当前基于紫杉醇的传感器获取心率触觉信息仍然是一个挑战。在本文中,我们重点关注利用低分辨率 (LR) 触觉传感器来重建接触表面的局部、密集和 HR 表示。特别是,我们建立了高斯三轴触觉传感器退化模型,并提出了基于卡尔曼滤波器的触觉模式重建框架。该框架能够使用收集的 LR 触觉序列重建 2-D HR 接触表面形状。此外,我们提出了积极的探索策略来提高重建效率。我们在现实场景中评估所提出的方法,并与现有的基于先验信息的方法进行比较。实验结果证实了所提出方法的效率,并证明了复杂接触表面形状的令人满意的重建。代码:https://github.com/wmtlab/tactileAR
双 AEB:协同基于规则和多模态大语言模型以实现有效的紧急制动
分类: 机器人技术
作者: Wei Zhang, Pengfei Li, Junli Wang, Bingchuan Sun, Qihao Jin, Guangjun Bao, Shibo Rui, Yang Yu, Wenchao Ding, Peng Li, Yilun Chen
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08616v1
摘要: 自动紧急制动(AEB)系统是确保自动驾驶车辆乘客安全的关键组成部分。传统的AEB系统主要依靠封闭的感知模块来识别交通状况并评估碰撞风险。为了增强 AEB 系统在开放场景中的适应性,我们提出了 Dual-AEB,该系统结合了用于全面场景理解的先进多模态大语言模型 (MLLM) 和传统的基于规则的快速 AEB,以确保快速响应时间。据我们所知,双 AEB 是第一种将 MLLM 纳入 AEB 系统的方法。通过大量的实验,我们验证了我们方法的有效性。源代码可在 https://github.com/ChipsICU/Dual-AEB 获取。
机电线性执行器驱动的可持续并串重型机械手运动学参数的节能设计
分类: 机器人技术, 系统与控制, 系统与控制
作者: Alvaro Paz, Mohammad Bahari, Jouni Mattila
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08600v1
摘要: 电气化是应对气候变化的一项关键战略,正在改变行业,非公路机械 (OHM) 将从内燃机和液压驱动过渡到可持续的全电气化机械。机电线性执行器 (EMLA) 提供卓越的效率、安全性和减少的维护,并释放高性能自主操作的巨大潜力。然而,一个关键的挑战在于优化 OHM 机载机械手的运动学参数以进行 EMLA 集成,以充分利用驱动系统的功能并最大限度地提高其性能。这项工作通过深入研究 OHM 机械臂中常用的闭合运动链配置的结构优化来解决这一挑战。我们的方法旨在保留机械手的现有功能,同时减少其能源消耗,为工业自动化的绿色未来铺平道路,在这个未来中,可持续和高性能的机器人化 OHM 可以不断发展。我们的方法的可行性通过安装在电池电动汽车上的市售并行串行重型机械手上获得的模拟结果得到验证。结果证明了我们的方法在修改运动学参数方面的有效性,以促进用 EMLA 替换传统液压执行器,同时最大限度地减少系统的总体能耗。
通过环境预测增强机器人规划和感知
分类: 机器人技术
作者: Vishnu Dutt Sharma
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08560v1
摘要: 移动机器人依靠地图在环境中导航。在没有任何地图的情况下,机器人必须在环境中移动时根据部分观察在线构建地图。传统方法仅使用直接观察来构建地图。相比之下,人类会识别观察到的环境中的模式,并对未来的预期做出明智的猜测。由于环境的复杂性,对这些模式进行显式建模非常困难。然而,使用基于学习的方法结合大量训练数据可以很好地近似这些复杂模型。通过提取模式,机器人可以利用对前方情况的直接观察和预测来更好地导航未知环境。在本论文中,我们提出了几种基于学习的方法,为移动机器人配备预测能力,以实现高效、安全的操作。在论文的第一部分,我们学习使用环境中的几何和结构模式进行预测。部分观测到的地图为准确预测未观测到的区域提供了宝贵的线索。我们首先展示了基于通用学习的方法为各种俯视图模式对这些模式进行建模的能力。然后,我们通过预测附近区域的 2D 占用情况,采用特定于任务的学习来在室内环境中实现更快的导航。这个想法进一步扩展到用于对象重建的 3D 点云表示。我们的方法仅从部分视图预测整个对象的形状,为高效的次佳视图规划铺平了道路。在论文的第二部分,我们学习使用环境中的时空模式进行预测。我们专注于动态任务,例如目标跟踪和覆盖,寻求机器人之间的分散协调。我们首先展示如何使用图神经网络进行更具可扩展性和更快的推理。
空中机器人团队的分散式不确定性感知主动搜索
分类: 机器人技术
作者: Wennie Tabib, John Stecklein, Caleb McDowell, Kshitij Goel, Felix Jonathan, Abhishek Rathod, Meghan Kokoski, Edsel Burkholder, Brian Wallace, Luis Ernesto Navarro-Serment, Nikhil Angad Bakshi, Tejus Gupta, Norman Papernick, David Guttendorf, Erik E. Kahn, Jessica Kasemer, Jesse Holdaway, Jeff Schneider
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08507v1
摘要: 快速搜救对于最大限度地提高自然灾害后的生存率至关重要。然而,这些努力面临着以下挑战:需要搜索大片灾区、通信基础设施缺乏可靠性以及先验未知数量的感兴趣对象(OOI),例如受伤的幸存者。由于空中机器人具有高机动性,越来越多地被部署用于搜索和救援,但在部署多机器人自主空中系统以对大型环境进行系统搜索方面仍然存在差距。先前的工作依赖于人类操作员的预编程路径或仅在模拟中进行评估。我们通过开发和演示分散式主动搜索系统来弥补现有技术中的这些差距,该系统会偏向其轨迹以对不确定的 OOI 采取额外的观点。该方法利用随机性在通信被拒绝的情况下快速覆盖。当通信可用时,机器人共享姿势、目标和 OOI 信息以加快搜索速度。为了验证该方法,我们在俄亥俄州布卢明代尔进行了广泛的模拟和硬件实验。结果表明,主动搜索方法在通信被拒绝的场景中优于基于覆盖的贪婪规划,同时在通信启用的场景中保持可比较的性能。
CoHRT:人机团队合作的协作系统
分类: 机器人技术, 人机交互
作者: Sujan Sarker, Haley N. Green, Mohammad Samin Yasar, Tariq Iqbal
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08504v1
摘要: 协作机器人越来越多地与人类一起部署在工厂、医院、学校和其他领域,以增强团队合作和效率。需要将人类和机器人无缝集成到有凝聚力的团队中以协调和高效执行任务的系统,从而能够研究机器人协作策略如何影响团队绩效以及队友感知的公平性、信任和安全性。这样的系统还可以用于研究机器人的规范行为对团队协作的影响。此外,它还可以调查机器人行为的易读性和可预测性如何影响人机团队合作以及感知的安全性和信任。现有的系统是有限的,通常涉及一个人和一个机器人,因此需要更深入地了解更广泛的团队动态。许多人依赖游戏或虚拟模拟,忽略了机器人物理存在的影响。大多数任务都是回合制的,阻碍了同时执行并影响效率。本文介绍了CoHRT(人机团队协作系统),它通过无缝协作、协调和沟通促进多人机团队合作。 CoHRT 利用基于服务器-客户端的架构、基于视觉的系统来跟踪任务环境,以及用于团队行动协调的简单界面。它允许在设计任务时考虑人类队友的身体和精神工作量以及团队成员的不同技能标签。我们使用 CoHRT 在一个由 Franka Emika Panda 机器人和两个人类组成的团队中设计了一个协作块操作和拼图解决任务。该系统能够记录多模式协作数据,以便为机器人制定自适应协作策略。为了进一步利用 CoHRT,我们概述了各种人机协作任务的潜在研究方向。
通过语义拓扑度量表示引导的大语言模型推理进行空中视觉和语言导航
分类: 机器人技术, 人工智能
作者: Yunpeng Gao, Zhigang Wang, Linglin Jing, Dong Wang, Xuelong Li, Bin Zhao
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08500v1
摘要: 空中视觉和语言导航(VLN)是一项新颖的任务,使无人机(UAV)能够通过自然语言指令和视觉提示在室外环境中进行导航。由于室外航空场景中复杂的空间关系,这仍然具有挑战性。在本文中,我们提出了一种用于空中 VLN 任务的端到端零样本框架,其中引入大语言模型(LLM)作为我们的动作预测代理。具体来说,我们开发了一种新颖的语义拓扑度量表示(STMR)来增强大语言模型的空间推理能力。这是通过提取地标的与指令相关的语义掩码并将其投影到包含周围地标的位置信息的自上而下的地图中来实现的。此外,该图被转换为具有距离度量的矩阵表示作为LLM的文本提示,以根据指令进行动作预测。在真实和模拟环境中进行的实验成功证明了我们方法的有效性和鲁棒性,在 AerialVLN-S 数据集上的 Oracle 成功率 (OSR) 分别实现了 15.9% 和 12.5% 的提高(绝对)。
自动驾驶中边缘情况检测的系统回顾:方法、挑战和未来方向
分类: 机器人技术, 人工智能, 系统与控制, 系统与控制
作者: Saeed Rahmani, Sabine Rieder, Erwin de Gelder, Marcel Sonntag, Jorge Lorente Mallada, Sytze Kalisvaart, Vahid Hashemi, Simeon C. Calvert
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08491v1
摘要: 自动驾驶汽车 (AV) 的快速发展有望通过提高安全性和效率来彻底改变交通运输。然而,确保它们在各种现实条件下的可靠性仍然是一项重大挑战,特别是由于被称为边缘情况的罕见和意外情况。尽管存在多种检测边缘情况的方法,但明显缺乏系统审查这些技术的全面调查。本文通过对边缘情况检测和评估方法进行实用的、层次化的审查和系统分类来填补这一空白。我们的分类分为两个层次:首先,根据自动驾驶模块对检测方法进行分类,包括与感知相关和与轨迹相关的边缘情况;其次,基于指导这些技术的基本方法和理论。我们通过引入一种称为“知识驱动”方法的新类别来扩展这种分类法,这种方法在文献中很大程度上被忽视了。此外,我们回顾了评估边缘情况检测方法和识别的边缘情况的技术和指标。据我们所知,这是第一个全面涵盖所有 AV 子系统的边缘情况检测方法、讨论知识驱动的边缘情况并探索检测方法评估技术的调查。这种结构化和多方面的分析旨在促进自动驾驶汽车的针对性研究和模块化测试。此外,通过确定各种方法的优缺点并讨论挑战和未来方向,本次调查旨在帮助自动驾驶开发人员、研究人员和政策制定者通过有效的边缘情况检测来增强自动驾驶(AD)系统的安全性和可靠性。
ARCap:通过增强现实反馈收集高质量的机器人学习人类演示
分类: 机器人技术, 人工智能
作者: Sirui Chen, Chen Wang, Kaden Nguyen, Li Fei-Fei, C. Karen Liu
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08464v1
摘要: 人类演示模仿学习的最新进展在教授机器人操作技能方面取得了可喜的成果。为了进一步扩大训练数据集,最近的工作开始使用便携式数据收集设备,而不需要物理机器人硬件。然而,由于在数据收集过程中缺乏机器人反馈,数据质量在很大程度上取决于用户的专业知识,并且许多设备仅限于特定的机器人实施例。我们提出 ARCap,一种便携式数据收集系统,通过增强现实 (AR) 和触觉警告提供视觉反馈,指导用户收集高质量的演示。通过广泛的用户研究,我们表明 ARCap 使新手用户能够收集与机器人运动学相匹配的机器人可执行数据,并避免与场景发生碰撞。利用 ARCap 收集的数据,机器人可以执行具有挑战性的任务,例如在杂乱环境中进行操作和长视界跨实体操作。 ARCap完全开源,易于校准;所有组件均采用现成产品构建。更多详细信息和结果可以在我们的网站上找到:https://stanford-tml.github.io/ARCap
AdvDiffuser:通过引导扩散生成对抗性安全关键驾驶场景
分类: 机器学习, 机器人技术
作者: Yuting Xie, Xianda Guo, Cong Wang, Kunhua Liu, Long Chen
发布时间: 2024-10-11
链接: http://arxiv.org/abs/2410.08453v1
摘要: 安全关键场景在自然驾驶环境中并不常见,但对于自动驾驶系统的训练和测试具有重要意义。流行的方法是通过对自然环境进行对抗性调整,在模拟中自动生成安全关键场景。这些调整通常是针对特定的测试系统量身定制的,从而忽略了它们在不同系统之间的可转移性。在本文中,我们提出了 AdvDiffuser,这是一种通过引导扩散生成安全关键驾驶场景的对抗框架。通过结合扩散模型来捕获背景车辆的合理集体行为和轻量级引导模型来有效处理对抗场景,AdvDiffuser 促进了可转移性。 nuScenes 数据集上的实验结果表明,经过离线驾驶日志训练的 AdvDiffuser 可以应用于具有最少预热数据的各种测试系统,并且在真实性、多样性和对抗性能方面优于其他现有方法。
CE-MRS:多机器人系统的对比解释
分类: 机器人技术, 人机交互, 多代理系统
作者: Ethan Schneider, Daniel Wu, Devleena Das, Sonia Chernova
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08408v1
摘要: 随着多机器人系统的复杂性不断增加,包含更多数量的机器人、更复杂的任务和更长的时间范围,此类问题的解决方案往往变得过于复杂,以至于人类用户无法完全理解。在这项工作中,我们引入了一种生成自然语言解释的方法,该方法可以向用户证明系统解决方案的有效性,或者帮助用户纠正导致次优系统解决方案的任何错误。为了实现这一目标,我们首先为多机器人系统提供一种可推广的对比解释形式,然后引入一种整体方法来为多机器人场景生成对比解释,该方法有选择地结合来自多机器人任务分配、调度和运动的数据。计划解释系统行为。通过与人类操作员的用户研究,我们证明我们的集成对比解释方法可以显着提高用户识别和解决系统错误的能力,从而显着提高整体多机器人团队的绩效。
在风道中飞行
分类: 机器人技术, 神经和进化计算
作者: Thomas Martin, Adrien Guénard, Vladislav Tempez, Lucien Renaud, Thibaut Raharijaona, Franck Ruffier, Jean-Baptiste Mouret
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08379v1
摘要: 空气管道是现代建筑不可或缺的一部分,但进入检查却很困难。小型四旋翼无人机提供了一个潜在的解决方案,因为它们可以在水平和垂直区域导航并平稳地飞越碎片。然而,由于旋翼产生的气流会在风道内再循环并使无人机不稳定,因此在风道内悬停会出现问题,而悬停是许多检查任务的关键特征。在本文中,我们使用机器人设置和力/扭矩传感器绘制了影响管道中悬停无人机的空气动力。根据收集到的空气动力学数据,我们确定了稳定飞行的推荐位置,该位置对应于圆形管道的底部三分之一。然后,我们开发了一种基于神经网络的定位系统,该系统利用低成本的飞行时间传感器。通过结合这些空气动力学见解和数据驱动的定位系统,我们证明小型四旋翼无人机(此处为 180 毫米)可以在直径为 350 毫米的小型风道内悬停和飞行。这些结果为无人机开辟了一个新的、有前景的应用领域。
我们准备好在自动驾驶中进行实时 LiDAR 语义分割了吗?
分类: 机器人技术, 计算机视觉和模式识别
作者: Samir Abou Haidar, Alexandre Chariot, Mehdi Darouich, Cyril Joly, Jean-Emmanuel Deschaud
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08365v1
摘要: 在自主移动和机器人系统的感知框架中,通常由 LiDAR 生成的 3D 点云的语义分析是许多应用的关键,例如对象检测和识别以及场景重建。场景语义分割可以通过直接将 3D 空间数据与专门的深度神经网络集成来实现。尽管此类数据提供了有关周围环境的丰富几何信息,但它也带来了许多挑战:其非结构化和稀疏性、不可预测的大小以及苛刻的计算要求。这些特征阻碍了实时语义分析,特别是在构成众多机器人应用程序的主要计算组件的资源受限的硬件架构上。因此,在本文中,我们研究了各种 3D 语义分割方法,并分析了它们在嵌入式 NVIDIA Jetson 平台上进行资源受限推理的性能和功能。我们通过标准化训练协议和数据增强对它们进行评估,以便进行公平比较,并提供 Jetson AGX Orin 和 AGX Xavier 系列上两个大型户外数据集:SemanticKITTI 和 nuScenes 的基准结果。
使用控制李亚普诺夫和屏障函数进行安全且动态可行的运动规划
分类: 机器人技术, 系统与控制, 系统与控制, 优化与控制
作者: Pol Mestres, Carlos Nieto-Granda, Jorge Cortés
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08364v1
摘要: 本文考虑了为控制仿射系统设计运动规划算法的问题,该算法生成从初始到最终目的地的无碰撞路径,并且可以使用安全且动态可行的控制器来执行。我们引入了 C-CLF-CBF-RRT 算法,该算法生成具有此类属性的路径,并利用快速探索随机树 (RRT)、控制李雅普诺夫函数 (CLF) 和控制屏障函数 (CBF)。我们证明了 C-CLF-CBF-RRT 对于各种不同的动力学和障碍物来说具有计算效率,并建立了其概率完整性。我们展示了 C-CLF-CBF-RRT 在不同仿真和硬件实验中的性能。
DTactive:具有主动表面的基于视觉的触觉传感器
分类: 机器人技术
作者: Jikai Xu, Lei Wu, Changyi Lin, Ding Zhao, Huazhe Xu
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08337v1
摘要: 基于视觉的触觉传感器的发展显着增强了机器人的感知和操纵能力,特别是对于需要与物体进行丰富接触交互的任务。在这项工作中,我们推出了 DTactive,这是一种具有主动表面的新型基于视觉的触觉传感器。 DTactive继承并修改了DTact的触觉3D形状重建方法,同时集成了机械传动机制,有利于其表面的移动性。由于这种设计,传感器能够同时执行触觉感知和表面运动的手动操作。利用传感器的高分辨率触觉图像和传动机构的磁性编码器数据,我们提出了一种基于学习的方法,可以在手动操作期间实现精确的角轨迹控制。在我们的实验中,我们成功地对各种物体实现了[ -180{\deg},180{\deg} ]范围内的精确滚动操纵,且期望角度轨迹与实际角度轨迹之间的均方根误差小于12{ \deg} 在 9 个经过训练的对象上,在 3 个新对象上小于 19{\deg}。结果证明了 DTactive 在手持物体操作方面的有效性、鲁棒性和精度方面的潜力。
使用凸运动松弛和动态优化引导无碰撞人形多接触运动
分类: 机器人技术
作者: Carlos Gonzalez, Luis Sentis
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08335v1
摘要: 人形机器人依靠多接触规划器来导航各种不同的环境,包括那些非结构化和高度受限的环境。为了在合理的时间范围内合成稳定的多接触计划,大多数规划者假设静态稳定运动或依赖降阶模型。然而,这些方法也可能使问题在存在大型障碍物或接近运动学和动态极限时变得不可行。为此,我们提出了一种新的多接触框架,该框架利用将无碰撞路径规划放松为凸优化问题的最新进展,将其扩展到适用于人形多接触导航。我们的方法生成近乎可行的轨迹,用作动态轨迹优化器的指南,完全解决了上述限制。我们评估了我们的计算方法,展示了三个不同大小的人形机器人使用我们提出的模拟框架穿过高高的海军膝门。我们的方法可以在几秒钟内生成由多个多接触状态组成的运动计划,包括关节空间的动态可行性。
未知动态耦合力下的模块化自适应空中操纵
分类: 机器人技术
作者: Rishabh Dev Yadav, Swati Dantu, Wei Pan, Sihao Sun, Spandan Roy, Simone Baldi
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08285v1
摘要: 成功的空中操纵很大程度上取决于控制器如何有效地处理飞行器和操纵器之间的耦合动态力。然而,该控制问题在很大程度上仍未得到解决,因为现有的控制方法要么需要飞行器/操纵器惯性耦合的精确知识,要么忽略了状态相关的不确定性,特别是在交互阶段出现的不确定性。这项工作提出了一种自适应控制解决方案,以克服这一长期存在的控制挑战,而无需任何耦合动态项的先验知识。此外,与现有的自适应控制解决方案相比,所提出的控制框架是模块化的,也就是说,它允许独立调整车辆位置子动力学、车辆姿态子动力学和机械臂子动力学的自适应增益。通过分析得出所提出方案下闭环的稳定性,并且实时实验验证了所提出方案相对于最先进方法的有效性。
FusionSense:连接常识、视觉和触觉,实现稳健的稀疏视图重建
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 图形, I.4.5; I.4.8
作者: Irving Fang, Kairui Shi, Xujin He, Siqi Tan, Yifan Wang, Hanwen Zhao, Hung-Jui Huang, Wenzhen Yuan, Chen Feng, Jing Zhang
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08282v1
摘要: 人类毫不费力地将常识知识与视觉和触觉的感官输入相结合,以了解周围的环境。为了模拟这种能力,我们引入了 FusionSense,这是一种新颖的 3D 重建框架,使机器人能够将基础模型的先验与来自视觉和触觉传感器的高度稀疏的观察融合起来。 FusionSense 解决了三个关键挑战:(i)机器人如何有效地获取有关周围场景和物体的强大的全局形状信息? (ii) 机器人如何利用几何和常识先验策略性地选择物体上的接触点? (iii) 触觉信号等局部观察如何改善对象的整体表征?我们的框架采用 3D Gaussian Splatting 作为核心表示,并结合了涉及全局结构构建、对象视觉外壳修剪和局部几何约束的分层优化策略。这一进步可以在传统上具有挑战性的透明、反射或黑暗物体的环境中实现快速、稳健的感知,从而实现更多的下游操纵或导航任务。对现实世界数据的实验表明,我们的框架优于以前最先进的稀疏视图方法。所有代码和数据均在项目网站上开源。
ROMAN:用于鲁棒视图不变全局本地化的开放集对象映射对齐
分类: 机器人技术
作者: Mason B. Peterson, Yi Xuan Jia, Yulun Tian, Annika Thomas, Jonathan P. How
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08262v1
摘要: 全球定位是长期、无漂移机器人导航所需的基本能力。然而,当前的方法在面对明显不同的观点时无法重新定位。我们提出了 ROMAN(Robust Object Map Alignment Anywhere),这是一种强大的全局定位方法,能够基于创建和对齐开放集和视图不变对象的地图,在具有挑战性和多样化的环境中进行本地化。为了解决由特征稀疏或感知别名环境引起的定位困难,ROMAN 使用统一的图论全局数据关联方法来制定并解决对象子图之间的配准问题,该方法同时考虑对象形状和语义相似性以及重力方向的先验。通过在室内、城市和非结构化/森林环境中进行的一系列具有挑战性的大规模多机器人或多会话 SLAM 实验,我们证明了 ROMAN 的最大召回率比其他基于对象的地图对齐方法高出 36%,并且具有绝对轨迹与使用视觉特征进行环路闭合相比,错误率降低了 37%。我们的项目页面可以在 https://acl.mit.edu/ROMAN/ 找到。
从 CAD 到 URDF:包括 CAD 几何结构的喷气动力人形机器人的协同设计
分类: 机器人技术
作者: Punith Reddy Vanteddu, Gabriele Nava, Fabio Bergonti, Giuseppe L'Erario, Antonello Paolino, Daniele Pucci
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07963v2
摘要: 协同设计优化策略通常依赖于从 CAD 中提取的简化机器人模型。虽然这些模型对于优化机器人控制的几何和惯性参数很有用,但它们可能会忽略对优化机械设计进行原型设计所必需的重要细节。例如,它们可能没有考虑施加在优化几何形状上的机械应力以及装配级设计的复杂性。在本文中,我们介绍了一个协同设计框架,旨在提高机器人的控制性能和机械设计。具体来说,我们确定了显着影响控制性能的机器人链接。使用多目标进化算法对这些连杆的几何特性进行参数化和优化,以实现最佳的控制性能。此外,框架中还集成了自动有限元法 (FEM) 分析,以过滤不满足所需结构安全裕度的解决方案。我们通过应用该框架来增强喷气动力人形机器人 iRonCub 的飞行性能的机械设计来验证该框架。
ForceMimic:以力为中心的模仿学习,具有力运动捕捉系统,可实现丰富的接触操作
分类: 机器人技术
作者: Wenhai Liu, Junbo Wang, Yiming Wang, Weiming Wang, Cewu Lu
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07554v2
摘要: 在大多数接触丰富的操作任务中,人类会对目标物体施加随时间变化的力,以补偿视觉引导的手部轨迹的不准确性。然而,当前的机器人学习算法主要关注基于轨迹的策略,而对学习力相关技能的关注有限。为了解决这个限制,我们引入了ForceMimic,一个以力为中心的机器人学习系统,提供了一个自然的、力感知的、无机器人的机器人演示收集系统,以及用于稳健的接触丰富操作的混合力-运动模仿学习算法。使用拟议的 ForceCapture 系统,操作员可以在 5 分钟内剥西葫芦,而力反馈远程操作则需要 13 分钟以上,并且难以完成任务。利用收集到的数据,我们提出 HybridIL 来训练以力为中心的模仿学习模型,该模型配备混合力位置控制原语,以适应机器人执行期间预测的扳手位置参数。实验表明,我们的方法使模型能够在蔬菜剥皮等接触丰富的任务下学习更稳健的策略,与最先进的基于纯视觉的模仿学习相比,成功率相对提高了 54.5%。硬件、代码、数据和更多结果将在项目网站 https://forcemimic.github.io 上开源。
SPA:3D 空间意识实现有效的具体化表示
分类: 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术
作者: Haoyi Zhu, Honghui Yang, Yating Wang, Jiange Yang, Limin Wang, Tong He
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08208v1
摘要: 在本文中,我们介绍了 SPA,这是一种新颖的表示学习框架,强调 3D 空间意识在具体人工智能中的重要性。我们的方法利用多视图图像上的可微神经渲染来赋予普通视觉变换器(ViT)内在的空间理解。我们提出了迄今为止对具身表征学习最全面的评估,涵盖了 8 个模拟器的 268 个任务,在单任务和语言条件多任务场景中具有不同的策略。结果令人信服:SPA 始终优于 10 多种最先进的表示方法,包括专门为实体 AI、以视觉为中心的任务和多模式应用程序设计的方法,同时使用较少的训练数据。此外,我们进行了一系列真实世界的实验,以证实其在实际场景中的有效性。这些结果凸显了 3D 空间意识对于具身表征学习的关键作用。我们最强大的模型需要超过 6000 个 GPU 小时来训练,我们致力于开源所有代码和模型权重,以促进具身表示学习的未来研究。项目页面:https://haoyizhu.github.io/spa/。
SG-Nav:基于 LLM 的零样本对象导航的在线 3D 场景图提示
分类: 计算机视觉和模式识别, 机器人技术
作者: Hang Yin, Xiuwei Xu, Zhenyu Wu, Jie Zhou, Jiwen Lu
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08189v1
摘要: 在本文中,我们提出了一种零样本对象导航的新框架。现有的零样本对象导航方法通过空间封闭对象的文本提示LLM,缺乏足够的场景上下文来进行深入推理。为了更好地保存环境信息并充分发挥LLM的推理能力,我们建议用3D场景图来表示观察到的场景。场景图以LLM友好的结构对对象、组和房间之间的关系进行编码,为此我们设计了分层思想链提示,帮助LLM通过遍历节点和边根据场景上下文推理目标位置。此外,受益于场景图表示,我们进一步设计了重新感知机制,使对象导航框架具有纠正感知错误的能力。我们在 MP3D、HM3D 和 RoboTHOR 环境中进行了广泛的实验,其中 SG-Nav 在所有基准测试中都超越了之前最先进的零样本方法 10% 以上的 SR,同时决策过程是可解释的。据我们所知,SG-Nav 是第一个零样本方法,它在具有挑战性的 MP3D 基准测试中实现了比监督对象导航方法更高的性能。
关于生成机器人模拟的评估
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习
作者: Feng Chen, Botian Xu, Pu Hua, Peiqi Duan, Yanchao Yang, Yi Ma, Huazhe Xu
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08172v1
摘要: 由于获取大量现实世界数据的困难,机器人仿真对于并行训练和模拟到真实的迁移变得至关重要,凸显了可扩展的模拟机器人任务的重要性。基础模型在自主生成可行的机器人任务方面表现出了令人印象深刻的能力。然而,这种新范式强调了充分评估这些自主生成的任务的挑战。为了解决这个问题,我们提出了一个针对生成模拟的综合评估框架。我们的框架将评估分为三个核心方面:质量、多样性和概括性。对于单任务质量,我们使用大型语言模型和视觉语言模型评估生成任务的真实性和生成轨迹的完整性。在多样性方面,我们通过任务描述的文本相似性和在收集的任务轨迹上训练的世界模型损失来衡量任务和数据的多样性。对于任务级泛化,我们评估了使用多个生成任务训练的策略在未见过的任务上的零样本泛化能力。在三个代表性任务生成管道上进行的实验表明,我们框架的结果与人类评估高度一致,证实了我们方法的可行性和有效性。研究结果表明,虽然可以通过某些方法实现质量和多样性指标,但没有一种方法在所有指标上都表现出色,这表明需要更加注重平衡这些不同的指标。此外,我们的分析进一步强调了当前工作面临的泛化能力低的共同挑战。我们的匿名网站:https://sites.google.com/view/evaltasks。
LiPO:用于 ICP 比较的 LiDAR 惯性里程计
分类: 机器人技术
作者: Darwin Mick, Taylor Pool, Madankumar Sathenahally Nagaraju, Michael Kaess, Howie Choset, Matt Travers
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08097v1
摘要: 我们引入了一种名为 LiPO 的 LiDAR 惯性里程计 (LIO) 框架,它可以直接比较不同的迭代最近点 (ICP) 点云配准方法。我们比较的两种常见 ICP 方法是点对点 (P2P) 和点对特征 (P2F)。根据我们的经验,在 LIO 的背景下,与 P2P-ICP 相比,当机器人在充满挑战的环境中积极移动时,P2F-ICP 可以减少漂移并提高映射精度。然而,P2F-ICP 方法需要更多手动调整的超参数,这使得 P2F-ICP 在所有环境和运动中的通用性较差。在现实世界的现场机器人应用中,机器人在不同的环境中使用,尽管漂移增加,但更通用的 P2P-ICP 方法可能是首选。在本文中,我们寻求更好地量化 P2P-ICP 和 P2F-ICP 之间的权衡,以帮助告知何时应使用每种方法。为了探索这种权衡,我们使用 LiPO 直接比较 ICP 方法并在相关基准数据集以及我们的定制无人驾驶地面车辆 (UGV) 上进行测试。我们发现,总体而言,P2F-ICP 减少了漂移并提高了映射精度,但是,P2P-ICP 在所有环境和运动中都更加一致,漂移增加最小。
UW-SDF:利用混合几何先验从水下多视图单目图像进行神经 SDF 重建
分类: 计算机视觉和模式识别, 机器人技术
作者: Zeyu Chen, Jingyi Tang, Gu Wang, Shengquan Li, Xinghui Li, Xiangyang Ji, Xiu Li
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08092v1
摘要: 由于水下环境的独特特征,水下物体的精确3D重建在水下探索和测绘等任务中提出了具有挑战性的问题。传统方法依赖多个传感器数据进行 3D 重建,不仅耗时,而且在水下场景中的数据采集方面面临挑战。我们提出了 UW-SDF,一种基于神经 SDF 从多视图水下图像重建目标对象的框架。我们引入混合几何先验来优化重建过程,显着提高神经SDF重建的质量和效率。此外,为了解决多视图图像中分割一致性的挑战,我们提出了一种使用通用分割模型(SAM)的新颖的少镜头多视图目标分割策略,从而能够快速自动分割不可见的对象。通过对不同数据集进行广泛的定性和定量实验,我们证明了我们提出的方法优于传统的水下 3D 重建方法和水下 3D 重建领域的其他神经渲染方法。
四足机器人前腿动态物体捕捉
分类: 机器人技术
作者: André Schakkal, Guillaume Bellegarda, Auke Ijspeert
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08065v1
摘要: 本文提出了一种使用四足机器人后腿站立时的前腿进行动态物体捕捉的框架。该系统集成了计算机视觉、轨迹预测和腿部控制,使四足动物能够使用机载摄像头视觉检测、跟踪并成功捕捉抛出的物体。利用经过微调的 YOLOv8 模型进行物体检测和基于回归的轨迹预测模块,四足动物迭代地调整其前腿位置以预测和拦截物体。捕捉动作包括确定最佳捕捉位置、通过笛卡尔 PD 控制控制前腿,并在适当的时刻将腿合拢。我们提出并验证了三种不同的方法来选择最佳捕捉位置:1)将预测轨迹与垂直平面相交,2)选择预测轨迹上与处于标称位置的机器人腿部中心距离最小的点, 3) 在对机器人可到达空间进行建模的高斯混合模型 (GMM) 上选择预测轨迹上可能性最高的点。实验结果表明,在各种场景下都有强大的捕获能力,其中GMM方法取得了最佳性能,捕获成功率达到80%。可以在 https://youtu.be/sm7RdxRfIYg 上找到系统实际运行的视频演示。
通过自适应策略切换强化学习中时态逻辑约束的概率满足
分类: 人工智能, 机器人技术, 系统与控制, 系统与控制
作者: Xiaoshan Lin, Sadık Bera Yüksel, Yasin Yazıcıoğlu, Derya Aksaray
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08022v1
摘要: 约束强化学习 (CRL) 是机器学习的一个子集,它将约束引入到传统的强化学习 (RL) 框架中。与仅以最大化累积奖励为目标的传统强化学习不同,CRL 包含了额外的约束,这些约束代表了代理在学习过程中必须遵守的特定任务要求或限制。在本文中,我们解决了一类 CRL 问题,其中代理旨在学习最优策略以最大化奖励,同时确保在整个学习过程中达到所需的时间逻辑约束满足水平。我们提出了一种新颖的框架,该框架依赖于纯学习(奖励最大化)和约束满足之间的切换。该框架根据早期试验估计约束满足的概率,并适当调整学习和约束满足策略之间切换的概率。我们从理论上验证了所提出算法的正确性,并通过综合仿真证明了其性能和可扩展性。
迈向协同、通用、高效的机器人操作双系统
分类: 机器人技术, 人工智能
作者: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08001v1
摘要: 对在多样化和动态环境中运行的多功能机器人系统的需求不断增长,强调了通才政策的重要性,该政策利用大型跨实体数据语料库来促进广泛的适应性和高级推理。然而,通才会因低效的推理和昂贵的培训而苦苦挣扎。相反,专家策略是针对特定领域数据制定的,并且在任务级精度和效率方面表现出色。然而,它缺乏广泛应用的泛化能力。受这些观察的启发,我们推出了 RoboDual,这是一种协同双系统,可以补充通才政策和专业政策的优点。基于扩散变压器的专家专为多步骤动作推出而设计,以基于视觉-语言-动作(VLA)的通才的高级任务理解和离散化动作输出为条件。与 OpenVLA 相比,RoboDual 通过引入仅 20M 可训练参数的专家策略,在现实环境中实现了 26.7% 的改进,在 CALVIN 上实现了 12% 的增益。仅用 5% 的演示数据即可保持强劲性能,并在实际部署中实现 3.8 倍的控制频率。代码将公开。我们的项目页面托管在:https://opendrivelab.com/RoboDual/
从 CAD 到 URDF:包括 CAD 几何结构的喷气动力人形机器人的协同设计
分类: 机器人技术
作者: Punith Reddy Vanteddu, Gabriele Nava, Fabio Bergonti, Giuseppe L'Erario, Antonello Paolino, Daniele PUcci
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07963v1
摘要: 协同设计优化策略通常依赖于从 CAD 中提取的简化机器人模型。虽然这些模型对于优化机器人控制的几何和惯性参数很有用,但它们可能会忽略对优化机械设计进行原型设计所必需的重要细节。例如,它们可能没有考虑施加在优化几何形状上的机械应力以及装配级设计的复杂性。在本文中,我们介绍了一个协同设计框架,旨在提高机器人的控制性能和机械设计。具体来说,我们确定了显着影响控制性能的机器人链接。使用多目标进化算法对这些连杆的几何特性进行参数化和优化,以实现最佳的控制性能。此外,框架中还集成了自动有限元法 (FEM) 分析,以过滤不满足所需结构安全裕度的解决方案。我们通过应用该框架来增强喷气动力人形机器人 iRonCub 的飞行性能的机械设计来验证该框架。
真实开放环境的多模态感知系统
分类: 机器人技术, 计算机视觉和模式识别
作者: Yuyang Sha
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07926v1
摘要: 本文提出了一种适用于真实开放环境的新型多模态感知系统。所提出的系统包括嵌入式计算平台、摄像头、超声波传感器、GPS 和 IMU 设备。与传统框架不同,我们的系统集成了多个传感器和先进的计算机视觉算法,以帮助用户可靠地走出去。该系统可以高效地完成各种任务,包括导航到特定位置、穿过障碍物区域、穿越路口等。具体来说,我们还使用超声波传感器和深度摄像头来增强避障性能。路径规划模块旨在根据各种反馈和用户当前状态找到局部最优路径。为了评估所提出系统的性能,我们在不同场景下设计了多个实验。结果表明,该系统能够帮助用户在复杂情况下高效、独立行走。
通过图卷积网络中的新颖性的不确定性测量来理解人类活动
分类: 机器人技术, 计算机视觉和模式识别
作者: Hao Xing, Darius Burschka
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07917v1
摘要: 了解人类活动是开发智能机器人的一个重要方面,特别是在人机协作领域。然而,现有系统遇到了诸如过度分割等挑战,这是由于解码器上采样过程中的错误造成的。作为回应,我们引入了一个有前途的解决方案:时间融合图卷积网络。这种创新方法旨在纠正活动流中个体动作的边界估计不足,并减轻时间维度上的过度分割问题。此外,利用人类活动识别框架进行决策的系统不仅仅需要识别行为。它们需要一个置信值来表示观察结果与训练示例之间的对应关系的确定性。这对于防止对不属于训练数据一部分的不可预见场景做出过于自信的响应至关重要,并且可能由于系统内的相似性度量较弱而导致不匹配。为了解决这个问题,我们建议结合光谱归一化残差连接,旨在增强对观测中新颖性的有效估计。这种创新方法通过对权重更新的最大梯度施加约束,确保在特征空间内保留输入距离。通过限制这些梯度,我们促进更稳健地处理新情况,从而减轻与过度自信相关的风险。我们的方法涉及使用高斯过程来量化特征空间中的距离。
使用金字塔图卷积网络理解人机交互中的时空关系
分类: 计算机视觉和模式识别, 机器人技术
作者: Hao Xing, Darius Burschka
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07912v1
摘要: 人类活动识别是智能机器人的一项重要任务,特别是在人机协作领域,它不仅需要子活动的标签,还需要活动的时间结构。为了自动识别人与物体交互序列中的标签和时间结构,我们提出了一种新颖的金字塔图卷积网络(PGCN),它采用金字塔编码器-解码器架构,由基于注意力的图卷积网络和时间金字塔池化模块分别用于时间轴上的下采样和上采样交互序列。该系统将视频数据中的检测结果中的人和物体的 2D 或 3D 空间关系表示为图形。为了学习人与物体的关系,训练了一个新的注意力图卷积网络,以从图表示中提取浓缩信息。为了将动作分割成子动作,提出了一种新颖的时间金字塔池化模块,它将压缩特征上采样回原始时间尺度并对每帧的动作进行分类。我们探索了各种注意力层,即空间注意力、时间注意力和通道注意力,并结合不同的上采样解码器来测试动作识别和分割的性能。我们在人机交互识别领域的两个具有挑战性的数据集(即双手动作和宜家装配数据集)上评估我们的模型。我们证明,我们的分类器显着提高了逐帧动作识别和分割,例如,Bimanual Actions 数据集上的 F1 micro 和 F1@50 分数分别提高了 $4.3%$ 和 $8.5%$。
舒缓感觉:通过振动触觉心跳增强与社交辅助机器人的互动
分类: 人机交互, 机器人技术
作者: Jacqueline Borgstedt, Shaun Macdonald, Karola Marky, Frank E. Pollick, Stephen A. Brewster
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07892v1
摘要: 与社交辅助机器人 (SAR) 的身体互动会对用户的健康产生积极影响。然而,触摸 SAR 时的触觉体验通常仅限于感知机器人的运动或外壳纹理,而其他可以增强机器人触摸体验的方式(例如振动触觉刺激)尚未得到充分探索。在这项探索性定性研究中,我们研究了通过振动触觉心跳增强人类与 PARO 机器人互动的潜力,目的是在压力情况下调节主观幸福感。我们对 30 名参与者进行了一对一的深入采访,他们单独观看了 3 个恐怖电影片段、使用 PARO 以及使用显示振动触觉心跳的 PARO。我们的研究结果表明,PARO 的存在及其交互功能可以帮助用户通过将注意力从压力源重新部署到机器人来调节情绪。振动触觉心跳进一步增强了 PARO 的身体和社会存在感,增强了机器人提供的社会情感支持及其感知的栩栩如生。我们讨论了用户体验中个体差异的影响以及对未来 SAR 逼真振动触觉刺激设计的影响。
受限技能发现:无监督强化学习的四足运动
分类: 机器人技术
作者: Vassil Atanassov, Wanming Yu, Alexander Luis Mitchell, Mark Nicholas Finean, Ioannis Havoutis
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07877v1
摘要: 表征学习和无监督技能发现可以让机器人获得多样化且可重复使用的行为,而不需要特定于任务的奖励。在这项工作中,我们使用无监督强化学习,通过最大化受距离约束的技能和状态之间的互信息来学习潜在表示。我们的方法通过用规范匹配目标替换潜在转换最大化来改进先前的受限技能发现方法。与基线方法相比,这不仅会产生更丰富的状态空间覆盖范围,而且允许机器人学习更稳定且更容易控制的机车行为。我们成功地将学习策略部署在真正的 ANYmal 四足机器人上,并证明该机器人可以仅使用内在技能发现和标准正则化奖励,以零射击方式准确到达笛卡尔状态空间的任意点。
L-VITeX:用于地形探索的轻量级视觉直觉
分类: 机器人技术
作者: Antar Mazumder, Zarin Anjum Madhiha
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07872v1
摘要: 本文介绍了 L-VITeX,这是一种用于地形探索的轻量级视觉直觉系统,专为资源受限的机器人和群体而设计。 L-VITeX 旨在提供感兴趣区域 (RoI) 的提示,而无需进行昂贵的计算处理。通过利用更快的对象、更多的对象 (FOMO) tinyML 架构,系统在 RoI 检测中实现了高精度 (>99%),同时以最少的硬件资源(峰值 RAM 使用 < 50 KB)运行,并具有近实时推理 (<200多发性硬化症)。该论文评估了 L-VITeX 在各种地形上的性能,包括山区、水下沉船残骸区域和火星岩石表面。此外,它还使用由 ESP32-Cam 和 Gaussian Splats (GS) 运行的小型移动机器人演示了该系统在 3D 测绘中的应用,展示了其提高勘探效率和决策的潜力。
协同形态计算和生成设计:肌腱驱动夹具的自动合成
分类: 机器人技术
作者: Kirill Zharkov, Mikhail Chaikovskii, Yefim Osipov, Rahaf Alshaowa, Ivan Borisov, Sergey Kolyubin
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07865v1
摘要: 机器人的行为和性能由硬件和软件决定。机器人系统的设计过程是一个复杂的过程,涉及多个阶段。在整个过程中,目标是同时解决各种标准,尽管它们经常相互矛盾。最终目标是找到解决这些相互冲突因素的最佳解决方案。生成式、计算式或自动设计是旨在加速整个设计过程的范例。在本文中,我们提出了一种设计方法来为具有形态计算的机器人生成联动机构。我们使用图语法和启发式搜索算法来创建机器人机构图,并将其转换为仿真模型以测试设计输出。为了验证设计方法,我们将其应用于相对简单的物体抓取准静态问题。我们找到了一种自动设计欠驱动肌腱驱动夹具的方法,该夹具可以抓取各种物体。这是可能的,因为它的结构,而不是因为复杂的规划或学习。
RDT-1B:用于双手操作的扩散基础模型
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习
作者: Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07864v1
摘要: 双手操纵在机器人技术中至关重要,但由于协调两个机器人手臂的固有复杂性(导致多模态动作分布)和训练数据的稀缺,开发基础模型极具挑战性。在本文中,我们提出了机器人扩散变压器(RDT),这是一种用于双手操作的开创性扩散基础模型。 RDT 基于扩散模型来有效地表示多模态,通过可扩展 Transformer 的创新设计来处理多模态输入的异构性并捕获机器人数据的非线性和高频。为了解决数据稀缺的问题,我们进一步引入了物理可解释的统一动作空间,它可以统一各种机器人的动作表示,同时保留原始动作的物理意义,促进学习可迁移的物理知识。通过这些设计,我们成功地在迄今为止最大的多机器人数据集上预训练 RDT,并将其扩展到 1.2B 参数,这是用于机器人操作的最大的基于扩散的基础模型。我们最终在自创的多任务双手数据集(超过 6K 集)上对 RDT 进行了微调,以完善其操作能力。在真实机器人上的实验表明,RDT 显着优于现有方法。它对未见过的物体和场景表现出零样本泛化能力,理解并遵循语言指令,只需 1~5 次演示即可学习新技能,并有效处理复杂、灵巧的任务。我们参考 https://rdt-robotics.github.io/rdt-robotics/ 获取代码和视频。
用于步长调整的风格人形机器人行走的在线 DNN 驱动非线性 MPC
分类: 机器人技术
作者: Giulio Romualdi, Paolo Maria Viceconte, Lorenzo Moretti, Ines Sorrentino, Stefano Dafarra, Silvio Traversaro, Daniele Pucci
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07849v1
摘要: 本文提出了一种三层架构,可通过在线接触位置调整实现风格移动。我们的方法将作为轨迹生成层的自回归深度神经网络(DNN)与基于模型的轨迹调整和轨迹控制层相结合。 DNN 生成质心和姿势参考,作为其他层的初始猜测和正则化器。由于 DNN 是根据人类动作捕捉数据进行训练的,因此产生的机器人运动表现出类似于人类行走方式的运动模式。轨迹调整层利用非线性优化来确保动态可行的质心 (CoM) 运动,同时解决步进调整问题。我们比较轨迹调整层的两种实现:一种作为后退地平线规划器(RHP),另一种作为模型预测控制器(MPC)。为了增强 MPC 性能,我们引入卡尔曼滤波器来降低测量噪声。滤波器参数通过遗传算法自动调整。 ergoCub 人形机器人的实验结果表明,该系统能够防止跌倒、复制人类行走方式以及承受高达 68 牛顿的干扰。网站:https://sites.google.com/view/dnn-mpc-walking YouTube 视频:https://www.youtube.com/watch?v=x3tzEfxO-xQ
SwarmPath:利用人工势场和阻抗控制在杂乱环境中进行无人机群导航
分类: 机器人技术
作者: Roohan Ahmed Khan, Malaika Zafar, Amber Batool, Aleksey Fedoseev, Dzmitry Tsetserukou
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07848v1
摘要: 在多无人机系统领域,从起点到目标在动态环境中导航,同时提供无碰撞轨迹和高效的路径规划是一项重大挑战。为了解决这个问题,我们提出了一种新颖的 SwarmPath 技术,该技术涉及人工势场(APF)与阻抗控制器的集成。所提出的方法提供了一种基于无碰撞领导者-跟随者行为的解决方案,其中无人机能够适应环境。此外,领导者是虚拟的,而无人机是物理追随者,利用 APF 路径规划方法来找到到达目标的最小可能路径。同时,无人机动态调整阻抗链接,允许自己创建带有障碍物的虚拟链接以避开它们。与传统的 APF 相比,所提出的 SwarmPath 系统不仅提供平滑的防撞功能,还使代理能够有效地通过狭窄的通道,将总行进时间减少 30%,同时确保无人机连接方面的安全。最后,结果还表明,模拟环境与真实环境之间的差异,无人机轨迹的平均绝对百分比误差 (APE) 为 6%。这强调了我们的解决方案在现实场景中的可靠性。
时间逻辑规范下的自动驾驶车辆路径规划
分类: 机器人技术, 计算机科学中的逻辑
作者: Akshay Dhonthi, Nicolas Schischka, Ernst Moritz Hahn, Vahid Hashemi
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07845v1
摘要: 路径规划是自动驾驶的重要组成部分。全球规划师负责高层规划。它基本上在已知地图上执行最短路径搜索,从而定义用于控制本地(低级)规划器的路径点。局部规划是一种在车辆本身上实时重复运行的运行时验证方法,从而以高效且安全的方式找到通向所需航路点的最佳短视距路径。挑战在于,本地规划者必须考虑不断传入的有关环境可用信息的更新。此外,它执行一项复杂的任务,因为它必须考虑各种各样的要求,源于避免与障碍物碰撞的必要性、尊重交通规则、遵守监管要求,最后有效地到达下一个航路点。在本文中,我们描述了一种满足所有这些要求的基于逻辑的规范机制。
LaB-CL:用于改进停车位检测的局部和平衡对比学习
分类: 计算机视觉和模式识别, 人工智能, 机器人技术
作者: U Jin Jeong, Sumin Roh, Il Yong Chun
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07832v1
摘要: 停车位检测是自动停车系统的一项重要技术。一般来说,停车位检测的分类问题由两个任务组成,一个任务确定局部候选是否是停车位的路口,另一个任务识别检测到的路口的形状。这两种分类任务都很容易面临针对多数类别的偏见学习,从而降低分类性能。然而,停车位检测中数据不平衡的问题却被忽视了。我们提出了第一个用于停车位检测的监督对比学习框架,即用于改进停车位检测的局部和平衡对比学习(LaB-CL)。拟议的 LaB-CL 框架使用两种主要方法。首先,我们建议包含类原型,以从局部角度考虑每个小批量中所有类的表示。其次,我们提出了一种新的硬负采样方案,该方案选择具有高预测误差的局部表示。基准数据集的实验表明,所提出的 LaB-CL 框架可以优于现有的停车位检测方法。
通过 6D 位姿估计自主操纵不同透明度的实验室设备的机器人框架
分类: 机器人技术, 计算机视觉和模式识别, 软件工程, 系统与控制, 系统与控制
作者: Maria Makarova, Daria Trinitatova, Dzmitry Tsetserukou
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07801v1
摘要: 许多现代机器人系统都是自主运行的,但它们往往缺乏准确分析环境和适应不断变化的外部条件的能力,而远程操作系统通常需要特殊的操作技能。在实验室自动化领域,自动化流程的数量正在不断增长,但是此类系统通常是为了执行特定任务而开发的。此外,该领域使用的许多对象是透明的,因此很难使用视觉通道对其进行分析。这项工作的贡献包括开发具有自主模式的机器人框架,用于在复杂的姿势组合中操纵具有不同透明度的液体填充物体。进行的实验证明了所设计的视觉感知系统的鲁棒性,可以准确估计自主操作的物体姿势,并证实了算法在液体分配等灵巧操作中的性能。所提出的机器人框架可应用于实验室自动化,因为它可以通过分析不同透明度和液位的物体姿势来解决执行不平凡的操作任务的问题,这需要高精度和可重复性。
通过将软体和刚性机器人与模仿学习相结合来掌握接触丰富的任务
分类: 机器人技术, 人工智能
作者: Mariano Ramírez Montero, Ebrahim Shahabi, Giovanni Franzese, Jens Kober, Barbara Mazzolai, Cosimo Della Santina
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07787v1
摘要: 软机器人有可能彻底改变机器人系统的使用,因为它们能够与环境建立安全、稳健和适应性强的交互,但它们的精确控制仍然具有挑战性。相比之下,传统的刚性机器人具有高精度和重复性,但缺乏软体机器人的灵活性。我们认为,将这些特征结合到混合机器人平台中可以显着增强整体能力。这项工作提出了一种新颖的混合机器人平台,它将刚性机械臂与完全开发的软臂集成在一起。该系统配备了通过模仿学习自主执行灵活和通用任务所需的智能。物理柔软性和机器学习使我们的平台能够实现高度通用的技能,而刚性组件则确保精度和可重复性。
自动驾驶汽车的神经语义图学习
分类: 机器人技术, 计算机视觉和模式识别
作者: Markus Herb, Nassir Navab, Federico Tombari
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07780v1
摘要: 自动驾驶车辆需要详细的地图才能在交通中可靠地行驶,并且需要保持最新地图以确保安全运行。让地图适应不断变化的道路网络的一种有前途的方法是使用来自车队的众包数据。在这项工作中,我们提出了一个地图系统,该系统融合了从中央实例的车队收集的本地子地图,以生成道路环境的连贯地图,包括可行驶区域、车道标记、电线杆、障碍物等作为 3D 网格。每辆车都提供局部重建的子图作为轻量级网格,使我们的方法适用于各种重建方法和传感器模式。我们的方法使用特定于场景的神经符号距离场联合对齐和合并噪声和不完整的局部子图,该距离场使用子图网格进行监督以预测融合的环境表示。我们利用内存高效的稀疏特征网格来扩展到大区域,并引入置信度分数来模拟场景重建中的不确定性。我们的方法在具有不同局部映射方法的两个数据集上进行了评估,显示出比现有方法改进的姿态对齐和重建。此外,我们还展示了多会话映射的好处,并检查了实现自动驾驶车辆高保真地图学习所需的数据量。
使用模拟机械臂学习低级因果关系
分类: 机器人技术, 人工智能, 机器学习
作者: Miroslav Cibula, Matthias Kerzel, Igor Farkaš
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07751v1
摘要: 因果学习使人类能够预测其行为对已知环境的影响,并利用这些知识来计划更复杂行为的执行。这些知识还可以捕获环境的行为,并可用于分析和行为背后的推理。这类知识对于具有常识的智能机器人系统的设计也至关重要。在本文中,我们通过学习基于涉及两个感觉运动任务的模拟机械臂生成的数据的正向和逆向模型来研究因果关系。下一步,我们研究用于分析正向模型的特征归因方法,该方法揭示了与手臂关节和环境特征相关的状态向量的各个特征对应的低级因果效应。这种类型的分析为状态表示的降维以及为更高层次的因果效应的可解释性聚合知识提供了坚实的基础。
PHODCOS:基于毕达哥拉斯 Hodograph 的可微坐标系
分类: 机器人技术, 系统与控制, 系统与控制
作者: Jon Arrizabalaga, Fausto Vega, Zbyněk ŠÍR, Zachary Manchester, Markus Ryll
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07750v1
摘要: 本文提出了 PHODCOS,一种为给定曲线分配移动坐标系的算法。坐标系下的参数函数,即路径函数、移动框架及其角速度,是精确的——无近似的——可微的,并且足够连续。这允许计算高度非线性曲线的坐标系,同时保持符合需要一阶和二阶梯度信息的自主导航算法。此外,PHODCOS 获得的坐标系完全由有限数量的系数定义,然后可以使用这些系数来计算曲线的附加几何属性,例如弧长、曲率、扭转等。因此,PHODCOS 提出了有吸引力的范例,以增强现有在轨航天器操纵的引导和导航的几何意识。提出了PHODCOS算法并对其误差和逼近阶数进行了分析,从而保证了所获得的坐标系在期望的公差范围内与给定曲线相匹配。为了证明 PHODCOS 坐标系的适用性,我们在月球门户的近直线晕轨道 (NRHO) 中提供了数值示例。
一种大功率腿关节式软尾袋鼠机器人的设计方法
分类: 机器人技术
作者: Shunnosuke Yoshimura, Temma Suzuki, Masahiro Bando, Sota Yuzaki, Kento Kawaharazuka, Kei Okada, Masayuki Inaba
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07742v1
摘要: 在本文中,我们关注的是袋鼠,它拥有能够跳跃的有力腿部和柔软而有力的尾巴。为了将这些独特的结构融入到机器人中以供使用,我们提出了一种既考虑了机器人的可行性又考虑了袋鼠模仿结构的设计方法。基于袋鼠的肌肉骨骼结构,我们通过分析肌肉排列和事先在模拟中进行验证,确定了使其能够跳跃的机器人结构。此外,为了实现能够支撑身体的尾巴,我们使用铰接式弹性结构作为尾巴。为了兼顾柔软性和高功率输出,机器人采用直驱大功率绕线机构驱动,并通过将电机放置在躯干中来减轻腿部和尾部的重量。开发的袋鼠机器人可以用后腿跳跃,尾巴移动,并用后腿和尾巴支撑身体。
服装现代化的精益方法论
分类: 机器人技术
作者: Ray Wai Man Kong, Theodore Ho Tin Kong, Tianxu Huang
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07705v1
摘要: 服装现代化的精益方法论。本文介绍了现代化服装制造的精益方法论,重点关注精益思维、精益实践、自动化开发、VSM 和 CRP,以及如何有效地整合它们。虽然特定操作的独立自动化可以提高效率并缩短周期时间,但它不一定会提高整体服装产量和效率。为了实现这些更广泛的改进,必须考虑使用 VSM 和 CRP 来优化生产和中心平衡的整个生产线和流程。这种方法可以提高效率,减少制造成本、劳动时间和交货时间,最终为公司和工厂增加价值。
非结构化环境中的自动驾驶:我们已经走了多远?
分类: 机器人技术
作者: Chen Min, Shubin Si, Xu Wang, Hanzhang Xue, Weizhong Jiang, Yang Liu, Juan Wang, Qingtian Zhu, Qi Zhu, Lun Luo, Fanjie Kong, Jinyu Miao, Xudong Cai, Shuai An, Wei Li, Jilin Mei, Tong Sun, Heng Zhai, Qifeng Liu, Fangzhou Zhao, Liang Chen, Shuai Wang, Erke Shang, Linzhi Shang, Kunlong Zhao, Fuyang Li, Hao Fu, Lei Jin, Jian Zhao, Fangyuan Mao, Zhipeng Xiao, Chengyang Li, Bin Dai, Dawei Zhao, Liang Xiao, Yiming Nie, Yu Hu
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07701v1
摘要: 由于环境多样性和场景复杂性等挑战,非结构化室外环境中的自动驾驶研究不如结构化城市环境中的先进。这些环境(例如农村地区和崎岖的地形)构成了独特的障碍,这在结构化的城市地区并不常见。尽管存在这些困难,非结构化户外环境中的自动驾驶对于农业、采矿和军事行动的应用至关重要。我们的调查回顾了 250 多篇关于非结构化户外环境中自动驾驶的论文,涵盖离线地图、姿态估计、环境感知、路径规划、端到端自动驾驶、数据集和相关挑战。我们还讨论了新兴趋势和未来的研究方向。本次综述旨在巩固知识并鼓励对非结构化环境中自动驾驶的进一步研究。为了支持正在进行的工作,我们维护一个包含最新文献和开源项目的活动存储库,网址为:https://github.com/chaytonmin/Survey-Autonomous-Driving-in-Unstructed-Environments。
基于李群流形传感器融合算法的机载磁测视觉协同定位方法
分类: 信号处理, 机器人技术, 系统与控制, 系统与控制
作者: Liang Liu, Xiao Hu, Wei Jiang, Guanglei Meng, Zhujun Wang, Taining Zhang
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07700v1
摘要: 无人机技术的最新进展激发了人们对开发多无人机航空测量系统的兴趣,这些系统可用于 GNSS 信号被阻挡或干扰的有限环境。本文重点关注机载磁力测量场景。为了获得反映地球磁场的干净的磁测量结果,磁传感器必须与其他电子设备隔离,这带来了重大的定位挑战。我们提出了一种视觉协作本地化解决方案。该解决方案结合了视觉处理模块和改进的基于流形的传感器融合算法,可提供可靠且准确的定位信息。真实飞行实验验证了该方法,展示了单轴厘米级精度和分米级整体3D定位精度。
更好地了解农业生态应用中的机器人能源消耗
分类: 机器人技术, 68T40
作者: Alexis Bras, Alix Montanaro, Cyrille Pierre, Marilys Pradel, Johann Laconte
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07697v1
摘要: 在本文中,我们对农业机器人的能耗进行了全面的分析和讨论。机器人正在成为解决粮食生产和农业生态挑战的一种有前景的解决方案,可以减少化学品的使用,并能够执行超出人类能力的繁重任务。农业任务的自动化带来了前所未有的复杂性,使机器人能够优化轨迹、控制法则和整体任务规划。因此,自动化可以在农业任务中实现更高水平的能源优化。然而,机器人平台的能源消耗尚未完全了解,对影响因素进行更深入的分析对于优化能源使用至关重要。我们分析了自动农用拖拉机全年执行任务的能源数据,揭示了机器人的速度、执行的任务类型和能源消耗之间的重要相关性。这表明任务效率、完成时间和能源消耗之间的权衡可以用来提高机器人农业作业的能源效率。
PokeFlex:机器人可变形物体的真实数据集
分类: 机器人技术, 计算机视觉和模式识别
作者: Jan Obrist, Miguel Zamora, Hehui Zheng, Ronan Hinchet, Firat Ozdemir, Juan Zarate, Robert K. Katzschmann, Stelian Coros
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07688v1
摘要: 数据驱动的方法在解决具有挑战性的操作任务方面显示出巨大的潜力,然而,它们在可变形物体领域的应用在一定程度上受到数据缺乏的限制。为了解决这个问题,我们提出了 PokeFlex,这是一个包含真实世界配对和注释多模态数据的数据集,其中包括 3D 纹理网格、点云、RGB 图像和深度图。此类数据可用于多种下游任务,例如在线 3D 网格重建,并且有可能实现未充分开发的应用,例如基于网格模拟的传统控制方法的实际部署。为了应对现实世界 3D 网格重建带来的挑战,我们利用专业的体积捕获系统来实现完整的 360{\deg} 重建。 PokeFlex 由 18 个具有不同刚度和形状的可变形物体组成。通过将物体掉落到平坦表面上或用机器人手臂戳物体来产生变形。还报告了后一种情况的相互作用力和扭矩。使用不同的数据模式,我们演示了 PokeFlex 数据集在在线 3D 网格重建中的用例。我们建议读者访问我们的网站(https://pokeflex-dataset.github.io/)以获取数据集的演示和示例。
输入的力量:四旋翼飞行器控制的强化学习控制策略的零样本模拟到真实迁移的基准测试
分类: 机器人技术
作者: Alberto Dionigi, Gabriele Costante, Giuseppe Loianno
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07686v1
摘要: 在过去的十年中,数据驱动的方法已成为四旋翼飞行器控制的流行选择,因为它们能够促进适应未知或不确定的飞行条件。在不同的数据驱动范式中,深度强化学习(DRL)是目前探索最多的范式之一。然而,微型飞行器 (MAV) 的 DRL 代理的设计仍然是一个开放的挑战。虽然一些工作研究了这些代理的输出配置(即计算什么样的控制),但对于这些方法应采用的输入数据类型尚未达成普遍共识。多项工作只是简单地为 DRL 代理提供完整的状态信息,而不会质疑这是否可能是多余的并且不必要地使学习过程变得复杂,或者对真实平台中此类信息的可用性造成多余的限制。在这项工作中,我们对观察空间的不同配置进行了深入的基准分析。我们在具有不同输入选择的模拟环境中优化多个 DRL 代理,并通过零样本适应研究它们的鲁棒性及其从模拟到真实的传输能力。我们相信,这项工作中提出的成果和讨论得到了广泛的实验结果的支持,可能成为指导未来开发用于空中机器人任务的 DRL 代理的研究的一个重要里程碑。
图案结构肌肉:利用各向异性柔性结构用于肌肉骨骼机器人的任意形状的线驱动人工肌肉
分类: 机器人技术
作者: Shunnosuke Yoshimura, Akihiro Miki, Kazuhiro Miyama, Yuta Sahara, Kento Kawaharazuka, Kei Okada, Masayuki Inaba
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07682v1
摘要: 人体的肌肉由肌球蛋白和肌动蛋白丝组成的微小执行器组成。它们可以在接触力和环境变形的作用下施加各种形状的力,例如弯曲的或平坦的。另一方面,迄今为止,肌肉骨骼机器人中的肌肉在这种形状和环境中产生力量方面面临着挑战。为了解决这个问题,我们提出了图案结构肌肉(PSM),即用于肌肉骨骼机器人的人造肌肉。 PSM利用具有各向异性特性的图案结构和线驱动机制,并由柔性材料热塑性聚氨酯(TPU)通过FDM 3D打印制成。该方法可以创建各种形状的肌肉,例如简单的 1 自由度 (DOF) 肌肉、多自由度广域肌肉、关节覆盖肌肉和分支肌肉。我们利用这些肌肉创建了上臂结构,以展示大范围的运动、举起重物以及通过环境接触进行的运动。这些实验表明,所提出的 PSM 能够在各种形状和环境下运行,并且适用于肌肉骨骼机器人的肌肉。
具有替代观测空间和正式性能保证的简化 POMDP 规划
分类: 机器人技术
作者: Da Kong, Vadim Indelman
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07630v1
摘要: 部分可观测领域的不确定性下的在线规划是机器人和人工智能的一项基本能力。部分可观察马尔可夫决策过程 (POMDP) 是一个数学原理框架,用于解决这一具有挑战性的环境中的决策问题。然而,寻找 POMDP 的最佳解决方案的计算成本很高,并且仅适用于小问题。在这项工作中,我们贡献了一种新颖的方法来简化 POMDP,通过切换到替代的、更紧凑的观察空间和简化模型来加速规划并提供正式的性能保证。我们引入了信念树拓扑的概念,它对使用原始和替代观察空间和模型的树中的级别和分支进行编码。每个信念树拓扑都有自己的策略空间和规划性能。我们的主要贡献是导出原始 POMDP 的最优 Q 函数与给定拓扑定义的简化树和相应的简化策略空间之间的界限。然后将这些界限用作不同树拓扑之间的适应机制,直到可以确定原始 POMDP 的最佳操作。此外,我们考虑框架的具体实例,其中替代观察空间和模型对应于状态完全可观察的设置。我们在模拟中评估了我们的方法,考虑了精确和近似的 POMDP 求解器,并在保持解质量的同时证明了显着的加速。我们相信这项工作为具有正式绩效保证的在线 POMDP 规划开辟了新的令人兴奋的途径。
Stop-N-Go:基于搜索的冲突解决,用于多个机器人操纵器的运动规划
分类: 机器人技术
作者: Gidon Han, Jeongwoo Park, Changjoo Nam
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07606v1
摘要: 我们解决了拥挤环境中多个机器人操纵器的运动规划问题,在这种环境中,共享工作空间可能会导致目标位置被其他机器人占据或阻挡,除非其他机器人离开以释放目标位置。虽然在耦合配置空间(C 空间)中进行规划很简单,但它很难随着机器人数量的增加而扩展,并且常常无法找到解决方案。解耦规划速度更快,但经常导致轨迹之间发生冲突。我们提出了一种冲突解决方法,该方法使用 A* 搜索策略在单独计划的轨迹中插入暂停,以最大限度地缩短完工时间(即所有机器人完成任务之前的总时间)。这种方法允许一些机器人停下来,使其他机器人能够在不发生碰撞的情况下移动,并在 C 空间中保持短距离。它还可以有效地处理目标位置最初被其他机器人阻挡的情况。实验结果表明,我们的方法成功解决了基线方法无法找到可行解决方案的挑战性实例。
通过扩散规划器和深度库普曼控制器进行有限动作的模仿学习
分类: 机器人技术, 机器学习
作者: Jianxin Bi, Kelvin Lim, Kaiqi Chen, Yifei Huang, Harold Soh
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07584v1
摘要: 基于扩散的机器人策略的最新进展已经证明了在模仿多模式行为方面的巨大潜力。然而,这些方法通常需要大量的演示数据以及相应的机器人动作标签,从而造成巨大的数据收集负担。在这项工作中,我们提出了一个计划然后控制框架,旨在通过利用观测演示数据来提高逆动态控制器的动作数据效率。具体来说,我们采用 Deep Koopman Operator 框架来对动态系统进行建模,并利用仅观察轨迹来学习潜在动作表示。然后,可以使用线性动作解码器将这种潜在表示有效地映射到真实的高维连续动作,只需要最少的动作标记数据。通过模拟机器人操作任务的实验和具有多模态专家演示的真实机器人实验,我们证明了我们的方法显着提高了动作数据效率,并在有限的动作数据下实现了高任务成功率。
用于具有稳定性保证的基于全层 DNN 的自适应控制的自监督元学习
分类: 机器人技术
作者: Guanqi He, Yogita Choudhary, Guanya Shi
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07575v1
摘要: 自适应控制的一个关键目标是使机器人能够快速适应动态环境。最近的研究开发了一种基于元学习的自适应控制方案,该方案使用元学习从离线数据中提取非线性特征(以深度神经网络(DNN)为代表),并使用自适应控制在线更新线性系数。然而,这种方案从根本上受到不确定性线性参数化的限制,并且不能完全释放 DNN 的能力。本文介绍了一种新颖的基于学习的自适应控制框架,该框架通过自监督元学习(SSML)从离线轨迹中预训练 DNN,并通过复合自适应在线适应完整的 DNN。特别是,离线 SSML 阶段利用轨迹数据的时间一致性来训练 DNN,以自我监督的方式从历史中预测未来的干扰,而无需环境条件标签。在线阶段精心设计了控制律和适应律来更新完整的DNN并保证稳定性。根据经验,在大动态风扰动下挑战现实世界的四旋翼飞行器跟踪问题时,所提出的框架显着优于(19-39%)各种经典和基于学习的自适应控制基线。
机器人蟑螂的流线型形状通过间隙协商提高了密闭环境中的可穿越性
分类: 机器人技术
作者: Kazuki Kai, Le Duc Long, Hirotaka Sato
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07558v1
摘要: 厘米级的机器人昆虫在人类无法操作的狭窄环境中具有潜在的优势。为了实现这些任务,研究人员开发了一种小型印刷电路板(PCB),昆虫可以携带并控制它。电子元件通常裸露在板上,整个板安装在平台动物上,导致整个机器人的形态不均匀,边缘锋利。众所周知,人造车辆或机器人的流线型车身形状有助于通过减少介质中的阻力来实现有效的运动。然而,人们对整个身体形状如何影响机器人昆虫的运动性能知之甚少。在这里,我们开发了一块 10 毫米 x 10 毫米的板,通过 Sub-GHz 通信提供电刺激,并使用马达加斯加嘶嘶蟑螂研究了板的物理布置的影响。我们比较了安装板机器人和植入板机器人之间的间隙协商成功率,发现后者优于前者。我们证明了带有植入板的机器人蟑螂可以通过触角或宫颈刺激忠实地遵循运动命令,并穿过像通风口盖一样的狭窄间隙。与传统的布置相比,我们的机器人昆虫适合在隐蔽环境中应用。
以力为中心的模仿学习与力运动捕捉系统,用于丰富的接触操作
分类: 机器人技术
作者: Wenhai Liu, Junbo Wang, Yiming Wang, Weiming Wang, Cewu Lu
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07554v1
摘要: 在大多数接触丰富的操作任务中,人类会对目标物体施加随时间变化的力,以补偿视觉引导的手部轨迹的不准确性。然而,当前的机器人学习算法主要关注基于轨迹的策略,而对学习力相关技能的关注有限。为了解决这个限制,我们引入了ForceMimic,一个以力为中心的机器人学习系统,提供了一个自然的、力感知的、无机器人的机器人演示收集系统,以及用于稳健的接触丰富操作的混合力-运动模仿学习算法。使用拟议的 ForceCapture 系统,操作员可以在 5 分钟内剥西葫芦,而力反馈远程操作则需要 13 分钟以上,并且难以完成任务。利用收集到的数据,我们提出 HybridIL 来训练以力为中心的模仿学习模型,该模型配备混合力位置控制原语,以适应机器人执行期间预测的扳手位置参数。实验表明,我们的方法使模型能够在蔬菜剥皮等接触丰富的任务下学习更稳健的策略,与最先进的基于纯视觉的模仿学习相比,成功率相对提高了 54.5%。硬件、代码、数据和更多结果将在项目网站 https://forcemimic.github.io 上开源。
G$^{2}$TR:结合大型预训练模型进行机器人指令的广义接地时间推理
分类: 机器人技术
作者: Riya Arora, Niveditha Narendranath, Aman Tambi, Sandeep S. Zachariah, Souvik Chakraborty, Rohan Paul
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07494v1
摘要: 考虑这样的场景:一个人清洁桌子,一个观察场景的机器人接受任务“拿走我用来擦桌子的布”。具有时间推理的指令遵循要求机器人识别过去的相关对象交互,将感兴趣的对象置于当前场景中,并根据人类的指令执行任务。由于对过去交互的引用的多跳性质以及观察机器人工作空间的视频流中的大空间对象接地,直接将引用过去与接地对象的交互的话语接地是具有挑战性的。我们的主要见解是将时间推理任务分解为(i)估计与事件参考相关的视频间隔,(ii)对交互帧执行空间推理以推断预期对象(iii)语义跟踪对象的位置直到当前场景以实现未来的机器人交互。我们的方法利用现有的大型预训练模型(具有固有的泛化能力)并将它们适当地组合起来以完成时间基础任务。对使用机器人操纵器获取的视频语言语料库进行评估,在空间复杂的场景中显示丰富的时间交互,显示平均准确度为 70.10%。数据集、代码和视频可在 https://reail-iitdelhi.github.io/temporalreasoning.github.io/ 获取。
具有光学相干断层扫描引导的自主机器人系统用于血管吻合术
分类: 机器人技术, 系统与控制, 系统与控制, 68T40: Robotics
作者: Jesse Haworth, Rishi Biswas, Justin Opfermann, Michael Kam, Yaning Wang, Desire Pantalone, Francis X. Creighton, Robin Yang, Jin U. Kang, Axel Krieger
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.07493v1
摘要: 血管吻合术是血管的手术连接,在器官移植和重建手术等手术中至关重要。由于需要大量的培训,所需的精度限制了可及性,手动缝合会导致不同的结果和高达 7.9% 的翻修率。现有的机器人系统虽然很有前途,但要么是完全远程操作的,要么缺乏自主血管吻合所需的功能。我们推出了微型智能组织自主机器人(micro-STAR),这是一种自主机器人系统,旨在对小直径血管进行血管吻合。 micro-STAR 系统集成了一种新型缝合工具,配备光学相干断层扫描 (OCT) 光纤传感器和微型摄像机,可实现实时组织检测和分类。我们的系统可以在最少的人工干预下自动缝合并操纵组织。在一项离体研究中,micro-STAR 在泄漏压力、管腔减少和缝合位置变化方面取得了与经验丰富的外科医生竞争的结果,在无需人工干预的情况下完成了 90% 的缝合。这是机器人系统在真实组织上自主执行血管吻合的第一个实例,为提高手术精度和扩大获得高质量护理的机会提供了巨大的潜力。
TinyLidarNet:适用于 F1TENTH 自动赛车的基于 2D LiDAR 的端到端深度学习模型
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习
作者: Mohammed Misbah Zarrar, Qitao Weng, Bakhbyergyen Yerjan, Ahmet Soyyigit, Heechul Yun
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07447v1
摘要: 先前的研究已经证明了端到端深度学习对于机器人导航的有效性,其中控制信号直接来自原始感官数据。然而,大多数现有的端到端导航解决方案主要基于摄像头。在本文中,我们介绍了 TinyLidarNet,这是一种用于自动驾驶赛车的基于轻量级 2D LiDAR 的端到端深度学习模型。使用TinyLidarNet的F1TENTH车辆在第十二届F1TENTH自动驾驶大奖赛中获得第三名,展现了其竞争力。我们系统地分析了其在未经训练的赛道上的性能以及实时处理的计算要求。我们发现 TinyLidarNet 基于一维卷积神经网络 (CNN) 的架构明显优于广泛使用的基于多层感知器 (MLP) 的架构。此外,我们还表明它可以在低端微控制器单元(MCU)上实时处理。
无需数据增强的基于视觉的 RL 的零样本泛化
分类: 机器学习, 人工智能, 计算机视觉和模式识别, 机器人技术
作者: Sumeet Batra, Gaurav S. Sukhatme
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07441v1
摘要: 将基于视觉的强化学习(RL)代理推广到新环境仍然是一个困难且开放的挑战。当前的趋势是收集大规模数据集或使用数据增强技术来防止过度拟合并提高下游泛化能力。然而,计算和数据收集成本随着任务变化的数量呈指数级增长,并且可能会破坏训练 RL 智能体本已困难的任务的稳定性。在这项工作中,我们从计算神经科学的最新进展中汲取灵感,提出了一种模型——Associative Latent DisentAnglement (ALDA),该模型建立在标准离策略 RL 的基础上,旨在实现零样本泛化。具体来说,我们重新审视了强化学习中潜在解缠结的作用,并展示了如何将其与联想记忆模型相结合,在不依赖数据增强的情况下实现困难任务变化的零样本泛化。最后,我们正式证明数据增强技术是弱解缠的一种形式,并讨论了这一见解的含义。
NeRF 加速常绿红杉混交林生态监测
分类: 计算机视觉和模式识别, 机器人技术
作者: Adam Korycki, Cory Yeaton, Gregory S. Gilbert, Colleen Josephson, Steve McGuire
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07418v1
摘要: 森林测绘提供了了解森林环境动态所需的关键观测数据。值得注意的是,树木胸径 (DBH) 是用于估计森林生物量和二氧化碳 (CO$_2$) 封存量的指标。森林测绘的手动方法是劳动密集型且耗时的,是大规模测绘工作的瓶颈。自动测绘依赖于获取茂密的森林重建,通常以点云的形式。地面激光扫描 (TLS) 和移动激光扫描 (MLS) 使用昂贵的激光雷达传感生成点云,并已成功用于估计树木直径。神经辐射场 (NeRF) 是一种新兴技术,通过在一组稀疏的输入视图上训练神经网络,实现基于视觉的逼真重建。在本文中,我们比较了 MLS 和 NeRF 森林重建,以估计常绿红木混合森林的树干直径。此外,我们提出了一种使用凸包建模的改进 DBH 估计方法。使用这种方法,我们实现了 1.68 cm RMSE,其性能始终优于标准圆柱体建模方法。我们的代码贡献和森林数据集可在 https://github.com/harelab-ucsc/RedwoodNeRF 免费获取。
适用于资源受限应用的快速轨迹优化和控制框架
分类: 机器人技术, 系统与控制, 系统与控制
作者: Deep Parikh, Thomas L. Ahrens, Manoranjan Majji
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07413v1
摘要: 本文提出了一种计算高效的模型预测控制公式,该公式使用积分切比雪夫配置方法来实现自主代理的快速操作。通过提出有限范围最优控制问题和最优轨迹的递归重新评估,状态和控制误差的 L2 范数的最小化被转录为二次规划。控制和状态变量约束使用切比雪夫多项式进行参数化,并容纳在最佳轨迹生成程序中,以合并执行器限制和禁止约束。利用多面体的可微分碰撞检测来实现最佳碰撞避免。从配置方法获得的结果与边缘计算机上的现有方法进行基准比较,以概述性能改进。最后,考虑涉及多智能体空间系统的协作控制场景,以证明所提出的工作的技术优点。
多智能体交互的学习责任分配:具有控制障碍函数的可微优化方法
分类: 系统与控制, 机器学习, 多代理系统, 机器人技术, 系统与控制
作者: Isaac Remy, David Fridovich-Keil, Karen Leung
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07409v1
摘要: 从自动驾驶到包裹递送,确保安全而高效的多智能体交互具有挑战性,因为交互动态受到社会规范和情境线索等难以建模的因素的影响。了解这些影响有助于设计和评估具有社会意识的自主代理,其行为与人类价值观一致。在这项工作中,我们试图通过责任的视角来编纂管理安全多智能体交互的因素,即智能体愿意偏离其所需的控制以适应与他人的安全交互。具体来说,我们提出了一种基于控制障碍函数和可微优化的数据驱动建模方法,可以有效地从数据中学习代理的责任分配。我们在合成和现实世界的数据集上证明,我们可以获得对智能体在当前环境下调整其行为以确保他人安全的程度的可解释和定量的理解。
ACDC:自动创建数字表兄弟以实现稳健的政策学习
分类: 机器人技术
作者: Tianyuan Dai, Josiah Wong, Yunfan Jiang, Chen Wang, Cem Gokmen, Ruohan Zhang, Jiajun Wu, Li Fei-Fei
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07408v1
摘要: 在现实世界中训练机器人策略可能不安全、成本高昂且难以扩展。模拟是一种廉价且可能无限的训练数据源,但受到模拟环境和现实环境之间语义和物理差异的影响。这些差异可以通过数字孪生的训练来最小化,数字孪生充当真实场景的虚拟复制品,但生成成本昂贵,并且无法产生跨域泛化。为了解决这些限制,我们提出了数字表亲的概念,这是一种虚拟资产或场景,与数字孪生不同,它没有明确地模拟现实世界的对应物,但仍然表现出类似的几何和语义可供性。因此,数字表兄弟同时降低了生成类似虚拟环境的成本,同时通过提供类似训练场景的分布,在模拟到真实域转移过程中提高了鲁棒性。利用数字表兄弟,我们引入了一种自动创建数字表兄弟(ACDC)的新方法,并提出了一种完全自动化的真实到模拟到真实的管道,用于生成完全交互式的场景和训练可以零部署的机器人策略。在原来的场景中拍摄的。我们发现 ACDC 可以生成保留几何和语义可供性的数字表亲场景,并且可用于训练优于数字孪生训练的策略的策略,在零样本模拟到真实迁移下实现 90% 与 25%。更多详细信息请访问 https://digital-cousins.github.io/。
关于解决长视野任务导向灵巧操作的混合方法的可行性
分类: 机器人技术
作者: Shaunak A. Mehta, Rana Soltani Zarrin
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07403v1
摘要: 在现实世界中,使用灵巧的手手动操作工具是文献中一个尚未充分探索的问题。与更常用的物体(如立方体或圆柱体)相比,除了更复杂的几何形状和更大尺寸的工具之外,面向任务的手动工具操作还涉及许多按顺序执行的子任务。这可能涉及到达工具、拿起它、在手中重新定向(无论是否重新抓握)以达到适合工具使用的期望的最终抓握,以及将工具携带到期望的姿势。使用灵巧手进行长视野操作的研究相当有限,现有的工作主要集中在使用强化学习(RL)等方法学习各个子任务,并结合不同子任务的策略来执行长视野任务。然而,一般来说,单一方法可能并不适合所有子任务,并且在处理多指手操作具有复杂几何形状(如工具)的对象时,这一点可能更加明显。在本文中,我们研究了使用混合方法来解决工具使用的长期任务,并使用模仿学习、强化学习和基于模型的控制。我们还讨论了一种新的基于强化学习的师生框架,它将现实世界的数据结合到离线训练中。我们表明,我们为每个子任务提出的方法在不同子任务以及在模拟中执行长期任务方面都优于常用的强化学习方法。最后我们展示了到现实世界的成功迁移性。
四足动物运动的神经回路架构先验
分类: 神经元和认知, 人工智能, 机器学习, 神经和进化计算, 机器人技术
作者: Nikhil X. Bhattasali, Venkatesh Pattabiraman, Lerrel Pinto, Grace W. Lindsay
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07174v1
摘要: 基于学习的四足动物运动方法通常采用通用策略架构,例如完全连接的 MLP。由于此类架构很少包含归纳偏差,因此在实践中通常以奖励、训练课程、模仿数据或轨迹生成器的形式纳入先验。在自然界中,动物生来就具有神经系统结构形式的先验,这些先验是通过进化塑造的,赋予了先天的能力和高效的学习能力。例如,马在出生后几个小时内就能走路,并且可以通过练习迅速提高。这种架构先验在人工智能的人工神经网络架构中也很有用。在这项工作中,我们探索了基于哺乳动物四肢和脊髓神经回路的受生物学启发的 ANN 架构对于四足动物运动的优势。我们的架构实现了良好的初始性能和与 MLP 相当的最终性能,同时使用更少的数据和数量级的参数。我们的架构还对任务变化表现出更好的泛化能力,甚至允许在没有标准模拟到真实方法的情况下部署在物理机器人上。这项工作表明,神经回路可以为运动提供有价值的架构先验,并鼓励未来在其他感觉运动技能方面的工作。
VIRT:用于机器人操作的视觉指示变压器
分类: 机器人技术
作者: Zhuoling Li, Liangliang Ren, Jinrong Yang, Yong Zhao, Xiaoyang Wu, Zhenhua Xu, Xiang Bai, Hengshuang Zhao
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07169v1
摘要: 机器人操作由于其多模式性质,经常面临严重的训练模糊性,需要明确的指令来清楚地描述任务中的操作细节。在这项工作中,我们强调视觉指令自然比普遍采用的文本指令更容易被最近的机器人策略所理解,因为这些策略与人类婴儿一样天生具有一定的视觉理解能力。在此前提下,并从认知科学中汲取灵感,我们引入了机器人图像范式,该范式实现了无需文本注释的大规模机器人数据预训练。此外,我们提出了模仿人眼凝视机制的机器人凝视策略,从而指导后续行动并将策略的注意力集中在被操纵的对象上。利用这些创新,我们开发了 VIRT,这是一项完全基于 Transformer 的政策。我们使用物理机器人和模拟环境设计综合任务来评估 VIRT 的功效。结果表明,VIRT 可以完成非常有竞争力的任务,例如“打开密封瓶子的盖子”,并且所提出的技术将各种挑战性任务的基线策略的成功率从接近 0% 提高到超过 65%。
体现代理接口:体现决策的大语言模型基准
分类: 计算和语言, 人工智能, 机器学习, 机器人技术
作者: Manling Li, Shiyu Zhao, Qineng Wang, Kangrui Wang, Yu Zhou, Sanjana Srivastava, Cem Gokmen, Tony Lee, Li Erran Li, Ruohan Zhang, Weiyu Liu, Percy Liang, Li Fei-Fei, Jiayuan Mao, Jiajun Wu
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07166v1
摘要: 我们的目标是评估用于具体决策的大型语言模型(LLM)。虽然大量的工作一直在利用大语言模型在具体环境中进行决策,但我们仍然缺乏对其性能的系统了解,因为它们通常应用于不同的领域,用于不同的目的,并基于不同的输入和输出构建。此外,现有的评估往往仅依赖于最终的成功率,因此很难查明大语言模型缺少哪些能力以及问题出在哪里,这反过来又阻碍了实体代理人有效和选择性地利用大语言模型。为了解决这些限制,我们提出了一个通用接口(Embodied Agent Interface),它支持各种类型任务的形式化和基于LLM的模块的输入输出规范。具体来说,它使我们能够统一 1) 涉及状态和时间扩展目标的广泛的具体决策任务,2) 四种常用的基于 LLM 的决策模块:目标解释、子目标分解、行动排序和过渡建模,3)一系列细粒度指标,将评估分解为各种类型的错误,例如幻觉错误、可供性错误、各种类型的规划错误等。总的来说,我们的基准提供了对大语言模型的全面评估不同子任务的性能,查明大语言模型驱动的具体人工智能系统的优势和劣势,并为在具体决策中有效和选择性地使用大语言模型提供见解。
迈向现实的无人机视觉语言导航:平台、基准和方法
分类: 计算机视觉和模式识别, 机器人技术
作者: Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu, Hongsheng Li, Yue Liao, Si Liu
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07087v2
摘要: 开发能够根据语言指令和视觉信息导航到目标位置的智能体(称为视觉语言导航(VLN))引起了广泛的兴趣。大多数研究都集中在地面代理上,而基于无人机的 VLN 仍然相对未得到充分开发。最近在无人机视觉语言导航方面的努力主要采用基于地面的 VLN 设置,依赖于预定义的离散动作空间,并忽略了代理运动动力学的固有差异以及地面和空中环境之间导航任务的复杂性。为了解决这些差异和挑战,我们从平台、基准和方法论三个角度提出解决方案。为了在 VLN 任务中实现真实的无人机轨迹模拟,我们提出了 OpenUAV 平台,该平台具有多样化的环境、真实的飞行控制和广泛的算法支持。我们进一步在此平台上构建了一个由大约 12k 轨迹组成的面向目标的 VLN 数据集,作为第一个专门为现实无人机 VLN 任务设计的数据集。为了应对复杂空中环境带来的挑战,我们提出了一种名为 UAV-Need-Help 的辅助引导无人机目标搜索基准,它提供不同级别的引导信息,帮助无人机更好地完成现实的 VLN 任务。我们还提出了一种无人机导航LLM,在给定多视图图像、任务描述和辅助指令的情况下,利用MLLM的多模态理解能力来联合处理视觉和文本信息,并执行分层轨迹生成。我们方法的评估结果显着优于基线模型,但我们的结果与人类操作员取得的结果之间仍然存在相当大的差距,这凸显了无人机需要帮助任务带来的挑战。
FlowBotHD:历史感知扩散器处理铰接对象操作中的歧义
分类: 机器人技术
作者: Yishu Li, Wen Hui Leng, Yiming Fang, Ben Eisner, David Held
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07078v1
摘要: 我们引入了一种新颖的方法来操纵具有模糊性的铰接对象,例如打开一扇门,其中多模态和遮挡会导致打开侧和方向的模糊性。当打开完全关闭的门的方法(推、拉、滑动)不确定,或者应该从哪一侧打开时,就会出现多模态。遮挡从某些角度进一步模糊了门的形状,从而在遮挡过程中产生了进一步的模糊性。为了应对这些挑战,我们提出了一种历史感知扩散网络,该网络对铰接对象的多模态分布进行建模,并使用历史来消除动作歧义并在遮挡下做出稳定的预测。实验和分析证明了我们的方法的最先进的性能,特别是在模糊性引起的故障模式方面的改进。我们的项目网站位于 https://flowbothd.github.io/。
移动机器人自主导航和防撞:分类与综述
分类: 机器人技术, 软件工程, 68T40 (Artificial Intelligence), I.2.9; I.2.7; I.2.10
作者: Marcus Vinicius Leal de Carvalho, Roberto Simoni, Leopoldo Yoshioka
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07297v1
摘要: 本文介绍了自主移动机器人(AMR)的一种新分类,分为三个阶段和五个步骤,重点关注自主无碰撞导航。此外,它还介绍了所提出的分类的每个阶段的主要方法和广泛接受的技术。这种分类的目的是为了便于理解并建立系统的独立输入变量(硬件、软件)与自主导航之间的联系。通过分析用于自主导航的传感器和方法方面的成熟技术,本文旨在提供可应用于未来移动机器人项目的知识基础。
RM4D:通过降维至 4D 的常见 6 轴/7 轴机器人手臂的组合可达性和逆可达性图
分类: 机器人技术
作者: Martin Rudorfer
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06968v1
摘要: 了解机械手的工作空间对于各种任务(包括机器人设计、抓取规划和机器人底座放置)至关重要。因此,机器人技术中对工作空间表示进行了深入研究。两个重要的表示是可达性图和逆可达性图。前者预测从机器人当前所在位置是否可以到达给定的末端执行器姿势,后者为所需的末端执行器姿势建议合适的基本位置。通常,可达性图是通过离散化包含机器人工作空间的 6D 空间并确定每个单元是否可达而构建的。随后将可达性地图反转以构建逆地图。这是一个繁琐的过程,限制了此类地图的应用。在这项工作中,我们利用现有六轴和七轴机器人手臂的共性,将离散化的维度从 6D 减少到 4D。我们提出了 Reachability Map 4D (RM4D),这种地图只需要单个 4D 数据结构即可进行正向和反向查询。这提供了一个更加紧凑的地图,其构建速度比现有地图快一个数量级,并且没有反演开销,也没有精度损失。我们的实验展示了 RM4D 对于移动机械臂抓取规划的有用性。
基于声惯性光制导的自主水下直升机对接过程控制系统设计与实验
分类: 机器人技术
作者: Haoda Li, Xinyu An, Rendong Feng, Zhenwei Rong, Zhuoyu Zhang, Zhipeng Li, Liming Zhao, Ying Chen
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06953v1
摘要: 本文提出了一种利用声惯性光制导的自主水下直升机(AUH)水下对接过程的控制系统结构。与传统的自主水下航行器(AUV)不同,AUH在对接过程中的机动性要求更加严格,要求其在垂直移动时保持静止或具有最小的水平运动。对接过程分为两个阶段:归航和着陆,每个阶段采用不同的引导方法。此外,着陆阶段还采用了不同高度的分段对准策略和线速度决策。由于海底对接系统(SDS)的独特结构,AUH需要以特定的姿态和高度以固定方向对接在SDS上。因此,提出了一个特定的标准来确定AUH是否已成功对接到SDS。此外,通过水池实验和海上试验证明了所提出的控制方法在 AUH 对接过程中的有效性和鲁棒性。
将规划和扩散与未知动态相结合以实现移动性
分类: 机器人技术, 人工智能
作者: Yajvan Ravan, Zhutian Yang, Tao Chen, Tomás Lozano-Pérez, Leslie Pack Kaelbling
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06911v1
摘要: 长距离操纵大型物体(例如仓库中的手推车)是可部署机器人系统的一项基本技能。大型物体需要移动操纵,这涉及到拖曳物体的同步操纵、导航和移动。在许多现实世界中,物体动力学非常复杂,例如办公椅(带有旋转底座和五个脚轮)与地面的相互作用。我们提出了一种用于长视野机器人操纵问题的分层算法,其中动力学部分未知。我们观察到,基于扩散的行为克隆对于具有未知动力学的短视野问题非常有效,因此我们将问题分解为一个抽象的高级、障碍感知运动规划问题,该问题会产生一个航路点序列。我们使用短视野、相对运动扩散策略来按顺序实现航路点。我们在必须推拉办公椅的 Spot 机器人上训练移动操作策略。与在长视野演示或假设刚性附着对象的运动规划上训练的扩散策略相比,我们的分层操纵策略始终表现得更好,特别是当视野增加时(10 次运行中的成功率为 8 分(分别为 0 和 5)) )。重要的是,我们学到的策略推广到新的布局、抓握、椅子和地板,这些都会引起更多的摩擦,无需任何进一步的训练,这为解决其他复杂的移动操纵问题带来了希望。项目页面:https://yravan.github.io/plannerorderedpolicy/
用于多旋翼飞行器在干扰下进行无碰撞跟踪的安全强化学习滤波器
分类: 机器人技术
作者: Qihan Qi, Xinsong Yang, Gang Xia
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06852v1
摘要: 本文提出了一种安全强化学习滤波器(SRLF)来实现带有输入干扰的多旋翼飞行器无碰撞轨迹跟踪。引入了一种新颖的鲁棒控制障碍函数(RCBF)及其分析技术,以避免跟踪过程中与未知干扰发生碰撞。为了确保系统状态保持在安全设定范围内,在控制动作中设计了RCBF增益。引入安全过滤器将不安全的强化学习 (RL) 控制输入转换为安全的控制输入,从而允许 RL 训练在不明确考虑安全约束的情况下进行。 SRLF 通过解决结合 RCBF 前向不变性和输入饱和约束的二次规划 (QP) 问题,获得严格的有保证的安全控制行为。多旋翼飞行器的仿真和实际实验都证明了 SRLF 在输入干扰和饱和情况下实现无碰撞跟踪的有效性和优异性能。
无模型安全强化学习中的安全调制器 Actor-Critic 方法及其在无人机悬停中的应用
分类: 人工智能, 机器学习, 机器人技术
作者: Qihan Qi, Xinsong Yang, Gang Xia, Daniel W. C. Ho, Pengyang Tang
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06847v1
摘要: 本文提出了一种安全调制器参与者批评家(SMAC)方法来解决无模型安全强化学习(RL)中的安全约束和高估缓解问题。开发安全调节器是为了通过调节动作来满足安全约束,允许策略忽略安全约束并专注于最大化奖励。此外,还提出了具有 SMAC 理论更新规则的分布批评家,以减轻具有安全约束的 Q 值的高估。无人机盘旋的仿真和真实场景实验均证实,SMAC 可以有效保持安全约束,并且性能优于主流基线算法。
动态神经势场:存在移动障碍物时的在线轨迹优化
分类: 机器人技术, 人工智能
作者: Aleksey Staroverov, Muhammad Alhaddad, Aditya Narendra, Konstantin Mironov, Aleksandr Panov
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06819v1
摘要: 我们解决了在存在静态和动态障碍物的情况下移动机器人的局部轨迹规划的任务。局部轨迹作为模型预测控制 (MPC) 问题的数值解而获得。可以通过将障碍物的排斥势添加到 MPC 的成本函数来提供碰撞避免。我们开发了一种方法,通过神经模型来估计排斥势。我们提出并探索了三种处理动态障碍的可能策略。首先,将具有动态障碍物的环境视为一系列静态环境。其次,神经模型立即预测一系列排斥势。第三,神经模型以自回归模式逐步预测未来的排斥势。我们实施这些策略,并使用 BenchMR 框架将其与 CIAO* 和 MPPI 进行比较。前两种策略在保持安全约束的同时表现出比 CIAO* 和 MPPI 更高的性能。第三种策略稍微慢一些,但仍然满足时间限制。我们在 Husky UGV 移动平台上部署我们的方法,该平台在建议的 MPC 本地轨迹规划器下穿过办公室走廊。代码和训练模型可在 \url{https://github.com/CognitiveAISystems/Dynamic-Neural-Potential-Field} 获取。
带步长调节的人形步行离散时间模型预测控制
分类: 机器人技术
作者: Vishnu Joshi, Suraj Kumar, Nithin V, Shishir Kolathaya
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06790v1
摘要: 本文提出了一种用于具有在线脚步调整功能的人形行走的离散时间模型预测控制器(MPC)。所提出的控制器采用分层控制方法。高级控制器使用低维线性倒立摆模型 (LIPM) 来确定所需的脚部放置和质心 (CoM) 运动,以防止跌倒,同时保持所需的速度。然后,任务空间控制器(TSC)利用人形机器人的全身动力学来跟踪从高级控制器获得的所需运动。我们的方法与现有的行走模式生成 MPC 方法不同,它不依赖于预定义的足部计划或参考压力中心 (CoP) 轨迹。整个方法在扭矩控制的人形机器人上进行了模拟测试。结果表明,所提出的控制方法可产生稳定的行走并防止因推力干扰而跌倒。
使用机器人群跟踪人员的集体感知
分类: 机器人技术
作者: Miquel Kegeleirs, David Garzón Ramos, Guillermo Legarda Herranz, Ilyes Gharbi, Jeanne Szpirer, Olivier Debeir, Ken Hasselmann, Lorenzo Garattoni, Gianpiero Francesca, Mauro Birattari
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06720v1
摘要: 群体感知是指机器人群体利用每个机器人的感知能力,形成对环境的集体理解的能力。它们的分布式特性使机器人群能够通过在整个空间中保持持续存在来持续监控动态环境。在这项研究中,我们提出了使用机器人群集体跟踪人员的初步实验。该实验是在四种不同的办公环境中模拟进行的,其中的群体规模不同。为机器人提供了从真实办公环境图片数据集中采样的图像。我们测量了机器人检测人员改变位置并将此信息传播到不断增加的群体部分所需的时间分布。结果表明,机器人群在监测动态环境方面显示出巨大的前景。
OmniPose6D:从单目 RGB 实现动态场景中的短期物体姿势跟踪
分类: 计算机视觉和模式识别, 机器人技术
作者: Yunzhi Lin, Yipu Zhao, Fu-Jen Chu, Xingyu Chen, Weiyao Wang, Hao Tang, Patricio A. Vela, Matt Feiszli, Kevin Liang
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06694v1
摘要: 为了解决单目 RGB 输入动态环境中的短期物体姿态跟踪的挑战,我们引入了一个大规模合成数据集 OmniPose6D,旨在反映现实世界条件的多样性。我们还提出了一个基准测试框架,用于对姿势跟踪算法进行全面比较。我们提出了一种具有不确定性感知关键点细化网络的管道,采用概率建模来细化姿态估计。比较评估表明,我们的方法在真实数据集上实现了优于现有基线的性能,强调了我们的合成数据集和细化技术在提高动态上下文中的跟踪精度方面的有效性。我们的贡献为复杂场景中物体姿态跟踪方法的开发和评估开创了新的先例。
使用一组微型飞行器上的微型单层康普顿相机自主定位多个电离辐射源
分类: 机器人技术
作者: Michal Werner, Tomáš Báča, Petr Štibinger, Daniela Doubravová, Jaroslav Šolc, Jan Rusňák, Martin Saska
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06693v1
摘要: 本文提出了一种使用一组微型飞行器(MAV)自主定位多个伽马辐射源的新方法。该方法利用极其轻量(44 克)的康普顿相机 MiniPIX TPX3。探测器尺寸紧凑,可安全灵活地部署在小型无人机 (UAV) 上。所提出的辐射测绘方法融合了多个分布式康普顿相机传感器的测量结果,以实时准确地估计多个放射源的位置。与常用的基于强度的探测器不同,康普顿相机仅从单个电离粒子重建朝向辐射源的一组可能方向。因此,所提出的方法可以定位辐射源,而无需估计辐射场或等高线的梯度,这需要更长的测量。即时估计能够充分发挥高机动性微型飞行器的潜力。辐射测绘方法与主动搜索策略相结合,协调 MAV 的未来行动,以提高源位置估计的质量,并更快地探索感兴趣的区域。所提出的解决方案通过多个 Cesium-137 辐射源的模拟和现实实验进行了评估。
M${}^{3}$Bench:3D 场景中移动操作的全身运动生成基准测试
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习
作者: Zeyu Zhang, Sixu Yan, Muzhi Han, Zaijin Wang, Xinggang Wang, Song-Chun Zhu, Hangxin Liu
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06678v1
摘要: 我们提出了 M^3Bench,这是移动操作任务的全身运动生成的新基准。给定 3D 场景上下文,M^3Bench 需要一个具体代理来了解其配置、环境约束和任务目标,然后为对象重新排列任务生成协调的全身运动轨迹。 M^3Bench 具有跨 119 个不同场景的 30k 对象重新排列任务,提供由我们新开发的 M^3BenchMaker 生成的专家演示。这种自动数据生成工具可以根据高级任务指令生成协调的全身运动轨迹,只需要基本的场景和机器人信息。我们的基准测试结合了各种任务分割来评估不同维度的泛化能力,并利用真实的物理模拟进行轨迹评估。通过广泛的实验分析,我们揭示了最先进的模型仍然难以协调基臂运动,同时遵守环境背景和特定任务的约束,强调需要开发新模型来解决这一差距。通过 M^3Bench,我们的目标是促进未来的机器人研究,在多样化的现实环境中实现更具适应性和能力的移动操作。
通过信号时间逻辑进行多天线系统的任务协调和轨迹优化:风力涡轮机检查研究
分类: 机器人技术
作者: Giuseppe Silano, Alvaro Caballero, Davide Liuzza, Luigi Iannelli, Stjepan Bogdan, Martin Saska
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06620v1
摘要: 本文提出了一种使用多旋翼无人机机队进行协作检查任务的任务分配和轨迹生成方法,重点关注风力涡轮机检查。该方法通过根据信号时序逻辑 (STL) 规范制定优化问题,生成安全、可行的飞行路径,遵守时间敏感约束和车辆限制。事件触发的重新计划机制可解决意外事件和延迟,而通用的鲁棒性评分方法则结合了用户偏好并最大限度地减少任务冲突。该方法通过 MATLAB 和 Gazebo 中的模拟以及模型场景中的现场实验进行了验证。
Pair-VPR:使用 Vision Transformers 进行位置感知预训练和对比对分类,用于视觉位置识别
分类: 机器人技术, 人工智能, 计算机视觉和模式识别
作者: Stephen Hausler, Peyman Moghadam
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06614v1
摘要: 在这项工作中,我们提出了一种新颖的视觉位置识别(VPR)联合训练方法,该方法同时学习全局描述符和用于重新排序的对分类器。对分类器可以预测给定的图像对是否来自同一地点。该网络仅包含用于编码器和配对分类器的 Vision Transformer 组件,并且这两个组件都使用各自的类标记进行训练。在现有的 VPR 方法中,通常使用来自通用图像数据集(例如 ImageNet)的预训练权重来初始化网络。在这项工作中,我们提出了一种替代的预训练策略,使用暹罗蒙版图像建模作为预训练任务。我们提出了一种从大型 VPR 数据集集合中进行地点感知的图像采样程序,用于预训练我们的模型,以学习专门针对 VPR 调整的视觉特征。通过在训练的第二阶段重复使用掩模图像建模编码器和解码器权重,Pair-VPR 可以使用 ViT-B 编码器在五个基准数据集上实现最先进的 VPR 性能,并进一步改进本地化使用更大的编码器进行回忆。 Pair-VPR 网站是:https://csiro-robotics.github.io/Pair-VPR。
ES-Gaussian:通过基于误差空间的高斯完成的高斯泼溅映射
分类: 计算机视觉和模式识别, 机器人技术
作者: Lu Chen, Yingfu Zeng, Haoang Li, Zhitao Deng, Jiafu Yan, Zhenjun Zhao
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06613v1
摘要: 准确且经济实惠的室内 3D 重建对于有效的机器人导航和交互至关重要。传统的基于 LiDAR 的测绘精度较高,但成本高、重量大且耗电,且新颖视图渲染的能力有限。基于视觉的测绘虽然具有成本效益并且能够捕获视觉数据,但由于点云稀疏,常常难以实现高质量的 3D 重建。我们提出了 ES-Gaussian,这是一种使用低空相机和单线 LiDAR 进行高质量 3D 室内重建的端到端系统。我们的系统具有视觉误差构建 (VEC) 功能,通过识别和纠正 2D 误差图中几何细节不足的区域来增强稀疏点云。此外,我们引入了一种由单线 LiDAR 引导的新型 3DGS 初始化方法,克服了传统多视图设置的局限性,并能够在资源有限的环境中进行有效重建。我们的新 Dreame-SR 数据集和公开数据集上的大量实验结果表明,ES-Gaussian 优于现有方法,特别是在具有挑战性的场景中。项目页面位于https://chenlu-china.github.io/ES-Gaussian/。
基于干扰观察器的控制屏障函数和残差模型学习,用于安全强化学习
分类: 机器人技术
作者: Dvij Kalaria, Qin Lin, John M. Dolan
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06570v1
摘要: 强化学习(RL)代理需要探索他们的环境来学习最佳行为并获得最大奖励。然而,直接在真实系统上训练强化学习时,探索可能存在风险,而基于模拟的训练则引入了模拟与真实差距的棘手问题。最近的方法利用了安全过滤器,例如控制屏障功能(CBF),来惩罚 RL 训练期间的不安全行为。然而CBF强大的安全保障依赖于精确的动态模型。在实践中,不确定性总是存在的,包括动力学误差带来的内部扰动和风等外部扰动。在这项工作中,我们提出了一种基于干扰抑制保护学习的新安全强化学习框架,该框架允许使用假设但不一定精确的标称动态模型来实现几乎无模型的强化学习。我们在 Point 和 Car 机器人的 Safety-gym 基准测试中展示了我们在所有任务上的结果,在这些任务中,我们可以超越仅使用残差模型学习或干扰观察器 (DOB) 的最先进方法。我们使用实体 F1/10 赛车进一步验证了我们框架的功效。视频:https://sites.google.com/view/res-dob-cbf-rl
通过元学习和不确定性感知 MPPI 实现敏捷移动性和快速在线适应
分类: 机器人技术
作者: Dvij Kalaria, Haoru Xue, Wenli Xiao, Tony Tao, Guanya Shi, John M. Dolan
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06565v1
摘要: 现代基于非线性模型的控制器需要精确的物理模型和模型参数才能在极限范围内控制移动机器人。此外,由于高速时的表面打滑,摩擦参数可能会不断变化(例如自动驾驶赛车中的轮胎退化),并且控制器可能需要快速适应。许多工作派生了一个特定于任务的机器人模型,其参数适应方案非常适合该任务,但需要针对每个平台和任务进行大量的努力和调整。在这项工作中,我们设计了一个基于元预训练的完整的基于模型学习的控制器,它可以使用少量动态数据快速适应任何具有任何模型参数的轮式机器人,同时还可以推理模型的不确定性。我们在小规模数值模拟、大规模 Unity 模拟器以及具有多种设置的中型硬件平台上展示了我们的结果。我们表明,我们的结果与特定领域精心设计的控制器相当,并且在所有场景中都具有出色的泛化性能。
真实到模拟抓取:重新思考抓取检测中模拟与现实世界之间的差距
分类: 机器人技术
作者: Jia-Feng Cai, Zibo Chen, Xiao-Ming Wu, Jian-Jian Jiang, Yi-Lin Wei, Wei-Shi Zheng
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06521v1
摘要: 对于六自由度抓取检测,模拟数据可扩展以训练更强大的模型,但它面临着模拟与现实世界之间巨大差距的挑战。之前的作品通过模拟到真实的方式弥补了这一差距。然而,在训练抓取检测器时,这种方式显式或隐式地迫使模拟数据适应噪声真实数据,其中相机噪声内的位置漂移和结构失真将损害抓取学习。在这项工作中,我们提出了一种用于 6-DoF Grasp 检测的 Real-to-Sim 框架,名为 R2SGrasp,其关键见解是以 Real-to-sim 方式弥补这一差距,它直接绕过了抓取检测器训练中的相机噪声通过推理时间实时到模拟的适应。为了实现这种实模适配,我们的 R2SGrasp 设计了实模数据修复器 (R2SRepairer),以减轻数据级别真实深度图的相机噪声,并设计了实模特征增强器 (R2SEnhancer)通过特征级别的精确模拟几何基元来增强真实特征。为了赋予我们的框架泛化能力,我们经济高效地构建了一个大规模模拟数据集来训练我们的抓取检测器,其中包括 64,000 张 RGB-D 图像和 1440 万个抓取注释。足够的实验表明 R2SGrasp 功能强大,我们的真实到模拟视角是有效的。现实世界的实验进一步显示了 R2SGrasp 强大的泛化能力。项目页面位于 https://isee-laboratory.github.io/R2SGrasp。
QuadBEV:通过鸟瞰图表示的高效四任务感知框架
分类: 机器人技术, 人工智能
作者: Yuxin Li, Yiheng Li, Xulei Yang, Mengying Yu, Zihang Huang, Xiaojun Wu, Chai Kiat Yeo
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06516v1
摘要: 鸟瞰 (BEV) 感知已成为自动驾驶系统的重要组成部分,因为它能够将多个传感器输入集成到统一的表示中,从而提高各种下游任务的性能。然而,纯电动汽车模型的计算需求给资源有限的车辆的实际部署带来了挑战。为了解决这些限制,我们提出了 QuadBEV,这是一种高效的多任务感知框架,它利用跨四个关键任务的共享空间和上下文信息:3D 对象检测、车道检测、地图分割和占用预测。 QuadBEV 不仅使用共享主干和特定任务头简化了这些任务的集成,而且还解决了常见的多任务学习挑战,例如学习率敏感性和相互冲突的任务目标。我们的框架减少了冗余计算,从而提高了系统效率,使其特别适合嵌入式系统。我们提出了全面的实验来验证 QuadBEV 的有效性和鲁棒性,证明其对实际应用的适用性。
BiC-MPPI:用于轨迹优化的目标追求、基于采样的双向 Rollout 聚类路径积分
分类: 机器人技术, 人工智能, 系统与控制, 系统与控制, 优化与控制, 68T40, 13P25, I.2.9; I.2.8; G.1.6; G.4
作者: Minchan Jung, Kwangki Kim
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06493v1
摘要: 本文介绍了双向聚类 MPPI (BiC-MPPI) 算法,这是一种新颖的轨迹优化方法,旨在增强模型预测路径积分 (MPPI) 框架内的目标导向引导。 BiC-MPPI 结合了双向动力学近似和新的引导成本机制,提高了轨迹规划和目标达成性能。通过利用前向和后向推出,双向方法确保初始状态和最终状态之间的有效轨迹连接,而引导成本有助于发现动态可行的路径。实验结果表明,BiC-MPPI 在 2D 和 3D 环境中均优于现有 MPPI 变体,在用于自主导航的修改后的 BARN 数据集上进行的 900 次模拟中,实现了更高的成功率和有竞争力的计算时间。 GitHub:https://github.com/i-ASL/BiC-MPPI
克服配备自动驾驶系统的车辆中 Autoware-Ubuntu 的不兼容性:经验教训
分类: 机器人技术, 操作系统, 软件工程
作者: Dada Zhang, Md Ruman Islam, Pei-Chi Huang, Chun-Hsing Ho
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06492v1
摘要: 随着交通系统安全性和效率的需求,自动驾驶汽车得到了迅速发展。由于自动驾驶汽车是基于开源操作系统和计算系统设计的,因此有大量资源旨在构建由 Ubuntu、Autoware 和机器人操作系统 (ROS) 组成的操作平台。然而,由于配备自动驾驶系统的车辆(即克莱斯勒 Pacifica)中安装的 Autoware 平台与 Ubuntu 操作系统不兼容,因此没有明确的指南来帮助学者进行故障排除。本文根据从解决不兼容问题的故障排除过程中吸取的经验教训,概述了将 Autoware 平台集成到自动驾驶汽车界面中的过程。基于解决配备自动驾驶系统的车辆中安装的Ubuntu 20.04、Autoware.AI和ROS Noetic软件的不兼容和集成问题,提出了故障排除过程。具体来说,本文重点讨论了常见的不兼容性问题和代码解决协议,涉及 Python 兼容性、统一计算设备架构 (CUDA) 安装、Autoware 安装以及 Autoware.AI 中的模拟。本文的目的是提供一个明确且注重细节的演示,以展示如何解决自动驾驶车辆操作干扰之间的不兼容性问题。本文中介绍的教训和经验对于遇到类似问题的研究人员来说非常有用,并且可以通过执行故障排除活动并在 Ubuntu、Autoware 和 ROS 操作系统中实施 ADS 相关项目来跟进。
通过视觉运动语言指导来制定机器人策略
分类: 机器人技术, 人工智能
作者: Arthur Bucker, Pablo Ortega-Kral, Jonathan Francis, Jean Oh
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06473v2
摘要: 自然语言处理和计算机视觉领域的最新进展在从大规模互联网数据中理解世界的潜在动态方面显示出了巨大的潜力。然而,鉴于人机交互的稀缺性以及现实世界机器人数据的大规模数据集的缺乏,将这些知识转化为机器人系统仍然是一个开放的挑战。以前的机器人学习方法,例如行为克隆和强化学习,已经显示出通过人类演示或在特定环境中从头开始学习机器人技能的强大能力。然而,这些方法通常需要特定于任务的演示或设计复杂的模拟环境,这限制了针对新设置的通用且稳健的策略的开发。为了解决这些限制,我们提出了一种基于代理的框架,用于将机器人策略接地到当前上下文,考虑当前机器人及其环境的限制,使用基于视觉运动的语言指导。所提出的框架由一组专为特定角色设计的对话代理组成,即高级顾问、视觉基础、监控和机器人代理。给定基本策略,代理在运行时集体生成指导,以将基本策略的动作分布转向更理想的未来状态。我们证明,我们的方法可以有效地指导操纵策略,以在模拟和现实世界实验中实现显着更高的成功率,而无需额外的人类演示或广泛的探索。项目视频位于 https://sites.google.com/view/motorcortex/home。
实现新颖的任务操作以及与 ROSA 的交互:机器人操作系统代理
分类: 机器人技术, 人工智能, 人机交互
作者: Rob Royce, Marcel Kaufmann, Jonathan Becktor, Sangwoo Moon, Kalind Carpenter, Kai Pak, Amanda Towler, Rohan Thakker, Shehryar Khattak
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06472v1
摘要: 机器人系统的进步已经彻底改变了许多行业,但它们的操作通常需要专门的技术知识,限制了非专家用户的使用。本文介绍了 ROSA(机器人操作系统代理),这是一种人工智能驱动的代理,可弥补机器人操作系统 (ROS) 和自然语言界面之间的差距。通过利用最先进的语言模型并集成开源框架,ROSA 使操作员能够使用自然语言与机器人进行交互,将命令转换为动作,并通过定义明确的工具与 ROS 进行交互。 ROSA 的设计是模块化和可扩展的,提供与 ROS1 和 ROS2 的无缝集成,以及参数验证和约束执行等安全机制,以确保安全、可靠的操作。虽然 ROSA 最初是为 ROS 设计的,但它可以扩展为与其他机器人中间件配合使用,以最大限度地提高跨任务的兼容性。 ROSA 通过使复杂机器人系统的访问民主化来增强人机交互,为所有专业水平的用户提供语音集成和视觉感知等多模式功能。在阿西莫夫机器人三定律等基本原则的指导下,彻底解决了道德问题,确保人工智能集成促进安全、透明、隐私和问责制。通过使机器人技术更加用户友好和易于使用,ROSA 不仅提高了操作效率,还为机器人技术和潜在的未来任务操作中负责任的人工智能使用制定了新标准。本文介绍了 ROSA 的架构,并展示了 JPL 火星场、实验室的初始模型操作以及使用三种不同机器人的模拟。核心 ROSA 库是开源的。
LocoVR:虚拟现实中的多用户室内运动数据集
分类: 机器人技术, 计算机视觉和模式识别, 人机交互
作者: Kojiro Takeyama, Yimeng Liu, Misha Sra
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.06437v1
摘要: 了解人类运动对于机器人等人工智能代理至关重要,特别是在复杂的室内家庭环境中。对这些空间中的人类轨迹进行建模需要深入了解个人如何绕过物理障碍并管理社交导航动态。这些动态包括受空间关系影响的微妙行为——空间的社会利用,例如让开让其他人通过或选择更长的路线以避免碰撞。先前的研究已经开发了室内场景中的人体运动数据集,但这些数据集通常规模有限,并且缺乏家庭环境中常见的细致入微的社交导航动态。为了解决这个问题,我们推出了 LocoVR,这是一个包含 7000 多个两人轨迹的数据集,这些轨迹是在虚拟现实中从 130 多个不同的室内家庭环境中捕获的。 LocoVR 提供全身姿势数据和精确的空间信息,以及社交驱动的运动行为的丰富示例。例如,该数据集捕获个体在狭窄空间中相互导航的实例,调整路径以尊重生活区域中的个人边界,以及协调入口和厨房等人流量大的区域的运动。我们的评估表明,LocoVR 在利用人体轨迹的三项实际室内任务中显着提高了模型性能,并演示了预测家庭环境中的社交感知导航模式。
BEVloc:通过鸟瞰图合成进行跨视图定位和匹配
分类: 机器人技术, 计算机视觉和模式识别, I.2.9
作者: Christopher Klammer, Michael Kaess
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06410v1
摘要: 地空匹配是户外机器人技术中一项至关重要且具有挑战性的任务,特别是在 GPS 缺失或不可靠的情况下。建筑物或大片茂密森林等结构会产生干扰,需要更换 GNSS 来进行全球定位估计。真正的困难在于协调地面和空中图像之间的透视差异以获得可接受的定位。受到自动驾驶社区的启发,我们提出了一种新颖的框架,用于合成鸟瞰 (BEV) 场景表示,以在越野环境中与航空地图进行匹配和定位。我们利用对比学习和特定领域的硬负挖掘来训练网络来学习合成的 BEV 和航空地图之间的相似表示。在推理过程中,BEVloc 通过从粗到细的匹配策略指导识别航空地图中最可能的位置。我们的结果表明,在语义多样性有限的极其困难的森林环境中,初步结果有希望。我们分析模型的粗匹配和精匹配性能,评估模型的原始匹配能力及其作为 GNSS 替代品的性能。我们的工作深入研究越野地图本地化,同时为本地化的未来发展建立基础基线。我们的代码位于:https://github.com/rpl-cmu/bevloc
比较语言反馈的轨迹改进和奖励学习
分类: 机器人技术
作者: Zhaojing Yang, Miru Jun, Jeremy Tien, Stuart J. Russell, Anca Dragan, Erdem Bıyık
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06401v1
摘要: 近年来,从人类反馈中学习在机器人和自然语言处理等领域受到了关注。虽然之前的工作主要依赖于比较形式的人类反馈,但语言是一种更好的方式,可以提供更多有关用户偏好的信息。在这项工作中,我们的目标是结合比较语言反馈来迭代改进机器人轨迹并学习编码人类偏好的奖励函数。为了实现这一目标,我们学习一个集成轨迹数据和语言反馈的共享潜在空间,然后利用学习到的潜在空间来改进轨迹并学习人类偏好。据我们所知,我们是第一个将比较语言反馈纳入奖励学习的人。我们的模拟实验证明了学习的潜在空间的有效性和我们的学习算法的成功。我们还进行了人类受试者研究,结果表明,与基于偏好的奖励学习相比,我们的奖励学习算法的主观得分平均提高了 23.9%,时间效率提高了 11.3%,这凸显了我们的方法的卓越性能。我们的网站位于 https://liralab.usc.edu/comparative-language-feedback/
Adver-City:用于恶劣天气条件下协作感知的开源多模态数据集
分类: 计算机视觉和模式识别, 机器学习, 机器人技术
作者: Mateus Karvat, Sidney Givigi
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06380v1
摘要: 恶劣的天气条件会影响激光雷达和摄像头等传感器,对自动驾驶汽车 (AV) 的广泛采用构成重大挑战。尽管协作感知(CP)改善了困难条件下的自动驾驶感知,但现有的 CP 数据集缺乏不利的天气条件。为了解决这个问题,我们引入了 Adver-City,这是第一个专注于恶劣天气条件的开源合成 CP 数据集。它使用 OpenCDA 在 CARLA 中进行模拟,包含超过 24,000 个帧、超过 89 万个注释以及 110 个独特场景,涵盖六种不同的天气条件:晴天、小雨、大雨、雾、雾大雨,并且首次在合成 CP 数据集,眩光。它有六个对象类别,包括行人和骑自行车的人,并使用来自车辆和路边单元的数据,这些单元配备 LiDAR、RGB 和语义分割相机、GNSS 和 IMU。其场景基于真实的碰撞报告,描绘了恶劣天气和能见度差条件下最相关的道路配置,对象密度各不相同,场景密集和稀疏,从而为 CP 模型提供新颖的测试条件。在数据集上运行的基准显示,天气条件为感知模型带来了挑战性的条件,使多模态物体检测性能降低了高达 19%,而物体密度对基于 LiDAR 的检测的影响高达 29%。数据集、代码和文档可在 https://labs.cs.queensu.ca/quarrg/datasets/adver-city/ 获取。
基于协作和异步变压器的异构移动机器人团队任务规划
分类: 机器人技术, 人工智能, I.2.9; I.2.11
作者: Milad Farjadnasab, Shahin Sirouspour
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06372v1
摘要: 协调异构移动机器人团队执行搜索和救援等任务非常具有挑战性。这是由于在这种环境中感知、决策和规划的复杂性,以及代理的非同步操作、通信受限和计算资源有限。本文提出了基于协作和异步变压器的任务规划 (CATMiP) 框架,该框架利用多智能体强化学习 (MARL) 来有效协调具有异构感知、运动和驱动功能的智能体。该框架引入了基于类的宏动作去中心化部分可观察马尔可夫决策过程(CMD-POMDP)模型,通过宏动作处理不同代理类之间的异步决策。它还扩展了多代理变压器 (MAT) 架构,以促进代理之间的分布式临时通信。 CATMiP 可以轻松适应任务复杂性和通信限制,并可根据不同的环境规模和团队组成进行扩展。模拟证明了其可扩展性和能力,即使在严重的通信限制下,也能与两类探险者和救援者代理实现合作任务目标。该代码可从 https://github.com/mylad13/CATMiP 获取。
桌面场景的上下文感知命令理解
分类: 机器人技术, 人工智能
作者: Paul Gajewski, Antonio Galiza Cerdeira Gonzalez, Bipin Indurkhya
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06355v2
摘要: 本文提出了一种新颖的混合算法,旨在解释桌面场景中的自然人类命令。通过集成语音、手势和场景上下文等多种信息源,系统为机器人提取可操作的指令,识别相关的物体和动作。该系统以零射击方式运行,不依赖预定义的对象模型,从而能够在各种环境中灵活、自适应地使用。我们评估多个深度学习模型的集成,评估它们在现实世界机器人设置中部署的适用性。我们的算法将语言处理与视觉基础相结合,在不同的任务中表现强劲。此外,我们还发布了一个用于评估系统的小型视频记录数据集。该数据集捕获了人类以自然语言向机器人提供指令的现实世界交互,这对未来人机交互研究的贡献。我们讨论了该系统的优点和局限性,特别关注它如何处理多模式命令解释,以及它集成到符号机器人框架中以实现安全和可解释决策的能力。
使用 Decision Transformer 解决多目标机器人任务
分类: 机器人技术, 人工智能
作者: Paul Gajewski, Dominik Żurek, Marcin Pietroń, Kamil Faber
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06347v1
摘要: 人工智能在机器人技术中发挥着至关重要的作用,强化学习(RL)成为最有前途的机器人控制方法之一。然而,一些关键挑战阻碍了其更广泛的应用。首先,许多强化学习方法依赖于在线学习,这需要现实世界的硬件或先进的模拟环境——这两者都可能成本高昂、耗时且不切实际。离线强化学习提供了一种解决方案,无需持续访问物理机器人或模拟即可训练模型。第二个挑战是学习多目标任务,机器人必须同时实现多个目标。这增加了训练过程的复杂性,因为模型必须概括不同的目标。与此同时,Transformer 架构在包括强化学习在内的各个领域都获得了广泛的欢迎。然而,现有的方法还没有有效地将离线训练、多目标学习和基于 Transformer 的架构结合起来。在本文中,我们通过引入一种新颖的适应机器人离线多目标强化学习的决策转换器架构来解决这些挑战。我们的方法将特定于目标的信息集成到决策转换器中,使其能够在离线环境中处理复杂的任务。为了验证我们的方法,我们在模拟中使用 Panda 机器人平台开发了一个新的离线强化学习数据集。我们广泛的实验表明,决策转换器可以超越最先进的在线强化学习方法。
用于四旋翼飞行器的干扰感知运动规划和控制的元学习增强 MPC
分类: 机器人技术, 系统与控制, 系统与控制
作者: Dženan Lapandić, Fengze Xie, Christos K. Verginis, Soon-Jo Chung, Dimos V. Dimarogonas, Bo Wahlberg
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06325v1
摘要: 自主飞行的一个主要挑战是未知的干扰,这可能会危及安全并导致碰撞,尤其是在障碍物丰富的环境中。本文提出了一种专为自主空中飞行设计的干扰感知运动规划和控制框架。该框架由两个关键组件组成:干扰感知运动规划器和跟踪控制器。干扰感知运动规划器由预测控制方案和在线适应的干扰学习模型组成。跟踪控制器采用收缩控制方法设计,以根据干扰感知运动计划为障碍物附近的四旋翼飞行器行为提供安全界限。最后,在四旋翼飞行器面临强侧风和地面干扰的模拟场景中对该算法进行了测试。
多Agent系统可达集的分布式计算算法
分类: 系统与控制, 机器人技术, 系统与控制
作者: Omanshu Thapliyal, Shanelle Clarke, Inseok Hwang
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06321v2
摘要: 在本文中,我们考虑在无向静态图上交互的多智能体系统(MAS)的分布式可达集计算问题。此类 MAS 的完整状态反馈控制输入不仅取决于当前代理的状态,还取决于其邻居的状态。然而,在大多数 MAS 应用中,动态被个体代理所掩盖。这使得完全分布式方式的可达集计算成为一个具有挑战性的问题。我们利用多面可达集逼近的思想并将其推广到 MAS 设置。我们以完全分布式的方式制定所产生的子问题,并为相关计算提供收敛保证。所提出算法的收敛性在两种情况下被证明:静态MAS图和一定限制下的时变图。
机器人共享自主的增量学习
分类: 机器人技术
作者: Yiran Tao, Guixiu Qiao, Dan Ding, Zackory Erickson
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06315v1
摘要: 共享自主有望提高辅助机械臂的可用性和可访问性,但目前的方法通常依赖于昂贵的专家演示,并且缺乏部署后适应的能力。本文介绍了 ILSA,这是一种增量学习共享自治框架,可通过重复的用户交互不断改进其辅助控制策略。 ILSA 利用合成运动轨迹进行初始预训练,减少了对专家演示的需要,然后在每次操作交互后逐步微调其策略,并通过增量学习期间平衡新知识获取与现有知识保留的机制。我们通过全面的消融研究和 20 名参与者的用户研究来验证 ILSA 对于复杂的长期任务的效果,证明了其在定量性能和用户报告的定性指标方面的有效性和稳健性。代码和视频可在 https://ilsa-robo.github.io/ 获取。
具有环境和物体接触的路径约束时间优化轨迹规划的通用公式
分类: 机器人技术
作者: Dasharadhan Mahalingam, Aditya Patankar, Riddhiman Laha, Srinivasan Lakshminarayanan, Sami Haddadin, Nilanjan Chakraborty
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06295v1
摘要: 典型的操纵任务包括配备有夹具的操纵器,用于抓取和移动物体,但手持物体的运动受到限制,这可能是由于任务本身的性质或物体与环境的接触造成的。在本文中,我们研究了计算物体时间最佳运动的关节扭矩和抓握力的问题,同时确保抓握不会丢失以及由于动力学、环境接触、或者防滑的要求,也都满足。我们提出了时间最优轨迹规划问题的二阶锥体程序(SOCP)公式,该公式考虑了手-物体和物体-环境接触处的非线性摩擦锥约束。由于 SOCP 是凸优化问题,可以使用内点方法在多项式时间内最优求解,因此我们可以有效地求解轨迹优化问题。我们展示了三个示例的模拟结果,包括非全面的操作任务,这表明了我们方法的通用性和有效性。
神经增强多目标跟踪的新架构
分类: 信号处理, 机器学习, 机器人技术
作者: Shaoxiu Wei, Mingchao Liang, Florian Meyer
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06294v1
摘要: 多目标跟踪(MOT)是机器人、自动驾驶和海上监视领域的一项重要任务。 MOT 的传统工作是基于模型的,旨在在顺序贝叶斯估计框架中建立算法。最近的方法完全由数据驱动,并且依赖于神经网络的训练。这两种方法在某些场景下都表现出了优势。特别是,在有大量标记数据可用于神经网络训练的问题中,数据驱动的 MOT 与传统方法相比往往具有优势。一个自然的想法是,一个通用且高效的框架是否可以整合这两种方法。本文提出了一种最近引入的基于模型和数据驱动的混合方法,称为神经增强信念传播(NEBP)。与 MOT 的 NEBP 现有工作相比,它引入了一种新颖的神经架构,可以改善数据关联和新对象初始化,这是 MOT 的两个关键方面。在提交本文时,所提出的跟踪方法在 nuScenes 仅 LiDAR 跟踪挑战中处于领先地位。
通过跨模态状态空间模型和多视图匹配在激光雷达地图中进行单目视觉位置识别
分类: 计算机视觉和模式识别, 机器人技术
作者: Gongxin Yao, Xinyang Li, Luowei Fu, Yu Pan
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06285v1
摘要: 在预构建的 LiDAR 地图中实现单目相机定位可以绕过视觉 SLAM 系统的同步映射过程,从而有可能减少自主定位的计算开销。为此,关键挑战之一是跨模式地点识别,其中涉及根据在线 RGB 图像从 LiDAR 地图中检索 3D 场景(点云)。在本文中,我们介绍了一个有效的框架来学习 RGB 图像和点云的描述符。它以视觉状态空间模型(VMamba)为骨干,采用像素-视图-场景联合训练策略进行跨模态对比学习。为了解决视场差异,从点云的多个均匀分布的视点生成独立的描述符。然后设计可见 3D 点重叠策略来量化点云视图和 RGB 图像之间的相似性,以进行多视图监督。此外,当使用 NetVLAD 从像素级特征生成描述符时,我们补偿了几何信息的损失,并引入了一种有效的多视图生成方案。 KITTI 和 KITTI-360 数据集上的实验结果证明了我们方法的有效性和泛化性。该代码将在接受后发布。
BoxMap:高效的结构映射和导航
分类: 机器人技术
作者: Zili Wang, Christopher Allum, Sean B. Andersson, Roberto Tron
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06263v1
摘要: 虽然人类可以使用抽象成功地导航,忽略与手头任务无关的细节,但大多数现有的机器人应用程序需要维护详细的环境表示,这会消耗大量的传感、计算和存储。这些问题在资源有限且功率预算有限的环境中尤其重要。深度学习方法可以从先前的经验中学习未知环境的抽象知识,并用它来更有效地执行任务(例如前沿探索、对象搜索或场景理解)。我们提出了 BoxMap,一种基于检测转换器的架构,它利用感知到的部分环境的结构将环境的拓扑图更新为一组语义实体(例如房间和门)及其关系(例如连接性)。然后,可以利用这些来自低级测量的预测来实现高级目标,并且与基于详细表示的方法相比,计算成本更低。作为一个示例应用,我们考虑一个配备有二维激光扫描仪的机器人,其任务是探索住宅楼。我们的 BoxMap 表示与房间数量(具有较小的常数)呈二次方缩放,从而比完整的几何地图节省大量成本。此外,与标准方法相比,我们的高级拓扑表示使探索任务中的轨迹缩短了 30.9%。
OrionNav:利用情境感知大语言模型和开放词汇语义场景图进行机器人自主在线规划
分类: 机器人技术
作者: Venkata Naren Devarakonda, Raktim Gautam Goswami, Ali Umut Kaypak, Naman Patel, Rooholla Khorrambakht, Prashanth Krishnamurthy, Farshad Khorrami
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06239v1
摘要: 让机器人能够自主导航未知、复杂、动态的环境并执行不同的任务仍然是开发强大的自主物理代理的基本挑战。他们必须有效地感知周围环境,同时利用世界知识进行决策。虽然最近的方法利用视觉语言和大型语言模型进行场景理解和规划,但它们通常依赖于离线处理、外部计算或限制性环境假设。我们提出了一种高效且可扩展的实时机载自主导航的新颖框架,该框架在随时间变化的未知大规模环境中集成了感知和规划中的多级抽象。我们的系统融合来自多个机载传感器的数据以进行定位和映射,并将其与开放词汇语义集成以生成分层场景图。基于 LLM 的规划器利用这些图表来生成高级任务执行策略,指导低级控制器安全地实现目标。我们的框架的实时操作可以持续更新场景图和计划,从而可以快速响应环境变化并进行动态纠错。这是相对于静态或基于规则的规划系统的一个关键优势。我们在四足机器人上展示了我们的系统在大规模动态环境中导航的功效,展示了其在不同场景中的适应性和鲁棒性。
BUMBLE:将推理和行动与视觉语言模型相结合,实现建筑物范围内的移动操作
分类: 机器人技术, 人工智能
作者: Rutav Shah, Albert Yu, Yifeng Zhu, Yuke Zhu, Roberto Martín-Martín
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06237v1
摘要: 为了在建筑规模上运行,服务机器人必须通过导航到不同的房间、访问不同的楼层以及与各种看不见的日常物体进行交互来执行超长视野的移动操纵任务。我们将这些任务称为建筑物范围内的移动操纵。为了解决这些固有的长期任务,我们引入了 BUMBLE,这是一个基于统一视觉语言模型 (VLM) 的框架,集成了开放世界 RGBD 感知、广泛的粗略到精细运动技能和双层记忆。我们的广泛评估(90 多个小时)表明,BUMBLE 在长期建筑物范围内的任务中优于多个基线,这些任务需要在每次试验 15 分钟内对多达 12 种地面实况技能进行排序。 BUMBLE 在不同的建筑物、任务以及不同起始房间和楼层的场景布局中进行了 70 多次试验,平均成功率达到 47.1%。我们的用户研究表明,与最先进的移动操作方法相比,我们的方法的满意度高出 22%。最后,我们展示了使用功能日益强大的基础模型进一步提升性能的潜力。有关更多信息,请参阅 https://robin-lab.cs.utexas.edu/BUMBLE/
响野武藏@Home 2024 团队描述文件
分类: 机器人技术
作者: Kosei Isomoto, Akinobu Mizutani Fumiya Matsuzaki, Hikaru Sato, Ikuya, Matsumoto, Kosei Yamao, Takuya Kawabata, Tomoya Shiba, Yuga Yano, Atsuki Yokota, Daiju Kanaoka, Hiromasa Yamaguchi, Kazuya Murai, Kim Minje, Lu Shen, Mayo Suzuka, Moeno Anraku, Naoki Yamaguchi, Satsuki Fujimatsu, Shoshi Tokuno, Tadataka Mizo, Tomoaki Fujino, Yuuki Nakadera, Yuka Shishido, Yusuke Nakaoka, Yuichiro Tanaka, Takashi Morie, Hakaru Tamukoh
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06192v1
摘要: 本文概述了 Hibikino-Musashi@Home 所采用的技术,该公司打算参加国内标准平台联盟。该团队开发了一个用于训练机器人视觉系统的数据集生成器和一个在人类支持机器人模拟器上运行的开源开发环境。大语言模型驱动的任务规划器选择适当的原始技能来执行用户请求的任务。该团队旨在设计一款可以在家里帮助人类的家庭服务机器人,并不断参加比赛来评估和改进所开发的系统。
GSLoc:使用 3D 高斯分布进行视觉定位
分类: 机器人技术
作者: Kazii Botashev, Vladislav Pyatov, Gonzalo Ferrer, Stamatios Lefkimmiatis
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06165v1
摘要: 我们提出了 GSLoc:一种新的视觉定位方法,它使用 3D 高斯分布作为场景的地图表示来执行密集的相机对齐。 GSLoc 在渲染管道上反向传播位姿梯度以对齐渲染图像和目标图像,同时它通过利用模糊核来采用从粗到细的策略来减轻问题的非凸性并提高收敛性。结果表明,当最先进的神经稀疏方法提供较差的结果时,我们的方法在无纹理环境中初始帧和目标帧之间重叠相对较小的挑战性条件下成功进行了视觉定位。使用 3DGS 地图表示的真实渲染副产品,我们展示了在解决图像检索问题时如何通过混合一组观察到的和虚拟的参考关键帧来增强定位结果。我们在合成数据和真实数据上评估我们的方法,讨论其优势和应用潜力。
GR-2:具有用于机器人操作的网络规模知识的生成视频语言动作模型
分类: 机器人技术, 计算机视觉和模式识别, 机器学习
作者: Chi-Lam Cheang, Guangzeng Chen, Ya Jing, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Hongtao Wu, Jiafeng Xu, Yichu Yang, Hanbo Zhang, Minzhao Zhu
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06158v1
摘要: 我们推出 GR-2,这是一种最先进的通用机器人代理,用于多功能和通用的机器人操作。 GR-2 首先在大量互联网视频上进行预训练,以捕捉世界的动态。这种大规模预训练涉及 3800 万个视频片段和超过 500 亿个代币,使 GR-2 具备在后续策略学习过程中泛化各种机器人任务和环境的能力。此后,GR-2 针对视频生成和使用机器人轨迹的动作预测进行了微调。它展现了令人印象深刻的多任务学习能力,在 100 多个任务中实现了 97.7% 的平均成功率。此外,GR-2 展示了对新的、以前未见过的场景的卓越泛化能力,包括新颖的背景、环境、物体和任务。值得注意的是,GR-2 可根据模型大小有效扩展,凸显其持续增长和应用的潜力。项目页面:\url{https://gr2-manipulation.github.io}。
使用不完美传感器进行搜索的可证明方法
分类: 机器人技术, 计算几何
作者: Nilanjan Chakraborty, Prahlad Narasimhan Kasthurirangan, Joseph S. B. Mitchell, Linh Nguyen, Michael Perk
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06069v1
摘要: 假设已知目标存在于平面上有限位置集中的未知点处。我们使用传感能力不完善的移动机器人来搜索它。机器人在不同位置之间移动并搜索位置需要时间;我们有一个进行搜索的总时间预算。我们研究计算机器人搜索路径/策略的问题,以最大化目标检测的概率。考虑点之间的不均匀行进时间(例如,基于点之间的距离)对于搜索和救援应用至关重要;由于其固有的复杂性,此类问题的研究范围有限。在本文中,我们描述了针对该搜索问题和一些变体的具有性能保证的快速算法,用复杂性结果补充它们,并进行实验来观察它们的性能。
基于并行学习的机器人群形状形成中的相对定位
分类: 机器人技术, 多代理系统
作者: Jinhu Lü, Kunrui Ze, Shuoyu Yue, Kexin Liu, Wei Wang, Guibin Sun
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06052v1
摘要: 在本文中,我们解决了在外部定位系统不可用的环境中大规模机器人群的形状形成问题。仅通过机载测量有效地完成这项任务仍然很少被探索,并且面临一些实际挑战。为了解决这个具有挑战性的问题,我们提出了以下新颖的结果。首先,为了估计相邻机器人之间的相对位置,提出了一种基于并行学习的估计器。它放宽了最小二乘估计等经典方法所需的持续激励条件。其次,我们引入有限时间协议来确定形状位置。这是通过估计每个机器人和随机分配的种子机器人之间的相对位置来实现的。种子的初始位置标记了形状位置。第三,基于相对定位的理论结果,设计了一种新颖的基于行为的控制策略。该策略不仅能够实现大群机器人的自适应形状形成,而且还增强了机器人间相对定位的可观测性。提供数值模拟结果来验证我们提出的策略与最先进的策略相比的性能。此外,对真实机器人的户外实验进一步证明了我们方法的实际有效性和鲁棒性。
QT-DoG:领域泛化的量化感知训练
分类: 机器学习, 计算机视觉和模式识别, 机器人技术
作者: Saqib Javed, Hieu Le, Mathieu Salzmann
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06020v1
摘要: 域泛化 (DG) 旨在训练模型,使其不仅在训练(源)域上表现良好,而且在新颖的、未见过的目标数据分布上也表现良好。 DG 的一个关键挑战是防止对源域的过度拟合,这可以通过在损失情况中找到更平坦的最小值来缓解。在这项工作中,我们提出了领域泛化的量化感知训练(QT-DoG),并证明权重量化有效地导致损失景观中更平坦的最小值,从而增强领域泛化。与专注于模型压缩的传统量化方法不同,QT-DoG 通过在模型权重中引入噪声,将量化用作隐式正则化器,引导优化过程朝向对扰动和过拟合不太敏感的更平坦的最小值。我们提供了理论见解和经验证据,证明量化本质上会鼓励更平坦的最小值,从而导致跨领域更好的泛化。此外,凭借通过量化减少模型大小的好处,我们证明了多个量化模型的集合比最先进的 DG 方法进一步产生了更高的精度,并且没有计算或内存开销。我们广泛的实验表明,QT-DoG 可以泛化到各种数据集、架构和量化算法,并且可以与其他 DG 方法相结合,从而建立其多功能性和鲁棒性。
SplaTraj:使用语义高斯泼溅生成相机轨迹
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习
作者: Xinyi Liu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.06014v1
摘要: 机器人代表环境的许多最新进展都集中在照片级真实感重建上。本文特别关注从真实感高斯泼溅模型生成图像序列,这些图像序列与用户输入语言给出的指令相匹配。我们贡献了一个新颖的框架 SplaTraj,它将真实环境表示中的图像生成表述为连续时间轨迹优化问题。成本的设计使得遵循轨迹姿势的相机能够平滑地穿越环境并以上镜的方式渲染指定的空间信息。这是通过查询具有语言嵌入的真实感表示来隔离与用户指定的输入相对应的区域来实现的。然后,当相机随时间移动时,这些区域会被投影到相机的视图中,并构建成本。然后,我们可以应用基于梯度的优化并通过渲染进行区分,以优化定义成本的轨迹。生成的轨迹移动以拍摄出适合照片的每个指定对象。我们在一系列环境和指令上根据经验评估我们的方法,并演示生成的图像序列的质量。