MiX Knowledge

STT：利用 Transformers 实现自动驾驶状态跟踪

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Longlong Jing, Ruichi Yu, Xu Chen, Zhengli Zhao, Shiwei Sheng, Colin Graber, Qi Chen, Qinru Li, Shangxuan Wu, Han Deng, Sangjin Lee, Chris Sweeney, Qiurui He, Wei-Chih Hung, Tong He, Xingyi Zhou, Farshid Moussavi, Zijian Guo, Yin Zhou, Mingxing Tan, Weilong Yang, Congcong Li

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2405.00236v1

摘要： 跟踪三维空间中的物体对于自动驾驶至关重要。为了确保驾驶安全，跟踪器必须能够跨帧可靠地跟踪物体，并准确估计它们当前的速度和加速度等状态。现有的工作经常关注关联任务，而忽略状态估计的模型性能或部署复杂的启发式方法来预测状态。在本文中，我们提出了 STT，一种使用 Transformer 构建的状态跟踪模型，它可以持续跟踪场景中的对象，同时准确预测其状态。 STT 通过长期的检测历史消耗丰富的外观、几何和运动信号，并针对数据关联和状态估计任务进行联合优化。由于像 MOTA 和 MOTP 这样的标准跟踪指标无法捕获两个任务在更广泛的对象状态下的综合性能，因此我们使用称为 S-MOTA 和 MOTPS 的新指标来扩展它们，以解决这一限制。 STT 在 Waymo 开放数据集上实现了具有竞争力的实时性能。

$\star$-product 框架中非自治线性 ODE 的最佳多项式逼近

分类： 经典分析和常微分方程, 数值分析, 数值分析, 46F10, 37C60, 65L05

作者： Stefano Pozza

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19645v1

摘要： 我们在所谓的 $\star$-product 框架中提出了 ODE 线性非自治系统解的最优多项式近似的第一个公式。该产品是解析和数值意义上求解此类常微分方程的新方法的基础。本文展示了如何形式化地陈述问题并推导出其错误的上限。

获得 CE 认证的自主林业机械的网络安全途径

分类： 软件工程

作者： Mazen Mohamad, Ramana Reddy Avula, Peter Folkesson, Pierre Kleberger, Aria Mirzai, Martin Skoglund, Marvin Damschen

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19643v1

摘要： 在林业领域，自主机械中的网络安全日益重要。林业作业现场变得越来越复杂，涉及多个系统和系统。因此，有必要研究如何应对林业领域自治系统的网络安全挑战。通过文献综述和改编类似领域的标准，以及与领域专家的协作会议，我们确定了经过 CE 认证的自主林业机器面临的挑战，重点是网络安全和安全。此外，我们讨论了安全和网络安全风险评估之间的关系以及它们与人工智能的关系，强调需要一种整体方法来保证它们。

具有不同能力和策略的自主代理的动态人类信任建模

分类： 人机交互

作者： Jason Dekarske, Zhaodan Kong, Sanjay Joshi

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19291v1

摘要： 目标我们在基于屏幕的人类自主团队任务中对人类受试者的动态信任进行建模。背景信任是人机协作的一个新兴研究领域。许多研究都将机器人的性能问题视为人类信任的唯一预测因素，但这可能会低估交互的复杂性。方法受试者与自主代理配对，搜索屏幕上的网格以确定异常对象的数量。在每次试验中，具有预先分配能力的不同自主代理使用三种搜索策略之一，然后报告其发现的异常值数量作为其能力的一部分。然后，受试者报告了他们的总体异常值估计。然后，人类受试者评估有关代理的行为、可靠性以及他们对代理的信任的陈述。结果招募了 80 名受试者。自我报告的信任是使用普通最小二乘法建模的，但在短时间内与不同能力代理交互的小组产生了性能更好的 ARIMAX 模型。模型在各组之间进行了交叉验证，发现下一次试验信任预测略有改善。结论时间序列建模方法揭示了代理绩效的时间顺序对估计信任的影响。近期偏差可能会影响受试者如何权衡策略或能力对信任的贡献。了解代理行为、代理性能和人类信任之间的联系对于改善人机协作任务至关重要。应用本研究中的建模方法表明，需要随着时间的推移表示自主代理的特征，以捕获人类信任的变化。

忠诚僚机评估：模拟空战中人机自主协作的社交导航

分类： 人机交互

作者： Joao P. A. Dantas, Marcos R. O. A. Maximo, Takashi Yoneyama

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2405.00073v1

摘要： 这项研究提出了空战中自主代理的社交导航指标，旨在促进它们顺利融入飞行员编队。缺乏此类指标对混合人类自治团队的安全性和有效性提出了挑战。提议的指标优先考虑自然性和舒适性。我们建议通过一项用户研究来验证它们，该研究涉及军事飞行员与自主忠诚僚机一起模拟空战场景。该实验将涉及设置模拟、设计场景以及使用问卷反馈和数据分析来评估性能。这些指标旨在提高自主忠诚僚机的作战表现，从而有助于更安全、更具战略性的空战。

自动驾驶汽车硬件加速器：回顾

分类： 硬件架构, 机器人技术

作者： Ruba Islayem, Fatima Alhosani, Raghad Hashem, Afra Alzaabi, Mahmoud Meribout

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2405.00062v1

摘要： 自动驾驶汽车 (AV) 通过集成传感器、摄像头和复杂算法的先进技术重新定义了交通运输。在 AV 感知中实施机器学习需要强大的硬件加速器，以合理的功耗和占用空间实现实时性能。为了实现完全自动驾驶汽车的目标，仍在进行大量使用不同技术的研发工作，并且一些汽车制造商提供了商用系统。不幸的是，他们仍然缺乏可靠性，因为他们屡屡遇到事故，例如最近发生在加利福尼亚州的事故，该邮轮公司因此被加利福尼亚州暂停其许可证，期限未定[1]。本文从硬件和算法的角度批判性地回顾了自动驾驶汽车中使用的机器视觉系统的最新发现。它讨论了商用车中使用的技术及其优缺点，并提出了可能的前进方向。因此，本文可以为有机会参与设计针对 AV 的机器视觉系统的研究人员提供切实的参考。

CoCar NextGen：用于互联自动驾驶研究的多功能平台

分类： 机器人技术

作者： Marc Heinrich, Maximilian Zipfl, Marc Uecker, Sven Ochs, Martin Gontscharow, Tobias Fleck, Jens Doll, Philip Schörner, Christian Hubschneider, Marc René Zofka, Alexander Viehl, J. Marius Zöllner

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17550v1

摘要： 现实世界测试对于自动驾驶的成功至关重要。虽然业务设计领域的许多参与者都构建了测试工具，但我们设计并构建了一个模块化平台，可为任何类型的场景提供高度灵活性。 CoCar NextGen 配备了可满足所有未来用例的下一代硬件。其广泛的冗余传感器设置允许开发跨域数据驱动的方法来管理到其他传感器设置的传输。加上在公共道路上部署的可能性，这创建了一个独特的研究平台，支持 SAE 5 级自动驾驶之路。

混合自主环境中自主驾驶的认知驱动轨迹预测模型

分类： 机器人技术

作者： Haicheng Liao, Zhenning Li, Chengyue Wang, Bonan Wang, Hanlin Kong, Yanchen Guan, Guofa Li, Zhiyong Cui, Chengzhong Xu

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17520v1

摘要： 随着自动驾驶技术的进步，对精确轨迹预测模型的需求变得至关重要。本文介绍了一种创新模型，将认知洞察融入轨迹预测，重点关注感知安全和动态决策。与传统方法不同，我们的模型擅长分析混合自主交通场景中的交互和行为模式。它代表了一次重大飞跃，在几个关键数据集上实现了显着的性能改进。具体来说，它在下一代模拟（NGSIM）数据集上超越了现有基准，在高速公路无人机（HighD）上提升了16.2％，在高速公路无人机（HighD）上提升了27.4％，在澳门互联自动驾驶（MoCAD）数据集上提升了19.8％。我们提出的模型在处理极端情况方面表现出卓越的能力，这对于现实世界的应用程序至关重要。此外，在数据缺失或有限的情况下，其稳健性显而易见，优于大多数最先进的基线。这种适应性和弹性使我们的模型成为现实世界自动驾驶系统的可行工具，预示着车辆轨迹预测的新标准，以提高安全性和效率。

增强自主无人机导航的隐私和安全

分类： 密码学和安全, 人工智能, 机器人技术

作者： Vatsal Aggarwal, Arjun Ramesh Kaushik, Charanjit Jutla, Nalini Ratha

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17225v1

摘要： 自主无人机 (UAV) 已成为国防、执法、灾难响应和产品交付的重要工具。这些自主导航系统需要无线通信网络，并且最近是基于深度学习的。在边境保护或灾难响应等关键场景中，确保自主无人机的安全导航至关重要。但是，这些自主无人机很容易受到通过通信网络或深度学习模型的对抗性攻击——窃听/中间人/成员推理/重建。为了解决这种敏感性，我们提出了一种结合强化学习（RL）和全同态加密（FHE）的创新方法，以实现安全的自主无人机导航。该端到端安全框架专为无人机摄像机捕获的实时视频源而设计，并利用 FHE 对加密的输入图像进行推理。虽然 FHE 允许对加密数据进行计算，但某些计算运算符尚未实现。卷积神经网络、全连接神经网络、激活函数和 OpenAI Gym 库都精心适应 FHE 领域，以实现加密数据处理。我们通过广泛的实验证明了我们提出的方法的有效性。我们提出的方法确保自主无人机导航的安全性和隐私，并且性能损失可以忽略不计。

超越模仿：自动驾驶路径跟踪控制的终身策略学习框架

分类： 机器人技术

作者： C. Gong, C. Lu, Z. Li, Z. Liu, J. Gong, X. Chen

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17198v1

摘要： 最近，基于无模型学习的控制方法在避免复杂的车辆特性估计和参数整定方面表现出了比传统控制方法显着的优势。作为一种主要的策略学习方法，模仿学习（IL）能够直接从专家演示中学习控制策略。然而，IL 政策的绩效高度依赖于数据的充足性和示范的质量。为了缓解基于IL的政策的上述问题，本文提出了终身政策学习（LLPL）框架，该框架通过终身学习（LLL）扩展了IL方案。首先，介绍了一种基于IL的新型路径跟踪无模型控制策略学习方法。即使示范不完善，也可以直接从历史驾驶数据中学习最优控制策略。其次，通过使用 LLL 方法，可以使用增量执行知识安全地更新和微调预训练的 IL 策略。第三，引入政策学习的知识评估方法，避免学习冗余或劣质知识，从而保证在线政策学习性能的提高。使用高保真车辆动力学模型在各种场景下进行实验，以评估所提方法的性能。结果表明，所提出的LLPL框架可以利用收集的增量驾驶数据不断提高策略性能，并且在7公里弯曲道路上演进后，与其他基线方法相比，实现了最佳的精度和控制平滑度。通过对越野环境中收集的嘈杂现实生活数据进行学习和评估，所提出的 LLPL 框架还证明了其在现实生活场景中学习和进化的适用性。

重新定义自动驾驶汽车的安全

分类： 机器人技术, 人工智能

作者： Philip Koopman, William Widen

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16768v1

摘要： 应根据部署自动驾驶汽车的实际经验重新审视基于计算机的系统安全的现有定义和相关概念框架。行业安全标准当前使用的术语强调减轻特定危险的风险，并基于人类监督的车辆操作进行假设。没有人类驾驶员的操作极大地增加了安全问题的范围，特别是由于在开放世界环境中操作、自我执行操作限制的要求、参与临时社会技术系统的系统以及遵守法律和法规的要求。和道德约束。现有的标准和术语只能部分解决这些新挑战。我们提出了核心系统安全概念的更新定义，其中包含这些额外的考虑因素，作为发展安全方法来解决这些额外安全挑战的起点。这些结果还可能为其他自主系统应用的框架安全术语提供信息。

自动车辆感知系统中摄像头和雷达传感器数据融合的跨域空间匹配

分类： 计算机视觉和模式识别

作者： Daniel Dworak, Mateusz Komorkiewicz, Paweł Skruch, Jerzy Baranowski

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16548v1

摘要： 在本文中，我们提出了一种新方法来解决自动驾驶车辆感知系统中用于 3D 物体检测的摄像头和雷达传感器融合问题。我们的方法建立在深度学习的最新进展的基础上，并利用两种传感器的优势来提高物体检测性能。准确地说，我们使用最先进的深度学习架构从相机图像中提取 2D 特征，然后应用一种新颖的跨域空间匹配 (CDSM) 转换方法将这些特征转换为 3D 空间。然后，我们使用互补融合策略将它们与提取的雷达数据融合，以生成最终的 3D 对象表示。为了证明我们方法的有效性，我们在 NuScenes 数据集上对其进行了评估。我们将我们的方法与单传感器性能和当前最先进的融合方法进行比较。我们的结果表明，所提出的方法比单传感器解决方案具有更优越的性能，并且可以直接与其他顶级融合方法竞争。

使用贝叶斯矩阵正态混合回归学习跟车行为

分类： 应用领域, 机器学习

作者： Chengyuan Zhang, Kehua Chen, Meixin Zhu, Hai Yang, Lijun Sun

发布时间： 2024-04-24

链接： http://arxiv.org/abs/2404.16023v1

摘要： 学习和理解跟车（CF）行为对于微观交通模拟至关重要。传统的CF模型虽然简单，但通常缺乏泛化能力，而许多数据驱动的方法尽管具有鲁棒性，但作为“黑匣子”运行，可解释性有限。为了弥补这一差距，这项工作引入了贝叶斯矩阵正态混合回归 (MNMR) 模型，该模型可同时捕获 CF 行为中固有的特征相关性和时间动态。这种方法的特点是在模型框架内单独学习行和列协方差矩阵，为人类驾驶员决策过程提供了深刻的视角。通过大量的实验，我们评估了模型在输入的各个历史步骤、输出的预测步骤和模型复杂性方面的性能。结果一致证明了我们的模型在有效捕获 CF 期间存在的复杂相关性和时间动态方面的能力。一个重点案例研究进一步说明了该模型通过学习的均值和协方差矩阵识别不同操作条件的卓越可解释性。这不仅强调了我们的模型在理解 CF 场景中复杂的人类驾驶行为方面的有效性，而且还凸显了其作为增强交通模拟和自动驾驶系统中 CF 行为的可解释性的工具的潜力。

通过相干图像扫描实现超分辨率汽车

分类： 光学

作者： Anna Zhitnitsky, Elad Benjamin, Ora Bitton, Dan Oron

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15094v1

摘要： 我们通过实施相位分辨图像扫描显微镜 (ISM) 推出超分辨相干反斯托克斯拉曼散射 (CARS) 显微镜，与传统 CARS 显微镜相比，分辨率提高了两倍。标准像素重新分配过程需要相位敏感性，因为散射场是相干的，因此点扩散函数 (PSF) 仅针对场振幅进行了明确定义。我们通过在 CARS 设置中添加一个简单的附加组件来实现内联干涉测量，从而解决了复杂的场问题。相敏性提供了额外的对比度，可告知共振和非共振散射体的空间分布。与相干非线性显微镜中的替代超分辨率方案相比，所提出的方法简单，仅需要低强度激励，并且与任何传统的前向检测CARS成像装置兼容。

OccGen：自动驾驶的生成式多模态 3D 占用预测

分类： 计算机视觉和模式识别

作者： Guoqing Wang, Zhongdao Wang, Pin Tang, Jilai Zheng, Xiangxuan Ren, Bailan Feng, Chao Ma

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15014v1

摘要： 现有的 3D 语义占用预测解决方案通常将任务视为一次性 3D 体素分割感知问题。这些判别方法侧重于一步学习输入和占用图之间的映射，缺乏逐步细化占用图的能力和合理的场景想象能力来完成某处的局部区域。在本文中，我们介绍了 OccGen，这是一种简单但功能强大的生成感知模型，用于 3D 语义占用预测任务。 OccGen 采用“噪声到占用”生成范例，通过预测和消除源自随机高斯分布的噪声来逐步推断和细化占用图。 OccGen 由两个主要组件组成：能够处理多模态输入的条件编码器，以及使用多模态特征作为条件应用扩散去噪的渐进细化解码器。该生成流程的一个关键见解是，扩散去噪过程自然能够对密集 3D 占用图的从粗到细的细化进行建模，从而产生更详细的预测。对多个占用基准进行的广泛实验证明了所提出的方法与最先进的方法相比的有效性。例如，在多模态、仅 LiDAR 和仅相机设置下，OccGen 在 nuScenes-Occupancy 数据集上的 mIoU 分别相对提高了 9.5%、6.3% 和 13.3%。此外，作为一种生成感知模型，OccGen 表现出了判别模型无法实现的理想特性，例如在多步骤预测的同时提供不确定性估计。

通过集成深度强化学习框架增强自动驾驶汽车的高速巡航性能

分类： 系统与控制, 系统与控制

作者： Jinhao Liang, Kaidi Yang, Chaopeng Tan, Jinxiang Wang, Guodong Yin

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.14713v1

摘要： 混合交通的高速巡航场景对自动驾驶汽车（AV）的道路安全提出了极大的挑战。与仅孤立地看待基本模块的现有工作不同，这项工作通过提出一个综合框架来综合三个基本模块（即行为决策、路径规划和运动），从而增强了混合交通高速巡航场景中的自动驾驶汽车安全性-控制模块。考虑到集成框架会增加系统复杂性，采用自举深度Q网络（DQN）来增强强化学习方法的深度探索，实现自动驾驶汽车的自适应决策。此外，为了使自动驾驶汽车的行为能够被周围的 HDV 理解，以防止因误解而导致的意外操作，我们推导了一种逆强化学习（IRL）方法来学习熟练驾驶员对变道操作的路径规划的奖励函数。这样的设计使自动驾驶汽车能够在多种性能要求之间实现类似人类的权衡。仿真表明，所提出的集成框架可以指导自动驾驶汽车采取安全行动，同时保证高速巡航性能。

PLUTO：突破基于模仿学习的自动驾驶规划的极限

分类： 机器人技术

作者： Jie Cheng, Yingbing Chen, Qifeng Chen

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.14327v1

摘要： 我们推出 PLUTO，一个强大的框架，突破了基于模仿学习的自动驾驶规划的极限。我们的改进源于三个关键方面：纵向横向感知模型架构，可实现灵活多样的驾驶行为；一种创新的辅助损失计算方法，适用范围广，批量计算高效；一种新颖的训练框架，利用对比学习，通过一系列新的数据增强来调节驾驶行为并促进对潜在交互的理解。我们使用大规模现实世界 nuPlan 数据集及其相关的标准化规划基准来评估我们的框架。令人印象深刻的是，PLUTO 实现了最先进的闭环性能，击败了其他基于学习的竞争方法，并首次超越了当前性能最佳的基于规则的规划器。结果和代码可在 https://j Chengai.github.io/pluto 获取。

腿式机器人自主森林清查：系统设计和现场部署

分类： 机器人技术

作者： Matías Mattamala, Nived Chebrolu, Benoit Casseau, Leonard Freißmuth, Jonas Frey, Turcan Tuna, Marco Hutter, Maurice Fallon

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.14157v1

摘要： 我们提出了一种带有腿式机器人平台的自主森林清查解决方案。与轮式和空中同类产品相比，腿式平台为森林应用提供了耐久性和低土壤影响之间有吸引力的平衡。在本文中，我们介绍了森林清查解决方案的完整系统架构，其中包括状态估计、导航、任务规划以及实时树木分割和性状估计。我们介绍了芬兰和英国三项森林活动的初步结果，并总结了主要成果、教训和挑战。我们在英国迪安森林进行的实验使用 ANYmal D 腿式平台，在 20 分钟内实现了对 0.96 公顷土地的自主调查，识别了 100 多棵树，典型胸径精度为 2 厘米。

自动驾驶中的协作感知数据集：一项调查

分类： 计算机视觉和模式识别, 机器人技术

作者： Melih Yazgan, Mythra Varun Akkanapragada, J. Marius Zoellner

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.14022v1

摘要： 这项调查对车辆到基础设施 (V2I)、车辆到车辆 (V2V) 和车辆到一切 (V2X) 背景下的协作感知数据集进行了全面检查。它强调了大规模基准测试的最新进展，这些基准测试加速了自动驾驶汽车感知任务的进步。本文系统地分析了各种数据集，并根据多样性、传感器设置、质量、公共可用性及其对下游任务的适用性等方面对它们进行了比较。它还强调了关键挑战，例如域转移、传感器设置限制以及数据集多样性和可用性方面的差距。强调了在数据共享和数据集创建方面解决数据集开发中的隐私和安全问题的重要性。结论强调了全面、全球可访问的数据集以及技术和研究界的协作努力的必要性，以克服这些挑战并充分利用自动驾驶的潜力。

自动驾驶中的神经辐射场：一项调查

分类： 计算机视觉和模式识别

作者： Lei He, Leheng Li, Wenchao Sun, Zeyu Han, Yichen Liu, Sifa Zheng, Jianqiang Wang, Keqiang Li

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.13816v1

摘要： 神经辐射场（NeRF）由于其固有的优势，特别是其隐式表示和新颖的视图合成能力，引起了学术界和工业界的广泛关注。随着深度学习的快速发展，出现了多种方法来探索 NeRF 在自动驾驶（AD）领域的潜在应用。然而，当前文献中存在明显的空白。为了弥补这一差距，本文对 NeRF 在 AD 背景下的应用进行了全面的调查。我们的调查旨在对 NeRF 在自动驾驶 (AD) 领域的应用进行分类，具体包括感知、3D 重建、同步定位和建图 (SLAM) 以及模拟。我们深入分析并总结每个应用类别的研究结果，最后对该领域的未来方向提供见解和讨论。我们希望本文能为该领域的研究人员提供全面的参考。据我们所知，这是第一个专门针对 NeRF 在自动驾驶领域应用的调查。

远程操作应该像开车一样吗？远程操作 HMI 的比较

分类： 机器人技术, 人机交互

作者： Maria-Magdalena Wolf, Richard Taupitz, Frank Diermeyer

发布时间： 2024-04-21

链接： http://arxiv.org/abs/2404.13697v2

摘要： 由于自动驾驶系统预计不会完美运行，因此自动驾驶车辆在某些情况下将需要人工协助。因此，远程操作为人类提供了远程连接到车辆并为其提供协助的机会。远程操作员可以通过直接控制车辆来提供广泛的支持，从而无需自动驾驶功能。然而，由于与车辆的物理断开，与在车辆中驾驶相比，监控和控制具有挑战性。因此，这项工作遵循通过分离路径和速度输入来简化远程操作员任务的方法。在一项使用微型车辆的研究中，根据碰撞、任务完成时间、可用性和工作负载对不同的操作员与车辆交互和输入设备进行了比较。评估揭示了使用方向盘、鼠标和键盘或触摸屏实现的三个原型之间的显着差异。通过鼠标和键盘或触摸屏单独输入路径和速度是首选，但与通过方向盘并行输入相比速度较慢。

Soar：自动驾驶智能路边基础设施系统的设计和部署

分类： 系统与控制, 人工智能, 分布式、并行和集群计算, 机器学习, 系统与控制

作者： Shuyao Shi, Neiwen Ling, Zhehao Jiang, Xuan Huang, Yuze He, Xiaoguang Zhao, Bufang Yang, Chen Bian, Jingfei Xia, Zhenyu Yan, Raymond Yeung, Guoliang Xing

发布时间： 2024-04-21

链接： http://arxiv.org/abs/2404.13786v1

摘要： 最近，智能路边基础设施（SRI）展示了实现完全自动驾驶系统的潜力。为了探索基础设施辅助自动驾驶的潜力，本文介绍了 Soar 的设计和部署，Soar 是第一个专门为支持自动驾驶系统而设计的端到端 SRI 系统。 Soar 由精心设计的软件和硬件组件组成，旨在克服各种系统和物理挑战。 Soar 可以利用现有的运营基础设施（例如路灯柱）来降低采用障碍。 Soar采用全新的通信架构，包括双向多跳I2I网络和下行I2V广播服务，基于现成的802.11ac接口进行集成设计。 Soar 还具有分层深度学习任务管理框架，可在节点之间实现理想的负载平衡，并使它们能够高效协作以运行多个数据密集型自动驾驶应用程序。我们在校园现有灯柱上总共部署了 18 个 Soar 节点，这些节点已经运行了两年多。我们的实际评估表明，Soar 可以支持多种自动驾驶应用，并实现理想的实时性能和高通信可靠性。我们在这项工作中的发现和经验为下一代智能路边基础设施和自动驾驶系统的开发和部署提供了重要见解。

用于灾害测绘和受害者定位的自主机器人

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Michael Potter, Rahil Bhowal, Richard Zhao, Anuj Patel, Jingming Cheng

发布时间： 2024-04-21

链接： http://arxiv.org/abs/2404.13767v1

摘要： 为了满足灾难场景中有效侦察的迫切需求，本文介绍了使用带有机器人操作系统 (ROS) Noetic 的 Turtlebot3 的完整自主机器人系统的设计和实现。在封闭的、最初未知的环境中部署后，该系统旨在生成一张全面的地图，并使用 AprilTags 作为替身来识别任何当前的“受害者”。我们讨论了我们的搜索和救援任务解决方案，同时还探索了更先进的算法来改进搜索和救援功能。我们引入了 Cubature 卡尔曼滤波器来帮助减少 AprilTag 定位的均方误差 [m]，并引入了信息论探索算法来加快未知环境中的探索。就像乌龟一样，我们的系统缓慢而稳定地移动，但当需要拯救世界时，它会以忍者般的速度移动！尽管多纳泰罗有壳，但他并不是慢吞吞的人——他像十几岁的变异忍者神龟一样敏捷地穿过障碍。所以，请紧紧抓住你的外壳，准备好迎接旋风式的侦察吧！完整管道代码 https://github.com/rzhao5659/MRProject/tree/main 探索代码 https://github.com/rzhao5659/MRProject/tree/main

自治和智能系统的实用多级治理框架

分类： 计算机与社会, 人工智能, 新兴技术

作者： Lukas D. Pöhler, Klaus Diepold, Wendell Wallach

发布时间： 2024-04-21

链接： http://arxiv.org/abs/2404.13719v1

摘要： 自主智能系统 (AIS) 促进了跨各种不同领域的广泛有益应用。然而，不可预测性和缺乏透明度等技术特征以及潜在的意外后果给当前的治理基础设施带来了相当大的挑战。此外，应用程序的开发和部署速度超过了现有治理机构实施有效道德法律监督的能力。需要新的敏捷、分布式和多层次治理方法。这项工作提出了 AIS 多层次治理的实用框架。该框架能够将参与者映射到六个决策层面，包括国际、国家和组织层面。此外，它还提供了识别和发展现有工具或创建新工具来指导关卡内参与者行为的能力。治理机制使行为者能够制定和执行法规和其他工具，辅之以良好实践，有助于实现有效和全面的治理。

FipTR：用于自动驾驶未来实例预测的简单而有效的 Transformer 框架

分类： 计算机视觉和模式识别, 机器人技术

作者： Xingtai Gui, Tengteng Huang, Haonan Shao, Haotian Yao, Chi Zhang

发布时间： 2024-04-19

链接： http://arxiv.org/abs/2404.12867v1

摘要： 鸟瞰（BEV）角度的未来实例预测是自动驾驶的重要组成部分，其中涉及未来实例分割和实例运动预测。现有的方法通常依赖于冗余且复杂的管道，需要多个辅助输出和后处理程序。此外，每个辅助预测的估计误差将导致预测性能下降。在本文中，我们提出了一个简单而有效的完全端到端框架，名为未来实例预测转换器（FipTR），它将任务视为 BEV 实例分割和未来帧的预测。我们建议采用代表特定流量参与者的实例查询来直接估计相应的未来占用掩模，从而摆脱复杂的后处理过程。此外，我们设计了一个用于未来 BEV 特征预测的流感知 BEV 预测器，该预测器由流感知变形注意力组成，采用反向流引导偏移采样。还提出了一种新颖的未来实例匹配策略，以进一步提高时间一致性。大量实验证明了 FipTR 的优越性及其在不同时间 BEV 编码器下的有效性。

自动驾驶汽车在线时空图轨迹规划器

分类： 机器人技术, 人工智能, 机器学习

作者： Jilan Samiuddin, Benoit Boulet, Di Wu

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12256v1

摘要： 自动驾驶行业预计在未来十年将增长20倍以上，从而激发研究人员对其进行深入研究。他们研究的主要重点是确保安全、舒适和效率。自动驾驶车辆具有多个负责上述一项或多项的模块。在这些模块中，轨迹规划器对于车辆的安全性和乘客的舒适性起着至关重要的作用。该模块还负责遵守运动学约束和任何适用的道路约束。本文提出了一种新颖的在线时空图轨迹规划器来生成安全舒适的轨迹。首先，使用自动驾驶车辆、其周围车辆以及相对于车辆本身的道路沿线虚拟节点构建时空图。接下来，将图转发到顺序网络以获得所需的状态。为了支持规划器，还提供了一个简单的行为层来确定规划器的运动学约束。此外，还提出了一种新的势函数来训练网络。最后，所提出的规划器在三种不同的复杂驾驶任务上进行了测试，并将性能与两种常用方法进行了比较。结果表明，所提出的规划器可以生成安全可行的轨迹，同时在前进方向上实现相似或更长的距离以及相当的舒适度。

使用强化学习中的迭代奖励预测进行自动驾驶车辆的轨迹规划

分类： 机器人技术

作者： Hyunwoo Park

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12079v1

摘要： 自动驾驶车辆的传统轨迹规划方法有一些局限性。启发式和明确的简单规则使得轨迹缺乏通用性和复杂的运动。解决传统轨迹规划方法上述局限性的方法之一是使用强化学习的轨迹规划。然而，强化学习存在学习的不稳定性，并且之前使用强化学习进行轨迹规划的工作没有考虑不确定性。在本文中，我们提出了一种使用强化学习的自动驾驶车辆轨迹规划方法。所提出的方法包括稳定学习过程的迭代奖励预测方法和使强化学习代理意识到不确定性的不确定性传播方法。所提出的方法在 CARLA 模拟器中进行了实验。与基线方法相比，我们将碰撞率降低了 60.17%，并将平均奖励提高到 30.82 倍。

S4TP：适合社会且安全敏感的自动驾驶车辆轨迹规划

分类： 机器人技术, 计算机视觉和模式识别

作者： Xiao Wang, Ke Tang, Xingyuan Dai, Jintao Xu, Quancheng Du, Rui Ai, Yuxiao Wang, Weihao Gu

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.11946v1

摘要： 在公共道路上，自动驾驶汽车（AV）面临着与人类驾驶车辆（HDV）频繁交互的挑战，由于人类不同的社会特征，这导致了驾驶行为的不确定性。为了有效评估社交互动交通场景中自动驾驶汽车附近存在的风险并实现安全自动驾驶，本文提出了一种适合社会且安全敏感的轨迹规划（S4TP）框架。具体来说，S4TP集成了社交感知轨迹预测（SATP）和社交感知驾驶风险场（SADRF）模块。 SATP 利用 Transformers 对驾驶场景进行有效编码，并在预测解码过程中纳入 AV 的计划轨迹。 SADRF 评估 AV 与 HDV 交互过程中预期的周围风险程度，每种风险程度都具有不同的社会特征，可视化为以 AV 为中心的二维热图。 SADRF 对周围 HDV 的驾驶意图进行建模，并根据车辆交互的表示来预测轨迹。 S4TP 采用基于优化的方法进行运动规划，利用预测的 HDV 轨迹作为输入。通过集成SADRF，S4TP对低风险区域内的AV规划轨迹进行实时在线优化，从而提高规划轨迹的安全性和可解释性。我们使用 SMARTS 模拟器对所提出的方法进行了全面测试。在无保护的左转路口、并道、巡航、超车等复杂社会场景下的实验结果验证了我们提出的S4TP在安全性和合理性方面的优越性。 S4TP在所有场景下实现了100%的通过率，超过了当前最先进的方法Fanta的98.25%和Predictive-Decision的94.75%。

使用全向倾转旋翼机和切换控制器进行自主空中栖息和解除栖息

分类： 机器人技术

作者： Dongjae Lee, Sunwoo Hwang, Jeonghyun Byun, Seung Jae Lee, H. Jin Kim

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11310v1

摘要： 与为了延长运行时间而研究的停歇相比，多旋翼飞行器的空中停歇很少受到关注。这项研究提出了一种新型空中机器人，能够在飞行过程中在铁磁表面上自主栖息和脱离，以及一个切换控制器，以避免转子饱和并减轻自由飞行和栖息过渡期间的超调。为了能够在垂直表面上进行稳定的栖息和脱离操作，首先开发了一种轻型（$\approx$ $1$ \si{kg}）、完全驱动的倾转旋翼机，可以以 $90^\circ$ 俯仰角悬停。我们设计了一个由单个伺服电机和磁铁组成的栖息/解除模块，然后将其安装在倾转旋翼机上。提出了一种包括用于自由飞行和栖息之间转换的专用控制模式的切换控制器。最后，我们提出了一种简单而有效的策略，以确保在存在测量和控制误差的情况下稳健栖息，并避免在非栖息后立即与栖息地点发生碰撞。我们在实验中验证了所提出的框架，其中倾转旋翼机在飞行过程中成功地在垂直表面上栖息和脱离。我们通过消融研究进一步证明了所提出的转换模式在切换控制器中的有效性，其中发生了大的超调，甚至与栖息地点发生碰撞。据作者所知，这项工作提出了第一个使用全驱动倾转旋翼机的自主空中起落框架。

如何处理眩光以改善自动驾驶汽车的感知

分类： 计算机视觉和模式识别

作者： Muhammad Z. Alam, Zeeshan Kaleem, Sousso Kelouwani

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.10992v1

摘要： 视觉传感器用途广泛，可以捕获各种视觉线索，例如颜色、纹理、形状和深度。这种多功能性以及机器视觉相机相对便宜的可用性，在自动驾驶汽车 (AV) 中采用基于视觉的环境感知系统中发挥了重要作用。然而，基于视觉的感知系统在存在明亮光源的情况下很容易受到眩光的影响，例如夜间太阳或迎面而来的车辆的前灯，或者仅仅是雪或冰覆盖的表面反射的光；驾驶过程中经常遇到的场景。在本文中，我们研究了各种眩光减少技术，包括提出的饱和像素感知眩光减少技术，以提高自动驾驶汽车感知层所采用的计算机视觉（CV）任务的性能。我们根据感知层使用的 CV 算法的各种性能指标来评估这些眩光减少方法。具体来说，我们考虑了对自动驾驶至关重要的对象检测、对象识别、对象跟踪、深度估计和车道检测。实验结果验证了所提出的减少眩光方法的有效性，展示了在不同感知任务中的增强性能以及针对不同级别眩光的显着恢复能力。

发展与自动驾驶车辆联合行动的态势感知

分类： 人机交互, 人工智能, 机器人技术

作者： Robert Kaufman, David Kirsh, Nadir Weibel

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11800v1

摘要： 关于人机交互设计人员如何支持骑手的信息需求这一尚未解答的问题阻碍了自动驾驶汽车 (AV) 的采用。为了实现人类与自动驾驶汽车的联合行动目标，例如安全运输、信任或向自动驾驶汽车学习，人类、自动驾驶汽车和人类自动驾驶系统必须共同拥有足够的态势感知能力。我们提出了一个系统级框架，该框架集成了联合行动和态势感知的认知理论，作为定制满足目标成功所需标准的通信的手段。该框架基于共享情境的四个组成部分：自动驾驶特征、行动目标、特定主题特征和状态以及情境驾驶环境。视音频通信应根据这些因素进行定制，并在它们发生变化时保持敏感。该框架可用于理解个体、共享和分布式人类 AV 态势感知，并设计未来的 AV 通信，以满足不同群体和不同驾驶环境中的信息需求和目标。

设计车载信息娱乐系统的触摸屏菜单界面：深度和广度权衡以及任务类型对视觉手动分心的影响

分类： 人机交互

作者： Louveton Nicolas, McCall Rod, Engel Thomas

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11469v1

摘要： 众所周知，驾驶时使用触摸屏用户界面进行多任务处理会对驾驶性能和安全产生负面影响。文献表明，列表滚动界面比结构化菜单和顺序导航会产生更多的视觉手动干扰。已经研究了结构化导航的深度和广度权衡。然而，人们对次要任务特征如何与这些权衡相互作用知之甚少。在这项研究中，我们假设菜单的深度和任务复杂性相互作用，产生视觉手动干扰。使用驾驶模拟设置，我们收集遥测和眼动追踪数据来评估驾驶表现。参与者使用移动应用程序进行多任务处理，在三种类型的次要任务下呈现一系列八种深度和广度的权衡，涉及不同的认知操作（系统阅读、搜索项目、记住项目的状态）。结果证实了我们的假设。与菜单项的系统交互产生了视觉需求，该视觉需求随着菜单的深度而增加，而视觉需求在搜索和记忆任务中达到最佳状态。我们讨论对设计的影响：在多任务环境中，必须评估显示设计的有效性，同时考虑菜单的布局以及所涉及的认知过程。

使用配备滚轮臂的四足机器人对蒸馏塔进行安全关键的自主检查

分类： 机器人技术

作者： Jaemin Lee, Jeeseop Kim, Aaron D. Ames

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10938v1

摘要： 本文提出了一个专为复杂环境的自主检查而设计的综合框架，特别关注蒸馏塔塔盘等多层设置。利用配备滚轮臂的四足机器人，并通过使用机载感知，我们集成了基本的运动组件，包括：运动、托盘之间的安全和动态过渡以及桥接各种运动基元的中间运动。考虑到塔盘的光滑和受限性质，确保机器人在检查过程中的安全至关重要，因此我们采用安全过滤器和基于环境的控制屏障功能表示的脚步重新规划。我们的框架将所有系统组件集成到一个状态机中，对已开发的安全关键规划和控制元素进行编码，以保证安全关键自主性，从而实现蒸馏塔的自主安全导航和检查。在由工业级化学蒸馏托盘组成的环境中进行的实验验证凸显了我们多层架构的有效性。

自动驾驶场景中交互式超车中使用强化学习的轨迹规划

分类： 机器人技术

作者： Levent Ögretmen, Mo Chen, Phillip Pitschi, Boris Lohmann

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10658v1

摘要： 用于自动驾驶赛车的传统轨迹规划方法基于对对手车辆的预测的顺序执行以及对自我车辆的后续轨迹规划。如果对方车辆不对自身车辆做出反应，则可以准确地预测它们。然而，如果车辆之间存在相互作用，预测就失去了有效性。对于高交互，需要一种结合与对面车辆交互的轨迹规划方法，而不是仅对固定预测做出反应的规划方法。本文展示了在高度交互的阻塞场景中广泛使用的传统基于采样的方法的局限性。我们表明，不太积极的阻塞行为可以实现较高的成功率，但随着更显着的交互，碰撞率会增加。我们进一步提出了一种基于强化学习（RL）的新型赛车轨迹规划方法，该方法明确地利用与对方车辆的交互，而无需进行预测。与传统方法相比，基于强化学习的方法即使对于激进的阻止行为也能实现很高的成功率。此外，我们提出了一种新颖的安全层（SL），当基于强化学习的方法生成的轨迹不可行时，它会进行干预。在这种情况下，SL 会生成次优但可行的轨迹，避免由于找不到有效解决方案而终止场景。

PreGSU-基于预训练图注意力网络的自动驾驶广义交通场景理解模型

分类： 计算机视觉和模式识别, 多代理系统

作者： Yuning Wang, Zhiyuan Liu, Haotian Lin, Junkai Jiang, Shaobing Xu, Jianqiang Wang

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10263v1

摘要： 场景理解，定义为交通元素之间交互的学习、提取和表示，是高级自动驾驶（AD）面临的关键挑战之一。当前的场景理解方法主要集中于一项具体的单一任务，例如轨迹预测和风险级别评估。尽管它们在特定指标上表现良好，但泛化能力不足以适应真实的流量复杂性和下游需求多样性。在本研究中，我们提出了 PreGSU，一种基于图注意力网络的通用预训练场景理解模型，用于学习交通场景的通用交互和推理，以支持各种下游任务。经过特征工程和子图模块后，所有元素都作为节点嵌入，形成动态加权图。然后，应用四个图注意层来学习代理和车道之间的关系。在预训练阶段，理解模型在两个自监督任务上进行训练：虚拟交互力（VIF）建模和掩模道路建模（MRM）。基于人工势场理论，VIF 建模使 PreGSU 能够捕获智能体与智能体之间的交互，而 MRM 则能够提取智能体与道路之间的连接。在微调过程中，加载预先训练的参数以获得详细的理解输出。我们对城市场景下的轨迹预测和高速公路场景下的意图识别两个下游任务进行了验证实验，以验证泛化能力和理解能力。结果表明，与基线相比，PreGSU 在这两项任务上都取得了更好的准确性，表明其具有推广到各种场景和目标的潜力。消融研究显示了训练前任务设计的有效性。

自主隐式室内场景重建与前沿探索

分类： 机器人技术, 人工智能

作者： Jing Zeng, Yanxu Li, Jiahao Sun, Qi Ye, Yunlong Ran, Jiming Chen

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10218v1

摘要： 隐式神经表示已经证明了 3D 场景重建的巨大前景。最近的工作通过基于下一个最佳视图（NBV）的方法将其应用扩展到自主隐式重建。然而，NBV 方法不能保证完整的场景覆盖，并且通常需要大量的视点采样，特别是在复杂场景中。在本文中，我们建议1）将基于前沿的全球覆盖探索任务与基于隐式表面不确定性的重建任务结合起来，以实现高质量的重建。 2）引入一种使用颜色不确定性实现隐式表面不确定性的方法，这减少了视图选择所需的时间。进一步针对这两项任务，我们提出了一种在视图路径规划中切换模式的自适应策略，以减少时间并保持卓越的重建质量。我们的方法在所有规划方法中表现出最高的重建质量，并且在涉及重建任务的方法中表现出优异的规划效率。我们将我们的方法部署在无人机上，结果表明我们的方法可以规划多任务视图并重建高质量的场景。

自主空中代理的分层容错覆盖控制

分类： 系统与控制, 系统与控制

作者： Savvas Papaioannou, Christian Vitale, Panayiotis Kolios, Christos G. Panayiotou, Marios M. Polycarpou

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09838v1

摘要： 容错覆盖控制涉及确定使自主代理即使在存在致动和/或感测故障的情况下也能够覆盖特定兴趣点的轨迹。在这项工作中，代理遇到了错误的控制输入；具体来说，其标称控制输入受到随机干扰的干扰，可能会扰乱其预期运行。现有技术主要关注确定性有界扰动或依赖于高斯扰动的假设，而非高斯扰动主要通过基于场景的随机控制方法来解决。然而，高斯扰动的假设通常仅限于线性系统，并且基于场景的方法可能在计算上变得令人望而却步。为了解决这些限制，我们提出了一种分层覆盖控制器，它集成了混合三角多项式矩传播，以通过代理的非线性动力学传播非高斯扰动。具体来说，第一阶段通过优化代理的移动性和摄像机控制输入来生成理想的参考计划。然后，即使存在由非高斯扰动引起的错误控制输入，第二级容错控制器也会遵循该参考计划。这是通过对系统不确定状态的时刻施加一组确定性约束来实现的。

使用归一化流进行自动驾驶模型预测轨迹规划的采样

分类： 机器人技术, 机器学习

作者： Georg Rabenstein, Lars Ullrich, Knut Graichen

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09657v1

摘要： 除了基于优化的规划器之外，基于采样的方法由于其简单性也经常用于自动驾驶的轨迹规划。模型预测路径积分控制是一个基于优化原理构建的框架，同时结合了输入轨迹的随机采样。本文研究了几种轨迹生成的采样方法。在这种情况下，源自变分推理领域的归一化流被考虑用于生成采样分布，因为它们对简单分布到更复杂分布的转换进行建模。因此，基于学习的归一化流模型经过训练，可以更有效地探索当前任务的输入域。所开发的算法和提出的采样分布在两个模拟场景中进行评估。

迈向协同自动驾驶：仿真平台和端到端系统

分类： 计算机视觉和模式识别

作者： Genjia Liu, Yue Hu, Chenxin Xu, Weibo Mao, Junhao Ge, Zhengxiang Huang, Yifan Lu, Yinda Xu, Junkai Xia, Yafei Wang, Siheng Chen

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09496v1

摘要： 车联网辅助自动驾驶 (V2X-AD) 在提供更安全的驾驶解决方案方面具有巨大潜力。尽管在支持 V2X-AD 的交通和通信方面进行了广泛的研究，但这些基础设施和通信资源在提高驾驶性能方面的实际利用在很大程度上仍未得到探索。这凸显了协作自动驾驶的必要性：一种机器学习方法，可以优化信息共享策略以提高每辆车的驾驶性能。这项工作需要两个关键基础：一个能够生成数据以促进 V2X-AD 训练和测试的平台，以及一个将完整的驾驶相关功能与信息共享机制集成在一起的综合系统。从平台的角度来看，我们推出了V2Xverse，一个协同自动驾驶的综合仿真平台。该平台为协同驾驶提供了完整的管道。从系统角度来看，我们介绍了CoDriving，这是一种新颖的端到端协同驾驶系统，它在整个自动驾驶管道上正确集成了V2X通信，通过共享感知信息促进驾驶。其核心思想是一种新颖的以驱动为导向的沟通策略。利用这一策略，协同驾驶提高了驾驶性能，同时优化了通信效率。我们使用 V2Xverse 进行全面的基准测试，分析模块化性能和闭环驾驶性能。实验结果表明，CoDriving：i）与SOTA端到端驾驶方法相比，驾驶分数显着提高了62.49％，行人碰撞率大幅降低了53.50％，ii）实现了相对于动态约束通信的持续驾驶性能优势状况。

AAM-VDT：用于先进空中机动远程操作的车辆数字孪生

分类： 系统与控制, 新兴技术, 人机交互, 机器人技术, 系统与控制

作者： Tuan Anh Nguyen, Taeho Kwag, Vinh Pham, Viet Nghia Nguyen, Jeongseok Hyun, Minseok Jang, Jae-Woo Lee

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09621v1

摘要： 这项研究通过为 eVTOL 飞机创建车辆数字孪生 (VDT) 系统来推进先进空中机动 (AAM) 中的远程操作，该系统旨在提高远程控制安全性和效率，特别是超视距 (BVLOS) 操作。通过将数字孪生技术与沉浸式虚拟现实 (VR) 界面相结合，我们显着提高了远程操作员的态势感知和控制精度。我们的 VDT 框架将沉浸式远程操作与高保真空气动力学数据库集成在一起，这对于真实模拟飞行动力学和控制策略至关重要。我们方法的核心在于 eVTOL 的高保真数字复制品，放置在准确反映物理定律的模拟现实中，使操作员能够通过主从动态管理飞机，其性能大大优于传统的 2D 界面。所设计的系统架构确保操作员、数字孪生和实际飞机之间的无缝交互，从而促进准确、即时的反馈。实验评估包括推进数据采集、仿真数据库保真度验证和远程操作测试，验证了系统精确控制命令传输和保持数字物理同步的能力。我们的研究结果强调了 VDT 系统在提高 AAM 效率和安全性方面的潜力，为自动驾驶飞行器中更广泛的数字孪生应用铺平了道路。

嘈杂的 V2V 通信下互联自动驾驶车队的时间间隔选择

分类： 系统与控制, 系统与控制

作者： Guoqi Ma, Prabhakar R. Pagilla, Swaroop Darbha

发布时间： 2024-04-13

链接： http://arxiv.org/abs/2404.08889v1

摘要： 在本文中，我们研究了时间间隔的选择，以确保在车对车 (V2V) 通信中存在信号噪声的情况下联网和自动驾驶车辆队列的鲁棒串稳定性。特别是，我们考虑了从前车到后车的通信车辆加速度中的噪声对采用恒定时间车头时距策略（CTHP）的前车-后车型车辆队列中车头时距选择的影响。对每辆车采用基于 CTHP 的控制律，利用车载传感器测量前车的位置和速度，并使用无线通信网络获取前车的加速度，我们研究了通信信号噪声如何影响车头时距。我们得出了对前驱加速度、速度误差和间距误差的 CTHP 控制器增益的约束，以及车头时距的下限，这将确保排针对信号噪声的鲁棒串稳定性。我们提供了一个例子的比较数值模拟来说明主要结果。

在通信信号存在延迟的情况下，V2V 通信在联网和自动驾驶车辆中的优势

分类： 系统与控制, 系统与控制

作者： Guoqi Ma, Prabhakar R. Pagilla, Swaroop Darbha

发布时间： 2024-04-13

链接： http://arxiv.org/abs/2404.08879v1

摘要： 在本文中，我们研究了联网和自动驾驶车辆中通信信息中信号延迟的影响。特别是，我们将这种延迟对采用恒定车头时距策略（CTHP）的前驱型车辆队列中车头时距选择的影响联系起来。我们考虑两种情况，为排中的每辆车采用 CTHP 控制律：协作自适应巡航控制 (CACC) 策略（仅采用来自一辆前车的信息）和 CACC+（采用来自多辆前车的信息）。我们研究了无线通信导致的信号传输延迟如何影响车头时距下限。我们提供了一种系统方法来推导时距下限，并为前车加速度、速度误差和间距误差选择适当的 CTHP 控制器增益，这将确保在存在信号延迟的情况下排的鲁棒串稳定性。我们通过数值模拟证实了主要结果。

针对微型汽车类机器人使用低成本传感器进行基于优化的系统识别和移动水平估计

分类： 机器人技术, 系统与控制, 系统与控制

作者： Sabrina Bodmer, Lukas Vogel, Simon Muntwiler, Alexander Hansson, Tobias Bodewig, Jonas Wahlen, Melanie N. Zeilinger, Andrea Carron

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08362v1

摘要： 本文提出了一种开源微型汽车机器人，具有低成本传感和基于优化的系统识别、状态估计和控制的管道。整个机器人平台的成本不到 700 美元，因此大大简化了现实环境中高级算法的验证。我们提出了一种带有 Pacejka 轮胎力的改进自行车模型，用于对所考虑的全轮驱动车辆的动力学进行建模，并防止模型在低速时出现奇异性。此外，我们提供了一种基于优化的系统识别方法和移动水平估计（MHE）方案。在大量的硬件实验中，我们表明所提出的系统识别方法可以产生具有高预测精度的模型，而 MHE 可以产生准确的状态估计。最后，即使在有限的时间间隔内存在传感器故障，整个闭环系统也表现良好。所有硬件、固件以及控制和估计软件均根据 BSD 2 条款许可证发布，以促进社区内的广泛采用和协作。

WROOM：越野导航的自动驾驶方法

分类： 机器人技术, 机器学习

作者： Dvij Kalaria, Shreya Sharma, Sarthak Bhagat, Haoru Xue, John M. Dolan

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08855v1

摘要： 越野导航是一个具有挑战性的问题，无论是在规划层面上获得平滑的轨迹，还是在控制层面上避免翻倒、撞上障碍物或卡在崎岖不平的路面上。最近有几项工作使用经典方法，包括深度图预测、平滑轨迹规划并使用控制器来跟踪它。我们使用 Unity 游戏引擎中定制设计的模拟器，为越野环境中的自动驾驶车辆设计了端到端强化学习 (RL) 系统。我们通过模仿基于规则的控制器来热启动代理，并利用近端策略优化（PPO）来改进基于包含控制屏障函数（CBF）的奖励的策略，从而促进代理有效泛化到现实世界场景的能力。训练涉及代理在不同环境中同时进行域随机试验。我们还提出了一种新颖的模拟环境来复制越野驾驶场景，并将我们提出的方法部署在真正的越野车遥控汽车上。视频和其他结果：https://sites.google.com/view/wroom-utd/home

通过语言模型集成和关键场景生成增强自动驾驶汽车培训

分类： 机器人技术, 人工智能, 机器学习

作者： Hanlin Tian, Kethan Reddy, Yuxiang Feng, Mohammed Quddus, Yiannis Demiris, Panagiotis Angeloudis

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08570v1

摘要： 本文介绍了 CRITICAL，一种用于自动驾驶车辆 (AV) 训练和测试的新型闭环框架。 CRITICAL 因其生成多样化场景的能力而脱颖而出，专注于针对强化学习 (RL) 代理中确定的特定学习和性能差距的关键驾驶情况。该框架通过集成现实世界的交通动态、驾驶行为分析、替代安全措施和可选的大型语言模型 (LLM) 组件来实现这一目标。事实证明，在数据生成管道和训练过程之间建立反馈闭环可以提高训练过程中的学习率，提升系统整体性能并增强安全弹性。我们使用近端策略优化 (PPO) 和 HighwayEnv 模拟环境进行的评估表明，通过集成关键案例生成和 LLM 分析，性能得到显着提升，表明 CRITICAL 在提高 AV 系统的稳健性和简化关键场景生成方面的潜力。这最终有助于加速 AV 代理的开发，扩大 RL 训练的一般范围，并改善 AV 安全性的验证工作。

汽车数字孪生的成熟度：从监控到实现自动驾驶

分类： 新兴技术

作者： Robert Klar, Niklas Arvidsson, Vangelis Angelakis

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08438v1

摘要： 车辆数字孪生是数字孪生的标志性应用，因为孪生的概念可以追溯到美国宇航局太空飞行器的孪生。尽管汽车行业的数字孪生 (DT) 因其提高设计和制造效率的能力而得到认可，但其增强陆地车辆运营的潜力尚未得到充分发掘。除了现有的自动引导车辆 (AGV) 工作之外，大多数现有的车辆运行 DT 研究都集中在电动乘用车上。然而，结对的用途和价值因目标而异，无论是提供具有成本效益且可持续的不间断货运、注重乘客福祉的可持续公共交通，还是完全自动驾驶的车辆运营。在此背景下，DT 可用于一系列应用，从实时电池健康状况监控到实现全自动车辆操作。这导致所实施的数字化解决方案的要求、复杂性和成熟度各不相同。本文分析了货运、公共汽车和自动驾驶车辆由数字技术驱动的效率提升的最新趋势，并基于成熟度工具讨论了它们所需的成熟度水平。我们的DT成熟度工具的应用表明，大多数DT已经达到3级并可以实时监控。此外，5级DT已经存在于封闭环境中，允许有限的自主操作。

LLM 代理可以自主利用一日漏洞

分类： 密码学和安全, 人工智能

作者： Richard Fang, Rohan Bindu, Akul Gupta, Daniel Kang

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.08144v2

摘要： 大语言模型无论是在善意还是恶意用途方面都变得越来越强大。随着能力的增强，研究人员对其利用网络安全漏洞的能力越来越感兴趣。特别是，最近的工作对LLM代理自主黑客网站的能力进行了初步研究。然而，这些研究仅限于简单的漏洞。在这项工作中，我们展示了 LLM 代理可以自主利用现实系统中的一日漏洞。为了证明这一点，我们收集了 15 个一日漏洞的数据集，其中包括 CVE 描述中被归类为严重严重性的漏洞。当给出 CVE 描述时，GPT-4 能够利用其中 87% 的漏洞，而我们测试的其他所有模型（GPT-3.5、开源 LLM）和开源漏洞扫描程序（ZAP 和 Metasploit）只能利用 0%。幸运的是，我们的 GPT-4 代理需要 CVE 描述才能获得高性能：如果没有描述，GPT-4 只能利用 7% 的漏洞。我们的研究结果对高能力大语言模型代理人的广泛部署提出了质疑。

NeuroNCAP：自动驾驶的真实感闭环安全测试

分类： 计算机视觉和模式识别

作者： William Ljungbergh, Adam Tonderski, Joakim Johnander, Holger Caesar, Kalle Åström, Michael Felsberg, Christoffer Petersson

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07762v2

摘要： 我们推出了一款基于 NeRF 的多功能模拟器，用于测试自动驾驶 (AD) 软件系统，其设计重点是传感器真实闭环评估和安全关键场景的创建。该模拟器从现实世界的驾驶传感器数据序列中学习，并能够重新配置和渲染新的、未见过的场景。在这项工作中，我们使用模拟器来测试 AD 模型对受欧洲新车评估计划 (Euro NCAP) 启发的安全关键场景的响应。我们的评估表明，虽然最先进的端到端规划器在开环设置中的名义驾驶场景中表现出色，但在闭环设置中导航我们的安全关键场景时却表现出严重缺陷。这凸显了提高端到端规划器的安全性和现实可用性的必要性。通过将我们的模拟器和场景作为易于运行的评估套件公开发布，我们邀请研究社区在受控、高度可配置且具有挑战性的传感器现实环境中探索、完善和验证他们的 AD 模型。代码和说明可以在 https://github.com/wljungbergh/NeuroNCAP 找到

将解释纳入人机界面，以实现自动驾驶车辆的信任和态势感知

分类： 机器人技术, 人工智能

作者： Shahin Atakishiyev, Mohammad Salameh, Randy Goebel

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07383v1

摘要： 自动驾驶汽车通常通过应用于收集的传感器数据的基于机器学习的预测模型来做出复杂的决策。虽然这种方法组合为实时操作提供了基础，但自动驾驶行为对于最终用户来说仍然是不透明的。从这个意义上说，实时决策的可解释性是建立对自动驾驶汽车的信任的关键且自然的要求。此外，由于自动驾驶汽车仍然会因各种原因造成严重的交通事故，及时向道路使用者传达即将发生的危险有助于提高场景理解并预防潜在风险。因此，还需要为自动驾驶车辆提供用户友好的界面，以实现有效的人机协作。受这个问题的启发，我们共同研究可解释的人工智能和人机界面在建立车辆自动驾驶信任方面的作用。我们首先使用“3W1H”（什么、谁、何时、如何）方法呈现解释性人机系统的广泛背景。基于这些发现，我们提出了一个态势感知框架，用于校准用户对自动驾驶行为的信任。最后，我们对我们的框架进行实验，对其进行用户研究，并通过假设检验验证实证结果。

利用不完善的通信增强自动驾驶车辆的协作感知

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Ahmad Sarlak, Hazim Alzorgan, Sayed Pedram Haeri Boroujeni, Abolfazl Razi, Rahul Amin

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.08013v1

摘要： 相机馈送和传感器测量的共享和联合处理（称为协作感知（CP））已成为一种实现更高感知质量的新技术。 CP 可以提高自动驾驶车辆 (AV) 的安全性，因为其个人视觉感知质量会受到恶劣天气条件（雾霾天气）、低照度、蜿蜒道路和拥挤交通的影响。为了弥补以前方法的局限性，在本文中，我们提出了一种在受限通信下实现优化 CP 的新方法。我们方法的核心是从可用的前方车辆列表中招募最佳助手，以扩大视觉范围并提高自我车辆的物体检测（OD）准确性。在这个两步过程中，我们首先根据视觉范围和最低运动模糊来选择对 CP 贡献最大的辅助车辆。接下来，我们在候选车辆之间实施无线电块优化，以进一步提高通信效率。我们特别关注行人检测作为示例场景。为了验证我们的方法，我们使用 CARLA 模拟器为不同的驾驶场景创建带注释的视频数据集，在这些场景中，行人检测对于视力受损的自动驾驶汽车来说是一项挑战。我们的结果证明了我们的两步优化过程在提高具有挑战性的场景中协作感知的整体性能方面的有效性，从而显着提高了不利条件下的驾驶安全性。最后，我们注意到网络假设采用了 LTE Release 14 模式 4 侧链路通信，通常用于车对车 (V2V) 通信。尽管如此，我们的方法很灵活，适用于任意 V2V 通信。

具有全局损失的多代理软 Actor-Critic 用于自主按需移动车队控制

分类： 系统与控制, 机器学习, 多代理系统, 系统与控制

作者： Zeno Woywood, Jasper I. Wiltfang, Julius Luy, Tobias Enders, Maximilian Schiffer

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06975v1

摘要： 我们研究了自主按需移动系统的利润最大化运营商的顺序决策问题。优化中央运营商的车辆按请求调度策略需要高效且有效的车队控制策略。为此，我们采用多智能体 Soft Actor-Critic 算法与加权二分匹配相结合。我们提出了一种新颖的基于车辆的算法架构，并调整批评家的损失函数以适当考虑全局动作。此外，我们扩展了我们的算法以纳入再平衡功能。通过数值实验，我们表明，我们的方法在调度方面比最先进的基准高出 12.9%，在集成再平衡方面比最先进的基准高出 38.9%。

PACP：互联和自动驾驶车辆的优先级感知协作感知

分类： 网络和互联网架构

作者： Zhengru Fang, Senkang Hu, Haonan An, Yuang Zhang, Jingjing Wang, Hangcheng Cao, Xianhao Chen, Yuguang Fang

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06891v1

摘要： 周围环境的感知对于联网自动驾驶车辆 (CAV) 的安全驾驶至关重要，其中鸟瞰图已被用来准确捕捉车辆之间的空间关系。然而，纯电动汽车也存在严重的固有局限性，例如盲点。协作感知已成为通过周围车辆多个视图的数据融合来克服这些限制的有效解决方案。虽然大多数现有的协作感知策略采用基于传输公平性的全连接图，但它们经常忽略由于通道变化和感知冗余而导致的各个车辆的不同重要性。为了应对这些挑战，我们提出了一种新颖的优先级感知协作感知（PACP）框架，采用 BEV 匹配机制，根据附近 CAV 和自我感知车辆之间的相关性来确定优先级。通过利用子模块优化，我们找到了接近最佳的传输速率、链路连接和压缩指标。此外，我们部署了基于深度学习的自适应自动编码器来调节动态通道条件下的图像重建质量。最后，我们进行了广泛的研究，并证明我们的方案在并集交集的实用性和精度方面分别显着优于最先进的方案 8.27% 和 13.60%。

自动驾驶的单目 3D 车道检测：最新成就、挑战和展望

分类： 计算机视觉和模式识别

作者： Fulong Ma, Weiqing Qi, Guoyang Zhao, Linwei Zheng, Sheng Wang, Ming Liu

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06860v1

摘要： 3D车道检测在自动驾驶中发挥着至关重要的作用，它通过提取3D空间中的道路结构和交通信息来辅助自动驾驶汽车进行合理、安全、舒适的路径规划和运动控制。由于传感器成本的考虑以及视觉数据在颜色信息方面的优势，在实际应用中，基于单目视觉的3D车道检测是自动驾驶领域的重要研究方向之一，受到越来越多的关注。工业界和学术界。不幸的是，最近视觉感知方面的进展似乎不足以开发完全可靠的3D车道检测算法，这也阻碍了基于视觉的全自动自动驾驶汽车的发展，即实现5级自动驾驶，像人类控制的汽车一样驾驶。这是这篇综述论文得出的结论之一：使用视觉传感器的自动驾驶汽车的 3D 车道检测算法仍有很大的改进空间，仍需要重大改进。受此启发，这篇综述定义、分析和回顾了3D车道检测研究领域当前的成就，而当前的绝大多数进展很大程度上依赖于计算复杂的深度学习模型。此外，本次综述涵盖了 3D 车道检测流程，研究了最先进算法的性能，分析了前沿建模选择的时间复杂度，并强调了当前研究工作的主要成就和局限性。该调查还包括对可用 3D 车道检测数据集以及研究人员面临但尚未解决的挑战的全面讨论。最后，我们的工作概述了未来的研究方向，并欢迎研究人员和实践者进入这个令人兴奋的领域。

提高混合交通的安全性：基于学习的建模和自动驾驶和人类驾驶车辆的有效控制

分类： 机器人技术, 机器学习, 系统与控制, 系统与控制

作者： Jie Wang, Yash Vardhan Pant, Lei Zhao, Michał Antkiewicz, Krzysztof Czarnecki

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06732v1

摘要： 随着自动驾驶汽车 (AV) 在公共道路上的出现越来越多，制定稳健的控制策略来应对人类驾驶车辆 (HV) 的不确定性至关重要。本文介绍了一种先进的 HV 行为建模方法，将第一原理模型与高斯过程 (GP) 学习相结合，以提高速度预测精度并提供可测量的不确定性。我们使用现场实验的真实数据验证了这种创新的 HV 模型，并将其应用于开发 GP 增强模型预测控制 (GP-MPC) 策略。该策略旨在通过将不确定性评估纳入距离约束来提高混合车辆队列的安全性。与传统模型预测控制 (MPC) 方法的比较模拟研究表明，我们的 GP-MPC 策略可确保更可靠的安全距离并促进有效的车辆动力学，从而在排内实现显着更高的速度。通过在 HV 建模中引入稀疏 GP 技术，并在 MPC 框架内采用动态 GP 预测，我们显着减少了 GP-MPC 的计算时间，仅比传统 MPC 提高了 4.6%。这代表了重大改进，使该过程比我们在没有这些近似值的情况下的初步工作快约 100 倍。我们的研究结果强调了基于学习的 HV 建模在提高混合交通环境中的安全性和运行效率方面的有效性，为更和谐的 AV-HV 交互铺平了道路。

数字代理的自主评估和细化

分类： 人工智能

作者： Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine, Alane Suhr

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06474v2

摘要： 我们表明，领域通用自动评估器可以显着提高网络导航和设备控制代理的性能。我们尝试了多种评估模型，在推理成本、设计模块化和准确性之间进行权衡。我们在几个流行的数字代理基准测试中验证了这些模型的性能，发现与预言机评估指标的一致性在 74.4% 到 92.9% 之间。最后，我们使用这些评估器通过微调和推理时间指导来提高现有代理的性能。在没有任何额外监督的情况下，我们在流行的基准 WebArena 上将最先进的性能提高了 29%，并在具有挑战性的域传输场景中实现了 75% 的相对改进。

小型汽车自动驾驶：近期发展概况

分类： 机器人技术, 人工智能

作者： Dianzhao Li, Paul Auerbach, Ostap Okhrin

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06229v1

摘要： 在参与不断展开的自动驾驶革命时，我们面临着一个挑战：我们如何才能有效提高社会对这一变革趋势的认识？虽然全尺寸自动驾驶汽车通常价格昂贵，但小型汽车平台的出现提供了一个引人注目的替代方案。这些平台不仅可以作为广大公众和年轻一代的宝贵教育工具，而且可以作为强大的研究平台，为自动驾驶技术的持续进步做出重大贡献。这项调查概述了各种小型汽车平台，对它们进行了分类，并详细介绍了通过使用它们所取得的研究进展。结论为该领域未来的发展方向提供了建议。

具有自主按需出行功能的以交通为中心的多式联运城市出行系统设计

分类： 社交和信息网络, 优化与控制

作者： Xiaotong Guo, Jinhua Zhao

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05885v1

摘要： 本文讨论了在城市人口不断增长、城市交通需求模式不断变化以及按需出行 (MoD) 平台和自动驾驶汽车 (AV) 等新兴技术的背景下城市交通面临的紧迫挑战。随着城市地区的扩张和需求模式的变化，自主按需出行（AMoD）系统与现有公共交通（PT）网络的集成为增强城市出行提供了巨大的机会。我们提出了一种新颖的优化框架，用于大规模解决以交通为中心的多式联运城市交通与自主按需出行（TCMUM-AMoD）。系统运营商（公共交通机构）确定 PT 网络的网络设计和频率设置、AMoD 系统的车队规模和分配，以及使用多式联运系统的定价，以最大限度地减少乘客的负效用。使用离散选择模型对乘客的模式和路线选择行为进行显式建模。引入一阶近似算法来大规模解决该问题。通过芝加哥的案例研究，我们展示了在不同需求场景下优化城市交通的潜力。据我们所知，我们的论文是第一篇在考虑乘客模式和路线选择的同时，联合优化多式联运系统的交通网络设计、车队规模和定价的论文。

自主塔式起重机时能最优防摆轨迹规划器设计与仿真

分类： 机器人技术, 系统与控制, 系统与控制

作者： Souravik Dutta, Yiyu Cai

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05581v1

摘要： 对于自主起重机提升，需要起重机的最佳轨迹作为起重机控制器的参考输入，以促进前馈控制。对于具有球形摆动力学的欠驱动塔式起重机来说，减少未驱动的有效负载运动是一个关键问题。规划的轨迹应该在运行时间和能源消耗方面都是最佳的，以促进花费最佳努力获得最佳产出。本文提出了一种防摇摆塔式起重机轨迹规划器，可为南洋理工大学开发的计算机辅助提升规划（CALP）系统提供时间-能量最优解决方案，有利于机器人塔式起重机在自主运行中的无碰撞提升路径规划建筑工地。当前的工作向系统引入了轨迹规划模块，该模块利用路径规划模块的几何输出，并根据时间信息对其进行最佳缩放。首先，分析塔式起重机运行的非线性动力学，将塔式起重机建立为差动平面。随后，通过考虑机械和安全约束，在平坦输出空间中制定所有起重机操作的多目标轨迹优化问题。两种多目标进化算法，即非支配排序遗传算法 (NSGA-II) 和广义差分进化 3 (GDE3)，通过基于解与 Pareto 前沿的接近度、解在 Pareto 前沿的接近程度、解的分布的统计测量进行了广泛的比较。解空间和运行时间，来选择规划器的优化引擎。最后通过相应的规划平坦输出轨迹得到起重机的运行轨迹。通过模拟现实世界的起重场景进行研究，以验证所提出的起重规划系统模块的有效性和可靠性。

AutoCodeRover：自主程序改进

分类： 软件工程, 人工智能

作者： Yuntong Zhang, Haifeng Ruan, Zhiyu Fan, Abhik Roychoudhury

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05427v2

摘要： 过去几十年来，研究人员在软件开发过程自动化方面取得了重大进展。大型语言模型 (LLM) 的最新进展对开发过程产生了重大影响，开发人员可以使用基于 LLM 的编程助手来实现自动化编码。然而，软件工程除了编码之外还涉及程序改进的过程，特别是为了实现软件维护（例如错误修复）和软件演化（例如添加功能）。在本文中，我们提出了一种解决 GitHub 问题的自动化方法，以自主实现程序改进。在我们称为 AutoCodeRover 的方法中，LLM 与复杂的代码搜索功能相结合，最终导致程序修改或补丁。与人工智能研究人员和从业者最近的大语言模型代理方法相比，我们的前景更加面向软件工程。我们致力于程序表示（抽象语法树），而不是将软件项目视为单纯的文件集合。我们的代码搜索利用类/方法形式的程序结构来增强 LLM 对问题根本原因的理解，并通过迭代搜索有效地检索上下文。只要有可用的测试套件，使用测试进行的基于频谱的故障定位可以进一步增强上下文。在由 300 个现实 GitHub 问题组成的 SWE-bench-lite 上进行的实验表明，解决 GitHub 问题的效率有所提高（SWE-bench-lite 上的效率为 22-23%）。在包含 2294 个 GitHub 问题的完整 SWE-bench 上，AutoCodeRover 解决了大约 16% 的问题，这高于最近报告的来自 Cognition Labs 的 AI 软件工程师 Devin 的效率，同时与 Devin 花费的时间相当。我们认为我们的工作流程能够实现自主软件工程，未来大语言模型自动生成的代码可以得到自主改进。

自动驾驶路径规划的残差链预测

分类： 机器人技术, 人工智能

作者： Liguo Zhou, Yirui Zhou, Huaming Liu, Alois Knoll

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05423v1

摘要： 在快速发展的自动驾驶系统领域，路径规划算法的完善对于在动态环境中导航车辆至关重要，特别是在复杂的城市场景中。传统的路径规划算法严重依赖静态规则和手动定义的参数，在这种情况下通常会出现不足，这凸显了对更具适应性、基于学习的方法的需求。其中，行为克隆因其简单性和效率而成为一种值得注意的策略，特别是在端到端路径规划领域。然而，行为克隆面临着挑战，例如使用传统曼哈顿距离作为度量时的协变量偏移。为了解决这个问题，我们的研究引入了残余链损失的新概念。 Residual Chain Loss动态调整损失计算过程，以增强预测路径点的时间依赖性和准确性，在不增加计算开销的情况下显着提高模型的性能。通过对 nuScenes 数据集的测试，我们强调了该方法在解决协变量偏移、促进动态损失调整以及确保与端到端路径规划框架的无缝集成方面的重大进步。我们的研究结果强调了残余链损失彻底改变自动驾驶系统规划部分的潜力，标志着在寻求 5 级自动驾驶系统方面向前迈出了重要一步。

自动驾驶汽车中的人机交互：减少驾驶员的自愿干预

分类： 人机交互, 系统与控制, 系统与控制

作者： Xinzhi Zhong, Yang Zhou, Varshini Kamaraj, Zhenhao Zhou, Wissam Kontar, Dan Negrut, John D. Lee, Soyoung Ahn

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05832v1

摘要： 本文开发了一种新颖的跟车控制方法，以减少驾驶员的自愿干预并提高自动驾驶车辆（AV）的交通稳定性。通过实验和实证分析相结合，我们展示了驾驶员的自愿干预如何引发严重的交通干扰，并沿着上游交通放大。受这些发现的启发，我们提出了一个基于证据积累（EA）的驾驶员干预框架，该框架描述了驾驶员对自动化的不信任的演变，最终导致干预。通过 EA 框架，我们提出了一种基于深度强化学习 (DRL) 的自动驾驶汽车跟随控制，其战略性设计旨在减少不必要的驾驶员干预并提高交通稳定性。进行数值实验来证明所提出的控制模型的有效性。

AirShot：用于自主探索的高效少发检测

分类： 计算机视觉和模式识别

作者： Zihan Wang, Bowen Li, Chen Wang, Sebastian Scherer

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.05069v1

摘要： 小样本物体检测在机器人探索领域引起了越来越多的关注，其中机器人需要通过一些在线提供的示例来找到看不见的物体。尽管最近人们在在线处理能力方面做出了努力，但低功率机器人的推理速度慢，无法满足实时检测的需求，这使得它们对于自主探索来说不切实际。现有方法仍然面临性能和效率挑战，这主要是由于不可靠的特征和详尽的类循环。在这项工作中，我们提出了一种新的 AirShot 范式，并发现，通过充分利用有价值的相关图，AirShot 可以产生更强大、更快的少样本目标检测系统，更适用于机器人社区。核心模块顶部预测滤波器（TPF）可以在训练和推理阶段对多尺度相关图进行操作。在训练过程中，TPF 监督生成更具代表性的相关图，而在推理过程中，它通过选择排名靠前的类来减少循环迭代，从而降低计算成本并获得更好的性能。令人惊讶的是，这种双重功能在各种现成模型上表现出普遍的有效性和效率。在 COCO2017、VOC2014 和 SubT 数据集上进行的详尽实验表明，TPF 可以显着提高大多数现成模型的功效和效率，实现高达 36.4% 的精度改进以及 56.3% 的推理速度。代码和数据位于：https://github.com/ImNotPrepared/AirShot。

未知室内环境中通过语义感知自主探索构建多类型地图

分类： 机器人技术

作者： Jianfang Mao, Yuheng Xie, Si Chen, Zhixiong Nan, Xiao Wang

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04879v1

摘要： 本文提出了一种新颖的语义感知自主探索模型来解决长期存在的问题：基于主流RRT（快速探索随机树）的探索模型通常会使移动机器人在不同区域之间频繁切换，导致过度重复的探索对于同一地区。我们提出的语义感知模型鼓励移动机器人在移动到下一个区域之前充分探索当前区域，这能够避免过度重复的探索并使探索速度更快。语义感知自主探索模型的核心思想是考虑区域的语义信息，优化采样点选择机制和前沿点评价函数。此外，与通常构建单一类型或2-3种地图的现有自主探索方法相比，我们的模型允许构建四种地图，包括点云地图、占用网格地图、拓扑地图和语义地图。为了测试我们模型的性能，我们在三个模拟环境中进行了实验。实验结果表明，与改进的RRT相比，我们的模型在保持> 98％的探索率的情况下实现了33.0％的探索时间减少和39.3％的探索轨迹长度减少。

促使多模态代币通过大语言模型增强端到端自动驾驶模仿学习

分类： 机器人技术, 人工智能

作者： Yiqun Duan, Qiang Zhang, Renjing Xu

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04869v1

摘要： 大型语言模型（LLM）在强化学习领域的利用，特别是作为规划者，在最近的学术文献中引起了极大的关注。然而，现有研究的很大一部分主要集中在机器人规划模型上，这些模型将感知模型的输出转化为语言形式，从而采用“纯语言”策略。在这项研究中，我们通过将基本驾驶模仿学习与基于多模态提示标记的大语言模型相结合，提出了一种用于自动驾驶的混合端到端学习框架。我们的新颖之处在于两个方面，而不是简单地将分离的火车模型的感知结果转换为纯语言输入。 1）将视觉和激光雷达感官输入端到端集成为可学习的多模态标记，从而通过单独的预训练感知模型从本质上减轻描述偏差。 2）本文没有直接让LLM驾驶，而是探索了一种让LLM帮助驾驶模型纠正错误和复杂场景的混合设置。我们的实验结果表明，所提出的方法可以获得 49.21% 的驾驶分数，并且在通过 CARLA 进行的离线评估中，路线完成率高达 91.34%。这些性能指标可与最先进的驾驶模型相媲美。

照亮夜晚：用于自动驾驶中不成对的低光增强的多条件扩散框架

分类： 计算机视觉和模式识别

作者： Jinlong Li, Baolu Li, Zhengzhong Tu, Xinyu Liu, Qing Guo, Felix Juefei-Xu, Runsheng Xu, Hongkai Yu

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04804v1

摘要： 用于自动驾驶的以视觉为中心的感知系统最近因其成本效益和可扩展性而受到广泛关注，特别是与基于激光雷达的系统相比。然而，这些系统通常在弱光条件下表现不佳，可能会损害其性能和安全性。为了解决这个问题，我们的论文介绍了 LightDiff，这是一个针对领域定制的框架，旨在增强自动驾驶应用的低光图像质量。具体来说，我们采用多条件控制扩散模型。 LightDiff 无需任何人工收集的配对数据即可工作，而是利用动态数据降级过程。它采用了一种新颖的多条件适配器，可以自适应地控制来自不同模式的输入权重，包括深度图、RGB 图像和文本标题，以有效照亮黑暗场景，同时保持上下文一致性。此外，为了使增强图像与检测模型的知识保持一致，LightDiff 采用特定于感知的分数作为奖励，通过强化学习来指导扩散训练过程。对 nuScenes 数据集的大量实验表明，LightDiff 可以显着提高多种最先进的 3D 探测器在夜间条件下的性能，同时获得较高的视觉质量分数，凸显了其保障自动驾驶的潜力。

HawkDrive：变压器驱动的夜景自动驾驶视觉感知系统

分类： 计算机视觉和模式识别, 机器人技术

作者： Ziang Guo, Stepan Perminov, Mikhail Konenkov, Dzmitry Tsetserukou

发布时间： 2024-04-06

链接： http://arxiv.org/abs/2404.04653v1

摘要： 许多现有的自动驾驶场景视觉感知系统忽略了光照条件的影响，而光照条件是驾驶安全的关键要素之一。为了解决这个问题，我们推出了 HawkDrive，这是一种具有硬件和软件解决方案的新颖感知系统。利用立体视觉感知的硬件已被证明是比单眼视觉更可靠的估计深度信息的方式，它与边缘计算设备 Nvidia Jetson Xavier AGX 合作。我们用于低光增强、深度估计和语义分割任务的软件是基于变压器的神经网络。我们的软件堆栈可实现快速推理和降噪，被打包到机器人操作系统 2 (ROS2) 的系统模块中。我们的实验结果表明，所提出的端到端系统可有效提高深度估计和语义分割性能。我们的数据集和代码将在 https://github.com/ZionGo6/HawkDrive 发布。

通过大型语言模型的视角探索自主代理：回顾

分类： 人工智能

作者： Saikat Barua

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04442v1

摘要： 大型语言模型 (LLM) 正在改变人工智能，使自主代理能够跨不同领域执行不同的任务。这些代理精通类人文本理解和生成，有潜力彻底改变从客户服务到医疗保健等领域。然而，他们面临着多模态、人类价值取向、幻觉和评估等挑战。人们正在探索诸如提示、推理、工具利用和情境学习等技术来增强他们的能力。 AgentBench、WebArena 和 ToolLLM 等评估平台提供了在复杂场景中评估这些代理的可靠方法。这些进步正在导致更具弹性和能力的自主代理的开发，预计将成为我们数字生活中不可或缺的一部分，协助完成从电子邮件回复到疾病诊断等任务。以大语言模型为代表的人工智能的未来是充满希望的。

用于基于自主地面激光扫描的现场表型分析的地面移动机器人

分类： 机器人技术

作者： Javier Rodriguez-Sanchez, Kyle Johnsen, Changying Li

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04404v1

摘要： 传统的田间表型分析方法通常是手动的、耗时的且具有破坏性，给育种进展带来了挑战。为了解决这一瓶颈，机器人和自动化技术提供了高效的传感工具来监测整个季节的田间演变和作物发育。本研究旨在开发一种自主地面机器人系统，用于植物育种试验中基于激光雷达的现场表型分析。 Husky 平台配备了高分辨率三维 (3D) 激光扫描仪，无需人工干预即可收集现场地面激光扫描 (TLS) 数据。为了自动化 TLS 过程，实施了 3D 射线投射分析以实现最佳 TLS 站点规划，并利用路线优化算法来最大限度地减少数据收集期间的行进距离。该平台部署在两个棉花育种田进行评估，自主收集TLS数据。该系统通过RTK-GNSS定位和传感器融合技术提供准确的位姿信息，位置平均误差小于0.6厘米，航向误差小于0.38$^{\circ}$。与依赖人工目标和手动传感器部署的传统 TLS 方法相比，所实现的定位精度允许点云配准平均点误差约为 2 厘米。这项工作提出了一个自主表型平台，有助于在大型农田和小型育种试验的田间条件下对植物性状进行定量评估，以促进植物表型组学和育种计划的进步。

自动驾驶车辆网络可在充满挑战的高山道路、隧道和桥梁环境中提供更可靠的卡车跟踪

分类： 网络和互联网架构

作者： Junhao Chen, Milena Radenkovic

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.03033v1

摘要： 网购的普及对现有的快递追踪提出了挑战。如何为客户提供可靠、稳定的快件追踪，成为快递企业现在需要解决的重要问题之一。当前阶段的快递跟踪在山路、隧道和市中心等具有挑战性的环境中并不理想。因此，该项目旨在克服具有挑战性的环境，实现稳定的快件追踪，提出雅安场景并进行了多次实验。我们表明，机会性 DTN 感知协议是卡车在充满挑战的环境中保持稳定通信的可行解决方案，并且节点保持极高的消息传递率和平均延迟来维持通信。

利用群体智能自主驾驶：基于粒子群优化的运动规划方法

分类： 机器人技术

作者： Sven Ochs, Jens Doll, Marc Heinrich, Philip Schörner, Sebastian Klemm, Marc René Zofka, J. Marius Zöllner

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02644v1

摘要： 运动规划是自主移动平台的重要组成部分。一个好的管道应该足够模块化，能够处理不同的车辆、环境和感知模块。规划过程必须应对所有不同的模式，并且必须具有模块化和灵活的设计。但最重要的是，它必须安全且稳健。在本文中，我们希望展示以粒子群优化（PSO）为核心的运动规划流程。该解决方案与车辆类型无关，并且具有清晰且易于实现的感知模块接口。此外，该方法还因其能够轻松适应新场景而脱颖而出。并行计算可实现快速规划周期。遵循 PSO 的原理，轨迹规划器首先生成一组初始轨迹，然后进行优化。我们展示了底层的控制空间和内部工作原理。最后，评估中展示了在现实世界自动驾驶中的应用，并更深入地研究了成本函数的建模。我们的自动班车已使用该方法，该班车已在郊区日常交通中安全且完全自主地行驶了 3,500 多公里。

将多传感器输入与自主纳米无人机 TinyML 大脑的状态信息融合

分类： 机器人技术

作者： Luca Crupi, Elia Cereda, Daniele Palossi

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02567v1

摘要： 自主纳米无人机（直径约 10 厘米）凭借其基于 TinyML 的超低功耗大脑，能够应对现实世界的环境。然而，由于其简化的传感器和计算单元，它们与大型同类产品所表现出的感知和行动能力仍然相距甚远。该系统论文提出了一种新颖的基于深度学习的管道，它将多传感器输入（即低分辨率图像和 8x8 深度图）与机器人的状态信息融合起来，以解决人体姿势估计任务。得益于我们的设计，所提出的系统（经过模拟训练并在真实数据集上进行测试）通过将距离的 R^2 回归指标提高到 0.10，改进了状态未知的最先进基线。预言。

TCLC-GS：用于周围自动驾驶场景的紧耦合激光雷达相机高斯散射

分类： 计算机视觉和模式识别

作者： Cheng Zhao, Su Sun, Ruoyu Wang, Yuliang Guo, Jun-Jun Wan, Zhou Huang, Xinyu Huang, Yingjie Victor Chen, Liu Ren

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02410v1

摘要： 大多数针对城市场景的基于 3D 高斯分布 (3D-GS) 的方法直接使用 3D LiDAR 点初始化 3D 高斯，这不仅没有充分利用 LiDAR 数据功能，而且还忽略了将 LiDAR 与相机数据融合的潜在优势。在本文中，我们设计了一种新型紧耦合激光雷达-相机高斯散射（TCLC-GS），以充分利用激光雷达和相机传感器的综合优势，实现快速、高质量的 3D 重建和新颖的视图 RGB/深度合成。 TCLC-GS 设计了从 LiDAR 相机数据派生的混合显式（彩色 3D 网格）和隐式（分层八叉树特征）3D 表示，以丰富 3D 高斯分布的属性。 3D Gaussian 的属性不仅根据 3D 网格进行初始化，提供更完整的 3D 形状和颜色信息，而且还通过检索八叉树隐式特征赋予更广泛的上下文信息。在高斯分布优化过程中，3D 网格提供密集的深度信息作为监督，通过学习稳健的几何形状来增强训练过程。对 Waymo 开放数据集和 nuScenes 数据集进行的综合评估验证了我们的方法的最先进 (SOTA) 性能。利用单个 NVIDIA RTX 3090 Ti，我们的方法演示了快速训练，并在城市场景中以 90 FPS、分辨率为 1920x1280 (Waymo) 和 120 FPS、分辨率为 1600x900 (nuScenes) 实现实时 RGB 和深度渲染。

文化对自动驾驶汽车接受度的影响

分类： 物理与社会, 计算机与社会, 人机交互

作者： Chowdhury Shahriar Muzammel, Maria Spichkova, James Harland

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.03694v1

摘要： 自动驾驶汽车和其他智能交通系统一直在迅速发展，并在全球范围内得到越来越多的部署。之前的研究表明，对自动驾驶汽车的看法和态度取决于多种属性，包括受访者的年龄、教育水平和背景。这些关于年龄和教育水平的调查结果总体上是一致的，例如表明年轻的受访者通常更容易接受自动驾驶汽车，教育水平较高的受访者也是如此。然而，文化等因素的影响则不太明确。在本文中，我们通过著名的霍夫斯泰德文化模型分析了自动驾驶汽车的接受度与民族文化之间的关系。

使用知识蒸馏在自动驾驶车辆中实现可扩展且高效的交互感知规划

分类： 机器人技术, 人工智能, 机器学习

作者： Piyush Gupta, David Isele, Sangjae Bae

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.01746v1

摘要： 现实世界的驾驶涉及在密集交通场景中行驶的车辆之间复杂的交互。最近的研究重点是增强自动驾驶车辆的交互意识，以在决策中利用这些交互。这些交互感知规划器依靠基于神经网络的预测模型来捕获车辆间交互，旨在将这些预测与模型预测控制等传统控制技术集成。然而，这种基于深度学习的模型与传统控制范式的集成通常会导致依赖启发式方法的计算要求较高的优化问题。本研究介绍了一种原则性且有效的方法，将深度学习与约束优化相结合，利用知识蒸馏来训练更小、更高效的网络，从而降低复杂性。我们证明，这些精致的网络保持了大型模型解决问题的效率，同时显着加速了优化。具体来说，在自动驾驶车辆的交互感知轨迹规划领域，我们说明了使用知识蒸馏训练较小的预测网络可以在不牺牲准确性的情况下加快优化速度。

利用深通道先验增强现实世界退化中自动驾驶的视觉识别

分类： 计算机视觉和模式识别

作者： Zhanwen Liu, Yuhang Li, Yang Wang, Bolin Gao, Yisheng An, Xiangmo Zhao

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.01703v1

摘要： 自动驾驶汽车在正常条件下的环境感知在过去十年中取得了相当大的成功。然而，雾、弱光、运动模糊等各种不利条件会导致图像质量下降，对自动驾驶的安全构成巨大威胁。也就是说，当应用于退化图像时，由于捕获图像的统计和结构特性破坏引起的特征内容丢失和伪影干扰，最先进的视觉模型通常会遭受性能下降。为了解决这个问题，这项工作提出了一种新颖的深度通道先验（DCP），用于退化的视觉识别。具体来说，我们观察到，在预训练模型的深度表示空间中，即使具有不同的内容和语义，具有相同退化类型的退化特征的通道相关性也具有均匀分布，这可以促进退化特征和退化特征之间的映射关系学习。高稀疏特征空间中的清晰表示。在此基础上，提出了一种新颖的即插即用无监督特征增强模块（UFEM）来实现无监督特征校正，其中在UFEM的第一阶段引入多对抗机制，以实现潜在内容恢复和伪影去除。高稀疏特征空间。然后，生成的特征在DCP的指导下转移到第二阶段进行全局相关调制，以获得高质量且易于识别的特征。对三个任务和八个基准数据集的评估表明，我们提出的方法可以全面提高预训练模型在实际退化条件下的性能。源代码位于https://github.com/liyuhang166/Deep_Channel_Prior

QuAD：用于自动驾驶的基于查询的可解释神经运动规划

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Sourav Biswas, Sergio Casas, Quinlan Sykora, Ben Agro, Abbas Sadat, Raquel Urtasun

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01486v1

摘要： 自动驾驶车辆必须了解其环境才能确定适当的行动。传统的自治系统依靠对象检测来寻找场景中的代理。然而，对象检测假设一组离散的对象并丢失有关不确定性的信息，因此在预测这些代理的未来行为时，任何错误都会复合。或者，密集的占用网格图已被用来理解自由空间。然而，预测整个场景的网格是浪费的，因为只有某些时空区域是可到达的并且与自动驾驶车辆相关。我们提出了一个统一的、可解释的、高效的自治框架，摆脱了首先感知、然后预测、最后规划的级联模块。相反，我们改变范式，让规划器查询相关时空点的占用情况，将计算限制在那些感兴趣的区域。利用这种表示，我们围绕关键因素（例如避免碰撞、舒适度以及安全性和可解释性的进展）评估候选轨迹。我们的方法实现了比最先进的高保真闭环模拟更好的高速公路驾驶质量。

通过自动驾驶汽车网络支持人工智能研究的数字孪生

分类： 信号处理, 网络和互联网架构

作者： Anıl Gürses, Gautham Reddy, Saad Masrur, Özgür Özdemir, İsmail Güvenç, Mihail L. Sichitiu, Alphan Şahin, Ahmed Alkhateeb, Rudra Dutta

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.00954v1

摘要： 数字孪生 (DT) 是模拟、预测和优化物理对应物性能的虚拟环境，被认为是推进下一代无线网络的基本技术。虽然 DT 已针对无线网络进行了广泛的研究，但它们与具有可编程移动性的自动驾驶汽车的结合使用仍然相对未得到充分探索。在本文中，我们研究了用作开发环境的 DT，用于设计、部署和测试使用实时观察的人工智能 (AI) 技术，例如无线电关键性能指标，用于自动驾驶车辆网络 (AVN) 中的车辆轨迹和网络优化决策。我们首先比较和对比模拟、数字孪生（软件在环（SITL））、沙箱（硬件在环（HITL））和物理测试台环境的使用，以了解它们在开发和测试人工智能算法方面的适用性AVN。然后，我们回顾 AVN 场景中 DT 的各种代表性用例。最后，我们提供了一个来自 NSF AERPAW 平台的示例，其中使用 DT 来开发和测试自主无人机的人工智能辅助解决方案，以仅基于链路质量测量来定位信号源。我们在物理测试台上的结果表明，SITL DT 在补充了来自现实世界 (RW) 测量和模拟的数据后，可以成为开发和测试 AVN 创新 AI 解决方案的理想环境。