MiX Knowledge

使用残差网络与 HMI 磁力图和强度图进行极端太阳耀斑预测

分类： 太阳和恒星天体物理学, 人工智能, 机器学习

作者： Juyoung Yun, Jungmin Shin

发布时间： 2024-05-23

链接： http://arxiv.org/abs/2405.14750v2

摘要： 太阳耀斑，尤其是 C、M 和 X 级耀斑，对卫星运行、通信系统和电网构成重大风险。我们提出了一种使用 HMI 强度图和磁力图预测极端太阳耀斑的新方法。通过从强度图中检测太阳黑子并从磁图中提取磁场斑块，我们训练残差网络 (ResNet) 对极端类耀斑进行分类。我们的模型具有很高的准确性，为预测极端太阳耀斑和改进空间天气预报提供了强大的工具。此外，我们还表明，与其他 SDO AIA 图像相比，HMI 磁图通过更好地捕获对于预测耀斑强度至关重要的特征，为深度学习提供了更有用的数据。这项研究强调了识别太阳耀斑预测中的磁场的重要性，标志着太阳活动预测的重大进步，对减轻空间天气影响具有实际意义。

红外对抗车贴

分类： 计算机视觉和模式识别

作者： Xiaopei Zhu, Yuqiu Liu, Zhanhao Hu, Jianmin Li, Xiaolin Hu

发布时间： 2024-05-16

链接： http://arxiv.org/abs/2405.09924v1

摘要： 红外物理对抗示例对于研究自动驾驶等广泛应用于我们生活中的红外AI系统的安全性具有重要意义。以往的红外物理攻击主要集中在二维红外行人检测上，可能无法充分体现其对AI系统的破坏性。在这项工作中，我们提出了一种基于3D建模的针对红外探测器的物理攻击方法，并将其应用于真实的汽车。目标是设计一套红外对抗贴纸，使汽车在不同视角、距离和场景下对红外探测器来说是不可见的。我们构建了具有真实红外特征的3D红外汽车模型，并提出了一种基于3D网格阴影的红外对抗图案生成方法。我们提出了一种基于 3D 控制点的网格平滑算法，并使用一组平滑度损失函数来增强对抗性网格的平滑度并促进贴纸的实现。此外，我们还设计了铝贴纸，并在两辆真实的奔驰A200L汽车上进行了物理实验。我们的对抗性贴纸在不同的视角、距离和场景下隐藏了汽车，使其无法被 Faster RCNN（一种物体检测器）发现。真车攻击成功率（ASR）为91.49%。相比之下，随机贴纸和无贴纸的 ASR 分别仅为 6.21% 和 0.66%。此外，所设计的贴纸针对 YOLOv3 和 Deformable DETR 等 6 个不可见物体检测器的 ASR 在 73.35%-95.80% 之间，显示出跨检测器的攻击性能具有良好的可迁移性。

类车机器人精确定位的路径规划和运动控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Jin Dai, Zejiang Wang, Yebin Wang, Rien Quirynen, Stefano Di Cairano

发布时间： 2024-05-10

链接： http://arxiv.org/abs/2405.06290v2

摘要： 本文研究了类车机器人精确定位的规划和控制。我们提出了一个集成两个模块的解决方案：运动规划器，在快速探索随机树算法和连续曲率（CC）转向技术的帮助下，生成 CC 轨迹作为参考；非线性模型预测控制器（NMPC）调节机器人精确跟踪参考轨迹。基于现有技术中的 $\mu$-相切条件，我们推导了明确的存在条件并为一类特殊的 CC 路径开发了相关的计算方法，该路径不仅允许与 Reeds-Shepp 路径相同的驾驶模式，而且还包含尖点自由回旋曲线。随后，我们创建了一个自动驾驶车辆停车场景，其中 NMPC 努力遵循参考轨迹。通过数值模拟验证了CC转向的可行性和计算效率。 CarSim-Simulink 联合仿真统计验证，在完全相同的 NMPC 下，以 CC 轨迹为参考的闭环系统明显优于以 Reeds-Shepp 轨迹为参考的情况。

基于 SOHO/MDI 和 SDO/HMI 天气磁图的太阳活动区域实时均匀数据库。II.太阳周期变化参数

分类： 太阳和恒星天体物理学

作者： Ruihui Wang, Jie Jiang, Yukun Luo

发布时间： 2024-05-10

链接： http://arxiv.org/abs/2405.06224v1

摘要： 太阳活动区（AR）决定太阳极场并导致巴布科克-莱顿（BL）发电机框架内的太阳周期变化。 AR 对极场的贡献是通过其偶极场来测量的，偶极场是由通量出现和随后在太阳表面上的通量传输产生的。 AR 在通量传输之前和之后贡献的偶极场分别称为初始偶极场和最终偶极场。为了更好地理解和预测太阳周期，在本文中，我们提供了一个数据库，其中包括AR的初始和最终偶极场以及自1996年以来其双极磁区（BMR）近似的相应结果。我们还识别重复的 AR 并提供优化的传输参数。根据我们的数据库，我们发现虽然常用的 BMR 近似对于初始偶极子场表现良好，但它对最终偶极子场表现出显着的偏差。为了准确评估 AR 对极场的贡献，应应用具有真实配置的最终偶极场。尽管一些流氓 AR 做出了显着的贡献，但大约需要按最终偶极场排序的前 500 个 AR 才能导出循环最小值处的极场。虽然通量传输可能会增加或减少单个 AR 的偶极场，但它对一个周期中所有 AR 的集体影响是其总偶极场的减少。

从杜宾斯汽车的圆形区域逃生的最短时间

分类： 优化与控制, 49J15, 49N90, 51P05

作者： Isaac E. Weintraub, Alexander Von Moll, Meir Pachter

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05725v1

摘要： 受限转弯的躲避者力求在最短的时间内逃离圆形区域。

RoyalFlush自动语音分类和识别系统应对车载多通道自动语音识别挑战

分类： 声音, 音频和语音处理

作者： Jingguang Tian, Shuaishuai Ye, Shunfei Chen, Yang Xiang, Zhaohui Yin, Xinhui Hu, Xinkang Xu

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05498v1

摘要： 本文介绍了我们为车载多通道自动语音识别 (ICMC-ASR) 挑战赛提交的系统，该挑战赛重点关注复杂多说话人场景中的说话人分类和语音识别。为了应对这些挑战，我们开发了端到端说话人二值化模型，与开发集的官方基线相比，二值化错误率 (DER) 显着降低了 49.58%。对于语音识别，我们利用自监督学习表示来训练端到端 ASR 模型。通过集成这些模型，我们在轨道 1 评估集上实现了 16.93% 的字符错误率 (CER)，在轨道 2 评估集上实现了 25.88% 的串联最小排列字符错误率 (cpCER)。

副驾驶：基于 VLM 的自动驾驶助手，具有类人行为并能理解复杂的道路场景

分类： 机器人技术

作者： Ziang Guo, Artem Lykov, Zakhar Yagudin, Mikhail Konenkov, Dzmitry Tsetserukou

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05885v1

摘要： 关于基于大语言模型的自动驾驶解决方案的最新研究显示了规划和控制领域的前景。然而，大量的计算资源和大型语言模型的幻觉继续阻碍预测精确轨迹和指示控制信号的任务。为了解决这个问题，我们提出了Co-driver，这是一种新型的自动驾驶辅助系统，能够根据对道路场景的理解，赋予自动驾驶车辆可调整的驾驶行为。提出了一个涉及 CARLA 模拟器和机器人操作系统 2 (ROS2) 的管道，验证我们系统的有效性，利用单个 Nvidia 4090 24G GPU，同时利用视觉语言模型的文本输出能力。此外，我们还贡献了一个包含图像集和相应提示集的数据集，用于微调我们系统的视觉语言模型模块。在现实世界的驾驶数据集中，我们的系统在夜景中的合理预测成功率为 96.16％，在阴暗场景中的合理预测成功率为 89.7％。我们的 Co-driver 数据集将在 https://github.com/ZionGo6/Co-driver 发布。

ExACT：使用变压器动作分块的端到端自主挖掘机系统

分类： 机器人技术, 人工智能, 机器学习

作者： Liangliang Chen, Shiyu Jin, Haoyu Wang, Liangjun Zhang

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05861v1

摘要： 挖掘机对于建筑和采矿等多种任务至关重要，而自动挖掘机系统可以提高安全性和效率，解决劳动力短缺问题并改善人类工作条件。与现有的模块化方法不同，本文介绍了 ExACT，这是一种端到端自主挖掘机系统，可处理原始激光雷达、摄像头数据和关节位置，以直接控制挖掘机阀门。 ExACT 利用 Transformers 的动作分块 (ACT) 架构，采用模仿学习将多模态传感器的观察结果作为输入并生成可操作的序列。在我们的实验中，我们根据捕获的真实数据构建了一个模拟器，以对挖掘机阀门状态和关节速度之间的关系进行建模。通过一些人工操作的演示数据轨迹，ExACT 展示了通过模拟器验证中的模仿学习完成不同挖掘任务的能力，包括到达、挖掘和倾倒。据我们所知，ExACT 代表了第一个通过模仿学习方法和最少的人类演示来构建端到端自主挖掘机系统的实例。有关这项工作的视频可以在 https://youtu.be/NmzR_Rf-aEk 上访问。

具有学习性手眼信息融合的半自主腹腔镜机器人对接

分类： 机器人技术

作者： Huanyu Tian, Martin Huber, Christopher E. Mower, Zhe Han, Changsheng Li, Xingguang Duan, Christos Bergeles

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05817v1

摘要： 在本研究中，我们介绍了一种用于锁孔对接操作的新型共享控制系统，该系统将商用相机与遮挡鲁棒姿态估计和手眼信息融合技术相结合。该系统用于提高对接精度和力合规安全性。为了训练手眼信息融合网络模型，我们使用该对接系统生成了一个自监督数据集。经过训练，我们的姿态估计方法与传统方法（包括仅观察方法、手眼校准和传统状态估计滤波器）相比显示出更高的准确性。在现实世界的模型实验中，我们的方法证明了其有效性，与控制组。半自主协同操作场景中的这些进步增强了交互性和稳定性。该研究提出了一种抗干扰、稳定、精确的解决方案，其潜在应用范围从腹腔镜手术扩展到其他微创手术。

用于肝脏后续诊断的自主机器人超声系统：试点模型研究

分类： 机器人技术, 计算机视觉和模式识别, 系统与控制, 系统与控制

作者： Tianpeng Zhang, Sekeun Kim, Jerome Charton, Haitong Ma, Kyungsang Kim, Na Li, Quanzheng Li

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05787v1

摘要： 该论文介绍了一种新型自主机器人超声（US）系统，旨在为当地社区的门诊患者进行肝脏后续扫描。给定具有特定感兴趣目标区域的计算机断层扫描（CT）图像，所提出的系统分三个步骤进行自主后续扫描：（i）机器人与表面的初始接触，（ii）CT图像和机器人之间的坐标映射， (iii) 目标超声扫描。利用3D US-CT配准和基于深度学习的分割网络，我们可以实现3D肝静脉的精确成像，从而促进CT和机器人之间的精确坐标映射。这使得能够在 CT 图像内自动定位后续目标，从而使机器人能够精确导航到目标表面。对超声模型的评估证实了 US-CT 配准的质量，并表明机器人在重复试验中可靠地定位目标。拟议的框架有可能显着减少医疗保健提供者、临床医生和随访患者的时间和成本，从而解决当地社区与慢性病相关的日益增加的医疗负担。

自主机器人神经辐射场基准测试：概述

分类： 机器人技术

作者： Yuhang Ming, Xingrui Yang, Weihan Wang, Zheng Chen, Jinglun Feng, Yifan Xing, Guofeng Zhang

发布时间： 2024-05-09

链接： http://arxiv.org/abs/2405.05526v1

摘要： 神经辐射场 (NeRF) 已成为 3D 场景表示的强大范例，可根据一组稀疏且非结构化的传感器数据提供高保真渲染和重建。在自主机器人技术中，对环境的感知和理解至关重要，NeRF 在提高性能方面拥有巨大的希望。在本文中，我们对利用 NeRF 增强自主机器人能力的最先进技术进行了全面的调查和分析。我们特别关注自主机器人的感知、定位和导航以及决策模块，深入研究对自主操作至关重要的任务，包括3D重建、分割、位姿估计、同步定位和建图（SLAM）、导航和规划以及相互作用。我们的调查仔细地对现有的基于 NeRF 的方法进行了基准测试，深入了解它们的优点和局限性。此外，我们还探索该领域未来研究和开发的有前景的途径。值得注意的是，我们讨论了 3D 高斯分布 (3DGS)、大语言模型 (LLM) 和生成人工智能等先进技术的集成，设想增强的重建效率、场景理解和决策能力。这项调查为寻求利用 NeRF 增强自主机器人能力的研究人员提供了路线图，为能够在复杂环境中无缝导航和交互的创新解决方案铺平了道路。

适用于自动驾驶的多模态数据高效 3D 场景理解

分类： 计算机视觉和模式识别, 机器学习, 机器人技术

作者： Lingdong Kong, Xiang Xu, Jiawei Ren, Wenwei Zhang, Liang Pan, Kai Chen, Wei Tsang Ooi, Ziwei Liu

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.05258v1

摘要： 高效的数据利用对于推进自动驾驶中的 3D 场景理解至关重要，其中对大量人工注释的 LiDAR 点云的依赖对完全监督的方法提出了挑战。为了解决这个问题，我们的研究扩展到激光雷达语义分割的半监督学习，利用驾驶场景的内在空间先验和多传感器补充来增强未标记数据集的功效。我们引入了 LaserMix++，这是一个改进的框架，它集成了来自不同 LiDAR 扫描的激光束操作，并结合了 LiDAR 相机对应关系，以进一步协助数据高效学习。我们的框架经过定制，通过结合多模态来增强 3D 场景一致性正则化，包括 1）用于细粒度跨传感器交互的多模态 LaserMix 操作； 2）相机到LiDAR特征蒸馏，增强LiDAR特征学习； 3）语言驱动的知识指导，使用开放词汇模型生成辅助监督。 LaserMix++ 的多功能性支持跨 LiDAR 表示的应用，使其成为普遍适用的解决方案。我们的框架通过理论分析和对流行驾驶感知数据集的广泛实验进行了严格验证。结果表明，LaserMix++ 明显优于完全监督的替代方案，以少五倍的注释实现了相当的精度，并显着改善了仅监督的基线。这一重大进步凸显了半监督方法在减少基于 LiDAR 的 3D 场景理解系统中对大量标记数据的依赖方面的潜力。

自动驾驶占用感知调查：信息融合视角

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Huaiyuan Xu, Junliang Chen, Shiyu Meng, Yi Wang, Lap-Pui Chau

发布时间： 2024-05-08

链接： http://arxiv.org/abs/2405.05173v1

摘要： 3D 占用感知技术旨在观察和理解自动驾驶车辆的密集 3D 环境。该技术凭借其全面的感知能力，正在成为自动驾驶感知系统的发展趋势，受到工业界和学术界的高度关注。与传统的鸟瞰（BEV）感知类似，3D占用感知具有多源输入的性质和信息融合的必要性。然而，不同之处在于它捕获了 2D BEV 忽略的垂直结构。在本次调查中，我们回顾了 3D 占用感知的最新研究成果，并对各种输入模式的方法进行了深入分析。具体来说，我们总结了通用网络管道，重点介绍了信息融合技术，并讨论了有效的网络训练。我们在最流行的数据集上评估和分析最先进的占用感知性能。此外，还讨论了挑战和未来的研究方向。我们希望这份报告能够激励社区并鼓励更多关于 3D 占用感知的研究工作。本次调查中的研究的完整列表可在不断收集最新工作的活跃存储库中找到：https://github.com/HuaiyuanXu/3D-Occupancy-Perception。

TorchDriveEnv：具有反应性、真实性和多样化非可玩角色的自动驾驶强化学习基准

分类： 人工智能, 机器学习, 多代理系统, 机器人技术

作者： Jonathan Wilder Lavington, Ke Zhang, Vasileios Lioutas, Matthew Niedoba, Yunpeng Liu, Dylan Green, Saeid Naderiparizi, Xiaoxuan Liang, Setareh Dabiri, Adam Ścibior, Berend Zwartsenberg, Frank Wood

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04491v1

摘要： 自动驾驶车辆的训练、测试和部署需要真实且高效的模拟器。此外，由于不同自治系统中出现的不同问题之间存在很大差异，这些模拟器需要易于使用且易于修改。为了解决这些问题，我们引入了 TorchDriveSim 及其基准扩展 TorchDriveEnv。 TorchDriveEnv 是一个完全用 Python 编写的轻量级强化学习基准测试，可以对其进行修改以测试学习车辆行为中的许多不同因素，包括不同运动模型、代理类型和交通控制模式的影响。最重要的是，与许多基于重放的模拟方法不同，TorchDriveEnv 与最先进的行为模拟 API 完全集成。这允许用户与数据驱动的非可玩角色 (NPC) 一起训练和评估驾驶模型，这些角色的初始化和驾驶行为是反应性的、现实的和多样化的。我们通过评估训练和验证环境中的常见强化学习基线来说明 TorchDriveEnv 的效率和简单性。我们的实验表明，TorchDriveEnv 易于使用，但很难解决。

DriveWorld：通过自动驾驶世界模型进行 4D 预训练场景理解

分类： 计算机视觉和模式识别

作者： Chen Min, Dawei Zhao, Liang Xiao, Jian Zhao, Xinli Xu, Zheng Zhu, Lei Jin, Jianshu Li, Yulan Guo, Junliang Xing, Liping Jing, Yiming Nie, Bin Dai

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04390v1

摘要： 以视觉为中心的自动驾驶因其较低的成本近年来受到广泛关注。预训练对于提取通用表示至关重要。然而，当前以视觉为中心的预训练通常依赖于 2D 或 3D 预文本任务，忽略了自动驾驶作为 4D 场景理解任务的时间特征。在本文中，我们通过引入一种基于世界模型的自动驾驶 4D 表示学习框架（称为 \emph{DriveWorld}）来应对这一挑战，该框架能够以时空方式对多摄像头驾驶视频进行预训练。具体来说，我们提出了一种用于时空建模的内存状态空间模型，它由一个用于学习时间感知潜在动态以预测未来变化的动态内存库模块和一个用于学习空间感知潜在静态以提供预测未来变化的静态场景传播模块组成。全面的场景背景。我们还引入了任务提示来解耦各种下游任务的任务感知功能。实验表明，DriveWorld 在各种自动驾驶任务上取得了有希望的结果。使用 OpenScene 数据集进行预训练时，DriveWorld 的 3D 对象检测的 mAP 提高了 7.5%，在线建图的 IoU 提高了 3.0%，多对象跟踪的 AMOTA 提高了 5.0%，minADE 降低了 0.1m对于运动预测，占用预测的 IoU 增加了 3.0%，规划的平均 L2 误差减少了 0.34m。

强化自治代理中的欺骗：立法中的非常规兔子帽子戏法

分类： 计算和语言

作者： Atharvan Dogra, Ameet Deshpande, John Nay, Tanmay Rajpurohit, Ashwin Kalyan, Balaraman Ravindran

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04325v1

摘要： 大型语言模型（LLM）的最新发展虽然为开发自然语言代理提供了强大的基础，但也引起了人们对它们以及基于它们的自主代理的安全担忧。欺骗是特别令人关注的人工智能代理的一种潜在能力，我们将其称为误导、隐藏真相或宣扬完全或部分不真实的信念的行为或声明。正如之前的人工智能安全研究中所见，我们摆脱了对欺骗的传统理解，通过直接撒谎、做出客观的自私决定或提供虚假信息。我们针对的是通过混淆和模棱两可实现的特定类别的欺骗。我们通过将这两种类型的欺骗与“帽子里的兔子”魔术进行类比，来大致解释这两种类型的欺骗，其中（i）兔子要么从隐藏的活板门中出来，要么（ii）（我们的焦点）观众完全分心看到魔术师使用花招或误导将兔子带到他们面前。我们新颖的测试平台框架展示了大语言模型代理人在目标驱动环境中的内在欺骗能力，当他们在基于“游说”法案的立法任务构建的两个代理人对抗性对话系统中被指示在自然语言生成中进行欺骗时。沿着目标驱动的环境，我们展示了通过强化学习设置来发展欺骗能力，并围绕语言哲学和认知心理学理论构建它。我们发现，通过随后的对抗性交互强化试验，说客代理人的欺骗能力提高了约 40%（相对），并且我们的欺骗检测机制显示出高达 92% 的检测能力。我们的结果强调了智能体与人类交互中的潜在问题，智能体可能会操纵人类实现其编程的最终目标。

pFedLVM：自动驾驶中大视觉模型（LVM）驱动且基于潜在特征的个性化联邦学习框架

分类： 机器人技术, 分布式、并行和集群计算

作者： Wei-Bin Kou, Qingfeng Lin, Ming Tang, Sheng Xu, Rongguang Ye, Yang Leng, Shuai Wang, Zhenyu Chen, Guangxu Zhu, Yik-Chung Wu

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.04146v1

摘要： 由于领域不断变化的环境中的数据异构性，基于深度学习的自动驾驶（AD）模型通常表现出较差的泛化性。虽然联邦学习 (FL) 可以提高 AD 模型（称为 FedAD 系统）的泛化能力，但随着积累的训练数据量逐渐增加，传统模型常常会出现拟合不足的问题。为了解决这个问题，在 FedAD 中使用大视觉模型 (LVM) 代替传统的小模型是更好地从大量数据中学习表示的可行选择。然而，在 FedAD 中实施 LVM 会带来三个挑战：(I) 参与车辆和中央服务器之间传输 LVM 所需的极高通信开销； (II) 缺乏计算资源来在每辆车上部署 LVM； (III)由于LVM注重共享特征而忽视局部车辆特征导致性能下降。为了克服这些挑战，我们提出了 pFedLVM，一种 LVM 驱动的、基于潜在特征的个性化联合学习框架。在这种方法中，LVM仅部署在中央服务器上，有效减轻了单个车辆的计算负担。此外，中央服务器和车辆之间的交换是学习到的特征而不是LVM参数，这显着减少了通信开销。此外，我们利用所有参与车辆的共享特征和每辆车的个体特征来建立个性化的学习机制。这使得每辆车的模型能够从其他车辆的模型中学习特征，同时保留其个性化特征，从而优于在通用 FL 中训练的全局共享模型。大量实验表明，pFedLVM 的性能优于现有的最先进方法。

自动驾驶中基于深度事件的目标检测：调查

分类： 计算机视觉和模式识别

作者： Bingquan Zhou, Jie Jiang

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.03995v1

摘要： 物体检测在自动驾驶中起着至关重要的作用，在快速移动的场景中准确有效地检测物体至关重要。传统的基于帧的相机面临着平衡延迟和带宽的挑战，因此需要创新的解决方案。事件相机因其低延迟、高动态范围和低功耗而成为自动驾驶领域有前景的传感器。然而，有效利用异步和稀疏事件数据提出了挑战，特别是在维持低延迟和轻量级的对象检测架构方面。本文概述了自动驾驶中使用事件数据进行物体检测，展示了事件相机的竞争优势。

统一端到端V2X协同自动驾驶

分类： 计算机视觉和模式识别, 多代理系统

作者： Zhiwei Li, Bozhen Zhang, Lei Yang, Tianyu Shen, Nuo Xu, Ruosen Hao, Weiting Li, Tao Yan, Huaping Liu

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.03971v1

摘要： V2X 合作通过整合来自车辆和基础设施的传感器数据，被认为是推进自动驾驶技术的关键方法。目前的研究主要集中在增强感知准确性上，往往忽视了通过端到端学习对事故预测准确性的系统性提升，导致对自动驾驶安全问题的重视不够。为了应对这一挑战，本文介绍了UniE2EV2X框架，这是一种V2X集成的端到端自动驾驶系统，将关键驾驶模块整合在统一网络中。该框架采用可变形的基于注意力的数据融合策略，有效促进车辆和基础设施之间的合作。主要优点包括：1）显着增强智能体的感知和运动预测能力，从而提高事故预测的准确性； 2）保证数据融合过程的高可靠性； 3）与模块化方法相比，具有卓越的端到端感知。此外，我们在具有挑战性的 DeepAccident（一个专为 V2X 协同驾驶而设计的模拟数据集）上实现了 UniE2EV2X 框架。

NeurDB：人工智能驱动的自治数据系统

分类： 数据库, 人工智能

作者： Beng Chin Ooi, Shaofeng Cai, Gang Chen, Kian Lee Tan, Yuncheng Wu, Xiaokui Xiao, Naili Xing, Cong Yue, Lingze Zeng, Meihui Zhang, Zhanhao Zhao

发布时间： 2024-05-07

链接： http://arxiv.org/abs/2405.03924v1

摘要： 随着人工智能 (AI) 的快速发展，我们正处于数据系统变革飞跃的边缘。人工智能和数据库即将融合（AIxDB）有望催生新一代数据系统，该系统将通过人工智能增强功能（例如个性化和自动化的数据库内人工智能分析）减轻所有行业最终用户的负担在本文中，我们探讨了数据系统的演进，重点是深化人工智能和数据库的融合。我们推出 NeurDB，这是我们的下一代数据系统，旨在在每个主要系统组件中完全采用人工智能设计，并提供数据库内人工智能驱动的分析。我们概述了 NeurDB 的概念和架构概述，讨论了其设计选择和关键组件，并报告了其当前的发展和未来计划。

作为权力工具的大型语言模型：自主操纵和控制的新制度

分类： 社交和信息网络, 计算机与社会

作者： Yaqub Chaudhary, Jonnie Penn

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03813v1

摘要： 大型语言模型 (LLM) 可以再现各种修辞风格并生成表达广泛情感的文本。这种能力现在可以以低成本获得，使它们成为操纵和控制的强大工具。在本文中，我们考虑了大语言模型的快速且基本上不受监管的采用可能造成的一系列被低估的社会危害。我们并没有将大语言模型视为用于取代这个或那个工作领域的孤立的数字制品，而是专注于它们跨领域工具化的大规模计算基础设施。我们首先讨论如何利用大语言模型来污染和统一信息环境，以及如何利用这些模式作为控制机制。然后，我们提请人们注意几个新兴研究领域，每个领域都增强了大语言模型作为权力工具的能力。这些包括（i）通过对话界面中选择架构的实时设计进行说服（例如，通过“人工智能角色”），（ii）使用LLM代理作为人类代理的计算模型（例如“硅主题”）），（iii）使用LLM代理作为人类代理群体（例如“硅社会”）的计算模型，最后，（iv）将LLM与强化学习相结合以产生可控和可引导的战略对话模型。我们将这些线索放在一起，讨论如何将这些领域结合起来构建基于大语言模型的系统，通过对人类行为、意图和行动的模拟和不诚实的“预测”，作为个人、社会和政治控制的强大工具。

UniGen：用于生成自动驾驶场景的初始代理状态和轨迹的统一建模

分类： 机器人技术, 机器学习

作者： Reza Mahjourian, Rongbing Mu, Valerii Likhosherstov, Paul Mougin, Xiukun Huang, Joao Messias, Shimon Whiteson

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03807v1

摘要： 本文介绍了 UniGen，这是一种生成新交通场景的新方法，用于通过仿真评估和改进自动驾驶软件。我们的方法在一个统一的模型中对所有驾驶场景元素进行建模：新代理的位置、它们的初始状态以及它们未来的运动轨迹。通过从共享的全局场景嵌入中预测所有这些变量的分布，我们确保最终生成的场景完全取决于现有场景中的所有可用上下文。我们的统一建模方法与自回归代理注入相结合，可以调节所有现有代理及其轨迹上每个新代理的放置和运动轨迹，从而产生低碰撞率的真实场景。我们的实验结果表明，UniGen 在 Waymo 开放运动数据集上的性能优于现有技术。

RoboCar：用于自动驾驶研究的可快速部署的开源平台

分类： 机器人技术

作者： Mehdi Testouri, Gamal Elghazaly, Raphael Frank

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03572v1

摘要： 本文介绍了卢森堡大学开发的自动驾驶开源研究平台RoboCar。 RoboCar 利用 2018 款 KIA Soul EV 为实验性自动驾驶系统 (ADS) 的开发提供了一个模块化、经济高效的框架。该平台集成了强大的硬件和软件架构，与车辆现有系统保持一致，最大限度地减少了大量修改的需要。它支持各种自动驾驶功能，并已在卢森堡市的公共道路上进行了实际测试。本文概述了该平台的架构、集成挑战和初步测试结果，提供了对其在推进自动驾驶研究中的应用的见解。 RoboCar 可供任何人使用，网址为 https://github.com/sntubix/robocar，并根据开源 MIT 许可证发布。

混合现实增强的半自主机器人拆卸

分类： 机器人技术

作者： Alireza Rastegarpanah, Cesar Alan Contreras, Rustam Stolkin

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03530v1

摘要： 在这项研究中，我们介绍了“SARDiM”，这是一个通过混合现实增强的模块化半自主平台，用于工业拆卸任务。通过专注于电动汽车电池拆卸的案例研究，SARDiM 集成了混合现实、对象分割、远程操作、力反馈和可变自主性。 SARDiM 利用 ROS、Unity 和 MATLAB 平台以及联合阻抗控制器，促进远程操作拆卸。该方法结合了 FastSAM 进行实时对象分割，生成数据，随后通过聚类分析算法进行处理，以确定组件的质心和方向，并按大小和拆卸优先级对它们进行分类。该数据指导 MoveIt 平台为 Franka 机器人手臂进行轨迹规划。 SARDiM 提供在两种远程操作模式之间切换的能力：手动模式和具有可变自主性的半自主模式。每个方法都使用四种不同的界面方法 (IM) 进行评估：直接视图、监视器馈送、带有监视器馈送的混合现实以及点云混合现实。对八个 IM 的评估表明，使用模式 2，联合极限违规次数减少了 40.61%。此外，模式 2-IM4 的性能优于模式 1-IM1，时间减少了 2.33%，同时显着提高了安全性，使其成为在危险环境中运行的最佳选择在安全距离内，与直接查看环境的远程操作一样易于使用。

DexSkills：使用触觉数据进行技能细分，用于学习自主长视野机器人操作任务

分类： 机器人技术

作者： Xiaofeng Mao, Gabriele Giudici, Claudio Coppola, Kaspar Althoefer, Ildar Farkhatdinov, Zhibin Li, Lorenzo Jamone

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03476v1

摘要： 使用灵巧的机器人手有效执行长期任务仍然是解决现实问题的重大挑战。虽然从人类示范中学习已经显示出令人鼓舞的结果，但它们需要大量的数据收集来进行训练。因此，将长期任务分解为可重用的原始技能是一种更有效的方法。为了实现这一目标，我们开发了 DexSkills，这是一种新颖的监督学习框架，可使用原始技能解决长期灵巧操作任务。 DexSkills 经过训练，可以使用人类演示数据来识别和复制一组选定的技能，然后可以将演示的长视野灵巧操作任务分割成一系列原始技能，从而直接实现机器人的一次性执行。值得注意的是，DexSkills 仅基于本体感受和触觉数据（即触觉数据）进行操作。我们的现实世界机器人实验表明，DexSkills 可以准确地分割技能，从而使机器人能够自主执行各种任务。

PAFOT：一种基于位置的方法来寻找自动驾驶汽车的最佳测试

分类： 软件工程

作者： Victor Crespo-Rodriguez, Neelofar, Aldeida Aleti

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03326v1

摘要： 自动驾驶汽车 (AV) 很可能会彻底改变交通运输业。然而，它们必须经过彻底的测试，以避免违反安全规定。仿真测试在发现自动驾驶系统 (ADS) 的安全违规行为方面发挥着至关重要的作用。本文提出了 PAFOT，一种基于位置的方法测试框架，它生成对抗性驾驶场景以揭露 ADS 的安全违规行为。我们引入了一个 9 位置网格，该网格实际上是围绕自我车辆 (EV) 绘制的，并修改了非玩家角色 (NPC) 的驾驶行为以在该网格内移动。 PAFOT 利用单目标遗传算法来搜索对抗性测试场景。我们在著名的高保真模拟器 CARLA 上演示 PAFOT。实验结果表明，PAFOT 可以有效生成导致 ADS 崩溃的安全关键场景，并能够在短时间内发现碰撞。此外，它优于其他基于搜索的测试技术，在相同的驾驶条件下，在更短的有效模拟时间内找到更多的安全关键场景。

血管内介入自主导航中的人工智能：系统评价

分类： 人工智能, 机器人技术

作者： Harry Robertshaw, Lennart Karstensen, Benjamin Jackson, Hadi Sadati, Kawal Rhode, Sebastien Ourselin, Alejandro Granados, Thomas C Booth

发布时间： 2024-05-06

链接： http://arxiv.org/abs/2405.03305v1

摘要： 目的：血管内介入治疗中设备的自主导航可以减少手术时间，改善手术过程中的决策，并减少操作员的辐射暴露，同时增加治疗的机会。本系统综述探讨了最近的文献，以评估人工智能 (AI) 对自主血管内介入导航的影响、挑战和机遇。方法：查询PubMed和IEEEXplore数据库。资格标准包括调查人工智能在血管内介入治疗中导管/导丝自主导航中的应用的研究。继 PRISMA 之后，文章使用 QUADAS-2 进行评估。普洛斯彼罗：CRD42023392259。结果：462 项研究中有 14 项符合纳入标准。强化学习（9/14，64%）和演示学习（7/14，50%）被用作自主导航的数据驱动模型。研究主要利用物理模型（10/14，71%）和计算机模型（4/14，29%）。大多数研究报告了在心脏血管内或周围进行的实验（10/14，71%），而三项研究则使用了简单的非解剖血管平台（3/14，21%），而猪一项研究中的肝静脉系统。我们观察到各项研究都存在偏倚风险和普遍性差。在所审查的任何研究中均未对患者进行任何手术。研究缺乏患者选择标准、参考标准和重现性，导致临床证据水平较低。结论：人工智能在自主血管内导航方面的潜力是有前途的，但处于实验概念验证阶段，技术准备水平为 3。我们强调，具有明确性能指标的参考标准对于数据比较至关重要 -未来几年提出的驱动算法。

系统回顾：联网和自动驾驶车辆中的异常检测

分类： 机器学习

作者： J. R. V. Solaas, N. Tuptuk, E. Mariconti

发布时间： 2024-05-04

链接： http://arxiv.org/abs/2405.02731v1

摘要： 本系统综述的重点是联网和自动驾驶车辆的异常检测。初步数据库检索发现2160篇文章，经过严格筛选和评估，其中203篇纳入本次综述。这项研究表明，异常检测中最常用的人工智能 (AI) 算法是 LSTM、CNN 和自动编码器等神经网络，以及一类 SVM。大多数基于异常的模型都是使用现实世界的运行车辆数据进行训练的，尽管攻击和故障等异常通常被人为地注入到数据集中。这些模型主要使用五个关键评估指标进行评估：召回率、准确性、精确度、F1 分数和误报率。用于异常检测模型的最常用评估指标是准确度、精确度、召回率和 F1 分数。本系统综述提出了几项建议。首先，需要结合多种评估指标来对异常检测模型进行全面评估。其次，只有一小部分研究将其模型开源，这表明需要公开共享模型以促进研究社区内的合作，并有效地验证和比较研究结果。第三，需要使用预定义的异常或网络攻击对数据集进行基准测试，以测试和提高所提出的基于异常的检测模型的有效性。此外，未来需要研究如何在车辆上部署异常检测，以评估其在道路上的性能。对于使用不同 CAN 协议（例如以太网和 FlexRay）的入侵检测系统的研究明显缺乏。

加速自动化：自动赛车时代职业赛车手的见解 - 专家访谈研究

分类： 机器人技术

作者： Frederik Werner, René Oberhuber, Johannes Betz

发布时间： 2024-05-04

链接： http://arxiv.org/abs/2405.02620v1

摘要： 这项研究旨在调查专业赛车手的专业知识，以了解他们的认知和适应技能，从而创建新的自主算法。我们对来自著名赛车联盟的 11 名职业赛车手、数据分析师和赛车教练进行了专家访谈研究。访谈采用探索性、非标准化的专家访谈形式进行，并以一组准备好的问题为指导。该研究调查了驾驶员达到车辆极限的探索策略，并将其与最先进的自动赛车软件堆栈的功能进行了对比。参与者被问及他们所开发的在车辆极限下快速接近和操纵的技术和技能，最终最大限度地减少单圈时间。访谈分析基于 Mayring 的定性内容分析框架，该框架有助于将数据组织为多个类别和子类别。我们的研究结果深入了解人类在达到车辆极限和最小化单圈时间方面的行为。我们从研究结果中得出结论，开发了新的自主软件模块，可以实现更具适应性的车辆行为。通过强调手动和自动驾驶技术之间的明显细微差别，该论文鼓励进一步研究人类驾驶员最大化车辆能力的策略。

自动驾驶中基于视觉的 3D 占用预测：回顾与展望

分类： 计算机视觉和模式识别

作者： Yanan Zhang, Jinqing Zhang, Zengran Wang, Junhao Xu, Di Huang

发布时间： 2024-05-04

链接： http://arxiv.org/abs/2405.02595v1

摘要： 近年来，自动驾驶因其减轻驾驶员负担、提高驾驶安全的潜力而受到越来越多的关注。基于视觉的 3D 占用预测是一种新兴的感知任务，可根据图像输入预测自动驾驶汽车周围 3D 体素网格的空间占用状态和语义，适用于经济高效的自动驾驶感知系统。尽管大量研究已经证明 3D 占用预测相对于以对象为中心的感知任务具有更大的优势，但仍然缺乏针对这个快速发展领域的专门综述。在本文中，我们首先介绍基于视觉的 3D 占用预测的背景，并讨论该任务中的挑战。其次，我们从特征增强、部署友好性和标签效率三个方面全面考察了基于视觉的3D占用预测的进展，并深入分析了每一类方法的潜力和挑战。最后，我们总结了当前的研究趋势，并提出了一些鼓舞人心的未来展望。为了给研究人员提供有价值的参考，https://github.com/zya3d/Awesome-3D-Occupancy-Prediction 组织了定期更新的相关论文、数据集和代码集合。

用于自动驾驶轨迹预测的特征扩散和时空交互网络

分类： 机器人技术

作者： Haicheng Liao, Xuelin Li, Yongkang Li, Hanlin Kong, Chengyue Wang, Bonan Wang, Yanchen Guan, KaHou Tam, Zhenning Li, Chengzhong Xu

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.02145v1

摘要： 轨迹预测是自动驾驶 (AD) 的基石，在使车辆在动态环境中安全高效地导航方面发挥着关键作用。为了解决这一任务，本文提出了一种新颖的轨迹预测模型，可在面对异构和不确定的交通场景时提高准确性。该模型的核心是特征扩散模块，这是一个创新模块，旨在模拟具有固有不确定性的交通场景。该模块通过注入详细的语义信息来丰富预测过程，从而提高轨迹预测的准确性。作为补充，我们的时空 (ST) 交互模块可以捕获交通场景对空间和时间维度上的车辆动态的细微影响，并具有显着的有效性。经过详尽的评估，我们的模型在轨迹预测方面树立了新标准，在下一代仿真（NGSIM）、高速公路无人机（HighD）和澳门互联自动驾驶（MoCAD）上取得了最先进（SOTA）的结果跨短期和长期时间跨度的数据集。这一性能凸显了该模型在复杂交通场景（包括高速公路、城市街道和十字路口）导航方面无与伦比的适应性和功效。

自动驾驶汽车的避障：具有调度信任域的 LPVMPC

分类： 系统与控制, 系统与控制

作者： Maryam Nezami, Dimitrios S. Karachalios, Georg Schildbach, Hossam S. Abbas

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.02030v1

摘要： 参考跟踪和避障是自动驾驶最具挑战性的方面之一。本文提出了在考虑静态障碍物的情况下解决自动驾驶任务中的参考跟踪问题的控制设计。我们提出了一种模型预测控制（MPC）策略，该策略在使用所谓的调度参数将非线性模型等效地嵌入到线性参数变化（LPV）公式后，可以避免非线性非凸优化方法的计算负担。这允许底层凸优化方案作为二次规划 (QP) 的最优且快速的解决方案，但代价是由于 MPC 范围内未来调度轨迹的不确定性而损失一些性能。此外，为了确保由于应用调度参数预测而导致的建模误差不会变得显着，我们通过对状态和输入施加进一步的软约束，提出了调度信任域的概念。在MPC中使用新约束的结果是，我们构建了一个区域，在该区域中，两个连续时刻的调度参数更新对于计算系统矩阵是可信的，因此，保留了MPC优化问题的可行性。我们在不同场景中测试该方法，并将结果与标准 LPVMPC 以及非线性 MPC (NMPC) 方案进行比较。

使用固定翼飞行器在陡峭的高山环境中进行自主主动测绘

分类： 机器人技术

作者： Jaeyoung Lim, Florian Achermann, Nicholas Lawrance, Roland Siegwart

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.02011v1

摘要： 监测大规模环境是管理远程高山环境的一项关键任务，特别是对于雪崩等危险事件。雪崩风险预报的一项关键信息是释放雪崩的图像。由于这些情况发生在偏远且有潜在危险的地点，因此很难获取这些数据。固定翼飞行器由于航程长、行驶速度快，是收集航空图像以绘制雪崩活动地图的有前途的平台。然而，由于复杂的地形、法规和不确定的环境，在山区驾驶此类车辆仍然是一个挑战。在这项工作中，我们提出了一种能够使用固定翼航空系统安全导航和绘制雪崩地图的系统，并讨论了执行此类任务时出现的挑战。我们在现场实验中表明，我们可以在陡峭的地形环境中有效导航，同时最大限度地提高地图质量。我们希望我们的工作能够使固定翼车辆在高山环境中实现更加自主的操作，从而最大限度地提高所收集数据的质量。

人工智能驱动的自主武器面临地缘政治不稳定的风险并威胁人工智能研究

分类： 计算机与社会, 人工智能, 机器学习, 机器人技术

作者： Riley Simmons-Edler, Ryan Badman, Shayne Longpre, Kanaka Rajan

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.01859v1

摘要： 最近，机器学习 (ML) 在自主武器系统 (AWS) 开发中的应用给地缘政治稳定和人工智能研究中的思想自由交流带来了严重风险。与超级人工智能（AGI）带来的风险相比，这个话题最近受到的关注相对较少，但需要对技术发展过程的假设较少，因此是一个近期的问题。机器学习已经能够在许多战场角色中用 AWS 替代人类士兵，从而降低发动进攻性战争的前期人力成本，从而降低政治成本。就同等对手而言，这增加了发生“低强度”冲突的可能性，从而有升级为更广泛战争的风险。在非同等对手的情况下，它减少了国内对侵略战争的反击。无论使用军事人工智能的其他道德问题如何，例如平民伤亡的风险，这种效应都会发生，并且不需要任何超人的人工智能能力。此外，AWS 的军事价值引发了人们对人工智能驱动的军备竞赛以及对人工智能研究错误地施加国家安全限制的担忧。我们本文的目标是提高公众和机器学习研究人员对军事技术完全或接近完全自主所带来的近期风险的认识，并提供监管建议来减轻这些风险。我们特别呼吁人工智能政策专家和国防人工智能社区在开发和部署 AWS 时保持透明和谨慎，以避免对我们在此强调的全球稳定和人工智能研究产生负面影响。

在 Azure 上构建自治数据服务

分类： 分布式、并行和集群计算

作者： Yiwen Zhu, Yuanyuan Tian, Joyce Cahoon, Subru Krishnan, Ankita Agarwal, Rana Alotaibi, Jesús Camacho-Rodríguez, Bibin Chundatt, Andrew Chung, Niharika Dutta, Andrew Fogarty, Anja Gruenheid, Brandon Haynes, Matteo Interlandi, Minu Iyer, Nick Jurgens, Sumeet Khushalani, Brian Kroth, Manoj Kumar, Jyoti Leeka, Sergiy Matusevych, Minni Mittal, Andreas Mueller, Kartheek Muthyala, Harsha Nagulapalli, Yoonjae Park, Hiren Patel, Anna Pavlenko, Olga Poppe, Santhosh Ravindran, Karla Saur, Rathijit Sen, Steve Suh, Arijit Tarafdar, Kunal Waghray, Demin Wang, Carlo Curino, Raghu Ramakrishnan

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.01813v1

摘要： 现代云已将数据服务变成了易于访问的商品。只需点击几下，用户现在就可以访问数据处理系统的目录来执行各种任务。然而，云既带来了复杂性，也带来了机遇。虽然云用户可以通过使用各种数据服务快速启动应用程序，但配置和优化这些服务以从中获得最大价值可能很困难。对于云提供商来说，管理不断增加的数据服务的各个方面，同时满足客户 SLA 并最大限度地降低运营成本变得越来越具有挑战性。云技术可以收集大量的工作负载跟踪和系统遥测。随着数据科学（DS）和机器学习（ML）的进步，利用数据驱动的、基于机器学习的方法来自动化数据服务的各个方面，从而创建自主数据服务是可行且可取的。本文介绍了我们对在 Azure 上创建自主数据服务的观点和见解。它还涵盖了我们计划进行的未来努力以及仍需要关注的未解决问题。

学习轮腿机器人的鲁棒自主导航和运动

分类： 机器人技术, 机器学习, 系统与控制, 系统与控制

作者： Joonho Lee, Marko Bjelonic, Alexander Reske, Lorenz Wellhausen, Takahiro Miki, Marco Hutter

发布时间： 2024-05-03

链接： http://arxiv.org/abs/2405.01792v1

摘要： 自主轮腿机器人有潜力改变物流系统，提高运营效率和城市环境适应性。然而，在城市环境中导航对机器人提出了独特的挑战，需要创新的运动和导航解决方案。这些挑战包括跨不同地形的自适应运动的需要以及在复杂的动态障碍物周围有效导航的能力。这项工作介绍了一个完全集成的系统，包括自适应运动控制、移动感知本地导航规划和城市内的大规模路径规划。使用无模型强化学习（RL）技术和特权学习，我们开发了一种多功能运动控制器。通过步行和驾驶模式之间的平滑过渡，该控制器可在各种崎岖地形上实现高效、稳健的运动。它通过分层强化学习框架与学习导航控制器紧密集成，从而能够高速有效地导航穿过具有挑战性的地形和各种障碍物。我们的控制器集成到大型城市导航系统中，并通过在瑞士苏黎世和西班牙塞维利亚进行的自主公里级导航任务进行验证。这些任务展示了系统的稳健性和适应性，强调了集成控制系统在复杂环境中实现无缝导航的重要性。我们的研究结果支持轮腿机器人和分层强化学习用于自主导航的可行性，对最后一英里交付及其他领域具有影响。

输入受限自动驾驶汽车的反馈线性化模型预测控制策略

分类： 系统与控制, 系统与控制, 优化与控制

作者： Cristian Tiriolo, Walter Lucia

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01753v1

摘要： 本文提出了一种新颖的实时经济解决方案，用于解决受纵向和转向角速度约束的自动驾驶汽车的轨迹跟踪控制问题。为此，我们从车辆运动学的输入输出反馈线性化描述出发，开发了双模式模型预测控制（MPC）解决方案。首先，我们推导作用于线性化模型的状态相关输入约束，并表征它们的最坏情况时不变内近似。然后，衍生出一种实时可负担的双模式 MPC，并通过设计确保约束满足、递归可行性以及在特设鲁棒控制不变区域中跟踪误差的一致最终有界性。该方法的有效性和性能通过 Quanser Qcar 上的实验室实验得到了验证。获得的结果表明，所提出的解决方案在计算上是负担得起的，并且具有优于两种替代控制方案的跟踪能力。

ALCM：自主大语言模型增强因果发现框架

分类： 机器学习, 人工智能, 计算和语言, 方法

作者： Elahe Khatibi, Mahyar Abbasian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01744v1

摘要： 为了在高维数据集中进行有效的因果推理，必须启动因果发现过程，其中基于观察数据生成因果图。然而，获得完整且准确的因果图是一个巨大的挑战，被认为是一个 NP 难问题。最近，大型语言模型（LLM）的出现开创了一个新时代，表明它们在促进医学、金融和科学等不同领域的因果推理方面的新兴能力和广泛适用性。大语言模型广泛的知识库具有通过提供可解释性、推理、概括性和揭示新颖的因果结构来提升因果推理领域的潜力。在本文中，我们介绍了一个名为自主LLM增强因果发现框架（ALCM）的新框架，以协同数据驱动的因果发现算法和LLM，自动生成更具弹性、更准确和可解释的因果图。 ALCM 由三个组成部分组成：因果结构学习、因果包装器和 LLM 驱动的因果细化器。这些组件在动态环境中自主协作，解决因果发现问题并提供合理的因果图。我们通过在七个知名数据集上实施两个演示来评估 ALCM 框架。实验结果表明，ALCM 优于现有的 LLM 方法和传统的数据驱动因果推理机制。这项研究不仅展示了 ALCM 的有效性，还强调了利用大语言模型因果推理能力的新研究方向。

自动驾驶中分布外检测的语言增强潜在表示

分类： 计算机视觉和模式识别, 机器学习, 机器人技术

作者： Zhenjiang Mao, Dong-You Jhong, Ao Wang, Ivan Ruchkin

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01691v1

摘要： 分布外 (OOD) 检测对于自动驾驶至关重要，可以确定基于学习的组件何时遇到意外输入。传统检测器通常使用固定设置的编码器模型，因此缺乏有效的人机交互能力。随着大型基础模型的兴起，多模态输入提供了将人类语言作为潜在表示的可能性，从而实现了语言定义的 OOD 检测。在本文中，我们使用多模态模型CLIP编码的图像和文本表示的余弦相似度作为新的表示，以提高用于视觉异常检测的潜在编码的透明度和可控性。我们将我们的方法与现有的预训练编码器进行比较，后者只能产生从用户的角度来看毫无意义的潜在表示。我们对真实驾驶数据的实验表明，基于语言的潜在表示比视觉编码器的传统表示表现更好，并且与标准表示结合时有助于提高检测性能。

ShadowNav：黑暗中月球导航的自主全球定位

分类： 机器人技术, 计算机视觉和模式识别

作者： Deegan Atha, R. Michael Swan, Abhishek Cauligi, Anne Bettens, Edwin Goh, Dima Kogan, Larry Matthies, Masahiro Ono

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01673v1

摘要： 自主确定惯性系中漫游车姿态的能力是下一代其他行星体表面漫游车任务所必需的关键能力。目前，大多数正在进行的漫游车任务都利用地面在环干预来手动纠正姿态估计中的漂移，而这种人工监督限制了漫游车自主运行和进行科学测量的距离。在本文中，我们提出了 ShadowNav，一种在月球上进行全球定位的自主方法，重点是在黑暗和夜间驾驶。我们的方法使用月球陨石坑的前缘作为地标，并使用粒子过滤方法将检测到的陨石坑与板外地图上的已知陨石坑关联起来。我们讨论了开发 ShadowNav 框架的关键设计决策，该框架与配备立体相机和外部照明源的月球车概念一起使用。最后，我们展示了我们提出的方法在月球模拟环境和亚利桑那州煤渣湖现场测试期间收集的数据的有效性。

OmniDrive：具有 3D 感知、推理和规划功能的自动驾驶整体 LLM-Agent 框架

分类： 计算机视觉和模式识别

作者： Shihao Wang, Zhiding Yu, Xiaohui Jiang, Shiyi Lan, Min Shi, Nadine Chang, Jan Kautz, Ying Li, Jose M. Alvarez

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01533v1

摘要： 多模态大语言模型 (MLLM) 的进步导致人们对基于 LLM 的自动驾驶代理越来越感兴趣，以利用其强大的推理能力。然而，利用 MLLM 强大的推理能力来改进规划行为具有挑战性，因为规划需要超越 2D 推理的完整 3D 态势感知。为了应对这一挑战，我们的工作提出了一个整体框架，以实现代理模型和 3D 驾驶任务之间的紧密结合。我们的框架从一种新颖的 3D MLLM 架构开始，该架构使用稀疏查询将视觉表示提升并压缩为 3D，然后再将其输入 LLM。这种基于查询的表示允许我们联合编码动态对象和静态地图元素（例如交通车道），为 3D 感知-动作对齐提供简洁的世界模型。我们进一步提出了 OmniDrive-nuScenes，一个新的视觉问答数据集，通过全面的视觉问答（VQA）任务挑战模型的真实 3D 态势感知，包括场景描述、交通管制、3D 接地、反事实推理、决策和规划。广泛的研究表明了所提出的架构的有效性以及 VQA 任务对于复杂 3D 场景中的推理和规划的重要性。

使用 CARLA 模拟器评估和优化自动驾驶车辆自适应巡航控制：干湿天气条件下的性能研究

分类： 机器人技术, 系统与控制, 系统与控制

作者： Roza Al-Hindaw, Taqwa I. Alhadidi, Mohammad Adas

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01504v1

摘要： 自适应巡航控制 ACC 可以改变本车的速度，自动与后车保持安全距离。这项研究的主要目的是利用尖端计算方法在各种条件下实时定位和跟踪车辆，以实现安全的 ACC。该论文研究了 ACC 的扩展，在自动驾驶汽车中使用深度摄像头和雷达传感器，通过中午使用 Car Learning to Act CARLA 模拟平台改变天气条件来做出实时响应。自我车辆控制器加速或减速的决定取决于前方领先车辆的速度以及与该车辆的安全距离。仿真结果表明，使用深度摄像头和雷达传感器的自动驾驶车辆的比例积分微分 PID 控制在下雨时降低了前车和自我车辆的速度。此外，两辆车在雨天条件下的行驶时间都比在干燥条件下更长。此外，PID 控制可防止前车发生追尾碰撞

用于自动驾驶车辆超现实仿真和数字孪生的高级框架

分类： 机器人技术, G.3

作者： Yuankai He, Hanlin Chen, Weisong Shi

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01328v1

摘要： 仿真是开发自动驾驶汽车的基本工具，可以进行严格的测试，而不会遇到与现实世界试验相关的后勤和安全挑战。随着自动驾驶汽车技术的发展和公共安全需求的增加，先进、真实的模拟框架至关重要。当前的测试范例采用通用和专用模拟器的组合，例如 CARLA 和 IVRESS，以获得高保真结果。然而，由于不同的平台、硬件和软件要求，这些工具常常难以兼容，严重影响了它们的综合有效性。本文介绍了 BlueICE，这是一种用于超现实仿真和数字孪生的先进框架，旨在应对这些挑战。 BlueICE 的创新架构可以解耦计算平台、硬件和软件依赖性，同时为研究人员提供可定制的测试环境，以满足不同的保真度需求。主要功能包括容器化以确保不同系统之间的兼容性、用于无缝集成各种仿真工具的统一通信桥以及跨模拟器的输入和输出的同步编排。该框架促进了用于自动驾驶车辆测试的复杂数字孪生的开发，并在模拟准确性和灵活性方面树立了新标准。本文进一步探讨了 BlueICE 在两个不同案例研究中的应用：ICAT 室内测试台和特拉华大学的 STAR 校园室外测试台。这些案例研究证明了 BlueICE 能够为自动驾驶汽车测试创建复杂的数字双胞胎，并强调其作为未来自动驾驶技术标准化测试平台的潜力。

MFTraj：自动驾驶的无地图、行为驱动的轨迹预测

分类： 机器人技术, 人工智能

作者： Haicheng Liao, Zhenning Li, Chengyue Wang, Huanming Shen, Bonan Wang, Dongping Liao, Guofa Li, Chengzhong Xu

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01266v1

摘要： 本文介绍了一种专为自动驾驶量身定制的轨迹预测模型，专注于捕获动态交通场景中的复杂交互，而不依赖于高清地图。该模型称为 MFTraj，利用历史轨迹数据与新颖的基于动态几何图的行为感知模块相结合。其核心是自适应结构感知交互式图卷积网络捕获道路使用者的位置和行为特征，保留时空的复杂性。通过线性注意力机制的增强，该模型实现了计算效率并减少了参数开销。对 Argoverse、NGSIM、HighD 和 MoCAD 数据集的评估强调了 MFTraj 的稳健性和适应性，即使在数据有挑战的情况下，也优于众多基准，而无需高清地图或矢量化地图等额外信息。重要的是，即使在大量丢失数据的情况下，它也能保持具有竞争力的性能，与大多数现有的最先进模型相当。结果和方法表明自动驾驶轨迹预测取得了重大进步，为更安全、更高效的自动系统铺平了道路。

利用程序生成学习空间中的自主孔洞组装

分类： 机器人技术, 人工智能, 机器学习

作者： Andrej Orsula, Matthieu Geist, Miguel Olivares-Mendez, Carol Martinez

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01134v1

摘要： 自主组装结构的能力对于未来空间基础设施的发展至关重要。然而，不可预测的太空条件给机器人系统带来了重大挑战，需要开发先进的学习技术来实现自主组装。在这项研究中，我们提出了一种在空间机器人技术背景下学习自主孔洞组装的新方法。我们的重点是通过深度强化学习增强自主系统的泛化性和适应性。通过集成程序生成和域随机化，我们在高度并行的模拟环境中跨各种不同的场景训练代理，目的是获得稳健的策略。使用三种不同的强化学习算法来评估所提出的方法，以研究各种范式之间的权衡。我们展示了我们的代理对新场景和组装序列的适应性，同时强调了利用先进的模拟技术进行太空机器人学习的潜力。我们的研究结果为智能机器人系统的未来发展奠定了基础，该系统能够支持雄心勃勃的太空任务和地球以外的基础设施开发。

一种无需解决自动驾驶车辆捷联惯导系统 Wahba 问题的新自对准方法

分类： 机器人技术, 系统与控制, 系统与控制

作者： Hongliang Zhang, Yilan Zhou, Lei Wang, Tengchao Huang

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01115v1

摘要： 初始对准是捷联惯性导航系统（SINS）的关键技术之一，为车辆姿态和导航提供初始状态信息。对于某些情况，例如姿态航向参考系统，位置不一定需要甚至可用，那么不依赖任何外部辅助的自对准就变得非常有必要。本研究提出了一种新的摇摆条件下的自对准方法，该方法可以利用所有观测向量同时确定纬度和姿态，而无需解决Wahba问题，与现有方法有所不同。通过构造每个观测向量和参考向量本身的二进张量，将所有与观测向量和参考向量相关的方程累加为一个方程，其中根据方程两边相似矩阵的相同特征值提取并求解纬度变量，同时通过特征值分解得到姿态。仿真和实验测试验证了所提方法的有效性，对准结果的收敛速度和稳定性优于TRIAD方法，带纬度和不带纬度的对准精度与OBA方法相当。它对于指导自动驾驶汽车应用中的初始对准设计非常有用。

自动驾驶联邦学习的中毒攻击

分类： 机器学习, 人工智能, 密码学和安全, 计算机视觉和模式识别

作者： Sonakshi Garg, Hugo Jönsson, Gustav Kalander, Axel Nilsson, Bhhaanu Pirange, Viktor Valadi, Johan Östman

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01073v1

摘要： 联邦学习 (FL) 是一种去中心化学习范例，使各方能够协作训练模型，同时保持数据机密。在自动驾驶中，它带来了降低数据存储成本、降低带宽要求和加速学习的潜力。然而，FL 很容易受到中毒攻击。在本文中，我们介绍了两种针对自动驾驶回归任务的新型 FL 中毒攻击：FLStealth 和偏离轨道攻击 (OTA)。 FLStealth 是一种无针对性的攻击，旨在提供模型更新，从而降低全局模型性能，同时看似良性。另一方面，OTA 是一种有针对性的攻击，其目的是在遇到特定触发器时改变全局模型的行为。我们通过进行与车辆轨迹预测任务相关的综合实验来证明我们的攻击的有效性。特别是，我们表明，在五种不同的非针对性攻击中，FLStealth 在绕过服务器所考虑的防御方面最为成功。对于 OTA，我们证明了常见防御策略无法减轻攻击，强调了针对 FL 内自动驾驶针对性攻击的新防御机制的迫切需要。

自主网络物理系统基于仿真的测试路线图：挑战和未来方向

分类： 软件工程

作者： Christian Birchler, Sajad Khatiri, Pooja Rani, Timo Kehrer, Sebastiano Panichella

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01064v1

摘要： 随着无人机和自动驾驶汽车等自主网络物理系统 (ACPS) 时代的到来，对强大测试方法的需求是实现此类系统在现实场景中采用的关键。然而，传统的软件测试范式在确保这些系统的安全性和可靠性方面面临着前所未有的挑战。为此，本文开创了基于模拟的 ACPS 测试战略路线图，特别关注自主系统。我们的论文讨论了 ACPS 的相关挑战和障碍，重点关注测试自动化和质量保证，因此提倡定制解决方案来满足自主系统的独特需求。在提供模拟环境中测试用例的具体定义的同时，我们还强调需要创建新的基准资产以及开发专门为软件工程社区中的自治系统定制的自动化工具。本文不仅强调了软件工程社区应该关注的相关紧迫问题（在实践、预期自动化和范例方面），而且还概述了解决这些问题的方法。通过概述 ACPS 基于仿真的测试/开发的各个领域和挑战，我们为未来的研究工作提供了方向。

持续学习自主无人机竞赛中动态照明下的鲁棒门检测

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Zhongzheng Qiao, Xuan Huy Pham, Savitha Ramasamy, Xudong Jiang, Erdal Kayacan, Andriy Sarabakha

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01054v1

摘要： 在自主和移动机器人技术中，一个主要挑战是弹性实时环境感知，特别是在具有未知和动态元素的情况下，如自主无人机竞赛的背景下。这项研究介绍了一种在光照变化下检测无人机赛车门的感知技术，这在高速无人机飞行中很常见。所提出的技术依赖于具有持续学习能力的轻量级神经网络主干。设想的方法合并了门的位置坐标、距离和方向的预测，将它们封装成一个内聚的姿势元组。大量的测试强调了这种方法在面对多样化和具有挑战性的场景（特别是涉及可变照明条件的场景）时的有效性。所提出的方法在面对光照变化时表现出显着的鲁棒性，从而证实了其有效性。

具有多智能体态势感知的自动驾驶车辆罕见碰撞风险估计

分类： 系统与控制, 系统与控制

作者： Mahdieh Zaker, Henk A. P. Blom, Sadegh Soudjani, Abolfazl Lavaei

发布时间： 2024-05-02

链接： http://arxiv.org/abs/2405.01011v1

摘要： 本文提供了一个正式的框架，用于估计具有多智能体态势感知功能的自动驾驶车辆（AV）的罕见碰撞风险，在复杂的动态环境中受到不同噪声源的影响。在我们提出的设置中，通过将从其他车辆收集的一系列不同信息聚合成一个向量来考虑其中一辆自我车辆的态势感知。我们将配备态势感知功能的自动驾驶汽车建模为一般随机混合系统（GSHS），并评估变道场景中发生碰撞的概率，其中两辆自动驾驶车辆同时打算将车道切换到共享车道，同时利用时间- 根据需要进行决策的碰撞测量。由于基于模拟的方法对罕见碰撞风险估计需要大量数据，因此我们利用多级重要性分裂技术，称为基于交互粒子系统的固定分配分裂估计（IPS-FAS）。这种方法使我们能够通过使用一组相互作用的粒子来估计罕见事件的概率。具体来说，每个粒子都体现了一个系统轨迹，并通过重采样和分支与其他粒子进行交互，将计算资源集中在遇到罕见事件的概率最高的轨迹上。我们提出的方法的有效性通过对变道场景的广泛模拟得到了证明。

郊区自主地面车辆基于雷达的定位

分类： 机器人技术

作者： Andrew J. Kramer, Christoffer Heckman

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00600v1

摘要： 对于部署在郊区和其他以人为中心的环境中的自动地面车辆（AGV）来说，本地化问题仍然是一个根本挑战。使用 GPS、激光雷达和摄像头进行定位已有成熟的方法。但即使在理想条件下，这些也有局限性。 GPS 并不总是可用，而且本身通常不够准确；视觉方法难以应对天气和其他因素导致的外观变化；而激光雷达方法由于场景几何形状不明确，很容易出现有缺陷的解决方案。另一方面，雷达不太容易受到这些问题的影响，部分原因是其射程较长。此外，雷达还能够应对干扰视觉和激光雷达的挑战性条件，包括雾、烟、雨和黑暗。我们提出了一种基于雷达的定位系统，其中包括一种用于平滑、高频相对位姿估计的高精度雷达里程计的新方法，以及一种基于雷达的位置识别和重新定位的新方法。我们提出的实验证明了我们的方法的准确性和可靠性，这些结果与\新{其他方法发布的雷达定位结果相当，并且我们发现优于我们应用于激光雷达测量的类似方法}。此外，我们展示了我们的方法足够轻量级，可以在常见的低功耗嵌入式硬件上运行，并为其他自治功能提供充足的空间。

GAD-无高清地图自动驾驶生成学习

分类： 机器人技术, 计算机视觉和模式识别

作者： Weijian Sun, Yanbo Jia, Qi Zeng, Zihao Liu, Jiang Liao, Yue Li, Xianfeng Li, Bolin Zhao

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00515v1

摘要： 近年来，基于深度学习的技术已广泛应用于量产的自动驾驶软件堆栈，主要集中在感知模块，一些工作将该方法扩展到预测模块。然而，下游规划和控制模块仍然采用大量手工规则进行设计，主要以二次规划或模型预测控制等基于优化的方法为主。这导致自动驾驶系统出现性能瓶颈，因为极端情况根本无法通过枚举手工制定的规则来解决。我们提出了一种基于深度学习的方法，将预测、决策和规划模块结合在一起，并试图克服基于规则的方法在自动驾驶的实际应用中的缺陷，特别是在城市场景中。我们提出的 DNN 模型仅使用 10 小时的人类驾驶员数据进行训练，并且支持迄今为止市场上所有量产的 ADAS 功能。该方法已部署到吉悦测试车上，无需对其工厂就绪的传感器组和计算平台进行修改。本文论证了可行性、可用性和商业潜力。

通过自主超声扫描的具体智能增强手术机器人

分类： 机器人技术, 人工智能, 计算和语言, 人机交互

作者： Huan Xu, Jinlin Wu, Guanglin Cao, Zhen Lei, Zhen Chen, Hongbin Liu

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00461v1

摘要： 超声机器人越来越多地应用于医疗诊断和早期疾病筛查。然而，当前的超声机器人缺乏理解人类意图和指令的智能，阻碍了自主超声扫描。为了解决这个问题，我们提出了一种新颖的超声体现智能系统，为超声机器人配备大语言模型（LLM）和领域知识，从而提高超声机器人的效率。具体来说，我们首先设计了一个超声操作知识数据库，将超声扫描方面的专业知识添加到大语言模型中，使大语言模型能够执行精确的运动规划。此外，我们设计了一种基于 \textit{think-observe-execute} 提示工程的动态超声扫描策略，允许大语言模型在扫描过程中动态调整运动规划策略。大量实验表明，我们的系统通过口头命令显着提高了超声扫描效率和质量。自主医疗扫描技术的进步有助于无创诊断和简化医疗工作流程。

采用联合学习来训练自主 HVAC 系统

分类： 优化与控制, 机器学习, 系统与控制, 系统与控制

作者： Fredrik Hagström, Vikas Garg, Fabricio Oliveira

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00389v1

摘要： 建筑物消耗的能源占全球能源消耗的 40%。建筑能源消耗的很大一部分来自供暖、通风和空调 (HVAC)，因此实施智能、节能的 HVAC 系统有可能对气候变化的进程产生重大影响。近年来，无模型强化学习算法因其纯粹从经验中学习和适应的能力而越来越多地用于此目的的评估。事实证明，它们在能源成本和消耗以及热舒适度方面优于传统控制器。然而，它们的弱点在于数据效率相对较差，需要长时间的训练才能达到可接受的策略，这使得它们无法直接应用于现实世界的控制器。因此，共同的研究目标是提高学习速度，以及提高泛化能力，以促进迁移学习到看不见的建筑环境。在本文中，我们采用联邦学习方法来训练 HVAC 系统的强化学习控制器。通过汇总在位于不同气候区的多个数据中心训练的本地策略来学习全球控制策略。该政策的目标是同时最大限度地减少能源消耗并最大限度地提高热舒适度。联合优化策略间接增加了经验数据的收集速率和数据的变化。我们通过实验评估证明，与任何单独训练的策略相比，这些效应可以带来更快的学习速度，以及联邦策略中更强的泛化能力。

利用基于物理的安全控制器增强端到端自动驾驶的规划

分类： 机器人技术, 系统与控制, 系统与控制

作者： Hang Zhou, Haichao Liu, Hongliang Lu, Dan Xu, Jun Ma, Yiding Ji

发布时间： 2024-05-01

链接： http://arxiv.org/abs/2405.00316v1

摘要： 近年来，人们对深度神经网络（DNN）在自动驾驶汽车技术上的应用的研究兴趣日益浓厚。这一趋势始于几年前的感知和预测，并逐渐应用于运动规划任务。尽管网络的性能随着时间的推移而提高，但 DNN 规划者继承了深度学习的天然缺陷。基于学习的规划器在训练数据集上实现完美准确性方面存在局限性，并且网络性能可能会受到分布外问题的影响。在本文中，我们提出了FusionAssurance，一种新颖的基于轨迹的端到端驾驶融合框架，它结合了物理信息控制来实现安全保证。通过将势场合并到模型预测控制中，FusionAssurance 能够导航未包含在训练数据集中的场景以及神经网络无法泛化的场景。该方法的有效性通过 CARLA 基准的各种场景下的大量实验得到了证明。