2024-03

用于稳健自主探索的主动感知游戏

分类: 机器人技术

作者: Siming He, Yuezhan Tao, Igor Spasojevic, Vijay Kumar, Pratik Chaudhari

发布时间: 2024-03-31

链接: http://arxiv.org/abs/2404.00769v1

摘要: 我们为自主代理制定主动感知,将探索未知环境作为两人零和游戏:代理的目标是最大化从环境中获得的信息,而环境的目标是最小化代理获得的信息。在每一集中,环境都会揭示一组具有潜在错误信息增益的操作。为了选择最佳动作,机器人需要从错误动作中恢复真实的信息增益。机器人通过最小化其信息增益估计与采取行动后观察到的真实信息增益之间的差异来实现这一点。我们提出了一种在线凸优化算法,可以实现亚线性预期遗憾 $O(T^{3/4})$ 来估计信息增益。我们还对任何(接近)最佳预测和轨迹选择算法执行的主动感知的后悔进行了限制。我们在模拟真实 3D 环境中使用语义神经辐射场 (NeRF) 来评估这种方法,结果表明,使用改进的信息增益估计,机器人可以发现最多 12% 的物体。在M3ED数据集上,该算法将占用图中信息增益预测的误差降低了67%以上。在使用 Jackal 地面机器人上的占用图进行的现实实验中,我们表明这种方法可以计算复杂的轨迹,从而有效地探索所有遮挡区域。

V2X协同实现端到端自动驾驶

分类: 机器人技术, 计算机视觉和模式识别, 多代理系统

作者: Haibao Yu, Wenxian Yang, Jiaru Zhong, Zhenwei Yang, Siqi Fan, Ping Luo, Zaiqing Nie

发布时间: 2024-03-31

链接: http://arxiv.org/abs/2404.00717v1

摘要: 通过 V2X 通信协作利用自动车辆和基础设施传感器数据已成为先进自动驾驶的一种有前景的方法。然而,目前的研究主要集中在改进单个模块,而不是采取端到端的学习来优化最终的规划性能,导致数据潜力没有得到充分利用。在本文中,我们介绍了 UniV2X,这是一种开创性的协作自动驾驶框架,它将跨不同视图的所有关键驾驶模块无缝集成到统一网络中。我们提出了一种稀疏-密集混合数据传输和融合机制,用于有效的车辆-基础设施协作,具有三个优点:1)有效同时增强代理感知、在线地图和占用预测,最终提高规划性能。 2) 在实际和有限的通信条件下传输友好。 3)可靠的数据融合以及该混合数据的可解释性。我们在具有挑战性的 DAIR-V2X(现实世界的协作驾驶数据集)上实现了 UniV2X,并重现了几种基准方法。实验结果证明了 UniV2X 在显着增强规划性能以及所有中间输出性能方面的有效性。代码位于 https://github.com/AIR-THU/UniV2X。

具有基础世界模型的自主机器人的零样本安全预测

分类: 机器学习, 机器人技术

作者: Zhenjiang Mao, Siqi Dai, Yuang Geng, Ivan Ruchkin

发布时间: 2024-03-30

链接: http://arxiv.org/abs/2404.00462v2

摘要: 世界模型创建一个代理世界来训练控制器并通过学习系统的内部动态模型来预测安全违规行为。然而,现有的世界模型仅依赖于对观察结果如何响应行动而变化的统计学习,缺乏对替代动态准确程度的精确量化,这对安全关键系统构成了重大挑战。为了应对这一挑战,我们提出了基础世界模型,将观察结果嵌入到有意义且因果关系的潜在表示中。这使得代理动力学能够利用免训练的大型语言模型直接预测因果未来状态。在两个常见的基准测试中,这种新颖的模型在安全预测任务中优于标准世界模型,并且尽管不使用任何数据,但其性能仍可与监督学习相媲美。我们通过比较估计状态而不是聚合观察范围的误差,使用更专业和与系统相关的指标来评估其性能。

多式联运自主按需出行系统中的可达性公平性

分类: 系统与控制, 系统与控制

作者: Mauro Salazar, Sara Betancur Giraldo, Fabio Paparella, Leonardo Pedroso

发布时间: 2024-03-30

链接: http://arxiv.org/abs/2404.00434v2

摘要: 迄今为止,对移动系统运营的研究主要集中在最小化以成本为中心的指标,例如平均出行时间、行驶距离和运营成本。在捕获经济指标的同时,此类指标并未考虑交通正义方面。在本文中,我们提出了一个优化模型来规划多式联运自主按需出行(I-AMoD)系统的运行,其中自动驾驶车辆与公共交通和主动模式联合提供按需出行,目标是最大限度地减少人们所经历的可及性不公平现象。具体来说,我们首先利用先前开发的网络流模型以最短时间的方式计算 I-AMoD 系统操作。其次,我们正式定义可访问性不公平性,并用它来构建最小可访问性不公平性问题并将其转换为线性程序。我们展示了荷兰埃因霍温市的真实案例研究框架。我们的结果表明,与最短行程时间解决方案相比,以稍微增加行程时间为代价,可以实现平均完全公平的操作。因此,我们观察到,平均而言,各个路径的可访问公平性比从流中获得的平均值更差,这为讨论可访问公平性本身的定义奠定了基础。

自主机器人的持续学习:基于原型的方法

分类: 机器学习, 计算机视觉和模式识别, 机器人技术

作者: Elvin Hajizada, Balachandran Swaminathan, Yulia Sandamirskaya

发布时间: 2024-03-30

链接: http://arxiv.org/abs/2404.00418v1

摘要: 人类和动物一生都会从有限的感知数据中学习,无论有没有监督。未来的自主智能机器人通常也有望做到同样的事情。现有的持续学习(CL)方法通常不能直接适用于机器人设置:它们通常需要缓冲和平衡重放训练数据。已经提出了少量在线连续学习(FS-OCL)设置来解决更现实的场景,其中机器人必须从非重复的稀疏数据流中学习。为了实现真正自主的终身学习,需要解决在没有监督的情况下发现新奇事物和学习新项目的额外挑战。我们通过称为持续学习原型(CLP)的新的基于原型的方法来应对这一挑战。除了能够进行 FS-OCL 学习之外,CLP 还可以检测新物体并在没有监督的情况下学习它们。为了减少遗忘,CLP 采用了一种新颖的元可塑性机制,可以根据原型单独调整学习率。 CLP无需排练,因此不需要内存缓冲区,并且与神经形态硬件兼容,具有超低功耗、实时处理能力和片上学习的特点。事实上,我们已经在神经拟态软件框架 Lava 中开源了 CLP 的简单版本,目标是英特尔的神经拟态芯片 Loihi 2。我们在机器人视觉数据集 OpenLORIS 上评估 CLP。在低实例 FS-OCL 场景中,CLP 显示了最先进的结果。在开放世界中,CLP 以卓越的精度和召回率检测新颖性,并在没有监督的情况下学习检测到的新颖类的特征,实现 99% 基类和 65%/76%(5-shot/10-shot)新颖类的强大基线准确性。

用于自主导航态势感知的高效多分支分割网络

分类: 计算机视觉和模式识别

作者: Guan-Cheng Zhou, Chen Chengb, Yan-zhou Chena

发布时间: 2024-03-30

链接: http://arxiv.org/abs/2404.00366v1

摘要: 实时、高精度的态势感知技术对于无人水面艇(USV)的自主导航至关重要。特别是,稳健且快速的障碍物语义分割方法至关重要。然而,由于港口和海洋环境的差异,区分海洋和天空具有挑战性。在本研究中,我们构建了一个数据集,捕获海港环境中无人水面艇和无人机的视角并分析数据特征。统计分析表明,海天分布与行位置信息之间存在高度相关性。基于这一发现,提出了一种带有行位置编码模块(RPEM)的三分支语义分割网络,以提高海洋和天空之间的预测精度。所提出的 RPEM 强调了行坐标对特征提取的影响。与基线相比,采用 RPEM 的三分支网络显着提高了区分海洋和天空的能力,而没有显着降低计算速度。

自动驾驶汽车路径规划和控制中的深度强化学习:调查

分类: 机器人技术, 系统与控制, 系统与控制

作者: Yiyang Chen, Chao Ji, Yunrui Cai, Tong Yan, Bo Su

发布时间: 2024-03-30

链接: http://arxiv.org/abs/2404.00340v1

摘要: 将数据驱动的应用程序与控制系统相结合在最近的自动驾驶汽车研究中发挥着关键作用。本论文对自动驾驶车辆路径规划和控制领域的深度强化学习(DRL)最新文献进行了结构化回顾。它收集了一系列 DRL 方法和算法及其在该领域的应用,特别关注它们在轨迹规划和动态控制中的作用。在这篇综述中,我们深入研究了 DRL 技术在该领域的应用成果。通过总结这些文献,我们强调了潜在的挑战,旨在提供可能帮助从事相关领域的研究人员的见解。

LeGo-Drive:语言增强的目标导向闭环端到端自动驾驶

分类: 机器人技术

作者: Pranjal Paul, Anant Garg, Tushar Choudhary, Arun Kumar Singh, K. Madhava Krishna

发布时间: 2024-03-29

链接: http://arxiv.org/abs/2403.20116v1

摘要: 现有的视觉语言模型(VLM)根据丰富的场景理解来估计长期轨迹路径点或一组控制动作,作为闭环规划的反应性解决方案。然而,这些估计是粗略的,并且受其“世界理解”的影响,可能会由于感知错误而产生次优决策。在本文中,我们介绍了 LeGo-Drive,它旨在通过基于给定语言命令作为端到端设置中的中间表示来估计目标位置来解决这个问题。估计的目标可能落在不理想的区域,例如在汽车顶部进行类似停车的命令,从而导致规划不充分。因此,我们建议以端到端的方式训练架构,从而共同迭代细化目标和轨迹。我们通过在不同的模拟环境中进行的综合实验来验证我们的方法的有效性。我们报告了标准自动驾驶指标的显着改进,目标是达到 81% 的成功率。我们进一步展示了 LeGo-Drive 在不同驾驶场景和语言输入中的多功能性,强调了其在自动驾驶汽车和智能交通系统中实际部署的潜力。

PLoc:基于物理位置的自动驾驶数据集新评价标准

分类: 计算机视觉和模式识别

作者: Ruining Yang, Yuqi Peng

发布时间: 2024-03-29

链接: http://arxiv.org/abs/2403.19893v1

摘要: 自动驾驶作为人工智能的一个关键研究领域受到了广泛关注。在自动驾驶场景中,物体不同的物理位置对应于不同的危险级别。然而,传统的自动驾驶物体检测评估标准往往忽视了物体物理位置这一关键方面,导致评估结果可能无法准确反映物体对自动驾驶车辆构成的真正威胁。为了提高自动驾驶的安全性,本文引入了一种基于物理位置信息的新型评估标准,称为PLoc。该标准超越了传统标准的局限性,承认自动驾驶场景中行人的物理位置可以提供有价值的安全相关信息。此外,本文提出了一个源自 ApolloScape 的新重新注释的数据集(ApolloScape-R)。 ApolloScape-R 涉及根据行人物理位置的重要性重新标记行人。该数据集用于评估各种目标检测模型在所提出的 PLoc 标准下的性能。实验结果表明,所有物体检测模型识别位于自动驾驶车辆行驶车道上的人的平均准确度低于识别人行道上的人的平均准确度。该数据集可在 https://github.com/lnyrlyed/ApolloScape-R.git 上公开获取

用于自动驾驶问答的多框架、轻量级和高效的视觉语言模型

分类: 计算机视觉和模式识别, 人工智能

作者: Akshay Gopalkrishnan, Ross Greer, Mohan Trivedi

发布时间: 2024-03-28

链接: http://arxiv.org/abs/2403.19838v1

摘要: 视觉语言模型(VLM)和多模态语言模型(MMLM)在自动驾驶研究中已变得很突出,因为这些模型可以使用交通场景图像和其他数据为端到端自动驾驶安全任务提供可解释的文本推理和响应。数据模式。然而,目前这些系统的方法使用昂贵的大语言模型(LLM)主干和图像编码器,使得此类系统不适合存在严格内存限制且需要快速推理时间的实时自动驾驶系统。为了解决之前的这些问题,我们开发了 EM-VLM4AD,这是一种高效、轻量级、多帧视觉语言模型,可为自动驾驶执行视觉问答。与以前的方法相比,EM-VLM4AD 所需的内存和浮点运算至少减少了 10 倍,同时与 DriveLM 数据集上的现有基准相比,还获得了更高的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数。 EM-VLM4AD还表现出从与提示相关的交通视图中提取相关信息的能力,并可以回答各种自动驾驶子任务的问题。我们在 https://github.com/akshaygopalkr/EM-VLM4AD 发布了用于训练和评估模型的代码。

使用 VQ-VAE 和可微优化学习自动驾驶的采样分配和安全滤波器

分类: 机器人技术

作者: Simon Idoko, Basant Sharma, Arun Kumar Singh

发布时间: 2024-03-28

链接: http://arxiv.org/abs/2403.19461v1

摘要: 从分布中采样轨迹,然后根据指定的成本函数对它们进行排名是自动驾驶中的常见方法。通常,采样分布是手工设计的(例如高斯分布或网格)。最近,人们努力通过条件变分自动编码器(CVAE)等生成模型来学习采样分布。然而,由于 CVAE 的高斯潜在先验,这些方法无法捕获驾驶行为的多模态。因此,在本文中,我们重新设想通过矢量量化变分自动编码器(VQ-VAE)进行分布学习,其离散潜在空间能够很好地捕获多模态采样分布。 VQ-VAE 使用最佳轨迹的演示数据进行训练。我们进一步提出了一种基于可微优化的安全滤波器,以最小程度地纠正 VQVAE 采样轨迹,以确保避免碰撞。我们在自监督学习设置中通过优化层使用反向传播来学习安全滤波器的良好初始化和最佳参数。我们在密集和激进的交通场景中与最先进的基于 CVAE 的基线进行了广泛的比较,结果表明,碰撞率降低了多达 12 倍,同时在行驶速度方面具有竞争力。

subjectDrive:通过主题控制扩展自动驾驶中的生成数据

分类: 计算机视觉和模式识别, 机器人技术

作者: Binyuan Huang, Yuqing Wen, Yucheng Zhao, Yaosi Hu, Yingfei Liu, Fan Jia, Weixin Mao, Tiancai Wang, Chi Zhang, Chang Wen Chen, Zhenzhong Chen, Xiangyu Zhang

发布时间: 2024-03-28

链接: http://arxiv.org/abs/2403.19438v1

摘要: 自动驾驶的进展依赖于大规模带注释的数据集。在这项工作中,我们探索了生成模型为自动驾驶应用程序生成大量自由标记数据的潜力,并提出了SubjectDrive,这是第一个被证明可以规模化生成数据生产的模型,能够持续改进自动驾驶应用程序。我们研究了扩大生成数据数量对下游感知模型性能的影响,发现增强数据多样性在有效扩大生成数据生产方面起着至关重要的作用。因此,我们开发了一种配备主题控制机制的新颖模型,它允许生成模型利用不同的外部数据源来生成各种有用的数据。广泛的评估证实了SubjectDrive在生成可扩展的自动驾驶训练数据方面的功效,标志着该领域朝着彻底变革数据生产方法迈出了重要一步。

GraphAD:端到端自动驾驶的交互场景图

分类: 计算机视觉和模式识别

作者: Yunpeng Zhang, Deheng Qian, Ding Li, Yifeng Pan, Yong Chen, Zhenbao Liang, Zhiyao Zhang, Shurui Zhang, Hongxu Li, Maolei Fu, Yun Ye, Zhujin Liang, Yi Shan, Dalong Du

发布时间: 2024-03-28

链接: http://arxiv.org/abs/2403.19098v2

摘要: 对自我车辆、道路代理和地图元素之间的复杂交互进行建模一直是安全关键型自动驾驶的关键部分。之前的端到端自动驾驶工作依赖于注意力机制来处理异构交互,这种机制无法捕获几何先验,而且计算量也很大。在本文中,我们提出交互场景图(ISG)作为一种统一方法来对自我车辆、道路代理和地图元素之间的交互进行建模。通过 ISG 的表示,驾驶代理可以聚合来自最有影响力的元素的基本信息,包括具有潜在碰撞的道路代理和要遵循的地图元素。由于省略了大量不必要的交互,因此更有效的基于场景图的框架能够专注于不可或缺的连接并带来更好的性能。我们在 nuScenes 数据集上评估了所提出的端到端自动驾驶方法。与强大的基线相比,我们的方法在全栈驾驶任务中显着优于,包括感知、预测和规划。代码将在 https://github.com/zhangyp15/GraphAD 发布。

探索自动驾驶汽车的整体 HMI 设计:参与式研讨会对桥接车内和外部通信的见解

分类: 人机交互

作者: Haoyu Dong, Tram Thi Minh Tran, Rutger Verstegen, Silvia Cazacu, Ruolin Gao, Marius Hoggenmüller, Debargha Dey, Mervyn Franssen, Markus Sasalovici, Pavlo Bazilinskyy, Marieke Martens

发布时间: 2024-03-28

链接: http://arxiv.org/abs/2403.19153v1

摘要: 自动车辆 (AV) 的人机界面 (HMI) 通常分为两类:用于车辆内交互的内部 HMI,以及用于与其他道路使用者通信的外部 HMI。在这项工作中,我们研究了弥合这两个看似不同领域的前景。通过与汽车用户界面研究人员和从业人员举办的参与式研讨会,我们让研讨会参与者协作开发涉及自动驾驶汽车、车内用户和外部道路用户的交互场景,从而促进了对整体 HMI 设计的批判性探索。此次讨论深入探讨了作为 HMI 设计策略的界面元素升级、不同用户之间的直接交互以及对整体 HMI 设计的扩展理解。这项工作反映了理解这种整体设计方法的实际方面的合作努力,提供了新的视角并鼓励对汽车用户界面这一尚未充分探索的方面进行进一步研究。

使用 SDO/HMI 数据和注意力辅助卷积神经网络对太阳活动区域的 SOHO/MDI 磁力图进行超分辨率

分类: 太阳和恒星天体物理学, 机器学习

作者: Chunhui Xu, Jason T. L. Wang, Haimin Wang, Haodi Jiang, Qin Li, Yasser Abduallah, Yan Xu

发布时间: 2024-03-27

链接: http://arxiv.org/abs/2403.18302v1

摘要: 图像超分辨率一直是图像处理和识别领域的一个重要课题。在这里,我们提出了一种用于太阳图像超分辨率的注意力辅助卷积神经网络(CNN)。我们的方法名为 SolarCNN,旨在提高太阳和日光层观测站 (SOHO) 上的迈克尔逊多普勒成像仪 (MDI) 收集的太阳活动区域 (AR) 视距 (LOS) 磁图的质量。用于训练 SolarCNN 的地面实况标签是由太阳动力学观测站 (SDO) 上的日震和磁成像仪 (HMI) 收集的 LOS 磁图。太阳 AR 由强磁场组成,磁场中的磁能会突然释放,从而产生极端的太空天气事件,例如太阳耀斑、日冕物质抛射和太阳高能粒子。 SOHO/MDI 涵盖第 23 太阳周期,该周期比第 24 周期更强,喷发事件更多。增强的 SOHO/MDI 磁图可以更好地了解和预报太空天气的剧烈事件。实验结果表明,SolarCNN 在结构相似性指数测量 (SSIM)、皮尔逊相关系数 (PCC) 和峰值信噪比 (PSNR) 方面提高了 SOHO/MDI 磁图的质量。

用于增强自主水面舰艇导航的非线性模型预测控制

分类: 系统与控制, 系统与控制

作者: Daniel Menges, Trym Tengesdal, Adil Rasheed

发布时间: 2024-03-27

链接: http://arxiv.org/abs/2403.19028v1

摘要: 本文提出了一种基于非线性模型预测控制(NMPC)的考虑环境力的自主水面舰艇的避碰、路径跟踪和反接地方法。人工势场 (APF) 为避免碰撞和防接地方面的最优控制问题的成本函数奠定了基础。根据 APF 合力造成的碰撞风险,控制器通过额外遵循所需路径来优化适应的航向和行驶速度。为此,NMPC 使用非线性船舶动力学。为了扩展对受风、波浪和海流影响的环境扰动的态势感知,将非线性扰动观测器耦合到整个 NMPC 方案,从而可以纠正由于外力而导致的不正确的船舶运动。此外,还考虑了《国际海上避碰规则公约》(COLREG) 中最基本的规则。模拟结果表明,所提出的框架可以在各种具有挑战性的场景(包括环境干扰)下控制自主水面舰艇,以避免碰撞并遵循所需的路径。

确保安全自主:引领自动驾驶汽车的未来

分类: 机器人技术

作者: Patrick Wolf

发布时间: 2024-03-27

链接: http://arxiv.org/abs/2403.19006v1

摘要: 自动驾驶车辆为实现公路和越野领域的用例提供了巨大的潜力。因此,自主系统的环境感知和控制存在出色的解决方案。然而,安全性证明仍然是一个公开的挑战,阻止此类机械被引入市场并在现实世界中部署。由于保守的安全假设无法处理整体复杂性,自动驾驶车辆的传统安全保证方法通常会导致性能不佳。此外,更复杂的安全系统依赖于车辆的感知系统。然而,由于干扰或缺乏数据解释的上下文结合而产生的不确定性,感知通常是不可靠的。因此,本文阐述了具有集成动态风险管理的模块化、自适应自治框架克服上述缺点的潜力。

Lord:基于大型模型的自动驾驶反向奖励设计

分类: 机器人技术, 人工智能, 机器学习

作者: Xin Ye, Feng Tao, Abhirup Mallik, Burhaneddin Yaman, Liu Ren

发布时间: 2024-03-27

链接: http://arxiv.org/abs/2403.18965v1

摘要: 基于强化学习 (RL) 的自动驾驶已成为数据驱动模仿学习方法的一种有前景的替代方案。然而,由于在不同场景中定义和量化良好驾驶行为的复杂性,为强化学习设计有效的奖励函数带来了挑战。最近,大型预训练模型作为针对所需语言目标指定任务的零样本奖励模型而受到广泛关注。然而,自动驾驶所需的语言目标(例如“安全驾驶”)是模糊的,并且预训练模型无法理解。另一方面,像“冲突”这样的不受欢迎的语言目标则更加具体和容易处理。在这项工作中,我们介绍了LORD,这是一种新颖的大型模型,通过不需要的语言目标进行相反的奖励设计,从而能够有效地使用大型预训练模型作为零样本奖励模型。通过大量的实验,我们提出的框架展示了其在利用大型预训练模型的力量来实现安全和增强的自动驾驶方面的效率。此外,所提出的方法显示出改进的泛化能力,因为它在不同且具有挑战性的驾驶场景中优于对应方法。

3P-LLM:使用大语言模型进行自主机器人导航的概率路径规划

分类: 机器人技术

作者: Ehsan Latif

发布时间: 2024-03-27

链接: http://arxiv.org/abs/2403.18778v1

摘要: 许多世俗语义知识可以用大型语言模型(LLM)进行编码。这些信息对于想要执行用自然语言表达的高级、临时扩展命令的机器人来说非常有用。然而,语言模型缺乏现实世界的经验是一个关键限制,这使得在特定实施例中使用它们进行决策具有挑战性。这项研究评估了使用 LLM(OpenAI 的 GPT-3.5-turbo 聊天机器人)进行机器人路径规划的可行性。管理复杂环境和制定可靠计划来改变环境条件的传统方法的缺点是这项研究背后的驱动力。由于 LLM 复杂的自然语言处理能力、能够实时提供有效的自适应路径规划算法、高精度和少样本学习能力,GPT-3.5-turbo 非常适合机器人领域的路径规划。在众多模拟场景中,该研究将 GPT-3.5-turbo 的性能与快速探索随机树 (RRT) 和 A* 等最先进的路径规划器的性能进行了比较。我们观察到 GPT-3.5-turbo 能够向机器人提供实时路径规划反馈,并且性能优于同类产品。本文为基于大语言模型的机器人系统路径规划奠定了基础。

基于采样的运动规划和在线赛车线生成,用于三维赛道上的自动驾驶

分类: 机器人技术

作者: Levent Ögretmen, Matthias Rowold, Boris Lohmann

发布时间: 2024-03-27

链接: http://arxiv.org/abs/2403.18643v1

摘要: 现有的自动赛车轨迹规划方法采用基于采样的方法,生成大量加加速度最佳轨迹,并根据惩罚偏离离线计算赛车线的成本函数选择最有利的可行轨迹。虽然在椭圆形赛道上取得了成功,但这些方法在复杂赛道上面临着局限性,因为加加速度最佳边缘的几何形状过于简单,无法捕捉赛车线路的复杂性。此外,他们只考虑二维轨道,可能忽略或超过实际的动态潜力。在本文中,我们提出了一种基于采样的自动赛车局部轨迹规划方法,即使在复杂的赛道上也能保持赛车线的单圈时间,并考虑赛道的三维效应。在模拟实验中,我们证明与现有方法相比,我们的方法可以实现更短的单圈时间并提高动态限制的利用率。我们还研究了在线赛车线生成的影响,其中时间最优解决方案是根据当前车辆状态在有限的空间范围内规划的,与离线计算的封闭赛车线形成鲜明对比。我们证明,将基于采样的规划器与在线赛车线生成相结合可以显着减少多车辆场景中的单圈时间。

使用 Q-Learning 从二维环境到三维环境:使用强化学习且无库的自主导航建模

分类: 机器学习, 人工智能, 计算

作者: Ergon Cugler de Moraes Silva

发布时间: 2024-03-27

链接: http://arxiv.org/abs/2403.18219v1

摘要: 强化学习(RL)算法已成为人工智能中不可或缺的工具,使智能体能够通过与环境和反馈机制的交互来获得最佳决策策略。本研究探讨了 RL 智能体在二维 (2D) 和三维 (3D) 环境中的表现,旨在研究跨不同空间维度的学习动态。这项调查的一个关键方面是缺乏预制的学习库,其算法完全是通过计算数学开发的。该方法框架以强化学习原理为中心,采用 Q 学习代理类和针对每个空间维度定制的不同环境类。该研究旨在解决以下问题:强化学习代理如何在不同空间维度的环境中适应和执行,特别是在 2D 和 3D 设置中?通过实证分析,该研究评估了智能体的学习轨迹和适应过程,揭示了强化学习算法在复杂的多维空间中的有效性。对这些发现的反思促使人们考虑未来的研究,特别是在理解高维环境中学习的动态方面。

长期和短期约束驱动自动驾驶的安全强化学习

分类: 机器学习, 人工智能, 机器人技术

作者: Xuemin Hu, Pan Chen, Yijun Wen, Bo Tang, Long Chen

发布时间: 2024-03-27

链接: http://arxiv.org/abs/2403.18209v1

摘要: 强化学习(RL)已广泛应用于决策任务中,但由于与环境交互的要求,无法保证智能体在训练过程中的安全,严重限制了其自动驾驶等工业应用。安全强化学习方法是为了解决这个问题而开发的,通过限制预期的安全违规成本作为训练目标,但它们仍然允许不安全状态的发生,这在自动驾驶任务中是不可接受的。此外,这些方法很难在成本和回报期望之间取得平衡,从而导致算法的学习性能下降。在本文中,我们提出了一种基于长期和短期约束(LSTC)的安全强化学习新算法。短期约束旨在保证车辆探索的短期状态安全,而长期约束则保证车辆整个决策过程的整体安全。此外,我们开发了一种基于拉格朗日乘子的双约束优化的安全强化学习方法,以优化端到端自动驾驶的训练过程。在 MetaDrive 模拟器上进行了综合实验。实验结果表明,与最先进的方法相比,该方法在连续状态和动作任务中实现了更高的安全性,并且在长距离决策任务中表现出更高的探索性能。

校园停车位精确分配解决方案

分类: 计算工程、金融和科学, 优化与控制, 90-06, 90-10, 90-11

作者: Luke Oluwaseye Joel, Sawyerr A. Babatunde, Adewumi O. Aderemi

发布时间: 2024-03-26

链接: http://arxiv.org/abs/2403.17597v1

摘要: 在世界各地,特别是在大学环境中,规划经理和交通工程师不断面临着为有需求的用户分配停车位不足的问题。用户可以选择保留的停车位而不是未保留的停车位,反之亦然。这使得校园停车管理者面临两个基本问题:将实际可用预留车位数量分配给用户而不发生同一停车位冲突的问题,以及确定停车许可证数量的问题。为未预留车位的停车场发放。因此,需要对该问题有一个最佳或可用的解决方案。本文研究了一种分配停车位的模型,添加了一个约束来解决大学环境中的预留停车政策,并使用精确求解方法解决了停车分配问题。得到的结果给出了目标函数的值以及每个停车场的用户最优分配。

利用仿真综合自主地面机器人路径跟踪控制策略的研究

分类: 机器人技术

作者: Harry Zhang, Stefan Caldararu, Aaron Young, Alexis Ruiz, Huzaifa Unjhawala, Ishaan Mahajan, Sriram Ashokkumar, Nevindu Batagoda, Zhenhao Zhou, Luning Bakke, Dan Negrut

发布时间: 2024-03-26

链接: http://arxiv.org/abs/2403.18021v1

摘要: 我们报告在回答以下问题时获得的结果和见解:使用模拟器为自主地面机器人建立路径跟踪控制策略的效果如何?虽然模拟器的质量决定了这个问题的答案,但我们发现,对于本文使用的模拟平台,一旦受控机器人的数字孪生可用,为路径规划生成四种控制策略就很简单。在仿真中建立并随后在现实世界中演示的控制策略是 PID 控制、MPC 和两个基于神经网络 (NN) 的控制器。通过模仿学习训练两个神经网络控制器是通过七个简单的操作快速完成的:顺时针绕三个圈,逆时针绕同一个圈,然后直线行驶。采用随机微观模拟的测试随机化过程用于对四种控制策略的“优度”进行排名。模拟中记录的政策排名与在现实世界中测试控制政策时观察到的排名密切相关。所使用的仿真平台是公开可用的,并且以BSD3开源形式发布;公共 Docker 映像可用于再现性研究。它包含一个动力学引擎、一个传感器模拟器、一个 ROS2 桥和一个 ROS2 自主堆栈,后者在模拟器和现实世界实验中都使用。

基于场景的多智能体自动驾驶课程生成

分类: 机器人技术, 机器学习, 多代理系统

作者: Axel Brunnbauer, Luigi Berducci, Peter Priller, Dejan Nickovic, Radu Grosu

发布时间: 2024-03-26

链接: http://arxiv.org/abs/2403.17805v1

摘要: 自动生成多样化且复杂的训练场景一直是许多复杂学习任务的重要组成部分。特别是在自动驾驶等现实应用领域,自动课程生成对于获得稳健且通用的政策至关重要。然而,使用多个异构代理构建流量场景通常被认为是一项乏味且耗时的任务,尤其是在更复杂的模拟环境中。在我们的工作中,我们引入了 MATS-Gym,这是一种多智能体交通场景框架,用于在 CARLA(高保真驾驶模拟器)中训练智能体。 MATS-Gym 是一个用于自动驾驶的多智能体训练框架,它使用部分场景规范来生成具有可变数量智能体的交通场景。本文将各种现有的交通场景描述方法统一到一个训练框架中,并演示了如何将其与无监督环境设计的技术集成以自动生成自适应自动课程。该代码可在 https://github.com/AutonomousDrivingExaminer/mats-gym 获取。

基于光流的自动车辆移动物体检测和跟踪

分类: 机器人技术, 系统与控制, 系统与控制

作者: MReza Alipour Sormoli, Mehrdad Dianati, Sajjad Mozaffari, Roger woodman

发布时间: 2024-03-26

链接: http://arxiv.org/abs/2403.17779v1

摘要: 周围移动物体及其轨迹的准确速度估计是自动/自主车辆 (AV) 感知系统的关键要素,直接影响其安全。由于这些对象的类型和大小不同以及它们的动态和随机行为,这些都是不平凡的问题。最近基于点云的解决方案通常使用迭代最近点 (ICP) 技术,但众所周知,该技术具有一定的局限性。例如,由于其迭代性质,它们的计算成本很高,并且随着目标物体相对速度的增加(>2 m/sec),它们的估计误差通常会恶化。鉴于这些缺点,本文首先提出了一种基于光流技术的新型自动驾驶汽车移动物体检测和跟踪(DATMO),事实证明该技术对于此类问题具有计算效率和高精度。 \textcolor{black}{这是通过将驾驶场景表示为向量场并应用向量微积分理论来确保时空连续性来实现的。}我们还报告了本研究中所提出的 DATMO 技术的综合性能评估结果使用合成数据和真实世界数据。本研究的结果证明了与文献中的 DATMO 技术相比,所提出的技术在运动物体的各种相对速度的估计精度和处理时间方面的优越性。最后,我们评估和讨论了所提出的 DATMO 技术的估计误差对各种系统和环境参数以及运动物体的相对速度的敏感性。

基于激光雷达的农作物行检测算法,用于农业领域的冠层自主导航

分类: 机器人技术

作者: Ruiji Liu, Francisco Yandun, George Kantor

发布时间: 2024-03-26

链接: http://arxiv.org/abs/2403.17774v1

摘要: 自主导航对于农业中的各种机器人应用至关重要。然而,许多现有方法依赖于 RTK-GPS 系统,该系统价格昂贵且容易受到信号覆盖范围较差的影响。本文介绍了一种最先进的基于激光雷达的导航系统,即使在冠层完全遮挡行间间距的情况下,也可以在行间作物田中实现冠层自主导航。我们的作物行检测算法可以检测不同场景下的作物行,包括各种作物类型、生长阶段、杂草存在以及作物行内的不连续性。在不利用机器人的全局定位的情况下,我们的导航系统可以在这些具有挑战性的场景中执行自主导航,检测作物行的末端,并自主导航到下一个作物行,提供一种与作物无关的方法来导航整个行 -农作物田。该导航系统在各种模拟农业田地进行了测试,在定制的 Amiga 机器人上实现了平均 2.98cm$ 的自动驾驶精度,无需人工干预。此外,我们的作物行检测算法在实际大豆田中的定性结果验证了我们基于激光雷达的作物行检测算法在实际农业应用中的潜力。

AIDE:自动驾驶中物体检测的自动数据引擎

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Mingfu Liang, Jong-Chyi Su, Samuel Schulter, Sparsh Garg, Shiyu Zhao, Ying Wu, Manmohan Chandraker

发布时间: 2024-03-26

链接: http://arxiv.org/abs/2403.17373v1

摘要: 自动驾驶汽车 (AV) 系统依靠强大的感知模型作为安全保证的基石。然而,路上遇到的物体表现出长尾分布,罕见或看不见的类别对部署的感知模型构成了挑战。这就需要一个昂贵的过程,需要花费大量的人力来不断地整理和注释数据。我们建议利用视觉语言和大型语言模型的最新进展来设计一个自动数据引擎(AIDE),它可以自动识别问题,有效地管理数据,通过自动标记改进模型,并通过生成不同的场景来验证模型。这个过程迭代运行,允许模型不断自我改进。我们进一步建立了 AV 数据集开放世界检测的基准,以全面评估各种学习范例,以较低的成本展示我们的方法的卓越性能。

城市环境中自主探索的楼梯定位

分类: 计算机视觉和模式识别

作者: Jinrae Kim, Sunggoo Jung, Sung-Kyun Kim, Youdan Kim, Ali-akbar Agha-mohammadi

发布时间: 2024-03-26

链接: http://arxiv.org/abs/2403.17330v1

摘要: 提出了一种机器人自主探索城市环境的楼梯定位方法。该方法采用级联管道形式的模块化设计,由楼梯检测、线段检测和楼梯定位三个模块组成。楼梯检测模块利用基于深度学习的目标检测算法来生成感兴趣区域(ROI)。使用深度线段检测算法从 ROI 中提取线段特征。提取的线​​段用于根据位置、方向和楼梯方向来定位楼梯。仅使用单个 RGB-D 相机即可执行楼梯检测和定位。所提出的管道的每个组件不需要专门针对楼梯进行设计,这使得维护整个管道并用最先进的深度学习检测技术替换每个组件变得很容易。真实实验结果表明,该方法可以在自主探索各种结构化和非结构化的楼上和楼下(有阴影、污垢和人工和自然物体遮挡的情况下)进行准确的楼梯检测和定位。

针对自动驾驶中单目深度估计的物理 3D 对抗攻击

分类: 计算机视觉和模式识别, 密码学和安全

作者: Junhao Zheng, Chenhao Lin, Jiahao Sun, Zhengyu Zhao, Qian Li, Chao Shen

发布时间: 2024-03-26

链接: http://arxiv.org/abs/2403.17301v2

摘要: 基于深度学习的单目深度估计(MDE)广泛应用于自动驾驶,但众所周知容易受到对抗性攻击。以前针对 MDE 模型的物理攻击依赖于 2D 对抗性补丁,因此它们仅影响 MDE 地图中的一小部分局部区域,但在各种视角下都会失败。为了解决这些限制,我们提出了 3D Depth Fool (3D$^2$Fool),这是第一个针对 MDE 模型的基于 3D 纹理的对抗攻击。 3D$^2$Fool 经过专门优化,可生成与车辆模型类型无关的 3D 对抗纹理,并提高雨雾等恶劣天气条件下的鲁棒性。实验结果验证了我们的 3D$^2$Fool 在各种场景下的卓越性能,包括车辆、MDE 模型、天气条件和视点。在物理车辆模型上打印 3D 纹理的真实世界实验进一步证明,我们的 3D$^2$Fool 可以导致超过 10 米的 MDE 误差。

电动汽车的最低成本路径

分类: 数据结构和算法, 68W05, F.2.2

作者: Dani Dorfman, Haim Kaplan, Robert E. Tarjan, Mikkel Thorup, Uri Zwick

发布时间: 2024-03-25

链接: http://arxiv.org/abs/2403.16936v1

摘要: 配备有限容量电池的电动汽车在具有充电站基础设施的道路网络上行驶。每个充电站的每单位能量成本可能不同。穿过给定路段需要指定量的能量,该能量可以是正值、零值或负值。汽车只有在有足够电量的情况下才能穿越路段(电量不能低于零),并且不能给电池充电超过其容量。要从一个点行驶到另一个点,汽车需要选择一个\emph{旅行计划},其中包括网络中的一条路径和一个充电时间表,该时间表指定在路径上的每个充电站充电多少能量,以确保有足够的电量能量到达下一个充电站或目的地。该计划的成本是沿所选路径的总充电成本。我们将网络每两个节点之间的计算计划问题简化为两个问题:在不允许充电时寻找最佳能量路径和寻找标准最短路径。当网络中不存在负循环时,我们获得一个$O(n^3)$时间算法来计算所有配对的旅行计划,其中~$n$是网络中的路口数量。在一些进一步的假设下,我们获得了稍微更快的算法。我们还考虑了对允许的充电次数进行限制的情况。

建立开源社区以增强自主神经系统信号分析:DBDP-Autonomic

分类: 人机交互

作者: Jessilyn Dunn, Varun Mishra, Md Mobashir Hasan Shandhi, Hayoung Jeong, Natasha Yamane, Yuna Watanabe, Bill Chen, Matthew S. Goodwin

发布时间: 2024-03-25

链接: http://arxiv.org/abs/2403.17165v3

摘要: 智能手机和可穿戴传感器提供了前所未有的能力来收集不同时间尺度、环境、人群和模式的外围心理生理信号。然而,开源软件的开发尚未跟上硬件技术和可用性的快速进步,从而造成了分析障碍,限制了所获取数据的科学用途。我们提出了一个社区驱动的、开源的外周心理生理信号预处理和分析软件框架,该框架可以通过涉及自主神经系统数据的更稳健、透明和可重复的推论来促进生物行为健康。

RepairAgent:基于 LLM 的自主程序修复代理

分类: 软件工程, 人工智能

作者: Islem Bouzenia, Premkumar Devanbu, Michael Pradel

发布时间: 2024-03-25

链接: http://arxiv.org/abs/2403.17134v1

摘要: 自动程序修复已成为一种强大的技术,可以减轻软件错误对系统可靠性和用户体验的影响。本文介绍了 RepairAgent,这是第一个通过基于大语言模型 (LLM) 的自治代理来解决程序修复挑战的工作。现有的基于深度学习的方法通过固定提示或固定反馈循环来提示模型,而我们的工作将 LLM 视为能够自主规划和执行操作以通过调用合适的工具来修复错误的代理。 RepairAgent 自由地交叉收集有关错误的信息、收集修复成分和验证修复,同时根据收集的信息和之前修复尝试的反馈来决定调用哪些工具。启用 RepairAgent 的关键贡献包括一组可用于程序修复的工具、允许 LLM 与这些工具交互的动态更新的提示格式,以及指导代理调用工具的有限状态机。我们对流行的 Defects4J 数据集的评估证明了 RepairAgent 在自主修复 164 个错误方面的有效性,其中包括现有技术未修复的 39 个错误。与 LLM 交互的每个 bug 的平均成本为 270,000 个代币,根据 OpenAI 的 GPT-3.5 模型的当前定价,每个 bug 的成本为 14 美分。据我们所知,这项工作首次提出了一种用于程序修复的基于 LLM 的自主代理,为软件工程中未来基于代理的技术铺平了道路。

SynFog:基于端到端成像仿真的逼真合成雾数据集,用于推进自动驾驶中的真实世界去雾

分类: 计算机视觉和模式识别, 机器学习

作者: Yiming Xie, Henglu Wei, Zhenyi Liu, Xiaoyu Wang, Xiangyang Ji

发布时间: 2024-03-25

链接: http://arxiv.org/abs/2403.17094v1

摘要: 为了推进基于学习的去雾算法的研究,已经开发了各种合成雾数据集。然而,使用大气散射模型 (ASM) 或实时渲染引擎创建的现有数据集通常难以生成准确模仿实际成像过程的逼真雾图像。这种限制阻碍了模型从合成数据到真实数据的有效泛化。在本文中,我们介绍了一种端到端模拟管道,旨在生成逼真的雾图像。该流程全面考虑了整个基于物理的雾天场景成像过程,与现实世界的图像捕获方法紧密结合。基于这个管道,我们提出了一个名为 SynFog 的新合成雾数据集,它具有天空光和主动照明条件,以及三个级别的雾密度。实验结果表明,在应用于现实世界的有雾图像时,与其他模型相比,在 SynFog 上训练的模型在视觉感知和检测精度方面表现出优越的性能。

基于区块链的车辆边缘元宇宙中车辆孪生迁移的假名管理

分类: 网络和互联网架构, 密码学和安全, 人机交互, 机器学习

作者: Jiawen Kang, Xiaofeng Luo, Jiangtian Nie, Tianhao Wu, Haibo Zhou, Yonghua Wang, Dusit Niyato, Shiwen Mao, Shengli Xie

发布时间: 2024-03-22

链接: http://arxiv.org/abs/2403.15285v1

摘要: 在元宇宙和边缘计算技术巨大进步的推动下,车辆边缘元宇宙有望颠覆当前智能交通系统的范式。作为车辆元宇宙用户 (VMU) 的高度计算机化化身,部署在边缘服务器中的车辆双胞胎 (VT) 可以提供有价值的元宇宙服务,以提高 VMU 在整个旅程中的驾驶安全性和车载满意度。为了保持不间断的元宇宙体验,VT 必须跟随车辆的移动在边缘服务器之间迁移。这可能会引起人们对车辆边缘元宇宙之间动态通信期间隐私泄露的担忧。为了解决这些问题并保护位置隐私,VMU和VT都可以利用假名作为临时标识符来实现物理空间和虚拟空间中的匿名通信。然而,现有的假名管理方法无法满足车辆边缘元宇宙中广泛的假名需求,从而极大地降低了隐私保护的性能。为此,我们提出了一个跨元宇宙赋能的双假名管理框架。我们利用跨链技术来提高假名的管理效率和数据安全性。此外,我们提出了一种评估隐私级别的指标,并采用多代理深度强化学习(MADRL)方法来获得最佳的假名生成策略。数值结果表明,我们提出的方案是高效且具有成本效益的,展示了它们在车辆边缘元宇宙中的有前景的应用。

当汽车遇到无人机:恶劣天气下无源域适应的双曲联合学习

分类: 计算机视觉和模式识别

作者: Giulia Rizzoli, Matteo Caligiuri, Donald Shenaj, Francesco Barbato, Pietro Zanuttigh

发布时间: 2024-03-20

链接: http://arxiv.org/abs/2403.13762v1

摘要: 在联邦学习(FL)中,多个客户端协作训练全局模型,而无需共享私有数据。在语义分割中,联合源自由域适应(FFreeDA)设置特别令人感兴趣,其中客户端在服务器端经过监督预训练后接受无监督训练。虽然最近很少有研究涉及自动驾驶汽车的 FL,但诸如恶劣天气条件的存在和不同自动代理的存在等内在的现实挑战仍未得到探索。为了弥补这一差距,我们解决了这两个问题,并引入了一种新的联合语义分割设置,让汽车和无人机客户端共存和协作。具体来说,我们为此设置提出了一种新颖的方法,该方法利用批量标准化天气感知策略来动态调整模型以适应不同的天气条件,同时使用双曲空间原型来对齐异构客户端表示。最后,我们介绍 FLYAWARE,这是第一个包含飞行器恶劣天气数据的语义分割数据集。

推进可解释的自动驾驶汽车系统:全面回顾和研究路线图

分类: 人机交互, 人工智能, 机器学习, 机器人技术

作者: Sule Tekkesinoglu, Azra Habibovic, Lars Kunze

发布时间: 2024-03-19

链接: http://arxiv.org/abs/2404.00019v1

摘要: 鉴于自动驾驶汽车(AV)现有的可解释性方法如何满足利益相关者的不同需求的不确定性,必须进行彻底的调查,以确定需要解释和合适的交互策略的背景。全面审查对于评估当前方法与自动驾驶生态系统内不同利益和期望的一致性至关重要。本研究提出了一项综述,讨论与解释生成和呈现相关的复杂性,以促进更有效和更具包容性的可解释 AV 系统的开发。我们的调查将现有文献分为三个主要主题:解释性任务、解释性信息和解释性信息交流。根据我们的见解,我们为未来的研究提出了一个全面的路线图,重点是(i)了解对话者,(ii)生成及时的解释,(ii)传达人性化的解释,以及(iv)持续学习。我们的路线图以负责任的研究和创新原则为基础,强调多样化解释要求的重要性。为了有效应对与实施可解释的 AV 系统相关的挑战,我们划定了各种研究方向,包括开发隐私保护数据集成、道德框架、实时分析、以人为本的交互设计以及加强跨学科合作。通过探索这些研究方向,该研究旨在指导可解释自动驾驶的开发和部署,全面了解用户需求、技术进步、监管合规性和道德考虑,从而确保更安全、更值得信赖的自动驾驶体验。

自动驾驶汽车的整体 HMI 设计:桥接车内和外部通信

分类: 人机交互

作者: Haoyu Dong, Tram Thi Minh Tran, Pavlo Bazilinskyy, Marius Hoggenmüller, Debargha Dey, Silvia Cazacu, Mervyn Franssen, Ruolin Gao

发布时间: 2024-03-18

链接: http://arxiv.org/abs/2403.11386v1

摘要: 随着自动驾驶汽车 (AV) 领域的发展,开发用于内部和外部通信的人机界面 (HMI) 变得越来越重要。围绕 HMI 设计整体方法的潜在必要性正在出现批判性对话,这促进了车内用户和外部道路用户观点的整合。这种方法旨在为与 AV 交互的不同利益相关者创造统一且连贯的体验。该研讨会旨在将设计师、工程师、研究人员和其他利益相关者聚集在一起,深入研究相关用例,探索这种方法的潜在优势和挑战。本次研讨会产生的见解旨在为自动驾驶汽车连贯人机界面开发的进一步设计和研究提供信息,最终将自动驾驶汽车更加无缝地集成到现有交通中。

自动驾驶车辆-行人交互的虚拟现实研究综述

分类: 人机交互

作者: Tram Thi Minh Tran, Callum Parker, Martin Tomitsch

发布时间: 2024-03-18

链接: http://arxiv.org/abs/2403.11378v1

摘要: 越来越多的研究利用虚拟现实 (VR) 来评估自动驾驶车辆 (AV) 与行人之间的交互。 VR模拟器因其成本效益、开发各种交通场景的灵活性、用户研究的安全进行以及可接受的生态有效性而受到重视。回顾 2010 年至 2020 年间的文献,我们发现了 31 项使用 VR 作为内隐和外显沟通测试工具的实证研究。通过系统分析,我们确定了当前关键用例的覆盖范围,全面考虑了模拟交通场景中影响行人行为的因素,并评估了评估措施。根据研究结果,我们提出了一系列实施 VR 行人模拟器的建议,并提出了未来研究的方向。

利用大型语言模型实现车载对话助理的主动交互

分类: 人机交互

作者: Huifang Du, Xuejing Feng, Jun Ma, Meng Wang, Shiyu Tao, Yijie Zhong, Yuan-Fang Li, Haofen Wang

发布时间: 2024-03-14

链接: http://arxiv.org/abs/2403.09135v1

摘要: 研究表明,车载会话助理(IVCA)的主动性有助于减少干扰,提高驾驶安全性,更好地满足用户的认知需求。然而,现有的 IVCA 在用户意图识别和上下文感知方面遇到了困难,这导致主动交互效果不佳。大型语言模型 (LLM) 已显示出推广到带有提示的各种任务的潜力,但它们在 IVCA 中的应用和主动交互的探索仍未得到充分探索。这些引发了关于大语言模型如何改善 IVCA 的主动交互并影响用户认知的问题。为了系统地研究这些问题,我们为 IVCA 建立了一个跨假设和自主两个维度的五个主动性级别的框架。根据该框架,我们提出了“Rewrite + ReAct + Reflect”策略,旨在使LLM在与用户交互时能够满足每个主动级别的特定需求。进行了可行性实验和主观实验。大语言模型在成功率方面优于最先进的模型,并在每个积极性水平上都取得了令人满意的结果。 40 名参与者的主观实验验证了我们框架的有效性,并表明具有强有力假设和用户确认的主动水平是最合适的。

保护汽车遗产:基于区块链的经典汽车修复安全记录解决方案

分类: 计算机与社会

作者: José Murta, Vasco Amaral, Fernando Brito e Abreu

发布时间: 2024-03-12

链接: http://arxiv.org/abs/2403.08093v1

摘要: 经典汽车是汽车工业的重要组成部分,代表了一定时代的历史和技术成果。然而,要被视为杰作,它们必须保持原始状态或根据专家服务采用的严格准则进行修复。因此,有关恢复过程的所有数据以及有关这些车辆的其他相关信息必须严格记录,以确保其可验证性和不变性。在这里,我们报告了我们正在进行的研究,以便为经典汽车生态系统充分提供此类功能。通过设计科学研究方法,我们使用 Hyperledger Fabric 开发了一种基于区块链的解决方案,通过确保这些数据不可变且值得信赖,同时促进感兴趣的人之间的协作,有助于正确记录经典汽车信息、应用的修复程序以及所有相关文档。派对。该解决方案已经过验证,并收到了老爷车领域各个实体的积极反馈。增强且安全的文档预计将有助于老爷车行业的数字化转型,提高真实性和可信度,并最终增加老爷车的市场价值。

DrivAerNet:用于数据驱动的空气动力学设计和基于图形的阻力预测的参数化汽车数据集

分类: 机器学习, 流体动力学

作者: Mohamed Elrefaie, Angela Dai, Faez Ahmed

发布时间: 2024-03-12

链接: http://arxiv.org/abs/2403.08055v1

摘要: 本研究引入了 DrivAerNet(3D 行业标准汽车形状的大规模高保真 CFD 数据集)和 RegDGCNN(动态图卷积神经网络模型),两者都旨在通过机器学习进行空气动力学汽车设计。 DrivAerNet 拥有 4000 个详细的 3D 汽车网格(使用 50 万个表面网格面)和全面的空气动力学性能数据(包括全 3D 压力、速度场和壁剪切应力),满足了在工程应用中训练深度学习模型所需的大量数据集的迫切需求。它比以前可用的最大的汽车公共数据集大 60%,并且是唯一也对车轮和车身进行建模的开源数据集。 RegDGCNN 利用这一大规模数据集直接从 3D 网格提供高精度阻力估计,绕过了传统限制,例如需要 2D 图像渲染或有符号距离场 (SDF)。通过在几秒钟内实现快速阻力估计,RegDGCNN 促进了快速空气动力学评估,为在汽车设计中集成数据驱动方法提供了实质性飞跃。 DrivAerNet 和 RegDGCNN 共同承诺加速汽车设计流程,并为开发更高效的车辆做出贡献。为了为该领域的未来创新奠定基础,我们研究中使用的数据集和代码可在 \url{https://github.com/Mohamedelrefaie/DrivAerNet} 上公开访问

考虑竞争对手相互作用的电动耐力赛车模型预测控制策略

分类: 系统与控制, 系统与控制

作者: Jorn van Kampen, Mauro Moriggi, Francesco Braghin, Mauro Salazar

发布时间: 2024-03-11

链接: http://arxiv.org/abs/2403.06885v1

摘要: 本文提出了电池电动耐力赛车的模型预测控制策略,考虑了与竞争对手的相互作用。特别是,我们设计了一个优化框架,以概率方式捕获自我车辆与竞争对手互动时的行为影响,共同考虑比赛过程中的最佳进站决策、充电时间和驾驶风格。我们展示了我们在赞德沃特赛道上模拟 1 小时耐力赛的方法,使用了之前赛事中内燃机赛车的真实数据。我们的结果表明,优化比赛策略以及比赛过程中的决策非常重要,与总是超车的方法相比,取得了显着的 21 秒优势,同时揭示了电子赛车的竞争力。常规的。

汽车损坏检测和逐块自监督图像对齐

分类: 计算机视觉和模式识别, 人工智能

作者: Hanxiao Chen

发布时间: 2024-03-11

链接: http://arxiv.org/abs/2403.06674v1

摘要: 大多数计算机视觉应用程序旨在识别场景中的像素并将其用于不同的目的。一个有趣的应用是保险公司的汽车损坏检测,它倾向于通过比较旅行前和旅行后图像来检测所有汽车损坏,甚至需要两个组件:(i) 汽车损坏检测; (ii) 图像对齐。首先,我们实现了 Mask R-CNN 模型来检测自定义图像上的汽车损坏情况。而对于图像对齐部分,我们特别提出了一种新颖的自监督 Patch-to-Patch SimCLR 启发对齐方法,以找到除传统计算机视觉方法之外的自定义前/后汽车租赁图像之间的透视变换。

人们在解释自动驾驶汽车的行为时将目的归因于自动驾驶汽车

分类: 人机交互, 人工智能, 机器人技术

作者: Balint Gyevnar, Stephanie Droop, Tadeg Quillien

发布时间: 2024-03-11

链接: http://arxiv.org/abs/2403.08828v1

摘要: 优秀 XAI 系统的一个标志是用户可以理解并采取行动的解释。在许多情况下,这需要一个系统提供易于理解的因果或反事实解释。认知科学可以帮助我们了解用户可能期望什么样的解释,以及以何种格式构建这些解释。我们简要回顾了认知解释科学的相关文献,特别是它涉及目的论,即根据决策要达到的目的来解释决策的倾向。然后,我们报告有关人们如何对自动驾驶汽车的行为做出解释以及如何评估这些解释的经验数据。在第一项调查中,参与者(n = 54)观看了道路场景的视频,并被要求对车辆的行为进行机械的、反事实的或目的论的口头解释。在第二次调查中,一组不同的参与者(n = 356)根据各种指标对这些解释进行了评分,包括质量、可信度以及解释中每种解释模式的强调程度。参与者认为机械论和目的论解释的质量明显高于反事实解释。此外,感知目的论是感知质量和可信度的最佳预测指标。感知的目的论和质量评级都不受被解释行为的汽车是自动驾驶汽车还是由人驾驶的影响。结果表明,人们使用并重视目的论概念来评估有关其他人和自动驾驶车辆的信息,这表明他们发现“意图立场”是一个方便的抽象。我们将带注释的视频场景数据集与解释公开,称为自动驾驶决策的人类解释(HEADD),我们希望这将促进进一步的研究。

自动驾驶车辆和行人之间基于投影的通信设计

分类: 人机交互

作者: Trung Thanh Nguyen, Kai Hollander, Marius Hoggenmueller, Callum Parker, Martin Tomitsch

发布时间: 2024-03-11

链接: http://arxiv.org/abs/2403.06429v1

摘要: 最近的研究调查了向行人传达自动驾驶汽车 (AV) 意图和意识的新方法。本文通过介绍道路现场投影的设计和评估来补充这一工作。我们的设计将常见的交通灯图案与美学视觉元素相结合。我们描述了迭代设计过程和每个阶段使用的原型设计方法。最终的设计概念以虚拟现实模拟的形式呈现,并由 18 名参与者在四种不同的街道交叉场景中进行评估,其中包括模拟不同程度的系统错误的三种场景。我们发现,即使 AV 未能正确检测到参与者的存在,不同的设计元素也能够支持参与者对其决策的信心。我们还确定了设计中需要更清晰地传达的元素。基于这些发现,本文提出了一系列针对自动驾驶汽车和行人之间基于投影的通信的设计建议。

不仅仅是鸟类和汽车:专业视觉识别的通用、可扩展和可解释模型

分类: 计算机视觉和模式识别

作者: Junde Wu, Jiayuan Zhu, Min Xu, Yueming Jin

发布时间: 2024-03-08

链接: http://arxiv.org/abs/2403.05703v1

摘要: 一些视觉识别任务比一般任务更具挑战性,因为它们需要专业类别的图像。之前的工作,例如细粒度视觉分类,主要引入了针对特定任务定制的模型,例如识别鸟类物种或汽车品牌,但可扩展性和通用性有限。本文旨在设计一个可扩展且可解释的模型,以从通用的角度解决专业视觉识别任务。我们引入了一种名为 Pro-NeXt 的受生物学启发的结构,并揭示了 Pro-NeXt 在时尚、医学和艺术领域等以前被认为是不同的专业领域中表现出实质性的普遍性。我们的基本尺寸 Pro-NeXt-B 在 5 个不同领域的 12 个不同数据集上超越了所有先前的特定任务模型。此外,我们发现其良好的缩放特性,随着 GFlops 的增加而扩大 Pro-NeXt 的深度和宽度可以持续提高其准确性。除了可扩展性和适应性之外,Pro-NeXt 的中间功能无需额外训练即可实现可靠的目标检测和分割性能,凸显了其可靠的可解释性。我们将发布代码以促进该领域的进一步研究。

设计可穿戴增强现实概念以支持自动驾驶车辆-行人交互的可扩展性

分类: 人机交互

作者: Tram Thi Minh Tran, Callum Parker, Yiyuan Wang, Martin Tomitsch

发布时间: 2024-03-08

链接: http://arxiv.org/abs/2403.07006v1

摘要: 可穿戴增强现实 (AR) 提供了支持自动驾驶车辆 (AV) 和行人之间交互的新方法,因为它能够将及时的上下文相关数据集成到用户的视野中。本文介绍了新颖的可穿戴 AR 概念,可在多车辆场景中帮助过路行人,其中多辆自动驾驶车辆经常从两个方向穿过道路。在虚拟现实环境中模拟和测试了三种概念,采用不同的通信方法,用于从多个自动驾驶汽车发出信号响应到交叉路口请求,以及传统的行人按钮。结果表明,当设计提供单独的 AV 响应和清晰的过街信号时,可穿戴 AR 是减少过路行人认知负荷的一种有前途的方法。然而,行人采用可穿戴 AR 解决方案的意愿受到不同因素的影响,包括成本、数据隐私、技术缺陷、责任风险、维护职责和外形因素。我们进一步发现,所有参与者都倾向于向自动驾驶汽车发送穿越请求,而不是等待车辆检测其意图,这表明当前自动驾驶汽车与行人互动文献中存在重要差距和机遇。

探讨自动驾驶车辆与行人交互的可扩展性问题

分类: 人机交互

作者: Tram Thi Minh Tran, Callum Parker, Martin Tomitsch

发布时间: 2024-03-08

链接: http://arxiv.org/abs/2403.05727v1

摘要: 自动驾驶车辆 (AV) 可以使用 LED 灯带等外部接口来安全、直观地与行人进行通信。虽然之前的研究已经证明了这些界面在涉及一名行人和一辆车的简单交通场景中的有效性,但它们在涉及多个道路使用者的更复杂场景中的表现仍不清楚。因此,AV 外部通信的可扩展性引起了越来越多的关注,提示需要进一步研究。本次范围界定审查综合了 54 篇论文的信息,以确定多车辆和多行人环境中的七个关键可扩展性问题,其中接收者清晰度、信息过载和多车道安全成为最紧迫的问题。为了指导可扩展的自动驾驶汽车与行人交互的未来研究,我们提出了专注于三个通信点的高层设计方向:车辆、基础设施和行人。我们的工作为设计简化、协调和有针对性的外部视音频通信奠定了基础和路线图,最终提高了复杂交通场景的安全性和效率。

CARISMA:汽车集成服务网格架构

分类: 分布式、并行和集群计算, 软件工程

作者: Kevin Klein, Pascal Hirmer, Steffen Becker

发布时间: 2024-03-07

链接: http://arxiv.org/abs/2403.04378v1

摘要: 现代汽车中的软件数量不断增加,传统的电气/电子 (E/E) 架构在部署复杂应用程序(例如带宽或计算能力)时已达到极限。为了缓解这种情况,人们正在采用更强大的计算平台,并将应用程序开发为分布式应用程序,例如涉及微服务。微服务得到了广泛采用,并改变了现代应用程序的开发方式。然而,它们也带来了服务间通信的额外复杂性。这导致了服务网格的出现,这是一种应对这种复杂性的有前途的方法。在本文中,我们提出了一种将服​​务网格方法应用于由多个互连的高性能计算机 (HPC) 组成的汽车 E/E 平台的架构。我们通过原型实施验证了我们方法的可行性。

共享空间中的人车交互:自动驾驶汽车的见解

分类: 人机交互

作者: Yiyuan Wang, Luke Hespanhol, Stewart Worrall, Martin Tomitsch

发布时间: 2024-03-07

链接: http://arxiv.org/abs/2403.04933v1

摘要: 共享空间减少了车辆和行人之间的隔离,并鼓励他们在没有强制交通规则的情况下共享道路。道路使用者(RU)的行为受到社会规范的控制,并且互动比传统道路上更加多样化。自动驾驶车辆 (AV) 需要适应这些规范,才能成为共享空间中社会可接受的 RU。然而,迄今为止,对于共享空间环境中的行人与车辆交互的研究并不多,之前的工作主要集中在传统的道路和交叉口场景上。我们提出了一个视频观察,根据长期自然驾驶数据集,调查行人对共享空间中手动驾驶的小型自动化车辆的反应。我们报告了早期阶段的各种行人反应(从运动调整到亲社会行为)以及与共享空间相关的情况。所得出的见解可以作为支持未来自动驾驶汽车在共享空间中导航的基础,尤其是那些行人高度关注的空间。

自动驾驶汽车如何向行人传达情感?情感表达非人形机器人综述

分类: 人机交互

作者: Yiyuan Wang, Luke Hespanhol, Martin Tomitsch

发布时间: 2024-03-07

链接: http://arxiv.org/abs/2403.04930v1

摘要: 近年来,研究人员和制造商已开始研究如何使自动驾驶汽车 (AV) 能够与附近的行人互动,以弥补人类驾驶员的缺席。这些工作大部分集中在外部人机界面 (eHMI),使用不同的模式(例如灯光模式或道路投影)来传达自动驾驶汽车的意图和意识。在本文中,我们研究了情感界面通过 eHMI 传达情感的潜在作用。迄今为止,人们对情感界面在支持自动驾驶汽车与行人交互方面所发挥的作用知之甚少。然而,情感已被运用在许多小型社交机器人中,从家庭伴侣到无人机形式的户外空中机器人。为了为情感 AV 行人界面奠定基础,我们回顾了 2011 年至 2021 年间发表的 25 篇文章中非人形机器人的情感表达。根据评论结果,我们提出了设计情感 AV 行人界面的一系列考虑因素并强调在未来的研究中调查这些机会的途径。

时间增强型浮动汽车观察器

分类: 计算机视觉和模式识别

作者: Jeremias Gerner, Klaus Bogenberger, Stefanie Schmidtner

发布时间: 2024-03-06

链接: http://arxiv.org/abs/2403.03825v1

摘要: 浮动汽车观察器 (FCO) 是一种通过部署配备传感器的车辆来检测和定位其他车辆来收集交通数据的创新方法。我们证明,即使 FCO 的渗透率很小,也可以识别给定十字路口的大量车辆。这是通过在微观交通模拟中模拟检测来实现的。此外,利用之前时刻的数据可以增强当前帧中车辆的检测。我们的研究结果表明,利用 20 秒的观察窗口,可以恢复 FCO 在当前时间步长内看不到的多达 20% 的车辆。为了利用这一点,我们开发了一种数据驱动策略,利用检测到的车辆的鸟瞰图 (BEV) 表示序列和深度学习模型。该方法旨在将当前未检测到的车辆纳入当前视野,从而增强当前检测到的车辆。不同时空架构的结果表明,高达 41% 的车辆可以在当前位置恢复到当前时间步长。这一增强功能丰富了 FCO 最初可用的信息,可以改进对交通状态和指标(例如密度和队列长度)的估计,从而改进交通管理策略的实施。

ProbSAINT:二手车定价的概率表格回归

分类: 机器学习, 人工智能

作者: Kiran Madhusudhanan, Gunnar Behrens, Maximilian Stubbemann, Lars Schmidt-Thieme

发布时间: 2024-03-06

链接: http://arxiv.org/abs/2403.03812v1

摘要: 二手车定价是汽车行业的一个重要方面,受到许多经济因素和市场动态的影响。随着最近在线市场的激增和二手车需求的增加,准确的定价将通过确保公平交易使买家和卖家都受益。然而,向使用机器学习的自动定价算法的过渡需要理解模型的不确定性,特别是标记模型不确定的预测的能力。尽管最近的文献提出使用增强算法或基于最近邻的方法来进行快速而精确的价格预测,但用此类算法封装模型不确定性提出了复杂的挑战。我们引入 ProbSAINT,该模型提供了一种原则性方法,用于对其价格预测的不确定性进行量化,以及与最先进的提升技术相当的准确点预测。此外,我们认识到企业更喜欢根据车辆挂牌销售的天数来定价二手车,因此我们展示了如何使用 ProbSAINT 作为动态预测模型来预测不同预期报价持续时间的价格概率。我们的实验进一步表明,ProbSAINT 在高度确定的情况下特别准确。这证明了其概率预测在可信度至关重要的现实场景中的适用性。

挂车脱钩的非完整汽车模型的稳定性

分类: 优化与控制, 93D15, 70F25

作者: Alexander Zuyev, Victoria Grushkovskaya

发布时间: 2024-03-05

链接: http://arxiv.org/abs/2403.03341v1

摘要: 我们考虑带有两个拖车的受控汽车的运动学模型,假设每个拖车都与前轴相距一定距离(“脱钩拖车”)。对于这个模型,我们推导了向特权坐标的变换,并提出了相应的幂零拟齐次近似系统。这种幂零近似的组成部分是根据原始系统的机械参数明确编写的。所构建的系统不满足Brockett必要的稳定性条件,提出了带有振荡组件的时变反馈控制器的设计。事实证明,这些控制器确保了平凡平衡解的指数收敛,并给出了仿真结果来说明闭环系统的行为。

通过数学模型了解 B 细胞在 CAR T 细胞治疗白血病中的作用

分类: 动力系统, 定量方法

作者: Sergio Serrano, Roberto Barrio, Álvaro Martínez-Rubio, Juan Belmonte-Beitia, Víctor M. Pérez-García

发布时间: 2024-03-01

链接: http://arxiv.org/abs/2403.00340v1

摘要: 嵌合抗原受体 T (CAR-T) 细胞疗法已被证明可成功对抗不同的白血病和淋巴瘤。本文对描述 CAR-T、白血病肿瘤和 B 细胞竞争的数学模型进行了分析和数值研究。考虑到其在维持抗 CD19 CAR T 细胞刺激方面的重要性,我们将 B 细胞源项集成到模型中。通过稳定性和分叉分析,我们揭示了根除肿瘤的潜力取决于 B 细胞的持续流入,揭示了关键 B 细胞输入处的跨临界分叉。此外,我们确定了平衡点之间的几乎异宿循环,为理解疾病复发提供了理论基础。通过分析系统的振荡行为,我们近似了 CAR T 细胞和白血病细胞的时间依赖性动力学,揭示了初始肿瘤负荷对治疗结果的影响。总之,我们的研究为急性淋巴细胞白血病的 CAR T 细胞治疗动态提供了见解,为临床观察提供了理论基础,并为未来免疫治疗建模研究提出了途径。

相关