2024-05

VOODOO XP:用于 VR 远程呈现的富有表现力的一击头部重演

分类: 计算机视觉和模式识别, 人工智能, 图形

作者: Phong Tran, Egor Zakharov, Long-Nhat Ho, Liwen Hu, Adilbek Karmanov, Aviral Agarwal, McLean Goldwhite, Ariana Bermudez Venegas, Anh Tuan Tran, Hao Li

发布时间: 2024-05-25

链接: http://arxiv.org/abs/2405.16204v2

摘要: 我们推出 VOODOO XP:一种 3D 感知的一次性头部重演方法,可以从任何输入的驾驶员视频和单个 2D 肖像中生成高度表现力的面部表情。我们的解决方案是实时的、视图一致的,并且可以立即使用,无需校准或微调。我们在单目视频设置和用于双向通信的端到端 VR 远程呈现系统上展示了我们的解决方案。与 2D 头部重现方法相比,3D 感知方法旨在保留主体的身份,并确保新颖的相机姿势的视图一致的面部几何形状,这使得它们适合沉浸式应用。尽管已经引入了各种面部解缠技术,但尖端的 3D 感知神经重演技术仍然缺乏表现力,无法再现复杂且精细的面部表情。我们提出了一种新颖的交叉重演架构,可将驾驶员的面部表情直接传输到输入源 3D 提升模块的变压器块。我们证明,使用创新的多阶段自我监督方法可以实现高效的解开,该方法基于从粗到细的策略,并在初始训练阶段结合显式面部中和和 3D 提升正面化。我们进一步将新颖的头部重现解决方案集成到易于使用的高保真 VR 远程呈现系统中,任何人都可以立即根据任何照片构建个性化的神经头部头像,并使用耳机将其变为现实。我们在大量不同主题和捕捉条件的表现力和相似性保留方面展示了最先进的性能。

使用具有注意动作选择的多智能体强化学习来实现 5G 中的扩展现实 (XR) 编解码器自适应

分类: 网络和互联网架构

作者: Pedro Enrique Iturria-Rivera, Raimundas Gaigalas, Medhat Elsayed, Majid Bavand, Yigit Ozcan, Melike Erol-Kantarci

发布时间: 2024-05-24

链接: http://arxiv.org/abs/2405.15872v1

摘要: 扩展现实 (XR) 服务将通过提供无缝的虚拟和增强现实体验,彻底改变第五代和第六代无线网络的应用程序。这些应用程序对网络基础设施提出了重大挑战,而机器学习算法由于其适应性而可以解决这些挑战。本文提出了一种用于优化 XR 流量编解码器参数的多智能体强化学习 (MARL) 解决方案,并将其与调整数据包大小 (APS) 算法进行比较。我们的协作多代理系统使用 Q 值乐观混合 (oQMIX) 方法来处理云游戏 (CG)、增强现实 (AR) 和虚拟现实 (VR) 流量。增强功能包括注意力机制和用于改进行动选择的板岩马尔可夫决策过程 (MDP)。模拟显示,我们的解决方案优于 APS,XR 指数、抖动、延迟和丢包率 (PLR) 的平均增益分别为 30.1%、15.6%、16.5% 和 50.3%。 APS 往往会增加吞吐量,但也会增加数据包丢失,而 oQMIX 会在保持良好吞吐量的同时降低 PLR、延迟和抖动。

多用户 VR 应用中的远程键盘记录攻击

分类: 密码学和安全

作者: Zihao Su, Kunlin Cai, Reuben Beeler, Lukas Dresel, Allan Garcia, Ilya Grishchenko, Yuan Tian, Christopher Kruegel, Giovanni Vigna

发布时间: 2024-05-22

链接: http://arxiv.org/abs/2405.14036v1

摘要: 随着虚拟现实 (VR) 应用程序的日益普及,它们拉近了距离并拉近了用户之间的距离。然而,随着这种增长,人们对安全和隐私的担忧日益增加,尤其是与用于创建沉浸式体验的运动数据相关的问题。在本研究中,我们强调了多用户 VR 应用程序中的重大安全威胁,这些应用程序允许多个用户在同一虚拟空间中相互交互。具体来说,我们提出了一种远程攻击,利用从对手的游戏客户端收集的头像渲染信息来提取用户输入的秘密,例如信用卡信息、密码或私人对话。我们通过 (1) 从网络数据包中提取运动数据,以及 (2) 将运动数据映射到击键条目来实现此目的。我们进行了一项用户研究来验证攻击的有效性,其中我们的攻击成功推断出 97.62% 的击键。此外,我们还进行了一项额外的实验来强调我们的攻击是实用的,即使在(1)房间中有多个用户,并且(2)攻击者看不到受害者时也确认了其有效性。此外,我们在四个应用程序上复制了我们提出的攻击,以证明该攻击的普遍性。这些结果强调了该漏洞的严重性及其对数百万 VR 社交平台用户的潜在影响。

XR 系统的内隐凝视研究

分类: 人机交互, 新兴技术

作者: Naveen Sendhilnathan, Ajoy S. Fernandes, Michael J. Proulx, Tanya R. Jonker

发布时间: 2024-05-22

链接: http://arxiv.org/abs/2405.13878v1

摘要: 尽管眼动追踪技术正在被集成到更多的 VR 和 MR 耳机中,但眼动追踪在增强 XR 设置中的用户交互方面的真正潜力仍然相对尚未开发。目前,XR 中最流行的注视应用之一是输入控制。例如,使用凝视来控制光标进行指向。然而,我们的眼睛主要是为了感官输入和理解周围世界而进化的,但很少有 XR 应用程序利用自然凝视行为来推断和支持用户的意图和认知状态。能够表示用户上下文和交互意图的系统可以通过生成上下文相关内容、使用户界面更易于使用、突出显示潜在错误等来更好地支持用户。这种应用模式在当前商用 XR 系统中尚未得到充分利用,但我们很可能会发现眼动追踪的范式转变用例。在本文中,我们阐明了眼动追踪的最先进应用,并提出了充分利用其潜力的新研究方向。

启动您的 VR 神经科学实验室

分类: 人机交互, 神经元和认知

作者: Ying Choon Wu, Christopher Maymon, Jonathon Paden, Weichen Liu

发布时间: 2024-05-21

链接: http://arxiv.org/abs/2405.13171v1

摘要: 经济实惠的虚拟现实 (VR) 技术和可穿戴传感器的激增和完善开辟了认知和行为神经科学的新领域。本章为任何有兴趣将 VR 作为研究工具的人提供了有关 VR 的广泛概述。在第一部分中,它研究了 VR 的基本功能,并概述了刺激感官的沉浸式内容开发的重要考虑因素。在第二部分中,讨论的重点转移到神经科学实验室背景下的 VR 实施。提供了有关如何使商业现成设备适应特定研究目的的实用建议。此外,还探索了记录、同步和融合通过 VR 系统或附加传感器获得的异构形式数据的方法,以及标记事件和捕获游戏玩法的方法。

2D 和 3D 游戏化 VR 对学习美国手语的影响

分类: 人机交互

作者: Jindi Wang, Ioannis Ivrissimtzis, Zhaoxing Li, Lei Shi

发布时间: 2024-05-14

链接: http://arxiv.org/abs/2405.08908v1

摘要: 手语作为促进听力正常者和聋人社区之间有效沟通的一种手段已被广泛研究。随着虚拟现实(VR)和游戏化技术的不断进步,越来越多的研究开始探索这些新兴技术在手语学习中的应用。本文描述了一项用户研究,该研究比较了 2D 和 3D 游戏对 ASL 学习中用户体验的影响。通过问卷调查收集的经验证据支持 3D 游戏环境对用户参与度和整体体验的积极影响,特别是在吸引力、可用性和效率方面。此外,初步研究结果表明 2D 和 3D 游戏在增强用户体验方面具有相似的行为。最后,该研究确定了可以改进的领域,以增强 3D 游戏环境的可靠性和清晰度。这些发现有助于理解基于游戏的方法,特别是 3D 环境的利用,如何对 ASL 的学习体验产生积极影响。

具有能量约束的实时 XR 视频传输的体验质量优化

分类: 多媒体, 网络和互联网架构, 系统与控制, 系统与控制

作者: Guangjin Pan, Shugong Xu, Shunqing Zhang, Xiaojing Chen, Yanzan Sun

发布时间: 2024-05-13

链接: http://arxiv.org/abs/2405.07689v1

摘要: 扩展现实(XR)是5G网络和未来6G网络中的重要业务。与传统视频点播业务相比,实时XR视频是逐帧传输的,要求低延迟,对网络波动高度敏感。在本文中,我们逐帧模拟实时 XR 视频传输的体验质量 (QoE)。基于所提出的 QoE 模型,我们制定了一个优化问题,在无线资源和长期能耗的约束下最大化 QoE。我们利用Lyapunov优化将原始问题转化为单帧优化问题,然后分配无线子信道。我们提出了一种自适应 XR 视频比特率算法,该算法采用基于长短期记忆 (LSTM) 的深度 Q 网络 (DQN) 算法进行视频比特率选择。通过数值结果,我们表明我们提出的算法优于基线算法,平均 QoE 提高了 0.04 至 0.46。具体来说,与基线算法相比,该算法将平均视频质量变化降低了29%至50%,并将帧传输成功率提高了5%至48%。

VR 应用中基于光线的交互的震颤减少

分类: 人机交互, 计算机与社会

作者: Dr Corrie Green, Dr Yang Jiang, Dr John Isaacs, Dr Michael Heron

发布时间: 2024-05-12

链接: http://arxiv.org/abs/2405.07335v1

摘要: 与传统的 2D 交互方法相比,虚拟现实 (VR) 为独特的界面和交互设计决策提供了机会。目前,这对开发可访问的 VR 体验构成了挑战,因为现有的交互技术可能并不适合所有用户使用。人们发现,许多传统的2D界面交互方式已经被直接转换为在VR空间中工作,而对输入机制几乎没有改变,例如使用针对传统光标设计的激光笔。人们认识到,与距离无关的毫米可以支持设计人员开发在虚拟世界中扩展的界面。与此相关的是,菲茨定律指出,随着距离的增加,用户的移动速度会越来越慢,而且执行的准确性也会越来越低。在本文中,我们建议使用低通滤波器来标准化用户输入噪声,从而减轻基于射线的交互期间的精细运动要求。我们进行了一项开发研究,以了解实施此类过滤器的可行性并探讨其对最终用户体验的影响。它演示了算法如何通过过滤和减少不自觉的手部颤抖来提供更准确、从而减少令人沮丧的体验的机会。还对现有 VR 设计理念进行了进一步讨论,分析支持多感官反馈和心理模型的证据。完成的研究可以从 GitHub 下载。

通过开放集识别和未知样本检测方面的进步做出明智的决策

分类: 机器学习, 计算机视觉和模式识别

作者: Atefeh Mahdavi, Marco Carvalho

发布时间: 2024-05-09

链接: http://arxiv.org/abs/2405.05836v1

摘要: 基于机器学习的技术带来了许多机会和改进,可以从数据中获得更深入、更实用的见解,从而帮助企业做出明智的决策。然而,这些技术大多数都集中在传统的封闭集场景中,其中训练集和测试集的标签空间是相同的。开放集识别(OSR)旨在使分类任务更加接近现实,其重点是对已知类进行分类并有效处理未知类。在这样的开放集问题中,训练集中收集的样本无法涵盖所有​​类别,系统需要在测试时识别未知样本。另一方面,在真实的动态环境中构建准确且全面的模型存在许多障碍,因为对未知项目的每个可能示例进行训练的成本过高,并且模型在测试台中测试时可能会失败。本研究提供了一种探索特征空间新表示的算法,以改进 OSR 任务中的分类。通过集成 OSR 可以提高业务流程和决策的功效和效率,OSR 可以提供更准确、更有洞察力的结果预测。我们在三个已建立的数据集上展示了所提出的方法的性能。结果表明,所提出的模型在准确性和 F1 分数方面优于基线方法。

用于骨骼匿名化的对手引导运动重定向

分类: 计算机视觉和模式识别, 密码学和安全, 机器学习

作者: Thomas Carr, Depeng Xu, Aidong Lu

发布时间: 2024-05-08

链接: http://arxiv.org/abs/2405.05428v1

摘要: 基于骨架的运动可视化是计算机视觉领域的一个新兴领域,尤其是在虚拟现实 (VR) 领域。随着人体姿势估计和骨骼提取传感器的进一步进步,越来越多的利用骨骼数据的应用出现了。这些骨架可能看起来是匿名的,但它们包含嵌入的个人身份信息 (PII)。在本文中,我们提出了一种基于运动重定向的新匿名技术,利用对手分类器进一步删除嵌入骨架中的 PII。运动重定向在匿名化方面非常有效,因为它将用户的运动转移到虚拟骨架上。这样做时,链接到骨架的任何 PII 都将基于虚拟骨架,而不是我们正在保护的用户。我们提出了一种以隐私为中心的深度运动重定向模型(PMR),旨在通过对抗性学习进一步明确 PII 的重定向骨架。在我们的实验中,PMR 实现了与最先进模型相当的运动重定向实用性能,同时还降低了隐私攻击的性能。

相关不相关性:为图像分类器生成另类事实解释

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Silvan Mertes, Tobias Huber, Christina Karle, Katharina Weitz, Ruben Schlagowski, Cristina Conati, Elisabeth André

发布时间: 2024-05-08

链接: http://arxiv.org/abs/2405.05295v1

摘要: 在本文中,我们证明了黑盒图像分类器的替代事实解释的可行性。反事实思维领域的传统解释机制是可解释人工智能(XAI)广泛使用的范例,因为它们遵循人类熟悉的自然推理方式。然而,该领域最常见的方法是基于传达对人工智能决策特别重要的特征或特性的信息。然而,为了充分理解决策,不仅需要有关相关特征的知识,而且对不相关信息的认识也非常有助于创建人工智能系统的用户心理模型。为此,最近在概念层面上提出了一种解释人工智能系统的新方法,称为替代事实解释。它基于展示另一种现实,其中人工智能输入的不相关特征被改变。通过这样做,用户可以直接看到哪些输入数据特征可以任意改变,而不影响人工智能的决策。在本文中,我们首次表明可以将这一想法应用于基于神经网络的黑盒模型。为此,我们提出了一种基于 GAN 的方法来为二值图像分类器生成这些替代事实的解释。此外,我们还提出了一项用户研究,该研究就异事实解释如何补充反事实解释提供了有趣的见解。

在分布式混合现实协作中组织大型团体的实践知情模式

分类: 人机交互

作者: Emily Wong, Juan Sánchez Esquivel, Jens Emil Grønbæk, Germán Leiva, Eduardo Velloso

发布时间: 2024-05-08

链接: http://arxiv.org/abs/2405.04873v1

摘要: 跨不同的分布式空间进行协作给计算机辅助空间通信带来了许多挑战。混合现实 (MR) 可以混合选定的表面,使协作者能够以混合的 f 形(面形)工作,即使他们的工作站在物理上未对齐。由于协作通常不仅仅涉及参与者对,因此本研究探讨了我们如何扩展 MR 体验以实现大型团体协作。为此,本研究招募了协作设计师 (CD) 来评估和重新构想大规模协作的 MR。这些 CD 参与了一项由四部分组成的用户研究,其中包括技术探索、半结构化访谈、推测性低保真原型制作活动和验证会议。本文的成果贡献了 (1) 一套协作设计原则,以激发未来计算机支持的协作工作,(2) 混合 f-formations 和大规模协作的八种协作模式,以及 (3) f-formations 和协作的理论意义空间与地点的关系。因此,这项工作为跨分布式空间扩展协作创建了蓝图。

Metaverse 调查和教程:探索关键要求、技术、标准、应用、挑战和前景

分类: 人机交互, 人工智能

作者: Danda B. Rawat, Hassan El alami, Desta Haileselassie Hagos

发布时间: 2024-05-07

链接: http://arxiv.org/abs/2405.04718v1

摘要: 在本文中,我们对元宇宙进行了全面的调查,并将其视为下一代互联网技术的变革维度。这项研究不仅概述了我们调查的结构组成部分,而且还通过阐明虚拟宇宙出现的基本概念做出了重大的科学贡献。我们通过定义关键特征和要求来分析其架构,从而阐明彻底改变数字交互的新生现实。我们的分析强调了在制定元宇宙标准方面协作努力的重要性,从而促进行业利益相关者、组织和监管机构之间的统一理解。我们将审查范围扩大到虚拟世界不可或缺的关键技术,包括互动体验、通信技术、普适计算、数字孪生、人工智能和网络安全措施。对于每个技术领域,我们严格评估当前的贡献、主要技术和代表性用例,对其潜在影响提供细致入微的视角。此外,我们还深入研究了虚拟宇宙在教育、医疗保健、商业、社交互动、工业部门、国防和关键任务运营方面的多样化应用,强调了其广泛的实用性。每个应用程序都经过彻底分析,展示其价值并解决相关挑战。该调查最后概述了持续存在的挑战和未来方向,提供了对充分利用虚拟宇宙潜力所需的基本考虑因素和策略的见解。通过这项详细的调查,我们的目标是阐明这篇调查论文的科学贡献,超越单纯的结构概述,以强调虚拟宇宙的变革意义。

碳过滤器:使用大规模集群和快速搜索进行实时警报分类

分类: 密码学和安全, 机器学习

作者: Jonathan Oliver, Raghav Batta, Adam Bates, Muhammad Adil Inam, Shelly Mehta, Shugao Xia

发布时间: 2024-05-07

链接: http://arxiv.org/abs/2405.04691v1

摘要: “警报疲劳”是安全运营中心 (SOC) 当今面临的最大挑战之一,分析师花费一半以上的时间来审查虚假警报。端点检测产品通过事件遥测与描述潜在恶意行为的行为规则进行模式匹配来发出警报,但可能会遭受高误报,从而分散对实际攻击的注意力。虽然基于数据来源的警报分类技术可能会带来希望,但这些技术可能需要一分钟多的时间来检查单个警报,而 EDR 客户每天可能面临数千万个警报;当前的现实是,这些方法对于生产环境来说几乎没有足够的可扩展性。我们推出了 Carbon Filter,这是一种基于统计学习的系统,可大大减少分析师需要手动审查的警报数量。我们的方法基于这样的观察:通过检查启动负责进程的进程启动上下文(例如命令行),可以有效地识别错误警报触发器并将其与可疑行为分开。通过使用快速搜索算法进行训练和推理,我们的方法可以扩展到每天数百万个警报。通过对模型进行批量查询,我们观察到理论最大吞吐量为每小时 2000 万个警报。根据对客户部署的数千万个警报的分析,我们的解决方案将信噪比提高了 6 倍,同时又不影响警报分类性能。

Diff-IP2D:自我中心视频上基于扩散的手-物体交互预测

分类: 计算机视觉和模式识别

作者: Junyi Ma, Jingyi Xu, Xieyuanli Chen, Hesheng Wang

发布时间: 2024-05-07

链接: http://arxiv.org/abs/2405.04370v1

摘要: 了解人类在手部物体交互过程中的行为对于服务机器人操作和扩展现实中的应用至关重要。为了实现这一目标,最近提出了一些工作来同时预测人类以自我为中心的视频上的手部轨迹和物体可供性。它们被视为未来手与物体交互的代表,表明潜在的人类运动和动机。然而,现有方法大多采用自回归范式进行单向预测,缺乏整体未来序列内的相互约束,并且沿时间轴累积误差。同时,这些工作基本上忽略了相机自我运动对第一人称视角预测的影响。为了解决这些限制,我们提出了一种新颖的基于扩散的交互预测方法,即 Diff-IP2D,以迭代非自回归方式同时预测未来的手部轨迹和对象可供性。我们将连续的 2D 图像转换为潜在特征空间,并设计一个去噪扩散模型来预测以过去的潜在交互特征为条件的未来潜在交互特征。运动特征进一步集成到条件降噪过程中,使 Diff-IP2D 能够了解相机佩戴者的动态,从而实现更准确的交互预测。实验结果表明,我们的方法在现成的指标和我们提出的新评估协议方面都显着优于最先进的基线。这凸显了利用生成范式进行 2D 手部物体交互预测的有效性。 Diff-IP2D的代码将在https://github.com/IRMVLab/Diff-IP2D发布。

马尔可夫到达和服务分析及其在间歇性过载中的应用

分类: 表现, 可能性

作者: Isaac Grosof, Yige Hong, Mor Harchol-Balter

发布时间: 2024-05-07

链接: http://arxiv.org/abs/2405.04102v1

摘要: 几乎所有的排队分析都假设独立同分布。到达和服务。事实上,到达率和服务率会随着时间的推移而波动。特别是,实际系统经常会间歇性地经历过载,即到达率暂时超过服务率,这是独立同分布(i.i.d.)。模型无法捕获。我们考虑 MAMS 系统,其中到达率和服务率均根据任意有限状态马尔可夫链而变化,从而允许对间歇性过载进行建模。我们得出了 MAMS 系统中平均队列长度的第一个显式特征,并对所有负载下的所有到达和服务链具有显式界限。在交通拥堵的情况下,我们的界限很紧张。我们证明了对于具有间歇性过载的两级到达的重要特殊情况,有更强的界限。我们的主要贡献是基于相对到达和相对完成的新概念对漂移方法的扩展。这些量使我们能够轻松地捕获到达和服务过程对平均队列长度的瞬时相关影响。

当被问及当前上下文时,什么会影响用户回答的质量?

分类: 人机交互

作者: Ivano Bison, Haonan Zhao, Fausto Giunchiglia

发布时间: 2024-05-07

链接: http://arxiv.org/abs/2405.04054v1

摘要: 传感器数据提供了对现实的客观看法,但无法捕捉个人行为背后的主观动机。后一个信息对于了解个人背景的各个维度至关重要,从而提高可预测性。主要限制是人工输入,其质量通常达不到所需的水平。到目前为止,工作重点是解决通常大量缺失的答案。本文的重点是\textit{回答问题时犯的错误数量}。本文的主要贡献有三点。首先,我们表明用户的反应时间,即开始响应之前的时间,是导致答案质量低的主要原因,其影响既有直接的,也有间接的,后者与其对完成时间的影响有关,即,编译响应所花费的时间。其次,我们确定了对反应时间以及完成时间有影响的特定外源(例如,情境或时间背景)和内源(例如,情绪、个性特征)因素。第三,我们展示反应和完成时间如何影响答案质量。本文最后提出了一系列可行的建议。

OmniActions:利用大语言模型预测数字动作以响应现实世界的多模态感官输入

分类: 人机交互, 人工智能

作者: Jiahao Nick Li, Yan Xu, Tovi Grossman, Stephanie Santosa, Michelle Li

发布时间: 2024-05-06

链接: http://arxiv.org/abs/2405.03901v1

摘要: “普遍增强现实”的进展设想可以轻松地持续访问多模式信息。然而,在许多日常场景中,用户在身体、认知或社交方面都处于忙碌状态。这可能会增加对用户在世界上遇到的多模式信息采取行动的阻力。为了减少这种摩擦,未来的交互界面应该根据用户的上下文智能地提供对数字操作的快速访问。为了探索可能的数字操作范围,我们进行了一项日记研究,要求参与者捕获并分享他们打算执行操作的媒体(例如图像或音频),以及他们想要的操作和其他上下文信息。利用这些数据,我们生成了一个数字后续行动的整体设计空间,可以响应不同类型的多模态感官输入来执行该行动。然后,我们设计了 OmniActions,这是一个由大型语言模型 (LLM) 提供支持的管道,可处理多模式感官输入并预测基于派生设计空间的目标信息的后续操作。利用日记研究中收集的经验数据,我们对大语言模型技术的三种变体(意图分类、上下文学习和微调)进行了定量评估,并确定了对我们的任务最有效的技术。此外,作为管道的实例,我们开发了一个交互式原型,并报告了有关人们如何感知动作预测及其错误并做出反应的初步用户反馈。

无论是否获得许可:特定地点的增强现实促进社会正义

分类: 人机交互

作者: Rafael M. L. Silva, Ana María Cárdenas Gasca, Joshua A. Fisher, Erica Principe Cruz, Cinthya Jauregui, Amy Lueck, Fannie Liu, Andrés Monroy-Hernández, Kai Lukoff

发布时间: 2024-05-06

链接: http://arxiv.org/abs/2405.03898v1

摘要: 社会变革运动往往与特定地点联系在一起。这使得增强现实 (AR) 改变了人们对周围环境的感知,成为一项有前途的社会正义技术。特定地点的 AR 使活动家能够重新讲述一个地方的故事,无论是否经过其所有者的许可。例如,它被用来揭示隐藏的历史、重新想象有问题的纪念碑以及庆祝少数民族文化。然而,在技术所有权和可访问性、可扩展性、可持续性以及与边缘化社区和跨学科边界的合作方面仍然存在挑战。 CHI 2024 为期半天的研讨会旨在将活动家、计算机科学家、设计师、媒体学者等跨学科小组聚集在一起,以确定跨领域的机遇和挑战。为了锚定讨论,参与者将各自分享一个用于推测、设计和/或提供特定站点 AR 体验的工件示例。这批文物将开创一个交互式数据库,激发新一波活动人士利用 AR 实现社会正义。

像素感知:理解视频介导的协作交互中的头像表示

分类: 人机交互, H.5.1; H.5.3; J.4

作者: Pitch Sinlapanuntakul, Mark Zachry

发布时间: 2024-05-06

链接: http://arxiv.org/abs/2405.03844v1

摘要: 尽管有关虚拟现实 (VR) 化身的研究非常丰富,但基于屏幕或增强现实 (AR) 化身对现实世界应用的影响仍然相对未经探索。值得注意的是,缺乏研究使用 AR 化身进行以目标为导向的小组活动的视频介导的协作交互体验。这项研究通过混合方法、准实验性用户研究弥补了这一差距,该研究研究了使用 AR 化身而不是传统视频来表示用户时基于视频的小组交互。我们发现,使用化身对自尊和基于视频的协作满意度产生积极影响。此外,我们的小组访谈结果强调了在视频介导的协作交互中动态使用化身的经验和看法,包括好处、挑战以及影响使用化身决定的因素。这项研究有助于对基于视频的协作交互中的化身表征的实证理解、围绕采用 AR 化身的影响和感知,以及对用户表征之间关键特征的全面比较。

可解释人工智能 (XAI) 中的错误安全感

分类: 计算机与社会, 人工智能, 人机交互

作者: Neo Christopher Chung, Hongkyou Chung, Hearim Lee, Hongbeom Chung, Lennart Brocki, George Dyer

发布时间: 2024-05-06

链接: http://arxiv.org/abs/2405.03820v1

摘要: 对欧盟和美国人工智能法规和政策的谨慎解释将可解释性作为合规人工智能系统的核心交付成果。然而,从技术角度来看,可解释的人工智能(XAI)仍然是一个难以捉摸且复杂的目标,即使是最先进的方法也常常会得出错误、误导性和不完整的解释。 “可解释性”有多种含义,通常可以互换使用,并且 XAI 方法的数量甚至更多,但没有一种具有明显的优势。事实上,每种 XAI 方法都有多种故障模式,需要针对特定​​应用进行开发和持续评估。在本文中,我们分析了美国和欧盟的立法和政策发展,例如《关于安全、可靠和可信地开发和使用人工智能的行政命令》、《人工智能法案》、《人工智能责任指令》和《人工智能责任指令》。从解释权的角度来看《通用数据保护条例》(GDPR)。我们认为,这些人工智能法规和当前的市场状况威胁到了有效的人工智能治理和安全,因为值得信赖、负责和透明的人工智能目标与人工智能运营商提供有意义的解释的能力存疑有着内在联系。除非政夏艾。

混合现实增强的半自主机器人拆卸

分类: 机器人技术

作者: Alireza Rastegarpanah, Cesar Alan Contreras, Rustam Stolkin

发布时间: 2024-05-06

链接: http://arxiv.org/abs/2405.03530v1

摘要: 在这项研究中,我们介绍了“SARDiM”,这是一个通过混合现实增强的模块化半自主平台,用于工业拆卸任务。通过专注于电动汽车电池拆卸的案例研究,SARDiM 集成了混合现实、对象分割、远程操作、力反馈和可变自主性。 SARDiM 利用 ROS、Unity 和 MATLAB 平台以及联合阻抗控制器,促进远程操作拆卸。该方法结合了 FastSAM 进行实时对象分割,生成数据,随后通过聚类分析算法进行处理,以确定组件的质心和方向,并按大小和拆卸优先级对它们进行分类。该数据指导 MoveIt 平台为 Franka 机器人手臂进行轨迹规划。 SARDiM 提供在两种远程操作模式之间切换的能力:手动模式和具有可变自主性的半自主模式。每个方法都使用四种不同的界面方法 (IM) 进行评估:直接视图、监视器馈送、带有监视器馈送的混合现实以及点云混合现实。对八个 IM 的评估表明,使用模式 2,联合极限违规次数减少了 40.61%。此外,模式 2-IM4 的性能优于模式 1-IM1,时间减少了 2.33%,同时显着提高了安全性,使其成为在危险环境中运行的最佳选择在安全距离内,与直接查看环境的远程操作一样易于使用。

6G 及后续智能超表面概述:机遇、趋势和挑战

分类: 网络和互联网架构, 信号处理

作者: Mayur Katwe, Aryan Kaushik, Lina Mohjazi, Mohammad Abualhayja'a, Davide Dardari, Keshav Singh, Muhammad Ali Imran, M. Majid Butt, Octavia A. Dobre

发布时间: 2024-05-06

链接: http://arxiv.org/abs/2405.03356v1

摘要: 随着第六代(6G)无线通信技术即将到来,电信格局即将迎来另一场革命性变革。处于这一发展前沿的是智能超表面(IS),它作为一种颠覆性的物理层技术而出现,有可能重新定义未来无线网络的功能和性能指标。随着 6G 从概念演变为现实,行业利益相关者、标准组织和监管机构正在合作定义管理 IS 部署的规范、协议和互操作性标准。在此背景下,本文深入探讨了围绕将 IS 集成到 6G 及其他网络框架中正在进行的标准化工作、新兴趋势、潜在机遇和普遍挑战。具体来说,它以教程式的方式概述了 IS 的最新进展,并探讨了它们在 6G 以外的未来网络中的潜在应用。此外,本文还指出了各种类型智能表面的设计和实现中的主要挑战,以及对其实际标准化的考虑。最后,它强调了这个不断发展的领域的潜在未来前景。

基于深度学习的点云配准增强现实引导手术

分类: 计算机视觉和模式识别, 机器学习

作者: Maximilian Weber, Daniel Wild, Jens Kleesiek, Jan Egger, Christina Gsaxner

发布时间: 2024-05-06

链接: http://arxiv.org/abs/2405.03314v1

摘要: 点云配准使用空间变换来对齐 3D 点云。这是计算机视觉领域的一项重要任务,在增强现实(AR)和医学成像等领域都有应用。这项工作探索了两种研究趋势的交叉点:将 AR 集成到图像引导手术中以及使用深度学习进行点云配准。主要目的是评估在增强现实引导手术中应用基于深度学习的点云配准方法进行图像到患者配准的可行性。我们根据医学成像和流行的 AR 设备 HoloLens 2 捕获的相应点云创建了一个数据集。我们在注册这些数据对时评估了三个成熟的深度学习模型。虽然我们发现一些深度学习方法显示出希望,但我们表明传统的配准管道在我们具有挑战性的数据集上仍然优于它们。

评估虚拟现实中的眼动生物识别技术:VR 耳机和高端眼动仪收集数据集的比较分析

分类: 人机交互

作者: Mehedi Hasan Raju, Dillon J Lohr, Oleg V Komogortsev

发布时间: 2024-05-06

链接: http://arxiv.org/abs/2405.03287v1

摘要: 先前的研究表明,以 1000 Hz 记录的眼动数据可用于对个人进行身份验证。本研究利用支持眼动追踪 (ET) 的虚拟现实 (VR) 耳机 (GazeBaseVR) 的数据,探索基于眼动的生物识别 (EMB) 的有效性,并将其与使用高端眼部数据的性能进行比较跟踪器 (GazeBase) 已下采样至 250 Hz。该研究还旨在评估双眼和单眼眼球运动数据的生物识别潜力。 GazeBaseVR 数据集在双目配置中实现了 1.67% 的等错误率 (EER) 和 10^-4 错误接受率 (FAR) 时的错误拒绝率 (FRR) 22.73%。这项研究强调了从支持眼球追踪的 VR 耳机获得的数据的生物识别可行性。

通过 AR 实现叙事变革:取代单一故事以创造空间正义

分类: 人机交互

作者: Janice Tisha Samuels

发布时间: 2024-05-05

链接: http://arxiv.org/abs/2405.02971v1

摘要: 在青少年枪支暴力预防项目的文物及其叙事改变的目标中,探索了增强现实通过多维度克服单一故事偏见的能力。

通过非侵入式基于梯度的元求解加速传统数值求解器

分类: 机器学习, 数值分析, 数值分析

作者: Sohei Arisaka, Qianxiao Li

发布时间: 2024-05-05

链接: http://arxiv.org/abs/2405.02952v1

摘要: 科学计算是科学发现和工程设计的重要工具,其计算成本始终是实践中关注的主要问题。为了加速科学计算,使用机器学习(尤其是元学习)技术来选择传统数值方法的超参数是一种有前途的方法。这个方向已经有很多建议,但其中许多需要自动微分数值方法。然而,实际上,许多实际应用仍然依赖于完善但非自动可微分的遗留代码,这阻碍了从业者将最先进的研究应用于自己的问题。为了解决这个问题,我们提出了一种非侵入式方法,采用新颖的梯度估计技术,将机器学习和遗留数字代码结合起来,无需任何修改。我们从理论上和数值上展示了所提出的方法相对于其他基线的优势,并展示了在 PETSc(一个广泛使用的开源数值软件库)中实现的加速已建立的非自动可微数值求解器的应用。

使用路径追踪和 IMPM 模拟支持滑动和旋转的光学触觉传感器

分类: 机器人技术

作者: Zirong Shen, Yuhao Sun, Shixin Zhang, Zixi Chen, Heyi Sun, Fuchun Sun, Bin Fang

发布时间: 2024-05-05

链接: http://arxiv.org/abs/2405.02914v1

摘要: 光学触觉传感器因其能够以较低的成本获取高分辨率的触觉信息而广泛应用于智能机器人操作。然而,在模拟光学触觉传感器时实现足够的真实性和多功能性具有挑战性。在本文中,我们提出了一种模拟方法并通过实验验证其有效性。我们利用路径追踪进行图像渲染,在模拟按压场景时比基线方法与真实数据具有更高的相似度。此外,我们应用改进的材质点法(IMPM)算法来模拟物体运动时物体与弹性体表面之间的相对静止,从而能够更准确地模拟滑动和旋转等复杂操作。

最优控制总是受益于更好的预测吗?预测最优控制的分析框架

分类: 系统与控制, 系统与控制

作者: Xiangrui Zeng, Cheng Yin, Zhouping Yin

发布时间: 2024-05-05

链接: http://arxiv.org/abs/2405.02809v1

摘要: “预测+最优控制”方案在汽车、交通、机器人、楼宇控制等众多应用中表现出了良好的性能。在实践中,在最优控制设计过程中,简单地认为预测结果是正确的。然而,实际上,这些预测可能永远不会完美。在传统的随机最优控制公式下,很难回答诸如“如果预测错误怎么办”之类的问题。本文提出了一个预测最优控制的分析框架,其中对未来的主观信念不再被认为是完美的。提出了一种称为隐藏预测状态的新概念,以在预测变量、主观信念、控制策略和客观控制性能之间建立联系。基于该框架,分析了预测器评估问题。考虑了三种常用的预测评估指标,包括均方误差、遗憾和对数似然。结果表明,无论是使用均方误差还是使用似然度都不能保证预测误差与最优控制成本之间的单调关系。为了保证控制成本的改善,建议使用控制性能来评估预测器,例如使用最优控制成本或遗憾来评估预测器。提供了数值示例和来自汽车应用的实际驾驶数据示例来说明想法和结果。

VR Isle Academy:用于机器人手术技能开发的 VR 数字孪生方法

分类: 机器人技术, 图形

作者: Achilleas Filippidis, Nikolaos Marmaras, Michael Maravgakis, Alexandra Plexousaki, Manos Kamarianakis, George Papagiannakis

发布时间: 2024-05-04

链接: http://arxiv.org/abs/2406.00002v2

摘要: 当代机器人领域的进步以效率和稳定性的提高为标志,为手术机器人系统(SRS)的全球采用铺平了道路。虽然这些系统通过提供更准确、侵入性更小的手术方法来提高外科医生的技能,但它们的成本相当高。此外,SRS 组件通常涉及重型机械,由于使用此类设备的机会有限,使得培训过程充满挑战。在本文中,我们介绍了一种经济高效的方法,通过具有手部跟踪和脚部跟踪支持的便携式、与设备无关的超现实模拟来促进 SRS 模拟器的培训。错误评估可以实时和离线方式进行,从而可以监控和跟踪用户的表现。 VR 应用程序已由几位未经培训的测试人员进行了客观评估,结果表明,随着培训课程数量的增加,错误指标显着减少。这表明所提出的名为 VR Isle Academy 的 VR 应用程序运行高效,以直观和身临其境的方式提高了测试人员的机器人控制技能,以最小的成本缩短了学习曲线。

现实主义和表征对沉浸式虚拟环境中自我体现化身的影响

分类: 人机交互, 图形

作者: Rafael Kuffner dos Anjos, João Madeiras Pereira

发布时间: 2024-05-04

链接: http://arxiv.org/abs/2405.02672v1

摘要: 虚拟现实 (VR) 最近随着许多新型且价格更加实惠的设备的发布而受到关注。这种交互范式的日益普及催生了新的应用程序,并吸引了休闲消费者体验 VR。在共享虚拟空间内提供用户全身的自我体现(化身)可以改善 VR 体验,并使其对新用户和有经验的用户都更具吸引力。这在完全沉浸式系统中尤其重要,因为设备完全遮挡了现实世界,导致自我意识出现问题。事实上,用户的存在感很大程度上受到他们的虚拟表征的影响,尽管小缺陷可能会导致恐怖谷副作用。根据之前的研究,我们希望评估使用第三人称视角是否也可以通过改进用户对虚拟环境的空间感知而有益于 VR 体验。在本文中,我们研究了 VR 设置中自然任务(例如行走和避开障碍物)中自我体现表征的真实性和视角。我们将第一人称和第三人称视角与虚拟形象表现的三种不同的现实主义水平进行比较。这些范围从程式化的抽象头像到“现实”的基于网格的人形表示和点云渲染。后者使用通过深度传感器捕获的数据并将其映射到虚拟环境中的虚拟自我。我们对这些不同的表现形式进行了全面的评估和比较,描述了一系列针对自我体现的 VR 应用的指南。恐怖谷的影响也在导航和基于反射的任务中进行了讨论。

通过最小化意外来激发机器人群的内在动机:从简单的模拟到现实世界的实验

分类: 机器人技术, 多代理系统, 神经和进化计算

作者: Tanja Katharina Kaiser, Heiko Hamann

发布时间: 2024-05-04

链接: http://arxiv.org/abs/2405.02579v1

摘要: 大规模移动多机器人系统的应用比单片机器人更有利,因为它具有更高的鲁棒性和可扩展性潜力。开发多机器人系统的控制器具有挑战性,因为大量的交互难以预测且难以建模。使用机器学习或进化机器人技术的自动设计似乎是避免这一挑战的选择,但带来了设计奖励或健身功能的挑战。通用奖励和适应度功能似乎不太可能存在,并且特定于任务的奖励通常会产生不良副作用。所谓的内在动机方法试图避免奖励的具体制定,而是利用不同的驱动因素,例如好奇心。我们实现先天动机的方法是最大限度地减少意外,这是通过使用神经进化最大限度地提高群体机器人传感器预测的准确性来实现的。群体机器人案例的一个独特优势是,群体成员填充机器人的环境,并且可以在自我参照循环中触发更活跃的行为。我们总结了之前基于模拟的关于行为多样性、鲁棒性、可扩展性和工程自组织的结果,并将它们放入上下文中。在几项新研究中,我们分析了优化器超参数的影响、进化行为的可扩展性以及现实机器人模拟的影响。最后,我们使用真实的机器人展示了结果,展示了如何弥合现实差距。

MemorAI:针对虚拟化 RAN 的节能末级缓存内存优化

分类: 网络和互联网架构

作者: Ethan Sanchez Hidalgo, J. Xavier Salvat Lozano, Jose A. Ayala-Romero, Andres Garcia-Saavedra, Xi Li, Xavier Costa-Perez

发布时间: 2024-05-03

链接: http://arxiv.org/abs/2405.02029v1

摘要: 得益于灵活性和成本效益等优势,无线接入网络 (vRAN) 虚拟化正在成为现实。然而,虚拟化的代价很高——共享同一计算平台的虚拟基站(vBS)由于共享高速缓存资源的极端消耗而产生大量的计算开销。因此,vRAN 的能耗增加,进一步加剧了 5G 网络本已很高的运营成本。本文研究了缓存内存分配机制在降低总能耗方面的有效性。使用实验性 vRAN 平台,我们将 vBS 的能耗和 CPU 利用率分析为网络状态(例如流量需求、调制方案)的函数。然后,我们通过按 vBS 分解问题来解决问题的高维性,这要归功于我们系统中实现的末级缓存 (LLC) 隔离。基于此,我们训练了一个vBS数字孪生,它允许我们离线训练分类器,避免训练过程中系统性能下降。我们的结果表明,我们的方法的性能非常接近离线最佳预言机,优于当今部署中使用的标准方法。

手术中增强现实系统的半自动红外校准

分类: 机器人技术

作者: Hisham Iqbal, Ferdinando Rodriguez y Baena

发布时间: 2024-05-03

链接: http://arxiv.org/abs/2405.01999v1

摘要: 增强现实 (AR) 允许外科医生将注意力集中在手术部位而不是手术室的外部显示器上,从而有可能提高计算机辅助骨科手术 (CAOS) 的沉浸感和效率。 AR到CAOS的成功部署需要能够准确计算真实物体和全息物体之间的空间关系的校准。一些研究尝试通过手动对齐或在手术场景中使用额外的基准标记来进行这种校准。我们提出了一种校准系统,通过使用 CAOS 中广泛使用的红外反射标记阵列,为使用 CAOS 系统校准 AR 头戴式显示器 (HMD) 提供直接方法。在我们与用户无关的快速设置中,HoloLens 2 使用红外响应和通过 HMD 上的传感器获得的飞行时间深度来检测标记阵列的姿态。当红外标记阵列对两个设备都可见时,即可实现与市售 CAOS 系统的注册。研究测试发现,在短距离计算两个静态标记阵列之间的相对位姿时,相对跟踪平均误差为 2.03 毫米和 1.12{\deg}。当使用校准结果为模拟导丝任务提供原位全息引导时,临床前测试报告与预先计划的轨迹相比平均误差为 2.07 毫米和 1.54{\deg}。

用于自动驾驶功能安全测试的系统数据采集和数据驱动仿真方法

分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 人机交互, 机器学习

作者: Leon Eisemann, Mirjam Fehling-Kaschek, Henrik Gommel, David Hermann, Marvin Klemp, Martin Lauer, Benjamin Lickert, Florian Luettner, Robin Moss, Nicole Neis, Maria Pohle, Simon Romanski, Daniel Stadler, Alexander Stolz, Jens Ziehn, Jingxing Zhou

发布时间: 2024-05-02

链接: http://arxiv.org/abs/2405.01776v1

摘要: 随着道路交通及其操作设计领域 (ODD) 中自动驾驶功能的复杂性和重要性不断增加,对在虚拟环境中并通过仿真模型进行大部分开发、验证和验证的需求不断增加。然而,如果模拟不仅是为了增强现实世界的实验,而是为了取代它们,那么就需要定量方法来衡量模拟模型在多大程度上以及在什么前提条件下充分代表现实,从而相应地使用它们的结果。特别是在与“开放世界”的安全影响相关的研发领域,用于参数化和/或验证模拟的真实世界数据严重缺乏——尤其是关于人类交通参与者的行为,自动驾驶功能将影响他们的行为。在混合交通中相遇。我们提出了一种通过异构方式系统地获取公共交通数据,将其转换为统一表示,并用它自动参数化交通行为模型的方法,用于自动驾驶功能的数据驱动虚拟验证。

用于完全可解释的旅行行为分析的深度因果推理模型

分类: 机器学习

作者: Kimia Kamal, Bilal Farooq

发布时间: 2024-05-02

链接: http://arxiv.org/abs/2405.01708v1

摘要: 交通政策评估经常涉及因果问题,但传统出行行为模型的因果推理能力充其量是有限的。我们提出了旅行行为分析的深度因果推理模型(CAROLINA),这是一个通过利用因果推理、深度学习和传统离散选择建模来显式建模旅行行为中的因果关系、提高预测准确性并保持可解释性的框架。在此框架内,我们引入了一种生成反事实模型,通过采用归一化流方法来预测人类行为。通过基于虚拟现实的行人过路行为的案例研究、揭示伦敦的偏好出行行为以及合成数据,我们证明了我们提出的模型在揭示因果关系、预测准确性和评估政策干预方面的有效性。我们的结果表明,可以降低行人压力水平的干预机制使等待时间缩短的人数增加了 38.5%。伦敦出行距离的缩短使得可持续出行方式增加了 47%。

增强现实中的注意力和感觉处理:增强多动症人群的能力

分类: 人机交互

作者: Shiva Ghasemi, Majid Behravan, Sunday Uber, Denis Gracanin

发布时间: 2024-05-02

链接: http://arxiv.org/abs/2405.01218v1

摘要: 大脑的注意力系统是一个复杂且自适应的大脑区域网络,使个体能够与周围环境有效互动并执行复杂的任务。该系统涉及各个大脑区域的协调,包括前额皮质和顶叶,以处理和优先考虑感觉信息、管理任务和保持注意力。在这项研究中,我们研究了支撑大脑注意力系统的复杂机制,然后在增强现实 (AR) 设置的背景下进行了探索。 AR 作为一种可行的技术干预措施,可以解决注意力缺陷多动障碍 (ADHD) 患者面临的多方面挑战。鉴于 ADHD 的主要特征包括与注意力不集中、多动和冲动相关的困难,AR 提供了专门为缓解这些挑战并增强认知功能而设计的定制解决方案。另一方面,如果这些与多动症相关的问题没有得到充分解决,可能会导致他们的 AR 状况恶化。这强调了采用 AR 等有效干预措施来支持 ADHD 患者控制症状的重要性。我们研究了 AR 环境中的注意力机制以及 ADHD 人群中普遍存在的感觉处理动态。我们的目标是全面满足这一人群在 AR 设置中的注意力需求,并提供一个用于设计认知可访问的 AR 应用程序的框架。

基于多模态和多视图传感器的运动员跟踪和姿势估计的运动分析和 VR 观看系统

分类: 计算机视觉和模式识别

作者: Wenxuan Guo, Zhiyu Pan, Ziheng Xi, Alapati Tuerxun, Jianjiang Feng, Jie Zhou

发布时间: 2024-05-02

链接: http://arxiv.org/abs/2405.01112v1

摘要: 体育分析和观看在当前体育领域发挥着举足轻重的作用,不仅为教练和运动员提供了重要价值,也为球迷和媒体提供了重要价值。近年来,虚拟现实(VR)和增强现实(AR)技术的快速发展为观看比赛带来了新的平台。 VR/AR体育赛事可视化代表了一项革命性的技术,为观众提供了新颖的沉浸式观看体验。但目前该领域仍缺乏相关研究。在这项工作中,我们首次提出了一个在 VR/AR 平台上进行体育比赛分析和实时可视化的综合系统。首先,我们利用多视图激光雷达和摄像机来收集多模式游戏数据。随后,我们提出了一个基于有限数量的监督数据的多人跟踪和姿势估计框架,该框架从点云和图像中提取精确的玩家位置和运动。此外,我们对玩家进行头像建模以获得他们的3D模型。最终,利用这些3D球员数据,我们在VR/AR上进行比赛分析和实时可视化。大量的定量实验证明了我们的多人跟踪和姿势估计框架的准确性和鲁棒性。可视化结果展示了我们的体育可视化系统在 VR/AR 设备上观看比赛领域的巨大潜力。我们收集的多模态竞赛数据集和所有相关代码即将发布。

使用模式来指导方法设计实践

分类: 人机交互

作者: Shruthi Sai Chivukula, Colin M. Gray

发布时间: 2024-05-01

链接: http://arxiv.org/abs/2405.00901v1

摘要: 有许多不同形式的设计知识可以指导和塑造设计师行动和实现潜在现实的能力。方法和模式是设计研究人员和设计师等常用的设计知识的例子。在这张图中,我们探索、参与和描述了模式作为工具的作用,它可以支持设计研究人员制定支持设计行动的方法,我们的方法设计框架特别关注道德设计的复杂性。我们为方法设计者提供了四种参与模式的方法:1)系统通过 A.E.I.O.YOU 模式来操作复杂的设计结构,例如道德设计的复杂性; 2)分类器映射现有方法并通过描述性语义差异识别新方法的可能性; 3)通过从研究到设计的创造性偏离,能够创建与图式的一个或多个元素相关的方法的工具; 4) 互动渠道,通过模式交互性有趣地利用潜在的新机会。

支持扩展现实服务的跨集群网络

分类: 网络和互联网架构

作者: Theodoros Theodoropoulos, Luis Rosa, Abderrahmane Boudi, Tarik Zakaria Benmerar, Antonios Makris, Tarik Taleb, Luis Cordeiro, Konstantinos Tserpes, JaeSeung Song

发布时间: 2024-05-01

链接: http://arxiv.org/abs/2405.00558v1

摘要: 扩展现实 (XR) 是指与大量相当苛刻的服务质量 (QoS) 和功能要求交织在一起的一类当代服务。尽管 Kubernetes 是部署和管理当代容器化微服务的事实标准,但它缺乏对跨集群网络的足够支持,阻碍了跨不同云域的服务间通信。尽管有一些工具可以与 Kubernetes 一起使用来建立多集群部署,但它们中的每一种都有其缺点和限制。本文的目的是探索可促进多集群部署的各种潜在技术,并提出如何利用它们来提供跨集群连接解决方​​案,以满足 XR 服务的复杂性。所提出的解决方案基于使用两个开源框架,即用于多集群管理的 Cluster API 和用于多集群互连的 Liqo。该方法的效率是在两个实验的背景下进行评估的。这项工作是首次尝试提出一种以符合 XR 服务要求的方式支持多集群部署的解决方案

NeRF 引导的 RGB-D 配准无监督学习

分类: 计算机视觉和模式识别

作者: Zhinan Yu, Zheng Qin, Yijie Tang, Yongjun Wang, Renjiao Yi, Chenyang Zhu, Kai Xu

发布时间: 2024-05-01

链接: http://arxiv.org/abs/2405.00507v1

摘要: 本文重点关注在没有地面实况姿态监督的情况下训练鲁棒的 RGB-D 配准模型。现有方法通常采用基于可微分渲染的成对训练策略,该策略强制两个配准帧之间的光度和几何一致性作为监督。然而,由于光照变化、几何遮挡和反光材料等因素,这种帧到帧框架的多视图一致性较差。在本文中,我们提出了 NeRF-UR,一种用于无监督 RGB-D 配准的新型帧到模型优化框架。我们利用神经辐射场 (NeRF) 作为场景的全局模型,并使用输入和 NeRF 重新渲染帧之间的一致性来进行姿势优化,而不是帧到帧的一致性。这种设计可以显着提高多视图一致性较差场景下的鲁棒性,为配准模型提供更好的学习信号。此外,为了引导 NeRF 优化,我们通过逼真的模拟器创建一个合成数据集 Sim-RGBD 来预热配准模型。通过首先在 Sim-RGBD 上训练配准模型,然后对真实数据进行无监督微调,我们的框架能够将特征提取和配准能力从模拟提炼到现实。我们的方法在两个流行的室内 RGB-D 数据集 ScanNet 和 3DMatch 上优于最先进的方法。代码和模型将被发布用于纸质复制。

使用知识图和大型语言模型对自动驾驶道路用户行为进行基于 RAG 的可解释预测

分类: 机器学习, 人工智能, 计算和语言, 信息检索, 神经和进化计算

作者: Mohamed Manzour Hussien, Angie Nataly Melo, Augusto Luis Ballardini, Carlota Salinas Maldonado, Rubén Izquierdo, Miguel Ángel Sotelo

发布时间: 2024-05-01

链接: http://arxiv.org/abs/2405.00449v1

摘要: 近年来,自动驾驶背景下的道路使用者行为预测引起了科学界的广泛关注。大多数工作专注于仅基于运动学信息来预测行为,这是对现实的简化,因为道路使用者是人类,因此他们受到周围环境的高度影响。此外,大量的研究工作依赖于强大的深度学习技术,这些技术在预测任务中表现出高性能指标,但可能缺乏充分理解和利用道路场景中包含的上下文语义信息的能力,更不用说它们无法提供人类可以理解的可解释的预测。在这项工作中,我们提出了一种可解释的道路使用者行为预测系统,该系统通过使用检索增强生成(RAG)技术集成了知识图(KG)的推理能力和大型语言模型(LLM)的表达能力。为此,将知识图嵌入 (KGE) 和贝叶斯推理相结合,以允许部署完全归纳推理系统,该系统能够发布依赖于图中包含的遗留信息以及实时收集的当前证据的预测通过机载传感器。按照所提出的方法,已经实施了两个用例:1)预测行人过马路行为; 2)车道变换操作的预测。在这两种情况下,所获得的性能在预期和 F1 分数方面都超过了当前的技术水平,为该领域的未来研究展示了一个有希望的途径。

学习现实世界中的触觉插入

分类: 机器人技术

作者: Daniel Palenicek, Theo Gruner, Tim Schneider, Alina Böhm, Janis Lenz, Inga Pfenning, Eric Krämer, Jan Peters

发布时间: 2024-05-01

链接: http://arxiv.org/abs/2405.00383v1

摘要: 人类拥有卓越的触觉感知能力,可以利用这种能力来解决仅靠视觉观察无法解决的具有挑战性的、部分可观察的任务。触觉传感研究试图为机器人解锁这种新的输入方式。最近,这些传感器变得更加便宜,因此被广泛使用。与此同时,如何将它们集成到控制回路中的问题仍然是一个活跃的研究领域,其核心挑战是部分可观察性和操纵任务的接触丰富性。在这项研究中,我们建议使用强化学习来学习端到端策略,直接从触觉传感器读数映射到动作。具体来说,我们在模拟和真实系统中使用 Dreamer-v3 和 Franka Research 3 来执行一项具有挑战性、部分可观察的机器人插入任务。对于实际设置,我们构建了一个能够完全自主重置的机器人平台,允许在没有人工监督的情况下进行广泛的训练。我们的初步结果表明,Dreamer 能够利用触觉输入来解决模拟和现实中的机器人操作任务。此外,我们发现为机器人提供触觉反馈通常可以提高任务性能,尽管在我们的设置中,我们尚未包含其他传感方式。未来,我们计划利用我们的平台来评估触觉任务上的各种其他强化学习算法。

学习虚拟现实中全向图像的高质量导航和缩放

分类: 人机交互, 人工智能, 计算机视觉和模式识别, 多媒体

作者: Zidong Cao, Zhan Wang, Yexin Liu, Yan-Pei Cao, Ying Shan, Wei Zeng, Lin Wang

发布时间: 2024-05-01

链接: http://arxiv.org/abs/2405.00351v1

摘要: 在虚拟现实 (VR) 中查看全向图像 (ODI) 代表了一种新颖的媒体形式,可为用户提供沉浸式体验,以导航数字内容并与之交互。尽管如此,这种沉浸感可能会因模糊效果而受到极大损害,模糊效果会掩盖细节并妨碍用户与感兴趣的对象互动的能力。在本文中,我们提出了一种名为 OmniVR 的新颖系统,旨在增强 VR 导航过程中的视觉清晰度。我们的系统使用户能够轻松定位并放大 VR 中感兴趣的对象。它捕获用户的导航和缩放命令,将这些输入转换为莫比乌斯变换矩阵的参数。利用这些参数,使用基于学习的算法对 ODI 进行改进。由此产生的 ODI 在 VR 媒体中呈现,有效减少模糊并提高用户参与度。为了验证我们系统的有效性,我们首先在公共数据集上使用最先进的方法评估我们的算法,该算法取得了最佳性能。此外,我们进行了全面的用户研究,以评估不同场景下的观看者体验,并从多个角度收集他们的定性反馈。结果表明,我们的系统通过提高观众的认知度、减少不适感和改善整体沉浸式体验来增强用户参与度。我们的系统使导航和缩放更加用户友好。

寻找白人男性:政治谷歌搜索中算法性别和种族偏见的普遍性和后果

分类: 计算机与社会

作者: Tobias Rohrbach, Mykola Makhortykh, Maryna Sydorova

发布时间: 2024-05-01

链接: http://arxiv.org/abs/2405.00335v1

摘要: 像谷歌这样的搜索引擎已经成为主要的信息看门人,它们使用人工智能(AI)来确定选民在搜索政治信息时会发现谁和什么。本文在一系列四项研究中提出并测试了少数群体的算法表示框架。首先,对政治图像搜索的两项算法审核描述了搜索引擎如何通过低估和歪曲女性和非白人政客来反映和维护结构性不平等。其次,两个在线实验表明,算法表示中的这些偏见反过来扭曲了对政治现实的看法,并积极强化了白人和男性化的政治观点。总之,这些结果对于科学理解人工智能技术如何放大政治观念和决策中的偏见具有实质性影响。这篇文章为正在进行的关于算法公平与不公正的公开辩论和跨学科研究做出了贡献。

相关