MiX Knowledge

采用毫米波阵列的 XR 头戴式显示器的通道性能指标和评估

分类： 信号处理

作者： Alexander Marinek, Xuesong Cai, Lieven De Strycker, Fredrik Tufvesson, Liesbet Van der Perre

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19297v1

摘要： 毫米波 (mmWave) 技术可实现与附近可进行复杂视频渲染的处理节点的高速无线通信，从而有望彻底改变头戴式显示器 (HMD)。然而，毫米波通道的稀疏角度轮廓，加上贴片天线阵列的窄视场 (FoV) 和频繁的 HMD 旋转，可能会导致性能不佳。我们引入了六个通道性能指标来评估配备毫米波阵列的 HMD 的性能。我们使用分析模型分析指标，讨论它们对应用的影响，并将其应用于 28 GHz 通道探测数据，这些数据是在会议室中使用八个 HMD 贴片天线阵列收集的，这些天线阵列在方位角上彼此偏移 45 度。我们的研究结果证实，由于 FoV 较窄，单个阵列的性能较差，因此需要沿 HMD 方位角采用多个阵列。也就是说，更宽的 FoV 可以稳定 HMD 旋转期间的通道增益，减少视线 (LoS) 障碍造成的衰减，并提高通道的空间复用能力。根据我们的研究结果，我们得出的结论是，必须为 HMD 配备多个阵列，或者作为替代方法，通过利用分布式接入点 (AP) 基础设施来整合宏观多样性。

将视觉触觉传感与触觉反馈集成用于遥控机器人操作

分类： 机器人技术

作者： Noah Becker, Erik Gattung, Kay Hansel, Tim Schneider, Yaonan Zhu, Yasuhisa Hasegawa, Jan Peters

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19585v1

摘要： 远程机器人使人类能够克服空间限制，并允许他们与远程位置的环境进行物理交互。然而，系统向操作员提供的感官反馈通常是纯粹的视觉反馈，限制了操作员在操作任务中的灵活性。在这项工作中，我们通过为机器人的末端执行器配备高分辨率视觉触觉 GelSight 传感器来解决这个问题。使用低成本的 MANUS 手套，我们以振动信号的形式为操作员提供有关作用在接触点的力的触觉反馈。我们提出了两种不同的方法来估计这些力；一种基于估计传感器表面标记的运动，另一种是深度学习方法。此外，我们将我们的系统集成到虚拟现实远程操作管道中，其中人类操作员控制 Tiago 机器人的双臂，同时接收视觉和触觉反馈。我们相信，集成触觉反馈是遥控机器人系统灵巧操纵的关键一步。

扰动下时间图中的可达性

分类： 离散数学, 组合学

作者： Jessica Enright, Laura Larios-Jones, Kitty Meeks, William Pettersson

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19479v1

摘要： 时间图上的可达性和其他基于路径的度量可用于了解建模系统中感染、信息和人员的传播。由于报告中的延迟和错误，从数据导出的时间图不太可能完美反映现实，特别是在边缘出现的精确时间方面。为了反映这种不确定性，我们考虑一个模型，其中一些 $\zeta$ 的边缘出现的时间戳可能会受到 $\pm\delta$ 的干扰，对于某些 $\delta$ 来说。在此模型中，我们研究时间可达性并考虑确定任何顶点在这些扰动下可以到达的最大顶点数的问题。我们证明这个问题一般来说是棘手的，但当 $\zeta$ 足够大时可以有效解决。我们还提供了在几种受限设置下解决此问题的算法。我们用一些关于扰动下相关时间偏心率问题的复杂性的对比结果来补充这一点。

从量子力学到量子软件工程

分类： 量子物理学, 软件工程

作者： Giuseppe Bisicchia, Jose Garcia-Alonso, Juan M. Murillo, Antonio Brogi

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19428v1

摘要： 维克多·雨果的永恒观察“没有什么比时机已到的想法更强大的了”，在今天引起了共鸣，因为量子计算曾经只是物理学家的梦想，现在已经站在现实的门槛上，有可能彻底改变世界。为了理解它今天所引起的关注，我们必须深入研究量子计算诞生和培育的动机。虽然量子计算的过去提供了对现在的洞察，但未来可以通过量子软件工程的视角展开。量子软件工程以其原理和方法论为指导，研究与量子计算机交互的最有效方法，以释放其真正潜力并迎来一个充满可能性的新时代。为了深入了解当前形势并预测量子计算和量子软件工程的发展轨迹，本文踏上了它们的演变之旅，并概述了未来研究的潜在方向。

AdapTics：实时自适应空中超声 Tactons 的创意设计和集成工具包

分类： 人机交互

作者： Kevin John, Yinan Li, Hasti Seifi

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19275v1

摘要： 空中超声波触觉技术可以通过非接触式触摸反馈增强扩展现实 (XR) 应用中的用户交互和沉浸感。然而，现有的空中触觉设计工具主要支持创建在运行时无法改变的触觉（即触感）。这些触觉点在交互场景中缺乏表现力，在交互场景中需要对用户运动或环境状态进行连续闭环响应。本文介绍了 AdapTics，这是一个具有图形界面的工具包，用于快速构建自适应触觉动态感觉原型，可以根据用户交互、环境变化或其他输入在运行时进行调整。图形界面附带软件库和 Unity 软件包，可将自适应触感器集成到现有应用程序中。我们展示了 AdapTics 提供的用于创建自适应空中超声波触感器的设计空间，并在对 12 位 XR 和触觉设计师进行的用户研究中表明，该设计工具可以提高探索和表现力的创造力支持指数评级。

加强自动驾驶汽车设计和测试：AR 和 VR 集成的全面回顾

分类： 人机交互

作者： Emanuella Ejichukwu, Lauren Tong, Gadir Hazime, Bochen Jia

发布时间： 2024-04-29

链接： http://arxiv.org/abs/2404.19021v1

摘要： 这篇全面的文献综述探讨了增强现实和虚拟现实技术在增强自动驾驶汽车设计和测试方面的潜力。通过分析现有研究，该评论旨在确定如何利用 AR 和 VR 来改进自动驾驶汽车开发的各个方面，包括：创建更现实和更全面的测试环境，促进以用户为中心的界面设计，以及安全地评估驾驶员的行为复杂的场景。最终，该评论强调了 AR 和 VR 的利用是开发适应性测试环境的关键驱动力，培育更可靠的自动驾驶汽车技术，并最终推动该领域的重大进步。

SIM2VR：迈向 VR 中的自动化生物力学测试

分类： 人机交互

作者： Florian Fischer, Aleksi Ikkala, Markus Klar, Arthur Fleig, Miroslav Bachinski, Roderick Murray-Smith, Perttu Hämäläinen, Antti Oulasvirta, Jörg Müller

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17695v1

摘要： 自动化生物力学测试对于 VR 应用的开发具有巨大潜力，因为可以在设计过程的早期通过计算机模拟获得对用户行为的初步了解。特别是，它允许在进行用户研究之前预测用户运动和人体工程学变量，例如疲劳。然而，托管最先进的生物力学用户模型的模拟器与用于开发和运行 VR 应用程序的模拟器之间存在根本性的脱节。现有的用户模拟器通常难以捕捉现实世界 VR 应用程序的复杂性和细微差别，从而降低了用户预测的生态有效性。在本文中，我们介绍了 SIM2VR，这是一个通过在两个进程之间建立连续闭环来将用户模拟与给定 VR 应用程序结合起来的系统。这首次使得能够在与真实用户交互的同一个 VR 应用程序中直接训练模拟用户。我们证明 SIM2VR 可以预测快节奏、动态街机游戏中用户表现、人体工程学和策略的差异。为了将自动化生物力学测试的范围扩展到简单的视觉运动任务之外，需要认知模型和奖励函数设计的进步。

元对象：从现实世界中学习后元宇宙的交互式和多感官虚拟对象

分类： 人机交互, 新兴技术

作者： Dooyoung Kim, Taewook Ha, Jinseok Hong, Seonji Kim, Selin Choi, Heejeong Ko, Woontack Woo

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17179v1

摘要： 随着可穿戴增强现实/虚拟现实 (AR/VR) 设备的激增，无处不在的虚拟体验通过元宇宙平台无缝融入日常生活。为了支持类似于现实的沉浸式元宇宙体验，我们提出了下一代虚拟对象，即元对象，一种嵌入属性的虚拟对象，其中包含从现实世界学习的交互式和多感官特征。由于基于有限的物理属性的有限的感官反馈，当前的虚拟对象与现实世界的对象显着不同。为了利用元宇宙中的元对象，需要三个关键组件：元对象建模和属性嵌入、交互自适应多感官反馈以及基于智能模拟的后元宇宙平台。利用元对象使现场和远程用户能够像与真实对象进行交互一样进行交互，可以通过可穿戴 AR/VR 设备促进后元宇宙时代的到来。

简单的网络机制导致果蝇连接组的准真实大脑激活模式

分类： 神经元和认知, 社交和信息网络

作者： Xiaoyu Zhang, Pengcheng Yang, Jiawei Feng, Qiang Luo, Wei Lin, Xin Lu

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17128v1

摘要： 考虑到大多数方法的高计算需求，使用网络通信模型来模拟大脑是一种更经济的方式。然而，尽管有众多的大脑网络通信模型，但仍然没有足够的证据表明它们可以有效地复制大脑的真实激活模式。此外，目前还不清楚实际的网络结构对于模拟智能是否至关重要。针对这些问题，我们提出了一种基于简单规则和设计标准的大规模网络通信模型，以评估网络模型与实际情况之间的差异。我们对最大的成年果蝇连接组数据集进行研究。实验结果表明，对刺激做出反应的神经元会显着激活，而无关的神经元会轻微激活，我们称之为准真实激活模式。此外，当我们改变网络结构时，准激活模式就会消失。有趣的是，激活区域与其输入神经元的网络距离较短，这意味着网络结构（而不是空间距离）是形成大脑功能的核心。此外，给予输入神经元单侧刺激，我们观察到双边反应，这与现实相符。然后我们发现两个半球的统计指标极其相似。我们还开发了实时3D大型空间网络可视化软件来观察和记录实验现象，填补了软件空白。这项研究揭示了网络模型的力量：即使使用简单的传播规则，它也可以达到准激活模式。此外，它还提供了证据表明网络结构在大脑活动模式的生成中很重要。未来的研究可以通过网络模型充分模拟大脑行为，通过开发新的传播规则和优化链路权重为人工智能铺平道路。

通过沉浸式体验提高二进制程序的理解：一项调查

分类： 人机交互, H.1.2; H.5.1; D.2.7

作者： Dennis Brown, Emily Mulder, Samuel Mulder

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.17051v1

摘要： 二进制程序理解对于许多用例至关重要，但由于复杂的不确定性和缺乏完全自动化而很困难。我们寻求提高执行二进制 PC 的人机联合认知系统有效性的方法。我们调查了三个研究领域来执行间接认知任务分析：PC 过程的认知模型、认知理论的相关要素以及虚拟现实的适用功能可供性。根据这些领域的共同要素，我们确定了三个总体主题：增强溯因迭代、增强工作记忆和支持信息组织。这些主题重点介绍了 VR 的几个可供性，可用于未来二进制 PC 沉浸式工具的研究。

运动聚焦：通过全像素匹配进行自我运动预测

分类： 计算机视觉和模式识别

作者： Hao Wang, Jiayou Qin, Xiwen Chen, Ashish Bastola, John Suchanek, Zihao Gong, Abolfazl Razi

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.17031v1

摘要： 运动分析在从虚拟现实和增强现实到辅助视觉导航的各种应用中发挥着关键作用。传统的自动驾驶技术虽然先进，但由于依赖广泛的传感器阵列和不可行的计算框架，通常不会直接转化为行人应用。这凸显了将这些解决方案应用于人类用户时存在的巨大差距，因为人类导航带来了独特的挑战，包括人类运动的不可预测性、便携式设备有限的处理能力以及由于人类感知范围有限而需要方向响应。在这个项目中，我们引入了一种纯图像方法，该方法使用具有自我运动补偿的光流进行运动分析，以预测运动焦点——人类或机器在何处以及如何聚焦其运动意图。同时，本文通过应用高斯聚合来稳定预测的运动聚焦区域并提高运动方向的预测精度，解决手持式和随身设备中的相机抖动问题，该问题会严重降低性能和准确性。这还提供了一个强大的实时解决方案，可以适应用户的直接环境。此外，在实验部分，我们展示了传统的基于密集光流的方法和所提出的方法之间的运动焦点估计的定性分析。在定量测试中，我们在收集的专门用于运动焦点估计任务的小数据集上展示了所提出的方法的性能。

ResVR：全向图像的联合缩放和视口渲染

分类： 计算机视觉和模式识别, 图像和视频处理

作者： Weiqi Li, Shijie Zhao, Bin Chen, Xinhua Cheng, Junlin Li, Li Zhang, Jian Zhang

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16825v1

摘要： 随着虚拟现实技术的出现，全向图像 (ODI) 重新缩放技术越来越受到欢迎，以减少传输和存储的文件大小，同时保持高图像质量。尽管取得了这些进展，当前的 ODI 重新缩放方法主要侧重于增强等距柱状投影 (ERP) 格式的图像质量，而忽略了这样一个事实：在头戴式显示器 (HMD) 上查看的内容实际上是渲染的视口而不是 ERP 图像。在这项工作中，我们强调，仅关注 ERP 质量会导致用户的视口视觉体验较差。因此，我们提出了 ResVR，这是第一个用于 ODI 联合缩放和视口渲染的综合框架。 ResVR 允许获取 LR ERP 图像进行传输，同时渲染高质量视口供用户在 HMD 上观看。在我们的 ResVR 中，开发了一种新颖的离散像素采样策略来解决视口和 ERP 之间的复杂映射，从而实现 ResVR 管道的端到端训练。此外，球形像素形状表示技术是从球形微分中创新衍生出来的，可显着提高渲染视口的视觉质量。大量实验表明，我们的 ResVR 在跨不同视场、分辨率和视图方向的视口渲染任务中优于现有方法，同时保持较低的传输开销。

比较远程 VR 研究中的连续情绪评级和回顾性情绪评级

分类： 人机交互

作者： Maximilian Warsinke, Tanja Kojić, Maurizio Vergari, Robert Spang, Jan-Niklas Voigt-Antons, Sebastian Möller

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16487v1

摘要： 本研究通过部署情绪评级实验，探讨使用 VR 耳机和视频会议在家中进行远程虚拟现实 (VR) 研究的可行性。 20 名参与者使用头戴式显示器沉浸在精选的 360{\deg} 视频中，以唤起情绪反应。该研究将使用图形界面的连续评级与用于测量唤醒和效价的数字化李克特量表的回顾性问卷进行比较，两者都基于自我评估模型（SAM）。据推测，两种不同的评级方法将导致效价和唤醒度的值显着不同。目标是调查体验期间的连续评分是否能够通过减少峰终规则等偏差，比问卷调查后更好地反映用户的情绪。结果显示，效价的中度至强效应大小存在显着差异，而低至中度效应大小的唤醒则没有显着差异。这表明需要进一步研究用于评估 VR 研究中情绪评级的方法。总的来说，这项研究是远程进行 VR 实验的一个例子，通过改变评分的时间和界面，提供了对 VR 中情感激发方法的见解。

社交环境和交互的影响关注增强现实游戏的用户体验和社会接受度

分类： 人机交互

作者： Lorenzo Cocchia, Maurizio Vergari, Tanja Kojic, Francesco Vona, Sebastian Moller, Franca Garzotto, Jan-Niklas Voigt-Antons

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16479v1

摘要： 扩展现实 (XR) 领域最有前途的技术之一是增强现实。这项技术已经进入人们的口袋，通过智能手机实现移动增强现实。科学界仍然需要答案，了解人类如何能够并且应该在感知刺激与完全物理或数字环境不同的环境中进行互动。此外，人们是否在不同的社会环境和互动环境中接受这些新技术，或者是否存在一些障碍，仍然是一个待确定的问题。本文探讨了在玩基于位置的增强现实游戏时社交环境和社交互动焦点对用户的影响，并通过用户体验和社交接受度指标进行衡量。在不同的社会环境和不同的社交互动焦点设置下，以受试者内部的方式进行了实证研究，N = 28 名参与者在玩增强现实寻宝游戏后编制了自我报告的调查问卷。来自两种不同社会环境（拥挤与不拥挤）的测量结果与社会可接受性维度的指标产生了统计相关的平均差异。此外，分析显示不同程度的社交互动焦点与整体社会存在、感知的心理投入、感知的注意力投入和感知的情绪感染之间的差异具有统计相关性。结果表明，在不同的社交环境和设置中玩基于位置的 AR 游戏可以影响用户体验的社交维度。因此，在涉及玩家之间社交互动的公共空间中设计沉浸式技术体验时应仔细考虑。

增强户外导航任务期间空间听觉导航对用户体验的影响

分类： 人机交互

作者： Jan-Niklas Voigt-Antons, Zhirou Sun, Maurizio Vergari, Navid Ashrafi, Francesco Vona, Tanja Kojic

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16473v1

摘要： 在导航方面，人类的听觉非常重要。当感兴趣的对象在视觉上被部分或完全覆盖时，这一点的重要性尤其高。与技术用户的交互主要集中在导航任务的视觉领域。本文介绍了文献综述和用户研究的结果，探讨了增强户外导航任务期间空间听觉导航对用户体验的影响。在用户测试中，参与者使用增强现实应用程序引导他们到具有不同数字增强功能的不同位置。我们的结论是，听觉的利用在增强现实应用中仍然不足。未来，音频增强现实在导航等更多使用场景中将提升用户体验和交互质量。

共享边界接口：可以通用吗？针对神经发育障碍患者的虚拟现实与触摸屏界面的对照研究

分类： 人机交互

作者： Francesco Vona, Eleonora Beccaluva, Marco Mores, Franca Garzotto

发布时间： 2024-04-24

链接： http://arxiv.org/abs/2404.15970v1

摘要： 技术提供了重要的教育机会，特别是在增强神经发育障碍 (NDD) 患者的情感投入以及扩大学习和教育前景方面。虚拟现实成为解决此类疾病的一种有前途的工具，并辅之以众多触摸屏应用程序，这些应用程序在促进教育和学习能力方面显示出了功效。 VR 和触摸屏技术代表了不同的界面模式。本研究主要调查 VR 或触摸屏哪种界面更有效地促进 NDD 患者的饮食教育。我们通过暴露前和暴露后问卷调查比较了学习成果。为此，我们开发了 GEA，这是一款用于食品教育的双界面、用户友好的 Web 应用程序，适用于头戴式显示器 (HMD) 中的沉浸式使用或平板电脑上的非沉浸式使用。进行了一项对照研究，以确定哪种界面可以更好地促进学习。在三个会话中，实验组在 VR 中玩所有 GEA 游戏（条件 A），而对照组则在平板电脑上玩相同的游戏（条件 B）。结果表明，受试者的问卷调查后分数显着提高，平均提高了 46%。这种增强在各组之间明显一致，VR 组和平板电脑组分别显示出 42% 和 41% 的改进。

使用虚拟现实和眼动追踪技术训练神经发育障碍患者的注意力技能

分类： 人机交互

作者： Alberto Patti, Francesco Vona, Anna Barberio, Marco Domenico Buttiglione, Ivan Crusco, Marco Mores, Franca Garzotto

发布时间： 2024-04-24

链接： http://arxiv.org/abs/2404.15960v1

摘要： 神经发育障碍 (NDD) 包括智力障碍、注意力缺陷多动障碍和自闭症谱系障碍等疾病，对各种认知能力提出了挑战。由于感觉系统功能障碍是 NDD 患者的特征，因此注意力缺陷在 NDD 患者中很常见。因此，注意力能力有限会影响整体生活质量以及将知识从一种情况转移到另一种情况的能力。文献越来越认识到虚拟现实 (VR) 在支持 NDD 学习和康复方面的潜在好处，因为它具有互动性和吸引力，这对于一致的实践至关重要。在之前的研究中，我们探索了使用名为 Wildcard 的 VR 应用程序来增强 NDD 患者的注意力技能。本研究对该应用程序进行了重新设计，利用眼球追踪技术来实现新颖且更精细的交互。对 38 名 NDD 参与者进行了为期 4 周的实验，以评估其在提高视觉注意力技能方面的可用性和有效性。结果显示了 Wildcard 在增强注意力技能方面的可用性和有效性，倡导继续探索 VR 和眼动追踪技术在 NDD 干预中的潜力。

BlissCam：通过学习的传感器内稀疏采样提高眼动追踪效率

分类： 硬件架构

作者： Yu Feng, Tianrui Ma, Yuhao Zhu, Xuan Zhang

发布时间： 2024-04-24

链接： http://arxiv.org/abs/2404.15733v1

摘要： 眼动追踪正在成为增强/虚拟现实 (AR/VR) 等新兴计算平台中日益重要的任务领域。当今的眼动追踪系统存在较长的端到端追踪延迟，并且很容易耗尽移动 VR 设备一半的功率预算。大多数现有的优化工作都通过优化算法和/或设计专用加速器来专门关注计算管道，而很大程度上忽略了任何眼睛跟踪管道的前端：图像传感器。本文提出了成像系统与计算系统协同设计的案例。特别是，我们提出了“传感器内稀疏采样”的概念，即像素在传感器内大幅下采样（20 倍）。这种传感器内采样通过显着降低 1) 传感器读出链和传感器-主机通信接口（两个主要功耗来源）的功耗，以及 2) 在主机上完成的工作来提高整体跟踪效率，主机接收并运行像素少得多。通过仔细重用现有像素电路，我们提出的 BLISSCAM 几乎不需要硬件增强来支持传感器内操作。我们的综合结果显示，与现有眼动追踪管道相比，能耗降低了 8.2 倍，延迟降低了 1.4 倍。

从女性和 LGBTQIA+ 利益相关者的角度来看 VR 约会中的伤害风险

分类： 人机交互

作者： Devin Tebbe, Meryem Barkallah, Braeden Burger, Douglas Zytko

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2405.05914v1

摘要： 虚拟现实 (VR) 约会为浪漫互动带来了新的机会，但也引起了人们对传统约会应用和通用社交 VR 环境中通常单独发生的新危害的担忧。鉴于 VR 约会体验可能被认为有害的主观性，必须让用户利益相关者参与预测危害并制定预防性设计。为实现这一目标，与 17 名女性和/或 LGBTQIA+ 利益相关者举办了参与式设计研讨会；在线约会和社交 VR 中遭受伤害风险较高的人口统计数据。调查结果显示，参与者担心 VR 约会中的两类伤害：通过虚拟和物理方式之间的交互转变而发生的伤害，以及因 VR 中性互动的期望而产生的伤害。

考虑在社交 VR 中头像交叉对青少年是伤害还是帮助

分类： 人机交互

作者： Jakki O. Bailey, Xinyue, You

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2405.05933v1

摘要： 人们利用化身在沉浸式虚拟现实 (VR) 中交流非语言行为，例如人际距离 [2, 6] 和虚拟触摸 [5]。然而，在社交虚拟世界中违反适当的身体距离和未经请求的亲密触摸行为对老年青少年用户来说存在潜在的社会和心理虚拟伤害[4, 8]。获得同伴认可和社会奖励，同时避免社会拒绝，即使在模拟的虚拟空间中也可以驱动老年青少年的行为 [1, 3]，虽然“青春期的开始很大程度上是由生物事件定义的，[...]青春期通常是从社会角度定义的”[3] (p.912)。阿凡达穿越，即虚拟人物在虚拟环境中相互穿行的现象，是虚拟化身的一种独特能力，对于体验社交虚拟空间的年长青少年来说，这种现象也引起了人们的兴趣和伦理关注。例如，在虚拟教室中与其他化身交叉并共享位置的能力可以帮助学生集中精力访问和理解信息，而不必担心在寻找更好的观点时会阻碍其他人[10]。然而，与化身碰撞相比，在虚拟空间中穿越他人的能力与感知存在感和化身真实感的降低有关，加上更大程度的不适和恐吓感[12]。在本文中，我们考虑了利用头像与青少年用户交叉的潜在好处和坏处。

增强声音：增强现实体验凸显南亚穆斯林侨民中性别暴力的社会不公正现象

分类： 人机交互, 新兴技术

作者： Hamida Khatri

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15239v1

摘要： 本文深入探讨了令人痛心的性别暴力（GBV）盛行及其根深蒂固的心理影响，特别是在生活在散居社区的南亚穆斯林妇女中。尽管性别暴力很严重，但这些女性在表达自己的经历和获得支持方面常常面临巨大的障碍。 “增强声音”作为一个技术灯塔出现，利用增强现实（AR）的潜力通过移动设备连接数字和物理领域，提高这些经常被沉默的声音的可见性。 “增强声音”的技术动机牢固地植根于 AR 和现实世界互动的融合，它提供了一个数字平台，在这个平台上讲故事充当催化剂，突出这些女性分享的经历。通过地理信息系统 (GIS) 地图将他们的叙述叠加到实际位置上，该应用程序在侨民中“增强了他们的声音”，提供了表达和团结的渠道。该项目目前正处于开发阶段，旨在将 GBV 受害者的故事提升到一个水平，让他们的挣扎不仅被听到，而且被感受到，在用户和叙述之间建立强大的联系。它旨在超越传统讲故事的局限性，创造一种“增强”的现实，让那些经常因社会限制而被压制的声音能够产生强烈的共鸣。该项目强调了应对性别暴力、促进社会转型并为边缘群体建立强大的支持网络的紧迫性。这是一个开创性的例子，说明技术如何成为争取社会正义和赋予被压迫者权力的强大盟友。此外，本文还深入研究了 AR 工作流程，说明了其对特定地点 AR 促进社会正义这一更广泛主题的相关性和贡献。

虚拟宇宙中的虚拟接管：用多层叙事质疑我们过去和未来的权力

分类： 人机交互

作者： Heather Snyder Quinn, Jessa Dickinson

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15108v1

摘要： Mariah 是一款增强现实 (AR) 移动应用程序，通过讲故事揭露权力结构（例如资本主义、父权制、白人至上）并庆祝反抗行为。人们可以利用玛丽亚“合法侵入”虚拟宇宙作为抗议的一种形式。 Mariah 通过叠加图像并播放有关经历过并抵制不公正的人们的故事，为用户的物理环境提供历史背景。我们分享 Mariah 的两个实现，它们提出了有关元宇宙中言论自由和财产权的问题：（1）抗议博物馆接受阿片类药物流行病的“脏钱”； (2) 纪念人们抵抗权力结构的场所。 Mariah 是一个案例研究，说明以未经批准的方式（即“黑客”）试验一项技术如何能够暴露该技术可能与现有权力结构互动并可能放大现有权力结构的方式。

使用动态图转换器进行动态感知社交机器人检测

分类： 社交和信息网络, 人工智能

作者： Buyun He, Yingguang Yang, Qi Wu, Hao Liu, Renyu Yang, Hao Peng, Xiang Wang, Yong Liao, Pengyuan Zhou

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15070v1

摘要： 检测社交机器人已发展成为一项关键而复杂的任务，旨在打击错误信息的传播并保持在线互动的真实性。虽然早期基于图的方法利用社交网络的拓扑结构，取得了显着的成果，但它们忽视了社交网络固有的动态性——实际上，它们在很大程度上将社交网络描述为静态图，并且仅依赖于其最新状态。由于缺乏动态建模，此类方法很容易被规避，特别是当高级社交机器人与其他用户交互以伪装身份并逃避检测时。为了应对这些挑战，我们提出了 BotDGT，这是一种新颖的框架，不仅考虑了拓扑结构，而且有效地结合了社交网络的动态性质。具体来说，我们将社交网络描述为动态图。采用结构模块从每个历史快照中获取拓扑信息。此外，还提出了一个时间模块来整合历史背景并对社交机器人和合法用户所表现出的不断变化的行为模式进行建模。实验结果证明，在准确性、召回率和 F1 分数方面，BotDGT 相对于忽略社交网络动态性质的领先方法具有优越性。

通过眼动追踪分析定量评估虚拟驾驶中驾驶员的情境意识

分类： 人机交互, 图形

作者： Yunxiang Jiang, Qing Xu, Kai Zhen, Yu Chen

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.14817v1

摘要： 在驾驶任务中，驾驶员对周围场景的态势感知对于安全驾驶至关重要。然而，目前测量态势感知的方法大多依赖于主观问卷，这会中断任务并且缺乏非侵入性的量化。为了解决这个问题，我们的研究利用客观的注视运动数据为态势感知提供无干扰的量化方法。提出了三个量化分数来代表感知、理解和投射三种不同的意识水平，并根据这三个分数提出了态势感知的总体分数。为了验证我们的发现，我们进行了实验，让受试者在虚拟现实模拟环境中执行驾驶任务。所有四个提议的情境意识评分都清楚地表明与驾驶表现存在显着相关性。该提议不仅阐明了理解和评估态势感知的新途径，而且还为驾驶性能提供了令人满意的代理。

适用于 360$^\circ$ VR 视频流的平铺加权率失真优化数据包调度

分类： 多媒体

作者： Haopeng Wang, Haiwei Dong, Abdulmotaleb El Saddik

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.14573v1

摘要： 360$^\circ$ VR 视频流的一个关键挑战是在有限的网络带宽下确保高质量。目前，大多数研究都集中在基于图块的自适应比特率流媒体上，以减少带宽消耗，而网络节点中的资源没有得到充分利用。本文提出了一种瓦片加权率失真（TWRD）数据包调度优化系统，以减少数据量并提高视频质量。提出了一种多模态时空注意力变换器来以概率预测视点，该概率用于动态加权图块和相应的数据包。确定应丢弃哪些数据包的数据包调度问题被表述为通过动态规划解决方案解决的优化问题。实验结果表明，所提出的方法在各种条件下都优于现有方法。

GazeIntent：通过实时意图建模调整 VR 交互中的停留时间选择

分类： 人机交互

作者： Anish S. Narkar, Jan J. Michalak, Candace E. Peacock, Brendan David-John

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.13829v1

摘要： 人们已经针对各种应用研究了使用 ML 模型根据行为数据预测用户的认知状态，其中包括预测在 VR 中执行选择的意图。我们开发了一种新技术，使用基于凝视的意图模型来调整停留时间阈值，以帮助仅凝视选择。在算术任务中执行选择的用户数据集用于开发意图预测模型（F1 = 0.94）。我们开发了 GazeIntent，根据意图模型输出来调整选择停留时间，并进行了一项最终用户研究，让回访用户和新用户以不同的选择频率执行其他任务。针对回访用户的个性化模型有效地考虑了之前的体验，并且受到 63% 的用户的青睐。我们的工作为该领域提供了方法，使基于驻留的选择适应用户，考虑随着时间的推移的经验，并考虑随选择频率而变化的任务

基于扩展现实和人工智能的沉浸式流动站控制和障碍物检测

分类： 机器人技术

作者： Sofía Coloma, Alexandre Frantz, Dave van der Meer, Ernest Skrzypczyk, Andrej Orsula, Miguel Olivares-Mendez

发布时间： 2024-04-22

链接： http://arxiv.org/abs/2404.14095v1

摘要： 月球探测已成为推动科学技术进步的重点。正在进行的任务是将月球车部署到月球表面，目标是月球背面和南极。然而，这些地形带来了挑战，强调需要精确的障碍物和资源探测来避免任务风险。这项工作提出了一种集成扩展现实（XR）和人工智能（AI）来远程操作月球车的新颖系统。它能够自主检测岩石并重建机器人位置的沉浸式 3D 虚拟环境。该系统已在月球实验室进行验证，观察其相对于传统基于 2D 的远程操作方法的优势

使用 XR 对象增强对象智能

分类： 人机交互, 人工智能, H.5.0; H.5.1; H.5.2

作者： Mustafa Doga Dogan, Eric J. Gonzalez, Karan Ahuja, Ruofei Du, Andrea Colaço, Johnny Lee, Mar Gonzalez-Franco, David Kim

发布时间： 2024-04-20

链接： http://arxiv.org/abs/2404.13274v3

摘要： 将物理对象无缝集成为交互式数字实体仍然是空间计算的挑战。本文探讨了 XR 背景下的人工对象智能 (AOI)，这是一种交互范式，旨在通过为现实世界的对象配备像数字一样的交互能力来模糊数字和物理之间的界限，其中每个对象都具有作为数字功能门户的潜力。我们的方法利用实时对象分割和分类，结合多模态大型语言模型 (MLLM) 的强大功能，无需对象预注册即可促进这些交互。我们以 XR-Objects 的形式实现 AOI 概念，XR-Objects 是一个开源原型系统，为用户提供一个平台，让用户可以使用基于对象的上下文菜单以上下文相关的方式与其物理环境互动。该系统使模拟对象不仅能够传达信息，还能启动数字操作，例如查询详细信息或执行任务。我们的贡用户研究。

增强对象智能：使模拟世界可与 XR 对象交互

分类： 人机交互, 人工智能

作者： Mustafa Doga Dogan, Eric J. Gonzalez, Andrea Colaco, Karan Ahuja, Ruofei Du, Johnny Lee, Mar Gonzalez-Franco, David Kim

发布时间： 2024-04-20

链接： http://arxiv.org/abs/2404.13274v2

摘要： 将物理对象无缝集成为交互式数字实体仍然是空间计算的挑战。本文介绍了增强对象智能（AOI），这是一种新颖的 XR 交互范式，旨在通过为现实世界的对象配备像数字一样的交互能力来模糊数字和物理之间的界限，其中每个对象都有可能充当庞大数字功能的门户。我们的方法利用对象分割和分类，并结合多模态大型语言模型 (MLLM) 的强大功能来促进这些交互。我们以 XR-Objects 的形式实现 AOI 概念，XR-Objects 是一个开源原型系统，为用户提供了一个平台，让用户能够以丰富且与上下文相关的方式参与其物理环境。该系统使模拟对象不仅能够传达信息，还能启动数字操作，例如查询详细信息或执行任务。我们的贡案例和用户研究。

人力资源管理的人工智能、VR、AR和元界技术

分类： 计算机与社会

作者： Omer Aydin, Enis Karaarslan, Nida Gokce Narin

发布时间： 2024-04-19

链接： http://arxiv.org/abs/2406.15383v1

摘要： 人力资源 (HR) 技术解决方案包括软件和硬件工具，旨在实现 HR 流程自动化、收集、处理和分析数据、利用数据进行战略决策以及执行 HR 专业人员的任务，同时优先考虑安全和隐私考虑。与许多其他领域一样，数字化转型和新兴技术已开始融入人力资源流程。这些技术由人力资源专业人员和参与人力资源运营的各种利益相关者使用。本研究评估了人工智能 (AI)、虚拟现实 (VR)、增强现实 (VR) 和元宇宙在人力资源管理中的运用，重点关注当前趋势和潜在机会。我们进行了一项调查，以了解人力资源专业人员对这些技术的看法和批评。参加者包括人力资源部门的官员、专门从事人力资源工作的院士以及接受过不同层次人力资源课程的工作人员。本文对所得结果进行了比较分析。

用于与 VR 设备交互的毫米波可穿戴天线

分类： 人机交互, 信号处理

作者： Haksun Son, Song Min Kim

发布时间： 2024-04-19

链接： http://arxiv.org/abs/2404.16065v1

摘要： VR行业是近期最有前途的行业之一，因为它可以在人与虚拟世界之间提供更加身临其境的连接。目前，VR 设备使用不方便的控制器或摄像头与人们进行交互，这些控制器或摄像头在黑暗环境中表现不佳。无论照明条件如何，通过毫米波可穿戴设备进行的交互都有可能方便地跟踪人类行为。在这项研究中，开发了毫米波可穿戴天线，为与 VR 设备进行更身临其境的交互提供了可能性。该天线采用低损耗角正切聚酯织物，以最大限度地减少介电损耗，并采用光滑涂层，以减少粗糙表面造成的损耗。该天线工作在24GHz ISM频段，24.15GHz时S11值为-29dB。

通过 VR 中的 ASMR 体验振动触觉触发器对心理健康的影响

分类： 人机交互

作者： Danyang Peng, Tanner Person, Ximing Shen, Yun Suen Pai, Giulia Barbareschi, Shengyin Li, Kouta Minamizawa

发布时间： 2024-04-19

链接： http://arxiv.org/abs/2404.12567v1

摘要： 观看自主感觉经络反应 (ASMR) 视频是支持心理健康的一种流行方法，因为触发的 ASMR 刺痛感有助于减压和调节情绪。因此，如何有效触发 ASMR 刺痛感的研究越来越多。由于当前流行的 ASMR 方法侧重于视觉和音频通道，触觉仍未得到探索。在这项研究中，我们探讨了虚拟现实 (VR) 环境中触觉反馈对触发 ASMR 刺痛感的影响。通过两项实验研究，我们研究了触觉 ASMR 体验的放松效果，以及振动触觉触发器对 ASMR 体验的影响。我们的结果表明，振动触觉反馈可以有效增加 ASMR 刺痛感的可能性，并增强舒适、放松和享受的感觉。

在 VR 运动游戏中使用针对手臂运动范围定制的能力图进行康复

分类： 人机交互, 机器人技术

作者： Christian Lourido, Zaid Waghoo, Hassam Khan Wazir, Nishtha Bhagat, Vikram Kapila

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12504v1

摘要： 许多神经系统疾病，例如中风，可能会导致患者出现上肢（UL）运动障碍，从而妨碍他们的日常活动。对于此类患者来说，虽然康复治疗是恢复自主性和恢复活动能力的关键，但其长期性需要持续的时间投入，而且往往不够吸引人。虚拟现实 (VR) 可以将康复治疗转变为类似游戏的任务，可以根据患者的具体活动进行定制、设定目标并提供康复评估。然而，大多数 VR 系统缺乏内置方法来跟踪一段时间内的进展并相应地改变康复计划。我们建议使用手臂运动学建模和功能图来让 VR 系统了解用户的身体能力和限制。接下来，我们建议 VR 系统利用用户的能力图来定制康复计划的两个用例。最后，对于一个用例，表明 VR 系统可以强调和评估特定 UL 接头的使用。

全息视差提高 3D 感知真实感

分类： 图形

作者： Dongyeon Kim, Seung-Woo Nam, Suyeon Choi, Jong-Mo Seo, Gordon Wetzstein, Yoonchan Jeong

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.11810v1

摘要： 全息近眼显示器是一项很有前途的技术，可以解决虚拟和增强现实显示系统中长期存在的挑战。在过去几年中，人们提出了许多不同的计算机生成全息 (CGH) 算法，这些算法由不同类型的目标内容监督，例如 2.5D RGB 深度图、3D 焦点堆栈和 4D 光场。然而，目前尚不清楚算法和目标内容类型的选择对感知的影响是什么。在这项工作中，我们构建了全彩、高质量全息近眼显示器的感知测试平台。在自然观看条件下，我们检查各种 CGH 监督格式的效果并进行用户研究，以评估它们对 3D 真实感的感知影响。我们的结果表明，针对特定视点设计的 CGH 算法在实现 3D 真实感方面表现出明显的缺陷。相比之下，包含视差线索的全息图在不同的观看条件下（包括视窗中心）始终优于其他格式。这一发现特别有趣，表明在 CGH 渲染中包含视差线索对于提高全息体验的整体质量起着至关重要的作用。这项工作代表了通过全息近眼显示器向提供感知逼真的 3D 体验迈出的第一步。

探索远程 VR 用户研究中的漏洞

分类： 人机交互

作者： Viktorija Paneva, Florian Alt

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.17588v1

摘要： 本立场文件探讨了在远程用户研究中使用虚拟现实 (VR) 的可能性和挑战。该论文强调了 VR 的沉浸式本质，指出了关键漏洞，包括不同的技术熟练程度、隐私问题、道德考虑和数据安全风险。为了解决这些问题，拟议的缓解策略包括全面的入职、优先知情同意、实施隐私设计原则以及遵守道德准则。提倡安全数据处理，包括加密和处理协议。总之，虽然远程 VR 研究提供了独特的机会，但仔细考虑和实施缓解策略对于维护可靠性、道德诚信和安全性、确保在用户研究中负责任和有效地使用 VR 至关重要。持续的努力对于适应用户研究中不断发展的 VR 技术格局至关重要。

[DC] bRight XR：如何训练设计师保持光明的一面？

分类： 新兴技术, 人机交互

作者： Romain Rouyer, David Bourguignon, Stéphanie Fleck

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11142v1

摘要： 该研究项目旨在通过提供自我评估工具来促进从事自适应 XR 的设计师的道德原则。我们引入基于设计的研究（DBR）方法来构建 bRight-XR，这是一个包含启发式评估矩阵并基于学习理论的框架。

建立 VR 中注视驱动的身份验证性能基线：对非常大的数据集进行广度优先研究

分类： 计算机视觉和模式识别, 人机交互

作者： Dillon Lohr, Michael J. Proulx, Oleg Komogortsev

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11798v1

摘要： 本文执行的关键工作是建立注视驱动的身份验证性能基线，以开始使用来自 9202 人的注视记录的大型数据集来回答基本研究问题，其眼动追踪 (ET) 信号质量水平相当于现代面向消费者的水平虚拟现实（VR）平台。所使用的数据集的大小至少比以前相关工作中的任何其他数据集大一个数量级。我们的模型需要对眼睛的光轴和视轴进行双眼估计以及注册和验证的最短持续时间，以在五万分之一的错误接受率 (FAR) 下实现低于 3% 的错误拒绝率 (FRR)。就识别准确度随画廊大小而降低而言，我们估计当画廊大小为 148,000 或更大时，我们的模型将低于机会级别准确度。我们的主要发现表明，在最先进的机器学习架构和足够大的训练数据集的驱动下，凝视身份验证可以达到 FIDO 标准要求的准确度。

AR 应对性暴力：在增强同理心的同时保持道德平衡

分类： 人机交互

作者： Chunwei Lin

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11305v1

摘要： 这项研究展示了增强现实 (AR) 体验，旨在促进台湾的性别正义并提高对性暴力的认识。该项目利用AR技术，克服了线下展览对社会问题的限制，激发公众的参与度，增强他们对话题的深入研究意愿。讨论探讨了直接接触性暴力如何引起用户的负面情绪和继发性创伤。它还提出了使用 AR 来缓解此类问题的策略，特别是避免模拟实际事件。

移动和沉浸式显示器上的电影解剖的新颖视图合成

分类： 图形

作者： Simon Niedermayr, Christoph Neuhauser, Kaloian Petkov, Klaus Engel, Rüdiger Westermann

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11285v1

摘要： 3D 解剖学的交互式真实感可视化（即电影解剖学）在医学教育中用于解释人体的结构。目前它仅限于正面教学场景，其中演示者需要强大的 GPU 和对托管数据集的大型存储设备的高速访问。我们演示了通过压缩 3D 高斯喷射使用新颖的视图合成来克服这一限制，并使学生能够在轻型移动设备和虚拟现实环境中进行电影解剖。我们提出了一种自动方法来查找一组图像，捕获数据中所有可能看到的结构。通过将特写视图与远距离图像混合，splat 表示可以恢复高达体素分辨率的结构。使用 Mip-Splatting 可以在焦距增加时实现平滑过渡。即使对于 GB 数据集，最终的可渲染表示通常也可以压缩到 70 MB 以下，从而可以使用光栅化在低端设备上进行交互式渲染。

参考灵活的图像修复

分类： 计算机视觉和模式识别, 多媒体

作者： Runwei Guan, Rongsheng Hu, Zhuhao Zhou, Tianlang Xue, Ka Lok Man, Jeremy Smith, Eng Gee Lim, Weiping Ding, Yutao Yue

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10342v1

摘要： 实际上，图像经常表现出多重退化，例如夜间下雨和起雾（三重退化）。然而，在许多情况下，个人可能不想消除所有降级，例如，模糊的镜头显示出美丽的雪景（双重降级）。在这种情况下，人们可能只想去模糊。这些情况和要求揭示了图像恢复中的新挑战，其中模型必须感知并消除人类命令在具有多种退化的图像中指定的特定退化类型。我们将此任务称为“灵活图像恢复”(RFIR)。为了解决这个问题，我们首先构建了一个名为 RFIR 的大规模合成数据集，其中包含 153,423 个样本，其中包含退化图像、特定退化去除的文本提示和恢复图像。 RFIR 包含五种基本退化类型：模糊、雨、雾、弱光和雪，同时还包含六个主要子类别，用于不同程度的退化消除。为了应对这一挑战，我们提出了一种名为 TransRFIR 的新型基于 Transformer 的多任务模型，它可以同时感知退化图像中的退化类型，并根据文本提示消除特定的退化。 TransRFIR 基于两个设计的注意力模块，多头代理自注意力（MHASA）和多头代理交叉注意力（MHACA），其中 MHASA 和 MHACA 引入代理令牌并达到线性复杂度，实现比普通模型更低的计算成本自注意力和交叉注意力并获得有竞争力的表现。与其他同类产品相比，我们的 TransRFIR 实现了最先进的性能，并被证明是一种有效的图像恢复架构。我们在 https://github.com/GuanRunwei/FIR-CP 发布了我们的项目。

增强现实技术在脑室腹腔分流手术中的可行性研究

分类： 计算机视觉和模式识别, 软件工程

作者： Tandin Dorji, Pakinee Aimmanee, Vich Yindeedej

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10713v1

摘要： 增强现实（AR）领域经历了大幅增长，在医疗行业中找到了多种应用。本文深入研究了医疗手术中使用的各种技术，仔细审查了成本、实施和可及性等因素。此次探索的重点是基于 AR 的解决方案，特别强调应对挑战并提出脑室腹腔分流 (VP) 手术的创新解决方案。所提出的解决方案在手术前阶段引入了一种新颖的流程，旨在通过创建颅骨和心室的 3D 模型来大幅减少准备时间和手术持续时间。实验中，模型通过 AR 设备（特别是 Microsoft HoloLens 2）在 3D 打印的头骨上进行可视化。然后，本文对所提出的解决方案进行了深入分析，讨论了其可行性、优点、局限性和未来影响。

增强现实（AR）在远程工作和教育中的应用

分类： 人工智能, 计算和语言

作者： Keqin Li, Peng Xirui, Jintong Song, Bo Hong, Jin Wang

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10579v1

摘要： 随着科技的日新月异，增强现实（AR）技术以其将虚拟信息与现实世界深度融合的能力而著称，正在逐步改变传统的工作模式和教学方式。特别是在远程工作和在线教育领域，AR技术展现出广泛的应用前景。本文深入探讨AR技术在远程工作和教育中的应用潜力和实际效果。通过系统的文献回顾，本研究概述了 AR 技术的主要特征、优势和挑战。基于理论分析，探讨AR技术为提升远程工作效率、促进教育教学模式创新提供的科学依据和技术支撑。此外，本文还通过设计实证研究方案并分析实验数据，揭示了AR技术在实际应用中的具体表现和影响因素。最后，基于实验结果，本研究总结了AR技术在远程工作和教育中的应用价值，展望了其未来的发展趋势，并提出了前瞻性的研究方向和战略建议，提供了实证基础和理论指导。为进一步推动AR技术在相关领域的深入应用。

混合现实中的反馈式中国手语教学

分类： 计算机视觉和模式识别

作者： Hongli Wen, Yang Xu, Lin Li, Xudong Ru

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10490v1

摘要： 传统手语教学方法面临反馈有限、学习场景多样等挑战。虽然二维资源缺乏实时反馈，但课堂教学却受到师资匮乏的制约。基于VR和AR的方法具有相对原始的交互反馈机制。本研究提出了一种利用实时单目视觉和混合现实技术的创新教学模式。首先，我们介绍了一种改进的手部姿势重建方法，以实现手语语义保留和实时反馈。其次，提出了三元系统评价算法进行综合评价，与手语专家保持良好的一致性。此外，我们利用混合现实技术构建了基于场景的3D手语教室，探索场景教学的用户体验。总体而言，本文提出了一种新颖的教学方法，提供沉浸式学习体验、高级姿势重建和精确反馈，实现用户体验和学习效果的正反馈。

面向体验质量的实时 XR 视频传输跨层优化

分类： 网络和互联网架构, 多媒体, 系统与控制, 图像和视频处理, 系统与控制

作者： Guangjin Pan, Shugong Xu, Shunqing Zhang, Xiaojing Chen, Yanzan Sun

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09905v1

摘要： 扩展现实（XR）是 5G 和 6G 网络之外最重要的应用之一。实时 XR 视频传输在数据速率和延迟方面提出了挑战。特别是XR视频的逐帧传输模式使得实时XR视频对动态网络环境非常敏感。为了提高用户的体验质量（QoE），我们设计了实时XR视频的跨层传输框架。所提出的框架允许基站（BS）和XR服务器之间进行简单的信息交换，这有助于自适应比特率和无线资源调度。我们利用跨层信息通过寻找最佳调度和比特率调整策略来制定最大化用户 QoE 的问题。为了解决两种策略之间时间尺度不匹配的问题，我们解耦了原始问题，并使用基于多智能体的方法单独解决它们。具体来说，我们提出了多步深度 Q 网络（MS-DQN）算法来获得基于帧优先级的无线资源调度策略，然后提出了用于视频比特率自适应的基于 Transformer 的邻近策略优化（TPPO）算法。实验结果表明，本研究提出的TPPO+MS-DQN算法可以将QoE提高3.6%~37.8%。更具体地说，所提出的MS-DQN算法将传输质量提高了49.9%-80.2%。

用于单目深度估计的虚拟丰富的纽约大学深度 V2 数据集：我们需要人工增强吗？

分类： 计算机视觉和模式识别, 机器学习

作者： Dmitry Ignatov, Andrey Ignatov, Radu Timofte

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09469v1

摘要： 我们推出了 ANYU，这是 NYU 深度 v2 数据集的新虚拟增强版本，专为单目深度估计而设计。与利用虚拟世界的完整 3D 场景生成人工数据集的众所周知的方法相比，ANYU 是通过将虚拟现实对象的 RGB-D 表示合并到原始 NYU 深度 v2 图像中来创建的。我们特别没有将每个生成的虚拟对象与现实世界图像中适当的纹理和适当的位置相匹配。相反，纹理、位置、光照和其他渲染参数的分配是随机的，以最大化训练数据的多样性，并表明随机性可以提高数据集的泛化能力。通过使用我们虚拟修改的数据集进行广泛的实验，并在原始 NYU 深度 v2 和 iBims-1 基准上进行验证，我们表明 ANYU 提高了具有相当不同架构的单目深度估计性能和深度神经网络的泛化，特别是对于当前状态 -最先进的 VPD 模型。据我们所知，这是第一个使用随机生成的虚拟 3D 对象来增强现实世界数据集以进行单目深度估计的工作。我们以两种训练配置公开我们的 ANYU 数据集，分别具有 10% 和 100% 额外综合丰富的 RGB-D 对训练图像，用于虚拟增强的高效训练和实证探索，网址为 https://github.com/ABrain-一/安宇

塑造现实：利用制造约束增强 3D 生成式 AI

分类： 人机交互, 人工智能

作者： Faraz Faruqi, Yingtao Tian, Vrushank Phadnis, Varun Jampani, Stefanie Mueller

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.10142v1

摘要： 生成式 AI 工具在 3D 建模中变得越来越普遍，使用户能够以文本或图像作为输入来操作或创建新模型。这使得用户可以更轻松地快速定制和迭代他们的 3D 设计并探索新的创意。这些方法侧重于 3D 模型的美学质量，将其细化为与用户提供的提示相似的外观。然而，在创建用于制造的 3D 模型时，设计人员需要在 3D 模型的美观品质与其预期的物理属性之间进行权衡。为了在制造后发挥功能，3D 模型必须满足物理原理所规定的结构约束。目前，生成式人工智能工具并未强制执行此类要求。这导致了美观但可能无功能的 3D 几何体的发展，这些几何体在现实世界中很难制造和使用。本研讨会论文强调了生成式 AI 工具在将数字创作转化为物理世界方面的局限性，并提出了生成式 AI 工具的新增强功能，用于创建物理上可行的 3D 模型。我们主张开发操纵或生成 3D 模型的工具，不仅要考虑美观，还要考虑物理属性作为约束。这一探索旨在弥合数字创造力与现实世界适用性之间的差距，将生成式人工智能的创造潜力扩展到有形领域。

EdgeRelight360：用于实时设备上视频肖像重新照明的文本调节 360 度 HDR 图像生成

分类： 计算机视觉和模式识别

作者： Min-Hui Lin, Mahesh Reddy, Guillaume Berger, Michel Sarkis, Fatih Porikli, Ning Bi

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09918v1

摘要： 在本文中，我们提出了 EdgeRelight360，这是一种在移动设备上进行实时视频肖像重新照明的方法，利用文本条件生成 360 度高动态范围图像 (HDRI) 地图。我们的方法利用 HDR10 标准，提出了在 HDR 域中基于扩散的文本到 360 度图像生成。该技术有助于根据文本描述生成高质量、真实的照明条件，为肖像视频重新照明任务提供灵活性和控制。与之前的重新照明框架不同，我们提出的系统直接在设备上执行视频重新照明，从而能够使用真实的 360 度 HDRI 地图进行实时推理。这种设备上的处理既确保了隐私，又保证了低运行时间，从而可以对照明条件或用户输入的变化做出立即响应。我们的方法通过允许对照明条件进行动态、基于文本的控制，为实时视频应用（包括视频会议、游戏和增强现实）的新可能性铺平了道路。

LLM 和 XR 时代的软件开发

分类： 软件工程

作者： Jesus M. Gonzalez-Barahona

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09789v1

摘要： 让我们想象一下，几年内生成式人工智能极大地改变了软件开发，接管了大部分编程任务。我们还假设扩展现实设备变得无处不在，成为与计算机交互的首选界面。本文通过探讨开发过程将如何受到影响，并分析支持开发人员需要哪些工具，提出了这种情况将如何影响 IDE。

使用移动毫米波雷达进行动态自我速度估计：基于相位的方法

分类： 机器人技术

作者： Argha Sen, Soham Chakraborty, Soham Tripathy, Sandip Chakraborty

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09691v1

摘要： 精确的自我运动测量对于机器人、增强现实和自主导航等各种应用至关重要。在这张海报中，我们提出了 mmPhase，这是一种基于单芯片毫米波 (mmWave) 雷达的里程计框架，用于在移动平台中进行稳健的自我运动估计，而不需要视觉、车轮或惯性里程计等额外模式。 mmPhase 利用基于相位的速度估计方法来克服传统多普勒分辨率的限制。为了对 mmPhase 进行实际评估，我们开发了一个自我车辆原型。与最先进的基线相比，mmPhase 在自我速度估计方面表现出优越的性能。

AAM-VDT：用于先进空中机动远程操作的车辆数字孪生

分类： 系统与控制, 新兴技术, 人机交互, 系统与控制

作者： Tuan Anh Nguyen, Taeho Kwag, Vinh Pham, Viet Nghia Nguyen, Jeongseok Hyun, Minseok Jang, Jae-Woo Lee

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09621v1

摘要： 这项研究通过为 eVTOL 飞机创建车辆数字孪生 (VDT) 系统来推进先进空中机动 (AAM) 中的远程操作，该系统旨在提高远程控制安全性和效率，特别是超视距 (BVLOS) 操作。通过将数字孪生技术与沉浸式虚拟现实 (VR) 界面相结合，我们显着提高了远程操作员的态势感知和控制精度。我们的 VDT 框架将沉浸式远程操作与高保真空气动力学数据库集成在一起，这对于真实模拟飞行动力学和控制策略至关重要。我们方法的核心在于 eVTOL 的高保真数字复制品，放置在准确反映物理定律的模拟现实中，使操作员能够通过主从动态管理飞机，其性能大大优于传统的 2D 界面。所设计的系统架构确保操作员、数字孪生和实际飞机之间的无缝交互，从而促进准确、即时的反馈。实验评估包括推进数据采集、仿真数据库保真度验证和远程操作测试，验证了系统精确控制命令传输和保持数字物理同步的能力。我们的研究结果强调了 VDT 系统在提高 AAM 效率和安全性方面的潜力，为自动驾驶飞行器中更广泛的数字孪生应用铺平了道路。

探索 Sim2Real 在驾驶数据合成中的生成式 AI

分类： 计算机视觉和模式识别

作者： Haonan Zhao, Yiting Wang, Thomas Bashford-Rogers, Valentina Donzella, Kurt Debattista

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09111v1

摘要： 数据集对于训练和测试车辆感知算法至关重要。然而，现实世界图像的收集和注释既耗时又昂贵。驾驶模拟器通过自动生成带有相应注释的各种驾驶场景提供了解决方案，但模拟与现实 (Sim2Real) 领域的差距仍然是一个挑战。虽然大多数生成人工智能 (AI) 遵循事实上的基于生成对抗网络 (GAN) 的方法，但最近新兴的扩散概率模型在缓解 Sim2Real 驱动数据合成的挑战方面尚未得到充分探索。为了探索性能，本文应用了三种不同的生成式人工智能方法，利用驾驶模拟器中的语义标签图作为创建真实数据集的桥梁。从图像质量和感知的角度对这些方法进行了比较分析。新的合成数据集（包括驾驶图像和自动生成的高质量注释）以低成本和高场景可变性生成。实验结果表明，虽然基于 GAN 的方法在提供手动注释标签时擅长生成高质量图像，但在使用模拟器生成的标签时，ControlNet 生成的合成数据集具有更少的伪影和更高的结构保真度。这表明基于扩散的方法可以提供更高的稳定性和解决 Sim2Real 挑战的替代方法。

评估触觉反馈、360°跑步机集成虚拟现实框架以及复杂搜索和射击模拟中决策性能纵向训练的效果

分类： 人机交互

作者： Akash K Rao, Arnav Bhavsar, Shubhajit Roy Chowdhury, Sushil Chandra, Ramsingh Negi, Prakash Duraisamy, Varun Dutt

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09147v1

摘要： 虚拟现实 (VR) 取得了长足的进步，为用户提供了多种与虚拟环境交互的方式。 VR 中的每种感官模式都提供不同的输入和交互，增强用户的沉浸感和临场感。然而，其他感官方式（例如触觉反馈和 360° 运动）在提高决策性能方面的潜力尚未得到彻底研究。本研究通过评估触觉反馈、360°运动集成 VR 框架以及纵向异构训练对复杂搜索和射击模拟中决策性能的影响来解决这一差距。该研究涉及来自印度国防模拟基地的 32 名参与者，他们被随机分为两组：实验组（触觉反馈、360°运动集成 VR 框架，具有纵向、异构训练）和安慰剂对照组（纵向、异构 VR）没有超感觉模式的训练）。实验持续了10天。第一天，所有受试者都执行了紧密复制现实世界中的元素/情况的搜索和射击模拟。从第 2 天到第 9 天，受试者接受了异构训练，通过使用敌人行为属性/人工智能的变化在模拟中设计各种复杂程度来进行训练。第 10 天，他们重复了第 1 天执行的搜索和射击模拟。结果显示，与安慰剂对照组相比，实验组的存在感、沉浸感和参与度逐渐增加。然而，第 10 天两组之间的决策表现没有显着差异。我们打算利用这些发现来设计多感官 VR 培训框架，以提高参与水平和决策表现。

FaceFilterSense：抗过滤的人脸识别和人脸属性分析框架

分类： 计算机视觉和模式识别

作者： Shubham Tiwari, Yash Sethia, Ritesh Kumar, Ashwani Tanwar, Rudresh Dwivedi

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08277v2

摘要： 随着社交媒体的出现，有趣的自拍滤镜已成为巨大的主流用途，影响着面部生物识别系统以及图像识别系统的功能。这些滤镜的范围从美化滤镜和基于增强现实 (AR) 的滤镜到修改面部标志的滤镜。因此，需要评估此类滤波器对现有人脸识别系统性能的影响。与现有解决方案相关的局限性在于这些解决方案更多地关注美化过滤器。然而，目前基于AR的滤镜和扭曲面部关键点的滤镜最近很流行，即使是肉眼也很难识别面部。此外，所考虑的过滤器大多已过时且变化有限。为了减轻这些限制，我们的目标是对最新过滤器进行整体影响分析，并提出使用过滤后的图像的用户识别模型。我们使用基准图像的基准数据集，并对其应用最新的过滤器以生成美化/过滤的数据集。接下来，我们介绍了一个用于美化用户识别的模型FaceFilterNet。在此框架中，我们还利用我们的模型来评论人的各种属性，包括年龄、性别和种族。此外，我们还提出了对人脸识别、年龄估计、性别和种族预测的筛选影响分析。所提出的方法证实了我们数据集的有效性，准确率为 87.25%，并且是面部属性分析的最佳准确度。

单图像驱动的 3D 视点训练数据增强可实现有效的葡萄酒标签识别

分类： 计算机视觉和模式识别, 机器学习

作者： Yueh-Cheng Huang, Hsin-Yi Chen, Cheng-Jui Hung, Jen-Hui Chuang, Jenq-Neng Hwang

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08820v1

摘要： 面对复杂图像识别领域训练数据不足的严峻挑战，本文介绍了一种专为葡萄酒标签识别量身定制的新型3D视点增强技术。该方法通过从单个真实世界的葡萄酒标签图像生成视觉逼真的训练样本来增强深度学习模型的性能，克服文本和徽标的复杂组合带来的挑战。经典的生成对抗网络（GAN）方法无法合成如此复杂的内容组合。我们提出的解决方案利用经过时间考验的计算机视觉和图像处理策略来扩展我们的训练数据集，从而扩大深度学习应用的训练样本范围。这种创新的数据增强方法规避了有限培训资源的限制。通过在 Vision Transformer (ViT) 架构上进行批量三元组度量学习，使用增强训练图像，我们可以获得每个葡萄酒标签最具辨别力的嵌入特征，使我们能够在训练类中对现有葡萄酒标签进行一次性识别或未来新收集的葡萄酒标签在培训中不可用。实验结果表明，与传统的二维数据增强技术相比，识别精度显着提高。

使用移动事件相机进行 3D 人体扫描

分类： 计算机视觉和模式识别

作者： Kai Kohyama, Shintaro Shiba, Yoshimitsu Aoki

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08504v1

摘要： 捕捉 3D 人体是计算机视觉的重要任务之一，具有广泛的应用，例如虚拟现实和运动分析。然而，传统的帧相机受到时间分辨率和动态范围的限制，这给现实世界的应用设置带来了限制。事件相机具有高时间分辨率和高动态范围（HDR）的优点，但需要开发基于事件的方法来处理具有不同特征的数据。本文提出了一种新颖的基于事件的 3D 姿态估计和人体网格恢复方法。先前基于事件的人体网格恢复的工作需要帧（图像）以及事件数据。所提出的方法仅依赖于事件；它通过围绕静止身体移动事件相机来雕刻 3D 体素，通过衰减光线重建人体姿势和网格，并拟合统计身体模型，保留高频细节。实验结果表明，该方法在位姿和身体网格的估计精度方面均优于传统的基于帧的方法。我们还展示了传统相机具有运动模糊的挑战性情况下的结果。这是首次演示仅事件人体网格恢复，我们希望这是通过视觉传感器实现稳健且准确的 3D 人体扫描的第一步。

OccGaussian：用于遮挡人体渲染的 3D 高斯泼溅

分类： 计算机视觉和模式识别

作者： Jingrui Ye, Zongkai Zhang, Yujiao Jiang, Qingmin Liao, Wenming Yang, Zongqing Lu

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08449v2

摘要： 从单眼视频渲染动态 3D 人体对于虚拟现实和数字娱乐等各种应用至关重要。大多数方法都假设人处于无障碍场景中，而在现实生活场景中，各种物体可能会导致身体部位的遮挡。之前的方法利用NeRF进行表面渲染来恢复被遮挡的区域，但需要一天以上的训练时间和几秒的渲染时间，无法满足实时交互应用的要求。为了解决这些问题，我们提出了基于 3D Gaussian Splatting 的 OccGaussian，它可以在 6 分钟内完成训练，并在输入被遮挡的情况下生成高达 160 FPS 的高质量人体渲染。 OccGaussian 在规范空间中初始化 3D 高斯分布，我们在遮挡区域执行遮挡特征查询，提取聚合的像素对齐特征以补偿丢失的信息。然后，我们使用高斯特征 MLP 进一步处理特征以及遮挡感知损失函数，以更好地感知遮挡区域。在模拟和现实世界的遮挡中进行的大量实验表明，与最先进的方法相比，我们的方法实现了可比甚至更优越的性能。我们将训练和推理速度分别提高了 250 倍和 800 倍。我们的代码将可用于研究目的。

GazePointAR：可穿戴增强现实中用于代词消歧的上下文感知多模态语音助手

分类： 人机交互

作者： Jaewook Lee, Jun Wang, Elizabeth Brown, Liam Chu, Sebastian S. Rodriguez, Jon E. Froehlich

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08213v1

摘要： Siri 和 Alexa 等语音助手 (VA) 正在改变人机交互方式；然而，他们缺乏对用户时空背景的认识，导致性能有限和对话不自然。我们推出了 GazePointAR，这是一种用于可穿戴增强现实的全功能上下文感知 VA，它利用眼睛注视、指向手势和对话历史记录来消除语音查询的歧义。借助 GazePointAR，用户可以询问“那边有什么？”或“我该如何解决这道数学问题？”只需通过查看和/或指向即可。我们在一项由三部分组成的实验室研究中评估了 GazePointAR（N=12）：（1）将 GazePointAR 与两个商业系统进行比较； (2) 检查 GazePointAR 在三个任务中的代词消歧； (3) 以及一个开放式阶段，参与者可以建议并尝试自己的上下文相关查询。参与者赞赏代词驱动的查询的自然性和类人性，尽管有时代词的使用是违反直觉的。然后，我们迭代 GazePointAR 并进行了第一人称日记研究，检查 GazePointAR 在野外的表现。最后，我们列举了未来情境感知虚拟设备的局限性和设计注意事项。

克拉克斯顿 AR 网关项目：在小镇中锚定难民的存在和叙述

分类： 人机交互, 新兴技术

作者： Joshua A. Fisher, Fernando Rochaix

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08179v1

摘要： 本文概述了克拉克斯顿 AR 网关项目，这是一个进入第二阶段的投机过程和工件，其中增强现实 (AR) 将用于放大佐治亚州克拉克斯顿难民社区的多样化叙述。该项目专注于将他们的故事和存在融入城镇的物理和数字景观中，采用参与式协同设计方法，直接与社区成员互动。这项场所营造工作旨在通过教难民增强现实开发技能来提升难民的生活水平，帮助他们通过公共艺术更自主地表达和提高自己的声音。希望其结果是 AR 体验不仅挑战流行的叙事，而且庆祝小镇的文化挂毯。这项工作是通过 AR 独特的功能提供支持的，用户可以将他们的体验作为公共空间中的交互式叙述。这种针对特定地点的 AR 互动故事可以鼓励这些空间内的互动，从而改变他们的构思、感知和体验方式。这个由难民驱动的 AR 创作过程反射性地改变了空间并确认了他们的存在和代理。该项目的第二阶段旨在建立一个适应多元化、包容难民的社区的模型，展示 AR 讲故事如何成为文化定位和庆祝活动的强大工具。

RASSAR：增强现实中的房间无障碍和安全扫描

分类： 人机交互

作者： Xia Su, Han Zhang, Kaiming Cheng, Jaewook Lee, Qiaochu Liu, Wyatt Olson, Jon Froehlich

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07479v1

摘要： 我们家的安全性和可达性对于生活质量至关重要，并且随着我们年龄的增长、生病、接待客人或经历生孩子等生活事件而不断变化。研究人员和卫生专业人员创建了检查表等评估工具，使房主和经过培训的专家能够识别和缓解安全和访问问题。随着计算机视觉、增强现实 (AR) 和移动传感器的进步，新方法现已成为可能。我们推出 RASSAR，这是一款移动 AR 应用程序，用于使用激光雷达和实时计算机视觉半自动识别、定位和可视化室内无障碍和安全问题，例如难以接近的桌子高度或不安全的松散地毯。我们展示了三项研究的结果：一项由 5 个利益相关者群体的 18 名参与者参与的形成性研究，旨在为 RASSAR 的设计提供信息；对 10 个家庭进行的技术性能评估，展示了最先进的性能；以及由 6 个利益相关者参与的用户研究。最后我们讨论了未来基于人工智能的室内可达性评估工具、RASSAR 的可扩展性和关键应用场景。

SARA：智能阅读理解助手

分类： 人机交互

作者： Enkeleda Thaqi, Mohamed Mantawy, Enkelejda Kasneci

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06906v1

摘要： SARA 将眼动追踪和最先进的大型语言模型集成到混合现实框架中，通过提供实时个性化帮助来增强阅读体验。通过跟踪眼球运动，SARA 可以识别最吸引用户注意力的文本片段，并可能表明不确定区域和理解问题。该过程涉及以下关键步骤：文本检测和提取、视线跟踪和对齐以及检测到的阅读难度评估。结果是定制的解决方案直接呈现在用户的视野内，作为识别的困难文本区域上的虚拟覆盖。这种支持通过提供额外的上下文、改写的解决方案和多语言帮助，使用户能够克服不熟悉的词汇和复杂句子等挑战。 SARA 的创新方法表明它有潜力改变阅读体验并提高阅读水平。

从稀疏点到密集云：利用有限的 LiDAR 数据增强 3D 检测

分类： 计算机视觉和模式识别

作者： Aakash Kumar, Chen Chen, Ajmal Mian, Neils Lobo, Mubarak Shah

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06715v1

摘要： 3D 检测是一项关键任务，它使机器能够识别和定位三维空间中的物体。它在自动驾驶、机器人和增强现实等多个领域有着广泛的应用。单目 3D 检测很有吸引力，因为它只需要一个摄像头，但它缺乏现实世界应用所需的准确性和鲁棒性。另一方面，高分辨率激光雷达可能很昂贵，并且由于其主动传输而导致交通繁忙时的干扰问题。我们提出了一种平衡的方法，结合了单目和基于点云的 3D 检测的优点。我们的方法只需要少量的 3D 点，这些点可以通过低成本、低分辨率的传感器获得。具体来说，我们仅使用 512 个点，仅占 KITTI 数据集中完整 LiDAR 帧的 1%。我们的方法根据有限的 3D 信息与单个图像重建完整的 3D 点云。任何多模态现成检测器都可以使用重建的 3D 点云和相应图像进行 3D 对象检测。通过使用所提出的网络架构和现成的多模态 3D 检测器，与最先进的单目检测方法相比，3D 检测的准确度提高了 20%，与现有的单目检测方法相比提高了 6% 到 9%。 KITTI 和 JackRabbot 数据集上的基线多模态方法。

混合现实遗产表演作为遗产地的非殖民化工具

分类： 人机交互

作者： Mariza Dima, Damon Daylamani-Zad, Vangelis Lympouridis

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07348v1

摘要： 在本文中，我们介绍了两种世界首创的混合现实 (MR) 体验，它们融合了智能 AR 眼镜和现场剧院，并在遗址中进行，旨在揭示该遗址关于奴隶制的隐藏而艰难的历史。我们将这些独特的普通观众体验称为混合现实遗产表演 (MRHP)。随着我们最初的两场表演的发展，我们设计并开发了一种工具和指南，可以通过批判性地让公众了解欧洲和殖民叙事中代表性不足的声音和观点，帮助遗产组织完成非殖民化进程。评估显示了 MRHP 在吸引和教育遗产观众方面的具体和情感潜力。对设计过程的见解正在被形成一个广泛的设计工具包，旨在支持体验设计、剧院和遗产专业人士合作开展类似的项目。

评估桌面和虚拟现实中计算笔记本的导航和比较性能

分类： 人机交互

作者： Sungwon In, Erick Krokos, Kirsten Whitley, Chris North, Yalong Yang

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07161v1

摘要： 计算笔记本是数据分析的多功能工具。然而，其传统的用户界面无法跟上不断增长的数据相关任务的步伐，这表明需要新的方法。随着交互技术和计算环境的快速发展，人们对将新兴技术集成到数据驱动的工作流程中越来越感兴趣。尤其是虚拟现实，已经展示了其在交互式数据可视化方面的潜力。在这项工作中，我们的目的是尝试将计算笔记本应用到 VR 中，并验证 VR 可以带来的潜在好处。我们专注于导航和比较方面，因为它们是分析师工作流程中的基本组件。为了进一步改进比较，我们设计并实现了分支和合并功能。我们在桌面和 VR 中测试了计算笔记本，无论是否添加了分支和合并功能。我们发现与桌面相比，VR 显着促进了导航，并且创建分支的能力增强了比较。

探索基于虚拟现实的自闭症谱系障碍干预措施中的生理反应：数据驱动的调查

分类： 人机交互, 机器学习, 92C30 (Primary) 92C55, 68T99 (Secondary)

作者： Gianpaolo Alvari, Ersilia Vallefuoco, Melanie Cristofolini, Elio Salvadori, Marco Dianti, Alessia Moltani, Davide Dal Castello, Paola Venuti, Cesare Furlanello

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07159v1

摘要： 虚拟现实 (VR) 已成为增强自闭症谱系障碍 (ASD) 患者社交技能和情感健康的有前途的工具。通过技术探索，本研究采用了 VR 内的多人严肃游戏环境，让 34 名被诊断患有自闭症谱系障碍 (ASD) 的个体参与进来，并采用高精度生物传感器来全面了解参与者在 VR 会话期间的唤醒和反应。参与者接受了与利益相关者和临床专家合作设计的一系列 3 个虚拟场景，以在受控和结构化的虚拟环境中促进社会认知技能和情绪调节。我们将该框架与可穿戴式非侵入式生物信号采集传感器结合起来，重点收集心率变异性和呼吸模式来监测参与者的行为。此外，通过观察和半结构化访谈进行行为评估，结合生理测量分析数据，以确定相关性并探索数字干预效果。初步分析显示生理反应和行为结果之间存在显着相关性，表明生理反馈有可能增强基于 VR 的 ASD 干预措施。该研究证明了使用实时数据来适应虚拟场景的可行性，为支持个性化治疗提供了一条有前途的途径。将定量生理反馈整合到数字平台中代表着自闭症谱系障碍个性化干预的向前迈出了一步。通过利用实时数据来调整治疗内容，这种方法有望提高数字疗法的功效和参与度。

DreamScene360：使用全景高斯泼溅生成无约束文本到 3D 场景

分类： 计算机视觉和模式识别, 人工智能

作者： Shijie Zhou, Zhiwen Fan, Dejia Xu, Haoran Chang, Pradyumna Chari, Tejas Bharadwaj, Suya You, Zhangyang Wang, Achuta Kadambi

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06903v1

摘要： 对虚拟现实应用程序日益增长的需求凸显了制作沉浸式 3D 资产的重要性。我们提出了一个文本到 3D 360$^{\circ}$ 场景生成管道，可以在几分钟内为野外环境创建全面的 360$^{\circ}$ 场景。我们的方法利用 2D 扩散模型的生成能力并迅速自我完善，以创建高质量且全局一致的全景图像。该图像充当初步的“平面”(2D) 场景表示。随后，它被提升为 3D 高斯，采用喷射技术来实现实时探索。为了产生一致的 3D 几何形状，我们的管道通过将 2D 单目深度对齐到全局优化的点云来构造空间相干结构。该点云用作 3D 高斯质心的初始状态。为了解决单视图输入中固有的隐形问题，我们对合成和输入相机视图施加语义和几何约束作为正则化。这些指导高斯的优化，帮助重建未见过的区域。总之，我们的方法在 360$^{\circ}$ 视角内提供了全球一致的 3D 场景，与现有技术相比，提供了增强的沉浸式体验。项目网站：http://dreamscene360.github.io/

在 3D 中匹配 2D 图像：来自公制对应的公制相对姿势

分类： 计算机视觉和模式识别

作者： Axel Barroso-Laguna, Sowmya Munukutla, Victor Adrian Prisacariu, Eric Brachmann

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06337v1

摘要： 给定两个图像，我们可以通过建立图像到图像的对应关系来估计它们之间的相对相机姿态。通常，对应关系是 2D 到 2D 的，并且我们估计的姿势仅按比例定义。一些针对任何地方的即时增强现实的应用程序需要比例度量姿态估计，因此，它们依赖外部深度估计器来恢复比例。我们提出了 MicKey，一个关键点匹配管道，能够预测 3D 相机空间中的度量对应关系。通过学习匹配图像之间的 3D 坐标，我们能够在无需深度测量的情况下推断出度量相对姿势。训练也不需要深度测量，也不需要场景重建或图像重叠信息。米奇仅受成对图像及其相对姿势的监督。 MicKey 在无地图重定位基准上实现了最先进的性能，同时比竞争方法需要更少的监督。

基于人工智能的开源 SE 工具：协作软件学习的机遇和挑战

分类： 软件工程, 人工智能

作者： Zhihao Lin, Wei Ma, Tao Lin, Yaowen Zheng, Jingquan Ge, Jun Wang, Jacques Klein, Tegawende Bissyande, Yang Liu, Li Li

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06201v1

摘要： 大型语言模型 (LLM) 已成为推进软件工程 (SE) 任务的重要工具，展示了它们在代码理解等方面的功效。与传统的 SE 工具一样，开源协作是实现优秀产品的关键。然而，对于人工智能模型来说，最根本的需求是数据。这些基于人工智能的SE模型的协作取决于最大化高质量数据的来源。然而，尤其是高质量的数据，通常具有商业或敏感价值，这使得基于开源人工智能的 SE 项目更难获取这些数据。这一现实对软件工程社区中基于人工智能的 SE 工具的开发和增强构成了重大障碍。因此，研究人员需要找到解决方案，使基于人工智能的开源SE模型能够利用不同组织的资源。为了应对这一挑战，我们的立场文件研究了一种解决方案，以促进开源人工智能模型访问不同组织资源，确保隐私和商业敏感性得到尊重。我们引入了以联邦学习（FL）为中心的治理框架，旨在促进开源人工智能代码模型的联合开发和维护，同时保护数据隐私和安全。此外，我们还为开发人员提供了基于人工智能的 SE 工具协作指南，涵盖数据需求、模型架构、更新策略和版本控制。鉴于数据特征对 FL 的显着影响，我们的研究考察了代码数据异构性对 FL 性能的影响。

简化传输：由生成式 AI 增强的语义感知 XR 部署框架

分类： 网络和互联网架构

作者： Wanting Yang, Zehui Xiong, Tony Q. S. Quek, Xuemin Shen

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06182v1

摘要： 在6G时代，扩展现实（XR）以数字孪生和元宇宙的引人注目的愿景为特色，已成为连接数字和物理领域的重要渠道，引起了广泛的兴趣。确保完全沉浸式的无线 XR 体验是最重要的技术必要性，要求将 XR 从有线连接的限制中解放出来。在本文中，我们首先介绍无线 XR 领域中应用的技术，深入探讨它们的优点和局限性，并强调当前面临的挑战。然后，我们为广泛的 XR 管道提出了一种新颖的部署框架，称为“GeSa-XRF”，其灵感来自语义通信 (SemCom) 的核心理念，它将关注点从“如何”传输转移到“传输什么”。具体地，该框架包括三个阶段：数据收集、数据分析和数据交付。在每个阶段，我们整合语义感知来实现简化的传输，并利用生成人工智能（GAI）来实现协作改进。针对具有差异化数据量和异构延迟要求的多模态数据的数据采集，我们提出了一种基于多模态融合和分离的新型 SemCom 范式以及基于 GAI 的鲁棒叠加方案。为了进行全面的数据分析，我们采用多任务学习来进行视野和个性化注意力的预测，并讨论了 GAI 辅助的可能的预处理方法。最后，对于数据交付阶段，我们提出了一种基于语义感知的多播交付策略，旨在减少像素级冗余传输，并引入 GAI 协作细化方法。通过案例研究初步证明了所提出的 GeSa-XRF 的性能增益。

EVE：让任何人都可以使用增强现实训练机器人

分类： 人机交互, 机器人技术

作者： Jun Wang, Chun-Cheng Chang, Jiafei Duan, Dieter Fox, Ranjay Krishna

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06089v1

摘要： 机器人硬件的日益普及正在加速机器人融入日常活动。然而，训练机器人自动执行任务通常需要物理机器人和来自训练有素的人类注释者的昂贵的演示数据。因此，只有那些能够接触到实体机器人的人才能进行演示来训练机器人。为了缓解这个问题，我们推出了 EVE，这是一款 iOS 应用程序，使日常用户能够使用直观的增强现实可视化来训练机器人，而无需物理机器人。使用EVE，用户可以通过用手指定路径点、目视检查环境中的障碍物、修改现有路径点以及验证收集的轨迹来收集演示。在一项由三个常见桌面任务组成的用户研究（$N=14$，$D=30$）中，EVE 在成功率方面优于三个最先进的界面，并且与动觉教学（物理移动真实机器人）相当- 完成时间、可用性、动作意图交流、享受和偏好 ($mean_{p}=0.30$)。最后，我们列举了未来基于 AR 的机器人演示收集系统的局限性和设计注意事项。

幻觉排行榜——在大型语言模型中测量幻觉的公开努力

分类： 计算和语言

作者： Giwon Hong, Aryo Pradipta Gema, Rohit Saxena, Xiaotang Du, Ping Nie, Yu Zhao, Laura Perez-Beltrachini, Max Ryabinin, Xuanli He, Clémentine Fourrier, Pasquale Minervini

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05904v2

摘要： 大型语言模型 (LLM) 以其卓越的理解和生成类人文本的能力改变了自然语言处理 (NLP) 的格局。然而，这些模型很容易产生“幻觉”——输出与事实或输入上下文不符。本文介绍了幻觉排行榜，这是一项开放倡议，用于定量测量和比较每个模型产生幻觉的趋势。该排行榜使用了一套全面的基准，重点关注幻觉的不同方面，例如事实性和忠实性，以及各种任务，包括回答问题、总结和阅读理解。我们的分析提供了对不同模型性能的见解，指导研究人员和从业者为其应用选择最可靠的模型。

使用混合现实进行飞行机器人辅助医疗器械规划和执行

分类： 机器人技术

作者： Letian Ai, Yihao Liu, Mehran Armand, Amir Kheradmand, Alejandro Martin-Gomez

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05887v1

摘要： 机器人辅助医疗系统（RAMS）因其在减轻外科医生疲劳和改善患者治疗效果方面的优势而受到广泛关注。这些系统包含一系列人机交互，包括医疗场景监控、解剖目标规划和机器人操纵。然而，尽管 RAMS 具有多功能性和有效性，但它需要机器人技术方面的专业知识，从而导致操作员的学习成本很高。在这项工作中，我们介绍了一种使用混合现实技术来简化 RAMS 的使用的新颖框架。所提出的框架通过提供 3D 解剖图像叠加、人机碰撞检测和机器人编程接口来实现医疗器械的实时规划和执行。这些功能与易于使用的头戴式显示器校准方法相结合，提高了人机交互的有效性。为了评估该框架的可行性，本工作提出了两种医学应用：1）经颅磁刺激期间的线圈放置，2）股骨成形术期间的钻头和注射器装置定位。这些用例的结果证明了其扩展到更广泛的医疗场景的潜力。

边缘计算能否满足使用5G网络的自动驾驶汽车服务的要求？

分类： 网络和互联网架构

作者： Wendlasida Ouedraogo, Andrea Araldo, Badii Jouaber, Hind Castel, Remy Grunblatt

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05296v1

摘要： 支持联网和自动驾驶车辆 (CAV) 的通信和计算服务在响应时间和可靠性方面具有严格的要求。满足这些要求对于确保道路安全和交通优化至关重要。在车辆中托管这些服务的概念简单的解决方案会增加成本（主要是由于计算基础设施的安装和维护），并且可能会过度耗尽电池。这些缺点可以通过多接入边缘计算 (MEC) 来解决，包括在靠近设备（在本例中为车辆）部署的网络节点中部署计算能力，以满足严格的 CAV 要求。然而，目前尚不清楚 MEC 在什么条件下可以支持 CAV 要求以及哪些服务。为了阐明这个问题，我们使用著名的开源仿真工具 OMNeT++、Simu5G、Veins、INET 和 SUMO 进行了仿真活动。因此，我们能够对 CAV 的 MEC 进行现实检查，查明 MEC 中必须安装哪些计算能力以支持不同的服务，以及单个 MEC 节点可以支持的车辆数量。我们发现这些参数必须有很大差异，具体取决于所考虑的服务。这项研究可以作为网络运营商规划未来部署MEC以支持CAV的初步依据。

使用达芬奇研究套件实现手术中非刚性和接触丰富操作的逼真手术模拟器

分类： 机器人技术

作者： Yafei Ou, Sadra Zargarzadeh, Paniz Sedighi, Mahdi Tavakoli

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05888v1

摘要： 逼真的实时手术模拟器在手术机器人研究中发挥着越来越重要的作用，例如手术机器人学习和自动化以及手术技能评估。尽管有许多现有的手术模拟器可供研究，但它们通常缺乏模拟手术中通常存在的不同类型的物体和富含接触的操作任务的能力，例如组织切割和抽血。在这项工作中，我们介绍了 CRESSim，这是一款基于 PhysX 5 的达芬奇研究套件 (dVRK) 的真实手术模拟器，能够模拟涉及不同手术器械、软组织和体液的各种接触丰富的手术任务。现实世界的 dVRK 控制台和主工具操纵器 (MTM) 机器人已集成到系统中，以便通过虚拟现实 (VR) 进行远程操作。为了展示模拟器的优势和潜力，我们展示了三个手术任务的例子，包括组织抓取和变形、抽血和组织切割。这些任务是使用模拟手术器械（包括大型针驱动器、抽吸冲洗器和弯剪刀）通过基于 VR 的远程操作来执行的。

使用骨架先验增强两人交互

分类： 计算机视觉和模式识别

作者： Baiyi Li, Edmond S. L. Ho, Hubert P. H. Shum, He Wang

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05490v2

摘要： 具有丰富接触的密切且持续的交互是人类活动（例如拥抱、跳舞）的一个重要方面，并且在活动识别、运动预测、角色动画等许多领域都很有趣。然而，获取这种骨骼运动是具有挑战性的。虽然直接动作捕捉昂贵且缓慢，但动作编辑/生成也很重要，因为必须保留具有拓扑和几何约束的复杂接触模式。为此，我们提出了一种用于二体骨骼交互运动增强的新深度学习方法，该方法可以生成具有不同身体尺寸和比例的丰富接触交互的变化，同时保留两个身体之间的关键几何/拓扑关系。我们的系统可以从相对少量的数据中有效地学习，并推广到截然不同的骨架尺寸。通过详尽的评估和比较，我们表明它可以生成高质量的运动，具有很强的通用性，并且优于传统的基于优化的方法和替代深度学习解决方案。

WebXR、A-Frame 和 Networked-Aframe 作为开放元宇宙的基础：概念架构

分类： 计算机视觉和模式识别, 图形, 人机交互, 多媒体

作者： Giuseppe Macario

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05317v2

摘要： 这项工作提出了一种基于 WebXR 的跨平台概念架构，利用 A-Frame 和 Networked-Aframe 框架，以促进开放、可访问和可互操作的元宇宙的开发。通过引入空间网络应用程序的概念，这项研究为元宇宙的讨论做出了贡献，提供了一种架构，使通过网络访问虚拟环境和扩展现实变得民主化，并与蒂姆·伯纳斯·李对万维网的最初愿景保持一致：数字领域的开放平台。

使用基于 360 度视频的沉浸式虚拟环境在编码过程中减少因上下文变化而导致的遗忘

分类： 人机交互

作者： Takato Mizuho, Takuji Narumi, Hideaki Kuzuoka

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.05007v1

摘要： 与学习不同的环境背景下的回忆障碍称为情境相关遗忘。人们提出了两种学习方法来防止上下文相关的遗忘：恢复和去上下文化。恢复与学习和检索之间的环境情境相匹配，而去情境化涉及在各种环境情境中重复学习并消除记忆的情境依赖性。传统上，这些方法是通过在物理房间之间切换来验证的。然而，在本研究中，我们使用沉浸式虚拟环境（IVE）作为虚拟现实（VR）辅助的环境上下文，与传统操纵相比，虚拟现实（VR）以其低成本和高再现性而闻名。虽然大多数现有的使用 VR 的研究未能揭示恢复效果，但我们使用基于 360 度视频的 IVE 来测试其发生情况，该 IVE 具有更高的熟悉度和真实感，而不是基于计算机图形的 IVE。此外，我们是第一个使用 VR 解决去情境化问题的人。我们的实验表明，与在不同常数 IVE 中重复学习相比，在相同常数 IVE 中重复学习作为检索并没有显着减少遗忘。相反，在不同的 IVE 中重复学习比在恒定的 IVE 中重复学习显着减少了遗忘。这些发现有助于基于 VR 的应用程序的 IVE 设计，特别是在教育环境中。

TeleAware 机器人：设计用于远程协作运动的意识增强远程呈现机器人

分类： 人机交互, H.5.2

作者： Ruyi Li, Yaxin Zhu, Min Liu, Yihang Zeng, Shanning Zhuang, Jiayi Fu, Yi Lu, Guyue Zhou, Can Liu, Jiangtao Gong

发布时间： 2024-04-06

链接： http://arxiv.org/abs/2404.04579v1

摘要： 远程呈现机器人可用于支持用户远程导航环境并与社交伙伴分享访问体验。尽管此类系统允许用户看到和听到远程环境并通过实时视频馈送与其合作伙伴进行通信，但这并不能提供对环境及其远程合作伙伴的活动的足够认识。在本文中，我们介绍了一种在现场和远程用户一起访问某个地方的场景中协作移动的感知框架。通过对一小群人参观展览的观察研究，我们得出了四个旨在增强社会伙伴之间的环境和社会意识的设计目标，并开发了一套意识增强技术，添加到标准远程呈现机器人中 - 名为 TeleAware 机器人。通过一项模拟引导展览参观任务的对照实验，TeleAware 机器人与标准机器人相比，显示出降低工作量、促进更紧密的社交距离、提高相互意识和社交存在感的能力。我们讨论了本地和远程用户的移动性和角色的影响，并为促进协作运动的增强意识远程呈现机器人系统的未来设计提供了见解。

多感官反馈对虚拟现实手重定向交互的感知和性能的影响

分类： 人机交互

作者： Hyunyoung Jang, Jinwook Kim, Jeongmi Lee

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.03899v1

摘要： 修改真实运动的视觉表示的重定向方法已被广泛用于扩展交互空间并创建引人入胜的虚拟现实体验。为了获得最佳的用户体验和性能，必须指定重定向的感知并利用适当范围的修改参数。然而，以往的研究主要集中在用户是否感知到目标感觉，很少考察感知准确性和重定向的敏感性。此外，目前尚不清楚手重定向交互中的感知和表现如何受到多感官反馈的影响。在本研究中，我们使用严格的心理物理学方法来指定用户对手部重定向的感知准确性和敏感性，并提供可接受的重定向参数范围。我们还在重定向的同时提出了不同的多感官反馈，以探讨其对用户感知和任务绩效的影响。实验结果表明，提供与虚拟手和目标目的地之间的距离成比例的连续多感官反馈，可以提高用户手部重定向感知的准确性，而不会改变其感知灵敏度。此外，多感官反馈的利用大大提高了任务执行的精度，特别是在增益系数较低的情况下。基于这些发现，我们提出了 VR 手部重定向交互和多感官反馈的设计指南和潜在应用，以实现最佳的用户体验和性能。

我没有注意到：沉浸式分析与增强现实和虚拟现实的比较

分类： 人机交互

作者： Xiaoyan Zhou, Anil Ufuk Batmaz, Adam S. Williams, Dylan Schreiber, Francisco Ortega

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03814v1

摘要： 沉浸式环境使用户能够参与具体的交互，增强完成沉浸式分析等任务所涉及的意义建构过程。先前对使用增强现实和虚拟现实的沉浸式分析的比较研究表明，用户根据环境采用不同的数据解释和基于文本的分析策略。我们的研究旨在调查增强现实和虚拟现实如何影响定量沉浸式分析中的意义建构过程。我们的结果来自不同的参与者群体，表明用户在两种环境中表现出相当的性能。然而，据观察，用户在 VR 中对认知负荷表现出更高的容忍度，并且在 AR 中走得更远。根据我们的发现，我们建议为用户提供在 AR 和 VR 之间切换的选项，从而使他们能够选择符合其偏好和任务要求的环境。

将大型语言模型与多模态虚拟现实界面相集成，支持人机协作构建工作

分类： 机器人技术, 人机交互

作者： Somin Park, Carol C. Menassa, Vineet R. Kamat

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03498v1

摘要： 在建筑行业，工作环境复杂、非结构化且常常危险，人机协作 (HRC) 的实施正在成为一项充满希望的进步。这凸显了对直观通信界面的迫切需求，使建筑工人能够与机器人助手无缝协作。本研究引入了集成多模态交互的会话式虚拟现实（VR）界面，以增强建筑工人和机器人之间的直观沟通。通过将语音和控制器输入与机器人操作系统（ROS）、建筑信息模型（BIM）以及具有由大语言模型（LLM）支持的聊天界面的游戏引擎集成，所提出的系统能够在虚拟现实设置。十二名建筑工人通过干墙安装案例研究进行了评估，所提出的系统通过简洁的命令输入证明了其低工作量和高可用性。所提出的多模态交互系统表明，这种技术集成可以极大地促进机器人助手在建筑行业的集成。

游戏时长、手部追踪和基于控制器的控制方法对 VR 中用户体验的影响

分类： 人机交互

作者： Tanja Kojić, Maurizio Vergari, Simon Knuth, Maximilian Warsinke, Sebastian Möller, Jan-Niklas Voigt-Antons

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03337v1

摘要： 由内而外的跟踪在消费者 VR 中越来越流行，增强了可访问性。它使用 HMD 摄像头数据和神经网络进行有效的手部跟踪。然而，有限的用户体验研究将该方法与传统控制器进行了比较，但对于最优控制技术尚未达成共识。本文研究了控制方法和游戏持续时间对 VR 用户体验的影响，假设手部跟踪可能更适合短时间会话，并且由于其简单性而受到 VR 新用户的青睐。通过对 20 名参与者进行的实验室研究，评估存在感、情绪反应、用户体验质量和流程，结果显示控制类型和会话长度会影响用户体验，而无需进行大量交互。控制员通常表现出色，这归因于其可靠性，并且较长的会话时间增加了临场感和真实感。研究发现，拥有更多 VR 经验的人更倾向于向其他人推荐手部追踪，这与预测相矛盾。

移动边缘元宇宙中专家混合与生成人工智能的融合

分类： 网络和互联网架构

作者： Guangyuan Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Zehui Xiong, Abbas Jamalipour, Shiwen Mao, Dong In Kim

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03321v1

摘要： 在数字化转型时代，Metaverse 融合了虚拟现实 (VR)、增强现实 (AR) 和网络技术，打造沉浸式数字体验。然而，由于内容创建、可扩展性和动态用户交互方面的挑战，元宇宙的发展速度减慢了。我们的研究调查了专家混合 (MoE) 模型与移动边缘计算的生成人工智能 (GAI) 的集成，以彻底改变元宇宙中的内容创建和交互。具体来说，我们利用 MoE 模型的能力，通过动态选择运行各种子模型的最相关专家来有效管理复杂数据和复杂任务，以增强 GAI 的能力。然后，我们提出了一种新颖的框架，可以提高视频内容生成质量和一致性，并通过案例研究展示其应用。我们的研究结果强调了 MoE 和 GAI 集成的有效性，通过提供可扩展、高效的途径来充分发挥 Metaverse 的潜力，重新定义虚拟体验。

使用交互式 VR 游戏探索多成分空间中的情感

分类： 人机交互, 人工智能, 机器学习

作者： Rukshani Somarathna, Gelareh Mohammadi

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03239v1

摘要： 情绪理解是一个涉及多个组成部分的复杂过程。识别情绪的能力不仅会带来新的情境感知方法，而且还可以通过感知和表达情绪来增强系统交互的有效性。尽管人们关注离散和维度模型，但神经科学证据支持这些情绪是复杂且多方面的。与这些发现产生良好共鸣的一个框架是组件过程模型（CPM），该理论考虑了情绪的复杂性，包括五个相互关联的组件：评价、表达、动机、生理和感觉。然而，CPM 与离散情绪之间的关系尚未得到充分探讨。因此，为了更好地理解情绪背后的过程，我们使用交互式虚拟现实 (VR) 游戏实施了数据驱动的方法，并收集了 39 名参与者的多模式测量（自我报告、生理和面部信号）。我们使用机器学习 (ML) 方法来识别每个组件对情绪分化的独特贡献。我们的结果显示了不同成分在情绪分化中的作用，该模型包括所有成分，显示出最显着的贡献。此外，我们发现至少需要五个维度来表示数据集中情绪的变化。这些发现对于在情感研究中使用 VR 环境也具有重要意义，并强调了生理信号在此类环境中情感识别中的作用。

通过增强现实遥操作系统演示自监督六自由度机器人抓取

分类： 机器人技术, 计算机视觉和模式识别

作者： Xiwen Dengxiong, Xueting Wang, Shi Bai, Yunbo Zhang

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.03067v1

摘要： 大多数现有的六自由度机器人抓取解决方案依赖于对抓取姿势的强有力的监督来确保令人满意的性能，当机器人在某些受限区域工作时，这可能是费力且不切实际的。为此，我们通过增强现实（AR）远程操作系统提出了一种自监督的 6-DoF 抓取姿势检测框架，该框架可以有效地学习人类演示并提供 6-DoF 抓取姿势，而无需抓取姿势注释。具体来说，系统从AR环境中收集人体演示，并从演示中对比学习抓取策略。对于现实世界的实验，所提出的系统在三个演示中产生了令人满意的抓取能力并学会了抓取未知物体。

用于真实驾驶预测的人工智能增强自动化：工业用例

分类： 软件工程

作者： Romina Eramo, Hamzeh Eyal Salman, Matteo Spezialetti, Darko Stern, Pierre Quinton, Antonio Cicchetti

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02841v1

摘要： 汽车系统日益复杂，需要新的开发策略和方法来应对即将到来的挑战。因此，传统方法需要通过提高自动化水平和更快的持续改进周期来改变。在这种情况下，由于需要在真实驾驶条件下执行测试，当前的车辆性能测试是一项非常耗时且昂贵的任务。因此，像 DevOps 这样的敏捷/迭代流程在很大程度上受到触发频繁测试的必要性的阻碍。本文报告了开发基于机器学习和基于模型的工程的人工智能增强解决方案以支持持续车辆开发和测试的实践经验。特别是，利用在真实驾驶条件下收集的历史数据来合成高保真驾驶模拟器，从而能够在虚拟环境中进行性能测试。基于这一实践经验，本文还提出了一个概念框架来支持基于真实驾驶行为的预测。

基于因果关系的驾驶场景到看不见的十字路口的转移

分类： 计算机视觉和模式识别

作者： Christoph Glasmacher, Michael Schuldes, Sleiman El Masri, Lutz Eckstein

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02046v1

摘要： 与现实世界的测试相比，基于场景的自动驾驶功能测试已成为一种减少时间和成本的有前途的方法。在基于场景的测试中，自动化功能是在一组预定义的场景中进行评估的。这些场景使用参数提供有关车辆行为、环境条件或道路特征的信息。为了创建真实的场景，必须利用真实世界的数据来拟合参数和参数依赖性。然而，由于现实中发现的交叉口和运动星座种类繁多，某些场景可能无法获得数据。本文提出了一种系统分析场景参数之间关系的方法。贝叶斯网络用于分析因果依赖性，以减少所需数据量并传输创建未见过的场景的因果模式。因此，研究基础设施对运动模式的影响，以生成未观察到的交叉路口的真实场景。为了进行评估，从 inD 数据集中提取场景和基础参数。根据那些最初看不见的交叉路口记录的数据来估计、传输和检查运动模式。

用于沉浸式通信的生成式人工智能：6G 传感互联网的下一个前沿

分类： 计算和语言, 人工智能, 人机交互, 多媒体, 网络和互联网架构

作者： Nassim Sehad, Lina Bariah, Wassim Hamidouche, Hamed Hellaoui, Riku Jäntti, Mérouane Debbah

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.01713v1

摘要： 在过去的二十年里，物联网 (IoT) 一直是一个变革性的概念，随着 2030 年的临近，一种被称为传感互联网 (IoS) 的新范式正在出现。与传统的虚拟现实 (VR) 不同，IoS 寻求提供多感官体验，承认在我们的物理现实中，我们的感知远远超出了视觉和声音；它包含一系列的感官。本文探讨了驱动沉浸式多感官媒体的现有技术，深入研究了它们的功能和潜在应用。这项探索包括对传统沉浸式媒体流和利用生成人工智能 (AI) 支持的语义通信的拟议用例进行比较分析。本次分析的重点是所提出的方案中带宽消耗大幅减少了 99.93%。通过这种比较，我们的目的是强调生成式人工智能在沉浸式媒体中的实际应用，同时应对挑战并概述未来的发展轨迹。

风景的变化：回顾性 VR 体现视角的变革性见解——与亲密他人的冲突

分类： 人机交互

作者： Seraphina Yong, Leo Cui, Evan Suma Rosenberg, Svetlana Yarosh

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02277v1

摘要： 亲密关系是不可替代的社会资源，但也容易发生高风险冲突。基于人机交互、虚拟现实和行为治疗领域的研究结果，我们评估了回顾性 VR 体现的观点采择从根本上影响亲密他人冲突解决的尚未探索的潜力。我们开发了一种准确传记的回顾性体现视角系统（REPT），并与目前治疗中使用的基于视频的反思方法（照常治疗，或TAU）。我们的主要发现证明，与 TAU 相比，REPT 能够在冲突期间显着提高双方的沟通技巧和积极情绪。定性数据还表明，REPT 通过专门刺激用户在同一水平上体现和反思自己及其伴侣的经历，超越了基本的观点采择。根据这些发现，我们为人机交互设计中的社会体现提供了启示和议程：概念化“体现社会认知”的使用，并将社会体现体验设想为互动环境。

从场景图和自注意力生成 3D 场景

分类： 计算机视觉和模式识别

作者： Pietro Bonazzi

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.01887v2

摘要： 以可控方式合成真实且多样化的室内 3D 场景布局，开辟了模拟导航和虚拟现实领域的应用。作为场景的简洁而强大的表示，场景图已被证明非常适合作为生成布局的语义控制。我们提出了条件变分自动编码器 (cVAE) 模型的变体，用于从场景图和平面图合成 3D 场景。我们利用自注意力层的属性来捕获场景中对象之间的高级关系，并将它们用作我们模型的构建块。我们的模型利用图形转换器来估计房间中物体的大小、维度和方向，同时满足给定场景图中的关系。我们的实验表明，自注意力层会导致更稀疏（与 Graphto3D 相比为 7.9 倍）和更多样化的场景（16%）。

来自透视成像的可扩展场景建模：基于物理的外观和几何推理

分类： 计算机视觉和模式识别

作者： Shuang Song

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01248v1

摘要： 3D 场景建模技术是地理空间工程和计算机科学的基础，推动了自动驾驶、地形测绘、导航、虚拟、增强、混合和扩展现实（用于游戏和电影行业等）等许多应用。本论文在外观和几何建模方面提出了将 3D 场景建模提升到最先进水平的一小部分贡献。与流行的深度学习方法相比，作为核心贡献，本论文旨在开发遵循第一原理的算法，其中引入复杂的基于物理的模型以及更简单的学习和推理任务。这些算法的结果产生的过程可以消耗更多的数据来大规模地高精度重建 3D 场景，而不会失去方法的通用性，这是当代基于复杂模型的深度学习方法不可能实现的。具体来说，本文介绍了三种新颖的方法，这些方法可以解决通过基于物理的建模推断外观和几何形状的挑战。总体而言，本论文中包含的研究标志着复杂数据集处理方面的一系列方法论胜利。通过融合深度学习、计算几何和摄影测量，这项工作为快速发展的 3D 场景重建领域的未来探索和实际应用奠定了一个强大的框架。这些研究的结果通过严格的实验以及与现有最先进方法的比较得到证明，证明了所提出方法的有效性和可扩展性。

Detect2Interact：使用大语言模型本地化视觉问答 (VQA) 中的对象关键字段

分类： 计算机视觉和模式识别

作者： Jialou Wang, Manli Zhu, Yulei Li, Honglei Li, Longzhi Yang, Wai Lok Woo

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01151v1

摘要： 本地化对于提高VQA系统的实用性和精度起着至关重要的作用。通过实现细粒度的识别以及与对象特定部分的交互，它显着提高了系统提供上下文相关和空间准确响应的能力，这对于机器人和增强现实等动态环境中的应用至关重要。然而，传统系统在准确映射图像中的对象以生成细致入微且空间感知的响应方面面临挑战。在这项工作中，我们引入了“Detect2Interact”，它通过引入一种用于细粒度对象视觉关键字段检测的先进方法来解决这些挑战。首先，我们使用分段任何模型（SAM）来生成图像中对象的详细空间图。接下来，我们使用Vision Studio提取语义对象描述。第三，我们利用 GPT-4 的常识知识，弥合了对象的语义与其空间地图之间的差距。因此，Detect2Interact 在广泛的测试用例中在对象关键字段检测上实现了一致的定性结果，并通过提供更合理和更精细的视觉表示，在对象检测方面优于现有的 VQA 系统。

AIGCOIQA2024：人工智能生成的全向图像的感知质量评估

分类： 计算机视觉和模式识别, 图像和视频处理

作者： Liu Yang, Huiyu Duan, Long Teng, Yucheng Zhu, Xiaohong Liu, Menghan Hu, Xiongkuo Min, Guangtao Zhai, Patrick Le Callet

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01024v1

摘要： 近年来，人工智能生成内容（AIGC）的快速发展引起了广泛关注。在AIGC中，人工智能生成的全向图像在虚拟现实（VR）和增强现实（AR）应用中具有巨大的潜力，因此全向AIGC技术也得到了广泛的研究。与自然全向图像相比，人工智能生成的全向图像表现出独特的失真，但是，没有专门的图像质量评估（IQA）标准来评估它们。本研究通过建立一个名为 AIGCOIQA2024 的大规模人工智能生成的全向图像 IQA 数据库并构建综合基准来解决这一差距。我们首先使用 25 个文本提示基于 5 个 AIGC 模型生成 300 个全向图像。随后进行主观IQA实验，从质量、舒适度和对应性三个角度评估人类视觉偏好。最后，我们进行基准实验来评估最先进的 IQA 模型在我们的数据库上的性能。该数据库将被发布以方便未来的研究。

BadPart：针对像素回归任务的统一黑盒对抗性补丁攻击

分类： 计算机视觉和模式识别

作者： Zhiyuan Cheng, Zhaoyi Liu, Tengda Guo, Shiwei Feng, Dongfang Liu, Mingjie Tang, Xiangyu Zhang

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.00924v1

摘要： 像素级回归任务（例如单目深度估计（MDE）和光流估计（OFE））已广泛应用于我们的日常生活中，例如自动驾驶、增强现实和视频合成等应用。尽管某些应用程序具有安全关键性或具有社会意义，但此类模型的对抗鲁棒性尚未得到充分研究，特别是在黑盒场景中。在这项工作中，我们引入了第一个针对像素级回归任务的统一黑盒对抗性补丁攻击框架，旨在识别这些模型在基于查询的黑盒攻击下的漏洞。我们提出了一种新颖的基于平方的对抗性补丁优化框架，并采用概率平方采样和基于分数的梯度估计技术来有效且高效地生成补丁，克服了先前黑盒补丁攻击的可扩展性问题。我们的攻击原型名为 BadPart，在 MDE 和 OFE 任务上进行了评估，总共使用了 7 个模型。 BadPart 在攻击性能和效率方面都超过了 3 个基线方法。我们还在 Google 在线服务上应用 BadPart 进行肖像深度估计，导致 50K 查询出现 43.5% 的相对距离误差。最先进（SOTA）的对策无法有效防御我们的攻击。