2024-06
基于立体视觉的机器人,用于支持 VR 的远程监控
分类: 计算机视觉和模式识别, I.4.0
作者: Mohamed Fazil M. S., Arockia Selvakumar A., Daniel Schilberg
发布时间: 2024-06-27
链接: http://arxiv.org/abs/2406.19498v1
摘要: 机器视觉系统在视觉监控系统中发挥着重要作用。在立体视觉和机器学习的帮助下,它将能够模仿人类的视觉系统和对环境的行为。在本文中,我们提出了一种基于立体视觉的三自由度机器人,它将用于使用云服务器和互联网设备远程监控位置。 3-DOF 机器人将传输类似人类的头部运动,即偏航、俯仰、滚动,并生成 3D 立体视频并实时传输。该视频流通过任何支持 VR 盒的通用互联网设备(即智能手机)发送给用户,为用户提供第一人称实时 3D 体验,并将用户的头部运动实时传输给机器人。该机器人还能够使用深度神经网络跟踪移动物体和面部作为目标,这使其成为一个独立的监控机器人。用户将能够选择在空间中监视的特定主题。立体视觉使我们能够跟踪检测到的不同物体的深度信息,并将用于跟踪人类感兴趣的物体的距离并发送到云端。开发了一个完整的工作原型,展示了基于立体视觉、机器人技术和机器学习的监控系统的功能。
Prism XR——虚拟现实中的策划展览体验,具有同行注释功能以及艺术和考古学课程的虚拟指南
分类: 人机交互
作者: Huopu Zhang
发布时间: 2024-06-25
链接: http://arxiv.org/abs/2407.09528v2
摘要: Prism XR 项目是一个针对艺术和考古学教育的虚拟现实 (VR) 策划展览体验,其功能旨在增强互动性和协作学习。该项目集成了同行注释和虚拟展览指南,以增强教育体验。同行注释功能旨在促进参观者的批评和评论,这对于促进策展人与观众之间的对话以及艺术和考古教育中参观者之间的对话至关重要,这被证明对学习动机和学习成果产生积极影响。虚拟展览指南旨在解决虚拟展览空间中的孤立问题,并增加虚拟策展体验的互动性。
通过有限的无线连接通过 VR 进行实时远程控制
分类: 机器人技术, 计算机视觉和模式识别
作者: H. P. Madushanka, Rafaela Scaciota, Sumudu Samarakoon, Mehdi Bennis
发布时间: 2024-06-25
链接: http://arxiv.org/abs/2406.17420v1
摘要: 这项工作介绍了一种通过有限的无线连接增强人机交互的解决方案。目标是通过虚拟现实(VR)界面实现机器人的远程控制,确保在连接丢失时平稳过渡到自主模式。 VR 界面提供对动态 3D 虚拟地图的访问,该地图使用机器人收集和传输的实时传感器数据进行持续更新。此外,机器人会监控无线连接,并在连接有限的情况下自动切换到自主模式。通过集成四个关键功能:实时地图、通过 VR 眼镜远程控制、无线连接的连续监控以及有限连接期间的自主导航,我们实现了无缝的端到端操作。
基于VR、区块链的制造业数据可视化框架
分类: 密码学和安全
作者: Nitol Saha, Philip Samaha, Ramy Harik
发布时间: 2024-06-25
链接: http://arxiv.org/abs/2406.17207v1
摘要: 这项研究提出了一种与 VR 集成的基于区块链的数据可视化框架,以获取制造洞察。该框架在南卡罗来纳大学未来工厂实验室的测试平台上实施。该系统旨在通过让用户沉浸在 VR 环境中来增强理解、分析和决策过程,其中使用区块链存储的复杂制造数据被转换为直观和交互式的表示。该项目专注于两个主要组成部分:区块链和虚拟现实。 Hyperledger Fabric 用于建立区块链网络,记录来自未来工厂测试台的数据。该系统从各种来源捕获信息,例如机器人夹具上用于测量夹具位置的电位计、用于测量压力的称重传感器、紧急停止按钮、传送带上的温度、速度和振动传感器。只要满足预定义的条件,相关数据(包括传感器 ID、时间戳、值、原因和重要性)就会安全地记录在区块链中,表明单元内出现了缺陷。从区块链系统检索的数据是通过“GET”API 请求访问的。 VR 应用程序是使用跨平台 Unity 游戏引擎开发的,用于可视化从区块链数据库检索的数据。 Meta Quest 3 被用作目标头戴式 VR 设备。 VR 应用程序有两个 C# 脚本:一个脚本使用“GET”API 调用查询区块链数据,另一个脚本将 JSON 对象转换为文本数据以在 VR 系统中可视化。拟议的系统利用区块链技术和 VR 可视化,通过安全数据传输提供身临其境、可操作的见解。通过采用拟议的框架,制造商可以在当今日益复杂和相互关联的制造工作场所中释放效率、可持续性和弹性的新潜力。
EntangleVR++:评估在交互式 VR 场景创建系统中使用纠缠的潜力
分类: 人机交互, H.5.1
作者: Mengyu Chen, Marko Peljhan, Misha Sra
发布时间: 2024-06-22
链接: http://arxiv.org/abs/2406.15928v1
摘要: 交互式数字故事为玩家提供了一种灵活性和自由感,允许他们在关键路口做出选择。这些选择推进了叙事,并在某种程度上决定了玩家的故事如何发展。正如之前的工作所示,控制或参与叙事构建的能力可以为玩家提供高水平的代理能力,从而在叙事体验中带来更强的沉浸感。为了支持这种交互式讲故事的设计,我们的系统 EntangleVR++ 借鉴了量子计算中的纠缠概念。我们对纠缠的使用允许创作者和故事讲述者控制哪些故事事件序列相互关联,由玩家做出的选择发起。在这项工作中,我们评估了纠缠的想法如何帮助创作者轻松快速地设计交互式 VR 叙事。我们邀请 16 名参与者使用我们的系统,根据用户访谈、屏幕录像分析和问卷反馈,我们提取了四个主题。从这些主题和总体研究中,我们为对未来视觉界面设计感兴趣的工具设计者得出了四种创作策略,用于交互式地创建虚拟场景,其中包括关系对象和由玩家交互驱动的多种结果。
ConnectVR:用于创建基于代理的交互式 VR 故事的触发操作界面
分类: 人机交互, H.5.1
作者: Mengyu Chen, Marko Peljhan, Misha Sra
发布时间: 2024-06-22
链接: http://arxiv.org/abs/2406.15889v1
摘要: 随着 VR 和视频游戏的日益普及,对互动叙事的需求也在不断增长。这提供了创建交互式讲故事体验的机会,让玩家能够以第一人称视角参与叙事,无论是在 VR 中还是在计算机上以 3D 方式身临其境。然而,对于没有编程经验的艺术家和故事讲述者来说,创作此类体验是一项特别复杂的任务,因为它涉及对一系列故事事件(角色动画、动作、时间控制、对话等)进行编码,并由各种不同的连接和触发。玩家行为。在这项工作中,我们提出了 ConnectVR,这是一个触发动作界面,使非技术创作者能够设计基于代理的叙事体验。我们的无代码创作方法特别关注由玩家行为触发的一系列因果关系驱动的叙事设计。我们要求 15 名参与者在初步研讨会研究中使用 ConnectVR,并要求两名艺术家在为期三周的深入研究中广泛使用我们的系统来创建 VR 叙事项目。我们的研究结果揭示了 ConnectVR 的触发动作方法所带来的创造性机会,特别是它在虚拟角色和物体之间建立连锁行为效果的能力。这两项研究的结果强调了参与者对我们的系统不仅支持创造力而且简化交互式叙事体验的创建能力的积极反馈。结果表明与非技术叙事创作者的工作流程兼容,展示了其增强 VR 叙事设计领域整体创作过程的潜力。
比较视觉、触觉和视触觉编码对虚拟现实中数字对象记忆保留的影响
分类: 人机交互
作者: Lucas Siqueira Rodrigues, Timo Torsten Schmidt, John Nyakatura, Stefan Zachow, Johann Habakuk Israel, Thomas Kosch
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14139v1
摘要: 尽管虚拟现实 (VR) 无疑改善了人类与 3D 数据的交互,但用户在为物理任务做准备时仍然面临保留复杂数字对象的重要细节的困难。为了解决这个问题,我们评估了视觉触觉集成在提高沉浸式可视化中虚拟对象的可记忆性方面的潜力。在一项用户研究 (N=20) 中,参与者执行了延迟的样本匹配任务,其中他们记住了视觉、触觉或视觉触觉编码条件的刺激。我们通过错误率和响应时间评估了条件之间的性能差异。我们发现,与单峰视觉和触觉条件相比,视觉触觉编码显着提高了记忆准确性。我们的分析表明,将触觉集成到沉浸式可视化中可以增强数字对象的可记忆性。我们讨论了它对 VR 应用程序中最佳编码设计的影响,这些应用程序可以帮助需要在日常工作中记住和回忆虚拟对象的专业人员。
我们到了吗?为领域专家揭示协作沉浸式分析中的可用性挑战和机遇
分类: 人机交互
作者: Fahim Arsad Nafis, Alexander Rose, Simon Su, Songqing Chen, Bo Han
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.13918v1
摘要: 在不断发展的高维科学数据学科中,协作沉浸式分析 (CIA) 为复杂数据可视化和解释领域的专家提供了一个充满希望的前沿领域。这项研究提出了一个综合框架,用于在开源 CIA 系统 ParaView 的扩展现实 (XR) 界面上进行可用性研究。通过采用既定的人机交互 (HCI) 原则,包括雅各布·尼尔森的可用性启发法、认知负荷理论、NASA 任务负荷指数、系统可用性量表、可供性理论以及执行和评估海湾,本研究旨在识别潜在的可用性问题和提供增强科学领域用户体验的指南。我们的研究结果揭示了 ParaView XR 界面的重大可用性挑战,阻碍了有效的团队合作和协作。例如,缺乏同步协作、有限的通信方法以及缺乏基于角色的数据访问是需要关注的关键领域。此外,错误处理不足、反馈机制不足以及应用程序使用过程中的支持资源有限,需要进行大量改进才能充分发挥系统的潜力。我们的研究提出了克服协作沉浸式系统现有可用性障碍的潜在改进。
通过 MAC 信令学习优化无线不连续接收
分类: 信息论, 机器学习, 信息论
作者: Adriano Pastore, Adrián Agustín de Dios, Álvaro Valcarce
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13834v1
摘要: 我们提出了一种强化学习 (RL) 方法来解决控制蜂窝网络中基站收发站 (BTS) 的不连续接收 (DRX) 策略的问题。我们通过对快速第 2 层信令消息(也称为 5G 新无线电中指定的媒体访问层 (MAC) 控制元素 (CE))的传输进行最佳计时来实现这一点。与依赖于微调 DRX 定时器值的更传统 DRX 优化方法不同,我们评估仅通过此 MAC CE 信令即可获得的增益。对于模拟部分,我们专注于扩展现实 (XR) 应用中通常遇到的流量类型,其中对电池消耗最小化和过热缓解的需求尤为迫切。兼容 3GPP 5G 新无线电 (5G NR) 和不兼容(“超越 5G”)的 MAC CE 均被考虑。我们的模拟结果表明,与大多数当前实现的传统基于定时器的方法相比,我们提出的技术在延迟和节能之间实现了改进的权衡。具体来说,相对于原生 MAC CE 传输策略,我们基于 RL 的策略可以将单个用户设备 (UE) 的活动时间几乎减少一半,并且仍然可以为 9 个同时服务的 UE 实现近 20% 的活动时间减少。
NeRF-Feat:使用特征渲染进行 6D 物体姿态估计
分类: 计算机视觉和模式识别
作者: Shishir Reddy Vutukur, Heike Brock, Benjamin Busam, Tolga Birdal, Andreas Hutter, Slobodan Ilic
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13796v1
摘要: 物体姿态估计是机器人抓取和增强现实的重要组成部分。基于学习的方法通常需要来自高精度 CAD 模型的训练数据或使用复杂设置获取的标记训练数据。我们通过学习在没有已知 CAD 模型的情况下根据弱标记数据估计姿势来解决这个问题。我们建议使用 NeRF 隐式学习对象形状,随后使用对比损失与 CNN 结合学习视图不变特征。 NeRF 有助于学习视图一致的特征,而 CNN 可确保学习到的特征尊重对称性。在推理过程中,CNN 用于预测视图不变特征,这些特征可用于与 NeRF 中的隐式 3D 模型建立对应关系。然后使用这些对应关系来估计 NeRF 参考系中的位姿。与使用类似训练设置的其他方法不同,我们的方法还可以处理对称对象。具体来说,我们使用 NeRF 学习视点不变的判别性特征,这些特征随后用于姿态估计。我们在 LM、LM-Occlusion 和 T-Less 数据集上评估了我们的方法,并在使用弱标记数据的情况下实现了基准精度。
你无法处理(肮脏的)真相:以数据为中心的洞察改进了伪标签
分类: 机器学习, 人工智能
作者: Nabeel Seedat, Nicolas Huynh, Fergus Imrie, Mihaela van der Schaar
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13733v1
摘要: 伪标签是一种流行的半监督学习技术,可在标记样本稀缺时利用未标记的数据。伪标签的生成和选择很大程度上依赖于标记数据。现有方法隐含地假设标记数据是黄金标准并且“完美”。然而,现实中可能会因为标签错误或含糊不清等问题而违反这一点。我们解决了这个被忽视的方面,并展示了研究标记数据质量以改进任何伪标记方法的重要性。具体来说,我们引入了一种称为 DIPS 的新型数据表征和选择框架来扩展伪标签。我们通过学习动态分析选择有用的标记和伪标记样本。我们展示了 DIPS 对各种伪标记方法在广泛的现实世界表格和图像数据集中的适用性和影响。此外,DIPS 还提高了数据效率并减少了不同伪标记器之间的性能差异。总的来说,我们强调了在现实环境中以数据为中心重新思考伪标签的显着好处。
GUI 操作旁白:该操作发生在何时何地?
分类: 计算机视觉和模式识别
作者: Qinchen Wu, Difei Gao, Kevin Qinghong Lin, Zhuoyu Wu, Xiangwu Guo, Peiran Li, Weichen Zhang, Hengxu Wang, Mike Zheng Shou
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13719v1
摘要: 多模态大语言模型的出现显着增强了图像 OCR 识别能力,使 GUI 自动化成为提高数字任务效率的可行现实。开发 GUI 自动化系统的一个基本方面是理解原始 GUI 操作。这种理解至关重要,因为它使代理能够从用户演示中学习,这是自动化的基本要素。为了严格评估此类功能,我们开发了 GUI 操作的视频字幕基准,其中包含 4,189 个不同的视频字幕样本。与自然场景视频字幕相比,此任务提出了独特的挑战:1)GUI 屏幕截图通常包含比自然场景更密集的信息,2)GUI 内的事件更微妙且发生更快,需要精确注意适当的时间跨度和空间区域以获取准确的结果。理解。为了应对这些挑战,我们引入了 GUI 动作数据集 \textbf{Act2Cap} 以及一个简单而有效的框架 \textbf{GUI Narrator},用于 GUI 视频字幕,它利用光标作为视觉提示来增强对高清晰度视频的解释。 - 分辨率屏幕截图。具体来说,光标检测器在我们的数据集上进行训练,并且具有选择关键帧和关键区域机制的多模态 LLM 模型生成字幕。实验结果表明,即使对于当今最先进的多模态模型(例如 GPT-4o),该任务仍然极具挑战性。此外,我们的评估表明,无论是集成到开源模型的微调中还是用作闭源模型中的提示策略,我们的策略都有效地提高了模型性能。
子模块参与式预算
分类: 计算机科学与博弈论, 人工智能
作者: Jing Yuan, Shaojie Tang
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13586v1
摘要: 参与式预算是指通过收集和汇总个人偏好来分配公共资源的做法。该领域的大多数现有研究通常假设附加效用函数,其中每个人都为每个候选项目持有一个私人效用,并且一组资助项目的总效用只是所有项目效用的总和。我们认为这个假设在现实中并不总是成立。例如,在同一个社区建造两个游乐场并不一定会带来建造单个游乐场两倍的效用。为了解决这个问题,我们通过提出子模参与预算问题来扩展现有的研究,假设每个人的效用函数是受资助项目的单调和子模函数。我们提出并研究了三种偏好诱导方法,包括\emph{按边缘值排名}、\emph{按值排名}和\emph{阈值支持投票},并分析了它们在失真方面的表现。值得注意的是,如果效用函数令人上瘾,那么我们为阈值批准投票设计的聚合规则会比最先进的方法实现更好的扭曲。
4K4DGen:4K 分辨率的全景 4D 生成
分类: 计算机视觉和模式识别
作者: Renjie Li, Panwang Pan, Bangbang Yang, Dejia Xu, Shijie Zhou, Xuanyang Zhang, Zeming Li, Achuta Kadambi, Zhangyang Wang, Zhiwen Fan
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13527v1
摘要: 虚拟现实和增强现实 (VR/AR) 技术的蓬勃发展推动了对创建高质量、沉浸式和动态环境的需求不断增长。然而,现有的生成技术要么只关注动态物体,要么从单一视角图像进行外画,无法满足VR/AR应用的需求。在这项工作中,我们解决了将单个全景提升为沉浸式 4D 体验的挑战性任务。我们首次展示了以 4K 分辨率生成 360 度全景动态场景的能力,从而提供身临其境的用户体验。我们的方法引入了一个管道,可以促进自然场景动画,并使用高效的泼溅技术来优化一组 4D 高斯函数以进行实时探索。为了克服缺乏场景尺度注释 4D 数据和模型的问题,特别是在全景格式中,我们提出了一种新颖的全景降噪器,它采用通用 2D 扩散先验,在 360 度图像中进行一致的动画处理,将其转换为具有目标动态场景的全景视频。地区。随后,我们将全景视频提升为 4D 沉浸式环境,同时保持空间和时间的一致性。通过将先验知识从透视域中的 2D 模型转移到全景域,并通过空间外观和几何正则化进行 4D 提升,我们以(4096 $\times$ 2048)的分辨率实现了高质量的全景到 4D 生成第一次。请参阅项目网站 https://4k4dgen.github.io。
MVSBoost:基于点云的高效 3D 重建
分类: 计算机视觉和模式识别
作者: Umair Haroon, Ahmad AlMughrabi, Ricardo Marques, Petia Radeva
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13515v1
摘要: 高效、准确的 3D 重建对于增强现实和虚拟现实、医学成像和电影特效等各种应用至关重要。虽然传统的多视图立体 (MVS) 系统在这些应用中一直是基础,但在隐式 3D 场景建模中使用神经隐式场为处理复杂拓扑和连续表面带来了新的可能性。然而,神经隐式场常常存在计算效率低下、过度拟合以及对数据质量的严重依赖等问题,限制了它们的实际使用。本文提出了一种增强的 MVS 框架,该框架通过运动结构 (SfM) 集成了多视图 360 度图像和强大的相机姿态估计,以及用于点云致密化、网格重建和纹理的高级图像处理。我们的方法显着改进了传统的 MVS 方法,提供了卓越的准确度和精确度,并使用 Realistic Synthetic 360 数据集上的 Chamfer 距离指标进行了验证。开发的 MVS 技术增强了 3D 重建的细节和清晰度,并在复杂场景重建中展现出卓越的计算效率和鲁棒性,有效处理遮挡和变化的视点。这些改进表明我们的 MVS 框架可以与当前最先进的神经隐式场方法竞争并有可能超越,特别是在需要实时处理和可扩展性的场景中。
强化学习提高 Delta 机器人对废金属进行分类的投掷能力
分类: 机器人技术
作者: Arthur Louette, Gaspard Lambrechts, Damien Ernst, Eric Pirard, Godefroid Disclaire
发布时间: 2024-06-19
链接: http://arxiv.org/abs/2406.13453v1
摘要: 本研究提出了一种基于强化学习 (RL) 的新颖方法,使用 Delta 机器人和业界广泛使用的取放 (PaP) 流程来提高废金属的分拣效率。我们使用三种经典的无模型 RL 算法(TD3、SAC 和 PPO)来减少金属废料分类的时间。我们学习将物体扔进垃圾箱所需的释放位置和速度,而不是像经典的 PaP 技术那样移动到确切的垃圾箱位置。我们的贡献是三重的。首先,我们提供了一个新的模拟环境,用于学习并行夹具的基于 RL 的拾取和投掷 (PaT) 策略。其次,我们使用 RL 算法在此环境中学习此任务,从而获得 89% 的准确率,同时将模拟中的吞吐量提高 51%。第三,我们评估 RL 算法的性能,并将其与模拟和现实中的 PaP 和最先进的 PaT 方法进行比较,仅从具有域随机化的模拟中学习,而无需在现实中进行微调来转移我们的策略。这项工作展示了基于 RL 的 PaT 与业界使用的 PaP 或经典优化 PaT 技术相比的优势。
请减少网络病:揭秘并检测虚拟现实应用程序中的立体视觉不一致
分类: 软件工程, D.2.5; H.5.1; H.5.2
作者: Shuqing Li, Cuiyun Gao, Jianping Zhang, Yujia Zhang, Yepang Liu, Jiazhen Gu, Yun Peng, Michael R. Lyu
发布时间: 2024-06-13
链接: http://arxiv.org/abs/2406.09313v2
摘要: 虚拟现实 (VR) 应用程序的质量至关重要,尤其是 VR 图形用户界面 (GUI) 的渲染质量。与传统的 2D 应用程序不同,VR 应用程序通过分别为用户的左眼和右眼渲染两个不同的 2D 图像,为用户创建 3D 数字场景。然而,立体视觉不一致(表示为“SVI”)问题会破坏用户大脑的渲染过程,导致用户不适,甚至对健康产生不利影响。此类问题普遍存在,但仍未得到充分探讨。我们对来自 15 个 VR 平台的 282 个 SVI bug 报告进行了实证分析,总结出 15 种表现形式。实证分析表明,自动检测SVI问题具有挑战性,主要是因为:(1)缺乏训练数据; (2) SVI问题的表现形式多样、复杂,且往往针对具体应用; (3) 最容易访问的 VR 应用程序是闭源商业软件。现有的基于模式的监督分类方法在检测 SVI 问题时可能不适用或无效。为了应对这些挑战,我们提出了一个名为 StereoID 的无监督黑盒测试框架,仅基于渲染的 GUI 状态来识别立体视觉不一致。 StereoID 根据实际左眼图像生成合成右眼图像,并计算合成右眼图像与实际右眼图像之间的距离以检测 SVI 问题。我们提出了一种深度感知的条件立体图像转换器来驱动图像生成过程,捕获左眼和右眼图像之间的预期透视变化。我们构建了一个大规模的未标记 VR 立体屏幕截图数据集,其中包含来自 288 个真实世界 VR 应用程序的超过 171K 图像用于实验。经过大量实验,StereoID 在检测用户报告和野生 VR 应用程序中的 SVI 问题方面表现出了卓越的性能。
将鼠标悬停在 XR 中的文本输入键上
分类: 人机交互
作者: Mar Gonzalez-Franco, Diar Abdlkarim, Arpit Bhatia, Stuart Macgregor, Jason Alexander Fotso-Puepi, Eric J Gonzalez, Hasti Seifi, Massimiliano Di Luca, Karan Ahuja
发布时间: 2024-06-13
链接: http://arxiv.org/abs/2406.09579v1
摘要: 虚拟、混合和增强现实 (XR) 技术拥有超越 PC 的生产力转型的巨大潜力。因此,迫切需要改进 XR 文本输入解决方案。然而,在这些环境中实现高效的文本输入仍然是一个重大挑战。本文探讨了 XR 文本输入技术的现状,重点关注键盘(物理和虚拟)作为基本工具的重要性。我们讨论 XR 带来的独特挑战和机遇,综合现有解决方案的主要趋势。
请减少网络病:揭秘并检测 VR 应用中的立体视觉不一致
分类: 软件工程
作者: Shuqing Li, Cuiyun Gao, Jianping Zhang, Yujia Zhang, Yepang Liu, Jiazhen Gu, Yun Peng, Michael R. Lyu
发布时间: 2024-06-13
链接: http://arxiv.org/abs/2406.09313v1
摘要: 虚拟现实 (VR) 应用程序的质量至关重要,尤其是 VR 图形用户界面 (GUI) 的渲染质量。与传统的 2D 应用程序不同,VR 应用程序通过分别为用户的左眼和右眼渲染两个不同的 2D 图像,为用户创建 3D 数字场景。然而,立体视觉不一致(表示为“SVI”)问题会破坏用户大脑的渲染过程,导致用户不适,甚至对健康产生不利影响。此类问题普遍存在,但仍未得到充分探讨。我们对来自 15 个 VR 平台的 282 个 SVI bug 报告进行了实证分析,总结出 15 种表现形式。实证分析表明,自动检测SVI问题具有挑战性,主要是因为:(1)缺乏训练数据; (2) SVI问题的表现形式多样、复杂,且往往针对具体应用; (3) 最容易访问的 VR 应用程序是闭源商业软件。现有的基于模式的监督分类方法在检测 SVI 问题时可能不适用或无效。为了应对这些挑战,我们提出了一个名为 StereoID 的无监督黑盒测试框架,仅基于渲染的 GUI 状态来识别立体视觉不一致。 StereoID 根据实际左眼图像生成合成右眼图像,并计算合成右眼图像与实际右眼图像之间的距离以检测 SVI 问题。我们提出了一种深度感知条件立体图像转换器来驱动图像生成过程,捕获左眼和右眼图像之间的预期透视变化。我们构建了一个大规模的未标记 VR 立体屏幕截图数据集,其中包含来自 288 个真实世界 VR 应用程序的超过 171K 图像用于实验。经过大量实验,StereoID 在检测用户报告和野生 VR 应用程序中的 SVI 问题方面表现出了卓越的性能。
用于多用户 XR 体验和端到端性能评估的边缘渲染架构
分类: 网络和互联网架构, 多媒体
作者: Inhar Yeregui, Daniel Mejías, Guillermo Pacho, Roberto Viola, Jasone Astorga, Mario Montagud
发布时间: 2024-06-11
链接: http://arxiv.org/abs/2406.07087v1
摘要: 由于全息通信具有彻底改变人类通信的潜力,因此在新兴的扩展现实 (XR) 应用中越来越受欢迎。然而,这些技术的特点是对服务质量(QoS)提出了更高的要求,例如高传输数据速率、极低的延迟和高计算能力,对当前可实现的能力提出了挑战。在此背景下,正在研究计算卸载技术,其中资源密集型计算任务(例如渲染 XR 体验)从用户设备转移到单独的处理器,特别是边缘计算实例。本文介绍了一种用于多用户 XR 体验的边缘渲染架构,在广泛使用的 XR 和 Web 技术之上实现它,并提出了一种基于图像和音频处理的方法来评估其在端到端媒体流延迟方面的性能,使用不同接入网络时的设备间和媒体内同步。
利用超扫描脑电图和 VR 全向跑步机探索协作空间导航中的脑间同步
分类: 神经元和认知
作者: Chun-Hsiang Chuang, Po-Hsun Peng, Yi-Chieh Chen
发布时间: 2024-06-10
链接: http://arxiv.org/abs/2406.06327v1
摘要: 在物理环境中导航到达所需位置涉及认知、感觉和运动功能的复杂相互作用。当与他人一起航行时,体验一定程度的行为和认知同步是自然而普遍的。这种同步促进了为实现共同目标而进行的和谐努力,反映了个人如何在协作环境中本能地调整他们的行动和思想。协作空间任务在日常和专业环境中至关重要,需要协调的导航和解决问题的技能。这项研究通过使用超扫描脑电图(EEG)技术来检查虚拟现实环境中二元路线规划中的大脑动力学,从而探索此类任务背后的神经机制。通过使用功能性和有效的连接性测量来分析跨 delta、theta、alpha、beta 和 gamma 脑电图带的脑内和脑间耦合,我们确定了与领导者和追随者的协作任务表现相关的重要神经同步模式。功能性脑内连接分析揭示了脑电图频段上不同的神经参与,在领导者和追随者中观察到增量耦合增加。追随者的 Theta 连接性尤其增强,而 alpha 带表现出不同的模式,表明角色特定的神经策略。脑间分析显示,互动成员之间的 delta 因果关系增加,但从追随者到领导者的 theta 和 gamma 耦合减少。此外,脑间分析表明,表现较快的二元组中的耦合减少,尤其是在 θ 波段。这些见解增强了我们对驱动协作空间导航的神经机制的理解,并证明了超扫描在研究复杂的大脑与大脑相互作用方面的有效性。
沉浸式虚拟现实 (VR) 中通过人体 AI 代理交互产生的人工社会影响:健康对话期间相似性匹配的影响
分类: 人机交互
作者: Sue Lim, Ralf Schmälzle, Gary Bente
发布时间: 2024-06-08
链接: http://arxiv.org/abs/2406.05486v1
摘要: 与基于人工智能 (AI) 的代理的交互可以对人类行为和判断产生积极影响。然而,迄今为止的研究主要集中在基于文本的对话代理(CA)上,其具体实施方式有限,限制了我们对社会影响原则(例如相似性)如何应用于人工智能代理(即人工社会影响)的理解。我们通过利用人工智能(语言模型)的最新进展并将其与沉浸式虚拟现实(VR)相结合来解决这一差距。具体来说,我们构建了 VR-ECA,或者体现了对话代理,可以在虚拟环境中自然地与人类就健康相关主题进行对话。然后,我们通过性别匹配来操纵人类与智能体的相似性,并检查其对生物行为(即凝视)、社交(例如智能体喜爱度)和行为结果(即健康零食选择)的影响。我们发现,与异性代理人讨论健康问题可以增加凝视时间和选择健康零食的可能性。此外,无论 VR-ECA 的性别如何,女性参与者比男性参与者更喜欢 VR-ECA。最后,参与者在与 VR 体现的代理交谈时比与纯文本代理聊天时体验到更好的临场感。总的来说,我们的研究结果强调了体现是人工智能如何影响人类行为的关键因素,我们的范式使得社会影响力、人类与人工智能交流和沉浸式虚拟现实(VR)交叉点的新实验研究成为可能。
SPARC:通过 Avatar Distortion 实现 VR 远程协作的共享视角
分类: 人机交互
作者: João Simões, Anderson Maciel, Catarina Moreira, Joaquim Jorge
发布时间: 2024-06-07
链接: http://arxiv.org/abs/2406.05209v1
摘要: 远程呈现 VR 系统允许面对面交流,促进临场感和对非语言线索的理解。然而,在讨论虚拟 3D 对象时,存在和通信的限制会导致指示手势因方向差异而失去意义。当前的方法使用共享视角和头像重叠来恢复这些参考,这会导致遮挡和不适,当多个用户参与时,情况会变得更糟。我们引入了一种在多用户协作中共享视角的新方法,其中化身不位于同一位置。每个人都可以在工作区周围的位置看到其他人的化身,同时拥有工作区的第一人称视图。每当用户操纵一个对象时,其他人都会看到他/她的手臂伸展以到达他们视角中的该对象。 SPARC 结合了共享方向并支持非语言交流,最大限度地减少遮挡。我们进行了一项用户研究 (n=18),以了解这种新颖的方法如何影响任务绩效和工作空间意识。我们发现有证据表明 SPARC 比逼真的环境更高效且对脑力要求更低。
探索用户评论的主题建模作为社交 VR 社区内紧急问题的监控机制
分类: 人机交互
作者: Angelo Singh, Joseph O'Hagan
发布时间: 2024-06-06
链接: http://arxiv.org/abs/2406.03994v1
摘要: 社交虚拟现实 (VR) 平台的用户经常使用用户评论来记录目击和/或经历过的用户骚扰事件。然而,目前尚未探索如何利用这些数据作为监测机制来识别社交 VR 社区中的紧急问题。这样的系统将对开发人员和研究人员大有裨益,因为它可以自动识别出现的紧急问题,提供纵向分析骚扰的方法,并减少对替代的、高成本的监控方法的依赖,例如监控方法。观察或访谈研究。为了促进此类系统的开发,我们从 Steam 店面收集了大约 40,000 条 Rec Room 用户评论。然后,我们分析了数据集的情绪、单词/术语频率,并对数据集中检测到的负面评论进行了主题建模分析。我们报告说,我们的方法能够纵向监控评论情绪的变化,并识别与社交 VR 平台中已知发生的骚扰类型相关的高级主题。
照度和相关色温对认知表现的影响:VR 照明研究
分类: 人机交互
作者: Armin Mostafavi, Milica Vujovic, Tong Bill Xu, Michael Hensel
发布时间: 2024-06-04
链接: http://arxiv.org/abs/2406.02728v1
摘要: 这项研究有助于不断探索增强环境设计、认知功能和整体福祉的方法,主要侧重于了解人工照明条件对人类认知表现的调节。在这项调查中,参与者 (N=35) 参与了两种不同的建筑环境,每种建筑环境在特定的白天场景下在虚拟环境中具有五种不同的照明条件。针对一系列认知记忆测试,我们测量了参与者的测试分数和相应的反应时间。该研究的结果,特别是后向数字跨度任务(BDST)和视觉记忆任务(VMT)的结果表明,不同的照明条件会显着影响一天中不同时间的认知表现。值得注意的是,BDST 分数主要受下午课程中光照条件的影响,而 VMT 分数主要受上午课程的影响。这项研究为建筑师和工程师开发对居住者认知表现敏感的照明设计提供支持。它强调了在 AEC 行业中利用 VR 模拟来评估照明设计对用户的影响的优势。进一步的研究可以促进照明系统的开发,从而促进更好的认知功能和整体健康。
基于迭代局部搜索-Sparrow搜索算法优化随机森林机器学习算法进行用户VR体验预测
分类: 机器学习, 人工智能
作者: Xirui Tang, Feiyang Li, Zinan Cao, Qixuan Yu, Yulu Gong
发布时间: 2024-06-03
链接: http://arxiv.org/abs/2406.16905v1
摘要: 本文通过引入麻雀搜索算法和迭代局部搜索优化麻雀搜索算法改进的随机森林算法,研究了一种改进的 VR 用户体验预测方法。研究首先对数据进行统计分析,然后使用传统随机森林模型、麻雀搜索算法改进的随机森林模型、基于迭代局部搜索改进的随机森林算法——麻雀搜索算法进行训练和测试, 分别。结果表明,传统随机森林模型在训练集上的预测准确率为93%,但在测试集上的预测准确率仅为73.3%,泛化能力较差;而麻雀搜索算法改进后的模型在测试集上的预测准确率达到了94%,较传统模型有所提高。更值得注意的是,基于迭代局部搜索——麻雀搜索算法的改进模型在训练集和测试集上均达到了100%的准确率,明显优于其他两种方法。这些研究成果为VR用户体验预测提供了新的思路和方法,特别是基于迭代局部搜索的改进模型——麻雀搜索算法表现良好,能够更准确地对用户的VR体验进行预测和分类。未来可以进一步探索该方法在其他领域的应用,并通过真实案例验证其有效性,推动AI技术在用户体验领域的发展。
VR 问卷用户界面的文献综述和分类
分类: 人机交互
作者: Saeed Safikhani, Lennart Nacke, Johanna Pirker
发布时间: 2024-06-03
链接: http://arxiv.org/abs/2406.01122v1
摘要: 先前的研究表明,沉浸式体验的中断可能会导致问卷结果出现偏差。因此,传统的纸质或网络问卷调查方式可能与评估 VR 体验不兼容。最近的研究表明,将问卷嵌入到虚拟环境中会产生积极的影响。然而,目前缺少对可用 VR 问卷解决方案的全面概述。此外,文献中没有针对这些不同解决方案的明确分类。为了解决这个问题,我们按照 PRISMA 指南对 VR 问卷用户界面 (UI) 进行了文献综述。我们的搜索返回了 1.109 条初步结果,并对这些结果进行了资格筛选,最终形成了包含 25 篇论文的语料库。本文对 VR 中嵌入式问卷的文献进行了回顾,讨论了其优点和缺点,并介绍了 VR 中问卷 UI 的分类,为人机交互和游戏研究做出了贡献。