2024-01
基于 VR 生成逼真的合成数据,用于训练手部物体跟踪模型
分类: 计算机视觉和模式识别
作者: Chengyan Zhang, Rahul Chaudhari
发布时间: 2024-01-31
链接: http://arxiv.org/abs/2401.17874v2
摘要: 用于精确跟踪 3D 手部物体交互 (HOI) 的监督学习模型需要大量带注释的数据进行训练。此外,对于非专家来说,在 2D 图像上标记 3D 地面实况(例如 6DoF 对象姿势)并不直观。为了解决这些问题,我们推出了“blender-hoisynth”,一个基于 Blender 软件的交互式合成数据生成器。 Blender-hoisynth 可以可扩展地生成并自动注释可视化 HOI 训练数据。其他竞争方法通常完全无需人工输入即可生成合成 HOI 数据。虽然这在某些情况下可能是有益的,但 HOI 应用程序本质上需要直接控制 HOI 作为人类意图的表达。借助 Blender-hoisynth,用户可以使用标准虚拟现实硬件通过虚拟手与对象进行交互。合成生成的数据具有高度真实感的特点,包含视觉上合理且物理上真实的手部抓握物体并以 3D 方式移动物体的视频。为了证明我们数据生成的有效性,我们用 hoisynth 数据替换了著名的 DexYCB 数据集中的大部分训练数据,并用它训练了最先进的 HOI 重建模型。我们表明,尽管进行了数据替换,模型性能并没有显着下降。
沉浸在设计保障的现实中——AR/VR环境安全措施综合分析
分类: 密码学和安全, 信息论, 信息论
作者: Sameer Chauhan, Luv Sachdeva
发布时间: 2024-01-30
链接: http://arxiv.org/abs/2404.16839v1
摘要: 虚拟现实以及混合现实和增强现实等相关技术已得到主流和边缘媒体的广泛报道。当话题转到新的 AR 耳机、另一台 AR 设备或 AR 眼镜时,话题很快就会转向技术和设计细节。不幸的是,似乎没有人关心安全。数据盗窃和其他形式的网络攻击对虚拟现实系统构成严重威胁。虚拟现实护目镜只是计算机或物联网设备的专业版本,而虚拟现实体验则是软件包。因此,AR 系统与我们日常使用的任何其他物联网 (IoT) 设备(例如计算机、平板电脑和手机)一样容易受到攻击。预防和应对常见的网络安全威胁和攻击至关重要。网络犯罪分子可以像任何其他计算机系统一样利用虚拟现实耳机。本文分析了这些攻击引发的数据泄露可能会导致多种问题,包括但不限于身份盗窃、未经授权获取个人信息或网络凭证、硬件和软件损坏等。增强现实 (AR) 可实现网络活动、系统日志和安全警报的实时监控和可视化。这使得安全专业人员能够立即识别威胁、监控可疑活动并解决出现的任何问题。这些数据可以使用增强现实界面以美观且直观的结构格式显示,从而实现更快的分析和决策。
使用运动预测进行基于行为的虚拟现实 (VR) 身份验证
分类: 机器学习, 密码学和安全
作者: Mingjun Li, Natasha Kholgade Banerjee, Sean Banerjee
发布时间: 2024-01-30
链接: http://arxiv.org/abs/2401.16649v1
摘要: 对虚拟现实 (VR) 环境中交互的用户进行基于任务的行为生物识别认证,仅使用人身体的运动轨迹作为唯一签名,从而实现无缝连续认证。基于深度学习的行为生物识别方法在使用用户轨迹的完整或接近完整部分时显示出较高的准确性,但在从任务开始时使用较小的部分时显示出较低的性能。因此,任何使用现有技术设计的系统在等待未来的运动轨迹片段变得可用时都容易受到攻击。在这项工作中,我们提出了第一种使用基于 Transformer 的预测来预测未来用户行为的方法,并使用预测的轨迹来执行用户身份验证。我们的工作利用了这样的概念:在基于任务的环境中给定用户的当前轨迹,我们可以预测用户的未来轨迹,因为他们不太可能显着改变他们的行为,因为这会妨碍用户成功完成他们的任务目标。使用 Miller 等人公开的 41 个对象的投球数据集。我们在使用预测数据时展示了用户身份验证的改进。与无预测相比,我们的方法平均降低了身份验证等错误率 (EER) 23.85%,最大降低了 36.14%。
DocuBits:用于程序任务完成的 VR 文档分解
分类: 人机交互
作者: Geonsun Lee, Jennifer Healey, Dinesh Manocha
发布时间: 2024-01-27
链接: http://arxiv.org/abs/2401.15510v1
摘要: 在 VR 中阅读单一的教学文档通常具有挑战性,尤其是当任务是协作时。在这里,我们介绍了 DocuBits,这是一种将整体文档转换为小型交互式教学元素的新颖方法。我们的方法允许用户:(i) 创建教学元素 (ii) 将它们放置在 VR 中,以及 (iii) 使用它们在多用户 VR 学习环境中监控和共享进度。我们描述了我们的设计方法以及两项用户研究,评估个人用户和成对用户在执行化学实验室任务时与整体文档相比如何与 DocuBits 进行交互。我们的分析表明,对于这两项研究,DocuBits 的可用性显着提高,同时减少了感知工作量 (p < 0.001$。我们的合作研究表明,参与者感知到更高的社交存在感、协作意识以及沉浸感和存在感 (p < 0.001)。我们讨论了使用基于文本的指令来支持 VR 环境中增强协作的见解。
“我可以说话吗?”:社交 VR 群组对话中的多模态注意力引导
分类: 人机交互
作者: Geonsun Lee, Dae Yeol Lee, Guan-Ming Su, Dinesh Manocha
发布时间: 2024-01-27
链接: http://arxiv.org/abs/2401.15507v1
摘要: 在本文中,我们提出了一种新颖的多模式注意力引导方法,旨在解决会议中轮流动态的挑战并增强虚拟现实(VR)环境中的小组对话。认识到 VR 中有限视野和缺乏详细手势跟踪带来的困难,我们提出的方法旨在减轻注意到试图加入对话的新发言者的挑战。这种方法可以定制注意力引导,为高度参与的参与者提供细致入微的体验,同时为参与度较低的参与者提供更微妙的提示,从而丰富整体会议动态。通过小组访谈研究,我们收集了指导我们设计的见解,从而产生了一个采用“光”作为叙事指导机制并辅以空间音频的原型。这种组合创造了直观、身临其境的会议环境,有效地将用户的注意力引导到新的演讲者身上。一项评估研究将我们的方法与最先进的注意力引导方法进行比较,结果表明我们的方法具有明显更快的响应时间 (p < 0.001)、更高的感知对话满意度 (p < 0.001) 和偏好 (p < 0.001) 。我们的研究结果有助于理解 VR 社会注意力引导的设计含义,为未来的研究和开发开辟途径。
评估深度网络以通过手部交互检测用户对 VR 的熟悉程度
分类: 人机交互, 人工智能, 机器学习
作者: Mingjun Li, Numan Zafar, Natasha Kholgade Banerjee, Sean Banerjee
发布时间: 2024-01-27
链接: http://arxiv.org/abs/2401.16443v1
摘要: 随着 VR 设备在消费领域变得越来越普遍,不熟悉 VR 的用户可能会越来越多地使用 VR 应用程序。检测用户对 VR 作为交互媒介的熟悉程度,可以提供按需培训以适应环境,并防止用户在完成任务时受到 VR 环境的负担。在这项工作中,我们展示了使用深度分类器自动检测 VR 熟悉程度的初步结果,方法是在用户与数字密码输入面板交互以解锁 VR 门时使用手部跟踪。我们使用 VR 门,因为我们设想它是协作虚拟空间(例如会议室、办公室或诊所)的第一个入口点。不熟悉 VR 的用户可能会在现实世界中用手打开带有密码输入面板的门。因此,虽然用户可能不熟悉 VR,但他们会熟悉开门的任务。使用由 7 名熟悉 VR 的用户和 7 名不熟悉 VR 的用户组成的试点数据集,当 6 名测试用户(3 名熟悉和 3 名不熟悉)使用使用其余 8 个用户的数据训练的分类器进行评估时,我们获得了最高准确度 88.03%用户。我们的结果表明,使用用户移动数据来检测对基于密码的安全访问这一简单但重要的任务的熟悉程度是有潜力的。
适用于 XR 耳机的强大双模态语音关键字识别
分类: 人机交互, 多媒体, 声音, 音频和语音处理
作者: Zhuojiang Cai, Yuhan Ma, Feng Lu
发布时间: 2024-01-26
链接: http://arxiv.org/abs/2401.14978v1
摘要: 虽然语音交互在扩展现实 (XR) 领域得到了广泛的应用,但传统的语音关键词识别系统仍然面临着巨大的挑战,包括在嘈杂环境中的性能不佳、在需要安静的情况下不切实际,以及当其他人在附近说话时容易被无意激活。 。然而,这些挑战可以通过语音和嘴唇运动信息的经济有效的融合来克服。因此,我们提出了一种专为 XR 耳机设计的新型人声回声双模式关键词识别系统。我们设计了两种不同的模态融合方法并进行实验来测试系统在不同场景下的性能。结果表明,我们的双模态系统不仅始终优于单模态系统,在典型环境和噪声环境中都表现出更高的精度,而且在准确识别无声言语方面也表现出色。此外,我们已成功将该系统应用于实时演示,取得了可喜的结果。代码可在 https://github.com/caizuojian/VE-KWS 获取。
抓紧:通过视频分析识别在 VR 中长时间工作期间的行为模式
分类: 人机交互
作者: Verena Biener, Forouzan Farzinnejad, Rinaldo Schuster, Seyedmasih Tabaei, Leon Lindlein, Jinghui Hu, Negar Nouri, John J. Dudley, Per Ola Kristensson, Jörg Müller, Jens Grubert
发布时间: 2024-01-26
链接: http://arxiv.org/abs/2401.14920v2
摘要: VR 设备最近被积极推广为知识工作者的工具,之前的工作已经证明 VR 可以支持一些知识工作者的任务。然而,只有少数研究探讨了长期使用 VR 的影响,例如一项研究观察了 16 名参与者在 VR 和物理环境中工作,每人工作一周,并主要根据主观反馈进行报告。由于仍然缺乏对 VR 中参与者行为及其随时间演变的细致了解,我们报告了对先前研究中获得的 559 小时视频材料进行分析的结果。除其他发现外,我们报告称:(1) 在这五天内,与调整耳机相关的操作频率减少了 46%,与支撑耳机相关的操作频率减少了 42%; (2) 五天内摘除 HMD 的频率降低了 31%,但摘除时间却延长了 41%; (3) 佩戴 HMD 会扰乱正常的饮食习惯,但不会扰乱谈话等社交互动。这项工作的综合发现证明了对已部署的 VR 系统进行长期研究的价值,并可用于为知识工作者设计更好、更符合人体工程学的 VR 系统提供信息。
用于在 XR 应用程序中移除 HMD 的表情感知视频修复
分类: 计算机视觉和模式识别
作者: Fatemeh Ghorbani Lohesara, Karen Egiazarian, Sebastian Knorr
发布时间: 2024-01-25
链接: http://arxiv.org/abs/2401.14136v1
摘要: 头戴式显示器 (HMD) 是观察扩展现实 (XR) 环境和虚拟内容不可或缺的设备。然而,头戴式显示器给外部记录技术带来了障碍,因为它们挡住了用户的上脸。这种限制极大地影响了社交 XR 应用程序,特别是电话会议,其中面部特征和眼睛注视信息在创建沉浸式用户体验方面发挥着至关重要的作用。在这项研究中,我们提出了一种基于生成对抗网络(GAN)的用于去除 HMD 的表达感知视频修复的新网络(EVI-HRnet)。我们的模型有效地填充了有关面部标志和用户的单个无遮挡参考图像的缺失信息。该框架及其组件确保使用参考框架跨框架保存用户的身份。为了进一步提高修复输出的真实感水平,我们引入了一种新颖的面部表情识别(FER)损失函数来保存情感。我们的结果证明了所提出的框架具有从面部视频中去除头戴式显示器的卓越能力,同时保持主体的面部表情和身份。此外,输出沿着修复帧表现出时间一致性。这个轻量级框架提供了一种去除 HMD 遮挡的实用方法,具有增强各种协作 XR 应用程序的潜力,而无需额外的硬件。
VRMN-bD:VR 单口互动游戏中沉浸式人类恐惧反应的多模态自然行为数据集
分类: 人机交互, 计算机视觉和模式识别, 机器学习
作者: He Zhang, Xinyang Li, Yuanxi Sun, Xinyi Fu, Christine Qiu, John M. Carroll
发布时间: 2024-01-22
链接: http://arxiv.org/abs/2401.12133v1
摘要: 理解和识别情绪是虚拟宇宙时代重要且具有挑战性的问题。在虚拟现实(VR)环境中理解、识别和预测恐惧是人类基本情感之一,在沉浸式游戏开发、场景开发和下一代虚拟人机交互应用中发挥着至关重要的作用。在本文中,我们以 VR 恐怖游戏为媒介,通过收集 23 名玩家的多模态数据(姿势、音频和生理信号)来分析恐惧情绪。我们使用基于 LSTM 的模型来预测恐惧,在 6 级分类(无恐惧和五个不同级别的恐惧)和 2 级分类(无恐惧和恐惧)下,准确率分别为 65.31% 和 90.47%。我们构建了沉浸式人类恐惧反应的多模态自然行为数据集(VRMN-bD),并将其与现有的相关高级数据集进行了比较。结果表明,我们的数据集在收集方法、数据规模和受众范围方面的限制较少。我们在针对 VR 站立交互环境中的恐惧和行为的多模式数据集方面具有独特性和先进性。此外,我们还讨论了这项工作对社区和应用程序的影响。数据集和预训练模型可在 https://github.com/KindOPSTAR/VRMN-bD 获取。
快速注册 VR 面部动画的逼真头像
分类: 计算机视觉和模式识别, 人工智能
作者: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
发布时间: 2024-01-19
链接: http://arxiv.org/abs/2401.11002v1
摘要: 虚拟现实 (VR) 有望带来比其他媒体更身临其境的社交互动。其中的关键是能够在佩戴 VR 耳机时准确地制作出逼真的头像动画。尽管可以在离线设置中将特定人物的化身高质量注册到头戴式摄像头 (HMC) 图像,但通用实时模型的性能会显着下降。由于倾斜的摄像机视图和模式的差异,在线注册也具有挑战性。在这项工作中,我们首先表明,头像和耳机相机图像之间的域间隙是困难的主要来源之一,其中基于变压器的架构在域一致的数据上实现了高精度,但当域间隙增大时,精度就会降低。被重新引入。基于这一发现,我们开发了一种系统设计,将问题分解为两个部分:1)一个采用域内输入的迭代细化模块,2)一个通用的头像引导的图像到图像风格传输模块,该模块是有条件的关于当前表情和头部姿势的估计。这两个模块相互加强,因为当显示接近真实的示例时,图像风格转换变得更容易,并且更好的域间隙消除有助于注册。我们的系统可以高效地产生高质量的结果,无需进行昂贵的离线注册即可生成个性化标签。我们通过在商品耳机上进行大量实验来验证我们方法的准确性和效率,证明了相对于直接回归方法以及离线注册的显着改进。
一款增强对语音阅读障碍学生的同理心的 VR 严肃游戏
分类: 人机交互, 计算机视觉和模式识别, 图形
作者: José M. Alcalde-Llergo, Enrique Yeguas-Bolívar, Pilar Aparicio-Martínez, Andrea Zingoni, Juri Taborri, Sara Pinzi
发布时间: 2024-01-15
链接: http://arxiv.org/abs/2401.10926v1
摘要: 阅读障碍是一种神经发育障碍,估计影响约 5-10% 的人口。特别是,语音阅读障碍会导致单词发音与其书面形式的连接出现问题。这就造成了阅读速度慢、阅读不准确、生词译码困难等困难。此外,阅读障碍对于学生来说也可能是一种具有挑战性和令人沮丧的经历,因为他们可能会感到被同龄人或教育工作者误解或侮辱。由于这些原因,使用补偿工具和策略对于阅读困难学生获得与非阅读困难学生相同的机会至关重要。然而,人们普遍低估了这个问题,并且没有意识到支持方法的重要性。有鉴于此,本文的主要目的是提出一种虚拟现实(VR)严肃游戏,通过该游戏,教师、学生和一般非诵读困难者可以了解有诵读困难的学生的一些问题和向他们提供支持的基本效用。在游戏中,玩家必须按照字母表中的配方来制作药剂,该配方是专门为复制患有阅读障碍的人所经历的阅读困难而设计的。必须首先在没有任何帮助的情况下解决任务,然后通过接受支持工具和策略,并让玩家能够将自己置于阅读障碍者的位置,并理解对支持方法的真正需求。
XR 中的自由形状建模:系统回顾
分类: 图形
作者: Shounak Chatterjee
发布时间: 2024-01-01
链接: http://arxiv.org/abs/2401.00924v1
摘要: 计算机图形学中的形状建模研究几十年来一直是一个活跃的领域。创建和编辑复杂 3D 形状的能力在计算机辅助设计、动画、建筑和娱乐领域至关重要。随着虚拟和增强现实的日益普及,用于艺术内容创作的新应用程序和工具被开发出来;实时交互式形状建模对于虚拟和增强现实环境(扩展现实(XR))的连续体变得越来越重要。 XR 中的形状建模以易于访问的方式为直观设计和形状建模开辟了新的可能性。从文本提示生成形状信息的人工智能 (AI) 方法将改变艺术家创建和编辑 3D 模型的方式。关于交互式 3D 形状建模已有大量研究。然而,最近没有对现有技术以及人工智能形状生成对于交互式 XR 环境中的形状建模意味着什么进行广泛的审查。在这篇最先进的论文中,我们通过调查 XR 中的自由形状建模工作来填补文献中的这一研究空白,重点关注雕刻和 3D 草图,这是自由形状建模最直观的形式。我们从文章贡献、领域设置、交互工具、自动完成和协作设计五个维度对这些作品进行分类和讨论。本文最后讨论了交互式 3D 雕刻和草图之间的脱节,以及随着未来 AI 形状生成工具的流行,这种脱节可能会如何发展。