2024-09

AR/VR、大型语言模型、UI/UX 和机器人技术在增强儿童学习和社交互动方面的联系:系统回顾

分类: 人机交互, 人工智能, 社交和信息网络

作者: Biplov Paneru, Bishwash Paneru

发布时间: 2024-09-26

链接: http://arxiv.org/abs/2409.18162v1

摘要: 这项综述研究探讨了大语言模型 (LLM)、增强现实 (AR) 和用户界面/用户体验 (UI/UX) 设计在儿童治疗中的结合,尤其是针对自闭症谱系障碍 (ASD) 等疾病的治疗。通过对 PubMed、ACM、IEEE Xplore、Elsevier 和 Google Scholar 进行彻底的文献检索,找到了 150 篇出版物;其中 42 个因其方法严谨性和相关性而被选择进行深入研究。本次审查涵盖三个主要领域:AR 如何改善社交和学习成果;大语言模型如何帮助沟通;以及 UI/UX 设计如何影响这些技术的有效性。结果表明,虽然大语言模型可以提供个性化的学习和沟通支持,但增强现实在增强社交技能、动机和注意力方面表现出了希望。对于患有自闭症谱系障碍 (ASD) 的儿童来说,方便且有趣的干预措施在很大程度上取决于有效的 UI/UX 设计。为了优化这些技术在 ASD 治疗中的优势,该研究强调需要进行额外的研究来解决与定制、可访问性和集成相关的困难。

包裹在 Anansi 的网络中:揭示生成式 AI 个性化和 VR 沉浸在口述故事中的影响

分类: 人机交互

作者: Ka Hei Carrie Lau, Bhada Yun, Samuel Saruba, Efe Bozkir, Enkelejda Kasneci

发布时间: 2024-09-25

链接: http://arxiv.org/abs/2409.16894v1

摘要: 由于现代媒体的主导地位,对文化认同至关重要的口头传统在年轻人中正在失去相关性。这项研究通过将年轻人与民间传说重新联系起来来复兴这些传统。我们推出 Anansi the Spider VR,这是一个新颖的虚拟空间,它将第一人称虚拟现实 (VR) 与生成人工智能 (Gen-AI) 驱动的叙事个性化相结合。这个空间让用户沉浸在阿纳西蜘蛛的故事中,使他们能够影响叙事,因为他们将自己想象为“主角”,从而增强了个人反思。在一项有 48 名参与者参与的 2 x 2 受试者间研究中,我们采用混合方法来衡量用户参与度和兴趣变化,并辅以半结构化访谈,提供有关个性化和沉浸感的定性见解。我们的结果表明,VR 中的个性化显着提高了参与度和文化学习兴趣。我们建议未来使用 VR 和 Gen-AI 振兴口头故事讲述的研究优先考虑尊重文化完整性并尊重原创故事讲述者和社区。

“我感觉自己如此渺小!”:基于 Sublime 相关理论设计和评估 VR 敬畏体验

分类: 人机交互

作者: Zhiting He, Min Fan, Xinyi Guo, Yifan Zhao, Yuqiu Wang

发布时间: 2024-09-23

链接: http://arxiv.org/abs/2409.14853v1

摘要: 研究表明,利用虚拟现实技术可以引发敬畏体验,从而促进幸福感。基于与崇高和体现相关的理论,我们设计了三个 VR 场景来评估崇高和体现设计元素在唤起敬畏体验方面的有效性。我们对 28 名体验了三种 VR 设计的年轻人进行了一项受试者内研究。结果表明,与没有崇高元素的 VR 设计相比,具有崇高元素的 VR 设计显着引发了更强烈的敬畏体验,而添加具体元素并没有增强敬畏的强度。定性访谈揭示了唤起敬畏体验的关键设计元素(例如,晦涩的事件应该是合理的)及其潜在机制(例如,导致启蒙的感觉)。我们进一步讨论了设计有效的、令人惊叹的 VR 应用程序的考虑因素和影响。

用于快速分割和关键尺寸计量和表征的深度学习,支持 AR/VR 设计和制造

分类: 计算机视觉和模式识别, 机器学习, 图像和视频处理

作者: Kundan Chaudhary, Subhei Shaar, Raja Muthinti

发布时间: 2024-09-20

链接: http://arxiv.org/abs/2409.13951v1

摘要: 显微图像的定量分析对于增强现实/虚拟现实 (AR/VR) 模块中使用的组件的设计和制造至关重要。然而,从这些复杂图像中分割感兴趣区域 (ROI) 并提取关键尺寸 (CD) 需要新颖的技术,例如深度学习模型,这对于流程、材料和设备优化的可行决策至关重要。在这项研究中,我们报告了使用电子显微镜图像的不同数据集对预训练的分段任意模型(SAM)进行微调的情况。我们采用低秩适应(LoRA)等方法来减少训练时间并提高 ROI 提取的准确性。该模型泛化到未见过的图像的能力促进了零样本学习,并支持 CD 提取模型,该模型可以从分段的 ROI 中精确提取 CD。我们演示了在单类和多类模式下从表面浮雕光栅(SRG)和菲涅尔透镜的横截面图像中准确提取二值图像。此外,这些二进制图像用于识别过渡点,有助于提取相关 CD。微调分割模型和 CD 提取模型的结合使用通过增强分析能力、数据和见解的时间以及优化制造流程,为各种工业应用提供了巨大的优势。

运动作为情感:检测 VR 中徒手手势的影响和认知负荷

分类: 人机交互

作者: Phoebe Chua, Prasanth Sasikumar, Yadeesha Weerasinghe, Suranga Nanayakkara

发布时间: 2024-09-19

链接: http://arxiv.org/abs/2409.12921v1

摘要: 情感和认知负荷影响许多用户行为。在本文中,我们提出了运动作为情感,这是一种利用手部运动的细微差异来识别虚拟现实(VR)中的情感和认知负荷的新方法。我们对 22 名参与者进行了一项研究,他们使用常见的徒手手势交互在 VR 环境中执行不同难度的任务。我们发现任务引起的情感和认知负荷与速度、距离和手部张力等手势特征的显着差异相关。标准支持向量分类(SVC)模型可以根据这些特征准确预测两个级别(低、高)的价、唤醒和认知负荷。我们的结果证明了 Motion as Emotion 作为一种准确可靠的方法的潜力,可以通过徒手手势推断用户的影响和认知负荷,而不需要任何额外的可穿戴传感器或对标准 VR 耳机进行修改。

Haptic-ACT:通过沉浸式 VR 将人类直觉与兼容的机器人操作联系起来

分类: 机器人技术

作者: Kelin Li, Shubham M Wagh, Nitish Sharma, Saksham Bhadani, Wei Chen, Chang Liu, Petar Kormushev

发布时间: 2024-09-18

链接: http://arxiv.org/abs/2409.11925v1

摘要: 机器人操纵对于机器人在工业和家庭环境中的广泛采用至关重要,并且长期以来一直是机器人社区的焦点。人工智能的进步引入了有前景的基于学习的方法来应对这一挑战,其中模仿学习尤其有效。然而,有效地获得高质量的演示仍然是一个挑战。在这项工作中,我们引入了一种基于 VR 的沉浸式远程操作设置,旨在收集远程人类用户的演示。我们还提出了一种模仿学习框架,称为 Haptic Action Chunking with Transformers (Haptic-ACT)。为了评估该平台,我们进行了拾放任务并收集了 50 个演示片段。结果表明,与没有触觉反馈的系统相比,沉浸式 VR 平台显着减少了演示者的指尖压力,从而实现更精细的操作。此外,在 MuJoCo 模拟器和真实机器人上对 Haptic-ACT 框架的评估表明,与原始 ACT 相比,它可以有效地教导机器人进行更顺从的操作。其他材料可在 https://sites.google.com/view/hapticact 上获取。

用于空间计算应用的上下文相关的可交互图形用户界面元素检测

分类: 软件工程, 人机交互, D.2.5; H.5.1; H.5.2

作者: Shuqing Li, Binchang Li, Yepang Liu, Cuiyun Gao, Jianping Zhang, Shing-Chi Cheung, Michael R. Lyu

发布时间: 2024-09-17

链接: http://arxiv.org/abs/2409.10811v2

摘要: 近年来,空间计算虚拟现实(VR)作为一项变革性技术兴起,为用户提供跨多元化虚拟环境的沉浸式交互体验。用户可以通过立体三维 (3D) 图形用户界面 (GUI) 上的可交互 GUI 元素 (IGE) 与 VR 应用程序进行交互。这些 IGE 的准确识别非常有用,可以作为许多软件工程任务的基础,包括自动化测试和有效的 GUI 搜索。用于 2D 移动应用程序的最新 IGE 检测方法通常基于大规模手动标记的 GUI 数据集来训练监督对象检测模型,通常具有一组预定义的可点击 GUI 元素类别(如按钮和旋转器)。由于存在多种挑战,包括开放词汇和异构 IGE 类别带来的复杂性、上下文敏感交互性的复杂性以及精确空间感知和视觉语义对齐的必要性,此类方法很难应用于 VR 应用程序中的 IGE 检测以获得准确的 IGE 检测结果。因此,有必要开展针对VR应用的IGE研究。在本文中,我们提出了第一个用于虚拟现实应用程序的零样本上下文敏感的交互式 GUI 元素检测框架,名为 Orienter。通过模仿人类行为,Orienter 在执行检测之前首先观察并理解 VR 应用场景的语义上下文。检测过程在反馈导向的验证和反射循环中迭代。具体来说,Orienter 包含三个组件,包括 (1) 语义上下文理解、(2) 反射引导的 IGE 候选检测和 (3) 上下文敏感的交互性分类。大量实验表明 Orienter 比最先进的 GUI 元素检测方法更有效。

GAZEploit:通过 VR/MR 设备中的头像视图进行注视估计的远程击键推理攻击

分类: 人机交互, 计算机视觉和模式识别

作者: Hanqiu Wang, Zihao Zhan, Haoqi Shan, Siqi Dai, Max Panoff, Shuo Wang

发布时间: 2024-09-12

链接: http://arxiv.org/abs/2409.08122v1

摘要: 虚拟现实 (VR) 和混合现实 (MR) 解决方案的出现和日益普及彻底改变了我们与数字平台交互的方式。目前在这些设备的高端型号(例如 Apple Vision Pro)中流行的尖端凝视控制打字方法不仅改善了用户体验,还减轻了依赖手势、头部运动和声学的传统击键推理攻击。侧通道。然而,这一进步却矛盾地催生了一种新的、可能更加阴险的网络威胁:GAZEploit。在本文中,我们推出了 GAZEploit,这是一种新颖的基于眼球追踪的攻击,专门设计用于通过利用 VR 应用程序中虚拟外观的常见用途来利用这些眼球追踪信息。与现有方法相比,这种广泛的使用显着增强了我们攻击的实用性和可行性。 GAZEploit 利用此漏洞远程提取注视估计并窃取各种打字场景中的敏感击键信息,包括消息、密码、URL、电子邮件和密码。我们的研究涉及 30 名参与者,击键推理的准确率超过 80%。令人担忧的是,我们的研究还发现 Apple Store 中有超过 15 款顶级应用程序容易受到 GAZEploit 攻击,这强调了这种最先进的 VR/MR 文本输入方法迫切需要加强安全措施。

通过游戏化心理物理学实验测量 VR 中交互分子键刚度的感知极限

分类: 人机交互

作者: Rhoslyn Roebuck Williams, Jonathan Barnoud, Luis Toledo, Till Holzapfel, David R. Glowacki

发布时间: 2024-09-12

链接: http://arxiv.org/abs/2409.07836v1

摘要: 分子动力学 (MD) 模拟为分子相互作用和生物分子功能提供了重要的见解。借助 VR 中的交互式 MD 模拟 (iMD-VR),化学家现在可以与这些分子模拟实时交互。我们的触觉对于探索物理对象的属性至关重要,但为虚拟对象重新创建这种感官体验却带来了挑战。此外,在分子模拟的背景下使用触觉尤其困难,因为 \textit{我们不知道分子的实际感觉是什么}。在本文中,我们以之前的工作为基础,演示了 VR 用户如何在没有触觉反馈的情况下区分分子的属性。我们展示了游戏化的两种选择强制选择 (2AFC) 心理物理学用户研究的结果,其中我们量化了 iMD-VR 用户可以区分分子键刚度的阈值。我们的初步分析表明,参与者可以感觉到具有不同键刚度参数的巴克明斯特富勒烯分子之间的差异,并且该限制可能落在化学相关范围内。我们的结果强调了 iMD-VR 如何促进以更具体的方式探索复杂和动态的分子系统,使化学家能够纯粹通过在 VR 中与分子相互作用来感知分子的特性。

VR 中人工智能引导分子模拟的视角:探索超维分子系统中的模仿学习策略

分类: 机器学习, 人工智能, 人机交互, 生物分子

作者: Mohamed Dhouioui, Jonathan Barnoud, Rhoslyn Roebuck Williams, Harry J. Stroud, Phil Bates, David R. Glowacki

发布时间: 2024-09-11

链接: http://arxiv.org/abs/2409.07189v1

摘要: 分子动力学模拟是研究人员在药物发现、蛋白质工程和材料设计等领域理解和设计分子结构和功能的重要计算工具。尽管MD模拟很实用,但由于分子系统的高维性,它的成本很高。虚拟现实中的交互式分子动力学(iMD-VR)最近被开发为“人机循环”策略,它利用高性能计算来加速研究人员解决超维采样问题的能力。通过提供沉浸式 3D 环境,实现实时分子运动的可视化和操纵,iMD-VR 使研究人员和学生能够高效、直观地探索和导航这些复杂的高维系统。 iMD-VR 平台提供了一个独特的机会来快速生成丰富的数据集,捕捉人类专家关​​于分子结构和功能的空间洞察力。本文探讨了使用用户生成的 iMD-VR 数据集通过模仿学习 (IL) 训练 AI 代理的可能性。 IL 是机器人技术中的一项重要技术,它使代理能够模仿专家演示中的复杂行为,从而避免显式编程或复杂的奖励设计的需要。我们回顾了 IL 在机器人操作任务中的应用,并讨论了如何使用 iMD-VR 记录来训练 IL 模型来解决特定的分子“任务”。然后我们研究如何将这些方法应用于从 iMD-VR 记录捕获的数据。最后,我们概述了使用人工智能代理增强人类专业知识以有效导航构象空间的未来研究方向和潜在挑战,强调这种方法如何能够在材料科学、蛋白质工程和计算机辅助药物设计等领域提供有价值的见解。

Vsens Reality:将虚拟传感器融入 XR

分类: 人机交互

作者: Fengzhou Liang, Tian Min, Yuta Sugiura

发布时间: 2024-09-10

链接: http://arxiv.org/abs/2409.11419v1

摘要: 近年来,虚拟传感技术作为一种在模拟虚拟空间中收集数据的方法,用于开发人类活动识别(HAR)系统,得到了广泛的研究。迄今为止,该技术已经实现了不同模式之间的转换,显着扩展了通常难以收集的数据集。然而,关于如何使虚拟传感器更易于使用或更有效地作为理解传感器数据的工具的研究有限。 XR 的情境感知和直观性使其成为虚拟传感器的理想平台。在这项工作中,我们展示了 Vsens Reality,即在 XR 环境下使用虚拟传感器作为交互系统设计的增强工具。

迷茫与困惑:VR 中真实行走任务期间的晕眩、工作记忆、心理负荷、身体负荷和注意力数据集

分类: 人机交互, 机器学习

作者: Jyotirmay Nag Setu, Joshua M Le, Ripan Kumar Kundu, Barry Giesbrecht, Tobias Höllerer, Khaza Anuarul Hoque, Kevin Desai, John Quarles

发布时间: 2024-09-10

链接: http://arxiv.org/abs/2409.06898v1

摘要: 虚拟现实(VR)正在迅速在培训、教育、医疗和娱乐等各个行业中站稳脚跟,这些行业中的用户经常需要进行多种复杂的认知和身体活动。然而,认知活动、身体活动和熟悉的晕车感觉之间的关系尚不清楚,因此开发人员可能无法预测。研究人员此前提供了用于预测用户静止时晕眩症的标记数据集,但很少有关于用户行走时晕眩症的标记数据集。因此,我们从 39 名参与者中收集了头部方向、头部位置、眼球追踪、图像、外部传感器的生理读数,以及 VR 中自我报告的晕机严重程度、身体负荷和精神负荷。在整个数据收集过程中,参与者通过真正的行走来穿越迷宫,并执行挑战他们的注意力和工作记忆的任务。为了证明该数据集的实用性,我们进行了训练分类器的案例研究,其中我们实现了晕机严重程度分类的 95% 准确率。简单分类器的显着性能使该数据集成为未来研究人员开发晕机检测和减少模型的理想选择。为了更好地理解有助于分类的特征,我们进行了 SHAP(SHapley Additive exPlanations)分析,强调了眼动追踪和生理测量对于步行时晕车预测的重要性。这个开放数据集可以让未来的研究人员研究晕眩症和认知负荷之间的联系并开发预测模型。该数据集将使未来的 VR 开发人员能够通过改善认知负荷管理和最大程度地减少晕眩症来设计高效且有效的虚拟环境。

基于社交VR和360°空间的教育虚拟实地考察

分类: 人机交互, 多媒体, 68U35, H.5.1; H.4.3; J.2

作者: Surya Kalvakolu, Heinrich Söbke, Jannicke Baalsrud Hauge, Eckhard Kraft

发布时间: 2024-09-09

链接: http://arxiv.org/abs/2409.05496v1

摘要: 虚拟实地考察 (VFT) 已被证明是有价值的学习工具。此类应用程序大多基于 360{\deg} 技术,从技术角度来说属于单用户应用程序。相比之下,社交 VR 应用程序的特点是多用户功能和用户特定的化身。从学习的角度来看,协作学习和体现的概念很早就被提出,认为有利于学习。社交 VR 可能会支持这两个概念。然而,目前人们对社交 VR 在 VFT 中的应用知之甚少。因此,研究问题是 VFT 可以在多大程度上在社交 VR 环境中实施,以及学习者如何感知这些基于社交 VR 的 VFT。本文介绍了使用社交 VR 平台 Mozilla Hubs 开发和评估 VFT 环境的评估研究。它描述了创建环境的设计决策以及使用问卷和焦点小组讨论的混合方法研究 (N=16) 的评估结果。该研究强调了基于社交 VR 的 VFT 提供的机会,但也揭示了需要解决的一些挑战,以发挥基于社交 VR 的 VFT 在教育中定期使用的潜力。

混合现实可视化的 XR 原型设计:补偿医学成像机器人的交互延迟

分类: 人机交互

作者: Jan Hendrik Plümer, Kevin Yu, Ulrich Eck, Denis Kalkofen, Philipp Steininger, Nassir Navab, Markus Tatzgern

发布时间: 2024-09-07

链接: http://arxiv.org/abs/2409.04900v1

摘要: 由于设备的获取有限和严格的道德协议,研究医学领域的新颖用户体验具有挑战性。扩展现实 (XR) 仿真技术为开发交互式系统提供了一种经济高效的解决方案。最近的工作显示了扩展现实原型(XRP)的潜力,但其在控制复杂机械等特定领域的适用性需要进一步探索。本文探讨了 XRP 在控制移动医疗成像机器人方面的优点和局限性。我们比较了两种 XR 可视化技术,以减少用户输入和机器人激活之间的感知延迟。我们的 XRP 验证研究展示了其进行比较研究的潜力,但也发现了分析 XRP 验证框架中人类行为建模方面的差距。

ESP-PCT:通过有效压缩点云变压器中的时空冗余来增强 VR 语义性能

分类: 计算机视觉和模式识别, 人工智能

作者: Luoyu Mei, Shuai Wang, Yun Cheng, Ruofeng Liu, Zhimeng Yin, Wenchao Jiang, Shuai Wang, Wei Gong

发布时间: 2024-09-02

链接: http://arxiv.org/abs/2409.01216v1

摘要: 语义识别在虚拟现实 (VR) 应用中至关重要,可实现身临其境的交互式体验。一种有前景的方法是利用毫米波 (mmWave) 信号生成点云。然而,当前毫米波点云模型的高计算和内存需求阻碍了其效率和可靠性。为了解决这一限制,我们的论文介绍了 ESP-PCT,这是一种新型的增强语义性能点云转换器,具有专为 VR 应用量身定制的两阶段语义识别框架。 ESP-PCT 利用传感点云数据的准确性,优化语义识别过程,其中定位阶段和聚焦阶段以端到端的方式联合训练。我们在各种 VR 语义识别条件下评估 ESP-PCT,证明识别效率有显着提高。值得注意的是,与现有的 Point Transformer 模型相比,ESP-PCT 的准确率高达 93.2%,同时计算要求 (FLOP) 降低了 76.9%,内存使用量降低了 78.2%。这些都强调了 ESP-PCT 通过实现高精度和减少冗余在 VR 语义识别方面的潜力。该项目的代码和数据可在\url{https://github.com/lymei-SEU/ESP-PCT}获取。

SonoHaptics:用于 XR 中基于凝视的对象选择的音频触觉光标

分类: 人机交互, H.5.1; H.5.2; H.5.5

作者: Hyunsung Cho, Naveen Sendhilnathan, Michael Nebeling, Tianyi Wang, Purnima Padmanabhan, Jonathan Browder, David Lindlbauer, Tanya R. Jonker, Kashyap Todi

发布时间: 2024-09-01

链接: http://arxiv.org/abs/2409.00784v1

摘要: 我们推出了 SonoHaptics,这是一种用于基于凝视的 3D 对象选择的音频触觉光标。 SonoHaptics 解决了在扩展现实 (XR) 中基于注视的选择过程中提供准确视觉反馈的挑战,例如无显示或有限显示智能眼镜中缺乏世界锁定显示以及视觉不一致。为了使用户能够在没有视觉反馈的情况下区分物体,SonoHaptics 采用人类感知中跨模式对应的概念,将物体的视觉特征(颜色、大小、位置、材料)映射到音频触觉属性(音调、幅度、方向、音色) )。我们贡献数据驱动模型来确定视觉特征到音频和触觉特征的跨模式映射,并提供一种计算方法来自动为用户环境中的对象生成音频触觉反馈。 SonoHaptics 提供场景中每个对象独有的全局反馈,以及放大附近对象之间差异的局部反馈。我们的比较评估表明,SonoHaptics 能够在杂乱的场景中准确识别和选择对象,而无需视觉反馈。

相关