2024-10
学习重要性加权变分推理:VR-IWAE 边界的梯度估计器的渐近
分类: 机器学习, 机器学习
作者: Kamélia Daudel, François Roueff
发布时间: 2024-10-15
链接: http://arxiv.org/abs/2410.12035v1
摘要: 已经提出了几种涉及重要性加权思想的流行变分界,以在最大似然优化的背景下推广和改进证据下界(ELBO),例如重要性加权自动编码器(IWAE)和变分R'enyi( VR)边界。使用这些界限学习感兴趣的参数的方法通常相当于运行包含重新参数化技巧的基于梯度的变分推理算法。然而,变分界限的选择如何影响变分推理算法的结果可能尚不清楚。最近,VR-IWAE 边界作为一种变分边界被引入,它统一了 ELBO、IWAE 和 VR 边界方法。在本文中,我们对 VR-IWAE 边界的重新参数化和双重重新参数化梯度估计器进行了两种分析,揭示了这些梯度估计器的优点和局限性,同时使我们能够比较 ELBO、IWAE 和 VR 边界方法。我们的工作增进了对重要性加权变分推理方法的理解,并通过实证阐述了我们的理论发现。
NPU-CIM 异构 AR/VR 设备混合模型的神经架构搜索
分类: 计算机视觉和模式识别, 硬件架构, 机器学习, 表现
作者: Yiwei Zhao, Ziyun Li, Win-San Khwa, Xiaoyu Sun, Sai Qian Zhang, Syed Shakib Sarwar, Kleber Hugo Stangherlin, Yi-Lun Lu, Jorge Tomas Gomez, Jae-Sun Seo, Phillip B. Gibbons, Barbara De Salvo, Chiao Liu
发布时间: 2024-10-10
链接: http://arxiv.org/abs/2410.08326v1
摘要: 低延迟和低功耗边缘人工智能对于虚拟现实和增强现实应用至关重要。最近的进展表明,结合卷积层 (CNN) 和转换器 (ViT) 的混合模型通常可以在各种计算机视觉和机器学习 (ML) 任务上实现卓越的准确性/性能权衡。然而,由于混合机器学习模型在数据流和内存访问模式方面的多样性,可能会对延迟和能源效率带来系统挑战。在这项工作中,我们利用神经处理单元(NPU)和内存计算(CIM)的架构异构性,并执行不同的执行模式来有效地执行这些混合模型。我们还引入了 H4H-NAS,一种神经架构搜索框架,用于为具有 NPU 和 CIM 的异构边缘系统设计高效的混合 CNN/ViT 模型。我们的 H4H-NAS 方法由性能估算器提供支持,该性能估算器是根据真实芯片上测得的 NPU 性能结果以及基于行业 IP 的 CIM 性能而构建的。 H4H-NAS 以细粒度搜索混合 CNN/ViT 模型,并在 ImageNet 数据集上实现了显着的(高达 1.34%)top-1 精度提升。此外,我们的 Algo/HW 协同设计结果显示,通过引入此类异构计算,与基准解决方案相比,整体延迟提高了 56.08%,能源效率提高了 41.72%。该框架指导了NPU+CIM异构系统混合网络架构和系统架构的设计。
Thing2Reality:将 2D 内容转换为条件多视图和 3D 高斯对象以进行 XR 通信
分类: 人机交互, 人工智能, 计算机视觉和模式识别
作者: Erzhen Hu, Mingyi Li, Jungtaek Hong, Xun Qian, Alex Olwal, David Kim, Seongkook Heo, Ruofei Du
发布时间: 2024-10-09
链接: http://arxiv.org/abs/2410.07119v1
摘要: 在远程交流过程中,参与者经常共享数字和物理内容,例如产品设计、数字资产和环境,以增进相互了解。增强通信的最新进展有助于用户快速创建物理对象的数字 2D 副本并将其从视频源共享到共享空间。然而,数字对象的传统 2D 表示限制了用户在共享沉浸式环境中空间参考项目的能力。为了解决这个问题,我们提出了 Thing2Reality,这是一个扩展现实 (XR) 通信平台,可以增强远程会议期间对数字和物理项目的自发讨论。借助 Thing2Reality,用户可以在沉浸式环境中快速实现想法或物理对象,并将它们作为条件多视图渲染或 3D 高斯进行共享。 Thing2Reality 使用户能够与远程对象交互或以协作方式讨论概念。我们的用户研究表明,与对象的 3D 表示进行交互和操作的能力可显着提高讨论的效率,并有可能增强对 2D 工件的讨论。
推进自动驾驶车辆与行人交互的 VR 模拟器:关注多实体场景
分类: 人机交互
作者: Tram Thi Minh Tran, Callum Parker
发布时间: 2024-10-08
链接: http://arxiv.org/abs/2410.05712v1
摘要: 最近的研究越来越关注自动驾驶汽车 (AV) 在涉及多辆车和行人的复杂交通情况下如何与行人进行通信。 VR 正在成为模拟这些多实体场景的有效工具,提供安全且受控的学习环境。尽管其使用越来越多,但对这些 VR 模拟的有效性缺乏彻底的调查,在记录的见解和经验教训方面留下了显着的空白。本研究对两项不同的基于 VR 的研究进行了回顾性分析:一项侧重于多个 AV 场景 (N=32),另一项侧重于多个行人场景 (N=25)。我们检查的核心是参与者的存在感和他们的过路行为。研究结果强调了在每次模拟中增强或减弱临场感的关键因素,为未来的改进提供了考虑。此外,他们强调了受控场景对交叉行为以及与自动驾驶汽车交互的影响,主张探索更自然和交互式的模拟,以更好地反映现实世界的自动驾驶汽车和行人动态。通过这项研究,我们为推进 VR 模拟器研究自动驾驶汽车和行人之间复杂的交互奠定了基础。
ELLMA-T:支持社交 VR 中英语语言学习的具体 LLM 代理
分类: 人机交互
作者: Mengxu Pan, Alexandra Kitson, Hongyu Wan, Mirjana Prpa
发布时间: 2024-10-03
链接: http://arxiv.org/abs/2410.02406v1
摘要: 许多人在学习一门新语言时遇到困难,传统工具无法提供适合每个学习者需求的情境化学习。社交虚拟现实 (VR) 中大型语言模型 (LLM) 和具身对话代理 (ECA) 的最新发展为以情境化和自然主义的方式实践语言学习提供了新的机会,同时考虑了学习者的语言水平和需求。为了探索这个机会,我们开发了 ELLMA-T,这是一个 ECA,它利用 LLM (GPT-4) 和定位学习框架来支持在社交 VR (VRChat) 中学习英语。利用定性访谈 (N=12),我们揭示了 ELLMA-T 在 VR 中为代理与学习者交互生成真实、可信且针对具体情境的角色扮演的潜力,以及大语言模型为学习者提供初始语言评估和持续反馈的能力。我们为社交 VR 中基于 LLM 的语言代理的未来发展提供了五种设计启示。
数字眼睛:XR EyeSight 的社会影响
分类: 人机交互
作者: Maurizio Vergari, Tanja Kojić, Wafaa Wardah, Maximilian Warsinke, Sebastian Möller, Jan-Niklas Voigt-Antons, Robert P. Spang
发布时间: 2024-10-02
链接: http://arxiv.org/abs/2410.02053v1
摘要: 新款 Apple Vision Pro XR 耳机推出的 EyeSight 功能有望通过在数字显示屏上模拟真实的人眼表情来彻底改变用户交互。当与 XR 体验之外的其他人进行交流时,此功能可以增强 XR 设备的社交接受度和社交存在感。在这项试点研究中,我们通过检查社会接受度、社会存在、情绪反应和技术接受度来探索 EyeSight 功能的影响。八名参与者在三种条件下进行对话任务,以对比使用 EyeSight 的 Apple Vision Pro、作为参考 XR 耳机的 Meta Quest 3 以及面对面的设置。我们的初步研究结果表明,虽然与参考耳机相比,EyeSight 功能提高了社交存在感和可接受性,但它与直接人类互动的社交连接性不匹配。
日常减压:使用 VR、AR 和大语言模型设计社交模拟
分类: 人机交互
作者: Anna Fang, Hriday Chhabria, Alekhya Maram, Haiyi Zhu
发布时间: 2024-10-02
链接: http://arxiv.org/abs/2410.01672v2
摘要: 压力是日常生活中不可避免的一部分,但许多人发现自己无法自行应对,尤其是在并不总是能随时获得专业或同伴支持的情况下。随着自我保健对于心理健康变得越来越重要,本文探讨了社交模拟作为一种安全的虚拟环境的潜力,用于在日常生活中练习减压。利用 VR、AR 和大语言模型的沉浸式功能,我们针对各种日常压力场景(例如公开演讲)开发了 8 个交互式原型,然后对 19 名参与者进行了原型驱动的半结构化访谈。我们发现,人们目前缺乏有效的手段来应对日常压力,并发现社交模拟填补了模拟真实环境来培训心理健康实践的空白。我们概述了自我护理模拟未来发展的关键考虑因素,包括超现实主义造成的创伤风险、对大语言模型推荐的心理健康建议时机的不信任,以及自我护理干预措施可及性的价值。
潜在骚扰者的头像外观和行为影响社交虚拟现实 (VR) 中用户的感知和响应策略:混合方法研究
分类: 人机交互
作者: Xuetong Wang, Ziyan Wang, Mingmin Zhang, Kangyou Yu, Pan Hui, Mingming Fan
发布时间: 2024-10-02
链接: http://arxiv.org/abs/2410.01585v1
摘要: 性骚扰已被认为是一个重大的社会问题。近年来,社交虚拟现实(VR)中骚扰的出现已成为一个重要而紧迫的研究课题。我们采用混合方法,对 VR 用户(N = 166)进行在线调查,并对社交 VR 用户(N = 18)进行半结构化访谈,以调查用户如何看待社交 VR 中的性骚扰,重点关注头像的影响外貌。此外,我们还推导了用户对性骚扰的应对策略,并获得了平台监管的见解。这项研究通过检验化身外观对用户性骚扰认知的调节作用并揭示应对策略背后的根本原因,为社交 VR 中性骚扰的研究做出了贡献。此外,它在平台设计和监管领域提出了新的前景和挑战。