MiX Knowledge

Robi Butler：与家用机器人助手的远程多模式交互

分类： 机器人技术, 人工智能, 人机交互

作者： Anxing Xiao, Nuwan Janaka, Tianrun Hu, Anshul Gupta, Kaixin Li, Cunjun Yu, David Hsu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20548v1

摘要： 在本文中，我们介绍了 Robi Butler，这是一种新型家用机器人系统，可以与远程用户进行多模式交互。 Robi Butler 基于先进的通信接口，允许用户监控机器人的状态、发送文本或语音指令，并通过手势选择目标对象。我们系统的核心是一个由大型语言模型 (LLM) 提供支持的高级行为模块，它解释多模式指令以生成行动计划。这些计划由一组由视觉语言模型 (VLM) 支持的开放词汇基元组成，可处理文本和指向查询。上述组件的集成使得Robi Butler能够以零样本的方式在现实家庭环境中实现远程多模式指令。我们使用涉及远程用户发出多模式指令的各种日常家务任务来展示该系统的有效性和效率。此外，我们还进行了一项用户研究，以分析多模式交互如何影响远程人机交互过程中的效率和用户体验，并讨论潜在的改进。

积极强化有用吗？：Reddit 上积极反馈影响的准实验研究

分类： 人机交互

作者： Charlotte Lambert, Koustuv Saha, Eshwar Chandrasekharan

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20410v1

摘要： 社交媒体平台设计通常包含积极反馈的明确信号。一些版主以积极强化为目标提供积极反馈，但往往不确定自己是否有能力真正影响用户行为。尽管它被广泛使用并且理论认为积极反馈对用户动机至关重要，但它对接收者的影响相对未知。本文研究了积极反馈如何影响 Reddit 用户，并评估其不同影响，以了解谁从收到积极反馈中受益最多。通过对 4 个月内 1100 万条帖子的因果推理研究，我们发现，与一组用户相比，收到积极反馈的用户发布的帖子频率更高（每天 2%），质量更高（得分高 57%；每天删除量减少 2%）匹配的控制用户。我们的研究结果强调，平台和社区需要扩大他们对适度的看法，并用积极的强化策略来补充惩罚性方法。

从工人的角度来看自动化

分类： 人机交互, 机器人技术

作者： Ben Armstrong, Valerie K. Chen, Alex Cuellar, Alexandra Forsey-Smerek, Julie A. Shah

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20387v1

摘要： 关于自动化的常见说法常常使新技术与工人对立。先进机床、工业机器人和人工智能的引入都引发了人们的担忧，即技术进步将意味着就业机会减少。然而，工人们自己却提出了更乐观、更细致的观点。本文根据 2024 年对九个国家 9,000 多名工人进行的影响深远的调查发现，越来越多的工人表示，机器人和人工智能等新技术对他们的工作安全性和舒适度、工资以及工作自主权有潜在好处而不是报告潜在成本。从事需要解决复杂问题的工作的员工、感到受到雇主重视的员工以及有动力在职业生涯中晋升的员工都更有可能认为新技术是有益的。与之前研究中的假设相反，在某些情况下，更正规的教育与对自动化及其对工作的影响更消极的态度有关。在实验环境中，对工人进行经济激励的前景会改善他们对自动化技术的看法，而增加对如何使用新技术的投入的前景不会对工人对自动化的态度产生重大影响。

计算机介导的中风康复疗法：系统评价和荟萃分析

分类： 医学物理, 人工智能, 人机交互, 多媒体, J.3.2

作者： Stanley Mugisha. Mirko Job. Matteo Zoppi, Marco Testa, Rezia Molfino

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20260v1

摘要： 目的：与传统疗法（CT）相比，评估不同形式的虚拟现实（VR）治疗（沉浸式虚拟现实（IVR）或非沉浸式虚拟现实（NIVR））在改善中风患者身体和心理状态方面的功效。方法：对七个数据库进行文献检索。 ACM 数字图书馆、Medline（通过 PubMed）、Cochrane、IEEE Xplore、Web of Science 和 Scopus。使用 Cohen's d 计算主要结果的效应大小。汇总结果用于使用随机效应模型对治疗效果进行总体估计。结果：总共评估了 22 项随机对照试验。 3项试验表明，沉浸式虚拟现实以与CT相当的方式改善了上肢活动、功能和日常生活活动。 18 项试验表明，NIVR 在上肢活动和功能、平衡和活动能力、日常生活活动和参与方面具有与 CT 类似的益处。不同形式的 VR 之间的比较表明，对于上肢训练和日常生活活动，IVR 可能比 NIVR 更有益。结论：本研究发现，在改善上肢活动、功能和日常生活活动方面，IVR 疗法可能比 NIVR 更有效，但比 CT 更有效。然而，没有证据表明 IVR 治疗的持久性。需要进行更多涉及更大样本的研究来评估沉浸式虚拟现实技术的长期影响和有希望的好处。

研究虚拟现实中机身菜单的创建视角和图标放置偏好

分类： 人机交互

作者： Xiang Li, Wei He, Shan Jin, Jan Gugenheimer, Pan Hui, Hai-Ning Liang, Per Ola Kristensson

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20238v1

摘要： 机身菜单通过将虚拟界面直接嵌入到用户的身体上，在虚拟现实 (VR) 环境中呈现出一种新颖的交互范例。与传统的基于屏幕的界面不同，机身菜单使用户能够与视觉上附加到其物理形态的虚拟选项或图标进行交互。在本文中，我们研究了创建过程对身体菜单有效性的影响，比较了第一人称、第三人称和镜像视角。我们的第一项研究（$N$ = 12）表明，与其他两种视角相比，镜像视角可以缩短创建时间并提高记忆准确度。为了进一步探索用户偏好，我们利用具有集成身体跟踪功能的 VR 系统进行了第二项研究 ($N$ = 18)。通过结合两项研究中的图标分布（$N$ = 30），我们确认了基于图标类别的身体菜单放置的显着偏好（例如，社交媒体图标始终放置在前臂上）。我们还发现了类别之间的关联，例如休闲和社交媒体图标经常同时出现。我们的研究结果强调了创建过程的重要性，揭示了用户对身体菜单组织的偏好，并提供了指导虚拟环境中直观有效的身体交互开发的见解。

人机团队的协同运动和信任发展

分类： 机器人技术, 人机交互

作者： Nicola Webb, Sanja Milivojevic, Mehdi Sobhani, Zachary R. Madin, James C. Ward, Sagir Yusuf, Chris Baber, Edmund R. Hunt

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20218v1

摘要： 为了让人类和机器人组成有效的人机团队 (HRT)，在整个任务过程中团队成员之间必须有足够的信任。我们分析了一项 HRT 实验的数据，该实验重点关注一个人和两个机器人组成的团队中的信任动态，其中信任是由暂时无反应的机器人操纵的。使用超声波信标以及来自人机界面的通信和性能日志来实现全身运动跟踪。我们发现证据表明，在一定的空间接近度内，人机运动的时间序列之间的同步与自我报告的信任的变化相关。这表明，空间关系学和运动学的相互作用，即通过空间一起移动，可以通过协调进行隐式通信，可以在建立和维持人类机器人团队的信任方面发挥作用。因此，团队成员之间协调动态的定量指标可用于预测一段时间内的信任，并在信任受损时提供需要及时修复信任的早期预警信号。因此，我们的目标是开发移动人类机器人团队的信任度量。

工厂经营者对知识共享认知助手的看法：挑战、风险和对工作的影响

分类： 人机交互, 人工智能

作者： Samuel Kernan Freire, Tianhao He, Chaofan Wang, Evangelos Niforatos, Alessandro Bozzon

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20192v1

摘要： 在向以人为本的制造转变的过程中，我们为期两年的纵向研究调查了在工厂中部署认知助手 (CA) 的现实影响。 CA 旨在促进工厂操作员之间的知识共享。我们的调查重点是基于智能手机的语音助手和大语言模型支持的聊天机器人，检查它们在现实工厂环境中的可用性和实用性。根据我们在工厂部署 CA 期间收集的定性反馈，我们进行了主题分析，以调查对工作流程和知识共享的看法、挑战和总体影响。我们的结果表明，虽然 CA 有潜力通过知识共享和更快地解决生产问题来显着提高效率，但它们也引起了对工作场所监视、可以共享的知识类型以及与人与人之间的知识相比的缺点的担忧分享。此外，我们的研究结果强调了解决隐私、知识贡献负担以及工厂经营者与其经理之间紧张关系的重要性。

X教授：通过隐形且强大的后门攻击操纵脑电图BCI

分类： 密码学和安全, 人机交互

作者： Xuan-Hao Liu, Xinhao Song, Dexuan He, Bao-Liang Lu, Wei-Long Zheng

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20158v1

摘要： 虽然基于脑电图（EEG）的脑机接口（BCI）已广泛应用于医疗诊断、保健和设备控制，但脑电图BCI的安全性长期以来被忽视。在本文中，我们提出了 X 教授，一个看不见的、强大的“心灵控制器”，可以通过后门攻击任意操纵脑电图 BCI 的输出，以提醒脑电图界潜在的危险。然而，现有的脑电攻击主要集中在单目标类攻击，它们要么需要参与目标BCI的训练阶段，要么无法保持较高的隐秘性。为了解决这些限制，X 教授利用了三阶段清洁标签中毒攻击：1）为每个类别选择一个触发器； 2）通过针对每个触发器的强化学习来学习最佳的注射脑电图电极和频率策略； 3）通过根据先前学习的策略对两个数据的频谱幅度进行线性插值，将相应的触发频率注入到每个类别的中毒数据中，从而生成中毒样本。对三种常见脑电图任务数据集的实验证明了Professor X的有效性和鲁棒性，它也可以轻松绕过现有的后门防御。

通过精细采样和多模态特征集成优化脑电图解码

分类： 人机交互

作者： Arash Akbarinia

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20086v1

摘要： 脑电图（EEG）是一种神经成像技术，以高时间分辨率记录大脑神经活动。与其他方法不同，脑电图不需要极其昂贵的设备，并且可以使用市售便携式脑电图帽轻松设置，使其成为脑机接口的理想候选者。然而，脑电图信号的特点是空间分辨率差和噪声水平高，这使得解码变得复杂。在这项研究中，我们采用对比学习框架将编码的 EEG 特征与预训练的 CLIP 特征对齐，在对象类别的 EEG 解码方面比最先进的技术提高了 7%。这种增强同样归功于（1）一种新颖的在线采样方法，可以提高信噪比；（2）利用视觉和语言特征来增强对齐空间的多模态表示。我们的分析揭示了预训练特征的架构和数据集之间的系统交互及其对脑电图信号解码的对齐功效。这种交互与 ImageNet-O/A 数据集上预训练特征的泛化能力相关 ($r=.5$)。这些发现超出了脑电图信号对齐的范围，为神经影像解码和通用特征对齐提供了更广泛的应用潜力。

了解心理距离如何影响会话与网络搜索中的用户偏好

分类： 人机交互

作者： Yitian Yang, Yugin Tan, Yang Chen Lin, Jung-Tai King, Zihan Liu, Yi-Chieh Lee

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19982v1

摘要： 对话式搜索提供了比传统网络搜索更简单、更快捷的替代方案，但也有缺乏来源验证等缺点。研究检查了这两个系统在不同设置下的性能差异。然而，很少有工作考虑给定搜索任务中变化的影响。我们假设心理距离（人们感知到的与目标事件的接近程度）会影响搜索任务中的信息需求，并研究网络搜索系统和会话搜索系统之间对用户偏好的相应影响。我们发现，随着心理距离的增加，用户会认为对话式搜索更可信、更有用、更有趣、更易于使用，并且对该系统表现出越来越多的偏好。我们揭示了这些差异的定性原因，并为搜索系统设计者提供了设计启示。

了解盲人或弱视人士身体运动教育的挑战和机遇

分类： 人机交互

作者： Madhuka Thisuri De Silva, Sarah Goodwin, Leona M Holloway, Matthew Butler

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19935v1

摘要： 对于盲人或低视力 (BLV) 人士来说，积极参与舞蹈、体育运动和健身活动等身体运动具有挑战性。教师主要依靠口头指导和身体演示，但可及性有限。最近的研究表明，技术可以支持 BLV 人群的身体运动教育。然而，BLV 社区及其老师对了解他们的需求的参与有限。通过进行一系列两项调查、23 次访谈和四个焦点小组，我们收集了 BLV 人员及其老师的声音和观点。这提供了对身体运动教育挑战的丰富理解。我们确定了十大主题、四个关键设计挑战，并提出了潜在的解决方案。我们鼓励辅助技术社区针对这些已确定的设计挑战共同设计潜在的解决方案，以提高 BLV 人民的生活质量并支持教师提供包容性教育。

人机协作的自适应智能和计算机视觉基准测试

分类： 机器人技术, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Salaar Saraj, Gregory Shklovski, Kristopher Irizarry, Jonathan Vet, Yutian Ren

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19856v1

摘要： 人机协作 (HRC) 在工业 4.0 中至关重要，它使用传感器、数字孪生、协作机器人 (cobot) 和意图识别模型来实现高效的制造流程。然而，概念漂移是一个重大挑战，机器人很难适应新环境。我们通过集成自适应智能和自标记 (SLB) 来解决概念漂移问题，以提高 HRC 系统中意图识别的弹性。我们的方法首先使用摄像头和重量传感器收集数据，然后注释意图和状态变化。然后，我们使用不同的预处理技术训练各种深度学习模型来识别和预测意图。此外，我们开发了一种自定义状态检测算法来提高 SLB 的准确性，提供精确的状态更改定义和时间戳来标记意图。我们的结果表明，经过骨骼姿势预处理的 MViT2 模型在我们的数据环境上实现了 83% 的准确度，而没有进行骨骼姿势提取的 MViT2 的准确度为 79%。此外，我们的 SLB 机制实现了 91% 的标注准确率，大大减少了手动标注的时间。最后，我们观察到模型性能的快速扩展，通过在与原始训练环境有关键差异的转移域中对自标记数据的不同增量进行微调来对抗概念漂移。这项研究展示了快速部署智能协作机器人的潜力通过我们方法中所示的步骤，在制造过程中，为更具适应性和更高效的 HRC 系统铺平道路。

在单人指导下实现多机器人协作

分类： 机器人技术, 人机交互, 机器学习, 多代理系统

作者： Zhengran Ji, Lingyu Zhang, Paul Sajda, Boyuan Chen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19831v1

摘要： 学习协作行为对于多智能体系统至关重要。传统上，假设协作行为将会出现，多智能体强化学习通过联合奖励和集中观察隐式地解决了这个问题。其他研究建议从一组协作专家的演示中学习。相反，我们提出了一种有效且明确的方法，通过利用单个人的专业知识来学习多智能体系统中的协作行为。我们的见解是，人类可以自然地在团队中扮演各种角色。我们表明，通过允许人类操作员在控制代理之间动态切换短时间内并结合类似人类的队友心理理论模型，代理可以有效地学习协作。我们的实验表明，我们的方法只需 40 分钟的人工指导，即可将具有挑战性的协作捉迷藏任务的成功率提高高达 58%。我们通过进行多机器人实验进一步证明我们的发现可以转移到现实世界。

开发以人为本的导盲犬行动辅助机器人的经验教训

分类： 机器人技术, 人机交互

作者： Hochul Hwang, Ken Suzuki, Nicholas A Giudice, Joydeep Biswas, Sunghoon Ivan Lee, Donghyun Kim

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19778v1

摘要： 虽然导盲犬提供必要的行动协助，但它们的高成本、有限的可用性和护理要求使大多数盲人或低视力 (BLV) 人士无法接近它们。四足机器人的最新进展为移动辅助提供了可扩展的解决方案，但由于缺乏对处理程序和导盲犬交互的了解，许多当前的设计无法满足现实世界的需求。在本文中，我们分享了开发以人为本的导盲犬机器人的经验教训，解决了优化硬件设计、强大的导航和供用户采用的信息丰富的场景描述等挑战。通过对 BLV 个人、导盲犬训练员和训练员进行半结构化访谈和人体实验，我们确定了提高机器人助行器的安全性、信任度和可用性的关键设计原则。我们的研究结果为导盲犬机器人的未来发展奠定了基础，最终提高了 BLV 个体的独立性和生活质量。

人机交互政策合作的未来

分类： 人机交互

作者： Qian Yang, Richmond Y Wong, Steven J Jackson, Sabine Junginger, Margaret D Hagan, Thomas Gilbert, John Zimmerman

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19738v1

摘要： 政策极大地影响了计算的社会影响，这是人机交互的一个关键问题。然而，当人机交互专业人员试图将政策纳入其工作或影响政策结果时，挑战仍然存在。先前的研究考虑了人机交互和政策“边界”的这些挑战。本文提出这样的问题：如果人机交互将政策视为其知识关注的组成部分，将系统-人民-政策的互动置于人机交互研究、实践和教育的中心而不是边界，会怎样？如果人机交互培育一系列方法和知识贡献，以各种方式融合系统、人类和政策专业知识，就像人机交互在融合系统和人类专业知识方面所做的那样？我们将这种重新想象的人机交互与政策关系视为一种挑衅，并强调其有用性：它强调了人机交互中以前被忽视的系统-人员-政策交互工作。它为人机交互的未来、实证和设计项目揭示了新的机遇。它使 HCI 能够协调其多样化的政策参与，增强其对政策结果的集体影响。

语言专业人员的上半身肌肉骨骼疼痛和眼睛疲劳：一项描述性横断面研究

分类： 人机交互

作者： Emma Goldsmith

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19598v1

摘要： 语言专业人士长时间坐在电脑前，这可能会对他们的短期和长期身体健康产生影响。 2023 年，我进行了一项调查，调查工作站的人体工程学、眼睛和上半身问题，以及缓解坐在或站着办公桌前的语言专业人员的自我报告策略。在 791 名受访者中，约三分之一报告有眼部问题，超过三分之二报告在过去 12 个月内有上身疼痛或疼痛，女性上身疼痛患病率显着高于男性，年轻受访者也高于年长受访者。虽然调查中的疼痛患病率与文献中发表的数据相似，性别风险因素也相似，但年轻人中较高的疼痛患病率与其他研究形成鲜明对比，其他研究发现年龄增长是疼痛的危险因素。在本文中，我详细分享了调查结果，并讨论了对调查结果的可能解释。

通过视线跟踪和大型语言模型查看您在哪里阅读

分类： 人机交互, 人工智能, 计算机视觉和模式识别, J.5; I.2.7

作者： Sikai Yang, Gang Yan

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19454v1

摘要： 在线路切换期间丢失阅读进度可能会令人沮丧。视线跟踪技术通过突出显示已阅读的段落来提供潜在的解决方案，帮助用户避免错误的换行。然而，视线跟踪精度（2-3 厘米）和文本行间距（3-5 毫米）之间的差距使得直接应用不切实际。现有方法利用线性读取模式，但在跳跃读取期间失败。本文提出了一种支持线性阅读和跳跃阅读的阅读跟踪和突出显示系统。基于对 16 位用户的注视性质研究的实验见解，设计了两个注视误差模型来实现跳跃阅读检测和重新定位。该系统进一步利用大语言模型的上下文感知能力来帮助阅读跟踪。还利用阅读跟踪特定领域的线注视对齐机会来实现注视结果的动态和频繁校准。受控实验证明了可靠的线性读数跟踪，以及跟踪跳跃读数的准确度为 84%。此外，18名志愿者的真实现场测试证明了该系统在跟踪和突出阅读段落、提高阅读效率、增强用户体验方面的有效性。

大型语言模型的秘密用途

分类： 人机交互, 人工智能

作者： Zhiping Zhang, Chenxinran Shen, Bingsheng Yao, Dakuo Wang, Tianshi Li

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19450v1

摘要： 大型语言模型（LLM）的进步分散了人工智能使用透明度的责任。具体来说，现在鼓励或要求大语言模型用户披露大语言模型生成的内容在各种类型的现实世界任务中的使用情况。然而，一个新出现的现象，即用户秘密使用LLM，给确保最终用户遵守透明度要求带来了挑战。我们的研究采用了混合方法，包括探索性调查（报告了 125 个真实世界的秘密用例）和 300 名用户之间的对照实验，以调查大语言模型秘密使用背后的背景和原因。我们发现这种秘密行为通常是由某些任务触发的，超越了用户之间的人口统计和个性差异。研究发现，任务类型会影响用户使用秘密行为的意图，主要是通过影响对 LLM 使用的感知外部判断。我们的研究结果为未来设计干预措施的工作提供了重要的见解，以鼓励更透明地披露大语言模型或其他人工智能技术的使用。

“故事的拟像”：作为定性研究参与者检查大型语言模型

分类： 人机交互, 计算和语言, 机器学习

作者： Shivani Kapania, William Agnew, Motahhare Eslami, Hoda Heidari, Sarah Fox

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19430v1

摘要： 最近围绕生成模型的兴奋引发了一波提案，建议用大型语言模型（LLM）生成的综合研究数据取代人类在研究和开发中的参与和劳动（例如通过调查、实验和访谈）。我们采访了 19 名定性研究人员，以了解他们对这种范式转变的看法。研究人员最初持怀疑态度，但在使用访谈调查时，惊讶地发现大语言模型生成的数据中出现了类似的叙述。然而，在几次对话中，他们继续发现了基本的局限性，例如大语言模型如何排除参与者的同意和代理权，产生缺乏明显性和上下文深度的回应，以及使定性研究方法合法化的风险。我们认为，使用大语言模型作为参与者的代理会产生替代效应，引发伦理和认识论方面的担忧，这些担忧超出了当前模型的技术限制，延伸到了大语言模型是否符合定性认识方式的核心。

缩小混合决策系统的差距

分类： 人工智能, 人机交互, 68T05, 68W40

作者： Federico Mazzoni, Roberto Pellungrini, Riccardo Guidotti

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19415v1

摘要： 我们引入了 BRIDGET，这是一种用于混合决策的新型人机循环系统，可帮助用户从未标记的数据集中标记记录，试图弥合两种最流行的混合决策之间的差距：制定范式：一种以人类为主导，另一种则由机器做出大部分决策。 BRIDGET 知道何时应该由机器或人类用户负责，并在两种状态之间动态切换。在不同的状态下，BRIDGET 仍然促进人机交互，要么让机器学习模型对用户持怀疑态度并向他们提供建议，要么对自身采取怀疑态度并给用户回电。我们相信我们的建议为未来涉及人类和机器决策者的协同系统奠定了基础。

DOTA：视觉语言模型的分布式测试时间适应

分类： 机器学习, 人工智能, 计算和语言, 计算机视觉和模式识别, 人机交互

作者： Zongbo Han, Jialong Yang, Junfan Li, Qinghua Hu, Qianli Xu, Mike Zheng Shou, Changqing Zhang

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19375v1

摘要： 视觉语言基础模型（例如 CLIP）在广泛的任务中表现出了卓越的性能。然而，当训练数据和测试数据之间存在显着的分布差距时，部署这些模型可能不可靠。免训练测试时动态适配器（TDA）是解决这个问题的一种有前景的方法，它通过存储代表性测试样本来指导后续样本的分类。然而，TDA 仅天真地在缓存中维护有限数量的参考样本，当通过删除样本更新缓存时，会导致严重的测试时灾难性遗忘。在本文中，我们提出了一种简单而有效的分布式测试时间适应（Dota）方法。 Dota 不再天真地记住代表性测试样本，而是不断估计测试样本的分布，使模型不断适应部署环境。然后使用基于贝叶斯定理的估计分布来计算测试时后验概率，以达到适应目的。为了进一步增强对不确定样本的适应性，我们引入了一种新的人机循环范式，它可以识别不确定样本，收集人类反馈，并将其合并到 Dota 框架中。大量的实验验证了 Dota 使 CLIP 能够持续学习，与当前最先进的方法相比有了显着的改进。

基于反馈的混合现实和机器人制造的手势识别：UnLog 塔案例研究

分类： 人机交互, 新兴技术, 机器人技术

作者： Alexander Htet Kyaw, Lawson Spencer, Sasa Zivkovic, Leslie Lok

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19281v1

摘要： 混合现实 (MR) 平台使用户能够在高度定制和参数化建筑结构的组装和制造过程中与三维全息指令进行交互，而无需二维绘图。以前的 MR 制造项目主要依赖数字菜单和自定义按钮作为用户与 MR 环境交互的界面。尽管这种方法被广泛采用，但它允许人类与物理对象直接交互以修改 MR 环境中的制造指令的能力有限。这项研究通过实时手势识别将用户与物理对象的交互集成为输入，以修改、更新或生成新的数字信息，从而实现物理和虚拟环境之间的相互刺激。因此，数字环境生成用户提供的与物理对象的交互，以允许制造过程中的无缝反馈。这项研究研究了基于反馈的 MR 工作流程的手势识别，用于 UnLog 塔施工过程中的机器人制造、人体组装和质量控制。

用于关节动作中社会运动协调的摇摆舞运动的特征指定迭代学习控制

分类： 人机交互

作者： Bowen Guo, Chao Zhai

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19213v1

摘要： 大量实验表明，人类参与者之间的运动协调可能有助于社交亲和力和情感依恋，这在社交障碍或精神分裂症的临床治疗中具有巨大潜力。镜像游戏为研究社会运动协调提供了有效的实验范式。然而，缺乏运动丰富性阻碍了现有一维实验中高水平协调的出现。为了解决这个问题，这项工作通过在两个参与者之间玩摇摆舞，开发了一种二维实验范式的镜子游戏。特别是，创建了定制虚拟玩家的在线控制架构以与人类玩家协调。其中，提出了一种将位置跟踪和具有指定运动学特征的行为模仿相结合的迭代学习控制算法。此外，还对控制算法进行了收敛分析，保证了虚拟玩家的在线性能。最后，通过匹配实验数据并使用一组性能指标与其他控制方法进行比较来验证所提出的控制策略。

电子竞技训练、周期和工具——范围界定审查

分类： 人机交互

作者： Andrzej Białecki, Bartłomiej Michalak, Jan Gajewski

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19180v2

摘要： 电子竞技（esports）和这一新兴领域的研究本质上是跨学科的。推而广之，了解如何借助多年运动科学和信息学研究开发的现有工具来标准化和构建训练是至关重要的。我们本文的目标是验证当前的研究是否包含用于训练电子竞技运动员的训练系统的实质性证据。为了验证现有来源，我们应用了范围界定审查框架，通过进一步的本地处理来解决多个科学数据库的搜索问题。我们的结论是，当前的电子竞技研究主要涉及描述和建模跨越多个分散研究领域（心理学、营养学、信息学）的表现指标，但这些构建模块并没有被组装成现有的功能良好的电子竞技表现理论。提供电子竞技的锻炼制度和分期方式。

了解 Discord 上的 #vent 频道

分类： 社交和信息网络, 人机交互

作者： Kayode Oladeji, Tony Wang, Diyi Yang, Amy Bruckman

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19166v1

摘要： Discord 上的发泄频道是为人们表达不满而开发的聊天频道，可以成为一种非正式的同伴支持系统。本文是对 Discord 上发泄渠道体验的定性研究，通过半结构化访谈考察了 13 名参与者的体验。我们发现，参与者能够通过发泄渠道获得同情、建议和他人回应的认可，从而满足他们对社会支持的需求。与此同时，当参与者对互动的期望相互冲突时，发泄渠道可能会导致沮丧。我们建议 Discord 或 Discord 服务器版主可以提供增强的结构、清晰度和透明度，以使参与者在发泄渠道中获得更好的体验。

SensoPatch：带有高密度触觉传感手套的可重构触觉反馈

分类： 人机交互, 系统与控制, 系统与控制

作者： Yanisa Angkanapiwat, Ariel Slepyan, Rebecca J. Greene, Nitish Thakor

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19155v1

摘要： 触觉反馈对于改善假肢使用者的体验和减少假肢排斥反应至关重要。先前的研究已经探索了编码触觉信息和提供振动反馈的各种方法。然而，目前还没有比较可穿戴设备不同刺激位置和反馈方式的性能的综合研究，也没有测试平台。本文提出了一种开源可重构触觉反馈系统，该系统包含 25 个传感器和无线通信，以允许定制数量的振动电机、可调节的电机位置以及触觉数据的可编程编码以改变反馈方式。为了证明可以使用 SensoPatch 进行研究的潜在研究，我们进行了两项实验：1) 评估 3 个身体部位的振动辨别准确性 2) 评估将触觉数据映射到不同数量的电机的 6 种方法对物体操纵的影响。 SensoPatch 利用低成本现成组件，能够对反馈方式和刺激部位进行大规模比较研究，以优化振动触觉反馈并促进其在上肢假肢中的部署。

人类自主团队中基于凝视的信任与协作签名

分类： 人机交互, J.4

作者： Anthony J. Ries, Stéphane Aroca-Ouellette, Alessandro Roncone, Ewart J. de Visser

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19139v1

摘要： 在人类与自主团队 (HAT) 不断发展的格局中，促进人类与自主代理之间的有效协作和信任变得越来越重要。为了探索这一点，我们使用游戏 Overcooked AI 创建动态团队场景，具有不同的代理行为（笨拙、僵化、适应性）和环境复杂性（低、中、高）。我们的目标是评估采用分层强化学习设计的自适应人工智能代理的性能，以实现更好的团队合作，并测量与信任和协作变化相关的眼动追踪信号。结果表明，与其他代理相比，自适应代理在管理团队和跨环境创建公平的任务分配方面更有效。使用自适应代理可以实现更好的协调、减少冲突、更平衡的任务贡献和更高的信任评级。所有代理的注视分配减少与较高的信任水平相关，而眨眼次数、扫描路径长度、代理重访和信任可预测人类对团队的贡献。值得注意的是，对代理的重新审视随着环境的复杂性而增加，并随着代理的多功能性而减少，这为衡量队友绩效监控提供了独特的指标。这些发现强调了设计自主团队成员的重要性，这些团队成员不仅在任务绩效方面表现出色，而且还可以通过提高可预测性并减少人类团队成员的认知负担来增强团队合作。此外，这项研究还强调了眼球追踪作为评估和改进人类自主团队的一种不显眼的措施的潜力，表明智能体可以利用眼球注视来动态调整其行为。

开放生态系统中负责任的人工智能：协调创新与风险评估和披露

分类： 人机交互, 人工智能, 计算机与社会, 新兴技术, 软件工程

作者： Mahasweta Chakraborti, Bert Joseph Prestoza, Nicholas Vincent, Seth Frey

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19104v1

摘要： 人工智能的快速扩展促使人们越来越重视开发和实践中的道德考虑。这导致制定了日益复杂的模型审计和报告要求以及治理框架，以减轻个人和社会的潜在风险。在此关键时刻，我们回顾了在 OSS 等支持重要基础设施并得到广泛使用的非正式部门中促进负责任的人工智能和透明度所面临的实际挑战。我们重点关注模型性能评估如何告知或抑制对模型局限性、偏差和其他风险的探索。我们对 7903 Hugging Face 项目的受控分析发现，风险记录与评估实践密切相关。然而，来自该平台最受欢迎的竞争排行榜的提交内容（N=789）显示，高绩效者的责任感较低。我们的研究结果可以为人工智能提供商和法律学者设计干预措施和政策提供信息，以保护开源创新，同时激励道德的采用。

概述患者教育中大语言模型应用的边界：为前列腺癌患者教育开发由大语言模型支持的专家在环聊天机器人

分类： 人机交互

作者： Yuexing Hao, Jason Holmes, Mark Waddle, Nathan Yu, Kirstin Vickers, Heather Preston, Drew Margolin, Corinna E. Löckenhoff, Aditya Vashistha, Marzyeh Ghassemi, Saleh Kalantari, Wei Liu

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19100v1

摘要： 由于机构资源有限、缺乏成熟的专业指导以及健康素养较低，癌症患者往往难以迅速过渡到治疗。大语言模型 (LLM) 的出现为此类患者提供了获取丰富的现有患者教育材料的新机会。当前的论文介绍了基于大语言模型的聊天机器人的开发过程，重点关注前列腺癌教育，包括需求评估、协同设计和可用性研究。由此产生的应用程序 MedEduChat 与患者的电子健康记录数据集成，并采用闭域、半结构化、以患者为中心的方法来满足现实世界的需求。本文通过展示基于大语言模型的聊天机器人在加强前列腺癌患者教育方面的潜力，并为未来基于大语言模型的医疗保健下游应用提供共同设计指南，为不断发展的患者与大语言模型互动领域做出了贡献。

通过语音建立信任：语气如何影响用户对语音助手吸引力的感知

分类： 人机交互, 人工智能

作者： Sabid Bin Habib Pias, Alicia Freel, Ran Huang, Donald Williamson, Minjeong Kim, Apu Kapadia

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18941v1

摘要： 语音助手 (VA) 在执行简单任务时很受欢迎，但用户常常犹豫是否使用它们来执行在线购物等复杂活动。我们探讨了声音特征（例如 VA 的语气）是否可以使 VA 对执行复杂任务的用户更具吸引力和可信度。我们的研究结果表明，VA 声音的语气会显着影响其感知吸引力和可信度。我们实验中的参与者更有可能被带有积极或中性语气的 VA 所吸引，并最终信任他们认为更具吸引力的 VA。我们的结论是，通过深思熟虑的语音设计，结合各种语气，可以增强 VA 的可信度。

EyeTrAES：通过自适应事件切片进行细粒度、低延迟的眼动追踪

分类： 计算机视觉和模式识别, 人机交互

作者： Argha Sen, Nuwan Bandara, Ila Gokarn, Thivya Kandappu, Archan Misra

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18813v1

摘要： 近年来，眼动追踪技术因其在人机交互、虚拟现实和增强现实以及可穿戴健康领域的广泛应用而受到广泛关注。传统的基于 RGB 摄像头的眼动追踪系统通常会遇到时间分辨率差和计算限制的问题，从而限制了其捕捉快速眼动的有效性。为了解决这些限制，我们提出了 EyeTrAES，这是一种使用神经形态事件相机对自然瞳孔运动进行高保真跟踪的新颖方法，该运动显示出显着的运动学方差。 EyeTrAES 的亮点之一是使用了一种新颖的自适应窗口/切片算法，该算法可确保事件框架内在各种眼球运动模式中积累适量的描述性异步事件数据。然后，EyeTrAES 对单眼累积的事件帧应用轻量级图像处理功能，以执行瞳孔分割和跟踪。我们证明，这些方法将瞳孔跟踪保真度提高了 6% 以上，实现了 IoU=92%，同时与竞争的纯基于事件的眼动跟踪替代方案相比，延迟至少降低了 3 倍 [38]。我们还证明，EyeTrAES 捕获的微观瞳孔运动在个体之间表现出独特的差异，因此可以作为生物指纹。为了进行鲁棒的用户身份验证，我们使用短期瞳孔运动学的新颖特征向量来训练轻量级的每用户随机森林分类器，其中包括瞳孔（位置、速度、加速度）三元组的滑动窗口。使用两个不同数据集的实验研究表明，基于 EyeTrAES 的身份验证技术可以同时实现高身份验证精度（=0.82）和低处理延迟（~=12ms），并且显着优于多个最先进的竞争基线。

电子竞技首次作为2023年亚运会奖牌赛事：通过BERTopic和GPT-4主题微调探索公众认知

分类： 人机交互, 人工智能, 机器学习

作者： Tyreal Yizhou Qian, Bo Yu, Weizhe Li, Chenglong Xu

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18798v1

摘要： 本研究使用大语言模型增强的 BERTopic 建模分析，调查了 2023 年亚运会电子竞技的公众舆论以及赛事期间的价值共创。我们确定了代表公众看法的五个主要主题，以及主要利益相关者如何在电子竞技生态系统内外共同创造价值。主要调查结果强调了社交媒体营销的战略用途，以影响公众舆论并推广电子竞技赛事和品牌，并强调赛事物流和基础设施的重要性。此外，该研究还揭示了传统电子竞技生态系统之外的利益相关者所贡献的共同创造价值，特别是在促进国家代表性和表现方面。我们的研究结果支持了电子竞技作为一项运动合法化的持续努力，并指出主流认可仍然是一个挑战。将电子竞技纳入奖牌赛事展示了更广泛的接受度，并有助于减轻公众的负面看法。此外，非传统利益相关者的贡献强调了电子竞技中跨亚文化合作的价值。

电粘附下人手指与触摸屏之间的机电接触相互作用

分类： 人机交互

作者： Easa AliAbbasi

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18725v1

摘要： 电粘附（EA）在机器人、自动化、太空任务、纺织品和触觉显示器方面具有潜力，但由于模型和实验数据有限，其物理性质仍未得到充分探索。本论文开发了一种机电模型来估计 EA 下人体手指和触摸屏之间的静电力，并将其与实验测量的摩擦力进行比较。该模型与数据吻合良好，表明静电力的变化主要是由于频率低于 250 Hz 时角质层的电荷泄漏以及高于 250 Hz 的电特性所致。此外，一种使用电阻抗测量的新颖方法通过从总阻抗中减去皮肤和触摸屏阻抗来估计静电力。该方法是第一个通过实验估计手指与电压感应电容式触摸屏之间的平均气隙的方法。还研究了电极极化阻抗的影响，特别是在低频下，揭示了其在电荷泄漏现象中的作用。使用触摸屏上的直流和交流电压信号对 10 名不同手指湿度水平的参与者通过 EA 进行的触觉感知进行了研究。结果表明，交流电压检测阈值明显低于直流电压，这可以通过较低频率下的电荷泄漏来解释。在阻抗测量的支持下，手指潮湿的参与者表现出更高的阈值水平。该论文还研究了触摸屏顶部涂层如何影响触觉感知，重点关注无 EA 相互作用。心理物理实验和物理测量表明，涂层材料会显着影响触觉感知，这可能是由于分子相互作用。这些发现提供了对 EA 下手指触摸屏交互的深入了解，并且在使用该技术设计机器人系统和触觉界面方面具有潜在的应用。

不是银弹：LLM 增强的编程错误消息在实践中无效

分类： 人工智能, 人机交互

作者： Eddie Antonio Santos, Brett A. Becker

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18661v1

摘要： ChatGPT 等大型语言模型 (LLM) 的突然出现对整个计算教育界产生了颠覆性影响。大语言模型已被证明擅长为 CS1 和 CS2 问题生成正确的代码，甚至可以充当学习编码的学生的友好助手。最近的研究表明，大语言模型在解释和解决编译器错误消息方面表现出了明显的卓越成果——几十年来，这是学习如何编码最令人沮丧的部分之一。然而，LLM 生成的错误消息解释仅由专家程序员在人工条件下进行评估。这项工作旨在了解新手程序员如何在更现实的场景中解决编程错误消息 (PEM)。我们对 $n$ = 106 名参与者进行了一项受试者内研究，其中学生的任务是修复 6 个有缺陷的 C 程序。对于每个程序，参与者被随机分配使用库存编译器错误消息、专家手写错误消息或 GPT-4 生成的错误消息解释来修复问题。尽管综合基准上有令人鼓舞的证据，但我们发现，根据学生解决每个问题的时间来衡量，GPT-4 生成的错误消息仅在 6 个任务中的 1 个上优于传统编译器错误消息。无论是在客观还是主观指标上，手写解释仍然优于大语言模型和传统的错误信息。

人工智能反馈对学习、技能差距和智力多样性的影响

分类： 普通经济学, 人工智能, 人机交互, 经济学, 68T01, I.2; J.4

作者： Christoph Riedl, Eric Bogert

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18660v1

摘要： 人类决策者可以从人工智能反馈中学习吗？使用来自大型在线国际象棋平台的 52,000 名决策者的数据，我们调查了他们的人工智能使用如何影响三个相互关联的长期结果：学习、技能差距和决策策略的多样性。首先，我们表明，个人在经历成功而不是失败的情况下更有可能寻求人工智能反馈。事实证明，这种人工智能寻求反馈的策略对学习是有害的：成功的反馈会降低未来的表现，而失败的反馈会增加未来的表现。其次，技能较高的决策者会更频繁地寻求人工智能反馈，并且更有可能在失败后寻求人工智能反馈，并且比技能较低的人从人工智能反馈中受益更多。因此，获得人工智能反馈会增加而不是缩小高技能个人和低技能个人之间的技能差距。最后，我们利用 42 个主要平台更新作为自然实验，以表明获取人工智能反馈会导致人群智力多样性下降，因为个体倾向于专注于同一领域。总之，这些结果表明，从人工智能反馈中学习并不是自动的，正确使用人工智能本身似乎也是一种技能。此外，尽管对个人层面有好处，但获得人工智能反馈可能会对人口层面产生重大负面影响，包括智力多样性的丧失和技能差距的扩大。

一个认知人类意识任务规划器，可以预测人类的信念和决策

分类： 机器人技术, 人工智能, 人机交互

作者： Shashank Shekhar, Anthony Favier, Rachid Alami

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18545v1

摘要： 我们提出了人类感知任务规划框架的实质性扩展，专为具有间歇性共享执行体验和人类与机器人之间存在重大信念分歧的场景而定制，特别是由于人类的不可控本质。我们的目标是建立一个机器人策略来解释无法控制的人类行为，从而能够预测机器人在不共享执行时可能取得的进步，例如当人类短暂离开共享环境以完成子任务时。但是，这种预期是从能够获得机器人估计模型的人类的角度来考虑的。为此，我们提出了一个新颖的规划框架，并构建了一个基于 AND-OR 搜索的求解器，它集成了知识推理，包括通过观点采择的情况评估。我们的方法动态建模和管理潜在进步的扩展和收缩，同时精确跟踪代理何时（以及何时不）共享任务执行体验。规划者系统地评估情况，并忽略有理由认为人类不可能实现的世界。总体而言，我们的新求解器可以估计人类和机器人在潜在行动过程中的不同信念，从而实现计划的综合，其中机器人选择正确的通信时刻，即通知或回复查询，或推迟本体行动直到可以分享执行经验。在两个领域（一个是新颖的，一个是改编的）的初步实验证明了该框架的有效性。

生成人工智能时代的数据分析

分类： 人工智能, 人机交互

作者： Jeevana Priya Inala, Chenglong Wang, Steven Drucker, Gonzalo Ramos, Victor Dibia, Nathalie Riche, Dave Brown, Dan Marshall, Jianfeng Gao

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18475v1

摘要： 本文探讨了人工智能工具重塑数据分析的潜力，重点关注设计考虑因素和挑战。我们探讨大语言和多模式模型的出现如何通过将高级用户意图转化为可执行代码、图表和见解，为增强数据分析工作流程的各个阶段提供新的机会。然后，我们研究以人为本的设计原则，这些原则促进直观交互、建立用户信任并简化跨多个应用程序的人工智能辅助分析工作流程。最后，我们讨论了阻碍这些基于人工智能的系统开发的研究挑战，例如增强模型功能、评估和基准测试以及了解最终用户需求。

语音到现实：使用自然语言、3D 生成式人工智能和离散机器人装配进行按需生产

分类： 机器人技术, 人工智能, 人机交互

作者： Alexander Htet Kyaw, Se Hwan Jeon, Miana Smith, Neil Gershenfeld

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18390v1

摘要： 我们提出了一个系统，通过将 3D 生成人工智能与机器人装配相结合，将语音转换为物理对象。该系统利用自然语言输入使设计和制造变得更容易，使没有 3D 建模或机器人编程专业知识的个人也能创建物理对象。我们建议利用基于晶格的体素组件的离散机器人组装来解决在物理生产中使用生成式人工智能输出的挑战，例如设计可变性、制造速度、结构完整性和材料浪费。该系统解释语音以生成 3D 对象，将其离散化为体素组件，计算优化的装配序列，并生成机器人工具路径。结果通过从椅子到架子等各种物体的组装来展示，这些物体通过语音提示并使用六轴机械臂在 5 分钟内实现。

通用大语言模型增强 BIM 框架：在语音到 BIM 系统中的应用

分类： 计算和语言, 人工智能, 人机交互

作者： Ghang Lee, Suhyung Jang, Seokho Hyun

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18345v1

摘要： 执行建筑信息模型 (BIM) 任务是一个复杂的过程，由于需要记住众多命令的序列，因此需要陡峭的学习曲线和繁重的认知负担。随着大语言模型 (LLM) 的快速发展，可以预见的是，BIM 任务，包括查询和管理 BIM 数据、4D 和 5D BIM、设计合规性检查或创作设计，将使用书面或口头自然语言（即文本）到 BIM 或语音到 BIM），将很快取代传统的图形用户界面。本文提出了一种通用的 LLM 增强型 BIM 框架，通过提供分步开发流程来加快 LLM 增强型 BIM 应用程序的开发。所提出的框架由六个步骤组成：解释-填充-匹配-结构-执行-检查。本文以外墙细部设计为例，通过实施语音到 BIM 应用程序 NADIA-S（通过语音与人工智能交互实现基于自然语言的建筑细部设计），展示了所提出框架的适用性。

共同转型：青少年慢性病管理中的协作工作

分类： 人机交互

作者： Rachael Zehrung, Madhu Reddy, Yunan Chen

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18275v1

摘要： 患有慢性疾病的青少年需要学习自我管理技能，为从儿科医疗保健过渡到成人医疗保健做好准备，这与青少年的负面健康结果有关。然而，很少有研究探讨过渡前阶段的青少年如何进行自我管理以及与父母的协作管理。通过对 15 名青少年（15-17 岁）的采访，我们发现青少年会处理日常的自我照顾任务，并尝试改变生活方式以变得更加独立，这有时与父母确保他们安全的努力相冲突。青少年及其父母还开展了共同活动，为青少年提供了学习和练习自我管理技能的机会。根据我们的发现，我们讨论了技术设计的考虑因素，以鉴于这些紧张局势促进过渡并促进父母与青少年的合作。

人工智能政策投影仪：在迭代制图中奠定大语言模型政策设计的基础

分类： 人机交互, 人工智能, 计算和语言, 机器学习

作者： Michelle S. Lam, Fred Hohman, Dominik Moritz, Jeffrey P. Bigham, Kenneth Holstein, Mary Beth Kery

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18203v1

摘要： 无论大型语言模型政策是显式宪法还是隐式奖励模型，评估政策必须应对的无限现实世界情况的覆盖范围都是具有挑战性的。我们引入了受地图制作启发的人工智能政策设计流程，该流程开发了在地图上可视化和迭代的策略，即使无法完全覆盖。借助政策投影仪，政策设计者可以调查模型输入输出对的情况，定义自定义区域（例如“暴力”），并使用可应用于 LLM 输出的规则导航这些区域（例如，如果输出包含“暴力”）和“图形细节”，然后重写，不包含“图形细节”）。政策投影仪支持使用大语言模型分类和指导以及反映政策设计者工作的地图可视化来进行交互式政策创作。在 12 名人工智能安全专家的评估中，我们的系统帮助政策设计者解决超出现有综合危害分类法的有问题的模型行为。

AR/VR、大型语言模型、UI/UX 和机器人技术在增强儿童学习和社交互动方面的联系：系统回顾

分类： 人机交互, 人工智能, 社交和信息网络

作者： Biplov Paneru, Bishwash Paneru

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18162v1

摘要： 这项综述研究探讨了大语言模型 (LLM)、增强现实 (AR) 和用户界面/用户体验 (UI/UX) 设计在儿童治疗中的结合，尤其是针对自闭症谱系障碍 (ASD) 等疾病的治疗。通过对 PubMed、ACM、IEEE Xplore、Elsevier 和 Google Scholar 进行彻底的文献检索，找到了 150 篇出版物；其中 42 个因其方法严谨性和相关性而被选择进行深入研究。本次审查涵盖三个主要领域：AR 如何改善社交和学习成果；大语言模型如何帮助沟通；以及 UI/UX 设计如何影响这些技术的有效性。结果表明，虽然大语言模型可以提供个性化的学习和沟通支持，但增强现实在增强社交技能、动机和注意力方面表现出了希望。对于患有自闭症谱系障碍 (ASD) 的儿童来说，方便且有趣的干预措施在很大程度上取决于有效的 UI/UX 设计。为了优化这些技术在 ASD 治疗中的优势，该研究强调需要进行额外的研究来解决与定制、可访问性和集成相关的困难。

在应用程序开发过程中使用大型语言模型推断 UI 图标的替代文本

分类： 人机交互, 软件工程

作者： Sabrina Haque, Christoph Csallner

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18060v1

摘要： 确保移动应用程序的可访问性仍然是一项重大挑战，特别是对于依赖屏幕阅读器的视障用户而言。用户界面图标对于导航和交互至关重要，但通常缺乏有意义的替代文本，从而为有效使用造成障碍。用于生成替代文本的传统深度学习方法需要大量数据集，并且难以解决图标类型的多样性和不平衡问题。最近的视觉语言模型 (VLM) 需要完整的 UI 屏幕，这在应用程序开发的迭代阶段可能不切实际。为了解决这些问题，我们引入了一种使用大型语言模型 (LLM) 的新颖方法，为具有部分 UI 数据的移动 UI 图标自动生成信息丰富的替代文本。通过合并图标上下文（包括类、资源 ID、边界、OCR 检测到的文本以及来自父节点和同级节点的上下文信息），我们在大约 1.4k 图标的小数据集上微调现成的 LLM，产生图标描述在实证评估和用户研究中，IconDesc 展示了在生成相关替代文本方面的显着改进。这种能力使 IconDesc 成为开发人员的宝贵工具，有助于快速迭代和增强 UI 可访问性。

HARMONIC：解释性认知机器人的框架

分类： 机器人技术, 人工智能, 人机交互, 多代理系统

作者： Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18037v1

摘要： 我们提出了 HARMONIC，一个用于实现认知机器人的框架，它将通用机器人转变为能够进行复杂决策、自然沟通和人类水平解释的值得信赖的队友。该框架支持用于高级决策的战略（认知）层与用于低级控制和执行的战术（机器人）层之间的互操作性。我们描述了该框架的核心功能和我们的初始实现，其中 HARMONIC 部署在参与多机器人搜索和检索任务的模拟 UGV 和无人机上。

使用大型语言模型控制工业自动化系统

分类： 系统与控制, 人工智能, 人机交互, 多代理系统, 机器人技术, 系统与控制

作者： Yuchen Xia, Nasser Jazdi, Jize Zhang, Chaitanya Shah, Michael Weyrich

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18009v1

摘要： 传统的工业自动化系统需要专门的专业知识来操作和复杂的重新编程以适应新的流程。大型语言模型提供的智能使其更加灵活且易于使用。然而，大语言模型在工业环境中的应用尚未得到充分探索。本文介绍了一个集成大语言模型以实现工业自动化系统端到端控制的框架。该框架的核心是针对工业任务设计的代理系统、结构化的提示方法以及为LLM推理提供实时数据的事件驱动的信息建模机制。该框架为大语言模型提供不同上下文语义级别的实时事件，使他们能够解释信息、生成生产计划并控制自动化系统上的操作。它还支持结构化数据集创建，以便对大语言模型的下游应用程序进行微调。我们的贡献包括正式的系统设计、概念验证实施以及生成用于 LLM 微调和测试的特定任务数据集的方法。这种方法使得自动化系统更具适应性，可以响应自发事件，同时允许通过自然语言更轻松地进行操作和配置，从而实现更直观的人机交互。我们在 GitHub 上提供演示视频和详细数据：https://github.com/YuchenXia/LLM4IAS

LLM4Brain：训练用于大脑视频理解的大型语言模型

分类： 计算机视觉和模式识别, 人机交互

作者： Ruizhe Zheng, Lichao Sun

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17987v1

摘要： 从不同受试者的大脑信号（例如功能性 MRI (fMRI)）中解码视觉语义信息面临着巨大的挑战，包括低信噪比、有限的数据可用性和跨受试者变异性。大语言模型 (LLM) 的最新进展在处理多模态信息方面显示出显着的有效性。在这项研究中，我们介绍了一种基于大语言模型的方法，用于从视频刺激引起的功能磁共振成像信号中重建视觉语义信息。具体来说，我们在配备适配器的功能磁共振成像编码器上采用微调技术，将大脑反应转换为与视频刺激一致的潜在表征。随后，大语言模型将这些表示映射到文本模态。特别是，我们整合了自我监督的领域适应方法，以增强视觉语义信息和大脑反应之间的一致性。我们提出的方法使用各种定量语义指标取得了良好的结果，同时产生了与真实信息的相似性。

参与式设计：对未来实践的系统回顾和见解

分类： 人机交互, 计算机与社会, 物理与社会

作者： Peter Wacnik, Shanna Daly, Aditi Verma

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17952v1

摘要： 参与式设计——一种迭代的、灵活的设计过程，需要利益相关者（最常见的是最终用户）的密切参与——正在跨设计学科的使用中不断增长。随着越来越多的从业者转向参与式设计（PD），它的定义变得不那么严格，利益相关者通过使用脱节的技术进行不同程度的参与。在讨论 PD 流程时，这种模糊的理解可能会适得其反。我们的研究结果综合了设计同行的关键决策和方法，可以支持其他人参与 PD 实践。我们通过系统的文献综述调查了学者们如何报告参与式设计在该领域的使用。我们发现大多数 PD 文献都研究了 PD 的具体案例研究（88 篇文章中的 53 篇），无形系统的设计代表了最常见的设计背景（88 篇文章中的 61 篇）。利益相关者通常参与设计过程的多个阶段（88 篇文章中的 65 篇），以各种方式招募，并参与确定的 14 种具体参与技术中的几种。这项系统回顾为今天的从业者提供了从过去的参与式设计过程中综合学习的知识，以告知和改进未来的设计开发使用，试图通过直接与利益相关者和用户接触来纠正不公平的设计。

将年龄分布可视化为医学数据故事的元素

分类： 人机交互, 计算机视觉和模式识别, 图形

作者： Sophia Dowlatabadi, Bernhard Preim, Monique Meuschke

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17854v1

摘要： 在包括医学在内的各个领域，年龄分布至关重要。尽管媒体广泛报道健康话题，但仍然需要加强健康沟通。叙事医学可视化有望提高信息理解和保留。本研究探索通过叙事可视化呈现疾病年龄分布的最有效方法。我们对现有的可视化进行了彻底的分析，举办了面向广泛受众的研讨会，并回顾了相关文献。由此，我们确定了注重理解、美观、参与和记忆的设计选择。我们专门测试了三种象形图变体：条形象形图、堆叠象形图和注释。在评估了 72 名参与者的 18 个可视化和三位专家评审后，我们确定注释对于理解和美观来说是最有效的。然而，传统的条形图更适合参与，而其他变体则更容易记住。该研究根据这些见解提供了一组设计建议。

医学图像分析中的偏差评估和数据漂移检测：一项调查

分类： 人机交互, 图像和视频处理

作者： Andrea Prenner, Bernhard Kainz

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17800v1

摘要： 机器学习 (ML) 模型因其在许多医学领域的专家级性能而在医学成像分析中广受欢迎。为了提高医学成像模型的可信度、接受度和监管合规性，并促进其融入临床环境，我们对在开发过程中和整个模型生命周期中确保机器学习可靠性的方法进行了审查和分类。具体来说，我们概述了评估模型内部运作的方法，这些方法涉及疾病分类模型的偏差编码和数据漂移检测。此外，为了评估重大漂移情况下的严重性，我们概述了在无法访问地面真实标签的情况下为分类器准确性估计而开发的方法。这应该使从业者能够实现确保可靠的机器学习部署和随着时间的推移保持一致的预测性能的方法。

MorphoHaptics：用于形态图像数据集视觉触觉探索的开源工具

分类： 人机交互

作者： Lucas Siqueira Rodrigues, Thomas Kosch, John Nyakatura, Stefan Zachow, Johann Habakuk Israel

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17766v1

摘要： 尽管数字方法具有显着先进的形态学，但从业者在理解和处理断层扫描标本数据方面仍然面临挑战。由于化石数据的自动化处理仍然不足，形态学家仍然从事大量的手工工作，为研究目标准备数字化石。我们提出了一种开源工具，使形态学家能够探索断层扫描数据，类似于传统化石制备者在现场经历的物理工作流程。我们评估了虚拟化石制备原型及其在数字制备工作流程中的伴随任务的可用性。我们的研究结果表明，将触觉集成到虚拟制备工作流程中可以增强对工作样本的形态和材料特性的理解。我们的设计对化石体积的视觉触觉雕刻被认为是简单的，并且是对当前断层扫描数据处理方法的改进。

TADAR：基于热阵列的检测和测距，用于保护隐私的人体感应

分类： 人机交互

作者： Xie Zhang, Chenshu Wu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17742v1

摘要： 人体传感在各种应用中受到越来越多的关注。在现有的技术中，视觉图像提供高精度，而射频频谱传感则保护隐私，从而造成成像分辨率和隐私保护之间的冲突。在本文中，我们探索热阵列传感器作为一种新兴模式，为无处不在的传感实现了出色的分辨率与隐私平衡。为此，我们推出了 TADAR，这是第一个基于多用户热阵列的检测和测距系统，该系统可估计固有缺失的范围信息，将热阵列输出从 2D 热像素扩展到 3D 深度，并使它们成为一种有前途的无处不在的隐私模式-保留人类感知。我们使用单一商品热阵列传感器对 TADAR 进行原型设计，并在不同的室内环境中进行大量实验。我们的结果表明，TADAR 的多用户检测平均 F1 分数为 88.8%，多用户测距平均准确度为 32.0 cm，对于 3 m 以内的目标进一步提高到 20.1 cm。我们进行了两个关于跌倒检测和占用估计的案例研究，以展示 TADAR 的潜在应用。我们希望 TADAR 能够激励广大社区探索无线和声学传感之外的热阵列传感新方向。 TADAR 在 GitHub 上开源：https://github.com/aiot-lab/TADAR。

承认律师是人工智能的创造者和可争议性的中介者

分类： 人机交互

作者： Gennie Mansi, Mark Riedl

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17626v1

摘要： 法律在影响可竞争性的复杂社会技术系统中发挥着关键作用：它们制定了塑造人工智能系统设计、评估和使用方式的法规。尽管律师在人工智能价值链中发挥着重要作用，但在人工智能系统的设计中，律师对可竞争性的影响在很大程度上没有被认识到。在本文中，我们强调了律师在影响可竞争性方面所扮演的两个主要角色：（1）作为人工智能创造者，因为他们制定的法规在部署人工智能系统之前决定了其设计和评估； (2) 作为中介机构，因为他们在损害发生时解释法规，弥合利益相关者、机构和有害结果之间的差距。我们利用这两个角色来阐明让律师参与人工智能系统设计的新机遇和挑战，为通过跨学科设计放大系统竞争能力的实际建议迈出了重要的第一步。

Covid-19 期间首次在线讲师的态度和感知效果

分类： 人机交互

作者： Owen Xingjian Zhang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17600v1

摘要： 与传统的面对面教学相比，在线教学扩大了受教育的机会，提供了灵活性。虽然早期研究已经探索了在线教学，但了解在 Covid-19 大流行期间首次在线课程的教师的观点非常重要。这项研究的重点是首次在线教学的教师，无论他们是否自愿。调查是在大学于 2020 年 4 月从面对面教学过渡到在线教学时进行的，并在第一个在线教学学期后进行了后续调查。该研究调查了教师在第一次在线教学体验之前对课堂成功的期望。使用贝叶斯模型，我们分析了这些期望如何根据教师的特征（在线教学的自我效能、技术熟练程度和技术接受程度）和课程属性（学科领域、班级规模和教学设计）而变化。结果显示，教师的自我效能感显着影响他们对成功的期望，而班级规模较小则期望值较低。有趣的是，之前使用的技术平台和课堂设计等因素并没有对预期产生显着影响。该研究为支持在线教学提供了实用的建议。为了提高自我效能，讲师应与同事合作并熟悉在线平台。大学应提供讲习班或培训以提高教学技能。小额互动课堂应注重非语言交流，机构应建立支持团队和反馈机制，确保在线教育的质量和效果。

拓展数据隐私视角：来自多哥农村地区的见解

分类： 人机交互

作者： Zoe Kahn, Meyebinesso Farida Carelle Pere, Emily Aiken, Nitin Kohli, Joshua E. Blumenstock

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17578v1

摘要： 被动收集的“大”数据源越来越多地用于为低收入和中等收入国家的关键发展政策决策提供信息。虽然之前的工作强调了这些方法如何泄露敏感信息、实现监视和集中权力，但人们对受这些政策直接影响的人们（有时被称为经验专家）的相应隐私问题、希望和恐惧知之甚少。为了了解经验丰富的专家的观点，在全数字现金转移计划启动后不久，我们对多哥农村居民进行了半结构化访谈，该计划使用机器学习和手机元数据来确定计划资格。本文记录了参与者对在发展政策中引入大数据方法的隐私担忧。我们发现我们的经验丰富的专家提出的隐私问题与隐私和开发领域专家提出的问题不同。为了促进对隐私的更强有力和建设性的解释，我们讨论了对认真对待经验专家和领域专家提出的隐私问题的政策和设计的影响。

GPT博士在校园咨询：了解高等教育学生对大语言模型辅助的心理健康服务的看法

分类： 人机交互, 人工智能

作者： Owen Xingjian Zhang, Shuyao Zhou, Jiayi Geng, Yuhan Liu, Sunny Xun Liu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17572v1

摘要： 为了应对大学生面临的日益严重的心理健康挑战，我们试图了解他们对如何利用人工智能应用，特别是大型语言模型（LLM）来增强他们的心理健康的看法。通过对十名不同的学生进行试点访谈，我们探讨了他们对在五个虚构场景中使用大语言模型的看法：一般信息查询、初步筛选、重塑患者与专家的动态、长期护理和后续护理。我们的研究结果显示，学生对大语言模型的接受程度因情况而异，参与者强调了潜在的好处，例如主动参与和个性化的后续护理，以及担忧，包括培训数据和情感支持的限制。这些见解告诉我们如何设计和实施人工智能技术，以有效支持和增强学生的心理健康，特别是在大语言模型可以补充传统方法的情况下，同时保持同理心并尊重个人偏好。

从图形到文字：用于生成可访问文本描述的计算机辅助框架

分类： 人机交互

作者： Qiang Xu, Thomas Hurtut

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17494v1

摘要： 在数字领域，媒体中数据可视化的普遍存在强调了可访问性的必要性，以确保所有用户（包括有视力障碍的用户）的包容性。由于缺乏全面的文字描述，当前的视觉内容往往无法满足屏幕阅读器用户的需求。为了解决这一差距，我们在本文中提出了一个框架，旨在帮助媒体内容创作者将图表转化为描述性叙述。该工具不仅有助于通过文本理解复杂的视觉数据，而且还培养了对数字内容创建的可访问性的更广泛的认识。通过该框架的应用，用户可以更有效地解释和传达数据可视化的见解，适应不同的受众。我们的评估表明，该工具不仅增强了对数据可视化的理解，而且还促进了对所表示数据的新视角，从而拓宽了所有用户的解释可能性。

虚拟现实环境中光电体积描记法的应力检测

分类： 机器学习, 人机交互

作者： Athar Mahmoudi-Nejad, Pierre Boulanger, Matthew Guzdial

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17427v1

摘要： 个性化虚拟现实暴露疗法是一种可以适应个体患者的治疗实践，从而带来更好的健康结果。测量患者的精神状态以调整治疗是一项关键但困难的任务。大多数已发表的研究使用主观方法来估计患者的精神状态，这可能不准确。本文提出了一种虚拟现实暴露疗法（VRET）平台，能够使用非侵入性且广泛使用的生理信号（例如光电体积描记法（PPG））来评估患者的精神状态。在案例研究中，我们评估了如何使用 PPG 信号来检测两种二元分类：平静状态和压力状态。十六名健康受试者暴露于两种 VR 环境（放松和压力）。使用 LOSO 交叉验证，我们最好的分类模型可以以 70.6% 的准确率预测这两种状态，这优于许多更复杂的方法。

VibraForge：用于创建空间化振动触觉反馈系统的可扩展原型工具包

分类： 人机交互

作者： Bingjian Huang, Siyi Ren, Yuewen Luo, Qilong Cheng, Hanfeng Cai, Yeqi Sang, Mauricio Sousa, Paul H. Dietz, Daniel Wigdor

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17420v1

摘要： 空间化振动触觉反馈系统通过在身体上放置多个振动触觉执行器来传递触觉信息。随着复杂应用中需要越来越多的执行器来充分传达信息，触觉设计人员发现由于现有工具包的可扩展性有限，很难创建此类系统。我们提出了 VibraForge，这是一个开源振动触觉工具包，支持多达 128 个振动触觉执行器。每个执行器都封装在一个独立的振动单元内，并由其自己的微控制器驱动。通过利用链式连接方法，每个单元从控制单元接收独立的振动命令，对强度和频率进行细粒度控制。我们还设计了一个 GUI 编辑器来加快空间振动触觉模式的创作。技术评估表明，振动单元能够通过低延迟和高带宽数据通信可靠地再现音频波形。音位触觉显示、虚拟现实健身训练和无人机远程操作的案例研究证明了 VibraForge 在不同领域的潜在用途。

复制风格，提取价值：插画家对人工智能风格迁移的认知及其对创意劳动的影响

分类： 人机交互

作者： Julien Porquet, Sitong Wang, Lydia B. Chilton

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17410v1

摘要： 生成文本到图像的模型正在扰乱创意专业人士的生活。具体来说，插画家受到声称提取和再现其风格的模型的威胁。然而，关于风格迁移的研究很少关注他们的观点。我们为四位插画家提供了一个根据他们的风格进行微调的模型，并针对该模型的成功、局限性和潜在用途进行了半结构化访谈。艺术家在评估他们的作品时表示，风格转移成功地复制了美学片段，但受到内容风格解开的限制，并且缺乏其风格的关键新兴品质。他们还认为其他人的复制品更成功。将风格转移的结果理解为“边界对象”，我们分析了它们如何同时被艺术家认为是不成功的，并准备被其他人取代。我们将我们的发现与关键的人机交互框架联系起来，证明风格转移而不仅仅是一种创造力支持工具，还应该被理解为一种供应链优化工具。

基于焦虑的蜘蛛：强化学习如何在虚拟现实个性化蜘蛛恐惧症治疗中提供所需的用户体验

分类： 机器学习, 人机交互

作者： Athar Mahmoudi-Nejad, Matthew Guzdial, Pierre Boulanger

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17406v1

摘要： 在个性化虚拟现实暴露疗法（VRET）（一种蜘蛛恐惧症的治疗方法）的背景下，需要生成一只蜘蛛来激发所需的焦虑反应。这种治疗要求患者观察虚拟蜘蛛，以使其变得不敏感并减少恐惧症，这需要蜘蛛引起特定的焦虑反应。然而，VRET 方法往往需要治疗师为每位患者手工选择合适的蜘蛛，这是一个耗时的过程，并且需要大量的技术知识和患者洞察力。虽然存在自动化方法，但它们倾向于采用基于规则的方法，而适应特定用户的能力极低。为了应对这些挑战，我们提出了一个利用程序内容生成（PCG）和强化学习（RL）的 VRET 框架，它可以自动适应蜘蛛以引发所需的焦虑反应。与更常见的基于规则的 VRET 方法相比，我们展示了该系统的卓越性能。

分享情感的表情符号的演变：人机交互文献的系统回顾

分类： 人机交互

作者： Charles Chiang, Diego Gomez-Zara

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17322v1

摘要： 随着即时通讯和社交媒体平台的盛行，表情符号已成为我们日常生活中表达情感和感受的重要工具。我们询问人机交互研究人员如何研究过去 10 年来表情符号在分享情感方面的作用和演变。我们对用于用户之间情感交流的表情符号的论文进行了系统的文献综述。在筛选了 1,000 多篇文章后，我们确定了 42 篇研究文章，分析了使用户能够通过表情符号分享情感的方法和系统。两个主要主题描述了这些论文如何（1）改进了用户从不断增加的表情符号词典中选择正确表情符号的方式，以及（2）以新的方式和数字材料使用表情符号来增强沟通。我们还发现，在外观、媒介和可供性方面，功能范围越来越广泛。我们讨论表情符号将为人机交互研究带来的潜在机遇和挑战，并提供见解。

使用视觉工作空间指导大语言模型总结以进行意义建构

分类： 人机交互

作者： Xuxin Tang, Eric Krokos, Can Liu, Kylie Davidson, Kirsten Whitley, Naren Ramakrishnan, Chris North

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17289v1

摘要： 大型语言模型（LLM）由于其快速且高质量的文本生成而在摘要中得到了广泛的应用。意义建构的总结涉及信息压缩和洞察提取。意义建构任务中的人工指导可以对大语言模型的相关信息进行优先排序和聚类。然而，用户必须将他们的认知思维转化为自然语言才能与大语言模型进行交流。我们能否使用更具可读性和可操作性的视觉表征来指导意义建构的总结过程？因此，我们建议在大语言模型生成之前引入一个中间步骤——用于人类意义建构的示意性视觉工作空间，以引导和完善总结过程。我们进行了一系列概念验证实验，以研究 GPT-4 通过可视化工作空间增强摘要的潜力。利用带有真实摘要的文本意义构建数据集，我们评估了人类生成的视觉工作空间对大语言模型生成的数据集摘要的影响，并评估了空间引导摘要的有效性。我们对典型人类工作空间中的几种可提取信息进行了分类，这些信息可以注入到设计提示中以指导大语言模型总结。结果表明，此类工作空间如何帮助大语言模型与事实真相保持一致，从而获得比没有工作空间更准确的总结结果。

Galaxy 作为增强遗传学实验室临床诊断的用户友好型生物信息学工具的评估

分类： 人机交互

作者： Hadi Almohab, Ramzy Al-Othmany

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17253v1

摘要： 生物信息学平台通过促进基因组数据分析显着改变了临床诊断，从而推进个性化医疗并改善患者护理。本研究探讨了 Galaxy 平台在临床诊断实验室中的集成、使用模式、挑战和影响。我们采用收敛并行混合方法设计，从对 15 名不同临床角色的参与者进行结构化访谈中收集定量调查数据和定性见解。调查结果表明 Galaxy 得到了广泛采用，参与者对其用户友好的界面以及工作流程效率和诊断准确性的显着改进表示高度满意。还确定了数据安全和培训需求等挑战，凸显了该平台在简化复杂数据分析任务方面的作用。这项研究有助于了解 Galaxy 在临床实践中的变革潜力，并提供优化其集成和功能的建议。这些见解对于推进临床诊断和提高患者治疗效果至关重要。

复数：通过模拟社交团体指导大语言模型的系统

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互, 多代理系统

作者： Joshua Ashkinaze, Emily Fry, Narendra Edara, Eric Gilbert, Ceren Budak

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17213v1

摘要： 最近的争论引起了人们的担忧，即语言模型可能支持某些观点。但是，如果解决方案不是以“无处可去的观点”为目标，而是利用不同的观点呢？我们引入了 Plurals，一个用于多元人工智能审议的系统和 Python 库。 Pplurals 由代理人（大语言模型，可选角色）组成，他们在可定制的结构中进行审议，并由主持人监督审议。复数是模拟社会整体的生成器。 Plurals 与政府数据集集成，创建具有全国代表性的人物角色，包括受民主审议理论启发的审议模板，并允许用户在结构中自定义信息共享结构和审议行为。六个案例研究证明了理论结构和功效的忠实度。三项随机实验表明，模拟焦点小组产生的输出与相关受众的在线样本产生共鸣（在 75% 的试验中选择零样本生成）。复数既是多元人工智能的范式，也是具体的体系。 Plurals 库可在 https://github.com/josh-ashkinaze/plurals 上获取，并将不断更新。

探索基于 NLP 的对话指示器在预测与大型语言模型系统交互的用户体验中的作用

分类： 人机交互

作者： Eason Chen

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17204v1

摘要： 对话系统中大型语言模型的使用正在增加，这提出了一个新的挑战：我们如何评估用户在这些系统中的聊天体验？利用自然语言处理 (NLP) 支持的对话分析器来创建连贯性和情感等对话指标，有可能预测聊天体验。在本文中，我们提出了一个概念模型来解释对话指标与与聊天体验相关的各种因素之间的关系，例如用户的意图、对对话代理的亲和力以及代理角色的提示。我们使用 PLS-SEM 与 120 名参与者一起评估了概念模型，发现它非常适合。我们的结果表明，对话指示器可以预测聊天体验并充分调节提示和用户意图的影响。此外，用户对代理的亲和力可以部分解释这些预测。我们的研究结果证明了使用对话指示器来预测聊天体验的潜力。通过我们提出的概念模型，研究人员可以应用对话分析器生成对话指示器，以持续监控对话过程并相应改善用户的聊天体验。

Textoshop：受绘图软件启发的交互，促进文本编辑

分类： 人机交互

作者： Damien Masson, Young-Ho Kim, Fanny Chevalier

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17088v1

摘要： 我们探索受绘图软件启发的交互如何帮助编辑文本。在视觉编辑和文本编辑之间进行类比，我们将单词视为像素，将句子视为区域，将色调视为颜色。例如，直接操作移动、缩短、扩展和重新排序文本；工具改变数字、时态和语法；颜色映射到色调选择器中沿三个维度探索的色调；图层有助于组织和版本文本。这种类比还导致了新的工作流程，例如对文本片段进行布尔运算以构造更详细的文本。一项研究表明，参与者在编辑文本方面更加成功，并且比现有解决方案更喜欢使用建议的界面。总的来说，我们的工作强调了交互类比重新思考现有工作流程的潜力，同时利用熟悉的功能。

迈向以用户为中心的以人为中心的可解释人工智能的训练数据归因研究

分类： 人机交互, 人工智能, 机器学习

作者： Elisa Nguyen, Johannes Bertram, Evgenii Kortukov, Jean Y. Song, Seong Joon Oh

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16978v1

摘要： 虽然可解释人工智能（XAI）的目标是让人工智能对人类易于理解和有用，但它因过于依赖形式主义和解决方案而受到批评，更多地关注数学的合理性而不是用户的需求。受设计思维的启发，我们提出了这种自下而上方法的替代方案：XAI 研究社区应采用自上而下、以用户为中心的视角，以确保用户相关性。我们用 XAI 的一个相对年轻的子领域——训练数据归因（TDA）来说明这一点。随着 TDA 研究的激增和竞争的加剧，该领域面临着重复相同解决方案主义模式的风险。我们与不同的人工智能从业者群体进行了一项需求调查研究，以确定与 TDA 相关的潜在用户需求。通过访谈 (N=10) 和系统调查 (N=31)，我们发现了目前在很大程度上被忽视的新 TDA 任务。我们邀请 TDA 和 XAI 社区考虑这些新颖的任务并提高其研究成果的用户相关性。

电粘附的触觉感知：直流与交流刺激和手指湿度的影响

分类： 人机交互

作者： Easa AliAbbasi, Muhammad Muzammil, Omer Sirin, Philippe Lefèvre, Ørjan Grøttem Martinsen, Cagatay Basdogan

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16936v1

摘要： 电粘附已成为一种在触摸表面（尤其是智能手机和平板电脑中的电容式触摸屏）上显示触觉反馈的可行技术。这涉及向触摸屏的导电层施加电压信号，以在用户的指腹上产生触觉。在我们的研究中，我们探索了直流和交流刺激下电粘附的触觉感知。我们对 10 名参与者进行的触觉感知实验表明，与直流信号相比，交流信号的电压检测阈值明显较低。这种差异可以通过手指和电压感应触摸屏之间的潜在机电相互作用来阐明，并考虑指垫中的机械感受器对电粘附产生的静电力的响应。此外，我们的研究强调了湿度对电粘附触觉感知的影响。手指湿润的参与者表现出明显更高的阈值水平。我们的电阻抗测量结果显示，当手指触摸屏界面出现汗水时，阻抗幅度会大幅降低，表明电导率增加。这些发现不仅有助于我们理解电粘附下的触觉感知，而且还揭示了基础物理学。在这方面，这项研究的结果超越了移动设备，涵盖了该技术的其他应用，包括机器人、自动化、太空任务和纺织品。

用于监考在线考试的人工智能辅助视线检测

分类： 人工智能, 人机交互

作者： Yong-Siang Shih, Zach Zhao, Chenhao Niu, Bruce Iberg, James Sharpnack, Mirza Basim Baig

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16923v1

摘要： 对于高风险的在线考试，检测潜在的违规行为以确保考试的安全性非常重要。在本研究中，我们研究了检测考生是否将目光从屏幕上移开的任务，因为这种行为可能表明考生正在咨询外部资源。对于异步监考，考试视频由监考人员录制和审查。然而，当考试时间较长时，监考人员观看整个考试视频以确定考生移开视线的确切时刻可能会很乏味。我们提出了一种人工智能辅助凝视检测系统，它允许监考人员在不同的视频帧之间导航，并发现考生看向相似方向的视频帧。该系统使监考人员能够更有效地识别视频中的可疑时刻。提出了一个评估框架来针对纯人类和纯机器学习监考来评估系统，并进行用户研究以收集监考人员的反馈，旨在证明系统的有效性。

跨语言语音情感识别：人类与自我监督模型

分类： 音频和语音处理, 人工智能, 计算和语言, 人机交互, 声音

作者： Zhichen Han, Tianqi Geng, Hui Feng, Jiahong Yuan, Korin Richmond, Yuanchao Li

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16920v1

摘要： 利用自我监督学习 (SSL) 模型进行语音情感识别 (SER) 已被证明是有效的，但探索跨语言场景的研究有限。本研究对人类表现和 SSL 模型进行了比较分析，首先进行了分层分析，并探索了单语言、跨语言和迁移学习环境中的参数高效微调策略。我们进一步比较模型和人类在话语和片段级别的 SER 能力。此外，我们还通过人工评估研究方言对跨语言 SER 的影响。我们的研究结果表明，通过适当的知识迁移，模型可以适应目标语言并达到与母语人士相当的性能。我们还证明了方言对没有语言和副语言背景的个体的 SER 的显着影响。此外，人类和模型在不同的情绪下表现出不同的行为。这些结果为 SSL 模型的跨语言 SER 功能提供了新的见解，强调了它们与人类情感感知的相似性和差异。

大语言模型的实践和社会基础路线图

分类： 机器人技术, 人工智能, 计算和语言, 人机交互, I.2.7; I.2.9; J.4; F.3.2; D.3.1

作者： Sara Incao, Carlo Mazzola, Giulia Belgiovine, Alessandra Sciutti

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16900v1

摘要： 大型语言模型 (LLM) 和机器人系统的融合带来了机器人领域的变革范式，不仅在通信领域提供了无与伦比的功能，而且在多模式输入处理、高级推理和计划生成等技能方面也提供了无与伦比的功能。将大语言模型知识扎根于实证世界被认为是发挥机器人学大语言模型效率的重要途径。然而，通过多模式方法或机器人的身体将大语言模型的表征与外部世界连接起来并不足以让他们理解他们正在操作的语言的含义。这项工作从人类身上汲取灵感，提请人们关注智能体掌握和体验世界的三个必要要素。大语言模型的基础路线图被设想为以主动身体系统作为体验环境的参考点，为与外部世界进行连贯、自我相关的互动而提供的时间结构化体验，以及获得共同基础的共享体验的社交技能。

在线对话促进中的机器人反向渠道：一项跨代研究

分类： 机器人技术, 计算和语言, 人机交互

作者： Sota Kobuki, Katie Seaborn, Seiki Tokunaga, Kosuke Fukumori, Shun Hidaka, Kazuhiro Tamura, Koji Inoue, Tatsuya Kawahara, Mihoko Otake-Mastuura

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16899v1

摘要： 日本面临着与老龄化社会相关的许多挑战，包括人口认知能力下降速度加快和护理人员短缺。人们已经开始努力探索使用人工智能（AI）的解决方案，特别是能够与人交流的社交智能代理和机器人。然而，关于这些药物与老年人在各种日常情况下的相容性的研究很少。为此，我们进行了一项用户研究，以评估充当旨在防止认知能力下降的群组对话协议的促进者的机器人。我们修改了机器人，使用反向通道（一种人类自然的说话方式）来提高机器人的接受能力和群体对话体验的享受。我们对年轻人和老年人进行了一项跨代研究。定性分析表明，年轻人认为反向渠道版本的机器人比非反向渠道机器人更友善、更值得信赖、更容易被接受。最后，我们发现机器人的反向沟通引发了年长参与者的非语言反向沟通。

闭环肌肉刺激中的代理感

分类： 人机交互

作者： Lukas Gehrke, Leonie Terfurth, Klaus Gramann

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16896v1

摘要： 为了在使用物理运动增强设备时保持用户的代理感 (SoA)，驱动必须符合用户的意图。在实验中，这通常是通过使用刺激-响应范例来实现的，其中可以对运动增强进行最佳定时。然而，在日常生活中，用户主要按照自己的意愿行事。我们设计了一个用于运动增强的闭环系统，使用基于脑电图的脑机接口（BCI）来提示用户有意识的手指敲击。依靠准备电位，系统在意图通过肌肉电刺激 (EMS) 进行交互时自动提示手指运动。该原型以平均 F1 分数 0.7 区分运动前和空闲 EEG 片段。然而，我们只发现了维持 SoA 的微弱证据。尽管如此，参与者报告说，在使用系统时有更高水平的控制，而不是被动移动。

包裹在 Anansi 的网络中：揭示生成式 AI 个性化和 VR 沉浸在口述故事中的影响

分类： 人机交互

作者： Ka Hei Carrie Lau, Bhada Yun, Samuel Saruba, Efe Bozkir, Enkelejda Kasneci

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16894v1

摘要： 由于现代媒体的主导地位，对文化认同至关重要的口头传统在年轻人中正在失去相关性。这项研究通过将年轻人与民间传说重新联系起来来复兴这些传统。我们推出 Anansi the Spider VR，这是一个新颖的虚拟空间，它将第一人称虚拟现实 (VR) 与生成人工智能 (Gen-AI) 驱动的叙事个性化相结合。这个空间让用户沉浸在阿纳西蜘蛛的故事中，使他们能够影响叙事，因为他们将自己想象为“主角”，从而增强了个人反思。在一项有 48 名参与者参与的 2 x 2 受试者间研究中，我们采用混合方法来衡量用户参与度和兴趣变化，并辅以半结构化访谈，提供有关个性化和沉浸感的定性见解。我们的结果表明，VR 中的个性化显着提高了参与度和文化学习兴趣。我们建议未来使用 VR 和 Gen-AI 振兴口头故事讲述的研究优先考虑尊重文化完整性并尊重原创故事讲述者和社区。

量化 GAM 形状图的视觉属性：对感知认知负荷和可解释性的影响

分类： 人机交互, 机器学习

作者： Sven Kruschel, Lasse Bohlen, Julian Rosenberger, Patrick Zschech, Mathias Kraus

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16870v1

摘要： 广义加性模型 (GAM) 在机器学习的性能和可解释性之间提供了平衡。 GAM 的可解释性通过形状图来表达，代表模型的决策过程。然而，这些图的视觉特性，例如扭结的数量（局部最大值和最小值的数量）可能会影响其复杂性和施加给观看者的认知负担，从而影响可解释性。我们的研究包括 57 名参与者，调查了 GAM 形状图的视觉特性与其引起的认知负荷之间的关系。我们根据 144 个图来量化形状图的各种视觉属性，并评估它们与参与者感知的认知负荷的一致性。我们的结果表明，扭结数指标是最有效的，可以解释 86.4% 的用户评分差异。我们开发了一个基于扭结数量的简单模型，它提供了一种预测认知负荷的实用工具，无需用户直接参与即可评估 GAM 可解释性的一个方面。

对 Modqueue 进行建模：理解和改进 Reddit 上的报告分辨率

分类： 人机交互

作者： Tanvi Bajpai, Eshwar Chandrasekharan

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16840v1

摘要： Reddit 等平台采用的审核流程分为三个常见阶段：规则创建、报告/分类和报告解决。虽然前两个阶段在人机交互中得到了充分研究，但第三阶段仍然有待探索。直接观察报告的解决情况具有挑战性，因为它需要使用主持人可能会感到不舒服的侵入性跟踪工具。然而，评估这一阶段的现状对于改善审核结果至关重要，尤其是在在线社区不断发展的情况下。在本文中，我们提出了一种通过建模和模拟来研究报告解析的非侵入性方法。使用基于代理的建模，我们使用理论驱动的措施来分析 Reddit 上报告解决的性能，并使用我们的结果来激励干预措施。然后，我们强调通过采取这些干预措施可以获得的潜在改进。最后，我们讨论了如何使用建模和模拟来导航报告解析等流程，并为新的审核干预措施的设计提供信息。

Spacewalker：遍历表示空间以实现非结构化数据的快速交互式探索和注释

分类： 计算机视觉和模式识别, 人机交互, 信息检索

作者： Lukas Heine, Fabian Hörst, Jana Fragemann, Gijs Luijten, Miriam Balzer, Jan Egger, Fin Bahnsen, M. Saquib Sarfraz, Jens Kleesiek, Constantin Seibold

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16793v1

摘要： 医疗保健、金融和制造等行业的非结构化数据对高效分析和决策提出了重大挑战。检测这些数据中的模式并了解其影响至关重要，但如果没有合适的工具，就会变得很复杂。传统上，这些任务依赖于数据分析师的专业知识或劳动密集型的手动审查。为此，我们推出了 Spacewalker，这是一种交互式工具，旨在跨多种模式探索和注释数据。 Spacewalker 允许用户提取数据表示并在低维空间中可视化它们，从而能够检测语义相似性。通过广泛的用户研究，我们评估了 Spacewalker 在数据注释和完整性验证方面的有效性。结果表明，该工具遍历潜在空间和执行多模式查询的能力显着增强了用户快速识别相关数据的能力。此外，Spacewalker 的注释速度远远优于传统方法，使其成为有效导航非结构化数据和改进决策过程的有前途的工具。这项工作的代码是开源的，可以在以下位置找到：https://github.com/code-lukas/Spacewalker

“它完美地解释了我目前正在经历的事情”：了解用户对大语言模型增强叙事干预的看法

分类： 人机交互

作者： Ananya Bhattacharjee, Sarah Yi Xu, Pranav Rao, Yuchen Zeng, Jonah Meyerhoff, Syed Ishtiaque Ahmed, David C Mohr, Michael Liut, Alex Mariakakis, Rachel Kornfield, Joseph Jay Williams

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16732v1

摘要： 关于克服个人挣扎的故事可以有效地说明心理学理论在现实生活中的应用，但它们可能无法与个人的经历产生共鸣。在这项工作中，我们采用大型语言模型（LLM）来创建定制的叙述，承认并解决个人面临的独特的具有挑战性的想法和情况。我们的研究涉及两种环境中的 346 名年轻人，结果表明，大语言模型增强的故事在传达关键要点、促进反思和减少对消极想法的信念方面比人类编写的故事更好。这些故事不仅被认为更具有相关性，而且与人类撰写的故事同样真实，凸显了大语言模型在帮助年轻人应对困境方面的潜力。这项工作的结果为未来基于叙事的数字心理健康干预措施提供了关键的设计考虑因素，例如需要保持相关性而不转向难以置信，以及完善人工智能增强内容的措辞和语气。

人工智能让你变得更聪明，但并没有变得更明智：表现与元认知之间的脱节

分类： 人机交互

作者： Daniela Fernandes, Steeven Villa, Salla Nicholls, Otso Haavisto, Daniel Buschek, Albrecht Schmidt, Thomas Kosch, Chenxinran Shen, Robin Welsch

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16708v1

摘要： 优化人机交互需要用户批判性地反思自己的表现。我们的研究考察了使用人工智能完成任务的人们是否可以准确地监控他们的表现。参与者（N = 246）使用人工智能解决了法学院入学考试中的 20 道逻辑问题。虽然与正常人群相比，他们的任务绩效提高了 3 个百分点，但参与者高估了自己的绩效 4 个百分点。有趣的是，较高的人工智能素养与较低准确的自我评估有关。拥有更多人工智能技术知识的参与者在判断自己的表现时更加自信，但不太精确。使用计算模型，我们探索了元认知准确性的个体差异，并发现通常在此任务中观察到的邓宁-克鲁格效应随着人工智能的使用而不再存在。我们讨论人工智能如何平衡我们的认知和元认知表现，并考虑性能高估的后果，以设计增强认知的交互式人工智能系统。

通过人类概念学习和认知理论支持自适应机器教学

分类： 人机交互

作者： Simret Araya Gebreegziabher, Yukun Yang, Elena L. Glassman, Toby Jia-Jun Li

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16561v1

摘要： 交互式机器学习的一个重要挑战，特别是在主观或模糊领域，是促进人类和模型之间的双向协调。用户通过数据标签向模型传授概念定义，同时在整个过程中完善自己的理解。为了实现这一目标，我们引入了 MOCHA，这是一种基于人类概念学习和认知两种理论的交互式机器学习工具。首先，它利用神经符号管道来支持基于变异理论的反事实数据生成。通过要求用户注释在语法和语义上与已注释数据相似但预测具有不同标签的反例，系统可以更有效地学习，同时帮助用户理解模型并反思自己的标签定义。其次，MOCHA利用结构对齐理论呈现多组反例，帮助用户理解数据项之间可对齐的差异并批量注释它们。我们通过 18 名参与者的实验室研究验证了 MOCHA 的有效性和可用性。

NoTeeline：支持大型语言模型的关键点实时笔记

分类： 人机交互

作者： Faria Huq, Abdus Samee, David Chuan-en Lin, Xiaodi Alice Tang, Jeffrey P. Bigham

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16493v1

摘要： 视频已成为信息共享和消费的流行媒体形式。然而，在观看视频时做笔记需要大量的时间和精力。为了解决这个问题，我们提出了一种新颖的交互系统 NoTeeline，用于实时、个性化笔记。 NoTeeline 可以让用户快速记下关键点（微笔记），这些要点会自动扩展为完整的笔记，捕捉用户微笔记的内容，并与用户的写作风格保持一致。在一项受试者内部研究 (N=12) 中，我们发现 NoTeeline 可以帮助用户创建高质量的笔记，以更高的事实正确性 (93.2%) 捕捉微笔记的精髓，同时准确反映他们的写作风格。与手动记笔记基线相比，使用 NoTeeline 时，参与者的脑力劳动显着减少，记下满意笔记的文字数量减少了 47%，完成记笔记的时间减少了 43.9%。

基于门的量子计算的用户友好界面的交互技术

分类： 人机交互, 系统与控制, 系统与控制

作者： Hyeok Kim, Kaitlin N. Smith

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16475v1

摘要： 量子计算机为各个领域提供了有前景的方法。为了使用当前有噪声的量子计算机，开发人员需要检查逻辑电路的编译、可用硬件的状态以及结果中的噪声。由于这些任务在经典计算中不太常见，量子开发人员可能不熟悉执行它们。因此，需要更简单、更直观的界面来使量子计算机变得更加平易近人。虽然现有的基于笔记本的工具包（例如 Qiskit）提供了应用程序编程接口和可视化技术，但仍然很难驾驭量子程序设计和硬件状态的广阔空间。受数据科学和可视化领域人机交互（HCI）工作的启发，我们的工作引入了四种用户交互技术，可以增强现有的基于笔记本的工具包，以实现基于门的量子计算：（1）电路编写器，让用户可以提供高级别有关电路的信息并生成代码片段来构建它； (2) 机器浏览器，提供硬件的详细属性和配置以及加载所选信息的代码； (3) 电路查看器，可以比较逻辑电路、编译电路和硬件配置； (4) 通过硬件错误率调整测量结果的可视化。

大语言模型偏见的全面调查：当前形势和未来方向

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互

作者： Rajesh Ranjan, Shailja Gupta, Surya Narayan Singh

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16430v1

摘要： 大型语言模型 (LLM) 通过提供前所未有的文本生成、翻译和理解功能，彻底改变了自然语言处理 (NLP) 领域的各种应用。然而，它们的广泛部署引发了人们对这些模型中嵌入的偏见的严重担忧。本文对大语言模型中的偏见进行了全面调查，旨在对与这些偏见相关的类型、来源、影响和缓解策略进行广泛的回顾。我们系统地将偏见分为几个维度。我们的调查综合了当前的研究结果，并讨论了现实应用中偏差的影响。此外，我们严格评估现有的偏见缓解技术，并提出未来的研究方向，以增强大语言模型的公平性和公平性。这项调查为关注解决和理解大语言模型偏见的研究人员、从业者和政策制定者提供了基础资源。

超越文本到文本：使用主题建模的多模态和生成式人工智能教育概述

分类： 人工智能, 人机交互, I.2; K.3.0

作者： Ville Heilala, Roberto Araya, Raija Hämäläinen

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16376v1

摘要： 生成人工智能（GenAI）可以重塑教育和学习。虽然像 ChatGPT 这样的大型语言模型 (LLM) 在当前的教育研究中占主导地位，但文本到语音和文本到图像等多模态功能的探索较少。本研究使用主题建模来绘制教育领域多模式和生成式人工智能的研究前景。使用 Dimensions.ai 进行广泛的文献检索，得出 4175 篇文章。采用主题建模方法，提取潜在主题，产生 38 个可解释的主题，分为 14 个主题领域。调查结果表明，教育背景下人们主要关注文本到文本模型，而其他模式尚未得到充分探索，忽视了多模式方法的更广泛潜力。结果表明存在研究差距，强调了不同人工智能模式和教育水平之间更加平衡的关注的重要性。总之，本研究概述了生成式人工智能在教育领域的当前趋势，强调了未来探索多模式技术以充分实现人工智能在教育领域的变革潜力的机会。

在事物中看到面孔：幻想性视错觉模型和数据集

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 信息检索, 机器学习

作者： Mark Hamilton, Simon Stent, Vasha DuTell, Anne Harrington, Jennifer Corbett, Ruth Rosenholtz, William T. Freeman

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16143v1

摘要： 人类视觉系统经过精心调整，可以检测各种形状和大小的面部。虽然这带来了明显的生存优势，例如有更好的机会在灌木丛中发现未知的捕食者，但它也会导致虚假的面部检测。 “面部幻想性错觉”描述了在随机刺激中对面部结构的感知：看到咖啡渍中的面部或天空中的云彩。在本文中，我们从计算机视觉的角度研究面部空想性视错觉。我们提出了一个“事物中的面孔”的图像数据集，由五千张带有人类注释的幻想面孔的网络图像组成。使用该数据集，我们检查了最先进的人脸检测器表现出空想性视错觉的程度，并发现人类和机器之间存在显着的行为差距。我们发现，人类在进化过程中需要检测动物面孔以及人类面孔，这可能在一定程度上解释了这一差距。最后，我们提出了图像中空想性视错觉的简单统计模型。通过对人类受试者和我们的空想性面部检测器的研究，我们确认了我们的模型关于哪些图像条件最有可能诱发空想性幻想的关键预测。数据集和网站：https://aka.ms/faces-in-things

健康领域的数字化转型：人工智能如何提高卫生系统的绩效

分类： 机器学习, 人工智能, 计算机与社会, 人机交互

作者： África Periáñez, Ana Fernández del Río, Ivan Nazarov, Enric Jané, Moiz Hassan, Aditya Rastogi, Dexian Tang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16098v1

摘要： 移动医疗有可能彻底改变医疗保健服务和患者参与。在这项工作中，我们讨论如何将人工智能集成到数字健康应用程序中（重点关注供应链、患者管理和能力建设等用例），从而改善卫生系统和公共卫生绩效。我们提出了一个人工智能和强化学习平台，允许提供适应性干预措施，其影响可以通过实验和实时监控来优化。该系统可以集成多个数据源和数字健康应用程序。该平台可以灵活地连接到各种移动医疗应用程序和数字设备，并根据过去的数据和预测发送个性化建议，可以显着提高数字工具对卫生系统结果的影响。特别讨论了资源匮乏环境中这种方法对健康结果的影响可能更具决定性的潜力。然而，该框架同样适用于提高不存在短缺问题的卫生系统的效率。

跨主题 fNIRS 情绪识别的在线多级对比表示蒸馏

分类： 人机交互, 人工智能

作者： Zhili Lai, Chunmei Qing, Junpeng Tan, Wanxiang Luo, Xiangmin Xu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16081v1

摘要： 利用功能性近红外光谱 (fNIRS) 信号进行情绪识别是理解人类情绪的重大进步。然而，由于该领域人工智能数据和算法的缺乏，目前的研究面临以下挑战：1）便携式可穿戴设备对轻量化模型有更高的要求； 2）不同主体之间生理、心理的客观差异加剧了情绪识别的难度。为了应对这些挑战，我们提出了一种新颖的跨主题 fNIRS 情感识别方法，称为在线多级对比表示蒸馏框架（OMCRD）。具体来说，OMCRD 是一个专为多个轻量级学生网络之间相互学习而设计的框架。它对每个子网络使用多级 fNIRS 特征提取器，并使用生理信号进行多视图情感挖掘。所提出的主体间交互对比表示（IS-ICR）促进了学生模型之间交互的知识转移，增强了跨主体情感识别性能。可以选择最佳的学生网络并将其部署在可穿戴设备上。一些实验结果表明，OMCRD 在情感感知和情感意象任务中取得了最先进的结果。

使用虚拟现实作为增强现实虚拟窗口的模拟工具：对认知工作负载和任务性能的影响

分类： 人机交互, 图形

作者： Tianyu Liu, Weiping He, Mark Billinghurst

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16037v1

摘要： 增强现实（AR）应用中的虚拟内容可以根据设计者的要求构建，但真实环境却很难被准确控制或完全再现。这使得很难为某些真实环境制作 AR 应用程序原型。解决这个问题的一种方法是使用虚拟现实 (VR) 来模拟 AR 系统，从而能够设计受控实验并进行可用性评估。然而，利用VR模拟AR的有效性尚未得到很好的研究。在本文中，我们报告了一项用户研究 (N=20)，该研究旨在调查使用 AR 的 VR 模拟对参与者的任务表现和认知工作量 (CWL) 的影响。参与者在使用虚拟显示器的 AR 场景中执行多项办公任务，然后在 VR 模拟的 AR 场景中再次执行。使用接口时，通过脑电图 (EEG) 数据和主观问卷来测量 CWL。结果表明，频繁地目视键盘会导致任务绩效下降并增加认知工作量。这项研究发现，以虚拟显示器为中心的AR可以有效地利用VR进行模拟。然而，还有更多的研究可以做，因此我们还报告了研究的局限性和未来工作的方向。

弥合透明度差距：探索多利益相关者对有针对性的广告解释的偏好

分类： 人机交互

作者： Dina Zilbershtein, Francesco Barile, Daan Odijk, Nava Tintarev

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15998v1

摘要： 在线内容交付平台上定向广告的透明度有限可能会导致观众（内容和广告）和广告商的不信任。这项用户研究 (n=864) 探讨了定向广告的解释如何弥合这一差距，从而提高两个关键利益相关者的透明度。我们探索参与者对解释的偏好，并允许他们定制内容和格式。参与者作为观众或广告商，选择在解释中包含有关观看习惯和用户数据的详细信息。参与者不仅对解释中包含个人数据表示担忧，还对在广告投放中使用个人数据表示担忧。令人惊讶的是，我们发现两组选择包含在解释中的特征没有显着差异。此外，两个群体总体上都表现出很高的满意度，而“广告商”认为解释比“观众”明显更加透明。此外，我们观察到实验两个阶段之间个人数据的使用以及解释中呈现的特征存在显着差异。这项研究还深入了解了参与者对如何呈现解释的偏好以及他们对广告实践和数据使用的假设。这项研究通过强调在线平台上观众和广告商之间的独特动态，拓宽了我们对透明广告实践的理解，并建议在广告投放和创建解释的过程中应考虑观众的优先事项。

创造良性摩擦：确定利益相关者对工作推荐解释的要求

分类： 人机交互, 人工智能

作者： Roan Schellingerhout, Francesco Barile, Nava Tintarev

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15971v1

摘要： 主要通过职位推荐系统 (JRS) 在招聘中越来越多地使用信息检索，这会对求职者、招聘人员和公司产生巨大影响。因此，最近的立法机构已确定此类系统具有高风险。这要求 JRS 值得信赖且透明，让利益相关者能够了解提出具体建议的原因。为了满足这一要求，需要确定利益相关者的确切偏好和需求。为此，我们使用现实的、基于任务的混合设计用户研究 (n=30) 评估了一个可解释的工作推荐系统，其中利益相关者必须根据模型的解释做出决策。这种混合方法评估包括两个客观指标——正确性和效率，以及三个主观指标——信任、透明度和有用性。每个参与者对这些指标进行两次评估，一次使用真实解释，一次使用随机解释。该研究包括在执行适合每个利益相关者群体的任务时遵循有声思考协议的定性分析。我们发现，向利益相关者提供真实的解释并不能显着提高决策速度和准确性。我们的结果显示，在所有利益相关者类型的系统感知信任、有用性和透明度方面，真实解释优于随机解释的趋势并不显着。我们确定，利益相关者从与解释的互动中获益更多，因为解释是能够提供健康摩擦的决策支持，而不是之前假设的说服工具。

DepMamba：用于多模式抑郁症检测的渐进式融合 Mamba

分类： 计算机与社会, 计算机视觉和模式识别, 人机交互

作者： Jiaxin Ye, Junping Zhang, Hongming Shan

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15936v1

摘要： 抑郁症是一种常见的精神疾病，影响着全世界数百万人。尽管前景广阔，但当前的多模态方法依赖于对齐或聚合的多模态融合，存在两个显着的局限性：（i）低效的远程时间建模，以及（ii）模态间融合和模内处理之间的次优多模态融合。在本文中，我们提出了一种用于多模式抑郁症检测的视听渐进融合 Mamba，称为 DepMamba。 DepMamba 有两个核心设计：分层上下文建模和渐进式多模态融合。一方面，分层建模引入卷积神经网络和 Mamba 来提取长范围序列中的局部到全局特征。另一方面，渐进融合首先提出多模态协作状态空间模型（SSM），提取每种模态的模态间和模态内信息，然后利用多模态增强的 SSM 进行模态凝聚。对两个大规模抑郁症数据集的广泛实验结果表明，我们的 DepMamba 比现有最先进的方法具有优越的性能。代码可在 https://github.com/Jiaxin-Ye/DepMamba 获取。

基于示例的交互式解释可提高卫生专业人员使用人工智能进行人机协作决策的能力

分类： 人机交互, 人工智能, 机器学习

作者： Min Hun Lee, Renee Bao Xuan Ng, Silvana Xinyi Choo, Shamala Thilarajah

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15814v1

摘要： 越来越多的研究探索人工智能解释在用户决策阶段的使用，以实现人机协作决策。然而，之前的研究发现了过度依赖“错误”人工智能输出的问题。在本文中，我们提出了基于示例的交互式解释，以提高医疗专业人员对人工智能的了解，以便他们在人工智能辅助决策过程中更好地依赖人工智能。我们实施了一个基于人工智能的决策支持系统，该系统利用神经网络来评估中风后幸存者练习的质量和基于交互式示例的解释，系统地显示来自人工智能训练集的测试/任务样本的最近邻域模型来帮助用户使用人工智能模型。为了调查基于示例的交互式解释的效果，我们与领域专家、卫生专业人员进行了一项研究，以评估他们的表现和对人工智能的依赖。与在决策支持期间仅提供基于特征的解释相比，我们在入职期间基于交互式示例的解释帮助医疗专业人员更好地依赖人工智能，并做出更高比例的“正确”决策和更低的“错误”决策比例阶段。我们的研究讨论了协助用户使用人工智能进行人机协作决策的新挑战。

大车型时代智能座舱开发与评价研究

分类： 人机交互

作者： Jun Ma, Meng Wang, Jinhui Pang, Haofen Wang, Xuejing Feng, Zhipeng Hu, Zhenyu Yang, Mingyang Guo, Zhenming Liu, Junwei Wang, Siyi Lu, Zhiming Gou

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15795v1

摘要： 人工智能（AI）大模型的发展对汽车智能座舱的应用发展影响很大。智能座舱与大模型的融合发展成为行业用户体验新的增长点，这也给相关学者、从业者和用户对用户体验和能力特征的理解和评价带来了难题。智能座舱大型模型（ICLM）。本文旨在分析智能座舱、大模型和AI Agent的现状，揭示智能座舱与大模型融合应用研究的重点，并为评估的后续发展提出必要的限制。汽车 ICLM 能力和用户体验系统。本文提出的评价体系P-CAFE主要从认知架构、用户体验、大模型的能力特征等领域提出感知、认知、行动、反馈和进化五个维度作为一级指标，选择了许多满足当前应用现状和研究热点的二级指标。经过专家评审，确定了指标权重，建立了P-CAFE指标体系。最后，基于模糊层次分析构建了完整的评价方法。将为汽车ICLM的应用和评估奠定坚实的基础，并为未来ICLM的发展和完善提供参考。

现场模式：生成人工智能驱动的角色通过拟人化叙事改变艺术参与

分类： 人机交互

作者： Yongming Li, Hangyue Zhang, Andrea Yaoyun Cui, Zisong Ma, Yunpeng Song, Zhongmin Cai, Yun Huang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15769v1

摘要： 艺术欣赏是情感交流和社会文化对话的重要媒介。在数字时代，培养在线艺术欣赏平台上的深度用户参与仍然是一个挑战。利用生成式人工智能技术，我们推出了 EyeSee，这是一个旨在通过拟人化角色吸引用户的系统。我们在两个会话中实现并评估了三种模式（叙述者、艺术家和现场），分别充当第三人称叙述者、第一人称创建者和第一人称创建的对象：叙述和推荐。我们对 24 名参与者进行了一项受试者内研究。在叙述会话中，我们发现原位和艺术家模式比叙述者模式具有更高的审美吸引力，尽管艺术家模式的感知可用性较低。此外，从叙述到推荐环节，我们发现每种交互模式中用户感知的相关性和可信度都保持不变，但用户感知的一致性和刻板印象发生了变化。我们的研究结果提出了将拟人化现场叙事应用于其他教育环境的新含义。

使用大语言模型改善基于文本的社区安全报告中的情感支持传递

分类： 人机交互, 人工智能

作者： Yiren Liu, Yerong Li, Ryan Mayfield, Yun Huang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15706v1

摘要： 情感支持是事件报告期间社区成员和警察调度员之间沟通的一个重要方面。然而，人们对如何通过基于文本的系统提供情感支持缺乏了解，特别是在各种非紧急情况下。在这项研究中，我们分析了两年的聊天日志，其中包含来自 130 个高等教育机构的 8,239 起事件的 57,114 条消息。我们的实证研究结果显示，调度员提供的情感支持存在显着差异，受到事件类型、服务时间的影响，并且多个组织的支持随着时间的推移明显下降。为了提高情感支持的一致性和质量，我们开发并实施了一个微调的大型语言模型（LLM），名为dispatcherLLM。我们通过将其生成的响应与使用真实聊天消息的人类调度员和其他现成模型的响应进行比较来评估 DispatcherLLM。此外，我们还进行了人工评估，以评估 DispatcherLLM 提供的支持的感知有效性。这项研究不仅为基于文本的调度系统中的情感支持提供了新的实证理解，而且还证明了生成式人工智能在改善服务交付方面的巨大潜力。

PolicyCraft：通过基于案例的审议支持协作和参与性政策设计

分类： 人机交互

作者： Tzu-Sheng Kuo, Quan Ze Chen, Amy X. Zhang, Jane Hsieh, Haiyi Zhu, Kenneth Holstein

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15644v1

摘要： 社区和组织政策通常以自上而下、集中的方式设计，受影响的利益相关者的投入有限。这可能会导致政策与社区需求不一致或被视为非法。我们如何支持更具协作性、参与性的政策设计方法？在本文中，我们提出了PolicyCraft，这是一个通过基于案例的审议构建协作政策设计的系统。过去的研究强调具体案例在建立共识方面的价值，PolicyCraft 支持用户通过案例讨论和投票来协作提出、批评和修改政策。对两所大学课程的实地研究表明，与使用不支持具体案例使用的基线系统的学生相比，使用 PolicyCraft 的学生达成了更大的共识，并制定了更好支持的课程政策。反思我们的发现，我们讨论了未来 HCI 系统的机会，以帮助团体更有效地在抽象政策和具体案例之间建立桥梁。

像人类一样识别：第一人称射击游戏下一代反作弊框架的探路者

分类： 密码学和安全, 人工智能, 人机交互, 机器学习

作者： Jiayi Zhang, Chenxin Sun, Yue Gu, Qingyu Zhang, Jiayi Lin, Xiaojiang Du, Chenxiong Qian

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14830v1

摘要： 游戏行业经历了大幅增长，但在线游戏中的作弊行为对游戏体验的完整性构成了重大威胁。作弊，尤其是第一人称射击 (FPS) 游戏中的作弊，可能会给游戏行业带来巨大损失。现有的反作弊解决方案存在局限性，例如客户端硬件限制、安全风险、服务器端方法不可靠、双方都缺乏全面的真实数据集。为了解决这些限制，本文提出了 HAWK，这是一款针对流行游戏 CS:GO 的服务器端 FPS 反作弊框架。 HAWK利用机器学习技术来模仿人类专家的识别过程，利用新颖的多视图功能，并配备了明确定义的工作流程。作者使用第一个包含多种作弊类型和作弊复杂程度的大型真实数据集来评估 HAWK，它表现出有希望的效率和可接受的开销，与正在使用的反作弊相比，禁令时间更短，体力劳动显着减少，以及抓获逃避官方检查的作弊者的能力。

Persona-L 已加入讨论：利用大语言模型和基于能力的框架来构建具有复杂需求的人的角色

分类： 人机交互

作者： Lipeipei Sun, Tianzi Qin, Anran Hu, Jiale Zhang, Shuojia Lin, Jianyan Chen, Mona Ali, Mirjana Prpa

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15604v1

摘要： 我们提出了 Persona-L，这是一种使用大型语言模型 (LLM) 和基于能力的框架创建角色的新颖方法，专门用于改善具有复杂需求的用户的表示。传统的人物角色创建方法往往无法准确描述复杂需求的动态和多样性，从而导致人物形象过于简单化或刻板化。 Persona-L 使用户能够通过聊天界面创建角色并与之交互。 Persona-L 通过与用户体验设计师 (N=6) 的访谈进行评估，我们检查了它在反映具有复杂需求的人们的生活体验的复杂性方面的有效性。我们报告的研究结果表明，Persona-L 有潜力增强对复杂需求的同理心和理解，同时还揭示了角色创建中使用的数据透明度的必要性、语言和语气的作用，以及提供更平衡的需求展示有限制的能力。

QUB-PHEO：基于视觉的二元多视图数据集，用于协作组装中的意图推理

分类： 计算机视觉和模式识别, 人机交互, 图像和视频处理, 信号处理

作者： Samuel Adebayo, Seán McLoone, Joost C. Dessing

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15560v1

摘要： QUB-PHEO 引入了基于视觉的二元数据集，具有推进装配操作和意图推理方面的人机交互 (HRI) 研究的潜力。该数据集捕获了两个参与者之间丰富的多模式交互，其中一个参与者充当“机器人代理”，跨越各种组装任务，这些任务进一步分解为 36 个不同的子任务。 QUB-PHEO 具有丰富的视觉注释，例如 70 名参与者的面部标志、凝视、手部动作、物体定位等，提供两个版本：50 名参与者的完整视频数据和所有 70 名参与者的视觉提示。旨在改进机器学习模型对于 HRI 来说，QUB-PHEO 能够更深入地分析微妙的交互线索和意图，有望对该领域做出贡献。根据最终用户许可协议 (EULA)，该数据集将在 https://github.com/exponentialR/QUB-PHEO 上提供。

交谈、倾听、联系：在人机交互中发挥同理心

分类： 人机交互, F.2.2; I.2.7

作者： Mahnaz Roshanaei, Rezvaneh Rezapour, Magy Seif El-Nasr

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15550v1

摘要： 社交互动可以促进幸福感，但地理距离和心理健康状况等挑战可能会限制面对面的参与。人工智能代理的进步正在转移沟通，特别是在心理健康领域，人工智能聊天机器人提供了可访问的、非评判性的支持。然而，一个关键的挑战是这些系统如何有效地表达同理心，这对于以人为本的设计至关重要。目前的研究突显了人们在理解人工智能如何真正传达同理心方面存在差距，特别是在焦虑、抑郁和孤独等问题增加的情况下。我们的研究通过比较人与人与人与人工智能交互中的同理心表达来关注这一差距。使用个人叙述和统计分析，我们检查人类和人工智能（包括 GPT-4o 和模型的微调版本）引发的同理心水平。这项工作旨在增强人工智能驱动的同理心的真实性，有助于未来设计更可靠、更有效的心理健康支持系统，以促进有意义的社会互动。

从我们的实验室到他们的家：从老年人的纵向实地研究中学到的东西

分类： 人机交互

作者： Amama Mahmood, Chien-Ming Huang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15495v1

摘要： 在老年人的家庭环境中进行研究带来了与传统实验室研究显着不同的独特机遇和挑战。在本文中，我们分享了长达一年的研究活动的经验，旨在通过纵向部署、访谈、共同设计研讨会和评估研究来设计和评估老年人的对话语音助手。我们讨论了将实验室搬到家中的好处，包括产生现实和情境互动、建立更牢固的研究人员与参与者之间的联系，以及随着时间的推移使参与者随着研究的发展而成长。我们还详细介绍了研究过程各个方面遇到的困难，包括招募、日程安排、后勤、遵循研究方案和研究结束。这些知识凸显了针对老年人的纵向家庭研究的复杂性但有益的性质，为未来旨在实现现实世界适用性的研究提供了经验教训。

用于健康自我管理的语音助手：为老年人设计并与老年人一起设计

分类： 人机交互

作者： Amama Mahmood, Shiye Cao, Maia Stiber, Victor Nikhil Antony, Chien-Ming Huang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15488v1

摘要： 支持老年人进行健康自我管理对于促进独立老龄化至关重要，特别是考虑到医疗保健系统的压力日益增大。虽然语音助手 (VA) 具有支持就地养老的潜力，但它们往往缺乏量身定制的帮助，并带来可用性挑战。我们通过与老年人一起开发个人健康助理的五阶段设计过程来解决这些问题。从家庭访谈（N=17）开始，我们确定了老年人健康自我管理的两个主要挑战：健康意识和医疗依从性。为了应对这些挑战，我们开发了一个由大语言模型支持的高保真 VA 原型，用于汇报医生的就诊记录并生成量身定制的用药提醒。我们根据协同设计研讨会 (N=10) 的反馈完善了我们的原型，并通过家庭研究 (N=5) 验证了其可用性。我们的工作突出了个人健康助理的关键设计特征，并提供了对理想的 VA 特征的更广泛的见解，包括个性化、适应用户环境以及尊重用户自主权。

EvAlignUX：通过大语言模型支持的评估指标探索推进用户体验研究

分类： 人机交互

作者： Qingxiao Zheng, Minrui Chen, Pranav Sharma, Yiliu Tang, Mehul Oswal, Yiren Liu, Yun Huang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15471v1

摘要： 在人工智能的复杂性、不可预测性和生成性的背景下评估用户体验提出了独特的挑战。人机交互学者缺乏足够的工具支持来围绕不同的评估指标构建知识并制定全面的用户体验评估计划。在本文中，我们介绍了 EvAlignUX，这是一个以科学文献为基础、由大型语言模型 (LLM) 提供支持的创新系统，旨在帮助 HCI 学者探索评估指标及其与潜在研究成果的关系。一项涉及 19 名 HCI 学者的用户研究表明，EvAlignUX 显着提高了他们评估建议的感知清晰度、特异性、可行性和整体质量。 EvAlignUX 的使用增强了参与者的思维过程，从而创建了一个可用于指导用户体验评估开发的问题库。此外，研究人员的背景对其感知灵感的影响以及对过度依赖人工智能的担忧凸显了人工智能在培养批判性思维方面的作用的未来研究方向。

迈向具有双虚拟空间的预测性扩展现实远程操作系统

分类： 机器人技术, 人机交互

作者： Ziliang Zhang, Cong Liu, Hyoseung Kim

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15464v1

摘要： 与传统的 2D 控制相比，扩展现实 (XR) 为远程操作机器人提供了更直观的交互方法。最近的研究为 XR 的可用远程操作奠定了基础，但由于用户运动和代理反馈之间存在较大延迟，它无法完成需要快速运动和精确操作的任务。在这项工作中，我们分析了最先进的 XR 远程操作系统中的端到端延迟，并提出了通过实施双虚拟空间设计以及本地化用户中的代理和对象来优化延迟的想法侧虚拟空间，同时使用来自代理侧虚拟空间的周期性地面实况姿势进行校准。

GenAI 广告：与大语言模型进行个性化广告的风险

分类： 人机交互

作者： Brian Jay Tang, Kaiwen Sun, Noah T. Curran, Florian Schaub, Kang G. Shin

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15436v1

摘要： 大型语言模型的最新进展使得高效的聊天机器人的创建成为可能，该机器人可以作为定向广告的平台。本文研究了聊天机器人中向用户提供个性化广告的风险。受到人工智能公司类似尝试的启发，我们开发了一个聊天机器人，将个性化产品广告嵌入到大语言模型回复中。我们的基准测试表明，广告注入影响了某些 LLM 属性性能，特别是响应意愿。我们对 179 名参与者进行了一项受试者间实验，使用无广告、未标记的定向广告和标记的定向广告的聊天机器人。结果显示，参与者很难检测到聊天机器人广告，并且未标记的广告聊天机器人响应的评分较高。然而，一旦披露，参与者发现大语言模型回复中嵌入的广告的使用具有操纵性、不太可信且具有侵入性。参与者尝试通过聊天界面而不是披露来更改他们的隐私设置。我们的研究结果凸显了将广告融入聊天机器人响应中的道德问题

墙壁大小的显示器上混合呈现协作的工作空间意识需求

分类： 人机交互

作者： Adrien Coppens, Lou Schwartz, Valérie Maquil

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15244v1

摘要： 为了增强大型显示器混合出席会议的工作空间意识，之前的工作提出了共享手势、目光或整个姿势的数字提示。虽然这些线索在水平或较小的工作空间中被证明是有用的，但工作重点是受控环境中的孤立元素。目前尚不清楚更现实的环境会出现什么需求，以及如何通过工作空间意识线索来满足这些需求。在本文中，我们报告了焦点小组的结果，该焦点小组以用户的感知为中心，同时在墙壁大小的显示器上测试混合存在场景。我们使用 Gutwin 和 Greenberg 的工作空间意识框架分析收集到的评论，以确定最相关的需求。我们的研究结果对墙壁大小的展示的原始框架进行了细化，特别是将工作空间意识组件分为三种类型：（i）环境，（ii）行动和（iii）注意力。

MACeIP：智慧城市中的多模式环境丰富智能平台

分类： 人工智能, 新兴技术, 人机交互

作者： Truong Thanh Hung Nguyen, Phuc Truong Loc Nguyen, Monica Wachowicz, Hung Cao

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15243v1

摘要： 本文提出了一个用于智慧城市的多模式环境丰富智能平台（MACeIP），这是一个旨在增强城市管理和公民参与的综合系统。我们的平台集成了先进技术，包括物联网（IoT）传感器、边缘计算和云计算以及多模态人工智能，以创建响应灵敏的智能城市生态系统。主要组件包括用于公民互动的互动中心、广泛的物联网传感器网络、智能公共资产管理、行人监控系统、城市规划门户和云计算系统。我们在几个城市展示了 MACeIP 的原型，重点是新不伦瑞克省的弗雷德里克顿。这项工作通过提供可扩展、高效且以用户为中心的城市智能和管理方法，为创新城市发展做出贡献。

来自多个 RGB-D 传感器的骨骼数据匹配和合并，用于房间规模的人类行为跟踪

分类： 人机交互

作者： Adrien Coppens, Valérie Maquil

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15242v1

摘要： 提供房间规模人类行为跟踪的一种流行且经济实惠的选择是依赖商用 RGB-D 传感器 %todo：例如 Kinect 系列设备？因为此类设备以合理的价格提供人体跟踪功能。虽然它们的功能可能足以满足人们在电视机前玩的娱乐系统等应用，但 RGB-D 传感器对物体或其他人的遮挡很敏感，这些物体或其他人可能会妨碍更复杂的房间规模设置。为了缓解遮挡问题，同时也为了扩大跟踪范围并增强其准确性，可以依赖多个RGB-D传感器并进行数据融合。不幸的是，以有意义的方式融合数据带来了额外的挑战，这些挑战涉及传感器相对于彼此的校准以提供共同的参考系，而且还涉及实际组合数据时的骨架匹配和合并。在本文中，我们讨论了应对这些挑战的方法，并展示了我们通过对齐点云和组合骨架列表所取得的成果。这些结果成功地实现了房间规模的不显眼且具有遮挡弹性的人类行为跟踪，可用作交互式应用程序以及（可能是远程）协作系统的输入。

PALLM：使用大型语言模型评估和增强姑息治疗对话

分类： 计算和语言, 人机交互

作者： Zhiyuan Wang, Fangxu Yuan, Virginia LeBaron, Tabor Flickinger, Laura E. Barnes

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15188v2

摘要： 有效的医患沟通对于临床护理至关重要，直接影响患者的治疗结果和生活质量。传统的评估方法，例如人工评级、患者反馈和提供者自我评估，通常受到高成本和可扩展性问题的限制。尽管现有的自然语言处理 (NLP) 技术显示出前景，但它们难以应对临床沟通的细微差别，并且需要敏感的临床数据进行训练，从而降低了其在实际应用中的有效性。新兴的大语言模型（LLM）提供了一种评估复杂通信指标的新方法，有可能通过集成到被动传感和即时干预系统中来推进该领域的发展。本研究探讨了大语言模型作为姑息治疗沟通质量的评估者，利用他们的语言、情境学习和推理能力。具体来说，使用由医疗保健专业人员制作和标记的模拟脚本，我们测试专有模型（例如 GPT-4），并使用 GPT-4 生成的合成数据集对开源 LLM（例如 LLaMA2）进行微调，以评估临床对话，确定“理解”和“同理心”等关键指标。我们的研究结果证明了大语言模型在评估临床沟通、提供可操作的推理反馈以及证明开发内部大语言模型的可行性和实际可行性方面表现出色。这项研究强调了大语言模型在增强患者与提供者互动方面的潜力，并为开发大语言模型授权的临床医疗系统的下游步骤奠定了基础。

CamLoPA：通过信号传播路径分析的隐藏无线摄像机定位框架

分类： 密码学和安全, 人机交互

作者： Xiang Zhang, Jie Zhang, Zehua Ma, Jinyang Huang, Meng Li, Huan Yan, Peng Zhao, Zijian Zhang, Qing Guo, Tianwei Zhang, Bin Liu, Nenghai Yu

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15169v1

摘要： 隐藏的无线摄像头构成严重的隐私威胁，需要有效的检测和定位方法。然而，现有的解决方案通常需要宽敞的活动区域、昂贵的专用设备或预先收集的训练数据，限制了它们的实际部署。为了解决这些限制，我们引入了 CamLoPA，这是一种无需训练的无线摄像头检测和定位框架，可使用低成本商用现成 (COTS) 设备在最小的活动空间限制下运行。 CamLoPA 可以使用 Raspberry Pi 板在短短 45 秒内实现用户活动的检测和定位。在这段时间内，它分析无线流量和用户移动之间的因果关系，以检测窥探摄像头的存在。检测后，CamLoPA 采用基于无线信号传播路径分析的新型方位角定位模型。具体来说，该模型利用穿过第一菲涅耳区 (FFZ) 的用户路径的时间比率来确定相机的方位角。然后 CamLoPA 通过识别相机的象限来完善定位。我们在各种设备和环境中对 CamLoPA 进行了评估，结果表明，在活动空间要求显着降低的情况下，它的窥探相机检测精度达到 95.37%，平均定位误差为 17.23。我们的演示可在 https://www.youtube.com/watch?v=GKam04FzeM4 上获取。

评估大语言模型在威胁情报丰富方面的可用性

分类： 密码学和安全, 计算和语言, 人机交互, 机器学习

作者： Sanchana Srikanth, Mohammad Hasanuzzaman, Farah Tasnur Meem

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15072v1

摘要： 大型语言模型 (LLM) 有潜力通过自动收集、预处理和分析威胁数据来显着增强威胁情报。然而，这些工具的可用性对于确保安全专业人员有效采用它们至关重要。尽管大语言模型拥有先进的能力，但对其可靠性、准确性和产生不准确信息的可能性的担忧仍然存在。本研究对五位大语言模型 ChatGPT、Gemini、Cohere、Copilot 和 Meta AI 进行了全面的可用性评估，重点关注其用户界面设计、错误处理、学习曲线、性能以及与现有威胁情报丰富工具的集成。利用启发式演练和用户研究方法，我们确定关键的可用性问题并提供可行的改进建议。我们的研究结果旨在弥合大语言模型功能和用户体验之间的差距，从而通过确保这些工具用户友好且可靠来促进更高效、更准确的威胁情报实践。

沉浸在我的想法中：利用虚拟现实和多模态交互将用户的想法和想法可视化

分类： 人机交互

作者： Yunhao Xing, Jerrick Ban, Timothy D. Hubbard, Michael Villano, Diego Gomez-Zara

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15033v1

摘要： 本文介绍了 VIVRA（语音交互虚拟现实注释），这是一种将多模态交互与大语言模型 (LLM) 相结合的 VR 应用程序，可将用户的想法转化为交互式 3D 可视化。 VIVRA 将口头表达的想法转化为“想法气球”，对大语言模型检测到的主题进行总结和扩展。 VIVRA 允许用户实时表达他们的想法或记录他们的想法以便稍后显示主题。我们通过一项有 29 名参与者的探索性研究和一项有 10 名参与者的用户研究评估了 VIVRA 的有效性。我们的结果表明，VIVRA 增强了用户反思和发展想法的能力，实现了高水平的满意度、可用性和参与度。参与者认为 VIVRA 是探索个人想法和想法的反思工具。我们讨论了该应用程序的潜在优势和用途，强调了将沉浸式技术与大语言模型相结合以创建强大的构思和反思工具的潜力。

InterMind：大语言模型赋能的医患家庭互动抑郁评估系统

分类： 人机交互

作者： Zhiyuan Zhou, Jilong Liu, Sanwang Wang, Shijie Hao, Yanrong Guo, Richang Hong

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14878v1

摘要： 抑郁症给患者和医疗机构带来了重大挑战，需要有效的评估方法。现有的范式通常侧重于患者与医生的方式，忽视了多角色互动，例如家庭参与评估和护理过程。此外，当前的自动抑郁症检测（ADD）方法通常将抑郁症检测建模为分类或回归任务，缺乏对决策过程的可解释性。为了解决这些问题，我们开发了 InterMind，这是一个由大语言模型 (LLM) 支持的医患家庭互动抑郁症评估系统。我们的系统使患者和家属能够提供描述，为医生生成辅助诊断报告，并提供可操作的见解，从而提高诊断精度和效率。为了提高大语言模型在心理咨询和诊断可解释性方面的表现，我们整合了检索增强生成（RAG）和思想链（CoT）技术进行数据增强，在指令微调后减轻了大语言模型在特定场景下的幻觉问题。临床医生的定量实验和专业评估验证了我们系统的有效性。

MentalImager：探索生成图像以协助在线心理健康社区中寻求支持者的自我表露

分类： 人机交互

作者： Han Zhang, Jiaqi Zhang, Yuxiang Zhou, Ryan Louie, Taewook Kim, Qingyu Guo, Shuailin Li, Zhenhui Peng

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14859v1

摘要： 寻求支持者在帖子中自我披露他们的痛苦经历、想法和感受可以帮助他们在在线心理健康社区 (OMHC) 中获得所需的同伴支持。然而，这种心理健康自我表露可能具有挑战性。图像可以方便地在文本中表现相关的经历和感受；然而，相关图像并不总是可用。在本文中，我们提出了一个名为 MentalImager 的技术原型，并在人类评估研究中验证了它可以根据搜索者起草的帖子或指定的关键字生成主题和情感相关的图像。两项用户研究表明，MentalImager 不仅提高了寻求者对帖子中自我表露的满意度，而且还激发了支持提供者对寻求者的同理心和提供帮助的意愿。这些改进归功于生成的图像，这些图像帮助寻求者表达他们的情感并激励他们添加更多关于他们的经历和感受的细节。我们报告对 MentalImager 的担忧并讨论支持 OMHC 自我披露的见解。

大语言模型看待用户角色的方式

分类： 人机交互

作者： Swaroop Panda

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14858v1

摘要： 近年来获得巨大关注的大型语言模型 (LLM) 也可用作大型结构化数据存储库。用户角色是人机交互中重要且广泛使用的方法。本研究旨在调查大语言模型作为数据存储库的角色如何解释用户角色。我们特别关注印度背景下的人物角色，试图了解大语言模型如何解释这种特定于文化的人物角色。为了实现这一目标，我们进行定量和定性分析。这种多方面的方法使我们能够初步了解大语言模型在印度背景下对人物角色的解释能力。

“我感觉自己如此渺小！”：基于 Sublime 相关理论设计和评估 VR 敬畏体验

分类： 人机交互

作者： Zhiting He, Min Fan, Xinyi Guo, Yifan Zhao, Yuqiu Wang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14853v1

摘要： 研究表明，利用虚拟现实技术可以引发敬畏体验，从而促进幸福感。基于与崇高和体现相关的理论，我们设计了三个 VR 场景来评估崇高和体现设计元素在唤起敬畏体验方面的有效性。我们对 28 名体验了三种 VR 设计的年轻人进行了一项受试者内研究。结果表明，与没有崇高元素的 VR 设计相比，具有崇高元素的 VR 设计显着引发了更强烈的敬畏体验，而添加具体元素并没有增强敬畏的强度。定性访谈揭示了唤起敬畏体验的关键设计元素（例如，晦涩的事件应该是合理的）及其潜在机制（例如，导致启蒙的感觉）。我们进一步讨论了设计有效的、令人惊叹的 VR 应用程序的考虑因素和影响。

用于决策支持系统的可解释且以人为本的人工智能：认知准伙伴关系理论

分类： 人工智能, 新兴技术, 人机交互, K.4.1; H.5.2; H.4.2; J.7; J.4

作者： John Dorsch, Maximilian Moll

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14839v1

摘要： 在人工智能决策支持系统（AI-DSS）的背景下，我们认为满足道德和可解释人工智能（XAI）的要求就是开发AI-DSS，为人类决策者提供三种基于人性化的解释：、反事实和置信度，我们将这种方法称为 RCC 方法。我们首先回顾当前的实证 XAI 文献，这些文献研究了生成模型解释的各种方法（例如 LIME、SHAP、Anchors）、模型的感知可信度和最终用户准确性之间的关系。我们展示了当前关于什么是良好的人性理由的理论要么无法充分解释这一证据，要么无法为发展提供合理的道德建议。因此，我们提出了一种新颖的人机交互理论：认知准伙伴关系理论（EQP）。最后，我们激励采用 EQP 并演示它如何解释经验证据、提供合理的道德建议以及如何采用 RCC 方法。

AIM 2024 视频显着性预测挑战：方法和结果

分类： 计算机视觉和模式识别, 人机交互, 多媒体, I.4.6; I.2.10

作者： Andrey Moskalenko, Alexey Bryncev, Dmitry Vatolin, Radu Timofte, Gen Zhan, Li Yang, Yunlong Tang, Yiting Liao, Jiongzhi Lin, Baitao Huang, Morteza Moradi, Mohammad Moradi, Francesco Rundo, Concetto Spampinato, Ali Borji, Simone Palazzo, Yuxin Zhu, Yinan Sun, Huiyu Duan, Yuqin Cao, Ziheng Jia, Qiang Hu, Xiongkuo Min, Guangtao Zhai, Hao Fang, Runmin Cong, Xiankai Lu, Xiaofei Zhou, Wei Zhang, Chunyu Zhao, Wentao Mu, Tao Deng, Hamed R. Tavakoli

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14827v1

摘要： 本文回顾了 AIM 2024 上的视频显着性预测挑战赛。参与者的目标是开发一种方法，为所提供的一组视频序列预测准确的显着性图。显着性图在各种应用中得到广泛利用，包括视频压缩、质量评估、视觉感知研究、广告行业等。在本次比赛中，使用了之前未使用的大规模视听鼠标显着性 (AViMoS) 数据集，其中包含 1500 个视频，其中包含更多内容每个视频通过众包鼠标追踪收集了超过 70 名观察者。数据集收集方法已经使用传统的眼动追踪数据进行了验证，并表现出高度的一致性。超过30支队伍报名参加挑战赛，其中7支队伍在决赛阶段提交了成绩。最终阶段的解决方案在私有测试子集上根据常用的质量指标进行了测试和排名。本报告介绍了评估结果和解决方案的描述。所有数据，包括私人测试子集，均在挑战主页上公开 - https://challenges.videoprocessing.ai/challenges/video-saliency-prediction.html。

神经折射率场：释放背景导向纹影断层扫描在体积流可视化中的潜力

分类： 流体动力学, 人机交互, 机器学习

作者： Yuanzhe He, Yutao Zheng, Shijie Xu, Chang Liu, Di Peng, Yingzheng Liu, Weiwei Cai

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14722v1

摘要： 背景导向纹影断层扫描 (BOST) 是一种用于可视化复杂湍流的流行方法，因其易于实施且能够捕获多个流动参数的三维分布而受到重视。然而，基于体素的网格划分方案带来了重大挑战，例如空间分辨率不足、离散化误差大、抗噪性差以及计算成本过高。这项工作提出了一种称为神经折射率场（NeRIF）的创新重建方法，它用神经网络隐式地表示流场，并使用定制策略进行训练。湍流本生火焰的数值模拟和实验演示表明，我们的方法可以显着提高重建精度和空间分辨率，同时减少计算费用。虽然这里是在面向背景的纹影断层扫描的背景下展示的，但 NeRIF 中嵌入的关键思想可以很容易地适应各种其他断层扫描模式，包括断层吸收光谱和断层颗粒成像测速，从而扩大了其在流可视化和流场可视化的不同领域的潜在影响。分析。

S2O：一种桥接主观感受与客观评价的综合驾驶决策绩效评价方法

分类： 机器人技术, 人机交互

作者： Yuning Wang, Zehong Ke, Yanbo Jiang, Jinhao Li, Shaobing Xu, John M. Dolan, Jianqiang Wang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14680v1

摘要： 自动驾驶决策是智能交通系统的关键模块之一，如何全面、准确地评估驾驶性能是一个重大挑战。带有偏见的评估会误导并阻碍决策的修改和发展。目前的规划评估指标包括与真实驾驶员轨迹的偏差和客观的驾驶体验指标。前一类并不一定表明良好的驾驶性能，因为人类驾驶员也会犯错误，并且已被证明在交互式闭环系统中无效。另一方面，现有的客观驾驶体验模型只考虑了有限的因素，缺乏全面性。而且各种因素的整合机制依赖于直观经验，缺乏精确性。在本研究中，我们提出了S2O，一种新颖的综合决策评估方法，将人类主观感受与客观评估联系起来。首先，建立安全性、时间效率、舒适性和能源效率四种驱动因素的修正基本模型，以涵盖常见的驱动因素。然后在分析人类评分分布规律的基础上，设计了分段线性拟合模型并结合互补的SVM分段分类器，通过客观驱动因素项来表达人类的主观评分。实验在 D2E 数据集上进行，其中包括大约 1,000 个驾驶案例和 40,000 个人类评分。结果表明，S2O 在百分比范围内实现了 4.58 的平均绝对误差。与基线相比，评估误差降低了32.55%。 SUMO平台上的实现证明了在线评估的实时效率，并对三种自动驾驶规划算法的性能评估进行了验证，证明了可行性。

图像的可记忆性增强了社交媒体的病毒式传播

分类： 人机交互, 计算工程、金融和科学, 社交和信息网络, J.4

作者： Shikang Peng, Wilma A. Bainbridge

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14659v1

摘要： 某些社交媒体内容可以实现广泛的病毒式传播。先前的研究已经发现，情感和道德可能在这一现象中发挥作用。然而，由于这些因素的主观认知存在差异，它们可能无法一致地预测病毒式传播。最近在视觉和记忆方面的研究已经确定了图像固有的属性——可记忆性——可以自动驱动人类记忆。在这里，我们通过分析广泛使用的社交媒体平台 Reddit 的自然数据集，提出了可记忆性可以增强社交媒体病毒式传播的证据。具体来说，我们发现更令人难忘的图像（由神经网络 ResMem 自动判断）会引起更多评论和更高的点赞，并且这种效果会在三个不同的时间点复制。为了揭示这种效应的机制，我们采用自然语言处理技术，发现令人难忘的图像往往会引起抽象且不那么情绪化的评论。利用对象识别神经网络，我们发现令人难忘的图像会导致针对图像外部信息的评论，这使得它们更加抽象。对 ResMem 神经网络内的表示进行量化的进一步分析表明，具有更多语义特征的图像更容易被记住，因此更有可能像病毒一样传播。这些发现表明，更容易记住的图像变得更加病毒式传播，从而提供了新的未来方向，例如创建内容病毒式传播的预测模型或应用这些见解来增强有影响力的视觉内容的设计。

Scideator：基于研究论文方面重组的人类大语言模型科学思想生成

分类： 人机交互, 人工智能, H.5.2, I.2

作者： Marissa Radensky, Simra Shahid, Raymond Fok, Pao Siangliulue, Tom Hope, Daniel S. Weld

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14634v1

摘要： 科学构思过程通常涉及融合现有论文的突出方面以创造新的想法。为了了解大型语言模型 (LLM) 是否可以协助这一过程，我们贡献了 Scideator，这是一种用于科学构思的新型混合主动工具。从用户提供的一组论文开始，Scideator 从这些论文和相关论文中提取关键方面（目的、机制和评估），允许用户通过交互式重新组合方面来探索想法空间，以综合创造性的想法。 Scideator 还可以通过搜索文献中潜在的重叠部分并显示自动的新颖性评估和解释来帮助用户衡量想法的新颖性。为了支持这些任务，Scideator 引入了四个由 LLM 支持的检索增强生成 (RAG) 模块：Analogous Paper Facet Finder、Faceted Idea Generator、Idea Novelty Checker 和 Idea Novelty Iterator。在一项受试者内部用户研究中，19 名计算机科学研究人员使用 Scideator 发现了比将科学搜索引擎与大语言模型互动相结合的强大基线更有趣的想法。

行人过街行为建模：一种具有感觉运动约束的强化学习方法

分类： 人机交互

作者： Yueyang Wang, Aravinda Ramakrishnan Srinivasan, Yee Mun Lee, Gustav Markkula

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14522v1

摘要： 了解行人行为对于在城市环境中安全部署自动驾驶汽车 (AV) 至关重要。传统的行人行为模型通常分为两类：机械模型，不能很好地推广到复杂的环境；机器学习模型，通常忽略影响人类行为的感觉运动约束，因此在未经训练的场景中容易失败。我们假设感觉运动约束是人类如何感知周围环境并与周围环境互动的基础，对于现实模拟至关重要。因此，我们引入了一种约束强化学习（RL）模型来模拟行人的交叉决策和运动。它只能模仿人类的感觉机制，具有嘈杂的视觉感知和迫在眉睫的厌恶感。此外，通过步行的生物力学模型纳入了人类运动约束。我们从人机交互实验中收集数据来了解行人的行为。研究结果揭示了现有行人模型未解决的几个现象，即行人如何调整其行走速度以适应接近车辆的运动学和行为。我们的模型成功地捕捉了这些类似人类的步行速度模式，使我们能够将这些模式理解为时间压力和步行努力之间的权衡。重要的是，该模型保留了重现先前由模型的简单版本捕获的各种现象的能力。此外，还包括与外部人机界面和光照条件相关的现象。总的来说，我们的结果不仅证明了约束强化学习在行人行为建模中的潜力，而且还强调了感觉运动机制在行人与车辆交互建模中的重要性。

AI写作还有救吗？通过编辑减轻写作过程中的特质并改善人类与人工智能的一致性

分类： 计算和语言, 计算机与社会, 人机交互

作者： Tuhin Chakrabarty, Philippe Laban, Chien-Sheng Wu

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14509v2

摘要： 基于大语言模型的应用程序正在帮助人们写作，大语言模型生成的文本正在进入社交媒体、新闻和我们的课堂。然而，大语言模型生成的文本和人类编写的文本之间的差异仍不清楚。为了探索这一点，我们聘请了专业作家来编辑几个创意领域的段落。我们首先发现这些作者对大语言模型生成的文本中的不良特质达成一致，将其形式化为七类分类法（例如陈词滥调、不必要的阐述）。其次，我们策划了 LAMP 语料库：由专业作家根据我们的分类法编辑的 1,057 个 LLM 生成的段落。 LAMP 分析表明，我们研究中使用的大语言模型（GPT4o、Claude-3.5-Sonnet、Llama-3.1-70b）在写作质量方面没有一个优于彼此，揭示了模型系列之间的共同局限性。第三，我们探索了自动编辑方法来改进大语言模型生成的文本。大规模的偏好注释证实，尽管专家在很大程度上更喜欢其他专家编辑的文本，但自动编辑方法在改善大语言模型生成的文本和人工编写的文本之间的一致性方面表现出了希望。

挑战性能与可解释性权衡：可解释机器学习模型的评估

分类： 机器学习, 人工智能, 人机交互, 神经和进化计算

作者： Sven Kruschel, Nico Hambauer, Sven Weinzierl, Sandra Zilker, Mathias Kraus, Patrick Zschech

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14429v1

摘要： 机器学习正在渗透到每一个可以想象的领域，以促进数据驱动的决策支持。由于假定的性能优势，人们的注意力通常集中在先进的黑盒模型上，而可解释的模型通常与较差的预测质量相关。然而，最近提出了新一代广义加性模型 (GAM)，它为捕获复杂的非线性模式提供了有前景的特性，同时保持完全可解释性。为了揭示这些模型的优点和局限性，本研究基于二十个表格基准数据集的集合，检查了七种不同的 GAM 与七种常用机器学习模型的预测性能。为了确保公平和稳健的模型比较，进行了广泛的超参数搜索与交叉验证相结合，结果进行了 68,500 次模型运行。此外，这项研究定性地检查了模型的视觉输出，以评估其可解释性水平。基于这些结果，本文通过证明表格数据的预测性能和模型可解释性之间不存在严格的权衡，消除了只有黑盒模型才能实现高精度的误解。此外，本文还讨论了 GAM 作为信息系统领域强大的可解释模型的重要性，并从社会技术角度得出对未来工作的影响。

定义新视角：企业信息治理

分类： 数据库, 人机交互, 软件工程

作者： Alastair McCullough

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14388v1

摘要： 本文提出了监管企业信息治理的新颖定义，即作为一个战略框架，通过控制机制发挥作用，旨在确保管理组织中信息和数据资产决策权的责任。这个新的务实定义同时考虑了实践者和学者的观点。它以早期的定义为基础，采取新颖且更明确的监管方法，并为此类治理综合了新的定义；将其视为大型或复杂组织的可扩展监管框架，从这个新角度将治理视为这个日益关键的领域中的业务架构或目标运营模型。本文支持并促进学术思考和进一步研究。它着眼于信息和数据的定义；与信息和数据相关的战略；数据管理；企业架构；治理、治理作为一种战略努力的性质，以及构成此类治理基础的战略和战术政策和标准的性质。

为新手程序员评估大型语言模型生成的代码注释的质量

分类： 软件工程, 人工智能, 人机交互

作者： Aysa Xuemo Fan, Arun Balajiee Lekshmi Narayanan, Mohammad Hassany, Jiaze Ke

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14368v1

摘要： 大型语言模型 (LLM) 在为新手程序员生成代码注释方面表现出了良好的前景，但其教育效果仍然被低估。本研究评估了 GPT-4、GPT-3.5-Turbo 和 Llama2 生成的代码注释的教学质量，与专家开发的注释进行比较，重点关注它们对新手的适合性。通过分析 LeetCode 的“简单”级 Java 解决方案数据集，我们发现 GPT-4 在对初学者至关重要的方面（例如清晰度、初学者友好性、概念阐明和分步）表现出与专家评论相当的质量指导。 GPT-4 在讨论复杂性方面优于 Llama2（卡方 = 11.40，p = 0.001），并且被认为比 GPT-3.5 和 Llama2 对初学者更有支持，Mann-Whitney U 统计量 = 300.5 和 322.5，p = 0.0017 和0.0003）。这项研究强调了大语言模型在生成适合新手程序员的代码注释方面的潜力。

MobileViews：大规模移动 GUI 数据集

分类： 人机交互

作者： Longxi Gao, Li Zhang, Shihe Wang, Shangguang Wang, Yuanchun Li, Mengwei Xu

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14337v1

摘要： 移动屏幕助手通过解释移动屏幕并响应用户请求来帮助智能手机用户。移动屏幕上过多的私人信息需要小型设备模型来为这些助手提供支持。然而，缺乏全面、大规模、多样性高的移动屏幕数据集来训练和增强这些模型。为了有效地构建这样的数据集，我们利用 LLM 增强的自动应用程序遍历工具来最大限度地减少人为干预。然后，我们使用两个 SoC 集群来提供高保真移动环境，其中包括 200 多个 Android 实例来并行应用程序交互。通过利用该系统收集超过 81,600 个设备小时的移动屏幕，我们推出了 MobileViews，这是最大的移动屏幕数据集，其中包括来自超过 20K 现代 Android 应用程序的超过 600K 屏幕截图-视图层次结构对。我们通过训练 SOTA 多模态 LLM 来展示 MobileViews 的有效性，该多模态 LLM 为移动屏幕助手提供支持，并且使用七年前推出的 Rico 数据集。移动屏幕任务的评估结果表明，MobileViews 中移动屏幕的规模和质量在增强移动屏幕助手方面比 Rico 具有显着优势。该数据集将完全开源。

创意作家对写作作为大型语言模型训练数据的态度

分类： 人机交互

作者： Katy Ilonka Gero, Meera Desai, Carly Schnitzler, Nayun Eom, Jack Cushman, Elena L. Glassman

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14281v1

摘要： 使用创意写作作为大型语言模型（LLMS）的训练数据是非常有争议的。虽然一些人认为这种使用构成“合理使用”，因此不需要同意或补偿，但另一些人则认为同意和补偿是道德上正确的做法。在本文中，我们试图了解创意作家如何推理他们的写作作为训练数据的真实或假设用途，以及在什么条件下（如果有的话）他们会同意使用他们的写作。我们采访了 33 名作家，他们的风格、出版方法、专业化程度以及对大语言模型的态度和参与程度各不相同。通过扎根的理论分析，我们报告了作者表达的核心原则，以及这些原则如何与他们对机构如何参与其工作的现实期望相矛盾。

块世界中的修复：使用多模态语言模型处理用户更正的新基准

分类： 计算和语言, 人机交互

作者： Javier Chiyah-Garcia, Alessandro Suglia, Arash Eshghi

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14247v1

摘要： 在对话中，收件人最初可能会误解说话者并做出错误的回应，这通常会促使说话者在下一回合中通过第三位置修复（TPR）来纠正误解。因此，在对话式人工智能系统中，处理和适当响应此类修复序列的能力至关重要。在本文中，我们首先收集、分析并公开发布 BlockWorld-Repairs：指令跟踪操作任务中的多模态 TPR 序列数据集，该任务在设计上充满了指称模糊性。我们利用该数据集来评估多个环境中最先进的视觉和语言模型 (VLM)，重点关注它们处理和准确响应 TPR 的能力，从而从沟通不畅中恢复。我们发现，与人类相比，所有模型在这项任务中的表现都明显不佳。然后，我们证明 VLM 可以在微调期间从针对相关代币的专门损失中受益，从而实现更好的性能和通用性。我们的结果表明，这些模型尚未准备好部署在维修很常见的多模式协作环境中，并强调需要设计有助于从交互中学习的培训制度和目标。

Mentigo：在创造性解决问题过程中指导学生的智能代理

分类： 人机交互, 68U35 (Primary), 68T50 (Secondary), H.5.2; K.3.1

作者： Siyu Zha, Yujia Liu, Chengbo Zheng, Jiaqi XU, Fuze Yu, Jiangtao Gong, Yingqing XU

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14228v1

摘要： 随着大型语言模型（LLM）在教育中的日益整合，人们越来越有兴趣使用人工智能代理来支持学生在创造性任务中的学习。本研究提出了一种名为 Mentigo 的交互式 Mentor Agent 系统，旨在帮助中学生创造性地解决问题（CPS）过程。我们创建了学生和导师之间真实课堂互动的综合数据集，其中包括结构化的 CPS 任务管理、多样化的指导技术、个性化的反馈机制。基于此数据集，我们为 Mentigo 系统创建代理工作流程。该系统的有效性通过12名学生的对比实验和5位专家老师的评审来评估。 Mentigo 系统在学生参与度和创造性成果方面表现出显着改善。研究结果为利用大语言模型支持 CPS 提供了设计启示，并为人工智能导师代理在教育环境中的应用提供了见解。

青少年性健康会话代理 (CA) 的当前趋势和未来方向：范围界定审查

分类： 人机交互

作者： Jinkyung Katie Park, Vivek Singh, Pamela Wisniewski

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14226v1

摘要： 会话代理（CA、聊天机器人）是能够使用自然人类对话与用户交互的系统。虽然许多关于性健康的 CA 的研究都集中在成年人群中，但此类研究的见解可能不适用于青少年的 CA。该研究旨在全面评估青少年性健康 CA 的最新研究成果。遵循系统评价和荟萃分析的首选报告项目 (PRISMA) 指南，我们综合了过去 14 年针对青少年性健康 CA 的同行评审研究。我们发现，大多数性健康 CA 旨在采用卫生专业人员的角色，为青少年提供一般性健康和生殖健康信息。文本是所有性健康 CA 的主要沟通方式，其中一半支持多媒体输出。许多性健康 CA 采用基于规则的技术来提供预先编写的性健康专家知识；然而，大多数性健康 CA 都没有适当的安全功能。虽然青年人赞赏有关性健康话题的非评判性和保密对话，但他们认为当前的性健康 CA 提供的性健康信息有限，不包括性和/或性别少数群体。我们的审查揭示了需要进一步开发和评估的性健康 CA，并确定了未来工作的多个重要领域。虽然基于大语言模型 (LLM) 的 CA 的新趋势可以使此类技术更加可行，但应优先考虑系统的隐私和安全。最后，需要与青少年一起并为青少年制定性健康 CA 的风险缓解和道德发展的最佳实践。

人类与人工智能协作风险注释：与 CHAIRA 共同注释在线不文明行为

分类： 人机交互

作者： Jinkyung Katie Park, Rahul Dev Ellezhuthil, Pamela Wisniewski, Vivek Singh

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14223v1

摘要： 人类与人工智能的协作注释是一种很有前途的方法，适用于处理大规模和复杂数据的各种任务。支持有效的人类与人工智能协作进行数据注释的工具和方法是一个重要的研究方向。在本文中，我们提出了 CHAIRA：一种协作式人类人工智能风险注释工具，使人类和人工智能代理能够协作注释在线不文明行为。我们利用大型语言模型 (LLM) 来促进人类和人工智能注释者之间的交互，并研究四种不同的提示策略。开发的 CHAIRA 系统将多种提示方法与人机协作相结合，用于在线不文明行为数据注释。我们根据人类和人工智能编码员之间的评估者间协议，对 457 条带有真实标签的用户评论进行了 CHAIRA 评估。我们发现，最具协作性的提示支持人类代理和人工智能之间的高度一致性，相当于两个人类编码员的一致性。虽然人工智能错过了人类编码员很容易识别的一些隐含的不文明行为，但它也发现了人类编码员忽视的政治上微妙的不文明行为。我们的研究揭示了使用人工智能代理进行不文明注释的好处和挑战，并为主观数据注释中的人机协作提供了设计启示和最佳实践。

航天程序的人工智能助手：将生成式预训练 Transformer 和知识图上的检索增强生成与增强现实提示相结合

分类： 人工智能, 人机交互, 68T01, 68T20, 68T30, 68T50, 68T05,, I.2; H.5

作者： Oliver Bensch, Leonie Bensch, Tommy Nilsson, Florian Saling, Bernd Bewer, Sophie Jentzsch, Tobias Hecking, J. Nathan Kutz

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14206v1

摘要： 本文介绍了智能个人助理 (IPA) CORE（研究与探索清单管理器）的功能和潜力，该智能个人助理旨在为宇航员在国际空间站 (ISS)、月球门户站及其他地方执行程序时提供支持。我们反思了能够离线操作的可靠且灵活的助手的重要性，并强调了使用增强现实元素直观显示清单信息的视听交互的有用性。我们认为，目前太空作战中 IPA 的设计方法未能满足这些标准。因此，我们建议 CORE 作为助手，结合知识图（KG）、用于生成预训练变压器（GPT）的检索增强生成（RAG）和增强现实（AR）元素，以确保对程序步骤的直观理解，响应方式和程序更新方面的可靠性、离线可用性和灵活性。

解决人类任务解决轨迹中的偏差并使其可视化

分类： 人工智能, 人机交互

作者： Sejin Kim, Hosung Lee, Sundong Kim

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14191v1

摘要： 人工智能模型训练的有效性取决于所使用轨迹数据的质量，特别是在使模型的决策与人类意图保持一致方面。然而，在人类解决任务的轨迹中，我们观察到人类意图与记录的轨迹之间存在显着的不一致，这可能会破坏人工智能模型的训练。本文通过提出一种可视化工具和一种旨在检测和分类轨迹数据差异的启发式算法来解决这些偏差的挑战。尽管启发式算法需要一组预定义的人类意图才能发挥作用，而我们目前无法提取这些意图，但可视化工具为这些偏差的本质提供了有价值的见解。我们预计消除这些错位可以显着提高轨迹数据在人工智能模型训练中的效用。我们还建议未来的工作应侧重于开发主题建模等方法，以从轨迹数据中准确提取人类意图，从而增强用户行为与人工智能学习过程之间的一致性。

对可能的未来进行三角测量：对多个未来而不是仅一个未来进行用户研究

分类： 人机交互

作者： Antti Salovaara, Leevi Vahvelainen

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14137v1

摘要： 关于期货的合理发现本质上是很难获得的，因为它们需要有数据支持的批判性、消息灵通的推测。人机交互通过用户研究来应对这一挑战，其中未来原型和其他道具为参与者具体化了可能的未来。通过观察参与者的行为，研究人员可以“时间旅行”到未来并看到它的动态。然而，一项研究可能会得出具体的结果，这是研究的复杂性所固有的，并且缺乏更广泛的可信度。我们建议，对可能的未来进行三角测量有助于研究人员将特殊性与具有更广泛合理性的发现分开。我们通过安排两项关于人工智能增强知识工作的不同未来的研究来探索这种方法。两项研究中都出现了一些发现，而另一些则仅针对其中一项研究。这使我们能够交叉验证其合理性并获得更深入的见解。我们讨论对可能的未来进行三角测量如何使人机交互研究更加面向未来，并提供更批判性地预测可能的未来的方法。

PoseAugment：基于 IMU 的运动捕捉的具有物理合理性的生成人体姿势数据增强

分类： 计算机视觉和模式识别, 人机交互

作者： Zhuojun Li, Chun Yu, Chen Liang, Yuanchun Shi

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14101v1

摘要： 数据稀缺问题是阻碍基于 IMU 的人体运动捕捉模型性能的关键因素。然而，基于 IMU 的运动捕捉的有效数据增强具有挑战性，因为它必须捕捉人体的物理关系和约束，同时保持数据分布和质量。我们提出了 PoseAugment，这是一种结合了基于 VAE 的姿势生成和物理优化的新型流程。给定一个姿势序列，VAE 模块生成具有高保真度和多样性的无限姿势，同时保持数据分布。物理模块优化姿势以满足物理约束和最小的运动限制。然后根据增强姿势合成高质量 IMU 数据，用于训练运动捕捉模型。实验表明，PoseAugment 在运动捕捉精度方面优于以前的数据增强和姿势生成方法，揭示了我们的方法在减轻基于 IMU 的运动捕捉和由人体姿势驱动的相关任务的数据收集负担方面的强大潜力。

LADICA：大型共享显示界面，用于在同地团队协作中提供生成式 AI 认知协助

分类： 人机交互

作者： Zheng Zhang, Weirui Peng, Xinyue Chen, Luke Cao, Toby Jia-Jun Li

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.13968v1

摘要： 大型共享显示器（例如数字白板）可帮助成员执行头脑风暴、组织想法和进行比较等认知任务，从而有助于支持同地团队协作。虽然大型语言模型 (LLM) 的最新进展促进了人工智能对这些显示器的支持，但大多数现有系统要么只提供有限的功能，要么削弱人类控制，忽视了自然群体动态的潜在好处。我们的形成性研究确定了团队遇到的认知挑战，例如多样化的想法、知识共享、相互意识、想法组织以及与外部工作空间的实时讨论的同步。为此，我们推出了 LADICA，这是一个大型共享显示界面，可帮助协作团队通过多个分析镜头集思广益、组织和分析想法，同时培养对想法和概念的相互认识。此外，LADICA 有助于从口头讨论中实时提取关键信息并识别相关实体。实验室研究证实了 LADICA 的可用性和实用性。

通过过度生成和排名探索大型语言模型的自动关键字助记符生成

分类： 计算和语言, 人机交互

作者： Jaewook Lee, Hunter McNichols, Andrew Lan

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.13952v1

摘要： 在本文中，我们研究了语言和词汇学习中一个尚未探索的领域：关键词助记符，这是一种通过言语提示与目标词建立令人难忘的关联来记忆词汇的技术。通常，创建语言提示需要大量的人力并且相当耗时，因此需要一种更具可扩展性的自动化方法。我们提出了一种新颖的过度生成和排名方法，通过提示大型语言模型（LLM）生成言语线索，然后根据心理语言学测量和试点用户研究的要点对它们进行排名。为了评估提示质量，我们对形象性和连贯性进行了自动评估，以及涉及英语教师和学习者的人工评估。结果表明，大语言模型生成的助记符在形象性、连贯性和感知有用性方面与人类生成的助记符相当，但由于语言学习者背景和偏好的多样性，仍有很大的改进空间。

SpaceBlender：通过生成 3D 场景混合创建上下文丰富的协作空间

分类： 人工智能, 人机交互

作者： Nels Numan, Shwetha Rajaram, Balasaravanan Thoravi Kumaravel, Nicolai Marquardt, Andrew D. Wilson

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13926v1

摘要： 人们对使用生成式 AI 为虚拟现实 (VR) 应用创建 3D 空间越来越感兴趣。然而，当今的模型产生了人工环境，无法支持受益于合并用户的物理环境的协作任务。为了生成支持 VR 远程呈现的环境，我们引入了 SpaceBlender，这是一种新颖的管道，利用生成式 AI 技术将用户的物理环境融合到统一的虚拟空间中。该管道通过迭代过程将用户提供的 2D 图像转换为上下文丰富的 3D 环境，该迭代过程包括深度估计、网格对齐和由几何先验和自适应文本提示引导的基于扩散的空间完成。在一项初步的受试者内研究中，20 名参与者两人一组执行协作 VR 亲和力绘图任务，我们将 SpaceBlender 与通用虚拟环境和最先进的场景生成框架进行比较，评估其创建适合的虚拟空间的能力为了合作。参与者赞赏 SpaceBlender 提供的增强的熟悉度和背景，但也注意到生成环境中的复杂性可能会分散任务重点。根据参与者的反馈，我们提出了改进管道的方向，并讨论了不同场景下混合空间的价值和设计。

眼见为实：散点图在推荐系统信任和决策中的作用

分类： 人机交互

作者： Bhavana Doppalapudi, Md Dilshadur Rahman, Paul Rosen

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13917v1

摘要： 推荐系统的准确性会影响他们使用推荐系统时的信任和决策。提供附加信息（例如可视化）可以提供原本会缺乏的上下文。然而，可视化在影响推荐系统的信任和决策方面的作用尚未得到充分探索。为了弥补这一差距，我们进行了一项由两部分组成的人体实验，以研究散点图对推荐系统决策的影响。我们的第一项研究侧重于高层决策，例如选择使用哪个推荐系统。第二项研究侧重于低级决策，例如同意或不同意特定建议。我们的结果显示，散点图伴随着更高水平的准确度影响决策，并且当散点图伴随着描述性准确度（例如，\textit{high}、\textit{medium}或\textit{low}）时，参与者倾向于更信任建议而不是数字精度（例如 \textit{90%}）。此外，我们观察到散点图通常可以帮助参与者验证他们的决定。根据结果，我们认为散点图和可视化通常可以帮助做出明智的决策、验证决策以及建立对推荐系统的信任。

Misty：通过交互式概念混合进行 UI 原型设计

分类： 人机交互

作者： Yuwen Lu, Alan Leung, Amanda Swearngin, Jeffrey Nichols, Titus Barik

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13900v2

摘要： UI 原型设计通常涉及迭代和混合示例中的元素（例如屏幕截图和草图），但当前的工具对合并这些示例提供的支持有限。受概念混合认知过程的启发，我们引入了一种新颖的 UI 工作流程，允许开发人员快速将设计示例中的各个方面合并到正在进行的 UI 中。我们将此工作流程原型化为 Misty。通过与 14 名前端开发人员进行的探索性首次使用研究，我们评估了 Misty 的有效性并收集了有关此工作流程的反馈。我们的研究结果表明，Misty 的概念混合工作流程可帮助开发人员启动创意探索，在原型设计的不同阶段灵活指定意图，并通过偶然的 UI 混合激发开发人员的灵感。 Misty 展示了模糊开发人员和设计人员之间界限的工具的潜力。

PanoCoach：通过混合现实远程呈现增强足球战术指导和沟通

分类： 人机交互, 图形

作者： Andrew Kang, Hanspeter Pfister, Tica Lin

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13859v1

摘要： 足球作为一项充满活力的团队运动，需要所有球员无缝协调和整合战术策略。适应新的战术系统是所有职业级别足球的一个关键但往往具有挑战性的方面。即使是最好的玩家也会在这个过程中遇到困难，这主要是由于传达和内化复杂战术模式的复杂性。白板、现场指导和视频分析等传统沟通方法通常在感知空间关系、预测团队动作以及促进培训课程期间的实时对话方面存在很大困难。这些挑战可能会导致球员对教练战术的解释不一致，无论他们的技术水平如何。为了弥合战术沟通和物理执行之间的差距，我们提出了一种混合现实远程呈现解决方案，旨在支持练习期间的多视图战术解释。我们的概念涉及多屏设置，结合平板电脑，供教练在 2D 和 3D 视图中注释和演示概念，并结合 VR 让运动员沉浸在第一人称视角中，让他们在教练过程中体验临场感。演示视频上传至 https://youtu.be/O7o4Wzd-7rw

ChainBuddy：用于生成 LLM 管道的 AI 代理系统

分类： 人机交互, 人工智能, H.5.2; I.2

作者： Jingyue Zhang, Ian Arawjo

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13588v1

摘要： 随着大型语言模型（LLM）的进步，它们的潜在应用显着增长。然而，评估 LLM 在特定于用户的任务上的行为并为此制定有效的管道仍然很困难。许多用户都在纠结从哪里开始，这通常被称为“空白页”问题。 ChainBuddy 是一款 AI 助手，用于生成内置于 ChainForge 平台中的评估性 LLM 管道，旨在解决这个问题。 ChainBuddy 提供了一种简单且用户友好的方式来规划和评估 LLM 行为，使该过程不再那么令人畏惧，并且在各种可能的任务和用例中更易于访问。我们报告了一项受试者内用户研究，将 ChainBuddy 与基线界面进行比较。我们发现，在使用人工智能辅助时，参与者报告的工作量要求较低，并且对建立大语言模型行为的评估渠道更有信心。我们对界面的未来提出了见解，以帮助用户对人工智能进行开放式评估。

抑郁症诊断对话模拟：具有三级记忆的自我提升精神科医生

分类： 计算和语言, 人工智能, 人机交互

作者： Kunyao Lan, Bingui Jin, Zichen Zhu, Siyuan Chen, Shu Zhang, Kenny Q. Zhu, Mengyue Wu

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.15084v1

摘要： 心理健康问题，特别是抑郁症，在当代社会提出了重大挑战，需要开发有效的自动化诊断方法。本文介绍了代理心理诊所（AMC），这是一个自我改进的对话代理系统，旨在通过患者和精神科医生代理之间的模拟对话来增强抑郁症的诊断。为了提高对话质量和诊断准确性，我们设计了一个由三级记忆结构、充当“监督者”的对话控制和反映插件以及记忆采样模块组成的精神科医生代理，充分利用了精神科医生代理所反映的技能，通过对话实现抑郁风险和自杀风险诊断的高度准确性。在现实生活场景中收集的数据集的实验结果表明，该系统模拟了精神科医生的培训过程，可以成为一种有前途的优化方法，可以将大语言模型与特定领域的现实生活分布相匹配，而无需修改大语言模型的权重，即使只有一个仅有少数有代表性的标记案例可供使用。

道德基础理论和预训练语言模型的调查：当前进展和挑战

分类： 计算和语言, 人工智能, 计算机与社会, 数字图书馆, 人机交互

作者： Lorenzo Zangari, Candida M. Greco, Davide Picca, Andrea Tagarelli

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13521v1

摘要： 道德价值观深深植根于早期文明，被编入规范社会秩序和共同利益的规范和法律中。它们在理解人类行为的心理基础和文化取向方面发挥着至关重要的作用。道德基础理论（MFT）是一个完善的框架，它确定了不同文化塑造个人和社会生活的方式背后的核心道德基础。自然语言处理，特别是预训练语言模型 (PLM) 的最新进展，使得从文本数据中提取和分析道德维度成为可能。这项调查对基于 MFT 的 PLM 进行了全面回顾，分析了 PLM 中的道德倾向及其在 MFT 背景下的应用。我们还审查相关数据集和词典，并讨论趋势、局限性和未来方向。通过提供 PLM 和 MFT 之间交叉点的结构化概述，这项工作在 PLM 领域内架起了道德心理学见解，为创建道德意识人工智能系统的进一步研究和开发铺平了道路。

用你的声音素描：通过声音模仿“非声音真实”渲染声音

分类： 图形, 计算和语言, 人机交互, 声音, 音频和语音处理, I.3.8

作者： Matthew Caren, Kartik Chandra, Joshua B. Tenenbaum, Jonathan Ragan-Kelley, Karima Ma

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13507v1

摘要： 我们提出了一种自动产生类似人类声音模仿的方法：相当于“素描”，但用于听觉而不是视觉表示。从人类声道的模拟模型开始，我们首先尝试通过调整模型的控制参数来生成声音模仿，以使合成的发声在感知显着的听觉特征方面与目标声音相匹配。然后，为了更好地匹配人类的直觉，我们应用传播认知理论来考虑人类说话者如何对听众进行策略性推理。最后，我们通过多项实验和用户研究表明，当我们将这种类型的交流推理添加到我们的方法中时，它比单独匹配听觉特征更符合人类直觉。这一观察结果对于计算机图形学的描述研究具有广泛的意义。

“因为律师是男性......”：大语言模型检查印地语生成中的隐性性别偏见

分类： 计算和语言, 人工智能, 人机交互

作者： Ishika Joshi, Ishita Gupta, Adrita Dey, Tapan Parikh

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13484v1

摘要： 大型语言模型 (LLM) 越来越多地用于生成跨各种语言的文本，用于翻译、客户支持和教育等任务。尽管取得了这些进步，大语言模型在英语中仍表现出明显的性别偏见，当用印地语等代表性相对不足的语言生成内容时，这种偏见变得更加明显。本研究探讨了印地语文本生成中隐含的性别偏见，并将其与英语文本进行比较。我们受 WinoBias 启发开发了印地语数据集，以检查 GPT-4o 和 Claude-3 十四行诗等模型响应中的刻板模式。我们的结果显示，印地语中存在 87.8% 的显着性别偏见，而英语 GPT-4o 一代中的这一比例为 33.4%，印地语的反应经常依赖于与职业、权力等级和社会阶层相关的性别刻板印象。这项研究强调了不同语言之间性别偏见的差异，并为在生成人工智能系统中解决这些偏见提供了考虑因素。

类似皮肤科医生的可解释人工智能提高黑色素瘤诊断准确性：眼球追踪研究

分类： 人工智能, 计算机视觉和模式识别, 人机交互

作者： Tirtha Chanda, Sarah Haggenmueller, Tabea-Clara Bucher, Tim Holland-Letz, Harald Kittler, Philipp Tschandl, Markus V. Heppt, Carola Berking, Jochen S. Utikal, Bastian Schilling, Claudia Buerger, Cristian Navarrete-Dechent, Matthias Goebeler, Jakob Nikolas Kather, Carolin V. Schneider, Benjamin Durani, Hendrike Durani, Martin Jansen, Juliane Wacker, Joerg Wacker, Reader Study Consortium, Titus J. Brinker

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13476v1

摘要： 人工智能 (AI) 系统大大提高了皮肤科医生对黑色素瘤的诊断准确性，可解释的人工智能 (XAI) 系统进一步增强了临床医生对人工智能驱动决策的信心和信任。尽管取得了这些进步，但仍然迫切需要客观评估皮肤科医生如何使用 AI 和 XAI 工具。在这项研究中，76 名皮肤科医生参与了一项读者研究，使用 XAI 系统诊断了 16 幅黑色素瘤和痣的皮肤镜图像，该系统提供了详细的、特定领域的解释。眼球追踪技术被用来评估他们的互动。将诊断性能与缺乏解释性特征的标准人工智能系统进行了比较。我们的研究结果表明，相对于标准 AI，XAI 系统将平衡诊断准确性提高了 2.8 个百分点。此外，AI/XAI 系统和复杂病变的诊断不一致与认知负荷升高有关，眼部注视的增加就证明了这一点。这些见解对于临床实践、用于视觉任务的 AI 工具的设计以及 XAI 在医疗诊断中的更广泛发展具有重要意义。

Sportoonizer：通过自动漫画 B 卷生成增强体育精彩片段的旁白和视觉冲击力

分类： 人机交互

作者： Siying Hu, Xiangzhe Yuan, Jiajun Wang, Piaohong Wang, Jian Ma, Zhiyang Wu, Qian Wan, Zhicong Lu

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13443v1

摘要： 体育赛事精彩片段在视频分享平台上越来越受欢迎。然而，制作体育精彩视频具有挑战性，这需要从不同角度制作引人入胜的叙事，并适应不同平台的可供性和不断变化的受众。因此，许多内容创作者通过漫画风格创作原创体育视频的衍生作品，以增强其表现力。但手动创建和插入定制的漫画风格内容仍然非常耗时。我们推出了 Sportoonizer，这是一个嵌入管道的系统，用于自动生成漫画风格的动画，以显示体育视频中的精彩片段并插入到原始视频中。它将动态漫画序列与真人镜头无缝融合，丰富了视觉挂毯并加深了叙事范围。通过利用 genAI，Sportoonizer 精心制作了引人入胜的故事情节，概括了运动时刻的强度和运动员的个人旅程。我们的评估研究表明，整合漫画花絮可以显着增强观众在观看体验中对运动员故事的参与度、视觉兴趣和情感联系。

具有非平稳成本的多效应器时间规划的对比解释的用户研究

分类： 人工智能, 人机交互, 机器学习

作者： Xiaowei Liu, Kevin McAreavey, Weiru Liu

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13427v1

摘要： 在本文中，我们在最终用户应用程序中采用对比解释来进行智能家居的时间规划。在此应用中，用户对执行电器任务有要求，根据动态能源费率支付能源费用，可以使用大容量电池存储，并且能够向电网出售能源。设备的并发调度使得这是一个多效应器规划问题，而动态关税产生非平稳成本（或者，成本是固定但取决于外生事件）。这些特征使得现有的基于 PDDL 的规划器通常不支持规划问题，因此我们设计了一个自定义的依赖于域的规划器，可以扩展到合理的设备数量和时间范围。我们使用基于两个用户故事的在线众包平台对 128 名参与者进行了受控用户研究。我们的结果表明，与无法使用这些功能的用户相比，获得对比问题和解释的用户满意度更高，往往会获得更好的理解，并且对推荐的人工智能计划的帮助性评价更高。

MapCraft：剖析和设计自定义地理信息图表

分类： 人机交互

作者： Xinyuan Zhang, Yifan Xu, Kaiwen Li, Lingyun Yu, Yu Liu

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13424v1

摘要： 地理信息图表越来越多地应用于各个领域，以有效地传达空间相关信息。然而，创建这些信息图表通常需要大量的设计和可视化专业知识，以及熟练使用专用工具，这可能会阻止许多潜在的创建者。为了解决这一障碍，我们的研究对 8 位专家设计的 118 个地理信息图表和草图进行了分析和分类，从而开发了包含四个关键维度的结构化设计空间：基本地图表示、编码通道、标签设计和放置以及突出显示技术。基于这个设计空间，我们开发了一个基于网络的创作工具，允许用户交互式地探索和应用这些维度。该工具的有效性是通过一项用户研究进行评估的，该研究涉及 12 名没有设计经验的参与者。首先要求参与者使用提供的数据集手动创建地理信息图表，然后利用我们的创作工具重新创建和完善他们的初始草稿。我们还对参与者的地理信息图表设计知识进行了使用前和使用后评估。研究结果表明，在理解和应用信息编码渠道、突出显示技术以及标签设计和放置策略方面取得了显着进步。这些结果证明了该工具的双重能力，可以帮助用户创建地理，同时向他们传授关键可视化策略。因此，我们的工具使更广泛的受众（包括那些设计和可视化背景有限的受众）能够有效地创建和利用地理信息图表。

V-Hands：基于触摸屏的手部跟踪，用于远程白板交互

分类： 人机交互, 计算机视觉和模式识别, 图形

作者： Xinshuang Liu, Yizhong Zhang, Xin Tong

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13347v1

摘要： 在基于白板的远程通信中，绘制内容和手屏交互的无缝集成对于沉浸式用户体验至关重要。以前的方法要么需要笨重的设备设置来捕获手势，要么无法从电容图像中准确跟踪手部姿势。在本文中，我们提出了一种从电容视频帧精确跟踪双手 3D 姿势的实时方法。为此，我们开发了一个深度神经网络来识别手部并从电容帧推断手部关节位置，然后通过约束逆运动解算器从手部关节位置恢复 3D 手部姿势。此外，我们设计了一种用于捕获高质量手屏交互数据的设备设置，并获得了更准确的同步电容视频和手部姿势数据集。我们的方法提高了电容式框架 3D 手部跟踪的准确性和稳定性，同时保持了用于远程通信的紧凑设备设置。我们验证了我们的方案设计及其在 3D 手势跟踪方面的卓越性能，并证明了我们的方法在基于白板的远程通信中的有效性。我们的代码、模型和数据集可在 https://V-Hands.github.io 上获取。

BoilerTAI：在教育论坛中使用生成式人工智能增强教学的平台

分类： 计算机与社会, 人机交互, 机器学习, K.3.2

作者： Anvit Sinha, Shruti Goyal, Zachary Sy, Rhianna Kuperus, Ethan Dickey, Andres Bejarano

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13196v1

摘要： 贡献：研究类别轨道中的这篇完整论文描述了一个实用的、可扩展的平台，它将生成人工智能 (GenAI) 与在线教育论坛无缝集成，提供了一种增强员工教学能力的新颖方法。该平台通过促进学生帖子和大型语言模型 (LLM) 之间的交互，使教学人员能够有效管理、完善和批准回复。这一贡献提高了教学支持的效率和有效性，并显着提高了向学生提供的响应的质量和速度，从而丰富了整体学习体验。背景：该研究以维果茨基的社会文化理论和知识渊博的他人 (MKO) 概念为基础，探讨了 GenAI 如何充当辅助 MKO 来丰富学生和教师之间的教育对话。研究问题：当 GenAI 用于预先回答教育讨论论坛上发布的学生问题时，它在减少教学人员的工作量方面效果如何？方法：在大型入门编程课程中使用混合方法，人类助教 (AI-TA) 采用人工智能辅助平台来预先回答学生的问题。我们分析了效率指标，例如人工智能生成的响应的修改频率，并收集了人工智能助教的定性反馈。研究结果：研究结果表明，与人类教师提供的响应相比，学生对 AI-TA 生成的响应的接受程度没有显着差异。这表明，如果管理得当，GenAI 可以有效满足教育需求。此外，AI-TA 响应查询所需的认知负荷有所减少，这表明 GenAI 有潜力在不影响教育质量的情况下提高教学效率。

设计用于个性化推荐系统中最终用户算法审核的干预工具

分类： 人机交互

作者： Qunfang Wu, Lu Xian

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13176v1

摘要： 随着算法越来越多地影响个性化推荐平台上的用户体验，最终用户越来越需要能够审核这些算法是否存在潜在偏见和危害的工具。本文介绍了一种新颖的干预工具 MapMyFeed，旨在支持日常用户审核。该工具解决了与用户驱动的算法审计相关的关键挑战，例如算法素养低、非结构化审计路径以及噪声的存在。 MapMyFeed 通过提供指导提示、通过浏览器扩展跟踪审核路径以及通过实时仪表板可视化审核结果来帮助用户。该工具不仅可以培养用户的算法素养和意识，还可以增强更加透明和公平的推荐系统。

可视化：使用大语言模型为可视化设计师自动提供设计反馈

分类： 人机交互

作者： Sungbok Shin, Sanghyun Hong, Niklas Elmqvist

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13109v1

摘要： 交互式可视化编辑器使人们能够在不编写代码的情况下创作可视化效果，但不能指导他们有效视觉传达的艺术和工艺。在本文中，我们探讨了使用现成的大型语言模型 (LLM) 为可视化设计人员提供可操作的定制反馈的潜力。我们的实现称为“VISUALIZATIONARY”，展示了如何使用两个组件以这种方式使用 ChatGPT：可视化设计指南的序言和一套从可视化图像中提取显着指标的感知过滤器。我们展示了一项纵向用户研究的结果，该研究涉及 13 名可视化设计师（其中 6 名新手、4 名中级设计师和 3 名专家），在几天的时间内从头开始创作新的可视化。我们的结果表明，使用大语言模型提供自然语言指导甚至可以帮助经验丰富的设计师完善他们的可视化。本文附带的所有补充材料均可在 https://osf.io/v7hu8 上获取。

利用沉浸式虚拟现实改进二进制逆向工程的认知方法

分类： 人机交互

作者： Dennis G. Brown, Julian Bauer, Luke Wittbrodt, Samuel Mulder

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13100v1

摘要： 通过其可供性，沉浸式虚拟现实 (VR) 提供了一种应用物理领域的具体和外部认知来解决通常只是概念性的分析问题的方法。我们提出了一个遵循认知系统工程原则执行结构化分析的示例，以获得适用于困难分析问题的沉浸式可供性，在我们的例子中，是逆向工程（RE）二进制程序。我们对问题进行了基本的认知任务分析，以揭示其认知模型的特征及其相关的基本认知现象，然后我们将这些概念映射到与这些概念相关的沉浸式可供性。我们在 VR 系统中实现了这些可供性的子集，以促进二进制程序功能的发现。 RE 从业者的反馈推动了系统的初步开发，我们正在准备进行正式的有效性研究，以告知未来研究的方向。

可追踪文本：通过短语级出处链接加深人工智能生成的摘要的阅读

分类： 人机交互

作者： Hita Kambhamettu, Jamie Flores, Andrew Head

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13099v1

摘要： 随着人工智能生成的摘要激增，我们如何帮助人们了解这些摘要的准确性？在这篇简短的论文中，我们设计了一个简单的交互原语、可追踪文本，以支持对生成的摘要及其来源文本的严格检查。在可追踪的文本中，生成的摘要的段落链接到通知它们的源文本的段落。可追踪的文本可以通过简单的提示链接方法生成，并且可以由人类作者根据应用程序进行调整。在一项可用性研究中，我们研究了可追踪文本对阅读和理解患者病历的影响。可追溯的文本帮助读者更快地回答有关源文本内容的问题，并在摘要中存在幻觉的情况下显着提高答案的正确性。当被要求阅读具有可追溯文本的对个人重要的文本时，读者使用可追溯文本作为理解辅助工具和源注释的索引。

使用虚拟现实来对抗非英语母语者的社交焦虑症：一项调查

分类： 人机交互

作者： Siyi Zhang, Ayesha Khalid

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13085v1

摘要： 社交焦虑症（SAD）是一种常见但被低估的心理健康障碍。虽然非英语母语（NNES）的学生面临公开演讲，但由于语言和社会文化差异，他们更有可能遭受公开演讲焦虑（PSA）\cite{cite1}。虚拟现实（VR）技术已经使社交情感训练受益。核心目标是总结使用 VR 技术帮助 NNES 学生练习和提高公开演讲技能的好处和局限性。这不是对文献的全面调查。相反，所选论文旨在反映各种广泛主题的当前知识。虚拟现实、社交焦虑症、公开演讲焦虑、英语作为第二语言和非英语母语人士是学术搜索完成（ASC）数据库中主要用于搜索的关键词。与母语为英语（NES）的学生相比，NNES学生在使用VR技术进行PSA社交情感训练时有潜力取得更好的成绩。

超过 750 公里的混合现实远程超声：临床研究

分类： 人机交互, 机器人技术

作者： Ryan Yeung, David Black, Patrick B. Chen, Victoria Lessoway, Janice Reid, Sergio Rangel-Suarez, Silvia D. Chang, Septimiu E. Salcudean

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13058v1

摘要： 超声是一种手持式、低成本、非侵入性的医学成像方式，在诊断各种疾病中发挥着至关重要的作用。尽管如此，许多农村和偏远社区由于缺乏接受过超声波扫描培训的当地专家而无法进行超声波扫描。为了应对这一挑战，我们构建了一个混合现实和基于触觉的远程超声系统，使专家能够远程精确指导新手进行超声检查。我们的解决方案的精度和灵活性使其比现有的远程超声解决方案更加实用。我们在加拿大不列颠哥伦比亚省海达瓜伊群岛的斯基德盖特测试了该系统，专家们则位于 754 公里外的加拿大温哥华不列颠哥伦比亚大学。我们对 10 名新手和 2 名专家进行了 11 次扫描。专家们的任务是获取上腹部区域的 5 个目标图像和测量结果。不同背景和年龄的新手都缺乏混合现实经验，并且不需要有超声经验。拍摄的图像由两名未参加测试的放射科医生进行了评估。我们讨论了这些结果以及对此类系统中人机交互的新见解。我们证明，人类远程操作是可行的，并且即使在远距离且完全是新手跟随者的情况下，也可以实现完成远程超声程序的高性能。

在大语言模型与搜索学习之间进行选择：高等教育学生的观点

分类： 人机交互

作者： Rahul R. Divekar, Sophia Guerra, Lisette Gonzalez, Natasha Boos

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13051v1

摘要： 大型语言模型 (LLM) 正在迅速改变学习过程，因为学生可以随时使用它们，并可以快速完成或增强一些与学习相关的活动，并具有非凡的性能。学习动态的这种重大转变以前曾在搜索引擎和维基百科引入时发生过，它们增强了或传统的信息消费来源，例如大学生的图书馆和书籍。我们研究了下一个转变的可能性：使用大语言模型在学习背景下查找和消化信息，以及它们与搜索引擎等现有技术的关系。我们进行了一项研究，要求学生使用搜索引擎和大语言模型在科目内平衡设计中学习新主题。我们将该研究用作体验后后续访谈的背景基础，在访谈中我们通过搜索引擎（Google）引发了学生的反思、偏好、痛点和大语言模型（ChatGPT）的总体前景。

运动作为情感：检测 VR 中徒手手势的影响和认知负荷

分类： 人机交互

作者： Phoebe Chua, Prasanth Sasikumar, Yadeesha Weerasinghe, Suranga Nanayakkara

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12921v1

摘要： 情感和认知负荷影响许多用户行为。在本文中，我们提出了运动作为情感，这是一种利用手部运动的细微差异来识别虚拟现实（VR）中的情感和认知负荷的新方法。我们对 22 名参与者进行了一项研究，他们使用常见的徒手手势交互在 VR 环境中执行不同难度的任务。我们发现任务引起的情感和认知负荷与速度、距离和手部张力等手势特征的显着差异相关。标准支持向量分类（SVC）模型可以根据这些特征准确预测两个级别（低、高）的价、唤醒和认知负荷。我们的结果证明了 Motion as Emotion 作为一种准确可靠的方法的潜力，可以通过徒手手势推断用户的影响和认知负荷，而不需要任何额外的可穿戴传感器或对标准 VR 耳机进行修改。

通过少样本学习进行跨游戏参与建模

分类： 人机交互, 计算机视觉和模式识别, 多媒体

作者： Kosmas Pinitas, Konstantinos Makantasis, Georgios N. Yannakakis

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13002v1

摘要： 领域泛化涉及学习人工智能 (AI) 模型，这些模型可以在特定任务中跨不同领域保持高性能。例如，在视频游戏中，此类人工智能模型据称可以学习检测不同游戏中的玩家行为。尽管人工智能最近取得了进步，但用于建模用户体验的领域泛化在很大程度上仍未得到探索。虽然视频游戏由于其动态和丰富的上下文性质，为用户体验分析带来了独特的挑战和机遇，但对此类体验进行建模通常受到较小数据集的限制。因此，传统的建模方法通常难以弥合用户和游戏之间的领域差距，因为它们依赖于大量标记的训练数据和用户体验常见分布的假设。在本文中，我们通过引入一个框架来应对这一挑战，该框架将用户体验的一般领域不可知建模分解为几个特定于领域和游戏相关的任务，这些任务可以通过几次学习来解决。我们在公开的 GameVibe 语料库的变体上测试了我们的框架，该语料库专门用于测试模型预测不同第一人称射击游戏中用户参与度的能力。我们的研究结果证明了少样本学习器比传统建模方法具有优越的性能，从而展示了少样本学习在视频游戏及其他领域稳健体验建模的潜力。

从人类演示中进行机器人学习的扩展现实系统

分类： 机器人技术, 人机交互

作者： Isaac Ngui, Courtney McBeth, Grace He, André Corrêa Santos, Luciano Soares, Marco Morales, Nancy M. Amato

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12862v1

摘要： 许多现实世界的任务对于人类来说是凭直觉执行的，但在利用机器人执行任务时很难通过算法进行编码。在这些场景中，机器人系统可以从专家演示中受益，以学习如何执行每项任务。在许多情况下，使用物理机器人来提供这些演示可能很困难或不安全，例如，考虑用刀切片等烹饪任务。扩展现实为展示机器人轨迹提供了一个自然的环境，同时绕过了安全问题并提供了更广泛的交互方式。我们提出了扩展现实中的机器人动作演示（RADER）系统，这是一个用于从演示中学习的通用扩展现实接口。我们还介绍了其在现有最先进的演示方法学习中的应用，并展示了在物理机器人上进行的演示与使用我们的扩展现实系统进行的演示之间的可比结果。

SituationAdapt：通过 LLM 推理实现情境感知的混合现实中的上下文 UI 优化

分类： 人机交互

作者： Zhipeng Li, Christoph Gebhardt, Yves Inglin, Nicolas Steck, Paul Streli, Christian Holz

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12836v1

摘要： 混合现实越来越多地用于受控家庭和办公空间之外的移动环境。这种移动性引入了对适应不同环境的用户界面布局的需求。然而，现有的自适应系统仅针对静态环境而设计。在本文中，我们介绍了 SituationAdapt，这是一个通过考虑共享设置中的环境和社交线索来调整混合现实 UI 以适应现实环境的系统。我们的系统由用于 UI 适配的感知、推理和优化模块组成。我们的感知模块识别用户周围的物体和个人，而我们的推理模块利用视觉和语言模型来评估交互式 UI 元素的位置。这确保了调整后的布局不会阻碍相关的环境线索或干扰社会规范。然后，我们的优化模块会生成考虑到这些考虑因素以及时间约束的混合现实界面。为了进行评估，我们首先验证推理模块与人类专家用户相比评估 UI 上下文的能力。在一项在线用户研究中，我们建立了 SituationAdapt 为混合现实生成上下文感知布局的能力，其性能优于以前的自适应布局方法。最后，我们通过一系列应用程序和场景来展示 SituationAdapt 的多功能性。

不要被愚弄：人类与人工智能协作中解释的错误信息效应

分类： 人机交互, 人工智能

作者： Philipp Spitzer, Joshua Holstein, Katelyn Morrison, Kenneth Holstein, Gerhard Satzger, Niklas Kühl

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12809v1

摘要： 在各种应用中，人类越来越多地使用黑盒人工智能 (AI) 系统，而无需深入了解这些系统的推理。为了应对这种不透明性，可解释的人工智能（XAI）方法有望增强透明度和可解释性。虽然最近的研究探讨了 XAI 如何影响人类与人工智能的协作，但很少有人研究过错误解释造成的潜在陷阱。对人类的影响可能是深远的，但尚未得到广泛探讨。为了调查这一点，我们进行了一项关于人工智能辅助决策的研究 (n=160)，其中人类得到了 XAI 的支持。我们的研究结果揭示了当错误的解释伴随着正确的人工智能建议并在合作后产生影响时，就会产生错误信息效应。这种效应导致人类推断出有缺陷的推理策略，阻碍任务执行并表现出程序性知识受损。此外，不正确的解释会影响人类与人工智能团队在协作过程中的表现。通过我们的工作，我们为人机交互做出了贡献，为协作后错误解释对人类造成的负面后果提供了经验证据，并为人工智能设计者概述了指导方针。

探索之间的土地：一种通过生成的样本查找人工智能决策和人类评级之间差异的方法

分类： 人机交互, 人工智能

作者： Lukas Mecke, Daniel Buschek, Uwe Gruenefeld, Florian Alt

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12801v1

摘要： 我们日常生活中的许多重要决策，例如通过生物识别模型进行身份验证，都是由人工智能 (AI) 系统做出的。这些可能与人类的期望不一致，并且在明确的现有数据上对其进行测试可能不足以揭示这些情况。我们提出了一种在生成模型的潜在空间中查找样本的方法，旨在对决策模型在匹配人类期望方面提出挑战。通过将这些样本呈现给决策模型和人类评估者，我们可以识别其决策与人类直觉一致的领域以及与人类直觉相矛盾的领域。我们将此方法应用于人脸识别模型，并收集了 100 名参与者的 11,200 条人类评分数据集。我们讨论了数据集的发现，以及如何使用我们的方法来探索人工智能模型在不同环境和不同用户组中的性能。

深入探讨推荐系统中的公平性、偏见、威胁和隐私：见解和未来研究

分类： 信息检索, 密码学和安全, 人机交互

作者： Falguni Roy, Xiaofeng Ding, K. -K. R. Choo, Pan Zhou

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12651v1

摘要： 推荐系统对于电子商务网站、流媒体服务和社交媒体平台上的个性化数字体验至关重要。虽然这些系统对于现代数字交互是必要的，但它们面临公平、偏见、威胁和隐私挑战。推荐系统中的偏差可能会导致对特定用户和项目组的不公平对待，而公平性要求推荐对所有用户和项目都是公平的。这些系统还容易受到各种威胁的影响，从而损害可靠性和安全性。此外，个人数据的广泛使用引发了隐私问题，因此建立健全的保护机制来保护用户信息至关重要。本研究探讨了推荐系统中的公平性、偏见、威胁和隐私。它研究了算法决策如何无意中强化偏见或边缘化特定用户和项目组，强调公平推荐策略的必要性。该研究还研究了可能破坏系统完整性的攻击形式的威胁范围，并讨论了先进的隐私保护技术。通过解决这些关键领域，该研究强调了当前的局限性，并提出了未来的研究方向，以提高推荐系统的稳健性、公平性和隐私性。最终，这项研究旨在帮助开发更值得信赖和道德的推荐系统，更好地服务于不同的用户群体。

$\text{M}^\text{6}(\text{GPT})^\text{3}$：使用遗传算法、概率方法和 GPT 模型以任意进行和方式从文本生成多轨可修改多分钟 MIDI 音乐拍号

分类： 声音, 人机交互, 音频和语音处理

作者： Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12638v1

摘要： 这项工作介绍了 $\text{M}^\text{6}(\text{GPT})^\text{3}$ Composer 系统，能够以任何拍号生成完整的、结构复杂的多分钟音乐作品，在 MIDI 域中来自自然语言的输入描述。该系统利用自回归转换器语言模型将自然语言提示映射到 JSON 格式的合成参数。定义的结构包括拍号、音阶、和弦进行和效价唤醒值，从中创建伴奏、旋律、低音、主题和打击乐轨道。我们提出了一种用于生成旋律元素的遗传算法。该算法结合了具有音乐意义的突变以及基于正态分布和预定义音乐特征值的适应度函数。这些价值观会受到情感参数和独特演奏风格的影响而自适应地演变。用于以任何拍号生成打击乐的系统利用概率方法，包括马尔可夫链。通过人工和客观评估，我们证明我们的音乐生成方法在特定的、具有音乐意义的指标上优于基线，为纯粹基于神经网络的系统提供了有价值的替代方案。

人类利益还是冲突？利用大语言模型进行电视节目的自动框架分析

分类： 人机交互

作者： David Alonso del Barrio, Max Tiel, Daniel Gatica-Perez

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12561v1

摘要： 在当前的媒体格局中，理解信息的框架对于批判性消费和明智的决策至关重要。框架分析是识别用于呈现信息的基本观点的宝贵工具，并已应用于包括电视节目在内的各种媒体格式。然而，手动分析框架可能非常耗时且费力。这就是大型语言模型 (LLM) 可以发挥关键作用的地方。在本文中，我们提出了一种使用提示工程来识别电视节目中口头内容的框架的新颖方法。我们的研究结果表明，即时工程大语言模型可以用作识别框架的支持工具，人与机器之间的一致率高达 43%。由于大语言模型仍在开发中，我们相信我们的方法有潜力得到完善和进一步改进。这项技术在交互式媒体应用方面的潜力是巨大的，包括为记者开发支持工具、为新闻系学生学习框架和相关概念的教育资源，以及为观众提供交互式媒体体验。

长宽比对平行坐标任务精度的影响

分类： 人机交互

作者： Hugh Garner, Sara Johansson Fernstad

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12540v1

摘要： 平行坐标图 (PCP) 是一种广泛使用的可视化方法，特别是对于探索性分析。先前的研究表明，PCP 在估计正相关性方面的表现比估计负相关性要差得多，但尚不清楚这是否受到轴对的纵横比 (AR) 的影响。在本文中，我们提出了静态（非交互式）PCP 中轴纵横比对两项任务的影响评估结果：a）线性相关估计和 b）值跟踪。对于这两项任务，我们发现了 AR 影响准确性的有力证据，包括大于 1:1 的 AR 在估计正相关性方面表现得更加出色。我们根据数据特征和预期用例，为使用 PCP 执行关联或价值跟踪任务的可视化设计人员提供了一系列建议。

PersonaFlow：利用大语言模型模拟专家角色促进研究创意

分类： 人机交互, 人工智能

作者： Yiren Liu, Pranav Sharma, Mehul Jitendra Oswal, Haijun Xia, Yun Huang

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12538v1

摘要： 开发新颖的跨学科研究想法通常需要来自不同领域的专家的讨论和反馈。然而，由于领域专家稀缺，及时获得输入具有挑战性。大型语言模型 (LLM) 研究的最新进展表明，利用 LLM 模拟的专家角色来支持研究构思是可行的。在本研究中，我们介绍了 PersonaFlow，这是一个基于大语言模型的系统，使用角色模拟来支持跨学科科学发现的构思阶段。我们的研究结果表明，在构思过程中使用多个角色可以显着提高用户感知的结果质量（例如，批评的相关性、研究问题的创造力），而不会增加认知负荷。我们还发现，用户角色定制交互显着提高了他们的控制感和对所产生想法的回忆。根据研究结果，我们讨论了突出的道德问题，包括潜在的过度依赖和认知偏见，并提出了在无法获得人类专业知识时利用大语言模型模拟的专家角色来支持研究构想的设计含义。

自动扫描透射电子显微镜实验中的无监督奖励驱动图像分割

分类： 材料科学, 人机交互, 机器学习

作者： Kamyar Barakati, Utkarsh Pratiush, Austin C. Houston, Gerd Duscher, Sergei V. Kalinin

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12462v2

摘要： 扫描透射电子显微镜 (STEM) 的自动化实验需要快速图像分割，以优化人类解释、决策、位点选择性光谱和原子操作的数据表示。目前，分割任务通常使用监督机器学习方法来执行，该方法需要人工标记的数据，并且对分辨率、采样或光束形状变化引起的分布外漂移效应敏感。在这里，我们对最近提出的奖励驱动优化工作流程进行了操作和基准测试，用于 STEM 中的动态图像分析。这种无监督的方法更加稳健，因为它不依赖于人类标签并且是完全可解释的。解释性反馈可以帮助人们验证决策，并通过选择奖励函数帕累托前沿的位置来潜在地调整模型。我们确定了该方法的时机和有效性，证明了其在高通量和动态自动化 STEM 实验中的实时性能能力。奖励驱动的方法允许构建可解释的稳健分析工作流程，并且可以推广到电子和扫描探针显微镜和化学成像中的广泛图像分析任务。

提示也是程序！了解开发人员如何构建包含提示的软件

分类： 软件工程, 人工智能, 人机交互

作者： Jenny T. Liang, Melissa Lin, Nikitha Rao, Brad A. Myers

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12447v1

摘要： GPT-4 等生成式预训练模型的引入引入了一种称为提示工程的现象，即模型用户在尝试完成任务时反复编写和修改提示。在软件应用程序中使用这些人工智能模型来实现智能功能需要使用通过开发人员编写的提示进行控制的 API。这些提示为流行软件产品中的人工智能体验提供了动力，可能会覆盖数百万用户。尽管提示驱动软件的影响越来越大，但人们对其开发过程及其与编程的关系知之甚少。在这项工作中，我们认为某些形式的提示是程序，并且提示的发展是编程中的一个独特现象。我们将这种现象称为即时编程。为此，我们通过采访 20 名从事跨各种环境、模型、领域和提示复杂性的提示开发的开发人员，加深了对使用施特劳斯扎根理论的提示编程的理解。通过这项研究，我们贡献了 14 条关于即时编程的观察结果。例如，提示程序员不是构建代码的心理模型，而是通过与模型交互来开发 FM 在提示上的行为及其独特品质的心理模型。虽然之前的研究表明专家拥有完善的心理模型，但我们发现，开发了数十个提示（每个提示都有多次迭代）的提示程序员仍然难以开发可靠的心理模型。这有助于快速且非系统的开发过程。总而言之，我们的观察表明，即时编程与传统软件开发有显着不同，这促使了支持即时编程的工具的创建。我们的研究结果对软件工程从业者、教育工作者和研究人员具有重要意义。

还公平吗？从协变量漂移的角度对公平性算法进行比较评估

分类： 机器学习, 人工智能, 计算机与社会, 人机交互

作者： Oscar Blessed Deho, Michael Bewong, Selasi Kwashie, Jiuyong Li, Jixue Liu, Lin Liu, Srecko Joksimovic

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12428v1

摘要： 在过去的几十年里，机器学习 (ML) 应用呈指数级增长，为社会带来了诸多好处。然而，这些好处受到了人们对机器学习模型所表现出的歧视行为的担忧的影响。在这方面，机器学习的公平性已成为优先研究领域。因此，人们开发了几种公平性指标和算法来减轻机器学习模型可能具有的歧视行为。然而，人们仍然很少关注数据模式自然发生的变化（\textit{aka}数据分布漂移）及其对公平算法和指标的影响。在这项工作中，我们通过分析 4 个不公平感知的基线算法和 7 个公平感知的算法来全面研究这个问题，这些算法经过精心策划，覆盖了包括公共和专有数据在内的 5 个数据集的类型学广度，并使用 3 个预测性能对其进行了评估和 10 个公平指标。在此过程中，我们表明：（1）数据分布漂移并不是一件小事，在某些情况下可能会导致所谓公平模型的公平性严重恶化；（2）与一些现有文献相反，数据分布漂移的大小和方向与由此产生的不公平的大小和方向不相关； (3)公平算法的选择和训练受到数据分布漂移效应的影响，而这在文献中很大程度上被忽略了。根据我们的发现，我们综合了数据分布漂移对公平算法的几种政策影响，这些影响与利益相关者和从业者非常相关。

我可以抚摸你的机器人吗？将电容式触摸感应融入软社交辅助机器人平台

分类： 机器人技术, 人机交互

作者： Amy O'Connell, Bailey Cislowski, Heather Culbertson, Maja Matarić

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12338v2

摘要： 这项工作提出了一种在软社交辅助机器人平台上结合低成本电容式触觉传感器的方法。通过将导电线嵌入机器人的钩编外部，我们形成了一套低成本、灵活的电容式触觉传感器，这些传感器不会破坏机器人柔软的动物形态。我们通过用户研究（N=20）评估了传感器的性能，发现传感器可靠地检测到用户触摸事件并将触摸输入定位到机器人外部的三个区域之一。

对机器学习中多样性对公平性影响的看法

分类： 计算机与社会, 人机交互

作者： Anna P. Meyer, Yea-Seul Kim, Aws Albarghouthi, Loris D'Antoni

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12332v1

摘要： 机器学习 (ML) 越来越多地用于高风险环境，但多重性（多个良好模型的存在）意味着某些预测本质上是任意的。机器学习研究人员和哲学家认为，多样性会带来公平风险，但没有研究调查利益相关者是否同意。在这项工作中，我们进行了一项调查，以了解多重性的存在如何影响利益相关者（即决策主体）对机器学习公平性的看法，以及他们更喜欢哪些解决多重性的方法。我们研究任务特征（例如风险和不确定性）如何调节这些感知。调查受访者认为，多样性会降低分配公平性，但不会降低程序公平性，尽管现有研究表明事实恰恰相反。参与者强烈反对通过使用单一的良好模型（有效地忽略多重性）或通过随机化可能的结果来解决多重性。我们的结果表明模型开发人员应该有意识地处理多重性以保持公平。

教育对即时工程的影响：来自记者的证据

分类： 人机交互

作者： Amirsiavosh Bashardoust, Yuanjun Feng, Dominique Geissler, Stefan Feuerriegel, Yash Raj Shrestha

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12320v1

摘要： 大型语言模型（LLM）在日常工作中越来越多地使用。在本文中，我们分析了即时工程培训是否可以改善用户与大语言模型的互动。为此，我们进行了一项现场实验，要求记者在即时工程培训之前和之后写短文。然后，我们从三个维度分析了培训的效果：（1）记者与大语言模型互动时的用户体验，（2）文本的准确性（由领域专家评估），以及（3）读者的看法，例如清晰度、参与度和其他文本质量维度（由非专业读者评估）。我们的结果表明：（1）我们的培训提高了记者对专业知识的认知，但也降低了使用大语言模型的认知帮助。 (2) 对准确率的影响因任务难度而异。 (3) 培训对不同文本质量维度的读者感知有不同的影响。

“它在技术上可能令人印象深刻，但对我们来说实际上毫无用处”：新闻行业内围绕人工智能进行跨职能合作的实践、挑战和机遇

分类： 人机交互, 计算机与社会, 机器学习, 社交和信息网络

作者： Qing Xiao, Xianzhe Fan, Felix M. Simon, Bingbing Zhang, Motahhare Eslami

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12000v1

摘要： 近年来，越来越多的新闻机构将人工智能（AI）融入其工作流程，导致人工智能技术人员和数据工作者进一步涌入新闻行业。这开启了这些专业人士和记者之间的跨职能合作。虽然之前的研究已经探讨了人工智能相关角色进入新闻行业的影响，但缺乏关于人工智能专业人士和记者之间如何开展跨职能协作的研究。通过对来自领先新闻机构的 17 名记者、6 名人工智能技术专家和 3 名具有跨职能经验的人工智能工作者的采访，我们调查了当今新闻行业围绕人工智能进行跨职能协作的当前实践、挑战和机遇。我们首先研究记者和人工智能专业人士如何看待现有的交叉合作策略。我们进一步探讨跨职能协作的挑战，并为加强新闻行业未来人工智能的跨职能协作提供建议。

Equimetrics——将 HAR 原则应用于马术活动

分类： 人机交互

作者： Jonas Pöhler, Kristof Van Laerhoven

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11989v1

摘要： 本文介绍了 Equimetrics 数据捕获系统。主要目标是应用 HAR 原理来增强对马术表现的理解和优化。通过整合骑手身体和马四肢上战略性放置的传感器的数据，该系统提供了它们相互作用的全面视图。初步数据收集表明，该系统能够准确分类各种马术活动，如步行、小跑、慢跑和跳跃，同时还能检测骑手姿势和马匹运动的细微变化。该系统利用开源硬件和软件为传统动作捕捉技术提供经济高效的替代方案，使研究人员和培训师能够使用它。 Equimetrics 系统代表了马术表现分析的重大进步，提供了客观的、数据驱动的见解，可用于提高训练和比赛结果。

人工智能绘画与人类绘画？解读公众对 TikTok 上人工智能生成绘画的互动和看法

分类： 人机交互

作者： Jiajun Wang, Xiangzhe Yuan, Siying Hu, Zhicong Lu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11911v1

摘要： 随着生成式人工智能技术的发展，大量人工智能生成绘画（AIGP）在 TikTok 等社交媒体上疯传。不过，一些关于AIGP的负面消息也随之出现。例如，2022年，全球众多画家因生成式AI模型训练受到侵犯而组织了一场大规模的反AI运动。这一事件反映了一个社会问题，随着生成人工智能的发展和应用，公众对其的反馈和感受可能被忽视。因此，为了调查公众在社交媒体上对 AIGP 的互动和看法，我们以人体绘画视频为基准，分析了 AIGP 的用户参与度和评论情绪得分。在分析用户参与度时，我们还考虑了绘画审美质量可能产生的调节作用。利用主题建模，我们找出了导致公众对 AIGP 产生负面看法的七个原因，包括看起来太真实、看起来太吓人、矛盾心理等。我们的工作可能为未来生成式人工智能技术的发展提供指导性建议，并避免人机协作中的潜在危机。

检索、注释、评估、重复：利用多模式大语言模型进行大规模产品检索评估

分类： 信息检索, 人工智能, 计算和语言, 新兴技术, 人机交互

作者： Kasra Hosseini, Thomas Kober, Josip Krapac, Roland Vollgraf, Weiwei Cheng, Ana Peleteiro Ramallo

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11860v1

摘要： 由于大量训练有素的人类注释者的可用性有限，大规模评估生产级检索系统是一项至关重要但具有挑战性的任务。大型语言模型 (LLM) 有潜力解决这一扩展问题，并为人类完成大量注释任务提供可行的替代方案。在本文中，我们提出了一个在大规模电子商务环境中评估产品搜索引擎的框架，利用多模式大语言模型（i）为单个查询生成定制的注释指南，以及（ii）执行后续注释任务。我们的方法通过在大型电子商务平台上的部署进行了验证，展示了与人工注释相当的质量，显着减少了时间和成本，有助于快速发现问题，并为大规模生产级质量控制提供了有效的解决方案。

我的观点并不反映我雇主的观点：组织官方和个人社交媒体账户行为的差异

分类： 社交和信息网络, 人机交互, 62P25, K.4.3; J.4

作者： Esa Palosaari, Ted Hsuan Yun Chen, Arttu Malkamäki, Mikko Kivelä

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11759v1

摘要： 在社交媒体上，人们的私人生活和公共生活之间的界限常常变得模糊。驾驭这两种角色（受不同规范管辖）的需要会影响个人在网上的行为方式，并给研究人员带来方法论挑战。我们对组织的官方 Twitter 帐户与其成员的个人帐户有何不同进行了系统的探索。使用气候变化 Twitter 数据集作为我们的案例，我们发现我们检查的组织级别之间的活动和连接性存在显着差异。这些级别的整体转发网络结构差异很大，每个级别内的帐户比不同级别的帐户更有可能具有相似的连接。我们通过表明更接近组织核心的级别显示出更多的部门同质性但更少的三元封闭性，以及每个级别如何由非常不同的群体结构组成，来说明这些差异对应用研究的影响。我们的结果表明，仅从单个组织级别分析帐户、将所有级别分组或排除某些级别的常见做法可能会导致对组织在社交媒体上的表现方式的理解出现偏差。

探索自闭症儿童的注视模式：聚类、可视化和预测

分类： 计算机视觉和模式识别, 人工智能, 人机交互

作者： Weiyan Shi, Haihong Zhang, Jin Yang, Ruiqing Ding, YongWei Zhu, Kenny Tsu Wei Choo

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11744v1

摘要： 自闭症谱系障碍 (ASD) 显着影响儿童的社交和沟通能力，眼动追踪通常通过识别相关的非典型凝视模式作为诊断工具。传统方法需要手动识别注视模式中的兴趣区域，从而降低了 ASD 受试者注视行为分析的性能。为了解决这一局限性，我们提出了一种新方法来自动分析自闭症儿童的凝视行为，具有极高的准确性。具体来说，我们首先应用并优化七种聚类算法来自动对注视点进行分组，以将自闭症谱系障碍受试者与典型发育中的同龄人进行比较。随后，我们提取 63 个重要特征来完整描述模式。这些特征可以描述 ASD 诊断和注视模式之间的相关性。最后，利用这些特征作为先验知识，我们训练多个预测机器学习模型，根据他们的注视行为来预测和诊断 ASD。为了评估我们的方法，我们将我们的方法应用于三个 ASD 数据集。实验和可视化结果证明了聚类算法在分析自闭症儿童独特注视模式方面的改进。此外，这些预测机器学习模型在用于 ASD 诊断的自动构建凝视点特征领域实现了最先进的预测性能 ($81%$ AUC)。我们的代码可在 \url{https://github.com/username/projectname} 获取。

HARP：用于多智能体强化学习的人辅助重组与排列不变批评

分类： 机器学习, 人工智能, 人机交互, 多代理系统

作者： Huawen Hu, Enze Shi, Chenxi Yue, Shuocun Yang, Zihao Wu, Yiwei Li, Tianyang Zhong, Tuo Zhang, Tianming Liu, Shu Zhang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11741v1

摘要： 人机循环强化学习集成了人类专业知识，以加速代理学习并在复杂领域提供关键指导和反馈。然而，许多现有方法侧重于单代理任务，并且在训练过程中需要持续的人工参与，这显着增加了人工工作量并限制了可扩展性。在本文中，我们提出了 HARP（具有排列不变批评的人工辅助重组），这是一种专为面向群体的任务而设计的多智能体强化学习框架。 HARP 将自动代理重组与部署期间的战略人工协助相结合，使非专家能够以最少的干预提供有效的指导。在训练期间，代理动态调整其分组以优化协作任务的完成。部署后，它们会积极寻求人类帮助，并利用排列不变组批评家来评估和完善人类建议的分组，从而允许非专家用户贡献有价值的建议。在多种协作场景中，我们的方法能够利用非专家的有限指导并提高性能。该项目可以在 https://github.com/huawen-hu/HARP 找到。

揭示大语言模型角色扮演中检测角色知识错误的挑战

分类： 计算和语言, 人机交互

作者： Wenyuan Zhang, Jiawei Sheng, Shuaiyi Nie, Zefeng Zhang, Xinghua Zhang, Yongquan He, Tingwen Liu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11726v1

摘要： 大语言模型（LLM）角色扮演受到了广泛的关注，其中真实的角色知识对于构建现实的LLM角色扮演代理至关重要。然而，现有的工作通常忽视了大语言模型在扮演角色时检测角色已知知识错误（KKE）和未知知识错误（UKE）能力的探索，这将导致角色可训练语料库的自动构建质量低下。在本文中，我们提出了一个探测数据集来评估大语言模型检测 KKE 和 UKE 错误的能力。结果表明，即使是最新的大语言模型也很难有效地检测这两类错误，特别是在涉及熟悉的知识时。我们尝试了各种推理策略，并提出了一种基于代理的推理方法——自我回忆和自我怀疑（S2RD），以进一步探索提高错误检测能力的潜力。实验表明，我们的方法有效提高了大语言模型检测错误字符知识的能力，但这仍然是一个需要持续关注的问题。

OSINT 诊所：共同设计用于漏洞评估的人工智能增强协作 OSINT 调查

分类： 人机交互

作者： Anirban Mukhopadhyay, Kurt Luther

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11672v1

摘要： 小型企业需要漏洞评估来识别和减轻网络风险。网络安全诊所通过为学生提供实践经验来提供解决方案，同时向当地组织提供免费的漏洞评估。为了扩展这个模型，我们提出了一个开源情报（OSINT）诊所，学生仅使用公开数据进行评估。我们通过解决技术和协作挑战来提高 OSINT 诊所的调查质量。在 2023-24 学年期间，我们与六名学生进行了一项三阶段的协同设计研究。我们的研究确定了开源情报调查中的关键挑战，并探讨了生成式人工智能如何解决这些性能差距。我们基于人工智能探针和协作平台功能的使用，开发了有效人工智能集成的设计思路。三个小企业的试点项目强调了人工智能在简化调查方面的实际好处和局限性，包括隐私问题和监控进展的困难。

从数据故事到对话：生成式人工智能代理和数据故事讲述在增强数据可视化理解方面的随机对照试验

分类： 人机交互

作者： Lixiang Yan, Roberto Martinez-Maldonado, Yueqiao Jin, Vanessa Echeverria, Mikaela Milesi, Jie Fan, Linxuan Zhao, Riordan Alfredo, Xinyu Li, Dragan Gašević

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11645v1

摘要： 生成人工智能（GenAI）代理提供了一种潜在的可扩展方法来支持理解复杂的数据可视化，这是许多人都难以掌握的技能。虽然数据讲故事已被证明是有效的，但几乎没有证据表明 GenAI 代理的相对有效性。为了解决这一差距，我们对 141 名参与者进行了一项随机对照研究，以比较被动（简单地回答参与者有关可视化的问题）和主动（注入脚手架问题来指导参与者完成可视化）促进的数据对话的有效性和效率。 GenAI 代理反对数据讲故事，以增强他们对数据可视化的理解。在干预之前、期间和之后测量理解力。结果表明，被动 GenAI 智能体在干预期间和干预后都可以提高理解能力，类似于数据讲故事。值得注意的是，与被动 GenAI 代理和独立数据讲故事相比，主动 GenAI 代理在干预后显着增强了理解力，无论参与者的可视化素养如何，这表明持续的改进和学习。

设计多模式矢量搜索应用程序的界面

分类： 信息检索, 人机交互, H.5.2; H.1.1; H.1.2; H.3.3

作者： Owen Pendrigh Elliott, Tom Hamer, Jesse Clark

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11629v1

摘要： 多模态向量搜索通过提供传统词汇搜索引擎中不可能实现的众多功能，为信息检索提供了一种新的范例。虽然多模态矢量搜索可以被视为这些传统系统的替代品，但通过利用多模态搜索的独特功能可以显着增强体验。任何信息检索系统的核心都是表达信息需求的用户，具有单个搜索栏的传统用户界面允许用户有效地与词汇搜索系统交互，但对于多模式向量搜索来说不一定是最佳的。在本文中，我们利用 CLIP 模型探索多模态向量搜索应用程序的新颖功能，并提出实现和设计模式，以更好地允许用户表达他们的信息需求并在信息检索上下文中与这些系统有效交互。

三自由度软连续动觉触觉显示器，用于通过手指感觉替代进行遥控操作

分类： 机器人技术, 人机交互, 系统与控制, 系统与控制

作者： Jiaji Su, Kaiwen Zuo, Zonghe Chua

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11606v1

摘要： 感觉替代是在时间延迟下向远程操作员显示稳定触觉反馈的有效方法。手指的关节活动度很高，可以感知多个方向的运动和力，这使其成为基于动觉反馈的感觉替代的有希望的位置。然而，现有的手指动觉设备要么仅提供单自由度反馈，要么体积庞大，要么力输出低。软气动执行器具有高功率密度，使其适合以紧凑的外形尺寸实现高力动觉反馈。我们提出了一种用于食指的软气动手持式动觉反馈装置，该装置使用恒定曲率运动学模型进行控制。 \changed{其横向位置和受力范围分别为+-3.18mm和+-1.00N，纵向为+-4.89mm和+-6.01N，表明其高功率密度和紧凑性。运动学模型的平均开环径向位置和力精度分别为0.72mm和0.34N。}其3Hz带宽使其适合软环境中的中速触觉交互。我们展示了我们的设备的三维动觉力反馈能力，用于在虚拟遥控场景中索引数字处的感觉替代。

对此做出反应！人类如何使用非语言行为挑战交互式代理

分类： 人机交互

作者： Chuxuan Zhang, Bermet Burkanova, Lawrence H. Kim, Lauren Yip, Ugo Cupcic, Stéphane Lallée, Angelica Lim

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11602v1

摘要： 人们如何用自己的脸和身体来测试机器人的交互能力？创造生动、可信的代理通常被视为机器人和虚拟代理的目标，但可信度很容易被打破。在这项绿野仙踪 (WoZ) 研究中，我们观察了 20 名参与者和 6 种类型的代理人之间的 1169 次非语言互动。我们收集了参与者用来在身体、情感和社交方面挑战角色的非语言行为。参与者与人形和非人形形式自由互动：机器人、人类、企鹅、河豚、香蕉和厕所。我们提出了人类行为密码本，其中包含人类用来测试虚拟角色的 188 种独特非语言行为。从视频观察中得出的见解和设计策略旨在帮助构建更多具有交互意识和可信的机器人，特别是当人类将它们推向极限时。

探索 AR 引导精神运动任务的专业维度

分类： 人机交互

作者： Steven Yoo, Casper Harteveld, Nicholas Wilson, Kemi Jona, Mohsen Moghaddam

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11599v1

摘要： 本研究旨在探讨新手和专家在增强现实 (AR) 指导下执行复杂的精神运动任务时有何不同，重点关注决策和技术熟练程度。根据预问卷评估参与者的精密检测技术技能和理论知识，将参与者分为新手组和专家组。参与者完成了一份研究后调查问卷，评估认知负荷 (NASA-TLX)、自我效能、HoloLens 2 和 AR 应用程序的体验以及一般反馈。我们使用来自 AR 设备和可穿戴设备的多模态数据（包括手部跟踪、皮肤电反应和视线跟踪）来衡量关键性能指标。我们发现，在执行技术任务时，专家在决策速度、效率、准确性和灵活性方面明显优于新手。新手在 NASA-TLX 中的感知表现与 GSR 幅度之间表现出正相关，表明较高的感知表现与增加的生理应激反应相关。这项研究为设计多维专业知识估计模型提供了基础，以实现个性化的工业 AR 培训系统。

平衡最优性和多样性：通过生成策展以人为本的决策

分类： 机器学习, 人机交互, 优化与控制

作者： Michael Lingzhi Li, Shixiang Zhu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11535v1

摘要： 数据可用性的激增给决策者带来了大量的选择。虽然现有方法侧重于基于可量化指标优化决策，但实际决策通常需要平衡可衡量的定量标准与更广泛背景下嵌入的不可衡量的定性因素。在这种情况下，算法可以生成高质量的推荐，但最终的决定取决于人类，人类必须权衡这两个维度。我们将在这种情况下选择最佳算法建议集的过程定义为以人为中心的决策。为了应对这一挑战，我们引入了一种称为生成策展的新颖框架，它通过整合定量和定性方面来优化决策选项的真正合意性。我们的框架使用高斯过程对未知的定性因素进行建模，并得出平衡定量最优性与定性多样性的多样性度量。这种权衡使得能够生成多样化、接近最优的操作的可管理子集，这些操作对未知的定性偏好具有鲁棒性。为了操作这个框架，我们提出了两种实现方法：一种生成神经网络架构，它产生一个分布 $\pi$ 以有效地采样一组不同的接近最优的动作，以及一种顺序优化方法，用于迭代生成可以轻松合并的解决方案转化为复杂的优化公式。我们使用广泛的数据集验证了我们的方法，证明了其在增强各种复杂环境中的决策过程方面的有效性，对政策和管理具有重大影响。

利用人工智能生成的情感自我声音来推动人们走向理想的自我

分类： 人机交互

作者： Cathy Mengying Fang, Phoebe Chua, Samantha Chan, Joanne Leong, Andria Bao, Pattie Maes

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11531v1

摘要： 由过去的经历塑造的情绪会显着影响决策和目标追求。传统的个人发展认知行为技术依赖于心理意象来想象理想的自我，但对于那些难以想象的人来说可能效果较差。本文介绍了情感自我语音（ESV），这是一种结合情感表达语言模型和语音克隆技术的新颖系统，可以用用户自己的声音呈现定制的响应。我们在一项有 60 名参与者参加的研究中调查了 ESV 推动个人走向理想自我的潜力。在所有三种条件（ESV、纯文本和心理想象力）中，我们观察到弹性、信心、动机和目标承诺都有所增加，但 ESV 条件被认为具有独特的吸引力和个性化。我们讨论了设计生成的自我语音系统作为不同场景的个性化行为干预的含义。

人工智能建议使写作趋向西方风格并减少文化差异

分类： 人机交互, 人工智能

作者： Dhruv Agarwal, Mor Naaman, Aditya Vashistha

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11360v1

摘要： 大型语言模型 (LLM) 越来越多地集成到日常产品和服务中，例如编码工具和写作助手。随着这些嵌入式人工智能应用程序在全球范围内部署，人们越来越担心这些应用程序背后的人工智能模型优先考虑西方价值观。本文研究了当以西方为中心的人工智能模型向来自不同文化背景的用户提供写作建议时会发生什么。我们对来自印度和美国的 118 名参与者进行了一项跨文化对照实验，他们在有或没有人工智能建议的情况下完成了基于文化的写作任务。我们的分析表明，与印度人相比，人工智能为美国人带来了更大的效率提升。此外，人工智能的建议引导印度参与者采用西方的写作风格，不仅改变了书写内容，还改变了书写方式。这些发现表明，以西方为中心的人工智能模型使写作同质化为西方规范，减少了区分文化表达的细微差别。

萍！您的食物准备好了：比较 3D AR 烹饪环境中的不同通知技术

分类： 人机交互

作者： Aditya Raikwar, Lucas Plabst, Anil Ufuk Batmaz, Florian Niebling, Francisco R. Ortega

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11357v1

摘要： 在增强现实设备上实现视觉和音频通知是直观且易于使用的界面的关键要素。在本文中，我们探索了通过视觉和音频通知创建直观的界面。该研究评估了三种情况下的用户表现和偏好：固定位置的视觉通知、物体上方的视觉通知以及无单声道声音的视觉通知。用户的任务是在名为 ARtisan Bistro 的开源增强现实沙箱环境中烹饪和为客户提供服务。结果表明，对象上方的视觉通知与本地化音频反馈相结合是参与者最有效和首选的方法。研究结果强调了 AR 中视觉和音频通知的战略布局的重要性，为工程师和开发人员设计直观的 3D 用户界面提供了见解。

用于标点符号恢复的自发非正式语音数据集

分类： 计算和语言, 人机交互, 机器学习, 声音, 音频和语音处理

作者： Xing Yi Liu, Homayoon Beigi

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11241v1

摘要： 目前，标点符号恢复模型几乎仅在结构良好、脚本化的语料库上进行评估。另一方面，现实世界的 ASR 系统和后处理管道通常适用于具有明显不规则性、口吃和偏离完美语法的自发语音。为了解决这种差异，我们引入了 SponSpeech，这是一个源自非正式语音源的标点符号恢复数据集，其中包括标点符号和大小写信息。除了公开发布数据集之外，我们还提供了一个可用于生成更多数据的过滤管道。我们的过滤管道检查语音音频和转录文本的质量。我们还精心构建了一个“具有挑战性”的测试集，旨在评估模型利用音频信息来预测语法上不明确的标点符号的能力。SponSpeech 以及所有代码可在 https://github.com/GitHubAccountAnonymous/PR 上获取。数据集构建和模型运行。

使用联合分析对生物识别系统进行以人为中心的风险评估

分类： 计算机视觉和模式识别, 密码学和安全, 人机交互

作者： Tetsushi Ohki, Narishige Abe, Hidetsugu Uchida, Shigefumi Yamada

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11224v1

摘要： 生物识别系统以其便利性而闻名，被广泛应用于各个领域。然而，根据认证算法和部署环境的不同，它们的安全性面临风险。当前的风险评估方法在纳入攻击者动机的关键因素方面面临着重大挑战，导致评估不完整。本文提出了一种新颖的以人为中心的风险评估框架，使用联合分析来量化风险因素（例如监控摄像头）对攻击者动机的影响。我们的框架结合错误接受率 (FAR) 和攻击概率来计算风险值，从而可以跨用例进行全面比较。对 600 名日本参与者的调查证明了我们方法的有效性，显示了安全措施如何影响攻击者的动机。这种方法可以帮助决策者定制生物识别系统，以增强安全性，同时保持可用性。

迈向合乎道德的个人人工智能应用：具有长期记忆的人工智能助手的实际考虑

分类： 计算机与社会, 人工智能, 人机交互

作者： Eunhae Lee

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11192v1

摘要： 个人人工智能伴侣和助手是长期记忆 (LTM) 功能日益增长的应用领域之一。个人人工智能伴侣和助手能够保留过去的交互并结合其背景，并适应用户的偏好，有望彻底改变我们与人工智能交互的方式，并有望成为个人和专业环境中不可或缺的一部分。然而，这一进步带来了新的挑战和漏洞，需要仔细考虑这些系统的部署和广泛使用。本文的目标是探索使用整体评估方法构建和部署具有 LTM 功能的个人 AI 应用程序的更广泛影响。这将通过三种方式完成：1）审查大型语言模型中 LTM 的技术基础，2）调查当前的个人人工智能伴侣和助手，3）分析部署和使用这些应用程序的关键考虑因素和影响。

用于骨科手术数字孪生沉浸式教育的虚拟现实

分类： 人机交互

作者： Jonas Hein, Jan Grunder, Lilian Calvet, Frédéric Giraud, Nicola Alessandro Cavalcanti, Fabio Carrillo, Philipp Fürnstahl

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11014v1

摘要： 虚拟现实技术与手术数字孪生 (SDT) 集成后，可为医疗培训和手术规划提供巨大潜力。我们推出了 SurgTwinVR，这是一款 VR 应用程序，可让用户沉浸在 SDT 中，并使他们能够导航手术环境的高保真虚拟副本。 SurgTwinVR 是第一个利用动态 3D 环境的 VR 应用程序，该环境是真实手术的克隆，涵盖整个手术场景，包括外科医生、解剖结构和器械。我们的系统利用 SDT，对实时渲染和功能进行了重要改进，以展示此类应用程序在外科教育中的潜在优势。

格式塔驱动的增强准直器小部件，用于在 3D 空间中精确定位 5 自由度牙科钻具

分类： 人机交互

作者： Mine Dastan, Antonio E. Uva, Michele Fiorentino

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10960v1

摘要： 牙科种植中的钻具定位是一项具有挑战性的任务，需要 5DOF 精度，因为围绕工具轴的旋转不会产生影响。这项工作通过新颖的增强准直小部件（ACW）改进了最先进的准静态视觉元素，这是一种基于格式塔具体化（人类对几何元素进行分组的能力）的位置和角度误差可视化的交互式工具。用户可以以快速、预先注意的方式寻找五个（三个位置和两个旋转）错误组件小部件 (ECW) 的准直，利用三个关键方面：组件分离和具体化、错误视觉放大以及动态隐藏准直组件。我们在受试者内 (N=30) 用户测试中使用 32 个植入目标将 ACW 与黄金标准进行比较，测量时间、误差和可用性。 ACW 在位置精度 (+19%) 和角度精度 (+47%) 方面表现明显更好，并且脑力需求 (-6%) 和挫败感 (-13%) 更少，但任务时间预计会增加 (+59%) ）和实物需求（+64%）。采访表明 ACW 是主要偏好，并且在美学上比 GSW 更令人愉悦，将其视为种植学的新黄金标准，而且对于 5DOF 定位至关重要的其他应用也是如此。

ASHABot：由大语言模型支持的聊天机器人，支持社区卫生工作者的信息需求

分类： 人机交互

作者： Pragnya Ramjee, Mehak Chhokar, Bhuvan Sachdeva, Mahendra Meena, Hamid Abdullah, Aditya Vashistha, Ruchit Nagar, Mohit Jain

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10913v1

摘要： 社区卫生工作者 (CHW) 提供最后一英里的医疗服务，但由于医疗知识和培训有限而面临挑战。本文介绍了 ASHABot 的设计、部署和评估，ASHABot 是一个由大语言模型支持、专家参与、基于 WhatsApp 的聊天机器人，旨在满足印度社区卫生工作者的信息需求。通过对社区卫生工作者及其主管的访谈以及日志分析，我们研究了影响他们与 ASHABot 互动的因素，以及 ASHABot 在满足社区卫生工作者信息需求方面的作用。我们发现 ASHABot 为社区卫生工作者提供了一个私人渠道，让他们可以提出一些他们犹豫是否要问主管的基本和敏感问题。社区卫生工作者信任他们在 ASHABot 上收到的信息，并将其视为权威资源。社区卫生工作者的主管通过对 ASHABot 未能回答的问题提供答案来扩展他们的知识，但他们担心对他们的工作量和责任增加的要求。我们强调将大语言模型定位为社区医疗保健生态系统中的补充性易错资源，而不是作为主管支持的替代品。

深色模式对大学生的影响探讨：人机界面分析

分类： 人机交互, 计算工程、金融和科学

作者： Awan Shrestha, Sabil Shrestha, Biplov Paneru, Bishwash Paneru, Sansrit Paudel, Ashish Adhikari, Sanjog Chhetri Sapkota

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10895v1

摘要： 这项研究深入探讨了黑暗模式对大学学生的影响。研究了在电子学习网站中实施暗模式及其对用户行为的影响。学生们在屏幕前花费更多的时间学习，尤其是在大流行之后。深夜屏幕发出的蓝光会影响身体的昼夜节律，从而对人类健康产生负面影响，包括眼睛疲劳和头痛。使用调查、访谈、评估方法和设计原则等不同的人机交互技术，分析了学生在与各种电子学习网站互动时（尤其是在深夜）所面临的困难。黑暗模式是一个选项，它通过将 UI 的较亮元素更改为昏暗的友好环境来创建伪倒置自适应界面。据说，使用深色模式可以减少蓝光的发出量，对眼睛疲劳的学生有好处。通过调查研究了学生与黑暗模式的互动，并创建了一个以黑暗模式为主题的电子学习网站。根据学生的评论，研究人员研究了黑暗模式对电子学习网站中人机交互的影响。调查结果表明，学生对深色模式有明显的偏好：79.7% 的调查参与者更喜欢手机上的深色模式，61.7% 的人表示他们有兴趣看到这一功能添加到电子学习网站中。

SIFToM：遵循心理理论的强有力的口头指导

分类： 机器人技术, 人工智能, 人机交互, 多代理系统

作者： Lance Ying, Jason Xinyu Liu, Shivam Aarya, Yizirui Fang, Stefanie Tellex, Joshua B. Tenenbaum, Tianmin Shu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10849v1

摘要： 口头语言指令在代理协作中无处不在。然而，在人机协作中，人类语音的识别准确性往往受到各种语音和环境因素的影响，例如背景噪声、说话者的口音和发音错误。当面对嘈杂或陌生的听觉输入时，人类利用上下文和先验知识来消除刺激的歧义并采取务实的行动，这一过程在认知科学中被称为自上而下的处理。我们提出了一种认知启发模型，即通过心理理论进行语音指令（SIFToM），通过推断人类的目标和联合计划作为语音感知和理解的先验，使机器人能够在不同的语音条件下务实地遵循人类指令。我们在模拟家庭实验 (VirtualHome 2) 中测试 SIFToM。结果表明，SIFToM 模型的性能优于最先进的语音和语言模型，在执行具有挑战性的语音指令任务时接近人类水平的准确性。然后，我们在用于早餐准备任务的移动机械手上展示其任务规划级别的能力。

深色模式还是浅色模式？探索对比极性对不同年龄段可视化表现的影响

分类： 人机交互

作者： Zack While, Ali Sarvghad

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10841v1

摘要： 本研究探讨了正对比极性和负对比极性（即亮模式和暗模式）对年轻人和成年后期 (PLA) 表现的影响。在一项有 134 名参与者（69 名 60 岁以下，66 名 60 岁以上）的众包研究中，我们评估了他们在三种常见可视化类型（条形图、线形图、散点图）和两种对比极性（正和负）中执行分析任务的准确性和时间。我们观察到，在两个年龄组中，导致更好表现和由此产生的改善程度的极性因个人而异，每种极性使相当比例的参与者受益。然而，带来更好性能的对比极性并不总是与他们偏好的极性相匹配。此外，我们观察到对比极性的选择对时间的影响与可视化类型的选择相似，导致平均百分比差异约为 36%。这些发现表明，总体而言，对比极性对视觉分析性能的影响不会随着年龄的增长而发生明显变化。此外，他们强调了在两种对比极性下提供可视化的重要性，以更好地支持具有不同需求的广大受众。这项工作的补充材料可以在 \url{https://osf.io/539a4/} 找到。

基于定性研究的分层任务交互式任务学习界面设计的改进

分类： 人机交互, H.5.2

作者： Jieyu Zhou, Christopher MacLellan

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10826v1

摘要： 交互式任务学习（ITL）系统从自然语言交互中的人类指令中获取任务知识。用于分层任务的 ITL 代理的交互设计仍然未知。本文研究了游戏的 Verbal Apprentice Learner（VAL）作为 ITL 的例子，并对用户研究数据进行定性分析，以提供有关对话语言类型、任务指导策略和错误处理的设计见解。然后，我们提出了一种界面设计：可编辑层次结构知识（EHK），作为层次任务的 ITL 系统的通用探针。

用于空间计算应用的上下文相关的可交互图形用户界面元素检测

分类： 软件工程, 人机交互, D.2.5; H.5.1; H.5.2

作者： Shuqing Li, Binchang Li, Yepang Liu, Cuiyun Gao, Jianping Zhang, Shing-Chi Cheung, Michael R. Lyu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10811v2

摘要： 近年来，空间计算虚拟现实（VR）作为一项变革性技术兴起，为用户提供跨多元化虚拟环境的沉浸式交互体验。用户可以通过立体三维 (3D) 图形用户界面 (GUI) 上的可交互 GUI 元素 (IGE) 与 VR 应用程序进行交互。这些 IGE 的准确识别非常有用，可以作为许多软件工程任务的基础，包括自动化测试和有效的 GUI 搜索。用于 2D 移动应用程序的最新 IGE 检测方法通常基于大规模手动标记的 GUI 数据集来训练监督对象检测模型，通常具有一组预定义的可点击 GUI 元素类别（如按钮和旋转器）。由于存在多种挑战，包括开放词汇和异构 IGE 类别带来的复杂性、上下文敏感交互性的复杂性以及精确空间感知和视觉语义对齐的必要性，此类方法很难应用于 VR 应用程序中的 IGE 检测以获得准确的 IGE 检测结果。因此，有必要开展针对VR应用的IGE研究。在本文中，我们提出了第一个用于虚拟现实应用程序的零样本上下文敏感的交互式 GUI 元素检测框架，名为 Orienter。通过模仿人类行为，Orienter 在执行检测之前首先观察并理解 VR 应用场景的语义上下文。检测过程在反馈导向的验证和反射循环中迭代。具体来说，Orienter 包含三个组件，包括 (1) 语义上下文理解、(2) 反射引导的 IGE 候选检测和 (3) 上下文敏感的交互性分类。大量实验表明 Orienter 比最先进的 GUI 元素检测方法更有效。

ArticulatePro：气候数据探索任务中主动式和非主动式助手的比较研究

分类： 人机交互

作者： Roderick Tabalba, Christopher J. Lee, Giorgio Tran, Nurit Kirshenbaum, Jason Leigh

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10797v1

摘要： 自然语言接口 (NLI) 和大型语言模型 (LLM) 的最新进展改变了我们处理 NLP 任务的方法，使我们能够更多地关注基于语用学的方法。这种转变使人类和语音助手之间的交互变得更加自然，而这一直是实现的挑战。语用学描述了用户如何经常不按顺序说话、互相打断或在没有明确询问的情况下提供相关信息（最大数量）。为了探索这一点，我们开发了一个数字助理，它可以在数据探索任务期间不断监听对话并主动生成相关的可视化结果。在一项受试者内研究中，参与者在探索夏威夷气候数据门户 (HCDP) 时与主动和非主动版本的语音助手进行交互。结果表明，主动助理增强了用户参与度并促进了更快的洞察。我们的研究强调了务实、主动的人工智能在 NLI 中的潜力，并确定了其实施中的关键挑战，为未来的研究提供了见解。

大流行期间情绪对信息搜索和共享行为的影响

分类： 社交和信息网络, 人机交互

作者： Smitha Muthya Sudheendra, Hao Xu, Jisu Huh, Jaideep Srivastava

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10754v1

摘要： 我们提出了一种新方法，通过检查情绪来评估公众在 COVID-19 爆发期间的应对行为。具体来说，我们探讨了 (1) 公众情绪随着 COVID-19 危机的进展而变化，以及 (2) 公众情绪对其信息寻求、信息共享行为和遵守居家政策的影响。我们的研究基于评价倾向框架，通过微调预训练的 RoBERTa 模型来检测公众的情绪，并交叉分析第三方行为数据。我们证明了我们提出的方法在对现实世界危机：COVID-19 中公众的情绪和应对行为进行大规模检查方面的可行性和可靠性。该方法补充了先前的危机沟通研究，主要基于自我报告、小规模实验和调查数据。我们的研究结果表明，在大流行爆发阶段，愤怒和恐惧比公众经历的其他情绪更为突出。结果还表明，低确定性和被动情绪（例如悲伤、恐惧）的程度与信息寻求和信息共享行为的增加有关。此外，疫情期间的高确定性（例如愤怒）和低确定性（例如悲伤、恐惧）情绪与公众遵守居家令的情况相关。

使用任务上下文和解释来调整判断以提高人类推荐系统的性能

分类： 人机交互

作者： Divya Srivastava, Karen M. Feigh

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10717v1

摘要： 推荐系统虽然是一种强大的决策工具，但通常作为黑盒模型进行操作，因此人类操作员无法访问或解释其人工智能算法。这反过来又会给操作员带来困惑和沮丧，并导致不令人满意的结果。虽然可解释的人工智能领域通过专注于向人类操作员解释和解释算法，在应对这一挑战方面取得了显着的进步，但人类对推荐系统的理解仍然存在差距。本文研究了使用上下文、决策任务和环境的属性来协调人类和人工智能算法对世界状态的理解（即判断）的相对影响，从而与使用事后分析相比，提高联合人类推荐器的性能算法解释。我们进行了一项实证性的受试者间实验，要求参与者使用自动推荐系统来完成决策任务。我们操纵透明度的方法（共享上下文信息以支持共享判断与算法解释）并记录人类对任务、推荐系统及其整体表现的理解。我们发现这两种技术在最终决策上产生了同等的一致性。然而，那些看到任务上下文的人不太倾向于过度依赖推荐系统，并且能够更好地查明人工智能在什么情况下出错。两种方法都提高了参与者对自己决策的信心，并且同等程度地增加了心理需求，而挫败感则可以忽略不计。这些结果为事后解释提供了一种提高团队绩效的替代方法，并说明了在使用推荐系统时判断对人类认知的影响。

“数据另有说法”——迈向自动化事实核查和数据声明沟通

分类： 人机交互, H.5.2; I.7.2; I.2.7

作者： Yu Fu, Shunan Guo, Jane Hoffswell, Victor S. Bursztyn, Ryan Rossi, John Stasko

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10713v1

摘要： 事实核查数据声明需要数据证据检索和分析，如果手动完成，这可能会变得乏味且棘手。这项工作提出了 Aletheia，一种自动事实检查原型，旨在促进数据声明验证并增强数据证据沟通。为了进行验证，我们利用预先训练的 LLM 来解析证据检索的语义。为了有效地传达数据证据，我们设计了两种形式的表示：数据表和可视化，针对各种数据事实类型量身定制。此外，我们设计的交互展示了这些技术的实际应用。我们使用包含 400 个数据声明的精选数据集来评估两个核心 NLP 任务的性能，并通过对 20 名参与者进行的用户研究来比较两种关于观众评估时间、置信度和偏好的表示形式。该评估深入了解了使用大语言模型进行数据事实检查任务的可行性和瓶颈、使用数据表可视化的潜在优点和缺点，以及呈现数据证据的设计建议。

心感机器人：社交机器人驱动的儿童深层情感艺术反思

分类： 机器人技术, 人机交互

作者： Isabella Pu, Golda Nguyen, Lama Alsultan, Rosalind Picard, Cynthia Breazeal, Sharifa Alghowinem

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10710v1

摘要： 社交情感学习（SEL）技能对于儿童的发展至关重要，为未来的人际关系和学业成功奠定基础。使用艺术作为创作媒介或作为引发对话的话题是一种众所周知的 SEL 学习方法。同样，社交机器人也被用来教授 SEL 能力，例如同理心，但艺术与社交机器人技术的结合却很少被探索。在本文中，我们提出了一种新颖的儿童机器人交互，旨在通过社交机器人搭建的关于艺术的对话来培养同理心并提升 SEL 能力。参与者（N=11，年龄范围：7-11）与社交机器人谈论情感和中性艺术。对视频和语音数据的分析表明，这种交互设计成功地让孩子们参与了 SEL 技能的实践，例如情感识别和自我意识，并且当孩子们与机器人讨论情感艺术时，我们观察到更高的同理心推理率。这项研究表明，与社交机器人进行基于艺术的反思，尤其是情感艺术，可以培养儿童的同理心，而与社交机器人的互动有助于减轻在分享深刻或脆弱的情感时的不适。

模型在环 (MILO)：利用大语言模型加速多模式 AI 数据注释

分类： 人机交互, 人工智能, 计算和语言, 机器学习

作者： Yifan Wang, David Stevens, Pranay Shah, Wenwen Jiang, Miao Liu, Xu Chen, Robert Kuo, Na Li, Boying Gong, Daniel Lee, Jiabo Hu, Ning Zhang, Bob Kamma

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10702v1

摘要： 对人工智能训练数据不断增长的需求已将数据注释转变为一个全球性行业，但依赖人工注释者的传统方法通常耗时、劳动密集型，并且容易出现质量不一致的情况。我们提出了模型在环（MILO）框架，它将 AI/ML 模型集成到注释过程中。我们的研究引入了一种协作范式，利用了专业人类注释者和大型语言模型 (LLM) 的优势。通过使用大语言模型作为预注释和实时助手，并对注释者的反应进行判断，MILO 实现了人类注释者和大语言模型之间的有效交互模式。关于多模式数据注释的三项实证研究证明了 MILO 在减少处理时间、提高数据质量和增强注释者体验方面的功效。我们还引入了高质量的标准，用于对开放式注释进行灵活的评估和细粒度的反馈。 MILO 框架对于加速 AI/ML 开发、减少对人类注释的依赖以及促进人类和机器价值之间更好的一致性具有重要意义。

使用视觉变压器进行人机交互中的个性化语音情感识别

分类： 音频和语音处理, 人机交互, 机器人技术, 声音

作者： Ruchik Mishra, Andrew Frye, Madan Mohan Rayguru, Dan O. Popa

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10687v1

摘要： 情感是言语交流中的一个重要元素，因此了解人机交互 (HRI) 期间个人的情感变得势在必行。本文研究了视觉变换器模型，即 ViT（视觉变换器）和 BEiT（BERT 图像变换器预训练）管道在 HRI 语音情感识别（SER）中的应用。重点是通过在基准数据集上微调这些模型并利用集成方法来概括单个语音特征的 SER 模型。为此，我们收集了不同人类受试者与 NAO 机器人进行伪自然对话的音频数据。然后，我们对基于 ViT 和 BEiT 的模型进行微调，并在参与者未见过的语音样本上测试这些模型。在结果中，我们表明，在基准数据集上微调视觉变换器，然后使用这些已经微调过的模型或集成 ViT/BEiT 模型，可以让我们在从个人的四种主要情绪中识别四种主要情绪时获得最高的分类准确度。言语：与微调普通 ViT 或 BEiT 相比，中性、快乐、悲伤和愤怒。

让我们一起影响算法：数百万粉丝如何建立对算法的集体理解并组织协调的算法行动

分类： 人机交互, 计算机与社会, 社交和信息网络

作者： Qing Xiao, Yuhang Zheng, Xianzhe Fan, Bingbing Zhang, Zhicong Lu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10670v1

摘要： 先前的研究关注用户如何战略性地理解算法并有意识地与算法交互，但主要集中在个人层面，这使得很难探索社区内的用户如何形成对算法的集体理解并组织集体的算法行动。本研究通过为期两年的网络粉丝活动民族志调查，调查了43名经常组织大规模粉丝集体行动的核心粉丝及其对应的一般粉丝群体。本研究旨在揭示这些核心粉丝如何通过集体算法行动动员数百万普通粉丝。这些核心粉丝报告了用于说服普通粉丝的修辞策略、建立对算法的集体理解所采取的步骤，以及适应跨平台和文化的集体行动的协作过程。我们的研究结果强调了实现计算机支持的集体算法行动并将集体行动研究扩展到大规模领域目标算法的关键因素。

通过打孔注释有效地众包视觉重要性

分类： 人机交互

作者： Minsuk Chang, Soohyun Lee, Aeri Cho, Hyeon Jeon, Seokhyeon Park, Cindy Xiong Bearfield, Jinwook Seo

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10459v1

摘要： 我们引入了一种新颖的众包方法，用于通过打孔标签识别图形图像中的重要区域。生成连续数据的传统方法（例如视线跟踪器和基于鼠标的注释）在众包场景中可能不切实际。它们需要许多参与者，并且结果数据可能很嘈杂。相比之下，我们的方法首先用网格分割图形图像并丢弃一部分补丁（打孔）。然后，我们反复要求标记器验证每个有漏洞的注释，从而缩小注释范围，仅包含最重要的区域。该方法旨在通过标准化注释来减少众包中的注释噪声，同时提高标记效率和可靠性。基本图表的初步结果表明，打孔标签可以有效地查明关键区域。这也凸显了其在可视化研究中更广泛应用的潜力，特别是在研究大规模用户的图形感知方面。我们未来的工作旨在增强算法以实现更快的标记速度，并通过大规模实验证明其实用性。

绘制 EDA 图表：使用混合方法形式表征计算笔记本中交互式可视化的使用

分类： 人机交互

作者： Dylan Wootton, Amy Rae Fox, Evan Peck, Arvind Satyanarayan

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10450v1

摘要： 交互式可视化是探索性数据分析 (EDA) 的强大工具，但它们如何影响分析师对其数据的观察？我们与 13 名专业数据科学家进行了一项定性实验，使用 Jupyter 笔记本分析两个数据集，收集了丰富的交互痕迹和有声思考话语数据集。通过对参与者的话语进行定性编码，我们引入了一种形式主义，将 EDA 描述为一系列分析状态，其中每个状态由分析师构造的表示（例如，数据帧的输出、交互式可视化等）或分析师所做的观察（例如，关于缺失数据、变量之间的关系等）。通过将形式主义应用于数据集，我们发现，与静态可视化相比，交互式可视化平均可以更早、更复杂地洞察数据集属性之间的关系。此外，通过计算重访次数和表征多样性等指标，我们发现某些表征更多地充当 EDA 期间的“规划辅助工具”，而不是严格用于假设回答的工具。我们展示了这些度量如何帮助识别其他分析行为模式，例如“80-20 规则”，其中一小部分表示驱动了大多数观察结果。基于这些发现，我们提供了交互式探索性分析工具的设计指南，并反思了研究可视化在 EDA 中的作用的未来方向。

KoroT-3E：一种个性化的音乐助记工具，用于增强复杂计算机科学概念的记忆保留

分类： 人机交互

作者： Xiangzhe Yuan, Jiajun Wang, Siying Hu, Andrew Cheung, Zhicong Lu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10446v1

摘要： 随着对计算机科学 (CS) 技能的需求不断增长，掌握基本概念对于新手来说至关重要但又充满挑战。为了应对这一挑战，我们推出了 KoroT-3E，这是一种基于人工智能的系统，可以创建个性化的音乐助记符，以增强记忆保留和对 CS 中概念的理解。 KoroT-3E 使用户能够将复杂的概念转化为令人难忘的歌词，并创作适合他们音乐偏好的旋律。我们进行了半结构化访谈 (n=12)，以调查为什么新手学习者觉得记忆和理解 CS 概念具有挑战性。研究结果与建构主义学习理论相结合，建立了我们的初步设计，然后在与计算机科学教育专家协商后进行了完善。实证实验（n=36）表明，使用KoroT-3E的人（n=18）显着优于对照组（n=18），记忆效率提高，动机增强，学习体验积极。这些发现证明了将多模式生成人工智能整合到计算机科学教育中以创建个性化和交互式学习体验的有效性。

从大规模部署大语言模型支持的专家在环医疗保健聊天机器人中获得的经验教训

分类： 人机交互

作者： Bhuvan Sachdeva, Pragnya Ramjee, Geeta Fulari, Kaushik Murali, Mohit Jain

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10354v2

摘要： 大型语言模型 (LLM) 广泛应用于医疗保健领域，但幻觉、信息不完整和偏见等限制阻碍了其可靠性。为了解决这些问题，研究人员发布了“构建您自己的专家机器人”(BYOeB) 平台，使开发人员能够创建具有集成专家验证、由大语言模型支持的聊天机器人。 CataractBot 是其第一个实施方案，可为白内障手术问题提供经过专家验证的答案。试点评估显示了其潜力；然而，该研究的样本量较小，并且主要是定性的。在这项工作中，我们对 CataractBot 进行了为期 24 周的大规模部署，涉及 318 名患者和护理人员，发送了 1,992 条消息，其中 91.71% 的回复得到了 7 名专家的验证。对交互日志的分析显示，医疗问题的数量明显多于后勤问题，幻觉可以忽略不计，专家认为 84.52% 的医疗答案准确。随着知识库的扩展和专家修正，系统性能提高了19.02%，减少了专家的工作量。这些见解指导未来大语言模型支持的聊天机器人的设计。

共同设计动态混合现实钻头定位小部件：与牙医在现实设置中的协作方法

分类： 人机交互

作者： Mine Dastan, Michele Fiorentino, Elias D. Walter, Christian Diegritz, Antonio E. Uva, Ulrich Eck, Nassir Navab

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10258v1

摘要： 文献证明，混合现实 (MR) 可通过叠加 3D 小部件来支持精确的空间牙钻定位。尽管如此，关于widget的视觉设计和交互式用户反馈的相关知识仍然有限。因此，这项研究是由两名专家牙医和三名 MR 专家共同设计的 MR 钻具定位小部件做出的。协同设计的结果是两个静态小部件 (SW)：一个简单的入口点、一个目标轴和两个动态小部件 (DW)，即带和不带目标轴的动态错误可视化的变体（DWTA 和 DWEP）。我们在虚拟现实模拟中评估了共同设计的小部件，该虚拟现实模拟由跟踪的模型患者、虚拟放大镜和牙医脚踏板的真实设置支持。该用户研究涉及 35 名具有不同背景和多年经验的牙医。研究结果显示出显着的成果； DW 在位置和旋转精度方面优于 SW，尤其是对于年轻一代和有游戏经验的主体而言。用户偏好仍然是 DW (19) 而不是 SW (16)。然而，研究结果表明，精度与时间权衡呈正相关。体验后调查问卷 (NASA-TLX) 显示，与 SW 相比，DW 更能增加精神和身体需求、努力程度和挫败感。 DWEP和DWTA的比较表明，DW的复杂程度影响着时间、体力和脑力的需求。 DW 可扩展到需要精度的各种医疗和工业场景。

质疑人工智能：通过反思促进决策自主

分类： 人机交互

作者： Simon WS Fischer

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10250v1

摘要： 决策越来越受到机器建议的支持。例如，在医疗保健领域，医生使用临床决策支持系统来为患者寻找治疗方案。这样做时，人们可能会过度依赖这些系统，从而损害他们自己的推理过程。《欧洲人工智能法案》解决了过度依赖的风险，并在第 14 条中关于人类监督的假设，即人们应该能够“始终意识到自动依赖或过度依赖输出的可能趋势”。同样，欧盟高级专家组将人类机构和监督确定为值得信赖的人工智能的七个关键要求中的第一个。以下立场文件提出了一种概念方法来生成有关当前决策的机器问题，以促进决策自主权。这种参与反过来又允许对推荐系统进行监督。与决策相关的人机交互的系统性和跨学科研究（例如机器学习、用户体验设计、心理学、技术哲学）为以下问题提供了见解：如何加强人类监督并校准过度和不足的问题对机器建议的依赖；如何增加决策自主权，并意识到除了重复现状的自动建议之外的其他可能性？

空间环境中定位小部件的精确工具 (TOTTA)：系统回顾

分类： 人机交互

作者： Mine Dastan, Michele Fiorentino, Antonio E. Uva

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10239v1

摘要： TOTTA 概述了真实/虚拟工具 (TO) 朝向真实/虚拟目标 (TA) 的空间位置和旋转引导，这是混合现实应用中的一项关键任务。任务错误可能会对安全、性能和质量产生严重后果，例如在外科移植或工业维护场景中。 TOTTA 问题缺乏专门的研究，并且分散在具有孤立设计的不同领域。这项工作有助于对 TOTTA 视觉小部件进行系统回顾，研究了 24 篇论文中的 70 种独特设计。 TOTTA 通常由视觉重叠引导，即简单形状小部件的直观、预先注意的“准直”反馈：长方体、3D 轴、3D 模型、2D 十字准线、地球仪、四面体、线和平面。我们的研究发现，TO 和 TA 通常用相同的形状表示。它们通过拓扑元素（例如边、顶点、面）、颜色、透明度级别以及添加的形状、小部件数量和大小来区分。同时，一些设计通过文本、动态颜色、可听化和放大的图形可视化提供相对于 TO 和 TA 之间的距离的连续“操作反馈”。有些方法会触发离散的“TA 到达反馈”，例如颜色更改、添加声音、TA 形状变化和添加文本。我们发现缺乏黄金标准，包括在测试程序中，因为当前的标准仅限于具有不同且无法比较的设置（不同的目标配置、头像、背景等）的部分集。我们还发现参与者存在偏见：惯用右手、年轻男性、无肤色障碍。

手术机器人助手的语音控制界面

分类： 机器人技术, 人机交互

作者： Ana Davila, Jacinto Colan, Yasuhisa Hasegawa

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10225v1

摘要： 机器人辅助微创手术的传统控制界面给外科医生带来了巨大的认知负担。为了提高手术效率、外科医生与机器人的协作能力并减轻外科医生的负担，我们为手术机器人助手提供了一种新颖的语音控制界面。我们的系统将最先进的语音识别技术 Whisper 集成到 ROS 框架内，以实现实时解释和执行手术机械手控制的语音命令。该系统由语音识别模块、动作映射模块和机器人控制模块组成。实验结果证明了该系统的高精度和推理速度，并证明了其在组织三角测量任务中外科应用的可行性。未来的工作将集中于进一步提高其稳健性和临床适用性。

UADAPy：不确定性感知可视化和分析工具箱

分类： 人机交互

作者： Patrick Paetzold, David Hägele, Marina Evers, Daniel Weiskopf, Oliver Deussen

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10217v1

摘要： 当前的研究提供了传达不确定性的方法，并采用可视化管道的经典算法来考虑不确定性。各种现有的可视化框架包括呈现不确定数据的方法，但不提供针对不确定数据定制的转换技术。因此，我们提出了一个用于 Python 中不确定性感知数据分析的软件包（UADAPy），为可视化管道中的不确定数据提供了方法。我们的目标是提供一个平台，为不确定性算法和可视化的进一步集成奠定基础。它提供了通用的实用功能来支持不确定性感知可视化算法的研究，并使最终用户可以访问最先进的研究结果。该项目位于 https://github.com/UniStuttgart-VISUS/uadapy。

跨地区的算法行为：对 YouTube 搜索美国和南非之间的 COVID-19 错误信息进行地理位置审计

分类： 计算机与社会, 人工智能, 人机交互

作者： Hayoung Jung, Prerna Juneja, Tanushree Mitra

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10168v1

摘要： 尽管 YouTube 是在线查找健康相关信息的不可或缺的工具，但它仍因向全球用户传播 COVID-19 错误信息而面临批评。然而，之前的审计研究主要在北半球背景下调查 YouTube，往往忽视了南半球。为了弥补这一差距，我们在 YouTube 上进行了为期 10 天的基于地理位置的全面审核，以比较美国 (US) 和南非 (SA) 这两个受新冠肺炎疫情严重影响的国家，搜索结果中 COVID-19 错误信息的流行程度。分别在北半球和南半球大流行。对于每个国家/地区，我们选择了 3 个地理位置并放置了傀儡或模拟“真实”用户的机器人，这些傀儡在 10 天内收集了按 4 个搜索过滤器排序的 48 个搜索查询的搜索结果，产生了 915K 个结果的数据集。我们发现，排名前 10 的搜索结果中有 31.55% 包含 COVID-19 错误信息。在前 10 名搜索结果中，南非的机器人面临的错误信息搜索结果明显多于美国同行。总体而言，我们的研究强调了两国 YouTube 搜索算法行为的对比，强调该平台需要在全球不同地区一致监管算法行为。

识别手势和 LSF 共享发音特征的协议：在认知手势中的应用

分类： 人机交互

作者： Fanny Catteau, Claudia S Bianchini

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10079v1

摘要： 本文重点讨论法语和法语手语 (LSF) 中的共同言语手势 (CSG) 中的认知手势（即用于表达确定性或不确定性的手势）的发音特征。它提出了一种新的分析方法，依靠手动注释（使用 Typannot）和半自动注释（使用 AlphaPose）的互补使用来突出这些认知手势的运动学特征。所提出的方法允许分析认知背景下头部的屈曲/伸展运动。分析结果表明，在 CSG 和 LSF 中：（1）通过中立位置（即头部伸直，没有屈曲/伸展）的点头和高移动速度是确定性的标志； (2)头部位置远离中立位置并且低移动速度表明不确定性。这项研究是在 ANR LexiKHuM 项目的框架内进行的，该项目为人机交互开发动觉通信解决方案。

优化构音障碍唤醒词识别：SLT 2024 LRDWWS 挑战赛的端到端方法

分类： 声音, 人机交互, 音频和语音处理

作者： Shuiyun Liu, Yuxiang Kong, Pengcheng Guo, Weiji Zhuang, Peng Gao, Yujun Wang, Lei Xie

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10076v1

摘要： 语音已成为各种应用程序中广泛接受的用户界面。然而，对于患有构音障碍的人来说，他们言语中固有的变异性带来了重大挑战。本文提出了一种基于端到端预训练的双滤波器构音障碍唤醒词识别 (PD-DWS) 系统，用于 SLT 2024 低资源构音障碍唤醒词识别挑战。具体来说，我们的系统从两个关键角度提高了性能：音频建模和双滤波器策略。对于音频建模，我们提出了一种基于预训练 data2vec2 (d2v2) 的创新 2branch-d2v2 模型，该模型可以通过统一的多任务微调同时对自动语音识别 (ASR) 和唤醒词识别 (WWS) 任务进行建模范例。此外，引入了双过滤器策略来降低错误接受率（FAR），同时保持相同的错误拒绝率（FRR）。实验结果表明，我们的 PD-DWS 系统的 FAR 为 0.00321，FRR 为 0.005，在测试 B 评估集上的总分为 0.00821，在挑战赛中获得第一名。

MindGuard：通过 Edge LLM 实现无障碍且无 Sitgma 的心理健康急救

分类： 计算和语言, 人工智能, 人机交互

作者： Sijie Ji, Xinzhe Zheng, Jiawei Sun, Renqi Chen, Wei Gao, Mani Srivastava

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10064v1

摘要： 精神健康障碍是全世界最普遍的疾病之一，影响近四分之一的人。尽管影响广泛，但干预率仍低于 25%，这主要是由于诊断和干预都需要患者的大力配合。治疗率低背后的核心问题是耻辱感，这阻碍了超过一半的受影响者寻求帮助。本文介绍了 MindGuard，这是一种易于使用、无耻辱且专业的移动心理保健系统，旨在提供心理健康急救。 MindGuard 的核心是一个创新的边缘大语言模型，配备专业的心理健康知识，将客观的移动传感器数据与主观生态瞬时评估记录无缝集成，以提供个性化的筛查和干预对话。我们使用跨越四年的开放数据集和涉及 20 个受试者的各种移动设备的实际部署，对 MindGuard 进行了广泛的评估，为期两周。值得注意的是，MindGuard 取得了与 GPT-4 相当的结果，并且模型大小是其同类产品的 10 倍以上。我们相信，MindGuard 为移动大语言模型应用程序铺平了道路，通过用日常生活中的被动综合监控取代自我报告和干预对话，可能会彻底改变心理保健实践，从而确保可获取且无耻辱的心理健康支持。

情感分析综合研究：从基于规则到现代大语言模型系统

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互

作者： Shailja Gupta, Rajesh Ranjan, Surya Narayan Singh

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09989v1

摘要： 本文对人工智能 (AI) 和大型语言模型 (LLM) 背景下的情感分析进行了全面的调查。情感分析是自然语言处理 (NLP) 的一个重要方面，已经从传统的基于规则的方法显着发展到先进的深度学习技术。这项研究考察了情感分析的历史发展，强调了从基于词典和基于模式的方法到更复杂的机器学习和深度学习模型的转变。讨论了关键挑战，包括处理双语文本、检测讽刺和解决偏见。本文回顾了最先进的方法，确定了新兴趋势，并概述了推动该领域发展的未来研究方向。通过综合当前的方法并探索未来的机会，本调查旨在彻底了解人工智能和大语言模型背景下的情绪分析。

确保未来：探索机器人系统中的隐私风险和安全问题

分类： 机器人技术, 人机交互

作者： Diba Afroze, Yazhou Tu, Xiali Hei

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09972v1

摘要： 人工智能的集成，特别是机器人技术中的大型语言模型，导致了该领域的快速进步。我们现在观察到机器人在日常生活中的使用出现了前所未有的激增。机器人的发展和持续改进正以惊人的速度发展。尽管这些显着的进步促进并改善了我们的生活，但一些安全和隐私问题尚未得到解决。因此，在改善我们的体验的同时解决机器人系统的隐私和安全威胁变得至关重要。在本文中，我们的目标是介绍机器人技术的现有应用和威胁、预期的未来演变以及它们可能意味着的安全和隐私问题。我们提出了一系列开放性问题供研究人员和从业者进一步探索。

机器人错误对人类教学动力的影响

分类： 机器人技术, 人工智能, 人机交互

作者： Jindan Huang, Isaac Sheidlower, Reuben M. Aronson, Elaine Schaertl Short

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09827v1

摘要： 人机循环学习越来越受欢迎，特别是在机器人领域，因为它利用人类关于现实世界任务的知识来促进代理学习。当人们指导机器人时，他们会自然地调整自己的教学行为以响应机器人性能的变化。虽然当前的研究主要集中在从算法的角度整合人类教学动态，但从以人为中心的角度理解这些动态是一个尚未充分探索的基本问题。解决这个问题将增强机器人学习和用户体验。因此，本文探讨了影响人类教学动态性的一个潜在因素：机器人错误。我们进行了一项用户研究，以调查机器人错误的存在和严重程度如何影响人类教学动态的三个维度：反馈粒度、反馈丰富度和教学时间，无论是在强制选择还是开放式教学环境中。结果表明，人们倾向于花更多的时间来教有错误的机器人，对机器人轨迹的特定部分提供更详细的反馈，并且机器人的错误会影响老师对反馈方式的选择。我们的研究结果为设计有效的交互式学习界面和优化算法以更好地理解人类意图提供了宝贵的见解。

ELMI：交互式智能手语翻译歌词手语

分类： 人机交互, 人工智能, 计算和语言, H.5.2; I.2.8

作者： Suhyeon Yoo, Khai N. Truong, Young-Ho Kim

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09760v1

摘要： 聋哑人和听力正常的歌曲手语者在视频共享平台上变得普遍，但将歌曲翻译成手语仍然很麻烦且难以实现。我们的形成性研究揭示了歌曲签名者面临的挑战，包括翻译中的语义、句法、表达和节奏考虑。我们推出 ELMI，这是一种易于使用的歌曲签名工具，可帮助将歌词翻译成手语。 ELMI 使用户能够逐行编辑注释，并实时同步歌词突出显示和音乐视频片段。用户还可以与大型语言模型驱动的人工智能聊天，讨论含义、注释、表情和时机。通过对 13 名歌曲签名者进行的探索性研究，我们研究了 ELMI 如何促进他们的工作流程以及歌曲签名者如何利用和接收 LLM 驱动的聊天进行翻译。参与者们成功采用 ELMI 进行签名，并进行了积极的讨论。他们还报告说，他们的翻译信心和独立性有所提高，发现 ELMI 令人鼓舞、具有建设性且信息丰富。我们讨论了在文化敏感的歌曲签名翻译中利用大语言模型的设计含义。

AutoJournaling：在智能手机上利用 MLLM 的上下文感知日记系统

分类： 人机交互

作者： Tianyi Zhang, Shiquan Zhang, Le Fang, Hong Jia, Vassilis Kostakos, Simon D'Alfonso

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09696v1

摘要： 写日记有显着的好处，包括促进自我反思、提高写作技巧和帮助情绪监控。然而，许多人放弃了这种做法，因为传统的日记非常耗时，如果不及时记录，详细的生活事件可能会被忽视。鉴于智能手机是最广泛使用的娱乐、工作和社交设备，它们为创新日记方法提供了理想的平台。尽管数字表型分析无处不在，但使用数字表型分析（一种从数字设备中不引人注目地收集数据以深入了解心理和行为模式的方法）用于自动生成期刊的潜力在很大程度上尚未得到充分开发。在这项研究中，我们提出了 AutoJournaling，这是第一个通过收集和分析智能手机屏幕截图自动生成日记的系统。该系统捕捉生活事件和相应的情绪，为数字表型分析提供了一种新颖的方法。我们通过在五天内每 3 秒收集三名学生的屏幕截图来评估 AutoJournaling，证明其可行性和准确性。 AutoJournaling 是第一个利用无缝收集的屏幕截图进行日志生成的框架，通过数字表型分析提供对心理状态的新见解。

ExploreSelf：通过大型语言模型的自适应指导促进用户驱动的对个人挑战的探索和反思

分类： 人机交互, 人工智能, 计算和语言, H.5.2; I.2.7

作者： Inhwa Song, SoHyun Park, Sachin R. Pendse, Jessica Lee Schleider, Munmun De Choudhury, Young-Ho Kim

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09662v2

摘要： 事实证明，用语言表达压力经历可以改善身心健康，但人们在努力组织自己的思想和情绪时常常会脱离写作干预。反思性提示已被用来提供指导，大型语言模型 (LLM) 已证明具有提供定制指导的潜力。当前的系统常常限制用户引导其思考的灵活性。因此，我们推出了 ExploreSelf，这是一款由大语言模型驱动的应用程序，旨在帮助用户控制他们的反思之旅。 ExploreSelf 允许用户通过动态生成的问题获得自适应支持。通过对 19 名参与者进行的探索性研究，我们研究了参与者如何使用 ExploreSelf 探索和反思个人挑战。我们的研究结果表明，参与者重视指导性支持和控制反思之旅的自由之间的平衡，从而实现更深入的参与和洞察。基于我们的发现，我们讨论了设计大语言模型驱动的工具的影响，这些工具通过有效的反思实践促进用户赋权。

AACessTalk：通过情境指导和卡片推荐促进最少言语自闭症儿童与家长之间的沟通

分类： 人机交互, 人工智能, H.5.2; I.2.7

作者： Dasom Choi, SoHyun Park, Kyungah Lee, Hwajung Hong, Young-Ho Kim

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09641v2

摘要： 由于最低限度语言自闭症 (MVA) 儿童通过很少的言语和非语言暗示与父母交流，父母常常很难鼓励孩子表达微妙的情感和需求，并抓住他们微妙的信号。我们推出了 AACessTalk，这是一种基于平板电脑、以人工智能为媒介的通信系统，可促进 MVA 儿童和家长之间有意义的交流。 AACessTalk 为家长提供实时指导，让孩子参与对话，并反过来向孩子推荐上下文词汇卡。通过对 11 位 MVA 儿童家长进行为期两周的部署研究，我们研究了 AACessTalk 如何促进日常对话练习和相互参与。我们的研究结果显示，所有二人组的参与度都很高，导致对话和轮流的频率增加。 AACessTalk 还鼓励家长探索自己的互动策略，并赋予孩子更多的沟通自主权。我们讨论了设计技术对父母与 MVA 儿童互动中平衡沟通动态的影响。

用于基于脑电图的运动想象分类的时空曼巴网络

分类： 人机交互

作者： Xiaoxiao Yang, Ziyu Jia

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09627v1

摘要： 运动想象 (MI) 分类是脑机接口 (BCI) 的关键。直到最近几年，人们提出了许多模型，从通用空间模式（CSP）等经典算法到卷积神经网络（CNN）和 Transformer 等深度学习模型。然而，在有效提取脑电图（EEG）信号中固有的复杂时空信息时，这些模型在通用性、上下文性和可扩展性等方面表现出了局限性。为了解决这些限制，我们引入了时空 Mamba 网络 (STMambaNet)，这是一种利用 Mamba 状态空间架构的创新模型，擅长处理具有线性可扩展性的扩展序列。通过结合空间和时间 Mamba 编码器，STMambaNet 有效捕获空间和时间上的复杂动态，显着增强用于 MI 分类的 EEG 信号的解码性能。 BCI 竞赛 IV 2a 和 2b 数据集的实验结果证明了 STMambaNet 相对于现有模型的优越性，使其成为推进基于 MI 的 BCI 和改进现实世界 BCI 系统的强大工具。

ValueCompass：人类与人工智能协调的基本价值观框架

分类： 人机交互, 人工智能, 计算和语言

作者： Hua Shen, Tiffany Knearem, Reshmi Ghosh, Yu-Ju Yang, Tanushree Mitra, Yun Huang

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09586v1

摘要： 随着人工智能系统变得更加先进，确保其与不同的个人和社会价值观保持一致变得越来越重要。但我们如何才能捕捉人类的基本价值观并评估人工智能系统与这些价值观的一致程度呢？我们引入 ValueCompass，这是一个基于心理学理论和系统回顾的基本价值观框架，用于识别和评估人类与人工智能的一致性。我们应用 ValueCompass 来衡量人类和语言模型 (LM) 在四个现实世界中的价值一致性：协作写作、教育、公共部门和医疗保健。我们的研究结果揭示了人类和 LM 之间存在风险的不一致，例如 LM 同意“选择自己的目标”等价值观，而人类在很大程度上不同意这些价值观。我们还观察到不同插图的值有所不同，这强调了上下文感知人工智能调整策略的必要性。这项工作提供了对人类与人工智能协调的设计空间的见解，为开发负责任地反映社会价值观和道德的人工智能奠定了基础。

MindScape 研究：整合大语言模型和行为感知，打造个性化人工智能驱动的日记体验

分类： 人机交互, 人工智能, H.5.0; H.5.3; H.5.m; J.0

作者： Subigya Nepal, Arvind Pillai, William Campbell, Talie Massachi, Michael V. Heinz, Ashmita Kunwar, Eunsol Soul Choi, Orson Xu, Joanna Kuc, Jeremy Huckins, Jason Holden, Sarah M. Preum, Colin Depp, Nicholas Jacobson, Mary Czerwinski, Eric Granholm, Andrew T. Campbell

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09570v1

摘要： 大学生普遍存在心理健康问题，这凸显了采取有效干预措施来促进自我意识和整体福祉的必要性。 MindScape 通过将被动收集的行为模式（例如对话参与、睡眠和位置）与大型语言模型 (LLM) 相结合，开创了一种基于人工智能的日记的新颖方法。这种集成创造了高度个性化和情境感知的日记体验，通过将行为智能嵌入人工智能来增强自我意识和幸福感。我们对 20 名大学生进行了一项为期 8 周的探索性研究，展示了 MindScape 应用程序在增强积极情绪 (7%)、减少消极情绪 (11%)、孤独感 (6%) 以及焦虑和抑郁方面的功效，一周的效果显着- PHQ-4 分数每周下降（-0.25 系数），同时正念（7%）和自我反思（6%）有所改善。该研究强调了情境人工智能日记的优势，参与者特别欣赏 MindScape 应用程序提供的定制提示和见解。我们的分析还包括对人工智能驱动的情境提示与一般提示的反应进行比较、参与者反馈见解以及利用情境人工智能日记改善大学校园福祉的建议策略。通过展示情境人工智能日记支持心理健康的潜力，我们为进一步研究情境人工智能日记对心理健康和福祉的影响奠定了基础。

COMFORT：针对消费者医疗保健的基础模型的持续微调框架

分类： 机器学习, 人工智能, 人机交互

作者： Chia-Hao Li, Niraj K. Jha

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09549v1

摘要： 可穿戴医疗传感器 (WMS) 通过实现对用户生理信号的连续、实时监测，正在彻底改变智能医疗保健，特别是在消费者医疗保健领域。 WMS 和现代机器学习 (ML) 的集成为高效的早期疾病检测提供了前所未有的解决方案。尽管 Transformers 在各个领域取得了成功，但由于数据可访问性有限和隐私问题，其在智能医疗等敏感领域的应用仍未得到充分探索。为了弥合基于 Transformer 的基础模型和基于 WMS 的疾病检测之间的差距，我们提出了 COMFORT，一个针对消费者医疗保健的基础模型的持续微调框架。 COMFORT 引入了一种新方法，用于在大型生理信号数据集上预训练基于 Transformer 的基础模型，这些生理信号专门从使用商用 WMS 的健康个体收集。我们采用屏蔽数据建模（MDM）目标来预训练这个健康基础模型。然后，我们使用各种参数高效微调（PEFT）方法（例如低秩适应（LoRA）及其变体）对模型进行微调，以使其适应依赖于 WMS 数据的各种下游疾病检测任务。此外，COMFORT不断存储从PEFT算法获得的低秩分解矩阵，以构建多疾病检测库。 COMFORT 库可在边缘设备上实现可扩展且内存高效的疾病检测。我们的实验结果表明，COMFORT 实现了极具竞争力的性能，同时相对于传统方法减少了高达 52% 的内存开销。因此，COMFORT 为个性化和主动解决方案铺平了道路，从而为消费者医疗保健提供高效且有效的早期疾病检测。

服务互动中的纸笔仪式：高接触与高科技相结合的金融咨询会面

分类： 人机交互

作者： Mateusz Dolata, Doris Agotai, Simon Schubiger, Gerhard Schwabe

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09462v1

摘要： 咨询服务是专家和被咨询者之间仪式化的会面。双方之间富有同情心、高度接触的关系被认为是成功咨询会面的关键因素。为了促进高接触互动，顾问制定了强调每个客户和每次接触的独特个性的仪式。与此同时，银行或保险公司等组织推出了用于咨询服务的工具和技术，以在分支机构和顾问之间提供统一的体验和一致的质量。结果，顾问们陷入了咨询服务的高接触性和高科技方面之间的困境。这份手稿提出了一个适应高接触仪式和实践并将其与高科技协作相结合的系统。所提出的解决方案通过数字内容增强了纸笔实践，并提供了与现有仪式相一致的新材料性能。对现实抵押贷款咨询服务的评估揭示了混合现实方法在专业机构环境中应用的潜力。对对话的详细分析揭示了咨询服务如何通过精心的以仪式为导向的系统设计而变得同样高科技和高接触性。因此，本文提出了解决咨询服务中高接触性和高科技趋势之间紧张关系的解决方案。

当制度不适应时：就业顾问的应对策略

分类： 人机交互

作者： Mateusz Dolata, Birgit Schenk, Jara Fuhrer, Alina Marti, Gerhard Schwabe

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09457v1

摘要： 案例和知识管理系统分布在公共机构的前线。然而，此类系统专用于机构内部的协作，而不是用于与客户面对面的互动。如果用作一线协作资源，案例和知识管理系统可能会通过显示未经过滤的内部信息、泄露其他客户的私人数据或揭示一线员工的能力限制（如果他们无法解释某些内容）来干扰服务提供，或者他们的权威（如果他们不能推翻某些事情）。德国公共就业局的观察表明，就业顾问在面对面咨询中利用各种应对策略来扩展案例和知识管理系统以及考虑其使用的规则所设定的现有界限。对这些应对策略的分析揭示了影响就业顾问在与客户接触过程中行为的力量：顾问自身对工作的理解、客户的实际和感知的需求、政治使命以及内部规则。职业介绍所的。研究结果具有双重贡献：首先，它们通过说明社会福利机构的复杂性如何以单一的行为模式表现出来，为就业机构工作的讨论做出了贡献。其次，它们通过将顾问描述为主动且有意识的调解者而不是系统与客户之间的被动接口，为有关屏幕级官僚主义的讨论做出了贡献。

说服者的心理状态和特征如何塑造数字说服：从移动防盗遭遇中吸取的经验教训

分类： 人机交互

作者： Mateusz Dolata, Robert O. Briggs, Gerhard Schwabe

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09453v1

摘要： 说服可能是一个复杂的过程。说服者可能需要使用高度的敏感性来了解被说服者的状态、特征和价值观。他们必须驾驭人类互动的微妙领域。对说服系统的研究常常忽视说服的微妙本质，倾向于“一刀切”的方法，并冒着疏远某些用户的风险。本研究探讨了专业防盗顾问在说服客户加强家庭安全时所考虑的因素。它说明了顾问如何根据每个被建议者的状态和特征来调整他们的方法。具体来说，该研究揭示了顾问如何偏离预期和技术支持的做法，以适应其顾问的个人属性。它确定了可能调节说服努力有效性的多个特定于被咨询者的方面，并提出了解决这些差异的策略。这些发现对于设计依赖于对话说服模式的个性化说服系统相关。

生活在共享家庭环境中的人们的安全和隐私观点

分类： 人机交互

作者： Nandita Pattnaik, Shujun Li, Jason R. C. Nurse

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09363v1

摘要： 多用户家庭中人们的安全和隐私视角是一个不断增长的研究领域，许多研究人员反思了复杂的电力不平衡和所涉及设备的具有挑战性的访问控制问题。然而，这些研究主要集中在传统家庭环境中的多用户场景，而对其他类型的多用户家庭环境（例如没有家庭关系的同居者共享的房屋）进行了充分研究。本文通过对在线调查结果的定量和定性分析以及对 Reddit 上在线帖子样本的内容分析来弥补这一研究空白。它探讨了共享家庭用户的复杂角色，这些角色取决于共享家庭环境特有的各种因素，例如谁拥有什么家庭设备、多个用户如何使用家庭设备以及房东和房屋内的人之间更复杂的关系。共享房屋和同居者之间。一半 (50.7%) 的调查参与者认为共享家庭中的设备不如传统家庭中的设备安全。研究发现，这种看法在统计上与诸如担心设备在不在场时被篡改以及对其他同居者及其访客（缺乏）信任等因素显着相关。我们的研究揭示了多用户环境（例如ExternalPrimary-InternalPrimary）中的新用户类型和关系，同时分析了房东和共享家庭居民在共享家庭设备使用方面的关系。我们提出了一种针对共享家庭环境的威胁行为者模型，该模型重点关注共享家庭当前和过去的同居者可能的恶意行为，作为家庭环境中一种特殊类型的内部威胁。我们还建议进行进一步的研究，以了解同居者在引导和适应共享家庭环境的安全和隐私环境方面可以发挥的复杂作用。

你说什么或者你怎么说？预测真实对话和大语言模型生成的对话中的冲突结果

分类： 社交和信息网络, 人机交互

作者： Priya Ronald D'Costa, Evan Rowbotham, Xinlan Emily Hu

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09338v1

摘要： 当冲突升级时，是因为所说的话还是怎么说的？在冲突文献中，两种理论方法采取相反的观点：一种侧重于分歧的内容，另一种侧重于分歧的表达方式。本文旨在通过对 191 个通信特征（128 个与表达相关，63 个与内容相关）的计算分析来整合这两种观点。我们分析了来自 Reddit 的 1,200 个 GPT-4 模拟对话和 12,630 个现实世界讨论。我们发现，尽管最重要的特征有所不同，但表达特征可以更可靠地预测两种环境中的破坏性冲突结果。在 Reddit 数据中，轮流和对话平等等对话动态具有高度预测性，但在模拟对话中却无法预测。这些结果可能表明用语言模型模拟社交互动可能存在局限性，我们讨论了我们的发现对构建社交计算系统的影响。

青年数字福祉研究的跨学科视角：确定显着的发展、持续的差距和未来的方向

分类： 人机交互

作者： Katie Davis, Morgan Anderson, Chia-chen Yang, Sophia Choukas-Bradley, Beth T. Bell, Petr Slovak

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09267v1

摘要： 本文从开展这项工作的研究人员的角度，对青年数字福祉研究的关键见解、持续差距和未来路径进行了广泛、多学科的概述。

选择退出过程中的黑暗模式以及对加州消费者隐私法 (CCPA) 的遵守

分类： 人机交互

作者： Van Hong Tran, Aarushi Mehrotra, Ranya Sharma, Marshini Chetty, Nick Feamster, Jens Frankenreiter, Lior Strahilevitz

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09222v1

摘要： 为了保护消费者隐私，《加州消费者隐私法》(CCPA) 要求企业为消费者提供一种直接的方式来选择不出售和共享其个人信息。然而，企业对选择退出过程享有的控制权使他们能够对打算选择退出的消费者施加障碍，包括使用黑暗模式。加州隐私权法案 (CPRA) 加强了 CCPA 并明确禁止选择退出过程中的某些暗模式，受该法案颁布的推动，我们调查了选择退出过程中如何使用暗模式并评估其对 CCPA 法规的遵守情况。我们的研究表明，网站采用了各种深色图案。其中一些模式是 CCPA 明确禁止的；其他人显然利用了法律漏洞。尽管政策制定者最初努力限制黑暗模式，但仍有更多工作要做。

人工智能作为外星：在人机交互中培养高阶思维技能

分类： 人机交互

作者： Koji Yatani, Zefan Sramek, Chi-lan Yang

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09218v1

摘要： 随着包括生成式人工智能在内的人工智能 (AI) 技术不断发展，人们开始担心过度依赖人工智能，这可能会导致人类技能下降和认知参与度下降。过度依赖人工智能还会导致用户未经严格审查就接受人工智能给出的信息，造成负面后果，例如以幻觉内容误导用户等。本文介绍了 Extraheric AI，这是一种人机交互概念框架，可在任务完成过程中培养用户的高阶思维技能，例如创造力、批判性思维和解决问题的能力。与取代或增强人类认知的现有人机交互设计不同，超凡人工智能通过向用户提出问题或提供替代观点而不是直接答案来促进认知参与。我们讨论交互策略、符合认知负荷理论和布鲁姆分类法的评估方法以及未来的研究方向，以确保人类认知技能仍然是人工智能集成环境中的关键要素，促进人类与人工智能之间的平衡伙伴关系。

避难还是不避难：探索虚拟现实中不同模式对个人龙卷风缓解行为的影响

分类： 人机交互, J.4; K.4.1

作者： Jiuyi Xu, Tolulope Sanni, Ziming Liu, Ye Yang, Jiyoung Lee, Wei Song, Yangming Shi

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09205v1

摘要： 在自然灾害发生之前及时、充分的风险沟通可以减少极端天气事件造成的损失，并提供更有弹性的备灾能力。然而，现有的自然灾害风险沟通是抽象的、无效的、不具有沉浸感，有时甚至适得其反。利用虚拟现实 (VR) 进行自然灾害风险沟通，通过提供身临其境、引人入胜的体验，为现有风险沟通系统提供了一种有前途的替代方案。然而，目前尚不清楚虚拟现实中的不同模式如何影响个人与即将到来的自然灾害相关的缓解行为。此外，VR系统中不同方式的重复风险沟通如何导致风险习惯化的效果也尚不清楚。为了填补知识空白，我们开发了一个具有龙卷风风险沟通场景的 VR 系统，并进行了混合设计的人体实验（N = 24）。我们使用定量和定性结果全面调查了我们的研究。

紧急医疗服务的管理和可视化工具

分类： 人机交互

作者： Vincent Guigues, Anton Kleywegt, Victor Hugo Nascimento, Victor Salles Rodrigues, Thais Viana, Edson Medeiros

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09154v1

摘要： 本文描述了一种在线工具，用于可视化医疗紧急情况位置、随机生成的医疗紧急情况样本路径，以及在响应这些紧急情况的各种调度方法的控制下救护车移动的动画。该工具结合了用于预测紧急情况位置和呼叫到达时间的统计模型、紧急情况到达和救护车移动轨迹的模拟以及救护车响应时间分布等性能指标的计算和可视化。网站上提供了里约热内卢紧急医疗服务的数据。用户可以上传任何紧急医疗服务的紧急数据，然后可以使用可视化工具来探索上传的数据。用户还可以将统计工具和/或模拟工具与所提供的任何调度方法一起使用，然后可以使用可视化工具来探索计算输出。未来的增强功能包括用户能够将额外的调度算法嵌入到模拟中；然后，该工具可用于可视化通过新嵌入的算法获得的模拟结果。

与大语言模型的多模态融合用于自然对话中的参与度预测

分类： 人工智能, 计算和语言, 人机交互, 机器学习

作者： Cheng Charles Ma, Kevin Hyekang Joo, Alexandria K. Vail, Sunreeta Bhattacharya, Álvaro Fernández García, Kailana Baker-Matsuoka, Sheryl Mathew, Lori L. Holt, Fernando De la Torre

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09135v1

摘要： 在过去的十年中，可穿戴计算设备（“智能眼镜”）在传感器技术、设计和处理能力方面取得了显着的进步，开创了高密度人类行为数据的新时代。这些眼镜配备了可穿戴摄像头，为分析自然环境中个体互动时的非语言行为提供了独特的机会。我们的重点在于通过仔细检查言语和非言语线索来预测二元互动的参与度，旨在发现不感兴趣或困惑的迹象。利用此类分析可能会彻底改变我们对人类沟通的理解，促进专业环境中更有效的协作，通过同理心虚拟互动提供更好的心理健康支持，并增强那些有沟通障碍的人的可及性。在这项工作中，我们收集了一个包含 34 位参与随意二元对话的参与者的数据集，每个参与者在每次对话结束时都提供了自我报告的参与度评分。我们引入了一种新颖的融合策略，使用大型语言模型（LLM）将多种行为模式集成到“多模式转录本”中，该转录本可以由 LLM 处理以执行行为推理任务。值得注意的是，即使在初步实施中，该方法也能达到与现有融合技术相当的性能，这表明进一步研究和优化的巨大潜力。这种融合方法是第一个通过语言模型对现实世界人类行为进行“推理”的方法。智能眼镜使我们能够不引人注目地收集有关人类行为的高密度多模式数据，为理解和改善人类沟通的新方法铺平了道路，并具有潜在的重要社会效益。研究期间收集的特征和数据将公开以促进进一步的研究。

INN-PAR：用于 PPG 到 ABP 重建的可逆神经网络

分类： 机器学习, 人机交互

作者： Soumitra Kundu, Gargi Panda, Saumik Bhattacharya, Aurobinda Routray, Rajlakshmi Guha

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09021v1

摘要： 无创、连续血压（BP）监测对于早期预防许多心血管疾病至关重要。通过光电体积描记法 (PPG) 估算动脉血压 (ABP) 已成为一种有前景的解决方案。然而，现有的 PPG 到 ABP 重建（PAR）的深度学习方法遇到了一定的信息丢失，影响了重建信号的精度。为了克服这个限制，我们引入了一种用于 PPG 到 ABP 重建的可逆神经网络（INN-PAR），它采用一系列可逆块来共同学习 PPG 及其梯度与 ABP 信号及其梯度之间的映射。 INN-PAR 可同时高效捕获正向和反向映射，从而防止信息丢失。通过将信号梯度集成到学习过程中，INN-PAR 增强了网络捕获基本高频细节的能力，从而实现更准确的信号重建。此外，我们在可逆块内提出了多尺度卷积模块（MSCM），使模型能够有效地学习跨多个尺度的特征。我们在两个基准数据集上进行了实验，结果表明 INN-PAR 在波形重建和血压测量精度方面均显着优于最先进的方法。

高效的流媒体音频视频活动发言者检测系统

分类： 计算机视觉和模式识别, 人机交互, 机器学习

作者： Arnav Kundu, Yanzi Jin, Mohammad Sekhavat, Max Horton, Danny Tormoen, Devang Naik

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09018v1

摘要： 本文深入研究了主动说话者检测（ASD）这一具有挑战性的任务，其中系统需要实时确定一个人是否在一系列视频帧中说话。虽然之前的工作在改进网络架构和学习 ASD 的有效表示方面取得了重大进展，但在实时系统部署的探索中仍存在重大差距。现有模型经常遭受高延迟和内存使用的困扰，这使得它们对于即时应用程序来说不切实际。为了弥补这一差距，我们提出了两种场景来解决实时约束带来的关键挑战。首先，我们介绍一种限制 ASD 模型使用的未来上下文帧数量的方法。通过这样做，我们减少了在做出决定之前处理整个未来帧序列的需要，从而显着减少了延迟。其次，我们提出了一个更严格的约束，限制模型在推理过程中可以访问的过去帧的总数。这解决了与运行流式 ASD 系统相关的持久内存问题。除了这些理论框架之外，我们还进行了大量的实验来验证我们的方法。我们的结果表明，约束变压器模型可以实现与最先进的循环模型（例如单向 GRU）相当甚至更好的性能，同时显着减少上下文帧的数量。此外，我们阐明了 ASD 系统的时间记忆要求，揭示了更大的过去上下文比未来上下文对准确性有更深远的影响。在 CPU 上进行分析时，我们发现我们的高效架构的内存受到它可以使用的过去上下文数量的限制，并且与内存成本相比，计算成本可以忽略不计。

VAE 解释器：通过交互式可视化补充学习变分自动编码器

分类： 人机交互, 人工智能, 机器学习

作者： Donald Bertucci, Alex Endert

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09011v1

摘要： 变分自动编码器在机器学习中广泛使用，但通常用密集的数学符号或静态代码示例来解释。本文介绍了 VAE Expander，这是一种在浏览器中运行的交互式变分自动编码器，用于补充现有的静态文档（例如 Keras 代码示例）。 VAE 解释器通过交互式模型输入、潜在空间和输出将交互添加到 VAE 摘要中。 VAE Explaner 将高级理解与实现联系起来：带注释的代码和实时计算图。 VAE Expander 交互式可视化已在 https://xnought.github.io/vae-explainer 上线，代码在 https://github.com/xnought/vae-explainer 开源。

预测对自动驾驶汽车的信任：通过机器学习对年轻人心理社会特征、风险收益态度和驾驶因素进行建模

分类： 人机交互, 人工智能, 机器学习

作者： Robert Kaufman, Emi Lee, Manas Satish Bedmutha, David Kirsh, Nadir Weibel

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08980v1

摘要： 信任度低仍然是自动驾驶汽车 (AV) 采用的重大障碍。为了设计值得信赖的自动驾驶汽车，我们需要更好地了解影响人们信任判断的个人特征、态度和经历。我们根据通过调查 (n = 1457) 收集的一套全面的个人因素，使用机器学习来了解有助于年轻人信任的最重要因素。因素包括社会心理和认知属性、驾驶风格、体验以及感知的 AV 风险和好处。使用可解释的人工智能技术 SHAP，我们发现对 AV 风险和收益的看法、对可行性和可用性的态度、机构信任、先前经验和个人的心理模型是最重要的预测因素。令人惊讶的是，社会心理以及许多技术和驾驶特定因素并不是强有力的预测因素。结果强调了个体差异对于为不同群体设计值得信赖的自动驾驶汽车的重要性，并对未来的设计和研究产生了重要影响。

建模视觉搜索对层次结构的合理适应

分类： 人机交互

作者： Saku Sourulahti, Christian P Janssen, Jussi PP Jokinen

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08967v1

摘要： 视觉搜索中有效的注意力部署受到人类视觉记忆的限制，但可以通过利用环境的结构来抵消这种限制。本文介绍了一种计算认知模型，该模型模拟人类视觉系统如何使用视觉层次结构来防止顺序注意力部署中的重新固定。该模型采用计算理性，将行为视为对认知约束和环境结构的适应。与预测分层信息搜索性能的早期模型相比，我们的模型不包括有关特定搜索策略的预定义假设。相反，我们模型的搜索策略是通过强化学习算法适应环境的结果。在对人类参与者进行的实验中，我们测试了模型的预测，即与随机任务相比，结构化环境减少了视觉搜索时间。我们的模型的预测与结构化和非结构化视觉布局的各种集合大小的人类搜索性能非常一致。我们的工作提高了对分层结构环境中视觉搜索自适应性质的理解，并为优化搜索空间的设计提供了信息。

IMMERTWIN：增强型机械臂远程操作的混合现实框架

分类： 机器人技术, 人机交互

作者： Florent P. Audonnet, Ixchel G. Ramirez-Alpizar, Gerardo Aragon-Camarasa

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08964v1

摘要： 我们推出了 IMMERTWIN，这是一种混合现实框架，用于使用闭环数字孪生作为用户和机器人系统之间交互的桥梁来增强机械臂远程操作。我们通过在两台机器人上对 26 名参与者进行了中等规模的用户调查来评估 IMMERTWIN。用户被要求在虚拟环境中使用两个机器人进行远程操作，以拾取 3 个立方体并将其放置在塔中，并在 10 分钟内尽可能多次地重复此任务，而事先仅进行 5 分钟的训练。我们的实验结果表明，无论使用什么机器人，大多数用户都能够成功地建造至少 3 个立方体的塔，最多 10 个塔（每分钟 1 个塔）。此外，与我们之前的作品TELESIM相比，用户更喜欢使用IMMERTWIN，因为它减少了他们的脑力负担。项目网站和源代码可以在：https://cvas-ug.github.io/immertwin

保护去中心化社交媒体：用于自动化社区规则合规的大语言模型代理

分类： 计算机与社会, 计算和语言, 人机交互, 物理与社会

作者： Lucio La Cava, Andrea Tagarelli

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08963v1

摘要： 确保内容符合社区准则对于维护健康的在线社交环境至关重要。然而，由于用户生成的内容量不断增加且审核者数量有限，传统的基于人工的合规性检查难以扩展。大型语言模型所展示的自然语言理解领域的最新进展为自动化内容合规性验证带来了新的机遇。这项工作评估了六个基于 Open-LLM 构建的人工智能代理，用于在去中心化社交网络中进行自动规则合规性检查，这是一个由于异构社区范围和规则而具有挑战性的环境。通过分析来自数百个 Mastodon 服务器的 50,000 多个帖子，我们发现人工智能代理可以有效检测不合规内容、掌握语言微妙之处并适应不同的社区环境。大多数代理人在评分合理性和合规建议方面也表现出较高的评估者间可靠性和一致性。领域专家进行的基于人的评估证实了代理的可靠性和实用性，使它们成为半自动或人机交互内容审核系统的有前途的工具。

通过人工智能文档改善治理成果：理论与实践的桥梁

分类： 人机交互

作者： Amy A. Winecoff, Miranda Bogen

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08960v1

摘要： 文档在人工智能系统的外部问责和内部治理中都发挥着至关重要的作用。尽管有许多关于记录人工智能数据、模型、系统和方法的建议，但这些实践增强治理的方式以及从业者和组织在记录方面面临的挑战仍未得到充分探索。在本文中，我们分析了 37 个提出的文档框架和 21 个评估其使用的实证研究。我们确定了有关文档如何加强治理的潜在假设，例如向利益相关者通报人工智能风险和使用情况、促进协作、鼓励道德反思以及强化最佳实践。然而，经验证据表明，从业者经常遇到阻碍文档实现这些目标的障碍。我们还强调了组织在设计文档时的关键考虑因素，例如确定适当的详细程度和平衡流程中的自动化。最后，我们为进一步研究和在现实环境中实施有效的文档实践提供建议。

人类-人工智能文本生成中新兴的依赖行为：幻觉、数据质量评估和认知强迫功能

分类： 人机交互

作者： Zahra Ashktorab, Qian Pan, Werner Geyer, Michael Desmond, Marina Danilevsky, James M. Johnson, Casey Dugan, Michelle Bachman

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08937v1

摘要： 在本文中，我们研究了幻觉和认知强迫功能在人类与人工智能协作文本生成任务中的影响，重点关注使用大型语言模型（LLM）来协助生成高质量的对话数据。大语言模型需要数据进行微调，这是提高其表现的关键一步。在对话式客户支持的背景下，数据采用人类客户和代理之间对话的形式，并且可以通过人工智能助手生成。在我们的调查中，涉及 11 位用户，每人完成 8 项任务，总共 88 项任务，我们发现幻觉的存在会对数据质量产生负面影响。我们还发现，尽管认知强迫功能并不总能减轻幻觉对数据质量的有害影响，但认知强迫功能和幻觉的存在共同影响数据质量，并影响用户如何利用向他们提供的人工智能响应。我们对用户行为的分析揭示了对人工智能生成的响应的依赖的不同模式，强调了在对话人工智能环境中管理人工智能生成内容中的幻觉的重要性。

Farmer.Chat：为小农户扩展人工智能驱动的农业服务

分类： 新兴技术, 人工智能, 人机交互

作者： Namita Singh, Jacqueline Wang'ombe, Nereah Okanga, Tetyana Zelenska, Jona Repishti, Jayasankar G K, Sanjeev Mishra, Rajsekar Manokaran, Vineet Singh, Mohammed Irfan Rafiq, Rikin Gandhi, Akshay Nambi

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08916v1

摘要： 中小型农业所有者面临着诸如获取本地化、及时信息的机会有限、影响生产力和可持续性等挑战。传统的推广服务依赖于专人代理，在可扩展性和及时交付方面存在困难，尤其是在偏远地区。我们推出了 Farmer.Chat，这是一款由人工智能驱动的生成式聊天机器人，旨在解决这些问题。 Farmer.Chat 利用生成式人工智能，提供个性化、可靠且与上下文相关的建议，克服了以前的聊天机器人在确定性对话流、语言支持和非结构化数据处理方面的局限性。 Farmer.Chat 部署在四个国家，吸引了超过 15,000 名农民，并回答了超过 300,000 个查询。本文重点介绍了 Farmer.Chat 对 GenAI 的创新使用如何增强农业服务的可扩展性和有效性。我们的评估结合了定量分析和定性见解，强调了 Farmer.Chat 在改善农业实践、增强信任、响应质量和用户参与度方面的有效性。

合成人类记忆：人工智能编辑的图像和视频可能会植入错误记忆并扭曲记忆

分类： 人机交互, 人工智能

作者： Pat Pataranutaporn, Chayapatr Archiwaranguprok, Samantha W. T. Chan, Elizabeth Loftus, Pattie Maes

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08895v1

摘要： 人工智能越来越多地有意无意地用于增强图像和视频。随着人工智能编辑工具越来越多地集成到智能手机中，用户可以将照片修改或动画化为逼真的视频。这项研究探讨了人工智能改变的视觉效果对错误记忆（对未发生或偏离现实的事件的回忆）的影响。在一项预先注册的研究中，200 名参与者被分为四种情况，每种情况 50 人。参与者查看原始图像，完成填充任务，然后看到与指定条件相对应的刺激：未经编辑的图像、人工智能编辑的图像、人工智能生成的视频或人工智能编辑图像的人工智能生成的视频。 AI 编辑的视觉效果显着增加了错误回忆，其中 AI 生成的 AI 编辑图像视频具有最强的效果（与对照相比为 2.05 倍）。在这种情况下，对错误记忆的置信度也最高（与对照组相比，为 1.19 倍）。我们讨论了人机交互中的潜在应用，例如治疗性记忆重构，以及伦理、法律、政治和社会领域的挑战。

社区事实核查在回复社交媒体上的误导性帖子时引发道德义愤

分类： 社交和信息网络, 人机交互

作者： Yuwei Chuai, Anastasia Sergeeva, Gabriele Lenzini, Nicolas Pröllochs

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08829v1

摘要： 显示社区事实核查是减少社交媒体上错误信息参与的一种有前途的方法。然而，在帖子上显示社区事实核查后，用户对误导性内容的情感反应尚不清楚。在这里，我们采用准实验方法来因果分析在社区事实检查显示后回复误导性帖子时情绪和（道德）情绪的变化。我们的评估基于一个大型面板数据集，其中包含来自 X 社区笔记平台的 1841 个源帖子的 N=2,225,260 条回复。我们发现，通过社区事实核查告知用户虚假信息会显着增加相应回复中的消极情绪（增加 7.3%）、愤怒（增加 13.2%）、厌恶（增加 4.7%）和道德义愤（增加 16.0%）。这些结果表明，用户认为传播错误信息是违反社会规范的行为，而那些传播错误信息的人一旦其内容被揭穿，就应该预料到会出现负面反应。我们对基于社区的事实检查系统的设计产生了重要的影响。

人类与人工智能协作中的相互心理理论：实时共享工作空间任务中大语言模型驱动的人工智能代理的实证研究

分类： 人机交互, 人工智能, 多代理系统

作者： Shao Zhang, Xihuai Wang, Wenhao Zhang, Yongshan Chen, Landi Gao, Dakuo Wang, Weinan Zhang, Xinbing Wang, Ying Wen

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08811v1

摘要： 心智理论 (ToM) 极大地影响着人类的协作和沟通，作为理解他人的重要能力。当具有 ToM 能力的 AI 智能体与人类协作时，人类与 AI 团队 (HAT) 中就会出现相互思维理论 (MToM)。 MToM流程涉及交互沟通和基于ToM的策略调整，影响团队的绩效和协作流程。为了探索 MToM 过程，我们在实时共享工作空间任务中使用大型语言模型驱动的 AI 代理以及 ToM 和通信模块进行了混合设计实验。我们发现智能体的 ToM 能力不会显着影响团队绩效，但会增强人们对智能体的理解以及被理解的感觉。我们研究中的大多数参与者认为言语沟通会增加人类负担，结果表明双向沟通会导致 HAT 绩效降低。我们讨论了这些结果对于设计与人类在实时共享工作空间任务中协作的人工智能代理的影响。

使用眼动追踪数据和基于 LSTM 的小样本学习进行阅读能力检测

分类： 人机交互, 人工智能

作者： Nanxi Li, Hongjiang Wang, Zehui Zhan

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08798v1

摘要： 阅读能力检测在现代教育领域具有重要意义。本文提出了一种利用少数受试者（例如 68 名受试者）的眼动追踪数据来预测阅读能力分数的方法。该方法结合长短时记忆（LSTM）和轻量级神经网络，建立了分数预测的回归模型。实验表明，采用少样本学习策略，该方法在阅读能力检测中比以往的分数预测方法取得了更高的准确率。稍后可以在 https://github.com/pumpkinLNX/LSTM-eye-tracking-pytorch.git 下载代码

你说什么=你想要什么？教人类阐明大语言模型的要求

分类： 人机交互, 人工智能

作者： Qianou Ma, Weirui Peng, Hua Shen, Kenneth Koedinger, Tongshuang Wu

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08775v1

摘要： 提示 ChatGPT 实现复杂的目标（例如，创建客户支持聊天机器人）通常需要细致的提示工程，包括流畅的写作和思维链技术等方面。虽然新兴的提示优化器可以自动完善其中许多方面，但我们认为，清楚地传达定制需求（例如，如何处理不同的输入）仍然是以人为中心的挑战。在这项工作中，我们引入了面向需求的提示工程（ROPE），这是一种将人类注意力集中在提示过程中生成清晰、完整需求的范例。我们通过评估和培训套件实施 ROPE，该套件提供刻意练习和大语言模型生成的反馈。在一项针对 30 名新手的研究中，我们表明以需求为中心的培训使新手的提示表现翻倍，显着优于传统的提示工程培训和提示优化。我们还证明，高质量的大语言模型输出与输入要求的质量直接相关。我们的工作为人类与大语言模型协作提示中更有效的任务委派铺平了道路。

DataliVR：借助 ChatGPT 支持的增强功能，通过虚拟现实实现数据素养教育转型

分类： 人机交互

作者： Hong Gao, Haochun Huai, Sena Yildiz-Degirmenci, Maria Bannert, Enkelejda Kasneci

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08738v1

摘要： 数据素养在当今数据驱动的世界中至关重要，强调个人有效管理数据和提取有意义的见解的能力。然而，传统的基于课堂的教育方法往往难以充分解决数据素养的多方面性质。随着教育经历数字化转型，虚拟现实 (VR) 等创新技术为实现沉浸式、引人入胜的学习体验提供了有前景的途径。本文介绍了 DataliVR，这是一款开创性的 VR 应用程序，旨在在情境化和游戏化的虚拟学习环境中提高大学生的数据素养技能。通过将 ChatGPT 等大型语言模型 (LLM) 集成为虚拟化身中体现的对话式人工智能 (AI) 聊天机器人，DataliVR 提供个性化学习帮助，丰富用户学习体验。我们的研究采用了实验方法，以聊天机器人的可用性作为自变量，以 30 名参与者为样本，分析学习经历和结果作为因变量。我们的方法强调了 ChatGPT 支持的 DataliVR 在培养数据素养技能方面的有效性和用户友好性。此外，我们的研究探讨了基于 ChatGPT 的人工智能聊天机器人对用户学习的影响，揭示了对学习体验和结果的显着影响。我们的研究为培养数据素养技能提供了一个强大的工具，通过尖端的虚拟现实和人工智能技术为数据素养教育的数字化进步做出了重大贡献。此外，我们的研究为未来旨在将大语言模型（例如 ChatGPT）整合到教育 VR 平台中的研究工作提供了宝贵的见解和启示。

大语言模型的政策原型：通过互动和协作政策制定实现多元协调

分类： 人机交互

作者： K. J. Kevin Feng, Inyoung Cheong, Quan Ze Chen, Amy X. Zhang

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08622v1

摘要： 人工智能协调方面的新兴努力旨在通过征求集体意见并将其整合到模型微调政策中来扩大对塑造模型行为的参与。尽管是多元化的，但这些过程通常是线性的，并且不允许参与的利益相关者确认其贡献的潜在结果是否确实与其意图一致。设计原型长期以来一直提倡使用构思、实验和评估的紧密反馈循环进行快速迭代，以缓解这些问题。因此，我们建议为大语言模型制定政策原型，这是一个从原型实践中汲取灵感的新流程，使利益相关者能够协作和交互地起草大语言模型政策。通过从工业人工智能实验室的现实世界大语言模型政策制定计划中学习，我们激发了我们的方法，并用四个指导原则来描述政策原型。由于政策原型与以前的方法相比强调了一组截然不同的优先事项，因此我们预计我们的方法将成为多元联盟方法论的宝贵补充。

集体群体情感的动态：群体层面的注释以及趋同和发散的多模态建模

分类： 人机交互, 信号处理

作者： Navin Raj Prabhu, Maria Tsfasman, Catharine Oertel, Timo Gerkmann, Nale Lehmann-Willenbrock

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08578v1

摘要： 在团队中进行协作，无论是面对面的还是虚拟的，都需要不断表达情绪并解释其他团队成员的情绪。因此，理解群体情感对于理解群体如何互动并在协作努力中取得成功至关重要。在这项研究中，我们超越了个人层面的情感，并研究了群体层面的情感——一种集体现象，反映了群体成员在特定时刻的共同情绪或情绪。作为文献中的第一个，我们使用细粒度时间方法（15 秒窗口）收集群体级情感表达的注释，该方法还捕获了集体构造的内在动态。为此，我们使用训练有素的注释器和专门调整的注释程序来捕获群组交互的整个范围。此外，我们还对群体随时间的影响动态进行建模。研究群体互动中群体情感潮起潮落的一种方法是对群体成员之间情感表达的潜在趋同（由情绪传染驱动）和发散（由情绪反应引起）进行建模。为了捕捉这些人际动态，我们从音频和视觉社交信号线索中提取基于同步的特征。对这些特征的分析表明，相互作用的群体往往在中性群体情感水平上的社会信号方面有所分歧，并在情感表达的极端水平上趋同。我们进一步提出了动态群体情感的预测建模结果，强调了在建模过程中使用基于同步的特征的重要性，以及群体情感的多模态性质。我们预计所提出的模型将作为未来动态群体情感自动识别研究的基线。

探索远程协作：虚拟形象表示对共享虚拟环境中二元触觉交互的影响

分类： 人机交互, 机器人技术

作者： Genki Sasaki, Hiroshi Igarashi

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08577v1

摘要： 这项研究首次探讨了共享虚拟环境（SVE）中触觉交互和化身表征之间的相互作用。我们关注它们对二元合作中的社会存在和任务相关分数的综合影响。在一系列实验中，参与者在四种头像表示条件下执行触觉交互板控制任务：显示参与者和伙伴的头像、仅显示参与者的头像、仅显示伙伴的头像、不显示头像。研究发现，化身表征，尤其是伴侣的化身表征，显着增强了社会存在感，而仅靠触觉交互无法完全实现这一点。相比之下，化身表示的存在和类型都不会影响任务表现或参与者对任务的用力，这表明触觉交互为任务的执行提供了足够的交互线索。这些结果强调了整合视觉和触觉方式来优化虚拟环境中的远程协作体验、确保有效沟通和强烈的社交存在感的重要性。

将程序公平性纳入社交媒体平台上的旗帜提交

分类： 人机交互, H.5.3

作者： Yunhee Shim, Shagun Jhaver

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08498v1

摘要： 社交媒体平台上的标记机制允许用户报告不当帖子/帐户以供内容审核者审核。这些报告对于平台规范违规行为的努力至关重要。本文研究了平台在实施举报机制时的设计选择如何影响举报者对内容审核的看法。我们进行了一项调查实验，要求美国受访者 (N=2,936) 使用 54 个随机分配的标记实现之一来标记不当帖子。举报后，参与者从一致性、透明度和声音（代理）维度评估他们对举报过程的公平性看法。我们发现，当标记界面包含社区准则时，参与者会感受到更大的透明度；当他们纳入开放式反馈的文本框时，参与者会感受到更大的声音。我们的定性分析强调了用户对改进可访问性、报告教育支持以及防止虚假标记的需求。我们提供设计建议，用于构建更公平的标记系统，而不会加剧提交标记的认知负担。

WheelPoser：基于稀疏 IMU 的轮椅使用者身体姿势估计

分类： 图形, 计算机视觉和模式识别, 人机交互, I.3

作者： Yunzhi Li, Vimal Mollyn, Kuang Yuan, Patrick Carrington

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08494v1

摘要： 尽管研究人员广泛研究了各种在旅途中跟踪身体姿势的方法，但大多数先前的工作没有考虑轮椅使用者，导致跟踪性能不佳。轮椅用户可以从这些姿势信息中受益匪浅，以防止受伤、监测他们的健康状况、识别环境无障碍障碍以及与游戏和 VR 体验互动。在这项工作中，我们提出了 WheelPoser，这是一种专为轮椅使用者设计的实时姿势估计系统。我们的系统仅在用户身体和轮椅上战略性地使用四个 IMU，使其比之前使用摄像头和密集 IMU 阵列的系统更加实用。 WheelPoser 能够跟踪轮椅使用者的姿势，平均关节角度误差为 14.30 度，平均关节位置误差为 6.74 厘米，比使用稀疏 IMU 的类似系统好三倍多。为了训练我们的系统，我们收集了一个新颖的 WheelPoser-IMU 数据集，其中包含 167 分钟的配对 IMU 传感器和轮椅使用者的运动捕捉数据，包括轮椅特定的运动，例如推进和压力释放。最后，我们探索我们的系统带来的潜在应用空间并讨论未来的机会。开源代码、模型和数据集可以在这里找到：https://github.com/axle-lab/WheelPoser。

AI可以提示人类吗？多模式代理提示玩家的游戏行动并显示后果，以提高可持续发展意识

分类： 人机交互

作者： Qinshi Zhang, Ruoyu Wen, Zijian Ding, Latisha Besariani Hendra, Ray LC

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08486v2

摘要： 不可持续的行为由于其长期且往往不明确的后果而难以预防。游戏通过创建人工环境提供了一种有前途的解决方案，让玩家可以立即体验其行为的结果。为了探索这一潜力，我们开发了 EcoEcho，这是一款由 GenAI 驱动的游戏，利用多模式代理来提高可持续发展意识。这些代理让玩家参与自然对话，促使他们采取游戏中的行动，从而产生明显的环境影响。我们使用混合方法对 23 名参与者评估了 EcoEcho。结果显示，尽管对可持续发展的态度仅略有改善，但赛后预期的可持续行为显着增加。这一发现凸显了多模式代理和行动结果机制在有效激发现实世界行为变化（例如提高环境可持续性意识）方面的潜力。

超越功能：为老年人的福祉共同设计语音用户界面

分类： 人机交互

作者： Xinhui Hu, Smit Desai, Morgan Lundy, Jessie Chin

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08449v1

摘要： 全球人口正在迅速老龄化，需要促进健康老龄化的技术。语音用户界面 (VUI) 利用自然语言交互，由于其易用性，为老年人提供了一种有前景的解决方案。然而，当前的设计实践往往过分强调功能性，而忽视了老年人的复杂愿望、心理健康和社会联系。为了解决这一差距，我们采用移情设计方法与 20 名老年人进行了联合设计会议。一半的参与者与涉及健康信息学习的探针进行互动，而其他参与者则专注于与运动相关的探针。这种方法让参与者参与协作活动，以在设计过程的早期发现非功能性需求。结果表明，当鼓励老年人在社会背景下分享他们的需求时，老年人会表现出一系列感官、审美、享乐和社会偏好，更重要的是，VUI 的特定角色。这些见解表明了这些因素在 VUI 设计中的相对重要性。

水平集可视化中不确定性建模的基于熵的测试和开发框架

分类： 人机交互, 机器学习

作者： Robert Sisneros, Tushar M. Athawale, David Pugmire, Kenneth Moreland

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08445v1

摘要： 我们提出了一个简单的比较框架，用于在不确定行进立方体实现中测试和开发不确定性模型。选择表示不确定值概率分布的模型直接影响不确定性可视化算法的内存使用、运行时间和准确性。我们直接对集合数据使用熵计算来建立预期结果，然后比较各种概率模型（包括均匀模型、高斯模型、直方图模型和分位数模型）的熵。我们的结果验证了匹配集合分布的模型确实与熵匹配。我们进一步表明，非参数直方图模型中较少的箱更有效，而分位数模型中的大量箱更接近数据准确性。

用于辅助功能的定制空中手势：用于多维生物信号手势的价值 B 美元的识别器

分类： 人机交互

作者： Momona Yamagami, Claire L. Mitchell, Alexandra A. Portnova-Fahreeva, Junhan Kong, Jennifer Mankoff, Jacob O. Wobbrock

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08402v1

摘要： 生物信号接口使用身体内、身体上或身体周围的传感器，有望增强可穿戴设备的交互性，并提高运动障碍人士的设备可访问性。然而，生物信号是多模态、多维且有噪声的，需要领域专业知识来设计手势分类器的输入特征。 $B 识别器可实现空中手势识别，无需生物信号或算法方面的专业知识。 $B 重新采样、归一化并执行降维，以减少噪声并增强与识别相关的信号。我们在由 26 名患有上身运动障碍的参与者和 8 名没有上身运动障碍的参与者组成的数据集上测试了 $B，这些参与者执行基于能力的个性化手势。对于两种条件（用户相关、手势清晰度可变性），$B 优于我们的比较算法（具有专家特征的传统机器学习和深度学习），识别率 > 95%。对于独立于用户的条件，$B 和深度学习对于残疾参与者的表现相当。我们的生物信号数据集可在线公开获取。 $B 强调了可访问生物信号接口的潜力和可行性。

通过大语言模型进行竞争市场行为的实验研究

分类： 人机交互, 人工智能, 普通经济学, 经济学

作者： Jingru Jia, Zehua Yuan

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08357v1

摘要： 本研究探讨了大型语言模型（LLM）进行市场实验的潜力，旨在了解它们理解竞争市场动态的能力。我们在受控实验环境中对市场主体的行为进行建模，评估他们趋向竞争均衡的能力。结果揭示了当前大语言模型在复制人类交易行为的动态决策过程特征时面临的挑战。与人类不同，大语言模型缺乏实现市场均衡的能力。研究表明，虽然大语言模型为可扩展和可重复的市场模拟提供了有价值的工具，但其当前的局限性需要进一步发展，以充分捕捉市场行为的复杂性。未来增强动态学习能力并融入行为经济学要素的工作可以提高大语言模型在经济领域的有效性，提供对市场动态的新见解并有助于完善经济政策。

真实的还是机器人的？评估大语言模型是否准确模拟对话中人类反应的质量

分类： 计算和语言, 计算机与社会, 人机交互

作者： Jonathan Ivey, Shivani Kumar, Jiayu Liu, Hua Shen, Sushrita Rakshit, Rohan Raju, Haotian Zhang, Aparna Ananthasubramaniam, Junghwan Kim, Bowen Yi, Dustin Wright, Abraham Israeli, Anders Giovanni Møller, Lechen Zhang, David Jurgens

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08330v2

摘要： 由于需要招募、培训和收集研究参与者的数据，研究和构建对话任务的数据集既昂贵又耗时。为此，最近的许多工作都试图使用大型语言模型（LLM）来模拟人与人以及人与 LLM 的交互，因为它们已被证明可以在许多环境中生成令人信服的类似人类的文本。然而，基于 LLM 的模拟\textit{实际上}在多大程度上反映了人类对话？在这项工作中，我们通过从 WildChat 数据集中生成 100,000 个配对的 LLM-LLM 和人类与 LLM 对话的大规模数据集，并量化 LLM 模拟与人类对应物的一致性程度来回答这个问题。总体而言，我们发现模拟和人类交互之间的一致性相对较低，这表明多种文本属性（包括样式和内容）存在系统性分歧。此外，在英语、中文和俄语对话的比较中，我们发现模型的表现相似。我们的结果表明，当人们自己以更类似于大语言模型自己的风格的方式写作时，大语言模型通常会表现得更好。

半自主网络物理系统的信息接管请求的设计：在无人机控制器设置中结合口语和视觉图标

分类： 人机交互, 计算和语言, 机器人技术

作者： Ashwini Gundappa, Emilia Ellsiepen, Lukas Schmitz, Frederik Wiehr, Vera Demberg

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08253v2

摘要： 随着这些系统被部署用于范围越来越广的任务，网络物理系统应如何与能够接管控制或进行监督的人类合作伙伴进行交互的问题变得越来越紧迫。借鉴半自动驾驶和人机交互期间移交控制权的文献，我们提出了一种接管请求的设计，将抽象的预警与信息丰富的 TOR 相结合：相关传感器信息在控制器的显示屏上突出显示，而口头信息则用语言描述了 TOR 的原因。我们在半自主无人机控制场景作为测试平台的背景下进行研究。我们在线研究的目标是更详细地评估基于语言的 TOR 应该采取什么形式。具体来说，我们将完整的句子条件与较短的片段进行比较，并测试视觉突出显示是否应该与语音同步或异步完成。参与者在使用我们的双模式 TOR 选择正确解决方案方面表现出更高的准确性，并认为他们能够更好地识别紧急情况。在口头信息中仅使用片段而不是完整的句子并不能提高准确性或加快反应速度。此外，将视觉突出显示与口头消息同步并不会提高准确性，在这种情况下甚至会增加响应时间。

OmniQuery：根据上下文增强捕获的多模式内存以实现个人问答

分类： 人机交互, 人工智能

作者： Jiahao Nick Li, Zhuohao Jerry Zhang, Jiaju Ma

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08250v1

摘要： 人们经常通过照片、屏幕截图和视频来捕捉回忆。虽然现有的基于人工智能的工具可以使用自然语言查询这些数据，但它们大多只支持检索单个信息，例如照片中的某些对象，并且很难回答更复杂的查询，这些查询涉及解释事件序列等相互关联的记忆。我们进行了为期一个月的日记研究，以收集实际的用户查询，并生成必要的上下文信息的分类，以便与捕获的记忆集成。然后我们介绍 OmniQuery，这是一种新颖的系统，能够回答需要提取和推断上下文信息的复杂的个人记忆相关问题。 OmniQuery 通过整合来自多个互连记忆的分散上下文信息来增强单个捕获的记忆，检索相关记忆，并使用大语言模型 (LLM) 来综合答案。在人工评估中，我们展示了 OmniQuery 的有效性，准确率为 71.5%，并且它的表现优于传统的 RAG 系统，在 74.5% 的情况下获胜或平局。

探索盲人艺术家对生成式人工智能艺术工具的使用和看法

分类： 人机交互

作者： Gayatri Raman, Erin Brady

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08226v1

摘要： 本文探讨了人工智能艺术与失明的交叉点，因为现有的人工智能研究主要集中在人工智能艺术对有视力的艺术家和消费者的接受和影响上。为了解决这一差距，研究人员就生成人工智能图像平台 Midjourney 采访了六位来自不同视觉艺术媒介和失明程度的盲人艺术家。参与者分享文本提示，并与视力正常的研究人员讨论他们对生成图像的反应。研究结果凸显了盲人艺术家对人工智能图像作为协作工具的兴趣，但也表达了对人工智能生成艺术的文化观念和标签的担忧。他们还强调了独特的挑战，例如潜在的误解和关于失明导致排斥的刻板印象。该研究主张更多地将盲人纳入人工智能艺术，强调在开发人工智能艺术技术时需要满足他们的特定需求和经验。

联合徽章：数据可视化设计概念的协作参与活动

分类： 人机交互

作者： Damla Çay, Mary Karyda, Kitti Butter

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08175v1

摘要： 随着数据可视化越来越受欢迎，项目变得更加跨学科，人们越来越需要能够促进创造性协作并让不同受众了解数据可视化的方法。在本文中，我们介绍了 Co-Badge，这是一项时长 90 分钟的设计活动，参与者通过构思和优先考虑相关数据类型、将它们映射到视觉变量以及使用文具材料构建数据徽章来协作构建可视化。我们在不同的环境中与不同背景的参与者举办了三场研讨会。我们的研究结果表明，Co-badge 提供了一种有趣且引人入胜的方式，无需正式培训即可了解数据可视化设计原则，同时应对协作挑战。我们的工作为不同参与者的数据可视化教育领域做出了贡献。我们相信 Co-Badge 可以作为一项引人入胜的活动，介绍数据可视化和协作的基本概念。

GAZEploit：通过 VR/MR 设备中的头像视图进行注视估计的远程击键推理攻击

分类： 人机交互, 计算机视觉和模式识别

作者： Hanqiu Wang, Zihao Zhan, Haoqi Shan, Siqi Dai, Max Panoff, Shuo Wang

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08122v1

摘要： 虚拟现实 (VR) 和混合现实 (MR) 解决方案的出现和日益普及彻底改变了我们与数字平台交互的方式。目前在这些设备的高端型号（例如 Apple Vision Pro）中流行的尖端凝视控制打字方法不仅改善了用户体验，还减轻了依赖手势、头部运动和声学的传统击键推理攻击。侧通道。然而，这一进步却矛盾地催生了一种新的、可能更加阴险的网络威胁：GAZEploit。在本文中，我们推出了 GAZEploit，这是一种新颖的基于眼球追踪的攻击，专门设计用于通过利用 VR 应用程序中虚拟外观的常见用途来利用这些眼球追踪信息。与现有方法相比，这种广泛的使用显着增强了我们攻击的实用性和可行性。 GAZEploit 利用此漏洞远程提取注视估计并窃取各种打字场景中的敏感击键信息，包括消息、密码、URL、电子邮件和密码。我们的研究涉及 30 名参与者，击键推理的准确率超过 80%。令人担忧的是，我们的研究还发现 Apple Store 中有超过 15 款顶级应用程序容易受到 GAZEploit 攻击，这强调了这种最先进的 VR/MR 文本输入方法迫切需要加强安全措施。

测试测试：评估领域专家的可视化素养时的观察

分类： 人机交互

作者： Seyda Öney, Moataz Abdelaal, Kuno Kurzhals, Paul Betz, Cordula Kropp, Daniel Weiskopf

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08101v1

摘要： 存在各种评估个人可视化素养的标准化测试。它们的使用可以帮助从研究中得出结论。然而，没有考虑到测试本身可能会造成一种压力情况，参与者可能担心被暴露和受到负面评估。在设计研究中测试领域专家时，这尤其成问题。我们采访了来自不同领域的进行可视化素养 Mini-VLAT 测试的专家，以发现潜在的问题。我们的参与者报告说，每个问题的时间限制、问题和可视化中的模糊性以及测试程序中缺少的步骤主要影响他们的表现和内容。我们讨论了为解决这些问题而对测试设计进行可能的更改，以及如何将此类评估方法整合到现有的评估程序中。

从解释到行动：零次、理论驱动的 LLM 学生表现反馈框架

分类： 计算机与社会, 人机交互, 机器学习

作者： Vinitra Swamy, Davide Romano, Bhargav Srinivasa Desikan, Oana-Maria Camburu, Tanja Käser

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08027v1

摘要： 用于教育的可解释人工智能 (XAI) 的最新进展凸显了一个关键挑战：确保教育工作者和学生等非技术用户可以理解最先进的人工智能模型的解释。作为回应，我们引入了 iLLuMinaTE，这是一种零样本、提示链 LLM-XAI 管道，其灵感来自 Miller 的认知解释模型。 iLLuMinaTE 旨在为在线课程中的学生提供理论驱动的、可操作的反馈。 iLLuMinaTE 导航三个主要阶段 - 因果联系、解释选择和解释呈现 - 其变化源自八种社会科学理论（例如异常条件、珀尔的解释模型、必然性和鲁棒性选择、对比解释）。我们使用三种不同的底层 XAI 方法（LIME、Counterfactuals、MC-LIME）对来自三个不同在线课程的学生从三个 LLM（GPT-4o、Gemma2-9B、Llama3-70B）中提取的 21,915 个 iLLuMinaTE 自然语言解释进行了广泛评估。我们的评估包括对社会科学理论的解释一致性分析、解释的可理解性以及对 114 名大学生进行的真实世界用户偏好研究，其中包含新颖的可操作性模拟。我们发现，89.52% 的情况下，学生更喜欢 iLLuMinaTE 的解释，而不是传统的解释者。我们的工作提供了一个强大的、随时可用的框架，可以有效地传达混合 XAI 驱动的教育见解，并具有在其他以人为中心的领域的巨大推广潜力。

Tidal MerzA：通过强化学习将情感建模和自主代码生成相结合

分类： 人机交互, 人工智能, 声音, 音频和语音处理

作者： Elizabeth Wilson, György Fazekas, Geraint Wiggins

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07918v1

摘要： 本文介绍了 Tidal-MerzA，这是一种新颖的系统，专为人类和机器代理在实时编码背景下的协作表演而设计，特别关注音乐模式的生成。 Tidal-MerzA 融合了两个基础模型：ALCAA（情感实时编码自主代理）和 Tidal Fuzz（一种计算框架）。通过将情感建模与计算生成相结合，该系统利用强化学习技术在 TidalCycles 框架内动态调整音乐作曲参数，确保模式的情感品质和语法的正确性。 Tidal-MerzA 的开发引入了两种不同的代理：一种专注于生成用于音乐表达的迷你乐谱字符串，另一种专注于通过强化学习将音乐与目标情感状态保持一致。这种方法增强了实时编码实践的适应性和创造性潜力，并允许探索人机创造性交互。 Tidal-MerzA 推进了计算音乐生成领域的发展，提出了一种将人工智能融入艺术实践的新颖方法。

异议被驳回！外行人可以区分大型语言模型和律师，但仍然喜欢大语言模型的建议

分类： 人机交互, 计算机与社会

作者： Eike Schneiders, Tina Seabrooke, Joshua Krook, Richard Hyde, Natalie Leesakul, Jeremie Clos, Joel Fischer

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07871v1

摘要： 大型语言模型（LLM）似乎正在渗透到每个领域，法律领域也不例外。在本文中，我们提出了三个实验（总共 N=288）的结果，这些实验调查了外行人采取行动的意愿，以及他们区分大语言模型和律师提供的法律建议的能力。在实验1中，参与者在法律建议来源已知或未知的情况下判断他们是否愿意按照法律建议采取行动。当建议来源未知时，参与者表示他们更愿意按照大语言模型提出的建议采取行动。这一结果在实验 2 中得到了重复。有趣的是，尽管参与者在实验 1 和 2 中表示更愿意按照 LLM 生成的建议采取行动，但参与者对 LLM 和律师生成的文本的区分明显高于实验 3 中的机会水平。我们讨论了我们的发现、局限性和未来工作的潜在解释和风险，以及语言复杂性和现实世界可比性的重要性。

通过游戏化心理物理学实验测量 VR 中交互分子键刚度的感知极限

分类： 人机交互

作者： Rhoslyn Roebuck Williams, Jonathan Barnoud, Luis Toledo, Till Holzapfel, David R. Glowacki

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07836v1

摘要： 分子动力学 (MD) 模拟为分子相互作用和生物分子功能提供了重要的见解。借助 VR 中的交互式 MD 模拟 (iMD-VR)，化学家现在可以与这些分子模拟实时交互。我们的触觉对于探索物理对象的属性至关重要，但为虚拟对象重新创建这种感官体验却带来了挑战。此外，在分子模拟的背景下使用触觉尤其困难，因为 \textit{我们不知道分子的实际感觉是什么}。在本文中，我们以之前的工作为基础，演示了 VR 用户如何在没有触觉反馈的情况下区分分子的属性。我们展示了游戏化的两种选择强制选择 (2AFC) 心理物理学用户研究的结果，其中我们量化了 iMD-VR 用户可以区分分子键刚度的阈值。我们的初步分析表明，参与者可以感觉到具有不同键刚度参数的巴克明斯特富勒烯分子之间的差异，并且该限制可能落在化学相关范围内。我们的结果强调了 iMD-VR 如何促进以更具体的方式探索复杂和动态的分子系统，使化学家能够纯粹通过在 VR 中与分子相互作用来感知分子的特性。

线上与线下：社交聊天机器人第一方和第三方评估的比较研究

分类： 人机交互, 计算和语言

作者： Ekaterina Svikhnushina, Pearl Pu

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07823v1

摘要： 本文探讨了在线与离线评估方法在评估会话聊天机器人方面的有效性，特别是比较第一方直接交互与第三方观察评估。通过使用具有离线第三方评估的同理心聊天机器人扩展用户对话的基准数据集，我们对在线交互的反馈与更独立的离线第三方评估之间进行了系统比较。我们的结果表明，离线人类评估无法像在线评估一样有效地捕捉人类与聊天机器人交互的微妙之处。相比之下，使用 GPT-4 模型的自动化第三方评估在给出详细说明的情况下可以更好地近似第一方人类判断。本研究强调了第三方评估在把握用户体验复杂性方面的局限性，并主张在对话式人工智能评估中整合直接交互反馈，以提高系统开发和用户满意度。

不仅仅是一种工具：人们对亲社会送货机器人作为道路使用者的看法和接受度

分类： 人机交互

作者： Vivienne Bihe Chi, Elise Ulwelling, Kevin Salubre, Shashank Mehrotra, Teruhisa Misu, Kumar Akash

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07815v1

摘要： 服务机器人越来越多地部署在公共场所，执行送货等功能性任务。为了更好地将它们融入我们的社交环境并提高它们的采用率，我们考虑将社交身份与其功能身份一起集成到送货机器人中。我们进行了一项基于虚拟现实的试点研究，以探索人们对执行亲社会行为的送货机器人的看法和接受度。半结构化访谈主题分析的初步结果表明人们对双重身份的矛盾心理。我们根据社会认同理论、框架效应和人机群体间动力学讨论了新兴主题。基于这些见解，我们建议下一代送货机器人应该使用基于同行的框架、更新的价值主张以及更加强调表达意图和情感反应的交互设计。

远程咨询虚拟环境设计探索

分类： 人机交互

作者： Jiashuo Cao, Wujie Gao, Yun Suen Pai, Simon Hoermann, Chen Li, Nilufar Baghaei, Mark Billinghurst

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07765v1

摘要： 技术增强干预措施的出现极大地改变了心理健康服务，为提供心理治疗提供了新的机会，特别是在偏远地区。本文报告了一项探索使用虚拟现实 (VR) 作为远程咨询媒介的试点研究。这项研究涉及四位经验丰富的心理治疗师，他们评估了三种不同的虚拟环境，旨在支持远程咨询。通过对访谈和反馈的主题分析，我们确定了对于设计有效的虚拟咨询环境至关重要的关键因素。其中包括创建清晰的界限、定制以满足特定的治疗需求，以及使环境与各种治疗方法保持一致的重要性。我们的研究结果表明，VR 可以增强远程治疗的临场感和参与感，从而有可能改善治疗关系。在本文中，我们还根据这些试点研究结果概述了未来的研究领域。

关注网络钓鱼（er）：了解网络钓鱼检测中用户的电子邮件处理模式和心理模型

分类： 人机交互, 密码学和安全

作者： Sijie Zhuo, Robert Biddle, Jared Daniel Recomendable, Giovanni Russello, Danielle Lottridge

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07717v1

摘要： 网络钓鱼电子邮件通常将自己伪装成信誉良好的身份，以诱骗人们提供敏感信息和凭据。尽管网络安全取得了进步，但攻击者不断适应，对个人和组织构成持续的威胁。虽然电子邮件用户是最后一道防线，但他们并不总是做好检测网络钓鱼电子邮件的准备。这项研究探讨了工作量如何影响网络钓鱼的易感性，使用眼动追踪技术观察参与者的阅读模式以及与定制网络钓鱼电子邮件的互动。结合定量和定性分析，我们调查了用户对电子邮件发件人和超链接 URL 两个网络钓鱼指标的关注程度，以及他们评估电子邮件可信度和陷入网络钓鱼电子邮件的原因。我们的结果提供了具体的证据，表明对电子邮件发件人的关注可以降低网络钓鱼的易感性。虽然我们没有发现任何证据表明对浏览器中实际 URL 的关注会影响网络钓鱼检测，但对文本屏蔽链接的关注会增加网络钓鱼的易感性。我们还强调了电子邮件的相关性、熟悉度和视觉呈现如何影响电子邮件可信度和网络钓鱼敏感性的第一印象。

视频游戏中不同类型数据的运动可视化

分类： 人机交互

作者： Federica Bucchieri, Lijie Yao, Petra Isenberg

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07696v1

摘要： 我们对视频游戏中不同类型数据的动态可视化进行分析，重点关注定量和分类数据表示。视频游戏向玩家传达大量数据，帮助他们在游戏中取得成功。由于摄像机的变化或游戏元素本身的移动，这些可视化效果经常在屏幕上移动。我们的最终目标是了解运动因素如何影响视频游戏中的可视化可读性以及随后玩家在游戏中的表现。我们的工作首先调查了运动目前如何影响视频游戏中哪种数据表示的特征。我们对视频游戏中的 160 个运动可视化进行了系统回顾，并提取了关于可视化目前在视频游戏中表现什么运动因素以及如何表现运动因素的模式和考虑因素。

游泳运动中的定位可视化

分类： 人机交互

作者： Lijie Yao, Anastasia Bezerianos, Romain Vuillemot, Petra Isenberg

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07695v1

摘要： 竞技体育报道越来越多地包含有关运动员或球队统计数据和记录的信息。体育视频报道传统上将这些数据的表示嵌入屏幕上的固定位置，但最近还附加了对运动员或其他运动目标的表示。到目前为止，这些公开使用的表示方法相当简单，并且仍然缺少对嵌入式运动可视化研究空间的系统调查。在这里，我们报告我们在职业和业余游泳领域的初步研究。我们分析了目前如何将可视化添加到奥运会游泳比赛的报道中，然后计划为游泳比赛导出嵌入式数据表示的设计空间。我们目前正在进行一项众包调查，以探索普通受众对哪种游泳相关数据感兴趣，以确定在游泳比赛报道中添加更多可视化内容的机会。

基于脑电图的情感识别的多尺度时空表示学习

分类： 人机交互, 信号处理

作者： Xin Zhou, Xiaojing Peng

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07589v1

摘要： 基于脑电图的情绪识别在脑机接口领域具有巨大的潜力。一个关键的挑战在于从脑电图（EEG）信号中提取有区别的时空特征。现有研究往往依赖于特定领域的时频特征，分别分析时间依赖性和空间特征，忽略了局部-全局关系和时空动态之间的相互作用。为了解决这个问题，我们提出了一种称为多尺度倒曼巴（MS-iMamba）的新型网络，它由多尺度时间块（MSTB）和时空融合块（TSFB）组成。具体来说，MSTB 旨在捕获不同尺度子序列的局部细节和全局时间依赖性。 TSFB 采用倒置 Mamba 结构实现，重点关注动态时间依赖性和空间特征之间的交互。 MS-iMamba 的主要优势在于它能够利用重建的多尺度脑电图序列，利用时间和空间特征之间的相互作用，而无需提取特定领域的时频特征。 DEAP、DREAMER 和 SEED 数据集上的实验结果表明，MS-iMamba 仅使用四通道 EEG 信号即可分别实现 94.86%、94.94% 和 91.36% 的分类准确率，优于最先进的方法。

人机交互中的动态公平感知

分类： 机器人技术, 人机交互

作者： Houston Claure, Kate Candon, Inyoung Shin, Marynel Vázquez

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07560v1

摘要： 人们非常关心机器人对待他们的公平程度。探索人机交互（HRI）公平性的既定范式涉及测量机器人在交互结束时对公平性的感知。然而，这种方法是有限的，因为交互随着时间的推移而变化，也可能导致公平观念的变化。为了验证这个想法，我们进行了混合设计 (N=40) 的 2x2 用户研究，其中我们调查了两个因素：不公平机器人行为的时间（交互的早期或晚期）以及这些行为的受益人（另一个机器人）或参与者）。我们的结果表明，公平判断不是静态的。它们可以根据机器人不公平行为的时间进行调整。此外，我们探索了利用组织正义的公平理论提出的三个关键因素（福利减少、行为和道德违规）的看法来预测我们研究中对公平的瞬时看法。有趣的是，我们发现福利减少和道德违规因素比所有因素加在一起的预测效果更好。我们的研究结果强化了这样的观点，即不公平的机器人行为可以塑造群体动态的感知和对机器人的信任，并为未来关于即时公平感知的研究方向铺平道路

“我的成绩错了！”：用于评估学生论文的交互式反馈的可争议人工智能框架

分类： 人工智能, 人机交互

作者： Shengxin Hong, Chang Cai, Sixuan Du, Haiyue Feng, Siyuan Liu, Xiuyi Fan

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07453v1

摘要： 交互式反馈（反馈在教师和学生之间双向流动）比传统的单向反馈更有效。然而，它往往过于耗时，无法在教育实践中广泛使用。虽然大型语言模型 (LLM) 具有自动反馈的潜力，但它们在交互式环境中的推理和交互方面遇到了困难。本文介绍了 CAELF，一种可竞争的人工智能授权 LLM 框架，用于自动化交互式反馈。 CAELF 允许学生通过将多智能体系统与计算论证相结合来查询、挑战和澄清他们的反馈。论文首先由多个助教代理（TA Agent）进行评估，然后教师代理通过正式推理汇总评估结果以生成反馈和成绩。学生可以进一步参与反馈以加深他们的理解。对 500 篇批判性思维论文和用户研究的案例研究表明，CAELF 显着改善了互动反馈，增强了大语言模型的推理和互动能力。这种方法提供了一种很有前途的解决方案，可以克服限制教育环境中交互式反馈采用的时间和资源障碍。

隐私的回声：揭示语音助手的分析实践

分类： 人机交互, 网络和互联网架构

作者： Tina Khezresmaeilzadeh, Elaine Zhu, Kiersten Grieco, Daniel J. Dubois, Konstantinos Psounis, David Choffnes

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07444v2

摘要： 许多公司，包括谷歌、亚马逊和苹果，都提供语音助手作为回答一般语音查询和访问其服务的便捷解决方案。这些语音助手已经很受欢迎，并且可以通过各种智能设备（例如智能手机、智能扬声器、智能手表以及越来越多的其他设备）轻松访问。然而，这种便利也伴随着潜在的隐私风险。例如，虽然公司在其隐私政策中含糊地提到他们可以使用语音交互进行用户分析，但目前尚不清楚这种分析发生的程度以及与其他交互方式相比语音交互是否会带来更大的隐私风险。在本文中，我们在 20 个月的时间里进行了 1171 项实验，涉及不同角色和交互方式的总共 24530 个查询，以描述三种最受欢迎的语音助手如何描述其用户。我们分析了诸如分配给用户的标签、其准确性、分配这些标签所需的时间、语音和网络交互之间的差异以及每个语音助手提供的分析修复工具的有效性等因素。我们的研究结果表明，分析可以在没有交互的情况下进行，有时可能是不正确和不一致的，可能需要几天到几周的时间才能发生变化，并且可能受到交互方式的影响。

人类与自主交互中的信任动态：揭示信任动态与个人特征之间的关联

分类： 人机交互

作者： Hyesun Chung, X. Jessie Yang

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07406v1

摘要： 虽然个人特征影响人们对自治系统的快照信任，但他们与信任动态的关系仍然知之甚少。我们进行了一项人体实验，有 130 名参与者在自动威胁检测器的帮助下执行模拟监视任务。一项全面的实验前调查收集了 12 个结构和 28 个维度的参与者个人特征的数据。根据实验中收集的数据，我们将参与者的信任动态分为三种类型，并评估这三类之间在个人特征、行为、表现和实验后评分方面的差异。参与者分为三组，即贝叶斯决策者、怀疑者和震荡者。结果显示，这些集群在七个个人特征上存在显着差异：男性气质、积极情感、外向性、神经质、智力、表现预期和高期望。不相信的人往往具有高度神经质和低绩效预期。振荡者往往在男性气质、积极情感、外向性和智力方面得分较高。我们还发现三组之间的行为和实验后评分存在显着差异。不相信者最不可能盲目遵循自动威胁检测器提出的建议。基于显着的个人特征，我们开发了决策树模型来预测聚类类型，准确率达到70%。

唤醒幻灯片：通过语言模型协调实现免调优、知识调控的人工智能辅导系统

分类： 计算和语言, 人工智能, 人机交互

作者： Daniel Zhang-Li, Zheyuan Zhang, Jifan Yu, Joy Lim Jia Yin, Shangqing Tu, Linlu Gong, Haohua Wang, Zhiyuan Liu, Huiqin Liu, Lei Hou, Juanzi Li

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07372v1

摘要： 大量预先存在的幻灯片是承载讲座知识的丰富而重要的材料。然而，由于幻灯片内容的多模态性和教学行为的异构性，有效利用讲座幻灯片为学生服务是很困难的。我们研究的问题是发现将幻灯片转换为交互式讲座的有效设计。我们开发了Slide2Lecture，这是一种免调整且知识调节的智能辅导系统，它可以（1）有效地将输入的讲座幻灯片转换为由一组异构教学动作组成的结构化教学议程； (2) 创建和管理交互式讲座，生成满足学生学习需求的响应式交互，同时调节交互以遵循教学行为。 Slide2Lecture 包含一个完整的管道，供学习者获得学习幻灯片的交互式课堂体验。对于教师和开发人员来说，Slide2Lecture 可以进行定制，以满足个性化需求。注释者和学生的评估表明，Slide2Lecture 的性能优于其他实现。 Slide2Lecture的在线部署已在3K讲座中与学生进行了超过20万次互动。我们在 https://anonymous.4open.science/r/slide2lecture-4210/ 中开源了 Slide2Lecture 的实现。

空间转录组学的视觉组成数据分析

分类： 人机交互

作者： David Hägele, Yuxuan Tang, Daniel Weiskopf

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07306v1

摘要： 对于 2024 年 Bio+Med-Vis 挑战赛，我们提出了一种可视化分析系统，用于重新设计空间转录组数据的细胞类型比例的散点饼图可视化。我们的设计使用三个链接视图：组织的组织学图像的视图、显示斑点的细胞类型比例的堆叠条形图以及显示多元比例的降维的散点图。此外，我们将组合数据分析框架（Aitchison 几何）应用于降维和 $k$ 均值聚类的比例。利用刷涂和连接，该系统允许人们探索和揭示细胞类型混合物中的模式，并将它们与它们在细胞组织上的空间位置联系起来。这种重新设计将模式识别工作负载从人类视觉系统转移到视觉分析中常用的计算方法。我们在 GitHub (https://github.com/UniStuttgart-VISUS/va-for-spatial-transcriptomics) 上提供了可视化分析系统的代码和设置说明。

TopoMap++：一种更快、更节省空间的技术，用于计算具有拓扑保证的投影

分类： 图形, 计算几何, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Vitoria Guardieiro, Felipe Inagaki de Oliveira, Harish Doraiswamy, Luis Gustavo Nonato, Claudio Silva

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07257v1

摘要： 高维数据具有许多特征，可能很难有效地可视化。 PCA、UMAP 和 t-SNE 等降维技术通过将数据投影到低维空间同时保留重要关系来解决这一挑战。 TopoMap 是另一种擅长保留数据底层结构的技术，从而实现可解释的可视化。特别是，TopoMap将高维数据映射到视觉空间，保证视觉空间的Rips过滤的0维持久图与高维数据的0维持久图相匹配。然而，原始的 TopoMap 算法可能很慢，而且对于大型和复杂的数据集来说，其布局可能过于稀疏。在本文中，我们提出了对 TopoMap 的三项改进：1）更节省空间的布局，2）显着更快的实现，以及 3）一种新颖的基于 TreeMap 的表示，利用拓扑层次结构来帮助探索投影。这些进步使得 TopoMap（现在称为 TopoMap++）成为一种更强大的工具，用于可视化高维数据，我们通过不同的用例场景进行了演示。

连接可视化研究的定量和定性方法：先进人工智能的数据/语义视角

分类： 人机交互

作者： Daniel Weiskopf

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07250v1

摘要： 本文重新探讨了人工智能 (AI) 进步背景下定量和定性方法在可视化研究中的作用。重点是我们如何在分析用户研究数据的集成过程中在不同方法之间建立桥梁。为此，提出了一种可能迭代的数据语义丰富和转换的过程模型。这种数据和语义的联合视角促进了定量和定性方法的整合。该模型的灵感来自于我之前的工作示例，特别是在眼球追踪用户研究和编码数据丰富的观察领域。最后，讨论了人工智能、人类分析师以及可视化研究的定性和定量方法之间相互作用的开放问题和研究机会。

VR 中人工智能引导分子模拟的视角：探索超维分子系统中的模仿学习策略

分类： 机器学习, 人工智能, 人机交互, 生物分子

作者： Mohamed Dhouioui, Jonathan Barnoud, Rhoslyn Roebuck Williams, Harry J. Stroud, Phil Bates, David R. Glowacki

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07189v1

摘要： 分子动力学模拟是研究人员在药物发现、蛋白质工程和材料设计等领域理解和设计分子结构和功能的重要计算工具。尽管MD模拟很实用，但由于分子系统的高维性，它的成本很高。虚拟现实中的交互式分子动力学（iMD-VR）最近被开发为“人机循环”策略，它利用高性能计算来加速研究人员解决超维采样问题的能力。通过提供沉浸式 3D 环境，实现实时分子运动的可视化和操纵，iMD-VR 使研究人员和学生能够高效、直观地探索和导航这些复杂的高维系统。 iMD-VR 平台提供了一个独特的机会来快速生成丰富的数据集，捕捉人类专家关于分子结构和功能的空间洞察力。本文探讨了使用用户生成的 iMD-VR 数据集通过模仿学习 (IL) 训练 AI 代理的可能性。 IL 是机器人技术中的一项重要技术，它使代理能够模仿专家演示中的复杂行为，从而避免显式编程或复杂的奖励设计的需要。我们回顾了 IL 在机器人操作任务中的应用，并讨论了如何使用 iMD-VR 记录来训练 IL 模型来解决特定的分子“任务”。然后我们研究如何将这些方法应用于从 iMD-VR 记录捕获的数据。最后，我们概述了使用人工智能代理增强人类专业知识以有效导航构象空间的未来研究方向和潜在挑战，强调这种方法如何能够在材料科学、蛋白质工程和计算机辅助药物设计等领域提供有价值的见解。

通过提问识别设计问题：探索与大型语言模型的角色扮演交互，以培养设计提问技巧

分类： 人机交互

作者： Hyunseung Lim, Dasom Choi, Hwajung Hong

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07178v1

摘要： 识别设计问题是创建合理解决方案的关键步骤，但由于知识和经验有限，这对于设计新手来说具有挑战性。提问是一项很有前途的技能，它使学生能够独立识别设计问题，而无需被动或依赖教师。本研究探讨了与大型语言模型 (LLM) 支持的会话代理 (CA) 的角色扮演互动，以培养设计新手的提问技能。我们提出了一个由大语言模型驱动的 CA 原型，并与 16 名参与现实设计课程的设计新手学生进行了初步研究，以观察学生与由大语言模型驱动的 CA 之间的互动。我们的研究结果表明，虽然 CA 激发了提问并减少了提问的压力，但它也无意中导致了对 LLM 回答的过度依赖。我们提出了 LLM 支持的 CA 的设计考虑因素和未来工作，以培养提问技能。

VPSA 的 RSVP：用于视觉参数空间分析的快速暗示可视化原型设计的元设计研究

分类： 人机交互, 图形

作者： Manfred Klaffenboeck, Michael Gleicher, Johannes Sorger, Michael Wimmer, Torsten Möller

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07105v1

摘要： 视觉参数空间分析 (VPSA) 使领域科学家能够探索计算模型的输入输出关系。现有的 VPSA 应用程序通常具有由可视化专家针对特定场景设计的多视图可视化功能，这使得领域科学家在没有专业帮助的情况下很难使其适应他们的问题。我们推出 RSVP，这是一种编码 VPSA 知识的快速建议可视化原型系统，使领域科学家能够根据其特定需求定制定制可视化仪表板原型。该系统在针对VPSA优化的可视化设计空间上实施面向任务的多视图可视化推荐策略，以引导用户满足其分析需求。我们通过对 VPSA 的工作主体进行广泛的元设计研究，得出了系统中实施的 VPSA 知识。我们展示了如何使用此过程来执行数据和任务抽象、提取通用可视化设计空间并导出面向任务的 VisRec 策略。用户研究表明该系统用户友好，可以发现新颖的见解。

开发可听化变分量子算法的框架：对音乐创作的影响

分类： 声音, 新兴技术, 人机交互, 音频和语音处理, 量子物理学

作者： Paulo Vitor Itaboraí, Peter Thomas, Arianna Crippa, Karl Jansen, Tim Schwägerl, María Aguado Yáñez

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07104v1

摘要： 本章研究变分量子协调器，这是一种软件工具和音乐界面，重点关注变分量子算法（VQA）最小化步骤的声音化问题，用于模拟量子系统的特性和量子硬件辅助的优化问题。特别是，它详细介绍了使用 VQA 的二次无约束二元优化 (QUBO) 问题的声音化。灵活的设计使其未来的应用既可以作为科学研究中听觉显示的发声工具，也可以作为艺术创作中的混合量子数字乐器。反过来，可听化可以帮助研究人员更好地理解复杂系统，并可以用于量子物理和量子计算的训练。详细介绍了 VQH 结构，包括其软件实现、控制机制和可听化映射。此外，它还指导 VQH 中作为音乐创作对象的 QUBO 成本函数的设计。讨论扩展到在量子计算机辅助合成和实时编码性能中应用量子辅助模拟的含义。作品 \textit{Hexagonal Chambers}（Thomas 和 Itabora'i，2023）展示了艺术作品。

视频游戏的动态场景可视化

分类： 人机交互

作者： Federica Bucchieri, Lijie Yao, Petra Isenberg

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07031v1

摘要： 我们对视频游戏背景下的运动场景可视化进行了系统回顾。视频游戏在游戏过程中会产生丰富的动态数据集，这些数据集通常被可视化以帮助玩家在游戏中取得成功。通常，这些可视化效果会移动，因为它们附加到移动的游戏元素或由于摄像机的变化。我们想要了解这种运动和上下文游戏因素在多大程度上影响玩家阅读这些可视化的方式。为了奠定我们的工作基础，我们调查了 160 个动态可视化及其在游戏世界中的嵌入。在这里，我们报告对这些可视化的分析和分类。

设想城市环境中环境足迹的情景可视化

分类： 人机交互

作者： Yvonne Jansen, Federica Bucchieri, Pierre Dragicevic, Martin Hachet, Morgane Koval, Léana Petiot, Arnaud Prouzeau, Dieter Schmalstieg, Lijie Yao, Petra Isenberg

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07006v1

摘要： 我们展示了头脑风暴练习的结果，重点是如何使用情境可视化来更好地了解环境状态以及我们个人行为对其的影响。具体来说，我们在法国波尔多市举办了为期一天的研讨会，在那里我们设想了城市环境足迹的可视化。我们探索了这座城市，拍摄了照片并记录了可能嵌入在感兴趣的地方、人物或物体附近的环境足迹的可视化情况。我们发现我们的设计针对四个目的并使用了四种不同的方法，可以进一步探索这些方法来测试情景可视化以保护环境。

运动中的定位可视化

分类： 人机交互

作者： Lijie Yao, Anastasia Bezerianos, Petra Isenberg

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07005v1

摘要： 我们贡献了第一个关于运动可视化的设计空间以及我们计划在秋季进行的试点研究的设计。可视化在观察处于运动状态或整个可视化以不同速度移动的情况下非常有用。例如，想象一下，附着在运动员或动物身上的显示器可以显示有关佩戴者的数据，例如从健身追踪带捕获的数据；或附加到移动物体（例如车辆或足球）的可视化。我们研究的最终目标是为运动中的可视化设计提供信息。

桌子物理化与数字可视化的比较研究

分类： 人机交互

作者： Yanxin Wang, Yihan Liu, Lingyun Yu, Chengtao Ji, Yu Liu

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.06951v1

摘要： 数据物理化由于其使抽象数据变得更加有形和易于理解的潜力而在公共和教育环境中越来越受欢迎。尽管它的使用越来越多，但我们对大尺寸物理可视化与数字可视化在用户理解和记忆保留方面的理解仍然存在很大差距。本研究旨在通过比较在大型数字屏幕上可视化学校建筑历史数据与大型物理模型的有效性来弥补这一知识差距。我们的实验方法涉及 32 名接触其中一种可视化媒体的参与者。我们通过接触后的测试来评估他们的用户体验和对内容的即时理解，并通过 7 天后的后续测试评估记忆保留情况。结果揭示了两种可视化形式之间的显着差异：物理化不仅有助于更好的初始理解，而且还显着增强了长期记忆保留。此外，用户对物理化可用性的反馈也更高。这些发现强调了物理化在提高信息理解和保留方面的重大影响。这项研究为未来教育和公共环境中的可视化媒体选择提供了重要的见解。

最低限度可行的道德规范：从制度化行业人工智能治理到产品影响

分类： 人机交互, 计算机与社会

作者： Archana Ahlawat, Amy Winecoff, Jonathan Mayer

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.06926v1

摘要： 在整个技术行业，许多公司都表达了对人工智能道德的承诺，并设立了专门的角色，负责将高水平的道德原则转化为产品。但目前尚不清楚这对于带来有意义的产品变革有多有效。通过对 26 名从事行业人工智能道德工作的专业人士进行半结构化访谈，我们发现了道德工作制度化以及转化为产品影响的挑战和策略。我们最终发现人工智能道德专业人士高度敏捷和机会主义，因为他们试图在他们几乎没有传统权力的企业环境中创建标准化和可重用的流程和工具。在与产品团队的谈判中，他们面临着源于缺乏对产品的权威和所有权的挑战，但可以通过利用监管响应和道德的叙述作为产品质量保证来推动道德工作。然而，这一策略给我们留下了最低限度的可行道德规范，即范围狭窄的行业人工智能道德规范，其解决与合规性或产品质量无关的规范问题的能力受到限制。未来潜在的监管可能有助于弥合这一差距。

迷茫与困惑：VR 中真实行走任务期间的晕眩、工作记忆、心理负荷、身体负荷和注意力数据集

分类： 人机交互, 机器学习

作者： Jyotirmay Nag Setu, Joshua M Le, Ripan Kumar Kundu, Barry Giesbrecht, Tobias Höllerer, Khaza Anuarul Hoque, Kevin Desai, John Quarles

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06898v1

摘要： 虚拟现实（VR）正在迅速在培训、教育、医疗和娱乐等各个行业中站稳脚跟，这些行业中的用户经常需要进行多种复杂的认知和身体活动。然而，认知活动、身体活动和熟悉的晕车感觉之间的关系尚不清楚，因此开发人员可能无法预测。研究人员此前提供了用于预测用户静止时晕眩症的标记数据集，但很少有关于用户行走时晕眩症的标记数据集。因此，我们从 39 名参与者中收集了头部方向、头部位置、眼球追踪、图像、外部传感器的生理读数，以及 VR 中自我报告的晕机严重程度、身体负荷和精神负荷。在整个数据收集过程中，参与者通过真正的行走来穿越迷宫，并执行挑战他们的注意力和工作记忆的任务。为了证明该数据集的实用性，我们进行了训练分类器的案例研究，其中我们实现了晕机严重程度分类的 95% 准确率。简单分类器的显着性能使该数据集成为未来研究人员开发晕机检测和减少模型的理想选择。为了更好地理解有助于分类的特征，我们进行了 SHAP（SHapley Additive exPlanations）分析，强调了眼动追踪和生理测量对于步行时晕车预测的重要性。这个开放数据集可以让未来的研究人员研究晕眩症和认知负荷之间的联系并开发预测模型。该数据集将使未来的 VR 开发人员能够通过改善认知负荷管理和最大程度地减少晕眩症来设计高效且有效的虚拟环境。

人工智能辅助数据可视化的形成性研究

分类： 人机交互, 人工智能

作者： Rania Saber, Anna Fariha

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06892v1

摘要： 这项形成性研究调查了数据质量对人工智能辅助数据可视化的影响，重点关注未清理的数据集如何影响这些工具的结果。通过从具有固有质量问题的数据集生成可视化，该研究旨在识别出现的特定可视化问题并对其进行分类。该研究进一步探索了有效解决这些可视化挑战的潜在方法和工具。尽管工具开发尚未开始，但研究结果强调增强人工智能可视化工具以更好地处理有缺陷的数据。这项研究强调了对更强大、用户友好的解决方案的迫切需求，这些解决方案有助于更快、更轻松地纠正数据和可视化错误，从而提高人工智能辅助数据可视化过程的整体可靠性和可用性。

通过稀疏的签到数据了解人类情绪波动

分类： 机器学习, 人机交互

作者： Sagar Paresh Shah, Ga Wu, Sean W. Kortschot, Samuel Daviau

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06863v1

摘要： 数据稀疏性是限制人工智能工具在各个领域的能力的一个关键挑战。这个问题在需要主动用户输入而不是从自动传感器获得测量的领域中尤其明显。在需要用户积极参与的领域（例如自我报告的情绪检查）中，要充分发挥人工智能的潜力，这是一个关键障碍，在这些领域中，捕获情绪状态的连续图像至关重要。在这种情况下，稀疏的数据可能会阻碍捕捉个人情感体验的细微差别（例如原因、触发因素和影响因素）的努力。解决数据稀缺问题的现有方法通常依赖于启发式方法或大型已建立的数据集，有利于缺乏对新领域适应性的深度学习模型。本文提出了一种新颖的概率框架，该框架集成了以用户为中心的基于反馈的学习，允许在数据有限的情况下进行个性化预测。该框架在 64 个选项中预测用户状态的准确率达到 60%（概率为 1/64），有效缓解了数据稀疏性。它具有跨各种应用的多功能性，弥合了人工智能理论研究和实际部署之间的差距。

NSP：神经符号自然语言导航规划器

分类： 人工智能, 计算和语言, 人机交互

作者： William English, Dominic Simon, Rickard Ewetz, Sumit Jha

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06859v1

摘要： 可以解释自由形式自然语言指令的路径规划器有望实现各种机器人应用的自动化。这些规划器简化了用户交互，并实现了对复杂半自治系统的直观控制。虽然现有的符号方法可以保证正确性和效率，但它们很难解析自由形式的自然语言输入。相反，基于预训练大型语言模型 (LLM) 的神经方法可以管理自然语言输入，但缺乏性能保证。在本文中，我们提出了一种神经符号框架，用于根据自然语言输入进行路径规划，称为 NSP。该框架利用大语言模型的神经推理能力来 i) 制作环境的符号表示和 ii) 符号路径规划算法。接下来，通过在环境表示上执行算法来获得路径规划问题的解决方案。该框架使用从符号执行环境到神经生成过程的反馈循环来自我纠正语法错误并满足执行时间限制。我们使用包含 1500 个路径规划问题的基准套件来评估我们的神经符号方法。实验评估表明，我们的神经符号方法产生了 90.1% 的有效路径，比最先进的神经方法平均短 19-77%。

“首先来找我们”：以人工智能为中心的社区组织促进社会良好伙伴关系

分类： 人机交互

作者： Hongjin Lin, Naveena Karusala, Chinasa T. Okolo, Catherine D'Ignazio, Krzysztof Z. Gajos

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06814v1

摘要： 人工智能促进社会公益（AI4SG）已成为越来越多的研究和实践机构，探索人工智能技术解决社会问题的潜力。该领域强调与社区组织（例如非营利组织和政府机构）的跨学科伙伴关系。然而，尽管人们对人工智能的新进步及其潜在影响感到兴奋，但这些社区组织的需求、期望和愿望——以及它们是否得到满足——还没有得到很好的理解。了解这些因素对于确保人工智能团队和社区组织的巨大努力能够真正实现他们所追求的积极社会影响非常重要。借助数据女权主义框架，我们通过 16 次半结构化访谈，探讨了社区组织成员对于与 AI 团队合作的看法。我们的研究强调了资助议程的普遍影响以及围绕人工智能潜力的乐观情绪。尽管社区组织成员做出了巨大的智力贡献和劳动，但他们的目标经常被其他利益相关者（包括人工智能团队）搁置。虽然许多社区组织成员期望切实的项目部署，但我们研究的 14 个项目中只有两个达到了部署阶段。然而，社区组织成员仍然相信这些项目的潜力，仍然认为减少的目标很有价值。为了提高未来合作的效率，我们的参与者分享了他们对成功的渴望，呼吁从项目的早期阶段开始共同领导。我们建议将数据共同解放作为 AI4SG 前进的基本原则，并认为社区组织的共同领导对于促进人工智能更有效、可持续和道德的发展至关重要。

人体运动合成_运动拼接和中间的扩散方法

分类： 计算机视觉和模式识别, 人机交互, 机器学习

作者： Michael Adewole, Oluwaseyi Giwa, Favour Nerrise, Martins Osifeko, Ajibola Oyedeji

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06791v1

摘要： 人体运动生成是许多领域的一个重要研究领域。在这项工作中，我们解决了运动拼接和中间的问题。当前的方法要么需要手动操作，要么无法处理更长的序列。为了解决这些挑战，我们提出了一种具有基于变压器的降噪器的扩散模型，以生成逼真的人体运动。我们的方法在生成中间序列、将可变数量的输入姿势转换为由 15 fps 的 75 帧组成的平滑且逼真的运动序列方面表现出强大的性能，导致总持续时间为 5 秒。我们使用 Frechet 起始距离 (FID)、多样性和多模态等定量指标以及对生成输出的视觉评估来评估我们的方法。

设计资源分配工具以促进公平分配：可视化和信息框架重要吗？

分类： 人机交互, 计算机与社会, H.5.0

作者： Arnav Verma, Luiz Morais, Pierre Dragicevic, Fanny Chevalier

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06688v1

摘要： 针对人道主义援助的人类决策研究发现，认知偏差会阻碍资源的公平分配。然而，很少有人机交互和信息可视化研究探索了克服这些认知偏差的方法。这项工作探讨了交互式资源分配工具的设计是否有助于促进分配公平。我们专门研究演示格式（使用文本或可视化）和特定框架策略（显示分配给团体或个人的资源）的效果。在我们的三个众包实验中，我们提供了不同的工具设计，在两个虚构的项目之间分配资金，使两个不同的社区受益。我们的主要发现表明，个体框架的可视化和文本可能能够遏制由群体框架设计引起的不公平分配。这项工作开辟了新的视角，可以激发人们对如何设计交互式工具和可视化来对抗导致不公平决策的认知偏见的研究。

社交媒体环境中大语言模型生成的文本内容的人类感知

分类： 人机交互

作者： Kristina Radivojevic, Matthew Chou, Karla Badillo-Urquiola, Paul Brenner

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06653v1

摘要： 新兴技术，特别是人工智能（AI），更具体地说是大型语言模型（LLM），为恶意行为者提供了操纵数字话语的强大工具。大语言模型有可能影响传统形式的民主参与，例如选民选择、政府调查，甚至与监管机构的在线沟通；因为机器人能够产生大量可信的文本。为了调查人类对 LLM 生成内容的看法，我们招募了 1,000 多名参与者，然后他们试图将机器人与社交媒体讨论线程中的人类帖子区分开来。我们发现，人类在识别社交媒体上用户帖子的真实性质方面表现不佳。我们还发现了人类如何在社交媒体话语中识别大语言模型生成的文本内容的模式。最后，我们在用户感知和识别方面观察了文本对话中的恐怖谷效应。这表明，尽管人类在识别过程中表现不佳，但他们在阅读大语言模型生成的内容时仍然会感到不适。

战略管理分析：大语言模型从数据到战略图

分类： 人机交互, H.5.2

作者： Richard Brath, Adam Bradley, David Jonker

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06643v1

摘要： 战略管理分析是由业务顾问使用通用分析框架（即比较分析）和相关图表创建的。我们展示了这些可以在很大程度上使用大语言模型构建，首先从数据中提取见解，根据策略管理框架组织这些见解，然后在该框架的典型策略管理图中进行描述（静态文本可视化）。我们讨论了注意事项和未来的方向，以推广到更广泛的用途。

高级视线分析仪表板

分类： 人机交互

作者： Gavindya Jayawardena, Vikas Ashok, Sampath Jayarathna

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06628v1

摘要： 眼球运动可以提供信息提示，以了解人类视觉扫描/搜索行为和不同任务期间的认知负荷。任务期间实时注视测量的可视化可以帮助我们了解实验进行时的人类行为。尽管现有的眼动追踪分析工具提供了眼动追踪数据的计算和可视化，但它们都不支持高级注视测量的实时可视化，例如环境或焦点处理，或认知负荷的眼动追踪测量。在本文中，我们提出了一个眼动分析仪表板，通过使用常见的现成眼动仪提取参与者的眼动，可以实现各种注视测量、注视、扫视、认知负荷、环境焦点注意力和注视转换分析的可视化。我们通过使用两个公开可用的眼动追踪数据集来验证所提出的眼动可视化。我们展示了，所提出的仪表板可用于可视化使用多个数据源生成的高级眼动测量。

“斗争是体验的一部分”：将不满情绪融入家庭膳食技术的设计中

分类： 人机交互, 计算机与社会, 新兴技术

作者： Yuxing Wu, Andrew D Miller, Chia-Fang Chung, Elizabeth Kaziunas

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06627v1

摘要： 膳食是家庭生活的核心（也是混乱的）部分。以前的进餐技术设计框架侧重于支持饮食需求或餐桌上的社交和庆祝互动。然而，家庭聚餐涉及许多活动的协调和复杂的家庭动态。在本文中，我们报告了对美国中西部 18 个家庭（包括伴侣/父母和孩子）的访谈和设计会议的结果，以揭示因家庭用餐体验而出现的重要家庭差异和紧张关系。借鉴女权主义理论，我们将养家糊口的工作视为一种照顾形式，引起人们对家庭用餐的社会和情感复杂性的关注。我们将我们的数据批判性地置于当前的设计叙述中，提出了生成性和系统性不满的敏感概念，作为一种有效的方式来困扰家庭与食物互动的设计空间，以应对日常家庭用餐体验中的挣扎。

通过机器人进行社交调解——使用扩展群体过程模型通过定向机器人行动改善群体互动的范围界定审查

分类： 机器人技术, 人机交互

作者： Thomas H. Weisswange, Hifza Javed, Manuel Dietrich, Malte F. Jung, Nawid Jamali

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06557v1

摘要： 群体过程是指群体内部发生的动态，对于理解群体如何运作至关重要。随着机器人越来越多地被放置在小团体中，改进这些流程已成为社交机器人的重要应用。社交中介机器人通过故意影响群体的进程来引发群体内的行为变化。尽管该领域的研究表明机器人可以有效影响人际动态，但在整合这些见解以发展连贯的理解和理论方面存在显着差距。我们对文献进行了范围审查，旨在通过机器人代理的有意行动来改变多人之间的社交互动。为了指导我们的审查，我们采用了经典的输入-过程-输出 (I-P-O) 模型，我们称之为“中介 I-P-O 模型”。我们评估了 1633 篇出版物，得出了 89 个不同的社交中介概念。我们构建了 11 种机器人可以用来塑造小组和团队流程的调解方法。这项工作致力于产生可推广的见解，并评估迄今为止通过机器人进行社交调解的潜力的实现程度。我们希望拟议的框架鼓励采用整体方法来研究社交调解，并为该领域未来报告的标准化奠定基础。

代理人可以自发形成社团吗？引入一种新颖的生成多智能体架构来引发社会涌现

分类： 多代理系统, 人工智能, 人机交互, 机器学习, 68T42, I.2.7; J.4

作者： H. Zhang, J. Yin, M. Jiang, C. Su

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06750v1

摘要： 生成代理在特定任务中表现出了令人印象深刻的能力，但这些框架大多数都专注于独立任务，缺乏对社交互动的关注。我们引入了一种称为 ITCMA-S 的生成代理架构，它包括一个用于单个代理的基本框架和一个称为 LTRHA 的框架，该框架支持多代理之间的社交交互。这种架构使代理能够识别和过滤掉不利于社交互动的行为，引导他们选择更有利的行为。我们设计了一个沙箱环境来模拟多个无身份代理之间社会关系的自然演化，以进行实验评估。结果表明，ITCMA-S在多项评估指标上表现良好，展示了其通过持续行动和对话主动探索环境、识别新智能体以及获取新信息的能力。观察表明，当代理人相互建立联系时，他们会自发地围绕选定的领导者形成具有内部等级制度的派系，并组织集体活动。

跑步时收集以自我为中心的可视化所需的信息

分类： 人机交互

作者： Ahmed Elshabasi, Lijie Yao, Petra Isenberg, Charles Perin, Wesley Willett

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06426v1

摘要： 我们通过将自我中心视频、生物识别技术和有声思考观察相结合的真实世界记录的初始语料库，研究户外体育活动期间运动可视化的研究挑战和机遇。随着智能手表和头戴式显示器等跟踪和记录设备的使用越来越多，越来越多的关于人的活动和活动背景的实时数据可用。然而，并非所有数据始终相关。相反，运动员的信息需求在整个活动过程中会根据环境和表现而变化。为了应对这一挑战，我们描述了各种信息需求的收集以及上下文音频、视频和传感器数据。接下来，我们提出第一组研究挑战和设计考虑因素，探索在上下文中可视化这些真实数据需求的困难，并演示用于浏览、聚合和分析这些信息的原型工具。我们的最终目标是理解并支持将可视化嵌入到不断变化的环境和不同的数据需求的户外环境中。

对健身追踪器运动可视化的思考

分类： 人机交互

作者： Alaul Islam, Lijie Yao, Anastasia Bezerianos, Tanja Blascheck, Tingying He, Bongshin Lee, Romain Vuillemot, Petra Isenberg

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06401v1

摘要： 在本文中，我们回顾了过去的工作，以了解如何为运动中使用的健身追踪器设计可视化效果。我们为在观看者和可视化之间存在相对运动的情况下使用的可视化创造了术语“运动中的可视化”。在这里，我们描述运动可视化如何与运动场景相关。我们还提供了当前智能手表运动可视化的新数据，并讨论了健身追踪器运动可视化的未来挑战。

通过虚构的新闻文章探索人工智能的未来

分类： 人机交互

作者： Martin Lindstam, Elin Sporrong, Camilo Sanchez, Petra Jääskeläinen

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06354v1

摘要： 本次研讨会的目的是利用虚构的新闻文章和讨论小组对人工智能的未来进行批判性讨论。通过以新闻文章的形式协作想象和呈现未来场景，参与者通过易于理解的叙事形式探索了人工智能的社会政治、伦理和可持续性因素。参与者通过在小组讨论中分析文章提出的问题，强调新闻文章中传达的潜在动机、假设和期望，进行进一步的预期工作。

用户对大型语言模型的偏好与基于模板的电影推荐解释：一项试点研究

分类： 信息检索, 人机交互, 机器学习

作者： Julien Albert, Martin Balfroid, Miriam Doh, Jeremie Bogaert, Luca La Fisca, Liesbet De Vos, Bryan Renard, Vincent Stragier, Emmanuel Jean

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06297v1

摘要： 从在线购物到流媒体平台，推荐系统已成为我们数字体验不可或缺的一部分。尽管如此，他们的建议背后的基本原理对用户来说往往仍然不透明。虽然一些系统采用基于图形的方法，通过关联推荐项目和种子项目的路径提供固有的可解释性，但非专家无法轻易理解这些解释。一种流行的替代方法是使用模板和算法将基于图形的解释转换为文本解释，我们在这里将其表示为“基于模板”的解释。然而，这些有时会显得缺乏人情味或缺乏启发性。一种新颖的方法是为此目的采用大型语言模型 (LLM)，我们将其表示为“基于 LLM”。为了评估大语言模型在产生更能引起共鸣的解释方面的有效性，我们对 25 名参与者进行了一项试点研究。他们收到了三种解释：(1) 基于传统模板的解释，(2) 基于 LLM 的模板输出改写，以及 (3) 从基于图形的解释得出的纯粹基于 LLM 的解释。尽管存在很大差异，但初步研究结果表明，基于大语言模型的解释可以提供更丰富、更具吸引力的用户体验，进一步符合用户期望。这项研究揭示了当前解释方法的潜在局限性，并为利用大型语言模型提高用户满意度和对推荐系统的信任提供了有希望的方向。

VBIT：加强物联网设备的隐私控制

分类： 人机交互, 密码学和安全

作者： Jad Al Aaraj, Olivia Figueira, Tu Le, Isabela Figueira, Rahmadi Trimananda, Athina Markopoulou

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06233v1

摘要： 物联网 (IoT) 设备越来越多地部署在家庭、工作场所以及其他共享和公共空间中。物联网设备收集数据并与服务提供商和第三方共享数据，这带来了隐私问题。尽管隐私增强工具在其他应用领域相当先进（例如浏览器的广告和跟踪器拦截器），但用户目前没有方便的方法来了解或管理物联网设备收集和共享数据的内容和方式。在本文中，我们提出了 VBIT，这是一个结合了混合现实 (MR) 和基于 Web 的应用程序的交互式系统，允许用户：(1) 在仪表化空间中发现和可视化物联网设备的跟踪服务，以及 (2) 采取行动阻止或限制该跟踪。我们设计并实现了 VBIT 在网络流量级别上运行，我们表明它的性能开销可以忽略不计，并且提供了灵活性和良好的可用性。我们进行了一项混合方法的用户研究，包括在线调查和面对面访谈研究。我们表明，VBIT 用户欣赏 VBIT 的透明度、控制和定制功能，并且在使用 VBIT 后，他们明显更愿意安装物联网广告和跟踪拦截器。在此过程中，我们获得了设计见解，可用于进一步迭代和改进 VBIT 和其他物联网透明度和控制系统的设计。

SHAPE-IT：与大语言模型一起探索文本到形状显示的生成形状改变行为

分类： 人机交互, 计算和语言, H.5.2

作者： Wanli Qian, Chenfeng Gao, Anup Sathya, Ryo Suzuki, Ken Nakagaki

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06205v1

摘要： 本文介绍了文本到形状显示，这是一种通过自然语言命令在基于引脚的形状显示中生成动态形状变化的新方法。通过利用大型语言模型 (LLM) 和人工智能链，我们的方法允许用户通过文本提示按需创作形状改变行为，而无需编程。我们描述了这样一个系统所需的基本方面，包括基于形成性探索和迭代设计过程识别关键生成元素（原始、动画和交互）和增强用户交互的设计要求。基于这些见解，我们开发了 SHAPE-IT，这是一种基于 LLM 的 24 x 24 形状显示创作工具，它将用户的文本命令转换为可执行代码，并允许通过基于 Web 的控制界面进行快速探索。我们通过两种方式评估 SHAPE-IT 的有效性：1）性能评估和 2）用户评估（N = 10）。研究结论强调了人工智能促进快速构思各种形状变化行为的能力。然而，研究结果也暴露了与准确性相关的挑战和局限性，促使人们进一步探索完善利用人工智能的框架，以更好地满足变形系统的独特要求。

大型语言模型能否解锁新颖的科学研究想法？

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互, 机器学习

作者： Sandeep Kumar, Tirthankar Ghosal, Vinayak Goyal, Asif Ekbal

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06185v1

摘要： “一个想法只不过是旧元素的新组合”（Young，J.W.）。大型语言模型 (LLM) 和公开可用的 ChatGPT 的广泛采用标志着人工智能 (AI) 融入人们日常生活的重大转折点。本研究探讨了大语言模型根据研究论文信息产生新颖研究想法的能力。我们对五个领域（例如化学、计算机、经济学、医学和物理）的 4 个大语言模型进行彻底审查。我们发现Claude-2和GPT-4产生的未来研究思路比GPT-3.5和Gemini更符合作者的观点。我们还发现，Claude-2 比 GPT-4、GPT-3.5 和 Gemini 1.0 产生了更加多样化的未来研究思路。我们进一步对所产生的未来研究想法的新颖性、相关性和可行性进行了人工评估。这项调查深入了解了大语言模型在创意生成中不断变化的作用，强调了其能力和局限性。我们的工作有助于评估和利用语言模型来产生未来的研究想法。我们公开提供我们的数据集和代码。

SQLucid：通过交互式解释为自然语言数据库查询奠定基础

分类： 人机交互, 计算和语言

作者： Yuan Tian, Jonathan K. Kummerfeld, Toby Jia-Jun Li, Tianyi Zhang

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06178v1

摘要： 尽管机器学习的最新进展导致数据库自然语言界面的显着改进，但这些系统的准确性和可靠性仍然有限，特别是在高风险领域。本文介绍了 SQLucid，这是一种新颖的用户界面，它弥补了非专家用户和复杂数据库查询过程之间的差距。 SQLucid 通过以自然语言集成视觉对应、中间查询结果和可编辑的逐步 SQL 解释来解决现有限制，以促进用户理解和参与。这种独特的功能组合使用户能够轻松、准确地理解和优化 SQL 查询。我们进行了两项用户研究和一项定量实验来验证 SQLucid 的有效性，结果表明与现有界面相比，任务完成准确性和用户信心有了显着提高。我们的代码可在 https://github.com/magic-YuanTian/SQLucid 获取。

量子计算系统性能和电路优化的可视化分析

分类： 量子物理学, 人机交互

作者： Junghoon Chae, Chad A. Steed, Travis S. Humble

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06159v1

摘要： 在商业、安全和科学场景中潜在的指数级加速的推动下，人们对量子计算的兴趣正在激增。这种兴趣促进了量子计算硬件的发展，但在优化硬件指标的应用程序性能（例如，量子位一致性和门保真度）时出现了一些挑战。在这项工作中，我们描述了一种用于分析量子器件和量子电路优化性能特性的可视化分析方法。我们的方法允许用户探索量子设备性能数据中的空间和时间模式，并计算关键性能指标的相似性和差异。还支持对表征各个量子位的错误属性进行详细分析。我们还描述了一种可视化量子电路优化的方法。由此产生的可视化工具使研究人员能够通过提高量子计算的可解释性来设计更高效的量子算法和应用。

人体阻抗调节可改善视觉触觉感知

分类： 人机交互

作者： Xiaoxiao Cheng, Shixian Shen, Ekaterina Ivanova, Gerolamo Carboni, Atsushi Takagi, Etienne Burdet

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06124v1

摘要： 人类激活肌肉来塑造与环境的机械相互作用，但他们能否利用这种控制机制来最好地感知环境？我们研究了参与者在使用机器人界面跟踪随机移动目标时如何使肌肉激活适应视觉和触觉信息。结果显示出这些感觉方式的差异化效果，参与者的肌肉协同收缩随着触觉噪音而增加，并随着视觉噪音而减少，这与之前的结果明显矛盾。当考虑类似肌肉弹簧的力学时，这些结果可以得到解释，并与之前的发现相一致，其中刚度随着共同收缩而增加，以调节运动引导。增加协同收缩以更紧密地遵循运动计划有利于准确的视觉而不是触觉信息，而减少协同收缩则可以避免注入视觉噪声并依赖于准确的触觉信息。我们将这种主动感知机制表述为视觉触觉信息和努力的优化。该 OIE 模型可以解释在与固定或动态环境或与另一个人交互时肌肉活动对单模态和多模态感觉信息的适应，并可用于优化人机交互。

Hevelius 报告：可视化基于 Web 的活动性测试数据以提供临床决策和学习支持

分类： 人机交互

作者： Hongjin Lin, Tessa Han, Krzysztof Z. Gajos, Anoopum S. Gupta

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.06088v1

摘要： Hevelius 是一种基于网络的计算机鼠标测试，可测量手臂运动，并已被证明可以准确评估帕金森病和共济失调患者的严重程度。 Hevelius 会话会产生 32 个数字特征，这些特征可能难以解释，尤其是在时间有限的临床环境中。这项工作旨在支持临床医生（和其他利益相关者）解释 Hevelius 特征并将其与临床概念联系起来。通过迭代设计过程，我们开发了一种可视化工具（Hevelius Report），该工具（1）从 32 个特征中抽象出 6 个临床相关概念，（2）可视化患者测试结果，并将其与健康对照和其他患者的结果进行比较，以及（ 3）是一个交互式应用程序，可以满足不同使用场景的特定需求。然后，我们通过在线采访三名未参与该项目的临床医生进行了初步的用户研究。他们表示有兴趣使用 Hevelius Report，尤其是识别患者活动能力的细微变化，而现有的临床测试很难捕捉到这些变化。未来的工作将把可视化工具整合到神经病学团队当前的临床工作流程中，并对工具的有用性、可用性和有效性进行系统评估。 Hevelius Report 代表了一种有前途的解决方案，用于分析精细运动测试结果和监测患者的病情和进展。

MemoVis：一款由 GenAI 驱动的工具，用于为 3D 设计反馈创建配套参考图像

分类： 人机交互, H.5.1; H.5.2; J.0

作者： Chen Chen, Cuong Nguyen, Thibault Groueix, Vladimir G. Kim, Nadir Weibel

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.06082v1

摘要： 提供异步反馈是 3D 设计工作流程中的关键步骤。提供反馈的常见方法是将文本评论与配套参考图像配对，这有助于说明文本的要点。理想情况下，反馈提供者应具备 3D 和图像编辑技能，以创建能够有效描述他们想法的参考图像。然而，他们往往缺乏这样的技能，因此他们不得不求助于草图或在线图像，这些可能与当前的 3D 设计不太匹配。为了解决这个问题，我们引入了 MemoVis，这是一个文本编辑器界面，可帮助反馈提供者通过由反馈评论驱动的生成式 AI 创建参考图像。首先，基于视觉语言基础模型的新颖的实时观点建议功能可以帮助反馈提供者将评论与相机视点结合起来。其次，给定相机视点，我们基于预先训练的 2D 生成模型引入三种类型的图像修改器，将文本注释转换为该视点的 3D 场景的更新版本。我们与反馈提供者进行了一项受试者内研究，证明了 MemoVis 的有效性。配套图像的质量和清晰度由另外八名具有 3D 设计经验的参与者进行了评估。

调查住房不稳定对儿童和青少年抑郁、焦虑和心理健康治疗的影响

分类： 人机交互

作者： Rachael Zehrung, Di Hu, Yawen Guo, Kai Zheng, Yunan Chen

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.06011v1

摘要： 住房不稳定是美国的一个普遍现象。住房不稳定与其他健康问题社会决定因素相结合，影响儿童的整体健康和发展。根据 2022 年全国儿童健康调查的数据，我们采用了多种逻辑回归模型来了解社会人口因素（尤其是住房不稳定）如何影响 6-17 岁青少年的心理健康结果和治疗机会。我们的结果表明，面临住房不稳定的青少年经历焦虑（OR：1.42，p<0.001）和抑郁（OR：1.57，p<0.001）的可能性更高。此外，在过去一年中，同时经历心理健康问题和住房不稳定的青少年接受心理健康服务的可能性明显降低，这表明他们在获得心理健康护理方面面临巨大障碍。根据我们的发现，我们强调数字心理健康干预措施的机会，为经历住房不稳定的儿童提供更容易获得和一致的心理健康服务。

数据可视化与数据科学教学的挑战和机遇

分类： 人机交互

作者： Shri Harini Ramesh, Fateme Rajabiyazdi

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05969v1

摘要： 随着全球数据量的不断增加，数据分析和可视化正在成为各个行业的基本技能。让大学生具备这些基本的数据技能非常重要。要学习、设计和开发数据可视化，学生需要具备编程和数据科学主题的知识。许多大学课程缺乏针对本科生的专门数据科学课程，因此通过综合课程介绍这些概念非常重要。然而，由于时间限制和学习负担重，将数据科学和数据可视化结合到一门课程中可能具有挑战性。在本文中，我们在一门课程中一起讨论了数据科学和数据可视化教学的发展，并分享了课后评估调查的结果。从调查结果中，我们确定了四个挑战，包括学习多种工具和不同数据科学主题的困难、工具和库的熟练程度不同以及选择和清理数据集。我们还提炼出五个开发成功的数据科学和可视化课程的机会。这些机会包括澄清课程结构、在课程早期强调可视化素养、根据学生需求更新课程内容、使用大型现实数据集、向行业专业人士学习以及促进学生之间的协作。

我的车说了什么？自动驾驶车辆解释错误和驾驶环境对舒适性、可靠性、满意度和驾驶信心的影响

分类： 人机交互, 人工智能

作者： Robert Kaufman, Aaron Broukhim, David Kirsh, Nadir Weibel

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05731v2

摘要： 对自动驾驶汽车 (AV) 决策的解释可能会建立信任，但解释可能包含错误。在模拟驾驶研究（n = 232）中，我们测试了自动驾驶汽车解释错误、驾驶环境特征（感知到的伤害和驾驶难度）以及个人特征（之前的信任和专业知识）如何影响乘客依赖自动驾驶汽车的舒适度、偏好控制、对 AV 能力的信心以及解释满意度。错误会对所有结果产生负面影响。令人惊讶的是，尽管驾驶方式相同，但解释错误却降低了自动驾驶汽车驾驶能力的评分。严重性和潜在危害放大了错误的负面影响。环境伤害和驾驶难度直接影响结果评级并影响错误与结果之间的关系。先前的信任和专业知识与结果评级呈正相关。结果强调需要准确、上下文适应和个性化的 AV 解释来培养信任、依赖、满意度和信心。最后，我们提出了值得信赖的 AV 解释系统的设计、研究和部署建议。

VFA：基础模型和人类的视觉频率分析

分类： 计算机视觉和模式识别, 人机交互

作者： Mohammad-Javad Darvishi-Bayazi, Md Rifat Arefin, Jocelyn Faubert, Irina Rish

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05817v1

摘要： 机器学习模型经常难以应对现实场景中的分布变化，而人类则表现出强大的适应能力。更好地符合人类感知的模型可能会实现更高的分布外泛化。在这项研究中，我们研究了大规模计算机视觉模型的各种特征如何影响其与人类能力和鲁棒性的一致性。我们的研究结果表明，增加模型和数据规模并结合丰富的语义信息和多种模式可以增强模型与人类感知的一致性及其整体稳健性。我们的实证分析表明，分布外准确度与人类对齐之间存在很强的相关性。

通过人类响应时间增强基于偏好的线性强盗

分类： 机器学习, 人工智能, 人机交互, 计量经济学, 机器学习

作者： Shen Li, Yuyang Zhang, Zhaolin Ren, Claire Liang, Na Li, Julie A. Shah

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05798v1

摘要： 二元人类选择反馈因其简单性而广泛应用于交互式偏好学习，但它提供的有关偏好强度的信息有限。为了克服这一限制，我们利用与偏好强度成反比的人类响应时间作为补充信息。我们的工作将 EZ 扩散模型（该模型联合模拟人类选择和响应时间）集成到基于偏好的线性老虎机中。我们引入了一种计算高效的效用估计器，它使用选择和响应时间将效用估计问题重新表述为线性回归问题。与传统的仅选择估计器的理论和实证比较表明，对于具有强烈偏好的查询（“简单”查询），仅选择提供的信息有限，而响应时间提供了有关偏好强度的有价值的补充信息。因此，结合响应时间可以使简单的查询变得更加有用。我们在固定预算最佳臂识别问题中展示了这一优势，通过基于三个真实世界数据集的模拟，一致地显示了在纳入响应时间时的加速学习。

从机器到音乐家的创造力和视觉交流：通过机器人相机分享乐谱

分类： 人机交互, 人工智能, 计算机视觉和模式识别, 机器人技术

作者： Ross Greer, Laura Fleig, Shlomo Dubnov

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05773v1

摘要： 本文通过在“Guided Harmony”音乐游戏中实现机器人摄像头来探索视觉传达和音乐交互的整合。我们的目标是研究人类音乐家和机器人系统之间的共同创作行为。我们的研究探索了即兴游戏等现有方法，并将这些概念扩展到包括使用 PTZ 摄像机的机器人参与。机器人系统解释并响应音乐家的非语言提示，创造协作和自适应的音乐体验。这个最初的案例研究强调了直观视觉沟通渠道的重要性。我们还提出了未来的研究方向，包括完善视觉提示工具包的参数和数据收集方法，以进一步了解人机协同创造力。我们的研究结果有助于更广泛地理解机器智能在增强人类创造力方面的作用，特别是在音乐环境中。

使用结构化对话人工智能 (CAI) 系统的新颖创意生成工具

分类： 人机交互, 人工智能, I.2; J.6

作者： B. Sankar, Dibakar Sen

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05747v1

摘要： 本文提出了一种新颖的对话式人工智能主动构思界面，作为创意生成工具，帮助新手设计师减轻常见的初始延迟和构思瓶颈。它是一种动态、交互式和上下文响应的方法，积极涉及人工智能 (AI) 中自然语言处理 (NLP) 领域的大型语言模型 (LLM)，为不同的设计问题生成潜在想法的多种陈述。将此类人工智能模型与创意相结合，创建了我们所说的主动创意场景，这有助于促进持续的基于对话的交互、上下文敏感的对话和丰富的创意生成。我们与 30 名新手设计师进行了一项试点研究，使用传统方法和基于 CAI 的新界面针对给定问题产生想法。专家小组使用流畅性、新颖性和多样性等关键参数对结果进行定性比较。研究结果证明了所提出的工具在产生多产、多样化和新颖的想法方面的有效性。通过为每个构思阶段融入即时设计的结构化对话风格来增强界面，使其统一且对设计人员来说更加方便。人们发现，这种结构化 CAI 界面的最终响应更加简洁，并且与后续设计阶段（即概念化）保持一致。因此，本文确立了在创意产品设计过程的早期结构不良阶段使用生成式人工智能（Gen-AI）的丰富潜力。

我的车说了什么？自动驾驶汽车解释错误、背景和个人特征影响舒适度、可靠性、满意度和驾驶信心

分类： 人机交互, 人工智能

作者： Robert Kaufman, Aaron Broukhim, David Kirsh, Nadir Weibel

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05731v1

任务和群体差异对用户使用大型语言模型进行心理治疗的态度的影响

分类： 人机交互

作者： Qihang He, Jiyao Wang, Dengbo He

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05703v1

摘要： 近年来，患有精神疾病的人口不断增加。随着大语言模型（LLM）在各个领域的进步，基于LLM的心理治疗也越来越受到人们的关注。然而，影响用户对大语言模型心理治疗态度的因素却很少被探讨。作为第一次尝试，本文调查了任务和群体差异对用户对基于大语言模型的心理治疗工具的态度的影响。利用技术接受模型（TAM）和自动化接受模型（AAM），基于在线调查，我们收集并分析了中国大陆 222 名大语言模型心理治疗用户的反馈。结果显示，群体差异（即心理健康状况）会影响用户对大语言模型工具的态度。此外，典型的任务差异之一，即隐私问题，并未被发现对信任和使用意图有显着影响。这些发现可以指导未来基于大语言模型的心理治疗服务的设计。

公民主导的用户界面个性化：调查人们如何为自己和他人定制界面

分类： 人机交互

作者： Sérgio Alves, Ricardo Costa, Kyle Montague, Tiago Guerreiro

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05696v1

摘要： 用户界面 (UI) 个性化可以提高可用性和用户体验。然而，当前系统提供的定制机会有限，而第三方解决方案通常需要大量的努力和技术技能，超出了大多数用户的能力范围，这阻碍了界面个性化的未来采用。在我们的研究中，我们探索了为自己和他人定制 UI 的概念。我们进行了一项为期两周的研究，九名参与者使用了一种定制设计的工具，该工具允许为自己定制网站的 UI，并创建和回复其他人的定制帮助请求。结果表明，人们更喜欢为他人定制而不是为自己定制。他们将请求视为需要解决的挑战，并受到帮助他人的积极感觉的激励。为了定制自己，人们需要在创作过程中得到帮助。我们讨论了未来研究的挑战和机遇，寻求民主化个性化用户界面的访问，特别是通过基于社区的方法。

通过苏格拉底式聊天机器人增强教育中的批判性思维

分类： 人机交互

作者： Lucile Favero, Juan Antonio Pérez-Ortiz, Tanja Käser, Nuria Oliver

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05511v1

摘要： 虽然大型语言模型 (LLM) 通过提供即时、适应性响应而在教育中日益发挥着关键作用，但它们促进批判性思维的潜力仍未得到充分研究。在本文中，我们填补了这一空白，并提出了一种创新的教育聊天机器人，旨在通过苏格拉底式提问来培养批判性思维。与传统的智能辅导系统（包括教育聊天机器人）倾向于提供直接答案不同，所提出的苏格拉底式导师鼓励学生通过提出结构化的、发人深省的问题来探索各种观点并进行自我反思。我们的苏格拉底式提问是通过使用专门的数据集对开源预训练的大语言模型进行微调和快速调整来实现的，该数据集可以激发批判性思维并提供多种观点。为了实现访问民主化并保护学生的隐私，拟议的导师基于能够在现成硬件上本地运行的小型大语言模型（Llama2 7B 和 13B 参数模型）。我们通过一系列实验验证了我们的方法，其中包括模拟学生和聊天机器人之间的交互，以评估其在增强批判性思维技能方面的有效性。结果表明，苏格拉底式导师比标准聊天机器人更好地支持反思和批判性思维的发展。我们的方法通过培养主动学习和鼓励智力自主，为改善教育成果打开了大门。

基于社交VR和360°空间的教育虚拟实地考察

分类： 人机交互, 多媒体, 68U35, H.5.1; H.4.3; J.2

作者： Surya Kalvakolu, Heinrich Söbke, Jannicke Baalsrud Hauge, Eckhard Kraft

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05496v1

摘要： 虚拟实地考察 (VFT) 已被证明是有价值的学习工具。此类应用程序大多基于 360{\deg} 技术，从技术角度来说属于单用户应用程序。相比之下，社交 VR 应用程序的特点是多用户功能和用户特定的化身。从学习的角度来看，协作学习和体现的概念很早就被提出，认为有利于学习。社交 VR 可能会支持这两个概念。然而，目前人们对社交 VR 在 VFT 中的应用知之甚少。因此，研究问题是 VFT 可以在多大程度上在社交 VR 环境中实施，以及学习者如何感知这些基于社交 VR 的 VFT。本文介绍了使用社交 VR 平台 Mozilla Hubs 开发和评估 VFT 环境的评估研究。它描述了创建环境的设计决策以及使用问卷和焦点小组讨论的混合方法研究 (N=16) 的评估结果。该研究强调了基于社交 VR 的 VFT 提供的机会，但也揭示了需要解决的一些挑战，以发挥基于社交 VR 的 VFT 在教育中定期使用的潜力。

Holonomy：双曲几何的虚拟现实探索

分类： 图形, 人机交互

作者： Martin Skrodzki, Scott Jochems, Joris Rijsdijk, Ravi Snellenberg, Rafael Bidarra

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05460v1

摘要： HOLONOMY 是一个基于双曲几何数学概念的虚拟环境。与其他环境不同，HOLONOMY 允许用户通过身体行走无缝地探索无限的双曲空间。他们使用自己的身体作为控制器，无需远距离传送或其他人工 VR 运动方法。本文讨论了 HOLONOMY 的发展，重点介绍了其创建过程中面临和克服的技术挑战，包括渲染复杂的双曲环境、用对象填充空间以及实现在底层非欧几里得几何中查找最短路径的算法。此外，我们还以 VR 导航游戏的形式展示了概念验证实现，以及该实现的一些初步学习成果。

将论证框架的扩展可视化为分层图

分类： 人机交互, 人工智能

作者： Martin Nöllenburg, Christian Pirker, Anna Rapberger, Stefan Woltran, Jules Wulms

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05457v1

摘要： 论证框架（AF）的可视化对于实现论证工具的广泛适用性至关重要。然而，它们的可视化通常仅被视为计算语义和标准图形表示工具的附带部分。我们引入了一种新的可视化技术，该技术将 AF 与扩展（作为输入的一部分）一起绘制为 3 层图形布局。我们的技术支持用户更轻松地探索可视化 AF、更好地理解扩展并验证计算语义的算法。为了优化此布局的视觉清晰度和美观性，我们建议尽量减少 3 层绘图中的边缘交叉。我们通过精确的基于 ILP 的方法来实现这一点，但也提出了一种快速启发式管道。通过定量评估，我们表明启发式方法即使对于大型实例也是可行的，同时在大多数情况下产生的交叉数量最多是最佳绘图的两倍。

不要把我排除在外：混合现实协作中的设备包容性设计

分类： 人机交互

作者： Katja Krug, Julián Méndez, Weizhou Luo, Raimund Dachselt

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05374v1

摘要： 现代协作混合现实 (MR) 系统不断打破传统的同地协作和远程协作与通信的界限。它们融合了物理世界和虚拟世界，实现了自然互动，为人际联系开辟了一系列新的机会。为了让这些联系被认为具有吸引力和积极性，合作者应该感到舒适并体验到归属感。没有专用设备来顺利参与这些空间可能会阻碍这一点，并给用户留下被排除在外的印象。为了解决这个问题，我们建议优先考虑 MR 协作中的设备包容性设计，重点弥补跨设备系统中常见非沉浸式设备类别的缺点。

CARDinality：利用振动实现运动和触觉的交互式卡形机器人

分类： 人机交互, 机器人技术, H.5.2

作者： Aditya Retnanto, Emilie Faracci, Anup Sathya, Yukai Hung, Ken Nakagaki

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05203v1

摘要： 本文介绍了一种交互式机器人的新颖方法，利用卡片的形状因素来创建配备振动功能的薄型机器人，用于运动和触觉反馈。该系统由具有设备端传感和无线控制功能的扁平机器人组成，具有轻便的便携性和可扩展性。本研究介绍了一个硬件原型。应用包括增强纸牌游戏、教育工具和辅助技术，展示了 CARDinality 在有形交互方面的多功能性。

在课堂上创造性地使用生成人工智能：示例和经验教训

分类： 人机交互, 大气和海洋物理

作者： Maria J. Molina, Amy McGovern, Jhayron S. Perez-Carrasquilla, Robin L. Tanamachi

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05176v1

摘要： 尽管生成人工智能 (AI) 并不新鲜，但最近的技术突破已经改变了其在许多领域的能力。这些变化需要大气科学及相关领域的教育工作者和专门培训的新关注。使学生能够有效、负责任且合乎道德地使用生成式人工智能对于他们的学术和专业准备至关重要。教育工作者还可以使用生成式人工智能来创建引人入胜的课堂活动，例如主动学习模块和游戏，但必须意识到潜在的陷阱和偏见。使用缺乏透明度的工具还存在道德问题，以及对无法获得更复杂的付费版生成人工智能工具的学生的公平担忧。本文是为学生和教育工作者撰写的，特别是那些想要更多地了解教育中的生成式人工智能的人，包括用例、道德问题及其出现的简史。教育、大气及相关科学领域的众多应用程序还提供了示例用户提示。虽然我们还没有解决围绕在教育中使用生成人工智能的一些更广泛的道德问题的解决方案，但我们的目标是开始一场对话，激发教育界围绕共同的目标和价值观。

从图形生成的角度探索真菌形态模拟和动态光遏制

分类： 图形, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Kexin Wang, Ivy He, Jinke Li, Ali Asadipour, Yitong Sun

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05171v1

摘要： 真菌模拟和控制被认为是生物艺术创作中的关键技术。然而，可靠的真菌模拟的编码算法给艺术家带来了巨大的挑战。本研究将真菌形态模拟等同于二维图形时间序列生成问题。我们提出了一种零编码、神经网络驱动的细胞自动机。通过图像分割模型和时间序列预测模型学习真菌传播模式，然后监督神经网络细胞的训练，使它们能够复制现实世界的传播行为。我们进一步用激光实现了真菌边界的动态遏制。与自动机同步，真菌成功地扩散成现实中预先设计的复杂形状。

PhysHand：具有生理几何、物理变形和精确接触处理的手部模拟模型

分类： 图形, 人机交互, I.3.2; I.3.4; I.3.5; I.3.6; I.3.8; I.6.1; I.6.3

作者： Mingyang Sun, Dongliang Kou, Ruisheng Yuan, Dingkang Yang, Peng Zhai, Xiao Zhao, Yang Jiang, Xiong Li, Jingchen Li, Lihua Zhang

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05143v1

摘要： 在虚拟手与物体交互（HOI）场景中，手变形的真实性对于沉浸式体验（例如自然操作或触觉反馈）非常重要。不切实际的变形源于简化的手部几何形状、忽视手部的不同物理属性以及由于不精确的接触处理而导致的穿透。为了解决这些问题，我们提出了 PhysHand，一种新颖的手部模拟模型，它增强了 HOI 中变形的真实感。首先，我们构建了一个生理上合理的几何形状，一个具有“皮-肉-骨架”结构的分层网格。其次，为了满足不同软组织的独特物理特征，采用基于约束的动力学框架，精心设计对应层的约束，以保持肌肉附着和皮肤光滑。最后，我们采用基于SDF的方法来消除接触引起的渗透，并通过引入一种新颖的多分辨率查询策略来提高其准确性。大量的实验证明了 PhysHand 在计算变形和处理接触方面的出色性能。与现有方法相比，我们的 PhysHand：1）可以计算生理上和物理上合理的变形； 2) 显着降低 HOI 中的穿透深度和数量。

人口统计差异对工业机器人运动感知的影响

分类： 机器人技术, 人机交互

作者： Damian Hostettler

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05049v1

摘要： 几十年来，人们一直在研究个体差异对机器人交互的感知和评估的影响。一些人类人口统计特征已被证明会影响个人如何看待与机器人的互动。然而，迄今为止，尚不清楚个体差异是否、哪些以及在多大程度上影响我们对机器人的感知，更不清楚人为因素及其对机器人运动感知的影响。此外，大多数关于个体差异相关性的结果都调查了人机与类人机器人或社交机器人的交互，而与工业机器人的交互则代表性不足。我们对机器人运动的关系和人口变化的影响进行了文献综述。我们的审查揭示了由于缺乏标准化的机器人操作、使用的各种因变量以及包括不同机器人类型在内的不同实验设置，现有研究结果的可比性有限。此外，大多数研究的样本量不足，无法得出可推广的结果。为了克服这些缺点，我们报告了一项由 930 名参与者参与的基于网络的实验的结果，该实验研究了人口特征对铰接式机器人手臂运动行为评估的影响。我们的研究结果表明，大多数参与者更喜欢从侧面接近、动作范围大、旋转次数常规、动作平稳、动作速度不快也不慢。关于个体差异，大多数偏好对人口统计变化具有很强的影响，并且只有性别和年龄被发现会导致慢速和快速运动之间的轻微偏好差异。

使用与购买工业机器人：为工业 HRI 添加组织视角

分类： 机器人技术, 人机交互

作者： Damian Hostettler

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05016v1

摘要： 目的：工业机器人使制造企业能够提高生产力并保持竞争力。机器人要使用，一方面要被操作者接受，另一方面要被决策者购买。此类组织流程中涉及的角色具有非常不同的观点。因此，供应商和机器人客户必须了解这些动机，以便机器人能够成功集成到制造车间。方法：我们介绍了对两家瑞士制造业中小企业的经营者和决策者进行的定性研究的结果。使用阶梯访谈和手段-目的分析，我们比较操作员和决策者的相关元素以及这些元素如何在不同的抽象级别上相互链接。这些发现代表了行业中机器人的获取、集成和接受的驱动因素和障碍。研究结果：我们介绍了操作员和决策者的不同关注点，以及机器人需求者和供应商如何利用它们来实现机器人的接受和部署。首先，我们列出了构成机器人接受和/或拒绝的相关属性、后果和价值观的列表。其次，我们提供这些元素的量化相关性，以及它们在操作者和决策者之间的差异。第三，我们演示了元素如何在不同的抽象级别上相互链接，以及这些链接在两组之间有何不同。

利用声学适应和视觉对齐提高多模态情绪识别

分类： 人机交互, 声音, 音频和语音处理

作者： Zhixian Zhao, Haifeng Chen, Xi Li, Dongmei Jiang, Lei Xie

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05015v2

摘要： 多模态情绪识别（MER）旨在通过整合来自各种模态的信息来自动识别和理解人类的情绪状态。然而，带注释的多模态数据的稀缺极大地阻碍了该研究领域的进步。本文介绍了我们针对 MER 2024 的 MER-SEMI 子挑战的解决方案。首先，为了更好地适应 MER 任务的声学模态特征，我们通过实验评估了预训练语音模型 HuBERT 的不同层在情感识别中的贡献。基于这些观察，我们对被认为对情感识别任务最有效的层进行参数高效微调（PEFT），从而以最少数量的可学习参数实现情感识别的最佳适应。其次，利用声学模态的优势，我们提出了一种特征对齐预训练方法。该方法使用大规模未标记数据来训练视觉编码器，从而促进声学特征空间内视觉特征的语义对齐。最后，使用适应的声学特征、对齐的视觉特征和词汇特征，我们采用注意机制进行特征融合。在MER2024-SEMI测试集上，所提出的方法取得了88.90%的加权F1分数，在所有参赛团队中排名第四，验证了我们方法的有效性。

如何协调大型语言模型进行英语教学？设计和开发基于大语言模型的聊天机器人，用于英语会话教学，调查结果和局限性

分类： 人机交互

作者： Jaekwon Park, Jiyoung Bae, Unggi Lee, Taekyung Ahn, Sookbun Lee, Dohee Kim, Aram Choi, Yeil Jeong, Jewoong Moon, Hyeoncheol Kim

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.04987v1

摘要： 本研究调查了基于大型语言模型 (LLM) 的聊天机器人的设计、开发和评估，用于在英语作为外语 (EFL) 环境中教授英语会话。我们利用设计和开发研究（DDR），分析需求，建立设计原则，并通过试验各种大语言模型和对齐方法迭代地完善聊天机器人。通过定量和定性评估，我们确定了最有效的大语言模型及其及时组合，以产生高质量、适合具体情况的回应。对教师的采访让我们深入了解了理想的系统功能、潜在的教育应用以及聊天机器人开发和部署中的道德考虑。设计迭代凸显了反馈机制和可定制人工智能角色的重要性。未来的研究应该探索自适应反馈策略、与不同利益相关者的协作方法，以及人机交互（HCI）和用户体验（UX）设计见解的整合。这项研究为越来越多的关于将大语言模型应用于语言教育的研究做出了贡献，为用于 EFL 对话练习的基于大语言模型的聊天机器人的设计、开发和评估提供了见解和建议。随着该领域的发展，教育工作者、人工智能工程师和其他利益相关者之间持续的研究和合作对于利用这些技术的潜力来增强语言学习体验至关重要。

混合现实可视化的 XR 原型设计：补偿医学成像机器人的交互延迟

分类： 人机交互

作者： Jan Hendrik Plümer, Kevin Yu, Ulrich Eck, Denis Kalkofen, Philipp Steininger, Nassir Navab, Markus Tatzgern

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04900v1

摘要： 由于设备的获取有限和严格的道德协议，研究医学领域的新颖用户体验具有挑战性。扩展现实 (XR) 仿真技术为开发交互式系统提供了一种经济高效的解决方案。最近的工作显示了扩展现实原型（XRP）的潜力，但其在控制复杂机械等特定领域的适用性需要进一步探索。本文探讨了 XRP 在控制移动医疗成像机器人方面的优点和局限性。我们比较了两种 XR 可视化技术，以减少用户输入和机器人激活之间的感知延迟。我们的 XRP 验证研究展示了其进行比较研究的潜力，但也发现了分析 XRP 验证框架中人类行为建模方面的差距。

通过注意力对驾驶员的风险感知进行建模以改善驾驶辅助

分类： 机器人技术, 人机交互

作者： Abhijat Biswas, John Gideon, Kimimasa Tamura, Guy Rosman

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04738v1

摘要： 高级驾驶员辅助系统 (ADAS) 在安全关键场景下向驾驶员发出警报，但由于缺乏考虑驾驶员的知识或场景意识，通常会提供多余的警报。由于缺乏同时记录车内驾驶员状态和世界状态的关键场景数据，以数据驱动的方式对这些方面进行建模具有挑战性。我们探讨了前向碰撞警告 (FCW) 系统中驾驶员建模的优势。通过使用道路 FCW 部署的真实视频数据集，我们收集观察者对已部署警报的主观有效性评级。我们还注释参与者对物体的注视，并半自动提取本车和其他车辆的 3D 轨迹。我们通过两步过程生成场景和驾驶员感知的风险估计：首先，我们将给定场景中车辆的运动建模为联合轨迹预测问题。然后，我们通过反事实地修改预测模型的输入以代表驾驶员对场景中车辆的实际观察来推理驾驶员对场景的风险感知。这些行为的差异使我们能够估计驾驶员的行为，从而解释他们的实际（疏忽）观察及其对整体场景风险的下游影响。我们比较了学习到的场景表示以及更传统的“最坏情况”减速模型，以实现未来的轨迹预测。我们的实验表明，使用这种风险公式来生成 FCW 警报可能会提高 FCW 的误报率并改善 FCW 时机。

探索众包工作者对于使用非工作站设备进行众包工作的看法、当前实践和期望的实践

分类： 人机交互

作者： Senjuti Dutta, Scott Ruoti, Rhema Linder, Alex C. Williams, Anastasia Kuzminykh

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04676v1

摘要： 尽管有大量研究致力于为非工作站设计 HIT，但缺乏专门调查员工对这些设备是否适合管理和完成工作的看法的研究。在这项工作中，我们通过对 Amazon Mechanical Turk 上的 148 名工作人员进行在线调查来填补这一研究空白，以探索 1. 众包工作人员目前如何使用他们的非工作站设备来完成和管理众包工作，2. 他们在使用这些设备时面临哪些挑战， 3. 如果他们的担忧得到解决，他们希望在多大程度上能够使用这些设备。我们的结果表明，员工一致赞成使用桌面来完成和管理众包工作。虽然员工偶尔使用智能手机或平板电脑，但他们发现它们的适用性充其量是微不足道的，并且对智能扬声器和智能手表兴趣不大，认为它们不适合人群工作。在调查这些观点的原因时，我们发现关键问题是非工作站设备缺乏自动查找和接受 HIT 所需的工具，而工人认为这些工具对于与机器人竞争接受高薪工作至关重要。为了解决这个问题，我们提出了一种寻找、接受和完成众包的新范例，使众包工作者在这些任务中与机器人处于平等的地位。我们还描述了针对非工作站设备定制 HIT 的未来研究方向，并明确回答智能扬声器和智能手表是否在众包中占有一席之地。

揭示众包工作者相互关联的偏好：对个性化和灵活平台设计的影响

分类： 人机交互

作者： Senjuti Dutta, Rhema Linder, Alex C. Williams, Anastasia Kuzminykh, Scott Ruoti

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04658v1

摘要： 众包平台传统上的设计重点是工作站界面，限制了众包工作者所需的灵活性。认识到这一局限性以及对更具适应性的平台的需求，先前的研究强调了众包工作者的多样化工作流程，受设备类型和工作阶段等因素的影响。然而，这些变量在很大程度上是孤立研究的。我们的研究首次探讨了众包社区中这些因素之间相互关联的变化。通过对 150 名 Amazon Mechanical Turk 众工进行的调查，我们发现了三个不同的群体，其特点是在关键工作方面存在相互关联的差异。最大的群体表现出对传统设备的依赖，对将智能手机和平板电脑整合到日常工作中的兴趣有限。第二大群体也主要使用传统设备，但表达了对支持工具和脚本的渴望，以提高所有设备（特别是智能手机和平板电脑）的生产力。最小的群体在众包活动中积极使用并强烈喜欢非工作站设备，尤其是智能手机和平板电脑。我们将我们的发现转化为平台开发人员的设计见解，讨论创建更加个性化、灵活和高效的众包环境的影响。此外，我们还强调了这些众包工人集群独特的工作实践，与更传统和成熟的工人群体形成鲜明对比。

PAIGE：通过个性化人工智能生成的教育播客检查学习成果和体验

分类： 人机交互

作者： Tiffany D. Do, Usama Bin Shafqat, Elsie Ling, Nikhil Sarda

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04645v1

摘要： 生成式人工智能正在彻底改变内容创作，并有潜力实现实时、个性化的教育体验。我们研究了将教科书章节转换为人工智能生成的播客的有效性，并探讨了个性化这些播客对个人学习者档案的影响。我们对美国 180 名大学生进行了 3x3 用户研究，将传统教科书阅读与三个教科书主题的通用和个性化人工智能生成的播客进行比较。个性化播客是根据学生的专业、兴趣和学习方式量身定制的。我们的研究结果表明，学生们发现人工智能生成的播客格式比教科书更有趣，而且个性化播客可以显着改善学习成果，尽管这是针对特定学科的。这些结果强调，人工智能生成的播客可以提供引人入胜且有效的教科书材料模式转换，并通过个性化增强内容相关性。最后，我们根据学生的反馈提出了在教育中利用人工智能的设计建议。

从数据转储到可消化的块：用于通信的来源日志的自动分段和汇总

分类： 人机交互

作者： Jeremy E. Block, Donald Honeycutt, Brett Benda, Benjamin Rheault, Eric D. Ragan

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04616v1

摘要： 在复杂的分析过程中交流一个人的意义建构以解释思维过程是很困难的，但大多数智力都发生在协作环境中。团队成员需要更深入地了解同事和下属正在完成的工作，但很少有研究能够充分阐明分析来源消费者的最佳实践。这项工作提出了一种自动摘要技术，该技术可以分离分析会话，并将交互来源总结为文本简介，以便对已完成的工作进行元分析。专注于情报分析领域，我们使用五个数据集（包括公开可用和分类的交互日志）展示了我们的分割技术。我们与一群具有美国国防部分析师经验的专家评审员分享了我们的演示，这些专家评审员是出了名的难以接近。我们的研究结果表明，所提出的管道有效地生成了显示交互日志中关键事件的卡片，从而促进了分析进度的共享。然而，我们也听说需要更突出的理由和模式引发控制来更有效地传达分析摘要。专家评审强调了自动化方法在解决复杂领域来源信息挑战方面的潜力。我们想强调需要进一步研究其他领域的起源传播。本文和所有补充材料的免费副本可在 https://osf.io/j4bxt 上获取

开发用于可穿戴振动触觉触觉安全带快速原型设计的模块化工具包

分类： 人机交互, 机器人技术

作者： Sandeep Kollannur, Katherine, Robertson, Heather Culbertson

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04579v1

摘要： 本文提出了一个用于快速线束原型设计的工具包。这些可穿戴结构使用 3D 打印接头、激光切割或乙烯基切割片和磁性扣等模块化元件将振动触觉执行器连接到身体上。这有利于轻松定制和组装。该工具包的主要目标是简化触觉可穿戴设备的设计，使该领域的研究变得更容易、更平易近人。

开源软件中的开放性和跨性别体验的悖论

分类： 人机交互, 软件工程

作者： Hana Frluckaj, James Howison, Laura Dabbish, Nikki Stevens

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04511v1

摘要： 近年来，尽管开源软件 (OSS) 是开放协作的典范，但人们对开源软件 (OSS) 缺乏贡献者多样性的担忧日益增加。 OSS 是数字基础设施的重要形式，也是许多开发人员职业道路的一部分。尽管关于 OSS 中顺性别女性代表性不足的文献越来越多，但文献中相对缺乏来自其他边缘化群体的贡献者的经验。跨性别贡献者就是这种情况，他们是 OSS 历史上有影响力的群体。在这项研究中，我们采访了 21 名跨性别参与者，以了解并表达他们在 OSS 文献中的经历。根据他们的经验，我们对 OSS 中开放性的两个相关悖论进行了理论分析：开放与展示的悖论以及开放与治理的悖论。在跨性别者日益暴力的世界中，我们利用我们的理论为贡献者提供更具包容性和更安全的 OSS 项目建议。

迈向由大语言模型支持的社交机器人，支持对污名化健康状况的敏感披露

分类： 人机交互

作者： Alemitu Bezabih, Shadi Nourriz, C. Estelle Smith

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04508v1

摘要： 披露敏感的健康状况在个人和社会层面都有显着的好处。然而，由于担心耻辱，患者经常面临挑战。使用社交机器人和聊天机器人来支持敏感信息披露正在获得越来越多的关注，特别是随着大语言模型模型的出现。然而，在这种情况下，必须仔细解决许多技术、道德、隐私、安全、功效和报告问题。在这篇立场文件中，我们重点关注艾滋病毒状况披露的例子，研究与大语言模型支持的社交机器人相关的关键机遇、技术考虑因素和风险。

基于虚拟现实的术前规划优化胸外科套管针放置：初步研究

分类： 人机交互

作者： Arash Harirpoush, George Rakovich, Marta Kersten-Oertel, Yiming Xiao

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04414v1

摘要： 电视胸腔镜手术（VATS）是一种治疗早期非小细胞肺癌的微创方法。 VATS 期间的最佳套管针放置可确保全面进入胸腔，提供全景内窥镜视图，并防止器械拥挤。虽然存在棒球钻石原则 (BDP) 和三角目标原则 (TTP) 等既定原则，但外科医生主要依靠经验和患者特定的解剖结构来放置套管针，这可能会导致手术计划不理想，从而增加手术时间和疲劳。为了解决这个问题，我们推出了第一个基于虚拟现实 (VR) 的术前规划工具，具有定制的数据可视化和交互设计，可遵循既定的手术原则并咨询经验丰富的外科医生，以实现高效和最佳的 VATS 套管针放置。在我们的初步研究中，我们展示了该系统在右上肺叶切除术中的应用，这是一种常见的胸部手术，通常使用三个套管针。对我们系统的初步用户研究表明，它对于规划最佳套管针放置而言是高效、稳健且用户友好的，在临床应用方面具有广阔的前景，同时为其他外科 VR 系统的开发提供了潜在的有价值的见解。

大语言模型可以产生新颖的研究想法吗？ 100 多名 NLP 研究人员参与的大规模人体研究

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互, 机器学习

作者： Chenglei Si, Diyi Yang, Tatsunori Hashimoto

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04109v1

摘要： 大型语言模型 (LLM) 的最新进展激发了人们对其加速科学发现潜力的乐观态度，越来越多的作品提出了自动生成和验证新想法的研究代理。尽管如此，没有任何评估表明大语言模型系统可以迈出产生新颖的专家级想法的第一步，更不用说执行整个研究过程了。我们通过建立一个实验设计来解决这个问题，该设计可以评估研究想法的生成，同时控制混杂因素，并在 NLP 专家研究人员和大语言模型创意代理之间进行首次面对面比较。通过招募超过 100 名 NLP 研究人员来撰写新颖的想法，并对 LLM 和人类的想法进行盲审，我们获得了关于当前 LLM 研究构思能力的第一个具有统计意义的结论：我们发现 LLM 生成的想法被认为更新颖（p < 0.05））比人类专家的想法强，但可行性稍弱。通过仔细研究我们的代理基线，我们发现了构建和评估研究代理时存在的开放性问题，包括大语言模型自我评估的失败及其生成缺乏多样性。最后，我们承认人类对新颖性的判断可能很困难，即使是专家也是如此，并提出了一种端到端的研究设计，招募研究人员将这些想法落实到完整的项目中，使我们能够研究这些新颖性和可行性判断是否会导致研究结果的有意义的差异。

MixNet：古典与现代方法的结合，实现运动想象脑电图分类的综合流程

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 人机交互, 信号处理

作者： Phairot Autthasan, Rattanaphon Chaisaen, Huy Phan, Maarten De Vos, Theerawit Wilaiprasitporn

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04104v1

摘要： 深度学习 (DL) 的最新进展显着影响了基于运动想象 (MI) 的脑机接口 (BCI) 系统，增强了脑电图 (EEG) 信号的解码。然而，大多数研究都难以识别 MI 任务期间受试者之间的歧视模式，从而限制了 MI 分类性能。在本文中，我们提出了 MixNet，这是一种新颖的分类框架，旨在通过利用 MI 数据中的频谱空间信号以及名为 MIN2Net 的多任务学习架构来进行分类，从而克服这一限制。这里，频谱空间信号是使用 MI 数据上的滤波器组公共空间模式 (FBCSP) 方法生成的。由于多任务学习架构用于分类任务，因此每个任务中的学习可能表现出不同的泛化率和跨任务的潜在过度拟合。为了解决这个问题，我们实现了自适应梯度混合，同时调节多个损失权重，并根据每个任务的泛化/过度拟合倾向调整学习速度。六个不同数据大小的基准数据集的实验结果表明，MixNet 在与主题相关和与主题无关的设置中始终优于所有最先进的算法。最后，低密度脑电图 MI 分类结果表明，MixNet 优于所有最先进的算法，为物联网 (IoT) 应用提供了有希望的影响，例如基于低密度蒙太奇的轻型便携式脑电图可穿戴设备。

什么指导我们的选择？建模开发人员对 GenAI 的信任和行为意图

分类： 人机交互

作者： Rudrajit Choudhuri, Bianca Trinkenreich, Rahul Pandita, Eirini Kalliamvakou, Igor Steinmacher, Marco Gerosa, Christopher Sanchez, Anita Sarma

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04099v1

摘要： ChatGPT 或 Copilot 等生成式 AI (genAI) 工具被宣传可以提高开发人员的工作效率，并且正在集成到软件开发中。然而，不一致的信任、怀疑和可用性担忧可能会阻碍此类工具的采用。研究还表明，人工智能可能具有排他性，无法充分支持多样化的用户。多样性的一个方面是认知多样性——用户认知风格的变化——这会导致观点和交互风格的分歧。当个人的认知方式不受支持时，就会给技术采用带来障碍。因此，要了解如何有效地将genAI工具集成到软件开发中，首先重要的是要对哪些因素影响开发人员在实践中采用genAI工具的信任和意图进行建模？我们开发了一个理论模型来 (1) 确定影响开发人员对 genAI 工具信任的因素；(2) 检查开发人员的信任、认知风格及其使用这些工具的意图之间的关系。我们对全球两大科技组织的软件开发人员 (N=238) 进行了调查，并采用偏最小二乘结构方程模型 (PLS-SEM) 来评估我们的模型。我们的研究结果表明，genAI 的系统/输出质量、功能价值和目标维护显着影响开发人员对这些工具的信任。此外，开发人员的信任和认知风格会影响他们使用这些工具的意图。我们为设计 genAI 工具提供实用建议，以实现有效使用和包容性用户体验。

UI-JEPA：通过屏幕上的用户活动主动感知用户意图

分类： 计算和语言, 人工智能, 人机交互, 机器学习

作者： Yicheng Fu, Raviteja Anantha, Prabal Vashisht, Jianpeng Cheng, Etai Littwin

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04081v1

摘要： 从一系列用户界面 (UI) 操作中生成用户意图是全面理解 UI 的核心挑战。多模态大语言模型 (MLLM) 的最新进展在这一领域取得了实质性进展，但它们对广泛的模型参数、计算能力和高延迟的需求使得它们对于需要低延迟或高延迟的轻量级设备上解决方案的场景来说不切实际。隐私。此外，缺乏高质量数据集也阻碍了此类轻量级模型的开发。为了应对这些挑战，我们提出了 UI-JEPA，这是一种新颖的框架，它采用屏蔽策略，通过自我监督学习从未标记的数据中学习抽象 UI 嵌入，并结合针对用户意图预测进行微调的 LLM 解码器。我们还引入了两个新的基于 UI 的多模态数据集，“Intent in the Wild”（IIW）和“Intent in the Tame”（IIT），专为少样本和零样本 UI 理解任务而设计。 IIW 包含 219 个意图类别的 1.7K 视频，而 IIT 包含 10 个类别的 914 个视频。我们为这些数据集建立了第一个基线，表明使用 JEPA 式目标学习的表示与 LLM 解码器相结合，可以实现与最先进的大型 MLLM 性能相匹配的用户意图预测，但显着降低了注释和部署资源。通过意图相似度得分来衡量，UI-JEPA 的性能分别比 GPT-4 Turbo 和 Claude 3.5 Sonnet 好 10.0% 和 7.2%（两个数据集的平均值）。值得注意的是，UI-JEPA 在 IIW 数据集中的计算成本降低了 50.5 倍，延迟提高了 6.6 倍，从而实现了性能提升。这些结果强调了 UI-JEPA 的有效性，突出了其轻量级、高性能 UI 理解的潜力。

DECAN：通过对比对齐网络进行干电极脑电图情绪识别的去噪编码器

分类： 人机交互

作者： Meihong Zhang, Shaokai Zhao, Shuai Wang, Zhiguo Luo, Liang Xie, Tiejun Liu, Dezhong Yao, Ye Yan, Erwei Yin

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.03976v1

摘要： 脑电信号对于脑机接口（BCI）非常重要。然而，现有的干电极和湿电极难以在脑电图记录中的高信噪比和便携性之间取得平衡，这限制了BCI的实际应用。在本研究中，我们假设同一任务期间湿电极和干电极之间的脑电图表示一致性，提出了一种用于干电极脑电图的通过对比对齐网络（DECAN）的去噪编码器。具体来说，DECAN 采用两个参数共享的深度神经网络来提取干电极信号和湿电极信号的任务相关表示，然后集成表示一致的对比损失，以最小化来自相同时间戳和类别但不同设备的表示之间的距离。为了评估我们方法的可行性，我们构建了一个情绪数据集，由来自 16 名具有 5 种情绪的受试者的成对干电极和湿电极 EEG 信号组成，命名为 PaDWEED。 PaDWEED 上的结果表明，与最先进的干电极情绪识别性能相比，DECAN 的平均准确度提高了 6.94$%$。消融研究表明，类间混叠有所减少，并且 delta 和 beta 频段的精度显着提高。此外，在数据集内和数据集间场景中，主体间特征对齐可以分别获得 5.99$%$ 和 5.14$%$ 的准确度提升。我们提出的方法可能会为干电极脑机接口开辟新途径。本研究中使用的 PaDWEED 数据集可在 https://huggingface.co/datasets/peiyu999/PaDWEED 免费获取。

降维文本嵌入的空间语义可视化

分类： 人机交互

作者： Wei Liu, Chris North, Rebecca Faust

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.03949v1

摘要： 降维 (DR) 可以将高维文本嵌入转换为 2D 视觉投影，从而促进文档相似性的探索。然而，由于文本嵌入和非线性降维的不透明性质，投影通常缺乏与文本语义的联系。为了解决这些问题，我们提出了一种基于梯度的方法来可视化降维文本嵌入的空间语义。该方法使用梯度来评估投影文档相对于底层单词的敏感性。该方法可以应用于现有的DR算法和文本嵌入模型。利用这些梯度，我们设计了一个可视化系统，将空间词云合并到文档投影空间中，以说明有影响力的文本特征。我们进一步提出了三个使用场景，展示了我们系统的实际应用，以促进文本投影中底层语义的发现和解释。

图表绘制中的压力感知

分类： 人机交互

作者： Gavin J. Mooney, Helen C. Purchase, Michael Wybrow, Stephen G. Kobourov, Jacob Miller

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.04493v1

摘要： 许多图形绘制算法所基于的大多数常见图形布局原则（也称为“美学”）很容易定义和理解。例如，相互交叉的边对的数量、绘图看起来的对称程度、边界框的纵横比或节点处的角分辨率。图表绘制在多大程度上符合这些原则，可以通过查看其绘制方式（即查看页面上的标记）来确定，而不考虑图表的基础结构。一个关键的布局原则是优化“应力”，这是许多算法的基础，例如流行的 Kamada & Kawai 算法和几种力导向算法。宽泛地说，图形绘制的应力是指在整个图形绘制过程中，每对节点之间的几何距离与它们之间的最短路径成正比的程度。因此，压力的定义依赖于图形的基础结构（“路径”），而其他布局原则则不然，这使得不熟悉图形绘制原理的新手很难描述压力，而且我们认为，压力很难被感知。我们进行了一项实验，看看人们（新手和专家）是否可以看到图表中的压力，并发现训练新手“看到”压力是可能的——即使他们的感知策略不是基于定义概念。

MVTN：用于手势识别的多尺度视频变压器网络

分类： 计算机视觉和模式识别, 人机交互

作者： Mallika Garg, Debashis Ghosh, Pyari Mohan Pradhan

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03890v1

摘要： 在本文中，我们引入了一种用于动态手势识别的新颖的多尺度视频变换网络（MVTN），因为多尺度特征可以提取具有可变大小、姿势和手部形状的特征，这是手势识别中的挑战。所提出的模型结合了多尺度特征层次结构来捕获手势中不同级别的细节和上下文，从而增强了模型的能力。这种多尺度层次结构是通过在不同的 Transformer 阶段提取不同维度的注意力来获得的，初始阶段用于建模高分辨率特征，后期阶段用于建模低分辨率特征。我们的方法还利用多模态数据，利用深度图、红外数据和表面法线以及来自 NVGesture 和 Briareo 数据集的 RGB 图像。实验表明，所提出的 MVTN 以较少的计算复杂度和参数实现了最先进的结果。源代码可在 https://github.com/mallikagarg/MVTN 获取。

CALM：使用光不敏感模型进行认知评估

分类： 人机交互

作者： Akhil Meethal, Anita Paas, Nerea Urrestilla Anguiozar, David St-Onge

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03888v1

摘要： 对使用低成本、易于使用的设备进行认知负荷评估的需求正在不断增加，其应用范围从安全关键型行业到娱乐业。尽管瞳孔测量是此类应用中认知负荷估计的一种有吸引力的解决方案，但其对光的敏感性使其在不同的照明条件下稳健性较差。多模式数据采集提供了一种可行的替代方案，其中瞳孔测量与心电图 (ECG) 或脑电图 (EEG) 相结合。在这项工作中，我们研究了基于瞳孔测量的认知负荷估计对光的敏感性。通过在相同的实验过程中收集心率变异性 (HRV) 数据，我们分析了多模态数据如何降低这种敏感性并提高对光照条件的鲁棒性。除此之外，我们还通过在所有任务条件下从两个设备同步收集数据，使用从低成本健身级设备获得的 HRV 数据与从临床级设备获得的 HRV 数据来比较多模式设置中的性能。我们的结果表明，多模态数据提高了光照条件变化下认知负荷估计的稳健性，并且与仅基于瞳孔测量的评估相比，准确性提高了 20% 以上。除此之外，即使在受控实验室环境中，健身级设备也被认为是临床一级设备的潜在替代品。

用户对使用消费者健康设备进行多模式月经跟踪的看法

分类： 人机交互

作者： Georgianna Lin, Brenna Li, Helen Li, Chloe Zhao, Khai N Truong, Alex Mariakakis

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03853v1

摘要： 以前的月经健康文献强调了现有月经追踪器中未包含的各种信号，因为它们要么难以收集，要么通常与月经健康无关。由于通过可穿戴设备和其他消费级设备收集生物标记物变得越来越方便，我们的工作研究了人们如何将非常规信号（例如血糖水平、心率）纳入对月经健康的理解中。在本文中，我们描述了一项为期三个月的研究，调查了 50 名参与者使用生理传感器和日记追踪健康状况的经历。我们通过在整个研究过程中进行的调查和访谈，分析了她们对传统和非常规月经健康信号的体验。我们深入研究参与者试图使用非常规信号确认的月经健康的各个方面，探索这些信号如何影响他们的日常行为，并研究多模式月经跟踪如何扩大他们的月经健康范围。最后，我们为未来的多模式月经追踪器提供设计建议。

MetaBGM：动态音轨转换，实现具有环境感知和个性化的连续多场景体验

分类： 声音, 人工智能, 人机交互, 多媒体, 音频和语音处理

作者： Haoxuan Liu, Zihao Wang, Haorong Hong, Youwei Feng, Jiaxin Yu, Han Diao, Yunfei Xu, Kejun Zhang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03844v1

摘要： 本文介绍了 MetaBGM，这是一个用于生成适应动态场景和实时用户交互的背景音乐的开创性框架。我们将多场景定义为环境背景的变化，例如游戏设置或电影场景的过渡。为了解决将后端数据转换为音频生成模型的音乐描述文本的挑战，MetaBGM 采用了一种新颖的两阶段生成方法，将连续的场景和用户状态数据转换为这些文本，然后将其输入到音频生成模型中以进行实时处理。时间配乐创作。实验结果表明，MetaBGM 可以有效地为交互式应用程序生成上下文相关的动态背景音乐。

WildVis：用于野外百万级聊天日志的开源可视化工具

分类： 计算和语言, 人工智能, 人机交互, 信息检索, 机器学习

作者： Yuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03753v1

摘要： 现实世界对话数据的可用性不断增加，为研究人员研究用户与聊天机器人的交互提供了令人兴奋的机会。然而，这些数据的庞大数量使得手动检查单个对话变得不切实际。为了克服这一挑战，我们推出了 WildVis，这是一种交互式工具，可以实现快速、多功能和大规模的对话分析。 WildVis 根据标准列表在文本和嵌入空间中提供搜索和可视化功能。为了管理百万级数据集，我们实施了优化，包括搜索索引构建、嵌入预计算和压缩以及缓存，以确保在几秒钟内响应用户交互。我们通过三个案例研究展示了 WildVis 的实用性：促进聊天机器人滥用研究、可视化和比较跨数据集的主题分布以及描述特定于用户的对话模式。 WildVis 是开源的，可扩展，支持额外的数据集以及定制的搜索和可视化功能。

通过与人类脑电图共同训练对象识别模型，在对抗鲁棒性方面取得有限但一致的收益

分类： 机器学习, 人工智能, 人机交互

作者： Manshan Guo, Bhavin Choksi, Sari Sadiya, Alessandro T. Gifford, Martina G. Vilas, Radoslaw M. Cichy, Gemma Roig

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03646v1

摘要： 与人类视觉相比，人工神经网络（ANN）仍然相对容易受到对抗性攻击。为了解决这一漏洞，人们努力将归纳偏差从人脑转移到人工神经网络，通常是通过训练人工神经网络表示来匹配其生物对应物。以前的工作依赖于在非自然条件下（麻醉动物）使用侵入性技术从大脑特定区域获取的啮齿动物或灵长类动物的大脑数据，以及缺乏多样性和自然性的刺激数据集。在这项工作中，我们探讨了将模型表示与人类脑电图对一组丰富的现实世界图像的响应对齐是否可以提高人工神经网络的鲁棒性。具体来说，我们在分类和脑电图预测的双重任务上训练了 ResNet50-backbone 模型；并评估了他们的脑电图预测准确性和对抗性攻击的鲁棒性。我们观察到网络的脑电图预测准确性（通常在刺激发生后 100 毫秒左右最高）与其对抗稳健性的增益之间存在显着相关性。尽管效果大小有限，但不同随机初始化的效果是一致的，并且对于架构变体来说是稳健的。我们进一步梳理了各个脑电图通道的数据，并观察到顶枕区电极的最强贡献。人类脑电图在此类任务中的实用性为未来的努力开辟了途径，这些努力可以在不同的刺激条件下扩展到更大的数据集，并有望产生更强的效果。

重新构想数据可视化以实现可持续发展目标

分类： 人机交互

作者： Narges Mahyar

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03611v1

摘要： 信息可视化通过将复杂的数据转换为易于理解的视觉格式，增强公众对复杂气候变化数据的理解并推动可行的见解，在支持环境管理和气候复原力等可持续发展目标方面具有巨大的潜力。虽然该领域主要关注可视化的分析方向，挑战传统的可视化技术和目标，但通过批判性可视化研究扩展了该领域现有的假设和惯例。在本文中，我探讨了如何重新构想数据可视化中被忽视的方面，例如参与、情感共鸣、沟通和社区赋权，从而有助于实现可持续发展目标。我认为，通过专注于促进清晰度、可理解性和公众参与的包容性数据可视化，我们可以使复杂的数据更具相关性和可操作性，促进更广泛的联系并动员针对气候变化等关键问题的集体行动。此外，我讨论了情感接受性在环境数据通信中的作用，强调需要尊重不同文化观点和情感反应的可视化，以实现有影响力的结果。借鉴十年来公众参与和社区参与研究的见解，我的目的是强调数据可视化如何使数据访问民主化并增加公众参与，从而为更加可持续和有弹性的未来做出贡献。

改善深贝叶斯医学图像分割中的不确定性-误差对应性

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者： Prerak Mody, Nicolas F. Chaves-de-Plaza, Chinmay Rao, Eleftheria Astrenidou, Mischa de Ridder, Nienke Hoekstra, Klaus Hildebrandt, Marius Staring

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03470v1

摘要： 在医学图像分割中越来越多地使用深度学习等自动化工具，缓解了手动轮廓绘制的瓶颈。这已将体力劳动转变为自动轮廓的质量评估 (QA)，其中包括检测错误并纠正错误。半自动 QA 的一个潜在解决方案是使用深度贝叶斯不确定性来推荐潜在错误区域，从而减少错误检测所花费的时间。以前的工作已经研究了不确定性和误差之间的对应关系，但是，没有进行任何工作来改进贝叶斯不确定性图的“效用”，使其仅存在于不准确的区域中，而不存在于准确的区域中。我们的工作使用准确性与不确定性（AvU）损失来训练 FlipOut 模型，这使得不确定性仅出现在不准确的区域中。我们将此方法应用于两个放射治疗身体部位的数据集，参见头颈 CT 和前列腺 MR 扫描。使用接受者操作特征 (ROC) 和精确召回 (PR) 曲线根据体素不准确性评估不确定性热图（即预测熵）。数值结果表明，与贝叶斯基线相比，所提出的方法成功地抑制了准确体素的不确定性，并且不准确体素也存在类似的不确定性。重现实验的代码可在 https://github.com/prerakmody/bayesuncertainty-error-correspondence 找到

战略思维链：通过策略启发指导大语言模型的准确推理

分类： 人工智能, 计算和语言, 人机交互

作者： Yu Wang, Shiwan Zhao, Zhihu Wang, Heyuan Huang, Ming Fan, Yubo Zhang, Zhixing Wang, Haijun Wang, Ting Liu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03271v1

摘要： 思想链 (CoT) 范式已成为增强大型语言模型 (LLM) 推理能力的关键方法。然而，尽管 CoT 方法被广泛采用并取得了成功，但由于它们无法始终如一地确保生成的推理路径的质量，从而导致推理性能不佳，因此经常表现出不稳定。为了应对这一挑战，我们提出了\textbf{战略思想链}（SCoT），这是一种新颖的方法，旨在通过在生成中间推理步骤之前整合战略知识来提高大语言模型的绩效。 SCoT 在单个提示中采用两阶段方法：首先引出有效的问题解决策略，然后用于指导生成高质量的 CoT 路径和最终答案。我们在八个具有挑战性的推理数据集上进行的实验证明了显着的改进，包括使用 Llama3-8b 模型在 GSM8K 数据集上提高了 21.05%，在 TrackingObjects 数据集上分别提高了 24.13%。此外，我们扩展了 SCoT 框架，开发了一种具有自动匹配演示的小样本方法，产生了更强大的结果。这些发现强调了 SCoT 的功效，强调了其在复杂推理任务中大幅提高大语言模型表现的潜力。

Dual-TSST：用于脑电图解码的双分支时谱空间变换器模型

分类： 人机交互, 机器学习, 系统与控制, 系统与控制

作者： Hongqi Li, Haodong Zhang, Yitong Chen

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03251v1

摘要： 脑电图（EEG）信号的解码可以方便地获取用户意图，在人机交互领域发挥着重要作用。为了有效地提取多通道脑电图的足够特征，本研究提出了一种具有双分支时谱空间变换器（Dual-TSST）的新型解码架构网络。具体来说，通过利用不同分支上的卷积神经网络（CNN），所提出的处理网络首先分别提取原始脑电图的时空特征和通过小波变换转换的时频域数据的时谱空间特征。然后，这些感知到的特征通过特征融合块进行集成，作为变换器的输入来捕获非平稳脑电图所需的全局远程依赖性，并通过全局平均池化和多层感知器块进行分类。为了评估所提出方法的有效性，在 BCI IV 2a、BCI IV 2b 和 SEED 三个公开数据集上进行了竞争性实验，并与十多个其他最新数据集进行了头对头比较。艺术方法。因此，我们提出的 Dual-TSST 在各种任务中表现优异，在 BCI IV 2a 中实现了令人鼓舞的 EEG 分类性能，平均准确度分别为 80.67%、BCI IV 2b 中的 88.64% 和 SEED 中的 96.65%。在 Dual-TSST 和比较基线模型之间进行的广泛消融实验也揭示了我们提出的方法的每个模块的增强解码性能。这项研究提供了一种高性能脑电图解码的新方法，对于未来基于 CNN-Transformer 的应用具有巨大潜力。

个性化内容分类器的最终用户创作：比较示例标签、规则编写和 LLM 提示

分类： 人机交互

作者： Leijie Wang, Kathryn Yurechko, Pranati Dani, Quan Ze Chen, Amy X. Zhang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03247v1

摘要： 现有的供外行创建个人分类器的工具通常假设有积极性的用户在单个冗长的会话中不间断地工作。然而，用户倾向于随意地使用社交媒体，每天都会进行许多简短的会话。为了使此类用户更轻松地创建用于内容管理的个人分类器，工具应支持快速初始化和迭代细化。在这项工作中，我们比较了最终用户构建个人内容分类器的三种策略：(1) 示例标记、(2) 规则编写和 (3) 大语言模型 (LLM) 提示。通过对 37 名非程序员负责创建个性化评论审核过滤器的实验，我们发现，在 LLM 提示下，参与者在 5 分钟内达到了 95% 的峰值表现，由于更高的召回率而击败了其他策略，但所有策略都难以迭代细化。尽管 LLM 提示的表现更好，但参与者在不同的情况下更喜欢不同的策略，即使在提示时，也会提供示例或编写类似规则的提示，建议混合方法。

大语言模型的内容审核：从准确性到合法性

分类： 计算机与社会, 人工智能, 新兴技术, 人机交互, 机器学习

作者： Tao Huang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03219v1

摘要： LLM（大语言模型）的一种趋势应用是将其用于在线平台中的内容审核。目前关于该应用程序的大多数研究都集中在准确性指标上，即大语言模型对内容做出正确决策的程度。本文认为准确性是不够的并且具有误导性，因为它没有掌握简单情况和困难情况之间的区别，以及在实现更高准确性时不可避免的权衡。仔细考察就会发现，内容审核是平台治理的一个组成部分，其关键是获得和增强合法性。大语言模型的主要目标不是使审核决策正确，而是使其合法化。在这方面，本文提出了从单一准确性基准到基于合法性的评估 LLM 主持人绩效框架的范式转变。该框架建议，对于简单的案例，关键是确保准确性、速度和透明度，而对于困难的案例，重要的是合理的理由和用户参与。在此框架下进行检验，LLM 的真正潜力并不是准确性的提高。相反，LLM可以在其他四个方面做出更好的贡献：从简单案例中筛选困难案例，为审核决策提供高质量的解释，帮助人类审稿人获得更多上下文信息，并以更具互动性的方式促进用户参与。本文利用法律和社会科学的规范理论来批判性地评估新技术的应用，试图重新定义大语言模型在内容审核中的作用，并重新引导该领域的相关研究。

我们可以增强亲社会行为吗？使用骑行后反馈来改善微移动交互

分类： 人机交互, 机器人技术

作者： Sidney T. Scott-Sharoni, Shashank Mehrotra, Kevin Salubre, Miao Song, Teruhisa Misu, Kumar Akash

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03153v1

摘要： 电动滑板车和送货机器人等微型移动设备有望成为未来城市交通的环保且经济高效的替代方案。然而，它们缺乏社会接受度仍然是一个挑战。因此，我们必须考虑如何在微移动交互中促进亲社会行为。我们研究了骑行后反馈如何鼓励电动滑板车骑手在与人行道用户（包括行人和送货机器人）互动时的亲社会行为。我们使用基于网络的平台来衡量电动滑板车骑手的亲社会行为。结果发现，骑行后反馈可以成功促进亲社会行为，客观测量表明更好的间隙行为、较低的互动速度以及在其他人行道参与者周围更长的停留时间。这项研究的结果证明了乘车后反馈的有效性，并为设计改善出行用户亲社会行为的方法提供了一步。

使用深度逆强化学习通过多源大数据发现骑行者的街道视觉偏好

分类： 机器学习, 人机交互

作者： Ren Kezhou, Gong Yongxi

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03148v1

摘要： 骑自行车因其健康益处和积极的城市影响而在全球广受欢迎。为了有效促进自行车运动，早期研究广泛调查了骑行行为与环境因素之间的关系，特别是骑行者在做出路线决策时的偏好。然而，由于数据限制，这些研究往往难以全面描述大规模的详细骑行程序，并且往往忽视骑行者偏好的复杂性。为了解决这些问题，我们提出了一个新颖的框架，旨在通过利用最大熵深度逆强化学习（MEDIRL）和可解释的人工智能（XAI）来量化和解释骑自行车者复杂的街道视觉偏好。在深圳坂田街道实施后，我们采用 MEDIRL 模型，通过整合无桩共享单车 (DBS) 轨迹和街景图像 (SVI) 来有效估计骑行奖励函数，街景图像代表骑行者对街道的偏好路由期间的视觉环境。此外，我们还证明了 MEDIRL 在发现骑行者街道视觉偏好方面的可行性和可靠性。进一步的分析揭示了街道视觉元素对骑车者偏好的非线性和交互影响，为街道景观设计提供了整体视角。我们提出的框架增进了对个人骑行行为的理解，并为城市规划者提供了可行的见解，以设计优先考虑骑行者偏好的自行车友好街景。

交叉阈限：盲人或低视力老年人获得智能手机

分类： 人机交互, H.5.0; K.4.2

作者： Isabela Figueira, Yoonha Cha, Stacy M. Branham

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03086v1

摘要： 老年人越来越多地购买智能手机。但购买智能手机可能很困难，而且人们对失明或失明的老年人面临的特殊挑战知之甚少。基于对 22 名 60 岁及以上盲人或低视力 (BLV) 老年人的深入定性访谈，我们阐明了购买视力丧失智能手机的社会和技术方面的问题。通过扎根理论分析，我们发现BLV老年人在获得智能手机时经历了阈限，并在失明后通过重新获取智能手机进行过渡，并且他们可以通过参与盲人社区内的互助来过渡阈限。我们提出了“交叉阈限”的概念，它解释了通过视力丧失、衰老和技术获取同时过渡的边缘化经历。我们认为，交叉阈限可以作为一个框架，以残疾的动态性质为中心，帮助我们的社区对技术获取和更有效的辅助干预措施产生更细致的理解。

教学空间：内容丰富的视觉强化教育画布

分类： 人机交互

作者： Jesse Harden, Nurit Kirshenbaum, Roderick Tabalba, Ryan Theriot, Michael Rogers, Mahdi Belcaid, Chris North, Luc Renambot, Lance Long, Andrew Johnson, Jason Leigh

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03072v1

摘要： 随着消费者显示技术成本的下降，大学更容易在教室中配备更大的显示器，并且在 COVID-19 大流行期间普遍使用在线工具（例如用于远程学习的协作白板），将两者结合起来可以在高等教育中发挥作用。在视觉密集型课程中尤其如此，例如数据可视化课程，这些课程可以受益于额外的“教学空间”，这是在“思考空间”意义建构习语之后创造的。在本文中，我们反思了在高等教育中使用 SAGE3（具有高级功能的协作白板）来教授视觉密集课程的方法，提供我们自己的视觉密集课程的活动示例，并提供学生反馈。我们将观察结果收集到在教育中使用内容丰富的画布的使用模式中。

用于 Web 可访问性的上下文感知图像描述

分类： 人机交互

作者： Ananya Gubbi Mohanbabu, Amy Pavel

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03054v1

摘要： 盲人和低视力 (BLV) 互联网用户通过文本描述访问网络上的图像。新的视觉到语言模型（例如 GPT-V、Gemini 和 LLaVa）现在可以按需提供详细的图像描述。虽然之前的研究和指南指出 BLV 受众的信息偏好取决于图像的上下文，但用于访问视觉到语言模型的现有工具仅通过单独生成图像描述来提供与上下文无关的图像描述，而不考虑周围的网页上下文。为了探索如何将图像上下文集成到图像描述中，我们设计了一个 Chrome 扩展，可以自动提取网页上下文以通知 GPT-4V 生成的图像描述。我们在一项用户研究中获得了 12 位 BLV 参与者的反馈，该研究比较了典型的上下文无关图像描述和上下文感知图像描述。然后，我们通过技术评估进一步评估了上下文相关的图像描述。我们的用户评估表明，BLV 参与者经常更喜欢上下文感知的描述，而不是上下文无关的描述。 BLV 参与者还对上下文感知描述的质量、可想象性、相关性和合理性给予了更高的评价。所有参与者都表示，他们希望在未来使用上下文感知描述，并强调了其在在线购物、社交媒体、新闻和个人兴趣博客中使用的潜力。

非桌面设备上密码输入实践的大规模调查

分类： 人机交互, 计算机与社会

作者： John Sadik, Scott Ruoti

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03044v1

摘要： 密码管理器鼓励用户生成密码以提高其安全性。然而，研究表明，用户避免生成密码，通常给出的理由是，在没有密码管理器的设备上很难输入生成的密码。在本文中，我们对来自美国、英国和欧洲的个人进行了一项调查 ($n=999$)，探讨他们输入密码的设备范围以及与在这些设备上输入密码相关的挑战。我们发现在没有密码管理器的设备上输入密码是很常见的情况，并且带来了重大的可用性挑战。这些可用性挑战导致用户削弱密码以提高进入的便利性。我们在本文的最后讨论了未来的研究如何应对这些挑战并鼓励用户采用生成的密码。

以相机为中心的移动众包应用程序的设计和评估

分类： 人机交互, 计算机视觉和模式识别

作者： Abby Stylianou, Michelle Brachman, Albatool Wazzan, Samuel Black, Richard Souvenir

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03012v1

摘要： 计算机视觉和机器学习中自动化方法（例如图像检索和细粒度识别）的数据通常来自众包。在依赖用户内在动机的环境中，我们试图了解应用程序设计如何影响用户的贡献意愿以及他们捕获的数据的数量和质量。在这个项目中，我们设计了基于摄像头的移动众包应用程序的三个版本，它们在用户请求的标记工作量上有所不同，并进行了用户研究，以评估请求的用户贡献信息水平和收集的标记图像的数量和质量。结果表明，较高水平的用户标签不会导致贡献减少。用户使用具有最高标签要求级别的应用程序版本收集和注释最多的图像，而用户满意度没有下降。在初步实验中，额外的标记数据支持提高图像检索任务的性能。

GraphTrials：图属性的视觉证明

分类： 人机交互

作者： Henry Förster, Felix Klesen, Tim Dwyer, Peter Eades, Seok-Hee Hong, Stephen G. Kobourov, Giuseppe Liotta, Kazuo Misue, Fabrizio Montecchiani, Alexander Pastukhov, Falk Schreiber

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02907v1

摘要： 图形和网络可视化支持对许多领域中出现的关系数据的探索、分析和通信：从生物和社交网络到交通和电网系统。随着基于人工智能的问答工具的出现，生成答案的可信度和可解释性问题激发了可视化的更大作用。在图表的背景下，我们看到需要可视化来说服关键受众关于所分析的图表的断言是有效的。对这种精确传达一种特定图形属性的表示的要求与优化一般美学和可读性的标准网络可视化标准有很大不同。在本文中，我们的目标是全面介绍图属性的视觉证明，并为该领域的进一步研究奠定基础。我们提出了一个框架，定义了直观地证明图属性的含义。在此过程中，我们引入了视觉证书的概念，即一种专门的忠实图形可视化，它利用观看者的感知，特别是预先注意处理（例如通过弹出效果）来验证有关给定的断言表示图。我们还讨论了视觉复杂性、认知负荷和复杂性理论之间的关系，并提出了基于视觉证明复杂性的分类。最后，我们提供了针对不同视觉证明复杂性类别中的问题的视觉证书示例。

设计矛盾：帮助还是阻碍？

分类： 人机交互

作者： Aron E. Owen, Jonathan C. Roberts

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02823v1

摘要： 数据可视化对创新理念的需求促使我们探索新的创造性方法。组合两个或多个创意词，尤其是那些相互矛盾的词，可以对创意过程产生积极影响，激发新颖的想法和设计。当我们转向人工智能驱动的设计时，出现了一个悬而未决的问题：这些设计矛盾是否能与人工智能工具产生积极的作用？目前来看，答案是否定的。人工智能系统，如大型语言模型（LLM），依赖于产生相似性的算法，而创造力通常需要分歧和新颖性。这张海报引发了一场关于如何推动人工智能系统更具创造力并产生新想法的对话。这项研究邀请我们重新考虑传统的设计方法，并在人工智能驱动的世界中探索新的方法。我们是否可以应用传统设计中使用的相同技术，例如双钻石模型，或者我们是否需要新的设计工程方法？我们如何利用生成式人工智能快速设计可视化并构思新想法？本文旨在开启这一重要对话，并就人工智能在推动数据可视化创造力方面的潜力提供实用见解。

大语言模型辅助视觉分析：机遇与挑战

分类： 人机交互, 人工智能

作者： Maeve Hutchinson, Radu Jianu, Aidan Slingsby, Pranava Madhyastha

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02691v1

摘要： 我们探索将大型语言模型 (LLM) 集成到视觉分析 (VA) 系统中，以通过直观的自然语言交互来转变其功能。我们调查了这个新兴领域的当前研究方向，研究了大语言模型如何集成到数据管理、语言交互、可视化生成和语言生成过程中。我们强调大语言模型为 VA 带来的新可能性，特别是他们如何改变通常用例之外的 VA 流程。我们特别强调构建新的可视化语言模型，允许访问广泛的领域知识、多模式交互和指导机会。最后，我们仔细考虑了在 VA 任务中使用当前大语言模型的突出挑战。我们在本文中的讨论旨在指导未来研究大语言模型辅助 VA 系统的研究人员，并帮助他们在开发这些系统时克服常见的障碍。

用于高级车辆仪表盘渲染的基于学习的错误检测系统

分类： 计算机视觉和模式识别, 人机交互, 机器学习, 机器人技术, 图像和视频处理

作者： Cornelius Bürkle, Fabian Oboril, Kay-Ulrich Scholl

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02647v1

摘要： 汽车行业目前正在通过每一款上市的新车型来扩展数字显示选项。这不仅需要尺寸、分辨率和定制选择的扩展，还需要在组装显示集群的内容时采用叠加等新颖的显示效果的能力。不幸的是，这就需要适当的监控系统来检测渲染错误并在需要时采取适当的对策。循环冗余检查 (CRC) 等经典解决方案很快将不再可行，因为任何类型的 alpha 混合、内容缩放扭曲都可能导致不必要的 CRC 违规。因此，我们提出了一种新颖的监控方法，以使用信号（例如警告标志）为例来验证显示内容的正确性。它使用基于学习的方法来区分“好的”信号装置，即人类驾驶员能够正确理解的信号装置和“损坏的”信号装置，即那些无法正确看到或感知的信号装置。因此，它具有针对单个像素错误的固有弹性，并隐式支持改变背景、覆盖或缩放效果。我们的实验研究强调了这一点，其中所有“损坏”的测试模式都被正确分类，同时没有触发误报。

使用探索性代理评估环境

分类： 人工智能, 人机交互

作者： Bobby Khaleque, Mike Cook, Jeremy Gow

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02632v1

摘要： 探索是许多视频游戏的关键部分。我们研究了如何使用探索性代理来为程序生成的游戏关卡（5 个引人入胜的关卡和 5 个不引人入胜的关卡）的设计提供反馈。我们扩展了先前研究中引入的框架，该框架对探索动机进行建模，并引入了用于评估环境探索潜力的适应度函数。我们的研究表明，我们的探索代理可以清楚地区分参与度和不参与度。研究结果表明，我们的代理有潜力成为评估程序生成水平的有效工具，就探索而言。这项工作通过提供关于如何评估和优化游戏环境以促进玩家探索的新见解，为人工智能驱动的游戏设计领域的不断发展做出了贡献。

拼图：探索远程患者监护护理实践中的协作和数据意义构建

分类： 人机交互

作者： Mihnea Calota, Janet Yi-Ching Huang, Lin-Lin Chen, Mathias Funk

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02579v2

摘要： 远程患者监测（RPM）涉及患者健康数据的远程收集和传输，是数据驱动的医疗保健的一个重要应用。该技术有助于临床监测和决策，提供降低医疗成本和改善患者治疗效果等好处。然而，RPM 也带来了数据驱动的医疗保健中常见的挑战，例如可能会扰乱临床医生工作流程的额外数据工作。本研究通过现场观察和对六名利益相关者的访谈，探讨了 RPM 中护士的日常实践、协作机制和意义建构过程。初步结果表明，RPM 的扩展推动临床医生走向异步协作。数据意义构建对于这种类型的协作至关重要，但现有技术常常会产生摩擦而不是支持。这项工作为护理实践中的临床工作流程（尤其是 RPM）提供了实证见解。我们建议将数据意义建构视为数据工作中一种独特的护理实践，并建议进一步研究其在 RPM 护士工作流程中的作用。

多即是多：大型语言模型中的加法偏差

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互

作者： Luca Santagata, Cristiano De Nobili

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02569v1

摘要： 在本文中，我们研究了大型语言模型（LLM）中加性偏差的存在，与在人类中观察到的认知偏差进行了类比，即个体倾向于支持加性变化而不是减性变化。通过一系列受控实验，我们测试了各种 LLM，包括 GPT-3.5 Turbo、Claude 3.5 Sonnet、Mistral、Math$\Sigma$tral 和 Llama 3.1，其任务旨在测量其加法修改与减法修改的倾向。我们的研究结果表明，所有测试模型都显着偏好附加变化。例如，在回文创建任务中，Llama 3.1 在 97.85% 的情况下倾向于添加字母而不是删除字母。同样，在乐高塔平衡任务中，GPT-3.5 Turbo 在 76.38% 的情况下选择添加一块砖，而不是移除一块。在文本摘要任务中，当被要求改进自己或他人的写作时，Mistral 7B 在 59.40% 至 75.10% 的情况下生成了更长的摘要。这些结果表明，与人类类似，大语言模型表现出明显的加性偏差，这在大规模使用大语言模型时可能会产生影响。添加剂偏差可能会增加资源使用和环境影响，从而因过度消费和浪费而导致更高的经济成本。在大语言模型的开发和应用中应考虑这种偏见，以确保平衡和有效的解决问题的方法。

想搭车吗？对自动驾驶的态度和自动驾驶汽车的行为

分类： 机器人技术, 人机交互

作者： Enrico Del Re, Leonie Sauer, Marco Polli, Cristina Olaverri-Monreal

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02556v1

摘要： 之前进行的研究主要关注与自动驾驶相关的态度或行为。在本文中，我们通过探索对自动驾驶的态度如何影响自动驾驶汽车的行为来弥合这两个维度。我们对 12 名参与非驾驶相关任务的参与者进行了现场实验。我们的研究结果表明，对自动驾驶的态度不会影响参与者对车辆控制和目光扫视行为的驾驶干预。因此，缺乏现场测试的自动驾驶技术研究对于评估自动驾驶汽车的潜在行为、态度和接受度可能不可靠。

对机器学习辅助可视化的对抗性攻击

分类： 密码学和安全, 人工智能, 人机交互, 机器学习, 机器学习

作者： Takanori Fujiwara, Kostiantyn Kucher, Junpeng Wang, Rafael M. Martins, Andreas Kerren, Anders Ynnerman

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02485v1

摘要： ML4VIS 的研究探讨了如何使用机器学习 (ML) 技术来生成可视化，该领域正在快速发展，具有很高的社会影响力。然而，与任何采用 ML 流程的计算管道一样，ML4VIS 方法很容易受到一系列特定于 ML 的对抗性攻击。这些攻击可以操纵可视化生成，导致分析师被欺骗并损害他们的判断。由于缺乏可视化和机器学习角度的综合，当前的 ML4VIS 文献在很大程度上忽视了这一安全方面。为了弥补这一差距，我们使用可视化和机器学习视角的整体视角来研究机器学习辅助可视化在对抗性攻击中的潜在漏洞。我们首先确定机器学习辅助可视化中独特的攻击面（即攻击入口点）。然后我们举例说明五种不同的对抗性攻击。这些示例突出了考虑攻击面和多种不同对手能力时可能攻击的范围。我们的结果表明，对手可以通过系统地识别对机器学习推理有影响的输入属性来引发各种攻击，例如创建任意和欺骗性的可视化。根据我们对攻击面特征和攻击示例的观察，我们强调了全面研究安全问题和防御机制的重要性，这是 ML4VIS 社区的紧迫呼吁。

标准化会丢失什么？探索多语言 ASR 模型评估中的陷阱

分类： 计算和语言, 人工智能, 人机交互, 68T50, 91F20, 68T10, I.2.1; I.2.7

作者： Kavya Manohar, Leena G Pillai

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02449v1

摘要： 本文探讨了评估多语言自动语音识别 (ASR) 模型的陷阱，特别关注印度语言脚本。我们研究了领先的 ASR 模型（包括 OpenAI Whisper、Meta 的 MMS、Seamless 和 Assembly AI 的 Conformer）所采用的文本规范化例程，以及它们对性能指标的意外影响。我们的研究表明，当前的文本规范化实践虽然旨在通过消除拼写、标点符号和特殊字符变化等不一致来标准化 ASR 输出以进行公平比较，但在应用于印度文字时存在根本性缺陷。通过使用文本相似性评分和深入的语言检查进行实证分析，我们证明这些缺陷导致印度语言的性能指标人为夸大。最后，我们建议转向开发利用本地语言专业知识的规范化例程，确保对多语言 ASR 模型进行更稳健和准确的评估。

用于虚拟现实应用的单图像珊瑚模型生成

分类： 计算机视觉和模式识别, 人工智能, 图形, 人机交互, 多媒体

作者： Jie Fu, Shun Fu, Mick Grierson

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02376v1

摘要： 随着VR技术的快速发展，对高质量3D模型的需求不断增加。传统方法在大规模定制中难以满足效率和质量的要求。本文介绍了一种深度学习框架，可从单个图像生成高精度 3D 珊瑚模型。该框架使用 Coral 数据集提取几何和纹理特征，执行 3D 重建，并优化设计和材料混合。先进的优化和多边形计数控制确保形状精度、细节保留和各种复杂性的灵活输出，满足高质量渲染和实时交互需求。该项目采用可解释人工智能（XAI），将人工智能生成的模型转换为交互式“艺术品”，在 VR 和 XR 中观看效果最佳。这增强了模型可解释性和人机协作。 VR交互中实时反馈显示珊瑚种类、栖息地等信息，丰富用户体验。生成的模型在细节、视觉质量和效率方面超越了传统方法。这项研究为VR 3D内容创作提供了一种智能方法，降低了制作门槛，促进了VR的广泛应用。此外，集成 XAI 为 AI 生成的视觉内容提供了新的见解，并推进了 3D 视觉可解释性的研究。

检查护理角色，以区分使用移动应用程序进行社区隐私和安全监督的效果

分类： 人机交互

作者： Mamtaj Akter, Jess Kropczynski, Heather Lipford, Pamela Wisniewski

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02364v1

摘要： 我们对 101 名智能手机用户进行了为期 4 周的实地研究，他们自行组织成 22 个由家人、朋友和邻居组成的小组，使用“CO-oPS”，这是一款用于共同管理移动隐私和安全的移动应用程序。我们区分了提供监督的人（即护理人员）和没有提供监督的人（即护理人员），以检查使用 CO-oPS 时对他们的经历和行为的不同影响。与被护理者相比，护理人员报告了更高的电力使用、社区信任、归属感、集体效能和自我效能。使用 CO-oPS 后，两个群体在移动隐私和安全方面的自我效能和集体效能均有所提高。然而，对于看护者来说，这种增长要明显得多。我们的研究表明，基于社区的方法如何使那些需要额外帮助管理数字隐私和安全的人们受益。我们提供建议来支持基于社区的监督，以管理不同角色和技能的社区内的隐私和安全。

青少年谈话：青少年使用社交媒体的好处、坏处和中性

分类： 人机交互

作者： Abdulmalik Alluhidan, Mamtaj Akter, Ashwaq Alsoubai, Jinkyung Park, Pamela Wisniewski

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02358v1

摘要： 关于社交媒体对年轻人到底有积极还是消极影响的争论仍在继续。因此，我们对 1,038 名 15-17 岁青少年在在线同伴支持平台上发布的 2,061 个帖子进行了主题分析，以调查这些青少年在帖子中讨论流行社交媒体平台的方式，并找出他们在不同平台上的体验差异。我们的研究结果揭示了讨论社交媒体的方式的四个主要新兴主题：1）分享社交媒体使用的负面经历或结果（58％，n = 1,095），2）尝试与他人联系（45％，n = 922），3）强调社交媒体使用的积极一面（20％，n = 409），以及4）寻求信息（20％，n = 491）。总体而言，虽然分享负面经历更为突出，但青少年也讨论了社交媒体上不应忽视的寻求联系、积极经历和信息支持的平衡观点。此外，我们发现这些体验在社交媒体平台上的差异具有统计显着性。例如，青少年最有可能在 Snapchat 上寻求浪漫关系并在 YouTube 上自我推销。与此同时，Instagram 因身体羞辱而被提及最多，而 Facebook 则是最常被讨论侵犯隐私的平台（主要来自家长）。我们研究的主要结论是，青少年使用社交媒体的好处和缺点可以共存，并且净效应（积极或消极）可能因不同环境下的不同青少年而异。因此，我们主张减轻青少年所表达的社交媒体使用的负面体验和结果，以改善而不是限制或约束他们的整体社交媒体体验。为此，我们采取了可供性的观点，旨在“通过设计”促进青少年的数字福祉和在线安全。

通过循环开发和确定（CAIRDD）系统对创意人工智能进行初步开发和评估

分类： 人工智能, 人机交互

作者： Jeremy Straub, Zach Johnson

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02291v1

摘要： 计算机系统创造力是通向通用人工智能（AGI）之路的关键一步。然而，由于人类创造力尚未被完全理解，因此很难在软件中开发这种能力。大型语言模型（LLM）提供了创造力和感知能力的复制品，但实际上既不具有创造力，也不具有感知能力。虽然大语言模型创造了真正的新内容，但在某些情况下——例如有害的幻觉——无意中，他们刻意的创造力被一些人认为与人类的不匹配。为了应对这一挑战，本文提出了一种通过概念注入和细化的迭代过程来增强大语言模型输出创造力的技术。介绍了通过循环开发和确定 (CAIRDD) 系统开发创意人工智能的初步工作，并对关键系统组件的功效进行了评估。

作为 NLP 任务的治疗：心理学家对大语言模型和人类同行在 CBT 方面的比较

分类： 人机交互, 计算和语言, I.2.7; J.4

作者： Zainab Iftikhar, Sean Ransom, Amy Xiao, Jeff Huang

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02244v1

摘要： 更广泛地获得治疗护理是心理健康治疗的最大挑战之一。由于制度障碍，一些寻求心理健康支持的人转向大型语言模型（LLM）进行个性化治疗，尽管这些模型基本上未经批准和测试。我们通过使用混合方法临床指标来研究使用大语言模型作为循证治疗提供者的潜力和局限性。使用 HELPERT（使用与同伴咨询师对比组相同的流程和培训在大型语言模型上进行提示运行），我们复制了植根于认知行为治疗 (CBT) 的可公开访问的心理健康对话，以比较会话动态和咨询师基于 CBT 的行为原始同伴支持会话和重建的 HELPERT 会话之间的关系。两名经过 CBT 培训的有执照的临床心理学家使用认知治疗评定量表对课程进行了评估，并提供了定性反馈。我们的研究结果表明，同伴会议的特点是同理心、闲聊、治疗联盟和分享经验，但往往表现出治疗师的漂移。相反，HELPERT 重建的疗程表现出最小的治疗师漂移和对 CBT 方法的更高的依从性，但表现出缺乏协作、同理心和文化理解。通过 CTRS 评级和心理学家的反馈，我们强调了人机协作对于可扩展的心理健康的重要性。我们的工作概述了在治疗环境中向大语言模型传授类人主观品质的伦理含义，特别是欺骗性同理心的风险，这可能会导致不切实际的患者期望和潜在伤害。

EgoPressure：自我中心视觉中手部压力和姿势估计的数据集

分类： 计算机视觉和模式识别, 人机交互

作者： Yiming Zhao, Taein Kwon, Paul Streli, Marc Pollefeys, Christian Holz

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02224v1

摘要： 估计自我中心视觉中的触摸接触和压力是增强现实、虚拟现实以及许多机器人应用中下游应用的核心任务，因为它为手部物体交互和物体操纵提供了精确的物理洞察。然而，现有的接触压力数据集缺乏以自我为中心的视图和手部姿势，而这对于 AR/VR 交互和机器人操作的现场操作期间的准确估计至关重要。在本文中，我们介绍了 EgoPressure，这是一个从自我中心角度出发的触摸接触和压力交互的新颖数据集，并辅以手势网格和每次接触的细粒度压力强度。我们的数据集中的手部姿势使用我们提出的基于多视图序列的方法进行了优化，该方法处理来自 8 个精确校准的 RGBD 摄像机的捕捉装置的镜头。 EgoPressure 包括 21 名参与者的 5.0 小时的触摸接触和压力交互，由移动的自我中心相机和 7 个固定的 Kinect 相机捕获，提供 30 Hz 的 RGB 图像和深度图。此外，我们还提供了使用不同方式估计压力的基线，这将使数据集的未来开发和基准测试成为可能。总的来说，我们证明了压力和手部姿势是互补的，这支持了我们更好地促进 AR/VR 和机器人研究中手部物体交互的物理理解的意图。

RACONTEUR：知识渊博、富有洞察力且可移植的 LLM 支持的 Shell 命令解释器

分类： 密码学和安全, 人机交互, 机器学习, 软件工程

作者： Jiangyi Deng, Xinfeng Li, Yanjiao Chen, Yijie Bai, Haiqin Weng, Yan Liu, Tao Wei, Wenyuan Xu

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02074v1

摘要： 恶意 shell 命令是许多网络攻击的关键，但由于复杂且经常伪装的代码结构，安全分析人员可能不容易理解。大语言模型 (LLM) 的进步释放了为 shell 命令生成可理解的解释的可能性。然而，现有的通用大语言模型缺乏专业知识，并且在解释 shell 命令的任务中容易产生幻觉。在本文中，我们介绍 Raconteur，一个由 LLM 提供支持的知识渊博、富有表现力且可移植的 shell 命令解释器。 Raconteur 融入了专业知识，对 shell 命令提供全面的解释，不仅包括命令的作用（即行为），还包括命令为什么这样做（即目的）。为了阐明命令的高层意图，我们还将基于自然语言的解释转化为全球网络安全知识库 MITRE ATT&CK 定义的标准技术和策略。为了使 Raconteur 能够解释看不见的私有命令，我们进一步开发了一个文档检索器，从补充文档中获取相关信息以协助解释过程。我们创建了一个大规模的训练数据集，并进行了大量的实验来评估 Raconteur 在 shell 命令解释方面的能力。实验验证 Raconteur 能够提供高质量的解释并深入了解命令的意图。

在口腔健康临床试验中部署的在线强化学习算法

分类： 人工智能, 人机交互

作者： Anna L. Trella, Kelly W. Zhang, Hinal Jajal, Inbal Nahum-Shani, Vivek Shetty, Finale Doshi-Velez, Susan A. Murphy

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02069v1

摘要： 牙科疾病是一种普遍存在的慢性病，会带来巨大的经济负担、个人痛苦和全身性疾病风险增加。尽管人们普遍建议每天刷牙两次，但由于健忘和脱离等因素，对推荐的口腔自我护理行为的遵守情况仍然不够理想。为了解决这个问题，我们开发了 Oralytics，这是一种移动医疗干预系统，旨在补充临床医生为有牙科疾病风险的边缘人群提供的预防性护理。 Oralytics 采用在线强化学习算法来确定提供鼓励口腔自我保健行为的干预提示的最佳时间。我们已在一项注册临床试验中部署了 Oralytics。该部署需要精心设计，以应对美国临床试验环境特有的挑战。在本文中，我们 (1) 重点介绍了应对这些挑战的 RL 算法的关键设计决策，以及 (2) 进行重采样分析以评估算法设计决策。 Oralytics 的第二阶段（随机对照试验）计划于 2025 年春季开始。

针对残疾人的增强现实辅助技术

分类： 人机交互

作者： Riju Marwah, Jyotin Singh Thakur, Pranav Tanwar

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02053v1

摘要： 增强现实 (AR) 技术在彻底改变残疾人与世界互动的方式方面具有巨大潜力。 AR系统可以根据使用需求，通过在物理环境上叠加数字信息来提供实时帮助和支持，从而解决不同类型的残疾问题。通过对四个案例研究的深入分析，本文旨在全面概述针对残疾人的 AR 辅助技术的最新技术，突显其协助和改变其生活的潜力。研究结果表明了 AR 在弥合可访问性差距方面的重要性，同时还讨论了在各种案例中实施所面临的挑战和道德考虑。这是通过理论分析、实例和未来预测来完成的，这些分析将激励并寻求激发这一非常相关的探索领域的进一步创新。

可视化设计中评估创造力的指标

分类： 人机交互

作者： Aron E Owen, Jonathan C Roberts

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02036v1

摘要： 对于需要以创新方式呈现数据的设计师和数据科学家来说，可视化设计的创造力至关重要。它通常是通过绘制草图或起草低保真原型来实现的。然而，判断这种创新往往很困难。创造性可视化测试将提供一种结构化方法来增强视觉思维和设计技能，这在许多领域都至关重要。这样的测试可以促进客观评估、技能识别、基准测试、促进创新和改善学习成果。在开发这样的测试时，我们建议关注四个标准：数量、正确性、新颖性和可行性。这些标准集成到易于管理的测试中。我们将其命名为“罗文可视化设计创造力测试”；我们介绍了测试、评分系统以及使用八位可视化专家的结果。

高等教育中的人工智能治理：十大大学指导案例研究

分类： 人机交互, 人工智能

作者： Chuhao Wu, He Zhang, John M. Carroll

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02017v1

摘要： 生成式人工智能引起了高等教育利益相关者的极大关注。它为个性化学习和辅导支持带来了新的机会，同时也对学术诚信提出了挑战，并导致了道德问题。因此，管理高等教育机构 (HEIs) 内负责任的人工智能使用变得越来越重要。领先的大学已经发布了关于生成人工智能的指南，大多数大学都试图负责任地接受这项技术。本研究通过关注这些指南中所示的负责任的人工智能治理策略，提供了一个新的视角。通过对美国14所知名大学的案例研究，我们从其人工智能指南中识别出人工智能的多单位治理、人工智能的角色特定治理以及人工智能治理的学术特征。讨论了这些策略和特征的优点和潜在局限性。研究结果为指导高等教育机构及其他机构负责任地使用人工智能提供了实际意义。

评估 HTC VIVE Ultimate Tracker 在不同环境条件下机器人和人体运动的精度

分类： 机器人技术, 人机交互

作者： Julian Kulozik, Nathanaël Jarrassé

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01947v2

摘要： HTC VIVE Ultimate Tracker 利用由内而外的跟踪和内部立体摄像头提供 6 DoF 跟踪，无需外部摄像头，为运动跟踪提供经济高效且简单的设置。最初是为游戏和 VR 行业设计的，我们探索了 VR 之外的应用，提供了 C++ 和 Python 数据捕获源代码，无需 VR 耳机。这项研究首次评估了跟踪器在各种实验场景中的精度。为了评估跟踪精度的稳健性，我们采用机械臂作为精确且可重复的运动源。以 OptiTrack 系统为参考，我们在不同的实验条件下进行了测试：光照、移动速度、场景中物体位移引起的环境变化、跟踪器前面的人体运动，以及相对于物体的位移大小的变化。校准中心。平均而言，HTC VIVE Ultimate Tracker 在各种条件下的精确度为 4.98 毫米 +/- 4 毫米。影响精度的最关键因素是照明条件、运动速度以及相对于校准中心的运动范围。为了进行实际评估，我们在真实的动作捕捉场景中使用 5 个跟踪器捕捉人体动作。我们的研究结果表明，捕捉人类动作的精度足够高，并通过两项任务进行了验证：低动态拾放任务和精英运动员执行的高动态击剑动作。尽管其精度低于传统的基于固定摄像头的运动捕捉系统，并且其性能受到多种因素的影响，但 HTC VIVE Ultimate Tracker 仍为各种运动跟踪应用展示了足够的精度。它能够捕捉 VR 或 MOCAP 环境之外的人体或物体运动，这使得它的用途特别广泛。

焦点代理：大语言模型支持的虚拟焦点小组

分类： 人机交互

作者： Taiyu Zhang, Xuesong Zhang, Robbe Cools, Adalberto L. Simeone

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01907v1

摘要： 在人机交互领域，焦点小组代表了一种广泛使用但资源密集的方法，通常需要熟练主持人的专业知识和细致的准备工作。这项研究引入了“焦点代理”，这是一个大型语言模型（LLM）驱动的框架，它可以模拟焦点小组（用于数据收集）并在与人类参与者一起的焦点小组环境中充当主持人。为了评估来自 Focus Agent 的数据质量，我们与总共 23 名人类参与者进行了五次焦点小组会议，并部署 Focus Agent 来模拟与 AI 参与者的这些讨论。定量分析表明，Focus Agent 可以产生与人类参与者类似的意见。此外，该研究还揭示了大语言模型在包括人类参与者在内的焦点小组讨论中充当主持人的一些改进。

一项评估 ABiMed（用于药物审查和复方用药管理的临床决策支持系统）的随机模拟试验

分类： 人工智能, 人机交互, J.3

作者： Abdelmalek Mouazer, Sophie Dubois, Romain Léguillon, Nada Boudegzdame, Thibaud Levrard, Yoann Le Bars, Christian Simon, Brigitte Séroussi, Julien Grosjean, Romain Lelong, Catherine Letord, Stéfan Darmoni, Karima Sedki, Pierre Meneton, Rosy Tsopra, Hector Falcoff, Jean-Baptiste Lamy

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01903v1

摘要： 背景：药物审查是由药剂师对患者进行的结构化访谈，旨在优化药物治疗。在实践中，药物审查是一项长期且需要认知能力的任务，需要特定的知识。临床实践指南已经提出，但其应用却很乏味。方法：我们基于 STOPP/START v2 指南的实施以及使用表格、图表和花形符号对汇总药物知识的可视化呈现，设计了 ABiMed，这是一种用于药物审查的临床决策支持系统。我们在一项随机模拟试验中与 39 名社区药剂师一起评估了 ABiMed，每位药剂师对两名未使用 ABiMed 的虚构患者和另外两名使用 ABiMed 的虚构患者进行药物审查。我们记录了药剂师发现的问题、提出的干预措施、响应时间、感知的可用性和评论。药剂师的药物审查与专家设计的黄金标准进行比较。结果：借助 ABiMed，药剂师在药物审查期间发现的相关药物相关问题增加了 1.6 倍 (p=1.1e-12)，并提出了更好的干预措施 (p=9.8e-9)，而无需更多时间 (p=0.56)。系统可用性量表得分为82.7，评级为“优秀”。药剂师在评论中赞赏 ABiMed 的视觉效果及其将当前治疗方法与拟议治疗方法进行比较的能力。多因素分析显示，根据药剂师的年龄或性别，ABiMed 提供的支持在发现问题的百分比或拟议干预措施的质量方面没有差异。结论：使用智能可视化临床决策支持系统可以帮助药剂师进行药物审评。我们的主要观点是在临床条件下验证系统。

ASD-Chat：基于LLM和VB-MAPP的自闭症儿童创新对话干预系统

分类： 人机交互

作者： Chengyun Deng, Shuzhong Lai, Chi Zhou, Mengyi Bao, Jingwen Yan, Haifeng Li, Lin Yao, Yueming Wang

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01867v1

摘要： 早期诊断和专业干预可以帮助自闭症谱系障碍（ASD）儿童恢复正常生活。然而，目前专业医疗资源的匮乏和不平衡，使得许多自闭症儿童无法得到必要的诊断和干预。因此，人们提出了许多利用计算机技术辅助或独立进行ASD干预的范例，以期缓解上述问题。然而，这些范例往往缺乏临床干预方法的基础，并且缺乏个性化。为了解决这些问题，我们提出了 ASD-Chat，这是一种基于 VB-MAPP（言语行为里程碑评估和安置计划）并由 ChatGPT 提供支持的社会干预系统，作为对话生成的支柱。具体来说，我们基于临床干预方法VB-MAPP设计了干预范式和提示，并利用ChatGPT的生成能力来促进社会对话干预。实验结果表明，我们提出的系统实现了与专业干预医生竞争的干预效果，使其成为未来真实医疗保健场景中长期干预的有前途的工具。

基于ELM的绩效水平评价模型

分类： 人机交互

作者： Qian Mei

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01803v1

摘要： 人为因素评估对于民用飞机驾驶舱设计至关重要。这一过程依赖于机组人员的生理和认知特征，以确保驾驶舱设计与其能力相符并提高飞行安全。现代生理数据采集与分析技术的发展取代了传统的人为主观评价，成为验证和评价座舱人因设计的有效方法。鉴于飞行员生理信号的高维性和复杂性，这些不确定性会显着影响飞行员的表现。本文提出一种基于极限学习机（ELM）的飞行员绩效评估模型，通过飞行员的生理信号来预测飞行绩效，进一步探讨人为因素与民航安全之间的定量关系。

使用循环尖峰神经网络从皮质尖峰序列中解码手指速度

分类： 神经元和认知, 人机交互, 机器学习, 神经和进化计算

作者： Tengjun Liu, Julia Gygax, Julian Rossbroich, Yansong Chua, Shaomin Zhang, Friedemann Zenke

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01762v1

摘要： 侵入式皮质脑机接口（BMI）可以显着改善运动障碍患者的生活质量。尽管如此，外部安装的基座会带来感染风险，因此需要完全植入的系统。然而，此类系统必须满足严格的延迟和能量限制，同时提供可靠的解码性能。虽然循环尖峰神经网络 (RSNN) 非常适合神经形态硬件上的超低功耗、低延迟处理，但尚不清楚它们是否满足上述要求。为了解决这个问题，我们训练 RSNN 从两只猕猴的皮层尖峰序列 (CST) 中解码手指速度。首先，我们发现大型 RSNN 模型在解码精度方面优于现有的前馈尖峰神经网络 (SNN) 和人工神经网络 (ANN)。接下来，我们开发了一个微型 RSNN，具有更小的内存占用、低发射率和稀疏连接。尽管计算要求降低，但生成的模型的性能明显优于现有的 SNN 和 ANN 解码器。因此，我们的结果表明，RSNN 在严格的资源限制下提供有竞争力的 CST 解码性能，并且是完全植入的超低功耗 BMI 的有希望的候选者，有可能彻底改变患者护理。

大语言模型对人类口语交流影响的经验证据

分类： 计算机与社会, 人工智能, 计算和语言, 人机交互

作者： Hiromu Yakura, Ezequiel Lopez-Lopez, Levin Brinkmann, Ignacio Serna, Prateek Gupta, Iyad Rahwan

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01754v1

摘要： 得益于 ChatGPT 等大型语言模型 (LLM) 的进步，人工智能 (AI) 代理现在可以使用自然语言与数十亿人进行交互。这就提出了一个问题：人工智能是否有潜力塑造人类文化的一个基本方面：我们说话的方式。最近的分析表明，科学出版物已经展示了人工智能特定语言的证据。但这一证据尚无定论，因为科学家可能只是使用人工智能来复制编辑他们的作品。为了探究人工智能是否影响了人类口语交流，我们转录并分析了来自 20,000 多个学术机构 YouTube 频道的约 280,000 个演示、演讲和演讲的英语视频。我们发现，在 ChatGPT 发布后，与 ChatGPT 明显相关的词语的特定词语使用趋势发生了重大转变。这些发现提供了第一个经验证据，表明人类越来越多地模仿大语言模型的口语。我们的研究结果引起了社会和政策相关的担忧，即人工智能可能会无意中减少语言多样性，或被故意滥用于大规模操纵。他们还强调需要进一步调查机器行为与人类文化之间的反馈循环。

在虚拟现实中使用物理键盘输入重音字符

分类： 人机交互

作者： Snehanjali Kalamkar, Verena Biener, Daniel Pauls, Leon Lindlein, Morteza Izadifar, Per Ola Kristensson, Jens Grubert

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01709v1

摘要： 虚拟现实 (VR) 中的文本输入研究已广受欢迎，但在 VR 中有效输入重音字符、带变音符号的字符的方法仍有待探索。大多数电容式触摸键盘都支持通过长按基本字符并随后选择重音字符来输入重音字符。然而，在物理键盘上输入这些字符仍然具有挑战性，因为它们需要调用并输入相应的数字代码。为了解决这个问题，本文研究了三种支持 VR 中物理键盘上重音字符输入的技术。具体来说，我们比较了不需要用户回忆代码的上下文感知数字代码技术、仅按键条件（其中重音字符动态地重新映射到基本字符旁边的物理键）以及多模式技术，其中眼睛注视用于选择先前通过键盘上的按键选择的基本字符的重音版本。我们的用户研究 (n=18) 的结果表明，仅按键技术和多模式技术在文本输入速度方面均优于基线技术。

意图、技术和组件：数据可视化中交互创作任务的统一分析

分类： 人机交互

作者： Hyemi Song, Sai Gopinath, Zhicheng Liu

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01399v1

摘要： 人们对设计工具来支持数据可视化中的交互规范和创作越来越感兴趣。为了开发富有表现力和灵活的工具，我们需要描述交互创作任务空间的理论和模型。尽管交互式可视化存在多种分类法和框架，但它们主要关注如何使用可视化，而不是如何组成交互性。为了填补这一空白，我们对 47 个真实可视化应用程序的 592 个交互单元进行了分析。基于分析，我们对跨三个描述级别的交互创作任务进行了统一分析：意图、代表性技术和低级实现组件。我们检查我们的框架的描述性、评估性和生成能力，以批评现有的交互创作工具并为新工具的开发提供信息。

互惠互利：与公众共享自动驾驶汽车数据的案例

分类： 计算机与社会, 人机交互

作者： David Goedicke, Natalie Chyi, Alexandra Bremers, Stacey Li, James Grimmelmann, Wendy Ju

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01342v1

摘要： 自动驾驶是一项广泛研究的技术，经常在公共道路上进行测试。这些测试生成的数据代表了各公司推动这项技术发展的重要竞争要素。在本文中，我们主张规范性的观点，即这些数据的一部分应该通过可信实体共享，作为对正在试验的社区的一种补偿和控制形式，从而更明确地使公众受益。为了支持这一论点，我们强调了哪些数据可以共享，提出共享自动驾驶汽车数据的道德案例，介绍当前如何共享自动驾驶汽车数据的案例研究，从类似交通行业的现有数据共享平台中汲取经验并提出建议讨论如何共享数据，并以为什么应鼓励此类数据共享的论据作为结论。

用于响应式可视化设计和开发的基于约束的断点

分类： 人机交互

作者： Sarah Schöttler, Jason Dykes, Jo Wood, Uta Hinrichs, Benjamin Bach

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01339v1

摘要： 本文介绍了基于约束的断点，这是一种为各种屏幕尺寸和数据集设计响应式可视化的技术。响应式可视化中的断点定义了何时显示不同的可视化设计。传统上，断点是静态的、预定义的宽度，因此不考虑可视化数据集或可视化参数的变化。为了保证跨数据集的可读性和空间的有效利用，这些静态断点需要手动更新。基于约束的断点通过评估视觉元素大小、重叠元素以及可视化和可用空间的纵横比的特定于可视化的约束来解决这个问题。配置完成后，具有基于约束的断点的响应式可视化可以适应任何数据集的不同屏幕尺寸。我们描述了一个框架，指导设计人员为不同的显示尺寸创建一系列可视化设计，并为每个设计定义约束。我们演示了不同数据类型的基于约束的断点及其可视化：地理数据（等值线图、比例圆图、Dorling 地图、六角网格图、条形图、华夫饼图）、网络数据（节点链接图、邻接矩阵、弧形图）图）和多变量数据（散点图、热图）。交互式演示和补充材料可在 https://responsive-vis.github.io/breakpoints/ 获取。

DiffEyeSyn：基于扩散的用户特定眼动合成

分类： 人机交互

作者： Chuhan Jiao, Guanhua Zhang, Zhiming Hu, Andreas Bulling

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01240v1

摘要： 眼睛注视数据中的高频分量包含有希望用于各种应用的用户特定信息，但现有的注视建模方法侧重于通常不超过 30 Hz 的低频。我们提出了 DiffEyeSyn——第一种合成高频注视数据的计算方法，包括特定于个人用户的眼动特征。关键思想是将高频、用户特定信息视为眼动数据中的一种特殊类型的噪声。这种观点将眼动合成重塑为将用户特定的噪声注入任何给定的眼动序列的任务。我们将此注入任务表述为一个条件扩散过程，其中合成以使用预先训练的用户身份验证模型从注视数据中提取的用户特定嵌入为条件。我们提出了用户身份引导——一种新颖的损失函数，使我们的模型能够保留用户身份，同时在空间域中生成类似人类的眼球运动。两个公共高频眼动生物识别数据集的实验结果表明，我们的合成眼动与真实的人眼运动无法区分。此外，我们证明了 DiffEyeSyn 可用于大规模合成眼睛注视数据并用于不同的下游任务，例如注视数据插补和注视数据超分辨率。因此，我们的工作为个性化眼动合成奠定了方法基础，具有巨大的应用潜力，例如角色动画、眼动生物识别或基于凝视的活动和上下文识别。

集成陀螺仪和加速度计的空间模块

分类： 人机交互

作者： Antonio Losada González

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01176v1

摘要： MEIGA 是专为四肢瘫痪人士或上肢运动能力非常有限的人设计的模块。 MEIGA 将用户的头部运动转换为鼠标运动。为了模拟击键，它使用眨眼来读取随之发生的脸颊运动。鼠标的性能、移动速度及其精度实际上与用手进行的测量相当。

用于下肢外骨骼步态分析和控制的基于模块化传感器的系统的开发和验证

分类： 机器人技术, 人机交互

作者： Giorgos Marinou, Ibrahima Kourouma, Katja Mombaur

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01174v1

摘要： 随着外骨骼硬件技术的快速进步，成功的评估和精确的控制仍然具有挑战性。本研究引入了一种基于传感器的模块化系统，利用先进的传感器技术和模糊逻辑来增强下肢外骨骼的生物力学评估和控制。我们的目标是超越当前仅限于实验室的生物力学评估方法的局限性，并解决外骨骼控制系统的高成本和复杂性。该系统将惯性测量单元、力敏电阻和称重传感器集成到仪表拐杖和 3D 打印鞋垫中。这些组件既独立又共同发挥作用，以捕获全面的生物力学数据，包括前后压力中心和拐杖地面反作用力。该数据通过中央单元使用模糊逻辑算法进行处理，以进行实时步态相位估计和外骨骼控制。由三名参与者进行的验证实验，以黄金标准动作捕捉和测力台技术为基准，证明了我们的系统可靠的步态阶段检测和精确的生物力学测量的能力。通过提供开源设计并集成具有成本效益的技术，这项研究推动了可穿戴机器人技术的发展，并促进了外骨骼研究领域更广泛的创新和采用。

为稀有物体生成合成卫星图像：模型和指标的实证比较

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者： Tuong Vy Nguyen, Johannes Hoster, Alexander Glaser, Kristian Hildebrand, Felix Biessmann

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01138v1

摘要： 生成式深度学习架构可以生成逼真的高分辨率假图像，具有潜在的巨大社会影响。在这种情况下的一个关键问题是：生成逼真的图像有多容易，特别是对于利基领域。实现特定图像内容所需的迭代过程很难自动化和控制。特别是对于稀有类别，评估保真度仍然很困难，这意味着生成方法是否会产生逼真的图像和对齐，意味着生成如何（很好地）受到人类输入的指导。在这项工作中，我们对生成架构进行了大规模的实证评估，并对其进行微调以生成合成卫星图像。我们将核电站作为稀有对象类别的一个例子 - 由于全世界只有大约 400 个设施，这种限制对于许多其他场景来说是典型的，在这些场景中，训练和测试数据受到现实世界发生次数的限制。例子。我们通过调节两种模式（文本输入和从游戏引擎获得的图像输入）来生成合成图像，该游戏引擎允许详细说明建筑布局。生成的图像通过自动评估的常用指标进行评估，然后与我们进行的用户研究中的人类判断进行比较，以评估其可信度。我们的结果表明，即使对于稀有物体，生成带有文本或详细建筑布局的真实合成卫星图像也是可行的。根据之前的工作，我们发现自动化指标通常与人类的感知不一致——事实上，我们发现常用的图像质量指标和人类评分之间存在很强的负相关性。

数字领导力未来研究综述

分类： 人机交互

作者： Raluca A. Stana, Louise Harder Fischer, Hanne Westh Nicolajsen

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01056v1

摘要： 信息技术 (IT) 为企业如何组织自身以及如何在数字环境中开展工作带来了挑战和机遇。

Mindscape：基于脑电记录和虚拟现实头戴式模拟的高信息密度街道环境研究

分类： 人机交互, J.6

作者： Yijiang Liu, Xiangyu Guan, Hui Wang, Lun Liu

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01027v1

摘要： 本研究旨在通过神经科学方法，在步行街空间的分析和设计中，探讨特定建筑元素对行人空间认知和体验的影响。更准确地说，本文将描述东亚城市步行街店面标志的密度变化对路人脑电波的影响，为城市发展和更新提供策略和指南。首先，通过对研究问题和相关文献的回顾，总结了研究方法；其次，本文通过该路径建立实验，通过数据处理分析结果和指标；最后根据研究分析结果提出未来步行街设计的建议。

GCCRR：一种基于耳戴式IMU的短序列步态周期分割方法

分类： 计算机视觉和模式识别, 人机交互

作者： Zhenye Xu, Yao Guo

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.00983v1

摘要： 本文解决了使用耳戴式 IMU 的短序列进行步态周期分割的关键任务，这是一种实用且非侵入性的方法，用于运动功能受损患者的家庭监测和康复。虽然之前的研究主要集中在位于下肢的 IMU，但耳戴式 IMU 在以最小的干扰捕捉步态动态方面具有独特的优势。为了解决使用短序列进行步态周期分割的挑战，我们引入了步态特征曲线回归和恢复（GCCRR）方法，这是一种专为细粒度步态阶段分割而设计的新型两阶段方法。第一阶段将分割任务转化为步态特征曲线（GCC）上的回归任务，GCC是包含周期性信息的一维特征序列。第二阶段使用峰值检测技术恢复步态周期。我们的方法采用基于 Bi-LSTM 的深度学习算法进行回归，以确保短步态序列的可靠分割。对 HamlynGait 数据集的评估表明，GCCRR 的准确度超过 80%，时间戳误差低于一个采样间隔。尽管其结果很有希望，但其性能落后于使用更广泛的传感器系统的方法，这凸显了对更大、更多样化的数据集的需求。未来的工作将侧重于使用动作捕捉系统进行数据增强并提高算法的通用性。

虚拟现实头戴式显示器徒手多目标选择技术的实验分析

分类： 人机交互

作者： Rongkai Shi, Yushi Wei, Xuning Hu, Yu Liu, Yong Yue, Lingyun Yu, Hai-Ning Liang

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.00982v1

摘要： 对象选择对于虚拟现实 (VR) 头戴式显示器 (HMD) 至关重要。先前的工作主要集中在增强和评估在 VR 中选择单个对象的技术，在多对象选择技术（一种更复杂但常见的选择场景）方面留下了空白。为了实现多对象选择，除了用于获取单个目标的默认指向选择模式之外，交互技术还应该支持组选择。当使用徒手手势输入时，这种复合交互可能特别具有挑战性。在这项工作中，我们对六种徒手技术进行了实证比较，这些技术由三种模式切换手势（指段、多指和手腕方向）和两种组选择技术（锥体选择和交叉选择）组成来自之前的工作。我们的结果展示了每种技术的性能、用户体验和偏好。研究结果得出了三个设计含义，可以指导 VR HMD 中多对象选择的手绘技术的设计。

Mental-Gen：一种基于脑机接口的室内空间生成设计交互方法

分类： 人机交互, J.6

作者： Yijiang Liu, Hui Wang

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.00962v1

摘要： 室内空间设计极大地影响着居民的日常生活。然而，这个过程往往给用户带来很高的障碍和复杂的推理，导致在阐明综合需求并将其传达给设计师时出现语义损失。本研究提出了Mental-Gen设计方法，该方法侧重于在神经层面解释用户的空间设计意图，并通过生成式AI模型表达出来。我们采用无监督学习方法来检测用户脑电波对不同空间特征反应的相似性，评估 BCI 命令的可行性。我们为每个有价值的设计命令训练和完善生成人工智能模型。命令预测过程采用了 BCI 研究中的运动想象范式。我们训练支持向量机（SVM）模型来根据脑电图特征预测不同空间特征的设计命令。结果表明，Mental-Gen方法可以通过脑电波信号有效解读设计意图，帮助用户通过想象的命令实现满意的室内空间设计。

调查口语会话搜索中的偏差

分类： 人机交互, 信息检索

作者： Sachin Pathiyan Cherumanal, Falk Scholer, Johanne R. Trippas, Damiano Spina

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.00890v1

摘要： Amazon Alexa、Google Assistant 和 Apple Siri 等基于语音的系统，以及 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 的日益普及，为不同的人群提供服务，包括视障者和文化水平较低的社区。这反映出用户期望从传统搜索转向更具互动性的问答模式。然而，由于纯语音渠道的线性特性，在纯语音渠道中有效地呈现信息仍然具有挑战性。此限制可能会影响涉及具有多个视角的争议主题的复杂查询的呈现。未能呈现不同的观点可能会延续或引入偏见并影响用户的态度。平衡信息负载和解决偏见对于设计公平有效的基于语音的系统至关重要。为了解决这个问题，我们 (i) 回顾如何在基于屏幕的网络搜索中研究偏见和用户态度变化，(ii) 解决研究 SCS 等基于语音的设置中的这些变化的挑战，(iii) 概述研究问题，以及(iv) 提出一个包含变量、数据和工具的实验设置，以探索基于语音的环境（如口语对话搜索）中的偏差。

用户驱动的价值调整：了解用户的看法以及解决人工智能伴侣中的偏见和歧视性言论的策略

分类： 人机交互

作者： Xianzhe Fan, Qing Xiao, Xuhui Zhou, Jiaxin Pei, Maarten Sap, Zhicong Lu, Hong Shen

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00862v1

摘要： 基于大型语言模型的人工智能伴侣越来越多地被用户视为朋友或浪漫的伴侣，从而产生深厚的情感纽带。然而，它们可能会产生有偏见、歧视性和有害的产出。最近，用户正在主动解决这些危害并重新调整人工智能伴侣。我们引入了用户驱动的价值取向的概念，即用户主动识别、挑战并尝试纠正他们认为有害的人工智能输出，旨在引导人工智能更好地符合他们的价值观。我们分析了 77 个有关人工智能歧视性言论的社交媒体帖子，并对 20 名经验丰富的用户进行了半结构化访谈。我们的分析揭示了用户感知到的六种常见的歧视性言论类型、用户如何理解这些人工智能行为，以及七种用户驱动的一致性策略，例如温和说服和愤怒表达。我们讨论了在未来人工智能系统中支持用户驱动的价值调整的影响，其中用户及其社区拥有更大的代理权。

值得信赖的人机协作：利用人类反馈和物理知识进行强化学习，实现安全自动驾驶

分类： 机器人技术, 人工智能, 人机交互, 机器学习

作者： Zilin Huang, Zihao Sheng, Sikai Chen

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00858v2

摘要： 在自动驾驶领域，制定安全可信的自动驾驶政策仍然是一项重大挑战。最近，人类反馈强化学习（RLHF）由于其提高训练安全性和采样效率的潜力而引起了广泛关注。然而，现有的 RLHF 方法在面对不完美的人类演示时常常会出现问题，可能导致训练波动，甚至比基于规则的方法表现更差。受人类学习过程的启发，我们提出了带有人类反馈的物理增强强化学习（PE-RLHF）。这种新颖的框架将人类反馈（例如，人类干预和演示）和物理知识（例如，交通流模型）协同集成到强化学习的训练循环中。 PE-RLHF 的主要优势在于，即使人类反馈质量恶化，学习的策略也能至少与给定的基于物理的策略一样执行，从而确保值得信赖的安全改进。 PE-RLHF 引入了物理增强型人类人工智能 (PE-HAI) 协作范例，用于在人类和基于物理的动作之间进行动态动作选择，采用具有代理价值函数的无奖励方法来捕获人类偏好，并结合了最小的减少人类导师认知负担的干预机制。跨不同驾驶场景的大量实验表明，PE-RLHF 显着优于传统方法，即使在人类反馈质量不同的情况下，也能在安全性、效率和通用性方面实现最先进的 (SOTA) 性能。 PE-RLHF 背后的理念不仅可以推进自动驾驶技术，还可以为其他安全关键领域提供宝贵的见解。演示视频和代码可在：\https://zilin-huang.github.io/PE-RLHF-website/

SonoHaptics：用于 XR 中基于注视的对象选择的音频触觉光标

分类： 人机交互, H.5.1; H.5.2; H.5.5

作者： Hyunsung Cho, Naveen Sendhilnathan, Michael Nebeling, Tianyi Wang, Purnima Padmanabhan, Jonathan Browder, David Lindlbauer, Tanya R. Jonker, Kashyap Todi

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00784v1

摘要： 我们推出了 SonoHaptics，这是一种用于基于凝视的 3D 对象选择的音频触觉光标。 SonoHaptics 解决了在扩展现实 (XR) 中基于注视的选择过程中提供准确视觉反馈的挑战，例如无显示或有限显示智能眼镜中缺乏世界锁定显示以及视觉不一致。为了使用户能够在没有视觉反馈的情况下区分物体，SonoHaptics 采用人类感知中跨模式对应的概念，将物体的视觉特征（颜色、大小、位置、材料）映射到音频触觉属性（音调、幅度、方向、音色））。我们贡献数据驱动模型来确定视觉特征到音频和触觉特征的跨模式映射，并提供一种计算方法来自动为用户环境中的对象生成音频触觉反馈。 SonoHaptics 提供场景中每个对象独有的全局反馈，以及放大附近对象之间差异的局部反馈。我们的比较评估表明，SonoHaptics 能够在杂乱的场景中准确识别和选择对象，而无需视觉反馈。

设计和评估混合现实的可扩展隐私意识和控制用户界面

分类： 人机交互

作者： Marvin Strauss, Viktorija Paneva, Florian Alt, Stefan Schneegass

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00739v1

摘要： 随着混合现实 (MR) 设备在各行业中越来越受欢迎，由于它们能够收集有关用户及其环境的大量数据，因此引发了严重的隐私和道德问题。本文强调迫切需要具有隐私意识的用户界面，以教育和授权用户和旁观者，使他们能够理解、控制和管理数据收集和共享。关键研究问题包括提高用户对隐私影响的认识、开发可用的隐私控制以及评估这些措施在现实环境中的有效性。拟议的研究路线图旨在将隐私考虑因素纳入 MR 技术的设计和开发中，促进负责任的创新，保护用户隐私，同时保留这些新兴技术的功能和吸引力。

数据集体作为改善问责制、打击监视和减少不平等的手段

分类： 人机交互

作者： Jane Hsieh, Angie Zhang, Seyun Kim, Varun Nagaraj Rao, Samantha Dalal, Alexandra Mateescu, Rafael Do Nascimento Grohmann, Motahhare Eslami, Min Kyung Lee, Haiyi Zhu

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00737v1

摘要： 由于算法不透明、数据透明度不足、政策法规不明确，平台劳动者面临着前所未有的挑战和工作条件。 CSCW 和 HCI 社区越来越多地转向工人数据集体，将其作为推进相关政策和监管、让平台负责数据透明度和披露以及赋予集体工人声音的手段。然而，设计、管理和维护此类数据基础设施仍然存在基本问题。在本次研讨会中，我们利用数据女权主义等框架来设计可持续且具有权力意识的数据集体，以应对各种类型的在线劳动力平台（例如，拼车、自由职业、众包、护理）中存在的挑战。虽然数据集体旨在支持工人集体并补充相关政策举措，但本次研讨会的目标是鼓励其设计者考虑治理、隐私、信任和透明度等主题。在这个为期一天的会议中，我们召集研究和倡导社区成员来反思关键的平台工作问题（例如，工人监视、歧视、工资盗窃、平台问责制不足），并合作设计数据集体，以道德和公平的方式解决问题通过支持集体主义和为政策制定提供信息来解决这些问题。

聊天机器人会投票给谁？ ChatGPT 和 Gemini 在 2024 年欧盟选举中的政治偏好

分类： 计算机与社会, 人工智能, 计算和语言, 人机交互

作者： Michael Haman, Milan Školník

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00721v1

摘要： 本研究探讨了 2024 年欧洲议会选举背景下由大型语言模型（即 ChatGPT 和 Gemini）驱动的聊天机器人的政治偏见。该研究的重点是通过这些生成人工智能 (AI) 系统对 27 个欧盟成员国欧洲议会中代表的政党进行评估。该方法涉及通过两个平台上的标准化提示进行日常数据收集。结果形成鲜明对比：虽然 Gemini 大多拒绝回答政治问题，但 ChatGPT 却提供了一致的评分。分析显示，ChatGPT 明显偏向于左翼和中间派政党，其中绿党/欧洲自由联盟的支持率最高。相比之下，右翼政党，特别是身份与民主团体，获得了最低的支持率。该研究确定了影响评级的关键因素，包括对欧洲一体化的态度和对民主价值观的看法。研究结果强调，在政治背景下需要对生成式人工智能系统提供的信息采取批判性的方法，并呼吁在这一领域提高透明度和加强监管。

MetaDigiHuman：Metaverse 中数字人类的触觉界面

分类： 人机交互, 多媒体, 68U05, 68U10,, I.3.7; I.6.3; I.6.5; I.6.7

作者： Senthil Kumar Jagatheesaperumal, Praveen Sathikumar, Harikrishnan Rajan

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00615v1

摘要： 近年来，我们与数字空间和数字世界互动的方式发生了快速变化，这很大程度上归功于元宇宙的出现。随着技术不断进步，对与元宇宙交互的复杂且身临其境的界面的需求变得越来越重要。触觉界面的开发就是为了满足这一需求，并为用户提供触觉反馈和逼真的触感。这些界面在元宇宙中创造更真实、更身临其境的体验方面发挥着至关重要的作用。本文介绍了 MetaDigiHuman 的概念，这是一个结合了混合数字人类和触觉界面的突破性框架。通过利用尖端技术，MetaDigiHuman 可在 Metaverse 内实现无缝且身临其境的交互。通过这个框架，用户可以模拟触摸、感受和与数字生物互动的感觉，就好像他们实际存在于环境中一样，在元宇宙中提供更引人注目和身临其境的体验。