MiX Knowledge

记录第一人称体验，构建新型基础模型

分类： 人工智能, 人机交互, 机器学习

作者： Dionis Barcari, David Gamez, Aliya Grig

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.02680v1

摘要： 近年来，基础模型产生了巨大影响，在当前的人工智能热潮中，基础模型已投入数十亿美元。更流行的，例如 Chat-GPT，是根据大量互联网数据进行训练的。然而，越来越明显的是，这些数据可能很快就会耗尽，科技公司正在寻找新的数据源来训练下一代基础模型。强化学习、RAG、即时工程和认知建模通常用于微调和增强基础模型的行为。这些技术已被用来复制人，例如卡琳·马乔里 (Caryn Marjorie)。这些聊天机器人并不是基于人们对环境的实际情感和生理反应，因此它们充其量只是对所模仿角色的表面近似。为了解决这些问题，我们开发了一种记录装置，可以捕获佩戴者所看到和听到的内容以及他们的皮肤电导 (GSR)、面部表情和大脑状态（14 通道脑电图）。人工智能算法用于将这些数据处理成关于环境和主体内部状态的丰富图片。根据这些数据训练的基础模型可以比迄今为止开发的人格模型更准确地复制人类行为。这种类型的模型有很多潜在的应用，包括推荐、个人助理、GAN 系统、约会和招聘。本文介绍了这项工作的一些背景，并描述了记录装置及其功能的初步测试。然后，它提出了如何根据钻机捕获的数据创建新型基础模型，并概述了一些应用程序。数据收集和模型训练成本高昂，因此我们目前正在致力于成立一家初创公司，为该项目的下一阶段筹集资金。

多结果因果图可视化分析

分类： 机器学习, 图形, 人机交互, 方法

作者： Mengjie Fan, Jinlu Yu, Daniel Weiskopf, Nan Cao, Huai-Yu Wang, Liang Zhou

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.02679v1

摘要： 我们引入了一种针对具有不同结果变量的多个因果图的可视化分析方法，即多结果因果图。多结果因果图对于医疗保健中了解多发病和共病非常重要。为了支持视觉分析，我们与医学专家合作，在分析过程的不同阶段设计了两种比较可视化技术。首先，提出了一种渐进式可视化方法来比较多种最先进的因果发现算法。该方法可以处理包含连续变量和分类变量的混合类型数据集，并帮助创建单个结果的微调因果图。其次，设计了比较图布局技术和专门的视觉编码，用于快速比较多个因果图。在我们的可视化分析方法中，分析师首先为每个结果变量构建单独的因果图，然后使用我们的比较技术生成并可视化多结果因果图，以分析这些因果图的差异和共性。评估包括对基准数据集的定量测量、医学专家的案例研究以及针对真实世界健康研究数据的专家用户研究。

CREW：促进人类-人工智能团队研究

分类： 人机交互, 人工智能, 机器学习

作者： Lingyu Zhang, Zhengran Ji, Boyuan Chen

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.00170v1

摘要： 随着人工智能（AI）技术的不断部署，人类与人工智能代理合作的潜力正在飞速增长。人类-人工智能团队是研究人类和人工智能代理协同工作时各个方面的重要范例。人机-人工智能团队研究的独特之处在于需要共同研究人类和人工智能体，需要从机器学习到人机交互、机器人、认知科学、神经科学、心理学、社会科学和复杂系统的多学科研究工作。然而，现有的人类-人工智能团队研究平台有限，通常支持过于简单的场景和单一任务，或者专门关注人类团队研究或多智能体人工智能算法。我们推出了 CREW，这是一个促进人类与人工智能团队研究并参与多个科学学科合作的平台，特别强调人类的参与。它包括用于认知研究和人类人工智能团队的预构建任务，并且具有我们模块化设计的可扩展潜力。继传统的认知神经科学研究之后，CREW 还支持多模式人类生理信号记录以进行行为分析。此外，CREW 使用最先进的算法和精心调整的基线对实时人类引导的强化学习代理进行基准测试。借助 CREW，我们能够在一周内进行 50 项人体研究，以验证我们基准的有效性。

取得平衡：基于动态不确定性的用户交互进行长期视频对象分割

分类： 计算机视觉和模式识别, 人机交互, 机器学习

作者： Stéphane Vujasinović, Stefan Becker, Sebastian Bullinger, Norbert Scherer-Negenborn, Michael Arens

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.00169v1

摘要： 在本文中，我们介绍了视频对象分割（VOS）的一种变体，它桥接了交互式和半自动方法，称为惰性视频对象分割（ziVOS）。相比之下，对于以离线方式（即预先录制的序列）处理视频对象分割的这两个任务，我们建议通过 ziVOS 来定位在线录制的序列。在这里，我们通过在细分过程中即时征求用户反馈，努力在长期场景的性能和鲁棒性之间取得平衡。因此，我们的目标是最大化感兴趣对象的跟踪持续时间，同时需要最少的用户校正来维持长时间的跟踪。我们提出了一个有竞争力的基线，即 Lazy-XMem，作为 ziVOS 未来工作的参考。我们提出的方法使用跟踪状态的不确定性估计来确定是否需要用户交互来完善模型的预测。为了定量评估我们的方法的性能和用户的工作量，我们在该领域已经建立的指标之外引入了补充指标。我们使用最近引入的 LVOS 数据集评估我们的方法，该数据集提供了大量长期视频。我们的代码可在 https://github.com/Vujas-Eteph/LazyXMem 上公开获取。

超越当前航天体验概念的设计

分类： 人机交互

作者： James Cole, Kathryn Hays, Ruth West

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.00085v1

摘要： 未来太空飞行潜在的民主化揭示了对体验设计的需求，超越了我们当前的太空飞行概念。对职业宇航员的研究表明，尽管存在生理和心理压力，但在太空飞行期间还是会发生变革性的经历。这种现象使我们能够设想一个未来，不同的航天参与者都可以获得如此深刻的体验。在这篇立场文件中，我们主张承认商业航天起源时做出的设计决策可能会如何影响这个投机性未来的太空旅行者。在提出将致敬作为一个定向主题、一个潜在的设计框架以及作为航天参与者体验的衡量标准时，我们呼吁更广泛的体验设计社区采取行动，为航天参与者设计深刻的体验。

来自健康老龄化研究的经验证据是否预测了不同年龄组的可视化之间的实际差异？

分类： 图形, 人机交互

作者： S. Shao, Y. Li, A. I. Meso, N. Holliman

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21767v1

摘要： 当向决策者传达关键信息时，可视化的主要挑战之一是沟通是否受到不同感知或认知能力的影响，其中一个主要影响因素是年龄。我们回顾了可视化和心理物理学文献，以了解视觉感知年龄差异的定量证据。使用文献中的对比敏感度数据，我们展示了如何使用可见频率范围随年龄变化的新模型来预测不同年龄组可视化之间的差异。该模型假设在阈值下，老年人将看不到一些视觉数据（空间频率 > 2 且对比度 <=0.01）。我们将此结果应用到实际的可视化中，并展示了一个示例，即在较高的对比度水平下，所有 20 岁以上的观看者都应该可以感知到视觉信号。普遍可用的可视化应使用 0.02 或更高的对比度，并设计为避免更大的空间频率。每度超过八个周期，适合所有年龄段。将心理物理学结果转化为可视化制作者的实用定量指南还有很多研究要做。

用于分析医疗保健中纵向可穿戴传感器数据的计算模型的最新综述

分类： 人机交互, 机器学习

作者： Paula Lago

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21665v1

摘要： 可穿戴设备越来越多地用作生物医学研究的工具，因为它们收集的连续的行为和生理数据流可以提供有关我们日常健康状况的见解。以一年中几个月的时间尺度定义的长期跟踪可以提供对模式和变化的洞察，作为健康变化的指标。这些见解可以使医学和医疗保健更具预测性、预防性、个性化和参与性（4P）。然而，建模、理解和处理纵向数据方面的挑战是其在研究和临床环境中采用的重大障碍。在本文中，我们回顾并讨论了用于理解纵向数据的三种模型：例程、节奏和稳定性指标。我们提出了与纵向可穿戴传感器数据的处理和分析相关的挑战，特别关注如何处理不同粒度的不同时间动态。然后我们讨论当前的局限性并确定未来工作的方向。这项审查对于普及医疗保健的计算建模和纵向传感器数据分析的进步至关重要。

在人工智能和我之间：分析听众对人工智能和人类创作的前卫金属音乐的看法

分类： 声音, 人工智能, 人机交互, 音频和语音处理

作者： Pedro Sarmento, Jackson Loth, Mathieu Barthet

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21615v1

摘要： 生成式人工智能模型最近蓬勃发展，极大地影响了艺术和音乐传统。因此，研究人类如何与这些模型互动以及如何看待这些模型至关重要。通过聆听和反思研究，我们以摇滚音乐作为对照组，以象征性的形式探讨了参与者对人工智能与人类生成的前卫金属的看法。 AI 生成的示例由基于 Transformer 的模型 ProgGP 生成。我们提出了一种混合方法来评估生成类型（人类与人工智能）、流派（前卫金属与摇滚）和策展过程（随机与精选）的影响。这结合了对流派一致性、偏好、创造力、一致性、可玩性、人性和可重复性的定量反馈和定性反馈，以提供对听众体验的洞察。共有 32 名前卫金属迷完成了这项研究。我们的研究结果验证了使用微调来实现人工智能音乐生成中特定流派的专业化，因为听众可以区分人工智能生成的摇滚和前卫金属。尽管一些人工智能生成的摘录获得了与人类音乐相似的评级，但听众表现出对人类作品的偏好。主题分析确定了流派以及人工智能与人类区别的关键特征。最后，我们通过关注尚未充分探索的流派来考虑我们在 MIR 研究中促进音乐数据多样性的工作的伦理影响。

LLM-for-X：与应用程序无关的大型语言模型集成，支持个人写作工作流程

分类： 人机交互

作者： Lukas Teufelberger, Xintong Liu, Zhipeng Li, Max Moebus, Christian Holz

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21593v1

摘要： 为了提高生产力和简化工作流程，将大型语言模型 (LLM) 功能嵌入到应用程序中的趋势日益明显，从基于浏览器的 Web 应用程序到在个人计算机上运行的本机应用程序。在这里，我们介绍 LLM-for-X，这是一个系统范围的快捷方式层，可通过轻量级弹出对话框无缝地使用 LLM 服务增强任何应用程序。我们的本机层将前端应用程序无缝连接到流行的 LLM 后端，例如 ChatGPT 和 Gemini，使用其统一的聊天前端作为编程接口或自定义 API 调用。我们在各种应用程序中展示了 LLM-for-X 的优势，包括 Microsoft Office、VSCode 和 Adobe Acrobat 以及 Overleaf 等流行的 Web 应用程序。在我们的评估中，我们在一系列任务中将LLM-for-X与ChatGPT的Web界面进行了比较，表明我们的方法可以为用户提供快速、高效且易于使用的LLM帮助，而无需上下文切换来支持写入和阅读任务这与具体应用程序无关。

警告的来源重要吗？检查警告标签的准确性在警告者中的有效性

分类： 计算机与社会, 人机交互, 社交和信息网络

作者： Benjamin D. Horne

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21592v1

摘要： 在这项研究中，我们进行了一项在线受试者间实验（N = 2,049），以更好地了解警告标签来源对信息信任和共享意图的影响。在四个警告者（社交媒体平台、其他社交媒体用户、人工智能（AI）和事实核查者）中，我们发现相对于控制，所有警告者对虚假信息的信任度都显着降低，但来自人工智能的警告稍微更有效。除其他社交媒体用户的警告外，所有警告者都显着减少了虚假信息的分享意图。人工智能再次成为最有效的。这些结果受到先前对媒体和信息本身的信任的影响。最值得注意的是，我们发现，对于报告对新闻机构信任度较低的参与者来说，人工智能的警告标签比所有其他警告标签更有效，而对于报告信任度较高的参与者来说，人工智能的警告标签并不比任何其他警告标签更有效。在新闻机构中。

AI 头像外观和信息披露对用户动机的影响

分类： 人机交互, 人工智能, 计算机与社会

作者： Boele Visser, Peter van der Putten, Amirhossein Zohrehvand

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21521v1

摘要： 本研究探讨了感知的人工智能特征对虚拟交互中用户动机的影响。被披露为人工智能或体现特定性别的人工智能化身可以用于用户与人工智能的交互。利用人工智能和头像研究的见解，我们探索人工智能披露和性别如何影响用户动机。我们进行了一项基于游戏的实验，涉及超过 72,500 名参与者，他们单独或与人工智能同伴一起解决搜索问题。不同群体经历了不同的人工智能外观和披露。我们测量了游戏强度。结果显示，与单人游戏相比，另一个化身的存在导致游戏的强度降低。与未公开的人工智能同伴相比，公开化身作为人工智能提高了努力强度。此外，男性化的人工智能外观降低了工作强度。

设计橄榄树收获工具：在设计过程的早期阶段探索和融入植物视角的方法学思考

分类： 人机交互

作者： Berre Su Yanlıç, Aykut Coşkun

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21481v1

摘要： 随着超人类设计（MTHD）的出现，以可持续发展为重点的设计研究正在见证方法的变化，它通过将非人类视角纳入设计过程来挑战以人为本的思维。然而，实施 MTHD 给设计研究人员和实践者带来了挑战，例如理解非语言物种。尽管开发了促进这种理解的技术（例如接触区），但越来越多的关于 MTHD 的文献缺乏反映如何在设计过程中利用这些技术的研究。在本文中，我们提出了一个从 MTH 角度设计橄榄收获工具的案例研究，其中设计师使用接触区、植物访谈、植物角色和体验图来探索橄榄树的视角，并将其融入与农民合作的想法中和农业工程师。结果表明，从技术之间纠缠的角度重新考虑 MTHD 中的去中心化，并结合各种知识类型来管理因观点转变而产生的紧张局势具有重要意义。

探索社会支持在将生成式人工智能集成到小型企业工作流程中时的作用

分类： 人机交互, H.5.3

作者： Quentin Romero Lauro, Jeffrey P. Bigham, Yasmine Kotturi

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21404v1

摘要： 由于资源有限，小企业主有望从生成式人工智能技术中受益，但他们必须应对日益增加的法律和道德风险。在本文中，我们采访了 11 位企业家和支持人员，以调查企业家如何将生成式人工智能技术集成到其业务工作流程中的现有实践。具体来说，我们以人机交互学术为基础，强调小型离线网络在支持企业家技术维护方面的作用。我们详细介绍了企业家如何巧妙地利用他们的本地网络来发现生成式人工智能的新用例（例如，通过共享帐户），缓解高度的技术焦虑（例如，通过招募值得信赖的知己），克服持续使用的障碍（例如，通过接收包装） -围绕支持），并建立使用边界。此外，我们建议如何重新设计生成式人工智能平台，以更好地支持企业家，例如考虑到在社会环境中使用的好处和紧张。

我应该信任谁？比较净负荷预测模型的可视化分析方法

分类： 人机交互, 人工智能, 机器学习, 系统与控制, 信号处理, 系统与控制

作者： Kaustav Bhattacharjee, Soumya Kundu, Indrasis Chakraborty, Aritra Dasgupta

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21299v1

摘要： 净负荷预测对于能源规划和促进有关贸易和负荷分配的明智决策至关重要。然而，根据基准模型评估预测模型的性能仍然具有挑战性，从而阻碍了专家对模型性能的信任。在这种背景下，需要技术干预，使科学家能够比较不同时间范围和太阳渗透水平的模型。本文介绍了一种基于可视化分析的应用程序，旨在将基于深度学习的净负荷预测模型与其他概率净负荷预测模型的性能进行比较。该应用程序采用精心选择的视觉分析干预措施，使用户能够辨别不同太阳穿透水平、数据集分辨率和多个月内一天中时间的模型性能差异。我们还通过案例研究展示了使用我们的应用程序进行的观察，展示了可视化在帮助科学家做出明智决策和增强对净负荷预测模型的信任方面的有效性。

将 Linters 与 GUI 混合：调色板设计探索

分类： 人机交互

作者： Andrew McNutt, Maureen C. Stone, Jeffrey Heer

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21285v1

摘要： 可视化检查器是面向最终用户的评估器，可以自动识别潜在的图表问题。这些类似拼写检查器的系统提供了可解释性和定制性的结合，这是其他形式的自动帮助中所没有的。然而，现有的 linter 不会对上下文进行建模，并且主要针对不需要帮助的用户，从而导致明显的（甚至令人讨厌的）建议。我们在调色板设计领域研究这些问题，这是可视化设计问题的缩影。我们提供基于 GUI 的调色板 linter 作为设计探针，涵盖感知、可访问性、上下文和其他设计标准，并使用它来探索视觉解释、集成修复和用户定义的 linting 规则。通过形成性访谈研究和理论驱动的分析，我们发现 linter 可以有意义地集成到图形上下文中，从而解决许多核心问题。我们讨论了将 linter 集成到可视化工具中、开发改进的断言语言以及支持最终用户可调建议的影响——所有这些都为在任何上下文中更有效的可视化 linter 奠定了基础。

FedBChain：基于区块链的联邦学习框架，用于通过比较策略见解改进 DeepConvLSTM

分类： 机器学习, 人机交互

作者： Gaoxuan Li, Chern Hong Lim, Qiyao Ma, Xinyu Tang, Hwa Hui Tew

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21282v1

摘要： 人类活动识别领域的最新研究表明，可以通过减少 LSTM 层数来提高预测性能。然而，这种增强仅在单片架构上才有意义，而当它运行在大规模分布式训练上时，数据安全和隐私问题将被重新考虑，其预测性能未知。在本文中，我们介绍了一种新颖的框架：FedBChain，它将基于改进的 DeepConvLSTM 架构的联邦学习范式与单个 LSTM 层集成在一起。该框架分别基于三种不同的隐藏层单元（128、256和512）结合五种不同的联邦学习策略，在三个不同的现实数据集上进行预测性能的比较测试。结果表明，与所有策略的所有隐藏层单元的所有数据集上的集中训练方法相比，我们的架构在精度、召回率和 F1 分数方面都有显着改进：FedAvg 策略平均提高了 4.54%，FedProx 平均提高了 4.57% %，FedTrimmedAvg 平均提高 4.35%，Krum 平均提高 4.18%，FedAvgM 平均提高 4.46%。从我们的结果可以看出，FedBChain在训练过程中相比集中式训练方法不仅在性能上有所提升，而且保证了用户数据的安全性和隐私性。我们实验的代码是公开的（https://github.com/Glen909/FedBChain）。

算法辅助决策和住房方面的种族差异：阿勒格尼住房评估工具的研究

分类： 人机交互, 普通经济学, 经济学

作者： Lingwei Cheng, Cameron Drayton, Alexandra Chouldechova, Rhema Vaithianathan

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.21209v1

摘要： 美国各地对住房援助的需求远远超过供应，这使得住房提供者面临着优先考虑客户以获得这一有限资源的任务。为了获得联邦资助的资格，当地无家可归系统需要实施评估工具作为其优先级流程的一部分。漏洞索引服务优先级决策辅助工具（VI-SPDAT）是全国最常用的评估工具。最近的研究批评 VI-SPDAT 表现出种族偏见，这可能导致住房供应方面出现不必要的种族差异。此类批评促使某些司法管辖区开发替代工具。我们使用来自一种此类优先级工具（称为阿勒格尼住房评估 (AHA)）的数据，通过描述性和定量分析来评估用 AHA 取代 VI-SPDAT 是否会影响住房分配中的种族差异。我们发现，VI-SPDAT 倾向于为白人客户分配较高的风险分数，为黑人客户分配较低的风险分数，并且在 AHA 部署之前为白人客户提供更高的服务率。虽然部署后的服务决策与 AHA 分数更加一致，并且 AHA 分数在不同种族群体中的分布相似，但我们没有发现服务率差异相应减少的证据。我们将持续存在的差异归因于 Alt-AHA（一种基于调查的工具，用于数据质量低下的情况）的使用，以及资格相关因素（例如长期无家可归和退伍军人身份）的群体差异。我们讨论了对寻求减少服务提供方面的种族差异的住房服务系统的影响。

气候科学探索性时空可视分析方法调查

分类： 人机交互

作者： Abdullah-Al-Raihan Nayeem, Dongyun Han, Huikyo Lee, Donghoon Kim, Daniel Feldman, William J. Tolone, Daniel Crichton, Isaac Cho

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.21199v1

摘要： 气候科学通过观测和数值模型产生了大量复杂、高维、多元的数据。这些数据对于了解气候变化及其社会经济影响至关重要。气候科学家不断根据观测结果评估数值模型的输出。该模型评估过程为改进数值模型和随后的气候预测提供了有用的指导。探索性视觉分析系统有可能显着减轻科学家进行传统时空分析的负担。此外，技术和基础设施的进步进一步促进了气候数据的更广泛获取。如今，气候科学家可以在分布式分析环境中访问气候数据，并为分析提供探索性可视化。人们正在努力优化时空分析的计算效率，以实现海量数据的高效探索。这些进步为可视化社区提供了进一步的机会，可以针对科学家提出的挑战和要求进行全面创新。在本报告中，我们全面回顾了气候数据探索性时空可视分析解决方案的挑战、要求和当前方法。我们根据任务要求、数据源、统计技术、交互方法、可视化技术、性能评估方法和应用领域对相关文献中提出的视觉分析技术、系统和工具进行分类。此外，我们的分析回顾还确定了视觉分析中的趋势、局限性和主要挑战。该报告将推动未来气候可视化的研究活动，并使气候数据的最终用户能够确定有效的气候变化缓解策略。

分解提示回答课程讨论板上的问题

分类： 计算和语言, 人机交互

作者： Brandon Jaipersaud, Paul Zhang, Jimmy Ba, Andrew Petersen, Lisa Zhang, Michael R. Zhang

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.21170v1

摘要： 我们提出并评估了一个问答系统，该系统使用分解的提示来分类和回答课程讨论板上的学生问题。我们的系统使用大型语言模型 (LLM) 将问题分为四种类型之一：概念性问题、家庭作业问题、逻辑问题和不可回答问题。这使我们能够采用不同的策略来回答不同类型的问题。使用 GPT-3 的变体，我们实现了 $81%$ 分类精度。我们讨论了我们的系统在回答机器学习课程中的概念性问题和各种故障模式方面的性能。

通过被动传感进行多强度连续人类活动识别的数据集

分类： 人机交互

作者： Argha Sen, Anirban Das, Swadhin Pradhan, Sandip Chakraborty

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.21125v1

摘要： 人类活动识别 (HAR) 在医疗保健、老年护理、安全和人机交互中至关重要。使用精确的传感器数据来被动、持续地识别活动，使 HAR 变得易于访问且无处不在。具体来说，毫米波 (mmWave) 雷达由于能够穿透非金属材料并提供高分辨率无线传感，因此在无源和连续 HAR 方面很有前景。尽管毫米波传感器可以有效捕获宏观活动（例如锻炼），但它们无法捕获微观活动（例如打字）。在本文中，我们介绍了 mmDoppler，这是一个新颖的数据集，它利用现成的 (COTS) 毫米波雷达，以便使用机器学习驱动的信号处理管道捕获宏观和微观尺度的人体运动。该数据集包括执行 19 种不同活动的 7 名受试者，并采用自适应多普勒分辨率来增强活动识别。通过根据活动类型调整雷达的多普勒分辨率，我们的系统可以更精确地捕捉细微的运动。 mmDoppler 包括距离多普勒热图，提供详细的运动动力学，并在受控环境中收集单个或多个对象同时执行活动的数据。该数据集旨在通过提供更全面、更详细的资源来缩小 HAR 系统的差距，以提高毫米波雷达活动识别的鲁棒性和准确性。

人与数据交互框架：数据和人类驱动的未来的综合模型

分类： 计算机与社会, 人机交互

作者： Ivan Durango, Jose A. Gallud, Victor M. R. Penichet

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.21010v1

摘要： 在数据快速膨胀的时代，个人及其数字足迹之间的联系变得更加复杂。人机交互（HDI）框架已成为解决现代数字世界中与数据治理和利用相关的挑战和道德问题的重要方法。本文概述了组织无缝集成 HDI 原则所需的基本步骤，强调审核、调整、制定注意事项以及持续监控和适应的需要。通过彻底的审计，组织可以批判性地评估其当前的数据管理实践，跟踪从收集到处置的数据生命周期，并评估现有策略、安全协议和用户界面的有效性。下一步涉及使这些实践与 HDI 主要原则（例如知情同意、数据透明度、用户控制、算法透明度和道德数据使用）保持一致，以确定需要采取战略行动的差距。制定初步考虑因素包括制定政策和技术解决方案来缩小已发现的差距，确保这些做法不仅符合法律标准，而且还能促进数据交互的公平性和问责制。最后一步，即监测和适应，强调需要建立持续评估机制并响应技术、监管和社会发展，确保人类发展倡议实践保持最新和有效。 HDI 框架的成功实施需要多学科协作，融合技术、法律、道德和用户体验设计的见解。该论文认为，这种综合方法对于在数字环境中建立信任和合法性至关重要，最终导致更加道德、透明和以用户为中心的数据交互。

使用 LLM 和 RAG 从特征重要性到自然语言解释

分类： 人工智能, 计算和语言, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Sule Tekkesinoglu, Lars Kunze

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20990v1

摘要： 随着机器学习越来越成为涉及人类交互的自主决策过程不可或缺的一部分，通过对话方式理解模型输出的必要性也随之增加。最近，人们正在探索基础模型作为事后解释器的潜力，为阐明预测模型的决策机制提供了一条途径。在这项工作中，我们引入了可追踪的问答，利用外部知识库来通知大型语言模型（LLM）对场景理解任务中的用户查询的响应。该知识库包含有关模型输出的上下文详细信息，其中包含高级特征、特征重要性和替代概率。我们采用减法反事实推理来计算特征重要性，这种方法需要分析分解语义特征所产生的输出变化。此外，为了保持无缝的对话流程，我们将从人类解释的社会科学研究中提取的四个关键特征——社会性、因果性、选择性和对比性——整合到单次提示中，指导响应生成过程。我们的评估表明，大语言模型生成的解释包含了这些要素，表明其有可能弥合复杂模型输出和自然语言表达之间的差距。

对 GitHub 问题进行可视化分析以获得见解

分类： 软件工程, 人机交互

作者： Rifat Ara Proma, Paul Rosen

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20900v1

摘要： 版本控制系统是软件开发不可或缺的一部分，GitHub 因其全面的项目管理工具（包括问题跟踪和拉取请求）而成为流行的在线平台。然而，GitHub 缺乏问题和提交之间的直接链接，这使得开发人员很难了解具体问题是如何解决的。尽管 GitHub 的 Insights 页面为存储库数据提供了一些可视化，但以文本格式表示问题和提交相关数据阻碍了问题管理的快速评估。本文提出了一个原型 Web 应用程序，该应用程序可生成可视化效果，以提供对问题时间表的见解并揭示与问题相关的不同因素。它关注问题的生命周期并描述重要信息，以增强用户对其项目中的开发模式的理解。我们通过涉及三个开源 GitHub 存储库的案例研究证明了我们方法的有效性。此外，我们还进行了用户评估，以验证我们的原型在更有效、更快速地传达关键存储库信息方面的功效。

使用通道有效性评估图像嵌入模型的图形感知

分类： 计算机视觉和模式识别, 人机交互, 机器学习

作者： Soohyun Lee, Minsuk Chang, Seokhyeon Park, Jinwook Seo

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20845v1

摘要： 视觉模型的最新进展极大地提高了它们处理复杂图表理解任务的能力，例如图表标题和问题回答。然而，评估这些模型如何处理图表仍然具有挑战性。现有的基准仅粗略地评估模型性能，而没有评估底层机制，例如模型如何提取图像嵌入。这限制了我们对模型感知基本图形组件的能力的理解。为了解决这个问题，我们引入了一种新颖的评估框架来评估图像嵌入模型的图形感知。对于图表理解，我们检查了通道有效性的两个主要方面：各种视觉通道的准确性和可辨别性。通道精度是通过嵌入的线性度来评估的，测量感知的幅度与刺激大小的匹配程度。可区分性是根据嵌入之间的距离来评估的，表明它们的独特性。我们对 CLIP 模型的实验表明，它对通道精度的感知与人类不同，并且在长度、倾斜和曲率等通道方面表现出独特的辨别能力。我们的目标是将这项工作发展成为可靠视觉编码器的更广泛基准，增强未来应用中精确图表理解和类人感知的模型。

响应式专题地图设计实践与策略：专家设计研讨会报告

分类： 人机交互

作者： Sarah Schöttler, Uta Hinrichs, Benjamin Bach

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20735v1

摘要： 本文讨论了信息可视化中专题地图响应式设计的挑战和设计策略。专题地图对响应能力提出了许多独特的挑战，例如不灵活的纵横比难以适应不同的屏幕尺寸，或者城市地区密集的视觉元素在较小的比例下变得难以辨认。然而，目前缺乏如何最好地解决这些问题的设计指南。我们与八位专业设计人员和开发人员一起举办了基于网络的信息可视化专题地图的设计会议。参与者被要求针对各种屏幕尺寸和纵横比重新设计给定的地图，并描述他们何时以及如何调整设计的理由。我们报告对从业者动机、决策过程和个人设计框架的一般观察。然后，我们得出了响应式地图中常见的 7 个挑战，以及解决这些问题的 17 种策略，例如重新定位元素、分割地图或使用替代可视化。我们将这些挑战和策略整理成一份插图备忘单，供设计或学习设计响应式地图的任何人使用。备忘单可在线获取：https://responsive-vis.github.io/map-cheat-sheet

Cocobo：探索大型语言模型作为最终用户机器人编程的引擎

分类： 人机交互, 人工智能

作者： Yate Ge, Yi Dai, Run Shan, Kechun Li, Yuanda Hu, Xiaohua Sun

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20712v1

摘要： 最终用户开发允许日常用户根据自己的需求定制服务机器人或应用程序。一种用户友好的方法是自然语言编程。然而，它遇到了用户表达空间广阔、调试和编辑支持有限等挑战，限制了其在最终用户编程中的应用。大语言模型（LLM）的出现为人类语言指令与机器人执行的代码之间的翻译和解释提供了有希望的途径，但它们在最终用户编程系统中的应用需要进一步研究。我们介绍 Cocobo，一种由大语言模型提供支持的带有交互式图表的自然语言编程系统。 Cocobo 利用大语言模型来理解用户的创作意图，生成和解释机器人程序，并促进可执行代码和流程图表示之间的转换。我们的用户研究表明，Cocobo 的学习曲线较低，即使是零编码经验的用户也能成功定制机器人程序。

TactIcons：为盲人或弱视人士设计 3D 打印地图图标

分类： 人机交互

作者： Leona Holloway, Matthew Butler, Kim Marriott

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20674v1

摘要： 视觉图标可以立即识别印刷地图上的特征，但由于触觉感知的保真度较低，对于盲人或视力不佳的人来说，不能很好地进行触摸阅读。我们探索了 3D 打印图标作为触觉地图视觉图标的等效物来解决这些问题。我们为街道和公园地图设计了 200 多个触觉图标 (TactIcons)。这些图标由盲人和视力正常的人进行了触摸测试，最终形成了包含 33 个可以立即识别的图标的语料库，以及另外 34 个易于学习的图标。重要的是，这项工作为 TactIcons 设计的详细指南和新 TactIcons 触摸测试的实用方法的创建提供了信息。希望这项工作能够有助于为盲人或弱视人士创建更具包容性、用户友好的触觉地图。

迈向学术综合基础设施的步骤

分类： 人机交互

作者： Joel Chan, Matthew Akamatsu, David Vargas, Lukas Kawerau, Michael Gartner

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20666v1

摘要： 无论是个人还是与他人共享、重用和综合知识都是研究过程的核心。这些核心功能并没有得到我们正式的学术出版基础设施的支持：研究人员并没有实现功能基础设施的平稳运行，而是依靠费力的“黑客”和变通方法来“挖掘”出版物以获取他们需要的内容，并努力与其他人有效地共享结果信息其他的。信息科学家提出了一种替代基础设施，该基础设施基于更合适的主张和证据话语图的粒度模型，以及它们之间的关键修辞关系。然而，尽管标准和平台方面取得了显着的技术进步，但主要的基础设施仍然坚定地基于文档。根据基础设施研究，我们发现当前的基础设施瓶颈在于缺乏集成以话语为中心的模型来增强综合工作的本地系统，从而可以发展综合基础设施。经过三年的研究，通过在超文本笔记本用户的分布式社区中进行设计和现场部署，我们详细阐述了可以和应该构建什么的设计愿景，以发展以话语为中心的综合基础设施：蓬勃发展的研究人员“安装基础”创作本地、可共享的话语图，以改进综合工作、加强初级研究和研究培训，并增强协作研究。我们讨论了这一设计愿景以及我们的实证工作如何为构建新的综合基础设施做出贡献，并提高人机交互推进集体智慧和解决基础设施层面问题的能力。

设计具有同理心的代理作为自闭症谱系障碍患者的对话伙伴的定性调查

分类： 人机交互

作者： Christian Poglitsch, Johanna Pirker

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20637v1

摘要： 自闭症谱系障碍 (ASD) 会深刻影响相互的社交沟通，导致严重且具有挑战性的障碍。一方面，对于患有自闭症谱系障碍的人来说，由于理解社交线索、解释情绪和维持社交言语交流存在困难，日常生活中的对话具有挑战性。为了应对这些挑战并提高社交技能，我们建议开发一款以社交互动和对话为中心、以人工智能代理为特色的学习游戏。我们的第一步涉及七位专家访谈，以深入了解在游戏化环境中提高自闭症谱系障碍者社交技能领域对同理心和对话代理人的要求。我们确定了两个不同的用例：(1) 对话伙伴讨论现实生活中的问题；(2) 培训伙伴体验各种场景以提高社交技能。在后一种情况下，用户将收到与代理交互的任务。此外，代理可以向用户分配任务，提示现实生活中的特定对话，并为成功完成任务提供奖励。

适合所有人的问卷：通过基于 GPT 的翻译质量评估简化跨文化问卷适应性

分类： 人机交互, 计算和语言

作者： Otso Haavisto, Robin Welsch

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20608v1

摘要： 将问卷调整为新语言是一个资源密集型过程，通常需要雇用多名独立翻译人员，这限制了研究人员进行跨文化研究的能力，并有效地造成了研究和社会的不平等。这项工作提出了一个可以加快问卷翻译过程的原型工具。该工具结合了使用 DeepL 的前向-后向翻译以及 GPT-4 生成的翻译质量评估和改进建议。我们进行了两项在线研究，参与者使用我们的原型将英语问卷翻译成德语（研究 1；n=10）或葡萄牙语（研究 2；n=20）。为了评估使用该工具创建的翻译的质量，比较了传统翻译版本和工具支持版本之间的评估分数。我们的结果表明，整合大语言模型生成的翻译质量评估和改进建议可以帮助用户独立获得与传统的、非 NLP 支持的翻译方法相似的结果。这是在人工智能的支持下迈向更公平的基于问卷调查的研究的第一步。

考虑可视化示例库

分类： 人机交互, 软件工程

作者： Junran Yang, Andrew McNutt, Leilani Battle

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20571v1

摘要： 示例库通常用于教授、记录和宣传以视觉为中心的特定领域语言和库，例如那些生成可视化、图表或网页的语言和库。尽管它们无处不在，但对于“范例画廊”的作用还没有达成共识，更不用说它们的创作或策展的最佳实践是什么了。为了了解图库的含义和用法，我们采访了著名可视化相邻工具的创建者 (N=11) 和用户 (N=9)。从这些采访中，我们综合了画廊策展和管理的策略和挑战（例如，权衡添加新示例的成本/收益以及丰富性与易用性的权衡），强调了计划和实际画廊使用之间的差异（例如，机会性重用与搜索引擎优化），并反映了画廊设计空间中未探索的部分（例如，强调工具辅助的潜力）。我们发现画廊是多方面的结构，其形式和内容旨在适应不同的用途——从营销材料到测试套件再到扩展文档。这项工作通过描述画廊设计和管理的特征，以及强调空间中的挑战和机遇（例如更加多样化的画廊如何使重用任务变得更简单，但使维护变得复杂），为未来的支持工具奠定了基础。

可视化系统微调大语言模型：教育中自我调节学习的研究

分类： 人机交互

作者： Lin Gao, Jing Lu, Zekai Shao, Ziyue Lin, Shengbin Yue, Chiokit Ieong, Yi Sun, Rory James Zauner, Zhongyu Wei, Siming Chen

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20570v1

摘要： 大型语言模型（LLM）在智能可视化系统中显示出巨大的潜力，特别是对于特定领域的应用程序。将大语言模型集成到可视化系统中提出了挑战，我们将这些挑战分为三个方面：大语言模型的领域问题、大语言模型的可视化以及与大语言模型的交互。为了实现这些一致性，我们提出了一个框架并概述了一个工作流程来指导微调的大语言模型的应用，以增强特定领域任务的视觉交互。这些对齐挑战在教育中至关重要，因为需要智能可视化系统来支持初学者的自我调节学习。因此，我们将该框架应用到教育中，并推出了Tailor-Mind，这是一个交互式可视化系统，旨在促进人工智能初学者的自我调节学习。根据初步研究的见解，我们确定了自我调节的学习任务和微调目标，以指导可视化设计和调整数据构建。我们专注于将可视化与微调的大语言模型结合起来，使 Tailor-Mind 更像是一位个性化导师。 Tailor-Mind还支持交互式推荐，帮助初学者更好地实现学习目标。模型性能评估和用户研究证实 Tailor-Mind 改善了自我调节的学习体验，有效验证了所提出的框架。

HandDAGT：用于 3D 手势估计的去噪自适应图形转换器

分类： 计算机视觉和模式识别, 人机交互

作者： Wencan Cheng, Eunji Kim, Jong Hwan Ko

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20542v1

摘要： 从输入手部帧中提取关键点位置（称为 3D 手部姿势估计）对于各种人机交互应用至关重要。然而，当前的方法经常与手的自遮挡和与交互对象的内部遮挡的动态性质作斗争。为了应对这一挑战，本文提出了用于手部姿势估计的去噪自适应图变换器 HandDAGT。所提出的 HandDAGT 利用变压器结构来彻底探索输入补丁中的有效几何特征。此外，它还采用了一种新颖的注意力机制，可以自适应地权衡运动学对应和局部几何特征的贡献，以估计特定关键点。该属性使模型能够根据遮挡情况自适应地采用运动学和局部信息，从而增强其鲁棒性和准确性。此外，我们引入了一种新颖的去噪训练策略，旨在提高模型在面对遮挡挑战时的鲁棒性能。实验结果表明，所提出的模型在四个具有挑战性的手部姿势基准数据集上显着优于现有方法。代码和预训练模型可在 https://github.com/cwc1260/HandDAGT 上公开获取。

评估黑盒算法市场的公平性：芝加哥乘车共享案例研究

分类： 人机交互

作者： Yuhan Liu, Yuhan Zheng, Siyuan Zhang, Lydia T. Liu

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20522v1

摘要： 这项研究探讨了拼车行业内的公平性，重点关注司机的工资和乘客的出行费用。通过定量分析，我们发现司机的时薪受种族/民族、健康保险状况、平台任期和工作时间等因素的显着影响。尽管平台的政策并未有意嵌入偏见，但基于这些特征的差异仍然存在。对于乘车费用，我们提出了一种通过复制专有算法来审核其定价政策的方法；我们进行假设检验，以确定预测的拼车费用是否大于出租车费用，同时考虑复制模型中的近似误差。获取数据和透明度方面的挑战阻碍了我们将歧视与其他因素隔离开来的能力，这凸显了与拼车平台和司机合作的必要性，以增强算法工资确定和定价的公平性。

DuA：长期连续脑电图情绪分析中的双注意力变压器

分类： 人机交互, 人工智能

作者： Yue Pan, Qile Liu, Qing Liu, Li Zhang, Gan Huang, Xin Chen, Fali Li, Peng Xu, Zhen Liang

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20519v1

摘要： 情感脑机接口（aBCI）因其通过脑电图（EEG）信号监测和解释情绪状态的潜力而日益得到认可。目前基于脑电图的情绪识别方法对于短片段的脑电图数据表现良好。然而，这些方法在情绪状态长期变化的现实场景中遇到了重大挑战。为了解决这个问题，我们提出了一种用于长期连续脑电图情绪分析的双重注意力（DuA）变压器框架。与基于分段的方法不同，DuA Transformer 将整个 EEG 试验作为一个整体进行处理，识别试验级别的情绪，称为基于试验的情绪分析。该框架旨在适应不同的信号长度，与传统方法相比具有显着优势。 DuA Transformer 包含三个关键模块：空间频谱网络模块、时间网络模块和迁移学习模块。空间频谱网络模块同时捕获脑电图信号中的空间和频谱信息，而时间网络模块则检测长期脑电图数据中的时间依赖性。迁移学习模块增强了模型在不同主题和条件下的适应性。我们使用自行构建的长期脑电图情感数据库以及两个基准脑电图情感数据库对 DuA Transformer 进行了广泛的评估。在基于试验的留一受试者跨受试者交叉验证协议的基础上，我们的实验结果表明，所提出的 DuA 转换器在长期连续脑电图情绪分析中显着优于现有方法，平均增强了5.28%。

Prompt2DeModel：使用自然语言进行声明性神经符号建模

分类： 计算和语言, 人工智能, 人机交互

作者： Hossein Rajaby Faghihi, Aliakbar Nafar, Andrzej Uszok, Hamid Karimian, Parisa Kordjamshidi

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20513v1

摘要： 本文提出了一个对话管道，用于通过自然语言提示为复杂的神经符号模型构建领域知识。它利用大型语言模型在 DomiKnowS 框架中生成声明性程序。该框架中的程序除了它们之间的逻辑约束之外，还以图形的形式表达概念及其关系。稍后，可以根据这些规范将该图连接到可训练的神经模型。我们提出的管道利用动态上下文演示检索、基于符号解析器反馈的模型细化、可视化和用户交互等技术来生成任务的结构和形式知识表示。这种方法使领域专家，即使是那些不熟悉 ML/AI 的专家，也能够正式声明他们的知识将被纳入 DomiKnowS 框架中的定制神经模型中。

前车运动的触觉反馈可以改善驾驶控制

分类： 机器人技术, 人机交互, 系统与控制, 系统与控制

作者： Xiaoxiao Cheng, Xianzhe Geng, Yanpei Huang, Etienne Burdet

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20439v1

摘要： 本研究研究了触觉反馈在跟车场景中的作用，其中通过与其虚拟弹性连接提供有关前方车辆运动的信息。我们在模拟驾驶环境中使用机器人界面，研究了不同级别的触觉反馈对驾驶员在避开障碍物时遵循道路的能力的影响。对 15 名受试者进行的实验结果表明，前车运动的触觉反馈可以显着改善驾驶控制（即减少运动急动和偏离道路）并减轻精神负担（通过问卷评估）。这表明，在物理交互的人类之间观察到的触觉通信可用于提高自动驾驶系统的安全性和效率，从而有必要在真实驾驶场景中进行进一步测试。

拥抱报告：支持开源软件包的用户和贡献者之间表达谢意

分类： 人机交互

作者： Pranav Khadpe, Olivia Xu, Chinmay Kulkarni, Geoff Kaufman

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20390v1

摘要： 开源软件包的贡献者经常表示，由于缺乏用户的积极反馈而感到沮丧。本文描述了一种技术探针 Hug Reports，它为用户在代码编辑器中提供了通信功能，用户可以通过该功能向他们使用的软件包的贡献者表达谢意。在我们的实地研究中，18 位用户与探测器进行了为期 3 周的互动，向 550 名贡献者发出了感谢信息，其中 26 名贡献者参与了后续研究。我们的研究结果表明，如何在代码编辑器中找到通信功能，并允许用户对他们所接触到的抽象（包、模块、函数）表达赞赏，可以支持对用户和贡献者有意义的赞赏交流。调查结果还揭示了用户表达赞赏的时刻、赞赏所具有的两种含义——作为效用的衡量标准和表达性沟通的行为——以及贡献者对赞赏的反应如何受到他们感知到的贡献水平的影响。基于这些发现，我们讨论了为开源设计欣赏系统的机遇和挑战，以及更广泛的同行生产社区。

接受还是不接受？用于了解教育者对高等教育中生成式人工智能的抵制的 IRT-TOE 框架

分类： 计算机与社会, 人工智能, 新兴技术, 人机交互, 信息论, 信息论

作者： Jan-Erik Kalmus, Anastasija Nikiforova

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20130v1

摘要： 自从 Chat Generative Pre-Trained Transformer (ChatGPT) 公开发布以来，关于将生成人工智能 (GenAI) 融入教育的潜在优势和挑战出现了广泛的讨论。在信息系统领域，对技术采用的研究对于理解影响特定技术采用的各种因素至关重要。理论框架经过数十年的完善和验证，可作为指导工具来阐明个人和组织的动态、障碍以及围绕技术采用的看法。然而，虽然已经提出了几种模型，但它们通常优先阐明促进接受的因素，而不是阻碍接受的因素，通常关注学生的观点，并在有关教育者观点的经验证据方面留下空白。鉴于教育工作者在高等教育中发挥的关键作用，本研究旨在开发一个理论模型，以实证预测教育工作者在课堂上采用 GenAI 的障碍。认识到缺乏专门用于识别此类障碍的理论模型，我们的方法以创新阻力理论（IRT）框架为基础，并通过技术-组织-环境（TOE）框架的构建进行了增强。该模型转变为采用定量方法的测量工具，并辅以定性方法，以丰富分析并揭示与高等教育领域采用 GenAI 相关的问题。

交互式可视化可以为芝加哥的参与式预算做些什么？

分类： 人机交互

作者： Alex Kale, Danni Liu, Maria Gabriela Ayala, Harper Schwab, Andrew McNutt

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20103v1

摘要： 参与式预算（PB）是一种分配市政支出的民主方法，近年来在包括芝加哥在内的许多地方采用。当前的PB投票类似于一次投票，居民被问及在有限的预算下资助哪些市政项目，例如学校改善和道路维修。在这项工作中，我们通过与具有 PB、城市规划和公民 HCI 专业知识的政策工作者和学者进行基于设计探究的访谈研究 (N=13)，询问交互式可视化如何使 PB 受益。我们的调查探讨了如何将选民偏好的图形引出和投票统计仪表板纳入现实的 PB 工具中。通过定性分析，我们发现可视化为市政府创造了设定预算限制预期的机会，同时也赋予选民更大的自由来表达更广泛的偏好。然而，使用可视化来提供有关 PB 的透明度需要努力减少潜在的访问障碍和不信任。我们呼吁更多的可视化专业人士通过在政治系统中工作和研究来帮助培养公民能力。

对蛋白质环移植工作流程的视觉支持

分类： 人机交互

作者： Filip Opálený, Pavol Ulbrich, Joan Planas-Iglesias, Jan Byška, Jan Štourač, David Bednář, Katarína Furmanová, Barbora Kozlíková

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20054v1

摘要： 在理解和重新设计现代生物化学中蛋白质的功能时，蛋白质工程师越来越关注探索蛋白质中称为环的区域。分析这些区域的各种特征有助于专家设计将所需功能从一种蛋白质转移到另一种蛋白质的方法。该过程称为环接枝。我们设计了一套交互式可视化，为专家提供所有循环嫁接管道步骤的视觉支持。工作流程分为几个阶段，反映了管道的步骤。每个阶段都由一组特定的蛋白质及其环的抽象 2D 视觉表示支持，这些表示与蛋白质的 3D 视图交互链接。通过顺序地经历各个阶段，用户形成了作为环移植的潜在候选者的环列表。最后，执行从一种蛋白质到另一种蛋白质的环候选物的实际计算机插入，并将结果直观地呈现给用户。通过这种方式，蛋白质及其环的完全计算合理设计产生了新设计的蛋白质结构，可以通过体外实验进一步组装和测试。我们展示了我们的视觉支持设计对改变工程酶对映体选择性的真实案例场景的贡献。此外，我们还向读者提供专家的反馈。

探索大型语言模型以生成易于阅读的内容

分类： 计算和语言, 人机交互

作者： Paloma Martínez, Lourdes Moreno, Alberto Ramos

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20046v1

摘要： 确保文本的可访问性和可理解性是基本目标，特别是对于有认知障碍和智力障碍的个人来说，他们在通过网页、报纸、行政任务或健康文件等各种媒介获取信息时遇到挑战。易于阅读和简单语言指南等举措旨在简化复杂的文本；然而，标准化这些指南仍然具有挑战性，并且通常涉及手动流程。这项工作提出了一项探索性调查，利用人工智能 (AI) 和自然语言处理 (NLP) 方法系统地将西班牙语文本简化为易于阅读的格式，重点是利用大型语言模型 (LLM) 来简化文本，特别是在生成文本时易于阅读的内容。该研究提供了一个适合易读格式的西班牙语平行语料库，可作为训练和测试文本简化系统的宝贵资源。此外，还使用 LLM 和收集的语料库进行了多项文本简化实验，包括微调和测试 Llama2 模型以生成易于阅读的内容。在易于阅读内容的文本改编专家的指导下进行定性评估，以评估自动简化的文本。这项研究有助于提高认知障碍人士的文本可访问性，强调利用大语言模型同时负责任地管理能源使用的有前景的策略。

MambaGesture：利用 Mamba 和解开的多模态融合增强协同语音手势生成

分类： 人机交互, 多媒体

作者： Chencan Fu, Yabiao Wang, Jiangning Zhang, Zhengkai Jiang, Xiaofeng Mao, Jiafu Wu, Weijian Cao, Chengjie Wang, Yanhao Ge, Yong Liu

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19976v1

摘要： 协同语音手势生成对于生成伴随语音的同步且真实的人类手势至关重要，从而增强虚拟环境中逼真化身的动画效果。虽然扩散模型已经显示出令人印象深刻的功能，但当前的方法常常忽略了广泛的模式及其交互，导致手势缺乏动态性和上下文变化。为了应对这些挑战，我们提出了 MambaGesture，这是一种新颖的框架，集成了基于 Mamba 的注意力块 MambaAttn 与多模态特征融合模块 SEAD。 MambaAttn 模块将 Mamba 模型的顺序数据处理优势与注意力机制的上下文丰富性相结合，增强了生成手势的时间连贯性。 SEAD 巧妙地融合了音频、文本、风格和情感模式，利用解开来加深融合过程，并产生更加真实和多样性的手势。我们的方法在多模态 BEAT 数据集上进行了严格评估，证明了 Fr'echet 手势距离 (FGD)、多样性得分和节拍对齐方面的显着改进，在协同语音手势生成方面实现了最先进的性能。

利用基础模型进行零样本物联网传感

分类： 人工智能, 人机交互

作者： Dinghao Xue, Xiaoran Fan, Tao Chen, Guohao Lan, Qun Song

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19893v1

摘要： 深度学习模型越来越多地部署在边缘物联网 (IoT) 设备上。然而，这些模型通常在监督条件下运行，无法识别与训练不同的看不见的类别。为了解决这个问题，零样本学习（ZSL）旨在借助语义信息对未见过的类的数据进行分类。在网络规模数据上训练的基础模型 (FM) 在自然语言处理和视觉理解方面表现出了令人印象深刻的 ZSL 能力。然而，利用 FM 的通用知识使用毫米波、IMU 和 Wi-Fi 等信号进行零样本物联网传感尚未得到充分研究。在这项工作中，我们将 IoT 数据嵌入与 FM 文本编码器生成的语义嵌入对齐，以实现零样本 IoT 传感。为了利用控制物联网传感器信号生成的物理原理来导出更有效的语义嵌入提取提示，我们建议使用交叉注意力来结合在训练数据上自动优化的可学习软提示和编码域的辅助硬提示了解物联网传感任务。为了解决由于训练期间缺乏未见类数据而导致物联网嵌入偏向已见类的问题，我们建议使用数据增强来合成未见类物联网数据，以微调物联网特征提取器和嵌入投影仪。我们评估了我们在多个物联网传感任务上的方法。结果表明，与各种基线相比，我们的方法实现了卓越的开放集检测和广义零样本学习性能。我们的代码可在 https://github.com/schrodingho/FM\_ZSL\_IoT 获取。

第二届跨现实联合研讨会

分类： 人机交互

作者： Nanjia Wang, Yue Li, Francesco Chiossi, Fabian Pointecker, Lixiang Zhao, Daniel Zielasko

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19843v1

摘要： 作为 ISMAR 2024 的一部分组织的第二届跨现实联合研讨会 (JWCR'24) 旨在探索跨现实 (CR) 的新兴领域，其中包括现实-虚拟连续体上各个点之间的无缝集成和过渡（ RVC），例如虚拟现实 (VR)、增强虚拟 (AV) 和增强现实 (AR)。此次混合研讨会旨在以 ISMAR 2023 首届 JWCR 奠定的基础为基础，成功地统一了不同的 CR 研究社区。该研讨会将讨论关键主题，包括 CR 可视化、交互、用户行为、设计、开发、工程和协作。 CR 可视化专注于在 RVC 中创建和显示空间数据，使用户能够流畅地导航和解释信息。 CR Interaction 使用手势、语音命令和其他先进技术深入研究自然的用户参与，以增强沉浸感。 CR 用户行为和体验研究调查用户如何在这些混合环境中感知和交互。此外，CR 设计和开发强调使用创新流程和工具创建有效的 CR 应用程序，而 CR 协作则研究在混合现实环境中培养团队合作的方法。

PersonalityScanner：探索虚拟现实中基于多模态信号的人格评估的有效性

分类： 人机交互, 计算机与社会

作者： Xintong Zhang, Di Lu, Huiqi Hu, Nan Jiang, Xianhao Yu, Jinan Xu, Yujia Peng, Qing Li, Wenjuan Han

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19728v1

摘要： 人类认知显着影响所表达的行为，并且与真实的人格特质有着内在的联系。人格评估在心理学、教育学、社交媒体等各个领域都发挥着举足轻重的作用。然而，传统的自我报告式问卷只能提供基于个人愿意和能够披露的数据，缺乏客观性。此外，自动化测量和同行评估需要大量的人力和资源。在本文中，鉴于虚拟现实（VR）技术的优势，我们开发了一种VR模拟器——PersonalityScanner，基于沉浸式、交互式的模拟环境来刺激认知过程并模拟日常行为，在该环境中参与者进行一系列的操作。引人入胜的任务，形成第一天工作的自然故事。通过这个模拟器，我们收集了具有十种模态的同步多模态数据集，包括第一人称/第三人称视频、音频、文本、眼动追踪、面部微表情、姿势、深度数据、日志和惯性测量单元。通过系统地检查不同方式对揭示个性的贡献，我们展示了 PersonalityScanner 的卓越性能和有效性。

文本到可见基准测试是否测试可视化的实际使用？

分类： 计算和语言, 人机交互

作者： Hy Nguyen, Xuefei He, Andrew Reeson, Cecile Paris, Josiah Poon, Jonathan K. Kummerfeld

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19726v1

摘要： 大型语言模型能够响应用户请求生成可视化代码。这是一个有用的应用程序，对于 NLP 研究来说也是一个有吸引力的应用程序，因为数据图为语言提供了基础。然而，基准相对较少，而且尚不清楚现有的基准是否能代表人们在实践中的做法。本文旨在通过比较基准数据集和公共存储库代码的实证研究来回答这个问题。我们的研究结果揭示了数据集之间存在巨大差距，评估没有测试图表类型、属性和操作数量的相同分布。唯一具有代表性的数据集需要修改才能成为端到端的实用基准。这表明需要新的、更多的基准来支持真正满足用户可视化需求的系统的开发。这些观察结果将指导未来的数据创建，突出哪些功能对用户具有真正的意义。

“一个好的机器人总是知道它的局限性”：通过因子化机器自信心评估自主系统决策能力

分类： 人工智能, 计算机与社会, 人机交互, 机器学习, 机器人技术

作者： Brett Israelsen, Nisar R. Ahmed, Matthew Aitken, Eric W. Frew, Dale A. Lawrence, Brian M. Argrow

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19631v1

摘要： 智能机器如何评估其完成任务的能力？这个问题已经成为在不确定性下通过算法推理并做出决策的自主系统的焦点。这里有人认为，机器自信——一种元推理形式，基于智能体对世界和自身状态的知识的自我评估，以及其推理和执行任务的能力——会导致此类人员有许多可计算且有用的能力指标。本文以称为因式分解机器自信 (FaMSeC) 的计算框架的形式呈现了这一概念的巅峰工作，该框架提供了以工程为中心的驱动算法决策过程的因素的整体描述，包括结果评估、求解器质量、模型质量、对齐质量和过去的经验。在 FaMSeC 中，自信心指标源自嵌入大类概率决策算法（例如马尔可夫决策过程）中的分层“问题解决统计”。解决问题的统计数据是通过根据给定的能力标准评估和分级概率超出裕度来获得的，这些能力标准是由知情者（例如非专家用户或专家系统设计者）为每个决策能力因素指定的。这种方法允许通过人类可解释的能力自我评估报告将“算法拟合优度”评估轻松纳入多种自主代理的设计中。马尔可夫决策过程代理的详细描述和运行应用程序示例展示了如何通过新颖地使用元实用函数、行为模拟和替代预测模型。

生成式人工智能对人类创意人员构成生存威胁吗？金融经济学的见解

分类： 人机交互, 人工智能

作者： Jiasun Li

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19586v1

摘要： 随着生成式人工智能模型（例如 GPT 等大型语言模型或 Diffusion 等大型图像模型）的显着崛起，人们越来越担心人类创意的未来。具体来说，随着生成模型的力量进一步增强，它们最终会取代所有人类创意人员的工作吗？我们认为，即使现有的生成式人工智能模型的能力达到了理论极限，答案是否定的。我们的理论与金融经济学中关于信息有效市场的不可能性的熟悉见解非常相似[Grossman 和 Stiglitz (1980)]：如果生成式 AI 模型能够以低可变成本提供人类所需的所有内容，那么就没有激励人们花费昂贵的资源来创建内容，因为他们无法从中获利。但如果没有人创造新的内容，那么生成式人工智能只能从陈旧的信息中学习，而无法生成反映物理世界新发生的最新内容。这就产生了一个悖论。

检测以人为中心的系统中的未知错误

分类： 人机交互

作者： Aranyak Maity, Ayan Banerjee, Sandeep Gupta

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19569v1

摘要： 支持人工智能的系统越来越多地部署在涉及人类参与者的现实世界安全关键环境中。确保此类系统的安全并在对人类参与者造成伤害之前阻止系统的错误演化至关重要。我们提出了一种与模型无关的方法来检测这种以人为中心的系统中的未知错误，而不需要任何有关错误签名的知识。我们的方法采用动力学诱导的混合循环神经网络（DiH-RNN）从操作数据构建基于物理的模型，并结合共形推理来评估由于违反物理定律而导致的基础模型中的错误，从而促进未知错误的早期检测在操作数据分布发生不安全变化之前。我们在多个现实世界的安全关键系统上评估我们的框架，并表明我们的技术在检测未知错误方面优于现有的最先进技术。

通过大型语言模型为盲人用户提供统一的计算机交互体验

分类： 人机交互

作者： Satwik Ram Kodandaram, Utku Uckun, Xiaojun Bi, IV Ramakrishnan, Vikas Ashok

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19537v2

摘要： 盲人必须依赖屏幕阅读器与计算机交互，在导航不同计算机应用程序的多样化且复杂的图形用户界面时面临着相当大的挑战。各种应用程序界面的异构性往往要求盲人用户记住不同的键盘组合和导航方法才能有效地使用每个应用程序。为了减轻异构应用程序界面带来的巨大交互负担，我们推出了 Savant，这是一种由大语言模型 (LLM) 提供支持的新型辅助技术，允许盲人屏幕阅读器用户通过自然语言与任何应用程序界面进行统一交互。新颖的是，当用户发出自然语言命令提示时，Savant 可以在应用程序的控制元素上自动执行一系列繁琐的屏幕阅读器操作。这些命令可以是灵活的，因为用户并不严格要求在命令中指定控制元素的确切名称。一项由 11 名盲人参与者参与的用户研究评估表明，与当前实践相比，Savant 在交互效率和可用性方面有了显着改进。

具有生物反馈的智能家居环境原型

分类： 人机交互

作者： Azmyin Md. Kamal, Mushfiqul Azad, Sumayia Jerin Chowdhury

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19525v1

摘要： 在本文中，我们提出了一个智能家居系统的原型，该系统可以根据用户的情绪“唤醒”水平来驱动不同的外围设备。该系统由两个名为“Wearable”和“Benchtop”的嵌入式子系统组成，它们通过 UPD/IP 协议相互通信。可穿戴设备可以根据生理数据将情绪唤醒分为三个不同的类别（正常、中和高），而台式设备可以在 16 位 NEOPIXEL 环上显示不同的颜色，并播放音调以模拟智能设备中外围设备的启动。家居环境。对三个视频片段进行的实验表明，该系统可以对情绪唤醒进行分类，平均准确率为 41%。使用 Ptolemy II 创建了 Benchtop 装置的 FSM 模型，该模型表明该模型具有完全确定性，并且对两个装置之间的通信中断具有鲁棒性。拟议的项目将通过结合情感反馈来自动调整室内环境，为智能家居和物联网研究添加新的范式，从而为居民提供更大的舒适度、更轻松的生活和家庭辅助流动护理。

miniPXI 重测可靠性研究

分类： 人机交互

作者： Aqeel Haider, Günter Wallner, Kathrin Gerling, Vero Vanden Abeele

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19516v1

摘要： 重复测量玩家体验对于游戏用户研究至关重要，可以评估不同的设计如何随着时间的推移而演变。然而，这需要适合该目的的轻型测量仪器。在这项研究中，我们对 \emph{miniPXI} 的重测可靠性进行了检查——\emph{玩家体验清单} (\emph{PXI}) 的一个简短变体，是衡量玩家体验的既定指标。我们通过利用涉及 100 名参与者的四款游戏来分析重测可靠性，并将其与四种已建立的多项目指标和单项目指标（例如净推荐值 (\emph{NPS}) 和整体享受度）进行比较。调查结果显示结果好坏参半； \emph{miniPXI} 展示了不同级别的重测可靠性。一些结构表现出良好到中等的可靠性，而另一些则不太一致。另一方面，多项目测量表现出中等至良好的重测可靠性，证明了它们在衡量玩家体验方面的有效性。此外，所采用的单项指标（\emph{NPS}和整体享受）表现出良好的可靠性。我们的研究结果突显了玩家体验随着时间的推移而评估的复杂性，每个构建指标都使用单个和多个项目。我们得出的结论是，单项测量可能不适合更复杂的 PX 维度的长期研究，并为此类测量在重复测量中的适用性提供了实际考虑。

Heads Up eXperience (HUX)：用于人机环境交互的始终在线人工智能伴侣

分类： 人机交互, 人工智能, 新兴技术

作者： Sukanth K, Sudhiksha Kandavel Rajan, Rajashekhar V S, Gowdham Prabhakar

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19492v1

摘要： 虽然当前的个人智能设备在数字领域表现出色，但它们在人类环境交互过程中协助用户方面却存在不足。本文提出了 Heads Up eXperience (HUX)，这是一种旨在弥合这一差距的人工智能系统，作为扩展现实 (XR) 环境中的恒定伴侣。通过跟踪用户的视线、分析周围环境和解释言语上下文，系统捕获并增强多模态数据，在实时任务特定情况下提供整体上下文解释和记忆存储。这种综合方法使用户与HUX AI之间的交互更加自然、同理心和智能，为人机环境交互铺平了道路。 HUX AI 旨在部署在智能眼镜和扩展现实耳机中，旨在成为日常生活中实用的个人人工智能伴侣。通过将数字辅助与增强的物理世界交互相结合，该技术有可能彻底改变个人和专业领域的人类与人工智能协作，为个人智能设备的未来铺平道路。

BEMTrace：从 BIM 导出建筑能源模型的可视化驱动方法

分类： 人机交互

作者： Andreas Walch, Attila Szabo, Harald Steinlechner, Thomas Ortner, Eduard Gröller, Johanna Schmidt

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19464v1

摘要： 建筑信息模型（BIM）描述了覆盖建筑项目整个生命周期的中央数据池。同样，建筑能源建模 (BEM) 描述了使用建筑物的 3D 表示作为热模拟基础来评估建筑物能源性能的过程。本文探讨了 BIM 和 BEM 的交叉点，重点关注将 BIM 数据转换为 BEM 表示形式以进行能源性能分析的挑战和方法。 BEMTrace 将 3D 数据整理技术与可视化方法相集成，以提高 BIM 到 BEM 转换过程的准确性和可追溯性。通过对 BIM 数据进行解析、错误检测和算法校正，我们的方法生成适合能源模拟的有效 BEM 模型。可视化技术提供了对转换过程的透明洞察，有助于错误识别、验证和用户理解。我们引入了上下文自适应选择来促进用户交互，并表明 BEMTrace 工作流程可以帮助用户理解复杂的 3D 数据整理过程。

使用三重身份验证方案来替代多重身份验证

分类： 密码学和安全, 新兴技术, 人机交互, 网络和互联网架构, 系统与控制, 系统与控制

作者： Suyun Borjigin

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19459v1

摘要： 每个用户身份验证方案都涉及三个登录凭据，即用户名、密码和哈希值，但其中只有一个与用户身份相关联。然而，这种身份实际上不足以保护整个系统，而登录条目（即用户名和密码形式）也没有得到有效的保护。此外，添加多因素认证的系统中的额外因素是在网络空间中传输并由用户操作的。如果两个登录表单可以使用更多的身份来与所有登录凭证相关联，并且如果相应的标识符不是在网络空间中传输并由用户操作，那么即使不依赖于第三方服务，这样的系统也可以更加健壮。为此，在双密码登录认证系统中设计了三重身份认证方案，分别定义用户名和登录密码的身份。因此，除了传统的服务器验证之外，系统还可以依次验证用户名和密码表单中的标识符。三重身份认证中，标识符完全由系统管理，无需用户或第三方服务的参与，具有隐蔽性、不可传递性、不可访问性和独立于个人信息的特点。因此，它们在在线攻击中毫无用处。

对话式 AI 多代理互操作性、用于代理自然语言多模式通信的通用开放 API

分类： 人工智能, 人机交互

作者： Diego Gosmar, Deborah A. Dahl, Emmett Coin

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19438v1

摘要： 本文分析了对话式 AI 多代理互操作性框架，并描述了开放语音互操作性倡议（Linux 基金会 AI 和 DATA）（也简称为 OVON（开放语音网络））提出的新颖架构。阐述了新方法以及主要组件，描述了部署标准多模式人工智能代理（或代理人工智能）通信的主要优势和用例。从基于自然语言的通用 API 开始，该框架建立并实现了各种对话式 AI 代理（包括聊天机器人、语音机器人、视频机器人和人类代理）之间的可互操作交互。此外，还引入了新的 Discovery 规范框架，旨在有效地查找提供特定服务的代理，并通过标准清单出版物获取有关这些服务的准确信息，可通过一组扩展的基于自然语言的 API 进行访问。此贡献的主要目的是显着增强跨各种平台的人工智能交互的能力和可扩展性。可互操作对话式人工智能助手的新颖架构旨在通用化、可复制并可通过开放存储库访问。

ASI-Seg：具有外科医生意图理解的音频驱动手术器械分割

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 人机交互, 机器人技术

作者： Zhen Chen, Zongming Zhang, Wenwu Guo, Xingjian Luo, Long Bai, Jinlin Wu, Hongliang Ren, Hongbin Liu

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19435v1

摘要： 手术器械分割对于手术场景理解至关重要，从而促进手术安全。现有算法直接检测输入图像中预定义类别的所有器械，缺乏根据外科医生的意图分割特定器械的能力。在手术的不同阶段，外科医生表现出不同的偏好并关注不同的手术器械。因此，符合外科医生意图的器械分割算法可以最大限度地减少不相关器械的干扰，并在很大程度上帮助外科医生。最近的分段任意模型（SAM）揭示了根据提示分割对象的能力，但在手术过程中手动注释提示是不切实际的。为了解决手术室中的这些限制，我们提出了一种音频驱动的手术器械分割框架，名为 ASI-Seg，通过解析外科医生的音频命令来准确分割所需的手术器械。具体来说，我们提出了一种面向意图的多模态融合来解释音频命令的分割意图并检索相关的乐器详细信息以促进分割。此外，为了指导所需手术器械的 ASI-Seg 部分，我们设计了一种对比学习提示编码器，以有效区分所需器械和不相关器械。因此，我们的 ASI-Seg 促进了手术室的工作流程，从而提供有针对性的支持并减轻外科医生的认知负担。我们进行了大量的实验来验证 ASI-Seg 框架，该框架在语义分割和面向意图的分割方面显示出优于经典的最先进的医学 SAM 的显着优势。源代码可在 https://github.com/Zonmgin-Zhang/ASI-Seg 获取。

自动化决策系统对基层官僚实践的影响

分类： 计算机与社会, 人机交互

作者： Manuel Portela, A. Paula Rodriguez Müller, Luca Tangi

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19427v1

摘要： 在数字治理时代，公共行政部门越来越多地使用自动化来进行个人和合作工作（Tangi 等人，2022）。尽管承诺提高效率和降低成本，自动化可能会给治理方案带来新的挑战。地区、国家和地方政府正在采取措施来监管和衡量自动决策系统 (ADMS) 的影响。本研究重点关注欧洲公共管理部门中 ADMS 的使用和采用，以了解这些系统如何改变街道一级官僚的角色、任务和职责。我们进行了一项定性研究，采访了来自三个行政部门的基层官员，他们已经使用 ADMS 多年，并将其融入到他们的日常工作中。我们的研究结果是对协作工作、组织设置、官僚能力和 ADMS 实施如何启用或限制为公民提供更好服务的能力的五个维度进行了分析。

Defogger：一种用于差异隐私保护的敏感数据数据探索的可视化分析方法

分类： 人机交互, 密码学和安全

作者： Xumeng Wang, Shuangcheng Jiao, Chris Bryan

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19364v1

摘要： 差分隐私保证了个人隐私的安全，但对数据探索过程提出了挑战，因为有限的隐私预算削弱了探索的灵活性，并且数据请求的嘈杂反馈导致令人困惑的不确定性。在本研究中，我们率先描述了相应的探索场景，包括基本要求和可用的探索策略。为了促进实际应用，我们提出了一种可视化分析方法来制定探索策略。我们的方法应用强化学习模型，根据用户的探索意图提供多样化的探索策略建议。用于表示相关模式中的不确定性的新颖视觉设计被集成到我们的原型系统中以支持所提出的方法。最后，我们实施了一项用户研究和两个案例研究。这些研究的结果验证了我们的方法可以帮助开发满足用户探索意图的策略。

AccessShare：与盲人共同设计数据访问和共享

分类： 人机交互, 人工智能

作者： Rie Kamikubo, Farnaz Zamiri Zeraati, Kyungjun Lee, Hernisa Kacorri

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19351v1

摘要： 盲人经常被要求为人工智能创新的数据集贡献图像数据，以期未来的可访问性和包容性。然而，无法对所提供的图像进行目视检查。直到今天，我们还缺乏盲人群体可以使用的数据检查和控制机制。为了解决这一差距，我们让 10 名盲人参与者参与一个场景，他们佩戴智能眼镜，并在家中使用人工智能应用程序收集图像数据。我们还设计了一个设计探针，一种名为 AccessShare 的新颖数据访问接口，并进行了一项协同设计研究，以讨论参与者的需求、偏好以及关于同意、数据检查和控制的想法。我们的研究结果揭示了交互式知情同意的影响以及 AccessShare 等数据检查系统在促进数据管理员和盲人数据贡献者之间沟通方面的补充作用。我们讨论关键见解如何指导未来的知情同意和数据控制，以促进人工智能中包容性和负责任的数据实践。

NARVis：用于实时科学点云可视化的神经加速渲染

分类： 图形, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Srinidhi Hegde, Kaur Kullman, Thomas Grubb, Leslie Lait, Stephen Guimond, Matthias Zwicker

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.19097v1

摘要： 在实时可视化中探索具有数十亿个样本的科学数据集提出了一个挑战 - 平衡高保真渲染与速度。这项工作引入了一种新颖的渲染器 - 神经加速渲染器（NAR），它使用神经延迟渲染框架来可视化大规模科学点云数据。 NAR 通过高质量的神经后处理增强了实时点云渲染管道，使该方法成为大规模交互式可视化的理想选择。具体来说，我们训练神经网络从高性能多流光栅器学习点云几何形状，并从传统的高质量渲染器捕获所需的后处理效果。我们通过可视化复杂的多维拉格朗日流场和大地形的光度扫描，并将渲染结果与最先进的高质量渲染器进行比较，证明了 NAR 的有效性。通过广泛的评估，我们证明 NAR 在保持高视觉保真度的同时优先考虑速度和可扩展性。我们在 RTX 2080 Ti GPU 上使用 $\sim$12 GB 内存，实现了 $>$ 126 fps 的竞争帧速率，实现 $>$ 350M 点的交互式渲染（即每秒 $>$ 440 亿点的有效吞吐量）。此外，我们表明 NAR 可以在具有相似可视化需求的不同点云中推广，即使在原始点云的较低分辨率下也可以获得高质量的所需后处理效果，从而进一步降低了内存需求。

用于错误感知场景表示网络的正则化多解码器集成

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 图形, 人机交互

作者： Tianyu Xiong, Skylar W. Wurster, Hanqi Guo, Tom Peterka, Han-Wei Shen

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.19082v1

摘要： 特征网格场景表示网络（SRN）已作为用于分析和可视化的紧凑功能替代品应用于科学数据。由于 SRN 是黑盒有损数据表示，因此评估预测质量对于科学可视化应用至关重要，以确保科学家可以信任可视化的信息。目前，现有架构不支持推理时间重建质量评估，因为在没有地面实况数据的情况下无法评估坐标级误差。我们提出了一种参数高效的多解码器 SRN (MDSRN) 集成架构，由具有多个轻量级多层感知器解码器的共享特征网格组成。 MDSRN 可以为给定的输入坐标生成一组合理的预测，以计算平均值作为多解码器集成的预测，并将方差计算为置信度分数。坐标级方差可以与数据一起渲染以告知重建质量，或者集成到不确定性感知体积可视化算法中。为了防止量化方差和预测质量之间的不一致，我们提出了一种用于集成学习的新型方差正则化损失，它可以促进正则化多解码器 SRN（RMDSRN）获得与真实模型误差密切相关的更可靠的方差。与不同标量场数据集上提出的 MDSRN 和 RMDSRN 相比，我们全面评估了蒙特卡罗 Dropout、平均场变分推理、深度集成和预测方差的方差量化和数据重建的质量。我们证明，在相同的神经网络参数预算下，RMDSRN 在不确定的 SRN 中实现了最准确的数据重建和有竞争力的方差误差相关性。

成功秘诀？探索改善以非视觉方式获取烹饪说明的策略

分类： 人机交互

作者： Franklin Mingzhe Li, Ashley Wang, Patrick Carrington, Shaun K. Kane

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.19065v1

摘要： 烹饪是一项重要的活动，可以让个人自己准备饭菜，从而提高生活质量。然而，烹饪通常需要在烹饪任务和遵循说明之间进行多任务处理，如果无法获取食谱或其他说明，这对于视力障碍的厨师来说可能是一项挑战。为了探索在烹饪时获取菜谱的做法和挑战，我们对 20 名有烹饪经验的视力障碍人士以及视力康复中心的 4 名烹饪教练进行了半结构化访谈。我们还要求参与者对现有食谱进行编辑并提供反馈。我们揭示了在不同烹饪阶段获取菜谱信息的独特做法和挑战，例如洗手与菜谱阅读器互动的沉重负担。我们还提出了食谱的首选信息表示和结构。然后，我们强调了技术支持的设计特征，这些特征可以促进开发更易于访问的厨房技术以获取食谱。我们的工作提供了细致入微的见解和设计指南，以提高视力障碍人士的食谱可及性。

神经符号人工智能增强生成人工智能的可指导性

分类： 人工智能, 人机交互

作者： Amit Sheth, Vishal Pallagani, Kaushik Roy

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18722v1

摘要： 生成式人工智能，特别是通过大型语言模型（LLM），已经改变了文本、图像和音乐的内容创建，展示了通过提示遵循指令的能力，这在很大程度上是通过指令调整来促进的。指令调优是一种监督微调方法，其中大语言模型在使用特定任务和相应指令格式化的数据集上进行训练。这种方法系统地增强了模型理解和执行所提供指令的能力。尽管取得了这些进步，大语言模型仍然面临着一致解释复杂的多步骤指令并将其推广到新任务的挑战，这对于在现实世界场景中更广泛的适用性至关重要。本文探讨了为什么神经符号人工智能为增强大语言模型的可指导性提供了更好的途径。我们探索使用符号任务规划器将高级指令分解为结构化任务，使用神经语义解析器将这些任务分解为可执行动作，以及使用神经符号执行器来实现这些动作，同时动态维护状态的显式表示。我们还试图证明神经符号方法可以增强任务执行的可靠性和情境意识，使大语言模型能够以更高的精度和灵活性动态解释和响应更广泛的教学情境。

使用 GPT-4 指导因果机器学习

分类： 人工智能, 人机交互, 机器学习

作者： Anthony C. Constantinou, Neville K. Kitson, Alessio Zanga

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18607v1

摘要： 自向公众推出以来，ChatGPT 产生了前所未有的影响。虽然一些专家赞扬人工智能的进步并强调其潜在风险，但其他专家则对大型语言模型（LLM）的准确性和实用性持批评态度。在本文中，我们对大语言模型识别因果关系的能力感兴趣。我们专注于成熟的 GPT-4 (Turbo)，并在最严格的条件下评估其性能，方法是隔离其仅基于变量标签推断因果关系的能力，而无需给出任何上下文，从而证明了最低水平的有效性当它提供仅标签信息时，可以预期。我们发现，问卷参与者认为 GPT-4 图在评估类别中最准确，紧随其后的是领域专家构建的知识图，因果机器学习 (ML) 远远落后。我们使用这些结果来强调因果机器学习的重要局限性，它经常产生违反常识的因果图，影响对它们的信任。然而，我们表明，将 GPT-4 与因果 ML 配对克服了这一限制，与单独通过因果 ML 学习的结构相比，从真实数据中学习的图形结构与领域专家识别的结构更加一致。总的来说，我们的研究结果表明，尽管 GPT-4 没有被明确设计用于因果推理，但它仍然可以成为因果表示的有价值的工具，因为它改进了旨在实现这一点的因果 ML 算法的因果发现过程。

主动学习对于道德偏好诱导的利弊

分类： 人机交互, 计算机与社会, 机器学习

作者： Vijay Keswani, Vincent Conitzer, Hoda Heidari, Jana Schaich Borg, Walter Sinnott-Armstrong

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18889v1

摘要： 计算偏好启发方法是用于在给定背景下定量了解人们偏好的工具。最近关于偏好启发的研究提倡主动学习作为一种有效的方法来迭代构建查询（框架为特定上下文案例之间的比较），这些查询可能最能提供有关代理的潜在偏好的信息。在这项工作中，我们认为，使用主动学习来引发道德偏好依赖于对潜在道德偏好的某些假设，而这些假设在实践中可能会被违反。具体来说，我们强调以下常见假设（a）偏好随着时间的推移是稳定的，并且对所提出的查询的顺序不敏感，（b）选择适当的假设类来建模道德偏好，以及（c）代理响应中的噪声是有限的。虽然这些假设适用于某些领域的偏好引发，但先前的道德心理学研究表明它们可能不适用于道德判断。通过对违反上述假设的偏好进行综合模拟，我们观察到主动学习在某些设置下可能具有与基本随机查询选择方法相似或更差的性能。然而，模拟结果还表明，如果不稳定或噪声程度相对较小，并且当代理的偏好可以用用于学习的假设类来近似表示时，主动学习仍然是可行的。我们的研究强调了实践中与有效道德偏好引发相关的细微差别，并主张谨慎使用主动学习作为学习道德偏好的方法。

参与混合视觉能力家庭的儿童艺术作品

分类： 人机交互, 人工智能

作者： Arnavi Chheda-Kothary, Jacob O. Wobbrock, Jon E. Froehlich

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18874v1

摘要： 我们提出了两项研究，探讨盲人或低视力 (BLV) 家庭成员如何参与视力正常的孩子的艺术作品、支持理解和解释的策略，以及人工智能等技术在其中的潜在作用。我们的第一项研究涉及 14 名 BLV 个体，第二项研究则包括五组 BLV 个体及其孩子。通过对儿童艺术作品的人工智能描述和多感官设计探索的半结构化访谈，我们发现 BLV 家庭成员将艺术作品的参与视为一种联系机会，与其他非视觉表现相比，更喜欢孩子的故事讲述和解释。此外，尽管存在一些不准确之处，但 BLV 家族成员认为人工智能生成的描述可以促进与孩子的对话，并有助于自我引导的艺术发现。我们最后讨论了支持混合视觉能力家庭的艺术品参与的具体设计考虑因素，包括通过各种方法实现艺术品访问、支持儿童对人工智能输出的纠正，以及儿童艺术品的上下文与内容以及解释与描述的区别。

社交媒体上的设计摩擦：平衡减少无意识滚动和用户满意度

分类： 人机交互

作者： Nicolas Ruiz, Grabriela Molina León, Hendrik Heuer

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18803v1

摘要： 社交媒体平台的设计特征，例如无限滚动，增加了用户经历规范性分离的可能性——一种削弱自我意识并扰乱记忆的专注精神状态。本文研究了如何在社交媒体平台的界面中添加设计摩擦来减少无意识的滚动和用户满意度。我们对 30 名参与者进行了一项研究，并比较了他们在两种情况下对帖子的记忆识别：一种是参与者必须对每个帖子做出反应才能访问更多内容，另一种是使用无限滚动设计。使用设计摩擦界面的参与者表现出明显更好的内容回忆，尽管大多数参与者发现该界面令人沮丧。我们讨论设计建议和场景，在这些场景中，向社交媒体平台添加设计摩擦可能是有益的。

TAGIFY：LLM 支持的标签接口，可提高 OGD 门户上的数据可查找性

分类： 计算机与社会, 人工智能, 新兴技术, 人机交互

作者： Kevin Kliimask, Anastasija Nikiforova

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18764v1

摘要： 自 2000 年代中期以来，旨在促进开放政府数据 (OGD) 的努力在各级政府中获得了巨大的关注。随着越来越多的数据集在 OGD 门户上发布，查找特定数据变得更加困难，从而导致信息过载。完整而准确的数据集文档，包括将适当的标签与数据集关联起来，是提高数据集可查找性和可访问性的关键。对爱沙尼亚开放数据门户进行的分析显示，11% 的数据集没有关联标签，而 26% 的数据集仅分配了一个标签，这凸显了门户内数据可查找性和可访问性方面的挑战，根据最近的开放数据成熟度报告被认为是趋势引领者。本研究的目的是提出一种标记数据集的自动化解决方案，以提高 OGD 门户上数据的可查找性。本文介绍了 Tagify - 一种标记接口原型，它采用 GPT-3.5-turbo 和 GPT-4 等大型语言模型 (LLM) 来自动化数据集标记，为数据集生成英语和爱沙尼亚语标记，从而增强数据发布者的元数据准备工作提高数据用户在 OGD 门户上的数据可查找性。用户对开发的解决方案进行了评估，并收集了他们的反馈，以确定未来原型改进的议程。

谁让警卫出去了：巡逻游戏的视觉支持

分类： 人机交互

作者： Matěj Lang, Adam Štěpánek, Róbert Zvara, Vojtěch Řehák, Barbora Kozlíková

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18705v1

摘要： 有效的安全巡逻管理对于确保美术馆、机场和工厂等不同环境的安全至关重要。在这些情况下巡逻的行为可以通过巡逻游戏来建模。他们模拟建筑物中巡逻人员和对手的行为，该行为被建模为代表房间的互连节点的图表。解决游戏的算法设计者面临着分析具有时间依赖性的复杂图形布局的问题。因此，适当的视觉支持对于他们有效工作至关重要。在本文中，我们提出了一种新颖的工具，可以帮助巡逻游戏的设计者探索所提出的算法和方法的结果，评估其成功率，并提出可以改进其解决方案的修改。我们的工具提供了直观的交互式界面，具有对巡逻路线和采取这些路线的概率的详细探索、巡逻模拟以及其他所需功能的功能。我们与设计巡逻游戏的专家密切合作，进行了三个案例研究，展示了我们工具的用法和实用性。该工具的原型以及示例数据集可在 https://gitlab.fi.muni.cz/formela/strategy-vizualizer 上获取。

人机工作站的输入和输出设备与身体残疾的匹配

分类： 机器人技术, 人机交互, 系统与控制, 系统与控制

作者： Carlo Weidemann, Nils Mandischer, Burkhard Corves

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18563v1

摘要： 由于劳动力短缺正在以惊人的速度增长，当务之急是让所有人，特别是残疾人和老年人都有工作。机器人通常被用作帮助残疾人的通用工具。然而，对于这种人机工作站，通用设计失败了。我们根据联合国通过的《残疾人权利公约》，通过匹配工作流程所需的设备和个人残疾人，缓解了选择个性化输入和输出设备的挑战。目标是通过所需的设备来促进经济上可行的工作站，从而降低企业包容性和工作场所重新设计期间的总体成本。我们的工作重点是开发一种有效的方法来根据个人的残疾情况过滤输入和输出设备，从而生成定制的可用设备列表。该方法能够自动评估与国际功能、残疾和健康分类中定义的特定残疾兼容的设备。在模型中，我们展示了残疾人输入和输出设备的综合，从而为残疾人选择设备提供了实用工具。

注意视觉不适：评估事件相关电位作为头戴式显示器中视觉疲劳的指标

分类： 人机交互

作者： Francesco Chiossi, Yannick Weiss, Thomas Steinbrecher, Christian Mai, Thomas Kosch

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18548v1

摘要： 使用头戴式显示器 (HMD) 时，用户可能并不总是注意到或报告由于未调整镜片导致视力模糊、晕动病和眼睛疲劳加剧等视觉不适。目前对视觉不适的测量依赖于用户的自我报告，这些用户容易受到主观差异的影响并且缺乏实时洞察力。在这项工作中，我们研究脑电图（EEG）是否可以通过感知事件相关电位（ERP）来客观地测量视觉不适。在一项用户研究 (N=20) 中，我们在测量枕顶脑电图电极上的 ERP 时比较了用户研究中四种不同级别的高斯模糊。研究结果表明，特定的 ERP 组件（即 P1、N2 和 P3）能够区分与不适相关的视觉刺激，并指示视觉处理和疲劳负荷的增加。我们的结论是，时间锁定的大脑活动可用于评估视觉不适，并提出基于脑电图的自动不适检测和预防工具。

量化对不可变数据特征的情感反应和数据可视化中的设计者选择

分类： 人机交互, H.1.2

作者： Carter Blair, Xiyao Wang, Charles Perin

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18427v1

摘要： 情感是设计可视化时需要考虑的一个重要因素，因为它会影响观看者对可视化的信任程度、他们检索信息和理解底层数据的能力以及他们与可视化的互动或联系程度。我们进行了五项众包实验，以量化颜色、图表类型、数据趋势、数据变异性和数据密度对情绪的影响（通过自我报告的唤醒度和效价来衡量）。我们的实验结果表明，有多种设计元素会影响可视化所引发的情感，更令人惊讶的是，即使数据没有意义，某些数据特征也会影响观看者的情感。根据这些发现，我们提供了有关如何使用颜色、比例和图表类型来平衡和强调不可变数据特征的情感影响的指南。

持续时间和延迟对 VR 运动可识别性的影响

分类： 密码学和安全, 人机交互

作者： Mark Roman Miller, Vivek Nair, Eugy Han, Cyan DeVeaux, Christian Rack, Rui Wang, Brandon Huang, Marc Erich Latoschik, James F. O'Brien, Jeremy N. Bailenson

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18380v1

摘要： 社交虚拟现实是一种新兴的交流媒介。在这种媒体中，用户的化身（虚拟代表）由用户的耳机和手持控制器的跟踪运动控制。这种跟踪的运动是丰富的数据流，可以泄漏用户的特征，或者可以有效地与先前识别的数据匹配以识别用户。为了更好地理解运动数据可识别性的边界，我们研究了不同的训练数据持续时间和训练测试延迟如何影响机器学习模型在模拟重新识别的监督学习任务中正确分类用户运动的准确性。我们使用的数据集具有大量参与者、每次会话持续时间长、会话数量大以及会话进行时间跨度长的独特组合。我们发现训练数据持续时间和训练测试延迟会影响可识别性；最小的列车测试延迟可以带来非常高的准确度；并且在未来的实验中应该控制列车测试延迟。

数据退化对运动重新识别的影响

分类： 密码学和安全, 人机交互

作者： Vivek Nair, Mark Roman Miller, Rui Wang, Brandon Huang, Christian Rack, Marc Erich Latoschik, James F. O'Brien

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18378v1

摘要： 虚拟和增强现实设备的使用正在增加，但这些传感器丰富的设备对隐私构成了风险。跟踪用户的动作并推断用户的身份或特征的能力带来的隐私风险已受到广泛关注。然而，现有的针对这种风险的基于深度网络的防御措施需要大量的训练数据，并且尚未被证明可以推广到特定应用之外。在这项工作中，我们研究了信号退化对可识别性的影响，特别是通过增加噪声、降低帧速率、降低精度和降低数据维度。我们的实验表明，最先进的识别攻击对于每种降级仍然达到近乎完美的准确性。这一负面结果表明了对该运动数据进行匿名化的困难，并为现有的基于数据和计算密集型深度网络的方法提供了一些理由。

从评估角度探索大型语言模型中的孟加拉语宗教方言偏差

分类： 人机交互, 计算和语言, 计算机与社会, 多媒体, 社交和信息网络

作者： Azmine Toushik Wasi, Raima Islam, Mst Rafia Islam, Taki Hasan Rafi, Dong-Kyu Chae

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18376v1

摘要： 虽然大型语言模型 (LLM) 在过去十年中产生了巨大的技术影响，允许人类应用程序，但它们可能会产生包含刻板印象和偏见的输出，特别是在使用资源匮乏的语言时。在处理宗教等敏感话题时，这可能会引起极大的道德关注。作为使 LLMS 更加公平的一种手段，我们从宗教角度探讨孟加拉语中的偏见，特别关注两种主要宗教方言：印度教方言和穆斯林占多数的方言。在这里，我们进行了不同的实验和审核，使用三种常用的大语言模型（ChatGPT、Gemini 和 Microsoft Copilot）对不同句子进行比较分析，涉及特定单词的印度教和穆斯林方言，并展示哪些抓住了社会偏见，哪些抓住了社会偏见。不是。此外，我们分析了我们的发现，并将其与潜在原因和评估视角联系起来，考虑到它们对全球超过 3 亿发言者的全球影响。通过这项工作，我们希望为大语言模型创造更多的公平性，因为大语言模型被广泛用作创意写作代理。

计算归约的工具辅助学习

分类： 计算机与社会, 人机交互

作者： Tristan Kneisel, Elias Radtke, Marko Schmellenkamp, Fabian Vehlken, Thomas Zeume

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18215v1

摘要： 计算约简是计算机科学中一个重要而强大的概念。然而，对于许多学生来说，它们很难掌握。在本文中，我们概述了教育支持系统如何支持还原学习的概念。我们在这样的系统中提出了该概念的实现，具体的基于网络的交互式学习材料，并报告了我们在理论计算机科学的大型入门课程中使用该材料的经验。

IRIS：用于基于视觉的智能家居交互的无线环

分类： 人机交互, 新兴技术, 机器学习, 图像和视频处理

作者： Maruchi Kim, Antonio Glenn, Bandhav Veluri, Yunseo Lee, Eyoel Gebre, Aditya Bagaria, Shwetak Patel, Shyamnath Gollakota

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18141v1

摘要： 由于尺寸和功率的限制，将摄像头集成到无线智能戒指中一直具有挑战性。我们推出 IRIS，这是首款用于智能家居交互的无线视觉智能环系统。 IRIS 配备摄像头、蓝牙无线电、惯性测量单元 (IMU) 和板载电池，满足环形设备的小尺寸、重量和功率 (SWaP) 要求。 IRIS 具有上下文感知功能，可根据检测到的设备调整其手势集，一次充电可持续使用 16-24 小时。 IRIS 利用场景语义来实现实例级设备识别。在一项涉及 23 名参与者的研究中，IRIS 的速度始终超过了语音命令，在切换设备状态、精细控制和社会可接受性方面，更多参与者表示更喜欢 IRIS，而不是语音命令。我们的工作突破了环形设备的可能性界限，解决了系统挑战并开辟了新颖的交互功能。

ComPeer：用于主动同伴支持的生成对话代理

分类： 人机交互

作者： Tianjian Liu, Hongzheng Zhao, Yuheng Liu, Xingbo Wang, Zhenhui Peng

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18064v1

摘要： 作为同伴支持者的对话代理（CA）已被广泛研究并证明对人们的心理健康有益。然而，以前的对等支持 CA 要么是用户发起的，要么遵循预定义的规则来发起对话，这可能会阻碍用户为了长期利益而与 CA 互动并建立关系。在本文中，我们开发了 ComPeer，这是一种生成式 CA，可以主动为用户提供自适应对等支持。 ComPeer 利用大型语言模型来检测和反映对话中的重大事件，使其能够战略性地规划主动护理的时间和内容。此外，ComPeer 将同伴支持策略、对话历史及其角色纳入生成消息中。我们为期一周的受试者间研究 (N=24) 表明，与基线用户发起的 CA 相比，ComPeer 在长期提供同行支持和提高用户参与度方面具有优势。

iNNspector：可视化、交互式深度模型调试

分类： 人机交互, 机器学习

作者： Thilo Spinner, Daniel Fürst, Mennatallah El-Assady

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17998v1

摘要： 深度学习模型设计、开发和调试是一个由最佳实践、指南、试错和模型开发人员的个人经验驱动的过程。在此过程的多个阶段，可以记录并提供性能和内部模型数据。然而，由于这些数据和过程的复杂性和规模，模型开发人员通常会根据准确性和损失等抽象指标来评估模型性能。我们认为，沿着模型架构和多个抽象级别对数据进行结构化分析可以大大简化调试过程。这样的系统分析可以进一步将开发人员的设计选择与其对模型行为的影响联系起来，促进深度学习模型的理解、诊断和完善。因此，在本文中，我们（1）贡献了一个构建深度学习实验数据空间的概念框架。我们的框架以文献分析和需求访谈为基础，捕捉设计维度并提出使这些数据可探索和易于处理的机制。为了在现成的应用程序中运行我们的框架，我们 (2) 提出了 iNNspector 系统。 iNNspector 能够跟踪深度学习实验，并提供从多个模型到单个神经元的所有抽象级别的数据的交互式可视化。最后，我们 (3) 通过三个真实用例以及深度学习开发人员和数据分析师的用户研究来评估我们的方法，证明其有效性和可用性。

话语铜绿：数据可视化中的锚定讨论

分类： 人机交互

作者： Tobias Kauer, Derya Akbaba, Marian Dörk, Benjamin Bach

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17994v1

摘要： 本文介绍了话语铜绿，一种将讨论可视化到数据可视化的技术，其灵感来自于人们如何在物理世界中留下痕迹。虽然数据可视化在在线社区和社交媒体中得到广泛讨论，但评论往往与可视化分开显示，我们缺乏将这些讨论与可视化内容联系起来的方法，例如定位评论、解释视觉模式或问题假设。在我们的可视化注释界面中，用户可以指定可视化中的区域。话语铜绿由重叠的视觉标记（锚点）组成，附加到带有类别标签、点赞和回复的文本评论。通过对锚点进行着色和样式设置，元可视化就会出现，显示人们对可视化进行评论和注释的内容和位置。这些铜绿显示了激烈讨论的区域、最近的评论活动以及问题、建议或个人故事的分布。我们与 90 名学生、领域专家和可视化研究人员一起举办了研讨会，研究人们如何使用锚点来讨论可视化以及铜绿如何影响人们对讨论的理解。我们的结果表明，话语铜绿提高了引导讨论的能力，并引导人们发表有助于理解、情境化或审查可视化的评论的能力。我们讨论锚点和铜绿支持话语参与的潜力，包括可视化的批判性阅读、设计反馈和数据可视化的女权主义方法。

智能手表上的微观可视化：评估步行时的阅读性能

分类： 人机交互

作者： Fairouz Grioui, Tanja Blascheck, Lijie Yao, Petra Isenberg

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17893v1

摘要： 通过两项研究，我们评估了不同的行走轨迹（直线、圆形和无限远）和速度（2 公里/小时、4 公里/小时和 6 公里/小时）如何影响参与者阅读微可视化的准确性和响应时间智能手表。我们向参与者展示了常见的表盘微观可视化，包括日期、时间、天气信息以及显示健身数据进度图表的四种复杂功能。我们的研究结果表明，虽然步行轨迹不会显着影响阅读表现，但整体步行活动，尤其是高速时，会损害阅读准确性，并在某种程度上影响响应时间。

EEG-SSM：利用状态空间模型进行痴呆症检测

分类： 机器学习, 人工智能, 人机交互

作者： Xuan-The Tran, Linh Le, Quoc Toan Nguyen, Thomas Do, Chin-Teng Lin

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17801v1

摘要： 状态空间模型 (SSM) 因其有效处理长数据序列、减少将时间序列分割为较短间隔以进行模型训练和推理的需要而受到关注。传统上，SSM 仅捕获时间序列数据的时间动态，而忽略了同样重要的光谱特征。本研究介绍了 EEG-SSM，这是一种基于状态空间模型的新型方法，用于使用 EEG 数据进行痴呆症分类。我们的模型具有两项主要创新：EEG-SSM 时间分量和 EEG-SSM 频谱分量。时间组件旨在有效处理不同长度的脑电图序列，而频谱组件通过集成脑电图信号的频域信息来增强模型。这些组件的协同作用使 EEG-SSM 能够熟练地管理多元 EEG 数据的复杂性，显着提高不同时间分辨率下的准确性和稳定性。 EEG-SSM 在对健康控制 (HC)、额颞叶痴呆 (FTD) 和阿尔茨海默氏病 (AD) 组进行分类方面表现出高达 91.0% 的准确率，在相同数据集上的表现优于现有模型。 EEG-SSM 的发展代表了状态空间模型在痴呆症筛查中的应用的进步，为临床神经科学提供了更精确和更具成本效益的工具。

TwIPS：大型语言模型驱动的短信应用程序，可简化自闭症用户对话的细微差别

分类： 人机交互, 人工智能

作者： Rukhshan Haroon, Fahad Dogar

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17760v1

摘要： 自闭症患者在传达和解释情绪基调和非字面细微差别方面经常遇到困难。许多人还隐藏自己的沟通方式，以避免被他人误解，并在此过程中花费大量时间和精力。为了解决基于文本的通信中的这些挑战，我们推出了 TwIPS，这是一种由大型语言模型 (LLM) 提供支持的原型短信应用程序，它可以帮助用户：a) 破译传入消息的语气和含义，b) 确保情绪基调他们的信息符合他们的意图，并且 c) 为可能被他人误解和负面接收的信息提出替代措辞。我们利用基于 AI 的模拟和对话脚本，在实验室环境中与 8 位自闭症参与者一起评估 TwIPS。我们的研究结果表明，TwIPS 为参与者提供了一种寻求澄清的便捷方式，提供了语气指标的更好替代方案，并促进了对写作技巧和风格的建设性反思。我们还研究了自闭症用户如何在即时消息传递中利用语言进行自我表达和解释，并收集反馈以增强我们的原型。最后，我们讨论了如何平衡用户自主权与人工智能中介、在人工智能系统中建立适当的信任级别，以及在人工智能辅助沟通的背景下自闭症用户的定制需求

DesignChecker：为盲人和低视力 Web 开发人员提供视觉设计支持

分类： 人机交互

作者： Mina Huh, Amy Pavel

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17681v1

摘要： 盲人和低视力 (BLV) 开发人员创建网站来分享知识和展示他们的作品。设计良好的网站可以吸引受众并有效地传递信息，但 BLV 开发人员审查其网页设计仍然具有挑战性。我们对 BLV 开发者 (N=9) 进行了采访，并分析了 BLV 开发者创建的 20 个网站。 BLV 开发人员创建了高度可访问的网站，但希望评估其网站对于视力正常的用户的可用性，并遵循其他网站的设计标准。他们还遇到了使用屏幕阅读器识别难以辨认的文本、未对齐的元素和不和谐的颜色的挑战。我们推出 DesignChecker，这是一款浏览器扩展程序，可帮助 BLV 开发人员改进其网页设计。借助 DesignChecker，用户可以通过将其当前设计与视觉设计指南、他们选择的参考网站或一组类似网站进行比较来评估其当前设计。 DesignChecker 还可以识别违反设计准则的特定 HTML 元素，并建议 CSS 更改以进行改进。我们的用户研究参与者 (N=8) 认识到比使用典型工作流程更多的视觉设计错误，并表达了对未来使用 DesignChecker 的热情。

会说话的维基数据：沟通模式及其对协作知识图谱中社区参与的影响

分类： 社交和信息网络, 人机交互

作者： Elisavet Koutsiana, Ioannis Reklos, Kholoud Saad Alghamdi, Nitisha Jain, Albert Meroño-Peñuela, Elena Simperl

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.18278v1

摘要： 我们研究维基数据的协作模式，维基数据是世界上最大的协作知识图社区之一。维基数据缺乏与一小群无价的成员（0.8%）的长期合作，而他们贡献了 80% 的贡献。因此，有必要调查他们的行为模式并找到增强他们的贡献和参与的方法。先前的研究强调了贡献者之间的讨论对于理解这些模式的重要性。为了调查这一点，我们分析了维基数据上的所有讨论，并使用了混合方法，包括统计测试、网络分析以及文本和图形嵌入表示。我们的研究表明，维基数据编辑之间的互动形成了一个小型的世界网络，其中帖子的内容会影响对话的连续性。我们还发现维基数据成员的帐户年龄及其对话是他们长期参与该项目的重要因素。我们的研究结果可以帮助维基数据社区改进实践以增加贡献并增强长期参与，从而使维基数据社区受益。

展望积极社会技术的新未来：超越修复、保护和预防的范式

分类： 人机交互

作者： JaeWon Kim, Lindsay Popowski, Anna Fang, Cassidy Pyle, Guo Freeman, Ryan M. Kelly, Angela Y. Lee, Fannie Liu, Angela D. R. Smith, Alexandra To, Amy X. Zhang

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17579v1

摘要： 当今的社会技术研究主要侧重于减轻技术的负面影响，因此常常忽视技术在增强人类联系和福祉方面的潜力。然而，我们看到有可能转向以整体视角看待社会技术对人类繁荣的影响。我们引入积极社会技术（Positech），这是一个将重点转向利用社会技术来支持和促进人类繁荣的框架。本次研讨会围绕与 Positech 相关的三个主题组织：1)“探索相关和邻近研究”，通过相关领域的见解来定义和扩大 Positech 的范围，2)“预测 Positech 的前景”，让参与者概述该领域的关键方面3）“展望Positech的未来”，围绕可持续研究社区的战略规划。最终，本次研讨会将作为一个平台，将社会技术研究的叙述转向更积极、以人为本的方法。它将促进不仅仅是修复技术以保护人类免受伤害的研究，还旨在通过技术丰富人类的经验和联系。

ProvenanceWidgets：用于跟踪和动态覆盖分析出处的 UI 控制元素库

分类： 人机交互

作者： Arpit Narechania, Kaustubh Odak, Mennatallah El-Assady, Alex Endert

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17431v1

摘要： 我们推出了 ProvenanceWidgets，这是一个包含单选按钮、复选框和下拉列表等 UI 控制元素的 Javascript 库，用于跟踪和动态覆盖用户的分析来源。这些原位覆盖不仅节省了屏幕空间，还最大限度地减少了从 UI 中其他位置访问相同信息所需的时间和精力。在本文中，我们讨论如何设计模块化 UI 控制元素来跟踪用户与它们交互的频率和最近时间，并设计显示聚合摘要以及详细时间历史记录的视觉叠加层。我们通过重新创建三个先前的小部件库来演示 ProvenanceWidgets 的功能：(1) Scented Widgets、(2) Phosphor 对象和 (3) Dynamic Query Widgets。我们还评估了其表现力，并与可视化开发人员进行了案例研究，以评估其有效性。我们发现 ProvenanceWidgets 使开发人员能够有效地实施自定义来源跟踪应用程序。 ProvenanceWidgets 作为开源软件在 https://github.com/ProvenanceWidgets 上提供，可帮助应用程序开发人员构建基于来源的自定义系统。

与AI从业者和AI合规专家共同设计AI影响评估报告模板

分类： 人机交互, 人工智能, K.4.1, K.4.2, H.5.3, D.2.9, K.4.1; K.4.2; H.5.3; D.2.9

作者： Edyta Bogucka, Marios Constantinides, Sanja Šćepanović, Daniele Quercia

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17374v1

摘要： 在不断发展的人工智能监管格局中，公司进行影响评估并通过综合报告记录其合规性至关重要。然而，当前的报告缺乏法规依据，并且经常关注与人工智能系统相关的隐私等特定方面，而没有解决这些系统的实际用途。此外，还没有与人工智能从业者和人工智能合规专家一起设计和评估这些报告的系统性工作。为了弥补这一差距，我们与 14 名人工智能从业者和 6 名人工智能合规专家进行了迭代协同设计流程，并提出了一个基于欧盟人工智能法案、NIST 的人工智能风险管理框架和 ISO 42001 人工智能管理系统的影响评估报告模板。我们通过为一家大型科技公司基于人工智能的会议伙伴制作影响评估报告来评估该模板。对同一公司的 8 名人工智能从业者和来自工业界和学术界的 5 名人工智能合规专家进行的用户研究表明，我们的模板有效地为影响评估提供了必要的信息，并记录了人工智能系统的广泛影响。参与者设想不仅在部署前阶段使用该模板以确保合规性，而且还可以将其作为指导人工智能使用设计阶段的工具。

大语言模型在检测误导性可视化方面有多好（或多坏）？

分类： 人机交互, 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Leo Yu-Ho Lo, Huamin Qu

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17291v1

摘要： 在这项研究中，我们解决了日益严重的误导性图表问题，这是一个破坏信息传播完整性的普遍问题。误导性图表可能会扭曲查看者对数据的看法，导致基于错误信息的误解和决策。开发有效的误导图表自动检测方法是一个紧迫的研究领域。多模态大语言模型 (LLM) 的最新进展为应对这一挑战提供了一个有希望的方向。我们探索了这些模型在分析复杂图表和评估不同提示策略对模型分析的影响方面的能力。我们利用之前研究从互联网上收集的误导性图表数据集，精心制作了从简单到复杂的九个不同的提示，以测试四个不同的多模式大语言模型检测超过 21 个不同图表问题的能力。通过三个实验——从最初的探索到详细的分析——我们逐渐深入了解了如何有效地促使大语言模型识别误导性图表，并制定了策略来解决在我们将检测范围从最初的 5 个问题扩大到 21 个问题时遇到的可扩展性挑战。在最后的实验中。我们的研究结果表明，多模式大语言模型拥有强大的图表理解能力和数据解释批判性思维能力。利用多模式大语言模型通过支持批判性思维和增强可视化素养来对抗误导性信息具有巨大的潜力。这项研究证明了大语言模型在解决误导性图表的紧迫问题方面的适用性。

空间概念建模：将知识锚定在现实世界中

分类： 人机交互

作者： Hans-Georg Fill

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17259v1

摘要： 本文介绍了空间概念建模的概念，它允许使用增强现实技术将心理世界知识锚定在物理世界中。对于第一个形式表征，我们描述了从空间计算中使用的空间信息概念位置、场、对象、网络和事件到使用 FDMM 形式的概念建模概念的映射。这允许在元建模级别上识别必要的调整，以使该方法适用于任意类型的空间概念建模语言。最后，讨论了空间概念建模在医疗领域、制造和工程、物理 IT 架构和智能家居、供应链管理和物流、土木工程、智慧城市和文化遗产中的可能应用领域。

教育中的非语言即时性分析：多模态计算模型

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习, 68T45, 68T10, 68U10, 91E45, I.2.10; I.5.4; K.3.1

作者： Uroš Petković, Jonas Frenkel, Olaf Hellwich, Rebecca Lazarides

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17209v1

摘要： 本文介绍了一种用于分析教育环境中非语言社会行为的新颖计算方法。该模型整合了多模态行为线索，包括面部表情、手势强度和空间动态，通过 RGB 课堂视频评估教师的非语言即时性 (NVI)。构建了来自德国教室的 400 个 30 秒视频片段的数据集，用于模型训练和验证。手势强度回归器与人类评分中位数的相关性为 0.84，感知距离回归器为 0.55，NVI 模型为 0.44。该模型展示了为非语言行为评估提供宝贵支持的潜力，接近个体评估者的准确性。根据问卷数据和训练有素的观察员评分进行验证，我们的模型显示出与相关教育成果的中等到强相关性，表明它们在反映有效教学行为方面的功效。这项研究推进了非语言交流行为的客观评估，为教育研究开辟了新的途径。

新闻忍者：在线新闻中语言偏见的游戏化注释

分类： 人机交互

作者： Smi Hinterreiter, Timo Spinde, Sebastian Oberdörfer, Isao Echizen, Marc Erich Latoschik

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17111v1

摘要： 最近的研究表明，可视化语言偏见可以减轻其负面影响。然而，生成此类可视化效果的可靠自动检测方法需要昂贵的知识密集型训练数据。为了促进媒体偏见数据集的数据收集，我们推出了 News Ninja，这是一款采用数据收集游戏机制来生成众包数据集的游戏。在注释句子之前，玩家会通过教程了解媒体偏见。我们的研究结果表明，与具有相似数据质量的专家数据集和众包数据集相比，接受过 News Ninja 培训的众包工作人员收集的数据集可以达到更高的注释者间协议。由于 News Ninja 鼓励持续游戏，它允许数据集随着时间的推移适应新闻的接收和情境化，提出了一种有前景的策略，以减少数据收集费用、教育玩家并促进长期偏见缓解。

AI-Gadget Kit：将 Swarm 用户界面与 LLM 驱动的代理集成，以实现丰富的桌面游戏应用程序

分类： 人机交互

作者： Yijie Guo, Zhenhan Huang, Ruhan Wang, Zhihao Yao, Tianyu Yu, Zhiling Xu, Xinyu Zhao, Xueqing Li, Haipeng Mi

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17086v1

摘要： 虽然群体用户界面（SUI）成功地丰富了有形的交互体验，但它们在自主行动规划方面的局限性阻碍了桌面游戏中个性化和动态交互生成的潜力。基于我们开发的AI-Gadget Kit，本文探讨了如何将LLM驱动的代理集成到桌面游戏中，使SUI能够执行复杂的交互任务。定义该套件的设计空间后，我们阐明了设计代理的方法，该代理可以将 SUI 的元动作扩展到复杂的运动规划。此外，我们还引入了一种附加提示方法，简化了桌面游戏中四种交互行为和四种交互关系的设计过程。最后，我们提出了几个应用场景来说明AI-Gadget Kit在SUI桌面游戏中构建个性化交互的潜力。我们希望将我们的工作作为案例研究，以激发对其他具有复杂交互任务的场景的多智能体驱动的 SUI 的研究。

NewsUnfold：创建一个新闻阅读应用程序，表明语言媒体偏见并收集反馈

分类： 人机交互

作者： Smi Hinterreiter, Martin Wessel, Fabian Schliski, Isao Echizen, Marc Erich Latoschik, Timo Spinde

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17045v1

摘要： 媒体偏见是一个多方面的问题，会导致片面观点并影响决策。解决数字媒体偏见的一种方法是通过机器学习方法自动检测和指示它。然而，由于难以获得可靠的训练数据，这种检测受到限制。事实证明，基于人机交互的反馈机制是促进数据收集过程的有效方法。因此，我们引入并测试了媒体偏见领域的反馈机制，然后在 NewsUnfold 上实现，这是一个新闻阅读 Web 应用程序，用于收集读者对在线新闻文章中机器生成的偏见亮点的反馈。我们的方法通过将注释器间一致性显着提高 26.31% 并将分类器性能提高 2.49% 来增强数据集质量。作为第一个针对媒体偏见的人机循环应用程序，反馈机制表明，以用户为中心的媒体偏见数据收集方法可以返回可靠的数据，同时可扩展并被评估为易于使用。 NewsUnfold 表明，反馈机制是一种很有前途的策略，可以减少数据收集费用并根据上下文的变化不断更新数据集。

文化对可再生能源活动的影响：对现有技术的扩展分析

分类： 软件工程, 人机交互

作者： Chowdhury Shahriar Muzammel, Maria Spichkova, James Harland

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17038v1

摘要： 设计符合文化背景的移动软件对于优化人机交互至关重要。考虑文化影响不仅对于实际的功能/非功能需求集至关重要，而且对于整个需求工程 (RE) 过程也至关重要。如果没有清楚地了解文化对可再生能源活动的影响，就不可能制定出一套正确且完整的要求。本研究根据最近的研究探讨了民族文化对可再生能源相关活动的影响。我们对 2019-2023 年发表的研究进行了系统文献综述 (SLR)，并将其与 2000-2018 年的旧版 SLR 进行了比较。我们确定了 17 项相关研究，提取了影响 RE 活动的 33 种文化影响，并将它们映射到 Hofstede 模型，该模型广泛用于软件开发研究中的文化分析。我们的工作强调了民族文化在可再生能源活动中的关键作用，总结了当前的研究趋势，并帮助从业者考虑文化对移动应用程序/软件开发的影响。

大语言模型生成的技巧可与专家创建的技巧相媲美，帮助学生回答量子计算问题

分类： 人机交互

作者： Lars Krupp, Jonas Bley, Isacco Gobbi, Alexander Geng, Sabine Müller, Sungho Suh, Ali Moghiseh, Arcesio Castaneda Medina, Valeria Bartsch, Artur Widera, Herwig Ott, Paul Lukowicz, Jakob Karolus, Maximilian Kiefer-Emmanouilidis

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17024v1

摘要： 个别教学是传授知识的最成功的方法之一。然而，由于每个教育者的学生数量较多，这种方法并不总是可行。由于围绕它的炒作，量子计算是面临这个问题的一个主要例子。减轻教师的繁重工作量，通常伴随着个别教学，对于持续高质量的教育至关重要。因此，利用 GPT-4 等大型语言模型 (LLM) 来生成教育内容可能很有价值。我们进行了两项补充研究，探索使用 GPT-4 自动为学生生成提示的可行性。在第一个项目中，学生 (N=46) 在专家创建或大语言模型生成的提示的帮助下解决了四个多项选择量子计算问题。为了纠正对大语言模型可能存在的偏见，我们引入了两个附加条件，使一些参与者相信他们得到的是专家创建的提示，而实际上他们得到的是大语言模型生成的提示，反之亦然。我们的第二项研究（N=23）旨在直接比较大语言模型生成的技巧和专家创建的技巧，评估它们的质量、正确性和有用性，有经验丰富的教育工作者和学生参与。我们第二项研究的参与者发现，大语言模型生成的提示比专家创建的提示更有帮助，并且更好地指出相关概念，同时更容易泄露答案。第一项研究的参与者在给出标记为大语言模型生成的提示时，在回答量子计算问题时表现明显更好，即使它们是由专家创建的。这种现象可能是由于参与者对大语言模型生成内容的偏见而引起的安慰剂效应。最终，我们发现大语言模型生成的提示足以在量子计算基础知识中代替专家提示。

Pensieve 讨论：具有 AI 的可扩展小组 CS 辅导系统

分类： 计算机与社会, 人工智能, 人机交互

作者： Yoonseok Yang, Jack Liu, J. D. Zamfirescu-Pereira, John DeNero

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17007v1

摘要： 计算机科学 (CS) 领域的小组辅导是有效的，但也面临着为每个小组提供专门导师并鼓励小组成员之间大规模协作的挑战。我们推出了 Pensieve Discuss，这是一个软件平台，它将支架式编程问题的同步编辑与在线人类和人工智能导师集成在一起，旨在改善学生在小组辅导课程中的协作和体验。我们在 CS1 课程中对 800 名学生进行了一个学期的部署，展示了一贯的高协作率、对 AI 导师的帮助和正确性的积极反馈、对小组辅导体验的满意度提高以及问题量的大幅增加。与缺乏人工智能导师和同步编辑功能的界面相比，我们的系统更受欢迎。我们的经验表明，小组辅导课程是未来教育人工智能研究的重要途径。

SepsisLab：通过不确定性量化和主动传感进行早期脓毒症预测

分类： 机器学习, 人工智能, 人机交互, 68T07 (primary) 92C50 (secondary), H.2.8; I.2.1; J.3

作者： Changchang Yin, Pin-Yu Chen, Bingsheng Yao, Dakuo Wang, Jeffrey Caterino, Ping Zhang

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.16999v1

摘要： 败血症是美国院内死亡的主要原因。早期脓毒症发病预测和诊断可以显着提高脓毒症患者的生存率。现有的预测模型通常是在高质量数据上进行训练，缺失信息很少，而缺失值在现实临床场景中广泛存在（尤其是在入院的最初几个小时），这导致准确性显着下降和预测模型的不确定性。处理缺失值的常用方法是插补，即用观测数据的估计值替换不可用的变量。插补结果的不确定性可以传播到脓毒症预测输出，这在脓毒症预测或不确定性量化的现有工作中尚未进行研究。在本研究中，我们首先将这种传播的不确定性定义为预测输出的方差，然后引入不确定性传播方法来量化传播的不确定性。此外，对于由于观察有限而信心不足的潜在高风险患者，我们提出了一种强大的主动传感算法，通过积极推荐临床医生观察信息最丰富的变量来增加信心。我们在公开数据（即 MIMIC-III 和阿姆斯特丹UMCdb）和俄亥俄州立大学韦克斯纳医学中心（OSUWMC）的专有数据中验证了所提出的模型。实验结果表明，传播的不确定性在入院之初占主导地位，并且所提出的算法优于最先进的主动传感方法。最后，我们基于预先训练的模型实现了脓毒症实验室系统，用于早期脓毒症预测和主动传感。临床医生和潜在的脓毒症患者可以从该系统的脓毒症早期预测和诊断中受益。

机器人、界面和人类之间的协作：基于实践和受众视角

分类： 人机交互, 声音, 音频和语音处理

作者： Anna Savery, Richard Savery

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.16966v1

摘要： 本文对混合媒体实验音乐作品进行了分析，该作品探索了人类音乐互动与新开发的小提琴界面的整合，由即兴小提琴手、交互式视觉效果、机器人鼓手和即兴合成管弦乐队操纵。我们首先介绍所涉及系统的详细技术概述，包括每个组件的设计和功能。然后，我们进行基于实践的审查，检查支撑作品的创作过程和艺术决策，重点关注其开发过程中遇到的挑战和突破。通过这种内省分析，我们深入了解了人类表演者和技术代理之间的协作动态，揭示了将传统音乐表现力与人工智能和机器人技术相结合的复杂性。为了衡量公众的接受度和解释角度，我们进行了一项在线调查，并与不同的观众分享了表演视频。本次调查收集的反馈为作品的可及性、情感影响和感知艺术价值提供了宝贵的观点。受访者的反应强调了将先进技术融入音乐表演的变革潜力，同时也强调了需要进一步探索和完善的领域。

何时、何地以及什么？使用大型语言模型进行事故预测和本地化的新基准

分类： 计算机视觉和模式识别, 人机交互

作者： Haicheng Liao, Yongkang Li, Chengyue Wang, Yanchen Guan, KaHou Tam, Chunlin Tian, Li Li, Chengzhong Xu, Zhenning Li

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16277v2

摘要： 随着自动驾驶系统日益成为日常交通的一部分，准确预测和减轻潜在交通事故的能力至关重要。主要利用行车记录仪视频的传统事故预测模型擅长预测事故何时可能发生，但在定位事故和识别相关实体方面存在不足。为了解决这一差距，本研究引入了一种新颖的框架，该框架集成了大型语言模型 (LLM)，以增强跨多个维度的预测能力——事故可能发生的情况、时间和地点。我们开发了一种创新的基于链的注意力机制，可以动态调整以优先考虑复杂驾驶场景中的高风险元素。该机制得到了三阶段模型的补充，该模型将较小模型的输出处理为大语言模型的详细多模式输入，从而能够更细致地了解交通动态。 DAD、CCD 和 A3D 数据集的实证验证显示了平均精度 (AP) 和平均事故发生时间 (mTTA) 的卓越性能，为事故预测技术建立了新的基准。我们的方法不仅推进了自动驾驶安全的技术框架，还增强了人机交互，使自动系统生成的预测见解更加直观和可操作。

视频直通耳机如何影响自我和他人的感知

分类： 人机交互, 计算机与社会, J.4

作者： Monique Santoso, Jeremy N. Bailenson

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16904v1

摘要： 随着具有视频直通功能的混合现实耳机的日益普及，对感知和社交影响的担忧已经浮出水面。基于先前的定性研究结果，本研究定量调查了视频直通对用户的影响。四十名参与者完成了两次身体转移任务，一次在视频传递中佩戴耳机，一次不戴耳机。结果表明，使用视频直通会导致模拟器病，造成社交缺席（物理房间中的另一个人感觉不那么在场），改变自我报告的身体模式，并扭曲距离感知。另一方面，与过去的研究显示视频穿透会产生感知后遗症相比，当前的研究没有发现任何后遗症。我们讨论混合现实耳机的广泛采用的更广泛的影响及其对围绕存在和身体转移的理论的影响。

相信你的直觉：比较来自嘈杂可视化的人类和机器推理

分类： 人机交互, 机器学习

作者： Ratanond Koonchanok, Michael E. Papka, Khairi Reda

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16871v1

摘要： 人们通常利用可视化不仅来检查给定的数据集，而且还可以得出有关基础模型或现象的普遍结论。先前的研究将人类视觉推理与最佳贝叶斯代理进行了比较，偏离理性分析被认为是有问题的。然而，在某些情况下，人类对非规范启发法的依赖可能被证明是有利的。我们研究人类直觉可能超越理想化统计理性的场景。在两个实验中，我们检查了个体从双变量可视化中表征已知数据生成模型参数的准确性。我们的研究结果表明，尽管与统计模型相比，参与者的准确性普遍较低，但他们的表现经常优于贝叶斯代理，特别是在面对极端样本时。参与者似乎依靠他们的内部模型来过滤掉嘈杂的可视化，从而提高他们对虚假数据的抵御能力。然而，参与者表现出过度自信，并且在不确定性估计方面遇到困难。它们还表现出比统计机器更高的方差。我们的研究结果表明，分析师对可视化的直觉反应可能会带来优势，即使偏离了理性。这些结果对设计可视化分析工具具有重要意义，为如何整合统计模型和分析师直觉以改进推理和决策提供了新的视角。本文的数据和资料可在https://osf.io/qmfv6获取

TAMIGO：在高级计算课程中使用大语言模型辅助的 viva 和代码评估为助教提供支持

分类： 人机交互, 计算机与社会

作者： Anishka IIITD, Diksha Sethi, Nipun Gupta, Shikhar Sharma, Srishti Jain, Ujjwal Singhal, Dhruv Kumar

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16805v1

摘要： 大型语言模型 (LLM) 显着改变了教育格局，为学生、教师和助教提供了新工具。本文研究了大语言模型在印度大学分布式系统高级计算课程中协助助教 (TA) 进行 viva 和代码评估的应用。我们开发了 TAMIGO，这是一个基于大语言模型的系统，供助教评估编程作业。对于 viva 评估，助教使用 TAMIGO 生成问题并将这些问题分发给学生进行回答。然后，助教使用 TAMIGO 生成对学生答案的反馈。对于代码评估，助教从学生提交的代码中选择特定的代码块，并将其提供给 TAMIGO，以生成这些代码块的反馈。 TAMIGO 生成的学生答案和代码块反馈被助教用于进一步评估。我们评估 LLM 生成的 viva 问题、模型答案、viva 答案反馈以及学生代码提交反馈的质量。我们的结果表明，当提供足够的上下文和背景信息时，大语言模型可以非常有效地提出活生生的问题。然而，大语言模型对 viva 答案的反馈结果好坏参半；幻觉有时会降低反馈的准确性。尽管如此，反馈还是一致的、建设性的、全面的、平衡的，并没有压垮助教。同样，对于代码提交，大语言模型生成的反馈是建设性的、全面的和平衡的，尽管在将反馈与讲师提供的代码评估标准保持一致方面还有改进的空间。我们的研究结果有助于理解将大语言模型融入教育环境的好处和局限性。

用于零样本人类动作识别的融合和跨模态传输

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习, 信号处理

作者： Abhi Kamboj, Anh Duy Nguyen, Minh Do

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16803v1

摘要： 尽管生活在一个多感官的世界，大多数人工智能模型仅限于对人类运动和行为的文本和视觉解释。惯性测量单元 (IMU) 提供显着信号来了解人体运动；然而，由于数据的不可解释性和稀缺性，它们的使用具有挑战性。我们研究了一种使用为人类动作识别（HAR）设计的信息联合表示空间的结构在视觉和惯性模态之间传递知识的方法。我们将所得的融合和跨模态传输 (FACT) 方法应用于一种新颖的设置，其中模型在训练期间无法访问标记的 IMU 数据，并且能够在测试期间仅使用 IMU 数据执行 HAR。对各种 RGB-IMU 数据集进行的大量实验表明，FACT 在零样本跨模态迁移方面显着优于现有方法。

PrISM-Observer：帮助用户执行使用智能手表感知的日常程序的干预代理

分类： 人机交互, 人工智能

作者： Riku Arakawa, Hiromu Yakura, Mayank Goel

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16785v1

摘要： 我们经常执行包含一组原子步骤的程序（例如烹饪）。通常，无意的遗漏或错误的单个步骤可能会导致严重的后果，特别是对于那些经历痴呆症等认知挑战的人。本文介绍了 PrISM-Observer，这是一种基于智能手表的上下文感知实时干预系统，旨在通过防止错误来支持日常任务。与需要用户寻找信息的传统系统不同，代理会观察用户的行为并主动干预。这种能力是通过代理通过多模态感知不断更新其对用户行为的实时信念并预测最佳干预时刻和方法的能力来实现的。我们首先通过对三个具有不同复杂性的数据集进行评估来验证我们框架的步数跟踪性能。然后，我们使用智能手表实现了实时代理系统，并在烹饪任务场景中进行了用户研究。该系统产生了有用的干预措施，我们从参与者那里获得了积极的反馈。 PrISM-Observer 对日常任务的普遍适用性有望带来广泛的应用，例如，包括为需要更多干预的用户提供支持，例如痴呆症患者或手术后患者。

盲人和低视力人士导航中关键物体识别的数据集

分类： 计算机视觉和模式识别, 人机交互

作者： Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce, Md Alimoor Reza, Syed Masum Billah

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16777v1

摘要： 本文介绍了一个用于改进实时对象识别系统的数据集，以帮助盲人和低视力 (BLV) 个体完成导航任务。该数据集包含 21 个 BLV 个体在户外空间导航的视频，以及对 BLV 导航至关重要的 90 个物体的分类，并通过焦点小组研究进行了完善。我们还为 21 个视频创建的 31 个视频片段中的 90 个对象提供对象标签。更深入的分析表明，用于训练计算机视觉模型的大多数当代数据集仅包含我们数据集中分类法的一小部分。对我们数据集上最先进的计算机视觉模型的初步评估突出了准确检测与 BLV 导航相关的关键对象的缺点，强调了对专门数据集的需求。我们公开提供我们的数据集，为 BLV 个人开发更具包容性的导航系统提供宝贵的资源。

知识驱动的人工智能生成的数据可实现准确且可解释的乳腺超声诊断

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别, 人机交互

作者： Haojun Yu, Youcheng Li, Nan Zhang, Zihan Niu, Xuantong Gong, Yanwen Luo, Quanlin Wu, Wangyan Qin, Mengyuan Zhou, Jie Han, Jia Tao, Ziwei Zhao, Di Dai, Di He, Dong Wang, Binghui Tang, Ling Huo, Qingli Zhu, Yong Wang, Liwei Wang

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16634v1

摘要： 数据驱动的深度学习模型已显示出协助放射科医生进行乳腺超声 (US) 诊断的强大能力。然而，它们的有效性受到训练数据的长尾分布的限制，这在极少数情况下会导致不准确。在这项研究中，我们解决了使用长尾数据提高罕见病例诊断模型性能的长期挑战。具体来说，我们引入了一个管道 TAILOR，它构建一个知识驱动的生成模型来生成定制的合成数据。该生成模型使用 3,749 个病变作为源数据，可以生成数百万张乳房超声图像，特别是对于容易出错的罕见病例。生成的数据可进一步用于构建诊断模型，以实现准确且可解释的诊断。在前瞻性外部评估中，我们的诊断模型在具有相同敏感性的特异性方面比 9 名放射科医生的平均表现高出 33.5%，通过提供可解释的决策过程的预测来提高他们的表现。此外，在导管原位癌 (DCIS) 方面，我们的诊断模型大幅优于所有放射科医生，源数据中仅存在 34 个 DCIS 病变。我们相信 TAILOR 可以扩展到各种疾病和成像模式。

机器学习可视化数据集

分类： 人机交互

作者： Can Liu, Ruike Jiang, Shaocong Tan, Jiacheng Yu, Chaofan Yang, Hanning Shao, Xiaoru Yuan

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16351v1

摘要： 可视化数据集在数据驱动的可视化管道自动化中发挥着至关重要的作用，是监督模型训练和算法基准测试的基础。在本文中，我们调查了有关可视化数据集的文献，并对现有可视化数据集进行了全面概述，包括其数据类型、格式、支持的任务和开放性。我们提出了一个可视化数据集的“什么-为什么-如何”模型，考虑数据集的内容（什么）、支持的任务（为什么）和数据集构建过程（如何）。该模型提供了对可视化数据集的多样性和复杂性的清晰理解。此外，我们还强调了现有可视化数据集面临的挑战，包括数据类型和格式缺乏标准化以及大规模数据集的可用性有限。为了应对这些挑战，我们提出了未来的研究方向。

AutoLegend：用于可视化的用户反馈驱动的自适应图例生成器

分类： 人机交互

作者： Can Liu, Xiyao Mei, Zhibang Jiang, Shaocong Tan, Xiaoru Yuan

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16331v1

摘要： 我们建议 AutoLegend 使用在线学习和用户反馈来生成交互式可视化图例。 AutoLegend 从可视化中准确提取符号和通道，然后生成高质量图例。 AutoLegend 支持图例和交互之间的双向交互，包括突出显示、过滤、数据检索和重定向。在分析了过去20年IEEE VIS论文中的可视化图例后，我们总结了可视化尤其是图表中图例设计的设计空间和评估指标。生成过程由三个相互关联的组件组成：图例搜索代理、反馈模型和对抗性损失模型。搜索代理通过探索设计空间来确定合适的图例解决方案，并通过标量分数接收来自反馈模型的指导。对抗性损失模型根据用户输入不断更新反馈模型。用户研究表明，AutoLegend 可以通过图例编辑来了解用户的偏好。

PhenoFlow：人类大语言模型驱动的视觉分析系统，用于探索大型和复杂的中风数据集

分类： 人机交互, 人工智能

作者： Jaeyoung Kim, Sihyeon Lee, Hyeon Jeon, Keon-Joo Lee, Hee-Joon Bae, Bohyoung Kim, Jinwook Seo

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16329v1

摘要： 急性中风需要及时诊断和治疗，以实现最佳的患者治疗效果。然而，与急性中风相关的临床数据，特别是血压（BP）测量的复杂性和不规则性，给有效的视觉分析和决策带来了巨大障碍。通过与经验丰富的神经科医生长达一年的合作，我们开发了 PhenoFlow，这是一种视觉分析系统，利用人类和大语言模型 (LLM) 之间的协作来分析急性缺血性中风患者的广泛而复杂的数据。 PhenoFlow 开创了一种创新的工作流程，其中大语言模型充当数据管理员，而神经学家则使用可视化和自然语言交互来探索和监督输出。这种方法使神经科医生能够更加专注于决策，同时减少认知负荷。为了保护敏感的患者信息，PhenoFlow 仅利用元数据进行推理并合成可执行代码，而不访问原始患者数据。这确保了结果的可重复性和可解释性，同时维护了患者的隐私。该系统采用切片包裹设计，利用时间折叠来创建重叠的圆形可视化。与线性条形图相结合，该设计有助于探索不规则测量的血压数据中有意义的模式。通过案例研究，PhenoFlow 证明了其支持对广泛临床数据集进行迭代分析的能力，减少认知负荷并使神经科医生能够做出明智的决策。基于与领域专家的长期合作，我们的研究证明了利用大语言模型来应对急性缺血性中风患者数据驱动的临床决策中当前挑战的潜力。

通过用户特定的指标和最佳缩放来提高多维投影质量

分类： 图形, 计算机视觉和模式识别, 人机交互

作者： Maniru Ibrahim

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16328v1

摘要： 高维数据的日益普及促进了用于数据可视化和探索的多维投影 (MP) 技术的发展，例如 t-SNE、UMAP 和 LAMP。然而，传统的 MP 方法通常采用通用质量度量，忽略了个人用户的偏好。这项研究提出了一个新框架，根据用户特定的质量标准定制 MP 技术，增强投影的可解释性。我们的方法结合了三个视觉质量指标：压力、邻域保留和轮廓得分，以创建用于精确 MP 评估的复合指标。然后，我们通过最大化复合度量值来优化投影比例。我们进行了一项实验，涉及两个具有不同投影偏好的用户，使用 t-SNE、UMAP 和 LAMP 生成投影。用户根据他们的标准对预测进行评分，生成两个训练集。我们为每组导出最佳权重，并将其应用于其他数据集，以确定每个用户的最佳预测。我们的研究结果表明，个性化预测可以有效捕捉用户偏好，促进更好的数据探索并实现更明智的决策。这种以用户为中心的方法促进了多维投影技术的进步，适应不同的用户偏好并增强可解释性。

抵消视觉聚类中的感知偏差：点大小调整在可变显示尺寸中的作用

分类： 人机交互

作者： Taehyun Yang, Hyeon Jeon, Jinwook Seo

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16322v1

摘要： 在协作和交流视觉分析中，散点图经常在不同的显示之间共享。然而，显示的变化使散点图的大小多样化。这种变化会影响对聚类模式的感知，引入潜在的偏差，导致聚类分析中的误解。在这项研究中，我们探讨了散点图大小如何影响聚类分配，并研究如何抵消这种偏差。我们首先进行一项对照研究，要求参与者对不同大小的散点图进行视觉聚类。我们发现散点图大小的变化会显着改变三个关键特征的聚类感知。在随后的实验中，我们研究了如何调整点大小来减轻这种偏差。结果，我们验证了调整点大小可以有效抵消由不同散点图大小引起的感知偏差。我们通过讨论我们的研究结果在现实世界应用中的必要性和适用性来结束我们的研究。

何时、何地以及什么？使用大型语言模型进行事故预测和本地化的新基准

分类： 计算机视觉和模式识别, 人机交互

作者： Haicheng Liao, Yongkang Li, Chengyue Wang, Yanchen Guan, KaHou Tam, Chunlin Tian, Li Li, Chengzhong Xu, Zhenning Li

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16277v1

社交媒体中的视频流行度：情感、原始特征和观众评论的影响

分类： 人机交互

作者： Malika Ziyada, Pakizar Shamoi

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16272v1

摘要： 互联网极大地影响了社交媒体用户的增长。如今，信息内容与娱乐一起在网络上呈现。鉴于环境问题作为重大全球问题的重要性，在社交网络上强调环境问题至关重要。本研究探讨了社交媒体上环境短视频的受欢迎程度决定因素，重点关注原始视频功能和观众参与度指标的比较影响。我们收集了视频数据集以及相关的受欢迎程度指标，例如每天的点赞数、观看次数、分享次数和评论次数。我们还提取了视频特征，包括持续时间、文本帖子长度、使用 VADER 和 text2emotion 模型进行情感和情绪分析以及调色板亮度。我们的分析包括两个主要实验：一个评估原始视频特征和流行度指标之间的相关性，另一个评估观众评论及其情绪对视频流行度的影响。我们采用具有标准缩放比例的岭回归分类器来预测受欢迎程度，根据每天的观看次数和喜欢次数中值将视频分类为受欢迎或不受欢迎。研究结果表明，与原始视频特征（准确度为 0.67）相比，观看者评论和反应（准确度为 0.8）对视频受欢迎程度有更大的影响。显着相关性包括帖子中的悲伤情绪与点赞数量之间的正相关关系，以及情绪分数与点赞和分享之间的负相关关系。这项研究强调了内容特征和公众认知在塑造社交媒体上环境信息的受欢迎程度方面的复杂关系。

集群触觉纹理数据库：具有多种滑动接触速度和方向的触觉纹理数据库

分类： 人机交互

作者： Michikuni Eguchi, Madoka Ito, Tomohiro Hayase, Yuichi Hiroi, Takefumi Hiraki

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16206v1

摘要： 人类感知整合了多感官信息，其中触觉感知在物体和表面识别中发挥着关键作用。虽然具有触觉模式的人机界面可提供增强的系统性能，但现有数据集主要关注视觉数据，而忽略了全面的触觉信息。以前的触觉纹理数据库记录了声音和加速度信号，但经常忽略探针纹理和手指纹理交互之间的细微差别。认识到这一缺点，我们提出了集群触觉纹理数据库，这是一个多模式数据集，记录来自人造聚氨酯橡胶指尖与不同纹理表面相互作用的视觉、听觉和触觉信号。该数据库旨在模仿人类手指的特性，包括五个速度级别和八个方向变化，提供触觉交互的全面研究。我们的评估揭示了在该数据集上训练的分类器在识别表面方面的有效性，以及估计每个表面的速度和方向的微妙之处。

颜色和情感：营销中基于情感的调色板研究

分类： 人机交互

作者： Maksat Shagyrov, Pakizar Shamoi

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.16064v1

摘要： 人们普遍认为，品牌中使用的颜色会显着影响品牌的认知。这项研究探讨了徽标中的颜色对消费者感知和情绪反应的影响。我们研究食品和饮料营销中颜色使用与情绪反应之间的关联。我们使用 644 家公司的数据集，使用 k 均值聚类分析了品牌徽标中的主色，以开发独特的调色板。同时，我们从这些公司的 Google 地图评论中提取了客户情绪和情绪（n=30,069），将其分为五种主要情绪：幸福、愤怒、悲伤、恐惧和惊讶。使用模糊集方法，这些情绪反应进一步分为四个强度级别：低、中、强和非常强。我们的方法涉及将特定的调色板与与每个品牌相关的主要情绪反应相关联。通过合并引起相似情绪反应的公司的调色板，我们确定了与每个情绪类别相对应的独特调色板。我们的研究结果表明，在分析的食品公司中，主导情绪是快乐，没有愤怒的情况。红色和灰色在所有情感类别中都很普遍，表明它们在品牌塑造中的重要性。我们的研究证实了特定的颜色与情绪的相关性，包括黄色与幸福的关联，蓝色与悲伤的关联，以及明亮的颜色与惊喜的关联。这项研究强调了颜色在塑造消费者态度方面的关键作用。研究结果对食品行业的品牌设计师具有实际意义。

“说出来是个好主意”：可视化设计初期写“舵”

分类： 人机交互, H.5.0

作者： Chase Stokes, Clara Hu, Marti A. Hearst

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15959v1

摘要： 书面语言是非视觉创意活动（例如撰写论文和规划搜索）的有用工具。本文研究了书面语言与可视化设计过程的集成。我们创造了“书写舵”的想法，它充当设计的指导力量或策略。通过对 24 名在职可视化设计师的访谈研究，我们首先发现只有少数参与者系统地使用写作来辅助设计。另一项由 15 名可视化设计师参与的研究检查了书面舵的四种不同变体：提出问题、陈述结论、撰写叙述和编写标题。总体而言，参与者反应积极；设计人员认识到明确写下设计组件的好处，并表示他们将在未来的设计工作中使用这种方法。更具体地说，两种方法——写问题和写结论/要点——被认为在整个设计过程中都是有益的，而写叙述则主要在创作阶段显示出希望。尽管有人提出了对数据探索过程中潜在偏差的担忧，但参与者还讨论了减轻此类担忧的策略。本文有助于更深入地理解语言和可视化之间的相互作用，并提出了对可视化设计过程的简单、轻量级的补充。

家居生活的未来：为现代家居生活设计智能空间

分类： 人机交互, 社交和信息网络

作者： Fatemeh Alizadeh, Dave Randall, Peter Tolmie, Minha Lee, Yuhui Xu, Sarah Mennicken, Mikołaj P. Woźniak, Dennis Paul, Dominik Pins

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15956v1

摘要： 智能家居技术的发展，特别是会话代理、机器人和虚拟化身等代理技术的发展，正在重塑我们对家庭和家庭生活的理解。这种转变凸显了现代家庭生活的复杂性，现在的家庭格局呈现出多样化的同居单位，如合住和公共居住安排。当这些代理技术融入日常生活和活动时，它们带来了特定的设计挑战和机遇。我们的研讨会将智能家居设想为动态的、用户形状的空间，重点关注将这些技术融入日常生活。我们的目标是联合设计、社会学和民族志等领域的研究人员和实践者，探索这些技术如何改变家庭动态，特别是通过边界流动性。我们将共同制定挑战和机遇的分类法，为代理技术的整合及其对当代生活安排的影响提供结构化的视角。

智利 STEM 大学新生计算思维的不平等

分类： 计算机与社会, 人机交互, 97P20, K.3.0; K.4.0

作者： Felipe González-Pizarro, Claudia López, Andrea Vásquez, Carlos Castro

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15833v1

摘要： 虽然计算思维在全世界范围内已成为一项基本技能，但拉丁美洲的正规小学和中学教育很少将培养计算思维的机制纳入课程中。该地区学生获得计算思维技能的程度仍然很大程度上未知。为了开始解决这一空白，本文介绍了一项横断面研究的结果，该研究描述了智利一所重点关注 STEM 学科的大学新生的计算思维能力。这项研究基于 500 多个回复，提供了不同性别、学校类型（私立或私立）和先前编程知识之间的计算思维显着不平等的证据。讨论深入探讨了这些差异如何与该国的背景因素相关，例如社会经济高度隔离的教育体系、主要关注技术获取的公共政策以及严重依赖自愿倡议来发展计算思维。这些发现可以启发未来的研究工作，并制定策略，为面临类似情况的国家进入 STEM 学位的学生创造一个更公平的领域。

分析自动击球系统对职业棒球的影响：以 KBO 联盟数据为例

分类： 人机交互, 68U99, J.4

作者： Kichang Lee, Kyungsik Han, JeongGil Ko

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15779v1

摘要： 职业棒球的最新进展导致了自动击球（ABS）系统或“机器人裁判”的引入，该系统利用机器学习、计算机视觉和精确跟踪技术来自动执行击球判罚。韩国棒球组织（KBO）联赛成为第一个在 2024 赛季实施 ABS 的职业棒球联赛。这项研究分析了 KBO 多个赛季的 2,515 场比赛的投球数据，以比较人类裁判员做出的决定与 ABS 做出的决定，特别关注好球区“灰色区域”内的差异。我们提出并回答了四个研究问题，以考察人类裁判和机器人裁判之间的差异、球员对 ABS 的适应、评估 ABS 系统的公平性和一致性，并分析其对比赛的战略影响。我们的研究结果为了解技术整合对体育裁判的影响提供了宝贵的见解，并为职业棒球及其他领域的未来实施提供了相关的经验教训。

MicroCam：利用智能手机显微镜摄像头进行情境感知接触表面传感

分类： 人机交互

作者： Yongquan Hu, Hui-Shyong Yeo, Mingyue Yuan, Haoran Fan, Don Samitha Elvitigala, Wen Hu, Aaron Quigley

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15722v1

摘要： 这项研究的主要焦点是手机与其周围表面之间谨慎而微妙的日常接触交互。预计此类交互将促进移动环境感知，包括分配药物更新、智能切换模式（例如静音模式）或启动命令（例如停用警报）等方面。我们推出了 MicroCam，这是一种基于接触的传感系统，它利用智能手机 IMU 数据来检测手机放置的常规状态，并利用内置显微镜摄像头来捕获复杂的表面细节。特别是，收集自然数据集以获取真实的表面纹理，以进行训练和测试。此外，我们基于持续学习优化了算法的深度神经网络组件，以准确地区分对象类别（例如桌子）和材料成分（例如木材）。实验结果凸显了该方法的卓越准确性、鲁棒性和泛化性。最后，我们围绕我们的原型进行了全面的讨论，涵盖系统性能以及潜在应用和场景等主题。

通过大语言模型援助支持老年人的数字自主权

分类： 人机交互, 计算和语言

作者： Jesse Roberts, Lindsey Roberts, Alice Reed

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15695v1

摘要： 互联网提供了大量的服务、社交联系和所需产品。然而，对于那些没有足够经验的人来说，由于诈骗者和小偷的危险始终存在，更不用说无数潜在的计算机病毒了，通过互联网与企业和朋友打交道可能会令人畏惧。就像一片森林，既有可食用的植物，也有有毒的植物，熟悉规范的人可以安全自在地居住，而新来者则需要指导。然而，依赖人工数字指南可能会很费力，而且往往不切实际。我们提出并试点了一个简单但未经探索的想法：大语言模型能否提供必要的支持，帮助因数字鸿沟而分离的老年人安全地实现数字自治？

移动计算中的人工智能事件图集：可视化人工智能移动化的风险和收益

分类： 人机交互, K.4.1, K.4.2, H.5.3, D.2.9, K.4.1; K.4.2; H.5.3; D.2.9

作者： Edyta Bogucka, Marios Constantinides, Julia De Miguel Velazquez, Sanja Šćepanović, Daniele Quercia, Andrés Gvirtz

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15685v1

摘要： 当今用于传达人工智能技术的风险和收益的可视化工具很大程度上是为具有技术专业知识的人员量身定制的。为了弥合这一差距，我们开发了一种采用叙事模式和互动元素的可视化，使更广泛的公众能够逐渐掌握与人工智能相关的各种风险和收益。我们利用包含移动计算中人工智能的 54 起现实世界事件的数据集，研究了增强公众理解的设计选择，并引发人们反思某些人工智能应用（即使是那些被法律视为低风险的应用）仍然可能导致重大事件。可视化：https://social-dynamics.net/mobile-ai-risks

IDA：通过大型语言模型和以人为本的设计打破无代码 UI 自动化的障碍

分类： 人机交互, 68T01

作者： egev Shlomov, Avi Yaeli, Sami Marreed, Sivan Schwartz, Netanel Eder, Offer Akrabi, Sergey Zeltyn

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15673v1

摘要： 业务用户将大量时间投入到企业数字平台内的重复性任务上，这凸显了对自动化的迫切需求。尽管 UI 自动化的低代码工具取得了进步，但其复杂性仍然是非技术业务用户采用的重大障碍。然而，大型语言模型 (LLM) 的最新进展通过提供更强大、更简单、更以人为本的编程环境，为克服这一障碍创造了新的机会。本文介绍了 IDA（智能数字学徒），这是一种新颖的无代码 Web UI 自动化工具，专门为没有技术背景的业务用户提供支持。 IDA 融合了以人为本的设计原则，包括演示引导式编程、语义编程模型以及针对业务用户技能定制的师生学习隐喻。通过利用大语言模型，IDA 克服了一些传统上限制无代码解决方案可能性的关键技术障碍。我们开发了 IDA 原型，并进行了涉及现实世界业务用户和企业应用程序的用户研究。令人鼓舞的结果表明用户可以有效地利用 IDA 来创建自动化。定性反馈表明 IDA 被认为用户友好且值得信赖。这项研究有助于释放人工智能助手的潜力，通过无代码用户界面自动化来提高业务用户的生产力。

人工智能中的问题、其哲学根源以及对科学和社会的影响

分类： 人工智能, 新兴技术, 人机交互

作者： Max Velthoven, Eric Marcus

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15671v1

摘要： 人工智能 (AI) 是当今最相关的新兴技术之一。鉴于此，本文提出应更加关注人工智能技术及其使用的哲学层面。有人认为，这种缺陷通常与关于知识增长的哲学误解相结合。为了识别这些误解，可以参考科学哲学家卡尔·波普尔和物理学家大卫·多伊奇的思想。两位思想家的著作都针对错误的知识理论，例如归纳主义、经验主义和工具主义。本文表明，这些理论与当前人工智能技术的运作方式有相似之处。它还表明，这些理论在人工智能（公共）讨论中非常活跃，通常被称为贝叶斯主义。根据波普尔和多伊奇的观点，所有这些理论都基于错误的知识哲学。这包括分析这些错误的哲学对人工智能在科学和社会中的应用的影响，包括一些可能出现的问题情况。本文最后对通用人工智能（AGI）提出了现实的展望，并提出了关于通用人工智能（A(G)I）和哲学（即认识论）的三个命题。

负责任的人工智能研究对创新和发展的影响

分类： 人机交互

作者： Ali Akbar Septiandri, Marios Constantinides, Daniele Quercia

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15647v1

摘要： 转化研究，尤其是快速发展的人工智能 (AI) 领域，是将科学发现转化为实际创新的关键。在负责任的人工智能（RAI）研究中，转化影响通常通过各种途径来看待，包括研究论文、博客、新闻文章以及即将出台的人工智能立法（例如欧盟人工智能法案）的起草。然而，RAI 研究的现实影响仍然是一个尚未充分探索的领域。我们的研究旨在通过两条途径捕获它：\emph{专利}和\emph{代码存储库}，这两者都提供了丰富且结构化的数据源。使用 1980 年至 2022 年人工智能及相关领域（包括计算机视觉、自然语言处理和人机交互）的 20 万篇论文的数据集，我们开发了一个 Sentence-Transformers 深度学习框架来识别 RAI 论文。该框架计算论文摘要和一组 RAI 关键词之间的语义相似度，这些关键词源自 NIST 的人工智能风险管理框架；旨在增强人工智能产品、服务和系统的设计、开发、使用和评估中的可信度考虑的框架。我们确定了 2015 年至 2022 年间在 CHI、CSCW、NeurIPS、FAccT 和 AIES 等顶级场所发表的 1,747 篇 RAI 论文。通过分析这些论文，我们发现进入专利或存储库的一小部分论文被高度引用，其中翻译的论文被高度引用。存储库的流程需要 1 年，专利的流程需要长达 8 年。有趣的是，有影响力的 RAI 研究并不局限于美国顶尖机构，欧洲和亚洲机构也做出了重大贡献。最后，RAI 论文的多学科性质很明显，通常融合了不同专业领域的知识，因为这些论文往往建立在现有知识的非常规组合的基础上。

通过人类与人工智能的团队合作，实现基于敏捷的生成式软件开发

分类： 软件工程, 人机交互, K.6.3

作者： Sai Zhang, Zhenchang Xing, Ronghui Guo, Fangzhou Xu, Lei Chen, Zhaoyuan Zhang, Xiaowang Zhang, Zhiyong Feng, Zhiqiang Zhuang

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15568v1

摘要： 在软件开发中，用户提出的原始需求常常是不完整的，这阻碍了应用程序功能的完整实现。随着大型语言模型的出现，最近采用自顶向下瀑布模型的方法采用提问方法来完成需求，试图探索进一步的用户需求。然而，用户受领域知识的限制，缺乏有效的接受标准，无法捕捉用户的隐性需求。此外，瀑布模型的累积误差可能导致生成的代码与用户需求之间的差异。敏捷方法论通过轻量级迭代和与用户的协作来减少累积错误，但挑战在于确保用户需求和生成的代码之间的语义一致性。我们提出 AgileGen，这是一种通过人与人工智能团队合作进行的基于敏捷的生成软件开发。 AgileGen 首次尝试使用 Gherkin 的可测试需求来实现需求和代码之间的语义一致性。此外，我们在人类与人工智能的团队合作方面进行创新，允许用户参与他们擅长的决策过程，并增强应用程序功能的完整性。最后，为了提高用户场景的可靠性，采用内存池机制收集用户决策场景并推荐给新用户。 AgileGen作为一种用户友好的交互系统，明显优于现有最佳方法16.4%，并获得了更高的用户满意度。

TOM：可穿戴智能助理开发平台

分类： 人机交互, 人工智能

作者： Nuwan Janaka, Shengdong Zhao, David Hsu, Sherisse Tan Jing Wen, Koh Chun Keat

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15523v1

摘要： 先进的数字助理可以显着提高任务绩效，减轻用户负担，并提供个性化指导以提高用户的能力。然而，这种智能数字助理的开发面临着巨大的挑战。为了解决这个问题，我们引入了 TOM，这是一个概念架构和软件平台 (https://github.com/TOM-Platform)，旨在支持智能可穿戴助手的开发，这些助手能够感知用户和环境的上下文。该系统是与 AR/MR 研究人员、HCI 研究人员、AI/机器人研究人员和软件开发人员合作开发的，并且不断发展以满足这些利益相关者的不同需求。 TOM有助于创建用于日常活动的智能辅助AR应用程序，并支持用户交互的记录和分析、新设备的集成以及为各种活动提供帮助。此外，我们还展示了几种概念验证辅助服务，并讨论了开发此类服务所面临的挑战。

关于用户反馈的自动化处理

分类： 软件工程, 人机交互

作者： Walid Maalej, Volodymyr Biryuk, Jialiang Wei, Fabian Panse

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15519v1

摘要： 用户反馈正在成为需求工程、用户界面设计和软件工程日益重要的信息来源。如今，用户反馈在很大程度上可以在社交媒体、产品论坛或应用商店中轻松获得。在过去的十年中，研究表明用户反馈可以帮助软件团队：a）更好地了解用户如何实际使用特定的产品功能和组件，b）更快地识别、重现和修复缺陷，b）获得改进或改进的灵感新功能。然而，为了充分发挥反馈的潜力，有两个主要挑战需要解决。首先，软件供应商必须应对大量的反馈数据，而这些数据很难手动管理。其次，供应商还必须应对质量参差不齐的反馈，因为有些项目可能缺乏信息、重复或根本就是错误的。本章总结并总结了各种数据挖掘、机器学习和自然语言处理技术，包括最近的大型语言模型，以应对数量和质量的挑战。我们指导研究人员和从业者对软件和需求工程的用户反馈进行有效、可操作的分析。

大语言模型中的知识机制：调查与展望

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15017v1

摘要： 了解大型语言模型 (LLM) 中的知识机制对于迈向值得信赖的 AGI 至关重要。本文从一种新的分类学角度回顾了知识机制分析，包括知识利用和演化。知识运用深入研究记忆、理解、应用和创造的机制。知识演化侧重于个人和团体大语言模型知识的动态发展。此外，我们还讨论了大语言模型学到了哪些知识、参数化知识脆弱的原因以及难以解决的潜在暗知识（假设）。我们希望这项工作能够帮助理解大语言模型的知识，并为未来的研究提供见解。

avaTTAR：增强现实中的乒乓球击球训练与身体和分离可视化

分类： 人机交互

作者： Dizhi Ma, Xiyun Hu, Jingyu Shi, Mayank Pate, Rahul Jain, Ziyi Liu, Zhengzhe Zhu, Karthik Ramani

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15373v1

摘要： 乒乓球击球训练是运动员发展的一个重要方面。我们设计了一款新的增强现实（AR）系统avaTTAR，用于乒乓球击球训练。该系统提供“在身体上”（第一人称视图）和“分离”（第三人称视图）视觉提示，使用户能够可视化目标击球并通过这种双视角设置有效地纠正他们的尝试。通过结合姿势估计算法和 IMU 传感器，avaTTAR 捕获并重建用户在练习过程中的 3D 身体姿势和桨方向，从而可以与专家击球进行实时比较。通过用户研究，我们肯定了 avaTTAR 增强玩家体验和训练效果的能力。

基于多模态交互系统和人工智能的智能学前教育系统

分类： 人机交互

作者： Long Xu

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15326v1

摘要： 人工智能技术的快速进步引起了人们对其解决各个领域挑战的潜力的极大兴趣，教育也不例外。无论是在发达国家还是发展中国家，提高学习成果和向所有人提供相关教育一直是普遍的主导主题。在当今技术驱动的个性化时代，它们具有更重要的意义。

感受小草的生长：让空中触觉参数看得见、摸得着、可控

分类： 人机交互, 多媒体

作者： Mingxin Zhang, Qirong Zhu, Yasutoshi Makino, Hiroyuki Shinoda

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15063v1

摘要： 在本文中，我们提出了一种超声波空中触觉交互系统，该系统集成了触觉参数的设计可视化，同时保持易于控制。为现实世界的触觉纹理设计相应的触觉参数是一项复杂的任务。此外，用户在同时控制多维触觉参数以实现所需的振动反馈方面常常面临困难。为了应对这些挑战，SLS优化方法方便用户通过简单的一维滑块控制这些多维参数。同时，我们的系统采用“Growing Grass”比喻来实时可视化触觉参数调整。这种结合视觉和触觉的方法可以带来更丰富的体验，并产生触摸草地表面的真实感觉。我们的目标是通过这个创新系统增强用户对触觉参数的直观理解。

CoCoG-2：用于理解人类概念表示的可控视觉刺激生成

分类： 神经元和认知, 计算机视觉和模式识别, 人机交互

作者： Chen Wei, Jiachen Zou, Dietmar Heinke, Quanying Liu

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14949v1

摘要： 人类使用抽象概念来解释复杂的视觉刺激，从而促进诸如食物选择和风险规避等决策任务。相似性判断任务对于探索这些概念是有效的。然而，概念空间中可控图像生成的方法尚不成熟。在这项研究中，我们提出了一个名为 CoCoG-2 的新颖框架，它将生成的视觉刺激集成到相似性判断任务中。 CoCoG-2 利用免训练制导算法来增强生成灵活性。 CoCoG-2 框架用途广泛，可用于基于人类概念创建实验刺激，支持指导视觉刺激生成的各种策略，并演示这些刺激如何验证各种实验假设。 CoCoG-2 将通过生成视觉刺激来增进我们对概念表征和行为之间因果关系的理解。该代码可在 \url{https://github.com/ncclab-sustech/CoCoG-2} 获取。

影响者：让日常用户能够通过人工智能探索和定制来创建促销帖子

分类： 软件工程, 人机交互

作者： Xuye Liu, Annie Sun, Pengcheng An, Tengfei Ma, Jian Zhao

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14928v1

摘要： 在社交平台上创建宣传帖子使日常用户能够传播他们的创意成果、参与社区交流或从微型企业中获得额外收入。然而，对于大多是设计新手的日常用户来说，创建引人注目的帖子，结合原创、吸引人的图像和清晰有效的标题，可能相当具有挑战性和耗时。我们推荐 Influen，这是一款交互式工具，可帮助新手创作者制作高质量的宣传帖子设计，通过人工智能实现快速的设计构思和无阻碍的内容创作。在 Influencer 中，我们贡献了一个多维推荐框架，允许用户通过基于示例的图像和标题推荐直观地产生新想法。此外，Influencer实施了一个整体的促销帖子设计系统，该系统支持考虑品牌信息和用户指定的设计约束的上下文感知图像和标题探索、各种图像和标题的灵活融合以及用于思维跟踪和帖子的思维导图式布局-记录。我们通过实验室用户研究与 12 名设计爱好者一起评估了 Influencer，并将其与 Google 搜索 + Figma 相结合的基线进行了比较。定量和定性结果表明，\sysname{} 可以有效地帮助设计新手产生想法以及具有用户友好的交互的创意和多样化的宣传帖子。

当定性研究遇到大型语言模型：探索 QualiGPT 作为定性编码工具的潜力

分类： 人机交互

作者： He Zhang, Chuhao Wu, Jingyi Xie, Fiona Rubino, Sydney Graver, ChanMin Kim, John M. Carroll, Jie Cai

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14925v1

摘要： 定性研究以其对复杂现象的深入探索而闻名，通常涉及耗时的分析，特别是在编码阶段。现有的定性评估软件经常缺乏自动编码功能、用户友好性和成本效益。 GPT-3 及其后继者等大型语言模型 (LLM) 的出现标志着增强定性分析的变革时代。本文介绍了 QualiGPT，这是一种为解决使用 ChatGPT 进行定性分析相关的挑战而开发的工具。通过对传统手动编码和 QualiGPT 在模拟和真实数据集上的性能进行比较分析，结合归纳和演绎编码方法，我们证明 QualiGPT 显着改进了定性分析过程。我们的研究结果表明，QualiGPT 提高了定性编码的效率、透明度和可访问性。使用评估者间可靠性 (IRR) 措施对该工具的性能进行了评估，结果表明人类编码员与 QualiGPT 在各种编码场景中基本一致。此外，我们还讨论了将人工智能融入定性研究工作流程的影响，并概述了加强该领域人类与人工智能合作的未来方向。

PREVis：可视化的感知可读性评估

分类： 人机交互, 图形

作者： Anne-Flore Cabouat, Tingying He, Petra Isenberg, Tobias Isenberg

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14908v1

摘要： 我们开发并验证了一种测量数据可视化中感知可读性的工具：PREVis。研究人员和从业者可以轻松地使用该工具作为评估的一部分，以比较不同视觉数据表示的感知可读性。我们的仪器可以补充用户任务性能的受控实验的结果，或者在深入的定性工作中提供额外的数据，例如开发新技术时的设计迭代。尽管可读性被认为是数据可视化的基本品质，但迄今为止，视觉表示上下文中的构造还没有统一的定义。因此，研究人员常常缺乏指导来确定如何要求人们对可视化的感知可读性进行评分。为了解决这个问题，我们采取了严格的流程来开发第一个针对视觉数据表示的主观可读性的经过验证的工具。我们的最终工具由 4 个维度的 11 个项目组成：可理解性、布局清晰度、数据值的可读性和数据模式的可读性。我们在 osf.io/9cg8j 上以包含实施指南的文件形式提供调查问卷。除了该工具之外，我们还讨论了研究人员之前如何评估可视化可读性，并对视觉数据表示中感知可读性的潜在因素进行了分析。

Web3 博彩中的政治倾向：解读政治动机和盈利动机的相互作用

分类： 计算机与社会, 人机交互, 社交和信息网络

作者： Hongzhou Chen, Xiaolin Duan, Abdulmotaleb El Saddik, Wei Cai

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14844v1

摘要： 利用透明的区块链用户行为数据，我们构建了政治投注倾向评分（PBLS），以根据 Web3 预测市场中的投注来衡量政治倾向。我们以 Polymarket 为中心，从 2024 年美国总统选举开始，综合了 4,500 个事件和 8,500 个市场中 15,000 个地址的行为，通过 PBLS 捕捉他们政治倾向的强度和方向。我们通过内部一致性检查和外部比较来验证 PBLS。我们通过捕获各种行为方面的 800 多个特征来揭示 PBLS 与投注行为之间的关系。对 2022 年美国参议院选举的案例研究进一步证明了我们的衡量能力，同时解码了政治动机和盈利动机之间的动态相互作用。我们的研究结果有助于理解去中心化市场的决策，增强对 Web3 预测环境中行为的分析。这项研究的见解揭示了区块链在实现创新、多学科研究方面的潜力，可以为更有效的在线预测市场的发展提供信息，提高预测的准确性，并帮助平台机制的设计和优化。论文的数据和代码可通过以下链接访问：https://github.com/anonymous。

SpatialTouch：探索跨现实中的空间数据可视化

分类： 人机交互

作者： Lixiang Zhao, Tobias Isenberg, Fuqi Xie, Hai-Ning Liang, Lingyun Yu

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14833v1

摘要： 我们提出并研究了一种新颖的跨现实环境，它将单视场 2D 表面（具有触摸和笔输入的交互式屏幕）与立体 3D 空间（增强现实 HMD）无缝集成，以共同托管空间数据可视化。这种创新方法结合了显示和操作空间 3D 数据的两种传统方法的优点，使用户能够使用定制的交互技术流畅地探索不同的视觉形式。提供这种有效的 3D 数据探索技术对于跨不同应用领域传达其复杂的空间结构（通常在多个空间或语义尺度）以及需要不同的视觉表示来实现有效可视化至关重要。为了了解用户对新环境的反应，我们从启发式用户研究开始，捕捉他们的反应和互动。我们观察到，用户根据感知的视觉表示调整他们的交互方法，在物理表面上导航时空间意识和动作自然过渡。然后，我们的研究结果为跨现实空间数据探索的设计空间的开发提供了信息。因此，我们开发了针对三个不同领域的跨现实环境：3D 分子结构数据、3D 点云数据和 3D 解剖数据。特别是，我们设计的交互技术考虑了两个空间交互的固有特征，促进了各种形式的交互，包括空中手势、触摸交互、笔交互及其组合，以增强用户的存在感和体验感。订婚。我们与生物学家一起评估了我们环境的可用性，重点关注其在领域研究中的用途。此外，我们还与虚拟和混合现实专家评估了我们的交互过渡设计，以收集进一步的见解。

生成式人工智能模型在代表非西方文化时是否会产生伤害：来自以社区为中心的方法的证据

分类： 计算机与社会, 人工智能, 人机交互

作者： Sourojit Ghosh, Pranav Narayanan Venkit, Sanjana Gautam, Shomir Wilson, Aylin Caliskan

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14779v1

摘要： 我们的研究调查了生成人工智能（GAI）模型，特别是文本到图像生成器（T2Is）对非西方文化表现的影响，重点是印度背景。尽管 T2Is 在内容创作方面具有变革潜力，但人们仍然担心可能导致误传和边缘化的偏见。通过以社区为中心的方法和对来自不同印度亚文化的 5 个焦点群体的扎根理论分析，我们探讨了 T2I 的英语提示输出如何描绘印度文化及其亚文化，揭示异国情调和文化盗用等新颖的代表性危害。这些发现凸显了对包容性和文化敏感的 T2I 系统的迫切需求。我们提出从社会技术角度出发的设计指南，旨在解决这些问题，并为全球开发更公平、更具代表性的 GAI 技术做出贡献。我们的工作还强调了采用以社区为中心的方法来理解这些模型的社会技术动态的必要性，补充了该领域的现有工作，同时识别和解决这些模型在全球范围内部署时可能出现的潜在负面影响和危害。

SLInterpreter：用于基于 GNN 的综合致死预测的探索性迭代人类 AI 协作系统

分类： 人机交互

作者： Haoran Jiang, Shaohan Shi, Shuhao Zhang, Jie Zheng, Quan Li

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14770v1

摘要： 合成致死（SL）关系虽然在大量基因组合中很少见，但为靶向癌症治疗带来了巨大希望。尽管人工智能模型的准确性取得了进步，但领域专家仍然非常需要与特定领域的知识更好地结合的解释路径和机制探索，特别是由于实验成本高昂。为了解决这一差距，我们提出了一个迭代的人类-人工智能协作框架，该框架包含两个关键组成部分：1）基于元路径策略的人类参与的知识图细化，它利用来自解释路径和领域专业知识的见解，通过元路径策略细化知识图适当的粒度。 2）跨粒度SL解释增强和机制分析，帮助专家组织和比较跨不同粒度的预测和解释路径，发现新的SL关系，增强结果解释，并阐明图神经网络（GNN）模型推断的潜在机制。这些组件循环优化模型预测和机制探索，增强专家参与和干预以建立信任。在 SLInterpreter 的推动下，该框架确保新生成的解释路径日益与领域知识保持一致，并通过迭代的人类与人工智能协作更紧密地遵循现实世界的生物学原理。我们通过案例研究和专家访谈来评估该框架的有效性。

用于后遗症分析和建模中持续人机协作的两阶段可视化系统

分类： 人机交互

作者： Yang Ouyang, Chenyang Zhang, He Wang, Tianle Ma, Chang Jiang, Yuheng Yan, Zuoqin Yan, Xiaojuan Ma, Chuhan Shi, Quan Li

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14769v1

摘要： 在医疗保健领域，人工智能技术广泛用于风险评估和异常检测等任务。尽管人工智能具有作为有价值助手的潜力，但它在复杂的医疗数据分析中的作用往往过度简化了人类与人工智能的协作动态。为了解决这个问题，我们与当地一家医院合作，邀请六名医生和一名数据科学家参与一项形成性研究。通过这次合作，我们提出了一个集成两阶段交互式可视化系统的框架：一个用于人类主导、人工智能辅助的回顾性分析，另一个用于人工智能介导、人类审查的迭代建模。该框架旨在加强对医疗保健领域有效的人机人工智能协作的理解和讨论。

了解设计过程中非人类利益相关者的需求：方法概述和反思

分类： 人机交互

作者： Berre Su Yanlic, Aykut Coskun

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14750v1

摘要： 设计实践传统上侧重于人类关注，要么监督气候问题对非人类利益相关者的各种影响，要么将其视为解决这些问题的资源。气候危机的紧迫性要求设计转向可持续性和包容性。这种转变是通过设计中的一个新兴主题“超越人类”(MTH) 发生的，该主题将用户的概念扩展到动物、事物、自然和微生物。这种扩展要求设计师在设计过程中考虑非人类的视角。本文研究了 MTH 设计研究中用于探索和综合非人类用户观点的方法。它回顾了 30 篇论文，强调了 MTH 研究中对动物和事物的主要关注，而不是对植物和微生物的关注，以及合成方法的缺乏。它确定了代表非人类及其在更大生态系统中的关系的工具的必要性，并呼吁更多地关注植物和微生物，强调它们在可持续环境中的重要作用，并敦促研究人员开发理解这些物种的方法。通过强调方法的优点和缺点，它旨在指导计划与非人类用户合作的设计者和设计研究人员选择合适的方法。

分层数据的动态颜色分配

分类： 人机交互

作者： Jiashu Chen, Weikai Yang, Zelin Jia, Lanxi Xiao, Shixia Liu

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14742v1

摘要： 根据样本的类标签和空间分布为样本分配可辨别的和谐颜色，可以生成有吸引力的可视化效果并促进数据探索。然而，随着类别数量的增加，生成同时容纳所有类别的高质量颜色分配结果具有挑战性。一个实用的解决方案是将类组织成层次结构，然后在探索过程中动态分配颜色。然而，现有的颜色分配方法在生成高质量的颜色分配结果并将其与层次结构动态对齐方面存在不足。为了解决这个问题，我们开发了一种用于分层数据的动态颜色分配方法，该方法被表述为多目标优化问题。该方法同时考虑了每个层次的颜色可辨别性、颜色和谐性和空间分布。通过使用父类的颜色来指导子类的颜色分配，我们的方法进一步促进了跨层次级别的一致性和清晰度。我们通过定量实验和用户研究证明了我们的方法在生成动态颜色分配结果方面的有效性。

利用案例研究向行业从业者教授负责任的人工智能

分类： 人机交互, 计算机与社会

作者： Julia Stoyanovich, Rodrigo Kreis de Paula, Armanda Lewis, Chloe Zheng

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14686v1

摘要： 负责任的人工智能（RAI）是使人工智能的设计、开发和使用具有社会可持续性的科学和实践：在控制风险的同时获得创新的好处。当然，行业从业者对于我们实现 RAI 目标的集体能力起着决定性作用。不幸的是，我们还没有整合的教育材料和有效的方法来向从业者教授 RAI。在本文中，我们提出了一种新颖的利益相关者优先的教育方法，该方法使用交互式案例研究来实现组织和从业者层面的参与并促进 RAI 的学习。我们与国际科技公司 Meta 讨论合作伙伴关系，共同开发并向公司内的不同受众提供 RAI 研讨会。我们的评估结果表明，参与者发现研讨会很有吸引力，并表示他们在理解和动机上发生了积极转变，将 RAI 应用到他们的工作中。

审核电子商务搜索结果页面上自有品牌产品的基于网格的放置

分类： 计算机与社会, 人机交互, 信息检索

作者： Siddharth D Jaiswal, Abhisek Dash, Nitika Shroff, Yashwanth Babu Vunnam, Saptarshi Ghosh, Animesh Mukherjee

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14650v1

摘要： 电子商务平台支持两个最重要的利益相关者——客户和生产商/销售商的需求和生计。多种算法系统，例如“搜索”系统，通过将客户与相关商品的生产者联系起来，来调解这些利益相关者之间的互动。搜索结果包括 (i) 由平台本身制造/销售的自有品牌 (PL) 产品，以及 (ii) 广告/赞助和有机排名的第三方产品。在本文中，我们系统地量化了印度最大的两个电子商务平台 Amazon.in 和 Flipkart 的电子商务搜索结果中 PL 产品促销的程度。通过分析两个平台上的搜索结果快照，我们发现初始结果页面上的 PL 提升较高（约 15% 的 PL 在亚马逊的第一个 SERP 上进行了广告）。两个平台都使用不同的策略来推广他们的 PL 产品，比如在广告位置放置更多的 PL——亚马逊将它们放置在搜索结果的第一、中间和最后一行，Flipkart 将它们放置在前两个位置和最后一行。搜索结果的（整个）最后一列。我们发现这两个平台的这些产品植入策略都符合文献中提出的现有用户注意力策略。最后，为了补充所收集数据的结果，我们在 Amazon Mechanical Turk 上对 68 名参与者进行了一项调查。我们调查的点击模式显示，用户强烈喜欢点击亚马逊搜索结果中与 PL 产品相对应的位置的产品，但在 Flipkart 上则不那么强烈。点击率遵循先前提出的二维布局中基于理论的用户注意力分布模式。

AudioInsight：从语音中检测与社交焦虑相关的社交背景

分类： 人机交互, 计算和语言

作者： Varun Reddy, Zhiyuan Wang, Emma Toner, Max Larrazabal, Mehdi Boukhechba, Bethany A. Teachman, Laura E. Barnes

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14458v1

摘要： 在社交互动过程中，了解环境的复杂性至关重要，特别是对于社交焦虑的人来说。虽然之前的研究发现，可以从环境音频中检测到社交互动的存在，但社交环境中的细微差别（影响如何引发焦虑的互动）在很大程度上仍未得到探索。作为自我报告等传统繁琐方法的替代方法，本研究提出了一种利用环境音频片段来检测社会威胁环境的新颖方法。我们关注两个关键维度：互动伙伴的数量（二元与群体）和评估威胁的程度（明确评估与非明确评估）。基于基于 Zoom 的社交互动研究（N = 52 名大学生，其中大多数 N = 45 患有社交焦虑）的数据，我们采用深度学习方法来实现强大的检测性能。在样本范围内的 5 倍交叉验证 (CV) 下，我们的模型以 90% 的准确率区分二元互动和群体互动，并以 83% 的准确率检测到评估威胁。使用留一组 CV，准确率分别为 82% 和 77%。虽然由于大流行的限制，我们的数据基于虚拟交互，但我们的方法有潜力扩展到不同的现实世界环境。这项研究强调了被动传感和人工智能区分复杂社会环境的潜力，并可能最终提高情境感知数字干预措施提供个性化心理健康支持的能力。

从指导到洞察：探索交互式仪表板中文本的功能和语义角色

分类： 人机交互

作者： Nicole Sultanum, Vidya Setlur

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14451v1

摘要： 在数据可视化领域，人们对文本和视觉效果之间的相互作用越来越感兴趣。然而，这种注意力主要集中在独立可视化中文本的使用或由一系列独立视图支持的增强文本故事上。在本文中，我们从传统上对单图表注释的关注转向描述文本在交互式仪表板的复杂环境中微妙但至关重要的沟通作用。通过对 190 个仪表板的实地调查和分析，加上与经验丰富的仪表板作者进行的 13 次专家访谈，我们强调了文本作为仪表板体验不可或缺的组成部分的独特性质，同时深入研究了类别、语义级别和功能角色文本，并探索仪表板作者如何合并这些文本元素来指导和告知仪表板用户。我们的贡献是：1）我们从研究中提炼出定性和定量的结果，以描述仪表板中文本使用的当前实践，包括基于文本的组件和设计模式的分类； 2) 我们利用当前实践和现有文献来提出、讨论和验证仪表板中文本的推荐实践，具体体现为 12 种启发式方法，强调文本在提供导航提示、情境化数据见解、支持阅读顺序等方面的语义和功能作用; 3) 我们反思我们的发现，找出差距，并为数据可视化研究人员提出机会，以突破仪表板文本使用的界限，从创作支持和交互性到文本生成和内容个性化。我们的研究强调了将文本提升为数据可视化中一等公民的重要性，以及支持在仪表板设计中包含文本组件及其交互功能的必要性。

探索发展中国家的室内空气质量动态：印度的视角

分类： 人机交互

作者： Prasenjit Karmakar, Swadhin Pradhan, Sandip Chakraborty

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14393v1

摘要： 室内空气污染是印度和孟加拉国等发展中国家的一个主要问题，传统烹饪方法、通风不足和拥挤的居住条件等因素加剧了室内空气污染，所有这些都增加了肺部感染和心血管疾病等健康问题的风险。世界卫生组织将全球每年约 320 万人的死亡与家庭空气污染联系起来，问题的严重性显而易见。然而，探索这些独特模式和室内污染程度的广泛实证研究却缺失。为了填补这一空白，我们对30多个家庭进行了为期六个月的实地研究，揭示了发展中国家室内空气污染的复杂性，例如VOC在空气中的滞留时间较长或空气流通对室内空气的显着影响。污染物的时空分布。我们推出了创新的物联网空气质量传感平台——分布式空气质量监测器 (DALTON)，该平台专门为满足这些国家的需求而设计，同时考虑了成本、传感器类型、精度、网络连接、功率和可用性等因素。由于多设备部署，该平台可以识别发展中国家中低收入家庭的污染热点。它确定了尽量减少日常室内污染暴露的最佳实践。我们广泛的定性调查估计总体系统可用性得分为 2.04，表明空气质量监测系统非常高效。

随着生成模型的改进，人们会调整他们的提示

分类： 人机交互, 普通经济学, 经济学

作者： Eaman Jahani, Benjamin S. Manning, Joe Zhang, Hong-Yi TuYe, Mohammed Alsobay, Christos Nicolaides, Siddharth Suri, David Holtz

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14333v1

摘要： 在一项涉及 N = 1891 名参与者的在线实验中，我们收集并分析了超过 18,000 个提示，以探索随着生成式 AI 模型能力的不断提高，提示的重要性将如何变化。我们实验中的每个参与者都被随机、盲目地分配使用三种文本到图像扩散模型之一：DALL-E 2、其更先进的后继者 DALL-E 3 或具有自动提示修订功能的 DALL-E 3 版本。然后，参与者被要求写下提示，在连续 10 次尝试中尽可能地重现目标图像。我们发现使用 DALL-E 3 的参与者的任务绩效高于使用 DALL-E 2 的参与者。这种绩效差距对应于参与者图像与其目标图像的相似性的显着差异，并且同样是由以下因素引起的：：(1) DALL-E 3 增强的技术能力，以及 (2) 参与者响应这些增强的能力的提示的内生变化。更具体地说，尽管分配给 DALL-E 3 的参与者对分配的模型视而不见，但他们写了更长的提示，这些提示在语义上彼此更加相似，并且包含更多的描述性单词。此外，虽然分配到 DALL-E 3 并进行及时修改的参与者仍然优于分配到 DALL-E 2 的参与者，但自动提示修改将使用 DALL-E 3 的好处减少了 58%。总而言之，我们的结果表明，随着模型的不断进步，人们将继续调整他们的提示以利用新模型的功能。

TikTok 边缘化身份审查经历

分类： 人机交互

作者： Eddie L. Ungless, Nina Markl, Björn Ross

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14164v1

摘要： TikTok 作为一个平台，在其专有推荐算法的成功推动下，实现了指数级增长，该算法为每个用户提供量身定制的内容——尽管并非没有争议。用户抱怨他们的内容被“算法”不公平地压制，尤其是具有边缘化身份的用户，例如 LGBTQ+ 用户。这种压制与内容删除一起，旨在审查平台上共享的内容。记者们揭露了自动审查和人为审查方面的偏见。我们调查了 TikTok 上因性别、LGBTQ+ 身份、残疾或种族而被边缘化的用户的审查经历。我们对 627 名英国 TikTok 用户进行了调查，发现边缘化用户经常觉得自己会因为不违反社区准则的内容而受到审查。我们强调了未来研究 TikTok 审查制度的许多途径，重点关注用户的民间理论，这些理论极大地塑造了他们对该平台的体验。

FAVis：心理学研究因子分析的可视化分析

分类： 人机交互, 应用领域, 其他统计数据

作者： Yikai Lu, Chaoli Wang

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14072v1

摘要： 心理学研究通常涉及通过对调查问卷收集的数据进行因素分析来理解心理结构，调查问卷可能包含数百个问题。如果没有用于解释因素模型的交互式系统，研究人员经常会受到主观性的影响，从而可能导致误解或忽视关键信息。本文介绍了 FAVIs，这是一种新颖的交互式可视化工具，旨在帮助研究人员解释和评估因子分析结果。 FAVis 通过支持可视化因子负载和相关性的多个视图来增强对变量和因子之间关系的理解，允许用户从不同角度分析信息。 FAVis 的主要功能是使用户能够设置因子负载的最佳阈值，以平衡清晰度和信息保留。 FAVis 还允许用户为变量分配标签，通过将它们与相关的心理结构联系起来来增强对因素的理解。我们的用户研究展示了 FAVis 在各种任务中的实用性。

数据卫士：促进数据信任的挑战和解决方案

分类： 人机交互

作者： Nicole Sultanum, Dennis Bromley, Michael Correll

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14042v1

摘要： 从脏数据到故意欺骗，数据驱动决策的有效性面临许多威胁。因此，利用数据，尤其是新的或不熟悉的数据，需要一定程度的信任或验证。这种信任是如何建立的？在本文中，我们介绍了对数据工件（电子表格、图表和仪表板等数据生态系统的输出）的生产者和消费者进行的一系列访谈的结果，旨在了解建立数据信任的策略和障碍。我们发现数据验证和验证存在反复的需求，但缺乏现有标准，尤其是在数据消费者中。因此，我们提出了一套数据卫士：用于培养对数据工件的信任的方法和工具。

了解学生对不同课程的生理反应

分类： 人机交互

作者： Soundariya Ananthan, Nan Gao, Flora D. Salim

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14015v1

摘要： 学生的参与度对于学业成功起着至关重要的作用，高参与度通常与积极的教育成果相关。传统上，学生的参与度是通过自我报告来衡量的，这既费力又不实时。一种新兴的替代方案是监测生理信号，例如皮电活动（EDA）和心跳间隔（IBI），它们反映了学生的情绪和认知状态。在这项研究中，我们分析了 23 名学生在现实场景中佩戴 Empatica E4 设备的信号。与之前专注于实验室环境或特定科目的研究不同，我们检查了不同课程中学生内部的生理同步性。我们还评估了不同课程如何影响生理反应并确定一致的时间模式。我们的研究结果显示了学生独特的生理反应模式，增强了我们对学生参与动态的理解。这为基于不引人注目的传感数据定制教育策略以优化学习成果提供了可能性。

KNOWNET：通过知识图集成引导大语言模型寻求健康信息

分类： 人机交互

作者： Youfu Yan, Yu Hou, Yongkang Xiao, Rui Zhang, Qianwen Wang

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13598v1

摘要： 由于潜在的错误信息和这些主题的复杂性，越来越多地依赖大型语言模型（LLM）来寻求健康信息可能会带来严重的风险。本文介绍了 KNOWNET 一个可视化系统，它将大语言模型与知识图谱 (KG) 集成在一起，以提供更高的准确性和结构化探索。具体来说，为了提高准确性，KNOWNET 从 LLM 输出中提取三元组（例如实体及其关系），并将它们映射到外部知识图谱中经过验证的信息和支持的证据。对于结构化探索，KNOWNET 根据知识图谱中当前探索的实体的邻域提供下一步建议，旨在指导全面理解而不忽略关键方面。为了能够利用知识图谱中的结构化数据和大语言模型的非结构化输出进行推理，KNOWNET 将对主题的理解概念化为图形可视化的逐步构建。引入渐进式图形可视化来监控过去的查询，并将当前查询与探索历史和下一步建议联系起来。我们通过用例和专家访谈来证明我们系统的有效性。

CookAR：可穿戴 AR 的功能可供性增强，支持低视力人群的厨房工具交互

分类： 人机交互

作者： Jaewook Lee, Andrew D. Tjahjadi, Jiho Kim, Junpu Yu, Minji Park, Jiawen Zhang, Jon E. Froehlich, Yapeng Tian, Yuhang Zhao

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13515v1

摘要： 烹饪是日常生活的核心活动，支持独立性和身心健康。然而，之前的研究强调了弱视 (LV) 人士烹饪时面临的主要障碍，特别是在安全地使用烹饪工具（例如锋利的刀子或热锅）方面。借鉴计算机视觉 (CV) 和机器人技术的最新进展，我们推出了 CookAR，这是一款头戴式 AR 系统，具有实时对象可供性增强功能，可支持与厨房工具的安全高效交互。为了设计和实现 CookAR，我们手动收集并注释了第一个以自我为中心的厨房工具可供性数据集，微调可供性分割模型，并利用连接到 AR 耳机的立体相机来生成视觉增强。为了验证 CookAR，我们对 10 名 LV 参与者进行了技术性能评估和由三部分组成的定性实验室研究。我们的技术评估表明，我们的微调模型在特定于类的数据集上优于基本模型，而我们的用户研究表明，与传统的整个对象增强相比，我们更喜欢可供性增强。代码位于：https://github.com/makeabilitylab/CookAR

斯里兰卡移动医疗生态系统的实证分析：利益相关者有效参与的先驱

分类： 密码学和安全, 计算机与社会, 人机交互, 软件工程

作者： Kenneth Thilakarathna, Sachintha Pitigala, Jayantha Fernando, Primal Wijesekera

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13415v1

摘要： 斯里兰卡最近通过了第一部隐私立法，涵盖健康领域等广泛领域。作为利益相关者有效参与健康领域以了解实施医疗保健立法的最有效方法的先驱，我们分析了 41 个流行的移动应用程序和门户网站。我们发现 78% 的测试系统具有接收敏感健康数据的第三方域，而消费者的可见性极低。我们讨论这将如何在准备新的隐私立法时产生潜在的问题。

DISCOVER：用于全面观察、可视化和探索人类行为的数据驱动交互系统

分类： 人机交互, 人工智能, J.4

作者： Dominik Schiller, Tobias Hallmen, Daksitha Withanage Don, Elisabeth André, Tobias Baur

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13408v1

摘要： 理解人类行为是社会科学的基本目标，但其分析提出了重大挑战。用于行为研究的传统方法，其特点是劳动密集型的数据收集过程和复杂的分析，由于其时间和资源需求，经常阻碍全面的探索。为了应对这些挑战，计算模型已被证明是有前途的工具，可以帮助研究人员通过自动识别重要的行为指标（例如社交信号）来分析大量数据。然而，这种最先进的计算模型的广泛采用受到其固有的复杂性和运行它们所需的大量计算资源的阻碍，从而限制了没有技术专业知识和足够设备的研究人员的可访问性。为了解决这些障碍，我们引入了 DISCOVER——一个模块化、灵活且用户友好的软件框架，专门为简化人类行为分析的计算驱动数据探索而开发。我们的主要目标是实现先进计算方法的民主化，从而使跨学科的研究人员能够进行详细的行为分析，而不需要广泛的技术熟练程度。在本文中，我们使用四个相互构建的示例性数据探索工作流程演示了 DISCOVER 的功能：交互式语义内容探索、视觉检查、辅助注释和多模式场景搜索。通过说明这些工作流程，我们的目的是强调 DISCOVER 作为综合框架的多功能性和可访问性，并提出一组蓝图，可以作为探索性数据分析的一般起点。

野外低频语音音频的私密性如何？人类和机器的语言清晰度分析

分类： 声音, 人机交互, 音频和语音处理

作者： Ailin Liu, Pepijn Vunderink, Jose Vargas Quiros, Chirag Raman, Hayley Hung

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13266v1

摘要： 低频音频已被提议作为一种有前途的隐私保护方式来研究现实世界环境中的社会动态。为此，研究人员开发了可穿戴设备，可以以低至 1250 Hz 的频率记录音频，以减轻对可能包含私人细节的语音内容的自动提取。本文研究了这一假设的有效性，检验了低频语音确保言语隐私的程度。它包括模拟各种噪声环境中潜在的隐私攻击。此外，它还探讨了语音活动检测性能与隐私保护之间的权衡，语音活动检测对于理解社会行为至关重要。该评估结合了人类主观可懂度和自动语音识别性能，全面分析了有效的社会行为分析和保护言语隐私之间的微妙平衡。

Intelligo ut Confido：可验证收据无电子投票的理解、信任和用户体验（长版）

分类： 密码学和安全, 人机交互

作者： Marie-Laure Zollinger, Peter B. Rønne, Steve Schneider, Peter Y. A. Ryan, Wojtek Jamroga

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13240v1

摘要： 投票协议力求在选举中提供诚信和投票隐私。为了实现完整性，已经提出了允许选民验证其投票的程序 - 但这会影响用户体验和隐私。特别是，如果攻击者可以获得投票的文件（即收据），投票验证可能会导致买票或胁迫。因此，一些投票协议更进一步，提供了防止此类收据的机制。为了有效，这种所谓的无收据取决于选民能够理解和使用这些机制。在本文中，我们提出了一项有 300 名参与者参与的研究，旨在评估选民在购买选票的情况下对电子投票协议 Selene 中的无收据程序的体验。这实际上构成了第一个涉及电子投票中买票的用户研究。虽然可用性和信任因素在实验中评价较低，但我们发现信任和理解之间存在正相关关系。

在线决策的自适应基础模型：具有快速增量不确定性估计的 HyperAgent

分类： 机器学习, 人工智能, 人机交互, 信息论, 信息论, 机器学习

作者： Yingru Li, Jiawei Xu, Zhi-Quan Luo

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13195v1

摘要： 当面临在线决策的新情况时，基础模型经常与不确定性作斗争，因此需要可扩展且高效的探索来解决这种不确定性。我们引入了 GPT-HyperAgent，它是 GPT 与 HyperAgent 的增强，用于上下文强盗的不确定性感知、可扩展探索，这是一个涉及自然语言输入的基本在线决策问题。我们证明，在线性可实现假设下，HyperAgent 在 $T$ 周期内以 $\tilde{O}(\log T)$ 每步计算复杂度实现快速增量不确定性估计。我们的分析表明，HyperAgent 的后悔顺序与线性上下文老虎机中的精确 Thompson 采样相匹配，从而缩小了可扩展探索中的重大理论差距。现实世界上下文强盗任务的经验结果（例如带有人工反馈的自动内容审核）验证了 GPT-HyperAgent 对于安全关键决策的实际有效性。我们的代码在 \url{https://github.com/szrlee/GPT-HyperAgent/} 上开源。

使用大语言模型研究对话式后续查询与用户满意度的相关性

分类： 人机交互, 信息检索

作者： Hyunwoo Kim, Yoonseo Choi, Taehyun Yang, Honggu Lee, Chaneon Park, Yongju Lee, Jin Young Kim, Juho Kim

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13166v1

摘要： 借助大型语言模型 (LLM)，对话式搜索引擎通过支持自然对话来多次表达其搜索意图，从而改变用户从网络检索信息的方式。用户的自然对话体现了丰富但隐含的用户搜索意图信号和对搜索结果的评估，以了解用户对系统的体验。然而，用户如何以及为何提出后续查询以继续与会话搜索引擎进行对话以及后续查询如何表明用户的满意度尚未得到充分研究。通过对商业对话搜索引擎 Naver Cue 的实验室用户评估的 250 个对话轮次进行定性分析，我们提出了对话搜索中 18 个用户的后续查询模式的分类法，包括两个主轴：(1)用户继续对话背后的动机（N = 7）和（2）后续查询的操作（N = 11）。与有关查询重新制定的现有文献相比，我们发现了后续查询背后的一组新动机和行为，包括询问主观意见或提供有关引擎响应的自然语言反馈。为了以可扩展且高效的方式使用我们的分类法分析会话搜索日志，我们构建了一个由 LLM 驱动的分类器（准确率 73%）。使用我们的分类器，我们分析了从 Cue 的真实使用日志中收集的 2,061 个对话元组：并检查了我们的分类法中的对话模式如何与满意度相关联。我们的初步调查结果表明存在一些不满意的信号，例如澄清查询、排除条件以及用后续查询替换条件。我们设想我们的方法可以通过提供满意度信号和真实用户模拟的基础，有助于自动评估对话搜索体验。

与 YouTube 内容创作者一起通过跨国孟加拉非殖民主义话语重新构想社区

分类： 人机交互, 计算机与社会

作者： Dipto Das, Dhwani Gandhi, Bryan Semaan

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13131v1

摘要： 殖民主义——外国实体将其生活方式强加于当地社区的政策和做法——在历史上一直影响着集体如何看待自己与他人的关系。殖民主义影响人们如何看待自己的一种方式是通过民族主义，民族主义通常是通过共同的语言、文化、宗教和地缘政治边界来理解的。殖民主义塑造人们的民族主义经历的方式，长期以来也塑造了不同民族国家成员之间的历史冲突。虽然最近的社会计算研究研究了殖民地边缘化的人们如何参与话语去殖民化或重新想象并按照自己的方式重新建立自己和社区——但人们不太了解的是技术如何能够更好地支持非殖民化话语，以努力重新实现非殖民化。 -想象一下民族主义。为了理解这一现象，这项研究利用了对 YouTube 用户的半结构化访谈研究，这些用户制作了有关孟加拉文化的视频，这些人的生活因殖民化而被颠覆，现在分散在孟加拉国、印度和巴基斯坦。本研究旨在了解人们在跨国背景下参与视频介导的非殖民性话语的动机和策略。我们讨论了我们的工作如何展示在线非殖民话语的社会物质性的潜力，并邀请社会计算研究中民族主义的前景复杂性。

DITTO：用于头颈癌干预和临时治疗结果的视觉数字孪生

分类： 人机交互

作者： Andrew Wentzel, Serageldin Attia, Xinhua Zhang, Guadalupe Canahuate, Clifton David Fuller, G. Elisabeta Marai

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13107v1

摘要： 数字孪生模型引起了头颈癌 (HNC) 肿瘤学家的高度兴趣，他们必须做出一系列复杂的治疗决策，权衡肿瘤控制的功效与毒性和死亡风险。评估个体风险状况需要更深入地了解不同因素之间的相互作用，例如患者健康状况、肿瘤空间位置和扩散以及随后毒性的风险，而这些因素无法通过简单的启发法充分捕获。为了支持临床医生在决定治疗方案时更好地了解权衡，我们开发了 DITTO，这是一种数字孪生和视觉计算系统，允许临床医生分析每位患者的详细风险状况，并决定治疗计划。 DITTO 依靠顺序深度强化学习数字孪生 (DT) 为 HNC 患者提供长期和短期疾病结果以及毒性风险的个性化风险。基于与肿瘤学家的参与式协作设计，我们还实施了几种视觉可解释性方法，以促进临床信任并鼓励在使用我们的系统时保持健康的怀疑态度。我们通过绩效定量评估和带有定性反馈的案例研究来评估 DITTO 的功效。最后，我们讨论为临床最终用户开发临床视觉 XAI 应用程序的设计经验教训。

12 个国家的诈骗暴露、受害情况、类型、媒介和报告调查

分类： 计算机与社会, 人机交互

作者： Mo Houtti, Abhishek Roy, Venkata Narsi Reddy Gangula, Ashley Marie Walker

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12896v1

摘要： 诈骗是一个普遍存在的问题，对受害者和肇事者都会造成严重后果，但现有的数据收集是分散的，妨碍了全球和当地的比较理解。本研究通过对 12 个国家（比利时、埃及、法国、匈牙利、印度尼西亚、墨西哥、罗马尼亚、斯洛伐克、南非）的诈骗暴露、受害情况、类型、媒介和报告进行全国代表性调查（n = 8,369）来解决这一差距、韩国、瑞典和英国。我们分析 6 个调查问题，以详细定量了解每个国家/地区的诈骗情况，并进行跨国家/地区比较以确定全球模式。首先，我们发现不太富裕国家的居民更容易遭受诈骗造成的经济损失。其次，我们发现互联网在全球诈骗中发挥着关键作用，人均国民总收入与特定的诈骗类型和接触媒介密切相关。第三，我们发现普遍存在漏报现象，不太富裕国家的居民不太可能知道如何举报诈骗。我们的研究结果为在线欺诈和诈骗预防领域的研究人员、从业者和政策制定者提供了宝贵的见解。

GroundUp：基于草图的快速 3D 城市体量

分类： 计算机视觉和模式识别, 人机交互

作者： Gizem Esra Unlu, Mohamed Sayed, Yulia Gryaditskaya, Gabriel Brostow

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12739v1

摘要： 我们提出了 GroundUp，这是第一个基于草图的构思工具，用于 3D 城市区域的聚集。我们专注于早期城市设计，其中草图是一种常用工具，设计从平衡建筑体量（质量）和开放空间开始。秉承以人为本的人工智能理念，我们的目标是帮助建筑师通过在 2D 草图和 3D 模型之间轻松切换来快速修改他们的想法，从而实现更顺畅的迭代和想法共享。受到建筑师和现有工作流程反馈的启发，我们的系统将多个建筑物的自上而下视图中的用户草图作为第一个输入。然后，用户绘制设想站点的透视草图。我们的方法旨在利用两个草图中信息的互补性，并允许用户快速预览和调整推断的 3D 形状。我们的模型有两个主要组成部分。首先，我们提出了一种新颖的草图到深度预测网络，用于利用自上而下的草图形状的透视草图。其次，我们使用从透视草图导出的深度线索作为扩散模型的条件，最终在自上而下的视图中完成几何图形。因此，我们最终的 3D 几何图形表示为高度场，允许用户“从头开始”构建城市。

学习的未来：学生视角下的大型语言模型

分类： 人机交互, 计算机与社会

作者： He Zhang, Jingyi Xie, Chuhao Wu, Jie Cai, ChanMin Kim, John M. Carroll

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12723v1

摘要： 随着大规模语言模型 (LLM) 的不断发展，它们表现出性能的显着增强和功能的扩展，影响着包括教育在内的各个领域。在这项研究中，我们对 14 名学生进行了采访，以探索他们与 ChatGPT 的日常互动。我们的初步调查结果表明，学生在利用 ChatGPT 的效率进行学习和信息查找时面临着两难境地，同时也经历着对 ChatGPT 的结果和更广泛影响的信任危机和道德担忧。学生们认为与传统人工智能相比，ChatGPT 更“像人类”。这种困境的特点是复杂的情绪、不一致的行为以及对 ChatGPT 的总体积极态度，强调了它在教育和学习中有益应用的潜力。然而，我们认为，尽管这种智能具有类似人类的品质，但其先进的能力可能会导致不良后果。因此，必须谨慎对待其应用，并努力减轻未来发展中的潜在危害。

AudienceView：人工智能辅助解读新闻业中的受众反馈

分类： 人机交互, 计算和语言

作者： William Brannon, Doug Beeferman, Hang Jiang, Andrew Heyward, Deb Roy

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12613v1

摘要： 对于记者来说，理解和利用观众反馈很重要，但也很困难，因为他们现在面临着大量不切实际的观众在线评论。我们推出 AudienceView，这是一种在线工具，可帮助记者利用大型语言模型 (LLM) 对反馈进行分类和解释。 AudienceView 识别主题和主题，将它们连接回特定评论，提供可视化评论情绪和分布的方法，并帮助用户为后续报告项目开发想法。我们考虑这些工具如何在记者的工作流程中发挥作用，并强调情境意识和人类判断的重要性。

抽象对齐：比较模型和人类概念关系

分类： 机器学习, 人工智能, 计算和语言, 人机交互

作者： Angie Boggust, Hyemin Bang, Hendrik Strobelt, Arvind Satyanarayan

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12543v1

摘要： 抽象——将具体示例概括为广泛的可重用模式的过程——对于人们如何有效地处理和存储信息以及将其知识应用于新数据至关重要。研究表明，机器学习模型可以学习跨越抽象级别的表示，从“bolo tie”和“汽车轮胎”等特定概念到“CEO”和“模型”等更通用的概念，这是有希望的。然而，现有技术单独分析这些表示，将学到的概念视为独立的工件，而不是互连的抽象网络。因此，尽管我们可以识别模型用来产生输出的概念，但很难评估它是否已经学习了与人类一致的概念抽象，并将其推广到新数据。为了解决这一差距，我们引入了抽象对齐，这是一种衡量模型学习的抽象与预期的人类抽象之间的一致性的方法。我们通过将模型输出与人类抽象图（例如语言关系或医疗疾病层次结构）进行比较来量化抽象对齐。在解释图像模型、对语言模型进行基准测试和分析医学数据集的评估任务中，抽象对齐可以更深入地理解模型行为和数据集内容，根据错误与人类知识的一致性来区分错误，扩展当前模型质量指标的冗长性，并揭示改进现有人类抽象的方法。

即时学习模型在识别在线任务中协作解决问题的技能中的应用

分类： 人机交互

作者： Mengxiao Zhu, Xin Wang, Xiantao Wang, Zihang Chen, Wei Huang

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12487v1

摘要： 协作解决问题 (CPS) 能力被认为是 21 世纪的基本技能之一。为了促进 CPS 能力的评估和学习，研究人员提出了一系列概念化 CPS 的框架，并探索了理解协作解决问题所涉及的复杂过程的方法。然而，将显式行为编码为 CPS 技能框架内的子技能仍然是一项具有挑战性的任务。传统研究依靠手动编码来解读 CPS 的行为数据，但这种编码方法非常耗时，并且无法支持实时分析。学者们已经开始探索构建自动编码模型的方法。然而，现有的使用机器学习或深度学习技术构建的模型依赖于大量的训练数据，并且精度相对较低。为了解决这些问题，本文提出了一种基于提示的学习预训练模型。即使训练数据有限，该模型也能实现高性能。在这项研究中，进行了三个实验，结果表明我们的模型不仅在大型训练集上产生了最高的准确率、宏观 F1 分数和 kappa 值，而且在 CPS 行为数据的小型训练集上也表现最好。所提出的基于提示的学习预训练模型的应用有助于 CPS 技能编码任务，也可用于其他 CSCW 编码任务以取代手动编码。

用于协作 XR 模拟的解耦边缘物理算法

分类： 人机交互, 图形

作者： George Kokiadis, Antonis Protopsaltis, Michalis Morfiadakis, Nick Lydatakis, George Papagiannakis

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12486v1

摘要： 这项工作提出了一种新颖的方法来改造任何现代游戏引擎管道，以优化扩展现实（XR）环境中的性能并增强用户体验。将物理引擎与游戏引擎管道分离并使用客户端-服务器 N-1 架构创建了一个可扩展的解决方案，通过边缘云基础设施上的单个物理引擎有效地为头戴式显示器 (HMD) 上的多个图形客户端提供服务。这种方法可确保多人游戏场景中更好的同步，而不会在单人游戏体验中引入开销，从而在用户参与发生变化的情况下保持会话连续性。将物理引擎重新定位到边缘或云节点可以减轻本地硬件的压力，将更多资源用于高质量渲染并释放不受束缚的 HMD 的全部潜力。我们提出了四种解耦物理引擎的算法，提高 VR 模拟中的帧速率和体验质量 (QoE)，支持高级交互、大量物理对象以及超过 100 个并发用户的多用户会话。结合几何代数插值器可减少解剖部分之间的相互调用，从而保持 QoE 并缓解网络压力。通过超过 100 个并发用户、10,000 个物理对象和软体模拟进行的实验验证证实了所提出的架构的技术可行性，展示了在不影响性能的情况下实现更具沉浸感和协作性的 XR 应用程序的变革能力。

ExploreGen：用于设想人工智能技术的用途和风险的大型语言模型

分类： 人机交互

作者： Viviane Herdel, Sanja Šćepanović, Edyta Bogucka, Daniele Quercia

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12454v1

摘要： 负责任的人工智能设计越来越被人工智能开发人员和人工智能合规专家视为势在必行。关键任务之一是设想人工智能技术的用途和风险。最近对模型和数据卡的研究表明，人工智能从业者由于其固有的挑战性而难以完成这项任务。在这里，我们证明利用大型语言模型 (LLM) 可以通过反思、集思广益和深思熟虑来支持人工智能从业者完成这项任务，特别是在人工智能开发过程的早期设计阶段。我们开发了一个大语言模型框架 ExploreGen，它生成人工智能技术的现实和多样化用途，包括那些被研究忽视的用途，并根据欧盟人工智能法案法规对其风险级别进行分类。我们在 25 名人工智能从业者的九项用户研究中使用面部识别和分析技术案例评估了我们的框架。我们的研究结果表明 ExploreGen 对开发人员和合规专家都有帮助。他们认为这些用途是现实的，风险分类是准确的 (94.5%)。此外，虽然他们不熟悉其中的许多用途，但他们认为它们具有很高的采用潜力和变革影响。

StuGPTViz：一种理解学生与 ChatGPT 交互的可视化分析方法

分类： 人机交互, 人工智能

作者： Zixin Chen, Jiachen Wang, Meng Xia, Kento Shigyo, Dingdong Liu, Rong Zhang, Huamin Qu

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12423v1

摘要： 将大型语言模型 (LLM)（尤其是 ChatGPT）融入教育中，有望通过引入创新的对话式学习方法来彻底改变学生的学习体验。为了使学生能够在教育场景中充分利用 ChatGPT 的功能，了解学生与 ChatGPT 的交互模式对于教师来说至关重要。然而，由于缺乏专注于学生与 ChatGPT 对话的数据集以及识别和分析对话中的进化交互模式的复杂性，这一努力具有挑战性。为了应对这些挑战，我们收集了 48 名学生在一个学期的硕士水平数据可视化课程中与 ChatGPT 交互的对话数据。然后，我们根据认知水平和主题分析的文献开发了一种编码方案，对学生与 ChatGPT 的交互模式进行分类。此外，我们还提出了一个可视化分析系统 StuGPTViz，该系统可以跟踪和比较学生提示中的时间模式以及 ChatGPT 在多个尺度上的响应质量，从而为教师揭示重要的教学见解。我们通过对六位数据可视化讲师的专家访谈和三个案例研究验证了该系统的有效性。结果证实了 StuGPTViz 有能力增强教育工作者对 ChatGPT 教学价值的洞察。我们还讨论了在教育中应用视觉分析和开发人工智能驱动的个性化学习解决方案的潜在研究机会。

球体窗口：360° 视频在协作设计研讨会中的挑战和机遇

分类： 人机交互

作者： Wo Meijer, Jacky Bourgeois, Wilhelm Frederik van der Vegte, Gerd Kortuem

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12407v1

摘要： 360{\deg} 视频的日益普及为设计师提供了一个独特的机会，可以通过捕捉完整的视觉环境来深入与用户世界互动。然而，360{\deg} 视频为视频设计民族志带来的机遇和挑战尚不清楚。本研究通过 16 个研讨会来调查这一差距，经验丰富的设计师在研讨会上参与了 360{\deg} 视频。我们的分析表明，虽然 360{\deg} 视频增强了设计师探索和理解用户环境的能力，但它也使分享见解的过程变得复杂。为了应对这一挑战，我们提供了两个机会来支持设计师使用 360{\deg} 视频 - 创建设计性的 360{\deg} 视频注释工具和 360{\deg} “屏幕截图” - 按顺序使设计人员能够利用 360{\deg} 视频的完整背景进行用户研究。

演示 PilotAR：协助 OHMD 进行绿野仙踪试点研究的工具

分类： 人机交互

作者： Nuwan Janaka, Runze Cai, Shengdong Zhao, David Hsu

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12388v1

摘要： 虽然试点研究有助于确定潜在的有趣研究方向，但 AR/MR 的额外要求使得利用光学透视头戴式显示器（OST HMD、OHMD）高效地进行快速而肮脏的试点研究具有挑战性。为了克服这些挑战，包括无法观察和记录上下文中的用户交互、增加的任务负载以及上下文中的数据分析和讨论的困难，我们引入了 PilotAR (https://github.com/Synteraction-Lab/PilotAR) ），一种迭代设计的工具，旨在增强 AR/MR 试点研究，允许实时第一人称和第三人称视图、多模式注释、灵活的向导界面和多实验者支持。

评估基于人工智能的推荐系统的基于图形的解释

分类： 人工智能, 人机交互

作者： Simon Delarue, Astrid Bertrand, Tiphaine Viard

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12357v1

摘要： 近年来，推荐系统迅速发展，在许多具有潜在较高社会影响的应用中提供建议，例如健康或正义。与此同时，在欧洲，即将出台的人工智能法案提到\emph{透明度}作为关键人工智能系统的要求，以“减轻基本权利的风险”。事后解释与这一目标无缝契合，并且有关该主题的大量文献产生了多种形式的此类对象，图表就是其中之一。可视化的早期研究证明了图表能够提高用户的理解，并将其定位为潜在的理想解释。然而，目前尚不清楚基于图形的解释与其他解释设计相比如何。在这项工作中，我们的目标是使用混合方法确定基于图形的解释在改善用户对基于人工智能的推荐的感知方面的有效性。我们首先进行定性研究，收集用户对图形解释的需求。然后，我们进行了一项更大规模的定量研究，评估各种解释设计（包括基于增强图形的解释设计）对人工智能系统的理解、可用性和好奇心等方面的影响。我们发现用户认为基于图形的解释比涉及特征重要性的设计更有用。然而，我们还发现，与基于图形的设计相比，文本解释可以带来更高的客观理解。最重要的是，我们强调了参与者表达的对图形设计的偏好与他们使用图形设计的实际评分之间的强烈对比，与文本设计相比，其较低。这些发现意味着满足利益相关者表达的偏好可能并不能单独保证“好的”解释。因此，成功平衡社会期望与下游性能的混合设计成为一项重大挑战。

对于软件工程教学来说，教育逃生室比传统讲座更有效吗？随机对照试验

分类： 计算机与社会, 人机交互, 软件工程

作者： Aldo Gordillo, Daniel López-Fernández

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12355v1

摘要： 贡献：本文分析了虚拟教育逃生室在软件工程教学中的学习效果，并通过随机对照试验将该活动与传统教学进行了比较。背景：教育逃生室已广泛应用于各级教育的各个学科，并且越来越受到教师的欢迎。然而，显然普遍需要更强有力的经验证据来证明这些新颖活动的学习有效性，特别是它们在软件工程教育中的应用。研究问题：使用教育逃生室进行基于游戏的学习比教授软件工程的传统讲座更有效吗？软件工程专业的学生对使用教育逃生室进行基于游戏的学习有何看法？方法：本文介绍的研究是一项随机对照试验，具有前后测试设计，由总共 326 名软件工程专业的学生完成。实验组的 164 名学生通过玩教育逃生室学习软件建模，而对照组的 162 名学生则通过传统讲座学习相同的主题。研究结果：随机对照试验的结果表明，通过教育逃生室学习软件建模的学生对这项活动有非常积极的看法，他们的知识显着增长，并且在知识获取方面优于通过传统讲座学习的学生。

ModalChorus：通过模态融合图进行多模态嵌入的视觉探测和对齐

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 信息检索

作者： Yilin Ye, Shishi Xiao, Xingchen Zeng, Wei Zeng

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12315v1

摘要： 多模态嵌入构成了视觉语言模型的基础，例如 CLIP 嵌入，这是使用最广泛的文本图像嵌入。然而，这些嵌入很容易受到跨模式特征的微妙错位的影响，从而导致模型性能下降和泛化能力减弱。为了解决这个问题，我们设计了 ModalChorus，一个用于视觉探测和多模态嵌入对齐的交互式系统。 ModalChorus 主要提供两个阶段的过程：1）使用模态融合图（MFM）进行嵌入探测，这是一种新颖的参数降维方法，集成了度量和非度量目标以增强模态融合； 2）嵌入对齐，允许用户交互式地表达点集对齐和集集对齐的意图。 CLIP 嵌入与现有降维（例如 t-SNE 和 MDS）和数据融合（例如数据上下文图）方法的定量和定性比较证明了 MFM 在展示跨模态特征方面优于常见视觉语言数据集的优势。案例研究表明，ModalChorus 可以在从零样本分类到跨模态检索和生成的场景中促进直观发现错位和有效重新对齐。

评估老年人虚拟现实导航训练的可行性和有效性

分类： 人机交互

作者： Tong Bill Xu, Armin Mostafavi, Walter R. Boot, Sara Czaja, Saleh Kalantari

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12272v1

摘要： 客观的。评估对老年人进行虚拟现实 (VR) 寻路训练的可行性，并检查训练对寻路表现的影响。设计。设计涉及三组研究中的寻路任务：主动 VR 训练、被动视频训练和无训练，随机分配。该培训在真实建筑的数字版本中完成了 5 项任务。培训后评估在这栋大楼里有 10 项任务，一半是培训中熟悉的，一半是新的。该研究是双盲的，每次干预持续 10 分钟。参与者。 49 名参与者的便利样本；纳入标准：年龄>58、不熟悉建筑；排除标准：行动能力或视力障碍、晕动病史或医疗植入物。结果。每个寻路任务所花费的时间和行驶距离都有固定的 10 分钟限制。结果。 VR 组的参与者报告了训练干预方面的中等可用性（63.82，SD=14.55）和较高的自我定位（3.71，SD=0.94）。在相似任务中，各组之间的任务表现没有差异。在新任务中，与控制条件相比，VR 组在任务上花费的时间略有减少； VR 组完成任务所需的距离也减少了，视频训练组的距离也略有减少。 VR 和视频条件之间没有发现差异。干预期间或干预后没有报告不良反应。结论。这项研究提供了初步证据，表明 VR 训练可以有效提高老年人的寻路能力，并且没有不良影响的报告。

HuBar：AR 制导系统中基于 fNIRS 探索人类行为的视觉分析工具

分类： 人机交互

作者： Sonia Castelo, Joao Rulff, Parikshit Solunke, Erin McGowan, Guande Wu, Iran Roman, Roque Lopez, Bea Steers, Qi Sun, Juan Bello, Bradley Feest, Michael Middleton, Ryan Mckendrick, Claudio Silva

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12260v1

摘要： 智能增强现实（AR）助手的概念具有重要且广泛的应用，在医学、军事和机械领域具有潜在用途。这样的助手必须能够感知环境和动作，推理与给定任务相关的环境状态，并与任务执行者无缝交互。这些交互通常涉及配备传感器的 AR 耳机，可捕捉视频、音频和触觉反馈。之前的工作试图通过将这些传感器数据流与助手的感知和推理模型输出结合起来可视化，来促进智能 AR 助手的开发。然而，现有的可视化分析系统不关注用户建模或包含生物识别数据，并且只能一次可视化单个执行者的单个任务会话。此外，他们通常假设一项任务涉及从一个步骤到下一步的线性进展。我们提出了一种可视化分析系统，允许用户比较多个任务会话期间的性能，重点关注不同步骤序列可以带来成功的非线性任务。特别是，我们设计可视化，通过功能近红外光谱（fNIRS）数据作为感知、注意力和记忆以及相应的运动数据（加速度、角速度和注视）的代理来理解用户行为。我们将这些见解提炼为嵌入表示，使用户可以轻松选择具有相似行为的会话组。我们提供了两个案例研究，演示如何使用这些可视化效果，利用直升机副驾驶训练任务期间收集的数据来深入了解任务绩效。最后，我们通过对五位领域专家的有声思考实验进行深入检查来评估我们的方法。

模仿人类运动，在主动说话者检测任务中实现人形机器人的自然头部运动

分类： 机器人技术, 人工智能, 人机交互, 机器学习

作者： Bosong Ding, Murat Kirtay, Giacomo Spigler

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11915v1

摘要： 头部运动对于社会人与人之间的互动至关重要。它们可以传递仅通过言语互动无法实现的重要线索（例如，共同注意力、说话者检测）。这一优势也适用于人机交互。尽管近年来通过生成式人工智能模型对人类运动进行建模已成为机器人学领域的一个活跃研究领域，但在人机交互中使用这些方法产生头部运动的研究仍然不足。在这项工作中，我们采用生成式 AI 管道为 Nao 人形机器人产生类似人类的头部运动。此外，我们还在群组对话设置中的实时活动发言者跟踪任务上测试了系统。总体而言，结果表明 Nao 机器人成功地以自然的方式模仿人类头部运动，同时在对话过程中主动跟踪说话者。本研究的代码和数据可在 https://github.com/dingdingding60/Humanoids2024HRI 获取

SurroFlow：用于参数空间探索和不确定性量化的基于流的代理模型

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 图形, 人机交互

作者： Jingyi Shen, Yuhan Duan, Han-Wei Shen

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12884v1

摘要： 现有的基于深度学习的代理模型有助于高效的数据生成，但在不确定性量化、有效的参数空间探索和反向预测方面存在不足。在我们的工作中，我们引入了 SurroFlow，一种新颖的基于标准化流的代理模型，用于学习仿真参数和仿真输出之间的可逆变换。该模型不仅可以准确预测给定仿真参数的仿真结果，还支持数据生成过程中的不确定性量化。此外，它还可以实现高效的仿真参数推荐和探索。我们将 SurroFlow 和遗传算法集成为可视化界面的后端，以支持有效的用户引导集成模拟探索和可视化。我们的框架显着降低了计算成本，同时增强了科学替代模型的可靠性和探索能力。

大型语言模型提示中文本摘要的数据集规模和面向特征的评估

分类： 人机交互

作者： Sam Yu-Te Lee, Aryaman Bahukhandi, Dongyu Liu, Kwan-Liu Ma

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12192v1

摘要： 大型语言模型 (LLM) 和提示工程的最新进展使聊天机器人定制变得更加容易，从而显着减少了以前需要编程技能的任务的障碍。然而，由于需要评估数据集中数千个测试实例的提示，提示评估（尤其是在数据集规模上）仍然很复杂。我们的研究基于全面的文献综述和试点研究，总结了及时评估的五个关键挑战。作为回应，我们引入了面向特征的工作流程，以进行系统的及时评估。在文本摘要的背景下，我们的工作流程提倡使用复杂性、正式性或自然性等摘要特征（特征度量）进行评估，而不是使用 ROUGE 等传统质量度量。这种设计选择使得对提示的评估更加用户友好，因为它引导用户对自然语言固有的歧义进行排序。为了支持这一工作流程，我们引入了 Awesum，这是一种可视化分析系统，可通过交互式可视化帮助识别文本摘要的最佳提示细化，该系统采用新颖的提示比较器设计，采用通过降维技术增强的 BubbleSet 启发设计。我们与来自不同领域的从业者一起评估了该系统的有效性和普遍适用性，发现（1）我们的设计有助于克服非技术人员对摘要提示进行系统评估的学习曲线，（2）我们的面向特征的工作流程有潜力推广到其他 NLG 和图像生成任务。对于未来的工作，我们主张对 LLM 提示进行面向特征的评估，并讨论人机交互方面未解决的挑战。

AeroHaptix：一种可穿戴式振动触觉反馈系统，用于增强无人机远程操作中的防撞能力

分类： 机器人技术, 人机交互

作者： Bingjian Huang, Zhecheng Wang, Qilong Cheng, Siyi Ren, Hanfeng Cai, Antonio Alvarez Valdivia, Karthik Mahadevan, Daniel Wigdor

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12105v1

摘要： 触觉反馈通过向无人机 (UAV) 远程操作中的操作员提供定向障碍物信息来增强防撞能力。然而，此类反馈通常通过触觉操纵杆呈现，这对无人机操作员来说并不熟悉，并且仅限于单向力反馈。另外，输入装置和反馈方法的直接耦合削弱了操作者的控制权限并导致振荡运动。为了克服这些限制，我们提出了 AeroHaptix，这是一种可穿戴触觉反馈系统，它使用高分辨率振动来同时传达多个障碍物方向。振动触觉执行器的布局基于感知研究进行了优化，以消除感知偏差并实现均匀的空间覆盖。一种新颖的渲染算法 MultiCBF 改编自控制屏障函数，以支持多方向反馈。系统评估表明，AeroHaptix 有效减少了复杂环境中的碰撞，操作人员反映体力工作量显着降低，态势感知能力提高，控制权限增强。

Patchkeeper：具有多个传感器的集成可穿戴电子听诊器

分类： 人机交互, 信号处理

作者： Hongwei Li, Zoran Radivojevic, Michael S. Eggleston

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11837v1

摘要： 人体的许多部位在生物过程中都会产生内部声音，这是了解健康和福祉的丰富信息来源。尽管听诊器的开发和使用有着悠久的历史，但仍然缺乏记录体内声音的适当工具以及用于长期监测的补充传感器。在本文中，我们展示了我们开发的可穿戴电子听诊器，称为 Patchkeeper (PK)，可用于长时间记录体内声音。 Patchkeeper 还集成了多种最先进的生物传感器，包括心电图 (ECG)、光电体积描记法 (PPG) 和惯性测量单元 (IMU) 传感器。作为一款可穿戴设备，Patchkeeper 可以放置在身体的各个部位，以收集特定器官的声音，包括心脏、肺、胃和关节等。我们在本文中表明，可以同时高质量记录多个生命信号。由于Patchkeeper可以由用户直接操作，例如在不涉及医疗保健专业人员的情况下，我们相信它可能成为远程医疗和远程诊断的有用工具。

协调安全性和速度：增强 FDA 医疗器械清关政策的人类算法方法

分类： 机器学习, 人机交互, 优化与控制, 机器学习

作者： Mohammad Zhalechian, Soroush Saghafian, Omar Robles

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11823v1

摘要： 美国食品和药物管理局 (FDA) 的上市前通知 510(K) 途径允许制造商通过证明医疗器械与其他合法销售的器械的实质等同性来获得医疗器械的批准。然而，这一监管程序固有的模糊性导致许多通过此途径清除的设备召回率很高。这一趋势引起了人们对 FDA 当前方法有效性的严重担忧，促使人们重新评估 510(K) 监管框架。在本文中，我们开发了一种组合的人机算法方法，通过减少潜在召回的风险和 FDA 的工作量来协助 FDA 改进其 510(k) 医疗器械审批流程。我们首先开发机器学习方法，根据提交时可用的信息来估计 510(k) 医疗器械的召回风险。然后，我们提出一项数据驱动的审批政策，建议接受、拒绝或推迟给 FDA 委员会进行深入评估。我们使用独特的大规模数据集进行实证研究，该数据集包含来自超过 65 个国家/地区的 31,000 多种医疗设备和 12,000 家国内和国际制造商，这些数据集是根据 FDA 和医疗保险和医疗补助服务中心 (CMS) 的数据源收集的。根据这些数据对我们提出的政策进行保守评估，召回率提高了 38.9%，FDA 的工作量减少了 43.0%。我们的分析还表明，实施我们的政策可能会导致每年显着节省 24 亿美元至 27 亿美元的成本，这凸显了使用整体和数据驱动的方法来改进 FDA 当前的 510(K) 医疗器械的价值评估途径。

无处不在的元数据：用于现实世界对象识别和交互的嵌入式标记的设计和制造

分类： 人机交互, 计算机视觉和模式识别, 新兴技术, 图形

作者： Mustafa Doga Dogan

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11748v1

摘要： 物理领域和数字领域的融合开创了沉浸式体验和无缝交互的新时代。由于现实世界和虚拟环境之间的界限变得模糊并导致“混合现实”，因此需要稳健且有效的方法来将物理对象与其虚拟对应物连接起来。在本文中，我们提出了一种新颖的方法，通过嵌入式机器可读标记的设计、制造和检测来弥补这一差距。我们将所提出的标记方法分为三个不同的类别：自然标记、结构标记和内部标记。自然标记（例如 SensiCut 中使用的标记）是被重新用作机器可读标识符的对象的固有指纹，而结构标记（例如 StructCode 和 G-ID）则利用了在制造过程本身中出现的对象中的结构工件。内部标记（例如 InfraredTag 和 BrightMarker）使用特殊材料嵌入到制造的物体内。所提出的方法结合了计算机视觉、机器学习、计算成像和材料科学的方法，为对象识别、跟踪和交互提供了强大且多功能的解决方案。这些标记无缝集成到现实世界的对象中，有效地传达对象的身份、起源、功能和交互，充当“无处不在的元数据”的门户——元数据嵌入到物理对象中的概念，类似于数字文件中的元数据。在不同的章节中，我们展示了所提出的方法在不同领域的应用，包括产品设计、制造、零售、物流、教育、娱乐、安全和可持续性。

基于网格环境的仓储机器人交互式强化学习算法比较分析

分类： 机器人技术, 人机交互

作者： Arunabh Bora

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11671v1

摘要： 仓库机器人领域目前需求量很大，主要技术和物流公司对这些先进系统进行了大量投资。训练机器人在如此复杂的环境中运行具有挑战性，通常需要人类的监督来适应和学习。交互式强化学习（IRL）是人机交互的关键训练方法。本文对两种 IRL 算法进行了比较研究：Q-learning 和 SARSA，这两种算法都在基于虚拟网格模拟的仓库环境中进行训练。为了保持一致的反馈奖励并避免偏见，在整个研究过程中反馈由同一个人提供。

谨防肉眼验证：散点图中线性趋势的视觉验证

分类： 计算机视觉和模式识别, 图形, 人机交互

作者： Daniel Braun, Remco Chang, Michael Gleicher, Tatiana von Landesberger

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11625v1

摘要： 散点图中回归模型的视觉验证是评估模型质量的常见做法，但其有效性仍然无法量化。我们进行了两项实证实验，以调查个人视觉验证线性回归模型（线性趋势）的能力，并检查常见可视化设计对验证质量的影响。第一个实验表明，斜率的视觉估计（即，将线拟合到数据）的准确度高于斜率的视觉验证（即，接受显示的线）。值得注意的是，我们发现在这两种情况下都倾向于“太陡”的坡度。这带来了新颖的见解，即参与者自然地使用点和线之间的正交距离（即 ODR 回归）而不是常见的垂直距离（OLS 回归）来评估回归。在第二个实验中，我们研究了合并回归可视化的常见设计（误差线、边界框和置信区间）是否会改善视觉验证。尽管误差线减少了验证偏差，但结果未能显示任何设计所需的准确性改进。总的来说，我们的研究结果表明，在使用视觉模型验证散点图中的线性趋势时要谨慎。

提高压力应对的移动医疗微干预的参与度和有效性：一项野外研究

分类： 人机交互, 人工智能

作者： Chaya Ben Yehuda, Ran Gilad-Bachrach, Yarin Udi

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11612v1

摘要： 维持用户对移动健康 (mHealth) 干预措施的长期参与，同时保持其高功效，仍然是现实世界健康应用中的一个持续挑战。为了解决这个问题，我们引入了一种新的算法，即个性化上下文感知推荐器（PCAR），用于干预选择并评估其在现场实验中的性能。在一项为期 4 周、涉及 29 位幼儿家长的野外实验中，我们通过移动聊天机器人提供了个性化的减压微干预。我们在每次干预前后使用瞬时应激水平生态瞬时评估（EMA）评估了它们对减轻压力的影响。我们的研究结果表明，与随机干预选择和未接受任何干预的对照组相比，PCAR 干预选择在增强 mHealth 微干预对压力应对的参与度和有效性方面具有优越性。此外，我们表明，即使是短暂的一分钟干预也可以显着降低感知压力水平 (p=0.001)。我们观察到，人们在活动之间的过渡期间最容易接受一分钟的干预，例如从下午活动过渡到就寝时间。我们的研究通过引入个性化情境感知干预选择算法来提高移动健康干预的参与度和有效性，确定压力干预的关键时机，并提供对改善压力应对机制的见解，从而为文献做出贡献。

《我遇到了垃圾》：从公众的角度理解数据可视化的设计缺陷

分类： 人机交互, 图形

作者： Xingyu Lan, Yu Liu

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11497v1

摘要： 可视化社区在反思可视化设计缺陷方面有着悠久的历史，并且这一方向的研究至今仍然活跃。然而，仍然存在三个主要差距。首先，大多数现有工作是从研究人员的角度而不是一般用户的角度来描述设计缺陷。其次，很少有工作来推断这些设计缺陷发生的原因。第三，由于术语不明确、研究范围不明确等问题，需要一个更好的框架来系统地概述各种设计缺陷并帮助区分不同类型的缺陷。为了解决上述差距，本工作通过公众的视角调查了可视化设计缺陷，构建了一个框架来对已识别的缺陷进行总结和分类，并探讨了这些缺陷发生的原因。具体来说，我们分析了从在线图库收集的 2227 个有缺陷的数据可视化，并得出了包含 76 个特定设计缺陷的与设计任务相关的分类法。这些缺陷进一步分为三个高级类别（即错误信息、无信息、不合群）和十个子类别（例如不准确、不公平、模糊）。接下来，我们组织了五个焦点小组来探讨这些设计缺陷发生的原因，并确定了缺陷的七个原因。最后，我们提出了研究中产生的一系列反思和启示。

TEXasGAN：使用生成对抗网络的触觉纹理探索和合成系统

分类： 人机交互

作者： Mingxin Zhang, Shun Terui, Yasutoshi Makino, Hiroyuki Shinoda

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11467v1

摘要： 为了在人机交互中创造更真实的体验，纹理渲染已成为近年来的研究热点。由于相似的受体，设计振动的不同频率分量可以激活与纹理相关的感觉。然而，为众多现实世界的材料设计特定的振动是不切实际的。因此，本研究提出了一种基于用户偏好的人机交互振动生成模型。为了使用户能够轻松控制大参数空间振动样本的生成，我们引入了基于差分子空间搜索（DSS）和生成对抗网络（GAN）的优化模型。借助 DSS，用户可以使用一维滑块轻松修改高维潜在空间，使 GAN 能够产生所需的振动。我们使用触觉振动数据的开放数据集训练生成模型，并选择五种类型的振动作为生成实验的目标样本。使用生成的样本和真实样本进行了广泛的用户实验。结果表明我们的系统可以生成与目标特征相匹配的可区分样本。此外，结果还揭示了受试者区分真实样本的能力和区分生成样本的能力之间的相关性。

赚取公平：在利益相关者之间解释、询问、审查和谈判人工智能公平指标

分类： 人工智能, 计算机与社会, 人机交互

作者： Lin Luo, Yuri Nakao, Mathieu Chollet, Hiroya Inakoshi, Simone Stumpf

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11442v1

摘要： 人工智能 (AI) 专家提出并采用了许多公平性指标来定量测量人工智能模型中的偏差并定义公平性。认识到需要适应利益相关者对公平的不同理解，我们正在努力征求他们的意见。然而，向没有人工智能专业知识的利益相关者传达人工智能公平指标、捕捉他们的个人偏好并寻求集体共识仍然具有挑战性，且尚未得到充分探索。为了弥补这一差距，我们提出了一个新的框架，即 EARN Fairness，它可以促进利益相关者之间的集体指标决策，而无需人工智能专业知识。该框架具有适应性强的交互系统和以利益相关者为中心的 EARN 公平流程，用于解释公平指标、询问利益相关者的个人指标偏好、集体审查指标以及就指标选择达成共识。为了收集实证结果，我们将该框架应用于信用评级场景，并进行了一项涉及 18 个没有人工智能知识的决策主体的用户研究。我们确定他们的个人指标偏好以及他们在各个会话中可接受的不公平程度。随后，我们发现了他们如何在团队会议中达成指标共识。我们的工作表明，EARN Fairness 框架使利益相关者能够表达个人偏好并达成共识，为在高风险环境下实现以人为本的人工智能公平性提供实用指导。通过这种方法，我们的目标是协调不同利益相关者的公平期望，促进更加公平和包容的人工智能公平。

或许是平衡的，但真的好吗？游戏关卡平衡性的实证评估

分类： 人机交互

作者： Florian Rupp, Alessandro Puddu, Christian Becker-Asano, Kai Eckert

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11396v1

摘要： 在游戏中实现最佳平衡对于游戏的成功至关重要，但这依赖于大量的手动工作和游戏测试。为了促进这一过程，通过强化学习的程序内容生成（PCGRL）框架最近已被有效地用于改善现有游戏关卡的平衡性。然而，这种方法只是启发式地评估平衡，忽略了人类的实际感知。因此，这项工作提出了一项调查，以结合人类游戏测试对所创建的内容进行实证评估。四种不同场景的参与者被问及他们对平衡前后水平变化的看法，反之亦然。基于描述性和统计分析，我们的研究结果表明，基于 PCGRL 的平衡对大多数场景中玩家的平衡感知产生积极影响，尽管场景之间的平衡方面存在差异。

评估心理健康人工智能聊天机器人的适当性、可信度和安全性的框架

分类： 人机交互

作者： Lucia Chen, David A. Preece, Pilleriin Sikka, James J. Gross, Ben Krause

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11387v1

摘要： 大语言模型（LLM）聊天机器人容易受到偏见和幻觉的影响，但目前对心理健康技术的评估缺乏全面的案例研究来评估其实际应用。在这里，我们通过引入 MHealth-EVAL 框架来解决这一差距，这是一种新的基于角色扮演的交互式评估方法，专门用于评估心理健康聊天机器人的适当性、可信度和安全性。我们还推出了 Psyfy，这是一种利用大语言模型来促进跨诊断认知行为治疗 (CBT) 的新型聊天机器人。我们通过将 Psyfy 的两个版本与标准基线聊天机器人进行比较研究来展示 MHealth-EVAL 框架的实用性。我们的结果表明，Psyfy 聊天机器人在提供适当响应、吸引用户和避免不可信响应方面优于基准聊天机器人。然而，Psyfy 和基线聊天机器人都表现出了一些局限性，例如提供主要以美国为中心的资源。虽然 Psyfy 聊天机器人能够识别大多数不安全的情况并避免给出不安全的响应，但在角色扮演场景中提示时，它们有时很难识别微妙的有害意图。我们的研究展示了 MHealth-EVAL 框架的实际应用，并展示了 Psyfy 在利用 LLM 来增强用户参与度并提供与基于证据的 CBT 方法相一致的灵活且适当的响应方面的效用。

遵循定位指令

分类： 人机交互, 人工智能, 机器人技术

作者： So Yeon Min, Xavi Puig, Devendra Singh Chaplot, Tsung-Yen Yang, Akshara Rai, Priyam Parashar, Ruslan Salakhutdinov, Yonatan Bisk, Roozbeh Mottaghi

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.12061v1

摘要： 语言从来都不是在真空中说的。它是在说话者的历史、行为和环境的整体背景下表达、理解和语境化的。由于人类习惯于使用情境语言进行有效沟通，因此机器人助手的实用性取决于它们理解隐含情境指令并根据其采取行动的能力。在遵循范式的传统教学中，智能体在空荡荡的房子里独自行动，导致语言的使用既简单又人为地“完整”。相比之下，我们提出情境指令跟随，它包含了现实世界中与人类说话者的实际存在进行交流所固有的不规范和模糊性。情境指令的意义通过相关人员过去的行为和预期的未来行为自然地展现出来。具体来说，在我们的设置中，我们有以下指令：(1) 模糊指定，(2) 具有随时间变化的意图，(3) 可以通过代理的动态动作更精确地解释。我们的实验表明，最先进的体现指令跟随（EIF）模型缺乏对情境人类意图的整体理解。

行走：用语音和手势控制移动机器人“原地”的实验

分类： 人机交互, 机器人技术

作者： Renchi Zhang, Jesse van der Linden, Dimitra Dodou, Harleigh Seyffert, Yke Bauke Eisma, Joost C. F. de Winter

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11218v2

摘要： 机器人变得越来越智能，可以自主执行任务，例如在不同位置之间导航。然而，人类监督仍然至关重要。这项研究比较了两种引导移动机器人的免提方法：语音控制和手势控制。这些方法在人类静止和自由行走的情况下进行了测试。我们假设，假设人类与机器人保持一致，由于刺激响应兼容性的增强，与机器人一起行走会带来更高的直觉评级和更好的任务表现。在 2x2 受试者内设计中，218 名参与者使用 90 度旋转和向前行走命令引导四足机器人 Spot。每次试验后，参与者都会对命令映射的直观性进行评分，而实验后访谈则用于收集参与者的偏好。结果显示，Spot 的语音控制与行走相结合是最受欢迎且直观的，而站立时的手势控制会导致左/右命令混乱。尽管如此，29% 的参与者更喜欢手势控制，理由是任务参与度和视觉一致性。基于里程计的分析显示，参与者在 Spot 后面对齐，特别是在手势控制条件下，当允许行走时。总之，步行语音控制效果最好。改善物理人体工程学和调整手势类型可以提高手势控制的有效性。

揭开真相：大语言模型真的懂图表吗？深入探讨一致性和稳健性

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Srija Mukhopadhyay, Adnan Qidwai, Aparna Garimella, Pritika Ramu, Vivek Gupta, Dan Roth

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11229v1

摘要： 图表问答（CQA）是视觉语言理解的一个重要领域。然而，该领域当前视觉语言模型（VLM）的稳健性和一致性仍有待探索。本文评估了专门为本研究开发的综合数据集上最先进的 VLM，涵盖不同的问题类别和图表格式。我们研究两个关键方面：1）模型处理不同级别的图表和问题复杂性的能力，2）它们在相同基础数据的不同视觉表示中的稳健性。我们的分析揭示了基于问题和图表类型的显着性能变化，突出了当前模型的优点和缺点。此外，我们还确定了需要改进的领域，并提出了未来的研究方向，以构建更强大、更可靠的 CQA 系统。这项研究揭示了当前模型的局限性，并为该领域的未来发展铺平了道路。

（去）噪音：缓和人类决策者之间的不一致

分类： 人机交互, 计算机与社会

作者： Nina Grgić-Hlača, Junaid Ali, Krishna P. Gummadi, Jennifer Wortman Vaughan

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11225v1

摘要： 先前的心理学研究发现，人们的决定常常不一致。个人的决定随着时间的推移而变化，而不同人的决定的变化甚至更大。不一致不仅存在于主观问题（例如品味问题）中，而且存在于人们可能期望更加客观的环境中，例如量刑、工作绩效评估或房地产评估。在我们的研究中，我们探讨了算法决策辅助是否可以用来调节房地产评估背景下人类决策的不一致程度。在一项大规模的人体实验中，我们研究了不同形式的算法辅助如何影响人们审查和更新房地产价格估计的方式。我们发现（i）要求受访者在一系列算法选择的成对比较中审查他们的估计，以及（ii）向受访者提供传统的机器建议都是影响人类反应的有效策略。与简单地逐一审查初始估计相比，上述策略导致（i）更新初始估计的可能性更高，（ii）审查后估计的准确性更高，以及（iii）帖子之间的一致性更高-审查不同受访者的估计。虽然这些效果在传统机器建议中更为明显，但审查算法选择的对的方法可以在更广泛的设置中实施，因为它不需要访问地面实况数据。

你永远不会独行：用语音和手势控制移动机器人“点”的实验

分类： 人机交互, 机器人技术

作者： Renchi Zhang, Jesse van der Linden, Dimitra Dodou, Harleigh Seyffert, Yke Bauke Eisma, Joost C. F. de Winter

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11218v1

EyeDentify：基于网络摄像头图像的瞳孔直径估计数据集

分类： 计算机视觉和模式识别, 人工智能, 计算机与社会, 人机交互, 机器学习

作者： Vijul Shah, Ko Watanabe, Brian B. Moser, Andreas Dengel

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11204v1

摘要： 在这项工作中，我们介绍了 EyeDentify，这是一个专门为基于网络摄像头图像估计瞳孔直径而设计的数据集。 EyeDentify 解决了瞳孔直径估计可用数据集的缺乏问题，瞳孔直径估计是理解生理和心理状态的关键领域，传统上由 Tobii 等高度专业化的传感器系统主导。与这些先进的传感器系统和相关成本不同，网络摄像头图像在实践中更常见。然而，可以使用标准网络摄像头数据估计瞳孔直径的深度学习模型很少。通过提供裁剪后的眼睛图像数据集以及相应的瞳孔直径信息，EyeDentify 能够开发和完善专为设备较差的环境设计的模型，通过使其更易于访问和更广泛适用来实现瞳孔直径估计的民主化，这反过来又有助于多个领域了解人类活动和支持医疗保健。我们的数据集可在 https://vijulshah.github.io/eyedentify/ 获取。

讨论大语言模型作为定性分析工具的框架

分类： 人机交互

作者： James Eschrich, Sarah Sterman

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11198v1

摘要： 我们回顾了定性研究中有关科学哲学的论述和认知语言学的证据，以便为讨论使用大型语言模型（LLM）支持定性分析过程奠定基础。该框架涉及两个关键问题：“大语言模型是提出还是反驳定性模型？”以及“人类研究人员是否直接检查大语言模型的决策？”。然后，我们讨论该框架的含义：使用大语言模型来提供人工审查的反例代表了将大语言模型纳入定性研究过程的有希望的空间。这个空间很有前途，因为它是研究人员根据各种哲学假设进行工作的重叠场所，能够在工具和实践上进行富有成效的跨范式协作。

学习社会成本函数以进行人类感知的路径规划

分类： 机器人技术, 人工智能, 人机交互, 机器学习

作者： Andrea Eirale, Matteo Leonetti, Marcello Chiaberge

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10547v1

摘要： 获得社会认可是社交机器人导航的主要目标之一。尽管这个话题近年来引起了越来越多的兴趣，但大多数研究都集中在沿着无障碍轨迹驱动机器人代理，围绕未来人类运动的估计进行规划，以尊重个人距离并优化导航。然而，日常生活中的社交互动也受到并不严格依赖于运动的规范的支配，例如站在队列的末尾而不是插队。在本文中，我们提出了一种新方法来识别常见的社会场景并修改传统规划者的成本函数以适应它们。该解决方案使机器人能够执行原本不会出现的不同社交导航行为，从而保持传统导航的鲁棒性。我们的方法允许机器人通过单个学习模型来学习不同的社会规范，而不是为每个任务使用不同的模块。作为概念证明，我们考虑排队任务并尊重彼此交谈的人群的交互空间，但该方法可以扩展到不涉及运动的其他人类活动。

实践中的创新阻力理论：揭开公共组织采用开放政府数据的障碍，以释放开放数据创新

分类： 计算机与社会, 数据库, 人机交互

作者： Anastasija Nikiforova, Antoine Clarinval, Anneke Zuiderwijk, Daniel Rudmark, Petar Milic, Katrin Rajamäe-Soosaar

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10883v1

摘要： 开放政府数据 (OGD) 在促进各行业数据驱动的创新和可持续发展方面发挥着关键作用。尽管其潜力巨大，但许多公共组织不愿公开分享其数据。虽然现有研究探讨了影响公共组织共享 OGD 意愿的因素，但很少有研究应用理论模型来调查公共组织对公开政府数据的抵制。本研究通过开发针对 OGD 量身定制的创新阻力理论 (IRT) 模型来解决这一差距，该模型可以识别公共机构之间阻力的预测因素。我们根据文献开发了一个初始模型，并通过采访 6 个国家的 21 个公共机构对其进行了完善。最终模型描述了与使用、价值、风险、传统和形象相关的 39 个障碍。这些发现通过使 IRT 适应 OGD 的背景（其应用受到明显限制）为文献做出了贡献。因此，本研究解决了对新颖理论框架日益增长的需求，以检查 OGD 采用障碍。提供实用的见解来支持政策制定者创建数据生态系统，鼓励数据开放并解决 OGD 采用中的挑战。

利用多模态生物信号进行随机通道消融，实现稳健的手势分类

分类： 人机交互, 计算机视觉和模式识别, 机器学习

作者： Keshav Bimbraw, Jing Liu, Ye Wang, Toshiaki Koike-Akino

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10874v1

摘要： 基于生物信号的手势分类是有效人机交互的重要组成部分。对于多模态生物信号传感，由于数据中通道缺失，模态经常面临数据丢失，这可能会对手势分类性能产生不利影响。为了使分类器对数据中丢失的通道具有鲁棒性，本文建议在训练过程中使用随机通道消融（RChA）。从 2 名受试者的 12 个手势的前臂获取超声和肌力描记 (FMG) 数据。生成的多模态数据共有 16 个通道，每种模态 8 个通道。所提出的方法应用于卷积神经网络架构，并与基线、插补和预言方法进行比较。对两名受试者进行 5 倍交叉验证，与基线相比，在缺失通道多达 4 个和 8 个的情况下，手势分类平均提高了 12.2% 和 24.5%。值得注意的是，与其他方法相比，所提出的方法对于丢失通道数量的增加也具有鲁棒性。这些结果表明，使用随机通道消融来提高基于多模态和多通道生物信号的手势分类的分类器鲁棒性的有效性。

GPT 超声检查：通过 VLM 对前臂超声图像进行手势解码

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者： Keshav Bimbraw, Ye Wang, Jing Liu, Toshiaki Koike-Akino

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10870v1

摘要： 大型视觉语言模型 (LVLM)，例如生成式预训练 Transformer 4-omni (GPT-4o)，是新兴的多模态基础模型，具有作为强大的人工智能 (AI) 辅助工具的巨大潜力，可用于无数领域应用程序，包括医疗保健、工业和学术领域。尽管此类基础模型在广泛的一般任务中表现良好，但其未经微调的能力在专门任务中通常受到限制。然而，由于巨大的计算/内存/数据集需求，大型基础模型的全面微调具有挑战性。我们证明，即使没有微调，GPT-4o 也可以从前臂超声数据中解码手势，并通过少量的上下文学习进行改进。

通过出行概况进行交互式公共交通基础设施分析：使出行转型透明

分类： 人机交互, H.5.2

作者： Yannick Metz, Dennis Ackermann, Daniel A. Keim, Maximilian T. Fischer

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10791v1

摘要： 随着城市面临日益增长的出行需求，高效的公共交通系统对于可持续城市发展至关重要。然而，由于历史发展、城市限制和财政限制，许多公共交通网络难以满足多样化的用户需求。传统上，交通网络结构的规划往往基于有限的调查、专家意见或部分使用统计数据。这为决策提供了不完整的基础。我们引入了数据驱动的公共交通规划和优化方法，计算了个人住房层面的详细无障碍措施。我们的可视化分析工作流程将基于人口群体的模拟与动态基础设施分析相结合，利用基于场景的模型来模拟不同人口群体（包括学童、学生、工人和养老金领取者）的日常出行模式。这些人群都有独特的出行要求和惯例，在往返兴趣点 (POI) 的不同场景下与交通系统进行交互，并通过出行时间计算进行评估。结果通过热图、密度图、网络叠加以及详细的统计数据进行可视化。我们的系统使我们能够在多个粒度级别上分析基础数据和模拟结果，从而提供广泛的见解和精细的细节。一项形成性用户研究证实，德国康斯坦茨市的案例研究揭示了公共交通无法满足特定需求的关键地区。由于改变传统网络的成本很高，我们的分析有助于确定战略增强措施，例如优化时间表或重新路由，以及很少有针对性的站点重新定位，突出显示可及性的相应变化，以查明关键服务差距。

基于心理测量理论的用于评估 XAI 体验质量的 XEQ 量表

分类： 人工智能, 人机交互

作者： Anjana Wijekoon, Nirmalie Wiratunga, David Corsar, Kyle Martin, Ikechukwu Nkisi-Orji, Belen Díaz-Agudo, Derek Bridge

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10662v1

摘要： 可解释人工智能（XAI）旨在通过解释提高自主决策的透明度。最近的文献强调用户需要整体的“多镜头”解释以及个性化他们与 XAI 系统的交互的能力。我们将这种以用户为中心的交互称为 XAI 体验。尽管在创建 XAI 体验方面取得了进步，但以用户为中心的方式对其进行评估仍然具有挑战性。为了解决这个问题，我们引入了 XAI 体验质量 (XEQ) 量表（发音为“Seek”量表），用于评估以用户为中心的 XAI 体验质量。此外，XEQ 量化了四个评估维度的体验质量：学习、效用、成就感和参与度。这些贡献扩展了 XAI 评估的最先进水平，超越了经常开发用于评估单次解释的一维指标。在本文中，我们介绍了 XEQ 规模开发和验证过程，包括 XAI 专家的内容验证以及通过大规模试点研究进行判别和构造验证。试点研究结果提供了强有力的证据，证明 XEQ 量表是评估以用户为中心的 XAI 体验的综合框架。

排除杂乱：大语言模型在系统文献综述中有效过滤的潜力

分类： 机器学习, 数字图书馆, 人机交互, H.5.2

作者： Lucas Joos, Daniel A. Keim, Maximilian T. Fischer

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10652v1

摘要： 在学术研究中，系统的文献综述是基础性的且高度相关的，但由于涉及大量出版物和劳动密集型过程，因此创建起来很乏味。通过基于关键词的过滤技术等传统手段系统地选择相关论文有时可能不够充分，受到语义模糊和术语不一致的困扰，这可能导致次优结果。为了减轻所需的大量手动筛选，我们探索并评估了使用大型语言模型 (LLM) 来提高文献综述筛选的效率、速度和精度，从而减少所需的手动筛选量的潜力。通过使用模型作为仅作用于结构化数据库的分类代理，我们可以防止大语言模型固有的常见问题，例如幻觉。我们在构建最近的文献调查论文期间评估了这种设置的现实世界性能，最初考虑了超过 8,300 篇潜在相关文章，并将其与同一数据集上的人类表现进行比较。我们的研究结果表明，使用 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Flash 或 Llama3 等先进的 LLM 并进行简单提示，可以显着减少文献筛选所需的时间 - 从通常需要几周的手动研究缩短到只需几分钟。同时，我们至关重要地表明，假阴性确实可以通过共识方案进行控制，实现召回率 >98.8%，达到甚至超过典型的人为错误阈值，从而也提供了更准确和相关的文章选择。我们的研究不仅展示了文献综述方法的实质性改进，而且为负责任的人工智能在学术研究实践中的进一步整合和未来广泛应用奠定了基础。

外行人对人工智能生成艺术版权的以自我为中心的看法

分类： 计算机与社会, 人机交互

作者： Gabriel Lima, Nina Grgić-Hlača, Elissa Redmiles

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10546v1

摘要： 生成式人工智能 (GenAI) 的最新突破引发了有关版权法下人工智能生成的创作地位的争论。这项研究调查了外行人对人工智能生成的艺术与版权保护相关因素的看法（$N$ = 424）。受先前研究的启发，人们在评估自己的创意产出时表现出以自我为中心的偏见，我们还测试了人工智能生成的艺术是否同样如此。也就是说，我们研究那些从版权保护中获益的人（人工智能生成艺术的创作者）和未投资的第三方之间的看法差异。为了回答我们的研究问题，我们举办了一场激励性人工智能艺术竞赛，其中一些参与者使用 GenAI 模型生成图像以供考虑，而其他参与者则对这些提交的作品进行评估。我们发现，参与者最有可能将人工智能生成的图像的作者权和版权归于促使人工智能系统生成图像的用户以及其创作用于训练人工智能模型的艺术家。我们还发现，参与者以自我为中心，更喜欢自己的艺术而不是其他参与者的艺术，并且对自己的创作的评价高于其他人对他们的评价。此外，我们的结果表明，人们对某些因素（创造力和努力）而不是其他因素（技能）更倾向于评价自己的人工智能生成的艺术。我们的研究结果对未来有关人工智能生成的输出的潜在版权保护的辩论具有影响。

虚拟现实中的文化反思：化身匹配体验中用户种族对身临其境感的影响

分类： 人机交互

作者： Tiffany D. Do, Juanita Benjamin, Camille Isabella Protko, Ryan P. McMahan

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10412v1

摘要： 将化身特征与用户相匹配会影响 VR 中的身临其境感 (SoE)。然而，很少有研究探讨参与者人口统计数据如何与这些匹配效应相互作用。我们招募了 78 名参与者组成的多元化且种族平衡的样本，以调查参与者群体在体现人口统计匹配和不匹配的化身时的差异。我们发现参与者的种族成为一个重要因素，与西班牙裔参与者相比，亚洲和黑人参与者报告的总 SoE 较低。此外，我们发现用户种族显着影响所有权（SoE 的一个子量表），与白人参与者相比，亚洲和黑人参与者表现出更强的匹配头像种族的影响。此外，西班牙裔参与者没有表现出显着差异，这表明民族身份的复杂动态。我们的结果还揭示了匹配的化身种族和性别对 SoE 的显着主要影响，表明在 VR 体验中考虑这些因素的重要性。这些发现为理解不同人口群体塑造 VR 体验的复杂动态提供了宝贵的见解。

绘制暗模式监管的学术图谱：从跨学科的角度对概念、监管范式和解决方案进行系统回顾

分类： 计算机与社会, 人工智能, 人机交互, 信息论, 社交和信息网络, 信息论

作者： Weiwei Yi, Zihao Li

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10340v1

摘要： 黑暗模式是在线界面上用来操纵用户决策过程的设计技巧，引起了公众的关注。然而，对于暗纹监管的研究仍然不够发达和分散，尤其是学者们对暗纹监管概念、监管范式和解决方案的看法。本文遵循 PRISMA 指南，系统回顾了法律和人机交互跨学科学术中暗模式监管讨论的格式和内容。通过内容和主题分析，总共对 65 项研究进行了分析。本研究综合了黑暗模式法律学术的独特趋势和特征，确定了五个根本问题和三层危害。它从法律理论和部门立法方面批评了现行法规，强调了它们在解决黑暗模式方面的不足。本文还批判性地审查了现有提出的解决方案，包括法律原则的范式转变、现有框架的改进、技术设计嵌入式解决方案以及设计实践的问责措施。这项研究批判性地讨论了当前有效暗纹监管的障碍，并探索了有前景的监管解决方案。各种形式暗纹的规范性难以识别，明显且可诉的危害难以识别，暗纹内涵范围不断扩大，本质上阻碍了有效监管。然而，技术设计嵌入式解决方案、问责框架和实用设计指南为更主动的监管提供了潜在途径，而法律多元化则为暗模式监管的监管范式带来了宏观层面的有希望的变革。

超越冥想：了解经验丰富的练习者的日常正念练习和技术使用

分类： 人机交互, H.5.2

作者： Jingjin Li, Karen Anne Cochrane, Gilly Leshed

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10334v1

摘要： 正念是一种不加评判地关注当下的练习，对身心健康有许多好处，尤其是坚持练习时。人们发明了许多技术来支持单独或小组正念练习，例如移动应用程序、直播、虚拟现实环境和可穿戴设备。在本文中，我们介绍了对 20 名经验丰富的正念练习者进行的采访研究的结果，内容涉及他们的日常正念练习和技术使用。参与者确定长期致力于正念练习的好处和挑战。他们采用各种策略来维持他们的练习，例如简短的正念练习、社会责任和老师的指导。尽管对技术存在冲突，但他们在实践中采用并运用了一系列技术来进行提醒、情绪跟踪、与他人联系以及参加在线会议。他们还仔细考虑何时使用技术、何时以及如何限制其使用，以及如何将技术纳入正念的对象。根据我们的发现，我们讨论扩大正念的定义以及支持短期和长期正念练习之间的紧张关系。我们还提出了一套支持日常正念的设计建议，包括通过隐喻的视角、重新利用非正念技术以及将社区支持带入个人实践。

在家工作和隐私：工人面临什么以及他们正在采取什么措施？

分类： 人机交互

作者： Eman Alashwali, Joanne Peca, Mandy Lanyon, Lorrie Cranor

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10094v1

摘要： COVID-19 大流行重塑了人们的工作方式，使在家工作 (WFH) 的做法正常化。然而，在家办公可能会导致个人和职业界限变得模糊，从而引发新的隐私问题，尤其是当员工在家中召开工作会议时。由于在家办公安排现已成为许多组织的标准做法，解决相关的隐私问题应该成为为员工创造健康工作环境的关键部分。为此，我们对 214 名目前经常在家工作的美国员工进行了情景调查。我们的研究结果表明，在家工作时经常会遭遇隐私侵犯，并给许多员工带来不适。然而，只有少数人表示，不适感升级，对自己或他人造成伤害，而且伤害几乎都是心理上的。虽然限制工人自主权（禁止关闭摄像头或麦克风）的场景是最少经历的场景，但它们与报告的最高不适感相关。此外，参与者还报告了违反或可能违反雇主为保护其隐私而制定的自主权限制规则的措施。我们还发现，与手动隐私保护措施相比，能够防止隐私侵犯的会议工具设置并未得到广泛使用。我们的研究结果让我们更好地了解在家工作人员面临的隐私挑战以及他们如何解决这些挑战。此外，我们的讨论提出了可以启发未来工作的开放性问题。

运动游戏的翡翠门户：社会文化因素如何影响东亚老年人的运动游戏

分类： 人机交互

作者： Reza Hadi Mogavi, Juhyung Son, Simin Yang, Derrick M. Wang, Lydia Choong, Ahmad Alhilal, Peng Yuan Zhou, Pan Hui, Lennart E. Nacke

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10053v1

摘要： 运动游戏将运动和游戏结合起来，可以改善老年人的身心健康。目前我们还不完全了解促使老年人参与或放弃运动游戏的因素。对此进行调查的大规模研究仍然很少，特别是那些研究东亚老年人的研究。为了解决这个问题，我们采访了来自中国、日本和韩国的 64 名老年人，了解他们对运动游戏的态度。大多数参与者都以积极的好奇心看待运动游戏。然而，社会文化因素可能会阻碍这种好奇心。我们的研究表明，对衰老的看法、生活方式、支持网络的存在以及游戏机制的文化相关性是影响他们参与运动游戏的关键因素。因此，我们强调游戏设计中社会文化敏感性的价值，并敦促 HCI 社区采用更加多样化的设计实践。我们提供了一些设计建议，以创建更具文化吸引力的运动游戏。

SensEmo：通过智能手表实时情绪识别实现情感学习

分类： 人机交互, 计算机视觉和模式识别, 机器学习, 信号处理, C.3.3; J.3.2; J.4.2

作者： Kushan Choksi, Hongkai Chen, Karan Joshi, Sukrutha Jade, Shahriar Nirjon, Shan Lin

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09911v1

摘要： 最近的研究证明了生理信号能够推断用户情绪和注意力反应。这为利用智能手表中广泛使用的生理传感器来检测用户的实时情绪线索（例如压力和兴奋）提供了机会。在本文中，我们介绍了 SensEmo，这是一种基于智能手表的系统，专为情感学习而设计。 SensEmo 利用多种生理传感器数据（包括心率和皮肤电反应）来识别学生在课堂上的动机和注意力水平。这种识别是通过个性化情绪识别模型促进的，该模型根据效价和唤醒程度来预测情绪状态。根据学生的实时情绪和注意力反馈，我们设计了一种基于马尔可夫决策过程的算法，通过向老师提供有关教学内容和节奏的建议来提高学生的学习效率和体验。我们在现实课堂环境中与 22 名参与者一起评估 SensEmo。评估结果显示，SensEmo对学生情绪的识别准确率平均为88.9%。更重要的是，SensEmo 帮助学生取得更好的在线学习成果，例如，与没有学生情感反馈的传统学习相比，测验成绩平均提高 40.0%。

CellAgent：用于自动化单细胞数据分析的大语言模型驱动的多代理框架

分类： 人工智能, 人机交互, 基因组学

作者： Yihang Xiao, Jinyi Liu, Yan Zheng, Xiaohan Xie, Jianye Hao, Mingzhi Li, Ruitao Wang, Fei Ni, Yuxiao Li, Jintian Luo, Shaoqing Jiao, Jiajie Peng

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09811v1

摘要： 单细胞 RNA 测序 (scRNA-seq) 数据分析对于生物学研究至关重要，因为它能够精确表征细胞异质性。然而，对于研究人员来说，手动操作各种工具来实现期望的结果可能是劳动密集型的。为了解决这个问题，我们引入了CellAgent（http://cell.agent4science.cn/），这是一个LLM驱动的多智能体框架，专为自动处理和执行scRNA-seq数据分析任务而设计，提供高质量的结果无需人工干预。首先，为了使一般大语言模型适应生物领域，CellAgent构建了大语言模型驱动的生物专家角色——规划者、执行者和评估者——每个角色都有特定的职责。然后，CellAgent引入分层决策机制来协调这些生物专家，有效驱动复杂数据分析任务的规划和逐步执行。此外，我们提出了一种自我迭代优化机制，使CellAgent能够自主评估和优化解决方案，从而保证输出质量。我们在涵盖数十种组织和数百种不同细胞类型的综合基准数据集上评估 CellAgent。评估结果一致表明，CellAgent 有效地识别了最适合单细胞分析任务的工具和超参数，实现了最佳性能。这种自动化框架极大地减少了科学数据分析的工作量，使我们进入“科学代理”时代。

揭示毒性对玩家参与度的影响及其在竞技性在线视频游戏中的传播

分类： 人机交互, 普通经济学, 经济学

作者： Jacob Morrier, Amine Mahmassani, R. Michael Alvarez

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09736v1

摘要： 本文旨在准确估计接触有毒语言对玩家参与度和有毒语言扩散的因果影响。为此，我们分析了动视公司发行的第一人称动作视频游戏《使命召唤：现代战争 III》的专有数据。为了克服因果识别问题，我们实施了工具变量估计策略。我们的研究结果证实，接触有毒语言会显着影响玩家的参与度以及玩家使用类似语言的可能性。因此，视频游戏发行商在解决有毒语言方面拥有既得利益。此外，我们还证明，这种效果会根据有毒语言是否源自对手或队友、是否源自同一方或不同方的队友以及比赛结果而显着变化。这对于如何分配解决毒性问题的资源具有重要意义。

Purrfect Pitch：通过多感官界面探索音程学习

分类： 人机交互

作者： Sam Chin, Cathy Mengying Fang, Nikhil Singh, Ibrahim Ibrahim, Joe Paradiso, Pattie Maes

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09721v1

摘要： 我们推出 Purrfect Pitch，这是一个由可穿戴触觉设备和定制设计的音乐耳朵训练学习界面组成的系统。我们专注于识别音程（两个音符的序列）的能力，这是一项感知上模糊的任务，通常需要艰苦的死记硬背训练。使用我们的系统，用户会听到一系列两个音调，同时在背部接收到两个相应的振动触觉刺激。沿背部提供触觉反馈使两种音调之间的听觉距离更加明显，背戴式设计舒适且不显眼。在训练期间，用户从我们的系统接收多感官反馈，并在我们基于网络的学习界面上输入他们猜测的区间值。他们会看到一个绿色（否则是红色）屏幕，用于使用正确的间隔值进行正确的猜测。我们对 18 名参与者进行的研究表明，我们的系统使新手学习者能够比那些仅收到音频反馈的学习者更准确、更一致地识别音程，即使在触觉反馈被删除后也是如此。我们还分享了有关如何设计多感官学习系统的进一步见解。

机器人之歌：使用认知隐喻进行声音化以支持机器人团队的沉浸式远程操作

分类： 机器人技术, 人机交互

作者： Joe Simmons, Paul Bremner, Thomas J Mitchell, Alison Bown, Verity McIntosh

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09673v1

摘要： 作为一种具体的空间媒介，虚拟现实正在为危险环境中的机器人远程操作提供一个有吸引力的主张。本文研究了核退役场景，其中使用半自主机器人模拟团队来描述虚拟核设施内的房间的特征。本研究探讨了可听化作为在此类环境中传达重要操作员数据的手段的潜在效用和影响。然而，应该使用什么声音以及如何将其应用于不同的应用程序的问题还远未解决。本文探讨并比较了两种可听化设计方法。第一个受到认知隐喻理论的启发，创建与社会获得的应用领域的上下文和生态理解相一致的声音。第二种采用计算主义方法，使用文献中常见的听觉映射。结果表明，计算主义方法在可预测性和脑力负荷方面优于认知隐喻方法。然而，定性数据分析表明，认知隐喻方法产生的声音更直观，并且在存在多个声源时可以更好地实现数据源的空间化和数据易读性。

桥接词典：人工智能生成的党派语言使用词典

分类： 人机交互, 计算和语言

作者： Hang Jiang, Doug Beeferman, William Brannon, Andrew Heyward, Deb Roy

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09661v1

摘要： 对于来自不同背景的人来说，词语通常具有不同的含义。当今社会两极分化的时代要求我们谨慎选择词语，以防止沟通不畅，尤其是在政治传播和新闻传播领域。为了解决这个问题，我们推出了桥接词典，这是一种交互式工具，旨在阐明不同政治观点的人们如何看待词语。桥接词典包括一个静态、可打印的文档，包含 796 个术语以及由大型语言模型生成的摘要。这些摘要强调了共和党和民主党如何独特地使用这些术语。此外，桥接词典还提供了一个交互式界面，让用户可以探索选定的单词，直观地显示它们的频率、情绪、摘要和跨越政治分歧的示例。我们为记者提供了一个用例，并强调了人类代理和信任在进一步增强该工具方面的重要性。桥接词典的部署版本可在 https://dictionary.ccc-mit.org/ 上获取。

跟踪大型社交媒体平台上用户生命周期中的毒性和反社会行为模式

分类： 社交和信息网络, 计算机与社会, 人机交互

作者： Katy Blumer, Jon Kleinberg

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09365v1

摘要： 社交媒体上的“有毒”或反社会行为问题受到越来越多的关注。在本文中，我们分析了大规模的此类行为：我们分析了 14 年时间跨度内来自 Reddit 和维基百科的近 5 亿条评论的毒性，基于两种不同的毒性代理。在个人层面上，我们分析了用户在网站上的时间过程中的毒性水平，并发现了趋势的惊人逆转：Reddit 和维基百科用户在早期的网站生命周期中往往变得毒性较小（ 2013 年之前）的站点历史，但在站点后期（2013 年之后）的生命周期中毒性更大。我们还发现 Reddit 和 Wikipedia 上的毒性有一个关键的不同，Reddit 上最有毒的行为由最活跃的用户聚合而成，而 Wikipedia 上最有毒的行为由最不活跃的用户聚合而成。最后，我们考虑了围绕广泛共享的内容进行讨论的毒性，并发现内容讨论中的毒性趋势与用户讨论中的毒性趋势具有有趣的相似之处。

对比就够了吗？用于人工智能生成文本的检测和归因的对比学习

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互, 物理与社会

作者： Lucio La Cava, Davide Costa, Andrea Tagarelli

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09364v1

摘要： 大型语言模型开发的重大进展有助于模糊人类和人工智能生成的文本之间的区别。人工智能生成文本的日益普遍以及检测它的难度给我们的社会带来了新的挑战。在本文中，我们通过提出 WhosAI 来解决检测和归因人工智能生成文本的问题，这是一个三元组网络对比学习框架，旨在预测给定的输入文本是由人类还是人工智能生成，并揭示文本的作者身份。与大多数现有方法不同，我们提出的框架旨在同时从多个生成器学习语义相似性表示，从而平等地处理检测和归因任务。此外，WhosAI 与模型无关，并且可以通过将生成的实例合并到我们框架学习的嵌入空间中来发布新的 AI 文本生成模型。在 20 万篇新闻文章的 TuringBench 基准测试上的实验结果表明，我们提出的框架在图灵测试和作者归因任务中都取得了出色的结果，优于 TuringBench 基准测试排行榜中列出的所有方法。

善意，有风险的发明：一种评估人工智能在移动和可穿戴设备中的风险和收益的方法

分类： 人机交互

作者： Marios Constantinides, Edyta Bogucka, Sanja Scepanovic, Daniele Quercia

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09322v1

摘要： 将人工智能 (AI) 集成到移动和可穿戴设备中可以为个人、社会和环境层面带来诸多好处。然而，它也凸显了对新兴风险的担忧。传统的风险和收益评估是零星的，并且通常需要昂贵的专家分析。我们开发了一种半自动方法，利用大型语言模型（LLM）来识别人工智能在移动和可穿戴设备中的使用，根据欧盟人工智能法案对其风险进行分类，并确定其与全球公认的长期可持续发展目标相一致的收益；由两名移动和可穿戴技术专家、一名法律和合规专家以及从 Prolific 招募的九名具有法律背景的人员对我们的方法进行了手动验证，确认其准确性超过 85%。我们发现，移动计算的特定应用在改善福祉、安全和社会平等方面具有巨大潜力。然而，这些有希望的用途与涉及敏感数据、弱势群体和自动化决策的风险有关。为了避免拒绝这些有风险但有影响力的移动和可穿戴用途，我们为移动 HCI 社区提出了一份风险评估清单。

先提示，最后提示

分类： 计算机与社会, 人机交互

作者： Brent N. Reeves, James Prather, Paul Denny, Juho Leinonen, Stephen MacNeil, Brett A. Becker, Andrew Luxton-Reilly

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09231v1

摘要： 生成式人工智能（GenAI），尤其是大型语言模型，正在颠覆计算机科学教育。事实证明，他们应对越来越多挑战的能力越来越强。一些教育工作者认为它们对计算机教育构成了严重威胁，我们应该禁止它们在课堂上使用。尽管仍有一些严重的 GenAI 问题尚未解决，但目前退后一步并全面审视计算机科学的整体轨迹可能会有所帮助。从一开始，我们的学科就致力于提高每个新表示的抽象水平。我们已经从硬件拨码开关，通过专用语言和流程图等视觉表示，一直发展到“自然语言”。随着 GenAI 的出现，学生终于可以将问题的抽象级别更改为“他们一生都在“解决问题”。在本文中，我们认为我们的编程抽象总是朝着这里——自然语言。现在是在计算机科学教育中采用“提示第一”方法的时候了。

人工智能驱动的沉浸式辅助，可在工业环境中执行交互式任务

分类： 人机交互, 信息检索

作者： Tomislav Duricic, Peter Müllner, Nicole Weidinger, Neven ElSayed, Dominik Kowald, Eduardo Veas

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09147v1

摘要： 许多工业部门依赖于能够操作复杂机械的训练有素的员工。在这项工作中，我们展示了一种人工智能驱动的沉浸式辅助系统，该系统支持用户在工业环境中执行复杂的任务。具体来说，我们的系统利用类似于果汁搅拌机设置的 VR 环境。这种物理设置的数字孪生模拟用于混合制剂或液体的复杂工业机械（例如，类似于制药行业），并包括各种容器、传感器、泵和流量控制器。此设置展示了我们的系统在受控环境中的功能，同时充当更广泛的工业应用的概念验证。我们的多模式人工智能助手的核心组件是一个大型语言模型和一个语音到文本模型，用于处理专家在 VR 环境中执行任务的视频和音频记录。从专家视频中提取的视频和语音输入使其能够提供逐步指导，以支持用户执行复杂的任务。该演示展示了我们的人工智能助手在减少认知负荷、提高生产力和增强工业环境安全性方面的潜力。

Magic XRoom：用于控制情绪激发和识别的灵活 VR 平台

分类： 人机交互

作者： S. M. Hossein Mousavi, Matteo Besenzoni, Davide Andreoletti, Achille Peternier, Silvia Giordano

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09110v1

摘要： 情感计算最近受到欢迎，特别是在人机交互系统领域，有效唤起和检测情感对于增强用户体验至关重要。然而，有几个问题阻碍了该领域的进展。事实上，情绪的复杂性使得理解它们的触发因素和控制它们的引发变得困难。此外，有效的情绪识别需要分析多个传感器数据，例如面部表情和生理信号。这些因素结合起来使得收集可用于研究目的（例如，情感识别算法的开发）的高质量数据集变得困难。尽管存在这些挑战，虚拟现实 (VR) 还是有望成为一种解决方案。通过提供受控的沉浸式环境，VR 能够复制现实世界的情感体验，并有助于跟踪指示情感状态的信号。然而，控制情绪引发在虚拟现实中仍然是一项具有挑战性的任务。本研究论文介绍了 Magic Xroom，这是一个 VR 平台，旨在利用心流理论增强对情绪引发的控制。该理论在个人技能水平、任务难度和感知情绪之间建立了映射。在Magic Xroom中，不断评估用户的技能水平，并相应调整任务难度以唤起特定的情绪。此外，使用传感器收集用户信号，并利用虚拟面板来确定地面真实情绪状态，使 Magic Xroom 成为收集广泛数据集的理想平台。本文提供了详细的实现信息，重点介绍了 Magic Xroom 的主要特性，并提供了虚拟场景示例来说明其能力和功能。

拯救一棵树还是减少 6 公斤二氧化碳？了解有效的碳足迹干预措施以选择环保车辆

分类： 人机交互, H.5.m

作者： Vikram Mohanty, Alexandre Filipowicz, Nayeli Bravo, Scott Carter, David A. Shamma

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.08897v1

摘要： 从叫车到汽车租赁，消费者经常会遇到环保的选择。除了强调“绿色”车辆和二氧化碳排放量外，二氧化碳当量还旨在提供可理解的数量；我们询问哪些等价因素将导致环保决策。我们进行了五次网约车场景调查，参与者在常规选项和环保选项之间进行选择，测试等效性、社交功能和基于效价的干预措施。此外，我们还测试了一个汽车租赁实施例，以衡量个人（需要几天的汽车）与当前的网约车环境相比的行为方式。我们发现，当参与者获得有关排放的更多信息时，他们更有可能选择绿色出行；发现按重量计算的二氧化碳是最有效的。此外，我们发现信息框架——无论是个人还是集体足迹、正价或负价——都会对参与者的选择产生影响。最后，我们讨论我们的研究结果如何为减少汽车碳排放的有效干预措施的设计提供信息。

为视觉障碍人士提供大型多模式 (LMM) 援助的新兴实践：对设计的启示

分类： 人机交互

作者： Jingyi Xie, Rui Yu, He Zhang, Sooyeon Lee, Syed Masum Billah, John M. Carroll

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08882v1

摘要： 有视觉障碍的人以非视觉方式感知环境，并经常使用人工智能辅助工具来获取视觉信息的文本描述。最近基于大型视觉语言模型的人工智能工具（例如 Be My AI）更能够理解用户用自然语言询问并用可听文本描述场景；然而，目前尚未充分研究这些工具对视障用户的有用程度。本文旨在填补这一空白。我们对 14 名视障用户的研究表明，他们正在有机地适应这些工具——这些工具不仅可以促进家庭、空间和社会环境中的复杂交互，而且还可以充当用户认知的延伸，就好像认知分布在视觉信息中。我们还发现，尽管这些工具目前不是以目标为导向的，但用户适应了这一限制并接受了这些工具的功能以实现更广泛的用途。这些发现使我们能够设想创建更加目标导向、实时处理和可靠的人工智能辅助技术的设计含义。

使用表面肌电图分析患有自闭症谱系障碍的最低限度语言成人的言语运动

分类： 神经元和认知, 人机交互

作者： Wazeer Zulfikar, Nishat Protyasha, Camila Canales, Heli Patel, James Williamson, Laura Sarnie, Lisa Nowinski, Nataliya Kosmyna, Paige Townsend, Sophia Yuditskaya, Tanya Talkar, Utkarsh Oggy Sarawgi, Christopher McDougle, Thomas Quatieri, Pattie Maes, Maria Mody

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08877v1

摘要： 患有自闭症谱系障碍 (mvASD) 的成年人有明显的言语困难，这与运动技能受损有关。现有的研究和临床评估主要使用标准化测试、基于视频的面部特征和手写任务等间接方法，这些方法可能不直接针对与言语相关的运动技能。在这项研究中，我们在精心设计的任务中使用表面肌电图 (sEMG) 测量与言语相关的八块面部肌肉的活动。研究结果表明，与年龄和性别匹配的神经典型对照（N=14）相比，mvASD 成人（N=12）的 sEMG 信号具有更高的功率，并且 sEMG 通道之间的相关性显着更大。这表明肌肉激活更强，运动单位的放电模式更同步。此外，从相关矩阵导出的特征值表明 mvASD 中肌肉协调的复杂性较低，这意味着运动控制的自由度较低。

人们对 Sentient AI 有什么看法？

分类： 人工智能, 计算机与社会, 新兴技术, 人机交互

作者： Jacy Reese Anthis, Janet V. T. Pauketat, Ali Ladak, Aikaterina Manoli

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08867v1

摘要： 随着机器学习的快速发展，该领域的许多人一直在讨论数字思维的兴起和人工智能的可能性。人工智能能力和安全的未来发展将取决于公众舆论和人机交互。为了开始填补这一研究空白，我们提供了关于感知人工智能主题的第一个全国代表性调查数据：人工智能、道德和感知（AIMS）调查的初步结果，这是一项针对美国公众舆论的预先注册的纵向研究， 2021 年。通过 2021 年的一波数据收集和 2023 年的两波数据收集（总计 \textit{N} = 3,500），我们发现 2021 年对人工智能福祉的心理感知和道德关注高于预测，并在 2023 年显着增加：例如，71% 的人同意有感知力的人工智能应该受到尊重，38% 的人支持合法权利。人们受到人工智能的威胁越来越大，人们普遍反对新技术：63%的人支持禁止比人类更聪明的人工智能，69%的人支持禁止有感知力的人工智能。预期的时间线出人意料地短，并且预测中值人工智能仅需五年，通用人工智能仅需两年。我们认为，无论人工智能是否具有感知能力，讨论本身都可能彻底改变人机交互并塑造人工智能技术的未来轨迹，包括存在的风险和机遇。

在移位和反向图灵测试中，GPT-4 被认为比人类更人性化

分类： 人机交互, 计算和语言

作者： Ishika Rathi, Sydney Taylor, Benjamin K. Bergen, Cameron R. Jones

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08853v1

摘要： 日常人工智能检测需要在非正式的在线对话中区分人和人工智能。在许多情况下，人们不会直接与人工智能系统交互，而是阅读人工智能系统与其他人之间的对话。我们使用图灵测试的两个修改版本（倒置和移位）来测量人和大型语言模型的区分能力。 GPT-3.5、GPT-4 和流离失所的人类裁决者根据图灵测试成绩单来判断智能体是人类还是人工智能。我们发现人工智能和流离失所的人类法官的准确度都低于交互式询问器，总体准确度低于机会。此外，三人都认为表现最好的 GPT-4 证人是人类，而不是人类证人。这表明，当人类和当前的大语言模型不主动询问对方时，他们都很难区分两者，这凸显了迫切需要更准确的工具来检测对话中的人工智能。

UICrit：使用 UICritique 数据集增强自动化设计评估

分类： 人机交互, 人工智能

作者： Peitong Duan, Chin-yi Chen, Gang Li, Bjoern Hartmann, Yang Li

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08850v1

摘要： 自动化 UI 评估有利于设计过程；例如，比较不同的 UI 设计，或进行自动启发式评估。特别是基于 LLM 的 UI 评估有望对各种 UI 类型和评估任务具有普遍性。然而，当前基于大语言模型的技术尚无法与人类评估者的表现相匹配。我们假设可以通过收集有针对性的 UI 反馈数据集，然后使用该数据集来提高通用 LLM 的性能来改进自动评估。我们提供了一个有针对性的数据集，其中包含 983 个移动 UI 的 3,059 条设计评论和质量评级，这些数据来自七位经验丰富的设计师。我们进行了深入分析来表征数据集的特征。然后，我们应用该数据集，通过各种少量镜头和视觉提示技术，在 LLM 生成的 UI 反馈中实现了 55% 的性能提升。我们还讨论了该数据集的未来应用，包括训练生成 UI 技术的奖励模型，以及微调与工具无关的多模态 LLM，以自动执行 UI 评估。

为人工智能模型建立严格且具有成本效益的临床试验

分类： 人工智能, 人机交互

作者： Wanling Gao, Yunyou Huang, Dandan Cui, Zhuoming Yu, Wenjing Liu, Xiaoshuang Liang, Jiahui Zhao, Jiyue Xie, Hao Li, Li Ma, Ning Ye, Yumiao Kang, Dingfeng Luo, Peng Pan, Wei Huang, Zhongmou Liu, Jizhong Hu, Gangyuan Zhao, Chongrong Jiang, Fan Huang, Tianyi Wei, Suqin Tang, Bingjie Xia, Zhifei Zhang, Jianfeng Zhan

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08554v1

摘要： 人工智能（AI）与医学临床实践之间仍然存在巨大差距，这主要是由于缺乏严格且具有成本效益的评估方法。最先进和最实践的人工智能模型评估仅限于对医学数据集的实验室研究或没有或仅以患者为中心的控制的直接临床试验。此外，临床医生在与人工智能合作方面的关键作用，对于确定其对临床实践的影响至关重要，却经常被忽视。我们首次强调在临床实践中对人工智能模型进行严格且具有成本效益的评估方法的至关重要性，其中包括以患者/临床医生为中心（双中心）的人工智能随机对照试验（DC-AI RCT）和虚拟临床医生——基于计算机的试验（VC-MedAI）作为 DC-AI RCT 的有效替代。利用来自 14 个医疗中心、125 名临床医生的两阶段首次 DC-AI RCT 的 7500 份诊断记录，我们的结果证明了 DC-AI RCT 的必要性和 VC-MedAI 的有效性。值得注意的是，VC-MedAI 的表现与人类临床医生相当，复制了前瞻性 DC-AI 随机对照试验的见解和结论。我们设想 DC-AI RCT 和 VC-MedAI 是关键的进步，为临床实践中的 AI 模型提供创新和变革性的评估方法，提供类似传统医学的临床前环境，并以具有成本效益和快速迭代的方式重塑开发范例方式。中国临床试验注册号：ChiCTR2400086816。

DIDUP：UI 原型的动态迭代开发

分类： 人机交互, 软件工程

作者： Jenny Ma, Karthik Sreedhar, Vivian Liu, Sitong Wang, Pedro Alejandro Perez, Lydia B. Chilton

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08474v1

摘要： 大型语言模型（LLM）非常擅长编写代码。人类与大语言模型协作的一个特别有价值的案例是基于代码的 UI 原型设计，这是一种创建交互式原型的方法，允许用户查看并充分参与用户界面。我们对 GPT Pilot（一个领先的大语言模型生成的代码原型系统）进行了形成性研究，发现一旦开发开始，它对变化的不灵活性会导致故障预防和动态规划方面的弱点；它与瀑布模型的线性工作流程非常相似。我们引入了 DIDUP，这是一个基于代码的 UI 原型设计系统，遵循迭代螺旋模型，该模型考虑了开发过程中出现的更改和迭代。我们为 LLM 生成的代码原型系统提出了三种新颖的机制：（1）自适应规划，其中计划应该是动态的并反映实施过程中的变化，（2）代码注入，其中系统应编写最少量的代码并注入它而不是重写代码，以便用户对代码演变有更好的心理模型，以及（3）轻量级状态管理，源代码控制的简化版本，以便用户可以快速恢复到不同的工作状态。总之，这使用户能够快速开发和迭代原型。

走向分层颜色图的质量方法

分类： 人机交互, H.1.2; H.5.2

作者： Tobias Mertz, Jörn Kohlhammer

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08287v1

摘要： 为了改善数据集中层次结构的感知，已经提出了几种颜色图生成算法来考虑这种结构。但分层彩色图的设计与表格数据彩色图的设计提出了不同的要求。在本文中，我们初步努力将彩色图文献中的设计规则放入分层彩色图的上下文中。我们调查了多个设计决策的影响，并为各种分析场景提供了建议。因此，我们为评估分层彩色图的客观质量标准奠定了基础。

利用大语言模型通过智能手机传感器功能预测情感状态

分类： 人机交互, 人工智能

作者： Tianyi Zhang, Songyan Teng, Hong Jia, Simon D'Alfonso

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08240v1

摘要： 由于年轻人的心理健康问题成为紧迫的公共卫生问题，因此用于早期发现的日常数字情绪监测已成为一个重要的前景。数字表型是一个活跃的研究领域，涉及收集和分析来自智能手机（使用情况和传感器）和可穿戴设备等个人数字设备的数据，以推断行为和心理健康状况。虽然这些数据是使用统计和机器学习方法进行标准分析的，但大型语言模型 (LLM) 的出现提供了一种理解智能手机传感数据的新方法。尽管大语言模型在各个领域都很有效，但在数字心理健康领域，特别是在整合移动传感器数据方面，大语言模型仍然相对未经探索。我们的研究旨在通过聘请大语言模型根据大学生的智能手机传感数据来预测影响结果，从而弥补这一差距。我们证明了零样本和少样本嵌入 LLM 在推断总体健康状况方面的功效。我们的研究结果表明，大语言模型可以仅使用智能手机传感数据对影响措施做出有希望的预测。这项研究揭示了大语言模型在情感状态预测方面的潜力，强调了智能手机行为模式和情感状态之间的复杂联系。据我们所知，这是第一个利用大语言模型进行情感状态预测和数字表型任务的工作。

为盲人和低视力人士生成上下文相关的导航说明

分类： 计算和语言, 人机交互

作者： Zain Merchant, Abrar Anwar, Emily Wang, Souti Chattopadhyay, Jesse Thomason

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08219v1

摘要： 对于盲人和低视力 (BLV) 人士来说，在陌生的环境中航行是一项重大挑战。在这项工作中，我们构建了跨不同场景的图像和目标数据集，例如在厨房中搜索或在户外导航。然后，我们研究基础指令生成方法如何在这些情况下为用户提供上下文相关的导航指导。通过有远见的用户研究，我们证明大型预训练语言模型可以生成正确且有用的指令，这些指令被认为对 BLV 用户有益。我们还对 4 位 BLV 用户进行了调查和采访，并根据场景观察了对不同指令的偏好的有用见解。

基于功能磁共振成像的脑解码区域时间序列提取的自适应加权平均方法

分类： 人机交互, 神经元和认知, J.3

作者： Jianfei Zhu, Baichun Wei, Jiaru Tian, Feng Jiang, Chunzhi Yi

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08174v1

摘要： 利用大脑功能波动对认知状态进行分类的大脑解码可以为理解认知功能的大脑机制提供富有洞察力的信息。在使用功能磁共振成像 (fMRI) 解码大脑认知状态的常见过程中，传统上在大脑分区后提取每个大脑区域的时间序列，对大脑区域内的体素进行平均。这忽略了体素之间的空间信息以及为下游任务提取信息的要求。在这项研究中，我们建议使用与大脑解码器联合训练的完全连接的神经网络，以在每个大脑区域内的体素上执行自适应加权平均值。我们通过认知状态解码、流形学习和可解释性分析对人类连接组项目 (HCP) 数据集进行广泛的评估。认知状态解码的性能比较显示，在不同时间窗口大小、重采样大小和训练数据大小下，准确率提升高达 5%，且准确率稳定提升。流形学习的结果表明，我们的方法在认知状态之间呈现出相当大的可分离性，并且基本上排除了特定于主题的信息。可解释性分析表明，我们的方法可以识别与每种认知状态相对应的合理大脑区域。我们的研究将有助于改进功能磁共振成像处理的基本流程。

CommSense：用于评估患者与临床医生交互的可穿戴传感计算框架

分类： 人机交互

作者： Zhiyuan Wang, Nusayer Hassan, Virginia LeBaron, Tabor E. Flickinger, David Ling, James Edwards, Congyu Wu, Mehdi Boukhechba, Laura E. Barnes

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08143v1

摘要： 优质的医患沟通对于改善临床护理和患者治疗效果至关重要。尽管临床医生的沟通技能培训取得了进展，但在如何最好地监测、衡量和评估实际临床环境中沟通技能的实施方面仍存在重大差距。无处不在的技术和自然语言处理的进步使得对临床交互实现更客观、实时的评估成为可能，进而向临床医生提供关于其沟通有效性的更及时的反馈。在本文中，我们提出了 CommSense，这是一种计算传感框架，它将智能手表音频和文字记录与自然语言处理方法相结合，以测量可穿戴设备在姑息护理交互的背景下捕获的选定的“最佳实践”通信指标，包括理解、同理心、存在感、情感和清晰度。我们进行了一项涉及 N=40 名临床医生参与者的试点研究，以在模拟临床环境中测试 CommSense 的技术可行性和可接受性。我们的研究结果表明，CommSense 有效地捕获了大多数通信指标，并受到执业临床医生和实习生的好评。我们的研究还强调了数字技术在增强医疗保健提供者和学生的沟通技能培训方面的潜力，最终导致更公平地提供医疗保健和易于使用、成本更低的培训工具，并有可能改善患者的治疗结果。

CiteME：语言模型能否准确引用科学主张？

分类： 计算和语言, 人工智能, 人机交互

作者： Ori Press, Andreas Hochlehnert, Ameya Prabhu, Vishaal Udandarao, Ofir Press, Matthias Bethge

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.12861v1

摘要： 每月发表数以千计的新科学论文。这种信息超载使得研究人员跟上最新技术以及验证和正确归因声明的努力变得复杂。我们提出以下研究问题：给定引用论文的文本摘录，LM 可以充当研究助理来正确识别引用的论文吗？我们通过建立一个评估 LM 在引文归因方面的能力的基准来推进回答这个问题的努力。我们的基准 CiteME 由最近的机器学习论文的文本摘录组成，每篇论文都引用了其他一篇论文。 CiteME 的使用揭示了前沿 LM 与人类表现之间的巨大差距，LM 的准确率仅为 4.2-18.5%，而人类为 69.7%。我们通过引入 CiteAgent 来弥补这一差距，CiteAgent 是一个基于 GPT-4o LM 构建的自治系统，还可以搜索和阅读论文，在 CiteME 上实现了 35.3% 的准确率。总体而言，CiteME 是开放式声明归因的一个具有挑战性的测试平台，推动研究社区走向未来，LM 提出的任何声明都可以被自动验证，如果发现不正确则可以被丢弃。

酒精使用咨询虚拟代理：探索大语言模型支持的动机访谈

分类： 人机交互, 计算和语言

作者： Ian Steenstra, Farnaz Nouraei, Mehdi Arjmand, Timothy W. Bickmore

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08095v1

摘要： 我们介绍了大语言模型（LLM）的一种新颖应用，用于开发能够进行酒精使用咨询动机访谈（MI）的虚拟咨询师。获得有效咨询的机会仍然有限，特别是在药物滥用方面，而虚拟代理通过利用大语言模型功能来模拟 MI 固有的细致入微的沟通技术，提供了一种有前景的解决方案。我们的方法将快速工程和集成结合到用户友好的虚拟平台中，以促进现实、同理心的交互。我们通过一系列专注于复制 MI 技术和人类顾问对话的研究来评估虚拟代理的有效性。初步研究结果表明，我们的大语言模型支持的虚拟代理与人类咨询师的同理心和适应性对话技能相匹配，在虚拟健康咨询方面迈出了重要的一步，并为基于大语言模型的治疗互动的设计和实施提供了见解。

有限状态自动机与正则表达式可视化

分类： 形式语言和自动机理论, 图形, 人机交互, 编程语言

作者： Marco T. Morazán, Tijana Minić

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08088v1

摘要： 大多数形式语言和自动机理论课程都探讨了识别语言中的单词的计算模型和生成语言中的单词的计算模型之间的二元性。对于不习惯正式陈述的学生来说，这些转换很少是直观的。为了帮助学生进行这种转变，可视化工具可以发挥关键作用。本文介绍了为 FSM（一种用于自动机理论课堂的特定领域语言）开发的可视化工具，用于将有限状态自动机转换为正则表达式，反之亦然。使用这些工具，用户可以提供任意有限状态机或任意正则表达式，并通过变换前进和后退。在每个步骤中，可视化都会描述所采取的步骤。概述了这些工具，描述了它们的实现，并将它们与相关工作进行了比较。此外，还提供了从对照组收集的经验数据。经验数据表明，这些工具很受欢迎、有效，并且学习如何使用它们的额外认知负荷较低。

RoCap：用于外观变化对象的姿势估计的机器人数据收集管道

分类： 机器人技术, 人机交互

作者： Jiahao Nick Li, Toby Chong, Zhongyi Zhou, Hironori Yoshida, Koji Yatani, Xiang 'Anthony' Chen, Takeo Igarashi

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08081v1

摘要： 当用户将有形物体作为控制器进行操作时，物体姿态估计在混合现实交互中发挥着至关重要的作用。传统的基于视觉的物体姿态估计方法利用 3D 重建来合成训练数据。然而，这些方法是为具有漫射颜色的静态物体设计的，对于在操作过程中改变外观的物体效果不佳，例如毛绒玩具等可变形物体、化学烧瓶等透明物体、金属水罐等反光物体以及诸如此类的铰接物体。剪刀。为了解决这个限制，我们提出了 Rocap，这是一种机器人管道，可以模拟人类对目标对象的操作，同时生成标有地面真实姿势信息的数据。用户首先将目标物体交给机械臂，系统会以各种 6D 配置捕获该物体的许多图片。该系统使用捕获的图像以及根据机械臂的关节角度自动计算的地面真实姿态信息来训练模型。我们通过使用收集的数据训练简单的深度学习模型，并将结果与使用基于 3D 重建的合成数据训练的模型进行定量和定性评估进行比较，展示了外观变化物体的姿态估计。研究结果强调了 Rocap 的潜力。

关于大语言模型向导：识别绿野仙踪实验中大型语言模型的行为

分类： 人机交互, 人工智能, H.5.m; I.2.7

作者： Jingchao Fang, Nikos Arechiga, Keiichi Namaoshi, Nayeli Bravo, Candice Hogan, David A. Shamma

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08067v1

摘要： 绿野仙踪 (WoZ) 方法是一种广泛采用的研究方法，其中人类巫师“角色扮演”一种不易获得的技术，并与参与者互动以引发用户行为并探索设计空间。随着现代大语言模型 (LLM) 角色扮演能力的不断增强，人们可以将 LLM 作为 WoZ 实验中的向导来应用，与传统方法相比，具有更好的可扩展性和更低的成本。然而，缺乏在 WoZ 实验中负责任地应用大语言模型的方法指导以及对大语言模型角色扮演能力的系统评估。通过两项由大语言模型支持的 WoZ 研究，我们迈出了第一步，为研究人员确定实验生命周期，将大语言模型安全地集成到 WoZ 实验中，并解释由大语言模型扮演的巫师角色设置中生成的数据。我们还贡献了一个基于启发式的评估框架，可以评估大语言模型在 WoZ 实验中的角色扮演能力，并大规模揭示大语言模型的行为模式。

拓展你的影响力：研究虚拟现实交互中的自我化身和控制器错位

分类： 人机交互, 图形

作者： Jose Luis Ponton, Reza Keshavarz, Alejandro Beacco, Nuria Pelechano

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08011v1

摘要： 沉浸式虚拟现实通常需要头戴式显示器 (HMD) 来可视化环境，并需要手持控制器来与虚拟对象交互。最近，许多应用程序显示全身化身来代表用户并动画手臂以跟随控制器。当自我化身的动作与用户正确对齐时，体现效果会更好。然而，由于虚拟身体和用户身体之间的差异，让全身的自我化身跟随用户的动作可能具有挑战性。这可能会导致手部位置错位，在与虚拟对象交互时，这种错位可能会很明显。在这项工作中，我们提出了五种不同的交互模式，允许用户在自我化身和控制器未对准的情况下与虚拟对象进行交互，并研究它们对体现、本体感觉、偏好和任务表现的影响。我们修改了一些方面，例如是否渲染虚拟控制器，控制器是否渲染在真实的物理位置或附着在用户的手上，以及是否伸展化身手臂以始终到达真实的控制器。我们定量（性能指标）和定性（体现、本体感觉和用户偏好调查问卷）评估交互模式。我们的结果表明，伸展手臂解决方案提供了身体连续性并保证虚拟手或控制器位于正确的位置，在体现、用户偏好、本体感觉和性能方面提供了最佳结果。而且，呈现控制器不会对实施例或用户偏好产生影响。

探索拥挤虚拟环境中预期碰撞反馈的作用

分类： 图形, 人机交互

作者： Haoran Yun, Jose Luis Ponton, Alejandro Beacco, Carlos Andujar, Nuria Pelechano

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07992v1

摘要： 越来越多的虚拟现实应用程序需要模拟现实世界条件的环境。这些环境通常涉及表现出真实行为的动态虚拟人。了解这些虚拟代理之间的用户感知和导航是设计以虚拟人类群体为特色的真实有效的环境的关键。虽然碰撞风险显着影响现实世界中的人类运动，但这种风险在虚拟环境中基本上不存在。本文研究了预期碰撞反馈对用户感知以及与虚拟人群交互的影响。我们研究了常用碰撞反馈技术（听觉提示和触觉振动）的有效性，并诱导参与者预期可能会与真人发生物理碰撞，就好像一些虚拟人实际上与体现在他们身上的真人相对应并共享相同的物理空间。我们的结果表明，预期的碰撞反馈会显着影响参与者的行为（包括全局导航和局部运动）以及对存在和共存的主观感知。具体来说，引入实际碰撞的感知风险被发现会显着影响全球导航策略并增加存在感。听觉线索对全局导航也有类似的影响，并且还增强了共存感。相比之下，振动触觉反馈主要有效影响局部运动。

Rel-A.I.：一种以交互为中心的方法来衡量人类对 LM 的依赖

分类： 计算和语言, 人工智能, 人机交互

作者： Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Nouha Dziri, Dan Jurafsky, Maarten Sap

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07950v1

摘要： 人类与语言模型的交互从简单的句子完成到复杂的、多领域的、类人的交互的重新配置需要新的方法来理解人类如何选择依赖语言模型。在我们的工作中，我们认为依赖受到一代人互动环境中众多因素的影响，这与之前使用言语信心（例如，“我确定答案是……”）作为关键决定因素的工作不同。的依赖。在这里，我们介绍 Rel-A.I.，这是一种原位系统级评估方法，用于衡量人类对 LM 生成的认知标记的依赖（例如，“我认为它是......”、“毫无疑问它是......”）。使用这种方法，我们测量了三种新兴的人类与LM交互环境中的依赖率：长期交互、拟人化世代和可变主题。我们的研究结果表明，依赖不仅仅基于言语上的信心，而且还受到交互环境的其他特征的显着影响。先前的互动、拟人化线索和主题领域都会导致依赖可变性。诸如“我很确定它是......”之类的表达方式的依赖频率可能会变化高达 20%，具体取决于其交互上下文。我们的工作强调了背景在理解人类依赖方面的重要性，并为未来的设计师和研究人员提供了进行此类测量的方法。

AI 红队中的人为因素：社交和协作计算的视角

分类： 人机交互, 人工智能, 计算机与社会

作者： Alice Qian Zhang, Ryland Shaw, Jacy Reese Anthis, Ashlee Milton, Emily Tseng, Jina Suh, Lama Ahmad, Ram Shankar Siva Kumar, Julian Posada, Benjamin Shestakofsky, Sarah T. Roberts, Mary L. Gray

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07786v1

摘要： 通用人工智能的快速进步引发了人们对“红队”的浓厚兴趣，“红队”是一种源自军事和网络安全应用的对抗性测试实践。 AI 红队引发了许多有关人为因素的问题，例如如何选择红队成员、测试进行方式中的偏见和盲点，以及有害内容对红队成员的心理影响。越来越多的 HCI 和 CSCW 文献研究了相关实践，包括数据标签、内容审核和算法审计。然而，很少有人（如果有的话）调查过红队本身。本研讨会旨在考虑与这种实践相关的概念和经验挑战，这些挑战通常因保密协议而变得不透明。未来的研究可能会探讨从公平到心理健康以及其他潜在危害领域的主题。我们的目标是促进研究人员和从业者社区能够开始通过创造力、创新和深思熟虑的反思来应对这些挑战。

V-Lab VR教育应用框架

分类： 人机交互

作者： Vasilis Zafeiropoulos, George Anastassakis, Theophanis Orphanoudakis, Dimitris Kalles, Anastasios Fanariotis, Vassilis Fotopoulos

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07698v1

摘要： 本文介绍了 V-Lab，这是一个用于教育场景的 VR 应用程序开发框架，主要涉及在化学和生物实验室等实验室环境中执行的科学过程。这项工作是 Onlabs 模拟器的扩展，该模拟器由希腊开放大学开发，作为类似科目的远程教学推动者，有助于减轻对物理实验室基础设施的需求；因此，缩短了学生在实验室的培训时间，并使他们在实际存在期间的培训更加高效和安全。 Onlabs 的扩展是在欧洲项目 XR2Learn（利用欧洲 XR 行业技术支持沉浸式学习和培训）的背景下进行的工作，以提供可扩展到多种教育场景的增强型模块化框架。

天气的语言：社交媒体对气候和语言基线天气解释的反应

分类： 人机交互, 计算和语言

作者： James C. Young, Rudy Arthur, Hywel T. P. Williams

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07683v1

摘要： 本研究探讨了不同的天气条件如何影响社交媒体上的公众情绪，重点关注来自英国的 Twitter 数据。通过考虑气候和语言基线，我们提高了与天气相关的情感分析的准确性。我们的研究结果表明，对天气的情绪反应是复杂的，受到天气变量和区域语言差异的综合影响。结果强调了情境敏感方法对于更好地了解公众对天气的情绪的重要性，这可以增强气候变化背景下基于影响的预测和风险沟通。

StoryDiffusion：如何使用生成式 AI 支持 UX 故事板

分类： 人机交互

作者： Zhaohui Liang, Xiaoyu Zhang, Kevin Ma, Zhao Liu, Xipei Ren, Kosa Goucher-Lambert, Can Liu

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07672v1

摘要： 故事板是一种设计用户体验的既定方法。生成式人工智能可以通过帮助设计师快速创建视觉叙事来支持这一过程。然而，现有工具仅专注于准确的文本到图像生成。目前，尚不清楚如何有效支持故事板的整个创作过程，以及如何开发人工智能工具来支持设计师的个人工作流程。在这项工作中，我们迭代开发并实现了 StoryDiffusion，这是一个集成文本到文本和文本到图像模型的系统，以支持在单个管道中生成叙事和图像。通过用户研究，我们观察到 12 位 UX 设计师使用该系统进行概念构思和插图任务。我们的研究结果确定了这两项任务中人工智能主导的创意策略与用户主导的创意策略，并揭示了支持叙事迭代和图像生成之间互换的重要性。我们还发现了设计任务对他们的策略和偏好的影响，为未来的发展提供了见解。

AffectGPT：可解释的多模态情绪识别的数据集和框架

分类： 人机交互

作者： Zheng Lian, Haiyang Sun, Licai Sun, Jiangyan Yi, Bin Liu, Jianhua Tao

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07653v1

摘要： 可解释的多模态情绪识别（EMER）是一项新兴任务，旨在实现可靠且准确的情绪识别。然而，由于标注成本较高，现有数据集（记为EMER-Fine）较小，难以进行监督训练。为了降低标注成本并扩大数据集规模，本文回顾了之前的数据集构建过程。然后，我们简化注释管道，避免手动检查，并用开源模型替换闭源模型。最后，我们构建 \textbf{EMER-Coarse}，一个包含大规模样本的粗标记数据集。除了数据集之外，我们还提出了一个两阶段训练框架 \textbf{AffectGPT}。第一阶段利用 EMER-Coarse 来学习多模态输入和情感相关描述之间的粗略映射；第二阶段使用 EMER-Fine 更好地与手动检查的结果保持一致。实验结果证明了我们提出的方法在具有挑战性的 EMER 任务上的有效性。为了便于进一步研究，我们将在以下网址提供代码和数据集：https://github.com/zeroQiaoba/AffectGPT。

MoVEInt：从演示中学习人机交互的变分专家组合

分类： 机器人技术, 人机交互, 机器学习

作者： Vignesh Prasad, Alap Kshirsagar, Dorothea Koert, Ruth Stock-Homburg, Jan Peters, Georgia Chalvatzaki

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07636v1

摘要： 共享动力学模型对于捕捉人机交互 (HRI) 固有的复杂性和可变性非常重要。因此，学习这种共享的动态模型可以增强协调性和适应性，从而实现与人类伙伴的成功反应交互。在这项工作中，我们提出了一种新颖的方法，用于从专家混合方式的演示中学习 HRI 的共享潜在空间表示，以便根据人类观察反应性地生成机器人动作。我们训练变分自动编码器（VAE）来学习使用信息丰富的潜在空间先验进行正则化的机器人运动，该潜在空间通过混合密度网络（MDN）捕获人类观察的多模态。我们展示了我们的公式如何源自高斯混合回归公式，该公式通常用于通过演示学习 HRI 的方法，例如使用 HMM/GMM 来学习人类和机器人动作的联合分布。我们进一步采用了额外的正则化来防止“模式崩溃”，这是使用带有 VAE 的潜在空间混合模型时的常见现象。我们发现，与之前基于 HMM 或学习共享潜在表示的循环方法相比，我们使用来自人类观察的信息丰富的 MDN 进行 VAE 的方法可以生成更准确的机器人运动，我们在涉及握手等交互的各种 HRI 数据集上进行了验证。碰拳、挥手和交接。在现实世界中的人机切换场景中的进一步实验表明，我们的方法在与四个不同的人类交互伙伴产生成功交互方面的有效性。

神经数据的缩放定律：使用 175 小时脑电图数据进行非侵入式语音解码

分类： 神经元和认知, 人机交互, 声音, 音频和语音处理

作者： Motoshige Sato, Kenichi Tomeoka, Ilya Horiguchi, Kai Arulkumaran, Ryota Kanai, Shuntaro Sasai

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07595v1

摘要： 脑机接口（BCI）在帮助有语言障碍的人方面具有巨大的潜力。利用脑电图（EEG）解码语音因其非侵入性而特别有前景。然而，记录通常很短，并且脑电图数据的高度可变性导致研究人员专注于几十个类别的分类任务。为了评估其在语音神经假体中的实际适用性，我们研究了开放词汇环境中脑电图数据大小与解码准确性之间的关系。我们从单个参与者（175 小时）收集了大量脑电图数据，并使用自监督表示学习进行零样本语音片段分类。在整个数据集上训练的模型实现了 48% 的 top-1 准确率和 76% 的 top-10 准确率，同时减轻了肌电位伪影的影响。相反，当数据限制在实践中使用的典型量（$\sim$10 小时）时，top-1 精度下降到 2.5%，显示出显着的缩放效应。此外，随着训练数据量的增加，脑电图潜在表征逐渐表现出更清晰的口语短语的时间结构。这表明解码器可以以数据驱动的方式识别语音片段，而无需对单词识别进行显式测量。这项研究标志着朝着基于脑电图的语音脑机接口的实际实现迈出了重要一步。

SelfIE：自我启动的可探索指令以增强用户体验

分类： 人机交互

作者： Hyeongcheol Kim, Katherine Fennedy, Georgia Zhang, Can Liu, Shengdong Zhao

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08501v1

摘要： 鉴于具有非线性访问（情境信息检索）的程序指令的广泛使用，有人建议在教学设计中适应线性和非线性的使用。然而，学术界对它的关注不够，导致探索有限。本文介绍了自启动可探索（SelfIE）指令，这是一种新的设计概念，旨在使用户能够根据任务期间的个人需求和情况，通过混合线性和非线性访问来灵活地导航指令。使用 Wizard-of-Oz 协议，我们最初在玩具块汇编上下文中体现 SelfIE 指令，并将其与提供仅线性访问的基线指令 (N=21) 进行比较。结果显示，由于其易于反映个体差异，用户偏好增加了 71%，这从经验上支持了先前的提议。此外，我们的观察确定了灵活访问的三种策略，并表明通过考虑认知过程和在可穿戴配置中实现灵活访问来增强用户体验的潜力。在设计阶段之后，我们将基于 WoZ 的设计实施例转化为平板电脑和 OHMD 上的工作原型，以评估可用性并比较两种配置之间的用户体验 (N=8)。我们的数据为管理两种配置之间的权衡提供了宝贵的见解，从而促进更有效的灵活访问开发。

隐形汗液传感器：超薄膜模仿皮肤进行压力监测

分类： 材料科学, 人机交互, 生物物理学

作者： Yuchen Feng, Andreas Kenny Oktavius, Reno Adley Prawoto, Hing Ni Ko, Qiao Gu, Ping Gao

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07400v1

摘要： 表皮皮肤传感器已成为连续、无创监测重要健康信号的一种有前途的方法，但为了最大限度地提高其性能，这些传感器必须与皮肤无缝集成，最大限度地减少阻抗，同时保持皮肤的自然保护和调节功能。在这项研究中，我们推出了一种难以察觉的汗液传感器，通过多孔、超薄、超高分子量聚乙烯 (UHMWPE) 纳米膜形成的互穿网络实现这种无缝皮肤整合。通过范德华力附着在皮肤上后，两亲汗液挤出物注入疏水性 UHWMPE 纳米膜内互连的纳米孔中，形成“假皮肤”纳米通道，用于连续排汗。水蒸发过程中产生的渗透压进一步增强了这种整合。利用生物标记物通过多孔膜内“皮肤”通道的有效传输，我们通过原位合成分子印迹聚合物（MIP）和聚（3,4乙烯二氧噻吩）开发了有机电化学传感器（OECT）皮质醇传感器（ PEDOT）位于纳米膜内。这表明能够检测 0.05 至 0.5 {μ}M 的皮质醇浓度，从而无缝监测压力水平。这项工作代表了自粘式汗液传感器的重大进步，可提供难以察觉的实时非侵入性健康监测功能。

CHOP：将 ChatGPT 集成到 EFL 口语演示实践中

分类： 人机交互

作者： Jungyoub Cha, Jieun Han, Haneul Yoo, Alice Oh

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07393v1

摘要： 由于缺乏可靠的资源和教师反馈的有效性有限，英语作为外语 (EFL) 的学生经常难以进行口头演讲。大语言模型（LLM）可以提供新的可能性，通过实时反馈来协助学生的口头演讲。本文研究了 ChatGPT 如何有效地融入 EFL 口语演示实践中以提供个性化反馈。我们介绍了一种新颖的学习平台 CHOP（基于 ChatGPT 的口语演示练习互动平台），并与 13 名 EFL 学生一起评估其有效性。通过收集学生与 ChatGPT 交互数据和专家对反馈质量的评估，我们确定了该平台的优势和劣势。我们还分析学习者的看法和关键设计因素。基于这些见解，我们为教育界提出进一步的发展机会和设计改进建议。

用于新闻报道的沉浸式信息图表的评估：量化移动 AR 具体尺度信息图表对体积理解的影响

分类： 人机交互, H.5.1

作者： Mariane Giambastiani, Jorge Wagner, Carla M. Dal Sasso Freitas, Luciana Nedel

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07367v1

摘要： 增强现实 (AR) 使我们能够在用户自己的环境中呈现信息，从而传达对其真实物理尺度的内心感受。记者越来越多地通过沉浸式信息图表来利用这一机会，这是传统信息图表的延伸，依赖于熟悉的参考来传达体积、高度、重量和尺寸。我们的目标是衡量沉浸式移动 AR 具体尺度信息图表对用户理解信息尺度的贡献。我们专注于由基于平板电脑的移动 AR 提供支持的信息图表，因为与基于耳机的 AR 相比，它目前在新闻消费中的使用更为广泛。我们设计并实现了一个研究装置，其中包含三种替代表示方法（文本类比、图像信息图和 AR 信息图），适用于具有不同特征和规模的三种不同新闻。在一项受控用户研究中，我们要求 26 名参与者借助 AR 移动应用程序来表示现实世界中预期的信息量。我们还比较了他们与不同表征互动时的主观感受。虽然图像和 AR 信息图在不同类型的新闻中都比单独的文本类比带来了更好的理解，但 AR 信息图平均导致体积估计误差比静态信息小 31.8%。我们的研究结果表明，移动 AR 混凝土秤信息图表可以通过提高读者理解大量信息的能力来为新闻报道做出贡献。

用于基于可穿戴传感器的人类活动识别、健康监测和行为建模的大型语言模型：早期趋势、数据集和挑战的调查

分类： 人机交互

作者： Emilio Ferrara

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.07196v1

摘要： 可穿戴技术的普及能够生成大量传感器数据，为健康监测、活动识别和个性化医疗的进步提供了重要机会。然而，这些数据的复杂性和数量给数据建模和分析带来了巨大的挑战，这些挑战已经通过从时间序列建模到深度学习技术的方法来克服。该领域的最新前沿是采用大型语言模型 (LLM)，例如 GPT-4 和 Llama，通过可穿戴传感器数据的镜头进行数据分析、建模、理解和生成人类行为。本调查探讨了将大语言模型应用于基于传感器的人类活动识别和行为建模的当前趋势和挑战。我们讨论可穿戴传感器数据的性质、大语言模型对其进行建模的能力和局限性以及它们与传统机器学习技术的集成。我们还确定了关键挑战，包括数据质量、计算要求、可解释性和隐私问题。通过研究案例研究和成功应用，我们强调了大语言模型在增强可穿戴传感器数据分析和解释方面的潜力。最后，我们提出了未来的研究方向，强调需要改进的预处理技术、更高效和可扩展的模型以及跨学科合作。这项调查旨在全面概述可穿戴传感器数据与大语言模型之间的交叉点，深入了解这一新兴领域的现状和未来前景。

基于从生理和情感参数提取的舒适度的服装建议

分类： 信号处理, 人机交互

作者： Hyo Jung, Chang, Mohammad Abu Nasir Rakib, Kamrul H Foysal, Jo Woon Chong

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.07040v1

摘要： 该研究的目的是通过概念化、制定和证明生理和情感参数与服装合身和面料之间的关系来找到穿着者的真正舒适度。采用混合方法研究设计，结果表明心率等生理指标与用户舒适度密切相关。然而，情绪反应的显着变化表明不同面料和合身类型之间存在明确的关系。该研究旨在发现真实舒适度参数与服装之间的关系，这在该领域是独一无二的。这些发现帮助我们了解面料类型和服装合身类型如何影响生理和情绪反应，为消费者提供具有所需合适性能的满意服装。

多模态医学图像交互框架

分类： 人机交互, 多媒体, 声音, 音频和语音处理, H.5.2; H.5.5; H.5.1; J.3

作者： Laura Schütz, Sasan Matinfar, Gideon Schafroth, Navid Navab, Merle Fairhurst, Arthur Wagner, Benedikt Wiestler, Ulrich Eck, Nassir Navab

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.07015v1

摘要： 医生在诊断和治疗过程中依靠人体解剖学图像（例如磁共振成像 (MRI)）来定位患者感兴趣的区域。尽管医学成像技术取得了进步，但信息传递仍然是单模态的。这种视觉表现无法捕捉与人体组织真实的多感官相互作用的复杂性。然而，实时感知有关患者解剖结构和疾病的多模态信息对于医疗手术的成功和患者的治疗结果至关重要。我们引入了多模态医学图像交互（MMII）框架，使医学专家能够在三维空间中与人体组织进行动态的视听交互。在虚拟现实环境中，用户接收物理信息的视听反馈，以改善解剖结构的空间感知。 MMII 使用基于模型的声化方法来生成源自组织的几何形状和物理特性的声音，从而消除了手工声音设计的需要。进行了两项涉及 34 名普通专家和 9 名临床专家的用户研究，以评估所提出的交互框架的可学习性、可用性和准确性。我们的结果表明视听对应具有出色的可学习性，因为在研究过程中正确关联率显着提高（p < 0.001）。与传统的医学图像交互相比，MMII 具有更高的脑肿瘤定位精度 (p < 0.05)。我们的研究结果证实了这种新颖框架增强与医学图像交互的潜力，例如，在需要即时和精确反馈的外科手术过程中。

Microsoft 基于云的数字化工作流程，可为文化遗产对象获取丰富的元数据

分类： 数字图书馆, 人工智能, 人机交互

作者： Krzysztof Kutt, Jakub Gomułka, Luiz do Valle Miranda, Grzegorz J. Nalepa

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06972v1

摘要： 为了响应雅盖隆大学的多项文化遗产倡议，我们与雅盖隆图书馆 (JL) 合作开发了新的数字化工作流程。该解决方案基于易于访问的技术解决方案 - Microsoft 365 云，以 MS Excel 文件作为元数据获取接口、用于验证的 Office 脚本和用于存储的 MS Sharepoint - 允许领域专家（语言学家、历史学家、哲学家、图书馆员、档案管理员、策展人等），无论他们在信息系统方面的经验如何。最终目标是创建一个知识图谱，描述所分析的馆藏，与一般知识库以及其他文化遗产收藏相链接，因此要特别注意元数据的高精度以及与外部源的正确链接。该工作流程已经在 DiHeLib 项目的两个试点中进行了评估，该项目专注于数字化所谓的“柏林收藏”，并在与国际嘉宾的两个研讨会上进行了评估，这使得其得以完善并确认其正确性和对 JL 的可用性。由于拟议的工作流程不会干扰给定机构中有关数字化和基本元数据收集的现有系统或领域指南（例如文件类型、图像质量、都柏林核心/MARC-21的使用），而是扩展了它们以实现丰富的元数据收集，以前是不可能的，我们相信所有 GLAM（画廊、图书馆、档案馆和博物馆）都会对此感兴趣。

INTERACT：一种创作工具，有助于在虚拟现实中创建以人为中心的与 3D 对象的交互

分类： 人机交互

作者： Rama Krishnan Gopal Ramasamy Thandapani, Benjamin Capel, Antoine Lasnier, Ioannis Chatzigiannakis

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06967v1

摘要： 虚拟现实、增强现实和混合现实 (VR/AR/MR)（统称为扩展现实 (XR)）的广泛采用，已成为通过提供身临其境的交互式体验来彻底改变教育和培训场景的切实可能性。在本文中，我们介绍了 \textsf{INTERACT}，这是一种创作工具，用于由个人开发人员或小规模开发团队创建先进的基于物理的 3D 智能辅导系统 (ITS)。 \textsf{INTERACT} 基于尖端物理引擎，允许真实的交互，例如碰撞检测和人体工程学评估。我们通过为激光切割机的用例开发一组训练场景来展示 \textsf{INTERACT} 的优势。该用例说明了多种可能性，例如创建与对象的交互、轻松配置场景以及如何设计机器的视觉效果。

从众包噪声标签中学习：信号处理的角度

分类： 信号处理, 人工智能, 人机交互, 机器学习

作者： Shahana Ibrahim, Panagiotis A. Traganitis, Xiao Fu, Georgios B. Giannakis

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06902v1

摘要： 推动人工智能 (AI) 和机器学习 (ML) 进步的主要催化剂之一是大量精选数据集的可用性。管理如此庞大的数据集的常用技术是众包，其中数据被分发给多个注释者。然后将注释者生成的标签融合起来以服务于下游学习和推理任务。由于各种原因，例如注释者的专业知识有限或不可靠等，此注释过程经常会产生嘈杂的标签。因此，众包的核心目标是开发有效减轻此类标签噪声对学习任务的负面影响的方法。这篇专题文章介绍了从嘈杂的众包标签中学习的进展。重点是关键的众包模型及其方法论处理，从经典的统计模型到最近基于深度学习的方法，强调分析见解和算法开发。特别是，本文回顾了信号处理 (SP) 理论和方法之间的联系，例如张量和非负矩阵分解的可识别性，以及众包中长期存在的挑战的新颖、有原则的解决方案，展示了 SP 观点如何推动该领域的进步。此外，本文还涉及对于开发尖端 AI/ML 系统至关重要的新兴主题，例如人类反馈强化学习 (RLHF) 中的众包和直接偏好优化 (DPO)，它们是微调大语言的关键技术模型（大语言模型）。

RespEar：基于耳戴式设备的稳健呼吸频率监测

分类： 人机交互, 声音, 音频和语音处理

作者： Yang Liu, Kayla-Jade Butkow, Jake Stuchbury-Wass, Adam Pullin, Dong Ma, Cecilia Mascolo

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06901v1

摘要： 呼吸频率 (RR) 监测对于了解身心健康和跟踪健康状况至关重要。现有研究已经证明了在特定用户条件下（例如，保持静止或呼吸困难时）进行 RR 监测的可行性。然而，在不同的日常生活和活动中进行准确、连续和非侵入性的 RR 监测仍然具有挑战性。在这项工作中，我们推出了 RespEar，这是一种基于耳戴式耳机的系统，用于进行稳健的 RR 监测。通过利用耳塞中入耳式麦克风的独特特性，RespEar 能够利用呼吸窦性心律失常 (RSA) 和运动呼吸耦合 (LRC)（心血管活动、步态和呼吸之间的生理耦合）来间接确定 RR。这有效地解决了日常活动中几乎难以察觉的呼吸信号带来的挑战。我们进一步提出了一套精心设计的信号处理方案，以提高 RR 估计的准确性和鲁棒性。通过从 18 名受试者 8 项活动中收集的数据，RespEar 测量 RR，在久坐条件下，平均绝对误差 (MAE) 为 1.48 次每分钟呼吸 (BPM)，平均绝对百分比误差 (MAPE) 为 9.12%，MAE 为 2.28在活动条件下，BPM 和 MAPE 分别为 11.04%，这对于能够以单一模态跨条件进行泛化的方法来说是前所未有的。

SilverCycling：在 VR 中探索自行车运动对老年人空间定向的影响

分类： 人机交互

作者： Qiongyan Chen, Zhiqing Wu, Yucheng Liu, Lei Han, Zisu Li, Ge Lin Kan, Mingming Fan

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06846v1

摘要： 空间定向对于人们在日常生活中有效地导航和与环境互动至关重要。随着年龄相关的认知能力下降，为老年人提供具有更好空间定向性能的 VR 运动技术变得非常重要。这些进步不仅使老年人更容易接触 VR，而且使他们能够获得 VR 技术的潜在健康益处。基于自然运动的运动已被证明可以有效提高年轻用户在需要空间定向的 VR 导航任务中的表现。然而，人们对 VR 中基于自然运动的运动对老年人空间定向的影响缺乏了解。为了解决这一差距，我们选择了 SilverCycling 系统，这是我们开发的一种基于 VR 自行车的运动技术，作为基于自然运动的运动的代表，并以我们的试点研究结果为指导。我们对 16 名老年人进行了一项用户研究，将 SilverCycling 与基于操纵杆的控制器进行比较。研究结果表明，SilverCycling 有潜力显着增强老年人在开放道路城市环境中的空间定位，提供更好的用户体验。根据我们的研究结果，我们确定了影响空间方向的关键因素，并提出了设计建议，以使 VR 运动对于老年人来说更容易理解且用户友好。

如果它是由人工智能编写的，那它就不可能是正确的：关于律师对被视为由大语言模型与人类撰写的文件的偏好

分类： 人机交互, 人工智能, 计算机与社会

作者： Jakub Harasta, Tereza Novotná, Jaromir Savelka

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06798v1

摘要： 大型语言模型 (LLM) 使未来可以自动生成某些类型的法律文档。这对于简化法律程序、降低法律服务成本并大幅增加诉诸司法的机会具有巨大潜力。虽然许多研究人员将精力集中在提出和评估支持法律领域任务的基于大语言模型的申请，但明显缺乏对法律专业人士如何看待法律专业人士认为内容是由大语言模型生成的内容的调查。然而，这是一个关键点，因为过度依赖或毫无根据的怀疑可能会影响此类文件是否会带来适当的法律后果。这项研究是在向成熟的生成式人工智能系统持续过渡的背景下进行的必要分析。具体来说，我们研究了律师 (n=75) 对法律文件的看法是否因其假定的来源（人工制作与人工智能生成）而有所不同。参与者对文件的评估重点是其正确性和语言质量。我们的分析表明，人们明显偏爱被认为是由人类制作的文档，而不是那些被认为是由人工智能生成的文档。同时，大多数参与者都期待未来文档能够自动生成。法律从业者、政策制定者和立法者可以利用这些发现来负责任地实施和采用法律文件生成技术，并推动关于如何更新法律程序以反映最新技术发展的必要讨论。

作者意图：消除 MathML 中的歧义

分类： 数字图书馆, 人机交互

作者： David Carliste, Paul Libbrecht, Moritz Schubotz, Neil Soiffer

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06720v1

摘要： MathML 成功地提高了网络上数学符号的可访问性。所有主要屏幕阅读器都支持 MathML 来生成语音、允许数学导航并生成盲文。仍然存在一个麻烦的地方：处理不明确的符号，例如 ( \vert x\vert)。虽然可以从语法上讲这个，但轶事证据表明，大多数人在第一次听到一个单词时更喜欢语义语音，例如“x的绝对值”或“x的行列式”，而不是“垂直条x垂直条”。表达。几种推断语义的启发式方法改进了语音，但最终，作者才是明确知道如何表达一种表达方式的人。 W3C 数学工作组正在允许作者通过意图属性在 MathML 标记中传达他们的意图。本文介绍了这项工作。

回声室研究的系统回顾：概念化、操作化和不同结果的比较分析

分类： 社交和信息网络, 计算机与社会, 人机交互, 网络和互联网架构

作者： David Hartmann, Lena Pohlmann, Sonja Mei Wang, Bettina Berendt

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06631v1

摘要： 本系统综述综合了当前对回声室和过滤气泡的研究，以强调回声室研究对该现象的存在、前因和影响存在异议的原因。对 112 项研究的回顾表明，回声室研究缺乏共识是基于回声室的不同概念化和操作化。虽然用同质性概念化回声室并利用数据驱动的计算社会科学（CSS）方法的研究已经证实了回声室假说和社交媒体中的极化效应，但探索媒体曝光全谱的内容曝光研究和调查却拒绝了它。这些研究大部分是在美国进行的，该审查强调需要更全面地了解回声室在超过两方和全球北方以外的系统中如何工作。为了加深我们对这一现象的理解，未来的研究应该优先进行更多的跨平台研究，通过持续审计考虑算法过滤的变化，并检查极化、碎片化和在线回声室建立之间关联的因果方向。该审查还提供了不同操作的优点和缺点，并为欧盟（EU）的研究提出了建议，这将随着即将出台的数字服务法案（DSA）而成为可能。总的来说，这篇系统综述有助于正在进行的关于回声室和过滤气泡的存在、前因和影响的学术讨论。

并非所有明确的提示都有助于沟通：行人对具有不同外观的自动驾驶车辆的看法、注视和决策

分类： 人机交互

作者： Wei Lyu, Yaqin Cao, Yi Ding, Jingyu Li, Kai Tian, Hui Zhang

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06505v1

摘要： 鉴于行人在道路交通中的脆弱性，目前尚不清楚新颖的自动驾驶汽车外观将如何影响行人过马路行为。为了解决这一差距，本研究率先调查了自动驾驶汽车的外部设计及其运动学对行人过马路感知和决策的影响。对 61 名参与者进行了一项基于视频的眼球跟踪实验研究，这些参与者对视频刺激做出反应，视频刺激描绘了一辆被操纵的车辆在无信号的双向道路上接近预定的交叉口位置。车辆的运动学模式被控制为屈服和非屈服，其外观有五种类型：有人类驾驶员（作为传统车辆）、无驾驶员（作为自动驾驶汽车）、带有基于文本的身份指示、带有车顶雷达传感器，带有根据车辆运动学调整的动态 eHMI。记录并报告参与者在交互过程中的感知清晰度、交叉起始距离（CID）、交叉决策时间（CDT）和注视行为。结果表明，自动驾驶汽车的运动学特征在行人过马路决策中发挥着主导作用，并得到了行人在交互过程中的主观评价、CID、CDT 和注视模式的支持。此外，使用清晰的eHMI（例如动态行人图标）可以减少行人的视觉负荷，增强其感知清晰度，加快过马路决策，从而提高整体过马路效率。然而，研究发现，文本身份指示和屋顶雷达传感器对行人的决策没有显着影响，但会对行人的视觉注意力产生负面影响，这可以通过注视次数增加和注视持续时间延长来证明，特别是在屈服条件下。过度的视觉和认知资源占用表明并非所有明确的线索都有利于人车交流。

通过神经科学启发的原型训练增强空间听觉注意力解码

分类： 人机交互

作者： Zelin Qiu, Jianjun Gu, Dingding Yao, Junfeng Li

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06498v1

摘要： 空间听觉注意力解码（Sp-AAD）技术旨在通过神经记录确定多说话者场景中听觉注意力的方向。尽管最近的 Sp-AAD 算法取得了成功，但其性能受到脑电图数据中特定于试验的特征的阻碍。本研究旨在针对这些特征提高解码性能。神经科学的研究表明，空间听觉注意力可以反映在脑电图能量在不同频段的拓扑分布上。这一见解促使我们提出原型训练，这是一种受神经科学启发的 Sp-AAD 方法。该方法构建的原型具有增强的能量分布表示和减少的试验特定特征，使模型能够更好地捕获听觉注意特征。为了实现原型训练，进一步提出了采用脑电图小波变换的 EEGWaveNet。详细的实验表明，经过原型训练的 EEGWaveNet 在各种数据集上优于其他竞争模型，并且也验证了所提出方法的有效性。作为一种独立于模型架构的训练方法，原型训练为Sp-AAD领域提供了新的见解。

视障人士数字设备无障碍研究

分类： 人机交互, 68U35, D.2.2

作者： Hyunjin An, Hyundoug Kim, Seungwoo Hong, Youngsun Shin

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06441v1

摘要： 本研究旨在找出视障用户认为电器难以使用的地方，并提出解决此问题的指南。对181名视障用户进行了调查，根据残疾原因和分类筛选出12名视障用户。在类似家庭的环境中，我们让参与者执行对六种主要家用电器使用分层任务分析进行排序的任务。从这项研究中我们发现，家用电器有时只提供视觉信息，导致感官处理困难。此外，界面的触觉/听觉反馈是相同的，这使得人们很难识别哪个功能被处理。盲人用户看不到所提供的信息，因此他们依靠长期记忆来使用产品。这项研究为视障用户提供按钮、旋钮和远程控制界面的指南。这些信息将有助于项目规划者、设计师和开发人员创建可供视障人士使用的产品。其中一些功能将应用于即将推出的家电产品。

简化 Exergames 中自定义控制器的集成

分类： 人机交互

作者： Hassan Ali Khan, Muhammad Asbar Javed, Amnah Khan

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06436v1

摘要： 尽管有确凿的证据支持运动游戏用于身体康复，但它们在巴基斯坦的使用仍然有限。在我们与游戏开发商 (N=62) 进行的用户研究中，大多数 (67.7%) 参与者认为，如果有廉价的身体跟踪设备替代品，运动游戏的受欢迎程度将会增加。也许，定制控制器可以用作运动游戏中经济实惠的替代输入源，但缺乏硬件编程知识和嵌入式编程经验的缺乏导致游戏开发人员（占参与者的 11.3％）很少参与运动游戏领域。本文提出了一个用于集成基于 Arduino（开源且低成本）的定制控制器的库，可用作基于 Unity3D（88.7% 参与者最喜欢的游戏开发引擎）的运动游戏的输入源。该库的接口提出了一种灵活且简单的编程结构，并可作为一系列运动游戏的模板应用程序。

可视化中特定于设计的转换

分类： 人机交互

作者： Eugene Wu, Remco Chang

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06404v1

摘要： 在可视化中，将原始数据转换为视觉上可理解的表示的过程至关重要。虽然信息可视化参考模型等现有模型描述了数据到视觉的映射过程，但它们常常忽略了一个关键的中间步骤：特定于设计的转换。此过程发生在数据转换之后但在可视化数据映射之前，进一步导出对于正确呈现可视化至关重要的数据，例如分组、布局和统计数据。在本文中，我们主张对特定于设计的转换进行更深入的探索，强调它们在理解可视化属性方面的重要性，特别是与用户任务相关的属性。我们将特定于设计的转换纳入信息可视化参考模型中，并提出了一种新的形式主义，其中将用户任务作为数据的函数。与现有可视化模型相比，由此产生的形式主义提供了三个关键优势：（1）将任务描述为函数的组合，（2）支持对可视化数据映射的数据转换进行分析，以及（3）支持对可视化正确性和有效性的推理。我们进一步讨论该模型对可视化理论和可视化实验设计的潜在影响。

多人眼动追踪，用于社交环境中的真实场景感知

分类： 人机交互, 计算工程、金融和科学, 计算机与社会, 新兴技术, I.4.8; J.4; J.5; C.4; D.2.10

作者： Shreshth Saxena, Areez Visram, Neil Lobo, Zahid Mirza, Mehak Rafi Khan, Biranugan Pirabaharan, Alexander Nguyen, Lauren K. Fink

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06345v1

摘要： 眼球运动为了解人类行为、注意力和互动动态提供了一个窗口。先前的研究表明，眼球运动很大程度上受到任务、环境和社交他人的影响。然而，大多数眼动追踪研究都是在单人实验室环境中进行的，尚未在多人自然环境中得到验证。一种常见的现实世界环境是在社交环境中集体观看共享场景，例如观看音乐会、电影、讲座、体育赛事等。在这里，我们在现实世界的多人设置中应用移动眼动追踪并开发一个系统来传输、记录和分析同步数据。我们测试了我们提出的开源系统，同时参与者 (N=60) 在公共活动期间观看了现场音乐会和纪录片放映。我们解决了与网络带宽要求、实时监控和从个人以自我为中心的视角到共享注视分析的公共坐标空间的注视投影相关的挑战。我们的系统在具有挑战性的动态场景中实现了精确的时间同步和准确的凝视投影。此外，为了说明集体眼球追踪数据的潜力，我们引入并评估了新颖的分析指标和可视化。总的来说，我们的方法有助于在现实社会环境中开发和应用多功能多人眼动追踪系统。这一进步能够洞察协作行为、群体动态和社会互动，具有很高的生态有效性。此外，它还为促进社会环境中的协作和协调的创新互动工具铺平了道路。

适用于即时构音障碍和老年扬声器适应的同质扬声器功能

分类： 声音, 人工智能, 人机交互, 机器学习, 音频和语音处理

作者： Mengzhe Geng, Xurong Xie, Jiajun Deng, Zengrui Jin, Guinan Li, Tianzi Wang, Shujie Hu, Zhaoqing Li, Helen Meng, Xunying Liu

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06310v1

摘要： 将数据密集型自动语音识别 (ASR) 技术应用于构音障碍和老年人语音时，面临着与健康和非老年人语音不匹配、数据稀缺和说话者音量变化较大的问题。为此，本文提出了两种新颖的数据高效方法来学习同构构音障碍和老年说话者级别的特征，以便快速、动态地适应 DNN/TDNN 和 Conformer ASR 模型。其中包括：1）说话人级方差正则化频谱基础嵌入（VR-SBE）特征，利用特殊的正则化项来强制适应中说话人特征的同质性； 2）基于特征的学习隐藏单元贡献（f-LHUC）变换，以 VR-SBE 特征为条件。实验在两种语言的四项任务上进行：英语 UASpeech 和 TORGO 构音障碍语音数据集、英语 DementiaBank Pitt 和粤语 JCCOCC MoCA 老年人语音语料库。所提出的动态扬声器自适应技术始终优于基线 iVector 和 xVector 自适应，统计显着的单词或字符错误率降低了 5.32% 绝对值（18.57% 相对值），批处理模式 LHUC 扬声器自适应值降低了 2.24% 绝对值（9.20%）相对），同时在适应过程中以实时因素运行，速度比 xVectors 快 33.6 倍。与当前 ASR 技术（包括 UASpeech 上的 SSL 预训练系统）的比较证明了所提出的适应技术的有效性，其中我们最好的系统产生了 23.33% 的最先进的 WER。分析表明，VR-SBE 特征和 f-LHUC 变换对测试时间适应中的说话人级数据量不敏感。 T-SNE 可视化显示，它们比基线 iVector、xVector 和批处理模式 LHUC 变换具有更强的说话者级别同质性。

评估大语言模型在数据可视化中自然语言表达的语义分析能力

分类： 人工智能, 人机交互

作者： Hannah K. Bako, Arshnoor Buthani, Xinyi Liu, Kwesi A. Cobbina, Zhicheng Liu

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06129v1

摘要： 自动生成数据可视化以响应人类对数据集的表达需要对数据表达进行深入的语义理解，包括对数据属性、可视化任务和必要的数据准备步骤的隐式和显式引用。用于数据可视化的自然语言接口（NLI）已经探索了推断此类信息的方法，但由于人类语音固有的不确定性，挑战仍然存在。大型语言模型 (LLM) 的最新进展提供了解决这些挑战的途径，但它们提取相关语义信息的能力仍有待探索。在这项研究中，我们评估了四个公开的大语言模型（GPT-4、Gemini-Pro、Llama3 和 Mixtral），调查他们即使在存在不确定性的情况下理解话语的能力，也研究了他们识别相关数据上下文和视觉任务的能力。我们的研究结果表明，大语言模型对话语中的不确定性很敏感。尽管存在这种敏感性，他们仍然能够提取相关的数据上下文。然而，大语言模型很难完成推断可视化任务。基于这些结果，我们重点介绍了使用大语言模型进行可视化生成的未来研究方向。

使用文本和视听模式的大型语言模型进行抑郁症检测和分析

分类： 人机交互, 人工智能

作者： Avinash Anand, Chayan Tank, Sarthak Pol, Vinayak Katoch, Shaina Mehta, Rajiv Ratn Shah

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06125v1

摘要： 抑郁症已被证明是一个重大的公共卫生问题，深刻影响个人的心理健康。如果仍未确诊，抑郁症可能会导致严重的健康问题，这些问题可能会表现在身体上，甚至导致自杀。一般来说，诊断抑郁症或任何其他精神障碍需要进行半结构化访谈以及补充问卷，包括临床医生和心理健康专业人员的患者健康问卷 (PHQ) 的变体。这种方法很大程度上依赖于训练有素的医生的经验和判断，使得诊断容易受到个人偏见的影响。鉴于导致抑郁症的潜在机制仍在积极研究中，医生在诊断和治疗这种疾病时经常面临挑战，特别是在临床表现的早期阶段。最近，人工神经计算在解决各个领域涉及文本、图像和语音的问题方面取得了重大进展。我们的分析旨在在实验中利用这些最先进的 (SOTA) 模型，以利用多种方式实现最佳结果。这些实验是在音频/视觉情感挑战赛 (AVEC) 2019 挑战赛中提出的扩展痛苦分析访谈语料库 Wizard of Oz 数据集 (E-DAIC) 语料库上进行的。所提出的解决方案展示了专有和开源大型语言模型 (LLM) 取得的更好结果，其文本模态的均方根误差 (RMSE) 得分为 3.98，击败了 AVEC 2019 挑战基线结果和当前的 SOTA 回归分析架构。此外，所提出的解决方案在分类任务中实现了 71.43% 的准确率。该论文还包括一个新颖的视听多模态网络，可以预测 PHQ-8 分数，RMSE 为 6.51。

调查用户对虚拟健康咨询会议中协作议程设置的看法

分类： 人机交互

作者： Mina Fallah, Farnaz Nouraei, Hye Sun Yun, Timothy Bickmore

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06123v1

摘要： 虚拟健康顾问有可能为用户提供疾病管理和健康教育等复杂领域的信息和咨询。然而，确保用户参与具有挑战性，特别是当信息量和咨询时间增加时。议程设定临床咨询技术，由患者和临床医生共同决定会议主题，是根据患者个体需求定制讨论和维持参与的有效方法。我们探讨了虚拟咨询系统中议程设置的有效性，该系统旨在为女性提供乳腺癌基因检测的咨询。在一项受试者间研究中，我们评估了系统的三个版本，在系统的议程设置方法中具有不同级别的用户控制。我们发现参与者的知识在所有条件下都有所提高。尽管我们的结果表明，无论用户控制如何，任何类型的议程设置都被认为是有用的，但访谈显示，人们更倾向于在议程设置过程中进行更多协作和用户参与。我们的研究强调了在医疗保健中使用虚拟咨询师时采用以患者为中心的方法的重要性，例如量身定制的讨论。

探索人类与大语言模型的对话：心理模型和毒性的起源

分类： 人机交互, 人工智能

作者： Johannes Schneider, Arianna Casanova Flores, Anne-Catherine Kranz

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05977v1

摘要： 这项研究探索了现实世界中人类在多样化、不受约束的环境中与大型语言模型 (LLM) 的交互，这与之前大多数专注于特定任务的道德修整模型（如 ChatGPT）的研究形成鲜明对比。我们的目标是了解毒性的起源。我们的研究结果表明，尽管大语言模型被正确地指控提供有毒内容，但它主要是由积极寻求此类内容的人类所要求或至少挑起的。我们对数百个被 API 商业供应商判定为有毒的对话进行了手动分析，也对当前拒绝回答用户请求的做法提出了疑问。此外，根据多项经验指标，我们推测人类的心理模式发生了变化，从与机器交互的思维模式更多地转向与人交互的思维模式。

研究交易机制作为赛车游戏用户体验的驱动因素

分类： 人机交互

作者： Georg Arbesser-Rastburg, Thomas Olip, Johanna Pirker

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05874v1

摘要： 数字产品的交换已成为全球经济的一个重要方面，数字产品提供廉价的复制和发行。游戏内物品是一种数字货币，已成为游戏生态系统中的可交易商品。尽管对数字商品的各个方面进行了广泛的研究，但很少有人关注游戏内交易机制对用户体验的影响。本文提出了一项旨在评估交易系统对赛车游戏环境中用户体验的影响的研究。我们开发了一款简单的赛车游戏，具有用于买卖汽车变体的游戏内市场，并进行了 A/B 研究，比较了使用交易系统的组和通过比赛完成解锁汽车的组之间的用户体验。我们的研究结果表明，虽然交易系统没有显着改变整体用户体验，但对不同交易方法的进一步探索可能会深入了解它们对用户参与度的影响。

用于吞咽困难评估的颈部听诊机器学习

分类： 声音, 人机交互, 音频和语音处理

作者： An An Chia, Stacy Lum, Michelle Boo, Rex Tan, Balamurali B T, Jer-Ming Chen

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05870v1

摘要： 这项研究评估了机器学习（特别是随机森林分类器）的使用，以区分正常和病理性吞咽声音。我们使用市售的可穿戴听诊器记录了健康成人和吞咽困难患者的吞咽情况。分析显示，正常吞咽和病理吞咽之间的声学特征（例如频谱波峰和过零率）存在统计学上的显着差异，而不同液体和饮食浓度之间没有表现出区别性差异。该系统对吞咽困难表现出相当的敏感性（平均±SD：74%±8%）和特异性（89%±6%）。该模型的总体准确率为 83% ± 3%，F1 分数为 78% ± 5%。这些结果表明，机器学习可以成为非侵入性吞咽困难评估的宝贵工具，尽管也注意到了诸如采样率限制以及区分正常声音和病理声音的敏感性和特异性变化等挑战。该研究强调需要进一步研究以优化这些技术的临床应用。

透明面部显示：通过透明显示进行远程对话中的相互凝视通信

分类： 人机交互

作者： Kazuya Izumi, Ryosuke Hyakuta, Ippei Suzuki, Yoichi Ochiai

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05833v1

摘要： 我们提出了透视面部显示器，这种显示器可以通过显示器促进与远程用户的相互注视通信。该显示器包括重复打开和关闭的透明显示器以及安装在显示器后面的摄像头，使得用户的视线和摄像头的光路紧密对准。该显示器旨在显示用户的面部，当用户注视显示器上的面部时，就会发生目光接触。因此，通过为对话中的所有参与者使用该显示器，用户可以通过面部和目光提示通过显示器上的面部进行交流。这种交互提供了一种体验，就好像远程用户的脸部出现在本地环境中一样。透视面部显示提出了远程呈现中相互凝视交流的重要性。

将人工智能融入大学教育：ChatGPT 的积极但复杂的经验

分类： 人工智能, 人机交互

作者： Xinrui Song, Jiajin Zhang, Pingkun Yan, Juergen Hahn, Uwe Kruger, Hisham Mohamed, Ge Wang

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05810v1

摘要： 人工智能 (AI) 聊天机器人融入高等教育标志着向新一代教学工具的转变，反映了互联网等里程碑的到来。随着 2023 年 11 月 ChatGPT-4 Turbo 的推出，我们开发了基于 ChatGPT 的教学应用程序 (https://chat.openai.com/g/g-1imx1py4K-chatge-medical-imaging) 并将其集成到我们的本科医学中2024 年春季学期的影像课程。本研究调查了 ChatGPT 在整个学期试验中的使用情况，深入了解学生的参与度、感知度以及该技术的整体教育效果。我们系统地收集和分析了学生与 ChatGPT 互动的数据，重点关注他们的态度、关注点和使用模式。研究结果表明，ChatGPT 具有显着的优势，例如改进的信息访问和增强的交互性，但其采用伴随着对所提供信息的准确性以及需要制定明确的指南来优化其使用的担忧。

用于自动评估学习过程中注意力相关过程的多模态机器学习

分类： 人机交互

作者： Babette Bühler

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05803v1

摘要： 注意力是成功学习的关键因素，研究表明注意力与学习成果之间存在密切关联。这篇论文通过关注使用眼动追踪、计算机视觉和机器学习来自动检测与注意力相关的过程，从而推动了该领域的发展，提供了比自我报告或观察等传统方法更客观、连续和可扩展的评估。它引入了新颖的计算方法，用于评估在线和课堂学习环境中注意力（注意力）的各个维度，并解决精确细粒度评估、普遍性和野外数据质量的挑战。首先，本论文探讨了走神的自动检测，即注意力从学习任务上的转移。采用一种新颖的多模式方法来区分有意识和无意识的走神，该方法集成了眼动追踪、视频和生理数据。此外，还检查了基于网络摄像头的可扩展检测在不同任务、设置和目标群体中的通用性。其次，本文研究了在线学习过程中的注意力指标。眼球追踪分析显示，专注的学习者之间的注视同步性显着提高。第三，它通过使用一种新颖的视图不变和遮挡稳健的基于骨架的方法，通过检测举手作为行为参与的指标来解决课堂学习中与注意力相关的过程。本论文通过开发和完善检测走神、任务行为和行为参与的方法，推进了教育环境中注意力相关过程的自动评估。它将教育理论与计算机科学的先进方法联系起来，增强我们对显着影响学习成果和教育实践的注意力相关过程的理解。

LDGCN：基于单通道脑电图的边缘端轻量级双 GCN，用于驾驶员睡意监测

分类： 信号处理, 人机交互, 机器学习

作者： Jingwei Huang, Chuansheng Wang, Jiayan Huang, Haoyi Fan, Antoni Grau, Fuquan Zhang

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05749v1

摘要： 驾驶员困倦脑电图（EEG）信号监测可以及时提醒驾驶员困倦状态，从而降低交通事故发生的概率。图卷积网络（GCN）在处理脑电图信号的非平稳、时变和非欧几里德性质方面显示出显着的进步。然而，现有的单通道脑电图邻接图构建过程缺乏可解释性，这阻碍了GCN有效提取邻接图特征的能力，从而影响睡意监测的性能。为了解决这个问题，我们提出了一种边缘端轻量级双图卷积网络（LDGCN）。具体来说，我们是第一个结合神经生理学知识来设计基线睡意状态邻接图（BDSAG）的人，它表征了驾驶员睡意状态。此外，为了在有限的脑电图数据中表达更多特征，我们引入了增强图级模块（AGM）。该模块捕获图级别的全局和局部信息，确保BDSAG特征保持完整，同时增强有效的特征表达能力。此外，为了在第四代 Raspberry Pi 上部署我们的方法，我们在通道和神经元上使用自适应剪枝优化 (APO)，将推理延迟减少了近一半。对基准数据集的实验表明，与现有最先进的算法相比，LDGCN 在监控性能和硬件资源利用率之间提供了最佳权衡。我们所有的源代码都可以在 https://github.com/BryantDom/Driver-Drowsiness-Monitoring 找到。

用于实时电生理信号处理的约束在线递归源分离框架

分类： 人机交互

作者： Li Yao, Zhao Haowen, Liu Yunfei, Zhang Xu

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05655v1

摘要： 由于混合源信号的性质，电生理信号处理通常需要盲源分离（BSS）技术。然而，其复杂的计算需求使得实时适用性具有挑战性。在这项研究中，我们提出了一种用于实时电生理信号处理的约束在线递归源分离（CORSS）框架。通过逐步递归分解矩阵学习规则，该算法以最小的计算开销实现了实时更新。通过结合目标信号的先验信息来优化成本函数，该算法更容易收敛到理想信号源，从而产生更准确的结果。采用两个下游任务，实时表面肌电图（sEMG）分解和基于膈肌电图（sEMGdi）提取的实时呼吸意图监测，来评估我们方法的有效性。结果表明，与替代方法相比，该方法具有优越的性能，sEMG 分解任务的匹配率为 96.00，sEMGdi 提取任务的匹配率为 98.12。此外，与Online PFP相比，我们的方法在计算过程中表现出最小的时间延迟，反映了其简化的处理和出色的实时能力。我们的方法在电生理信号的各种实时处理任务中表现出强大的性能，突出了其在实时人机交互和临床监测中的应用的重要性。

探索实时音乐到图像系统以获取音乐创作中的创意灵感

分类： 人机交互

作者： Meng Yang, Maria Teresa Llano, Jon McCormack

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05584v1

摘要： 本文提出了一项关于使用实时音乐到图像系统作为在音乐家的创作过程中支持和激励他们的机制的研究。该系统将来自键盘的 MIDI 消息作为输入，然后使用最先进的生成人工智能模型对其进行解释和分析。基于感知到的情感和音乐结构，系统的解释被转换成实时呈现给音乐家的视觉图像。我们进行了一项用户研究，音乐家们使用该系统进行即兴创作和创作。我们的研究结果表明，大多数音乐家发现在演奏时生成的图像是一种新颖的机制，这证明了音乐到图像系统在激发和增强他们的创作过程方面的潜力。

MEEG 和 AT-DGNN：通过音乐和图形学习推进 EEG 情绪识别

分类： 人机交互, 人工智能

作者： Minghao Xiao, Zhengxi Zhu, Wenyu Wang, Meixia Qu

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05550v1

摘要： 神经科学的最新进展阐明了协调大脑区域活动在认知任务中的关键作用。为了探索复杂性，我们引入了 MEEG 数据集，这是一个综合的多模态音乐诱发的脑电图 (EEG) 数据集，以及基于注意力的时间学习器和动态图神经网络 (AT-DGNN)，这是一种基于 EEG 的情感的新颖框架认出。 MEEG 数据集捕获了对音乐的各种情绪反应，从而能够深入分析音乐背景下的脑电波模式。 AT-DGNN 将基于注意力的时间学习器与动态图神经网络 (DGNN) 相结合，以准确地对不同脑网络拓扑中脑电图数据的局部和全局图动态进行建模。我们的评估表明，AT-DGNN 实现了卓越的性能，唤醒准确度 (ACC) 为 83.06%，效价准确度为 85.31%，优于 MEEG 数据集上最先进的 (SOTA) 方法。与 DEAP 等传统数据集的比较分析突显了我们方法的有效性，并强调了音乐作为情感诱导的强大媒介的潜力。这项研究不仅增进了我们对大脑情绪处理的理解，而且利用基于图形的学习和音乐的情绪影响，提高了脑机接口（BCI）中情绪识别技术的准确性。源代码和数据集可在 \textit{https://github.com/xmh1011/AT-DGNN} 获取。

多媒体和沉浸式培训材料影响学习印象，但不影响学习成果

分类： 人机交互

作者： Benjamin A. Clegg, Alex Karduna, Ethan Holen, Jason Garcia, Matthew G. Rhodes, Francisco R. Ortega

发布时间： 2024-07-07

链接： http://arxiv.org/abs/2407.05504v1

摘要： 尽管在培训中使用多媒体和虚拟现实 (VR) 等技术有望改善学习，但这些更丰富且可能更具吸引力的材料并不能始终产生卓越的学习成果。这种训练的默认方法可能会无意中模仿诸如显示设计中的朴素现实主义和学习科学中理想的困难等概念，从而造成一种与记忆的实际收益无关的更好学习的印象。这项研究考察了指令格式对学习从组件组装物品的影响。两项实验的参与者接受了如何将一系列类似于 Meccano 碎片的棒组装成八种不同形状的步骤训练。在对形状对进行训练后，参与者评估了他们记住这些形状的可能性，然后进行了识别测试。相对于观看静态图表，观看在 VR 环境中构建的形状的视频（实验 1）或在沉浸式 VR 系统中观看（实验 2）可以提高参与者对其学习的评估，但不会提高学习成果。总的来说，这些发现说明了未来的员工可能会错误地认为技术先进的支持可以改善学习，并更喜欢将类似复杂的线索整合到培训中的教学设计。

了解创作保护隐私和保护新兴数字艺术品的专业需求

分类： 人机交互

作者： Kathryn Lichlyter, Urvashi Kishnani, Kate Hollenbach, Sanchari Das

发布时间： 2024-07-07

链接： http://arxiv.org/abs/2407.05450v1

摘要： 近年来，以互动艺术为特色的沉浸式艺术装置不断兴起。这些装置是自拍博物馆、teamLab Borderless、ARTECHOUSE 和 Meow Wolf 等博物馆和艺术中心不可或缺的一部分。此外，沉浸式艺术也越来越多地融入传统博物馆。然而，沉浸式艺术需要用户的积极参与，并且通常通过摄像机、传感器、麦克风、实体交互设备、监控和动态镜来捕获观众和参与者的信息。因此，我们提出了一条新的研究路线来检验沉浸式艺术品的安全和隐私状况。在我们的试点研究中，我们对来自艺术 (2) 或网络安全 (3) 领域的五位经验丰富的从业者进行了半结构化访谈。我们的目标是了解他们当前的安全和隐私实践，以及他们在沉浸式艺术方面的需求。根据他们的回复，我们创建了一系列安全和隐私参数，例如提供数据收集的选择加入机制、接近传感器等数据收集工具的知识，以及通过传达安全协议和威胁模型在参与者中建立安全意识。这些参数使我们能够为从事媒体艺术的个人构建保护隐私、安全且可访问的软件，而这些人通常没有安全和隐私背景。未来，我们计划利用这些参数来开发满足这些需求的软件，然后利用该平台举办沉浸式艺术品的艺术展。

迈向感知安全、感知隐私和电子支付应用程序的通用设计

分类： 人机交互, 密码学和安全

作者： Urvashi Kishnani, Isabella Cardenas, Jailene Castillo, Rosalyn Conry, Lukas Rodwin, Rika Ruiz, Matthew Walther, Sanchari Das

发布时间： 2024-07-07

链接： http://arxiv.org/abs/2407.05446v1

摘要： 在 COVID-19 大流行的推动下，随着数字货币交易和无现金支付的增长，电子支付应用程序的使用正在增加。因此，有必要从安全、隐私和可用性这三个面向用户的主要角度来理解和评估电子支付应用程序的现状。为此，我们创建了一个电子支付应用程序的高保真原型，其中包含我们想要与用户测试的功能。然后我们进行了一项试点研究，招募了 12 名参与者来测试我们的原型。我们发现安全和隐私对于电子支付应用程序的用户来说都很重要。此外，一些参与者根据应用程序的可用性来感知安全和隐私的强度。我们提供诸如电子支付应用程序的通用设计等建议。

MelodyVis：乐谱中旋律模式的可视化分析

分类： 人机交互, 信息检索, I.5.4; H.3.3; J.5.7

作者： Matthias Miller, Daniel Fürst, Maximilian T. Fischer, Hanna Hauptmann, Daniel Keim, Mennatallah El-Assady

发布时间： 2024-07-07

链接： http://arxiv.org/abs/2407.05427v1

摘要： 手动旋律检测是一项繁琐的任务，需要很高的专业水平，而自动检测往往表现力或功能不够强大。因此，我们推出了 MelodyVis，这是一款与音乐学专家合作设计的视觉应用程序，用于探索数字乐谱中的旋律模式。 MelodyVis 具有五个连接视图，包括旋律操作图和发声时间线。该系统利用八个原子运算符（例如换位和镜像）来捕获旋律重复和变化。用户可以通过在工作表视图中手动选择模式来开始分析，然后通过交互式探索过程根据所选样本识别其他模式。我们进行了一项用户研究，以调查我们的方法及其集成旋律运算符的有效性和实用性，包括可用性和心理负荷问题。我们比较了 25 名参与者在有操作员和没有操作员的情况下执行的分析。研究结果表明，参与者可以通过激活的算子识别出至少两倍的模式。 MelodyVis 允许分析师引导分析过程并解释结果。我们的研究还证实了 MelodyVis 在支持旋律分析中的常见分析任务方面的有用性，参与者报告了改进的模式识别和解释。因此，MelodyVis 解决了全自动方法的局限性，使音乐分析师能够进入分析过程，发现和理解乐谱中复杂的旋律模式和转换。

Helios：一种基于事件的极低功耗手势识别，适用于始终开启的智能眼镜

分类： 计算机视觉和模式识别, 人机交互, 机器学习

作者： Prarthana Bhattacharyya, Joshua Mitton, Ryan Page, Owen Morgan, Ben Menzies, Gabriel Homewood, Kemi Jacobs, Paolo Baesso, Dave Trickett, Chris Mair, Taru Muhonen, Rory Clark, Louis Berridge, Richard Vigars, Iain Wallace

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05206v1

摘要： 本文介绍了 Helios，这是第一个超低功耗、实时、基于事件的手势识别系统，专为全天使用智能眼镜而设计。随着增强现实 (AR) 的发展，当前的智能眼镜（例如 Meta Ray-Bans）优先考虑视觉和佩戴舒适度，而牺牲了功能性。这些设备中现有的人机界面 (HMI)，例如电容式触摸和语音控制，在人体工程学、隐私和功耗方面存在局限性。 Helios 通过利用自然的手部交互来解决这些挑战，提供更直观、更舒适的用户体验。我们的系统利用极低功耗的紧凑型 3mmx4mm/20mW 事件相机，为始终开启的智能眼镜执行自然的手部手势识别。相机的输出由在 NXP Nano UltraLite 计算平台上运行的卷积神经网络 (CNN) 进行处理，功耗低于 350mW。 Helios 可以识别七类手势，包括滑动和捏合等微妙的微手势，准确率高达 91%。我们还以 60 毫秒的极低延迟展示了 20 个用户的实时性能。我们的用户测试结果与我们最近在 AWE-USA-2024 上成功演示期间收到的积极反馈一致。

使用语音优先虚拟助理实现生态瞬时评估的统一元数据模式

分类： 人机交互, K.4.m; J.3; H.4

作者： Chen Chen, Khalil Mrini, Kemeberly Charles, Ella T. Lifset, Michael Hogarth, Alison A. Moore, Nadir Weibel, Emilia Farcas

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05203v1

摘要： 生态瞬时评估（EMA）用于评估受试者在自然环境中的行为和情绪，但由于用户负担，使用 EMA 收集实时和自我报告数据具有挑战性。通过当今的智能虚拟助理 (IVA) 将语音集成到 EMA 数据收集平台中，由于具有免提和免眼的特性，因此前景广阔。然而，由于语音输入的模糊性，有效管理对话和 EMA 并非易事且耗时。我们通过重新思考 EMA 问题的数据建模以及将它们部署在语音优先用户界面上所需的内容来解决这个问题。我们提出了一个统一的元数据模式，对 EMA 问题和必要的属性进行建模，以有效且高效地将语音集成为新的 EMA 模式。我们的模式允许用户体验研究人员编写可以在运行时呈现的简单规则，而不必编辑源代码。我们展示了使用我们的架构实施的 EMA 调查示例，该调查可以在多个纯语音和语音优先设备上运行。我们相信，我们的工作将加速现实世界中基于语音的 EMA 数据收集平台的迭代原型设计和设计过程。

Form Forge：通过显式潜在变量操作探索建筑形式的潜在空间

分类： 人机交互, 人工智能

作者： Kevin Dunnell, Andy Lippman

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05079v1

摘要： 本文介绍了“Form Forge”，这是一个用于交互式探索建筑形式的潜在空间的创意系统原型，其灵感来自于 Franois Blanciak 的 SITELESS：通过直接操纵潜在变量的 1001 建筑形式。该系统利用经过微调的 StyleGAN2-ADA 模型，允许用户浏览从 Blanciak 草图衍生的一系列可能的建筑形式。与通常依赖于投影导航地标的常见潜在空间探索工具不同，Form Forge 提供了操作每个潜在变量的直接访问权限，旨在提供对模型功能的更精细的探索。 Form Forge 的设计旨在简化与复杂、高维空间的交互，并作为此类工具如何支持建筑设计中的创意过程的初步调查。

这就是我们搞砸的地方！从数字公民倡议中的参与式设计中汲取的经验教训

分类： 人机交互

作者： Clara Rosa Cardoso, Sarah Rüller, Ana O Henriques, Anna R L Carter, Markus Rohde

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05032v1

摘要： 数字公民的参与式设计旨在促进公共服务和公民之间的相互学习和共同创造。然而，我们很少集体探讨我们在 PD 和数字公民领域所经历的挑战和失败，以使我们作为一个社区得以成长。本次研讨会将探讨必须适应不可预见的情况的现实经验。通过案例展示和专题小组讨论，参与者将反思面临的挑战、导致这些挑战的原因，并协作解决问题的有效解决方案。此外，我们的目标是讨论在面临这些障碍时对研究人员和社区的福祉影响、参与者用来克服这些障碍的策略以及如何将其反馈到数字公民社区。研讨会旨在促进对话、反思和集体学习，赋予参与者有效应对复杂性的洞察力，并促进数字公民的弹性设计实践。

ProACT：智能假肢的增强现实测试平台

分类： 机器人技术, 人机交互, 系统与控制, 系统与控制

作者： Shivani Guptasarma, Monroe D. Kennedy III

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05025v1

摘要： 上肢截肢者在操作灵巧的动力假肢时面临着巨大的困难。先前的工作表明，通过将基于运动或基于凝视的意图估计与低级机器人自主性相结合，可以通过“智能”控制来改进假手、手腕或肘部控制的各个方面。然而，对于全臂控制，不存在这样的解决方案。此外，用于先进假肢控制的硬件平台价格昂贵，并且现有的仿真平台没有经过精心设计，无法与机器人软件框架集成。我们推出了假肢控制测试台（ProACT），这是一个在沉浸式（增强现实）模拟环境中评估假肢智能控制方法的平台。使用 ProACT 与非截肢参与者一起，我们比较了使用虚拟肌电假肢执行 Box-and-Blocks 任务时的表现，无论是否有意图估计。我们的结果表明，使用意图估计的方法可以提高用户满意度和任务的成功程度。据我们所知，这是第一个对复杂的全臂假肢进行半自主控制的研究，第一个包括可穿戴假肢背景下的顺序任务建模的研究，也是第一个此类测试平台。为了支持未来智能假肢研究的目标，该系统建立在现有的机器人开源框架之上。

展望协作未来：推进嵌入式研究的前沿

分类： 人机交互

作者： Anna R. L. Carter, Kyle Montague, Reem Talhouk, Ana O. Henriques, Hugo Nicolau, Tiffany Knearem, Ceylan Besevli, Firaz Peer, Clara Crivellaro, Sarah Rüller

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05016v1

摘要： 参与式设计举措，尤其是在数字公民领域，通常是与他们想要帮助的公民和社区整合和共同开发的。数字公民研究旨在利用各种数字技术创造积极的社会变革。这些研究项目通常采用各种嵌入式流程，例如调试模型\cite{dcitizensproj22}。尽管在一系列领域内采用了这一流程，但目前还没有最佳实践和问责程序的框架来确保我们以道德方式与公民互动并确保我们项目的可持续性。本次研讨会旨在提供一个空间来开始协作构建最佳实践的动态框架，为可持续嵌入式研究过程的未来奠定基础。总体目标是促进讨论和分享见解，有助于制定有效的实践，确保参与式数字公民项目的寿命和影响力。

DCitizens 角色揭晓：SIG 探索数字公民中的身份和社会影响范围

分类： 人机交互

作者： Anna R. L. Carter, Kyle Montague, Reem Talhouk, Shaun Lawson, Hugo Nicolau, Ana Cristina Pires, Markus Rohde, Alessio Del Bue, Tiffany Knearem

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05003v1

摘要： DCitizens SIG 的目标是在即将到来的数字公民项目中引导道德层面，确保持久的利益和社区的复原力。此外，它还寻求塑造数字公民的未来格局，以进行道德和可持续的干预。当我们深入研究这些互动过程时，辨别真实意图和验证观点的挑战就出现了。这种探索延伸到评估未来互动的可持续性，并审查影响参与社区的偏见。我们的承诺是确保未来的结果符合真正的社区需求，并解决深思熟虑的离职策略的道德要求。此次对话鼓励未来的研究人员和从业者将伦理考虑和以社区为中心的原则结合起来，在未来城市复兴及其他领域培育一种更可持续、更负责任的技术驱动干预措施。

仅使用即时工程而不进行微调来实现大语言模型中的工具调用功能

分类： 软件工程, 人工智能, 人机交互, I.2.7

作者： Shengtao He

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.04997v1

摘要： 目前，绝大多数本地部署的开源大语言模型（LLM）和部分商业模型接口不支持稳定的工具调用功能。现有的解决方案涉及对 LLM 进行微调，这会导致大量的时间和计算资源消耗。本文提出了一种方法，使大语言模型仅使用即时工程和一些巧妙的代码设计即可实现稳定的工具调用能力。我们对多个缺乏工具调用能力的LLM跨各种工具调用任务进行了实验，取得了100%的成功率。

RAMO：检索增强生成以增强 MOOC 推荐

分类： 信息检索, 人工智能, 人机交互

作者： Jiarui Rao, Jionghao Lin

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.04925v1

摘要： 大规模开放在线课程 (MOOC) 通过提供种类繁多的课程并打破与地理、财务和时间相关的传统障碍，显着提高了教育的可及性。然而，学生在选择大量课程时常常面临困难，尤其是在探索新的学习领域时。在这一挑战的推动下，研究人员一直在探索课程推荐系统，以提供符合个人学习偏好和职业抱负的定制指导。这些系统在有效解决新用户的“冷启动”问题方面面临着特殊的挑战。推荐系统的最新进展建议将大型语言模型 (LLM) 集成到推荐过程中，以增强个性化推荐并解决“冷启动”问题。受这些进步的推动，我们的研究引入了 RAMO（MOOC 检索增强生成），这是一个专门为克服传统课程推荐系统的“冷启动”挑战而设计的系统。 RAMO 系统利用大语言模型的功能以及检索增强生成 (RAG) 促进的上下文理解，通过对话界面提供课程推荐，旨在增强电子学习体验。

WhatsApp 智能辅导系统中的安全生成聊天

分类： 人机交互

作者： Zachary Levonian, Owen Henkel

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.04915v1

摘要： 大语言模型 (LLM) 灵活、可个性化且可用，这使得它们在智能辅导系统 (ITS) 中的使用具有吸引力。然而，这种灵活性会带来风险：不准确、有害内容和非课程材料。道德地部署大语言模型支持的 ITS 系统需要设计保障措施，确保学生获得积极的体验。我们描述了集成到 ITS 中的对话系统的设计，以及我们通过红队、课堂可用性测试和现场部署评估其安全性的经验。我们提供了 8,000 多名学生与该系统对话的经验数据，发现 GPT-3.5 很少生成不适当的消息。相对更常见的是来自学生的不当信息，这促使我们将安全保护视为内容审核和课堂管理问题。我们观察到的学生互动行为为设计师提供了启示——将学生的输入作为内容审核问题来关注——也为研究人员提供了启示——关注不良内容的微妙形式。

利用可扩展的深度学习对睡眠深度指数进行注释，产生睡眠健康的新型数字生物标记

分类： 机器学习, 人机交互, 信号处理

作者： Songchi Zhou, Ge Song, Haoqi Sun, Yue Leng, M. Brandon Westover, Shenda Hong

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04753v1

摘要： 传统的睡眠分期将睡眠和清醒分为五个粗粒度的类别，忽略了每个阶段内的细微变化。它提供的关于觉醒概率的信息有限，并且可能妨碍睡眠障碍（例如失眠）的诊断。为了解决这个问题，我们提出了一种深度学习方法，使用现有的睡眠分期标签自动且可扩展地注释睡眠深度指数。我们的方法使用来自四个大规模队列的一万多个记录的多导睡眠图进行了验证。结果显示，睡眠深度指数的下降与觉醒可能性的增加之间存在很强的相关性。几个案例研究表明，睡眠深度指数比传统的睡眠分期捕捉到更细微的睡眠结构。从整夜睡眠深度指数中提取的睡眠生物标志物在不同主观睡眠质量和失眠症状的群体中表现出统计显着差异，具有中到大的效应大小。这些睡眠生物标志物还有望用于预测阻塞性睡眠呼吸暂停的严重程度，特别是在严重的情况下。我们的研究强调了所提出的连续睡眠深度注释方法的实用性，该方法可以揭示整夜睡眠中更详细的结构和动态，并产生有益于睡眠健康的新型数字生物标记。

游戏开发中的多样性、代表性和可访问性问题

分类： 人机交互

作者： Nooshin Darvishinia, Todd Goodson

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04892v1

摘要： 本研究深入探讨了游戏开发中的代表性和可访问性的关键问题。尽管视频游戏具有社会意义，但它仍面临着持续的批评，因为它的劳动力和内容缺乏多样性，排除了边缘化的游戏玩家。这项研究探讨了基于游戏的学习（GBL），同时强调了准确表示的重要性，特别是在教育环境中，以提高参与度和学习成果。我们的研究结果围绕游戏行业专业人士的观点以及与创建无障碍游戏相关的挑战。通过提供可行的见解，它旨在影响监管改革、行业实践和游戏创作本身，以促进视频游戏行业的多样性、代表性和可及性。在此过程中，我们寻求促进教育游戏世界更加包容和公平的未来。

运动想象脑机接口训练协议的游戏化：系统回顾

分类： 人机交互

作者： Fred Atilla, Marie Postma, Maryam Alimardani

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04610v1

摘要： 当前的运动想象脑机接口（MI-BCI）需要漫长而单调的训练过程来训练系统和用户。考虑到许多用户难以有效控制 MI-BCI 系统，更加以用户为中心的培训方法可能有助于激励用户并促进学习，从而缓解 BCI 系统的低效率。随着 BCI 控制游戏的增加，研究人员建议使用游戏原理进行 BCI 训练，因为游戏自然以玩家为中心。本次审查确定并评估了游戏设计元素在 MI-BCI 培训中的应用，这一过程称为游戏化。通过系统的文献检索，我们研究了 MI-BCI 培训协议如何被游戏化以及特定的游戏元素如何影响培训结果。我们确定了过去十年中采用游戏化 MI-BCI 协议的 86 项研究。提取并综合了各个游戏元素对用户体验和性能的流行程度和报告的影响。结果表明，MI-BCI 训练协议最常被游戏化，让用户在提供视觉反馈的虚拟环境中移动化身。此外，在这些虚拟环境中，为用户提供了指导他们行动的目标。使用游戏化，审查的协议允许用户实现有效的 MI-BCI 控制，研究报告了四个单独元素对用户表现和体验的积极影响，即：反馈、化身、帮助和社交互动。基于这些要素，本次审查对当前和未来的有效游戏化提出了建议，例如虚拟现实的使用以及根据用户技能水平调整游戏难度。

通过智能手机感应实现设备上大语言模型个性化

分类： 人机交互, 人工智能, 机器学习

作者： Shiquan Zhang, Ying Ma, Le Fang, Hong Jia, Simon D'Alfonso, Vassilis Kostakos

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04418v1

摘要： 该演示展示了一种新颖的端到端框架，它将设备上的大语言模型 (LLM) 与智能手机传感技术相结合，以实现上下文感知和个性化服务。该框架通过基于云的大语言模型解决了当前个性化解决方案的关键局限性，例如隐私问题、延迟和成本以及有限的个人传感器数据。为了实现这一目标，我们创新性地建议在具有多模式传感器数据和定制提示工程的智能手机上部署大语言模型，通过上下文感知传感确保隐私并增强个性化性能。涉及一名大学生的案例研究证明了所提出的框架能够提供量身定制的建议。此外，我们还表明，所提出的框架在设备上和云 LLM 之间实现了隐私、性能、延迟、成本、电池和能耗方面的最佳权衡。未来的工作旨在整合更多样化的传感器数据并进行大规模用户研究以进一步完善个性化。我们预计所提出的框架可以通过直接在用户设备上提供安全、上下文感知和高效的交互，从而显着改善医疗保健、生产力和娱乐等各个领域的用户体验。

使用艺术材料与潜在音频合成交互的映射策略

分类： 声音, 人机交互, 音频和语音处理

作者： Shuoyang Zheng, Anna Xambó Sedó, Nick Bryan-Kinns

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04379v1

摘要： 本文提出了一种与生成人工智能模型的潜在空间交互的映射策略。我们的方法涉及使用无监督特征学习来编码人类控制空间并将其映射到音频合成模型的潜在空间。为了演示这种映射策略如何将高维传感器数据转化为深度生成模型的控制机制，我们提出了一个概念验证系统，该系统使用视觉草图来控制音频合成模型。我们利用 XAIxArts 中的新兴话语来讨论这种方法如何在艺术和创意背景下为 XAI 做出贡献，我们还讨论了其当前的局限性并提出了未来的研究方向。

针对色觉缺陷的情境感知支持：一种整合 LLM 和 AR 的方法

分类： 计算机视觉和模式识别, 人机交互

作者： Shogo Morita, Yan Zhang, Takuto Yamauchi, Sinan Chen, Jialong Li, Kenji Tei

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04362v1

摘要： 色觉缺陷的人经常面临区分红色和绿色等颜色的挑战，这会使日常任务变得复杂，并且需要使用辅助工具或环境调整。当前的支持工具主要侧重于基于演示的辅助工具，例如 iPhone 辅助功能设置中的色觉模式。然而，提供上下文感知支持（例如指示肉的熟度）仍然是一个挑战，因为特定于任务的解决方案对于所有可能的情况来说并不具有成本效益。为了解决这个问题，我们的论文提出了一种提供上下文和自主帮助的应用程序。该应用程序主要由以下部分组成：（i）有效捕获上下文的增强现实界面；（ii）基于多模态大语言模型的推理器，用于认知上下文，然后推理出适当的支持内容。对两个色觉缺陷用户在五个不同场景中进行的初步用户实验证明了我们应用程序的有效性和通用性。

UpStory：乌普萨拉讲故事数据集

分类： 人机交互, 机器学习

作者： Marc Fraile, Natalia Calvo-Barajas, Anastasia Sophia Apeiron, Giovanna Varni, Joakim Lindblad, Nataša Sladoje, Ginevra Castellano

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04352v1

摘要： 友谊和融洽关系在建设性社交互动的形成中发挥着重要作用，并且由于其对学生成绩的影响而在教育环境中得到了广泛的研究。鉴于人们对通过机器学习 (ML) 自动分析此类现象的兴趣日益浓厚，访问带注释的交互数据集非常有价值。然而，目前尚不存在明确捕捉融洽关系的二元儿童互动数据集。此外，尽管人类行为的自动分析取得了进展，但之前的工作还没有解决教育环境中儿童与儿童二元互动中融洽关系的预测。我们提出了 UpStory——乌普萨拉讲故事数据集：一个关于小学儿童之间自然二元互动的新颖数据集，并通过实验操纵融洽关系。 8 至 10 岁的儿童成对参加一项以任务为导向的活动：一起设计一个故事，同时允许他们在游乐区内自由活动。我们通过使用受试者内部设计来促进不同级别融洽关系的平衡收集：使用自我报告的友谊将每个孩子配对两次，从而最小化或最大化友谊网络中的配对分离。该数据集包含 35 对、总计 3h 40m 的音频和视频记录的数据。它包括覆盖游乐区的两个视频源，以及每个孩子的单独录音。该数据集的匿名版本已公开，包含每帧头部姿势、身体姿势和面部特征；以及每对信息，包括融洽程度。最后，我们提供用于预测融洽关系的机器学习基线。

了解沙特阿拉伯利用物联网实现可持续增长的前景

分类： 计算机与社会, 人机交互, H.1.2

作者： Manal Alshehri, Ohoud Alharbi

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04273v1

摘要： 物联网 (IoT) 技术在农业中的集成有望改变农业实践，特别是在沙特阿拉伯王国 (KSA)。本研究探讨了沙特阿拉伯农民采用智能农业实践的情况。由于沙特阿拉伯的地理位置和性质，其农业面临着重大挑战。本研究的目的是讨论物联网如何增强沙特阿拉伯的农业，并通过对不同年龄、地区和经验年限的沙特农民进行研究来确定其当前的使用情况。结果表明，90%的农民在农业生产中遇到了挑战，他们都表示有兴趣采用智慧农业来解决这些问题。虽然 60% 的农民目前正在使用物联网技术，但他们在实施智能农业实践方面遇到了挑战。因此，智能农业为包括恶劣天气、水资源短缺和劳动力短缺在内的普遍挑战提供了解决方案，尽管障碍包括成本和教育挑战。

利用综合数据进行多样化、细粒度的指令跟随能力探索

分类： 人工智能, 计算和语言, 人机交互

作者： Zihui Gu, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Cheng-Zhong Xu, Ju Fan

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03942v1

摘要： 指令遵循对于大型语言模型 (LLM) 支持不同的用户请求尤其重要。虽然现有的工作在使大语言模型与人类偏好保持一致方面取得了进展，但由于现实世界用户指令的复杂性和多样性，评估其遵循指令的能力仍然是一个挑战。虽然现有的评估方法侧重于通用技能，但它们存在两个主要缺点，即缺乏细粒度的任务级评估和依赖单一的指令表达。为了解决这些问题，本文引入了 DINGO，一种细粒度、多样化的指令跟踪评估数据集，它具有两个主要优点：（1）DINGO 基于手动注释、细粒度、多级类别树，具有 130 个节点来自现实世界的用户请求； (2) DINGO 包含由 GPT-4 和人类专家生成的各种指令。通过大量的实验，我们证明了 DINGO 不仅可以为 LLM 提供更具挑战性和全面的评估，还可以为进一步提高 LLM 提供任务级的细粒度指导。

MobileExperts：移动设备中支持动态工具的代理团队

分类： 人工智能, 人机交互

作者： Jiayi Zhang, Chuang Zhao, Yihan Zhao, Zhaoyang Yu, Ming He, Jianping Fan

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03913v1

摘要： 移动计算设备实现自主操作一直是人类追求的目标。随着大型语言模型（LLM）和视觉语言模型（VLM）的发展，这一愿望正在逐步变为现实。虽然当代研究已经探索了通过 VLM 在移动设备上实现简单任务的自动化，但在处理复杂任务和降低高推理成本方面仍有很大的改进空间。在本文中，我们介绍了 MobileExperts，它首次引入了工具制定和多智能体协作来解决上述挑战。更具体地说，MobileExperts 根据座席画像与人类需求的一致性动态地组建团队。此后，每个智能体开始独立的探索阶段，制定其工具以发展成为专家。最后，我们建立双层规划机制，建立专家之间的协调协作。为了验证我们的有效性，我们设计了一个新的分层智能水平基准，深入了解算法处理各种复杂性任务的能力。实验结果表明，MobileExperts 在所有智能水平上都表现更好，推理成本降低了约 22%，从而验证了我们设计的优越性。

从数据到常识推理：使用大型语言模型实现可解释的人工智能

分类： 人工智能, 计算和语言, 人机交互

作者： Stefanie Krause, Frieder Stolzenburg

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03778v1

摘要： 常识推理对于计算机来说是一项艰巨的任务，但对于人工智能（AI）来说却是一项关键技能。它可以通过使人工智能模型能够为其决策提供直观且类似人类的解释来增强人工智能模型的可解释性。这在许多领域都是必要的，尤其是问答（QA），这是自然语言处理（NLP）最重要的任务之一。随着时间的推移，出现了多种解决常识推理问题的方法，例如使用形式逻辑或语言分析的基于知识的方法。在本文中，我们研究了大型语言模型（LLM）在不同 QA 任务上的有效性，重点关注它们的推理和可解释性能力。我们研究了三个大语言模型：GPT-3.5、Gemma 和 Llama 3。我们通过问卷的方式进一步评估大语言模型的结果。我们展示了大语言模型用常识推理的能力，因为模型在不同数据集上的表现优于人类。虽然 GPT-3.5 在各种 QA 基准上的准确率范围为 56% 到 93%，但 Llama 3 在所有 11 个数据集上的平均准确率达到 90%。因此，Llama 3 在所有数据集上都优于人类，在 10 个数据集上平均准确率高出 21%。此外，我们可以评价，从可解释人工智能（XAI）的意义上来说，GPT-3.5为其决策提供了很好的解释。我们的调查问卷显示，66% 的参与者将 GPT-3.5 的解释评为“好”或“优秀”。总而言之，这些发现丰富了我们对当前大语言模型的理解，并为未来的推理和可解释性研究铺平了道路。

像人工智能一样看待：大语言模型如何应用（和误用）维基百科中立规范

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互

作者： Joshua Ashkinaze, Ruijia Guan, Laura Kurek, Eytan Adar, Ceren Budak, Eric Gilbert

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.04183v1

摘要： 大型语言模型 (LLM) 在广泛的语料库上进行训练，然后在具有专门规范的社区中使用。为大语言模型提供社区规则足以让模型遵循这些规范吗？我们根据维基百科的中立观点 (NPOV) 政策评估大语言模型检测（任务 1）和纠正（任务 2）有偏见的维基百科编辑的能力。大语言模型在偏差检测方面遇到了困难，在平衡数据集上仅达到 64% 的准确率。模型表现出对比鲜明的偏见（一些预测不足，另一些预测过高），表明关于中立性的不同先验。大语言模型在生成时表现更好，删除了维基百科编辑删除的 79% 的单词。然而，大语言模型在维基百科编辑者的简单中和之外进行了额外的更改，导致高召回率但低精度的编辑。有趣的是，众包工作者认为人工智能重写比维基百科编辑器重写更中立（70%）和流畅（61%）。定性分析发现，大语言模型有时比维基百科编辑更全面地应用 NPOV，但经常进行无关的非 NPOV 相关更改（例如语法）。大语言模型可能会以与公众产生共鸣但与社区专家不同的方式应用规则。虽然大语言模型对生成可能有效，但它可能会减少编辑机构并增加审核工作量（例如，验证添加内容）。即使规则很容易阐明，让大语言模型像社区成员一样应用它们可能仍然很困难。

自动驾驶中真实和虚拟现实场景中人车交互的行为差距评估

分类： 人机交互, 人工智能

作者： Sergio. Martín Serrano, Rubén Izquierdo, Iván García Daza, Miguel Ángel Sotelo, D. Fernández Llorca

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.04070v1

摘要： 在自动驾驶研究领域，沉浸式虚拟现实（VR）技术的广泛使用使得各种研究能够在安全和受控的条件下进行。然而，只有当参与者在模拟环境中的行为反映了他们在实际环境中的行为时，这种方法才有效且一致。在本文中，我们提出了第一种创新方法来评估我们所说的行为差距，这一概念捕捉了参与者在参与 VR 实验时与同等现实世界情况相比的行为差异。为此，我们开发了现有人行横道的数字孪生，并进行了现场实验 (N=18)，以研究真实和模拟驾驶条件下的行人与自动驾驶车辆的交互。在实验中，行人尝试在不同驾驶方式和外部人机界面 (eHMI) 的情况下过马路。通过结合基于调查的方法和行为分析方法，我们开发了一种定量方法来实证评估行为差距，作为验证从模拟 VR 环境中交互的真实受试者获得的数据的机制。结果表明，参与者在 VR 中更加谨慎和好奇，影响他们的速度和决策，并且 VR 界面显着影响他们的行为。

新闻网站的可靠性标准

分类： 人机交互

作者： Hendrik Heuer, Elena Leah Glassman

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03865v1

摘要： 错误信息对民主和人民健康构成威胁。新闻网站的可靠性标准可以帮助人们识别错误信息。但尽管它们很重要，但还没有经过经验证实的标准清单来区分可靠和不可靠的新闻网站。我们确定可靠性标准，描述它们在实践中的应用方式，并将它们与之前的工作进行比较。根据我们的分析，我们区分了可操纵和不易操纵的标准，并将政治多元化的外行人作为最终用户，将记者作为专家用户进行比较。我们讨论了 11 个广泛认可的标准，包括以下 6 个难以操纵的标准：内容、政治立场、作者、专业标准、使用的来源以及网站的声誉。最后，我们描述了技术如何能够支持人们在实践中应用这些标准来评估网站的可靠性。

设计以价值为中心的同意界面：在数据共享决策中支持患者价值观的混合方法

分类： 人机交互

作者： David Leimstädtner, Peter Sörries, Claudia-Müller Birn

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03808v1

摘要： 在数字健康领域，道德数据收集实践对于确保推动医疗进步的高质量数据集的可用性至关重要。数据捐赠允许患者分享他们的临床数据以供二次研究使用，为此类数据集提供了一个有前途的资源。然而，目前调解数据共享决策的同意界面通过利用数据主体的认知偏差来提高数据共享率，从而有利于数据收集者的价值观。这引发了对所收集数据的使用以及所得数据集的质量的道德担忧。为了在数字健康领域建立以患者为中心的数据收集实践，我们研究了同意界面的设计，以支持最终用户做出价值一致的健康数据共享决策。我们的研究重点是德国大学医院心身科的健康数据捐赠的情境，展示了以人为本的设计如何能够从弱势群体的角度来支持技术。我们采用了探索性顺序混合方法，包括五个阶段：参与式研讨会探讨患者价值观，为拟议的以价值为中心的同意界面的设计提供信息。在线实验展示了我们的界面元素的效果，增加了数据共享决策中的价值一致性。然后，通过与主题专家的共同创建研讨会以及与患者的用户评估，我们提出的同意界面设计适应了研究背景。我们的工作通过探索患者对医疗数据共享的价值观，引入新的同意界面来支持价值一致的决策，并提供对医疗数据共享的情境评估，为 CSCW 最近关于新数据实践在社会技术背景下的伦理影响的讨论做出了贡献。建议与患者的界面。

评估开发人员对代码可读性看法的共识

分类： 软件工程, 人机交互

作者： Agnia Sergeyuk, Olga Lvova, Sergey Titov, Anastasiia Serova, Farid Bagirov, Timofey Bryksin

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03790v1

摘要： 大型语言模型 (LLM) 的迅速崛起改变了软件开发，Copilot、JetBrains AI Assistant 等工具提高了开发人员的工作效率。然而，开发人员现在花在审查代码上的时间比编写代码的时间多，这凸显了代码可读性对于代码理解的重要性。我们之前的研究发现，现有的代码可读性模型在代表开发人员的想法方面并不准确，并且开发人员之间的共识较低，这凸显了该领域需要进一步研究的必要性。在此基础上，我们调查了 10 位具有类似编码经验的 Java 开发人员，以评估他们在代码可读性评估和相关方面的共识。我们发现开发人员在代码可读性评估方面达成了重要共识，并确定了与代码可读性密切相关的特定代码方面。总的来说，我们的研究揭示了大语言模型背景下的代码可读性，深入了解这些模型如何与开发人员对代码可读性的看法保持一致，从而增强人工智能时代的软件开发。

通过参与者-设计师旅程映射来引导道德和权力动态

分类： 人机交互, H.m: MISCELLANEOUS, H.m

作者： Leonor Tejo, Paula Alexandra Silva

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03735v1

摘要： 随着信息和通信技术 (ICT) 驱动的数字化转型和创新继续标志着社会的发展，道德不仅在技术系统的结果和影响方面，而且在整个发展过程中开展的活动中，都成为人们关注的中心问题。这些系统的。动力动力学已被认为是设计和开发过程中经常出现的道德挑战。当设计师、参与者和项目利益相关者参与这一过程时，潜在的冲突、权力失衡和道德挑战就会出现。这需要提高对这些不平衡的认识，并要求团队积极采取行动。为了解决这个问题，我们提出了参与者-设计师旅程地图（PDJM），这是一种帮助设计师进行道德设计过程并意识到权力不平衡的工具。三位设计专业人士根据一组源自文献的标准，对照其他九种替代工具，对 PDJM 的提案进行了评估。 PDJM 被认为是最有潜力促进结构化方法来解决道德困境的工具，特别是那些与权力动态相关的困境。

设备上训练支持人类活动识别的迁移学习

分类： 人机交互

作者： Pixi Kang, Julian Moosmann, Sizhen Bian, Michele Magno

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03644v1

摘要： 人类活动识别（HAR）是感知人类行为和提供辅助服务的一个有吸引力的主题。除了经典的惯性单元和基于视觉的HAR方法之外，HAR中还出现了超声波和体区域电场等新的传感技术，以增强用户体验并适应新的应用场景。由于这些传感器通常与用于 HAR 的 AI 配合使用，因此与更广泛的 IMU 或基于视觉的 HAR 解决方案相比，它们经常遇到由于训练数据有限而带来的挑战。此外，用户引起的概念漂移 (UICD) 在此类 HAR 场景中很常见。 UICD的特点是新用户的样本分布与训练参与者的样本分布存在偏差，导致识别性能下降。本文提出了一种专为能源和资源受限的物联网边缘设备量身定制的设备上迁移学习（ODTL）方案。针对两个具有代表性的MCU级边缘计算平台：STM32F756ZG和GAP9，开发了优化的设备端训练引擎。基于此，我们评估了 ODTL 在三种 HAR 场景中的优势：基于身体电容的健身活动识别、基于 QVAR 和超声波的手势识别。我们的活动识别准确率分别提高了 3.73%、17.38% 和 3.70%。除此之外，我们还观察到，在 ODTL 部署期间，基于 RISC-V 的 GAP9 的延迟和功耗比 STM32F7 MCU 低 20 倍和 280 倍，展示了采用最新低功耗并行计算设备执行边缘任务的优势。

评估 NLP 中人类人工智能决策的解释效用

分类： 计算和语言, 人工智能, 人机交互

作者： Fateme Hashemi Chaleshtori, Atreya Ghosal, Alexander Gill, Purbid Bambroo, Ana Marasović

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03545v1

摘要： 可解释性是一个虚假的承诺吗？这场争论的起因是没有足够的证据表明解释可以帮助人们解决所介绍的情况。需要更多以人为本、以应用为基础的解释评估来解决这个问题。然而，由于 NLP 领域的此类研究没有既定的指导方针，习惯于标准化代理评估的研究人员必须在研究中为人类人工智能团队找到适当的测量、任务、数据集和合理的模型。为了帮助解决这个问题，我们首先检查现有指标的拟合情况。然后，我们建立数据集的要求，以适合基于应用程序的评估。在 50 多个可用于 NLP 可解释性研究的数据集中，我们发现 4 个数据集符合我们的标准。通过微调 Flan-T5-3B，我们证明了重新评估现有技术以组建和研究人类人工智能团队的重要性。最后，我们提出了针对一项已确定的合适任务的人类人工智能决策的示例研究——验证给定合同的法律主张的正确性。

针对大语言模型法官的以人为本的设计建议

分类： 人机交互

作者： Qian Pan, Zahra Ashktorab, Michael Desmond, Martin Santillan Cooper, James Johnson, Rahul Nair, Elizabeth Daly, Werner Geyer

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03479v1

摘要： 传统的基于参考的指标（例如 BLEU 和 ROUGE）对于评估产生高度创意或优质文本的大型语言模型 (LLM) 的输出，或者在参考输出不可用的情况下效果较差。虽然人工评估仍然是一种选择，但其成本高昂且难以扩展。最近使用大语言模型作为评估者（大语言模型作为法官）的工作很有希望，但信任和可靠性仍然是一个重要问题。整合人类输入对于确保用于评估的标准符合人类的意图以及评估的稳健和一致至关重要。本文介绍了一项名为 EvaluLLM 的设计探索的用户研究，该研究使用户能够利用大语言模型作为可定制的法官，促进人类参与以谨慎平衡信任和节省成本的潜力。通过与八位领域专家的访谈，我们确定需要帮助制定有效的评估标准，使大语言模型作为法官与从业者的偏好和期望保持一致。我们提供调查结果和设计建议，以优化人工辅助大语言模型法官系统。

谁的知识受到重视？：CSCW 应用中的认知不公正

分类： 人机交互

作者： Leah Hope Ajmani, Jasmine C Foriest, Jordan Taylor, Kyle Pittman, Sarah Gilbert, Michael Ann Devito

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03477v1

摘要： 社会计算学者早就知道人们不会以直接的方式与知识互动，尤其是在数字环境中。虽然围绕知识的政策对于打击错误信息至关重要，但它们也具有价值；在选择如何呈现信息时，我们破坏了非传统——通常是非西方——的认知方式。认知不公正是指将某些人和方法系统性地排除在知识经典之外。认知不公正会削弱一个人的证词和词汇，直到他们被剥夺应有的知情和理解权利。在本文中，我们阐明了社会技术应用中的认知不公正如何导致物质损害。受到 14 位 CSCW 从业者的混合协作自我民族志的启发，我们提出了社会技术应用中认知不公正的三个案例：在线跨性别医疗保健、r/双性恋的身份意义建构以及 r/AskHistorians 上的土著认知方式。我们进一步探索我们的自民族志材料中的标志性张力，并将它们与以前的 CSCW 研究领域和个人非技术经验联系起来。我们认为，认知不公正可以通过呈现认知社区和权力的维度，作为 CSCW 研究的统一和交叉镜头。最后，我们呼吁 CSCW 社区采取三项变革，以实现其自身的研究正义目标。我们呼吁 CSCW 研究人员以个人经验为中心，支持社区，并纠正认知权力问题，作为实现认知正义的手段。总之，我们针对 CSCW 研究地点（包括 CSCW 本身）传播的各种形式的认知不公正现象进行了叙述、综合并提出了解决方案。

隐私保障在出于利他目标自愿捐赠私人数据中的作用

分类： 密码学和安全, 人机交互

作者： Ruizhe Wang, Roberta De Viti, Aarushi Dubey, Elissa M. Redmiles

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03451v1

摘要： 出于利他目的（例如推进研究）自愿捐赠私人信息的情况很常见。然而，对数据滥用和泄露的担忧可能会阻止个人捐赠其信息。虽然之前的研究表明隐私增强技术 (PET) 可以缓解这些担忧，但这些技术对捐赠数据意愿的影响程度仍不清楚。本研究进行了一项小插曲调查 (N=485)，以考察人们在数据过期、匿名、使用限制和访问控制这四种隐私保证下捐赠医疗数据以开发新疗法的意愿。该研究探索了验证这些保证的两种机制：自我审计和专家审计，并评估了对两类数据接收实体（营利性和非营利性机构）的影响。我们的研究结果表明，收集数据的实体类型强烈影响受访者的隐私期望，这在一定程度上影响了他们捐赠数据的意愿。受访者对非营利实体提供的隐私抱有很高的期望，明确说明所提供的隐私保护几乎没有对这些期望进行调整。相比之下，有关隐私的声明使受访者对营利性实体提供的隐私的期望几乎与非营利性实体的期望一致。我们强调这些各自结果的风险以及未来研究的必要性，以更好地协调技术社区和最终用户对审计 PET 有效性的看法，并在面对最终用户的担忧时有效设定对 PET 有效性的期望关于数据泄露。

关注游戏：破译隐含的人类信号以推断人类的熟练程度、信任和意图

分类： 人机交互

作者： Nikhil Hulle, Stéphane Aroca-Ouellette, Anthony J. Ries, Jake Brawer, Katharina von der Wense, Alessandro Roncone

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03298v1

摘要： 人类和人工智能之间的有效协作取决于透明的沟通和心理模型的协调。然而，明确的口头沟通并不总是可行的。在这种情况下，人与人之间的团队通常依靠隐含的非语言线索来收集有关队友的重要信息，例如意图和专业知识，从而增强团队的一致性和适应性。在这些隐含的线索中，最显着和最基本的两个是人类在环境中的行为和他们的视觉注意力。在本文中，我们提出了一种新颖的方法，将眼睛注视数据和行为数据结合起来，并评估它们各自对人类熟练程度、信任和意图的预测能力。我们首先在快节奏的协作“Overcooked”环境中收集配对眼睛注视和游戏数据的数据集。然后，我们在此数据集上训练模型，以比较注视数据、游戏玩法数据及其组合之间的预测能力有何不同。我们还将我们的方法与之前聚合眼睛注视数据的工作进行比较，并证明这些聚合方法如何显着降低眼睛注视的预测能力。我们的结果表明，虽然眼睛注视数据和游戏玩法数据在不同情况下表现出色，但集成这两种类型的模型始终优于所有基线。这项工作为开发直观且反应灵敏的智能体铺平了道路，这些智能体可以有效地适应新的队友。

VCHAR：具有生成表示的方差驱动的复杂人类活动识别框架

分类： 人工智能, 计算机视觉和模式识别, 人机交互, 信号处理

作者： Yuan Sun, Navid Salami Pargoo, Taqiya Ehsan, Zhao Zhang Jorge Ortiz

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03291v1

摘要： 复杂的人类活动识别（CHAR）仍然是普适计算中的一个关键挑战，特别是在智能环境中。现有的研究通常需要对原子活动和复杂活动进行细致的标记，这是一项劳动密集型任务，并且由于可用数据集的稀缺和不准确而容易出错。大多数先前的研究都集中在精确标记原子活动的数据集，或者至少集中在现实世界环境中通常不切实际的序列方法的数据集上。作为回应，我们引入了 VCHAR（方差驱动的复杂人类活动识别），这是一种新颖的框架，将原子活动的输出视为指定间隔内的分布。 VCHAR 利用生成方法，通过基于视频的解释阐明了复杂活动分类背后的推理，无需具备机器学习专业知识的用户也可以访问。我们对三个公开可用数据集的评估表明，VCHAR 提高了复杂活动识别的准确性，而无需对原子活动进行精确的时间或顺序标记。此外，用户研究证实，与现有方法相比，VCHAR 的解释更容易理解，有助于非专家更广泛地理解复杂的活动识别。

EDPNet：用于运动想象脑电图解码的高效双原型网络

分类： 人机交互, 信号处理

作者： Can Han, Chen Liu, Crystal Cai, Jun Wang, Dahong Qian

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03177v1

摘要： 运动想象脑电图（MI-EEG）解码在运动想象脑机接口（MI-BCIs）的开发中发挥着至关重要的作用。然而，由于脑电图信号相对于小样本量固有的复杂性，从 MI 中解码意图仍然具有挑战性。在本文中，我们提出了一种高效双原型网络（EDPNet）来实现准确、快速的 MI 解码。 EDPNet采用轻量级自适应空间频谱融合模块，促进多个脑电图电极之间更有效的信息融合。随后，无参数的多尺度方差池模块提取更全面的时间特征。此外，我们引入双原型学习来优化特征空间分布和训练过程，从而提高模型在小样本 MI 数据集上的泛化能力。我们的实验结果表明，EDPNet 的性能优于最先进的模型，具有卓越的分类精度和 kappa 值（数据集 BCI 竞赛 IV 2a 为 84.11% 和 0.7881，数据集 BCI 竞赛 IV 2b 为 86.65% 和 0.7330）。此外，我们使用训练数据较少的 BCI 竞赛 III IVa 数据集来进一步验证所提出的 EDPNet 的泛化能力。我们还实现了 82.03% 分类准确率的卓越性能。受益于轻量级参数和卓越的解码精度，我们的 EDPNet 在 MI-BCI 应用中显示出巨大的潜力。该代码可在 https://github.com/hancan16/EDPNet 上公开获取。

GMM-ResNext：结合生成模型和判别模型进行说话人验证

分类： 声音, 人工智能, 人机交互, 音频和语音处理

作者： Hui Yan, Zhenchun Lei, Changhong Liu, Yong Zhou

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03135v1

摘要： 随着深度学习的发展，许多不同的网络架构在说话人验证中被探索出来。然而，大多数网络架构依赖于单一的深度学习架构，而在 ASV 任务中结合不同架构的混合网络却很少被研究。在本文中，我们提出了用于说话人验证的 GMM-ResNext 模型。传统的GMM没有考虑每个帧特征在所有高斯分量上的分数分布，并且忽略了相邻语音帧之间的关系。因此，我们根据原始声学特征提取对数高斯概率特征，并使用基于 ResNext 的网络作为主干来提取说话人嵌入。 GMM-ResNext 结合了生成模型和判别模型，以提高深度学习模型的泛化能力，并允许人们更轻松地指定模型参数的有意义的先验。还提出了基于两个性别相关 GMM 的双路径 GMM-ResNext 模型。实验结果表明，与 ResNet34 和 ECAPA-TDNN 在 VoxCeleb1-O 测试集上相比，所提出的 GMM-ResNext 在 EER 上实现了 48.1% 和 11.3% 的相对改进。

基于UE5的数字孪生平台设计

分类： 人机交互, 图形, 多媒体

作者： Shaoqiu Lyu, Muzhi Wang, Sunrui Zhang, Shengzhi Wang

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03107v1

摘要： 针对目前主流3D场景引擎学习和构建成本过高的问题，本文提出一种基于虚幻引擎5（UE5）的数字孪生平台设计方案。旨在提供通用的平台搭建设计流程，有效降低大规模场景搭建的学习成本。以某单位实际项目为例，阐述了平台搭建的整体周期工作，分析了基于UE5的数字孪生和数据可视化技术及应用。通过将项目实施总结为流程方法，提高流程路径的规范性和可操作性。

ScreenTK：使用连续的移动屏幕文本和设备上的 LLM 无缝检测消磨时间的时刻

分类： 人机交互

作者： Le Fang, Shiquan Zhang, Hong Jia, Jorge Goncalves, Vassilis Kostakos

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03063v2

摘要： 智能手机已成为人们数字生活的重要组成部分，提供源源不断的信息和连接。然而，这种持续的流动可能会导致用户只是在消磨时间，而不是进行有意义的参与。这强调了开发方法来识别这些“消磨时间”时刻的重要性，从而能够以最大限度地减少干扰并增强用户参与度的方式传递重要通知。最近的工作利用每 5 秒截取的屏幕截图来检测智能手机上的消磨时间的活动。然而，这种方法经常无法捕获间隔期间的电话使用情况。我们证明，高达 50% 的消磨时间的实例无法通过屏幕截图被发现，从而导致在理解用户行为方面存在巨大差距。为了解决这一限制，我们提出了一种名为 ScreenTK 的方法，该方法通过利用连续屏幕文本监控和设备上的大语言模型 (LLM) 来检测消磨时间的时刻。屏幕文本包含比屏幕截图更全面的信息，并允许大语言模型总结详细的手机使用情况。为了验证我们的框架，我们对 6 名参与者进行了实验，捕获了 1,034 条不同消磨时间时刻的记录。初步结果表明，在我们的案例研究中，我们的框架比最先进的解决方案性能高出 38%。

JailbreakHunter：越狱的可视化分析方法促进从大规模人类-LLM 对话数据集中发现

分类： 人机交互, 计算和语言, 机器学习

作者： Zhihua Jin, Shiyi Liu, Haotian Li, Xun Zhao, Huamin Qu

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03045v1

摘要： 大型语言模型 (LLM) 受到了广泛关注，但也因滥用风险而引起担忧。越狱提示是针对大语言模型的一种流行的对抗性攻击，它已经出现并不断发展，以破坏大语言模型的安全协议。为了解决这个问题，大语言模型会根据报告的越狱提示定期更新安全补丁。然而，恶意用户经常将成功的越狱提示保密以利用 LLM。为了发现这些私人越狱提示，需要对大规模会话数据集进行广泛分析，以识别仍然能够绕过系统防御的提示。由于对话数据量巨大、越狱提示的特征多样、且存在于复杂的多轮对话中，这项任务极具挑战性。为了应对这些挑战，我们引入了 JailbreakHunter，这是一种可视化分析方法，用于识别大规模人类大语言模型对话数据集中的越狱提示。我们设计了一个具有三个分析级别的工作流程：群组级别、对话级别和回合级别。群组级别的分析使用户能够掌握对话的分布情况，并使用多种标准识别可疑对话，例如与先前研究中报告的越狱提示的相似性以及攻击成功率。对话级别分析有助于了解对话的进度，并有助于发现对话上下文中的越狱提示。回合级分析允许用户探索单回合提示和报告的越狱提示之间的语义相似性和标记重叠，有助于识别新的越狱策略。通过多个案例研究和专家访谈验证了系统的有效性和可用性。

Project Beyond：虚拟现实中的逃生室游戏，用于教授建筑能源模拟

分类： 人机交互

作者： Georg Arbesser-Rastburg, Saeed Safikhani, Matej Gustin, Christina Hopfe, Gerald Schweiger, Johanna Pirker

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02981v2

摘要： 近年来，虚拟现实（VR）除了纯粹的娱乐之外，还涉足其他领域。可以从 VR 沉浸式体验中受益的主题之一是教育。此外，在教育中使用基于游戏的方法可以提高用户的积极性和参与度。因此，在本文中，我们设计并开发了一款 VR 沉浸式逃生室游戏，用于教授建筑能源模拟主题。在游戏中，玩家必须解决谜题，例如使用不同材料组装墙壁。我们使用结合了教育内容、谜题和不同类型提示的玩家指导系统来教育玩家有关影响能源效率、结构阻力和成本的参数。为了改善用户入门，我们实施了教程级别来教授玩家一般交互和移动。为了评估用户体验，我们通过游戏和 VR 专家 (n=11) 的专家研究来评估教程和游戏。参与者被要求玩教程关卡和密室逃脱关卡，并完成两组后问卷调查，一组在教程关卡后，另一组在谜题关卡后。教程级别之后的问卷包括 NASA-TLX 和 SUS 问卷，而密室逃脱级别之后我们要求用户完成 NASA-TLX、UESSF 和 PXI 问卷。结果表明，入门级别成功地提供了良好的可用性，同时保持了较低的任务负载。另一方面，密室逃脱关卡可以通过游戏玩法激发玩家的好奇心，提供引人入胜、视觉上吸引人且可用的学习环境。这个环境可以在未来的发展阶段扩展到不同领域的不同教育内容。

“就像一只会回嘴的橡皮鸭”：通过参与式提示研究了解生成式人工智能辅助数据分析工作流程

分类： 人机交互

作者： Ian Drosos, Advait Sarkar, Xiaotong Xu, Carina Negreanu, Sean Rintel, Lev Tankelevitch

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02903v1

摘要： 生成式人工智能工具可以帮助用户完成许多任务。其中一项任务是数据分析，由于其专业知识要求，这对于非专家最终用户来说是非常具有挑战性的，而人工智能在其中具有很大的潜力，例如查找相关数据源、提出分析策略和编写分析代码。为了了解生成式 AI 如何帮助或削弱数据分析工作流程，我们使用 Bing Chat 通过参与式提示进行了一项研究 (n=15)。参与式提示是一种最近开发的方法，用户和研究人员通过与生成人工智能的共同参与来共同反思任务。在本文中，我们展示了参与式提示方法的价值。我们发现，生成式人工智能以特定方式有利于数据分析的信息搜集和意义构建循环，但也引入了其自身的障碍和挑战，这些障碍和挑战源于查询制定、指定上下文和验证结果的困难。

预测和理解虚拟现实中开放式小组活动中的轮流行为

分类： 人机交互, 计算机与社会

作者： Portia Wang, Eugy Han, Anna C. M. Queiroz, Cyan DeVeaux, Jeremy N. Bailenson

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02896v1

摘要： 在网络虚拟现实（VR）中，用户行为、个体差异和群体动态可以作为未来语音行为的重要信号，例如下一个发言者是谁以及轮流行为的时间安排。预测和理解这些行为的能力为提供自适应和个性化帮助提供了机会，例如帮助具有不同感官能力的用户浏览复杂的社交场景，并用自然行为实例化虚拟主持人。在这项工作中，我们使用基于社会动力学文献提取的特征来预测轮流行为。我们讨论了大规模 VR 课堂数据集的结果，该数据集包含 4 周内收集的 77 个会话和 1660 分钟的小组社交互动。在我们的评估中，梯度增强分类器取得了最佳性能，在涉及“什么”、“谁”和“何时”轮流行为的三个任务中，AUC（ROC 曲线下面积）的准确度为 0.71--0.78。在解释这些模型时，我们发现群体规模、听众个性、与演讲相关的行为（例如，自听众上次演讲事件以来经过的时间）、群体注视（例如，群体注视演讲者的程度）以及听众和前一个演讲者的头部俯仰、头部 y 轴位置和左手 y 轴位置对预测的影响更为显着。结果表明，这些特征在新颖的社交 VR 设置中仍然是可靠的指标，因为随着时间的推移以及训练数据集中未使用的组和活动，预测性能会保持稳健。我们讨论这项工作的理论和实践意义。

CogErgLLM：使用认知人体工程学探索大型语言模型系统设计视角

分类： 人机交互, 计算和语言, 计算机与社会, 社交和信息网络

作者： Azmine Toushik Wasi

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02885v1

摘要： 将认知人体工程学与大语言模型相结合对于提高人机交互的安全性、可靠性和用户满意度至关重要。当前的大语言模型设计通常缺乏这种集成，导致系统可能无法完全符合人类的认知能力和局限性。对认知科学方法的重视不够会加剧大语言模型输出的偏差，而以用户为中心的设计原则的不一致应用会导致用户体验不佳。为了应对这些挑战，我们的立场文件探讨了认知人体工程学原理与大语言模型设计的关键整合，旨在为道德大语言模型的发展提供全面的框架和实用指南。通过我们的贡献，我们寻求促进将认知人体工程学整合到大语言模型系统中的理解和实践，促进更安全、更可靠、更符合道德的人机交互。

了解种姓的弹性：X 社区概况的批判性话语分析

分类： 人机交互

作者： Nayana Kirasur, Shagun Jhaver

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02810v1

摘要： 尽管进行了数十年的反种姓努力，但印度将低种姓群体边缘化的社会文化实践仍然具有弹性，甚至随着社交媒体的使用而激增。本文探讨了从事基于种姓歧视的群体如何利用社交媒体网站 X（以前称为 Twitter）的平台功能来传播和强化种姓意识形态。我们的分析建立在之前的人机交互对在线危害和安全的概念化基础上，以告知如何解决基于种姓的其他问题。我们为关键的人机交互研究提供理论和方法建议，重点是研究其他社会类别的权力机制。

基于游戏的发现：利用初级游戏中的迷你游戏进行科学数据收集和解决问题

分类： 人机交互, 多媒体

作者： Abhishek Phadke, Mamta Yadav, Stanislav Ustymenko

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02798v1

摘要： 在由 Rocksteady Studios 制作并于 2015 年发布的流行视频游戏《蝙蝠侠：阿卡姆骑士》中，游戏的主要主角是蝙蝠侠，一名打扮成蝙蝠的义务警员，在虚构的哥谭市的阴影下打击犯罪。游戏中，现实世界的玩家扮演蝙蝠侠，完成一项特殊的支线任务，他们必须重建人类干净的 DNA 序列，并将其与变异 DNA 分离，以制造解药来治愈反派。尽管这无疑是游戏中一个令人着迷的部分，而在之前的蝙蝠侠游戏中却没有，但它展示了一种有趣的概念，即使用初级游戏中嵌入的迷你游戏来实现特定的现实世界研究目标。尽管本案中使用的 DNA 数据不是真实的，但视频游戏中存在多个此类实例，其中迷你游戏除了娱乐之外还有其他潜在动机。基于采用类似方法的流行案例研究，本研究将出于研究目的在初级游戏中设计迷你游戏的方法描述为描述性框架，强调了该过程的优点和局限性。结论是，这些小游戏不仅有助于更深入地理解复杂的科学概念，而且还可以利用众包的人类直觉和模式识别能力来加速数据处理和分析。本文主张战略性地将小型化、游戏化元素融入到主要用于娱乐目的的现有视频游戏中。

警告这包含错误信息：认知因素、信仰和个性对错误信息警告标签态度的影响

分类： 人机交互, 社交和信息网络

作者： Robert Kaufman, Aaron Broukhim, Michael Haupt

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02710v1

摘要： 社交媒体平台通过为大量用户群提供快速分享内容的方式，增强了在线错误信息的传播。阻止错误信息大规模快速传播的一种方法是使用警告标签，将内容标记为潜在的虚假或误导性内容。然而，过去的警告标签缓解研究对不同受众产生的结果好坏参半。我们假设，根据不同用户的个人特征个性化警告标签可能会提高缓解效果。为了实现个性化的目标，我们需要了解人们有何不同，以及这些差异如何预测一个人对标签和标记内容的态度和自我描述行为。在本研究中，我们利用 Amazon Mechanical Turk (n = 132) 和本科生 (n = 112) 来提供这一基本理解。具体来说，我们发现对警告标签和自我描述行为的态度受到性格开放性和宜人性、认知封闭需求（NFCC）、认知反思测试（CRT）分数和对医学科学家的信任等因素的积极影响。相反，对宗教领袖的信任、责任心和政治保守主义与这些态度和行为呈负相关。我们将我们的结果综合到设计见解和未来的研究议程中，以更有效和个性化的错误信息警告标签和更广泛的错误信息缓解策略。

PainBit 的设计和开发：一种支持慢性疼痛患者记录疼痛的便携式设备

分类： 人机交互

作者： Arsh Saleem, Beck Langstone, Alicia Ouskine, Fateme Rajabiyazdi

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02697v1

摘要： 最近，我们发现慢性病患者对跟踪其健康相关数据越来越感兴趣。有许多可穿戴设备可用于跟踪不同的健康数据。然而，追踪疼痛主要是通过使用笔和纸或移动应用程序来完成。我们与医疗保健专业人士合作设计了一款便携式疼痛追踪器 PainBit。为了了解患者对我们的追踪器的看法，我们对患有慢性疼痛的患者进行了两个案例研究。我们要求患者使用 PainBit 两周，然后对他们进行半结构化访谈。患者发现 PainBit 对于跟踪他们的疼痛很有用，并且他们更喜欢使用物理设备 PainBit 来跟踪他们的疼痛，而不是使用手机。患者建议在下一次迭代中减小 PainBit 的尺寸和重量。我们报告通过设计过程和评估研究吸取的经验教训。

通过交互式任务分解改进人工智能辅助数据分析的指导和验证

分类： 人机交互, 人工智能

作者： Majeed Kazemitabaar, Jack Williams, Ian Drosos, Tovi Grossman, Austin Henley, Carina Negreanu, Advait Sarkar

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02651v1

摘要： ChatGPT Data Analysis 等 LLM 支持的工具有潜力帮助用户解决数据分析编程的挑战性任务，这需要数据处理、编程和统计方面的专业知识。然而，我们的形成性研究（n=15）发现了验证人工智能生成的结果和引导人工智能（即引导人工智能系统产生所需输出）方面的严峻挑战。我们开发了两种截然不同的方法来应对这些挑战。第一个（逐步）将问题分解为具有可编辑假设和代码对的逐步子目标，直到任务完成，而第二个（分阶段）将整个问题分解为三个可编辑的逻辑阶段：结构化输入/输出假设、执行计划和代码。一项受控的受试者内实验（n=18）将这些系统与对话基线进行了比较。用户报告称，与基线相比，逐步和阶段系统的控制能力明显增强，并且发现干预、纠正和验证更容易。结果提出了人工智能辅助数据分析工具的设计指南和权衡。

STL：仍然棘手的逻辑（用于系统验证，即使在展示您的作品时）

分类： 人机交互, 形式语言和自动机理论

作者： Isabelle Hurley, Rohan Paleja, Ashley Suh, Jaime D. Peña, Ho Chit Siu

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02632v1

摘要： 随着学习控制策略在自主系统中变得越来越普遍，越来越需要确保它们是可解释的并且可以由人类利益相关者检查。正式规范已被提议作为为自主系统生成人类可解释的策略的方法，这些策略仍然可以从示例中学习。之前的工作表明，尽管声称具有可解释性，但人类无法使用以各种方式呈现的正式规范来验证即使是简单的机器人行为。这项工作使用主动学习（一种标准的教学方法）来尝试提高人类在信号时序逻辑（STL）中验证策略的能力。结果显示，总体验证准确率不高，为$65%\pm 15%$（均值$\pm$标准差），并且无主动学习、主动学习、有反馈的主动学习这三个条件并不高。彼此显着不同。我们的结果表明，人类可解释性的正式规范的实用性仍然不受支持，但指出了其他可能改进系统验证的开发途径。

AcuVR：利用虚拟现实增强针灸培训工作流程

分类： 人机交互, J.3; J.4; H.5

作者： Menghe Zhang, Chen Chen, Matin Yarmand, Anish Rajeshkumar, Nadir Weibel

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02614v1

摘要： 针灸是一种广泛采用的医疗实践，涉及将细针插入身体的特定穴位以减轻疼痛并治疗各种健康状况。当前的学习实践严重依赖 2D 图集和同伴练习，这明显不太直观并且会带来风险，特别是在眼睛等敏感区域。为了应对这些挑战，我们推出了 AcuVR，这是一种基于虚拟现实 (VR) 的系统，旨在增加一层交互性和真实感。这项创新旨在降低与练习针灸技术相关的风险，同时提供更有效的学习策略。此外，AcuVR 结合了医学成像和标准化解剖模型，能够模拟定制的针灸场景。这一功能代表了超越地图集和教科书等传统资源限制的重大进步，促进了更加身临其境和个性化的学习体验。对八名针灸学生和从业者进行的评估研究显示，参与者满意度很高，并指出 AcuVR 作为针灸培训的宝贵补充的有效性和潜力。

共同设计非结构化文本数据可视化系统

分类： 人机交互

作者： Beck Langstone, Fateme Rajabiyazdi

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02611v1

摘要： 我们展示了我们正在进行的共同设计用于呈现非结构化文本的可视化工具的工作。我们与各种专业人士组成了一个焦点小组，他们定期分析大型非结构化文本语料库。我们的初步见解表明，对从非结构化文本中提取的实体和参与者之间的动态进行可视化探索的需求尚未得到满足。此外，大型语料库包含对同一系列事件的多种观点。有必要理清这些观点并直观地显示数据中存在的多种叙述。在未来的工作中，我们将共同设计低保真原型，为可视化非结构化文本的可能解决方案创建广泛的考虑空间。

基于人工智能的系统，利用支持物联网的环境传感器和大语言模型进行复杂的活动跟踪

分类： 人机交互

作者： Yuan Sun, Jorge Ortiz

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02606v1

摘要： 复杂的活动识别在养老援助中发挥着重要作用。然而，边缘设备的推理能力受到经典机器学习模型能力的限制。在本文中，我们提出了一种非侵入式环境传感系统，可以检测多种活动并应用大型语言模型（LLM）来推理活动序列。这种方法有效地将边缘设备和大语言模型结合起来，帮助老年人进行日常活动，例如提醒他们吃药或处理跌倒等紧急情况。基于大语言模型的边缘设备还可以作为与老年人互动的界面，特别是有记忆力问题的老年人，帮助他们的日常生活。通过部署这样的系统，我们相信智能传感系统可以改善老年人的生活质量并提供更有效的保护

通过虚拟现实开发促进学生创新

分类： 一般文学, 计算机视觉和模式识别, 新兴技术, 人机交互, I.4; H.5; D.2.2; K.3.2

作者： Sherri Harms

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02591v1

摘要： 从虚拟现实 (VR) 开发的主要媒体报道中可以明显看出，多个行业对 VR 的开发表现出了巨大的兴趣，包括视频流、游戏和模拟学习。尽管 PC、Web 和移动设备仍然是软件开发的顶级平台，但对于大学计算机科学 (CS) 课程来说，让学生接触 VR 作为开发平台非常重要。此外，对于计算机科学学生来说，学习如何学习新技术也很重要，因为计算机科学领域的变化是不断变化的。计算机科学课程的变化比技术采用的速度慢得多。随着新技术的引入，计算机科学教师和学生经常一起学习，特别是在较小的计算机科学项目中。本文介绍了如何在整个 CS 课程中使用学生主导的 VR 项目，并涵盖基本的 CS 概念。学生主导的 VR 项目引人入胜，可以促进学习和创造力。此外，每个学生项目也激励更多的学生尝试 VR 开发。

当我们研究政治和民主时，我们研究什么？ SIGCHI 会议论文中如何对待政治和民主的语义分析

分类： 人机交互

作者： Matti Nelimarkka, Ville Vuorenmaa

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02579v1

摘要： 人机交互学者越来越多地触及与政治或民主相关的话题。由于这些概念是模糊的，对概念的引用意义的检查有助于我们研究工作的自我反思。我们对摘要、标题或关键词中含有“政治”一词的所有论文（$n$=378）以及同样含有“民主”一词的 152 篇论文进行了主题分析。我们观察到这些词越来越多地在人机交互中使用，无论是绝对术语还是相对术语。同时，我们表明，研究人员在引用这些词时考虑到了不同层次的分析：早期的研究集中在中层（即小群体），但最近的工作已经开始包括宏观层面的分析（即群体）。、公共领域中的社会和政治）。在越来越关注宏观层面之后，我们看到了向更加规范和积极的研究的转变，在某些领域它取代了观察和实证研究。这些差异表明语义差异，在最坏的情况下，这可能会限制科学进步。我们将这些差异变得可见，以帮助进一步交流思想和人机交互社区，探索它如何面向政治和民主。

魔术插入：风格感知拖放

分类： 计算机视觉和模式识别, 人工智能, 图形, 人机交互, 机器学习

作者： Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02489v1

摘要： 我们提出了 Magic Insert，一种以物理合理的方式将主题从用户提供的图像拖放到不同风格的目标图像中的方法，同时匹配目标图像的风格。这项工作形式化了样式感知拖放问题，并提出了一种通过解决两个子问题来解决该问题的方法：样式感知个性化和风格化图像中的真实对象插入。对于风格感知个性化，我们的方法首先使用 LoRA 微调预训练的文本到图像扩散模型，并在主题图像上学习文本标记，然后将目标风格的 CLIP 表示注入其中。对于对象插入，我们使用引导域适应来使特定于域的真实感对象插入模型适应不同艺术风格的域。总体而言，该方法明显优于修复等传统方法。最后，我们提出了一个数据集，SubjectPlop，以促进该领域的评估和未来进展。项目页面：https://magicinsert.github.io/

应该考虑什么来支持人工智能的福祉：基于负责任的研究和创新的考虑

分类： 人机交互

作者： Yuri Nakao

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02381v2

摘要： 利用人工智能系统实现人们的福祉需要以适合其的方式引导每个用户采取更健康的生活方式。尽管幸福感有多种定义~\cite{calvo2014positive}，但健康的生活方式是幸福感最具代表性的方面之一。健康的生活方式往往因人而异，不能以自上而下的方式定义。例如，虽然适度的锻炼对几乎每个人都很重要，但需要多少锻炼以及一天中的什么时间锻炼却因人而异。一种习惯对一个人来说很容易，但对另一个人来说却可能非常困难。过于困难的习惯不会带来心理健康的生活方式。

与机器对话：你读懂我了吗？

分类： 计算和语言, 人工智能, 人机交互

作者： Lina M. Rojas-Barahona

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02354v1

摘要： 在这篇论文中，我想引导读者进行对话研究，更准确地说是我自博士论文以来在职业生涯中进行的研究。从具有机器学习/深度学习和强化学习的模块化架构开始，到端到端深度神经网络。除了我作为研究员的工作之外，我还介绍了我在过去几年中监督的工作。我简要回顾了最新技术，并强调了对话代理的开放研究问题。随后，我作为研究员和 CIFRE 论文的行业导师，介绍了我对面向任务的对话 (TOD) 的贡献。我讨论对话式质量检查。我特别介绍了两位博士生 Thibault Cordier 和 Sebastien Montella 的工作；以及年轻研究员昆汀·布拉班特 (Quentin Brabant) 的工作。最后，我介绍了一个科学项目，其中讨论了面向任务的对话和多模式任务导向对话的大型语言模型 (LLM)。

平等成熟度模型：促进领导和参与角色性别平衡的可行工具

分类： 人机交互, H.m MISCELLANEOUS, H.m

作者： Paloma Díaz, Paula Alexandra Silva, Katja Tuma

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02305v1

摘要： 计算机科学与工程领域女性代表性不足是一个普遍存在的问题，影响着女学生的入学率和毕业率，以及学术界和工业界女性领导职位的比例。欧洲信息学性别平衡网络 (EUGAIN) COST 行动旨在分享数据、经验、最佳实践和失败教训，并提供有助于促进该领域性别平衡的可行工具。本文总结了博士/博士后到教授工作组的结果，这些结果收集在两本最佳实践小册子中。具体来说，我们介绍了平等成熟度模型（EMM），这是一种概念工具，旨在支持组织衡量其在平等方面的表现并确定潜在的改进领域，其灵感来自于这两本小册子。

IFTT-PIN：一种自校准 PIN 输入方法

分类： 人机交互, 人工智能, 密码学和安全, 机器学习

作者： Kathryn McConkey, Talha Enes Ayranci, Mohamed Khamis, Jonathan Grizou

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02269v1

摘要： 根据用户的需求和偏好个性化界面通常会产生额外的交互步骤。在本文中，我们演示了一种新颖的方法，通过我们称为自校准的过程，无需显式校准程序即可实现界面的个性化。自校准的二阶效应是外部观察者无法轻易推断用户试图实现的目标，因为他们无法解释用户的行为。为了探索这个安全角度，我们开发了 IFTT-PIN（If This then PIN）作为第一个自校准 PIN 输入方法。使用 IFTT-PIN 时，用户可以自由选择具有任何含义的任何按钮，而无需将他们的选择明确传达给机器。 IFTT-PIN 同时推断用户的 PIN 及其首选按钮映射。本文介绍了 IFTT-PIN 的概念、实现和交互式演示，以及针对肩窥攻击的评估。我们的研究 (N=24) 表明，通过在现有 PIN 输入方法中添加自校准，IFTT-PIN 在统计上显着降低了 PIN 攻击解码率约 10%。 8.5 倍 (p=1.1e-9)，而仅将 PIN 输入编码率降低约 8.5 倍 (p=1.1e-9)。 1.4 倍 (p=0.02)，导致安全性与可用性之间的积极权衡。首次接触该方法后 21 天（p=3.6e-6），IFTT-PIN 的进入率显着提高，这表明尽管使用最初未定义的用户界面，但自校准界面仍然令人难忘。自校准方法可能会带来更具包容性和多功能性的新的互动机会，这对社区来说是一个潜在的有趣挑战。简短的介绍视频可在 https://youtu.be/pP5sfniNRns 上观看。

FineCLIPER：使用 Adapter 进行动态面部表情识别的多模式细粒度 CLIP

分类： 计算机视觉和模式识别, 人机交互

作者： Haodong Chen, Haojian Huang, Junhao Dong, Mingzhe Zheng, Dian Shao

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02157v1

摘要： 动态面部表情识别（DFER）对于理解人类行为至关重要。然而，当前的方法表现出有限的性能，主要是由于高质量数据的稀缺、面部动态的利用不足以及表达语义的模糊性等。为此，我们提出了一种新颖的框架，名为Multi-modal Fine-粒度 CLIP for Dynamic Facial Expression Recognition with Adapters (FineCLIPER)，结合了以下新颖的设计： 1）为了更好地区分相似的面部表情，我们将类标签扩展到正面和负面的文本描述，并通过计算基于CLIP模型的跨模态相似度； 2）我们的FineCLIPER采用分层方式有效地从DFE视频中挖掘有用的线索。具体来说，除了直接嵌入视频帧作为输入（低语义级别）之外，我们建议基于每个帧（中语义级别）提取人脸分割掩模和地标，并利用多模态大语言模型（MLLM）进一步生成详细的通过设计的提示（高语义级别）描述跨帧的面部变化。此外，我们还采用参数高效微调（PEFT）来高效适应此任务的大型预训练模型（即 CLIP）。我们的 FineCLIPER 在监督和零样本设置下的 DFEW、FERV39k 和 MAFW 数据集上实现了 SOTA 性能，并且几乎没有可调参数。分析和消融研究进一步验证了其有效性。

ReliaAvatar：具有集成运动预测功能的强大实时头像动画师

分类： 人机交互

作者： Bo Qian, Zhenhuan Wei, Jiashuo Li, Xing Wei

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02129v1

摘要： 使用最少的可穿戴设备有效地估计全身姿势是一个有价值的研究方向。尽管该领域取得了重大进展，但目前大多数研究都忽略了在低质量信号条件下探索全身化身估计，而这在实际应用中很普遍。为了弥补这一差距，我们总结了实际应用中可能遇到的三种场景：标准场景、瞬时数据丢失场景和长时间数据丢失场景，并提出了一个新的评估基准。我们提出的解决数据丢失场景的解决方案是将全身头像姿势估计问题与运动预测相结合。具体来说，我们提出了 \textit{ReliaAvatar}，一个实时、\textbf{relia}ble \textbf{avatar} 动画器，配备了采用双路径架构的预测建模功能。 ReliaAvatar 运行高效，每秒 109 帧 (fps) 的性能令人印象深刻。对广泛认可的基准数据集进行的广泛比较评估证明了 Relia-Avatar 在标准和低数据质量条件下的卓越性能。代码可在 \url{https://github.com/MIV-XJTU/ReliaAvatar} 获取。

评估推荐系统中的解释的模糊综合方法

分类： 人机交互

作者： Jinfeng Zhong, Elsa Negre

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02065v1

摘要： 推荐系统旨在通过提供个性化推荐来帮助用户更快地找到相关项目。推荐系统中的解释可以帮助用户理解为什么会产生这样的推荐，从而使系统更加透明并提高用户的信任和满意度。近年来，解释性建议越来越受到学术界和工业界的关注。在本文中，我们提出了一项用户研究，以调查推荐系统中的上下文感知解释。特别是，我们构建了一个基于网络的调查问卷，能够与用户互动：生成并解释建议。通过这份问卷，我们通过用户研究调查了情境感知解释在效率、有效性、说服力、满意度、信任和透明度方面的影响。此外，我们提出了一种基于模糊综合评估的新方法来聚合这些指标。

使用 ChatGPT 彻底改变角色扮演游戏

分类： 计算机与社会, 人工智能, 人机交互

作者： Rita Stampfl, Barbara Geyer, Marie Deissl-O'Meara, Igor Ivkić

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02048v1

摘要： 教育数字化及其对教学方法的影响是本研究的重点，该研究研究了布尔根兰应用科学大学云计算工程硕士课程中使用的角色扮演游戏中 ChatGPT 的使用情况。该研究的目的是分析基于人工智能的模拟对学生学习体验的影响。基于维果茨基的社会文化理论，利用ChatGPT让学生在模拟业务场景中更深入地了解战略决策过程。方法包括角色扮演和对 20 名学生反思的定性内容分析。研究结果表明，ChatGPT 除了有助于理论知识的有效应用之外，还提高了学生的参与度、批判性思维和沟通技巧。此外，模拟可以有助于理论知识的有效应用。结果强调了适应性教学方法在促进数字素养和为学习者提供数字工作场所装备方面的重要性。人工智能融入课程以及高等教育持续创新的必要性也被强调，作为保证优秀、面向未来的教学的一种手段。研究结果特别强调了人工智能和 ChatGPT 作为一种创新的尖端教育工具的潜力，它既可以增强学习体验，又可以通过教育帮助实现可持续发展目标 (SDG)。

智能手表活动可视化研究

分类： 人机交互, 图形

作者： Zhouxuan Xia, Yu Liu, Fabiola Polidoro

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02012v1

摘要： 本文通过调查中国电子商务平台京东目前提供的 80 种智能手表型号提出的数据视觉呈现方式，并随后调查了 41 位用户对这些可视化的偏好，研究了如何使用可视化技术在智能手表上显示活动数据。结果表明，尽管径向条形图是智能手表上最流行的活动数据可视化，但用户的偏好可能会受到他们对这些图表的熟悉程度的影响。这项调查的结果对于有兴趣为智能手表上的活动可视化创建创新且有效的解决方案的设计师、开发人员和研究人员来说非常有价值。

MeMemo：用于私人和个性化文本生成的设备上检索增强

分类： 信息检索, 人工智能, 人机交互, 机器学习

作者： Zijie J. Wang, Duen Horng Chau

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.01972v1

摘要： 检索增强文本生成 (RAG) 通过从可更新的外部知识库检索信息来解决大型语言模型 (LLM) 的常见局限性，例如幻觉。然而，现有的方法通常需要专用的后端服务器来存储和检索数据，从而限制了它们在需要严格数据隐私的用例中的适用性，例如个人财务、教育和医疗。为了满足客户端密集检索的迫切需求，我们推出了 MeMemo，这是第一个开源 JavaScript 工具包，它将最先进的近似最近邻搜索技术 HNSW 应用于浏览器环境。我们的工具包采用现代和本地 Web 技术（例如 IndexedDB 和 Web Workers）开发，利用客户端硬件功能使研究人员和开发人员能够在浏览器中有效地搜索数百万个高维向量。 MeMemo 提供了令人兴奋的新设计和研究机会，例如私人和个性化内容创建以及交互式原型设计，如我们的示例应用程序 RAG Playground 所示。回顾我们的工作，我们讨论了设备上密集检索的机遇和挑战。 MeMemo 可在 https://github.com/poloclub/mememo 获取。

研究大规模伪立体数据和不同语音基础模型对对话生成口语模型的影响

分类： 计算和语言, 人机交互, 声音, 音频和语音处理

作者： Yu-Kuan Fu, Cheng-Kuang Lee, Hsiu-Hsuan Wang, Hung-yi Lee

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.01911v1

摘要： 最近在口语对话建模方面的努力旨在合成口语对话，而不需要直接转录，从而保留语音中固有的大量非文本信息。然而，当发言者同时讲话时，这种方法面临着挑战，需要在不同通道上录制发言者的立体声对话数据，这是一种非常稀缺的资源。为了解决这个问题，我们开发了一种创新的管道，能够将单通道对话数据转换为伪立体声数据。这将我们的训练数据集从仅仅 2,000 小时扩展至令人印象深刻的 17,600 小时，显着丰富了可用训练示例的多样性和质量。事实证明，包含这种伪立体声数据可以有效提高口语对话语言模型的性能。此外，我们还探索了使用不同语音基础模型的离散单元来生成口语对话。

基于脑眼计算机的昏暗物体检测的自适应模态平衡在线知识蒸馏

分类： 计算机视觉和模式识别, 人机交互

作者： Zixing Li, Chao Yan, Zhen Lan, Xiaojia Xiang, Han Zhou, Jun Lai, Dengqing Tang

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.01894v2

摘要： 可以使用脑机接口从人脑中提取高级认知。将这些接口与具有高效特征提取能力的计算机视觉技术相结合，可以实现对航空图像中暗淡目标的更稳健和更准确的检测。然而，现有的目标检测方法主要集中于同质数据，缺乏对异构多模态数据的高效、通用的处理能力。在本文中，我们首先构建了一个基于脑眼计算机的少镜头条件下航空图像目标检测系统。该系统使用区域提议网络检测可疑目标，通过基于眼动追踪的慢串行视觉呈现（ESSVP）范式唤起脑电图（EEG）中的事件相关电位（ERP）信号，并构建脑电图图像数据对眼动数据。然后，提出了一种自适应模态平衡在线知识蒸馏（AMBOKD）方法来利用脑电图图像数据识别暗淡物体。 AMBOKD 使用多头注意力模块融合脑电图和图像特征，建立了具有全面特征的新模式。为了增强融合模式的性能和鲁棒能力，通过端到端在线知识蒸馏实现模式之间的同步训练和相互学习。在学习过程中，提出了一种自适应模态平衡模块，通过动态调整各种模态的重要性权重和训练梯度来确保多模态平衡。通过与现有最先进方法的比较，证明了我们方法的有效性和优越性。此外，在公共数据集上进行的实验和现实场景中的系统验证证明了所提出的系统和设计方法的可靠性和实用性。

CausalPrism：基于子组的因果异质性探索的可视化分析方法

分类： 人机交互

作者： Jiehui Zhou, Xumeng Wang, Wong Kam-Kwai, Wei Zhang, Xingyu Liu, Juntian Zhang, Minfeng Zhu, Wei Chen

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.01893v1

摘要： 在因果推理中，根据观察数据估计异质治疗效果 (HTE) 对于了解不同亚组对治疗的反应至关重要，其应用广泛，例如精准医疗和定向广告。然而，现有的 HTE、子组发现和因果可视化工作不足以解决两个挑战：首先，潜在子组的绝对数量和平衡多个目标（例如，高效应和低方差）的必要性构成了相当大的分析挑战。其次，有效的亚组分析必须遵循用户指定的分析目标，并提供经过验证的因果结果。为此，我们提出了一种基于子组的因果异质性探索的可视化分析方法。具体来说，我们首先将因果子群发现表述为约束多目标优化问题，并采用启发式遗传算法来学习由可解释规则描述的最优子群的帕累托前沿。结合该模型，我们开发了一个原型系统CausalPrism，它结合了表格可视化、多属性排名和不确定性图，以支持用户交互式地探索和排序子组并解释治疗效果。定量实验验证了所提出的模型可以有效地挖掘因果子组，其性能优于最先进的 HTE 和子组发现方法，案例研究和专家访谈证明了该系统的有效性和可用性。代码可在 https://osf.io/jaqmf/?view_only=ac9575209945476b955bf829c85196e9 获取。

EIT-1M：一百万个脑电图-图像-文本对，用于人类视觉-文本识别等

分类： 计算机视觉和模式识别, 人机交互

作者： Xu Zheng, Ling Wang, Kanghao Chen, Yuanhuiyi Lyu, Jiazhou Zhou, Lin Wang

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.01884v1

摘要： 最近，脑电图（EEG）信号已被积极纳入将大脑活动解码为视觉或文本刺激，并在多模式人工智能中实现对象识别。因此，人们一直致力于从视觉或文本单模态刺激构建基于脑电图的数据集。然而，这些数据集为每个类别提供的脑电图历元有限，并且向参与者呈现的刺激的复杂语义影响了他们捕获精确大脑活动的质量和保真度。神经科学的研究揭示了脑电图记录中视觉和文本刺激之间的关系，为大脑同时处理和整合多模式信息的能力提供了有价值的见解。受此启发，我们提出了一个新颖的大规模多模态数据集，名为 EIT-1M，包含超过 100 万个 EEG-图像-文本对。我们的数据集在同时处理多模态信息时反映大脑活动的能力非常出色。为了实现这一目标，我们收集了数据对，同时参与者查看了来自 60K 自然图像和特定类别文本的视觉文本刺激的交替序列。还包括常见的语义类别，以引起参与者大脑的更好反应。同时，还包括基于响应的刺激计时和跨区块和会话的重复，以确保数据多样性。为了验证 EIT-1M 的有效性，我们对从不同类别和参与者的多模式刺激中捕获的脑电图数据进行了深入分析，并提供了数据质量评分以提高透明度。我们证明了它在两项任务上的有效性：1）从视觉或文本刺激或两者中进行脑电图识别，2）脑电图到视觉的生成。

移情基础：使用多模式交互和大型语言模型与对话代理的探索

分类： 人机交互, 计算和语言, 机器人技术

作者： Mehdi Arjmand, Farnaz Nouraei, Ian Steenstra, Timothy Bickmore

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01824v1

摘要： 我们在对话代理中引入“共情接地”的概念，作为克拉克对话接地概念的延伸，其中接地标准包括听众对说话者情感状态的同理心。每当说话者的情绪被强调时，通常都需要共情接地，并且可以通过传达命题和情感理解来使接地过程更加有效和可靠。说话者的情感表达和听者的移情基础都可以是多模态的，包括面部表情和其他非语言表现。因此，实体主体的移情基础模型应该是多模式的，以促进自然和有效的沟通。我们描述了一种多模态模型，该模型将用户语音和面部表情作为输入，为使用大型语言模型的聆听代理生成多模态基础动作。我们还描述了一个评估同理心基础方法的测试平台，其中一个人形机器人采访用户有关过去的疼痛事件，然后让用户评价他们对机器人同理心的看法。我们将我们提出的模型与仅在受试者间实验中产生非情感基础线索的模型进行比较。研究结果表明，同理心基础可以提高用户对同理心、理解、情商和信任的感知。我们的工作强调了情感意识和多模态在为对话代理生成适当的基础动作方面的作用。

广播警察通信中的种族和隐私

分类： 计算和语言, 计算机与社会, 人机交互

作者： Pranav Narayanan Venkit, Christopher Graziul, Miranda Ardith Goodman, Samantha Nicole Kenny, Shomir Wilson

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01817v1

摘要： 无线电对于现代警察部门的运作至关重要，它们既可以作为协作通信技术，也可以作为社会技术系统。然而，之前很少有研究考察它们的使用或其与个人隐私的联系以及种族在警务中的作用，这两个话题在美国日益受到关注。作为案例研究，我们研究了芝加哥警察局 (CPD) 使用广播警察通信 (BPC) 来协调该市执法人员 (LEO) 的活动。从最近汇总的与 CPD 操作相关的 80,775 小时 BPC 档案中，我们分析了 2018 年 8 月 10 日上午 9:00 至下午 5:00 广播的无线电传输文本记录，其中黑人占多数，白人占多数，西班牙裔占多数城市地区（24 小时音频）探讨三个研究问题：(1) BPC 是否反映了所报道的警务中的种族差异？ (2) BPC 中如何以及何时提及性别、种族/民族和年龄？ (3) BPC 在多大程度上包含敏感信息？这种做法给谁带来的风险最大？ (4) 大型语言模型 (LLM) 会在多大程度上增加这种风险？我们探讨了 BPC 中警察使用的词汇和言语行为，将个人特征的提及与当地人口统计数据、通过 BPC 共享的个人信息及其带来的隐私问题进行了比较。分析表明 (a) 芝加哥市的警务专业人员无论背景如何，都对黑人公众表现出不成比例的关注，(b) BPC 有关事件信息的内容主要提及性别、种族/族裔和年龄等社会人口特征，以及 ( c) 过度关注给黑人公众带来了过度的隐私风险。

评估真实世界图像中渲染对象的真实感：透明且可重复的用户研究

分类： 人机交互, 图形

作者： Sven Kluge, Oliver Staadt

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01767v1

摘要： 在许多研究声称通过实时自动环境捕捉实现近乎照片级真实感的时代，需要在该领域进行评估和可重复性。本文提出了一项透明且可重复的用户研究，旨在评估由虚拟渲染对象组成的真实世界图像的真实感，这些图像是使用经典环境捕获和渲染技术生成的。我们采用了两种替代的强制选择方法来比较通过将虚拟对象集成到真实照片中而创建的图像对，遵循经典的流程。包含具有定义的定向光参数的对照组以验证该研究的正确性。研究结果揭示了一些见解，表明观察者在区分渲染对象和真实对象时遇到了困难。这项工作为未来的研究奠定了基础，旨在增强现实世界环境中虚拟对象的视觉保真度和真实感。

在人机合作中使用动态 SEM 预测信任动态

分类： 人机交互, 人工智能

作者： Sota Kaneko, Seiji Yamada

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01752v1

摘要： 人类对人工智能的信任是促进人类与人工智能之间协同关系的关键因素。这在利用人工智能技术的系统（例如自动驾驶系统和人机交互）的背景下尤其重要。信任有助于适当利用这些系统，从而优化其潜在利益。如果人类过度信任或不信任人工智能，就会发生误用和事故等严重问题。为了防止过度/信任不足，有必要预测信任动态。然而，信任是人类的一种内在状态，很难直接观察到。因此，我们提出了一种使用动态结构方程建模的信任动态预测模型，该模型扩展了 SEM 的处理时间序列数据的能力。以探索性方式开发显示变量之间因果关系的路径图，并对所得路径图进行优化以实现有效的路径结构。在无人机模拟器任务中，过度/不足信任的预测准确率达到 90%，在自动驾驶任务中预测的准确率达到 99%。这些结果表明，我们提出的方法优于包括自回归族在内的传统方法。

调查电子商务市场上对相关卖家的推动：亚马逊案例研究

分类： 计算机与社会, 人机交互, 信息检索

作者： Abhisek Dash, Abhijnan Chakraborty, Saptarshi Ghosh, Animesh Mukherjee, Krishna P. Gummadi

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01732v1

摘要： 电子商务市场为全球数百万卖家提供了商机。其中一些卖家通过使用其附属服务（例如，市场提供的履行和/或运输服务）与市场建立了特殊关系——我们将此类卖家统称为相关卖家。当多个卖家出价销售相同产品时，市场通过（a）默认报价选择算法，（b）显示每个报价和相应卖家的特征（价格）帮助客户（由卖家）选择报价、卖家绩效指标、卖家评级数量等），以及（c）最终根据这些特征评估卖家。在本文中，我们对上述设备如何将客户推向亚马逊印度、美国、德国和法国四个不同市场上的相关卖家进行了端到端调查。我们发现，如果给出明确的选择，客户的首选报价和算法选择的报价可能会显着不同。我们强调，亚马逊正在针对不同的卖家采取不同的绩效指标评估政策，这可能会使相关卖家受益。例如，此类政策会导致相关卖家的实际绩效指标与所呈现的绩效指标之间存在显着差异。我们进一步观察到，在顾客可见的以卖家为中心的特征中，卖家的评分数量对他们的决策影响最大，但它可能并不能反映卖家真实的服务质量，而是反映了卖家的经营规模，从而含蓄地将客户引向规模更大的相关卖家。此外，当客户看到不同卖家的修正指标时，他们对相关卖家的偏好几乎减半。

NLPGuard：减少 NLP 分类器使用受保护属性的框架

分类： 计算和语言, 人工智能, 人机交互

作者： Salvatore Greco, Ke Zhou, Licia Capra, Tania Cerquitelli, Daniele Quercia

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01697v1

摘要： 人工智能法规预计将禁止机器学习模型在训练期间使用敏感属性。然而，最新的自然语言处理（NLP）分类器依赖于深度学习，作为黑盒系统运行，使此类滥用的检测和补救变得复杂。 NLP 中传统的偏见缓解方法旨在根据性别或种族等属性在不同群体之间实现可比较的性能，但未能解决依赖受保护属性的根本问题。为了部分解决这个问题，我们引入了 NLPGuard，这是一个用于减轻 NLP 分类器中对受保护属性的依赖的框架。 NLPGuard 将未标记的数据集、现有的 NLP 分类器及其训练数据作为输入，生成修改后的训练数据集，显着减少对受保护属性的依赖，而不会影响准确性。 NLPGuard应用于三个分类任务：识别有毒语言、情感分析和职业分类。我们的评估表明，当前的 NLP 分类器严重依赖于受保护的属性，高达 $23%$ 的最具预测性的单词与这些属性相关。然而，NLPGuard 有效地将这种依赖减少了高达 $79%$，同时略微提高了准确性。

Open-TeleVision：具有沉浸式主动视觉反馈的远程操作

分类： 机器人技术, 人机交互, 机器学习

作者： Xuxin Cheng, Jialong Li, Shiqi Yang, Ge Yang, Xiaolong Wang

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01512v2

摘要： 远程操作是一种强大的方法，用于收集机器人从演示中学习所需的数据。远程操作系统的直观性和易用性对于确保高质量、多样化和可扩展的数据至关重要。为了实现这一目标，我们提出了一种沉浸式远程操作系统 Open-TeleVision，该系统允许操作员以立体方式主动感知机器人的周围环境。此外，该系统还将操作员手臂和手部的动作镜像到机器人上，创造出一种身临其境的体验，就好像操作员的思想被传输到机器人身上一样。我们通过为 2 个不同的人形机器人收集数据并训练模仿学习策略来验证系统的有效性，这些任务涉及 2 个不同的人形机器人的四个长期精确任务（罐头排序、罐头插入、折叠和卸载），并将它们部署在现实世界中。该系统开源于：https://robot-tv.github.io/

LEXI：大型语言模型实验界面

分类： 人机交互

作者： Guy Laban, Tomer Laban, Hatice Gunes

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01488v2

摘要： 大型语言模型（LLM）的最新发展标志着人工智能体社交互动研究和开发的重要时刻。这些代理广泛部署在各种环境中，对用户有潜在影响。然而，由大语言模型支持的与代理的社交互动研究仍在兴起，但受到技术和数据的访问、标准化接口的缺乏以及使用当前可用的面向业务的平台建立受控实验设置的挑战的限制。为了弥补这些差距，我们开发了 LEXI（大语言模型实验接口），这是一种开源工具，可以在社交互动行为实验中部署由大语言模型支持的人工代理。 LEXI 使用图形界面，允许研究人员构建代理，并将其与表格和调查问卷一起部署在实验设置中，同时收集交互日志和自我报告数据。可用性测试的结果表明 LEXI 具有广泛的实用性、高可用性和最低的脑力工作量要求，并且在跨学科中观察到了独特的优势。进行了一项概念验证研究，探索该工具在评估社会 HAI 方面的功效，并产生了高质量的数据。对同理心与中性代理人的比较表明，人们认为同理心代理人更具社交性，并向他们写更长、更积极的信息。

GazeNoter：通过注视来辅助进行 AR 笔记选择大语言模型建议以匹配用户的意图

分类： 人机交互

作者： Hsin-Ruey Tsai, Shih-Kang Chiu, Bryan Wang

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01161v1

摘要： 演讲和讨论过程中记笔记非常重要，它不仅可以用于后期的总结和组织，还可以用于问答环节中的实时问题和意见提醒或讨论中的及时贡献。在智能手机上手动打字做笔记可能会分散用户的注意力并增加用户的认知负担。虽然大型语言模型（LLM）用于自动生成摘要和亮点，但如果没有用户输入或交互，人工智能（AI）生成的内容可能与用户的意图不匹配。因此，我们提出了一种人工智能辅助的增强现实（AR）系统GazeNoter，允许用户通过注视AR耳机来快速选择各种LLM生成的建议，以进行实时笔记。 GazeNoter利用AR耳机作为媒介，让用户快速调整LLM输出以符合他们的意图，形成一个用户循环的人工智能系统，用于上下文内和上下文外的笔记。我们进行了两项用户研究，分别验证 GazeNoter 在静态坐姿参加演讲和移动步行条件下参加步行会议和讨论的可用性。

社会关系对电子学习中同伴评估的影响

分类： 人机交互, K.3.1; K.3.2; K.4.3; H.5.2

作者： Francisco Sousa, Tomás Alves, Sandra Gama, Joaquim Jorge, Daniel Gonçalves

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01077v1

摘要： 同伴评估作为传统评估的替代品已被广泛研究，不仅减少了教授的工作量，而且主要有利于学生的参与和学习。尽管一些研究成功地验证了其准确性和公平性，但还必须对学生预先存在的社会关系如何影响他们在电子学习课程中给同伴的评分进行更多的研究。我们开发了一个 Moodle 插件，为该平台提供论坛中的同行评估功能，并将其用于理学硕士课程。该插件根据作者的关系为帖子策划了审稿人集，并包含了一些规则来应对同行评估可能产生的人际影响。结果证实，对于至少有三个同行评估的作品，同行评估是可靠和准确的，尽管学生的成绩略高。当不喜欢其他同学的学生对自己的作业评分始终低于有积极关系的学生时，社会关系的影响就很明显。不过，这对最终的同行总成绩影响不大。我们的研究结果表明，在学生彼此熟悉的电子学习环境中，同伴评估可以取代传统评估。

类人对象概念表示在多模态大语言模型中自然出现

分类： 人工智能, 计算和语言, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Changde Du, Kaicheng Fu, Bincheng Wen, Yi Sun, Jie Peng, Wei Wei, Ying Gao, Shengpei Wang, Chuncheng Zhang, Jinpeng Li, Shuang Qiu, Le Chang, Huiguang He

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01067v1

摘要： 人类思维中自然物体的概念化和分类长期以来一直引起认知科学家和神经科学家的兴趣，为人类感知和认知提供了重要的见解。最近，大型语言模型（LLM）的快速发展提出了一个有吸引力的问题：这些模型是否也可以通过接触大量语言和多模态数据来开发类人的对象表示。在这项研究中，我们结合了行为和神经影像分析方法，以揭示大语言模型中的对象概念表征如何与人类的相关联。通过收集 LLM 和多模态 LLM (MLLM) 的 470 万个三元组判断的大规模数据集，我们能够导出低维嵌入，捕获 1,854 个自然对象的潜在相似性结构。由此产生的 66 维嵌入具有高度稳定性和预测性，并且表现出类似于人类心理表征的语义聚类。有趣的是，这些嵌入背后的维度的可解释性表明 LLM 和 MLLM 已经开发出了类似人类的自然物体概念表示。进一步的分析表明，在许多功能定义的大脑 ROI（例如 EBA、PPA、RSC 和 FFA）中，已识别的模型嵌入和神经活动模式之间具有很强的一致性。这提供了令人信服的证据，表明大语言模型中的对象表示虽然与人类的对象表示不同，但具有反映人类概念知识关键模式的基本共性。这项研究增进了我们对机器智能的理解，并为开发更像人类的人工认知系统提供了信息。

VisEval：大语言模型时代数据可视化的基准

分类： 人机交互, 计算和语言

作者： Nan Chen, Yuge Zhang, Jiahang Xu, Kan Ren, Yuqing Yang

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.00981v1

摘要： 将自然语言转化为可视化（NL2VIS）在可视化数据分析方面显示出了巨大的前景，但它仍然是一项具有挑战性的任务，需要多种低级实现，例如自然语言处理和可视化设计。预训练大语言模型 (LLM) 的最新进展为从自然语言生成可视化开辟了新途径。然而，缺乏全面可靠的基准阻碍了我们对大语言模型可视化生成能力的理解。在本文中，我们通过提出一个名为 VisEval 的新 NL2VIS 基准来解决这一差距。首先，我们引入高质量、大规模的数据集。该数据集包括覆盖 146 个数据库的 2,524 个代表性查询，并与准确标记的基本事实配对。其次，我们主张建立涵盖有效性、合法性、可读性等多个维度的综合自动化评估方法。通过使用许多异构检查器系统地扫描潜在问题，VisEval 提供了可靠且值得信赖的评估结果。我们在一系列最先进的大语言模型上运行 VisEval。我们的评估揭示了普遍存在的挑战，并为未来的进步提供了重要的见解。

Roleplay-doh：使领域专家能够通过引导和遵守原则来创建大语言模型模拟患者

分类： 计算和语言, 人机交互

作者： Ryan Louie, Ananjan Nandi, William Fang, Cheng Chang, Emma Brunskill, Diyi Yang

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.00870v1

摘要： 最近的作品利用大语言模型来角色扮演现实的社交场景，帮助新手练习社交技能。然而，模拟心理健康等敏感互动具有挑战性。隐私问题限制了数据访问，收集专家反馈虽然很重要，但很费力。为了解决这个问题，我们开发了 Roleplay-doh，这是一种新颖的人类与大语言模型协作管道，可从领域专家那里获得定性反馈，并将其转化为一组原则或自然语言规则，用于管理大语言模型提示的角色扮演。我们应用这个管道，使高级心理健康支持者能够为新手咨询师的模拟实践伙伴创建定制的人工智能患者。在发现 GPT-4 模拟中不遵守专家定义的原则的问题后，我们还引入了一种新颖的原则遵守提示管道，该管道显示下游任务的响应质量和原则遵循提高了 30%。通过与 25 名咨询专家进行的用户研究，我们证明了该管道可以轻松有效地创建更忠实地类似于真实患者的 AI 患者（根据创建者和第三方咨询师的判断）。