MiX Knowledge

MobA：用于高效移动任务自动化的两级代理系统

分类： 多代理系统, 人工智能, 计算和语言, 人机交互

作者： Zichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13757v1

摘要： 当前的移动助手受到对系统API的依赖的限制，或者由于理解和决策能力有限而难以应对复杂的用户指令和多样化的界面。为了应对这些挑战，我们提出了 MobA，这是一种由多模式大语言模型提供支持的新型手机代理，通过复杂的两级代理架构增强理解和规划能力。高级全局代理（GA）负责理解用户命令、跟踪历史记忆和规划任务。低级本地代理 (LA) 在子任务和 GA 内存的指导下，以函数调用的形式预测详细动作。集成反射模块可以高效完成任务，并使系统能够处理以前未见过的复杂任务。 MobA 在现实生活评估中展示了任务执行效率和完成率的显着提高，凸显了 MLLM 支持的移动助手的潜力。

扩展可穿戴基础模型

分类： 机器学习, 人工智能, 人机交互

作者： Girish Narayanswamy, Xin Liu, Kumar Ayush, Yuzhe Yang, Xuhai Xu, Shun Liao, Jake Garrison, Shyam Tailor, Jake Sunshine, Yun Liu, Tim Althoff, Shrikanth Narayanan, Pushmeet Kohli, Jiening Zhan, Mark Malhotra, Shwetak Patel, Samy Abdel-Ghaffar, Daniel McDuff

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13638v1

摘要： 由于各种健康跟踪功能，可穿戴传感器已经变得无处不在。日常生活中产生的连续纵向测量会产生大量数据；然而，理解这些观察结果以获得科学和可操作的见解并非易事。受生成建模经验成功的启发，大型神经网络从大量文本、图像、视频或音频数据中学习强大的表示，我们研究了传感器基础模型在计算、数据和模型大小方面的扩展特性。使用来自超过 165,000 人的长达 4000 万小时的原位心率、心率变异性、皮肤电活动、加速度计、皮肤温度和每分钟高度计数据的数据集，我们创建了 LSM，这是一种基于迄今为止最大的可穿戴信号数据集，具有最广泛的传感器模式。我们的结果建立了 LSM 的缩放定律，适用于跨时间和传感器模式的插补、内插和外推等任务。此外，我们还重点介绍了 LSM 如何为锻炼和活动识别等任务实现样本高效的下游学习。

增强现实安全警告的神经关联：道路工作区情境意识和认知表现的脑电图分析

分类： 人机交互, 新兴技术

作者： Fatemeh Banani Ardecani, Amit Kumar, Sepehr Sabeti, Omidreza Shoghli

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13623v1

摘要： 尽管研究和实施工作涉及各种安全策略、协议和技术，但工作区事故和死亡事件每年仍然以惊人的速度发生。本研究调查了不同工作负载条件下道路工作区对增强现实安全警告的神经生理学反应。利用脑电图（EEG）技术，我们客观地评估了模拟低强度（LA）和中等强度（MA）工作活动中的情境意识、注意力和认知负荷。该研究分析了关键的脑电图指标，包括 β、γ、α 和 θ 波，以及各种组合波比率。结果显示，AR 警告有效地触发了与两种工作负载条件下的情境意识和注意力增强相关的神经系统反应。然而，这些反应的时间和强度存在显着差异。在洛杉矶条件下，峰值反应发生得更早（警告后 125 毫秒内）并且更明显，这表明当身体需求较低时，认知反应更强烈。相反，MA 状况显示延迟的峰值响应（警告后 125-250 毫秒）和更渐进的变化，表明体力活动增加对认知处理速度的潜在影响。这些发现强调了在为道路工作区设计基于 AR 的安全系统时考虑体力工作量的重要性。该研究有助于了解 AR 如何增强工人安全，并为在高风险工作环境中开发更有效、情境感知的安全干预措施提供见解。

共同创建和评估一款应用程序，以支持老年痴呆症患者的回忆治疗干预措施

分类： 人机交互

作者： Iván De-Rosende-Celeiro, Virginia Francisco-Gilmartín, Susana Bautista-Blasco, Adriana Ávila-Álvarez

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13556v1

摘要： 目标：目标包括 (1) 创建 Recuerdame，这是一款专门为职业治疗师设计的数字应用程序，旨在支持这些专业人员规划、组织、开发和记录老年痴呆症患者的回忆疗法，以及 (2 ）通过参与式和以用户为中心的设计方法对设计的原型进行评估，探索最终用户的看法。方法：这项探索性研究采用了混合方法设计。该应用程序分两个阶段开发。在第一阶段，研究团队确定了需求并设计了原型。在第二阶段，经验丰富的职业治疗师对原型进行了评估。结果：研究团队确定了该应用程序所需的功能，分为八个主要主题：登记相关人员和护理人员；记录患者的生活故事记忆；准备回忆治疗课程；召开会议；结束会话；评估患者；自动生成人生故事；其他要求。第一阶段以原型开发结束。在第二阶段，八名职业治疗师使用该应用程序的所有功能执行了一系列任务。大多数这些任务都非常简单（单一简单问题）。可用性水平被认为是优秀的（系统可用性等级）。参与者认为该应用程序将节省从业者的时间、丰富治疗课程并提高治疗效果。定性结果概括为两大主题：(a) 应用程序的可接受性；结论参与的职业治疗师普遍认为，共同设计的应用程序似乎是一个多功能工具，使这些专业人员能够管理记忆干预。

RAMPA：用于机器编程和自动化的机器人增强现实

分类： 机器人技术, 人机交互, 机器学习

作者： Fatih Dogangun, Serdar Bahar, Yigit Yildirim, Bora Toprak Temir, Emre Ugur, Mustafa Doga Dogan

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13412v1

摘要： 随着机器人技术不断进入传统工业应用之外的各个领域，对直观的机器人训练和交互系统的需求变得越来越重要。本文介绍了用于机器编程的机器人增强现实 (RAMPA)，该系统利用最先进的商用 AR 耳机（例如 Meta Quest 3）的功能来促进演示编程 (PfD) 的应用工业机器人手臂的方法，例如Universal Robots UR10。我们的方法可以直接在用户的物理环境中进行现场数据记录、可视化和技能演示的微调。 RAMPA 解决了 PfD 的关键挑战，例如安全问题、编程障碍以及在实际硬件上收集演示的效率低下。我们的系统的性能是根据传统的动觉控制方法在教授三种不同的机器人操作任务时进行评估的，并通过定量指标进行分析，使用标准化调查测量任务性能和完成时间、轨迹平滑度、系统可用性、用户体验和任务负载。我们的研究结果表明机器人任务的教学和改进方式取得了重大进步，有望提高机器人编程的操作安全性、效率和用户参与度。

CLEAR：面向大型语言模型应用程序的上下文大语言模型授权的隐私政策分析和风险生成

分类： 人机交互

作者： Chaoran Chen, Daodao Zhou, Yanfang Ye, Yaxing Yao, Toby Jia-jun Li

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13387v1

摘要： 由大型语言模型 (LLM) 提供支持的最终用户应用程序（包括会话界面和现有图形用户界面 (GUI) 的附加组件）的兴起，带来了新的隐私挑战。然而，许多用户仍然没有意识到其中的风险。本文探讨了提高用户对最终用户应用程序中与大语言模型相关的隐私风险意识的方法。我们举办了五次联合设计研讨会，以揭示用户隐私问题以及他们对大语言模型内上下文隐私信息的需求。基于这些见解，我们开发了 CLEAR（Contextual LLM-Empowered Privacy Policy Analysis and Risk Generation），这是一款即时上下文助手，旨在帮助用户识别敏感信息、总结相关隐私政策，并在与他人共享信息时突出显示潜在风险。大语言模型。我们在两个示例域中评估了 CLEAR 的可用性和实用性：ChatGPT 和 Gmail 中的 Gemini 插件。我们的研究结果表明，CLEAR 易于使用，并提高了用户对数据实践和隐私风险的理解。我们还讨论了大语言模型在提出和减轻隐私风险、提供设计和政策影响方面的双重性。

对人工智能歧视性决策的看法：揭示个体特征的作用

分类： 人机交互, 人工智能, 计算机与社会

作者： Soojong Kim

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13250v1

摘要： 本研究调查了个人差异（数字自我效能、技术知识、平等信念、政治意识形态）和人口因素（年龄、教育和收入）如何与表现出性别和种族偏见的人工智能（AI）结果的看法相关联。对人工智能的普遍态度。对大规模实验数据集（N = 1,206）的分析表明，数字自我效能和技术知识与对人工智能的态度呈正相关，而自由主义意识形态与结果信任、更高的负面情绪和更大的怀疑呈负相关。此外，年龄和收入与理解歧视性人工智能结果的认知差距密切相关。这些发现强调了促进数字素养技能和增强数字自我效能以保持对人工智能的信任以及对人工智能有用性和安全性的信念的重要性。研究结果还表明，对有问题的人工智能结果的理解差异可能与经济不平等和社会代沟有关。总体而言，这项研究揭示了社会技术系统，其中社会等级、划分和机器之间发生复杂的相互作用，反映并加剧了不平等。

通过协作 AI 增强情感分析：架构、预测和部署策略

分类： 软件工程, 人工智能, 人机交互

作者： Chaofeng Zhang, Jia Hou, Xueting Tan, Caijuan Chen, Hiroshi Hashimoto

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13247v1

摘要： 基于大语言模型 (LLM) 的人工智能技术的进步已经改变了游戏规则，特别是在情感分析方面。这一进展实现了从高度专业化的研究环境向行业内实际、广泛应用的转变。然而，集成不同的人工智能模型来处理复杂的多模态数据以及相关的特征提取的高成本带来了巨大的挑战。受面向营销的软件开发需求的推动，我们的研究引入了一种协作式人工智能框架，旨在跨各种人工智能系统有效地分配和解决任务，以解决这些问题。首先，我们阐明了从我们的开发过程中得出的关键解决方案，强调了生成式 AI 模型（如 \emph{chatgpt}、\emph{google gemini}）在将复杂的情感分析任务简化为可管理的分阶段目标方面的作用。此外，我们还利用边缘和云中的协作人工智能系统进行了详细的案例研究，展示了其在分析不同在线媒体渠道的情绪方面的有效性。

使用无人机和增强现实技术实时查看墙后的情况

分类： 多代理系统, 计算机视觉和模式识别, 人机交互

作者： Sikai Yang, Kang Yang, Yuning Chen, Fan Zhao, Wan Du

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13139v1

摘要： 这项工作提出了 ARD2，这是一个使用两架无人机和增强现实 (AR) 设备实现实时穿墙监视的框架。 ARD2由两个主要步骤组成：目标方向估计和轮廓重建。在第一阶段，ARD2 利用无人机、用户和目标之间的几何关系将目标的方向投影到用户的 AR 显示器上。在第二阶段，合成来自无人机的图像以重建目标的轮廓，使用户能够可视化墙后的目标。实验结果证明了系统在方向估计和轮廓重建方面的准确性。

算法组织的未来：去中心化自治组织（DAO）的大规模分析

分类： 社交和信息网络, 计算工程、金融和科学, 密码学和安全, 计算机与社会, 人机交互

作者： Tanusree Sharma, Yujin Potter, Kornrapat Pongmala, Henry Wang, Andrew Miller, Dawn Song, Yang Wang

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.13095v1

摘要： 去中心化自治组织（DAO）类似于早期的在线社区，特别是那些以开源项目为中心的社区，并通过在区块链上的“智能合约”中编码治理规则，为复杂的社会计算系统提供了潜在的经验框架。 DAO 的一个关键功能是集体决策，通常通过一系列提案来执行，其中成员使用治理代币对组织事件进行投票，这表明 DAO 内的相对影响力。在短短几年内，DAO 的部署激增，截至 2024 年，总资金达到 245 亿美元，1110 万治理代币持有者共同管理着超过 13,000 个 DAO 的决策。在这项研究中，我们研究了 100 个 DAO 的运营动态，例如 plesrdao 、lexdao、lootdao、optimism Collective、uniswap 等。通过对各种 DAO 类别和智能合约进行大规模实证分析，并利用链上（例如投票结果）和链下数据，我们研究了以下因素投票权、参与度和 DAO 特征决定了权力下放的水平，从而决定了管理结构的效率。因此，我们的研究强调，草根参与度的提高与 DAO 中更高的去中心化程度相关，而 DAO 内投票权差异的降低与更高水平的去中心化相关，正如基尼指标所衡量的那样。这些见解与政治学的关键主题密切相关，例如决策中的权力分配和各种治理模式的影响。最后，我们讨论了对研究人员和从业者的影响，强调这些因素如何为需要利益相关者积极参与决策的新兴应用中的民主治理系统的设计提供信息。

BOXR：扩展现实的身体和头部运动优化框架

分类： 系统与控制, 计算机视觉和模式识别, 人机交互, 系统与控制

作者： Ziliang Zhang, Zexin Li, Hyoseung Kim, Cong Liu

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.13084v1

摘要： 独立 XR 系统的出现增强了用户的移动性，可以适应微妙、频繁的头部运动和大量、不那么频繁的身体运动。然而，普遍使用的 M2D 延迟指标（测量最近的运动与其相应的显示更新之间的延迟）仅考虑头部运动。如果涉及剧烈的身体运动，这种疏忽可能会使用户容易晕车。尽管现有方法通过异步任务调度和重投影方法来优化 M2D 延迟，但它们引入了任务之间的资源争用和过时的姿态数据等挑战。运行时的用户运动动态和场景变化使这些挑战变得更加复杂。为了解决这些问题，我们首次引入了 C2D 延迟指标，它可以捕获身体运动引起的延迟，并提出 BOXR，这是一个旨在共同优化 XR 系统内身体和头部运动延迟的框架。 BOXR 通过有效地调度任务来避免争用，同时在输出帧中保持最新的姿态，从而增强了 M2D 和 C2D 延迟之间的协调。此外，BOXR 还采用了运动驱动的视觉惯性里程计来适应用户的运动动态，并采用场景相关的注视点渲染来有效地管理场景中的变化。我们的评估表明，BOXR 在跨 3 个硬件平台的 4 个 XR 应用程序的 11 个 EuRoC MAV 数据集中明显优于最先进的解决方案。在受控运动和场景设置中，BOXR 可分别将 M2D 和 C2D 延迟减少高达 63% 和 27%，并将帧速率提高高达 43%。在实际部署中，BOXR 在现实场景中实现了 M2D 延迟高达 42% 和 C2D 延迟高达 31% 的大幅降低，同时保持 M2D 需求仅为 1.6% 和 C2D 需求为 1.0% 的极低错失率。

零样本 CSS 分类中的 LLM 置信度评估措施

分类： 人机交互, 计算和语言, 信息检索

作者： David Farr, Iain Cruickshank, Nico Manzonelli, Nicholas Clark, Kate Starbird, Jevin West

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.13047v1

摘要： 评估分类置信度对于在自动标记任务中利用大型语言模型 (LLM) 至关重要，特别是在计算社会科学 (CSS) 任务呈现的敏感领域。在本文中，我们做出了三个关键贡献：（1）我们提出了一种针对数据注释任务量身定制的不确定性量化（UQ）绩效衡量标准，（2）我们首次比较了三个不同的大语言模型和CSS的五种不同的UQ策略数据注释任务，（3）我们引入了一种新颖的 UQ 聚合策略，该策略可以有效识别低置信度的 LLM 注释，并不成比例地发现 LLM 错误标记的数据。我们的结果表明，我们提出的昆士兰大学聚合策略改进了现有方法，可用于显着改进人机交互数据注释流程。

LFOsum：用大型语言模型总结长篇观点

分类： 计算和语言, 人工智能, 新兴技术, 人机交互, 信息检索

作者： Mir Tafseer Nayeem, Davood Rafiei

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.13037v1

摘要： 在线评论在影响从购买产品到选择酒店或餐厅等各个领域的消费者决策方面发挥着关键作用。然而，大量的评论（通常包含重复或不相关的内容）会导致信息过载，使用户难以提取有意义的见解。传统的意见摘要模型在处理长输入和大量评论方面面临挑战，而较新的大型语言模型（LLM）方法通常无法生成准确和忠实的摘要。为了应对这些挑战，本文引入了 (1) 一个新的长格式用户评论数据集，每个实体包含超过一千条评论，(2) 两种无需训练的基于 LLM 的摘要方法，可扩展到长输入，以及 (3 ）自动评估指标。我们的用户评论数据集与领域专家的深入且公正的批评摘要相结合，作为评估的参考。此外，我们新颖的无参考评估指标提供了对摘要忠实度更精细、上下文敏感的评估。我们使用我们的方法对多个开源和闭源大语言模型进行基准测试。我们的评估表明，大语言模型在平衡长篇摘要中的情绪和格式遵循方面仍然面临挑战，尽管开源模型可以缩小以集中方式检索相关信息时的差距。

揭示互联网的隐藏价值：利用 Reddit 上高赞内容对理想行为进行实证研究

分类： 人机交互, 社交和信息网络

作者： Agam Goyal, Charlotte Lambert, Eshwar Chandrasekharan

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.13036v1

摘要： 在线空间管理员的一项主要任务是制定规范，本质上是为其社区中的用户行为创建共享规范。平台设计原则强调突出遵守规范的示例并明确说明社区规范的重要性。然而，社区之间的规范和价值观各不相同，并且超出了内容层面的属性，这使得平台和研究人员很难提供自动化的方法来识别需要突出显示的理想行为。当前检测意愿的自动化方法仅限于亲社会行为的衡量标准，但我们不知道这些衡量标准是否完全反映了社区所重视的范围。在本文中，我们使用表示社区认可的投票作为意愿的代表，并对 Reddit 上 85 个热门子社区的高投票评论进行了分析。使用大型语言模型，我们从这些评论中提取值，并根据社区中的频率编译 97 个 $\textit{macro}$、$\textit{meso}$ 和 $\textit{micro}$ 值。此外，我们发现现有的用于衡量亲社会性的计算模型不足以捕获我们提取的 86 个值。最后，我们表明，我们的方法不仅可以从先前的分类法中提取大部分定性识别的值，而且还可以发现在实践中实际鼓励的新值。这项工作对于提高主持人对其社区价值观的理解具有影响，激发了对亲社会衡量标准之外的细致入微的期望模型的需求，并提供了一个可以通过更大规模的内容分析来补充定性工作的框架。

超越内在动机：自主动机在用户体验中的作用

分类： 人机交互

作者： Daniel Bennett, Elisa Mekler

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12991v1

摘要： 动机和自主性是人机交互 (HCI) 的基本概念，但在用户体验 (UX) 研究中，它们仍然处于边缘地位。我们利用自我决定理论 (SDT) 来分析 497 种互动体验中的自主和非自主动机模式。通过潜在概况分析，我们确定了技术使用中 5 种不同的动机模式——“动机概况”——与需求满足、情感和可用性方面的显着差异相关。用户对这些体验的描述也揭示了个人资料之间的质的差异：从有意、有目的的参与，到用户自己认为不健康的强迫性使用。我们的结果使内在动机的积极概念变得复杂，并阐明了外在动机如何有助于积极的用户体验。基于这些发现，我们确定了 UX 和 SDT 的开放性问题，解决“享乐动机”（本质上有动机但不被重视的活动中的负面体验）和“内化设计”——构建健康和可持续的参与模式时间。

坚定地挖掘层次结构：通过技能分布的成对比较构建 CS1 技能层次结构

分类： 人机交互

作者： Dip Kiran Pradhan Newar, Max Fowler, David H. Smith IV, Seth Poulsen

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12967v1

摘要： 入门编程课程中教授的技能分为 1) \textit{解释} 代码的用途，2) 以正确的 \textit{sequence } 排列代码行的能力，以及 3) \textit{trace} 的能力通过执行程序，以及 4) 从头开始 \textit{编写} 代码的能力。了解一种编程技能是否是另一种编程技能的先决条件将使学生受益，特别是那些刚接触编程的学生，因为他们可以按照最佳技能顺序遇到新主题。在本研究中，我们使用关联规则挖掘的信念度量对五种技能进行成对比较：编写、跟踪、反向跟踪、序列和解释代码。我们使用了来自美国一所公立大学的四项考试的数据，每项考试都有 600 多名参与者，学生们针对多个编程主题解决了不同技能的编程作业。我们的发现与之前的发现相符，即跟踪是学生学习编写代码的先决条件。但是，与之前的说法相矛盾的是，我们的分析表明，编写代码是解释代码的先决技能，而对代码进行排序并不是编写代码的先决条件。我们的研究可以帮助教师系统地安排学生在遇到新主题时所练习的技能。目标是减少学生在学习该主题时遇到的困难。

人工智能对开发速度有多大影响？基于企业的随机对照试验

分类： 软件工程, 人机交互, C.4; D.2.8; D.2.6; H.5.2; I.2.1; I.2.m

作者： Elise Paradis, Kate Grey, Quinn Madison, Daye Nam, Andrew Macvean, Nan Zhang, Ben Ferrari-Church, Satish Chandra

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12944v1

摘要： 人工智能辅助对开发人员的生产力有多大影响？迄今为止，软件工程文献已经提供了一系列答案，针对不同的结果：从感知的生产力到任务速度和开发人员吞吐量。我们对 96 名全职 Google 软件工程师进行的随机对照试验，分享了三种 AI 功能对开发人员在复杂的企业级任务上花费的时间的影响的估计，为本文做出了贡献。我们发现人工智能显着缩短了开发人员花在任务上的时间。尽管我们的置信区间很大，但控制了已知影响开发人员完成任务的时间的因素后，我们对这种影响大小的最佳估计约为 21%。我们还发现了一个有趣的效果，即每天在代码相关活动上花费更多时间的开发人员使用 AI 的速度更快。讨论了产品和未来研究的考虑因素。特别是，我们邀请进一步的研究来探索人工智能在生态系统层面以及跨多套人工智能增强工具的影响，因为我们不能假设我们的实验室研究中获得的效应大小必然适用于更广泛的范围，或者该效应2024 年夏天，使用 Google 内部工具发现的人工智能的结果将随着时间的推移跨工具进行转化。

Drillboards：用于动态个性化可视化体验的自适应可视化仪表板

分类： 人机交互

作者： Sungbok Shin, Inyoup Na, Niklas Elmqvist

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12744v1

摘要： 我们提出了钻板，这是一种自适应可视化仪表板技术，由协调图表的层次结构组成，用户可以根据自己的专业知识、兴趣和期望的努力向下钻取以达到所需的详细程度。此功能允许不同的用户根据自己的特定需求和专业知识对同一仪表板进行个性化设置。该技术基于图表表示的正式词汇和用于将不同类型和数据的多个图表合并成单个复合表示的规则。钻板层次结构是通过从基线仪表板开始迭代应用这些规则来创建的，每个连续操作都会生成一个新的仪表板，其中包含更少的图表以及逐渐更加抽象和简化的视图。我们还提供了一种用于构建钻板的创作工具，并展示了如何将其应用于具有数百名专家用户的农业数据集。我们的评估要求三位领域专家为他们自己的数据集编写钻板，然后我们将其展示给临时最终用户，并获得良好的结果。

他们了解自己在使用什么吗？ -- 评估生物识别技术的认知和使用

分类： 人机交互, 计算机与社会

作者： Lukas Mecke, Alia Saad, Sarah Prange, Uwe Gruenefeld, Stefan Schneegass, Florian Alt

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12661v1

摘要： 在本文中，我们评估用户对生物识别认证方法的了解程度、他们如何看待这些方法以及他们是否对这些方法有误解。我们展示了我们分两轮进行的在线调查结果（2019 年，N=57；2023 年，N=47），以了解生物识别技术日益普及对其使用和认知的影响。该调查涵盖了参与者对生理和行为生物识别技术的一般理解以及他们感知的可用性和安全性。虽然大多数参与者能够举出例子并表示他们在日常生活中使用生物识别技术，但他们仍然难以解释其背后的概念。我们揭示了参与者的误解、他们对身份验证失败和潜在攻击的应对策略，以及他们对生物识别技术可用性和安全性的总体看法。因此，我们的结果可以支持进一步研究的设计，以获得更深入的见解，也可以支持未来生物识别接口的设计，以促进生物识别技术的明智使用。

现在拒绝：算法集体行动的组合模型

分类： 计算机科学与博弈论, 人机交互

作者： Dorothee Sigg, Moritz Hardt, Celestine Mendler-Dünner

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12633v1

摘要： 外卖平台上的司机经常因低薪订单而亏损。作为回应，DoorDash 的工作人员发起了一场#DeclineNow 活动，有目的地拒绝低于特定工资门槛的订单。对于每个被拒绝的订单，平台会将请求返回给其他可用的司机，并稍微增加工资。虽然该战略的实施有助于整体加薪，但也存在错过每个司机订单的风险。在这项工作中，我们提出了第一个组合模型来研究工人和平台之间的战略互动。在我们的模型中，我们正式确定了关键数量，例如该策略的平均工人收益、搭便车的收益以及参与的收益。我们通过模拟扩展了我们的理论结果。我们的主要见解表明，该策略的平均工人收益始终是正的，而参与的收益仅在小程度的劳动力过剩时才是正的。超过这一点，与非参与者的效用相比，随着供给过剩程度的增加，参与者的效用下降得更快。我们的工作强调了劳动力供应水平对于零工平台上集体行动有效性的重要性。我们建议轮班组织作为减少供应过剩和赋予集体权力的一种手段。

关于大型语言模型领域建模辅助的实用性

分类： 软件工程, 人工智能, 人机交互

作者： Meriem Ben Chaaben, Lola Burgueño, Istvan David, Houari Sahraoui

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12577v1

摘要： 模型驱动工程 (MDE) 通过抽象简化了软件开发，但时间限制、不完整的领域理解以及遵守语法约束等挑战阻碍了设计过程。本文提出了一项研究，旨在评估利用大型语言模型 (LLM) 和小样本提示学习来协助领域建模的新方法的有效性。这种方法的目的是克服在稀缺的特定领域数据集上对基于人工智能的完成模型进行广泛训练的需求，并为各种建模活动提供多功能支持，为软件建模者提供有价值的建议。为了支持这种方法，我们开发了 MAGDA，这是一种用户友好的工具，通过它我们进行用户研究并评估我们的方法在领域建模背景下的实际适用性，为其可用性和有效性提供有价值的见解。

探索自我追踪技术的多元视角：自我追踪实践中的信任与反思

分类： 人机交互

作者： Sujay Shalawadi, Rosa van Koningsbruggen, Rikke Hagensby Jensen

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12546v1

摘要： 智能手表和智能手机应用程序等当代自我跟踪技术（STT）使人们能够通过日常生活的数据化来实现自我意识。然而，人们对全球北方/西方在 STT 设想中对自我的描绘产生了担忧。鉴于要求人机交互知识构建的参与者样本多样化，我们认为它及时地了解了全球南方社会中无处不在的 STT 的影响。我们通过两次迭代调查分别对来自全球北部和南部的 156 名和 121 名参与者进行了组间分析。我们发现各组之间在 STT 和反思实践中感知信任的显着差异。我们提供了关于倡导包容性设计策略的实证理解，这些策略承认对 STT 的不同解释，并强调需要优先考虑当地价值观和跟踪灵活性，以促进更深入的跨文化反思。最后，我们讨论了与现有文献相关的研究结果，并重点介绍了未来研究的设计建议。

对话任务助手的多特征用户模拟和自适应解码

分类： 计算和语言, 人工智能, 人机交互, I.2.7

作者： Rafael Ferreira, David Semedo, João Magalhães

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12891v1

摘要： 对话系统必须对自然表现出不同对话特征的用户交互具有鲁棒性。连贯而有效地捕捉和模拟这些不同的特征是一项复杂的挑战。本文介绍了多特征自适应解码（mTAD），这是一种通过从各种特定特征的语言模型（LM）中采样在解码时生成不同用户配置文件的方法。 mTAD 提供了一种自适应且可扩展的用户模拟方法，无需额外的微调即可创建多个用户配置文件。通过分析对话任务助手 (CTA) 领域的现实世界对话，我们确定了关键的对话特征，并开发了一个框架来生成可增强对话多样性的个人资料感知对话。实验结果验证了我们使用专门的语言模型对单一特征进行建模的方法的有效性，即使在域外任务中，这种方法也可以捕获不太常见的模式。此外，结果表明 mTAD 是一个强大而灵活的框架，用于组合不同的用户模拟器。

隐私设计：提高用户对物联网隐私风险的认识

分类： 人机交互

作者： Usama Younus, Rie Kamikubo

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12336v1

摘要： 本文旨在通过设计隐私的视角来涵盖和总结物联网领域和相关的隐私问题。随着技术越来越多地融入我们的日常生活以及对智能设备和技术的不断积极研究，隐私问题是不可避免的。我们打算简要介绍物联网领域隐私的广泛主题、此类系统固有的挑战和风险，以及旨在在子域级别和系统规模级别解决这些问题的一些最新技术。然后，我们继续通过设计思维和隐私设计来处理这种情况，因为之前的大部分努力都是基于通过系统级设计来解决技术层面的隐私问题。我们参加了内容创建平台隐私的联合设计研讨会，并利用这些发现部署了基于调查的机制，以解决用户群体的一些关键关注领域，并制定隐私设计原则，以促进透明、以用户为中心、以及引起人们注意的隐私设计。

虚拟和增强现实作为符号组合

分类： 人机交互

作者： Charles Bodon

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12888v1

摘要： 反对所有将虚拟性视为一种实体（平行或替代现实）或一种模态（如潜力或可能性）的尝试，我们想要捍卫实用主义的观点，即虚拟性是与现实的动态认知和敏感互动。更准确地说，我们表明“美德”是一种操作能力，可以模拟真实和虚构的环境来实验其效果。基于皮尔士的符号学，我们将虚拟现实（VR）和增强现实（AR）定义为由“符号集合”组成的混合现实，即通过计算和意义过程（符号学）组装的符号结构。我们证明，虚拟现实可以被定义为一种联觉实验，它不会重塑现实本身，而是重塑我们已有的感官和理解。总之，我们通过区分知识和信息来批评大卫·查尔默的扩展心智理论，并试图将 AR 重新定义为一种解释装置，它不是扩展心智本身，而是通过添加在世界上阅读的符号来扩展思维活动。

基于大语言模型的误解学生认知模型

分类： 人机交互, 计算和语言, 计算机与社会, 机器学习

作者： Shashank Sonkar, Xinghe Chen, Naiming Liu, Richard G. Baraniuk, Mrinmaya Sachan

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12294v2

摘要： 准确地建模学生认知对于开发有效的人工智能驱动的教育技术至关重要。一个关键的挑战是创建满足两个基本属性的现实学生模型：（1）准确地复制特定的误解，以及（2）正确解决这些误解不适用的问题。这种双重要求反映了学生理解的复杂性，其中错误观念与正确知识并存。本文研究了是否可以对大型语言模型（LLM）进行指令调整以满足这种双重要求并有效地模拟学生的代数思维。我们介绍 MalAlgoPy，这是一个新颖的 Python 库，它通过基于图形的代数问题解决表示来生成反映真实学生解决方案模式的数据集。利用 MalAlgoPy，我们定义并检查认知学生模型 (CSM) - 大语言模型的教学经过调整，可以忠实地模拟现实的学生行为。我们的研究结果表明，接受错误概念示例培训的大语言模型可以有效地学习复制错误。然而，训练削弱了模型正确解决问题的能力，特别是对于错误概念不适用的问题类型，从而无法满足 CSM 的第二个属性。我们证明，通过仔细校准训练数据中正确与错误概念示例的比率（有时低至 0.25），可以开发满足这两个属性的 CSM。我们的见解增强了我们对基于人工智能的学生模型的理解，并为有效的自适应学习系统铺平了道路。

骗我一次吗？临床决策支持环境中对比文本和视觉解释

分类： 人机交互, 计算和语言, 计算机视觉和模式识别

作者： Maxime Kayser, Bayar Menzat, Cornelius Emde, Bogdan Bercean, Alex Novak, Abdala Espinosa, Bartlomiej W. Papiez, Susanne Gaube, Thomas Lukasiewicz, Oana-Maria Camburu

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12284v1

摘要： 人工智能模型不断增强的功能使其得到更广泛的应用，包括在安全关键领域。可解释的人工智能（XAI）旨在通过使这些模型的推理过程更加透明来使这些模型使用起来更安全。然而，当前的可解释性方法很少按照其预期使用方式进行评估：由现实世界的最终用户。为了解决这个问题，我们在人类与人工智能协作胸部 X 射线分析的背景下，对 85 名医疗保健从业者进行了一项大规模用户研究。我们评估了三种类型的解释：视觉解释（显着图）、自然语言解释以及两种模式的组合。我们根据人工智能建议和解释是否真实正确，专门研究了不同的解释类型如何影响用户。我们发现基于文本的解释会导致严重的过度依赖，通过将它们与显着图结合起来可以缓解这种依赖。我们还观察到，解释的质量，即它们包含多少事实上正确的信息，以及与人工智能正确性的一致程度，显着影响不同解释类型的有用性。

VisAnatomy：具有细粒度语义标签的 SVG 图表语料库

分类： 人机交互

作者： Chen Chen, Hannah K. Bako, Peihong Yu, John Hooker, Jeffrey Joyal, Simon C. Wang, Samuel Kim, Jessica Wu, Aoxue Ding, Lara Sandeep, Alex Chen, Chayanika Sinha, Zhicheng Liu

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12268v1

摘要： 图表语料库由数据可视化及其语义标签组成，对于推进可视化研究至关重要。然而，大多数现有图表语料库中的标签都是高级别的（例如图表类型），阻碍了它们在更广泛的交互式应用程序（例如图表重用、动画和可访问性）中的实用性。在本文中，我们贡献了 VisAnatomy，这是一个图表语料库，包含由 50 多种工具生成的 942 个真实世界的 SVG 图表，涵盖 40 种图表类型，并具有结构和风格设计变化。每个图表都在其语义组件上添加了多级细粒度标签，包括每个图形元素的类型、角色和位置、元素的层次分组、组布局和视觉编码。我们通过将 VisAnatomy 与现有语料库进行比较来展示语义标签的丰富性。我们通过四个应用程序说明 VisAnatomy 的实用性：图表类型分类、图表分解、动画创作和可访问性内容导航。最后，我们讨论了改进 VisAnatomy 的计划以及 VisAnatomy 带来的研究机会。

iFuzzyTL：SSVEP BCI 系统的可解释模糊迁移学习

分类： 人机交互, 机器学习

作者： Xiaowei Jiang, Beining Cao, Liang Ou, Yu-Cheng Chang, Thomas Do, Chin-Teng Lin

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12267v1

摘要： 脑机接口（BCI）的快速发展极大地影响了人机交互领域，稳态视觉诱发电位（SSVEP）成为一种非常强大的范例。本研究探索利用可解释模糊迁移学习 (iFuzzyTL) 的高级分类技术来增强基于 SSVEP 的系统的适应性和性能。最近通过创新的迁移学习方法加强了减少校准要求的努力，这些方法通过领域适应和少样本学习策略的战略应用来完善跨学科的通用性并最大限度地减少校准。深度学习的开创性发展还提供了有希望的增强功能，促进强大的领域适应并显着提高 SSVEP 分类的系统响应能力和准确性。然而，这些方法通常需要复杂的调整和大量的数据，限制了直接适用性。 iFuzzyTL 引入了一种自适应框架，将模糊逻辑原理与神经网络架构相结合，重点关注高效的知识转移和领域适应。 iFuzzyTL 通过集成模糊推理系统和注意力机制，以人类可解释的格式完善输入信号处理和分类。这种方法通过有效管理脑电图数据固有的变异性和不确定性，提高了模型的精度并符合现实世界的操作需求。该模型的功效在三个数据集上得到了证明：12JFPM（1 秒准确率为 89.70%，信息传输率 (ITR) 为 149.58）、Benchmark（1 秒准确率为 85.81%，ITR 为 213.99）和 eldBETA（1 秒准确率为 76.50%） ITR 为 94.63），取得了最先进的结果，并为 SSVEP BCI 性能设定了新基准。

探索虚拟现实用户参与对游客行为反应的影响，整合旅游视角的环境关注：一种新的混合机器学习方法

分类： 人机交互, 机器学习

作者： D. W. Shang

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12223v1

摘要： 由于 COVID-19 大流行的影响，引人注目的网站往往会采用新的景点方式来向游客提供虚拟现实 (VR) 等旅游产品和服务。基于系统的人机交互（HCI）用户参与和叙事运输理论，我们使用混合偏最小二乘结构方程模型（PLS-SEM）和人工神经网络（ANN）机器学习方法开发和测试了一个理论框架，研究了 COVID-19 期间游客形象和亲自旅游意图 (ITI) 的关键用户参与驱动因素。此外，我们提出了一种新颖的混合方法，称为反射和形成 PLS-SEM-ANN (FRPSA)，同时考虑 PLS-SEM 中的反射和二阶形成结构，从而在复杂模型中发挥其不同优势。根据游客的反馈样本，结果表明：a）用户参与度，包括感觉参与度、审美吸引力、感知可用性、集中注意力、耐用性和新颖性，都直接影响亲自旅游意图； b) 旅游出行 (EC) 的环境关注正向调节用户参与度与 ITI 之间的关系； c) EC 负面调节意象与 ITI 之间的关系； d) 图像在用户参与度和 ITI 之间发挥中介作用； e) 感受到的投入和审美情趣既表现出线性重要性影响又表现出非线性重要性。最后，相应地讨论了理论贡献和实际意义。

采用陪伴机器人的挑战：对中国退休人员进行机器人陪伴的探索性研究

分类： 人机交互

作者： Mengyang Wang, Keye Yu, Yukai Zhang, Mingming Fan

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12205v1

摘要： 在快速老龄化的世界中，伴侣机器人在为老年人提供情感支持方面具有巨大的潜力。然而，关于拥有机器人伴侣是否对健康的老年人有益、他们如何看待伴侣机器人的价值以及他们与伴侣机器人的关系如何，人们提出了疑问。为了了解健康老年人对伴侣机器人的看法、态度和关系，我们对 18 名退休人员进行了多次焦点小组讨论。我们的研究结果强调了中国老年人所遇到的社会背景，并揭示了目前陪伴机器人的价值主张与健康老年人的需求之间的不匹配。我们进一步确定了影响机器人陪伴采用的因素，其中包括个人的自我披露倾向、陪伴质量、差异化价值以及与社区老龄化基础设施和服务的无缝协作。

混合现实还是被误解的现实？通过超现实的我实现弗卢瑟式的媒体自由

分类： 人机交互

作者： Aven-Le Zhou, Lei Xi, Kang Zhang

发布时间： 2024-10-16

链接： http://arxiv.org/abs/2410.12171v1

摘要： 本文深入探讨了 Vil'em Flusser 对媒体作为调解者的批评，媒体扭曲了人类对现实的感知并削弱了自由，特别是在混合现实背景下，即误解的现实。它通过“超现实的我”引入了艺术探究，让参与者体验两个阶段的虚拟体现过程并揭示“被误解的现实”。该过程检验了媒体的混淆本质；当身临其境的感觉不可避免地崩溃时，用户可以发现媒体投射的现实的构建本质。当用户在 MR 中反思现实的真实和中介体验时，这项工作促进了对 Flusserian 媒体自由的批判性讨论，解决了新兴的沉浸式技术。

生成人工智能的聚合知识与基于网络的精选知识

分类： 人机交互, 人工智能

作者： Ted Selker, Yunzi Wu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.12091v1

摘要： 他的论文探讨了使用大型语言模型 (LLM) 聚合和打包知识的生成式人工智能 (GenAI) 能够最好地解决哪些类型的问题，以及传统的网络搜索结果何时能够更好地为用户服务。一项实验比较了使用 ChatGPT、Google 搜索引擎或两者的产品搜索，帮助我们更多地了解生成的响应的引人注目的性质。实验表明 GenAI 可以加快一些探索和决策的速度。我们描述了搜索如何加深对事实、逻辑和上下文的测试。我们展示了现有和新兴的知识范式可以在哪些方面以不同的方式帮助知识探索。通过搜索实验，我们的调查显示了精心策划的网络搜索的价值，它提供了非常具体的、不太为人所知的知识。 GenAI 擅长汇集广泛的、相对知名的主题的知识。不同类型知识的策划和聚合知识的价值体现在不同的用户目标中。我们开发了一种分类法来区分这两种方法何时可以为用户提供最佳服务。

利用 GPT-4 为记者解除科学术语：一项试点研究

分类： 计算和语言, 计算机与社会, 人机交互, H.4; H.5

作者： Sachita Nishal, Eric Lee, Nicholas Diakopoulos

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.12069v1

摘要： 本研究对人机循环系统进行了初步评估，该系统利用 GPT-4（大型语言模型或 LLM）和检索增强生成（RAG）来根据读者的情况识别和定义科学摘要中的行话术语'自我报告的知识。该系统在识别术语方面实现了相当高的召回率，并保留了读者术语识别方面的相对差异，表明个性化是大语言模型支持复杂信息的意义构建的可行用例。令人惊讶的是，仅使用上下文摘要来生成定义比使用文章全文中基于 RAG 的上下文产生的定义稍微更准确、质量更高。这些发现凸显了生成式人工智能在协助科学记者方面的潜力，并且可以为未来开发简化密集文档的工具的工作提供信息。

实现数据驱动和移情交互：混合现实中的上下文感知 3D 虚拟代理，以增强金融客户体验

分类： 人机交互, 人工智能, 新兴技术, 多媒体, H.5.1; K.4.3

作者： Cindy Xu, Mengyu Chen, Pranav Deshpande, Elvir Azanli, Runqing Yang, Joseph Ligman

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.12051v1

摘要： 在本文中，我们介绍了一种新颖的系统，旨在通过上下文感知的 3D 虚拟代理，利用混合现实 (MR) 和视觉语言模型 (VLM) 来增强金融和零售领域的客户服务。我们的方法侧重于实现数据驱动和同理心交互，通过引入物理位置的态势感知、基于客户资料的个性化交互以及严格的隐私和安全标准来确保客户满意度。我们讨论了对于实际客户服务环境中的部署至关重要的设计考虑因素，解决了用户数据管理和敏感信息处理方面的挑战。我们还概述了银行和零售环境特有的系统架构和关键功能。我们的工作展示了在服务行业中集成 MR 和 VLM 的潜力，提供客户服务交付方面的实用见解，同时保持高标准的安全性和个性化。

通过匹配在线和离线设置实现提交消息生成的现实评估

分类： 软件工程, 人机交互, 机器学习

作者： Petr Tsvetkov, Aleksandra Eliseeva, Danny Dig, Alexander Bezzubov, Yaroslav Golubev, Timofey Bryksin, Yaroslav Zharov

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.12046v1

摘要： 提交消息生成 (CMG) 是软件工程中的一项关键任务，很难正确评估。当 CMG 系统集成到 JetBrains 的 IDE 和其他产品中时，我们会根据用户对生成消息的接受程度进行在线评估。然而，对 CMG 系统的每次更改进行在线实验很麻烦，因为每次迭代都会影响用户，并且需要时间来收集足够的统计数据。另一方面，离线评估是研究文献中的一种流行方法，有助于快速实验，但采用的自动指标不能保证代表真实用户的偏好。在这项工作中，我们描述了 JetBrains 用来处理此问题的一种新颖方法，即利用在线指标（用户在将生成的消息提交到 VCS 之前进行的编辑次数）来选择离线实验的指标。为了支持这种新型评估，我们开发了一种新颖的标记收集工具，模仿 CMG 系统的真实工作流程，收集包含 57 对的数据集，其中包含由 GPT-4 生成的提交消息及其由人类专家编辑的对应消息，并设计和验证一种综合扩展此类数据集的方法。然后，我们使用 656 对的最终数据集来研究广泛使用的相似性度量如何与反映真实用户体验的在线度量相关联。我们的结果表明，编辑距离表现出最高的相关性，而常用的相似性度量（例如 BLEU 和 METEOR）表现出较低的相关性。这与之前关于 CMG 相似性指标的研究相矛盾，表明用户在现实环境中与 CMG 系统的交互与在受控研究环境中操作的人类贴标者的响应存在显着差异。我们为研究人员发布了所有代码和数据集：https://jb.gg/cmg-evaluation。

CitySolution：使用深度学习的智慧城市企业投诉任务分布式移动应用程序

分类： 人机交互

作者： Farhatun Shama, Abdul Aziz, Lamisa Bintee Mizan Deya

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.12882v1

摘要： 缺乏用于报告公民投诉的自动化在线平台，加上城市企业在管理这些投诉方面的困难，带来了重大挑战。此外，上级当局用于监测进展情况的可用资源非常有限。本文的主要目标是开发两个 Android 应用程序，并使用在可教机器上创建的深度学习模型自动对投诉进行分类。通过面向公民的应用程序，个人可以通过拍摄市政问题的照片轻松举报投诉。该应用程序的权威版本提供分类投诉以及位置和状态详细信息。上级部门可以监控市政进展，从而提高透明度和效率，推动全国范围内的智慧城市发展。

数字无障碍素养：数字无障碍培训的概念框架

分类： 计算机与社会, 人机交互, K.4.2; K.3.2

作者： Björn Fisseler

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11931v1

摘要： 发展数字无障碍专业知识对于打破障碍和确保数字包容性至关重要。然而，关于数字素养教学的教学文化的论述仍然缺乏。因此，本文将讨论当前关于读写能力描述的讨论，并用它来发展数字无障碍读写能力的概念，作为促进数字无障碍教学文化的基本要素。数字无障碍素养包括无障碍数字内容和技术的创建（编码）和解释（解码）。通过将意识、技术标准、包容性设计实践和持续反馈融入课程中，未来的专业人员将能够创建所有人都可以访问的数字环境。这种综合方法提高了技术技能并灌输道德和社会责任。作为数字无障碍素养概念的初稿，该提案将用作讨论和进一步发展的基础。

改善数字化辅导：Re:Coded 社区平台案例研究的见解和建议

分类： 人机交互

作者： Huda Najm Alabbas

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11912v1

摘要： 随着技术的快速发展，新兴的 IT 专业人员越来越需要指导来确保在该领域的职位。认识到这一需求，ReCoded 通过引入社区平台——“ReCoded 的指导平台”来增强技术训练营毕业生的技能。为了改善 ReCoded 志愿者导师的用户体验，本论文研究了优化导师与数字导师平台的交互，并提供了增强这些交互的建议。多个第三方合作者为 ReCoded 的指导平台提供了支持。本论文以 StellarUp 支持的平台为案例研究。获得的见解可能会为 ReCoded 考虑的任何后续指导平台的用户体验设计提供信息。本论文采用以用户为中心的方法来解决用户体验问题。该研究通过访谈、可用性测试和眼动追踪方法与用户互动，确定了导师用户旅程中的挑战及其需求。出现了三个主要问题：平台导航、入门流程以及外部工具的无缝集成。解决方案源自用于入职的案头研究、用于导航的卡片分类技术以及用于工具集成的竞争分析。在整个研究过程中，收集了 23 名参与者的反馈，确保对开发用户友好且高效的指导平台有全面的理解和可行的建议。

ChatHouseDiffusion：平面图的即时引导生成和编辑

分类： 人机交互, 人工智能

作者： Sizhong Qin, Chengyu He, Qiaoyun Chen, Sen Yang, Wenjie Liao, Yi Gu, Xinzheng Lu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11908v1

摘要： 平面图的生成和编辑对于建筑规划至关重要，需要高度的灵活性和效率。现有方法需要大量输入信息，并且缺乏交互式适应用户修改的能力。本文介绍了 ChatHouseDiffusion，它利用大型语言模型（LLM）来解释自然语言输入，使用图形生成器来编码拓扑关系，并使用扩散模型来灵活地生成和编辑平面图。这种方法允许根据用户想法进行迭代设计调整，显着提高设计效率。与现有模型相比，ChatHouseDiffusion 获得了更高的交集比并集 (IoU) 分数，无需完全重新设计即可进行精确的局部调整，从而提供了更大的实用性。实验表明，我们的模型不仅严格遵守用户规范，而且通过其交互功能促进了更直观的设计过程。

通过基于大语言模型的交互式代理增强用户的数字隐私管理能力

分类： 人机交互, 人工智能, 密码学和安全

作者： Bolun Sun, Yifan Zhou, Haiyun Jiang

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11906v1

摘要： 本文提出了大语言模型（LLM）的一种新颖应用，通过交互式对话代理来增强用户对隐私策略的理解。我们证明，大语言模型在数据实践识别、选择识别、政策总结和隐私问答等任务中显着优于传统模型，为隐私政策分析树立了新的基准。基于这些发现，我们引入了一种基于大语言模型的创新代理，该代理充当处理网站隐私政策的专家系统，指导用户使用复杂的法律语言，而不要求他们提出具体问题。一项针对 100 名参与者的用户研究表明，在代理的帮助下，用户的理解水平更高（平均分为 2.6 分（满分 3 分），而对照组为 1.8 分），认知负荷降低（任务难度评分为 3.2 分（满分 10 分），对照组为 7.8 分），增强了管理隐私的信心，并在更短的时间内完成了任务（5.5 分钟与 15.8 分钟）。这项工作凸显了基于大语言模型的代理在改变用户与隐私政策的交互方面的潜力，从而获得更知情的同意并在数字服务领域赋予用户权力。

聋人或听障人士网上相爱的实践与挑战：中国案例研究

分类： 人机交互

作者： Beiyan Cao, Jingling Zhang, Changyang He, Yuru Huang, Muzhi Zhou, Mingming Fan

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11810v1

摘要： 中国的耳聋或听力障碍者 (DHH) 越来越多地探索在线平台来与潜在合作伙伴建立联系。本研究探讨了中国 DHH 社区的在线约会体验，这是一个尚未得到广泛研究的领域。我们采访了 16 位听力水平和求爱状况各异的参与者，以了解他们如何管理自己的身份以及如何在网上与潜在伴侣进行交流。我们发现DHH个体付出了巨大的努力来驾驭丰富的模态特征来在线寻求爱情。参与者使用基于算法的约会应用程序和论坛和微信等基于社区的平台，通过基于文本的功能促进初次相遇，最大限度地减少听觉互动的需要，从而形成一个更公平的起点。人们发现，基于社区的平台可以促进更深入的沟通，并且在培养信任和真实性方面表现出色，为建立真正的关系提供了更安全的环境。提出了设计建议，以提高中国 DHH 个人在线约会平台的可访问性和包容性。这项研究揭示了中国 DHH 个体在线约会的好处和挑战，并为平台开发商和研究人员增强该领域的用户体验提供指导。

具有态度的角色：控制大语言模型进行多样化的数据注释

分类： 计算和语言, 人机交互

作者： Leon Fröhling, Gianluca Demartini, Dennis Assenmacher

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11745v1

摘要： 我们提出了一种通过个性化大型语言模型（LLM）来增强数据注释任务的多样性和控制的新方法。我们在两项研究中调查了将不同角色描述注入大语言模型提示的影响，探讨角色是否会增加注释多样性，以及个体角色对结果注释的影响是否一致且可控。我们的结果表明，角色提示的大语言模型比没有角色提示的大语言模型产生更多样化的注释，并且这些效果既可控又可重复，使我们的方法成为改进主观 NLP 任务（如毒性检测）中的数据注释的合适工具。

RClicks：用于基准交互式分割的真实点击模拟

分类： 计算机视觉和模式识别, 人工智能, 人机交互, I.4.6

作者： Anton Antonov, Andrey Moskalenko, Denis Shepelev, Alexander Krapukhin, Konstantin Soshin, Anton Konushin, Vlad Shakhuro

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11722v1

摘要： Segment Anything (SAM) 的出现激发了交互式分割领域的研究兴趣，特别是在图像编辑任务和加速数据注释的背景下。与常见的语义分割不同，交互式分割方法允许用户通过提示（例如点击）直接影响其输出。然而，现实世界的交互式细分场景中的点击模式在很大程度上仍未得到探索。大多数方法都基于这样的假设：用户会单击最大错误区域的中心。然而，最近的研究表明情况并非总是如此。因此，尽管基线基准测试的指标很高，但方法在实际部署中的性能可能很差。为了准确模拟真实用户点击，我们对交互式细分场景中的点击模式进行了大规模众包研究，收集了 47.5 万真实用户点击。借鉴显着性任务的想法，我们开发了一个可点击性模型，可以对点击进行采样，这与实际的用户输入非常相似。使用我们的模型和数据集，我们提出了 RClicks 基准，用于对实际点击的现有交互式细分方法进行全面比较。具体来说，我们不仅评估方法的平均质量，还评估方法的稳健性。单击模式。根据我们的基准，在实际使用中，交互式分割模型的性能可能比基准基准中报告的要差，并且大多数方法都不稳健。我们相信，RClicks 是创建交互式细分方法的重要一步，该方法可在现实情况下提供最佳用户体验。

人类与大语言模型合作构建粤语情感词典

分类： 人机交互, 计算和语言

作者： Yusong Zhang, Dong Dong, Chi-tim Hung, Leonard Heyerdahl, Tamara Giles-Vernick, Eng-kiong Yeoh

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11526v1

摘要： 大型语言模型（LLM）在语言理解和生成方面表现出了卓越的能力。人们一直在探索如何高级利用大语言模型中嵌入的知识进行自动注释。本研究建议通过大语言模型和人类注释者之间的合作，为粤语这种资源匮乏的语言开发情感词典。通过整合大语言模型和人类注释者提供的情感标签，该研究利用现有的语言资源，包括其他语言的词典和本地论坛，构建了一个富含口语表达的粤语情感词典。通过修改和利用三个不同的情感文本数据集来评估所提出的情感词典在情感提取中的一致性。这项研究不仅验证了构建词典的有效性，而且还强调人类和人工智能之间的协作注释可以显着提高情感标签的质量，突显这种伙伴关系在促进低资源语言的自然语言处理任务方面的潜力。

EmoBridge：利用表情符号和实时共享弥合残疾学生和同伴记笔记者之间的沟通差距

分类： 人机交互

作者： Hyungwoo Song, Minjeong Shin, Hyehyun Chu, Jiin Hong, Jaechan Lee, Jinsu Eun, Hajin Lim

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11432v1

摘要： 残疾学生（SWD）在听课时经常很难记笔记。因此，许多高等教育机构推行同伴笔记计划（PNTP），由同伴笔记员（PNT）协助社署记课堂笔记。为了更好地了解社署和PNT的经验，我们对八名社署和八名PNT进行了半结构化访谈。我们发现 SWD 和 PNT 之间的互动主要是单向的，突出了特定的需求和挑战。为此，我们开发了 EmoBridge，这是一个协作笔记平台，可使用表情符号促进 PNT-SWD 对之间的实时协作和通信。我们通过对七对 PNT-SWD 进行的野外研究评估了 EmoBridge。结果显示社署的课堂参与度有所提高，而 PNT 的单一责任感则有所降低。基于这些见解，我们讨论了协作笔记系统的设计含义，旨在增强 PNTP 并为社会福利署提供更有效和更具包容性的教育体验。

综合对话者。用生成人工智能来延长民族志接触的实验

分类： 人机交互, 人工智能

作者： Johan Irving Søltoft, Laura Kocksch, Anders Kristian Munk

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11395v1

摘要： 本文介绍了民族志研究的“综合对话者”。合成对话者是通过使用检索增强生成 (RAG) 摄取人种学文本材料（访谈和观察）的聊天机器人。我们将开源大语言模型与来自三个项目的民族志数据相结合，以探讨两个问题：RAG 能否消化民族志材料并充当民族志对话者？如果是这样，综合对话者能否延长与该领域的接触并扩展我们的分析？通过对构建我们的综合对话者和实验性协作研讨会的过程的反思，我们建议 RAG 可以消化民族志材料，并且它可能会导致长期但令人不安的民族志遭遇，使我们能够部分地重新创建和重新访问实地工作互动，同时促进获得新颖分析见解的机会。合成对话者可以产生协作、模糊和偶然的时刻。

适应不同用户群体的人机交互框架

分类： 机器人技术, 计算和语言, 人机交互

作者： Theresa Pekarek Rosin, Vanessa Hassouna, Xiaowen Sun, Luca Krohm, Henri-Leon Kordt, Michael Beetz, Stefan Wermter

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11377v1

摘要： 为了促进在现实世界中与不同用户群体进行自然、直观的交互，社交机器人必须能够满足这些群体的不同需求和期望，同时根据用户反馈调整其行为。虽然之前的研究通常侧重于特定的人口统计数据，但我们提出了一种自适应人机交互（HRI）的新颖框架，该框架可以根据不同的用户组定制交互，并使单个用户能够通过轻微和主要的中断来调节交互。我们的主要贡献包括开发具有开源代码库的自适应、基于 ROS 的 HRI 框架。该框架通过高级语音识别和语音活动检测支持自然交互，并利用大型语言模型 (LLM) 作为对话桥梁。我们通过模块测试和系统试验来验证框架的效率，证明其在年龄识别方面的高精度及其对重复用户输入和计划更改的鲁棒性。

用截图数据检查手机使用人后悔

分类： 人机交互

作者： Longjie Guo, Yue Fu, Xiran Lin, Xuhai "Orson" Xu, Yung-Ju Chang, Alexis Hiniker

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11354v1

摘要： 智能手机用户经常会对手机使用的某些方面感到遗憾，但由于应用程序功能和用户意图的复杂性，找出界面设计导致令人遗憾的使用的具体方式可能具有挑战性。我们对 17 名 Android 用户进行了为期一周的研究，使用了一种新颖的方法，即每五秒被动收集一次屏幕截图，并通过多模式大语言模型对这些屏幕截图进行分析，以提取细粒度的活动。结合体验抽样、调查和访谈，我们发现遗憾因用户意图而异，其中非故意和社交媒体使用尤其令人遗憾。遗憾也因社交媒体活动而异；参与者最有可能后悔查看评论和算法推荐的内容。此外，当参与者的意图是直接沟通时，他们经常会转向浏览社交媒体，这稍微增加了他们的遗憾。我们的研究结果为寻求改善用户体验和自主权的设计师和政策制定者提供了指导。

使用生成人工智能的在线教育项目的个性化反馈框架

分类： 人机交互, 人工智能, 密码学和安全

作者： Ievgeniia Kuzminykh, Tareita Nawaz, Shihao Shenzhang, Bogdan Ghita, Jeffery Raphael, Hannan Xiao

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11904v1

摘要： 人工智能工具，特别是大型语言模块，最近已经证明了它们在学习管理系统和在线教育项目中的有效性。由于反馈在学校的学习和评估中继续发挥着至关重要的作用，教育工作者必须仔细定制人工智能工具的使用，以便在学生的学习过程中为学生提供最佳支持。改进教育反馈系统的努力在研究中得到了体现，但大多数都侧重于对人工智能反馈与人类生成的反馈进行定性基准测试。本文提出了对替代反馈框架的探索，该框架通过集成嵌入来扩展 ChatGPT 的功能，从而能够更细致地理解教育材料并促进基于测验的评估的针对主题的反馈。作为研究的一部分，我们提出并开发了一种概念验证解决方案，对于开放式问题和多项选择题的有效率分别达到 90% 和 100%。结果表明，我们的框架不仅超出了预期，而且可以与人类的叙述相媲美，凸显了人工智能在彻底改变教育反馈机制方面的潜力。

可解释人工智能的有用性研究

分类： 人机交互, 人工智能, 68T37, 91E99, I.2.0; I.2.3; H.5.2; H.1.2; K.4.2

作者： Tobias Labarta, Elizaveta Kulicheva, Ronja Froelian, Christian Geißler, Xenia Melman, Julian von Klitzing

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11896v1

摘要： 可解释的人工智能 (XAI) 对于构建先进的机器学习驱动的应用程序至关重要，特别是在医疗诊断或自动驾驶等关键领域。法律、商业和道德要求激励使用有效的 XAI，但不同方法的数量不断增加，使得选择正确的方法变得具有挑战性。此外，由于解释高度依赖于上下文，因此在没有用户的情况下测量 XAI 方法的有效性只能揭示有限的信息量，不包括理解能力等人为因素。我们建议通过用户成功执行代理任务的能力来评估 XAI 方法，设计良好的性能是解释提供有用信息的指标。换句话说，我们强调 XAI 对人类决策的帮助。此外，还进行了一项关于最先进方法的用户研究，显示了它们产生信任和怀疑的能力以及正确判断人工智能决策正确性的能力之间的差异。根据结果，我们强烈建议使用并扩展此方法，进行更多基于目标、以人为本的用户研究，以端到端的方式衡量 XAI 性能。

K-12 STEM 教育大语言模型即时工程的系统评价

分类： 计算和语言, 人机交互

作者： Eason Chen, Danyang Wang, Luyi Xu, Chen Cao, Xiao Fang, Jionghao Lin

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11123v1

摘要： 大型语言模型 (LLM) 有潜力通过改善教学过程来增强 K-12 STEM 教育。虽然之前的研究已经显示出有希望的结果，但对于如何有效应用大语言模型仍然缺乏全面的理解，特别是通过提示工程——设计提示以产生所需输出的过程。为了解决这一差距，我们的研究调查了 2021 年至 2024 年期间发表的实证研究，探讨了大语言模型与即时工程在 K-12 STEM 教育中的使用。按照 PRISMA 协议，我们筛选了 2,654 篇论文并选择了 30 项研究进行分析。我们的审查确定了所采用的激励策略、所使用的大语言模型类型、评估有效性的方法以及先前工作的局限性。结果表明，虽然简单和零样本提示是常用的，但更先进的技术，如少样本和思维链提示，已经在各种教育任务中表现出了积极的成果。主要使用 GPT 系列模型，但较小且经过微调的模型（例如 Blender 7B）与有效的提示工程相结合，在特定环境中优于提示较大的模型（例如 GPT-3）。评估方法差异很大，在现实环境中的经验验证有限。

HoloSpot：通过混合现实拖放进行直观的对象操作

分类： 机器人技术, 人机交互, I.2.9; H.5.2

作者： Pablo Soler Garcia, Petar Lukovic, Lucie Reynaud, Andrea Sgobbi, Federica Bruni, Martin Brun, Marc Zünd, Riccardo Bollati, Marc Pollefeys, Hermann Blum, Zuria Bauer

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11110v1

摘要： 通过混合现实 (MR) 技术的人机交互可实现新颖、直观的界面来控制远程操作中的机器人。这种界面有助于在危险环境中进行操作，在危险环境中，人类的存在存在风险，但人类的监督仍然至关重要。潜在的环境包括灾难响应场景和高辐射或有毒化学品的区域。在本文中，我们提出了一个界面系统，将扫描房间的 3D 表示投影为缩小的“玩具屋”全息图，允许用户使用简单的拖放界面选择和操作对象。然后，我们基于最新的 Spot-Compose 框架将这些拖放用户命令转换为实时机器人动作。基于 Unity 的应用程序提供了交互式教程和用户友好的体验，确保了易用性。通过全面的端到端测试，我们验证了系统执行拾放任务的能力，并且补充的用户研究确认了界面的直观控制。我们的研究结果凸显了该界面在改善用户体验和运营效率方面的优势。这项工作为一个强大的框架奠定了基础，该框架提高了各种应用中无缝人机协作的潜力。论文网站：https://holospot.github.io/

MrDeepFakes 性 Deepfake 市场特征

分类： 计算机与社会, 密码学和安全, 人机交互, 社交和信息网络

作者： Catherine Han, Anne Li, Deepak Kumar, Zakir Durumeric

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11100v1

摘要： 过去几年，性深造内容的流行呈爆炸式增长。攻击者创建和利用深度伪造的原因有很多：寻求性满足、骚扰和羞辱目标，或者对亲密伴侣施加权力。随着这种增长，出现了几个支持性深度假货材料买卖的市场。在本文中，我们系统地描述了最著名和主流的市场 MrDeepFakes。我们分析市场经济、创建媒体的目标以及用户对如何创建 Deepfake 的讨论，并利用这些讨论来了解当前 Deepfake 创作的最新技术。我们的工作发现几乎没有执行已发布的规则（例如，限制针对知名名人）、以前未记录的攻击者动机以及未经探索的攻击者获取资源以创建性深度伪造的策略。

肌内高密度微电极阵列能够对脊髓运动神经元进行高精度解码和映射，以揭示手部控制

分类： 神经元和认知, 人机交互, 机器人技术, 信号处理

作者： Agnese Grison, Jaime Ibanez Pereda, Silvia Muceli, Aritra Kundu, Farah Baracat, Giacomo Indiveri, Elisa Donati, Dario Farina

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11016v1

摘要： 解码神经系统活动是神经科学和神经接口领域的一个关键挑战。在这项研究中，我们提出了一种新颖的神经解码系统，可以对肌肉活动进行前所未有的大规模采样。使用嵌入前臂肌肉内的具有 100 多个通道的微电极阵列，我们记录了捕获多单元运动神经元活动的高密度信号。这种广泛的采样辅以先进的神经分解、分析和分类方法，使我们能够准确检测和解释支配手部肌肉的脊髓运动神经元的尖峰活动。我们在两名健康参与者身上评估了该系统，每名参与者的前臂均植入了三个肌电图 (EMG) 微电极阵列（每个包含 40 个电极）。这些阵列记录了单位数和多位数等长收缩期间的肌肉活动。我们首次在受控条件下证明，多位数任务会引发针对每个任务的独特运动神经元招募模式，而不是采用单位数任务的招募模式组合。这一观察结果使我们推测，可以根据解码的神经活动对手动任务进行高精度分类。我们在 12 个不同的单位数和多位数任务中实现了完美的分类准确度 (100%)，并且在所有条件和主题上（最多 16 个任务类别）始终保持高精度 (>96%)。这些结果明显优于传统的肌电图分类方法。该系统的卓越性能为开发基于侵入式高密度肌电图技术的先进神经接口铺平了道路。这项创新可以极大地增强人机交互，并导致辅助技术的实质性改进，为临床应用中恢复运动功能提供新的可能性。

对分析来源摘要的实证见解：分段数据分析工作流程的研究

分类： 人机交互

作者： Shaghayegh Esmaeili, Irelis D. Suarez, Ezekiel Ajayi, Eric D. Ragan

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11011v1

摘要： 探索性数据分析的复杂性对分析工作流程的协作和有效沟通提出了重大挑战。自动化方法可以通过将工作流程总结为更可解释的部分来缓解这些挑战，但设计有效的来源总结算法取决于对指导人类如何分段分析的因素的理解。为了解决这个问题，我们进行了一项实证研究，探讨用户如何自然地呈现、交流和总结视觉数据分析活动。我们的定性分析揭示了关键模式和高级类别，可在细分分析工作流程时为用户的决策提供信息，揭示数据驱动的行动和战略思维之间微妙的相互作用。这些见解为算法开发提供了坚实的经验基础，并强调了增强可视化分析工具设计必须考虑的关键因素。通过将算法决策植根于人类行为，我们的研究结果为开发更直观、更实用的自动总结和清晰呈现分析来源的工具提供了宝贵的贡献。

3DArticCyclists：为人机交互 (HOI) 和自动驾驶应用生成模拟动态 3D 自行车手

分类： 计算机视觉和模式识别, 人机交互

作者： Eduardo R. Corral-Soto, Yang Liu, Tongtong Cao, Yuan Ren, Liu Bingbing

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10782v1

摘要： 人与物体交互 (HOI) 和人与场景交互 (HSI) 对于嵌入式人工智能 (EAI)、机器人和增强现实 (AR) 中以人为中心的场景理解应用至关重要。这些研究领域面临的一个常见限制是数据稀缺问题：输入图像上标记的人类场景对象对不足，并且它们之间的交互复杂性和粒度有限。最近的 HOI 和 HSI 方法通过生成与刚性对象的动态交互来解决这个问题。但更复杂的动态交互，例如人类骑手踩铰接式自行车，尚未被探索过。为了解决这一限制，并能够研究复杂的动态人类关节对象交互，在本文中，我们提出了一种生成模拟 3D 动态骑车人资产和交互的方法。我们设计了一种方法来创建新的基于零件的多视图铰接合成 3D 自行车数据集，我们将其称为 3DArticBikes，可用于训练 NeRF 和基于 3DGS 的 3D 重建方法。然后，我们提出了一种基于 3DGS 的参数自行车组合模型来组装 8-DoF 姿态可控的 3D 自行车。最后，利用骑车人视频中的动态信息，我们通过重新摆出一个可选择的合成 3D 人的姿势，同时使用建议的 3D 关键点自动将骑手放置到我们新的铰接式 3D 自行车上，从而构建一个完整的合成动态 3D 骑车人（骑手踩自行车）基于优化的逆运动学姿势细化。我们提供了定性和定量结果，将我们生成的骑车者与最近基于稳定扩散的方法的骑车者进行了比较。

生成式人工智能界面的功能灵活性：通过对话、工具栏和提示与大语言模型进行文本编辑

分类： 人机交互, H.5.2; I.2.7

作者： Florian Lehmann, Daniel Buschek

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10644v1

摘要： 基于提示的用户界面 (UI) 将定义和访问相关功能的任务从开发人员转移到了用户。然而，用户界面如何塑造这种灵活性尚未得到明确研究。在通用 LLM 兴起之前和之后的四年里，我们探索了与大型语言模型 (LLM) 的交互：(1) 我们的调查 (N=121) 引出了用户如何设想将写作任务委托给 AI。这为对话式 UI 设计提供了信息。 (2) 一项用户研究（N=10）显示，人们开始使用类似命令的简短提示。 (3) 当在工具栏 UI 中直接提供这些快捷方式时，除了提示之外，我们的第二个研究 (N=12) 中的用户还可以在指定的 AI 功能和灵活的 AI 功能之间动态切换。我们将功能灵活性作为一种新的理论构建和思维工具进行讨论。我们的工作通过考虑不同的 UI 如何塑造用户对生成 AI 模型功能空间的访问，强调了超越对话式 UI 的价值。

开发用于可持续能源教育的 3D 虚拟世界工具

分类： 人机交互

作者： Marta Guerra-Mota, Dimosthenis Minas, Michalis Xenos, Maria Manuel Sa

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10586v1

摘要： 联合国教科文组织（2022）指出，一个人或一个社区的现有意识与日常生活的实际习惯之间的差距归因于：对所面临的环境问题的理解水平较低；有关能源和气候问题的知识水平较低；缺乏对社交、情感或行为学习的关注。在此背景下，随着环境和能源问题在我们的日常生活中迅速增长，与来自三个国家（希腊、葡萄牙和意大利）的合作伙伴合作的 RAISE - 提高环境知识和意识的 ERAMUS+ 项目诞生了。该项目的首要目标是提高学童的环境知识和意识（EK&A）。为了实现这一目标，首先进行了一项调查来确定学生的知识情况，并根据这些结果制定场景和教育材料来构建教学工具 - 3D 虚拟世界学习环境 (3D VWLE)。本文介绍了桌面研究结果和游戏的主要功能，旨在满足已确定的教育需求。 3D VWLE 让学生处于可以获得可转移技能的境地。项目证明，3D VWLE对技能的模拟效果为学生练习和提高能力提供了良好的在线学习环境。换句话说，虚拟世界打开了新的学习和教学方式的大门。

Mindalogue：大语言模型支持的非线性交互，用于有效学习和任务探索

分类： 人机交互, 系统与控制, 系统与控制, 68U35(Primary), 68T20(Secondary), H.5.2

作者： Rui Zhang, Ziyao Zhang, Fengliang Zhu, Jiajie Zhou, Anyi Rao

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10570v2

摘要： 当前的生成式人工智能模型如 ChatGPT、Claude 和 Gemini 被广泛用于知识传播、任务分解和创造性思维。然而，它们的线性交互方法往往迫使用户在处理复杂任务时反复比较和复制上下文信息，增加了认知负荷和运营成本。此外，模型响应的模糊性要求用户进一步细化和简化信息。为了解决这些问题，我们开发了“Mindalogue”系统，该系统使用基于“节点+画布”的非线性交互模型，在生成结构化响应的同时提高用户效率和自由度。一项针对 11 位用户的形成性研究为 Mindalogue 的设计提供了信息，然后通过一项针对 16 名参与者的研究对其进行了评估。结果表明，Mindalogue 显着减少了任务步骤，提高了用户对复杂信息的理解。这项研究强调了非线性交互在提高人机交互领域人工智能工具效率和用户体验方面的潜力。

Reddit 上气候行动主义的因果模型

分类： 计算机与社会, 人机交互, 社交和信息网络, 应用领域

作者： Jacopo Lenti, Luca Maria Aiello, Corrado Monti, Gianmarco De Francisci Morales

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10562v1

摘要： 气候行动主义对于通过政治压力刺激集体社会和行为转变以实现可持续做法至关重要。尽管参与行动主义的因素有多种，但它们之间的复杂关系和相互作用数据的缺乏限制了大多数先前的研究只能孤立地研究它们，从而阻碍了对人们为何采取行动主义的定量、因果理解的发展。在这项工作中，我们开发了一个全面的因果模型，说明 Reddit 用户如何以及为何与推动大规模气候抗议活动（主要是 2019 年地球罢工、未来星期五和灭绝叛乱）的活动社区互动。我们的框架基于应用于贝叶斯网络的随机变分推理，可以学习多个时间段内的因果路径。与以往的研究不同，我们的方法使用大规模、细粒度的纵向数据（2016年至2022年）来共同模拟社会人口构成、极端天气事件的经历、气候相关新闻的曝光以及通过在线互动产生的社会影响的角色。我们发现，在对气候变化感兴趣的用户中，在线活动社区的参与确实受到与活动人士的直接互动的影响，并且很大程度上受到最近媒体对气候抗议报道的影响。在意识到气候变化的人们中，来自较低社会经济背景的左倾人士在网络活动团体中尤为突出。我们的研究结果为媒体影响力和临界质量理论提供了实证验证，并为干预措施和未来研究奠定了基础，以促进公众参与集体行动。

用户对机器人教练助理披露行为适当性的看法

分类： 人机交互

作者： Atikkhan Faridkhan Nilgar, Manuel Dietrich, Kristof Van Laerhoven

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10550v1

摘要： 社交机器人已成为个人幸福指导的重要贡献者。值得注意的是，它们融入长期人类教练试验中显示出特别的前景，强调与人类教练的互补作用，而不是彻底替代。在这种情况下，机器人在辅导课程中充当支持实体，根据对用户福祉和活动的了解提供见解。传统上，此类见解是通过书面自我报告或可穿戴数据可视化等方法收集的。然而，机器人披露人们的信息引起了人们对隐私、适当性和信任的担忧。为了解决这个问题，我们对 [n = 22] 名参与者进行了一项初步研究，以量化他们对机器人教练助理披露的隐私的看法。该研究是在线进行的，向参与者展示了六个预先录制的场景，说明了各种类型的信息披露和机器人的角色，从主动点播到主动通信条件。

与 Kerblam 一起构建开放科学时代的数据分析项目！

分类： 人机交互, 其他定量生物学

作者： Luca Visentin, Luca Munaron, Federico Alessandro Ruffinatti

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10513v1

摘要： 构建数据分析项目，即使用现有工具和新颖代码定义分析数据所需的文件和文件夹的布局，很大程度上遵循个人喜好。在这项工作中，我们查看了几个数据分析项目模板的结构，发现几乎没有结构重叠。我们强调了它们之间相似的部分，并提出了当人们希望创建新的数据分析项目时要记住的指导原则。最后，我们推出 Kerblam!，这是一个项目管理工具，可以加快项目数据管理、工作流程管理器的执行以及共享结果工作流程和分析输出。我们希望，通过遵循这些原则并使用 Kerblam!，数据分析项目的前景可以变得更加透明、易于理解，并最终对更广泛的社区有用。

使用 UWB 雷达从生理信号追踪人类压力

分类： 人机交互, 硬件架构, 机器学习, 信号处理

作者： Jia Xu, Teng Xiao, Pin Lv, Zhe Chen, Chao Cai, Yang Zhang, Zehui Xiong

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10155v1

摘要： 压力追踪是一个重要的研究领域，支持许多应用，例如医疗保健和压力管理；而与其最接近的相关工作则源于压力检测。然而，这些现有的工作不能很好地解决压力检测面临的两个重要挑战。首先，这些研究大多涉及要求用户佩戴生理传感器来检测他们的压力状态，这对用户体验产生负面影响。其次，这些研究未能有效利用多模态生理信号，导致检测结果不太令人满意。本文正式定义了压力追踪问题，强调对人体压力状态的持续检测。提出了一种新颖的深度应力追踪方法，称为 DST。需要注意的是，DST提出基于非接触式超宽带雷达采集的生理信号来追踪人体压力，这对用户在采集生理信号时更加友好。在 DST 中，信号提取模块首先经过精心设计，即使在存在身体运动的情况下，也能从雷达的原始射频数据中稳健地提取多模态生理信号。随后，在DST中提出了多模态融合模块，以确保提取的多模态生理信号能够得到有效的融合和利用。在三个真实数据集上进行了广泛的实验，包括一个自行收集的数据集和两个公开数据集。实验结果表明，所提出的 DST 方法在追踪人类压力状态方面显着优于所有基线。平均而言，与最佳基线相比，DST 在所有数据集上的检测准确率平均提高了 6.31%。

利用 NeRF 进行分析-综合，利用稀疏且嘈杂的 UWB 雷达数据对日常小型物体进行 ISAR 成像

分类： 机器人技术, 人机交互, 机器学习

作者： Md Farhan Tasnim Oshim, Albert Reed, Suren Jayasuriya, Tauhidur Rahman

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10085v1

摘要： 由于雷达截面 (RCS) 有限以及雷达系统固有的分辨率限制，逆合成孔径雷达 (ISAR) 成像在日常小型物体成像方面面临着巨大的挑战。包括反投影 (BP) 在内的现有 ISAR 重建方法通常需要复杂的设置和受控环境，这使得它们对于许多现实世界的噪声场景来说不切实际。在本文中，我们提出了一种由神经辐射场（NeRF）支持的新型分析综合（ATS）框架，用于使用稀疏和嘈杂的超宽带（UWB）雷达数据以低廉的成本对小物体进行高分辨率相干ISAR成像。和便携式设置。我们的端到端框架集成了超宽带雷达波传播、反射特性和场景先验，无需昂贵的电波暗室或复杂的测量测试台即可实现高效的 2D 场景重建。通过定性和定量比较，我们证明所提出的方法优于传统技术，可以在非视距（NLOS）和噪声场景中生成具有多个目标和复杂结构的复杂场景的 ISAR 图像，特别是在视图数量有限和稀疏的 UWB 雷达扫描。这项工作代表着朝着实用、经济高效的日常小型物体 ISAR 成像迈出的重要一步，对机器人和移动传感应用具有广泛的影响。

梦想提供帮助：学习与人类目标保持一致，以实现高速赛车中的共享控制

分类： 机器人技术, 人工智能, 人机交互

作者： Jonathan DeCastro, Andrew Silva, Deepak Gopinath, Emily Sumner, Thomas M. Balch, Laporsha Dees, Guy Rosman

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.10062v1

摘要： 在涉及快速动态和战术决策的领域（例如多赛车比赛），有效的人机团队需要紧密协调。在这种情况下，机器人队友必须对人类队友战术目标的提示做出反应，以与目标一致的方式提供协助（例如，绕过障碍物向左或向右导航）。为了应对这一挑战，我们提出了 Dream2Assist，这是一个框架，它结合了能够推断人类目标和价值函数的丰富世界模型，以及为给定的人类队友提供适当的专家帮助的辅助代理。我们的方法建立在循环状态空间模型的基础上，以明确推断人类意图，使辅助代理能够选择与人类一致的动作，并实现流畅的团队交互。我们在高速赛车领域展示了我们的方法，一群合成人类驾驶员追求相互排斥的目标，例如“落后”和“超车”。我们表明，组合的人机团队在将其行为与人类的行为相结合时，表现优于单独的合成人类以及几种基线辅助策略，并且意图调节能够在任务执行过程中遵循人类的偏好，从而改善性能，同时满足人类的目标。

使用 SociaLens 进行在线数字调查新闻

分类： 人机交互, 信息检索, 社交和信息网络

作者： Hasan M. Jamil, Sajratul Y. Rubaiat

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.11890v1

摘要： 随着互联网、大数据、机器学习 (ML) 和人工智能的兴起，媒体公司经历了重大转型。最近出现的大型语言模型（LLM）为这种转变增添了另一个方面。研究人员相信，在这些技术的帮助下，调查性数字新闻将进入一个新时代。使用一套智能的数据收集和分析工具，记者将能够以前所未有的方式创建数据驱动的内容和见解。在本文中，我们介绍了一种名为 {\em SociaLens} 的多功能自主调查新闻工具，用于从在线资源中识别和提取查询特定数据，响应探测查询并完全自主地使用机器学习分析从大量数据中得出结论。我们设想将其用于调查性新闻、执法和社会政策规划。所提出的系统利用了机器学习技术与大语言模型和先进的大数据搜索技术的集成。我们通过对发展中国家强奸事件的重点案例研究来说明 SociaLens 的功能，并证明记者可以获得细致入微的见解，而无需他们可能缺乏的编码专业知识。 SociaLens 被设计为 ChatBot，能够进行上下文对话、查找和收集与查询相关的数据、启动 ML 任务来响应查询、生成文本和可视化报告，所有这些都在 ChatBot 环境中完全自主进行。

评估基于轮廓的地理空间可视化中交互的有效性

分类： 人机交互

作者： Abdullah-Al-Raihan Nayeem, Dongyun Han, William J. Tolone, Isaac Cho

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.10032v1

摘要： 等高线图是探索地形空间特征的重要工具，例如等高线区域之间的距离、方向和表面梯度。基于轮廓的可视化中的用户交互创建了与人类认知角度明显不同的视觉分析方法。因此，人们引入了各种交互方法来提高系统可用性并增强人类对复杂和大规模空间数据探索的认知。然而，用户交互对于等高线图意味着什么、其目的、何时利用以及设计原语尚未在分析任务的背景下进行研究。因此，需要进一步的研究，以更好地理解和量化旨在支持分析任务的基于轮廓的地理空间可视化中用户交互所提供的潜力和好处。在本文中，我们提出了一种专为分析任务而设计的基于轮廓的交互式地理空间可视化。我们进行了一项众包用户研究 (N=62)，以检查交互特征对使用基于轮廓的地理空间可视化进行分析的影响。我们的结果表明，交互式功能有助于他们在空间数据范围、地图布局、任务复杂性和用户专业知识方面进行数据分析和理解。最后，我们深入讨论我们的发现，这将作为未来设计和实现交互功能的指南，以支持基于轮廓的地理空间视图的特定案例分析任务。

超越“行业标准”：将性别肯定语音训练技术聚焦个性化目标探索

分类： 人机交互, 68U35, J.4; J.3; H.5.2

作者： Kassie Povinelli, Hanxiu "Hazel" Zhu, Yuhang Zhao

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09958v1

摘要： 性别肯定声音训练对于许多跨性别者的过渡过程至关重要，使他们的声音与他们的性别认同保持一致。个性化的语音目标指导和激励语音训练之旅，但现有的语音训练技术无法定义明确的目标。我们采访了六位声音专家和十位具有声音训练经验的跨性别者（声音受训者），重点关注他们如何定义、三角测量和使用声音目标。我们发现目标语音探索涉及在近似目标和明确目标之间导航，以及在整个语音训练过程中不断重新评估。我们的研究揭示了语音示例、角色描述以及语音修改和训练技术如何为目标探索提供信息，并识别过度强调目标的风险。我们确定了语音目标和目标分离所带来的技术影响，并根据与学员和专家的集思广益，为基于变声器的目标探索工具提供了一个框架。

驾驭数字时代的可发现性：理论框架

分类： 数字图书馆, 计算机与社会, 人机交互

作者： Rebecca Salganik, Valdy Wiratama, Heritiana Ranaivoson, Adelaida Afilipoaie

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09917v1

摘要： 数字技术在数字内容分发中的激增引发了人们对数字时代文化多样性影响的担忧。可发现性的概念已作为一种理论工具提出，通过它来考虑内容交互的可能性。这一广泛主题的多面性已经通过各种领域进行了探索，这些领域探索了平台化的连锁反应，每个领域都有自己独特的词典编纂。然而，目前还没有一个统一的框架来考虑复杂的发现途径。在这项工作中，我们展示了发现生态系统，由六个独立的、相互关联的组件组成，涵盖了从开始到结束的发现路径

Look-and-Twist：虚拟现实和增强现实的简单选择方法

分类： 人机交互

作者： Anna Yershova, Elmeri Uotila, Katherine J. Mimnaugh, Nicoletta Prencipe, M. Manivannan, Timo Ojala, Steven M. LaValle

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09820v1

摘要： 本文介绍了一种新颖的虚拟和增强现实交互方法，称为“look-and-twist”，它直接类似于使用鼠标和桌面的点击操作。它仅基于头部旋转，并且可以直接在任何执行旋转跟踪的头戴式显示器上实现。用户通过转动头部面向对象来选择感兴趣的特征，然后沿着观看方向的轴执行指定的旋转。观察和扭转方法已在教育环境中实施和测试，系统的用户研究正在进行中。早期证据表明该方法与标准停留时间方法相当或更快。该方法可以与 Google Cardboard 等一起使用，对于没有经验的用户来说也很容易学习。此外，它有可能通过提供额外的控制自由度来显着丰富 VR 交互，而基于驻留方法的二元性质则缺乏这种自由度。

HypomimiaCoach：基于 AU 的数字治疗系统，用于帕金森病的低氧血症检测和康复

分类： 人机交互, 人工智能

作者： Yingjing Xu, Xueyan Cai, Zihong Zhou, Mengru Xue, Bo Wang, Haotian Wang, Zhengke Li, Chentian Weng, Wei Luo, Cheng Yao, Bo Lin, Jianwei Yin

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09772v1

摘要： 言语功能减退是帕金森病的一种非运动症状，表现为面部运动和表情延迟，以及发音和情绪方面的挑战。目前，神经科医生的主观评估是低情商检测的主要方法，而传统的康复方法严重依赖康复医生的口头提示。用于低嗅觉治疗的辅助工具仍然缺乏易于使用、用户友好且科学严谨的辅助工具。为了研究这一点，我们开发了 HypomimaCoach，这是一种基于行动单元 (AU) 的数字治疗系统，用于帕金森病的低记忆力检测和康复。 HypomimaCoach 系统旨在通过结合放松和受控的康复练习来促进参与，同时还通过整合传统面部训练方法的数字疗法来激发主动性。我们提取动作单元（AU）特征及其关系以进行低情意检测。为了促进康复，基于行动单元（AU）设计了一系列训练计划，并通过额外的AU识别模型向患者提供实时反馈，指导他们完成日常训练。在中国对七名参与者进行了一项试点研究，所有参与者均表现出帕金森病低嗅觉症状。试点研究的结果表明，对参与者的自我效能感产生了积极影响，并收到了良好的反馈。此外，医生评估验证了该系统在帕金森病患者治疗环境中的适用性及其在临床应用中的潜在价值。

LibEER：基于脑电图的情绪识别的综合基准和算法库

分类： 人机交互, 人工智能

作者： Huan Liu, Shusen Yang, Yuzhe Zhang, Mengze Wang, Fanyu Gong, Chengxi Xie, Guanjian Liu, Dalin Zhang

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09767v1

摘要： 基于脑电图的情绪识别（EER）由于其在理解和分析人类情绪方面的潜力而受到越来越多的关注。最近，使用各种基于深度学习的技术来解决 EER 问题取得了重大进展。然而，缺乏令人信服的基准和开源代码库使不同模型之间的公平比较变得复杂，并给从业者带来了可重复性的挑战。这些问题极大地阻碍了该领域的进展。有鉴于此，我们提出了一个全面的基准和算法库（LibEER），通过使不同方法的大部分实现细节保持一致并在 PyTorch 中使用相同的单一代码库，以便在 EER 中进行公平比较。为了应对这些挑战，我们提出了 LibEER，一个用于 EER 公平比较的综合基准和算法库，通过确保各种方法实现细节的一致性并利用 PyTorch 中的单一代码库。 LibEER 建立了具有标准化实验设置的统一评估框架，能够对四个最常用数据集的十多个基于深度学习的代表性 EER 模型进行公正评估。此外，我们对流行模型的性能和效率进行了详尽且可重复的比较，为研究人员选择和设计 EER 模型提供了宝贵的见解。我们希望我们的工作不仅能够降低初学者进入基于脑电图的情感识别领域的门槛，而且能够促进该领域研究的标准化，从而促进稳定发展。源代码可在 \url{https://github.com/ButterSen/LibEER} 获取。

基于脑电图的 AI-BCI 轮椅改进：利用机器学习机制和左右手自主运动的脑机接口轮椅系统

分类： 人机交互, 人工智能, 信号处理

作者： Biplov Paneru, Bishwash Paneru, Khem Narayan Poudyal

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09763v1

摘要： 本文提出了一种基于脑机接口（BCI）的轮椅开发的人工智能（AI）集成新方法，利用自愿的左右手运动机制进行控制。该系统旨在利用脑电图 (EEG) 数据模拟基于左右手自主运动的轮椅导航。从开源 EEG 存储库获得的预过滤数据集被分割成 19x200 的数组，以捕获手部运动的开始。数据是在实验室实验中以200Hz的采样频率获取的。该系统集成了基于 Tkinter 的界面，用于模拟轮椅运动，为用户提供功能齐全且直观的控制系统。开发了各种机器学习模型，包括支持向量机 (SVM)、XGBoost、随机森林和基于双向长短期记忆 (Bi-LSTM) 注意力的模型。随机森林模型获得了 79% 的准确率。 Logistic 回归模型表现出色，其准确率优于其他模型，准确度为 92%，多层感知器 (MLP) 模型的准确度为 91%。基于注意力的 Bi-LSTM 模型通过交叉验证达到了 86% 的平均准确率，展示了注意力机制在 BCI 应用中的潜力。

“我认为你需要帮助！这就是原因”：了解解释对自动面部表情识别的影响

分类： 人机交互

作者： Sanjeev Nahulanthran, Mor Vered, Leimin Tian, Dana Kulić

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09743v1

摘要： 面部表情识别（FER）已成为开发情感感知智能系统的一种有前景的方法。 FER 在多个领域的性能不断提高，特别是通过数据驱动学习方法的进步。然而，在现实世界中使用 FER 仍然存在一个关键挑战，即确保用户理解这些系统并建立适当水平的用户对该技术的信任。我们进行了一项实证用户研究，以调查 FER 的解释如何提高人机交互任务中的信任、理解和性能，该任务使用 FER 在导航游戏期间触发有用的提示。我们的结果表明，获得 FER 系统解释的用户在使用该系统时表现出更好的控制能力，从而显着提高了他们对系统的理解，减少了导航游戏中的碰撞，并增加了对系统的信任。

“我本质上只是相信它有效”：调查开源库差异隐私的心理模型

分类： 人机交互

作者： Patrick Song, Jayshree Sarathy, Michael Shoemate, Salil Vadhan

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09721v1

摘要： 差分隐私（DP）是隐私保护数据科学的一个有前途的框架，但最近的研究暴露了将这种隐私理论框架付诸实践的挑战。这些紧张关系在用于 DP 数据分析的开源软件库的背景下尤为突出，这些软件库是帮助数据管理员和分析师为其应用程序构建隐私保护数据管道的新兴工具。虽然对此类库进行了大量投资，但我们需要进一步探究这些库在促进对 DP 的理解和信任方面的作用，以及这些开源库的设计如何揭示挑战在实践中创建值得信赖的数据基础设施。在本研究中，我们使用定性方法和心智模型方法来分析用于设计开源DP库的概念模型与用户持有的DP心智模型之间的差异。通过两阶段的研究设计，包括对 5 名开源 DP 库开发人员的形成性访谈以及对 17 名数据分析师的用户研究，我们发现 DP 库常常难以弥合开发人员和用户心智模型之间的差距。我们特别强调 DP 库在维持严格的 DP 实施和促进用户交互方面面临的压力。最后，我们为 DP 库的进一步发展提供了实用的建议。

混合现实双边人体远程操作的稳定性和透明度

分类： 机器人技术, 人机交互, 系统与控制, 系统与控制

作者： David Gregory Black, Septimiu Salcudean

发布时间： 2024-10-13

链接： http://arxiv.org/abs/2410.09679v1

摘要： 最近的工作引入了人类远程操作（HT）的概念，其中传统双边远程操作中通常考虑的远程机器人被佩戴混合现实头戴式显示器并跟踪由专家控制的虚拟工具的运动的新手所取代。 HT 在资源匮乏社区或偏远地区远程医疗的成本、复杂性和患者接受度方面具有优势。然而，双边 HT 的稳定性、透明度和性能尚未得到探索。因此，在本文中，我们使用测试数据开发了 HT 系统的数学模型和仿真。然后，我们使用该模型分析各种控制架构，并使用 HT 系统实现它们，以找到可实现的性能，研究稳定性，并确定存在时间延迟时最有前途的远程操作方案。我们证明，HT 的不稳定性虽然不具有破坏性或危险性，但会使系统无法使用。然而，通过 3 通道远程操作，可以实现稳定且透明的远程操作，并且具有较小的时间延迟（<200 毫秒），或者通过模型介导的远程操作，为新手提供本地姿态和力反馈，从而实现较大的时间延迟。

视觉热舒适度：可持续街景设计的热可供性及其视觉评估

分类： 人机交互

作者： Sijie Yang, Adrian Chong, Pengyuan Liu, Filip Biljecki

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.11887v1

摘要： 应对气候变化和城市热岛效应，提高城市人体热舒适度对于城市可持续发展至关重要。调查城市热环境和相应人体热舒适水平的传统方法往往资源密集、效率低下且范围有限。为了应对这些挑战，我们（1）引入了热可供性的概念，它代表了街景基于其视觉和物理特征影响人类热舒适度的固有能力； (2) 一种评估方法（热可供性视觉评估 - VATA），该方法结合了街景图像 (SVI)、在线和实地调查以及统计学习算法。 VATA从SVI数据中提取五类图像特征，建立19个视觉感知指标用于街景视觉评估。使用多任务神经网络和弹性网络回归，我们对它们的链式关系进行建模，以预测和理解新加坡的热能承受性。 VATA 预测通过现场调查的 OTC 数据进行验证，提供了一种经济有效且可扩展的方法来评估城市街景的热舒适潜力。该框架可以为街道景观设计提供信息，以支持可持续、宜居和有弹性的城市环境。

制作贝什巴尔马克：中亚文化遗产游戏

分类： 人机交互, 多媒体

作者： Amina Kobenova, Adina Kaiymova

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09670v1

摘要： 本文介绍了“Making Beshbarmak”，这是一款互动烹饪游戏，旨在颂扬全球中亚社区的游牧血统和文化遗产。该游戏旨在促进文化欣赏和身份形成，邀请玩家通过引人入胜的逐步过程来学习和重新制作传统菜肴 Beshbarmak，并融入解释这顿饭的文化意义的故事元素。我们的项目通过在 p5.js 上提供可访问的开源原型，使用户能够联系和探索中亚传统，从而为数字文化遗产和游戏研究做出贡献。 “制作贝什巴马克”既是一种教育工具，也是一个文化保护平台，培养中亚移民群体的归属感。

通过对比学习桥接文本和图像以实现艺术家风格迁移

分类： 计算机视觉和模式识别, 人机交互

作者： Zhi-Song Liu, Li-Wen Wang, Jun Xiao, Vicky Kalogeiton

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09566v1

摘要： 图像风格迁移在过去几年引起了广泛的关注。尽管效果显着，但它需要额外的样式图像作为参考，这使得它不太灵活且不方便。使用文本是描述风格的最自然的方式。更重要的是，文本可以描述隐含的抽象风格，例如特定艺术家或艺术运动的风格。在本文中，我们提出了一种艺术风格迁移的对比学习（CLAST），它利用先进的图像文本编码器来控制任意风格迁移。我们引入了一种监督对比训练策略，可以有效地从图像文本模型（即 CLIP）中提取风格描述，从而使风格化与文本描述保持一致。为此，我们还提出了一种新颖且高效的基于 adaLN 的状态空间模型，用于探索风格-内容融合。最后，我们实现了文本驱动的图像风格迁移。大量的实验表明，我们的方法在艺术风格迁移方面优于最先进的方法。更重要的是，它不需要在线微调，可以在0.03s内渲染出512x512的图像。

SituFont：一种即时自适应干预系统，用于增强情景视觉障碍的移动可读性

分类： 人机交互

作者： Kun Yue, Mingshan Zhang, Jingruo Chen, Chun Yu, Kexin Nie, Zhiqi Gao, Jinghan Yang, Chen Liang, Yuanchun Shi

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09562v1

摘要： 情境视觉障碍 (SVI) 会显着影响移动可读性，导致用户不适并阻碍信息访问。本文介绍了 SituFont，这是一种新颖的即时自适应干预 (JITAI) 系统，旨在通过半自动调整字体参数以响应实时上下文变化来增强移动文本的可读性。利用智能手机传感器和人机交互方法，SituFont 通过适应个人用户偏好来个性化阅读体验，包括疲劳和分心程度等个人因素，以及照明、运动和位置等环境因素。为了为 SituFont 的设计提供信息，我们进行了形成性访谈 (N=15)，以确定影响可读性的关键 SVI 因素，并进行了对照实验 (N=18)，以量化这些因素与最佳文本参数之间的关系。然后，我们通过八个模拟 SVI 场景 (N=12) 下的比较用户研究评估了 SituFont 的有效性，证明了其克服 SVI 的能力。我们的研究结果凸显了 SituFont 等 JITAI 系统在减轻 SVI 影响和增强移动可访问性方面的潜力。

SimBrainNet：评估注意力障碍的大脑网络相似性

分类： 神经元和认知, 人机交互

作者： Debashis Das Chakladar, Foteini Simistira Liwicki, Rajkumar Saini

发布时间： 2024-10-12

链接： http://arxiv.org/abs/2410.09422v1

摘要： 基于脑电图 (EEG) 的注意力障碍研究旨在了解与注意力相关的大脑活动模式。先前的研究主要集中于识别参与认知过程的大脑区域或对注意力缺陷多动障碍（ADHD）和对照受试者进行分类。然而，尚未探索分析特定注意力过程的有效大脑连接网络并对其进行比较。因此，在本研究中，我们提出了用于认知事件的基于多元转移熵的连接网络，并引入了一种新的相似性度量“SimBrainNet”来评估这些网络。高相似性分数表明认知事件期间相似的大脑动态，表明注意力变异性较小。我们的实验涉及 12 名患有注意力障碍的人（7 名儿童和 5 名青少年）。值得注意的是，与青少年相比，儿童参与者表现出较低的相似度分数，表明注意力发生了更大的变化。我们发现，与儿童相比，青少年的左前额皮质有很强的连接模式。我们的研究强调了各种认知事件中注意力水平的变化，提供了对患有这种疾病的个体的潜在认知机制、大脑动力学和潜在缺陷的见解。

一次一步：结合大语言模型和静态分析为编程任务生成下一步提示

分类： 软件工程, 人工智能, 计算机与社会, 人机交互

作者： Anastasiia Birillo, Elizaveta Artser, Anna Potriasaeva, Ilya Vlasov, Katsiaryna Dzialets, Yaroslav Golubev, Igor Gerasimov, Hieke Keuning, Timofey Bryksin

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09268v1

摘要： 学生在学习编码时常常难以解决编程问题，尤其是当他们必须在线完成时，在线工作最常见的缺点之一是缺乏个性化帮助。此帮助可以作为下一步提示生成来提供，即向学生展示他们下一步需要执行哪些具体小步骤才能获得正确的解决方案。生成此类提示的方法有很多，其中大型语言模型 (LLM) 是目前研究最活跃的方法之一。虽然大语言模型是一种很有前景的提供个性化帮助的技术，但将其与静态分析等其他技术相结合可以显着提高输出质量。在这项工作中，我们利用这个想法并提出了一种新颖的系统，为编程任务提供文本和代码提示。所提出方法的流程使用思想链提示技术，由三个不同的步骤组成：(1) 生成子目标 - 从当前学生的解决方案中继续执行任务的操作列表，(2) 生成代码实现下一个子目标，以及 (3) 生成文本来描述所需的操作。在第二步中，我们对生成的代码应用静态分析以控制其大小和质量。该工具是作为开源 JetBrains Academy 插件的修改版实现的，支持学生的 IDE 课程。为了评估我们的方法，我们提出了管道中所有步骤的标准列表，并进行了两轮专家验证。最后，我们在来自两所大学的 14 名学生的课堂上评估下一步的提示。我们的结果表明，两种形式的提示（文本和代码）对学生都有帮助，并且所提出的系统帮助他们继续完成编码任务。

ReasonPlanner：利用时态知识图和大语言模型增强动态环境中的自主规划

分类： 计算和语言, 人工智能, 人机交互

作者： Minh Pham Dinh, Munira Syed, Michael G Yankoski, Trenton W. Ford

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09252v1

摘要： 规划和执行交互式任务，例如进行实验以确定未知物质的熔点，对人类来说很简单，但对自主代理提出了重大挑战。我们介绍 ReasonPlanner，这是一种新颖的多面手智能体，专为反思性思维、规划和交互式推理而设计。该代理利用 LLM 通过构建基于时间知识图的世界模型来规划假设轨迹。代理使用自然语言演员-评论家模块与环境进行交互，其中演员将想象的轨迹转化为一系列可操作的步骤，而评论家则确定是否需要重新规划。 ReasonPlanner 在 ScienceWorld 基准上的性能显着优于之前最先进的基于提示的方法 1.8 倍以上，同时样本效率更高且可解释性更高。它仅依赖于冻结权重，因此不需要梯度更新。 ReasonPlanner 无需机器学习专业知识即可部署和使用，因此可供广泛的用户使用。

“ChatGPT，别告诉我该做什么”：为人道主义前线谈判中的情境分析设计人工智能

分类： 人机交互

作者： ZIlin Ma, Yiyang Mei, Claude Bruderlein, Krzysztof Z. Gajos, Weiwei Pan

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09139v1

摘要： 一线人道主义谈判人员越来越多地探索在工作流程中使用人工智能工具的方法。然而，目前谈判中的人工智能工具主要关注结果，忽视了谈判过程的关键方面。通过与经验丰富的一线谈判者（n=32）进行迭代协同设计，我们发现能够将案例情境化并探索选项（具有相关风险）的灵活工具比那些直接提供谈判策略建议的工具更有效。令人惊讶的是，谈判者表现出了对人工智能偶尔出现的幻觉和偏见的容忍度。我们的研究结果表明，人工智能辅助谈判工具的设计应建立在从业者现有实践的基础上，例如权衡不同的妥协方案并与同行验证信息。这种方法利用了谈判者的专业知识，同时增强了他们的决策能力。我们呼吁技术人员向一线谈判者学习并密切合作，将这些见解应用到未来的人工智能设计中，共同制定人工智能在人道主义谈判中使用的专业指南。

从交互到影响：通过理解和评估 UI 操作影响迈向更安全的 AI 代理

分类： 人机交互

作者： Zhuohao Jerry Zhang, Eldon Schoop, Jeffrey Nichols, Anuj Mahajan, Amanda Swearngin

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09006v1

摘要： 随着生成式人工智能的进步，人们越来越多地致力于创建能够通过操作用户界面 (UI) 来管理日常任务的自主代理。虽然之前的研究已经研究了人工智能代理如何导航用户界面并理解用户界面结构的机制，但代理及其自主行为的影响——特别是那些可能有风险或不可逆转的行为——仍然没有得到充分探索。在这项工作中，我们研究了人工智能代理的 UI 操作对现实世界的影响和后果。我们首先通过与领域专家举办的一系列研讨会来开发 UI 操作影响的分类法。随后，我们进行了数据综合研究，以收集用户认为有影响力的真实 UI 屏幕痕迹和操作数据。然后，我们使用影响类别来注释我们收集的数据以及从现有 UI 导航数据集中重新利用的数据。我们对不同大语言模型 (LLM) 和变体的定量评估表明，不同的 LLM 能够很好地理解代理可能采取的 UI 操作的影响。我们表明，我们的分类法增强了这些大语言模型理解 UI 操作影响的推理能力，但我们的研究结果也揭示了他们在可靠地分类更细微或更复杂的影响类别的能力方面存在显着差距。

UniGlyph：用于通用语言表示的七段脚本

分类： 计算和语言, 人机交互, 符号计算, 声音, 音频和语音处理, 68T50, 68T01, H.5.2; I.2.7

作者： G. V. Bency Sherin, A. Abijesh Euphrine, A. Lenora Moreen, L. Arun Jose

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08974v1

摘要： UniGlyph 是一种构造语言 (conlang)，旨在使用源自七段字符的脚本创建通用音译系统。 UniGlyph 的目标是通过提供可以表示各种语音的灵活且一致的脚本来促进跨语言通信。本文探讨了 UniGlyph 的设计，详细介绍了其脚本结构、语音映射和音译规则。该系统通过提供紧凑、通用的方法来表示跨语言的语音多样性，解决了国际音标 (IPA) 和传统字符集的缺陷。借助音高和长度标记，UniGlyph 可确保准确的语音表示，同时保持较小的字符集。 UniGlyph 的应用包括人工智能集成，例如自然语言处理和多语言语音识别，从而增强不同语言之间的沟通。讨论了未来的扩展，包括添加动物语音，将独特的文字分配给不同的物种，从而将 UniGlyph 的范围扩大到人类交流之外。这项研究提出了开发这种通用脚本所面临的挑战和解决方案，展示了 UniGlyph 在弥合跨语言交流、教育语音和人工智能驱动应用程序中语言差距的潜力。

使用 SAM 2 进行零样本瞳孔分割：超过 1400 万张图像的案例研究

分类： 计算机视觉和模式识别, 人工智能, 人机交互

作者： Virmarie Maquiling, Sean Anthony Byrne, Diederick C. Niehorster, Marco Carminati, Enkelejda Kasneci

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08926v1

摘要： 我们探索 SAM 2（一种视觉基础模型）在推进注视估计和眼动追踪技术方面的变革潜力。通过显着减少注释时间、通过易于部署降低技术障碍以及提高分割准确性，SAM 2 解决了研究人员和从业人员面临的关键挑战。利用其零镜头分割功能和最少的用户输入（每个视频只需单击一次），我们在来自不同数据集的超过 1400 万张眼睛图像上测试了 SAM 2，这些数据集包括虚拟现实设置和使用可穿戴眼动仪记录的世界上最大的统一数据集。值得注意的是，在瞳孔分割任务中，SAM 2 与仅在眼睛图像上训练的特定领域模型的性能相匹配，无需微调即可实现高达 93% 的竞争平均交集 (mIoU) 分数。此外，我们还为这些广泛使用的数据集提供代码和分段掩码，以促进进一步的研究。

利用人工智能生成的代码探索认知参与技术的设计空间以增强学习

分类： 人机交互, 人工智能

作者： Majeed Kazemitabaar, Oliver Huang, Sangho Suh, Austin Z. Henley, Tovi Grossman

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08922v1

摘要： 新手程序员越来越依赖大型语言模型 (LLM) 来生成代码来学习编程概念。然而，这种互动可能会导致肤浅的参与，给学习者带来学习的错觉并阻碍技能发展。为了解决这个问题，我们进行了系统设计探索，开发了七种认知参与技术，旨在促进与人工智能生成代码的更深入参与。在本文中，我们描述了我们的设计过程、最初的七种技术以及受试者间研究 (N=82) 的结果。然后，我们迭代地完善了顶级技术，并通过受试者内研究（N = 42）进一步评估它们。我们评估了每种技术引入的摩擦、它们在帮助学习者在没有人工智能帮助的情况下将概念应用到同构任务方面的有效性，以及它们在协调学习者的感知和实际编码能力方面的成功。最终，我们的结果强调了最有效的技术：引导学习者逐步解决问题的过程，他们与人工智能进行交互式对话，在相应的代码被揭示之前提示每个阶段需要做什么。

在数据结构和算法课程中使用 ChatGPT：助教的视角

分类： 人机交互, 人工智能, 数据结构和算法, K.3.2; I.2.6

作者： Pooriya Jamie, Reyhaneh Hajihashemi, Sharareh Alipour

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08899v1

摘要： 集成 ChatGPT 等大型语言模型 (LLM) 正在彻底改变计算机科学教育领域。这些模型为丰富学生学习和支持助教 (TA) 提供及时反馈和补充学习资源提供了新的可能性。本研究深入探讨了 ChatGPT 在数据结构和算法 (DSA) 课程中的使用，特别是与 TA 监督相结合时。研究结果表明，将 ChatGPT 与结构化提示和主动助教指导相结合，可以增强学生对复杂算法概念的理解，提高参与度并提高学习成绩。然而，在解决学术诚信方面存在挑战，并且大语言模型在解决复杂问题方面存在局限性。该研究强调了助教积极参与对于减少学生对人工智能生成内容的依赖并扩大整体教育影响的重要性。结果表明，虽然大语言模型对教育有利，但它们的成功整合需要持续的监督以及人工智能和人类指导之间的深思熟虑的平衡。

保形交互式模仿学习：处理专家轮班和间歇反馈

分类： 机器人技术, 人工智能, 人机交互, 机器学习

作者： Michelle Zhao, Reid Simmons, Henny Admoni, Aaditya Ramdas, Andrea Bajcsy

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08852v1

摘要： 在交互式模仿学习（IL）中，不确定性量化为学习者（即机器人）提供了一种通过主动在线寻求专家（即人类）的额外反馈来应对部署过程中遇到的分布变化的方法。当黑盒 IL 政策不确定时，先前的工作使用集成分歧或蒙特卡洛退出等机制来量化；然而，当面临部署时间分布变化时，这些方法可能会导致过度自信的估计。相反，我们认为我们需要不确定性量化算法，该算法可以利用在部署期间收到的专家人类反馈来在线调整机器人的不确定性。为了解决这个问题，我们利用在线共形预测，这是一种在给定地面实况标签流的情况下在线构建预测区间的无分布方法。然而，在交互式 IL 设置中，人类标签是间歇性的。因此，从保形预测方面，我们引入了一种称为间歇分位数跟踪（IQT）的新型不确定性量化算法，该算法利用间歇标签的概率模型，保持渐近覆盖保证，并凭经验实现所需的覆盖水平。从交互式 IL 方面，我们开发了 ConformalDAgger，这是一种新方法，其中机器人使用 IQT 校准的预测间隔作为部署时间不确定性的可靠度量，以主动查询更多专家反馈。我们将 ConformalDAgger 与之前的不确定性感知 DAgger 方法进行了比较，在这种情况下，由于专家策略的变化而出现（或不出现）分布变化。我们发现，在 7DOF 机器人操纵器上的模拟和硬件部署中，ConformalDAgger 在专家移动时检测到高度不确定性，并与基线相比增加了干预次数，从而使机器人能够更快地学习新行为。

整合专家判断和算法决策：不可区分性框架

分类： 机器学习, 计算机与社会, 人机交互, 机器学习

作者： Rohan Alur, Loren Laine, Darrick K. Li, Dennis Shung, Manish Raghavan, Devavrat Shah

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08783v1

摘要： 我们引入了一种用于预测和决策任务中人机协作的新颖框架。我们的方法利用人类判断来区分在算法上无法区分的输入，或者与任何可行的预测算法“看起来相同”的输入。我们认为，这种框架澄清了预测和决策任务中人类与人工智能协作的问题，因为专家经常通过利用算法训练数据中未编码的信息来形成判断。算法的不可区分性为评估专家是否纳入这种“辅助信息”提供了一个自然的测试，并进一步提供了一种简单但有原则的方法来有选择地将人类反馈纳入算法预测中。我们证明，这种方法可证明提高了任何可行算法预测器的性能，并精确量化了这种改进。我们在急诊室分诊决策的案例研究中展示了我们的框架的实用性，我们发现尽管算法风险评分与医生竞争激烈，但有强有力的证据表明医生的判断提供了任何预测算法都无法复制的信号。这种洞察力产生了一系列自然决策规则，这些规则利用了人类专家和预测算法的互补优势。

HpEIS：学习多媒体交互系统的手势嵌入

分类： 计算机视觉和模式识别, 人机交互

作者： Songpei Xu, Xuri Ge, Chaitanya Kaul, Roderick Murray-Smith

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08779v1

摘要： 我们提出了一种新颖的手部姿势嵌入交互系统（HpEIS）作为虚拟传感器，它使用经过各种手部姿势训练的变分自动编码器（VAE）将用户灵活的手部姿势映射到二维视觉空间。 HpEIS 仅使用相机作为外部手势采集设备，为用户在多媒体集合中的探索提供视觉上可解释和可引导的支持。我们通过与专家和缺乏经验的用户进行试点实验来确定与系统稳定性和平滑要求相关的一般可用性问题。然后，我们设计稳定性和平滑改进，包括手势数据增强、在损失函数中添加抗抖动正则化项、稳定运动转折点的后处理以及基于一欧元滤波器的平滑后处理。在目标选择实验 (n=12) 中，我们通过测量任务完成时间和到目标点的最终距离（有或没有手势引导窗口条件）来评估 HpEIS。实验结果表明，HpEIS为用户提供了可学习、灵活、稳定、流畅的空中手部动作交互体验。

研究自然语言生成模型文本生成过程中的人机交互和视觉理解

分类： 人机交互

作者： Yunchao Wang, Zihang Fu, Chaoqing Xu, Guodao Sun, Ronghua Liang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08723v1

摘要： 自然语言生成（NLG）模型正在成为自然语言处理（NLP）领域备受追捧的研究热点，在写作和对话生成等文本生成任务中展现出强大的能力。尽管 NLG 模型的性能令人印象深刻，但其复杂的架构和广泛的模型权重导致缺乏可解释性。这一限制阻碍了它们在许多关键决策场景中的采用。幸运的是，人机交互和视觉理解的介入为用户提供了打开“黑匣子”的可能。在本文中，我们针对人机交互和视觉理解在 NLG 模型文本生成过程中的作用和局限性进行了研究。我们提出了交互方法和可视化技术的分类，对大型语言模型（LLM）应用过程中的三个主要研究主题及其相应的六项任务进行了结构化概述。最后，我们总结了现有工作的不足，并探讨了大语言模型时代的主要挑战和新机遇。

IDE 内人机交互体验的设计空间

分类： 软件工程, 人机交互

作者： Agnia Sergeyuk, Ekaterina Koshchenko, Ilya Zakharov, Timofey Bryksin, Maliheh Izadi

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08676v1

摘要： 如今，人工智能驱动工具在集成开发环境 (IDE) 中的集成正在重塑软件开发生命周期。现有研究强调，用户期望这些工具高效、上下文感知、准确、用户友好、可定制且安全。然而，在理解开发人员的需求和挑战方面仍然存在重大差距，特别是在 IDE 中与人工智能系统交互时以及从不同用户组的角度来看。在这项工作中，我们通过对来自三个不同群体的 35 名开发人员进行结构化访谈来解决这一差距：IDE 中人工智能的采用者、流失者和非用户，以创建一个 IDE 内人类人工智能体验的综合设计空间。我们的结果突出了 IDE 人工智能系统中的技术改进、交互和协调以及简化技能培养和编程任务的关键领域。我们的主要发现强调需要更加个性化、主动且可靠的人工智能系统。我们还强调上下文感知和注重隐私的解决方案以及与现有工作流程更好集成的重要性。此外，我们的研究结果表明，虽然采用者欣赏先进的功能和不间断的集成，但流失者强调需要提高可靠性和隐私性。相比之下，非用户则关注技能发展和道德问题，将其视为采用的障碍。最后，我们为行业从业者提供建议，旨在增强开发人员工作流程中的人工智能集成。

集成人工智能以增强翻译修订中的反馈——学生参与度的混合方法调查

分类： 人机交互, 人工智能

作者： Simin Xu, Yanfang Su, Kanglong Liu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08581v1

摘要： 尽管反馈在教育中的重要性已得到公认，但人工智能 (AI) 生成的反馈（尤其是来自 ChatGPT 等语言模型的反馈）的应用在翻译教育中仍未得到充分研究。本研究调查了硕士生在修改过程中使用 ChatGPT 生成的反馈进行翻译的情况。采用混合方法，将翻译和修订实验与定量和定性分析相结合，检查反馈、修订前后的翻译、修订过程和学生的反思。结果揭示了认知、情感和行为维度之间复杂的相互关系，影响着学生对人工智能反馈的参与及其随后的修改。具体来说，研究结果表明，尽管反馈是可以理解的，但学生在复习过程中投入了大量的认知努力。此外，他们对反馈模型表现出中等的情感满意度。在行为上，他们的行为在很大程度上受到认知和情感因素的影响，尽管观察到了一些不一致的情况。这项研究为人工智能生成的反馈在翻译教学中的潜在应用提供了新颖的见解，并为进一步研究人工智能工具在语言教学环境中的集成开辟了途径。

基于预测树的虚拟键盘可改进注视打字

分类： 人机交互, 新兴技术

作者： Hrushikesh Etikikota, Yogesh Kumar Meena

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08570v1

摘要： 由于缺乏预测文本和以用户为中心的方法，屏幕键盘眼睛打字系统受到限制，导致文本输入率低和频繁的重新校准。这项工作建议将部分匹配（PPM）技术的预测集成到基于树的虚拟键盘中。我们使用具有十个命令的两级基于树的字符选择系统开发了 Flex-Tree 屏幕键盘，并使用三个级别的 PPM（PPM1、PPM2、PPM3）对其进行了测试。 Flex-Tree 提供对 72 个英文字符的访问，包括大小写字母、数字和特殊字符，并提供删除命令等更正功能。该系统由 16 名健康志愿者使用两项专门设计的打字任务（包括手工挑选和随机挑选的句子）进行了评估。拼写任务是使用两种输入方式执行的：（i）鼠标和（ii）便携式眼动仪。进行了两项实验，涵盖 24 种不同的条件。 Flex-Tree 的打字性能与基于树的字母排列虚拟键盘 (NoPPM) 和面向新用户的 Dasher 屏幕键盘进行了比较。配备 PPM3 的 Flex-Tree 优于其他键盘，使用鼠标的平均文本输入速度为 27.7 个字母/分钟，使用眼动仪的平均文本输入速度为 16.3 个字母/分钟。使用眼动仪，命令和字母级别的信息传输速率分别为 108.4 位/分钟和 100.7 位/分钟。 Flex-Tree 在所有三个级别的 PPM 中，在两种输入模式的系统可用性量表上获得了高评级，在 NASA 任务负载指数上获得了低权重评级，凸显了其以用户为中心的设计。

面向脑机接口中基于 P300 的多试验字符识别的有效深度神经网络方法

分类： 人机交互

作者： Praveen Kumar Shukla, Hubert Cecotti, Yogesh Kumar Meena

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08561v1

摘要： 脑机接口（BCI）通过解码大脑信号实现用户和计算机之间的直接交互。这项研究解决了检测脑电图 (EEG) 中 P300 事件相关电位并将这些 P300 响应整合到字符拼写中的挑战，特别是在以 P300 分布不均匀、目标概率低和信噪比 (SNR) 较差为特征的奇怪范例中）。这项工作提出了一种加权集成时空序列卷积神经网络（WE-SPSQ-CNN），通过减轻字符识别的信号变异性来提高分类精度和信噪比。我们在 BCI 竞赛 III 的数据集 II 上评估了所提出的 WE-SPSQ-CNN，在 15 个时期内，受试者 A 的 P300 分类精度为 69.7%，受试者 B 的 P300 分类精度为 79.9%。对于字符识别，该模型在重复 5 次、10 次和 15 次时分别达到了 76.5%、87.5% 和 94.5% 的平均准确率。我们提出的模型在五次重复中优于最先进的模型，并在十次和十五次重复中提供了可比的性能。

CoHRT：人机团队合作的协作系统

分类： 机器人技术, 人机交互

作者： Sujan Sarker, Haley N. Green, Mohammad Samin Yasar, Tariq Iqbal

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08504v1

摘要： 协作机器人越来越多地与人类一起部署在工厂、医院、学校和其他领域，以增强团队合作和效率。需要将人类和机器人无缝集成到有凝聚力的团队中以协调和高效执行任务的系统，从而能够研究机器人协作策略如何影响团队绩效以及队友感知的公平性、信任和安全性。这样的系统还可以用于研究机器人的规范行为对团队协作的影响。此外，它还可以调查机器人行为的易读性和可预测性如何影响人机团队合作以及感知的安全性和信任。现有的系统是有限的，通常涉及一个人和一个机器人，因此需要更深入地了解更广泛的团队动态。许多人依赖游戏或虚拟模拟，忽略了机器人物理存在的影响。大多数任务都是回合制的，妨碍同时执行并影响效率。本文介绍了CoHRT（人机团队协作系统），它通过无缝协作、协调和沟通促进多人机团队合作。 CoHRT 利用基于服务器-客户端的架构、基于视觉的系统来跟踪任务环境，以及用于团队行动协调的简单界面。它允许在设计任务时考虑人类队友的身体和精神工作量以及团队成员的不同技能标签。我们使用 CoHRT 在一个由 Franka Emika Panda 机器人和两个人类组成的团队中设计了一个协作块操作和拼图解决任务。该系统能够记录多模式协作数据，以开发机器人的自适应协作策略。为了进一步利用 CoHRT，我们概述了各种人机协作任务的潜在研究方向。

DAT：具有模态组融合的对话感知变压器，用于人类参与度估计

分类： 人机交互, 计算机视觉和模式识别

作者： Jia Li, Yangchen Yu, Yin Chen, Yu Zhang, Peng Jia, Yunbo Xu, Ziqiang Li, Meng Wang, Richang Hong

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08470v1

摘要： 参与度估计在理解人类社会行为方面发挥着至关重要的作用，吸引了情感计算和人机交互等领域越来越多的研究兴趣。在本文中，我们提出了一种具有模态组融合（MGF）的对话感知变压器框架（DAT），该框架仅依赖于视听输入并且与语言无关，用于估计人类在对话中的参与度。具体来说，我们的方法采用模态组融合策略，在推断整个视听内容之前，独立地融合每个人每种模态中的音频和视觉特征。该策略显着增强了模型的性能和稳健性。此外，为了更好地估计目标参与者的参与水平，引入的对话感知变压器会考虑参与者的行为和来自对话伙伴的提示。我们的方法在 MultiMediate'24 举办的多领域参与度估计挑战赛中经过了严格测试，证明了与基线模型相比，参与度回归精度有了显着提高。值得注意的是，我们的方法在 NoXi Base 测试集上的 CCC 得分为 0.76，在 NoXi Base、NoXi-Add 和 MPIIGI 测试集上的平均 CCC 为 0.64。

“它们不是为我而建的”：针对视障用户的视觉图形感知与数据触觉表示的复制研究

分类： 人机交互

作者： Areen Khalaila, Lane Harrison, Nam Wook Kim, Dylan Cashman

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08438v1

摘要： 新的触觉界面，例如膨胀式打印或可刷新的触觉显示器，有望让视障人士能够分析数据。然而，从视觉感知系统实验中得出的设计指南和熟悉的编码可能对于触觉感知系统来说并不是最佳的。我们复制了克利夫兰和麦吉尔关于图形感知的研究，使用膨胀形式印刷对 11 名视障受试者进行了研究。我们发现，与那些复制品相比，视力受损的受试者阅读图表的速度更快，并且具有相似甚至有时更高的准确性。基于对一部分参与者的小组访谈，我们描述了我们的受试者阅读四种图表类型所使用的策略。虽然我们的结果表明基于视觉感知研究的熟悉编码在触觉图形中可能有用，但我们的受试者也表达了使用专门为视障人士设计的编码的愿望。

CE-MRS：多机器人系统的对比解释

分类： 机器人技术, 人机交互, 多代理系统

作者： Ethan Schneider, Daniel Wu, Devleena Das, Sonia Chernova

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08408v1

摘要： 随着多机器人系统的复杂性不断增加，包含更多数量的机器人、更复杂的任务和更长的时间范围，此类问题的解决方案往往变得过于复杂，以至于人类用户无法完全理解。在这项工作中，我们引入了一种生成自然语言解释的方法，该方法可以向用户证明系统解决方案的有效性，或者帮助用户纠正导致次优系统解决方案的任何错误。为了实现这一目标，我们首先为多机器人系统提供一种可推广的对比解释形式，然后引入一种整体方法来为多机器人场景生成对比解释，该方法有选择地结合来自多机器人任务分配、调度和运动的数据。计划解释系统行为。通过与人类操作员的用户研究，我们证明我们的集成对比解释方法可以显着提高用户识别和解决系统错误的能力，从而显着提高整体多机器人团队的绩效。

马上你的？关于人工智能生成艺术中即时推理的人类受试者研究

分类： 人机交互, 人工智能

作者： Khoi Trinh, Joseph Spracklen, Raveen Wijewickrama, Bimal Viswanath, Murtuza Jadliwala, Anindya Maiti

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08406v1

摘要： 人工智能生成艺术的新兴领域见证了提示市场的兴起，创作者可以在其中购买、出售或分享生成独特艺术品的提示。这些市场通常主张对提示的所有权，并将其视为知识产权。本文研究了在提示市场上出售的隐藏提示是否可以被视为安全知识产权，因为人类和人工智能工具可能能够根据每个销售提示附带的公开广告样本图像来大致推断提示。具体来说，我们的调查旨在评估（i）人类仅通过检查人工智能生成的图像来推断原始提示的准确度如何，目标是生成与原始图像相似的图像，以及（ii）改进人类个体的可能性人工智能通过在大型语言模型的帮助下制作人类与人工智能组合的提示来提示推理。尽管之前的研究已经探索了使用人工智能和机器学习来推断（并防止）即时推断，但我们是第一个将人类纳入其中的研究。我们的研究结果表明，虽然人类和人类与人工智能的协作可以高精度地推断提示并生成相似的图像，但它们并不像使用原始提示那样成功。

SumAct：通过交互行为总结揭示用户意图

分类： 人机交互

作者： Guanhua Zhang, Mohamed Ahmed, Zhiming Hu, Andreas Bulling

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08356v1

摘要： 最近的工作强调了模拟类似于自然语言的交互行为的潜力。我们提出交互式行为总结作为一种新颖的计算任务，并证明其在与图形用户界面交互时自动发现潜在用户意图的有用性。为了解决这个任务，我们引入了 SumAct，这是一种新颖的分层方法，用于将低级输入动作总结为高级意图。 SummAct 首先使用大型语言模型和上下文学习从用户操作中识别子目标。然后，通过使用新颖的 UI 元素注意力机制微调模型来获得高级意图，以在摘要过程中保留嵌入 UI 元素中的详细上下文信息。通过一系列评估，我们证明 SummAct 在桌面和移动界面以及交互式任务上的性能显着优于基准，最高可达 21.9%。我们进一步展示了受益于 SummAct 的三个令人兴奋的交互式应用程序：交互式行为预测、自动行为同义词识别和基于语言的行为检索。

从不确定性到创新：使用 ProtoBot 进行可穿戴原型设计

分类： 人机交互, 计算机与社会, 编程语言, 系统与控制, 系统与控制

作者： İhsan Ozan Yıldırım, Cansu Çetin Er, Ege Keskin, Murat Kuşcu, Oğuzhan Özcan

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08340v1

摘要： 尽管人工智能取得了进步，但由于缺乏无代码原型工具，没有软件或硬件专业知识的个人在设计可穿戴电子设备时仍然面临障碍。为了消除这些障碍，我们利用大型语言模型设计了 ProtoBot，并通过有趣的互动与来自不同学科的四位专业人士进行了案例研究。该研究产生了四种独特的可穿戴设备概念，参与者使用 Protobot 制作选定组件的原型。从这次经验中，我们了解到（1）不确定性可以转化为积极的体验，（2）ProtoBot应该转变为可靠地充当指导，（3）用户在与原型交互时需要调整设计参数。我们的工作首次展示了大型语言模型在可穿戴电子产品快速原型设计中的使用。我们相信，这种方法将开创快速原型制作的先河，而对于想要开发可穿戴原型和其他产品的人们来说，无需担心不确定性。

声音搜索的语言：检查音频搜索引擎中的用户查询

分类： 计算和语言, 人机交互, 信息检索, 机器学习, 声音, 音频和语音处理

作者： Benno Weck, Frederic Font

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08324v1

摘要： 这项研究检查了声音搜索引擎背景下的文本、用户编写的搜索查询，涵盖各种应用，例如拟音、声音效果和一般音频检索。当前的研究在设计基于文本的音频检索系统时不足以解决现实世界的用户需求和行为。为了弥补这一差距，我们分析了两个来源的搜索查询：自定义调查和 Freesound 网站查询日志。该调查旨在收集对不受限制的假设声音搜索引擎的查询，从而产生一个不受现有系统限制的情况下捕获用户意图的数据集。该数据集也可与研究界共享。相比之下，Freesound 查询日志包含大约 900 万个搜索请求，提供了真实世界使用模式的全面视图。我们的研究结果表明，调查查询通常比 Freesound 查询长，这表明用户在不受系统限制的情况下更喜欢详细查询。这两个数据集主要以基于关键字的查询为特色，很少有调查参与者使用完整的句子。影响调查查询的关键因素包括主要声源、预期用途、感知位置和声源数量。这些见解对于开发以用户为中心、有效的基于文本的音频检索系统至关重要，从而增强我们对声音搜索环境中用户行为的理解。

AdaShadow：非固定移动环境中的响应式测试时间模型自适应

分类： 机器学习, 人工智能, 人机交互

作者： Cheng Fang, Sicong Liu, Zimu Zhou, Bin Guo, Jiaqi Tang, Ke Ma, Zhiwen Yu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08256v1

摘要： 设备端适应持续的、不可预测的领域变化对于自动驾驶和增强现实等移动应用程序至关重要，以便在不断变化的环境中提供无缝的用户体验。测试时间适应 (TTA) 通过在预测前立即使用未标记的实时数据调整模型参数，成为一种有前途的解决方案。然而，TTA 独特的前向-后向-再转发管道显着增加了标准推理的延迟，从而损害了时间敏感的移动应用程序的响应能力。本文介绍了 AdaShadow，这是一种响应式测试时间适应框架，通过选择性更新适应关键层来实现非平稳移动数据分布和资源动态。尽管该策略在通用设备上训练中得到认可，但 TTA 的无监督在线环境在估计层重要性和延迟以及调度最佳层更新计划方面提出了独特的挑战。 AdaShadow 通过无反向传播评估器来快速识别关键层、基于单元的运行时预测器来考虑延迟估计中的资源动态以及用于即时层更新规划的在线调度器来解决这些挑战。此外，AdaShadow 还采用了内存 I/O 感知计算重用方案，以进一步减少重新转发过程中的延迟。结果表明，AdaShadow 在连续移位下实现了最佳的准确度-延迟平衡。在内存和能源成本较低的情况下，Adashadow 的速度比最先进的 TTA 方法提高 2 倍到 3.5 倍（毫秒级），且精度相当，并且比具有类似延迟的高效监督方法精度提高 14.8% 到 25.4%。

SoundScape：人机共创系统，让你的回忆被听到

分类： 人机交互

作者： Chongjun Zhong, Jiaxing Yu, Yingping Cao, Songruoyao Wu, Wenqi Wu, Kejun Zhang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08136v1

摘要： 声音在人类记忆中发挥着重要作用，但它经常被主流生活记录方法所忽视。目前大多数 UGC（用户生成内容）创作工具强调视觉内容，而缺乏用户友好的声音设计功能。本文介绍了SoundScape，一个人机共创系统，允许用户通过创新交互在移动设备上轻松创建声音记忆。通过将音效、音乐与视觉场景相结合，SoundScape鼓励用户用沉浸式声音元素来丰富自己的创作，增强作品的氛围。为了支持公众创作，SoundScape 结合了对话代理和人工智能音乐生成技术。用户研究表明，我们的方法对于声音记忆创建是有效的，SoundScape 在用户体验和所制作作品的感知质量方面优于现有工具。

跨越边缘：交叉用户对软件的道德担忧

分类： 软件工程, 人机交互

作者： Lauren Olson, Tom P. Humbert, Ricarda Anna-Lena Fischer, Bob Westerveld, Florian Kunneman, Emitzá Guzmán

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08090v1

摘要： 由于用户价值观与公司优先事项之间的冲突，许多现代软件应用程序存在许多道德问题。具有多重边缘化身份的交叉社区尤其受到这些道德问题的影响，导致软件公司面临法律、财务和声誉问题，并给交叉用户带来现实世界的伤害。从历史上看，交叉社区的声音被系统性地边缘化，并被排除在软件设计中贡献其独特的观点之外，从而使与软件相关的道德问题长期存在。这项工作旨在填补交叉用户软件相关观点的研究空白，并为软件从业者提供解决其道德问题的起点。我们随着时间的推移汇总和分析了交叉用户的道德问题，并开发了一种优先顺序方法来识别关键问题。为了实现这一目标，我们收集了 700 多个讨论软件应用程序的交叉子版块的帖子，利用深度学习来识别这些帖子中的道德问题，并采用最先进的技术来分析其与时间和优先级相关的内容。我们的研究结果显示，交叉社区报告了与网络欺凌、不当内容和歧视相关的\textit{严重}投诉，凸显了现代软件中的重大缺陷，特别是对于交叉用户而言。基于这些发现，我们讨论如何更好地解决软件开发中交叉用户的道德问题。

APOLLO：基于 GPT 的工具，用于检测网络钓鱼电子邮件并生成警告用户的解释

分类： 人机交互, 密码学和安全

作者： Giuseppe Desolda, Francesco Greco, Luca Viganò

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07997v1

摘要： 网络钓鱼是最多产的网络犯罪活动之一，攻击变得越来越复杂。因此，当务之急是探索新技术，以在技术和人员层面上改善用户保护。大型语言模型 (LLM) 为各个领域的文本处理提供了重要前景，但它们在防御网络钓鱼攻击方面的用途仍然很少被探索。在本文中，我们提出了 APOLLO，这是一种基于 OpenAI 的 GPT-4o 的工具，用于检测网络钓鱼电子邮件并向用户生成有关特定电子邮件为何危险的解释消息，从而提高他们的决策能力。我们评估了 APOLLO 在分类网络钓鱼电子邮件方面的性能；结果表明，LLM 模型在对网络钓鱼电子邮件进行分类方面具有堪称典范的能力（GPT-4o 的准确率为 97%），并且可以通过集成第三方服务的数据来进一步提高此性能，从而实现近乎完美的分类率（准确率 99%）。为了评估人们对该工具生成的解释的看法，我们还对 20 名参与者进行了一项研究，比较了作为网络钓鱼警告提出的四种不同的解释。我们将 LLM 生成的解释与四个基线进行了比较：手动制作的警告以及来自 Chrome、Firefox 和 Edge 浏览器的警告。结果表明，大语言模型生成的解释不仅被认为是高质量的，而且比基线更容易理解、更有趣、更值得信赖。这些发现表明，使用 LLM 来防御网络钓鱼是一种非常有前途的方法，APOLLO 代表了该研究方向的概念验证。

仇恨言论注释中的人类和大语言模型偏见：注释者和目标的社会人口统计分析

分类： 计算和语言, 人工智能, 人机交互

作者： Tommaso Giorgi, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07991v1

摘要： 在线平台的兴起加剧了仇恨言论的传播，需要可扩展且有效的检测。然而，仇恨言论检测系统的准确性在很大程度上依赖于人类标记的数据，而这些数据本质上很容易受到偏见的影响。虽然之前的工作已经研究过这个问题，但注释者的特征和仇恨目标的特征之间的相互作用仍未被探索。我们通过利用包含注释者和目标的丰富社会人口统计信息的广泛数据集来填补这一空白，揭示人类偏见如何与目标属性相关。我们的分析揭示了普遍存在的偏见，我们根据其强度和普遍程度对这些偏见进行了定量描述和表征，揭示了显着的差异。此外，我们将人类偏见与基于角色的大语言模型所表现出的偏见进行比较。我们的研究结果表明，虽然基于角色的大语言模型确实存在偏见，但这些偏见与人类注释者的偏见有很大不同。总的来说，我们的工作提供了关于仇恨言论注释中人类偏见的新的、细致入微的结果，以及对人工智能驱动的仇恨言论检测系统的设计的新见解。

基于事件相关电位检测的脑机接口训练后量化

分类： 人机交互, 新兴技术

作者： Hubert Cecotti, Dalvir Dhaliwal, Hardip Singh, Yogesh Kumar Meena

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07920v1

摘要： 训练后量化 (PTQ) 是一种用于优化和减少机器学习模型的内存占用和计算要求的技术。它主要用于神经网络。对于完全便携且可在各种情况下使用的脑机接口（BCI），有必要提供轻量级的存储和计算方法。在本文中，我们提出对脑机接口最先进方法的训练后量化进行评估，并评估其对准确性的影响。我们评估了代表一种主要 BCI 范式的事件相关电位的单次试验检测的性能。当应用于空间滤波器和分类器时，接受者操作特征曲线下的面积从 0.861 下降到 0.825，同时将模型的大小减小约 $\times$ 15。结果支持以下结论：PTQ 可以大幅减小模型的内存占用，同时保持大致相同的精度水平。

舒缓感觉：通过振动触觉心跳增强与社交辅助机器人的互动

分类： 人机交互, 机器人技术

作者： Jacqueline Borgstedt, Shaun Macdonald, Karola Marky, Frank E. Pollick, Stephen A. Brewster

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07892v1

摘要： 与社交辅助机器人 (SAR) 的身体互动会对用户的健康产生积极影响。然而，触摸 SAR 时的触觉体验通常仅限于感知机器人的运动或外壳纹理，而其他可以增强机器人触摸体验的方式（例如振动触觉刺激）尚未得到充分探索。在这项探索性定性研究中，我们研究了通过振动触觉心跳增强人类与 PARO 机器人互动的潜力，目的是在压力情况下调节主观幸福感。我们对 30 名参与者进行了一对一的深入采访，他们单独观看了 3 个恐怖电影片段、使用 PARO 以及使用显示振动触觉心跳的 PARO。我们的研究结果表明，PARO 的存在及其交互功能可以帮助用户通过将注意力从压力源重新部署到机器人来调节情绪。振动触觉心跳进一步增强了 PARO 的身体和社会存在感，增强了机器人提供的社会情感支持及其感知的栩栩如生。我们讨论了用户体验中个体差异的影响以及对未来 SAR 逼真振动触觉刺激设计的影响。

代理工作流生成基准测试

分类： 计算和语言, 人工智能, 人机交互, 机器学习, 多代理系统

作者： Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07869v1

摘要： 大型语言模型（LLM）以其处理各种任务的卓越能力，推动了推理和规划任务的显着进步，其中将复杂问题分解为可执行的工作流程是这一过程中的关键步骤。现有的工作流评估框架要么仅仅关注整体性能，要么存在场景覆盖范围有限、工作流结构简单化、评估标准宽松等局限性。为此，我们引入了 WorFBench，一个具有多方面场景和复杂的图形工作流结构的统一工作流生成基准。此外，我们还推出了 WorFEval，这是一种系统评估协议，利用子序列和子图匹配算法来准确量化 LLM 代理的工作流程生成能力。通过对不同类型LLM的综合评估，我们发现LLM智能体的序列规划能力和图规划能力之间存在明显差距，甚至GPT-4也表现出15%左右的差距。我们还训练了两个开源模型，并评估它们在执行任务上的泛化能力。此外，我们观察到生成的工作流可以增强下游任务，使它们能够在推理过程中用更少的时间实现卓越的性能。代码和数据集可在 https://github.com/zjunlp/WorFBench 获取。

直观的交互流程：双环人机协作任务分配模型及实验研究

分类： 人机交互

作者： Jiang Xu, Qiyang Miao, Ziyuan Huang, Lingyun Sun, Tianyang Yu, Jingru Pei, Qichao Zhao

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07804v1

摘要： 本研究调查了工业 4.0 背景下人机协作 (HMC) 中的任务分配问题。它通过整合哲学见解和认知科学，明确定义了人机交互（HMI）中人类行为的两种典型模式：基于技能的直觉行为和基于知识的智力行为。在此基础上，创新性地引入“直觉交互流”的概念，将人类直觉与机器人形智能相结合，构建双环HMC任务分配模型。通过测量脑电图 (EEG) 和肌电图 (EMG) 活动的比较实验，识别出与这些行为模式相关的不同生理模式，为未来的自适应 HMC 框架提供了初步基础。这项工作为开发智能 HMC 系统提供了一条途径，可以有效地将人类直觉和机器智能集成到工业 4.0 中。

用受指导的大型语言模型重写对话语句

分类： 计算和语言, 人工智能, 人机交互, 信息检索

作者： Elnara Galimzhanova, Cristina Ioana Muntean, Franco Maria Nardini, Raffaele Perego, Guido Rocchietti

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07797v1

摘要： 最近的许多研究表明，大型语言模型 (LLM) 有能力在许多 NLP 任务上实现最先进的性能，例如问答、文本摘要、编码和翻译。在某些情况下，大语言模型提供的结果与人类专家的结果相当。这些模型最具颠覆性的创新是它们通过零样本或少样本提示执行任务的能力。此功能已成功用于训练受指导的大语言模型，其中使用人类反馈的强化学习来指导模型直接遵循用户的请求。在本文中，我们研究了受指导的大语言模型通过在对话环境中重写用户问题来提高对话搜索效率的能力。我们研究哪些提示提供了信息最丰富的重写话语，从而实现最佳检索性能。在公开可用的 TREC CAST 数据集上进行了可重复的实验。结果表明，与最先进的方法相比，通过受指导的大语言模型重写对话话语，MRR 显着提高了 25.2%，Precision@1 提高了 31.7%，NDCG@3 提高了 27%，Recall@500 提高了 11.5%技术。

给我一个选择：通过人工智能支持感知自主性、动机变量和决策绩效来限制选择的后果

分类： 人机交互

作者： Cedric Faas, Richard Bergs, Sarah Sterz, Markus Langer, Anna Maria Feit

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07728v1

摘要： 人机协作中的设计优化通常侧重于注意力和任务负载等认知方面。根据工作设计文献，我们提出有效的人机协作需要更广泛地考虑影响动机变量（例如意义）的人类需求（例如自主性）。在模拟无人机监督实验中，参与者（N=274，受试者之间）面临 10 个关键决策场景，这些场景具有不同程度的选择限制，而人工智能仅建议 1、2、4 或全部 6 种可能的行动。将参与者限制为一项可选择的行动可以提高任务绩效（使用完美的人工智能），但会显着降低感知的自主性和工作意义，而且这些影响会随着时间的推移而加剧。在有多种行动选择的情况下，具有较高自主性的参与者表现更好。研究结果强调了考虑动机因素对于设计成功的长期人类人工智能工作协作的重要性。

精确的数据驱动故事讲述的约束表示

分类： 人机交互

作者： Yu-Zhe Shi, Haotian Li, Lecheng Ruan, Huamin Qu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07535v1

摘要： 数据驱动的故事讲述是以有说服力的方式交流思想的重要桥梁。然而，手动创建数据故事是一项多方面、劳动密集型且针对特定案例的工作，限制了其更广泛的应用。因此，自动创建数据故事已成为一个重要的研究重点。尽管人工智能取得了进步，但由于其混合性质，数据故事的系统生成仍然具有挑战性：它们必须以自上而下的方式基于种子想法构建视角，类似于传统的讲故事，同时将给定证据的见解连贯地扎根于一种自下而上的方式，类似于数据分析。这些双重要求需要对数据故事的允许空间进行精确限制。从这个角度来看，我们建议将约束集成到数据故事生成过程中。根据解释和表达的层次结构进行定义，约束塑造了叙述和插图，以与种子思想和情境证据保持一致。我们确定这些约束的分类和所需的功能。尽管约束可能是异构的和潜在的，但我们探索通过领域特定语言以计算友好的方式表示它们的潜力。我们相信，利用约束将促进数据故事生成的艺术和科学方面。

视觉写作：通过操纵故事的视觉表现来写作

分类： 人机交互

作者： Damien Masson, Zixin Zhao, Fanny Chevalier

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.07486v1

摘要： 我们介绍“视觉写作”，这是一种通过操纵视觉而不是文字来编写故事的方法。视觉写作依赖于时间、实体、事件和位置的可编辑视觉表示，以提供更适合特定编辑任务的表示。我们提出了这些表示的分类法，并实现了支持视觉写作工作流程的原型软件。该系统允许作者通过交替修改文本和操纵视觉表示来编辑故事，以编辑实体、动作、位置和事件顺序。我们与八位创意作家一起评估了这个工作流程，发现视觉写作可以帮助找到特定的段落，跟踪故事元素，指定编辑，并以鼓励创造力的方式探索故事变化。

通过增强现实了解用户对损伤康复的需求

分类： 人机交互

作者： Jade Kandel, Sriya Kasumarthi, Danielle Albers Szafir

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.07422v1

摘要： 物理治疗 (PT) 在肌肉损伤恢复中发挥着至关重要的作用，但人们很难在家中坚持并正确执行 PT 锻炼。为了应对家庭 PT 面临的挑战，增强现实 (AR) 有望通过沉浸式交互式可视化来提高患者的参与度和准确性。然而，有效利用 AR 需要更好地了解患者在受伤恢复期间的需求。通过采访六位正在接受物理治疗的人，本文介绍了以用户为中心的设计考虑因素，整合 AR 和身体运动数据，以增强家庭 PT 的损伤恢复能力。我们的研究结果确定了关键挑战，并为未来基于身体的 PT 身体运动数据可视化提出了设计变量。

定性研究中的大型语言模型：我们能公正地对待数据吗？

分类： 人机交互

作者： Hope Schroeder, Marianne Aubin Le Quéré, Casey Randazzo, David Mimno, Sarita Schoenebeck

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.07362v1

摘要： 定性研究人员使用工具来收集、排序和分析他们的数据。定性研究人员是否应该使用大型语言模型 (LLM) 作为其实践的一部分？大语言模型可以增强定性研究，但尚不清楚其使用是否适当、符合道德或符合定性研究人员的目标和价值观。我们采访了二十位定性研究人员来调查这些紧张局势。许多参与者将大语言模型视为有前途的对话者，在整个研究阶段具有有吸引力的用例，但他们却对自己的表现和适当性感到困惑。参与者对在保护参与者利益的同时使用大语言模型表示担忧，并提请注意迫切缺乏规范和工具来指导大语言模型在研究中的道德使用。鉴于定性方法对人机交互的重要性，我们利用参与者所表现出的紧张局势，为考虑在定性研究中使用大语言模型的研究人员制定指导方针，并为大语言模型辅助的定性数据分析工具的设计原则提供指导。

道德图灵测试：评估人类与大语言模型在道德决策中的一致性

分类： 人机交互, 人工智能

作者： Basile Garcia, Crystal Qian, Stefano Palminteri

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.07304v1

摘要： 随着大型语言模型（LLM）越来越融入社会，它们与人类道德的一致性至关重要。为了更好地理解这种一致性，我们创建了一个大型语料库，其中包含人类和大语言模型对各种道德场景的反应。我们发现人类道德评估与大语言模型道德评估之间存在不一致；尽管大语言模型和人类都倾向于拒绝道德上复杂的功利主义困境，但大语言模型对个人框架更为敏感。然后，我们进行了一项涉及 230 名参与者 (N=230) 的定量用户研究，他们通过确定这些回答是否由人工智能生成来评估这些回答，并评估他们与这些回答的一致性。人类评估者更喜欢大语言模型在道德场景中的评估，尽管观察到系统性的反人工智能偏见：参与者不太可能同意他们认为是机器生成的判断。统计和基于 NLP 的分析揭示了响应中细微的语言差异，影响了检测和一致性。总体而言，我们的研究结果凸显了人类人工智能感知在道德决策中的复杂性。

Thing2Reality：将 2D 内容转换为条件多视图和 3D 高斯对象以进行 XR 通信

分类： 人机交互, 人工智能, 计算机视觉和模式识别

作者： Erzhen Hu, Mingyi Li, Jungtaek Hong, Xun Qian, Alex Olwal, David Kim, Seongkook Heo, Ruofei Du

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.07119v1

摘要： 在远程交流过程中，参与者经常共享数字和物理内容，例如产品设计、数字资产和环境，以增进相互了解。增强通信的最新进展有助于用户快速创建物理对象的数字 2D 副本并将其从视频源共享到共享空间。然而，数字对象的传统 2D 表示限制了用户在共享沉浸式环境中空间参考项目的能力。为了解决这个问题，我们提出了 Thing2Reality，这是一个扩展现实 (XR) 通信平台，可以增强远程会议期间对数字和物理项目的自发讨论。借助 Thing2Reality，用户可以在沉浸式环境中快速实现想法或物理对象，并将它们作为条件多视图渲染或 3D 高斯进行共享。 Thing2Reality 使用户能够与远程对象交互或以协作方式讨论概念。我们的用户研究表明，与对象的 3D 表示进行交互和操作的能力可显着提高讨论的效率，并有可能增强对 2D 工件的讨论。

中间的机器人：评估争议解决中的大语言模型

分类： 人机交互, 计算和语言

作者： Jinzhe Tan, Hannes Westermann, Nikhil Reddy Pottanigari, Jaromír Šavelka, Sébastien Meeùs, Mia Godet, Karim Benyekhlef

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.07053v1

摘要： 调解是一种争议解决方法，由中立的第三方（调解员）进行干预，帮助个人解决争议。在本文中，我们研究了大型语言模型（LLM）能够在多大程度上充当中介者。我们调查大语言模型是否能够分析争议对话、选择合适的干预类型并生成适当的干预消息。我们使用包含 50 个争议场景的新颖的手动创建数据集，对大语言模型与人类注释者在几个关键指标上进行了盲评估。总体而言，大语言模型表现出了强劲的表现，甚至在各个方面都超过了我们的人类注释者。具体来说，在 62% 的案例中，大语言模型选择的干预类型被评为优于或相当于人类选择的干预类型。此外，在 84% 的情况下，大语言模型生成的干预消息被评为优于或等于人类编写的干预消息。大语言模型在公正性、理解力和情境化等指标上同样表现良好。我们的结果证明了将人工智能集成到在线争议解决（ODR）平台中的潜力。

思想钻石：可穿戴设计大语言模型的基于设计思维的框架

分类： 人机交互

作者： Qiyang Miao, Jiang Xu, Zhihao Song, Chengrui Wang, Yu Cui

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.06972v1

摘要： 可穿戴设计是一个平衡技术创新、人为因素和人机交互的跨学科领域。尽管来自各个学科的贡献，许多项目缺乏稳定的跨学科团队，这常常导致设计失败。大型语言模型 (LLM) 集成了不同的信息并生成创新的解决方案，使其成为增强设计流程的宝贵工具。因此，我们通过将设计思维原则与大语言模型能力相结合，探索了大语言模型在可穿戴设计中的应用。我们开发了“思想钻石”框架，从以身体为中心的角度分析了 1,603 个原型和 1,129 个产品，创建了一个综合数据库。我们采用检索增强生成将数据库详细信息输入大语言模型，确保适用于可穿戴设计挑战并将具体认知集成到流程中。我们基于大语言模型的可穿戴设备方法已经过实验验证，证明了大语言模型在推动设计实践方面的潜力。这项研究为未来的可穿戴设计提供了新的工具和方法。

数字虚线：使用身份钱包对文档进行数字签名的原型的设计和评估

分类： 人机交互

作者： Yorick Last, Jorrit Geels, Hanna Schraffenberger

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.06857v1

摘要： 文档主要以数字方式存储和共享。然而，数字文档仍然通常使用手写签名（副本）进行签名，这对欺诈很敏感。尽管存在基于密码学的安全签名解决方案，但由于可用性问题，它们很少被使用。本文建议使用数字身份钱包通过经过验证的个人数据安全直观地签署数字文档。根据专家的反馈，我们在交互式原型中实现了这一愿景。该原型在有调节的可用性测试 (N = 15) 和随后的无调节远程可用性测试 (N = 99) 中进行了评估。虽然参与者普遍对该系统表示满意，但他们也误解了如何解释原型显示的签名信息。具体来说，当使用签名者的不相关个人数据签署文档时，签名的文档也是可信的。我们的结论是，这种无根据的信任对可用的数字签名构成了威胁，需要可用的安全社区予以关注。

使用学习空间自适应卷积的焦面全息光传输

分类： 图形, 人机交互

作者： Chuanjun Zheng, Yicheng Zhan, Liang Shi, Ozan Cakmakci, Kaan Akşit

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.06854v1

摘要： 计算机生成全息术 (CGH) 是一组用于识别全息图的算法方法，可在全息显示器中重建三维 (3D) 场景。 CGH 算法将 3D 场景分解为不同深度级别的多平面，并依赖于从源平面传播到目标平面的光的模拟。因此，对于 n 个平面，CGH 通常使用 n 个平面到平面的光传输模拟来优化全息图，从而导致大量的时间和计算需求。我们的工作用焦面代替多个平面，并引入了一种学习的光传输模型，该模型可以在一次推理中将光场从源平面传播到焦面。我们学习的光传输模型利用空间自适应卷积来实现目标焦面所需的深度变化传播。所提出的模型将全息图优化过程减少了 1.5 倍，这有助于全息图数据集的生成和未来学习的 CGH 模型的训练。

创造力模式：用户输入如何塑造人工智能生成的视觉多样性

分类： 人机交互

作者： Maria-Teresa De Rosa Palmini, Eva Cetinic

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.06768v1

摘要： 最近对人工智能（AI）生成的视觉内容的批评凸显了对艺术原创性侵蚀的担忧，因为这些系统经常复制训练数据集中的模式，导致显着的一致性和多样性的减少。我们的研究采用了一种新颖的方法，重点关注与文本到图像模型交互过程中的用户行为。我们不是仅仅分析训练数据模式，而是研究用户创建原始提示或依赖通用模板的倾向如何影响内容同质化。我们开发了三个原创性指标——词汇原创性、主题原创性和词序列原创性——并将它们应用于来自两个数据集（DiffusionDB 和 Civiverse）的用户生成的提示。此外，我们还使用线性回归模型来预测用户参与度，探讨了主题选择、语言原创性和 NSFW 内容的存在等特征如何影响图像流行度。我们的研究通过强调用户行为在塑造人工智能生成的视觉内容多样性方面的关键作用，增强了关于人工智能对创造力影响的讨论。

减轻自动面部非语言行为生成中的性别偏见

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习, 神经和进化计算

作者： Alice Delbosc, Magalie Ochs, Nicolas Sabouret, Brian Ravenet, Stephane Ayache

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.07274v1

摘要： 社交互动主体非语言行为生成的研究主要集中在非语言线索与语音的可信度和同步性上。然而，主要基于深度学习架构的现有模型通常会延续训练数据中固有的偏差。这会引起道德问题，具体取决于这些药物的预期应用。本文首先研究性别对面部非语言行为的影响来解决这些问题。我们专注于目光、头部动作和面部表情。我们引入了一种分类器，能够根据说话者的非语言线索辨别其性别。该分类器对使用最先进的工具提取的真实行为数据和从先前工作中开发的模型生成的合成数据都实现了高精度。基于这项工作，我们提出了一个新模型 FairGenderGen，它集成了我们之前的行为生成模型中加入了性别鉴别器和梯度反转层。这种新模型根据语音特征生成面部非语言行为，从而减轻生成行为中的性别敏感性。我们的实验表明，在初始阶段开发的分类器不再能够有效地区分说话者的性别和生成的非语言行为。

实现新颖的任务操作以及与 ROSA 的交互：机器人操作系统代理

分类： 机器人技术, 人工智能, 人机交互

作者： Rob Royce, Marcel Kaufmann, Jonathan Becktor, Sangwoo Moon, Kalind Carpenter, Kai Pak, Amanda Towler, Rohan Thakker, Shehryar Khattak

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.06472v1

摘要： 机器人系统的进步已经彻底改变了许多行业，但它们的操作通常需要专门的技术知识，限制了非专家用户的使用。本文介绍了 ROSA（机器人操作系统代理），这是一种人工智能驱动的代理，可弥合机器人操作系统 (ROS) 和自然语言界面之间的差距。通过利用最先进的语言模型并集成开源框架，ROSA 使操作员能够使用自然语言与机器人进行交互，将命令转换为动作，并通过定义明确的工具与 ROS 进行交互。 ROSA 的设计是模块化和可扩展的，提供与 ROS1 和 ROS2 的无缝集成，以及参数验证和约束执行等安全机制，以确保安全、可靠的操作。虽然 ROSA 最初是为 ROS 设计的，但它可以扩展为与其他机器人中间件配合使用，以最大限度地提高跨任务的兼容性。 ROSA 通过使复杂机器人系统的访问民主化来增强人机交互，为所有专业水平的用户提供语音集成和视觉感知等多模式功能。在阿西莫夫机器人三定律等基本原则的指导下，彻底解决了道德问题，确保人工智能集成促进安全、透明、隐私和问责制。通过使机器人技术更加用户友好和易于使用，ROSA 不仅提高了操作效率，还为机器人技术和潜在的未来任务操作中负责任的人工智能使用制定了新标准。本文介绍了 ROSA 的架构，并展示了 JPL 火星场、实验室的初始模型操作以及使用三种不同机器人的模拟。核心 ROSA 库是开源的。

秘鲁普诺地区克丘亚语使用者使用 QWERTY 键盘面临的挑战

分类： 人机交互

作者： Henry Juarez-Vargas, Roger Mijael Mansilla-Huanacuni, Fred Torres-Cruz

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.06453v1

摘要： 主要为英语设计的 QWERTY 键盘布局的广泛采用，给盖丘亚语等本土语言的使用者带来了巨大的挑战，特别是在秘鲁的普诺地区。这项研究探讨了 QWERTY 布局对盖丘亚语使用者的书写和数字通信的影响程度。通过对盖丘亚语独特字母和字符频率的分析，结合当地使用者的见解，我们确定了 QWERTY 系统对盖丘亚语高效数字转录所施加的限制。该研究进一步提出了替代键盘布局，包括 QWERTY 和 DVORAK 的优化，旨在提高打字效率并减少盖丘亚语使用者的数字鸿沟。我们的研究结果强调需要本地化的技术解决方案来保护语言多样性，同时提高土著社区的数字素养。拟议的修改为尊重和适应语言多样性的更具包容性的数字工具提供了一条途径。

LocoVR：虚拟现实中的多用户室内运动数据集

分类： 机器人技术, 计算机视觉和模式识别, 人机交互

作者： Kojiro Takeyama, Yimeng Liu, Misha Sra

发布时间： 2024-10-09

链接： http://arxiv.org/abs/2410.06437v1

摘要： 了解人类运动对于机器人等人工智能代理至关重要，特别是在复杂的室内家庭环境中。对这些空间中的人类轨迹进行建模需要深入了解个人如何绕过物理障碍并管理社交导航动态。这些动态包括受空间关系影响的微妙行为——空间的社会利用，例如让开让其他人通过或选择更长的路线以避免碰撞。先前的研究已经开发了室内场景中的人体运动数据集，但这些数据集通常规模有限，并且缺乏家庭环境中常见的细致入微的社交导航动态。为了解决这个问题，我们推出了 LocoVR，这是一个包含 7000 多个两人轨迹的数据集，这些轨迹是在虚拟现实中从 130 多个不同的室内家庭环境中捕获的。 LocoVR 提供全身姿势数据和精确的空间信息，以及社交驱动的运动行为的丰富示例。例如，该数据集捕获个体在狭窄空间中相互导航的实例，调整路径以尊重生活区域中的个人边界，以及协调入口和厨房等人流量大的区域的运动。我们的评估表明，LocoVR 在利用人体轨迹的三项实际室内任务中显着提高了模型性能，并演示了预测家庭环境中的社交感知导航模式。

使用机器学习对德拉威语言中的代码混合文本进行重音检测

分类： 计算和语言, 人工智能, 人机交互, 机器学习

作者： L. Ramos, M. Shahiki-Tash, Z. Ahani, A. Eponon, O. Kolesnikova, H. Calvo

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06428v1

摘要： 压力是日常生活中的常见感受，但在某些情况下它会影响心理健康，因此开发稳健的检测模型势在必行。本研究介绍了一种系统方法来识别德拉威语言的代码混合文本中的重音。该挑战包含两个数据集，分别针对泰米尔语和泰卢固语。该提案强调了使用未清理文本作为基准来完善未来分类方法并结合不同预处理技术的重要性。使用随机森林算法，具有三种文本表示形式：TF-IDF、单词的一元语法和字符的 (1+2+3) 语法组合。该方法在两个语言类别上都取得了良好的性能，泰米尔语的 Macro F1 分数为 0.734，泰卢固语的 Macro F1 分数为 0.727，超过了使用 FastText 和 Transformer 模型等不同复杂技术所取得的结果。结果强调了未清理数据对于精神状态检测的价值以及对代码混合文本进行压力分类的挑战，表明通过清理数据、其他预处理技术或更复杂的模型来提高性能的潜力。

有偏见的人工智能会影响政治决策

分类： 人机交互, 人工智能

作者： Jillian Fisher, Shangbin Feng, Robert Aron, Thomas Richardson, Yejin Choi, Daniel W. Fisher, Jennifer Pan, Yulia Tsvetkov, Katharina Reinecke

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06415v1

摘要： 随着现代人工智能模型成为日常任务不可或缺的一部分，人们开始担心它们固有的偏见及其对人类决策的潜在影响。虽然模型中的偏差有据可查，但人们对这些偏差如何影响人类决策却知之甚少。本文提出了两个交互实验，研究人工智能语言模型中的党派偏见对政治决策的影响。参与者在完成政治决策任务时与有偏见的自由派、保守派或无偏见的控制模型自由互动。我们发现，接触政治偏见模型的参与者更有可能采纳与人工智能偏见一致的意见并做出决策，无论他们个人的政治党派如何。然而，我们还发现，有关人工智能的先验知识可以减轻偏见的影响，这凸显了人工智能教育对于稳健缓解偏见的可能重要性。我们的研究结果不仅强调了与有偏见的人工智能互动的关键影响及其影响公共话语和政治行为的能力，而且还强调了未来减轻这些风险的潜在技术。

评估行人过路处警报系统中警告方式和误报的影响

分类： 人机交互, H.5.2

作者： Hesham Alyamani, Yucheng Yang, David Noyce, Madhav Chitturi, Kassem Fawaz

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06388v1

摘要： 随着行人死亡人数的稳步增加，行人安全越来越受到关注，尤其是在城市环境中。高级驾驶员辅助系统 (ADAS) 的开发旨在通过预测潜在的行人过路处并及时向驾驶员发出警报来降低道路使用者的风险。然而，人们对驾驶员如何响应不同形式的警报的了解有限，特别是在出现误报的情况下。在本研究中，我们利用全尺寸驾驶模拟器来比较不同警报方式（视听 (AV)、视觉-触觉 (VT) 和视听-触觉 (AVT)）在提醒驾驶员注意各种情况方面的有效性。行人乱穿马路事件。我们的研究结果表明，与没有警报相比，多模式警报显着增加了为行人停车的车辆数量以及停车时与行人的距离。然而，误报对驾驶员的信任度产生了负面影响，一些驾驶员表现出过度谨慎、警觉疲劳和焦虑，甚至有一次驾驶员在没有行人在场的情况下完全停车。

通过神经发散的视角探索大型语言模型：使用、挑战、社区驱动的解决方法和担忧

分类： 人机交互

作者： Buse Carik, Kaike Ping, Xiaohan Ding, Eugenia H. Rho

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06336v1

摘要： 尽管神经分歧个体在日常生活中越来越多地使用大型语言模型（LLM），但我们对他们如何参与和感知 LLM 的了解仍然有限。在这项研究中，我们通过定性分析 Reddit 上 61 个神经分歧社区的主题相关讨论，研究神经分歧个体如何与大语言模型互动。我们的研究结果揭示了神经分歧用户五个核心使用主题领域的 20 个具体的大语言模型用例：情绪健康、心理健康支持、人际沟通、学习以及专业发展和生产力。我们还确定了关键的挑战，包括过于神经典型的大语言模型反应和基于文本的交互的局限性。针对此类挑战，一些用户通过分享输入提示和相应的LLM回复来积极寻求建议。其他人通过实验和修改提示来开发变通办法，使其对神经发散者更加友好。尽管做出了这些努力，用户仍然对大语言模型的使用抱有很大的担忧，包括潜在的过度依赖和担心取代人际关系。我们的分析强调了让大语言模型对神经分化用户更具包容性的必要性，以及大语言模型技术如何强化意想不到的后果和行为的影响。

迈向 GENEA 排行榜——评估和推进会话运动合成的扩展、实时基准

分类： 人机交互, 计算机视觉和模式识别, 图形, 机器学习, I.3; I.2

作者： Rajmund Nagy, Hendric Voss, Youngwoo Yoon, Taras Kucherenko, Teodor Nikolov, Thanh Hoang-Minh, Rachel McDonnell, Stefan Kopp, Michael Neff, Gustav Eje Henter

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06327v1

摘要： 当前语音驱动手势生成的评估实践缺乏标准化，并且侧重于易于衡量的方面而不是真正重要的方面。这导致了这样一种情况：在比较两种出版物时，不可能知道最新技术是什么，或者知道哪种方法更适合哪个目的。在这篇立场文件中，我们回顾并详细介绍了现有手势生成评估的问题，并提出了解决这些问题的新颖建议。具体来说，我们宣布即将推出一个实时排行榜，以衡量对话运动合成的进展情况。与早期的手势生成挑战不同，排行榜将每年多次通过对新手势生成系统的大规模用户研究进行更新，并且排行榜上的系统可以提交到其作者喜欢的任何发布地点。通过随着时间的推移不断发展排行榜评估数据和任务，我们的努力可以不断推动社区确定的最重要最终目标的进展。我们积极寻求社区参与整个评估流程：从评估的数据和任务，通过工具，到评估的系统。换句话说，我们的建议不仅使研究人员更容易进行良好的评估，而且他们的集体投入和贡献也将有助于推动手势生成研究的未来。

预测：通过评估从候选轨迹推断的分解偏好来进行偏好推理

分类： 人工智能, 人机交互

作者： Stephane Aroca-Ouellette, Natalie Mackraz, Barry-John Theobald, Katherine Metcalf

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06273v1

摘要： 适应人类偏好对于创建提供个性化和有效交互的人工智能代理至关重要。最近的研究表明，大语言模型有可能从用户交互中推断偏好，但它们通常会产生广泛且通用的偏好，无法捕捉人类偏好的独特和个性化本质。本文介绍了 PREDICT，一种旨在提高偏好推断精度和适应性的方法。 PREDICT 包含三个关键要素：(1) 推断偏好的迭代细化，(2) 将偏好分解为组成部分，以及 (3) 跨多个轨迹验证偏好。我们在两个不同的环境上评估 PREDICT：网格世界设置和新的文本域环境 (PLUME)。 PREDICT 更准确地推断出人类偏好的细微差别，较现有基线提高了 66.2%（gridworld 环境）和 41.0%（PLUME）。

元认知可以预测你解决问题的成功吗？编程中的探索性案例研究

分类： 计算机与社会, 人机交互

作者： Bostjan Bubnic, Željko Kovačević, Tomaž Kosar

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06267v1

摘要： 元认知已被认为是学术成功和解决问题的基本技能。在学习或解决问题过程中，元认知技能促进一系列认知和情感过程，共同提高绩效。本研究探讨了第二门编程入门课程中元认知的预测潜力。提出了一个由元认知意识和元认知行为组成的二维模型。为了根据经验评估元认知的预测能力，在第二门编程入门课程中对来自两个机构的 194 名参与者进行了探索性案例研究。采用潜在方法来检查元认知和面向对象编程中的性能之间的关联。我们的研究结果表明，这两个元认知维度对编程都有积极的影响。同样，结构方程建模的结果表明，编程性能中 27% 的方差是由元认知行为解释的。根据结果，元认知有可能被认为是入门编程中表现的重要预测因素之一。

RealityCraft：通过场景感知增强现实为新手提供现场 CAD+CAM 界面

分类： 人机交互, 新兴技术, 图形, H.5.0; H.5.1; H.5.2

作者： Oğuz Arslan, Artun Akdoğan, Mustafa Doga Dogan

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06113v1

摘要： 尽管用于可视化的增强现实（AR）越来越容易使用，但现有的计算机辅助设计系统仍然主要局限于传统屏幕，而且由于其复杂性，新手用户通常无法使用。我们推出了 RealityCraft，这是一个开源 AR 界面，可为新手提供现场计算机辅助设计和制造 (CAD+CAM)。与局限于计算机屏幕的传统 CAD 系统不同，RealityCraft 允许用户直接在物理环境中使用原始几何形状进行设计。 RealityCraft 识别并利用家具和墙壁等物理约束，通过空间意识和深度遮挡增强用户交互。此外，RealityCraft 还具有基于 AR 的集成 3D 打印工作流程，用户可以将设计拖放到其直接空间中的 3D 打印机虚拟双胞胎上。通过用户研究，我们证明 RealityCraft 增强了新手的参与度和易用性。通过弥合数字创作和物理输出之间的差距，RealityCraft 旨在将日常空间转变为创意工作室。

眼睛的分辨率极限：我们能看到多少像素？

分类： 人机交互, 图形, 多媒体, 图像和视频处理

作者： Maliha Ashraf, Alexandre Chapiro, Rafał K. Mantiuk

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06068v1

摘要： 随着大量工程工作致力于提高移动、AR 和 VR 显示器的分辨率，了解进一步改进不会带来明显好处的最大分辨率非常重要。这种限制通常被称为“视网膜分辨率”，尽管限制因素不一定归因于视网膜。为了确定图像在我们的眼睛看来清晰且没有可察觉的模糊的最终分辨率，我们创建了一个带有滑动显示屏的实验装置，可以连续控制分辨率。缺乏这种控制是先前研究的主要局限性。我们测量中央凹视力的消色差（黑白）和彩色（红绿和黄紫）分辨率极限，以及两个偏心率（10 度和 20 度）。我们的结果表明，分辨率极限比之前认为的要高，中心凹消色差视觉达到 94 像素每度 (ppd)，红绿图案达到 89 ppd，黄紫色图案达到 53 ppd。我们还观察到彩色图案（红绿和黄紫）的分辨率极限比消色差的分辨率极限下降得多。我们的研究结果为显示开发指明了方向，对未来的成像、渲染和视频编码技术具有重要意义。

“多样性就是拥有多样性”：申请人选择中的多样性拆包和设计

分类： 人机交互

作者： Neil Natarajan, Sruthi Viswanathan, Reuben Binns, Nigel Shadbolt

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06049v1

摘要： 在选择奖学金、大学或工作的申请者时，从业者通常会瞄准多样化的合格接受者群体。然而，不同的表达方式、结构和多样性概念阻碍了决策者实施和推进他们都同意需要的多样性。为了理解从价值观到需求再到决策支持工具 (DST) 转化的挑战，我们进行了参与式设计研究，探索专业人员对多样性的不同看法以及如何构建它们。我们的研究结果提出了多样性的三个定义：汇集不同的观点；确保基础人口的代表性；以及情境化应用程序，我们用它来创建多样性三角。我们体验反映多样性三角各个角度的 DST 原型，以增强围绕多样性的决策。我们发现多样性的概念是高度多样化的；设计 DST 的多样性工作应首先与组织合作，将“多样性”提炼到定义和设计要求中。

TapType：通过贝叶斯推理在日常表面上进行十指文本输入

分类： 人机交互, 计算机视觉和模式识别, H.5; I.5

作者： Paul Streli, Jiaxi Jiang, Andreas Fender, Manuel Meier, Hugo Romat, Christian Holz

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.06001v1

摘要： 尽管出现了触摸屏，但在物理键盘上打字仍然是输入文本的最有效方式，因为用户可以在全尺寸键盘上利用所有手指来方便地打字。随着用户越来越多地在旅途中打字，移动和可穿戴设备上的文本输入不得不在全尺寸打字上做出妥协。在本文中，我们介绍了 TapType，这是一种移动文本输入系统，用于在无源表面上进行全尺寸打字，无需实际键盘。 TapType 通过任一手腕带内的惯性传感器对表面敲击进行解码并将其与传统的 QWERTY 键盘布局关联起来。我们方法的关键新颖之处在于，通过将贝叶斯神经网络分类器的手指概率与 n-gram 语言模型的字符先验概率融合来预测最可能的字符序列。在我们的在线评估中，经过 30 分钟的训练，参与者平均每分钟输入 19 个单词，字符错误率为 0.6%。因此，专业打字员在错误率相似的情况下始终能够达到 25 WPM 以上。我们演示了 TapType 在智能手机和平板电脑移动使用中的应用，作为视觉控制之外的混合现实交互的补充，以及作为使用纯音频反馈界面的免眼移动文本输入方法。

TouchInsight：来自自我中心视觉的混合现实的不确定性感知快速触摸和文本输入

分类： 计算机视觉和模式识别, 人机交互, I.4; I.5; H.5

作者： Paul Streli, Mark Richardson, Fadi Botros, Shugao Ma, Robert Wang, Christian Holz

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.05940v1

摘要： 虽然无源表面为混合现实中的交互提供了许多好处，但仅通过头戴式摄像头可靠地检测触摸输入一直是一个长期存在的挑战。相机细节、手部自遮挡以及头部和手指的快速移动给触摸事件的确切位置带来了相当大的不确定性。因此，现有方法无法实现鲁棒交互所需的性能。在本文中，我们提出了一个实时管道，可以纯粹基于以自我为中心的手部跟踪来检测任何物理表面上所有十个手指的触摸输入。我们的方法 TouchInsight 包含一个神经网络，用于预测触摸事件的时刻、手指接触以及触摸位置。 TouchInsight 通过二元高斯分布表示位置，以解决由于感知不准确而导致的不确定性，我们通过上下文先验来解决这一问题，以准确推断预期的用户输入。我们首先离线评估我们的方法，发现它以 6.3 毫米的平均误差定位输入事件，并准确地检测触摸事件（F1=0.99）并识别所使用的手指（F1=0.96）。然后，在在线评估中，我们展示了我们的方法对于灵巧触摸输入的核心应用（双手文本输入）的有效性。在我们的研究中，参与者每分钟输入 37.0 个单词，平均未纠正错误率为 2.9%。

控制运动想象 BCI 的个体学习贝叶斯模型

分类： 人机交互

作者： Côme Annicchiarico, Fabien Lotte, Jérémie Mattout

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.05926v1

摘要： 脑机接口（BCI）和神经反馈（NF）训练中受试者自我调节的认知机制仍然知之甚少。然而，需要每个个体学习轨迹的机械计算模型来提高 BCI 应用的可靠性。现有的少数尝试主要依赖于无模型（强化学习）方法。因此，他们无法捕捉每个受试者制定的策略，也无法准确预测他们的学习曲线。在这项研究中，我们提出了一种基于模型的替代方法，植根于主动推理框架内的认知技能学习。我们展示了如何将 BCI 训练构建为高不确定性下的推理问题。我们在之前发布的合成运动想象 ERD 侧向训练中说明了所提出的方法。我们展示了模型参数的简单变化如何使我们能够定性地匹配实验结果并解释各种主题。在不久的将来，这种方法可能会提供强大的计算能力来模拟个人技能学习，从而优化和精细描述 BCI 训练。

推进自动驾驶车辆与行人交互的 VR 模拟器：关注多实体场景

分类： 人机交互

作者： Tram Thi Minh Tran, Callum Parker

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.05712v1

摘要： 最近的研究越来越关注自动驾驶汽车 (AV) 在涉及多辆车和行人的复杂交通情况下如何与行人进行通信。 VR 正在成为模拟这些多实体场景的有效工具，提供安全且受控的学习环境。尽管其使用越来越多，但对这些 VR 模拟的有效性缺乏彻底的调查，在记录的见解和经验教训方面留下了显着的空白。本研究对两项不同的基于 VR 的研究进行了回顾性分析：一项侧重于多个 AV 场景 (N=32)，另一项侧重于多个行人场景 (N=25)。我们检查的核心是参与者的存在感和他们的过路行为。研究结果强调了在每次模拟中增强或减弱临场感的关键因素，为未来的改进提供了考虑。此外，他们强调了受控场景对交叉行为以及与自动驾驶汽车交互的影响，主张探索更自然和交互式的模拟，以更好地反映现实世界的自动驾驶汽车和行人动态。通过这项研究，我们为推进 VR 模拟器研究自动驾驶汽车和行人之间复杂的交互奠定了基础。

通过大语言模型在真实临床场景中辅助诊断自闭症

分类： 人机交互, 人工智能, 计算和语言

作者： Yi Jiang, Qingyang Shen, Shuzhong Lai, Shunyu Qi, Qian Zheng, Lin Yao, Yueming Wang, Gang Pan

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.05684v2

摘要： 自闭症谱系障碍（ASD）是一种普遍性发育障碍，严重影响个人的日常功能和社会参与。尽管有大量的研究集中在支持自闭症谱系障碍的临床诊断上，但在基于大语言模型（LLM）的方法领域仍然缺乏系统和全面的探索，特别是基于自闭症的真实临床诊断场景诊断观察计划，第二版 (ADOS-2)。因此，我们提出了一个名为ADOS-Copilot的框架，在评分和解释之间取得平衡，并探讨了影响LLM在此任务中表现的因素。实验结果表明，我们提出的框架与临床医生的诊断结果具有竞争力，最小MAE为0.4643，二元分类F1得分为81.79％，三元分类F1得分为78.37％。此外，我们从ADOS-2、LLM的能力、语言和模型规模等角度系统地阐明了当前LLM在这项任务中的优势和局限性，旨在启发和指导LLM未来在更广泛的心理健康领域的应用失调。我们希望更多的研究成果能够转化为真正的临床实践，为古怪的孩子们打开一扇通往世界的善意之窗。

Counterpoint：编排大规模自定义动画可视化

分类： 图形, 人机交互

作者： Venkatesh Sivaraman, Frank Elavsky, Dominik Moritz, Adam Perer

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.05645v1

摘要： 大型、复杂数据集的自定义动画可视化在许多领域都有帮助，但它们很难开发。大部分困难来自于维护许多动画图形元素的可视化状态，这些元素的数量可能会随着时间的推移而变化。我们贡献了 Counterpoint，这是一个状态管理框架，旨在帮助在 JavaScript 中实现此类可视化。使用 Counterpoint，开发人员可以使用反应性属性操作大量标记，这些属性很容易在 Canvas 和 WebGL 等可扩展 API 中呈现。 Counterpoint 还可以使用渲染“阶段”的概念来帮助协调图形元素的进入和退出。通过性能评估，我们表明 Counterpoint 与当前高性能渲染技术相比增加了最小的开销，同时简化了实现。我们提供了两个使用 Counterpoint 创建的可视化示例，说明了它的灵活性和与其他可视化工具包的兼容性以及对残障用户的注意事项。 Counterpoint 是开源的，可从 https://github.com/cmudig/counterpoint 获取。

信息可视化中的注释调查：经验见解、应用和挑战

分类： 人机交互

作者： Md Dilshadur Rahman, Bhavana Doppalapudi, Ghulam Jilani Quadri, Paul Rosen

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.05579v1

摘要： 我们对信息可视化中注释的使用进行了全面的调查，强调了它们在提高受众理解和参与视觉数据方面的关键作用。我们的调查包括对注释的实证研究，展示它们对不同环境下的用户参与、交互、理解和记忆的影响。我们还研究用于创建注释的现有工具和技术及其多样化应用，增强对数据可视化中注释的实践和理论方面的理解。此外，我们还确定了现有的研究差距并提出了未来潜在的研究方向，通过提供对可视化中注释应用的透彻理解，使我们的调查成为研究人员、可视化设计师和从业者的宝贵资源。

对话：通过交互式模拟和对话反馈支持面试实践中的反思性学习

分类： 人机交互

作者： Taufiq Daryanto, Xiaohan Ding, Lance T. Wilhelm, Sophia Stil, Kirk McInnis Knutsen, Eugenia H. Rho

发布时间： 2024-10-08

链接： http://arxiv.org/abs/2410.05570v1

摘要： 工作面试在塑造一个人的职业生涯中发挥着至关重要的作用，但练习面试技巧可能具有挑战性，尤其是在无法获得真人教练或同事的反馈的情况下。大型语言模型 (LLM) 的最新进展为增强面试实践体验提供了机会。然而，很少有研究探讨此类系统的有效性和用户认知，或者使用大语言模型进行面试练习的好处和挑战。此外，虽然之前的工作和最近的商业工具已经证明了人工智能在协助面试实践方面的潜力，但它们经常提供单向反馈，用户只能收到有关其表现的信息。相比之下，对话反馈是学习科学中发展起来的一个概念，是一种双向交互反馈过程，允许用户通过交互式对话进一步参与所提供的反馈并从中学习。本文介绍了 Conversate，这是一个基于 Web 的应用程序，它通过利用大型语言模型 (LLM) 进行交互式面试模拟和对话反馈，支持求职面试实践中的反思性学习。为了开始面试会话，用户在系统中提供职位的头衔（例如，入门级软件工程师）。然后，我们的系统将初始化 LLM 代理，通过向用户询问开放面试问题并根据后续用户响应仔细调整问题来开始面试模拟。面试结束后，我们的后端大语言模型框架将分析用户的反应并突出需要改进的领域。然后，用户可以通过选择特定部分并撰写自我反思来注释记录。最后，用户可以与系统进行交互以获取对话反馈，与 LLM 代理进行对话，以根据代理的指导学习并迭代完善他们的答案。

使用可穿戴数据自动识别和可视化团体训练活动

分类： 机器学习, 人机交互

作者： Barak Gahtan, Shany Funk, Einat Kodesh, Itay Ketko, Tsvi Kuflik, Alex M. Bronstein

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.05452v1

摘要： 人类活动识别 (HAR) 从智能手表等可穿戴设备收集的时间序列数据中识别日常活动。物联网 (IoT)、云计算和低成本传感器的最新进展扩大了 HAR 在医疗保健、生物识别、体育和个人健身等领域的应用。然而，有效处理这些设备生成的大量数据以及开发能够从连续记录中准确识别各种活动而不依赖于预定义的活动训练课程的模型仍然存在挑战。本文提出了一个综合框架，用于从可穿戴数据中估算、分析和识别活动，特别针对没有明确活动课程的团体训练场景。我们的方法基于六个月内从 135 名佩戴 Garmin 55 智能手表的士兵收集的数据。该框架集成了多个数据流，通过跨域统计方法处理缺失数据，并使用机器学习（ML）高精度识别活动。此外，我们利用统计分析技术来评估团队中每个人的表现，以易于理解的可视化方式提供有关他们在团队中各自位置的宝贵见解。这些可视化有助于轻松理解绩效指标，增强团队互动并为个性化培训计划提供信息。我们通过传统的训练测试分割和样本外场景来评估我们的框架，重点关注模型的泛化能力。此外，我们在不依赖机器学习的情况下处理睡眠数据插补，从而改进了恢复分析。我们的研究结果证明了可穿戴数据在准确识别群体活动方面的潜力，为智能、数据驱动的培训解决方案铺平了道路。

皮肤控制的电子和神经形态纹身

分类： 人机交互

作者： Dmitry Kireev, Nandu Koripally, Samuel Liu, Gabriella Coloyan Fleming, Philip Varkey, Joseph Belle, Sivasakthya Mohan, Sang Sub Han, Dong Xu, Yeonwoong Jung, Xiangfeng Duan, Jean Anne C. Incorvia, Deji Akinwande

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.05449v1

摘要： 过去十年开发的可穿戴人体活动传感器呈现出一种明显的趋势，即变得更薄、更难以察觉，同时保留其电气特性，石墨烯电子纹身就是一个终极例子。然而，现代可穿戴设备面临的一个持续挑战是，由于传感器记录位置与信号传输介质之间的距离而导致信号衰减。为了解决这个问题，我们在这里建议直接利用人体皮肤作为信号传输介质，并使用低成本凝胶电极来快速探测基于 2D 晶体管的可穿戴设备。我们证明，皮肤的皮下组织层可以有效地充当电解质，从而能够将电势应用于放置在皮肤顶部的由石墨烯和其他二维材料制成的半导体薄膜。石墨烯晶体管纹身在通过体偏置时表现出高载流子迁移率（高达 6500 2V-1s-1），MoS2 和 PtSe2 晶体管的迁移率分别高达 30 cm2V-1s-1 和 1 cm2V-1s-1 。最后，通过在设备结构中引入一层 Nafion，我们观察到了神经形态功能，将这些电子纹身转变为通过皮肤本身控制的神经形态生物电子设备。神经形态生物电子纹身具有开发自我意识和独立智能可穿戴设备的潜力，这对于理解和提高人类整体表现至关重要。

使用大语言模型构建和掩盖偏好档案以过滤令人不适的建议

分类： 信息检索, 人机交互

作者： Jiahao Liu, YiYang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu, Ning Gu

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.05411v1

摘要： 个性化算法可能会无意中让用户接触到令人不适的推荐，从而可能引发负面后果。不适的主观性和这些算法的黑匣子性质使得有效识别和过滤此类内容具有挑战性。为了解决这个问题，我们首先进行了一项形成性研究，以了解用户对令人不适的推荐过滤的做法和期望。然后，我们设计了一个名为 DiscomfortFilter 的基于大型语言模型 (LLM) 的工具，它为用户构建可编辑的偏好配置文件，并帮助用户通过对话表达过滤需求，以掩盖配置文件中令人不适的偏好。基于编辑后的配置文件，DiscomfortFilter 以即插即用的方式促进令人不适的推荐过滤，保持灵活性和透明度。构建的偏好配置文件改进了 LLM 推理并简化了用户对齐，使 3.8B 开源 LLM 能够在离线代理任务中与顶级商业模型相媲美。一项由 24 名参与者参与的为期一周的用户研究证明了 DiscomfortFilter 的有效性，同时也强调了其对平台推荐结果的潜在影响。最后，我们讨论了当前的挑战，强调其与更广泛研究的相关性，评估利益相关者的影响，并概述未来的研究方向。

使用逼真的人工智能超人类头像，通过沉浸式体验加强求职面试准备

分类： 人机交互, 14J60, F.2.2

作者： Navid Ashrafi, Francesco Vona, Carina Ringsdorf, Christian Hertel, Luca Toni, Sarina Kailer, Alice Bartels, Tanja Kojic, Jan-Niklas Voigt-Antons

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.05131v1

摘要： 本研究将调查用户在虚拟现实 (VR)、增强现实 (AR) 和 2D 屏幕上与高度逼真的虚拟求职面试官头像进行交互时的体验。我们的虚拟角色拥有精确的语音识别机制，可以进行模拟软件工程工作面试，使用户充分沉浸在逼真的场景中。为了评估我们系统的效率，我们测量了焦虑引发程度、社交存在感、自尊和内在动机等因素。这项研究是一项正在进行的前瞻性受试者内用户研究，包括大约 40 名参与者。所有用户都将参与三种工作面试条件（VR、AR 和桌面）并提供反馈。此外，将使用生物传感器收集用户的生物物理反应，以测量求职面试期间的焦虑程度。

用于在线扩散模型微调的人类反馈高效强化学习

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 人机交互

作者： Ayano Hiranaka, Shang-Fu Chen, Chieh-Hsin Lai, Dongjun Kim, Naoki Murata, Takashi Shibuya, Wei-Hsiang Liao, Shao-Hua Sun, Yuki Mitsufuji

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.05116v1

摘要： 通过稳定扩散 (SD) 微调的可控生成旨在提高保真度、安全性以及与人类指导的一致性。现有的基于人类反馈方法的强化学习通常依赖于预定义的启发式奖励函数或基于大规模数据集构建的预训练奖励模型，这限制了它们在收集此类数据成本高昂或困难的场景中的适用性。为了有效且高效地利用人类反馈，我们开发了一个框架 HERO，它利用模型学习期间动态收集的在线人类反馈。具体而言，HERO 具有两个关键机制：(1) 反馈对齐表示学习，一种在线训练方法，可捕获人类反馈并提供用于微调的信息学习信号；(2) 反馈引导图像生成，其中涉及从SD 改进的初始化样本，能够更快地收敛到评估者的意图。我们证明，与现有最佳方法相比，HERO 在身体部位异常校正在线反馈方面的效率提高了 4 倍。此外，实验表明，HERO 可以有效处理推理、计数、个性化等任务，并且只需 0.5K 在线反馈即可减少 NSFW 内容。

vailá：多模式工具箱中的多功能无政府状态综合解放分析

分类： 人机交互, 92C10, 68U10, 65D18, 65K10, I.4.8; J.3; H.5.2; I.2.10

作者： Paulo Roberto Pereira Santiago, Abel Gonçalves Chinaglia, Kira Flanagan, Bruno L. S. Bedo, Ligia Yumi Mochida, Juan Aceros, Aline Bononi, Guilherme Manna Cesar

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.07238v1

摘要： 人体运动分析在健康和运动生物力学中对于了解身体表现、指导康复和预防伤害至关重要。然而，现有工具通常是专有的、昂贵的，并且充当“黑匣子”，限制了用户控制和定制。本文介绍了多模态工具箱中的多功能 Anarcho Integrated Liberation 分析，这是一个基于 Python 的开源平台，旨在通过集成来自多个生物力学系统的数据来增强人体运动分析。 vail'a 支持来自不同来源的数据，包括回射运动捕捉系统、惯性测量单元 (IMU)、无标记视频捕捉技术、肌电图 (EMG)、测力台以及 GPS 或 GNSS 系统，从而能够对运动模式进行全面分析。 vail'a 完全采用 Python 3.11.9 开发，可提供更高的效率和长期支持，并具有简单的安装过程，无需丰富的编程经验的用户即可使用。在本文中，我们还提供了几个工作流程示例，展示了如何快速处理大批量数据，而与收集方法的类型无关。这种灵活性在出现意外数据收集挑战的研究场景中尤其有价值，可确保不会丢失有价值的数据点。我们展示了 vail'a 在分析儿科残疾患者从坐到站的运动中的应用，展示了即使在意想不到的运动模式下，它也能提供更深入的见解。通过营造协作和开放的环境，vail'a 鼓励用户创新、定制和自由探索他们的分析需求，这可能有助于康复策略和性能优化的进步。

政府在加强人工智能部署后互联监控方面的作用

分类： 计算机与社会, 人工智能, 人机交互

作者： Merlin Stein, Jamie Bernardi, Connor Dunlop

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.04931v1

摘要： 基于语言的人工智能系统正在扩散到社会中，带来积极和消极的影响。减轻负面影响取决于准确的影响评估，该评估取自经验证据基础，将人工智能的使用与影响之间建立起因果关系。互连的部署后监控结合了有关模型集成和使用、应用程序使用以及事件和影响的信息。例如，思想链推理的推理时间监控可以与部门人工智能扩散、影响和事件的长期监控相结合。借鉴其他行业的信息共享机制，我们重点介绍了政府可以收集的示例数据源和具体数据点，以便为人工智能风险管理提供信息。

音乐引发的时装设计：从歌曲到虚拟宇宙

分类： 人机交互, 计算机与社会, 社交和信息网络

作者： Martina Delgado, Marta Llopart, Eva Sarabia, Sandra Taboada, Pol Vierge, Fernando Vilariño, Joan Moya Kohler, Julieta Grimberg Golijov, Matías Bilkis

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.04921v1

摘要： 日益增长的虚拟现实的出现给不同的社会带来了前所未有的机遇和挑战。艺术团体也不例外，我们在这里的目标是特别关注音乐家。作曲、歌词甚至演出广告都是艺术家传达的关于现实的信息的组成部分。因此，艺术创作归根结底是与感受和情感联系在一起的，而审美在传达艺术家意图方面起着至关重要的作用。在此背景下，我们在这里分析虚拟现实如何通过设计受声音刺激启发的动态时尚设计推荐系统，帮助扩大音乐家与观众沟通的机会。我们展示了重新定义元宇宙中音乐体验的第一步，为艺术家以更广泛的方式与真实和虚拟（\textit{例如，在元宇宙中运行的机器学习代理）建立联系提供了替代机会。

为什么我会看到这个：在线内容推荐的最终用户审核民主化

分类： 人机交互

作者： Chaoran Chen, Leyang Li, Luke Cao, Yanfang Ye, Tianshi Li, Yaxing Yao, Toby Jia-jun Li

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.04917v1

摘要： 个性化推荐系统根据用户属性定制内容，这些属性要么是提供的，要么是从私人数据推断出来的。研究表明，用户经常假设他们遇到的内容背后的原因（例如，“我看到这个珠宝广告是因为我是女性”），但由于这些系统的不透明性，他们缺乏确认这些假设的方法。这阻碍了有关隐私和系统使用的明智决策，并导致缺乏算法问责制。为了应对这些挑战，我们引入了一种新的交互式沙箱方法。这种方法创建了一组合成的用户角色和相应的个人数据，体现了个人属性的实际变化，允许用户通过观察网站的算法如何响应这些角色来测试他们的假设。我们在定向广告的背景下测试了沙箱。我们的用户研究通过定向广告的案例研究证明了其在增强最终用户审核方面的可用性、实用性和有效性。

在公共场所使用混合现实：虚拟显示布局对生产力、安全感和社会接受度的影响

分类： 人机交互

作者： Janne Kaeder, Maurizio Vergari, Verena Biener, Tanja Kojić, Jens Grubert, Sebastian Möller, Jan-Niklas Voigt-Antons

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.04899v1

摘要： 如今，混合现实 (MR) 耳机正在改变知识工作的游戏规则。与固定显示器不同，MR 耳机允许用户在任何佩戴耳机的地方使用大型虚拟显示器，无论是在专业办公室、咖啡馆等公共场所，还是图书馆等安静空间。本研究比较了虚拟显示器的四种不同布局（视线水平-近距、视线-远距、低于视线水平-近距、低于视线-远距）在公共场所使用 MR 时的安全感、感知生产力和社会可接受性。我们测试用户最喜欢哪种布局，并试图了解哪些因素影响用户的布局偏好。目的是获得有用的见解来设计更好的 MR 布局。采用受试者内设计在公共图书馆进行了实地研究。当参与者与布局交互时，他们被要求完成规划任务。重复测量方差分析的结果显示，对生产力有统计上的显着影响，但对安全性和社会可接受性没有显着影响。此外，我们还报告用户表达的关于公共布局和使用 MR 的偏好。

单与双：显示器数量对虚拟会话系统中用户体验的影响

分类： 人机交互

作者： Navid Ashrafi, Francesco Vona, Philipp Graf, Philipp Harnisch, Sina Hinzmann, Jan-Niklas Voigt-Antons

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.04852v1

摘要： 当前的研究评估了与单个平板电脑上显示的患者报告结果测量 (PROM) 医疗保健应用程序交互时的用户体验和偏好，以及与分布在两个平板电脑上的相同应用程序的交互进行比较。我们对 43 名参与者进行了一项受试者内用户研究，他们对我们系统的可用性进行了评价，并参加了实验后访谈以收集主观数据。我们的研究结果表明，单一片剂条件的可用性和实用质量评级明显更高。然而，一些用户认为虚拟形象具有更高的存在感，并且更喜欢将其放置在第二台平板电脑上。

可拉伸的静电触觉表面

分类： 人机交互

作者： Naoto Takayanagi, Naoji Matsuhisa, Yuki Hashimoto, Yuta Sugiura

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.04768v1

摘要： 触觉对于人类识别物体至关重要。过去已经开发了各种通过静电力进行触觉呈现的设备，这些设备易于配置设备，但目前还没有这样的具有可拉伸性的设备。考虑到该设备佩戴在人体或机器人的关节上，因此设备本身具有可拉伸性极其重要。在这项研究中，我们提出了一种可拉伸静电触觉表面，包括可拉伸透明电极和可拉伸绝缘膜，最大可拉伸至 50%。这意味着当附着在人体上时，该表面可以对由于关节运动而发生的膨胀和收缩做出反应。该表面还可以提供响应于推拉等变形的触觉信息。作为一项基础研究，我们测量了通过改变表面结构可感知的电压下限，并评估了拉伸和收缩的状态。我们还研究并模拟了电压和感知强度之间的关系。

使用触觉呈现指导压力中心

分类： 人机交互

作者： Yohei Kawasaki, Yuta Sugiura

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.04732v1

摘要： 准确指导姿势和身体重心位置具有挑战性。在这项研究中，我们提出了一种利用触觉反馈来诱导压力中心 (CoP) 运动的系统。 Wii 平衡板用于感应 CoP，振动电机用于触觉反馈。为了进行比较，还使用视觉和听觉反馈进行诱导，并测量诱导所需的时间。此外，实验结束后还进行了问卷调查。

探索智能家居控制与坐垫界面的手势交互

分类： 人机交互

作者： Yuri Suzuki, Kaho Kato, Naomi Furui, Daisuke Sakamoto, Yuta Sugiura

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.04730v1

摘要： 在本研究中，我们的目标是实现用于操作智能家居的缓冲界面。我们利用缓冲垫设计了用户定义的手势并开发了手势识别系统。我们要求一些用户使用垫子做出手势来操作家电，并确定了用户定义的手势集。我们开发了两种手势识别方法。首先，我们将由光反射传感器和加速度传感器组成的传感器模块插入垫子内。其次，我们将加速度传感器阵列嵌入到垫套中。手势识别器是使用卷积神经网络（CNN）实现的。为了评估我们的方法，我们进行了一项实验来测量识别准确性。结果表明，对每个用户进行训练时，平均准确率为 94.8%；对训练数据集中不存在的用户进行测试时，平均准确率为 91.3%。

大语言模型效应：人们是真正使用大语言模型，还是受到大语言模型的影响？

分类： 计算和语言, 人机交互

作者： Alexander S. Choi, Syeda Sabrina Akter, JP Singh, Antonios Anastasopoulos

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.04699v1

摘要： 大型语言模型 (LLM) 在各种分析任务中表现出接近人类表现的能力，导致研究人员使用它们进行时间和劳动密集型分析。然而，他们在政策研究等领域处理高度专业化和开放式任务的能力仍然受到质疑。本文通过专注于人类与大语言模型合作伙伴关系的结构化用户研究，研究了大语言模型在专业任务中的效率和准确性。这项研究分两个阶段进行——主题发现和主题分配——将大语言模型与专家注释者结合起来，以观察大语言模型建议对通常仅由人类进行的分析的影响。结果表明，LLM 生成的主题列表与人工生成的主题列表有显着重叠，在缺少文档特定主题方面存在轻微问题。然而，LLM的建议可能会显着提高任务完成速度，但同时会引入锚定偏差，可能会影响分析的深度和细微差别，从而提出一个关于提高效率和偏差分析风险之间权衡的关键问题。

臭名昭著的饼图真的会损害现实世界中的决策吗？评估可视化在高层学术决策中的作用

分类： 人机交互

作者： Yixuan Li, Emery D. Berger, Minsuk Kahng, Cindy Xiong Bearfield

发布时间： 2024-10-07

链接： http://arxiv.org/abs/2410.04686v1

摘要： 可视化设计影响人们如何看待数据模式，但大多数研究都集中在低级分析任务上，例如寻找相关性。现有的工作批评饼图的感知局限性。然而，饼图和条形图等更简单的可视化被广泛用于现实世界的决策，例如选择学校或顾问。作为案例研究，我们使用提供学术数据的网站 CSRankings.org 来研究与条形图相比，饼图是否会损害高层决策。通过比较饼图和条形图对用户对教师生产力和预计工作量的印象的影响，我们发现 300 多名参与者的决策没有显着差异。我们的研究结果挑战了可视化设计的传统观点，强调了评估中对真实世界用例的需求。

空间感知人工智能的多模态 3D 融合和原位学习

分类： 人机交互, 人工智能, 计算机视觉和模式识别, I.4.8; H.5.2

作者： Chengyuan Xu, Radha Kumaran, Noah Stier, Kangyou Yu, Tobias Höllerer

发布时间： 2024-10-06

链接： http://arxiv.org/abs/2410.04652v1

摘要： 增强现实中虚拟和物理世界的无缝集成受益于系统在语义上“理解”物理环境。 AR 研究长期以来一直关注上下文感知的潜力，展示了利用 3D 环境中的语义进行各种对象级交互的新颖功能。与此同时，计算机视觉社区在神经视觉语言理解方面取得了飞跃，以增强自主任务的环境感知。在这项工作中，我们引入了一种多模态 3D 对象表示，它将语义和语言知识与几何表示相结合，从而实现涉及物理对象的用户引导机器学习。我们首先提出了一种快速多模态 3D 重建流程，通过将 CLIP 视觉语言特征融合到环境和对象模型中，为 AR 带来语言理解。然后，我们提出“原位”机器学习，它与多模态表示相结合，为用户提供新的工具和界面，以空间和语言上有意义的方式与物理空间和对象进行交互。我们通过 Magic Leap 2 上的两个现实 AR 应用程序展示了所提出系统的实用性：a）使用自然语言在物理环境中进行空间搜索，b）跟踪对象随时间变化的智能库存系统。我们还在（https://github.com/cy-xu/spatially_aware_AI）提供完整的实现和演示数据，以鼓励对空间感知人工智能的进一步探索和研究。

在敌意中建立团结：在线社区中胖子的经历

分类： 人机交互

作者： Blakeley H. Payne, Jordan Taylor, Katta Spiel, Casey Fiesler

发布时间： 2024-10-06

链接： http://arxiv.org/abs/2410.04614v1

摘要： 在线社区是边缘群体成员相互组织和支持的重要空间。为了更好地了解在线社区中胖子这一边缘化常常被忽视的群体的经历，我们对胖子进行了 12 次半结构化访谈。我们的参与者利用在线社区来提高人们对肥胖身份的认识，学习将“肥胖问题”定位在他们周围社会的压迫性设计上，而不是在他们自己或自己的身体内。然后，参与者能够利用这些社区来减轻抗肥胖的日常体验，例如在敌对的医疗系统中导航。然而，为了获得这些好处，我们的参与者必须应对无数的社会技术危害，从骚扰到歧视性算法。根据这些发现，我们建议在线社区的研究人员和设计者支持选择性肥胖可见性，在内容审核系统的设计中考虑胖人，并调查对胖人的算法歧视。更广泛地说，我们呼吁研究人员和设计师应对肥胖体验的社会和物质现实，而不是把肥胖者视为需要自己解决的问题的流行范式。这需要认识到肥胖者是一个边缘化的社会群体，并积极面对嵌入技术设计的反肥胖现象。

需要帮助吗？设计主动式人工智能编程助手

分类： 人机交互

作者： Valerie Chen, Alan Zhu, Sebastian Zhao, Hussein Mozannar, David Sontag, Ameet Talwalkar

发布时间： 2024-10-06

链接： http://arxiv.org/abs/2410.04596v1

摘要： 虽然当前基于聊天的人工智能助手主要是被动操作，仅在用户提示时才做出响应，但这些系统在无需显式调用的情况下主动协助任务的潜力巨大，从而实现混合主动交互。这项工作探索了由大型语言模型支持的主动人工智能助手的设计和实现。我们首先概述了构建有效的主动助理的关键设计考虑因素。作为一个案例研究，我们提出了一种主动的基于聊天的编程助手，它可以自动提供建议并促进它们集成到程序员的代码中。编程上下文提供了一个共享工作空间，使助手能够提供更多相关的建议。我们进行了一项随机实验研究，检查主动助手的各种设计元素对程序员生产力和用户体验的影响。我们的研究结果揭示了将主动聊天助手纳入编码环境的显着好处，并揭示了影响其使用和有效性的重要细微差别。

CardioAI：基于多模式人工智能的系统，支持癌症治疗引起的心脏毒性的症状监测和风险检测

分类： 人机交互

作者： Siyi Wu, Weidan Cao, Shihan Fu, Bingsheng Yao, Ziqi Yang, Changchang Yin, Varun Mishra, Daniel Addison, Ping Zhang, Dakuo Wang

发布时间： 2024-10-06

链接： http://arxiv.org/abs/2410.04592v1

摘要： 尽管癌症治疗的最新进展延长了患者的生命，但治疗引起的心脏毒性仍然是一种严重的副作用。心脏毒性的临床决策具有挑战性，因为非临床症状可能会被忽视，直到后期发生危及生命的事件，而临床医生的工作量已经很大，集中在治疗上，而不是副作用上。我们的项目从 11 名临床医生的参与式设计研究开始，以了解他们的实践和需求；然后我们构建了一个多模式人工智能系统 CardioAI，该系统集成了可穿戴设备和大语言模型支持的语音助手来监测多模式非临床症状。此外，该系统还包括一个可解释的风险预测模块，可以生成心脏毒性风险评分和摘要作为解释，以支持临床医生的决策。我们与四位临床专家进行了启发式评估，发现他们都认为 CardioAI 很好地融入了他们的工作流程，减少了他们的信息过载，并使他们能够做出更明智的决策。

人脑对增强和语义新颖的视觉刺激的反应的深度学习预测的普遍性分析

分类： 计算机视觉和模式识别, 人工智能, 人机交互

作者： Valentyn Piskovskyi, Riccardo Chimisso, Sabrina Patania, Tom Foulsham, Giuseppe Vizzari, Dimitri Ognibene

发布时间： 2024-10-06

链接： http://arxiv.org/abs/2410.04497v1

摘要： 这项工作的目的是研究基于神经网络的方法作为探索图像增强技术对视觉皮层激活影响的框架的合理性和实用性。在一项初步研究中，我们准备了一套最先进的大脑编码模型，这些模型是从参加 Algonauts Project 2023 Challenge [16] 的前 10 种方法中选出的。我们分析了他们对各种图像增强技术对神经反应的影响做出有效预测的能力。由于脑成像程序的成本高昂而无法获取实际数据，因此我们的研究建立在一系列实验的基础上。具体来说，我们分析了大脑编码器通过评估对特定区域已知影响的目标对象（即面部和单词）的增强反应来估计大脑对各种增强的反应的能力。此外，我们研究了对训练期间未见物体的预测激活，探索语义分布外刺激的影响。我们为形成所提出的框架的模型的泛化能力提供了相关证据，该框架似乎有望用于识别给定任务的最佳视觉增强滤波器、模型驱动的设计策略以及 AR 和 VR 应用。

RespDiff：用于根据 PPG 信号估计呼吸波形的端到端多尺度 RNN 扩散模型

分类： 信号处理, 人工智能, 人机交互

作者： Yuyang Miao, Zehua Chen, Chang Li, Danilo Mandic

发布时间： 2024-10-06

链接： http://arxiv.org/abs/2410.04366v1

摘要： 呼吸频率（RR）是一项关键的健康指标，通常在不方便的情况下进行监测，限制了其连续监测的实用性。光电体积描记法 (PPG) 传感器越来越多地集成到可穿戴设备中，为以便携式方式连续估计 RR 提供了机会。在本文中，我们提出了 RespDiff，一种端到端多尺度 RNN 扩散模型，用于根据 PPG 信号估计呼吸波形。 RespDiff 不需要手工制作特征或排除低质量信号段，使其适合现实场景。该模型采用多尺度编码器来提取不同分辨率下的特征，并采用双向 RNN 来处理 PPG 信号并提取呼吸波形。此外，还引入了光谱损失项来进一步优化模型。在 BIDMC 数据集上进行的实验表明，RespDiff 的性能优于之前的显着成果，RR 估计的平均绝对误差 (MAE) 为 1.18 bpm，而其他范围为 1.66 至 2.15 bpm，显示了其在现实世界中稳健且准确的呼吸监测的潜力应用程序。

生成式共同学习者：利用生成式人工智能增强异步学习中学生的认知和社交存在感

分类： 人机交互

作者： Tianjia Wang, Tong Wu, Huayi Liu, Chris Brown, Yan Chen

发布时间： 2024-10-06

链接： http://arxiv.org/abs/2410.04365v1

摘要： 认知存在和社会存在对于全面的学习体验至关重要。尽管异步学习环境可以灵活地适应个人日程安排，但异步环境的固有限制使得增强认知和社交存在特别具有挑战性。学生经常面临诸如缺乏及时反馈和支持、缺乏沟通中的非语言线索以及孤立感等挑战。为了应对这一挑战，本文介绍了生成式共同学习者，这是一个旨在利用生成式人工智能代理的系统，模拟支持多模式交互的共同学习者，以改善异步学习环境中的认知和社交存在。我们进行了一项涉及 12 名学生参与者的研究，他们使用我们的系统参与在线编程教程，以评估系统的有效性。结果表明，通过实现支持文本和视觉通信的功能以及使用生成代理模拟交互式学习环境，我们的系统增强了异步学习环境中的认知和社交存在。这些结果表明，使用生成式人工智能支持学生大规模学习，并将异步学习转变为更具包容性、吸引力和有效的教育方法的潜力。

城市计算促进气候和环境正义：两项研究计划的早期观点

分类： 计算机与社会, 人机交互

作者： Carolina Veiga, Ashish Sharma, Daniel de Oliveira, Marcos Lage, Fabio Miranda

发布时间： 2024-10-06

链接： http://arxiv.org/abs/2410.04318v1

摘要： 气候变化的影响正在加剧全球城市社区内现有的脆弱性和差距，洪水和热浪等极端天气事件变得更加频繁和严重，对低收入和代表性不足的群体造成了不成比例的影响。应对这些日益严峻的挑战需要采用新颖的方法来整合多个领域的专业知识，包括计算机科学、工程、气候科学和公共卫生。城市计算可以在这些努力中发挥关键作用，通过整合来自多个来源的数据来支持决策，并提供有关天气模式、基础设施弱点和人口脆弱性的可行见解。然而，南半球和北半球利用技术进步的能力存在显着差异。在本文中，我们介绍了位于美国芝加哥和巴西尼泰尔伊的两个多年期、多学科项目，强调了城市计算在这些不同背景下的机遇和局限性。然后，根据我们的经验，我们讨论了可视化分析工具的基本要求以及现有差距，这些工具有助于理解和缓解城市环境中与气候相关的风险。

早期职业 HCI 研究人员的开放科学实践：看法、挑战和好处

分类： 人机交互

作者： Tatiana Chakravorti, Sanjana Gautam, Priya Silverstein, Sarah M. Rajtmajer

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04286v1

摘要： 由于对已发表研究结果的可重复性和可复制性的担忧，包括人机交互（HCI）在内的许多科学领域都加强了自省。值得注意的是，近年来，人机交互社区一直致力于实施政策变革和主流开放科学实践。我们的工作通过 18 次半结构化访谈，调查了早期职业 HCI 研究人员对开放科学和最佳实践参与度的看法。我们的研究结果强调了广泛采用数据和材料共享以及预注册的主要障碍，即：缺乏明确的激励措施；文化抵抗；有限的培训；时间限制；对知识产权的担忧；和数据隐私问题。我们观察到，像 CHI 这样的大型会议上的微小变化可能会对社区规范产生有意义的影响。我们提供建议来解决这些障碍并促进人机交互的透明度和开放性。

可视化法官：多模态基础模型能否通过视觉感知指导可视化设计？

分类： 人机交互

作者： Matthew Berger, Shusen Liu

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04280v1

摘要： 视觉和语言的基础模型是人工智能在社会众多领域应用的基础。这些模型的成功源于它们模仿人类能力的能力，即视觉模型中的视觉感知和大型语言模型中的分析推理。由于视觉感知和分析是数据可视化的基础，因此在这篇立场文件中我们提出这样的问题：我们如何利用基础模型来推进可视化设计的进展？具体来说，多模态基础模型（MFM）如何通过视觉感知指导可视化设计？我们通过研究 MFM 在感知可视化方面的有效性以及形式化整体可视化设计和优化空间来解决这些问题。具体来说，我们认为 MFM 最好被视为法官，具有批评可视化的能力，并为我们提供如何改进可视化的行动。我们为文本到图像生成模型和多模态大语言模型提供了更深入的表征，按照这些模型提供的输出内容以及如何利用输出来指导设计决策进行组织。我们希望我们的观点能够启发可视化领域的研究人员如何利用 MFM 进行可视化设计。

预测人类误解的对比解释可以提高人类的决策技能

分类： 人机交互, 人工智能

作者： Zana Buçinca, Siddharth Swaroop, Amanda E. Paluch, Finale Doshi-Velez, Krzysztof Z. Gajos

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04253v1

摘要： 当人们依赖人工智能进行决策支持时，即使人工智能提供了信息丰富的解释，他们的决策能力往往无法提高，甚至可能受到削弱。我们认为，这部分是因为人们直观地寻求对比解释，以澄清人工智能的决策和他们自己的推理之间的差异，而大多数人工智能系统提供“单方面”的解释来证明人工智能的决策合理，但没有考虑用户的思维。为了使人类与人工智能在决策任务上的知识保持一致，我们引入了一个框架，用于生成以人类为中心的对比解释，解释人工智能的选择与人类对同一任务的预测可能选择之间的差异。大规模实验（N = 628）的结果表明，与单方面解释相比，对比解释显着增强了用户的独立决策技能，且不牺牲决策准确性。在人们日益关注去技能化的情况下，我们的研究表明，将人类推理纳入人工智能设计可以促进人类技能的发展。

在那里，在一起，被直播！ AR 场景直播，提供互动和集体体验

分类： 人机交互

作者： Zeyu Huang, Zuyu Xu, Yuanhao Zhang, Chengzhong Liu, Yanwei Zhao, Chuhan Shi, Jason Chen Zhao, Xiaojuan Ma

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04232v1

摘要： 景区直播（SLS），通过固定摄像头捕捉真实世界的风景点，无需彩带，将场景沉浸感与直播的社交和实时特性结合成一种独特的体验。然而，与许多其他直播类型相比，现有的 SLS 提供的观众互动有限，无法让他们参与集体体验。 SLS 也很难重新创造亲身旅行体验中重要但无形的组成部分，例如文化活动。为了提供更具互动性、吸引力和有意义的体验，我们提出了 ARSLS（增强现实场景直播）。具有直播环境意识的具有文化基础的 AR 对象可以覆盖在摄像机视图上，以提供额外的交互功能，同时保持与直播场景的一致性。为了探索这种新媒介的设计空间，我们为中国的一处著名景观开发了 ARSLS 原型。初步研究 (N=15) 为 ARSLS 设计提供了初步见解。

通过扩散模型提高驾驶模拟的视觉保真度

分类： 人机交互

作者： Fanjun Bu, Hiroshi Yasuda

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04214v1

摘要： 扩散模型在促进图像生成和编辑方面取得了实质性进展。随着技术的成熟，我们看到了它在驾驶模拟方面增强模拟体验的潜力。在本文中，我们通过引入旨在提高视觉保真度的新颖系统来探索这种潜力。我们的系统 DRIVE（基于扩散的虚拟环境真实感改进）利用扩散模型管道为模拟环境提供逼真的视图，并且可以灵活地适应其他应用程序。我们进行了初步的用户研究，以评估系统在渲染真实视觉效果和支持参与者执行驾驶任务方面的有效性。我们的工作不仅为未来在驾驶模拟中集成扩散模型的研究奠定了基础，而且还为其在这方面的应用提供了实用指南和最佳实践。

表面共置和眼动追踪对混合现实打字的影响

分类： 人机交互

作者： Cecilia Schmitz, Joshua Reynolds, Scott Kuhl, Keith Vertanen

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04177v1

摘要： 打字时，准确性和速度至关重要。我们假设空中混合现实键盘缺乏触觉反馈可能会对性能产生不利影响。我们的第一个实验评估了通过将虚拟键盘放在桌子或墙上来为用户在混合现实中打字提供触觉反馈的潜力。键盘是确定性的（没有自动更正功能），仅依靠耳机的以自我为中心的摄像头进行感应，并包含符号键。用户更喜欢使用空中键盘，输入率最高为每分钟 12 个单词。所有条件下的错误率都相似。根据用户反馈，我们的第二个实验探索了十指打字。我们使用了一种新颖的眼球追踪技术来减少意外按键的情况。该技术将按退格键的次数减少了一半，因此受到用户的青睐。然而，参与者仅使用食指而不使用眼球追踪的速度更快，为每分钟 11 个单词。

TeachTune：通过模拟学生根据不同的学生概况审查教学代理

分类： 人机交互

作者： Hyoungwook Jin, Minju Yoo, Jeongeon Park, Yokyung Lee, Xu Wang, Juho Kim

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04078v1

摘要： 大型语言模型 (LLM) 可以帮助教育工作者构建为学生定制的教学对话代理 (PCA)。由于学生有不同的先验知识和动机水平，教育工作者必须评估他们的 PCA 对不同学生的适应性。现有的聊天机器人评估方法（例如，直接聊天和基准测试）要么需要手动进行多次迭代，要么仅限于测试单轮交互。我们推出了 TeachTune，教育工作者可以创建模拟学生并通过观察 PCA 和模拟学生之间的自动聊天来审查 PCA。我们的技术管道指导大语言模型学生模拟规定的知识水平和特征，帮助教育工作者探索不同的对话模式。我们的管道可以生成模拟学生，其行为与他们输入的知识和动机水平高度相关，准确度差距在 5% 到 10% 之间。三十名科学教师在一项科目间研究中设计了 PCA，使用 TeachTune 可以降低任务负荷，并在基线上提高学生档案覆盖率。

游戏化 XAI：通过 LLM 支持的叙事游戏化增强非技术用户的 AI 可解释性

分类： 人机交互

作者： Yuzhe You, Jian Zhao

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04035v1

摘要： 人工智能 (AI) 已紧密集成到现代技术中，但现有的可解释人工智能 (XAI) 探索性可视化主要是为具有技术专业知识的用户设计的。这使得经常与人工智能系统交互的日常用户探索或理解他们使用的人工智能技术的资源有限。我们提出了一个新颖的框架，使非技术用户能够通过大语言模型驱动的叙事游戏化直接与可视化元素对话来收集见解。我们实现了一个原型，利用这种游戏化来促进非技术用户探索人工智能嵌入投影。我们对 10 名参与者进行了比较研究，以定量和定性评估我们的原型。我们的研究结果表明，虽然我们的原型有效增强了非技术用户的 AI/XAI 知识，并且用户相信他们通过游戏化功能学到了更多知识，但游戏化本身是否会导致理解的进一步提高仍然没有定论。此外，参与者对于框架的参与度看法不一：一些人认为它增强了他们对可视化的探索，而另一些人则认为它扰乱了他们的工作流程。

IdeaSynth：通过基于文献的反馈演变和组合想法方面进行迭代研究想法开发

分类： 人机交互, 人工智能

作者： Kevin Pu, K. J. Kevin Feng, Tovi Grossman, Tom Hope, Bhavana Dalvi Mishra, Matt Latzke, Jonathan Bragg, Joseph Chee Chang, Pao Siangliulue

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04025v1

摘要： 研究构思包括广泛的探索和深入的提炼思想。两者都需要深入接触文学。现有工具主要关注广泛的创意生成，但对进一步开发初始创意所需的迭代规范、细化和评估提供很少的支持。为了弥补这一差距，我们引入了 IdeaSynth，这是一个研究理念开发系统，它使用大语言模型提供基于文献的反馈，以阐明研究问题、解决方案、评估和贡献。 IdeaSynth 将这些想法方面表示为画布上的节点，并允许研究人员通过创建和探索变体并组合它们来迭代地完善它们。我们的实验室研究 (N=20) 表明，与基于 LLM 的强大基线相比，参与者在使用 IdeaSynth 时探索了更多替代想法，并通过更多细节扩展了初始想法。我们的部署研究 (N=7) 表明，参与者在各个构思阶段有效地使用 IdeaSynth 进行现实世界的研究项目，从开发最初的想法到修改成熟手稿的框架，强调了在研究人员的工作流程中采用 IdeaSynth 的可能性。

使用 Arduino 技术为没有上肢的人开发鼠标

分类： 人机交互, 系统与控制, 信号处理, 系统与控制, 94Cxx, B.7

作者： Alfonso Gunsha, Luis Chuquimarca, Pedro Pardo, David Herrera

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04016v1

摘要： 该项目重点设计和构建基于 Arduino 平台的原型鼠标，旨在帮助没有上肢的个人更有效地使用计算机。该原型包括一个微控制器，负责处理来自 MPU-6050 传感器的信号，用作光标位置的参考，以及用于右击和左击功能的脚踏按钮。其设计可以通过头部运动来控制光标，为用户提供一种简单直观的方式与计算机的图形界面进行交互。通过实验试验进行了可行性测试，获得了理想的准确度和精密度。这些试验表明该装置适用于没有上肢的个体。

通过多模态交互增强视觉障碍人士的旅行体验：NaviGPT，实时人工智能驱动的移动导航系统

分类： 人机交互

作者： He Zhang, Nicholas J. Falletta, Jingyi Xie, Rui Yu, Sooyeon Lee, Syed Masum Billah, John M. Carroll

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.04005v1

摘要： 针对视觉障碍人士 (PVI) 的辅助技术已取得重大进步，特别是在人工智能 (AI) 和实时传感器技术的集成方面。然而，当前的解决方案通常需要 PVI 在多个应用程序和工具之间切换来执行图像识别、导航和障碍物检测等任务，这可能会阻碍无缝、高效的用户体验。在本文中，我们提出了 NaviGPT，这是一种高保真原型，集成了基于 LiDAR 的障碍物检测、振动反馈和大语言模型 (LLM) 响应，为 PVI 提供全面、实时的导航辅助。与 Be My AI 和 Seeing AI 等现有应用程序不同，NaviGPT 将图像识别和上下文导航指导结合到一个系统中，无需切换应用程序即可提供有关用户周围环境的持续反馈。同时，NaviGPT利用位置和传感器数据补偿LLM的响应延迟，旨在为动态环境下的PVI提供实用高效的导航支持。

TR-LLM：集成轨迹数据以实现基于场景感知的 LLM 人类行为预测

分类： 人机交互

作者： Kojiro Takeyama, Yimeng Liu, Misha Sra

发布时间： 2024-10-05

链接： http://arxiv.org/abs/2410.03993v1

摘要： 准确预测人类行为对于人工智能系统有效支持现实世界的应用至关重要，例如自主机器人预测和协助人类任务。现实世界的场景经常会带来遮挡和不完整的场景观察等挑战，这可能会影响预测的准确性。因此，传统的基于视频的方法常常由于有限的时间和空间视角而陷入困境。大型语言模型（LLM）提供了一个有前途的替代方案。在接受过描述人类行为的大型文本语料库的培训后，大语言模型可能会在家庭环境中对人类行为的合理序列进行编码。然而，主要接受文本数据训练的大语言模型缺乏固有的空间意识和实时环境感知。他们很难理解物理约束和空间几何。因此，为了在现实世界的空间场景中发挥作用，我们提出了一种多模态预测框架，通过整合源自人类轨迹的物理约束来增强基于 LLM 的动作预测。我们的实验表明，将 LLM 预测与轨迹数据相结合可显着提高整体预测性能。这种增强在大语言模型收到有限场景信息的情况下尤其显着，突出了语言知识和物理限制在理解和预测人类行为方面的互补性。

通过家庭嵌入式信息显示器了解成年晚期人们的经历

分类： 人机交互

作者： Zack While, Henry Wheeler-Klainberg, Tanja Blascheck, Petra Isenberg, Ali Sarvghad

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03929v1

摘要： 嵌入式信息显示器 (EID) 在微波炉、咖啡机、冰箱或数字恒温器等家用电器和设备中变得越来越普遍。这些显示器通常具有多种用途，可用作选择设备设置、使用简单可视化传达操作状态以及显示通知的界面。然而，它们对于成年晚期 (PLA) 发育阶段的人的可用性尚不清楚。我们报告了来自当地退休社区的两个 PLA 焦点小组（n = 11，年龄 76-94）。参与者会看到日常家用电子产品和电器的图像，并回答有关他们使用 EID 的体验的问题。使用开放编码，我们定性分析了他们的评论，以提炼有关 EID 如何对 PLA 获取信息（例如，不良标签）和与这些设备交互（例如，不直观的步骤）的能力产生负面影响的关键主题，以及解决这些问题的策略。我们认为，了解设备功能、操作状态和消息的公平设计和通信对于未来的信息显示设计人员非常重要。我们希望这项工作能够促进对更公平的 EID 设计的进一步研究。

揭开政策制定技术的神秘面纱：探索拼车环境和数据倡议机会，以推进技术政策制定工作

分类： 人机交互

作者： Angie Zhang

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03895v1

摘要： 面对快速发展的技术、技术可能加剧危害的证据以及确保科技公司问责制的政策不足，人机交互在推进技术决策方面有哪些机会？在本文中，我们通过基于应用程序的拼车驾驶案例研究，探讨了技术政策制定的挑战和机遇。我们首先介绍拼车平台的背景及其运作方式。接下来，我们回顾了有关算法管理的文献，了解拼车司机如何实际体验平台功能（通常会损害他们的福祉）以及他们的反应方式。有鉴于此，研究人员和倡导者呼吁加强对工人的保护，因此我们转向美国的乘车共享政策和监管努力。在这里，我们将平台的政治策略与司机的政治策略区分开来，以说明政策制定者在尝试共享出行时面临的相互矛盾的叙述。监督零工工作平台。我们认为，过去展示驾驶员经验的方法可能不足以满足政策制定者在制定监管时的需求。为了解决这一差距和我们最初的问题——推进技术政策制定的人机交互机会是什么——我们简要探讨了让科技公司在拼车环境中承担责任的两条前进道路：（1）数据透明度举措，以实现工人的集体审计和（ 2）追究平台责任的法律框架。

KidLM：推进儿童语言模型——早期见解和未来方向

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互

作者： Mir Tafseer Nayeem, Davood Rafiei

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03884v1

摘要： 最近的研究强调了大型语言模型在为儿童创建教育工具方面的潜力，但在维护儿童特定的关键属性（例如语言细微差别、认知需求和安全标准）方面仍然存在重大挑战。在本文中，我们探讨了开发特定于儿童的语言模型的基本步骤，强调高质量预训练数据的必要性。我们引入了一种新颖的以用户为中心的数据收集管道，其中涉及收集和验证专门为儿童编写的语料库，有时是由儿童编写的语料库。此外，我们提出了一个新的训练目标“分层掩蔽”，它根据特定领域的儿童语言数据动态调整掩蔽概率，使模型能够优先考虑更适合儿童的词汇和概念。实验评估表明，我们的模型在理解低年级文本方面表现出色，通过避免刻板印象来保持安全性，并捕捉儿童的独特偏好。此外，我们还为儿童特定语言建模的未来研究和开发提供可行的见解。

JumpStarter：利用人工智能驱动的上下文管理开始实现个人目标

分类： 人机交互

作者： Sitong Wang, Xuanming Zhang, Jenny Ma, Alyssa Hwang, Lydia B. Chilton

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03882v2

摘要： 每个人都渴望实现个人目标。然而，入门往往是复杂且令人畏惧的，尤其是对于大型项目。人工智能有潜力制定计划并帮助快速启动进展，但它通常缺乏足够的个人背景来发挥作用。我们推出了 JumpStarter，这是一个使用人工智能驱动的上下文管理来创建行动计划并起草个性化工作解决方案的系统。 JumpStarter 通过提出问题来引出相关背景、将目标分解为可管理的步骤以及选择适当的背景来为每个步骤起草工作解决方案来帮助用户。技术评估表明，情境管理可以产生更高质量的计划和工作解决方案。用户研究表明，与 ChatGPT 相比，JumpStarter 显着减轻了用户的心理负担，提高了启动个人项目的效率。我们讨论人工智能驱动的上下文管理的设计含义，以促进在复杂问题解决中使用生成式人工智能。

方便网页浏览的工具

分类： 人机交互

作者： Christopher Kelly, Jonatan Fontanez, Tali Sharot

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03866v1

摘要： 由于算法不透明，搜索引擎结果常常与用户的目标不一致，从而导致无益或有害的信息消耗。为了解决这个问题，我们开发了一个 Google Chrome 插件，为 Google 搜索结果中的网页提供“内容标签”，评估可操作性（指导行动）、知识（增强理解）和情感。该插件使用自然语言处理和机器学习，根据参与者评分训练的模型从网页文本中预测这些属性，有效地反映用户的看法。其影响包括增强用户对信息消费的控制，促进更健康地参与在线内容，从而有可能改善决策和福祉。

通过互动使大语言模型与个人偏好保持一致

分类： 计算和语言, 人工智能, 人机交互

作者： Shujin Wu, May Fung, Cheng Qian, Jeonghwan Kim, Dilek Hakkani-Tur, Heng Ji

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03642v1

摘要： 随着大型语言模型 (LLM) 展现出越来越先进的功能，使其行为与人类价值观和偏好保持一致对于其广泛采用至关重要。虽然之前的研究侧重于与有益、无害和诚实等原则的总体一致性，但考虑个人和多样化偏好的需要在很大程度上被忽视了，这可能会破坏定制的人类体验。为了弥补这一差距，我们训练了能够“交互对齐”的LLM，本质上是培养LLM的元技能，通过多轮对话隐式推断当前用户未言明的个性化偏好，然后动态地调整他们的后续行为以及对这些推断出的偏好的反应。我们的方法包括通过最初创建种子示例来建立包含 3,310 个不同用户角色的多样化池，然后通过迭代自我生成和过滤来扩展这些示例。在不同的用户角色的指导下，我们利用多大语言模型协作来开发多轮偏好数据集，其中包含树结构中的 3K+ 多轮对话。最后，我们应用监督微调和强化学习来增强使用该数据集的大语言模型。为了进行评估，我们建立了 ALOE（ALign With CustOmized PrEferences）基准，由 100 个精心挑选的示例和精心设计的指标组成，用于衡量对话期间的定制对齐性能。实验结果证明了我们的方法在通过交互实现动态、个性化对齐方面的有效性。

勾选所有选项：生成的清单可改善 LLM 评估和生成

分类： 人工智能, 计算和语言, 人机交互, 机器学习

作者： Jonathan Cook, Tim Rocktäschel, Jakob Foerster, Dennis Aumiller, Alex Wang

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03608v1

摘要： 鉴于大型语言模型 (LLM) 的广泛采用和使用，对其指令跟踪能力进行灵活且可解释的评估至关重要。尽管将复杂、多方面的偏好提炼为单一排名，但模型输出之间的偏好判断已成为事实上的评估标准。此外，由于人工注释缓慢且成本高昂，大语言模型越来越多地被用来做出这些判断，但牺牲了可靠性和可解释性。在这项工作中，我们提出了 TICK（Targeted Instruct-evaluation with CheckKlists），这是一种完全自动化、可解释的评估协议，它使用 LLM 生成的特定于指令的检查表来构建评估。我们首先证明，根据指令，大语言模型可以可靠地生成高质量、定制的评估清单，将指令分解为一系列是/否问题。每个问题都会询问考生的回答是否满足指令的特定要求。我们证明，与大语言模型直接对输出进行评分相比，使用 TICK 会导致大语言模型判断与人类偏好之间精确一致的频率显着增加（46.4% 至 52.2%）。然后，我们展示了 STICK (Self-TICK) 可用于通过自我改进和 Best-of-N 选择来提高多个基准的生成质量。 STICK 在 LiveBench 推理任务上的自我优化带来了 7.8% 的绝对收益，而使用 STICK 进行的 Best-of-N 选择在现实世界指令数据集 WildBench 上获得了 6.3% 的绝对收益。有鉴于此，结构化、多方面的自我完善被证明是进一步提高大语言模型能力的一种有前途的方法。最后，通过向负责直接对 WildBench 指令的 LLM 响应进行评分的人类评估者提供 LLM 生成的清单，我们显着提高了注释者间的一致性（0.194 美元到 0.256 美元）。

软件工程领域的生成人工智能：职业身份的张力和身份保护的模式

分类： 人机交互, 软件工程, H.5.2; H.1.2; H.5.3

作者： Anuschka Schmitt, Krzysztof Z. Gajos, Osnat Mokryn

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03571v1

摘要： 在组织环境中采用生成式人工智能（GAI）引发了对员工角色的质疑，以及对其长期技能发展和领域专业知识的影响。在软件工程领域的定性研究中，我们以职业认同和自我决定理论的理论视角为基础，了解软件工程师如何以及为何理解 GAI 的工作意义。我们发现工程师的意义建构取决于领域专业知识，因为初级工程师和高级工程师认为他们对能力、自主性和关联性的需求会受到 GAI 的不同影响。我们阐明了个人在保护隐性领域知识方面的重要性，因为工程师致力于保护其职业身份的意义建构。我们阐述了组织如何在塑造工人的意义建构过程中发挥积极作用，并就组织和系统设计者如何促进技术变革对工人职业认同的影响提出设计指南。

人工人类讲师：亚洲首批人工智能讲师在课堂上促进教育创新的初步发现

分类： 人机交互

作者： Ching Christie Pang, Yawei Zhao, Zhizhuo Yin, Jia Sun, Reza Hadi Mogavi, Pan Hui

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03525v1

摘要： 近年来，人工智能（AI）越来越多地融入教育，重塑了传统的学习环境。尽管如此，对完全可操作的人造人类讲师的调查仍然有限。据我们所知，我们的论文提出了世界上第一项研究，检验它们在现实世界教育环境中的部署。具体来说，我们调查了香港科技大学（HKUST）研究生课程中“数字教师”（人工智能驱动的虚拟讲师）的使用情况。我们的研究探讨了外表、非语言线索、声音和言语表达等特征如何影响学生的学习体验。调查结果表明，学生高度重视数字教师的自然性、真实性和互动性，强调了需要改进的领域，例如提高响应能力、个性化头像以及与更大的学习平台的集成。我们的结论是，数字教师通过为学生提供更灵活、更具吸引力、个性化和易于访问的学习体验，具有增强教育的巨大潜力。

毒性分类器和大型语言模型如何应对能力主义

分类： 人机交互, 人工智能

作者： Mahika Phutane, Ananya Seelam, Aditya Vashistha

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03448v1

摘要： 残疾人 (PwD) 经常在网上遭遇残疾歧视和微侵犯。虽然在线平台使用机器学习模型来减轻网络伤害，但很少有研究调查这些模型如何与体能歧视相互作用。在本文中，我们整理了一个包含 100 条针对残疾人的社交媒体评论的数据集，并招募了 160 名参与者来评价和解释这些评论的毒性和残障程度。然后，我们使用最先进的毒性分类器 (TC) 和大型语言模型 (LLM) 来评估和解释危害。我们的分析显示，TC 和 LLM 对毒性的评价显着低于 PwD，但 LLM 对能力歧视的评价总体上与 PwD 相当。然而，大语言模型的体能歧视解释忽视了情感伤害，缺乏具体性和对背景的认可，而这些都是残疾人解释的重要方面。展望未来，我们讨论设计残疾感知毒性分类器的挑战，并倡导从体能歧视检测转向体能歧视解释和解释。

公共图书馆中以人为本的增强型数字孪生和集成照明资产管理：从纠正性维护到预测性维护

分类： 人机交互, 系统与控制, 系统与控制

作者： Jing Lin, Jingchun Shen

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03811v1

摘要： 公共图书馆的照明资产管理传统上是被动的，侧重于纠正性维护，仅在发生故障时解决问题。尽管现在的标准鼓励采取预防措施，例如纳入维护因素，但以人为本的可持续照明系统的更广泛目标需要转向预测性维护策略。本研究引入了一种增强的数字孪生模型，旨在对公共图书馆的照明资产进行主动管理。通过集成描述性、诊断性、预测性和规范性分析，该模型可实现资产健康状况的全面、多层次视图。拟议的框架支持预防性和预测性维护策略，可以及早发现问题并及时解决潜在故障。除了照明系统的特定应用之外，该设计还适用于其他建筑资产，为各种公共空间的综合资产管理提供可扩展的解决方案。

用于多点触觉感知重要性预测的自监督时空图掩模传递注意网络

分类： 人机交互, 人工智能

作者： Dazhong He, Qian Liu

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03434v1

摘要： 虽然视觉和听觉信息在现代多媒体系统中很普遍，但触觉交互（例如触觉和动觉交互）提供了人类感知的独特形式。然而，接触式交互的多媒体技术不如非接触式多媒体技术成熟，需要进一步发展。需要低延迟和比特率的专业触觉媒体技术对于实现触觉交互至关重要，因此需要触觉信息压缩。现有的基于感知模型的振动触觉信号压缩方法没有考虑多个空间分布交互点融合触觉感知的特征。事实上，触觉感知重要性的差异不仅限于传统的频域和时域，还包括触觉感知所特有的皮肤空间位置的差异。对于最常用的触觉信息，即振动触觉纹理感知，我们基于自监督学习和时空图神经网络，开发了一个模型来预测其在多个点的感知重要性。目前的实验结果表明，该模型可以有效预测多点触觉感知场景中各点的感知重要性。

叙事播放器：用视觉复兴数据叙事

分类： 人机交互

作者： Zekai Shao, Leixian Shen, Haotian Li, Yi Shan, Huamin Qu, Yun Wang, Siming Chen

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03268v1

摘要： 数据丰富的文档常见于商业、金融和科学等各个领域。然而，这些文档的阅读的一般限制是它们依赖文本来传达数据和事实。文本的视觉呈现有助于在理解和参与方面提供令人满意的阅读体验。然而，现有的工作强调呈现本地文本上下文的见解，而不是在整个段落中充分传达数据故事并吸引读者。为了向读者提供满意的数据故事，本文提出了 Narrative Player，这是一种新颖的方法，可以通过一致且情境化的视觉效果自动恢复数据叙述。具体来说，它接受段落和相应的数据表作为输入，并利用大语言模型来描述条款并提取上下文数据事实。随后，通过精心设计的基于优化的方法，将事实转化为连贯的可视化序列。相邻可视化之间还会分配动画以实现无缝过渡。最后，将文本转语音技术生成的可视化序列、过渡动画和音频旁白渲染成数据视频。评估结果显示，自动生成的数据视频在增强阅读方面受到了参与者和专家的好评。

ScriptViz：基于大型电影数据库的辅助剧本创作的可视化工具

分类： 人机交互, 人工智能, 计算机视觉和模式识别, 图形

作者： Anyi Rao, Jean-Peïc Chou, Maneesh Agrawala

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03224v1

摘要： 编剧通常依靠他们的心理想象，利用他们的想象力来看到、感受和体验他们所写的场景，从而创造出一个生动的故事。除了心理想象之外，他们还经常参考电影中现有的图像或场景，并分析视觉元素以创造某种情绪或氛围。在本文中，我们开发了 ScriptViz，为剧本创作过程提供基于大型电影数据库的外部可视化。它根据脚本文本和对话从大型电影数据库中动态检索参考视觉效果。该工具提供了两种类型的视觉元素控制，使编写者能够 1）通过固定视觉元素准确地看到他们想要的内容，2）看到不确定元素中的差异。用户对15位编剧的评价表明，ScriptViz能够为编剧提供一致而又多样化的视觉可能性，与剧本紧密契合，助力编剧创作。

M2AR：基于 Web 的增强现实工作流建模语言建模环境

分类： 人机交互, 多媒体, 软件工程

作者： Fabian Muff, Hans-Georg Fill

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03800v1

摘要： 本文介绍了 M2AR，这是一种新的基于网络的二维和三维建模环境，无需编程知识即可建模和执行增强现实应用程序。该平台基于 3D JavaScript 库和混合现实沉浸式网络标准 WebXR。为了首次演示其可行性，之前引入的增强现实工作流建模语言 (ARWFML) 已使用此环境成功实现。通过展示 M2AR 上的 ARWFML 用例，证明了新建模环境的实用性。

StoryNavi：利用生成式 AI 按需叙事驱动重建视频播放

分类： 人机交互

作者： Alston Lantian Xu, Tianwei Ma, Tianmeng Liu, Can Liu, Alvaro Cassinelli

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03207v1

摘要： 对于用户来说，手动浏览冗长的视频来查找信息或回答问题可能是一项乏味且耗时的任务。我们推出 StoryNavi，这是一种由 VLLM 提供支持的新颖系统，用于通过从原始视频中检索材料来生成定制的视频播放体验。它通过使用已识别的相关剪辑构建非线性序列来形成连贯的叙述，从而直接回答用户的查询。 StoryNavi 提供两种播放构建视频的模式：1）以视频为中心，播放原始音频并跳过不相关的片段；2）以叙事为中心，以旁白引导体验，原始音频被静音。与人类检索相比，我们的技术评估显示出足够的检索性能。我们的用户评估表明，在观看脱节的视频片段时，保持叙事连贯性可以显着提高用户参与度。然而，视频类型、内容和查询本身等因素可能会导致用户对播放模式的偏好发生变化。

自治系统和绿野仙踪系统之间语音用户行为差异的分析和检测

分类： 计算和语言, 人机交互, 机器人技术

作者： Mikey Elmers, Koji Inoue, Divesh Lala, Keiko Ochi, Tatsuya Kawahara

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03147v1

摘要： 这项研究检查了日本人机交互的大型语料库中用户的行为差异，比较了远程操作机器人和自主对话系统之间的交互。我们分析了用户在专心倾听和工作面试对话场景中的言语行为。结果显示，操作员控制和自主条件下的语音长度、语速、填充词、反向通道、不流畅和笑声等指标存在显着差异。此外，我们开发了预测模型来区分操作员和自主系统条件。与基线模型相比，我们的模型表现出更高的准确度和精确度，多个模型还获得了比基线更高的 F1 分数。

当存在资质提升机会时，了解决策主体对人工智能模型的参与度和感知公平性

分类： 人机交互, 人工智能

作者： Meric Altug Gemalmaz, Ming Yin

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03126v1

摘要： 我们探索人工智能模型的决策公平性如何影响人们对模型的参与和感知的公平性，如果他们受到模型决策的约束，但可以重复地、战略性地响应这些决策。考虑两种类型的战略反应——人们可以决定是否继续与模型交互，以及是否投资自己以提高未来从模型中做出有利决策的机会。通过三个人类受试者实验，我们发现，在决策受试者与人工智能模型进行策略性、重复的交互中，模型的决策公平性并没有改变他们与模型交互或提高自己的意愿，即使模型在显着的方面表现出不公平性。受保护的属性。然而，当人工智能模型系统性地对他们的群体产生偏见时，决策主体仍然认为人工智能模型不太公平，特别是对于低素质人群来说，提高个人做出有利决策的资格的难度更大时。

RFBoost：通过物理数据增强理解和增强深度 WiFi 传感

分类： 信号处理, 人机交互, 机器学习

作者： Weiying Hou, Chenshu Wu

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.07230v1

摘要： 深度学习在无线传感领域显示出有前景的性能。然而，深度无线传感（DWS）严重依赖于大型数据集。不幸的是，为 DWS 构建全面的数据集既困难又昂贵，因为无线数据取决于环境因素并且无法离线标记。尽管最近在少样本/跨领域学习方面取得了进展，但 DWS 仍然面临数据稀缺问题。在本文中，我们研究了用于 WiFi 传感的无线电数据增强 (RDA) 的独特视角，并提出了数据空间解决方案。我们的主要见解是，无线信号本质上表现出数据多样性，为 DWS 提供更多提取信息。我们提出 RFBoost，这是一个简单而有效的 RDA 框架，包含新颖的物理数据增强技术。我们将 RFBoost 作为与现有深度模型集成的即插即用模块来实现，并在多个数据集上对其进行评估。实验结果表明，RFBoost 在现有模型上实现了 5.4% 的显着平均精度提升，无需额外的数据收集或模型修改，并且最佳提升的性能优于 11 个没有 RDA 的最先进基线模型。 RFBoost 开创了 RDA 的研究，RDA 是 DWS 的一个重要但目前尚未充分开发的构建块，我们预计它将成为 WiFi 传感及其他领域的标准 DWS 组件。 RFBoost 发布于 https://github.com/aiot-lab/RFBoost。

数据剧作家：用带注释的旁白创作数据视频

分类： 人机交互

作者： Leixian Shen, Haotian Li, Yun Wang, Tianqi Luo, Yuyu Luo, Huamin Qu

发布时间： 2024-10-04

链接： http://arxiv.org/abs/2410.03093v1

摘要： 创建用动画视觉效果有效地讲述故事的数据视频需要大量的努力和专业知识。一个有前景的研究趋势是利用易于使用的自然语言 (NL) 交互，从文本叙述等叙事内容或指定用户所需设计的 NL 命令自动合成数据视频组件。然而，之前的研究忽视了叙事内容和特定设计创作命令的整合，导致生成的结果缺乏定制性或无法无缝地融入叙事背景。为了解决这些问题，我们引入了一种创建数据视频的新颖范式，它以一种称为“注释叙述”的统一格式无缝集成用户的创作和叙述意图，允许用户将用于设计创作的 NL 命令合并为叙述文本中的内嵌注释。根据对用户对带注释叙述的偏好的形成性研究，我们开发了一个名为 Data Playwright 的原型系统，它体现了有效创建数据视频的范例。在 Data Playwright 中，用户可以根据上传的可视化内容编写带注释的旁白。该系统的解释器自动理解用户的输入，并在大型语言模型的支持下，通过旁白动画交互来合成数据视频。最后，用户可以预览和微调视频。一项用户研究表明，参与者可以通过带注释的旁白毫不费力地阐明他们想要的结果，从而使用 Data Playwright 有效地创建数据视频。

CounterQuill：研究在线反言语写作中人类与人工智能协作的潜力

分类： 人机交互, 人工智能, 计算机与社会

作者： Xiaohan Ding, Kaike Ping, Uma Sushmitha Gunturi, Buse Carik, Sophia Stil, Lance T Wilhelm, Taufiq Daryanto, James Hawdon, Sang Won Lee, Eugenia H Rho

发布时间： 2024-10-03

链接： http://arxiv.org/abs/2410.03032v1

摘要： 网络仇恨言论在社交媒体平台上日益盛行，对个人和社会造成伤害。尽管已经努力通过内容审核来解决这个问题，但用户驱动的反言论作为替代解决方案的潜力仍未得到充分探索。现有的反言语方法经常面临诸如害怕报复和技能相关障碍等挑战。为了应对这些挑战，我们推出了 CounterQuill，这是一种人工智能介导的系统，可帮助用户撰写有效且富有同理心的反驳言论。 CounterQuill 提供了一个三步流程：（1）学习课程，帮助用户理解仇恨言论和反言论；（2）头脑风暴会议，引导用户识别仇恨言论的关键要素并探索反言论策略； (3) 共同写作会议，使用户能够使用 CounterQuill 起草和完善他们的反驳言论。我们对 20 名参与者进行了一项受试者内用户研究，以与 ChatGPT 进行比较来评估 CounterQuill。结果表明，CounterQuill 的指导和协作写作过程为用户提供了对他们共同撰写的反驳言论更强的主人翁意识。用户将 CounterQuill 视为写作伙伴，因此与使用 ChatGPT 编写的反言论相比，他们更愿意在网上发布共同撰写的反言论。

2024-10

MobA：用于高效移动任务自动化的两级代理系统

扩展可穿戴基础模型

增强现实安全警告的神经关联：道路工作区情境意识和认知表现的脑电图分析

共同创建和评估一款应用程序，以支持老年痴呆症患者的回忆治疗干预措施

RAMPA：用于机器编程和自动化的机器人增强现实

CLEAR：面向大型语言模型应用程序的上下文大语言模型授权的隐私政策分析和风险生成

对人工智能歧视性决策的看法：揭示个体特征的作用

通过协作 AI 增强情感分析：架构、预测和部署策略

使用无人机和增强现实技术实时查看墙后的情况

算法组织的未来：去中心化自治组织（DAO）的大规模分析

BOXR：扩展现实的身体和头部运动优化框架

零样本 CSS 分类中的 LLM 置信度评估措施

LFOsum：用大型语言模型总结长篇观点

揭示互联网的隐藏价值：利用 Reddit 上高赞内容对理想行为进行实证研究

超越内在动机：自主动机在用户体验中的作用

坚定地挖掘层次结构：通过技能分布的成对比较构建 CS1 技能层次结构

人工智能对开发速度有多大影响？基于企业的随机对照试验

Drillboards：用于动态个性化可视化体验的自适应可视化仪表板

他们了解自己在使用什么吗？ -- 评估生物识别技术的认知和使用

现在拒绝：算法集体行动的组合模型

关于大型语言模型领域建模辅助的实用性

探索自我追踪技术的多元视角：自我追踪实践中的信任与反思

对话任务助手的多特征用户模拟和自适应解码

隐私设计：提高用户对物联网隐私风险的认识

虚拟和增强现实作为符号组合

基于大语言模型的误解学生认知模型

骗我一次吗？临床决策支持环境中对比文本和视觉解释

VisAnatomy：具有细粒度语义标签的 SVG 图表语料库

iFuzzyTL：SSVEP BCI 系统的可解释模糊迁移学习

探索虚拟现实用户参与对游客行为反应的影响，整合旅游视角的环境关注：一种新的混合机器学习方法

采用陪伴机器人的挑战：对中国退休人员进行机器人陪伴的探索性研究

混合现实还是被误解的现实？通过超现实的我实现弗卢瑟式的媒体自由

生成人工智能的聚合知识与基于网络的精选知识

利用 GPT-4 为记者解除科学术语：一项试点研究

实现数据驱动和移情交互：混合现实中的上下文感知 3D 虚拟代理，以增强金融客户体验

通过匹配在线和离线设置实现提交消息生成的现实评估

CitySolution：使用深度学习的智慧城市企业投诉任务分布式移动应用程序

数字无障碍素养：数字无障碍培训的概念框架

改善数字化辅导：Re:Coded 社区平台案例研究的见解和建议

ChatHouseDiffusion：平面图的即时引导生成和编辑

通过基于大语言模型的交互式代理增强用户的数字隐私管理能力

聋人或听障人士网上相爱的实践与挑战：中国案例研究

具有态度的角色：控制大语言模型进行多样化的数据注释

RClicks：用于基准交互式分割的真实点击模拟

人类与大语言模型合作构建粤语情感词典

EmoBridge：利用表情符号和实时共享弥合残疾学生和同伴记笔记者之间的沟通差距

综合对话者。用生成人工智能来延长民族志接触的实验

适应不同用户群体的人机交互框架

用截图数据检查手机使用人后悔

使用生成人工智能的在线教育项目的个性化反馈框架

可解释人工智能的有用性研究

K-12 STEM 教育大语言模型即时工程的系统评价

HoloSpot：通过混合现实拖放进行直观的对象操作

MrDeepFakes 性 Deepfake 市场特征

肌内高密度微电极阵列能够对脊髓运动神经元进行高精度解码和映射，以揭示手部控制

对分析来源摘要的实证见解：分段数据分析工作流程的研究

3DArticCyclists：为人机交互 (HOI) 和自动驾驶应用生成模拟动态 3D 自行车手

生成式人工智能界面的功能灵活性：通过对话、工具栏和提示与大语言模型进行文本编辑

开发用于可持续能源教育的 3D 虚拟世界工具

Mindalogue：大语言模型支持的非线性交互，用于有效学习和任务探索

Reddit 上气候行动主义的因果模型

用户对机器人教练助理披露行为适当性的看法

与 Kerblam 一起构建开放科学时代的数据分析项目！

使用 UWB 雷达从生理信号追踪人类压力

利用 NeRF 进行分析-综合，利用稀疏且嘈杂的 UWB 雷达数据对日常小型物体进行 ISAR 成像

梦想提供帮助：学习与人类目标保持一致，以实现高速赛车中的共享控制

使用 SociaLens 进行在线数字调查新闻

评估基于轮廓的地理空间可视化中交互的有效性

超越“行业标准”：将性别肯定语音训练技术聚焦个性化目标探索

驾驭数字时代的可发现性：理论框架

Look-and-Tw​​ist：虚拟现实和增强现实的简单选择方法

HypomimiaCoach：基于 AU 的数字治疗系统，用于帕金森病的低氧血症检测和康复

LibEER：基于脑电图的情绪识别的综合基准和算法库

基于脑电图的 AI-BCI 轮椅改进：利用机器学习机制和左右手自主运动的脑机接口轮椅系统

“我认为你需要帮助！这就是原因”：了解解释对自动面部表情识别的影响

“我本质上只是相信它有效”：调查开源库差异隐私的心理模型

混合现实双边人体远程操作的稳定性和透明度

视觉热舒适度：可持续街景设计的热可供性及其视觉评估

制作贝什巴尔马克：中亚文化遗产游戏

Look-and-Twist：虚拟现实和增强现实的简单选择方法