2024-08
iToT:用于定制思想树生成的交互式系统
分类: 人机交互
作者: Alan Boyle, Isha Gupta, Sebastian Hönig, Lukas Mautner, Kenza Amara, Furui Cheng, Mennatallah El-Assady
发布时间: 2024-08-31
链接: http://arxiv.org/abs/2409.00413v1
摘要: 随着语言模型在广泛的任务中变得越来越成功,不同的即时工程方法也随之被开发出来,以使这些模型适应新的任务。其中之一是思想树(ToT),这是一种用于语言模型推理和解决问题的提示策略和框架。它允许模型探索多个解决方案路径并选择最佳行动方案,从而生成中间步骤(即想法)的树状结构。该方法已被证明对多种问题类型有效。然而,官方实现具有很高的使用障碍,因为它需要设置开销并包含特定于任务的问题模板,这些模板很难推广到新的问题类型。它也不允许用户交互来改进或提出新的想法。我们介绍iToT(交互式思维树),一个通用的交互式思维树提示系统。 iToT允许用户探索模型解决问题过程的每一步,以及纠正和扩展模型的想法。 iToT 围绕可视化界面展开,该界面促进了简单通用的 ToT 使用,并使问题解决过程对用户透明化。这有助于更好地理解哪些想法和考虑因素会导致模型的最终决策。通过三个案例研究,我们展示了 iToT 在不同的人类与大语言模型共同写作任务中的有用性。
“我想创造理想的自我”:探索虚拟现实治疗中 LGBTQ+ 用户的化身感知
分类: 人机交互
作者: Anish Kundu, Giulia Barbareschi, Midori Kawaguchi, Yuichiro Yano, Mizuki Ohashi, Kaori Kitaoka, Aya Seike, Kouta Minamizawa
发布时间: 2024-08-31
链接: http://arxiv.org/abs/2409.00383v1
摘要: 在本文中,我们探讨了利用虚拟现实 (VR) 作为支持 LGBTQ+ 社区中个人的治疗工具的潜力,这些人经常面临较高的心理健康问题风险。具体来说,我们研究了使用预先存在的化身与允许个人通过网站创建自己的化身相比的有效性,以及他们在使用这些化身时在 VR 空间中的体验。我们进行了一项用户研究 (n=10),测量心率变异性 (HRV) 并通过在 VR 中进行的半结构化访谈收集主观反馈。使用在线平台促进阿凡达的创建,并且在商用 VR 应用程序开发的两个用户 VR 空间内进行对话。我们的研究结果表明,用户明显更喜欢在治疗过程中创建自己的化身,虽然没有统计学上的显着差异,但在 VR 中使用自制化身时,存在增强生理反应的一致趋势。这项研究为 LGBTQ+ 社区中利用 VR 进行治疗的定制化身创建的重要性提供了初步的实证支持。
MAPWise:评估高级地图查询的视觉语言模型
分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 图形, 人机交互
作者: Srija Mukhopadhyay, Abhishek Rajgaria, Prerana Khatiwada, Vivek Gupta, Dan Roth
发布时间: 2024-08-30
链接: http://arxiv.org/abs/2409.00255v1
摘要: 视觉语言模型 (VLM) 擅长执行需要共同理解视觉和语言信息的任务。这些模型的一个特别有前途但尚未充分探索的应用在于回答基于各种地图的问题。本研究调查了 VLM 在回答基于分区统计图的问题方面的功效,分区统计图广泛用于数据分析和表示。为了促进和鼓励这一领域的研究,我们引入了一种新颖的基于地图的问答基准,由来自三个地理区域(美国、印度、中国)的地图组成,每个地图包含 1000 个问题。我们的基准测试包含 43 个不同的问题模板,需要对相对空间关系、复杂的地图特征和复杂的推理有细致入微的理解。它还包括具有离散和连续值的地图,涵盖颜色映射、类别排序和风格模式的变化,从而实现全面分析。我们在此基准上评估了多个 VLM 的性能,突出了它们的能力差距,并为改进此类模型提供了见解。
Social MediARverse 通过基于位置的 AR 调查用户社交媒体内容共享和消费意图
分类: 人机交互, 社交和信息网络
作者: Linda Hirsch, Florian Müller, Mari Kruse, Andreas Butz, Robin Welsch
发布时间: 2024-08-30
链接: http://arxiv.org/abs/2409.00211v1
摘要: 增强现实 (AR) 正在发展成为社交媒体的下一个前沿领域,将物理和虚拟现实融合到一个活生生的虚拟宇宙中,即社交媒体 AR 宇宙。通过这种转变,我们必须了解不同的环境(公共、半公共和私人)如何影响用户对 AR 内容的参与。我们通过对 110 名参与者进行在线调查来解决当前研究中的这一差距,展示 36 个 AR 视频,并对他们进行调查以了解内容的适合性和适当性。具体来说,我们操纵了这三个空间、两种形式的动态(动态与静态)和二维(2D 与 3D)。我们的研究结果表明,动态 AR 内容通常比静态内容更受欢迎。此外,用户发现在私人环境中共享和参与 AR 内容比在其他环境中更舒适。由此,该研究为设计和实施未来的社交媒体宇宙提供了宝贵的见解,并为行业和学术界在内容可视化和情境考虑方面提供了指导。
Text2Tradition:从认识论张力到人工智能介导的跨文化共同创造
分类: 人机交互
作者: Pat Pataranutaporn, Chayapatr Archiwaranguprok, Phoomparin Mano, Piyaporn Bhongse-tong, Pattie Maes, Pichet Klunchun
发布时间: 2024-08-30
链接: http://arxiv.org/abs/2409.00203v1
摘要: 本文介绍了 Text2Tradition,这是一个旨在通过将用户生成的提示翻译成泰国古典舞蹈序列来弥合现代语言处理和传统舞蹈知识之间的认识论差距的系统。我们的方法侧重于 Mae Bot Yai 第 60 号中的六种传统编舞元素,这是一种受人尊敬的泰国舞蹈剧目,体现了代代相传的特定文化知识。相比之下,大型语言模型(LLM)代表了一种不同形式的知识——数据驱动、统计得出、并且通常以西方为中心。这项研究探讨了人工智能介导的系统连接传统和当代艺术形式的潜力,强调了跨文化翻译中的认识论张力和机遇。
CinePreGen:通过引擎驱动的扩散实现摄像机可控视频预可视化
分类: 计算机视觉和模式识别, 人机交互
作者: Yiran Chen, Anyi Rao, Xuekun Jiang, Shishi Xiao, Ruiqing Ma, Zeyu Wang, Hui Xiong, Bo Dai
发布时间: 2024-08-30
链接: http://arxiv.org/abs/2408.17424v1
摘要: 随着视频生成人工智能模型(例如 SORA)的进步,创作者越来越多地使用这些技术来增强视频预览。然而,他们面临着人工智能工作流程不完整和不匹配的挑战。现有的方法主要依赖于文本描述,并且难以解决相机放置的问题,而相机放置是预可视化的关键组成部分。为了解决这些问题,我们推出了 CinePreGen,这是一种通过引擎驱动的扩散增强的视觉预览系统。它具有新颖的相机和故事板界面,可提供从全局到本地相机调整的动态控制。这与用户友好的 AI 渲染工作流程相结合,旨在通过多重屏蔽 IP 适配器和引擎模拟指南实现一致的结果。在我们的综合评估研究中,我们证明我们的系统降低了开发粘度(即开发过程中的复杂性和挑战),满足了用户在设计过程中广泛控制和迭代的需求,并且在电影方面优于其他人工智能视频制作工作流程相机移动,如我们的实验和受试者内用户研究所示。凭借其直观的摄像机控制和逼真的摄像机运动渲染,CinePreGen 在改善个人创作者和行业专业人士的视频制作方面显示出巨大的潜力。
海事数字化转型中的技术压力和变革阻力:重点回顾
分类: 人机交互
作者: Benedicte Frederikke Rex Fleron, Raluca A. Stana
发布时间: 2024-08-30
链接: http://arxiv.org/abs/2408.17408v1
摘要: 航运业正在经历重大的数字化转型 (DT),以提高效率和可持续性。这篇重点综述调查了有关海员适应新数字技术时的技术压力和变革抵制的文献现状。通过严格审查精选的同行评审文章,我们确定了 DT 海事研究的主要主题和趋势。调查结果表明,虽然心理健康问题是一个主要问题,但在已经给海员带来压力的行业中引入新技术的背景下,这一问题还有待调查。此外,变革管理没有得到解决,DT 仅限于特定功能,而不是广泛的工作实践变革
XULIA——专为四肢瘫痪人士设计的 Windows$^{tm}$ 设备综合控制系统
分类: 人机交互
作者: Antonio Losada Gonzalez
发布时间: 2024-08-30
链接: http://arxiv.org/abs/2408.17314v1
摘要: XULIA 是一款针对 Windows 计算机的综合控制系统,专为四肢瘫痪人士或无法准确移动上肢的人士而设计。 XULIA 允许您仅使用语音来管理控制所有 Windows 功能所需的所有功能。作为语音转文本转录系统,它使用完全免费的模块,通过 Google Chrome 浏览器间接将用于命令识别的 Windows SAPI 语音识别库与 Google 的基于云的语音识别系统相结合,从而允许您使用 Google 的付费语音转文本-完全免费的文本转录服务。 XULIA 在自动激活的同时管理多种语法,以确保要识别的命令集始终减少到最少,从而将命令识别中的误报减少到最低限度。
《福利游戏:外星海藻群》——数字海藻生态实时游戏化
分类: 人机交互, 人工智能, 系统与控制, 系统与控制
作者: Dan-Lu Fei, Zi-Wei Wu, Kang Zhang
发布时间: 2024-08-30
链接: http://arxiv.org/abs/2408.17186v1
摘要: 《福利游戏:外星海藻群》将人工生命艺术与互动游戏与装置相结合,探讨人类活动对脆弱海藻生态系统的影响。该项目旨在通过建立数字海藻生态平衡来提高生态意识。受到真实物种“Laminaria saccharina”的启发,作者采用机器学习技术的程序内容生成来生成虚拟海藻和共生真菌的变体。观众可以通过游戏探索人类活动的后果,观察生态系统对海藻养殖的效益和风险的反馈。该福利游戏提供动态且实时响应的人工海藻生态系统,提供增强生态意识的互动体验。
探索用户对便携式智能个人助理的接受度:使用 PLS-SEM 和 fsQCA 的混合方法
分类: 人机交互, 人工智能, HCC
作者: Gustave Florentin Nkoulou Mvondo, Ben Niu
发布时间: 2024-08-30
链接: http://arxiv.org/abs/2408.17119v1
摘要: 本研究探讨了推动用户接受 Rabbit R1 的因素,Rabbit R1 是一款新开发的便携式智能个人助理 (PIPA),旨在重新定义用户交互和控制。该研究通过纳入人工智能特定因素(对话智能、任务智能和感知自然性)、用户界面设计因素(信息设计和视觉美学的简单性)以及用户接受度和忠诚度,扩展了技术接受模型(TAM)。我们采用有目的抽样方法,收集了美国 824 个用户的数据,并通过偏最小二乘结构方程模型 (PLS-SEM) 和模糊集定性比较分析 (fsQCA) 对样本进行了分析。研究结果表明,所有假设的关系,包括直接和间接影响,都得到支持。此外,fsQCA 支持 PLS-SEM 的研究结果,并确定了导致用户接受度高和低的三种配置。这项研究丰富了文献,并为 PIPA 的系统设计者和营销人员提供了宝贵的见解,指导战略决策以促进广泛采用和长期参与。
可听化中的音调认知:探索声音交互设计从业者的需求
分类: 人机交互
作者: Minsik Choi, Josh Andres, Charles Patrick Martin
发布时间: 2024-08-30
链接: http://arxiv.org/abs/2408.17012v1
摘要: 对音调音乐的研究考察了声音之间的结构关系以及它们如何与我们的听觉感知保持一致。将音调认知整合到声音交互设计中的探索,特别是对于缺乏广泛音乐知识的从业者来说,以及开发易于使用的软件工具的探索仍然有限。我们报告了一项针对设计师的研究,旨在了解行业专家的声音创作实践,并探索如何将音调音乐原理融入声音设计工具中,以更好地支持他们的工艺并增强他们创造的声音体验。我们的研究通过对六名参与者的半结构化个人和焦点小组访谈收集了定性数据。我们开发了一种低保真原型声音设计工具,其中涉及焦点小组讨论的功能协调和交互设计的实用方法。我们通过反思性主题分析确定了四个主题:决策、领域知识和术语、协作以及声音创作的背景。最后,我们讨论了一种易于使用的声音交互设计工具的设计注意事项,该工具将听觉体验与音调认知更紧密地结合起来。
从“制造”到 Mukokuseki:探索机器人国家认同的视觉感知
分类: 机器人技术, 计算机与社会, 人机交互
作者: Katie Seaborn, Haruki Kotani, Peter Pennefather
发布时间: 2024-08-30
链接: http://arxiv.org/abs/2408.16949v1
摘要: 人们将人类特征融入到社交机器人的设计中,这是一个具有社会文化影响的视觉过程。其中一个因素可能是国籍,这是一种复杂的社会特征,与种族、文化和其他可以嵌入机器人视觉设计中的身份因素相关。在社会认同理论(SIT)的指导下,我们探索了“mukokuseki”的概念,这是一种视觉设计特征,其定义是日本文化出口中缺乏民族和种族认同的视觉线索。在一项两阶段分类研究 (n=212) 中,美国 (n=110) 和日本 (n=92) 参与者对随机选择的来自美国和日本的 9 种机器人刺激以及跨国 Pepper 进行了评分。我们发现了自制效应和两种 Mukokuseki 效应的证据。我们为可以与不同背景的人互动的 mukokuseki 机器人的视觉设计提供建议。我们的研究结果对机器人和社会身份、机器人出口的可行性以及机器人的国际使用具有影响。
使用少样本字体生成模型进行元宇宙内容自动文本设计的传统学习:韩语和中文案例研究
分类: 人机交互
作者: Younghwi Kim, Seok Chan Jeong, Sunghyun Sim
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16900v1
摘要: 一般来说,构成元宇宙的组件分为硬件、软件和内容类别。作为内容组件,文本设计众所周知会对用户沉浸感和可用性产生积极影响。与设计文本仅涉及 26 个字母的英语不同,由于语言的性质,设计韩语和中文文本分别需要创建 11,172 个和超过 60,000 个单独的字形。因此,应用新的文本设计来增强用户在虚拟世界中的沉浸感可能是乏味且昂贵的,特别是对于某些语言而言。最近,人们致力于使用生成人工智能(AI)来解决这个问题。然而,由于字符结构不准确,为虚拟宇宙创建新的文本设计仍然存在挑战。这项研究提出了一种称为“Legacy Learning”的新人工智能学习方法,可以以较低的成本实现高质量的文本设计。遗留学习涉及重新组合现有的文本设计并有意引入变体以生成与原始字体不同的字体,同时保持高质量。为了证明所提出的方法在为虚拟世界生成文本设计方面的有效性,我们从以下三个方面进行了评估:1)定量性能评估2)定性评估3)用户可用性评估。定量和定性性能结果表明,生成的文本设计与现有文本设计平均相差超过 30%,同时仍保持较高的视觉质量。此外,与Metaverse内容设计者进行的SUS测试得分为95.8,表明可用性很高。
测量智能机器人的透明度
分类: 机器人技术, 人机交互
作者: Georgios Angelopoulos, Dimitri Lacroix, Ricarda Wullenkord, Alessandra Rossi, Silvia Rossi, Friederike Eyssel
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16865v1
摘要: 随着机器人越来越多地融入我们的日常生活,让它们变得透明的需求变得前所未有的迫切。然而,尽管机器人透明度在人机交互中很重要,但迄今为止一直缺乏标准化的衡量标准。本文通过提出第一个衡量机器人系统感知透明度的综合量表来解决这一差距,该量表有英语、德语和意大利语版本。我们的方法将透明度概念化为多维结构,包括可解释性、易读性、可预测性和元理解。拟议的量表是经过严格的三阶段流程的产物,涉及 1,223 名参与者。首先,我们生成了量表的项目,其次,我们进行了探索性因子分析,第三,验证性因子分析用于验证新开发的 TOROS 量表的因子结构。最终量表包含 26 个项目,并包含三个因素:难以辨认性、可解释性和可预测性。 TOROS 在三个跨国样本中表现出较高的跨语言可靠性、因素间相关性、模型拟合度、内部一致性和收敛效度。这种经过经验验证的工具可以评估机器人的透明度,并有助于从理论上理解这种复杂的结构。通过提供标准化测量,我们促进人机交互方面的一致和可比研究,其中 TOROS 可以作为基准。
过去十五年对话代理信任的文献计量分析
分类: 人机交互
作者: Meltem Aksoy, Annika Bush
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16837v1
摘要: 会话代理 (CA) 在各个领域变得越来越普遍,引发了人们对了解 CA 信任动态的浓厚兴趣。这项研究满足了对该领域研究趋势进行全面分析的需求,特别是考虑到 ChatGPT 等 CA 技术的快速发展和使用的不断增加。通过文献计量分析,我们的目标是确定与 CA 和信任相关的关键关键词、学科、研究集群和国际合作。我们分析了 2009 年至 2024 年间发表的 955 项研究,全部来自 Scopus 数据库。此外,我们还进行了文本聚类分析,以确定出版物中的主题并了解其分布。我们的研究结果突显了人们对 CA 的兴趣日益浓厚,尤其是随着 ChatGPT 的推出。美国在研究产出方面领先,其次是德国、中国和英国。此外,跨学科研究显着增长,特别是在人机交互和人工智能领域。
耳迷走神经刺激增强远程飞行员培训和操作
分类: 神经元和认知, 人机交互, 机器人技术
作者: William J. Tyler
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16755v1
摘要: 无人机行业的快速增长,特别是小型无人机系统 (sUAS) 和无人机 (UAV) 的使用,需要为远程飞行员开发先进的培训协议。远程飞行员必须发展技术和认知技能的结合,以管理现代无人机操作的复杂性。本文探讨了神经技术的整合,特别是耳迷走神经刺激(aVNS),作为增强远程飞行员培训和表现的方法。科学文献表明 aVNS 可以安全地改善注意力、学习和记忆等认知功能。它也被证明对于管理压力反应很有用。为了实现小型无人机/无人机的安全高效运行,飞行员在压力下保持高度警惕和决策至关重要。通过调节交感神经压力和皮质唤醒,aVNS 可以在训练前增强认知能力,帮助在训练期间保持注意力并改善训练后的压力恢复。此外,aVNS 已证明具有增强多任务处理和认知控制的潜力。这可能会降低冲动决策或认知错误的风险,从而在复杂的小型无人机操作期间帮助远程飞行员。本文主张将 aVNS 纳入远程飞行员培训计划,认为它可以在提高认知准备度、技能和知识获取以及操作安全性和效率方面提供显着的好处。未来的研究应侧重于优化无人机飞行员的 aVNS 协议,同时评估现实场景中工业安全和劳动力准备情况的长期效益。
Mini-Omni:语言模型可以在流媒体中一边听一边思考
分类: 人工智能, 计算和语言, 人机交互, 机器学习, 声音, 音频和语音处理
作者: Zhifei Xie, Changqiao Wu
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16725v2
摘要: 语言模型的最新进展取得了重大进展。 GPT-4o作为一个新的里程碑,实现了与人类的实时对话,展现出接近人类自然的流畅性。这种人机交互需要模型能够直接使用音频模态进行推理并生成流式输出。然而,这仍然超出了当前学术模型的能力范围,因为它们通常依赖于额外的 TTS 系统进行语音合成,从而导致不良的延迟。本文介绍了 Mini-Omni,一种基于音频的端到端对话模型,能够进行实时语音交互。为了实现这种能力,我们提出了一种文本指令的语音生成方法,以及推理过程中的批量并行策略,以进一步提高性能。我们的方法还有助于以最小的退化保留原始模型的语言能力,使其他作品能够建立实时交互能力。我们将这种训练方法称为“Any Model Can Talk”。我们还引入了 VoiceAssistant-400K 数据集来微调针对语音输出优化的模型。据我们所知,Mini-Omni 是第一个完全端到端、开源的实时语音交互模型,为未来的研究提供了宝贵的潜力。
VMC:可视化统计模型检查的语法
分类: 人机交互
作者: Ziyang Guo, Alex Kale, Matthew Kay, Jessica Hullman
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16702v1
摘要: 可视化在验证和改进统计模型方面发挥着关键作用。然而,模型检查可视化的设计空间还没有被很好地理解,这使得作者很难探索和指定有效的图形模型检查。 VMC使用四个组件定义了模型检查可视化:(1)从模型生成的可检查量的分布样本,包括新数据的预测分布和模型参数的分布; (2) 对观测数据进行变换,以便于比较; (3) 分布的视觉表示; (4) 便于比较模型样本和观测数据的布局。我们以 R 包的形式贡献了 VMC 的实现。我们通过重现一组规范模型检查示例来验证 VMC,并展示如何使用 VMC 生成模型检查来减少相对于现有可视化工具包的可视化之间的编辑距离。对三位使用 VMC 的专家建模师进行的访谈研究结果强调了鼓励探索正确、有效的模型检查可视化的挑战和机遇。
通过数据艺术展览培养创意可视化技能
分类: 人机交互, 计算机与社会, H.5.2; K.3.0; K.4.0
作者: Jonathan C. Roberts
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16479v1
摘要: 数据艺术展览提供了独特且真实的环境,以培养学生的创造性可视化技能。它们是学生展示作品的现实平台,弥合了课堂学习和专业实践之间的差距。学生必须开发技术解决方案,掌握背景,并制作适合公开演示的作品。此场景有助于鼓励创新思维、对主题的参与,并有助于提高技术熟练程度。我们展示了我们在计算机课程中为三年级学位学生实施的数据艺术展览。学生根据选定的数据集创建基于艺术的可视化,并在公共展览中展示他们的作品。我们在两个学年的时间里对不同的群体使用了这一举措,并反思了它对学生学习和创造力的影响。
基于人类和大语言模型的语音助理交互:用户言语和非言语行为的分析框架
分类: 人机交互
作者: Szeyi Chan, Shihan Fu, Jiachen Li, Bingsheng Yao, Smit Desai, Mirjana Prpa, Dakuo Wang
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16465v1
摘要: 大语言模型(LLM)技术的最新进展显着增强了人类与语音助手(VA)之间的交互体验。该项目旨在探索用户在复杂任务期间与基于 LLM 的 VA (LLM-VA) 的持续交互。我们招募了 12 名参与者,让他们在烹饪任务中与大语言模型-VA 进行互动,这是因为其复杂性和持续互动的要求而选择的。我们观察到用户同时表现出语言和非语言行为,尽管他们知道 LLM-VA 无法捕获这些非语言信号。尽管非语言行为在人与人的交流中普遍存在,但目前还没有既定的分析方法或框架来探索人与 VA 互动中的非语言行为。在分析了 3 小时 39 分钟的视频记录后,我们开发了一个包含三个维度的分析框架:1)行为特征,包括言语和非言语行为,2)互动阶段——探索、冲突和整合——说明了进展用户交互,以及 3) 整个任务的阶段转换。该分析框架确定了关键的言语和非言语行为,为优化人类和大语言模型-VA互动的未来研究和实际应用奠定了基础。
推荐系统会推广本地音乐吗?使用音乐流数据的再现性研究
分类: 信息检索, 数据库, 人机交互, 机器学习
作者: Kristina Matrosova, Lilian Marey, Guillaume Salha-Galvan, Thomas Louail, Olivier Bodini, Manuel Moussallam
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16430v1
摘要: 本文探讨了推荐系统对本地音乐表现的影响,讨论了 LFM-2b 公共数据集实证研究的先前发现。先前的研究认为,不同的推荐系统表现出算法偏差,使音乐消费倾向于或反对本地内容。然而,LFM-2b 用户并没有反映出音乐流媒体服务的多元化受众。为了评估本研究结论的稳健性,我们使用来自全球音乐流媒体服务的专有收听数据进行了比较分析,该数据与本文一起公开发布。我们观察到我们的数据集和 LFM-2b 之间本地音乐消费模式存在显着差异,这表明仅根据 LFM-2b 对本地音乐得出结论时应谨慎行事。此外,我们表明,原始工作中表现出的算法偏差在我们的数据集中有所不同,并且几个未探索的模型参数可以显着影响这些偏差并影响两个数据集的研究结论。最后,我们讨论了准确标记本地音乐的复杂性,强调了由于不可靠、有偏见或不完整的标签而产生误导性结论的风险。为了鼓励进一步研究并确保可重复性,我们公开共享了我们的数据集和代码。
使用游戏引擎在沉浸式环境中进行虚拟现场工作
分类: 人机交互
作者: Armin Bernstetter, Tom Kwasnitschka, Jens Karstens, Markus Schlüter, Isabella Peters
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16346v1
摘要: 实地考察仍然是地球科学许多学科中最重要的洞察力来源。虚拟实地考察是一种方法,旨在使接受过实地考察培训的科学家能够将这些技能应用于人类无法访问的露头的虚拟表示,例如由于位于海底。为此我们在游戏引擎和3D创作工具Unreal Engine中开发了虚拟野外工作软件。该软件专为大型空间沉浸式环境以及使用头戴式显示器的虚拟现实而开发。它包含用于可视化 3D 模型数据定量测量的多个选项。我们将通过不同摄影测量和测深方法收集的三个不同的现实世界数据集可视化作为用例,并收集领域专家的初步反馈。
引导推理:非技术介绍
分类: 人工智能, 人机交互
作者: Gregor Betz
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16331v1
摘要: 我们介绍引导推理的概念和默认实现。多智能体系统是一种引导推理系统,当且仅当一个智能体(指南)主要与其他智能体交互以提高推理质量。我们用非技术术语描述 Logikon 引导推理的默认实现。这是一个动态文档,我们将逐渐通过更详细的信息和示例来丰富它。代码:https://github.com/logikon-ai/logikon
高度自动驾驶车辆基于脑电图信号的乘客危险感知
分类: 人机交互, 机器学习, 信号处理
作者: Ashton Yu Xuan Tan, Yingkai Yang, Xiaofei Zhang, Bowen Li, Xiaorong Gao, Sifa Zheng, Jianqiang Wang, Xinyu Gu, Jun Li, Yang Zhao, Yuxin Zhang, Tania Stathaki
发布时间: 2024-08-29
链接: http://arxiv.org/abs/2408.16315v1
摘要: 提高自动驾驶汽车的安全性至关重要,特别是考虑到最近涉及自动化系统的事故。作为这些车辆中的乘客,人类的感官感知和决策可以与自主系统集成,以提高安全性。本研究探索了客车交互中的神经机制,从而开发了乘客认知模型(PCM)和乘客脑电图解码策略(PEDS)。 PEDS 的核心是一种新颖的卷积循环神经网络 (CRNN),可捕获空间和时间脑电图数据模式。 CRNN结合堆叠算法,达到$85.0%\pm 3.18%$的精度。我们的研究结果强调了事件前脑电图数据的预测能力,增强了对危险场景的检测,并为更安全的自动驾驶车辆提供了网络驱动的框架。
DrowzEE-G-Mamba:利用脑电图和状态空间模型进行驾驶员睡意检测
分类: 人机交互
作者: Gourav Siddhad, Sayantan Dey, Partha Pratim Roy
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.16145v1
摘要: 驾驶员困倦被认为是道路事故的关键因素,因此需要强大的检测系统来增强道路安全。本研究提出了一种驾驶员困倦检测系统 DrowzEE-G-Mamba,它将脑电图 (EEG) 与状态空间模型 (SSM) 相结合。脑电图数据以其对警觉性的敏感性而闻名,用于模拟驾驶员在警觉和困倦之间的状态转换。与传统方法相比,DrowzEE-G-Mamba 显着提高了检测率并减少了误报。值得注意的是,它在 SEED-VIG 数据集上达到了 83.24% 的峰值准确率,超越了现有技术。该系统在不同的复杂性下都保持高精度,使其适合资源有限的实时应用程序。这种鲁棒性归因于架构内通道分割、通道串联和通道洗牌操作的组合,优化了脑电图数据的信息流。此外,卷积层和 SSM 的集成有助于全面分析,捕获 EEG 信号中的局部特征和远程依赖性。这些发现表明 DrowzEE-G-Mamba 通过准确的睡意检测来增强道路安全的潜力。它还为在脑机接口应用中开发强大的基于 SSM 的人工智能算法铺平了道路。
数据公式 2:利用 AI 迭代创建丰富的可视化
分类: 人机交互, 人工智能
作者: Chenglong Wang, Bongshin Lee, Steven Drucker, Dan Marshall, Jianfeng Gao
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.16119v1
摘要: 为了创建丰富的可视化效果,数据分析师通常需要在数据处理和图表规范之间来回迭代以实现他们的目标。为了实现这一目标,分析师不仅需要精通数据转换和可视化工具,还需要努力管理由许多不同版本的数据和图表组成的分支历史。最近由大语言模型支持的人工智能系统极大地改善了可视化创作体验,例如通过大语言模型的代码生成能力减轻手动数据转换障碍。然而,这些系统不适用于迭代可视化创作,因为它们通常要求分析师一次性提供纯文本提示,以完整描述要执行的复杂可视化任务,这对于用户和模型来说都是不现实的在很多情况下。在本文中,我们提出了 Data Formulator 2,这是一个由大语言模型支持的可视化系统,可以解决这些挑战。借助 Data Formulator 2,用户可以使用混合 UI 和自然语言输入来描述其可视化意图,并将数据转换委托给 AI。为了支持迭代,Data Formulator 2 允许用户导航其迭代历史记录并重用以前的设计来设计新的设计,这样他们就不需要每次都从头开始。在一项有 8 名参与者参与的用户研究中,我们观察到 Data Formulator 2 允许参与者开发自己的迭代策略来完成具有挑战性的数据探索课程。
禁忌知识文物的生命史
分类: 计算机与社会, 人机交互
作者: Kaylea Champion, Benjamin Mako Hill
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.16099v1
摘要: 谈论一些重要话题——比如性和健康——被视为禁忌并受到审查。我们如何构建有关这些主题的知识?维基百科拥有大量关于性器官和人类生殖等禁忌话题的高质量知识文献。这些文物是如何产生的?他们的存在是如何维持的?这个混合方法比较项目建立在维基百科之前有关禁忌主题的工作的基础上,并借鉴了定性和定量方法。我们遵循顺序互补的设计,对禁忌文章的生活进行叙述性阐述,将它们与非禁忌文章进行比较,并检查它们的一些可量化特征。我们发现禁忌知识工件是通过多种成功的协作方式发展起来的,毫不奇怪,禁忌主题是冲突的场所。我们确定并描述了禁忌知识制品发展的六个主题。这些工件需要有弹性的领导和敬业的组织才能在有限的可识别性和脱节的意义建构的条件下蓬勃发展,而贡献者同时参与紧急治理和想象公众受众。我们的观察对于支持有关禁忌等有争议主题的公共知识工作具有重要意义。
取得适当的平衡:系统评估不同贡献类型的评估方法分布
分类: 人机交互
作者: Feng Lin, Arran Zeyu Wang, Md Dilshadur Rahman, Danielle Albers Szafir, Ghulam Jilani Quadri
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.16080v1
摘要: 在快速发展的信息可视化领域,严格的评估对于验证新技术、理解用户交互以及展示可视化的有效性和可用性至关重要。忠实的评估为用户如何与系统交互和感知系统提供了宝贵的见解,使设计人员能够识别潜在的弱点并就设计选择和改进做出明智的决策。然而,单一研究中多重评估的新兴趋势引发了关于这种方法的可持续性、可行性和方法严谨性的关键问题。受这一趋势影响的新研究人员和学生可能会认为——无论贡献类型如何,一项研究都需要进行多次评估。然而,一项研究中评价的数量应该取决于其贡献和优点,而不是为了加强一篇论文而进行多次评价的趋势。那么,多少次评价才足够呢?这是一个情境问题,不能用公式来确定。我们的目标是总结当前的趋势和模式,以评估不同论文贡献类型的评估方法的分布。在本文中,我们通过对 2023 年和 2024 年 IEEE TVCG 最近两年的 VIS 问题的 214 篇论文的评估模式进行非详尽的文献调查来识别这一趋势。然后我们讨论了信息可视化领域的各种评估策略模式指导实际选择以及本文将如何为进一步讨论开辟途径。
塑造它:一种基于经验的形状调色板设计方法
分类: 人机交互
作者: Chin Tseng, Arran Zeyu Wang, Ghulam Jilani Quadri, Danielle Albers Szafir
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.16079v1
摘要: 形状通常用于区分多类散点图中的类别。然而,现有的选择有效形状调色板的指南很大程度上依赖于直觉,并且没有考虑这些需求如何随着类别数量的增加而变化。尽管与颜色相比,形状的数量是有限的,但它们不能用数字空间表示,因此很难提出形状选择的一般指南或阐明设计师制作的形状调色板的设计启发法。本文提出了一系列四个实验,评估了 39 种形状在三个任务(相对平均判断任务、专家选择和数据相关性估计)中的效率。考虑到结果的复杂性和复杂性,我们没有依赖传统的特征进行建模,而是构建了一个模型并引入了相应的设计工具,为形状编码提供建议。形状的感知有效性在特定对之间存在显着差异,并且某些形状可以提高感知效率和准确性。然而,性能的变化并不能很好地映射到经典的形状特征,例如角度、填充或凸包。我们基于实验中测量的形状与为给定设计智能推荐形状调色板所需的形状数量之间的成对关系开发了一个模型。该工具为设计师提供了形状选择的代理权,同时结合了我们研究中捕获的感知性能的经验元素。我们的模型增进了对可视化环境中形状感知的理解,并为可视化设计中的高级形状使用提供了实用的设计指南,以优化感知效率。
超越相关性:结合反事实指导以更好地支持探索性视觉分析
分类: 人机交互
作者: Arran Zeyu Wang, David Borland, David Gotz
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.16078v1
摘要: 长期以来,为用户提供有效的指导一直是高效探索性可视化分析的一项重要且具有挑战性的任务,特别是在选择高维数据集中的可视化变量时。相关性是统计和分析工具中应用最广泛的指导指标,但是,对相关性的依赖可能会导致用户在解释数据中的因果关系时出现误报。在这项工作中,受到先前关于反事实可视化在支持视觉因果推理方面的好处的见解的启发,我们提出了一种新颖、简单且高效的反事实指导方法,以基于从专家访谈中收集的见解和关注点来增强引导探索性分析中的因果推理性能。我们的技术旨在利用反事实方法的好处,同时降低用户的复杂性。我们将反事实指导集成到探索性视觉分析系统中,并使用综合生成的真实因果数据集,进行了比较用户研究,并评估了反事实指导在多大程度上可以帮助引导用户进行更精确的视觉因果推理。结果表明,与基于相关性的指导相比,反事实指导提高了视觉因果推理性能,并且还导致了不同的探索行为。基于这些发现,我们提出了结合反事实指导以更好地支持探索性视觉分析的未来方向和挑战。
可视化数据中的因果先验及其对因果关系判断的影响
分类: 人机交互
作者: Arran Zeyu Wang, David Borland, Tabitha C. Peck, Wenyuan Wang, David Gotz
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.16077v1
摘要: “相关性并不意味着因果关系”是统计和视觉分析中的一句著名格言。然而,当仅显示变量之间的相关性时,可视化的消费者通常会得出因果结论。在本文中,我们研究了影响用户在可视化中感知的因果关系的因素。我们从广泛使用的数据集中的变量收集了概念对语料库,并使用三种典型的统计图表类型创建了描绘不同相关关联的可视化效果。我们对每个概念对进行了两项 MTurk 研究:(1) 关于没有图表的因果关系的先入为主的观念,以及 (2) 与图表的感知因果关系。我们的结果表明,即使没有看到任何可视化数据,人们也会对概念对之间的因果关系做出假设。此外,我们的结果表明,这些假设构成了因果先验,与可视化关联相结合,影响了数据可视化的解释方式。结果还表明,因果先验可能会导致在不同情况下对感知因果关系的高估或低估,并且这些先验还会影响用户对其因果评估的信心。此外,我们的结果与之前的工作一致,表明图表类型也可能影响因果推理。使用研究数据,我们开发了一个模型来捕获因果先验和可视化关联之间的相互作用,因为它们结合起来影响用户感知的因果关系。除了报告研究结果和分析之外,我们还提供了 56 个特定概念对的因果先验开放数据集,可以作为未来研究的潜在基准。我们还建议剩余的挑战和基于启发式的指南,以帮助设计人员改进可视化设计选择,以更好地支持视觉因果推理。
我们的故事,我们的数据:与智力和发育障碍人士共同设计可视化
分类: 人机交互
作者: Keke Wu, Ghulam Jilani Quadri, Arran Zeyu Wang, David Kwame Osei-Tutu, Emma Petersen, Varsha Koushik, Danielle Albers Szafir
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.16072v1
摘要: 智力和发育障碍 (IDD) 人士在处理数据时有独特的需求和挑战。虽然可视化旨在让广大受众更容易访问数据,但我们对如何设计可认知访问的可视化的理解仍然有限。在这项研究中,我们聘请了 20 名 IDD 参与者作为联合设计师,探讨他们如何处理和可视化数据。我们的初步调查将四名参与者配对作为数据笔友,参加为期六周的在线异步参与式设计研讨会。为了回应观察到的数据概念、技术和情感斗争,我们随后组织了一次为期两天的面对面协同设计研讨会,共有 16 名参与者,以进一步了解相关的可视化创作和意义建构策略。反思参与者如何参与和表示数据,我们提出了两种认知可访问的数据可视化策略:将数字转化为叙述以及将数据设计与日常美学相融合。我们的研究结果强调了让 IDD 患者参与设计过程的重要性,展示他们的数据分析和表达能力,并强调需要一种叙述性和切实的方法来实现可访问的数据可视化。
探索人工智能在培养学习者同理心、亲社会价值观和环境管理方面的潜力
分类: 人机交互
作者: Kenneth Y T Lim, Minh Anh Nguyen Duc, Minh Tuan Nguyen Thien
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.15906v1
摘要: 随着人工智能 (AI) 成为强大的教育工具(Zawacki-Richter 等,2019),本章介绍了将生成人工智能和传统人工智能、公民科学生理学、神经人体工学可穿戴设备和环境传感器结合到活动中的概念,以便学习者能够更好地了解自己的福祉和情绪状态,以培养同理心和环境管理能力。除了定制且经济实惠的可穿戴设备(DIY 脑电图耳机和生物识别腕带)之外,可解释的人工智能和数据科学也可帮助学习者在真实的环境中探索环境如何影响他们的生理和心理。例如,可以发现环境变化(例如空气质量较差)与他们的福祉(例如认知功能)之间的关系。这一点尤其重要,因为正如环境神经科学和环境心理学学科所表明的那样,相关知识可以影响人们对待环境的方式(Doell et al., 2023)。然而,根据 Palme 和 Salvati 的说法,关于小气候与人类健康和情绪之间关系的研究相对较少(Palme 和 Salvati,2021)。随着人为环境污染正在成为一个普遍问题,我们的研究还旨在利用生成式人工智能来引入假设的环境场景,作为与学习者相关的强烈情感刺激。这会激发他们的情绪反应,以了解自己的生理和神经反应(使用神经生理学数据)。最终,我们希望建立对环境如何影响人类生理和心理的双向理解;之后,深入了解如何利用人工智能来有效培养同理心、环保态度和管理能力。
有条件自动驾驶的接管请求时间预算定量模型
分类: 系统与控制, 计算机视觉和模式识别, 人机交互, 机器人技术, 系统与控制
作者: Foghor Tanshi, Dirk Söffker
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.15682v1
摘要: 在有条件自动化中,自动驾驶系统承担完全控制权,仅在危急情况下向人类驾驶员发出接管请求以恢复驾驶。之前的研究表明,司机在接到接管请求后恢复驾驶所需的时间预算会因情况和不同的接管变量而异。然而,尚未提供全面的通用方法来提前估计驾驶员接管所需的时间预算。在本论文中,使用平均横向位移等性能指标,研究了有或没有视觉图像辅助的固定(7 秒)和可变时间预算(6 秒、5 秒和 4 秒)在三种接管场景中的适用性。结果表明,根据两个研究场景的特点,7 秒适用于它们。利用所获得的结果和接管变量之间的已知关系,提出了用于估计接管请求时间预算的数学公式。所提出的公式综合了个人刺激响应时间、驾驶体验、场景特定要求,并提高了接管操作的安全性。此外,视觉图像导致接管时间增加,这必然会增加时间预算。因此,可视化信息(如适用)的时间需求(例如视觉图像)应包含在时间预算中。
白银领域的超级智能社会:设计伦理
分类: 人机交互
作者: Jaana Leikas, Rebekah Rousi, Hannu Vilpponen, Pertti Saariluoma
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.15618v2
摘要: 一个超级智能的人工智能社会应该建立在包容性的基础上,以便所有社会成员都能平等地受益于新技术在日常生活中提供的可能性。当前,数字社会让很多人不知所措,其中很大一部分是老年人,他们的生活质量因难以使用数字技术而在很多方面受到损害。然而,这一白银群体应作为数字服务的活跃用户继续参与,并为超级智能、人工智能社会的运作和发展做出贡献。该文件呼吁以行动为导向的设计思维,考虑提高生活质量的挑战,重点是道德设计和道德影响评估。
跨语言交流中警告错误聊天翻译的调查
分类: 计算和语言, 人工智能, 计算机与社会, 人机交互
作者: Yunmeng Li, Jun Suzuki, Makoto Morishita, Kaori Abe, Kentaro Inui
发布时间: 2024-08-28
链接: http://arxiv.org/abs/2408.15543v1
摘要: 聊天的复杂性给机器翻译模型带来了重大挑战。认识到需要一个精确的评估指标来解决聊天翻译问题,本研究引入了聊天翻译多维质量指标 (MQM-Chat)。通过使用 MQM-Chat 的五个模型的实验,我们观察到所有模型都产生了一定的基本错误,同时每个模型都有不同的缺点,例如遗漏、过度纠正模糊的源内容和流行语问题,导致风格化信息丢失。我们的研究结果强调了 MQM-Chat 在评估聊天翻译方面的有效性,强调了风格化内容和对话一致性对未来研究的重要性。
将大型语言模型作为治疗工具:比较改进 GPT 提供的问题解决疗法的提示技术
分类: 计算和语言, 人工智能, 新兴技术, 人机交互, 机器学习
作者: Daniil Filienko, Yinzhou Wang, Caroline El Jazmi, Serena Xie, Trevor Cohen, Martine De Cock, Weichao Yuwen
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2409.00112v1
摘要: 虽然大型语言模型 (LLM) 正在迅速适应包括医疗保健在内的许多领域,但它们的优势和缺陷仍未得到充分探索。在我们的研究中,我们检查了提示工程的效果,以指导大型语言模型(LLM)通过文本提供问题解决疗法(PST)会话的部分内容,特别是在个性化目标设定的症状识别和评估阶段。我们通过自动指标和经验丰富的医疗专业人员提供模型性能的评估结果。我们证明,通过正确使用即时工程方法可以提高模型提供协议治疗的能力,尽管存在局限性。据我们所知,这项研究是第一个评估各种提示技术在增强通才模型提供心理治疗的能力方面的效果的研究之一,重点关注整体质量、一致性和同理心。鉴于目前心理健康专业人员短缺且需求巨大,探索大语言模型在提供心理治疗方面的潜力有望提高基于人工智能和人工智能增强的护理服务的潜在效用。
NeuroLM:弥合语言和脑电图信号之间差距的通用多任务基础模型
分类: 信号处理, 人机交互, 机器学习
作者: Wei-Bang Jiang, Yansen Wang, Bao-Liang Lu, Dongsheng Li
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2409.00101v1
摘要: 脑电图(EEG)等神经信号大规模预训练的最新进展已显示出可喜的结果,显着促进了脑机接口(BCIs)和医疗保健的发展。然而,这些预先训练的模型通常需要对每个下游任务进行全面微调才能实现实质性改进,限制了它们的多功能性和可用性,并导致相当大的资源浪费。为了应对这些挑战,我们提出了 NeuroLM,这是第一个多任务基础模型,它通过将脑电图信号视为外语,利用大语言模型(LLM)的功能,赋予模型多任务学习和推理能力。我们的方法首先通过矢量量化时频预测学习文本对齐的神经标记器,将脑电图信号编码为离散的神经标记。这些由冻结矢量量化 (VQ) 编码器生成的 EEG 标记随后被输入到 LLM,该 LLM 通过多通道自回归学习因果 EEG 信息。因此,NeuroLM 可以理解脑电图和语言模式。最后,多任务指令调整使 NeuroLM 适应各种下游任务。我们是第一个证明,通过与大语言模型的具体结合,NeuroLM 通过指令调整将不同的脑电图任务统一在一个模型中。最大的变体 NeuroLM-XL 具有破纪录的 1.7B 脑电图信号处理参数,并在包含约 25,000 小时脑电图数据的大规模语料库上进行了预训练。当对六个不同的下游数据集进行评估时,NeuroLM 展示了这种多任务学习范例的巨大潜力。
多少才算太多:探索口头路线描述长度对室内导航的影响
分类: 机器人技术, 人机交互
作者: Fathima Nourin N, Pradip Pramanick, Chayan Sarkar
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2408.15367v1
摘要: 在新的室内环境中穿行可能会带来压力。最近,很多地方都部署了机器人来协助游客。此类机器人的功能之一是护送访客到环境中所需的目的地,但这对于每个访客来说既不可扩展,也不是必需的。相反,可以将机器人助手部署在战略位置以提供寻路指令。这不仅提高了用户体验,而且在许多时间紧迫的场景中也很有帮助,例如护送某人到机场的登机口。然而,口头提供路线描述是一个挑战。如果描述过于冗长,人们可能很难回忆起所有信息,而过于简短的描述可能根本没有帮助。本文重点研究有效到达目的地且易于人们记忆的口头路线描述的最佳长度。这项工作提出了一个理论框架,将路线段链接到工作记忆中的块。基于该框架,设计并进行了实验来检验不同长度的路线描述对导航性能的影响。结果揭示了有趣的模式,表明四个路线段的理想长度。这项研究为未来探索室内环境中路线描述长度、工作记忆容量和导航性能之间关系的研究奠定了基础。
共情人工智能需要什么?这取决于情况,以及为什么这对人工智能开发人员和用户很重要
分类: 人工智能, 计算机与社会, 人机交互
作者: Jana Schaich Borg, Hannah Read
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2408.15354v1
摘要: 人们对人工同理心的兴趣与日俱增,但对人工同理心是什么或需要是什么的困惑也越来越多。这种混乱使得解决同理心人工智能开发所伴随的技术和道德问题变得具有挑战性。在这里,我们概述了一个思考同理心人工智能的框架,其前提是与同理心相关的不同能力对于不同的同理心人工智能应用程序都很重要。我们描述了我们认为属于同理心范围内的功能的区别,并展示了三个医疗同理心人工智能用例如何需要不同的这些功能集。最后,我们讨论了为什么欣赏同理心保护下的多样化能力对于人工智能创造者和用户都很重要。
不自信的 LLM 注释能否用于得出可信的结论?
分类: 计算和语言, 人工智能, 人机交互
作者: Kristina Gligorić, Tijana Zrnic, Cinoo Lee, Emmanuel J. Candès, Dan Jurafsky
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2408.15204v1
摘要: 大型语言模型 (LLM) 在各种任务中与人类评分者表现出高度一致,展示了缓解人类数据收集挑战的潜力。在计算社会科学 (CSS) 领域,研究人员越来越多地利用大语言模型注释来补充缓慢且昂贵的人工注释。尽管如此,在不影响下游结论有效性的情况下收集和使用大语言模型注释的指南仍然有限。我们引入了置信驱动推理:一种结合了大语言模型注释和大语言模型置信度指标的方法,可以战略性地选择应收集哪些人工注释,其目标是生成准确的统计估计和可证明有效的置信区间,同时减少所需的人工注释数量。我们的方法针对低质量的大语言模型注释提供了保障,保证结论既有效又不低于我们仅依赖人工注释的准确性。我们在三种 CSS 设置(文本礼貌、立场和偏见)的统计估计任务中证明了置信驱动推理相对于基线的有效性,将每种设置所需的人工注释数量减少了 25% 以上。尽管我们使用 CSS 设置进行演示,但置信驱动推理可用于估计各种 NLP 问题的大多数标准量。
Crossing Rays:沉浸式环境中双手空中选择技术的评估
分类: 人机交互
作者: DongHoon Kim, Dongyun Han, Siyeon Bak, Isaac Cho
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2408.15199v1
摘要: 空中导航提供了一种空中旅行方法,可以减轻与连续导航相关的限制。空中选择技术对于实现这种导航至关重要。在本文中,我们考虑了具有视觉辅助和支持功能的基于交叉点的双手空中选择技术的四种变体:Simple-Ray、Simple-Stripe、Precision-Stripe 和 Cursor-Sync。我们使用需要选择带有或不带有参考对象的空中位置的两项任务,与单手动空中选择技术相比,评估了它们的性能和用户体验。我们的研究结果表明,与单手技术相比,双手技术通常表现出更快的选择时间。凭借支撑功能,双手技术可以提供比单手技术更准确的选择。根据我们的结果,我们讨论了选择技术的视觉辅助和支持功能对空中选择的性能和用户体验的影响。
重新获得信任:透明用户界面设计对基于摄像头的车载健康监测系统接受度的影响
分类: 人机交互, H.5.2; K.6.5
作者: Hauke Sandhaus, Madiha Zahrah Choksi, Wendy Ju
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2408.15177v1
摘要: 引入车内健康监测系统为提高驾驶员安全提供了巨大潜力。然而,基于摄像头的传感技术带来了严重的隐私问题。本研究调查了透明用户界面设计对用户接受这些系统的影响。我们对 42 名参与者进行了一项在线研究,使用透明度、选择和欺骗程度各异的原型。原型包括三种入门设计:(1) 传统的条款和条件文本,(2) 巧妙地鼓励用户接受默认数据共享选项的业务助推设计,以及 (3) 提供清晰步骤的透明演练数据使用和隐私政策的逐步解释。我们的研究结果表明,透明设计会显着影响用户体验指标,包括感知的令人毛骨悚然、对数据使用的信任度以及内容的可信度。透明的入职流程增强了用户体验和信任,而不会显着增加入职时间。这些发现为设计用户友好且尊重隐私的车内健康监测系统提供了实用指导。
用于时间序列和模型归因解释的交互式密集像素可视化
分类: 人工智能, 人机交互, 机器学习
作者: Udo Schlegel, Daniel A. Keim
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2408.15073v1
摘要: 用于深度神经网络模型的可解释人工智能(XAI)领域已经取得了显着的发展,提供了多种从模型中提取解释的技术。然而,评估解释通常并非易事,并且应用指标的差异可能很微妙,尤其是对于难以理解的数据。因此,需要定制可视化来探索具有此类数据的领域的解释,例如时间序列。我们提出了 DAVOTS,这是一种交互式视觉分析方法,用于探索原始时间序列数据、神经网络的激活以及密集像素可视化中的归因,以深入了解数据、模型的决策和解释。为了进一步支持用户探索大型数据集,我们将聚类方法应用于可视化数据域,以突出显示组并为单个和组合数据探索提供排序策略,以促进查找模式。我们将在 FordA 数据集上训练的 CNN 可视化来演示该方法。
限制参与:大型语言模型接口中反馈功能的可供性
分类: 人机交互, 计算机与社会
作者: Ned Cooper, Alexandra Zafiroglu
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2408.15066v1
摘要: 现在,任何拥有计算机、网络浏览器和通过基于浏览器的界面连接互联网的人都可以访问大型语言模型 (LLM),从而改变了参与人工智能开发的动力。本文研究了 ChatGPT 界面中交互式反馈功能的可供性,分析了它们如何塑造用户输入和参与 LLM 迭代。根据对 ChatGPT 用户的调查并应用可供性的机制和条件框架,我们证明这些功能鼓励简单、频繁和以性能为中心的反馈,同时阻止用户之间的集体输入和讨论。我们认为,这种反馈格式极大地限制了用户的参与,加剧了用户、公众和开发大语言模型的公司之间的权力不平衡。我们的分析通过批判性地审视现有反馈流程的局限性并提出重新设计的方向,为越来越多的关于参与式人工智能的文献做出了贡献。为了让公众更有意义地参与人工智能开发,我们主张放弃专注于使模型输出与特定用户偏好保持一致的流程。相反,我们强调需要有一个流程来促进公司和不同“公众”之间关于大语言模型的目的和应用的对话。这种方法需要关注正在进行的基础设施工作——创建和维持必要的社会、技术和制度结构,以解决受人工智能开发和部署影响的群体所关心的问题。
用于多任务认知状态评估的跨主体大脑功能连接分析
分类: 人机交互, 人工智能
作者: Jun Chen, Anqi Chen, Bingkun Jiang, Mohammad S. Obaidat, Ni Li, Xinyu Zhang
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2408.15018v1
摘要: 认知是指信息感知和处理的功能,是人类的基本心理本质。它负责推理和决策,其评估对于航空领域降低潜在的安全风险具有重要意义。现有研究倾向于使用多种方法进行认知状态评估,但在时效性、概括性和可解释性方面存在局限性。因此,本研究采用大脑功能连接与脑电图信号来捕获多个受试者大脑区域的关联,以评估实时认知状态。具体来说,构建了基于虚拟现实的多屏嵌入式飞行平台。设计了三个独特的认知任务,每个任务都有三个难度级别。获取三十个受试者进行分析和评估。结果通过不同的角度进行解释,包括内部主体和跨主体的任务明智和性别明智的潜在大脑功能连接。此外,这项研究还结合了基于问卷、基于任务表现和基于生理测量的方法来公平地标记试验。进一步利用活跃的大脑连接进行多类认知状态评估。基准测试结果表明,所识别的大脑区域对认知具有相当大的影响,多类别准确率高达 95.83%,超越现有研究。研究结果对于理解人脑功能区域、跨学科认知行为和决策之间的动态关系具有重要意义,具有良好的实际应用价值。
PaceMaker:一款用于调整视频游戏节奏的实用工具
分类: 人机交互
作者: Julian Geheeb, Daniel Dyrda, Sebastian Geheeb
发布时间: 2024-08-27
链接: http://arxiv.org/abs/2408.15001v1
摘要: 设计视频游戏的节奏面临着一系列独特的挑战。由于其交互性、非线性和叙事性,许多方面必须同时协调和考虑。此外,游戏通常是在迭代工作流程中开发的,这使得对先前设计的修改变得困难且耗时。在本文中,我们介绍了 PaceMaker,这是一个工具包,旨在实现通用的节奏设计工作流程,同时解决上述挑战。我们对节奏进行了初步研究,然后在独立于平台的应用程序中实现了我们的研究结果,该应用程序允许用户定义简单的状态图来处理游戏的可能性空间。用户可以选择有向图上的路径,以在专用于强度和游戏玩法类别的图表中可视化节点的数据。实施后,我们创建了该工具的演示并进行了定性访谈。虽然采访引起了人们对 PaceMaker 效率的一些担忧,但结果 https://info.arxiv.org/help/prep#comments 展示了该工具包的表现力并支持了对此类工具的需求。
毁灭的愿景:探索生成式人工智能在互动艺术中的潜力
分类: 人机交互, 人工智能, I.2; J.5
作者: Mar Canet Sola, Varvara Guljajeva
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14644v1
摘要: 本文采用基于实践的研究方法,探讨了生成式人工智能在互动艺术中的潜力。它将互动艺术作品“毁灭的愿景”作为详细的案例研究,强调其创新地使用生成式人工智能来创造动态的、观众响应式的体验。这件艺术品应用基于凝视的交互来动态改变数字景观,通过生成由人工智能创建的当代拼贴画来象征人类活动对环境的影响,并接受有关人类对自然破坏的数据的训练,并以观众互动为指导。通过观众的互动,原始自然场景转变为人造和工业化景观,这是对环境退化的鲜明提醒。该论文深入探讨了创建此类互动艺术装置所涉及的技术挑战和艺术创新,强调了生成式人工智能彻底改变艺术表达、观众参与的潜力,特别是互动艺术领域的机会。它提供了对艺术品背后概念框架的见解,旨在唤起人们对人类世时代和人类引起的气候变化的更深入的理解和反思。这项研究对创意人工智能和互动艺术领域做出了重大贡献,以引人注目、发人深省的方式融合了技术和环境意识。
人机交互游戏中适应率和成本显示的影响
分类: 人工智能, 计算机科学与博弈论, 人机交互
作者: Jason T. Isa, Bohan Wu, Qirui Wang, Yilin Zhang, Samuel A. Burden, Lillian J. Ratliff, Benjamin J. Chasnov
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14640v1
摘要: 随着人类与人工智能之间的互动变得越来越普遍,在这些互动中更好地预测人类行为至关重要。我们研究了人工智能自适应算法的变化如何影响两人连续游戏中的行为预测。在我们的实验中,人工智能在不同的适应率下使用梯度下降算法调整其行为,同时向人类参与者提供成本反馈。成本反馈由两种类型的视觉显示之一提供:(a)当前联合动作向量的成本,或(b)当前联合动作向量的局部邻域的成本。我们的结果表明,人工智能适应率可以显着影响人类行为,能够在两个博弈论均衡之间改变结果。我们观察到,缓慢的适应率会将结果转向纳什均衡,而快速的适应率会将结果转向人类主导的斯塔克尔伯格均衡。与仅当前联合行动向量的成本信息的结果相比,添加局部成本信息具有将结果转向纳什的效果。未来的工作将研究影响梯度下降游戏收敛的其他影响。
关系很复杂!网络数据集之间的关系分析
分类: 信息检索, 计算和语言, 人机交互, 机器学习
作者: Kate Lin, Tarfah Alrashed, Natasha Noy
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14636v1
摘要: 当今的网络拥有数百万个数据集,并且数据集的数量持续快速增长。这些数据集不是独立的实体;相反,它们通过复杂的关系错综复杂地联系在一起。数据集之间的语义关系为研究和决策过程提供了重要的见解。在本文中,我们从在网络上发现、使用和共享数据集的用户的角度研究数据集关系:哪些关系对于不同的任务很重要?用户可能想了解哪些上下文信息?我们首先提出了网络上数据集之间关系的全面分类,并将这些关系映射到数据集发现期间执行的用户任务。我们开发了一系列方法来识别这些关系,并比较它们在从带有 schema.org 标记的网页生成的大型数据集上的性能。我们证明,使用数据集元数据的基于机器学习的方法可实现 90% 的多类分类准确率。最后,我们强调数据集可用语义标记的差距,并讨论合并综合语义如何促进数据集关系的识别。通过对大规模数据集关系进行全面概述,本文为未来的研究树立了基准。
MODOC:用于灵活互连文本检索和文本生成功能的模块化接口
分类: 人机交互, 计算和语言, 数字图书馆, 信息检索
作者: Yingqiang Gao, Jhony Prada, Nianlong Gu, Jessica Lam, Richard H. R. Hahnloser
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14623v1
摘要: 大型语言模型 (LLM) 生成雄辩的文本,但它们生成的内容通常需要验证。传统的信息检索系统可以协助完成此任务,但大多数系统在设计时并未考虑到 LLM 生成的查询。因此,迫切需要在单个用户界面中提供检索和生成功能的集成系统。我们推出了 MODOC,这是一个模块化用户界面,它利用了大语言模型的能力,并提供检测其混淆的帮助,促进科学写作的完整性。 MODOC 代表了科学写作辅助方面向前迈出的重要一步。其模块化架构支持灵活的功能,用于在单个用户友好的界面中检索信息以及编写和生成文本。
如何建立对生成式人工智能针对具体和模糊的财务问题给出的答案的信任
分类: 人机交互, 人工智能
作者: Alex Zarifis, Xusen Cheng
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14593v1
摘要: 目的:生成式人工智能 (GenAI) 的能力不断进步,采用率呈爆炸式增长。然而,消费者对其使用的看法,特别是在财务建议等特定场景中,尚不清楚。这项研究开发了一个模型,说明如何在回答财务问题时建立对 GenAI 所提供建议的信任。设计/方法/途径:使用结构方程模型 (SEM) 和多组分析 (MGA) 使用调查数据对该模型进行测试。 MGA 比较了两种场景,一种是消费者提出具体问题,另一种是消费者提出模糊问题。研究结果:这项研究发现,当消费者提出具体的财务问题时,与提出模糊的问题相比,为消费者建立信任是不同的。人性在这两种情况下具有不同的效果。当财务问题具体时,人性化的互动不会增强信任,而(1)当问题模糊时,人性化可以建立信任。在这两种情况下建立信任的四种方法是(2)人工监督和参与循环,(3)透明度和控制,(4)准确性和有用性,最后(5)易用性和支持。原创性/价值:这项研究有助于更好地理解消费者在使用 GenAI 解决财务问题时的观点,并强调在特定利益相关者的特定背景下理解 GenAI 的重要性。
Wandercode:代码推荐器的交互设计,可减少信息过载、简化探索并节省屏幕空间
分类: 人机交互
作者: Austin Z. Henley, David Shepherd, Scott D. Fleming
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14589v1
摘要: 在本文中,我们提出了 Wandercode,这是一种新颖的推荐系统交互设计,可以推荐代码位置来帮助程序员完成软件开发任务。特别是,我们的设计旨在通过减少信息过载、更好地支持对建议的探索以及更有效地利用屏幕空间来改进先前的设计。在我们的设计过程中,我们开发了一组设计维度来帮助其他人设计代码推荐器。为了验证我们的设计,我们将设计原型实现为支持 Java 编程语言的 Atom 代码编辑器扩展,并进行了实证用户评估,将我们基于图形的 Wandercode 设计与代表先前基于列表的交互的控制设计进行了比较代码推荐器的设计。结果表明,与对照设计相比,Wandercode帮助参与者更快地完成任务,减轻了认知负担,并更受参与者的青睐。
用于路边警报的多方面感官替代:针对失明和低视力人士的试点调查
分类: 人机交互
作者: Ligao Ruan, Giles Hamilton-Fletcher, Mahya Beheshti, Todd E Hudson, Maurizio Porfiri, JR Rizzo
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14578v2
摘要: 路缘——与街道交汇处的凸起人行道的边缘——在城市环境中至关重要,它们有助于划定安全的行人区域,远离危险的车道。然而,路缘石本身就是严重的导航危险,特别是对于盲人或视力低下的人 (pBLV)。 pBLV 在检测这些突然的海拔变化并正确定位自身方面面临的挑战可能会导致跌倒和严重伤害。尽管辅助技术最近取得了进步,但限制的检测和早期预警仍然是一个基本上尚未解决的挑战。本文旨在通过引入一种基于智能可穿戴设备的新颖的、多方面的感官替代方法来解决这一差距;该平台利用 RGB 摄像头和嵌入式系统来实时捕获和分割路缘石,并提供预警和方向信息。该系统利用 YOLO(You Only Look Once)v8 分割模型,在我们的自定义路缘数据集上进行训练以用于相机输入。系统的输出包括自适应蜂鸣声、抽象发声和语音,传达有关路缘相对距离和方向的信息。通过人体实验,我们证明了该系统与白手杖相比的有效性。结果表明,我们的系统可以通过比手杖更大的安全窗口提供提前警告,同时提供几乎相同的路缘方向信息。
WIP:确定跨学科学习环境的教程可供性
分类: 计算机与社会, 人机交互, D.2.2; J.3; K.3.2
作者: Hannah Kim, Sergei L. Kosakovsky Pond, Stephen MacNeil
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14576v1
摘要: 这篇正在进行的研究论文探讨了教程在跨学科学习环境中的有效性,特别关注生物信息学。教程通常是为单一受众设计的,但我们的研究旨在揭示它们在学习者具有不同背景的环境中如何发挥作用。随着跨学科学习的兴起,满足不同学习者需求的学习材料的重要性变得显而易见。我们选择生物信息学作为我们的背景,因为它至少涉及两个不同的用户组:具有计算背景的用户组和具有生物学背景的用户组。我们研究的目标是更好地理解当前的生物信息学软件教程设计,并在跨学科的概念框架中对其进行评估。我们对 22 个具有代表性的生物信息学软件教程进行了内容分析,以确定设计模式并了解它们的优点和局限性。我们在代表性教程中找到了通用代码,并将它们合成为十个主题。我们的评估显示了当前生物信息学软件教程实现跨学科性的程度。
帮助人类进行金融欺诈决策:迈向 XAI 可视化框架
分类: 机器学习, 计算机与社会, 人机交互
作者: Angelos Chatzimparmpas, Evanthia Dimara
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14552v1
摘要: 人工智能在金融欺诈检测和决策中盛行。然而,由于担心自动决策或分析存在偏见,法规强制要求最终决策由人类做出。金融欺诈调查人员面临手动合成大量非结构化信息的挑战,包括人工智能警报、交易历史、社交媒体洞察和政府法律。当前的视觉分析(VA)系统主要支持该过程的孤立方面,例如解释二进制人工智能警报和可视化交易模式,从而为整体复杂性增加了另一层信息。在这项工作中,我们提出了一个框架,其中 VA 系统在金融欺诈调查的各个阶段为决策者提供支持,包括数据收集、信息合成和人工标准迭代。我们说明了 VA 如何在人工智能辅助决策中发挥核心作用,确保人类判断保持控制,同时最大限度地减少潜在偏见和劳动密集型任务。
基于触觉的高阶感觉替代,专为失明和低视力患者的物体协商而设计:虚拟胡须
分类: 人机交互
作者: Junchi Feng, Giles Hamilton-Fletcher, Todd E Hudson, Mahya Beheshti, Maurizio Porfiri, John-Ross Rizzo
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14550v1
摘要: 失明和低视力患者 (pBLV) 在导航方面面临挑战。行动辅助工具对于增强独立性和安全性至关重要。本文提出了一种电子旅行辅助工具,它利用基于触觉的高阶感觉替代方法(称为 Virtual Whiskers),旨在帮助 pBLV 有效、高效且安全地越过障碍。 Virtual Whiskers 配备了多个独立运行的模块化振动单元,为用户提供触觉反馈。 Virtual Whiskers 具有两种导航模式:开放路径模式和深度模式,每种模式从不同的角度解决障碍物协商问题。开放路径模式检测并描绘分析视野内的可穿越区域。然后,它引导用户进行可移动方向自适应振动反馈。深度模式通过触觉反馈突出显示具有突出障碍物的空间区域,从而帮助用户越过障碍物。我们招募了 10 名失明或弱视的参与者来参与 Virtual Whiskers 的用户测试。结果表明,该设备显着减少了空闲时间并减少了手杖接触的次数。 Virtual Whiskers 是一种很有前景的障碍谈判策略,显示出协助 pBLV 导航的巨大潜力。
K-Sort Arena:通过 K-wise 人类偏好对生成模型进行高效可靠的基准测试
分类: 人工智能, 计算机视觉和模式识别, 人机交互
作者: Zhikai Li, Xuewen Liu, Dongrong Fu, Jianquan Li, Qingyi Gu, Kurt Keutzer, Zhen Dong
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14468v1
摘要: 视觉生成模型的快速发展需要高效可靠的评估方法。 Arena平台收集用户对模型比较的投票,可以根据人类偏好对模型进行排名。然而,传统的 Arena 方法虽然已建立,但需要进行过多的比较才能进行排名收敛,并且容易受到投票中偏好噪声的影响,这表明需要针对当代评估挑战的更好方法。在本文中,我们介绍了 K-Sort Arena,这是一个高效可靠的平台,基于一个关键见解:图像和视频比文本具有更高的感知直观性,能够同时快速评估多个样本。因此,K-Sort Arena 采用 K-wise 比较,允许 K 个模型进行自由竞争,这比成对比较产生更丰富的信息。为了增强系统的鲁棒性,我们利用概率建模和贝叶斯更新技术。我们提出了一种基于探索-利用的匹配策略,以促进更丰富的信息比较。在我们的实验中,K-Sort Arena 的收敛速度比广泛使用的 ELO 算法快 16.3 倍。为了进一步验证优势并获得全面的排行榜,我们通过对众多尖端文本到图像和文本到视频模型的众包评估来收集人类反馈。得益于其高效率,K-Sort Arena 可以不断融入新兴模型,并以最少的票数更新排行榜。我们的项目已经经历了几个月的内部测试,现已在 https://huggingface.co/spaces/ksort/K-Sort-Arena 上提供
研究有说服力的社交辅助机器人行为策略以持续参与长期护理
分类: 人机交互
作者: Cristina Getson, Goldie Nejat
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14322v1
摘要: 社交辅助机器人越来越多地用于支持提供护理的人(医疗保健专业人员)和需要护理的人(老年人)的社交、认知和身体健康。然而,说服性社交辅助机器人行为的有效性及其对老年人持续动机的影响仍不清楚。本扩展摘要描述了我们之前的人机交互研究,该研究旨在调查说服性社交机器人行为与护理人员的有效性,随后我们当前的研究评估了这些说服性机器人行为对长期护理中老年人的福祉的影响。研究结果提供了有关老年人在提供援助时的参与度和持续动机的见解。
协作 XRTactics:户外团队运动中战术沟通的形成性研究
分类: 人机交互
作者: Ut Gong, Qihan Zhang, Ziqing Yin, Stefanie Zollmann
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14305v1
摘要: 在团队运动中,有效的战术沟通对于成功至关重要,尤其是在户外运动的快节奏和复杂环境中。本文研究了向玩家传输战略计划时面临的挑战,并探索使用扩展现实 (XR) 技术的潜在解决方案。我们进行了一项形成性研究,采访了 4 名一级联赛职业足球教练、4 名职业球员、2 名大学俱乐部教练和 2 名大学俱乐部球员,并对 17 名一级联赛球员进行了调查。该研究确定了战术通信工具的关键要求,包括快速通信的需要、对游戏流程的最小干扰、减少认知负荷、为所有玩家提供清晰的可视化以及增强听觉清晰度。基于这些见解,我们提出了一个潜在的解决方案——移动增强现实(AR)系统,旨在通过提供实时、直观的战术可视化和通信来应对这些挑战。该系统旨在改善战略规划和执行,从而提高团队绩效和凝聚力。这项工作代表了将 XR 技术整合到运动教练中的重要一步,为实时战术通信提供了现代且实用的解决方案。
“嗨。我是莫莉,您的虚拟面试官!” -- 探索种族和性别对人工智能驱动的虚拟面试体验的影响
分类: 人机交互
作者: Shreyan Biswas, Ji-Youn Jung, Abhishek Unnam, Kuldeep Yadav, Shreyansh Gupta, Ujwal Gadiraju
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14159v1
摘要: 招聘过程中持续存在的人为偏见问题对实现公平的招聘做法构成了巨大的挑战,特别是在受到面试官和候选人的性别和种族等人口统计特征的影响时。由人工智能 (AI) 提供支持的异步视频面试 (AVI) 已成为创新工具,旨在简化申请筛选流程,同时有可能减轻此类偏见的影响。这些人工智能驱动的平台提供了定制虚拟面试官的人口统计特征的机会,以适应不同的申请人偏好,从而实现更加客观和公平的评估。尽管越来越多地采用,但虚拟面试官身份对 AVI 中候选人体验的影响仍未得到充分研究。我们的目的是在本文中解决这一研究和实证空白。为此,我们开展了一项全面的受试者间研究,涉及 6 种不同实验条件下的 218 名参与者,操纵人工智能虚拟面试官的性别和肤色。我们的实证分析表明,虽然代理的人口统计特征并没有显着影响受访者的整体体验,但受访者人口统计的变化显着改变了他们对 AVI 流程的看法。此外,我们发现虚拟面试官的社会存在和感知的中介作用严重影响受访者对公平(+)、隐私(-)和印象管理(+)的看法。
协作建模工具的感知可用性
分类: 人机交互, 软件工程
作者: Ranci Ren, John W. Castro, Santiago R. Acuña, Oscar Dieste, Silvia T. Acuña
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.14088v1
摘要: 背景:在线协作创建模型正在变得司空见惯。使用聊天机器人和自然语言的协作建模可以降低来自不同领域的用户建模的障碍。目标:我们比较了两种类似的在线协作建模工具 SOCIO 聊天机器人和 Creately 基于网络的工具的感知可用性。方法:我们对 66 名参与者进行了交叉实验。评估工具基于系统可用性量表(SUS)。我们采用推论统计和主题分析进行了定量和定性探索。结果:结果表明,支持自然语言交流的聊天机器人可以提高沟通和协作效率并改善用户体验。结论:聊天机器人需要改进对新手的指导和帮助,但它们似乎有利于增强用户体验。
说出你的理由:现场提取上下文规则以进行上下文感知服务推荐
分类: 人机交互
作者: Yuxuan Li, Jiahui Li, Lihang Pan, Chun Yu, Yuanchun Shi
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.13977v1
摘要: 本文介绍了 SayRea,这是一个交互式系统,有助于提取上下文规则,以在移动场景中进行个性化上下文感知服务推荐。该系统监控用户在智能手机上注册服务的执行情况(通过无障碍服务),并主动向用户请求单句原因。通过利用大型语言模型 (LLM),SayRea 解析原因并预测观察到的服务与潜在上下文之间的上下文关系(例如在深夜设置闹钟)。这样,SayRea 可以显着减轻用户预测未来需求和选择上下文属性的认知负担。一项涉及 20 名参与者的为期 10 天的实地研究表明,SayRea 平均每个用户积累了 62.4 条规则,并成功推荐了 45% 的服务使用情况。参与者对系统的可用性、可解释性和可控性提供了积极的反馈。研究结果凸显了 SayRea 在个性化服务推荐方面的有效性及其在移动场景中增强用户体验的潜力。
公民对话空间中声音的匿名化:衡量对同理心、信任和被倾听的感觉的影响
分类: 人机交互
作者: Wonjune Kang, Margaret A. Hughes, Deb Roy
发布时间: 2024-08-26
链接: http://arxiv.org/abs/2408.13970v1
摘要: 匿名是许多参与性媒体平台的强大组成部分,可以为人们提供更大的表达自由并免受外部胁迫和干扰。然而,由于人声中存在不同的生物标记,在利用口语的平台上有效实施可能很困难。在这项工作中,我们探索了在美国技术增强的公民对话网络背景下使用语音匿名方法,其目的是增加公民进程中的代理感和被倾听的感觉。具体来说,我们研究了使用两种不同的语音转换和合成方法进行匿名化:语音转换(VC)和文本转语音(TTS)。通过一系列两项研究,我们研究了每种方法对 1) 听众对分享个人故事的人的同理心和信任的影响,以及 2) 演讲者自己对被倾听的看法,发现语音转换是一种特别适合我们目的的方法。我们的研究结果开辟了与匿名口头话语相关的有趣的潜在研究方向,以及参与基于语音的公民技术的其他方式。
使用 GIM 的游戏设计原型:通过讲故事促进神经多样化的联系
分类: 人机交互, 68U35, K.3.1; H.5.2; K.4.2
作者: Yiqi Xiao
发布时间: 2024-08-25
链接: http://arxiv.org/abs/2408.13962v1
摘要: 这个正在进行的实验项目研究了生成图像模型(GIM)在制作图画书创作游戏中的用途,该游戏旨在在神经肯定的环境中培养自闭症儿童与其神经正常同龄人之间的社会联系。该项目摆脱了通常试图让神经分歧的儿童以规定的方式进行社交的传统方法,致力于培养一个空间,让孩子们可以通过艺术和讲故事自然而富有创意地相互交流,而无需遵守标准社会规范的压力。除了“故事选择”之外,该研究还强调了 GIM 促进“故事创造”的潜力,即在创造性和结构化的协作学习体验中培养同伴社交联系。
神经网络遇见神经活动:利用脑电图进行脑力工作量估计
分类: 人机交互
作者: Gourav Siddhad, Partha Pratim Roy, Byung-Gyu Kim
发布时间: 2024-08-25
链接: http://arxiv.org/abs/2408.13930v1
摘要: 脑电图 (EEG) 提供非侵入性实时脑力负荷评估,这对于航空和医学等高风险领域以及先进的脑机接口 (BCI) 技术至关重要。本研究引入了定制的 ConvNeXt 架构,这是一种强大的卷积神经网络,专门适用于脑电图分析。 ConvNeXt 解决了传统脑电图挑战,如高维度、噪声和变异性,提高了脑力负荷分类的精度。使用 STEW 数据集,所提出的 ConvNeXt 模型与 SVM、EEGNet 和 TSception 一起在二元(No vs SIMKAP 任务)和三元(SIMKAP 多任务)类心理工作量任务上进行评估。结果表明,ConvNeXt 显着优于其他模型,二元分类准确率达到 95.76%,多类分类准确率达到 95.11%。这证明了 ConvNeXt 在脑电图数据分析方面的弹性和效率,为脑力负荷评估建立了新标准。这些发现代表了基于脑电图的心理负荷估计的相当大的进步,为未来认知状态测量的改进奠定了基础。这对各种场景的安全性、效率和用户体验具有广泛的影响。集成 ConvNeXt 等强大的神经网络是非侵入性认知监测向前迈出的关键一步。
驾驶时保持清醒:通过基于脑电图的疲劳检测增强汽车安全
分类: 人机交互
作者: Gourav Siddhad, Sayantan Dey, Partha Pratim Roy, Masakazu Iwamura
发布时间: 2024-08-25
链接: http://arxiv.org/abs/2408.13929v1
摘要: 驾驶员疲劳检测越来越被认为对于增强道路安全至关重要。本研究介绍了一种使用 SEED-VIG 数据集检测驾驶员疲劳的方法,SEED-VIG 数据集是基于 EEG 的警觉性分析的成熟基准。通过采用先进的模式识别技术,包括机器学习和深度神经网络,对脑电图信号进行仔细分析,以识别表明疲劳的模式。该方法将特征提取与分类框架相结合,以提高疲劳检测的准确性。所提出的 NLMDA-Net 通过结合两个专为 EEG 信号设计的新颖注意模块(通道和深度注意模块),在检测 EEG 信号疲劳方面达到了 83.71% 的令人印象深刻的准确度。 NLMDA-Net有效地整合了多个维度的特征,从而提高了分类性能。这一成功源于整合时间卷积和注意力机制,可以有效地解释脑电图数据。深度学习分类器旨在捕获脑电图信号的时间和空间特征,已被证明优于传统方法。这项研究的结果表明,与现有模型相比,检测率有了显着提高,凸显了所提出的方法在实际应用中的有效性。这项研究的影响是深远的,超越了学术领域,为更复杂的驾驶员辅助系统的开发提供了信息。将这种疲劳检测算法纳入这些系统可以显着减少道路上与疲劳相关的事故,从而营造更安全的驾驶条件。本文对数据集、采用的方法、获得的结果以及研究结果在现实世界中的潜在应用进行了详尽的分析,旨在为汽车安全的进步做出重大贡献。
虚拟环境中自运动和房间熟悉度对声源定位的影响
分类: 声音, 人机交互, 音频和语音处理
作者: Niklas Isserstedt, Stephan D. Ewert, Virginia Flanagin, Steven van de Par
发布时间: 2024-08-25
链接: http://arxiv.org/abs/2408.13904v1
摘要: 本文研究了信号呈现期间参与者的横向水平自运动对矩形房间中正面声源的距离和方位角感知的影响。此外,还分析了使用基线室内声学进行熟悉的嵌入在一系列演示中的单个声音演示的偏离室内声学的影响。为此,我们使用视听虚拟现实技术进行了两项实验,该技术具有动态头部跟踪和耳机实时听觉,并结合使用头戴式显示器对房间进行视觉渲染。结果显示,当参与者在信号呈现期间横向移动而不是停留在固定位置(仅允许头部移动)时,距离感知准确性会提高。对室内声学的适应也提高了距离感知的准确性。方位角感知似乎与信号呈现期间的横向运动无关,甚至可能受到所用房间声学熟悉程度的负面影响。
进展:后人工智能宣言
分类: 计算机与社会, 人机交互
作者: Christoforus Yoga Haryanto
发布时间: 2024-08-25
链接: http://arxiv.org/abs/2408.13775v1
摘要: 该宣言概述了后人工智能时代进步的关键原则,强调非线性但累积的进步、对目的和背景的深刻理解、多利益相关者协作以及系统级实验。它将进步重新定义为实质性、持久和可复制的进步,强调了平衡技术创新与以人为本的价值观的重要性。它承认人工智能有加速跨行业进步的潜力,同时也认识到其局限性,例如造成理解错觉和可能缩小问题解决方法的范围。报告的结论是,人工智能时代的真正进步需要人工智能能力和人类聪明才智的共生,呼吁采取整体、跨学科的方法来塑造服务全人类的未来。
文学和口语泰米尔方言识别
分类: 音频和语音处理, 计算和语言, 人机交互, 机器学习, 声音
作者: M. Nanmalar, P. Vijayalakshmi, T. Nagarajan
发布时间: 2024-08-25
链接: http://arxiv.org/abs/2408.13739v1
摘要: 文化和语言共同发展。古老的泰米尔语文学形式通常用于写作,而当代泰米尔语口语则用于口语。人机交互应用程序需要泰米尔语口语 (CT),以便日常用户更容易理解和轻松使用;当需要正式书面格式的信息时,则需要泰米尔语文学 (LT)。在计算机辅助语言学习应用程序中继续将 LT 与 CT 一起使用将既保留 LT,又同时通过 CT 提供易用性。因此,需要进行LT和CT方言之间的转换,这需要第一步进行方言识别。 LT 和 CT 的方言识别 (DID) 是一个尚未探索的研究领域。在当前的工作中,考虑到这两种方言的细微差别,探索了五种方法,其中包括两种隐式方法——高斯混合模型(GMM)和卷积神经网络(CNN);两种显式方法 - 并行电话识别 (PPR) 和并行大词汇连续语音识别 (P-LVCSR);提议的显式统一电话识别方法的两个版本(UPR-1 和 UPR-2)。这些方法因以下因素而异:对注释数据的需求、单元的大小、进行建模的方式以及做出最终决策的方式。尽管测试话语的平均持续时间较短(LT 为 4.9 秒,CT 为 2.5 秒),但系统表现良好,提供以下识别精度:87.72% (GMM)、93.97% (CNN)、89.24% (PPR) 、94.21% (P-LVCSR)、88.57% (UPR-1)、93.53% (UPR-1 与 P-LVCSR)、94.55% (UPR-2) 和 95.61% (UPR-2 与 P-LVCSR)。
使用个性化学习计算模型评估替代培训干预措施
分类: 人工智能, 计算机与社会, 人机交互
作者: Christopher James MacLellan, Kimberly Stowers, Lisa Brady
发布时间: 2024-08-24
链接: http://arxiv.org/abs/2408.13684v1
摘要: 评估不同的培训干预措施以确定哪种培训干预措施能产生最佳的学习成果是教学设计师面临的主要挑战之一。通常,这些设计者使用 A/B 实验来评估每个干预措施;然而,进行此类研究既昂贵又耗时。为了解决这个问题,我们探索学习的计算模型如何支持设计者在分数导师中对替代干预措施进行因果推理。我们提出了一种针对特定个体自动调整模型的方法,并表明个性化模型比通用模型能够更好地预测学生的行为。接下来,我们进行模拟,以在不同版本的分数导师中为两名学生(表现高和低)生成表现和学习的反事实预测。我们的方法做出的预测与之前的人类发现相一致,以及可通过未来的人类实验进行评估的可测试预测。
使用 WebXR 和 A-Frame 的开放、跨平台、基于 Web 的 Metaverse
分类: 计算机视觉和模式识别, 新兴技术, 人机交互, 多媒体
作者: Giuseppe Macario
发布时间: 2024-08-24
链接: http://arxiv.org/abs/2408.13520v1
摘要: 元宇宙在过去几年中受到了文献和工业界的广泛关注,但由于缺乏开放和跨平台的架构,导致许多不同的元宇宙无法相互通信。这项工作提出了一种基于 WebXR 的跨平台架构,用于使用 A-Frame 和 Networked-Aframe 框架开发空间 Web 应用程序,以实现开放且可互操作的元宇宙,可从网络和扩展现实设备访问。原型已实施并评估,支持技术堆栈的能力,以实现跨不同平台和设备的沉浸式体验。对沉浸式环境易用性的积极反馈进一步证实了所提出的方法,强调了其在促进参与和交互式虚拟空间方面的有效性。通过坚持互操作性和包容性原则,它实现了蒂姆·伯纳斯·李将万维网作为超越地理和技术界限的开放平台的愿景。
AngleSizer:通过交互式智能手机助手增强视障人士的空间感知
分类: 人机交互
作者: Xiaoqing Jing, Chun Yu, Kun Yue, Liangyou Lu, Nan Gao, Weinan Shi, Mingshan Zhang, Ruolin Wang, Yuanchun Shi
发布时间: 2024-08-24
链接: http://arxiv.org/abs/2408.13505v1
摘要: 空间感知,特别是中小尺度的空间感知,是人类的一种基本感觉,但对盲人和视障人士 (BVI) 提出了重大挑战。英属维尔京群岛个人的传统学习方法常常受到合适学习环境有限和相关成本高昂的限制。为了解决这些障碍,我们进行了全面的研究,深入了解英属维尔京群岛社区面临的现实挑战。我们发现了阻碍他们空间感知的几个关键因素,包括寻求帮助的高昂社会成本、低效的信息获取方法、认知和行为脱节以及缺乏实践探索的机会。因此,我们开发了 AngleSizer,这是一款利用智能手机技术的创新助教。 AngleSizer 旨在使 BVI 个人能够使用自然的交互手势来有效地尝试、感受、理解和学习尺寸和角度。该工具结合了双振动音频反馈、精心设计的教学流程和专门的学习模块,以增强学习体验。大量的用户实验验证了其在不同能力和视觉条件下的功效和适用性。最终,我们的研究不仅扩大了对英属维尔京群岛行为模式的理解,而且以一种既经济高效又允许独立学习的方式极大地提高了他们的空间感知能力。
vitaLITy 2:使用大型语言模型回顾学术文献
分类: 人机交互
作者: Hongye An, Arpit Narechania, Emily Wall, Kai Xu
发布时间: 2024-08-24
链接: http://arxiv.org/abs/2408.13450v1
摘要: 学术文献综述传统上依赖于关键字搜索和相关反向引用积累等技术,使用 Google Scholar 或 IEEEXplore 等数据库。然而,这些检索技术的精度和准确性都受到特定关键词是否存在的限制,使得文献综述类似于大海捞针。我们提出了 vitaLITy 2,这是一种使用大型语言模型或基于 LLM 的方法来识别文本嵌入空间中语义相关文献的解决方案。我们包含 1970 年至 2023 年期间 66,692 篇论文的语料库,可以通过三种语言模型创建的文本嵌入进行搜索。 vitaLITy 2 贡献了一种新颖的检索增强生成(RAG)架构,可以通过具有增强提示的大语言模型进行交互,包括论文集的摘要。 vitaLITy 2还提供了一个聊天界面,允许用户执行复杂的查询,而无需学习任何新的编程语言。这也使用户能够利用大语言模型从其庞大的培训语料库中获取的知识。最后我们通过两个使用场景来论证vitaLITy 2的适用性。 vitaLITy 2 可作为开源软件在 https://vitality-vis.github.io 上获取。
数据眨眼比率:用于生成语义共振单位图的表情符号编码器
分类: 人机交互
作者: Matthew Brehmer, Vidya Setlur, Zoe, Michael Correll
发布时间: 2024-08-24
链接: http://arxiv.org/abs/2408.13418v1
摘要: 以一种易于理解且有吸引力的方式向更广泛的受众传达数据见解仍然是一项重大挑战。为了解决这个问题,我们引入了表情符号编码器,该工具可以为表格数据集中出现的字段和类别名称生成一组表情符号建议。所选的表情符号编码集可用于生成可配置的单位图表,将纯文本和表情符号组合为字级图形。这些图表可以用于对比数据中每行的多个定量字段的值,或传达随时间变化的趋势。任何生成的图表都只是文本字符块,这意味着它可以直接复制到文本消息中或发布到 Slack 或 Teams 等通信平台上。这项工作代表了我们朝着开发新颖、有趣和简洁的数据故事体验的更大目标迈出了一步,以吸引那些不属于数据分析师的人。基于表情符号的单位图表可以在以丰富表情符号进行交流的平台上提供与对话中心数据相关的上下文线索。
使用大型语言模型从自然语言查询生成数据可视化的分析规范
分类: 人机交互
作者: Subham Sah, Rishab Mitra, Arpit Narechania, Alex Endert, John Stasko, Wenwen Dou
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.13391v2
摘要: 最近,大型语言模型 (LLM) 在将自然语言 (NL) 查询转换为可视化方面显示出了巨大的前景,但其“黑盒”性质通常限制了可解释性和可调试性。作为回应,我们提供了一个全面的文本提示,给定一个表格数据集和一个关于该数据集的 NL 查询,生成一个分析规范,包括(检测到的)数据属性、(推断的)分析任务和(推荐的)可视化。该规范捕获了查询翻译过程的关键方面,提供了可解释性和可调试性。例如,它提供从检测到的实体到输入查询中相应短语的映射,以及确定可视化建议的特定视觉设计原则。此外,与之前基于大语言模型的方法不同,我们的提示支持对话交互和歧义检测功能。在本文中,我们详细介绍了策划提示的迭代过程,使用 GPT-4 进行了初步性能评估,并讨论了 LLM 在查询翻译的各个阶段的优势和局限性。该提示是开源的,并集成到 NL4DV 中,NL4DV 是一种流行的基于 Python 的自然语言可视化工具包,可以通过 https://nl4dv.github.io 访问。
LalaEval:针对特定领域的大型语言模型的整体人类评估框架
分类: 人机交互, 人工智能, 计算和语言
作者: Chongyan Sun, Ken Lin, Shiwei Wang, Hulong Wu, Chengfei Fu, Zhen Wang
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.13338v1
摘要: 本文介绍了 LalaEval,这是一个专为特定领域大语言模型 (LLM) 的人类评估而设计的整体框架。 LalaEval提出了一套全面的端到端协议,涵盖五个主要组成部分,包括领域规范、标准建立、基准数据集创建、评估规则的构建以及评估结果的彻底分析和解释。该举措旨在通过提供一种在特定领域内进行标准化人类评估的系统方法来填补关键的研究空白,尽管这种做法得到广泛应用,但缺乏文献的实质性覆盖,并且人类评估经常被批评为不太可靠,因为主观因素,因此非常需要适应特定领域甚至单个组织的细微要求的标准化程序。此外,本文展示了该框架在物流行业中的应用,提供了特定领域的评估基准、数据集以及物流领域使用的大语言模型的比较分析,强调了该框架阐明绩效差异并指导领域模型选择和开发的能力。 -特定的大语言模型。通过实际部署,本文强调了该框架在推进特定领域大语言模型评估领域的有效性,从而为正在进行的关于大语言模型在特定领域应用中的实际效用和性能的讨论做出了重大贡献。
Demonstration of Wheeler: A Three-Wheeled Input Device for Usable, Efficient, and Versatile Non-Visual Interaction
分类: 人机交互
作者: Md Touhidul Islam, Noushad Sojib, Imran Kabir, Ashiqur Rahman Amit, Mohammad Ruhul Amin, Syed Masum Billah
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.13173v1
摘要: Navigating multi-level menus with complex hierarchies remains a big challenge for blind and low-vision users, who predominantly use screen readers to interact with computers. To that end, we demonstrate Wheeler, a three-wheeled input device with two side buttons that can speed up complex multi-level hierarchy navigation in common applications. When in operation, the three wheels of Wheeler are each mapped to a different level in the application hierarchy. Each level can be independently traversed using its designated wheel, allowing users to navigate through multiple levels efficiently. Wheeler's three wheels can also be repurposed for other tasks such as 2D cursor manipulation. In this demonstration, we describe the different operation modes and usage of Wheeler.
Wheeler: A Three-Wheeled Input Device for Usable, Efficient, and Versatile Non-Visual Interaction
分类: 人机交互
作者: Md Touhidul Islam, Noushad Sojib, Imran Kabir, Ashiqur Rahman Amit, Mohammad Ruhul Amin, Syed Masum Billah
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.13166v1
摘要: Blind users rely on keyboards and assistive technologies like screen readers to interact with user interface (UI) elements. In modern applications with complex UI hierarchies, navigating to different UI elements poses a significant accessibility challenge. Users must listen to screen reader audio descriptions and press relevant keyboard keys one at a time. This paper introduces Wheeler, a novel three-wheeled, mouse-shaped stationary input device, to address this issue. Informed by participatory sessions, Wheeler enables blind users to navigate up to three hierarchical levels in an app independently using three wheels instead of navigating just one level at a time using a keyboard. The three wheels also offer versatility, allowing users to repurpose them for other tasks, such as 2D cursor manipulation. A study with 12 blind users indicates a significant reduction (40%) in navigation time compared to using a keyboard. Further, a diary study with our blind co-author highlights Wheeler's additional benefits, such as accessing UI elements with partial metadata and facilitating mixed-ability collaboration.
Avatar Visual Similarity for Social HCI: Increasing Self-Awareness
分类: 人机交互, 人工智能
作者: Bernhard Hilpert, Claudio Alves da Silva, Leon Christidis, Chirag Bhuvaneshwara, Patrick Gebhard, Fabrizio Nunnari, Dimitra Tsovaltzi
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.13084v1
摘要: Self-awareness is a critical factor in social human-human interaction and, hence, in social HCI interaction. Increasing self-awareness through mirrors or video recordings is common in face-to-face trainings, since it influences antecedents of self-awareness like explicit identification and implicit affective identification (affinity). However, increasing self-awareness has been scarcely examined in virtual trainings with virtual avatars, which allow for adjusting the similarity, e.g. to avoid negative effects of self-consciousness. Automatic visual similarity in avatars is an open issue related to high costs. It is important to understand which features need to be manipulated and which degree of similarity is necessary for self-awareness to leverage the added value of using avatars for self-awareness. This article examines the relationship between avatar visual similarity and increasing self-awareness in virtual training environments. We define visual similarity based on perceptually important facial features for human-human identification and develop a theory-based methodology to systematically manipulate visual similarity of virtual avatars and support self-awareness. Three personalized versions of virtual avatars with varying degrees of visual similarity to participants were created (weak, medium and strong facial features manipulation). In a within-subject study (N=33), we tested effects of degree of similarity on perceived similarity, explicit identification and implicit affective identification (affinity). Results show significant differences between the weak similarity manipulation, and both the strong manipulation and the random avatar for all three antecedents of self-awareness. An increasing degree of avatar visual similarity influences antecedents of self-awareness in virtual environments.
VCEMO: Multi-Modal Emotion Recognition for Chinese Voiceprints
分类: 多媒体, 人机交互
作者: Jinghua Tang, Liyun Zhang, Yu Lu, Dian Ding, Lanqing Yang, YiChao Chen, Minjie Bian, Xiaoshan Li, Guangtao Xue
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.13019v1
摘要: Emotion recognition can enhance humanized machine responses to user commands, while voiceprint-based perception systems can be easily integrated into commonly used devices like smartphones and stereos. Despite having the largest number of speakers, there is a noticeable absence of high-quality corpus datasets for emotion recognition using Chinese voiceprints. Hence, this paper introduces the VCEMO dataset to address this deficiency. The proposed dataset is constructed from everyday conversations and comprises over 100 users and 7,747 textual samples. Furthermore, this paper proposes a multimodal-based model as a benchmark, which effectively fuses speech, text, and external knowledge using a co-attention structure. The system employs contrastive learning-based regulation for the uneven distribution of the dataset and the diversity of emotional expressions. The experiments demonstrate the significant improvement of the proposed model over SOTA on the VCEMO and IEMOCAP datasets. Code and dataset will be released for research.
A Survey on Drowsiness Detection -- Modern Applications and Methods
分类: 计算机视觉和模式识别, 人机交互
作者: Biying Fu, Fadi Boutros, Chin-Teng Lin, Naser Damer
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.12990v1
摘要: Drowsiness detection holds paramount importance in ensuring safety in workplaces or behind the wheel, enhancing productivity, and healthcare across diverse domains. Therefore accurate and real-time drowsiness detection plays a critical role in preventing accidents, enhancing safety, and ultimately saving lives across various sectors and scenarios. This comprehensive review explores the significance of drowsiness detection in various areas of application, transcending the conventional focus solely on driver drowsiness detection. We delve into the current methodologies, challenges, and technological advancements in drowsiness detection schemes, considering diverse contexts such as public transportation, healthcare, workplace safety, and beyond. By examining the multifaceted implications of drowsiness, this work contributes to a holistic understanding of its impact and the crucial role of accurate and real-time detection techniques in enhancing safety and performance. We identified weaknesses in current algorithms and limitations in existing research such as accurate and real-time detection, stable data transmission, and building bias-free systems. Our survey frames existing works and leads to practical recommendations like mitigating the bias issue by using synthetic data, overcoming the hardware limitations with model compression, and leveraging fusion to boost model performance. This is a pioneering work to survey the topic of drowsiness detection in such an entirely and not only focusing on one single aspect. We consider the topic of drowsiness detection as a dynamic and evolving field, presenting numerous opportunities for further exploration.
iSee: Advancing Multi-Shot Explainable AI Using Case-based Recommendations
分类: 人工智能, 人机交互, 信息检索
作者: Anjana Wijekoon, Nirmalie Wiratunga, David Corsar, Kyle Martin, Ikechukwu Nkisi-Orji, Chamath Palihawadana, Marta Caro-Martínez, Belen Díaz-Agudo, Derek Bridge, Anne Liret
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.12941v1
摘要: Explainable AI (XAI) can greatly enhance user trust and satisfaction in AI-assisted decision-making processes. Recent findings suggest that a single explainer may not meet the diverse needs of multiple users in an AI system; indeed, even individual users may require multiple explanations. This highlights the necessity for a "multi-shot" approach, employing a combination of explainers to form what we introduce as an "explanation strategy". Tailored to a specific user or a user group, an "explanation experience" describes interactions with personalised strategies designed to enhance their AI decision-making processes. The iSee platform is designed for the intelligent sharing and reuse of explanation experiences, using Case-based Reasoning to advance best practices in XAI. The platform provides tools that enable AI system designers, i.e. design users, to design and iteratively revise the most suitable explanation strategy for their AI system to satisfy end-user needs. All knowledge generated within the iSee platform is formalised by the iSee ontology for interoperability. We use a summative mixed methods study protocol to evaluate the usability and utility of the iSee platform with six design users across varying levels of AI and XAI expertise. Our findings confirm that the iSee platform effectively generalises across applications and its potential to promote the adoption of XAI best practices.
Predicting Affective States from Screen Text Sentiment
分类: 人机交互, 人工智能
作者: Songyan Teng, Tianyi Zhang, Simon D'Alfonso, Vassilis Kostakos
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.12844v1
摘要: The proliferation of mobile sensing technologies has enabled the study of various physiological and behavioural phenomena through unobtrusive data collection from smartphone sensors. This approach offers real-time insights into individuals' physical and mental states, creating opportunities for personalised treatment and interventions. However, the potential of analysing the textual content viewed on smartphones to predict affective states remains underexplored. To better understand how the screen text that users are exposed to and interact with can influence their affects, we investigated a subset of data obtained from a digital phenotyping study of Australian university students conducted in 2023. We employed linear regression, zero-shot, and multi-shot prompting using a large language model (LLM) to analyse relationships between screen text and affective states. Our findings indicate that multi-shot prompting substantially outperforms both linear regression and zero-shot prompting, highlighting the importance of context in affect prediction. We discuss the value of incorporating textual and sentiment data for improving affect prediction, providing a basis for future advancements in understanding smartphone use and wellbeing.
Underwater SONAR Image Classification and Analysis using LIME-based Explainable Artificial Intelligence
分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习, 68T07 (Primary) 68T45, 68U10 (Secondary), I.4.8; I.2.10; I.5.4
作者: Purushothaman Natarajan, Athira Nambiar
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.12837v1
摘要: Deep learning techniques have revolutionized image classification by mimicking human cognition and automating complex decision-making processes. However, the deployment of AI systems in the wild, especially in high-security domains such as defence, is curbed by the lack of explainability of the model. To this end, eXplainable AI (XAI) is an emerging area of research that is intended to explore the unexplained hidden black box nature of deep neural networks. This paper explores the application of the eXplainable Artificial Intelligence (XAI) tool to interpret the underwater image classification results, one of the first works in the domain to the best of our knowledge. Our study delves into the realm of SONAR image classification using a custom dataset derived from diverse sources, including the Seabed Objects KLSG dataset, the camera SONAR dataset, the mine SONAR images dataset, and the SCTD dataset. An extensive analysis of transfer learning techniques for image classification using benchmark Convolutional Neural Network (CNN) architectures such as VGG16, ResNet50, InceptionV3, DenseNet121, etc. is carried out. On top of this classification model, a post-hoc XAI technique, viz. Local Interpretable Model-Agnostic Explanations (LIME) are incorporated to provide transparent justifications for the model's decisions by perturbing input data locally to see how predictions change. Furthermore, Submodular Picks LIME (SP-LIME) a version of LIME particular to images, that perturbs the image based on the submodular picks is also extensively studied. To this end, two submodular optimization algorithms i.e. Quickshift and Simple Linear Iterative Clustering (SLIC) are leveraged towards submodular picks. The extensive analysis of XAI techniques highlights interpretability of the results in a more human-compliant way, thus boosting our confidence and reliability.
Towards Human-Robot Teaming through Augmented Reality and Gaze-Based Attention Control
分类: 机器人技术, 人机交互
作者: Yousra Shleibik, Elijah Alabi, Christopher Reardon
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.12823v1
摘要: Robots are now increasingly integrated into various real world applications and domains. In these new domains, robots are mostly employed to improve, in some ways, the work done by humans. So, the need for effective Human-Robot Teaming (HRT) capabilities grows. These capabilities usually involve the dynamic collaboration between humans and robots at different levels of involvement, leveraging the strengths of both to efficiently navigate complex situations. Crucial to this collaboration is the ability of robotic systems to adjust their level of autonomy to match the needs of the task and the human team members. This paper introduces a system designed to control attention using HRT through the use of ground robots and augmented reality (AR) technology. Traditional methods of controlling attention, such as pointing, touch, and voice commands, sometimes fall short in precision and subtlety. Our system overcomes these limitations by employing AR headsets to display virtual visual markers. These markers act as dynamic cues to attract and shift human attention seamlessly, irrespective of the robot's physical location.
The Model Mastery Lifecycle: A Framework for Designing Human-AI Interaction
分类: 人机交互, 人工智能, 机器学习
作者: Mark Chignell, Mu-Huan Miles Chung, Jaturong Kongmanee, Khilan Jerath, Abhay Raman
发布时间: 2024-08-23
链接: http://arxiv.org/abs/2408.12781v1
摘要: The utilization of AI in an increasing number of fields is the latest iteration of a long process, where machines and systems have been replacing humans, or changing the roles that they play, in various tasks. Although humans are often resistant to technological innovation, especially in workplaces, there is a general trend towards increasing automation, and more recently, AI. AI is now capable of carrying out, or assisting with, many tasks that used to be regarded as exclusively requiring human expertise. In this paper we consider the case of tasks that could be performed either by human experts or by AI and locate them on a continuum running from exclusively human task performance at one end to AI autonomy on the other, with a variety of forms of human-AI interaction between those extremes. Implementation of AI is constrained by the context of the systems and workflows that it will be embedded within. There is an urgent need for methods to determine how AI should be used in different situations and to develop appropriate methods of human-AI interaction so that humans and AI can work together effectively to perform tasks. In response to the evolving landscape of AI progress and increasing mastery, we introduce an AI Mastery Lifecycle framework and discuss its implications for human-AI interaction. The framework provides guidance on human-AI task allocation and how human-AI interfaces need to adapt to improvements in AI task performance over time. Within the framework we identify a zone of uncertainty where the issues of human-AI task allocation and user interface design are likely to be most challenging.
生成人工智能对人类学习的前景和挑战
分类: 人机交互
作者: Lixiang Yan, Samuel Greiff, Ziwen Teuber, Dragan Gašević
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12143v2
摘要: 生成人工智能 (GenAI) 具有改变人类学习的交付、培养和评估的潜力。本视角探讨了 GenAI 作为人类学习工具的整合,从整合学习科学、教育技术和人机交互的见解的整体角度解决其前景和挑战。 GenAI 承诺通过扩大个性化支持、多样化学习材料、实现及时反馈和创新评估方法来增强学习体验。然而,它也提出了一些关键问题,例如模型缺陷、道德困境和传统评估的破坏。培养人工智能素养和适应技能对于促进 GenAI 技术的知情参与至关重要。跨学习环境的严格研究对于评估 GenAI 对人类认知、元认知和创造力的影响至关重要。人类必须与 GenAI 一起学习并了解 GenAI,确保它成为追求知识和创新的强大盟友,而不是削弱我们智力的拐杖。
Visual Verity in AI-Generated Imagery: Computational Metrics and Human-Centric Analysis
分类: 人机交互, 人工智能
作者: Memoona Aziz, Umair Rahman, Syed Ali Safi, Amir Zaib Abbasi
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12762v1
摘要: The rapid advancements in AI technologies have revolutionized the production of graphical content across various sectors, including entertainment, advertising, and e-commerce. These developments have spurred the need for robust evaluation methods to assess the quality and realism of AI-generated images. To address this, we conducted three studies. First, we introduced and validated a questionnaire called Visual Verity, which measures photorealism, image quality, and text-image alignment. Second, we applied this questionnaire to assess images from AI models (DALL-E2, DALL-E3, GLIDE, Stable Diffusion) and camera-generated images, revealing that camera-generated images excelled in photorealism and text-image alignment, while AI models led in image quality. We also analyzed statistical properties, finding that camera-generated images scored lower in hue, saturation, and brightness. Third, we evaluated computational metrics' alignment with human judgments, identifying MS-SSIM and CLIP as the most consistent with human assessments. Additionally, we proposed the Neural Feature Similarity Score (NFSS) for assessing image quality. Our findings highlight the need for refining computational metrics to better capture human visual perception, thereby enhancing AI-generated content evaluation.
Impact of Usability Mechanisms: A Family of Experiments on Efficiency, Effectiveness and User Satisfaction
分类: 软件工程, 人机交互
作者: Juan M. Ferreira, Francy Rodríguez, Adrián Santos, Silvia T. Acuña, Natalia Juristo
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12736v1
摘要: Context: The usability software quality attribute aims to improve system user performance. In a previous study, we found evidence of the impact of a set of usability characteristics from the viewpoint of users in terms of efficiency, effectiveness and satisfaction. However, the impact level appears to depend on the usability feature and suggest priorities with respect to their implementation depending on how they promote user performance. Objectives: We use a family of three experiments to increase the precision and generalization of the results in the baseline experiment and provide findings on the impact on user performance of the Abort Operation, Progress Feedback and Preferences usability mechanisms. Method: We conduct two replications of the baseline experiment in academic settings. We analyse the data of 367 experimental subjects and apply aggregation (meta-analysis) procedures. Results: We find that the Abort Operation and Preferences usability mechanisms appear to improve system usability a great deal with respect to efficiency, effectiveness and user satisfaction. Conclusions: We find that the family of experiments further corroborates the results of the baseline experiment. Most of the results are statistically significant, and, because of the large number of experimental subjects, the evidence that we gathered in the replications is sufficient to outweigh other experiments.
CasualGaze: Towards Modeling and Recognizing Casual Gaze Behavior for Efficient Gaze-based Object Selection
分类: 人机交互
作者: Yingtian Shi, Yukang Yan, Zisu Li, Chen Liang, Yuntao Wang, Chun Yu, Yuanchun Shi
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12710v1
摘要: We present CasualGaze, a novel eye-gaze-based target selection technique to support natural and casual eye-gaze input. Unlike existing solutions that require users to keep the eye-gaze center on the target actively, CasualGaze allows users to glance at the target object to complete the selection simply. To understand casual gaze behavior, we studied the spatial distribution of casual gaze for different layouts and user behavior in a simulated real-world environment. Results revealed the impacts of object parameters, the speed and randomness features of casual gaze, and special gaze behavior patterns in "blurred areas". Based on the results, we devised CasualGaze algorithms, employing a bivariate Gaussian distribution model along with temporal compensation and voting algorithms for robust target prediction. Usability evaluation study showed significant improvements in recognition and selection speed for CasualGaze compared with two baseline techniques. Subjective ratings and comments further supported the preference for CasualGaze regarding efficiency, accuracy, and stability.
SonarWatch: Field sensing technique for smartwatches based on ultrasound and motion
分类: 人机交互
作者: Yingtian Shi, Chun Yu, Xuyang Lu, Xing-Dong Yang, Yuntao Wang, Yuanchun Shi
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12689v1
摘要: A smartwatch worn continuously on the wrist has the potential to perceive rich interactive gestures and natural behaviors of the user. Unfortunately, the current interaction functionality of smartwatches is primarily limited by the small touch screen. This paper proposes SonarWatch, a novel sensing technique that uses the acoustic field generated by the transceiver on the opposite sides of the watch to detect the presence of nearby objects and their shapes. This enables a range of gesture interactions and natural behavior perception. We designed an algorithm combining IMU and acoustic fields to identify these actions and optimize power consumption. We tested the performance of SonarWatch in different noise environments, achieving an overall accuracy of 93.7%. Its power consumption is close to that of physiological sensors. SonarWatch can achieve the above capabilities by utilizing the existing built-in sensors, making it a technology with solid practical value.
Bridging the gap between natural user expression with complex automation programming in smart homes
分类: 人机交互
作者: Yingtian Shi, Xiaoyi Liu, Chun Yu, Tianao Yang, Cheng Gao, Chen Liang, Yuanchun Shi
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12687v1
摘要: A long-standing challenge in end-user programming (EUP) is to trade off between natural user expression and the complexity of programming tasks. As large language models (LLMs) are empowered to handle semantic inference and natural language understanding, it remains under-explored how such capabilities can facilitate end-users to configure complex automation more naturally and easily. We propose AwareAuto, an EUP system that standardizes user expression and finishes two-step inference with the LLMs to achieve automation generation. AwareAuto allows contextual, multi-modality, and flexible user expression to configure complex automation tasks (e.g., dynamic parameters, multiple conditional branches, and temporal constraints), which are non-manageable in traditional EUP solutions. By studying realistic, complex rules data, AwareAuto gains 91.7% accuracy in matching user intentions and feasibility. We introduced user interaction to ensure system controllability and usability. We discuss the opportunities and challenges of incorporating LLMs in end-user programming techniques and grounding complex smart home contexts.
Improving Radiography Machine Learning Workflows via Metadata Management for Training Data Selection
分类: 机器学习, 人机交互
作者: Mirabel Reid, Christine Sweeney, Oleg Korobkin
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12655v1
摘要: Most machine learning models require many iterations of hyper-parameter tuning, feature engineering, and debugging to produce effective results. As machine learning models become more complicated, this pipeline becomes more difficult to manage effectively. In the physical sciences, there is an ever-increasing pool of metadata that is generated by the scientific research cycle. Tracking this metadata can reduce redundant work, improve reproducibility, and aid in the feature and training dataset engineering process. In this case study, we present a tool for machine learning metadata management in dynamic radiography. We evaluate the efficacy of this tool against the initial research workflow and discuss extensions to general machine learning pipelines in the physical sciences.
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment
分类: 计算和语言, 人工智能, 人机交互, 信息检索, 机器学习
作者: Xiaohan Wang, Xiaoyan Yang, Yuqi Zhu, Yue Shen, Jian Wang, Peng Wei, Lei Liang, Jinjie Gu, Huajun Chen, Ningyu Zhang
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12579v1
摘要: Large Language Models (LLMs) like GPT-4, MedPaLM-2, and Med-Gemini achieve performance competitively with human experts across various medical benchmarks. However, they still face challenges in making professional diagnoses akin to physicians, particularly in efficiently gathering patient information and reasoning the final diagnosis. To this end, we introduce the RuleAlign framework, designed to align LLMs with specific diagnostic rules. We develop a medical dialogue dataset comprising rule-based communications between patients and physicians and design an alignment learning approach through preference learning. Experimental results demonstrate the effectiveness of the proposed approach. We hope that our work can serve as an inspiration for exploring the potential of LLMs as AI physicians.
WhisperMask: A Noise Suppressive Mask-Type Microphone for Whisper Speech
分类: 人机交互, 声音, 音频和语音处理, H.5.2
作者: Hirotaka Hiraki, Shusuke Kanazawa, Takahiro Miura, Manabu Yoshida, Masaaki Mochimaru, Jun Rekimoto
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12500v1
摘要: Whispering is a common privacy-preserving technique in voice-based interactions, but its effectiveness is limited in noisy environments. In conventional hardware- and software-based noise reduction approaches, isolating whispered speech from ambient noise and other speech sounds remains a challenge. We thus propose WhisperMask, a mask-type microphone featuring a large diaphragm with low sensitivity, making the wearer's voice significantly louder than the background noise. We evaluated WhisperMask using three key metrics: signal-to-noise ratio, quality of recorded voices, and speech recognition rate. Across all metrics, WhisperMask consistently outperformed traditional noise-suppressing microphones and software-based solutions. Notably, WhisperMask showed a 30% higher recognition accuracy for whispered speech recorded in an environment with 80 dB background noise compared with the pin microphone and earbuds. Furthermore, while a denoiser decreased the whispered speech recognition rate of these two microphones by approximately 20% at 30-60 dB noise, WhisperMask maintained a high performance even without denoising, surpassing the other microphones' performances by a significant margin.WhisperMask's design renders the wearer's voice as the dominant input and effectively suppresses background noise without relying on signal processing. This device allows for reliable voice interactions, such as phone calls and voice commands, in a wide range of noisy real-world scenarios while preserving user privacy.
Smartphone-based Eye Tracking System using Edge Intelligence and Model Optimisation
分类: 计算机视觉和模式识别, 人机交互, 机器学习, 表现
作者: Nishan Gunawardena, Gough Yumu Lui, Jeewani Anupama Ginige, Bahman Javadi
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12463v1
摘要: A significant limitation of current smartphone-based eye-tracking algorithms is their low accuracy when applied to video-type visual stimuli, as they are typically trained on static images. Also, the increasing demand for real-time interactive applications like games, VR, and AR on smartphones requires overcoming the limitations posed by resource constraints such as limited computational power, battery life, and network bandwidth. Therefore, we developed two new smartphone eye-tracking techniques for video-type visuals by combining Convolutional Neural Networks (CNN) with two different Recurrent Neural Networks (RNN), namely Long Short Term Memory (LSTM) and Gated Recurrent Unit (GRU). Our CNN+LSTM and CNN+GRU models achieved an average Root Mean Square Error of 0.955cm and 1.091cm, respectively. To address the computational constraints of smartphones, we developed an edge intelligence architecture to enhance the performance of smartphone-based eye tracking. We applied various optimisation methods like quantisation and pruning to deep learning models for better energy, CPU, and memory usage on edge devices, focusing on real-time processing. Using model quantisation, the model inference time in the CNN+LSTM and CNN+GRU models was reduced by 21.72% and 19.50%, respectively, on edge devices.
VR4UrbanDev: An Immersive Virtual Reality Experience for Energy Data Visualization
分类: 人机交互
作者: Saeed Safikhani, Georg Arbesser-Rastburg, Anna Schreuer, Jürgen Suschek-Berger, Hermann Edtmayer, Johanna Pirker
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12428v1
摘要: In this demonstration paper, we present our interactive virtual reality (VR) experience, which has been designed to facilitate interaction with energy-related information. This experience consists of two main modes: the world in miniature for large-scale and first-person for real-world scale visualizations. Additionally, we presented our approach to potential target groups in interviews. The results of these interviews can help developers for future implementation considering the requirements of each group.
Enhancing Uncertainty Communication in Time Series Predictions: Insights and Recommendations
分类: 人机交互, 机器学习
作者: Apoorva Karagappa, Pawandeep Kaur Betz, Jonas Gilg, Moritz Zeumer, Andreas Gerndt, Bernhard Preim
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12365v1
摘要: As the world increasingly relies on mathematical models for forecasts in different areas, effective communication of uncertainty in time series predictions is important for informed decision making. This study explores how users estimate probabilistic uncertainty in time series predictions under different variants of line charts depicting uncertainty. It examines the role of individual characteristics and the influence of user-reported metrics on uncertainty estimations. By addressing these aspects, this paper aims to enhance the understanding of uncertainty visualization and for improving communication in time series forecast visualizations and the design of prediction data dashboards.As the world increasingly relies on mathematical models for forecasts in different areas, effective communication of uncertainty in time series predictions is important for informed decision making. This study explores how users estimate probabilistic uncertainty in time series predictions under different variants of line charts depicting uncertainty. It examines the role of individual characteristics and the influence of user-reported metrics on uncertainty estimations. By addressing these aspects, this paper aims to enhance the understanding of uncertainty visualization and for improving communication in time series forecast visualizations and the design of prediction data dashboards.
VR Cloud Gaming UX: Exploring the Impact of Network Quality on Emotion, Presence, Game Experience and Cybersickness
分类: 人机交互
作者: Maximilian Warsinke, Tanja Kojić, Maurizio Vergari, Jan-Niklas Voigt-Antons, Sebastian Möller
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12238v1
摘要: This study explores the user experience (UX) of virtual reality (VR) cloud gaming under simulated network degradation conditions. Two contrasting games (Beat Saber, Cubism) were streamed via Meta Air Link to a Quest 3 device in a laboratory setup. Packet loss and delay were introduced into the streaming network using NetEm for WiFi traffic manipulation. In a within-subjects experiment, 16 participants played both games under three network conditions (Loss, Delay, Baseline), followed by post-game questionnaires assessing their emotions, perceived quality, game experience, sense of presence, and cybersickness. Friedman's test and Dunn's post-hoc test for pairwise comparisons revealed that packet loss had a greater impact on UX than delay across almost all evaluated aspects. Notably, packet loss in Beat Saber led to a significant increase in cybersickness, whereas in Cubism, players experienced a significant reduction in their sense of presence. Additionally, both games exhibited statistically significant variations between conditions in most game experience dimensions, perceived quality, and emotional responses. This study highlights the critical role of network stability in VR cloud gaming, particularly in minimizing packet loss. The different dynamics between the games suggest the possibility of genre-specific optimization and novel game design considerations for VR cloud games.
VoiceX: A Text-To-Speech Framework for Custom Voices
分类: 人机交互, 声音, 音频和语音处理
作者: Silvan Mertes, Daksitha Withanage Don, Otto Grothe, Johanna Kuch, Ruben Schlagowski, Elisabeth André
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12170v1
摘要: Modern TTS systems are capable of creating highly realistic and natural-sounding speech. Despite these developments, the process of customizing TTS voices remains a complex task, mostly requiring the expertise of specialists within the field. One reason for this is the utilization of deep learning models, which are characterized by their expansive, non-interpretable parameter spaces, restricting the feasibility of manual customization. In this paper, we present a novel human-in-the-loop paradigm based on an evolutionary algorithm for directly interacting with the parameter space of a neural TTS model. We integrated our approach into a user-friendly graphical user interface that allows users to efficiently create original voices. Those voices can then be used with the backbone TTS model, for which we provide a Python API. Further, we present the results of a user study exploring the capabilities of VoiceX. We show that VoiceX is an appropriate tool for creating individual, custom voices.
ReorderBench: A Benchmark for Matrix Reordering
分类: 人机交互
作者: Jiangning Zhu, Zheng Wang, Zhiyang Shen, Lai Wei, Fengyuan Tian, Mengchen Liu, Shixia Liu
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12169v1
摘要: Matrix reordering permutes the rows and columns of a matrix to reveal meaningful visual patterns, such as blocks that represent clusters. A comprehensive collection of matrices, along with a scoring method for measuring the quality of visual patterns in these matrices, contributes to building a benchmark. This benchmark is essential for selecting or designing suitable reordering algorithms for specific tasks. In this paper, we build a matrix reordering benchmark, ReorderBench, with the goal of evaluating and improving matrix reordering techniques. This is achieved by generating a large set of representative and diverse matrices and scoring these matrices with a convolution- and entropy-based method. Our benchmark contains 2,835,000 binary matrices and 5,670,000 continuous matrices, each featuring one of four visual patterns: block, off-diagonal block, star, or band. We demonstrate the usefulness of ReorderBench through three main applications in matrix reordering: 1) evaluating different reordering algorithms, 2) creating a unified scoring model to measure the visual patterns in any matrix, and 3) developing a deep learning model for matrix reordering.
Generative Artificial Intelligence and Human Learning
分类: 人机交互
作者: Lixiang Yan, Samuel Greiff, Ziwen Teuber, Dragan Gašević
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12143v1
摘要: Generative artificial intelligence (GenAI) holds the potential to transform the delivery, cultivation, and evaluation of human learning. This Perspective examines the integration of GenAI as a tool for human learning, addressing its promises and challenges from a holistic viewpoint that integrates insights from learning sciences, educational technology, and human-computer interaction. GenAI promises to enhance learning experiences by scaling personalised support, diversifying learning materials, enabling timely feedback, and innovating assessment methods. However, it also presents critical issues such as model imperfections, ethical dilemmas, and the disruption of traditional assessments. We highlight the importance of cultivating AI literacy and advocate for informed engagement with GenAI technologies. Rigorous research across learning contexts is essential to evaluate GenAI's impact on human cognition, metacognition, and creativity. Humanity must learn with and about GenAI, ensuring it becomes a powerful ally in the pursuit of knowledge and innovation, rather than a crutch that undermines our intellectual abilities.
Recording Brain Activity While Listening to Music Using Wearable EEG Devices Combined with Bidirectional Long Short-Term Memory Networks
分类: 机器学习, 人机交互, 信号处理
作者: Jingyi Wang, Zhiqun Wang, Guiran Liu
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12124v1
摘要: Electroencephalography (EEG) signals are crucial for investigating brain function and cognitive processes. This study aims to address the challenges of efficiently recording and analyzing high-dimensional EEG signals while listening to music to recognize emotional states. We propose a method combining Bidirectional Long Short-Term Memory (Bi-LSTM) networks with attention mechanisms for EEG signal processing. Using wearable EEG devices, we collected brain activity data from participants listening to music. The data was preprocessed, segmented, and Differential Entropy (DE) features were extracted. We then constructed and trained a Bi-LSTM model to enhance key feature extraction and improve emotion recognition accuracy. Experiments were conducted on the SEED and DEAP datasets. The Bi-LSTM-AttGW model achieved 98.28% accuracy on the SEED dataset and 92.46% on the DEAP dataset in multi-class emotion recognition tasks, significantly outperforming traditional models such as SVM and EEG-Net. This study demonstrates the effectiveness of combining Bi-LSTM with attention mechanisms, providing robust technical support for applications in brain-computer interfaces (BCI) and affective computing. Future work will focus on improving device design, incorporating multimodal data, and further enhancing emotion recognition accuracy, aiming to achieve practical applications in real-world scenarios.
Emotion-Agent: Unsupervised Deep Reinforcement Learning with Distribution-Prototype Reward for Continuous Emotional EEG Analysis
分类: 人机交互, 人工智能
作者: Zhihao Zhou, Qile Liu, Jiyuan Wang, Zhen Liang
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12121v1
摘要: Continuous electroencephalography (EEG) signals are widely used in affective brain-computer interface (aBCI) applications. However, not all continuously collected EEG signals are relevant or meaningful to the task at hand (e.g., wondering thoughts). On the other hand, manually labeling the relevant parts is nearly impossible due to varying engagement patterns across different tasks and individuals. Therefore, effectively and efficiently identifying the important parts from continuous EEG recordings is crucial for downstream BCI tasks, as it directly impacts the accuracy and reliability of the results. In this paper, we propose a novel unsupervised deep reinforcement learning framework, called Emotion-Agent, to automatically identify relevant and informative emotional moments from continuous EEG signals. Specifically, Emotion-Agent involves unsupervised deep reinforcement learning combined with a heuristic algorithm. We first use the heuristic algorithm to perform an initial global search and form prototype representations of the EEG signals, which facilitates the efficient exploration of the signal space and identify potential regions of interest. Then, we design distribution-prototype reward functions to estimate the interactions between samples and prototypes, ensuring that the identified parts are both relevant and representative of the underlying emotional states. Emotion-Agent is trained using Proximal Policy Optimization (PPO) to achieve stable and efficient convergence. Our experiments compare the performance with and without Emotion-Agent. The results demonstrate that selecting relevant and informative emotional parts before inputting them into downstream tasks enhances the accuracy and reliability of aBCI applications.
Control-Theoretic Analysis of Shared Control Systems
分类: 机器人技术, 人机交互
作者: Reuben M. Aronson, Elaine Schaertl Short
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12103v1
摘要: Users of shared control systems change their behavior in the presence of assistance, which conflicts with assumpts about user behavior that some assistance methods make. In this paper, we propose an analysis technique to evaluate the user's experience with the assistive systems that bypasses required assumptions: we model the assistance as a dynamical system that can be analyzed using control theory techniques. We analyze the shared autonomy assistance algorithm and make several observations: we identify a problem with runaway goal confidence and propose a system adjustment to mitigate it, we demonstrate that the system inherently limits the possible actions available to the user, and we show that in a simplified setting, the effect of the assistance is to drive the system to the convex hull of the goals and, once there, add a layer of indirection between the user control and the system behavior. We conclude by discussing the possible uses of this analysis for the field.
Do Responsible AI Artifacts Advance Stakeholder Goals? Four Key Barriers Perceived by Legal and Civil Stakeholders
分类: 计算机与社会, 人机交互
作者: Anna Kawakami, Daricia Wilkinson, Alexandra Chouldechova
发布时间: 2024-08-22
链接: http://arxiv.org/abs/2408.12047v1
摘要: The responsible AI (RAI) community has introduced numerous processes and artifacts (e.g., Model Cards, Transparency Notes, Data Cards) to facilitate transparency and support the governance of AI systems. While originally designed to scaffold and document AI development processes in technology companies, these artifacts are becoming central components of regulatory compliance under recent regulations such as the EU AI Act. Much prior work has explored the design of new RAI artifacts or their use by practitioners within technology companies. However, as RAI artifacts begin to play key roles in enabling external oversight, it becomes critical to understand how stakeholders--particularly those situated outside of technology companies who govern and audit industry AI deployments--perceive the efficacy of RAI artifacts. In this study, we conduct semi-structured interviews and design activities with 19 government, legal, and civil society stakeholders who inform policy and advocacy around responsible AI efforts. While participants believe that RAI artifacts are a valuable contribution to the broader AI governance ecosystem, many are concerned about their potential unintended, longer-term impacts on actors outside of technology companies (e.g., downstream end-users, policymakers, civil society stakeholders). We organize these beliefs into four barriers that help explain how RAI artifacts may (inadvertently) reconfigure power relations across civil society, government, and industry, impeding civil society and legal stakeholders' ability to protect downstream end-users from potential AI harms. Participants envision how structural changes, along with changes in how RAI artifacts are designed, used, and governed, could help redirect the role of artifacts to support more collaborative and proactive external oversight of AI systems. We discuss research and policy implications for RAI artifacts.
Estimating Contribution Quality in Online Deliberations Using a Large Language Model
分类: 人工智能, 人机交互, I.2.1; J.5; H.5.3
作者: Lodewijk Gelauff, Mohak Goyal, Bhargav Dindukurthi, Ashish Goel, Alice Siu
发布时间: 2024-08-21
链接: http://arxiv.org/abs/2408.11936v1
摘要: Deliberation involves participants exchanging knowledge, arguments, and perspectives and has been shown to be effective at addressing polarization. The Stanford Online Deliberation Platform facilitates large-scale deliberations. It enables video-based online discussions on a structured agenda for small groups without requiring human moderators. This paper's data comes from various deliberation events, including one conducted in collaboration with Meta in 32 countries, and another with 38 post-secondary institutions in the US. Estimating the quality of contributions in a conversation is crucial for assessing feature and intervention impacts. Traditionally, this is done by human annotators, which is time-consuming and costly. We use a large language model (LLM) alongside eight human annotators to rate contributions based on justification, novelty, expansion of the conversation, and potential for further expansion, with scores ranging from 1 to 5. Annotators also provide brief justifications for their ratings. Using the average rating from other human annotators as the ground truth, we find the model outperforms individual human annotators. While pairs of human annotators outperform the model in rating justification and groups of three outperform it on all four metrics, the model remains competitive. We illustrate the usefulness of the automated quality rating by assessing the effect of nudges on the quality of deliberation. We first observe that individual nudges after prolonged inactivity are highly effective, increasing the likelihood of the individual requesting to speak in the next 30 seconds by 65%. Using our automated quality estimation, we show that the quality ratings for statements prompted by nudging are similar to those made without nudging, signifying that nudging leads to more ideas being generated in the conversation without losing overall quality.
Explainable Anomaly Detection: Counterfactual driven What-If Analysis
分类: 机器学习, 人工智能, 人机交互
作者: Logan Cummins, Alexander Sommers, Sudip Mittal, Shahram Rahimi, Maria Seale, Joseph Jaboure, Thomas Arnold
发布时间: 2024-08-21
链接: http://arxiv.org/abs/2408.11935v1
摘要: There exists three main areas of study inside of the field of predictive maintenance: anomaly detection, fault diagnosis, and remaining useful life prediction. Notably, anomaly detection alerts the stakeholder that an anomaly is occurring. This raises two fundamental questions: what is causing the fault and how can we fix it? Inside of the field of explainable artificial intelligence, counterfactual explanations can give that information in the form of what changes to make to put the data point into the opposing class, in this case "healthy". The suggestions are not always actionable which may raise the interest in asking "what if we do this instead?" In this work, we provide a proof of concept for utilizing counterfactual explanations as what-if analysis. We perform this on the PRONOSTIA dataset with a temporal convolutional network as the anomaly detector. Our method presents the counterfactuals in the form of a what-if analysis for this base problem to inspire future work for more complex systems and scenarios.
Why am I Still Seeing This: Measuring the Effectiveness Of Ad Controls and Explanations in AI-Mediated Ad Targeting Systems
分类: 计算机与社会, 人工智能, 人机交互, 机器学习
作者: Jane Castleman, Aleksandra Korolova
发布时间: 2024-08-21
链接: http://arxiv.org/abs/2408.11910v1
摘要: Recently, Meta has shifted towards AI-mediated ad targeting mechanisms that do not require advertisers to provide detailed targeting criteria, likely driven by excitement over AI capabilities as well as new data privacy policies and targeting changes agreed upon in civil rights settlements. At the same time, Meta has touted their ad preference controls as an effective mechanism for users to control the ads they see. Furthermore, Meta markets their targeting explanations as a transparency tool that allows users to understand why they saw certain ads and inform actions to control future ads. Our study evaluates the effectiveness of Meta's "See less" ad control and the actionability of ad targeting explanations following the shift to AI-mediated targeting. We conduct a large-scale study, randomly assigning participants to mark "See less" to Body Weight Control or Parenting topics, and collecting the ads and targeting explanations Meta shows to participants before and after the intervention. We find that utilizing the "See less" ad control for the topics we study does not significantly reduce the number of ads shown by Meta on these topics, and that the control is less effective for some users whose demographics are correlated with the topic. Furthermore, we find that the majority of ad targeting explanations for local ads made no reference to location-specific targeting criteria, and did not inform users why ads related to the topics they marked to "See less" of continued to be delivered. We hypothesize that the poor effectiveness of controls and lack of actionability in explanations are the result of the shift to AI-mediated targeting, for which explainability and transparency tools have not yet been developed. Our work thus provides evidence for the need of new methods for transparency and user control, suitable and reflective of increasingly complex AI-mediated ad delivery systems.
Esports Training in StarCraft II: Stance Stability and Grip Strength
分类: 人机交互
作者: Andrzej Białecki, Michał Staniszewski, Robert Białecki, Jan Gajewski
发布时间: 2024-08-21
链接: http://arxiv.org/abs/2408.11764v1
摘要: Esports are a mostly sedentary activity. There is a growing need for investigation into how biomechanical and physical abilities can be optimized for esports through training. One such research avenue concerns the ability of esports players to perform balance tasks due to the prolonged sedentary states that are required to reach the top echelon of performance. Our aim for this work is to describe and compare physical abilities (balance, grip strength, and self-reported training habits) of top Polish StarCraft~2 tournament players. Esports players differed significantly from the reference group in their ability to balance on one leg. Additionally, in a grip strength test, the esports group fared worse than the reference group in all consecutive attempts. Despite self-reported physical activity in the esports group, player fitness requires further research. Training optimization could offset the issues arising from sedentary activity, and intensifying esports training so it could take less time overall.
Cultural Windows: Towards a Workflow for Immersive Journeys into Global Living Spaces
分类: 人机交互, H.1.2; H.5.1
作者: Hessam Djavaherpour, Pierre Dragicevic, Yvonne Jansen
发布时间: 2024-08-21
链接: http://arxiv.org/abs/2408.11723v1
摘要: "Cultural Windows" is a research initiative designed to enrich cross-cultural understanding through immersive extended reality (XR) experiences. This project proposes a workflow for deploying AR and VR platforms, allowing users to explore living spaces from diverse cultures and socio-economic statuses. The process involves 3D scanning of culturally significant objects, creating accurate models of living spaces, and integrating them into immersive systems to facilitate engagement with global living designs. Targeted at individuals curious about how people live in different parts of the world, the project aims to expand cross-cultural understanding and design perspectives, providing insights into the effectiveness of immersive technologies in cultural education. By detailing its conceptual framework, "Cultural Windows" aims to enhance comprehension and appreciation of global domestic aesthetics by comparing participants' perceptions with immersive, realistic representations of living spaces from different cultures. This can help bridge the gap between preconceived notions and the actual appearance and feel of these spaces.
Improved Visual Saliency of Graph Clusters with Orderable Node-Link Layouts
分类: 人机交互, 社交和信息网络, H.5.2; J.4
作者: Nora Al-Naami, Nicolas Médoc, Matteo Magnani, Mohammad Ghoniem
发布时间: 2024-08-21
链接: http://arxiv.org/abs/2408.11673v1
摘要: Graphs are often used to model relationships between entities. The identification and visualization of clusters in graphs enable insight discovery in many application areas, such as life sciences and social sciences. Force-directed graph layouts promote the visual saliency of clusters, as they bring adjacent nodes closer together, and push non-adjacent nodes apart. At the same time, matrices can effectively show clusters when a suitable row/column ordering is applied, but are less appealing to untrained users not providing an intuitive node-link metaphor. It is thus worth exploring layouts combining the strengths of the node-link metaphor and node ordering. In this work, we study the impact of node ordering on the visual saliency of clusters in orderable node-link diagrams, namely radial diagrams, arc diagrams and symmetric arc diagrams. Through a crowdsourced controlled experiment, we show that users can count clusters consistently more accurately, and to a large extent faster, with orderable node-link diagrams than with three state-of-the art force-directed layout algorithms, i.e., Linlog',
Backbone' and `sfdp'. The measured advantage is greater in case of low cluster separability and/or low compactness. A free copy of this paper and all supplemental materials are available at https://osf.io/kc3dg/.
The Problems with Proxies: Making Data Work Visible through Requester Practices
分类: 人机交互
作者: Annabel Rothschild, Ding Wang, Niveditha Jayakumar Vilvanathan, Lauren Wilcox, Carl DiSalvo, Betsy DiSalvo
发布时间: 2024-08-21
链接: http://arxiv.org/abs/2408.11667v1
摘要: Fairness in AI and ML systems is increasingly linked to the proper treatment and recognition of data workers involved in training dataset development. Yet, those who collect and annotate the data, and thus have the most intimate knowledge of its development, are often excluded from critical discussions. This exclusion prevents data annotators, who are domain experts, from contributing effectively to dataset contextualization. Our investigation into the hiring and engagement practices of 52 data work requesters on platforms like Amazon Mechanical Turk reveals a gap: requesters frequently hold naive or unchallenged notions of worker identities and capabilities and rely on ad-hoc qualification tasks that fail to respect the workers' expertise. These practices not only undermine the quality of data but also the ethical standards of AI development. To rectify these issues, we advocate for policy changes to enhance how data annotation tasks are designed and managed and to ensure data workers are treated with the respect they deserve.
Audio Description Customization
分类: 人机交互
作者: Rosiana Natalie, Ruei-Che Chang, Smitha Sheshadri, Anhong Guo, Kotaro Hara
发布时间: 2024-08-21
链接: http://arxiv.org/abs/2408.11406v1
摘要: Blind and low-vision (BLV) people use audio descriptions (ADs) to access videos. However, current ADs are unalterable by end users, thus are incapable of supporting BLV individuals' potentially diverse needs and preferences. This research investigates if customizing AD could improve how BLV individuals consume videos. We conducted an interview study (Study 1) with fifteen BLV participants, which revealed desires for customizing properties like length, emphasis, speed, voice, format, tone, and language. At the same time, concerns like interruptions and increased interaction load due to customization emerged. To examine AD customization's effectiveness and tradeoffs, we designed CustomAD, a prototype that enables BLV users to customize AD content and presentation. An evaluation study (Study 2) with twelve BLV participants showed using CustomAD significantly enhanced BLV people's video understanding, immersion, and information navigation efficiency. Our work illustrates the importance of AD customization and offers a design that enhances video accessibility for BLV individuals.
Non-verbal Hands-free Control for Smart Glasses using Teeth Clicks
分类: 人机交互
作者: Payal Mohapatra, Ali Aroudi, Anurag Kumar, Morteza Khaleghimeybodi
发布时间: 2024-08-21
链接: http://arxiv.org/abs/2408.11346v1
摘要: Smart glasses are emerging as a popular wearable computing platform potentially revolutionizing the next generation of human-computer interaction. The widespread adoption of smart glasses has created a pressing need for discreet and hands-free control methods. Traditional input techniques, such as voice commands or tactile gestures, can be intrusive and non-discreet. Additionally, voice-based control may not function well in noisy acoustic conditions. We propose a novel, discreet, non-verbal, and non-tactile approach to controlling smart glasses through subtle vibrations on the skin induced by teeth clicking. We demonstrate that these vibrations can be sensed by accelerometers embedded in the glasses with a low-footprint predictive model. Our proposed method, called STEALTHsense, utilizes a temporal broadcasting-based neural network architecture with just 88K trainable parameters and 7.14M Multiply and Accumulate (MMAC) per inference unit. We benchmark our proposed STEALTHsense against state-of-the-art deep learning approaches and traditional low-footprint machine learning approaches. We conducted a study across 21 participants to collect representative samples for two distinct teeth-clicking patterns and many non-patterns for robust training of STEALTHsense, achieving an average cross-person accuracy of 0.93. Field testing confirmed its effectiveness, even in noisy conditions, underscoring STEALTHsense's potential for real-world applications, offering a promising solution for smart glasses interaction.
Predictive Anchoring: A Novel Interaction to Support Contextualized Suggestions for Grid Displays
分类: 人机交互
作者: Cynthia Zastudil, Christine Holyfield, June A. Smith, Hannah Vy Nguyen, Stephen MacNeil
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.11140v1
摘要: Grid displays are the most common form of augmentative and alternative communication device recommended by speech-language pathologists for children. Grid displays present a large variety of vocabulary which can be beneficial for a users' language development. However, the extensive navigation and cognitive overhead required of users of grid displays can negatively impact users' ability to actively participate in social interactions, which is an important factor of their language development. We present a novel interaction technique for grid displays, Predictive Anchoring, based on user interaction theory and language development theory. Our design is informed by existing literature in AAC research, presented in the form of a set of design goals and a preliminary design sketch. Future work in user studies and interaction design are also discussed.
Exploring the use of Generative AI to Support Automated Just-in-Time Programming for Visual Scene Displays
分类: 人机交互
作者: Cynthia Zastudil, Christine Holyfield, Christine Kapp, Xandria Crosland, Elizabeth Lorah, Tara Zimmerman, Stephen MacNeil
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.11137v1
摘要: Millions of people worldwide rely on alternative and augmentative communication devices to communicate. Visual scene displays (VSDs) can enhance communication for these individuals by embedding communication options within contextualized images. However, existing VSDs often present default images that may lack relevance or require manual configuration, placing a significant burden on communication partners. In this study, we assess the feasibility of leveraging large multimodal models (LMM), such as GPT-4V, to automatically create communication options for VSDs. Communication options were sourced from a LMM and speech-language pathologists (SLPs) and AAC researchers (N=13) for evaluation through an expert assessment conducted by the SLPs and AAC researchers. We present the study's findings, supplemented by insights from semi-structured interviews (N=5) about SLP's and AAC researchers' opinions on the use of generative AI in augmentative and alternative communication devices. Our results indicate that the communication options generated by the LMM were contextually relevant and often resembled those created by humans. However, vital questions remain that must be addressed before LMMs can be confidently implemented in AAC devices.
Proxona: Leveraging LLM-Driven Personas to Enhance Creators' Understanding of Their Audience
分类: 人机交互
作者: Yoonseo Choi, Eun Jeong Kang, Seulgi Choi, Min Kyung Lee, Juho Kim
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10937v1
摘要: Creators are nothing without their audience, and thereby understanding their audience is the cornerstone of their professional achievement. Yet many creators feel lost while comprehending audiences with existing tools, which offer insufficient insights for tailoring content to audience needs. To address the challenges creators face in understanding their audience, we present Proxona, a system for defining and extracting representative audience personas from the comments. Creators converse with personas to gain insights into their preferences and engagement, solicit feedback, and implement evidence-based improvements to their content. Powered by large language models, Proxona analyzes audience comments, distilling the latent characteristics of audiences into tangible dimensions (classification categories) and values (category attributes). Proxona then clusters these into synthetic personas. Our technical evaluations demonstrated that our pipelines effectively generated relevant and distinct dimensions and values, enabling the deduction of audience-reflecting personas, while minimizing the likelihood of hallucinations in persona responses. Our user evaluation with 11 creators showed that Proxona supported creators to gain new insights about their audience, make informed decisions, and successfully complete content creation with high confidence. Proxona's data-driven audience personas empower creators to seamlessly integrate audience perspectives into their creative processes, fostering a collaborative approach to content creation.
Evaluating Assistive Technologies on a Trade Fair: Methodological Overview and Lessons Learned
分类: 人机交互, 机器人技术
作者: Annalies Baumeister, Felix Goldau, Max Pascher, Jens Gerken, Udo Frese, Patrizia Tolle
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10933v1
摘要: User-centered evaluations are a core requirement in the development of new user related technologies. However, it is often difficult to recruit sufficient participants, especially if the target population is small, particularly busy, or in some way restricted in their mobility. We bypassed these problems by conducting studies on trade fairs that were specifically designed for our target population (potentially care-receiving individuals in wheelchairs) and therefore provided our users with external incentive to attend our study. This paper presents our gathered experiences, including methodological specifications and lessons learned, and is aimed to guide other researchers with conducting similar studies. In addition, we also discuss chances generated by this unconventional study environment as well as its limitations.
Enhancing End-to-End Autonomous Driving Systems Through Synchronized Human Behavior Data
分类: 机器人技术, 人机交互
作者: Yiqun Duan, Zhuoli Zhuang, Jinzhao Zhou, Yu-Cheng Chang, Yu-Kai Wang, Chin-Teng Lin
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10908v1
摘要: This paper presents a pioneering exploration into the integration of fine-grained human supervision within the autonomous driving domain to enhance system performance. The current advances in End-to-End autonomous driving normally are data-driven and rely on given expert trials. However, this reliance limits the systems' generalizability and their ability to earn human trust. Addressing this gap, our research introduces a novel approach by synchronously collecting data from human and machine drivers under identical driving scenarios, focusing on eye-tracking and brainwave data to guide machine perception and decision-making processes. This paper utilizes the Carla simulation to evaluate the impact brought by human behavior guidance. Experimental results show that using human attention to guide machine attention could bring a significant improvement in driving performance. However, guidance by human intention still remains a challenge. This paper pioneers a promising direction and potential for utilizing human behavior guidance to enhance autonomous systems.
The impact of labeling automotive AI as "trustworthy" or "reliable" on user evaluation and technology acceptance
分类: 人机交互, 人工智能, 新兴技术, K.4.1; H.5.2; H.4.2; J.7; J.4
作者: John Dorsch, Ophelia Deroy
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10905v1
摘要: This study explores whether labeling AI as "trustworthy" or "reliable" influences user perceptions and acceptance of automotive AI technologies. Using a one-way between-subjects design, the research involved 478 online participants who were presented with guidelines for either trustworthy or reliable AI. Participants then evaluated three vignette scenarios and completed a modified version of the Technology Acceptance Model, which included variables such as perceived ease of use, human-like trust, and overall attitude. Although labeling AI as "trustworthy" did not significantly influence judgments on specific scenarios, it increased perceived ease of use and human-like trust, particularly benevolence. This suggests a positive impact on usability and an anthropomorphic effect on user perceptions. The study provides insights into how specific labels can influence attitudes toward AI technology.
BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model
分类: 计算和语言, 人机交互
作者: Yeyong Yu, Rusheng Yu, Haojie Wei, Zhanqiu Zhang, Quan Qian
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10903v2
摘要: The rapid advancement of large language models (LLMs) has revolutionized role-playing, enabling the development of general role-playing models. However, current role-playing training has two significant issues: (I) Using a predefined role profile to prompt dialogue training for specific scenarios usually leads to inconsistencies and even conflicts between the dialogue and the profile, resulting in training biases. (II) The model learns to imitate the role based solely on the profile, neglecting profile-dialogue alignment at the sentence level. In this work, we propose a simple yet effective framework called BEYOND DIALOGUE, designed to overcome these hurdles. This framework innovatively introduces "beyond dialogue" tasks to align dialogue with profile traits based on each specific scenario, thereby eliminating biases during training. Furthermore, by adopting an innovative prompting mechanism that generates reasoning outcomes for training, the framework allows the model to achieve fine-grained alignment between profile and dialogue at the sentence level. The aforementioned methods are fully automated and low-cost. Additionally, the integration of automated dialogue and objective evaluation methods forms a comprehensive framework, paving the way for general role-playing. Experimental results demonstrate that our model excels in adhering to and reflecting various dimensions of role profiles, outperforming most proprietary general and specialized role-playing baselines. All code and datasets are available at https://github.com/yuyouyu32/BeyondDialogue.
Towards an Accessible, Noninvasive Micronutrient Status Assessment Method: A Comprehensive Review of Existing Techniques
分类: 定量方法, 人机交互, J.3; A.1; H.1.2
作者: Andrew Balch, Maria A. Cardei, Sibylle Kranz, Afsaneh Doryab
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.11877v1
摘要: Nutrients are critical to the functioning of the human body and their imbalance can result in detrimental health concerns. The majority of nutritional literature focuses on macronutrients, often ignoring the more critical nuances of micronutrient balance, which require more precise regulation. Currently, micronutrient status is routinely assessed via complex methods that are arduous for both the patient and the clinician. To address the global burden of micronutrient malnutrition, innovations in assessment must be accessible and noninvasive. In support of this task, this article synthesizes useful background information on micronutrients themselves, reviews the state of biofluid and physiological analyses for their assessment, and presents actionable opportunities to push the field forward. By taking a unique, clinical perspective that is absent from technological research on the topic, we find that the state of the art suffers from limited clinical relevance, a lack of overlap between biofluid and physiological approaches, and highly invasive and inaccessible solutions. Future work has the opportunity to maximize the impact of a novel assessment method by incorporating clinical relevance, the holistic nature of micronutrition, and prioritizing accessible and noninvasive systems.
DVRP-MHSI: Dynamic Visualization Research Platform for Multimodal Human-Swarm Interaction
分类: 机器人技术, 人机交互
作者: Pengming Zhu, Zhiwen Zeng, Weijia Yao, Wei Dai, Huimin Lu, Zongtan Zhou
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10861v1
摘要: In recent years, there has been a significant amount of research on algorithms and control methods for distributed collaborative robots. However, the emergence of collective behavior in a swarm is still difficult to predict and control. Nevertheless, human interaction with the swarm helps render the swarm more predictable and controllable, as human operators can utilize intuition or knowledge that is not always available to the swarm. Therefore, this paper designs the Dynamic Visualization Research Platform for Multimodal Human-Swarm Interaction (DVRP-MHSI), which is an innovative open system that can perform real-time dynamic visualization and is specifically designed to accommodate a multitude of interaction modalities (such as brain-computer, eye-tracking, electromyographic, and touch-based interfaces), thereby expediting progress in human-swarm interaction research. Specifically, the platform consists of custom-made low-cost omnidirectional wheeled mobile robots, multitouch screens and two workstations. In particular, the mutitouch screens can recognize human gestures and the shapes of objects placed on them, and they can also dynamically render diverse scenes. One of the workstations processes communication information within robots and the other one implements human-robot interaction methods. The development of DVRP-MHSI frees researchers from hardware or software details and allows them to focus on versatile swarm algorithms and human-swarm interaction methods without being limited to fixed scenarios, tasks, and interfaces. The effectiveness and potential of the platform for human-swarm interaction studies are validated by several demonstrative experiments.
Use Cases for Prospective Sensemaking of Human-AI-Collaboration
分类: 人机交互
作者: Ishara Sudeeptha, Wieland Mueller, Michael Leyer, Alexander Richter, Ferry Nolte
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10812v2
摘要: Our study explores the potential of human-AI collaboration (HAIC) through semi-structured interviews with 14 executives. We identify 63 HAIC use cases and classify them using a novel matrix combining value chain and group work activities. Most use cases identified are related to firm infrastructure and technology development, with very few pertaining to services and procurement, and none to logistics. HAIC is predominantly seen as support for choosing and executing group tasks, with an emphasis on choosing in supporting activities of the value chain. In contrast, primary activities such as operations and marketing focus more on executing group tasks. Few use cases involve negotiating tasks. Beyond identifying and classifying HAIC use cases, we discuss their potential as a tool for prospective sensemaking and to foster strategic managerial decisions.
Exploring the Impact of Word Prediction Assistive Features on Smartphone Keyboards for Blind Users
分类: 人机交互
作者: Mrim M. Alnfiai, Muhammad Ashad Kabir
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10791v1
摘要: Assistive technologies have been developed to enhance blind users' typing performance, focusing on speed, accuracy, and effort reduction. One such technology is word prediction software, designed to minimize keystrokes required for text input. This study investigates the impact of word prediction on typing performance among blind users using an on-screen QWERTY keyboard. We conducted a comparative study involving eleven blind participants, evaluating both standard QWERTY input and word prediction-assisted typing. Our findings reveal that while word prediction slightly improves typing speed, it does not enhance typing accuracy and increases both physical and temporal workload compared to the default keyboard. We conclude with recommendations for improving word prediction systems, including more efficient editing methods and the integration of voice pitch variations to aid error recognition.
Data Ethics and Practices of Human-Nonhuman Sound Technologies and Ecologies
分类: 人机交互
作者: Petra Jääskeläinen, Elin Kanhov
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10756v1
摘要: Human-nonhuman sound interaction and technologies aim to bridge the gap of inter-species communication. While they emerge from attempts to understand and communicate with nonhumans, they also raise questions on the ethics of nonhuman data use, for example regarding the unintended consequences such data extraction can have to nonhumans. In this paper, we discuss power relations and aspects of representation in nonhuman data practices, and their potential critical implications to nonhumans. Drawing from prior research on data ethics and posthumanities, we conceptualize two challenges of nonhuman data ethics for the design of Human-Nonhuman Interaction (HNI) and technologies in sound ecologies. We provide takeaways for how sensitivities toward nonhuman stakeholders can be considered in the design of HNI in the context of sound ecologies.
Incorporating a 'ladder of trust' into dynamic Allocation of Function in Human-Autonomous Agent Collectives
分类: 人机交互
作者: Chris Baber, Patrick Waterson, Sanja Milivojevic, Sally Maynard, Edmund R. Hunt, Sagir Yusuf
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10654v1
摘要: A major, ongoing social transition is the inclusion of autonomous agents into human organizations. For example, in defence and security applications, robots may be used alongside human operatives to reduce risk or add capability. But a key barrier to the transition to successful human-autonomous agent collectives is the need for sufficient trust between team members. A critical enabling factor for this trust will be a suitably designed dynamic allocation of function (AoF). We consider AoF in terms of a 'ladder of trust' (from low to high) with individual team members adjusting trust in their teammates based on variation in 'score' over time. The score is derived by the ability of team member to perceive and understand its situation based on the gathered information and act to acheive team or self goals. Combining these trust scores gives a system-level perspective on how AoF might be adjusted during a mission. That is, the most suitable teammate for a function might have a low trust rating from its fellow teammates, so it might be preferable to choose the next most suitable teammate for the function at that point in time. Of course, this is only in the situation where the next most suitable teammate is also likely to perform within the set framework of moral, ethical, and legal constraints. The trade-offs between trust in the individual agent's capability and predictability need to be considered within the broader context of the agent's integrity and accountability. From this perspective, the Allocation Space is defined by more than ability of each agent to perform a function.
Interactive Counterfactual Generation for Univariate Time Series
分类: 机器学习, 人机交互
作者: Udo Schlegel, Julius Rauscher, Daniel A. Keim
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10633v1
摘要: We propose an interactive methodology for generating counterfactual explanations for univariate time series data in classification tasks by leveraging 2D projections and decision boundary maps to tackle interpretability challenges. Our approach aims to enhance the transparency and understanding of deep learning models' decision processes. The application simplifies the time series data analysis by enabling users to interactively manipulate projected data points, providing intuitive insights through inverse projection techniques. By abstracting user interactions with the projected data points rather than the raw time series data, our method facilitates an intuitive generation of counterfactual explanations. This approach allows for a more straightforward exploration of univariate time series data, enabling users to manipulate data points to comprehend potential outcomes of hypothetical scenarios. We validate this method using the ECG5000 benchmark dataset, demonstrating significant improvements in interpretability and user understanding of time series classification. The results indicate a promising direction for enhancing explainable AI, with potential applications in various domains requiring transparent and interpretable deep learning models. Future work will explore the scalability of this method to multivariate time series data and its integration with other interpretability techniques.
Bidirectional Intent Communication: A Role for Large Foundation Models
分类: 机器人技术, 人机交互
作者: Tim Schreiter, Rishi Hazra, Jens Rüppel, Andrey Rudenko
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10589v1
摘要: Integrating multimodal foundation models has significantly enhanced autonomous agents' language comprehension, perception, and planning capabilities. However, while existing works adopt a \emph{task-centric} approach with minimal human interaction, applying these models to developing assistive \emph{user-centric} robots that can interact and cooperate with humans remains underexplored. This paper introduces ``Bident'', a framework designed to integrate robots seamlessly into shared spaces with humans. Bident enhances the interactive experience by incorporating multimodal inputs like speech and user gaze dynamics. Furthermore, Bident supports verbal utterances and physical actions like gestures, making it versatile for bidirectional human-robot interactions. Potential applications include personalized education, where robots can adapt to individual learning styles and paces, and healthcare, where robots can offer personalized support, companionship, and everyday assistance in the home and workplace environments.
ProgramAlly: Creating Custom Visual Access Programs via Multi-Modal End-User Programming
分类: 人机交互, 人工智能, 编程语言
作者: Jaylin Herskovitz, Andi Xu, Rahaf Alharbi, Anhong Guo
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10499v1
摘要: Existing visual assistive technologies are built for simple and common use cases, and have few avenues for blind people to customize their functionalities. Drawing from prior work on DIY assistive technology, this paper investigates end-user programming as a means for users to create and customize visual access programs to meet their unique needs. We introduce ProgramAlly, a system for creating custom filters for visual information, e.g., 'find NUMBER on BUS', leveraging three end-user programming approaches: block programming, natural language, and programming by example. To implement ProgramAlly, we designed a representation of visual filtering tasks based on scenarios encountered by blind people, and integrated a set of on-device and cloud models for generating and running these programs. In user studies with 12 blind adults, we found that participants preferred different programming modalities depending on the task, and envisioned using visual access programs to address unique accessibility challenges that are otherwise difficult with existing applications. Through ProgramAlly, we present an exploration of how blind end-users can create visual access programs to customize and control their experiences.
Is the Lecture Engaging for Learning? Lecture Voice Sentiment Analysis for Knowledge Graph-Supported Intelligent Lecturing Assistant (ILA) System
分类: 人工智能, 人机交互
作者: Yuan An, Samarth Kolanupaka, Jacob An, Matthew Ma, Unnat Chhatwal, Alex Kalinowski, Michelle Rogers, Brian Smith
发布时间: 2024-08-20
链接: http://arxiv.org/abs/2408.10492v1
摘要: This paper introduces an intelligent lecturing assistant (ILA) system that utilizes a knowledge graph to represent course content and optimal pedagogical strategies. The system is designed to support instructors in enhancing student learning through real-time analysis of voice, content, and teaching methods. As an initial investigation, we present a case study on lecture voice sentiment analysis, in which we developed a training set comprising over 3,000 one-minute lecture voice clips. Each clip was manually labeled as either engaging or non-engaging. Utilizing this dataset, we constructed and evaluated several classification models based on a variety of features extracted from the voice clips. The results demonstrate promising performance, achieving an F1-score of 90% for boring lectures on an independent set of over 800 test voice clips. This case study lays the groundwork for the development of a more sophisticated model that will integrate content analysis and pedagogical practices. Our ultimate goal is to aid instructors in teaching more engagingly and effectively by leveraging modern artificial intelligence techniques.
Visual Storytelling: A Methodological Approach to Designing and Implementing a Visualisation Poster
分类: 人机交互, 图形, I.3.8; K.3.0
作者: Rhiannon Owen, Jonathan Roberts
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.10439v1
摘要: We present a design study of developing a visualisation poster. Posters can be difficult to create, and the story on a poster is not always clear. Using a case-study approach we propose three important aspects: the poster should have a clear focus (especially a hero visualisation), envisioning its use helps to drive the important aspects, and third the essence (its fundamental concept and guiding idea) must be clear. We will use case studies that have focused on the use of the Five Design-Sheet method (FdS) as a way to sketch and plan a visualisation, before successfully implementing and creating the visual poster. The case studies serve as a practical illustration of the workflow, offering a means to explain the three key processes involved: (1) comprehending the data, (2) employing a design study with the FdS (Five Design-Sheet), (3) crafting, evaluating and refining the visualisation.
The Psychological Impacts of Algorithmic and AI-Driven Social Media on Teenagers: A Call to Action
分类: 社交和信息网络, 人工智能, 计算机与社会, 人机交互, H.5.2; I.2.6; J.4; H.3.5
作者: Sunil Arora, Sahil Arora, John D. Hastings
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.10351v1
摘要: This study investigates the meta-issues surrounding social media, which, while theoretically designed to enhance social interactions and improve our social lives by facilitating the sharing of personal experiences and life events, often results in adverse psychological impacts. Our investigation reveals a paradoxical outcome: rather than fostering closer relationships and improving social lives, the algorithms and structures that underlie social media platforms inadvertently contribute to a profound psychological impact on individuals, influencing them in unforeseen ways. This phenomenon is particularly pronounced among teenagers, who are disproportionately affected by curated online personas, peer pressure to present a perfect digital image, and the constant bombardment of notifications and updates that characterize their social media experience. As such, we issue a call to action for policymakers, platform developers, and educators to prioritize the well-being of teenagers in the digital age and work towards creating secure and safe social media platforms that protect the young from harm, online harassment, and exploitation.
Decoding Human Emotions: Analyzing Multi-Channel EEG Data using LSTM Networks
分类: 机器学习, 人工智能, 人机交互
作者: Shyam K Sateesh, Sparsh BK, Uma D
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.10328v1
摘要: Emotion recognition from electroencephalogram (EEG) signals is a thriving field, particularly in neuroscience and Human-Computer Interaction (HCI). This study aims to understand and improve the predictive accuracy of emotional state classification through metrics such as valence, arousal, dominance, and likeness by applying a Long Short-Term Memory (LSTM) network to analyze EEG signals. Using a popular dataset of multi-channel EEG recordings known as DEAP, we look towards leveraging LSTM networks' properties to handle temporal dependencies within EEG signal data. This allows for a more comprehensive understanding and classification of emotional parameter states. We obtain accuracies of 89.89%, 90.33%, 90.70%, and 90.54% for arousal, valence, dominance, and likeness, respectively, demonstrating significant improvements in emotion recognition model capabilities. This paper elucidates the methodology and architectural specifics of our LSTM model and provides a benchmark analysis with existing papers.
A Graph-based Approach to Human Activity Recognition
分类: 软件工程, 人机交互
作者: Thomas Peroutka, Ilir Murturi, Praveen Kumar Donta, Schahram Dustdar
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.10191v1
摘要: Advanced wearable sensor devices have enabled the recording of vast amounts of movement data from individuals regarding their physical activities. This data offers valuable insights that enhance our understanding of how physical activities contribute to improved physical health and overall quality of life. Consequently, there is a growing need for efficient methods to extract significant insights from these rapidly expanding real-time datasets. This paper presents a methodology to efficiently extract substantial insights from these expanding datasets, focusing on professional sports but applicable to various human activities. By utilizing data from Inertial Measurement Units (IMU) and Global Navigation Satellite Systems (GNSS) receivers, athletic performance can be analyzed using directed graphs to encode knowledge of complex movements. Our approach is demonstrated on biathlon data and detects specific points of interest and complex movement sequences, facilitating the comparison and analysis of human physical performance.
Envisioning Possibilities and Challenges of AI for Personalized Cancer Care
分类: 人机交互, 人工智能
作者: Elaine Kong, Kuo-Ting, Huang, Aakash Gautam
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.10108v1
摘要: The use of Artificial Intelligence (AI) in healthcare, including in caring for cancer survivors, has gained significant interest. However, gaps remain in our understanding of how such AI systems can provide care, especially for ethnic and racial minority groups who continue to face care disparities. Through interviews with six cancer survivors, we identify critical gaps in current healthcare systems such as a lack of personalized care and insufficient cultural and linguistic accommodation. AI, when applied to care, was seen as a way to address these issues by enabling real-time, culturally aligned, and linguistically appropriate interactions. We also uncovered concerns about the implications of AI-driven personalization, such as data privacy, loss of human touch in caregiving, and the risk of echo chambers that limit exposure to diverse information. We conclude by discussing the trade-offs between AI-enhanced personalization and the need for structural changes in healthcare that go beyond technological solutions, leading us to argue that we should begin by asking, ``Why personalization?''
Working in Extended Reality in the Wild: Worker and Bystander Experiences of XR Virtual Displays in Real-World Settings
分类: 人机交互
作者: Leonardo Pavanatto, Verena Biener, Jennifer Chandran, Snehanjali Kalamkar, Feiyu Lu, John J. Dudley, Jinghui Hu, G. Nikki Ramirez-Saffy, Per Ola Kristensson, Alexander Giovannelli, Luke Schlueter, Jörg Müller, Jens Grubert, Doug A. Bowman
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.10000v1
摘要: Although access to sufficient screen space is crucial to knowledge work, workers often find themselves with limited access to display infrastructure in remote or public settings. While virtual displays can be used to extend the available screen space through extended reality (XR) head-worn displays (HWD), we must better understand the implications of working with them in public settings from both users' and bystanders' viewpoints. To this end, we conducted two user studies. We first explored the usage of a hybrid AR display across real-world settings and tasks. We focused on how users take advantage of virtual displays and what social and environmental factors impact their usage of the system. A second study investigated the differences between working with a laptop, an AR system, or a VR system in public. We focused on a single location and participants performed a predefined task to enable direct comparisons between the conditions while also gathering data from bystanders. The combined results suggest a positive acceptance of XR technology in public settings and show that virtual displays can be used to accompany existing devices. We highlighted some environmental and social factors. We saw that previous XR experience and personality can influence how people perceive the use of XR in public. In addition, we confirmed that using XR in public still makes users stand out and that bystanders are curious about the devices, yet have no clear understanding of how they can be used.
WoW -- A System for Self-Service Collaborative Design Workshops
分类: 人机交互, H.5.2; H.5.3; H.4.2
作者: Ilyasse Belkacem, Vasile Ciorna, Frank Petry, Mohammad Ghoniem
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.09926v1
摘要: In many working environments, users have to solve complex problems relying on large and multi-source data. Such problems require several experts to collaborate on solving them, or a single analyst to reconcile multiple complementary standpoints. Previous research has shown that wall-sized displays supports different collaboration styles, based most often on abstract tasks as proxies of real work. We present the design and implementation of WoW, short for ``Workspace on Wall'', a multi-user Web-based portal for collaborative meetings and workshops in multi-surface environments. We report on a two-year effort spanning context inquiry studies, system design iterations, development, and real testing rounds targeting design engineers in the tire industry. The pneumatic tires found on the market result from a highly collaborative and iterative development process that reconciles conflicting constraints through a series of product design workshops. WoW was found to be a flexible solution to build multi-view set-ups in a self-service manner and an effective means to access more content at once. Our users also felt more engaged in their collaborative problem-solving work using WoW than in conventional meeting rooms.
LCE: A Framework for Explainability of DNNs for Ultrasound Image Based on Concept Discovery
分类: 人工智能, 计算机视觉和模式识别, 人机交互
作者: Weiji Kong, Xun Gong, Juan Wang
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.09899v1
摘要: Explaining the decisions of Deep Neural Networks (DNNs) for medical images has become increasingly important. Existing attribution methods have difficulty explaining the meaning of pixels while existing concept-based methods are limited by additional annotations or specific model structures that are difficult to apply to ultrasound images. In this paper, we propose the Lesion Concept Explainer (LCE) framework, which combines attribution methods with concept-based methods. We introduce the Segment Anything Model (SAM), fine-tuned on a large number of medical images, for concept discovery to enable a meaningful explanation of ultrasound image DNNs. The proposed framework is evaluated in terms of both faithfulness and understandability. We point out deficiencies in the popular faithfulness evaluation metrics and propose a new evaluation metric. Our evaluation of public and private breast ultrasound datasets (BUSI and FG-US-B) shows that LCE performs well compared to commonly-used explainability methods. Finally, we also validate that LCE can consistently provide reliable explanations for more meaningful fine-grained diagnostic tasks in breast ultrasound.
Dynamic Shaping of Multi-Touch Stimuli by Programmable Acoustic Metamaterial
分类: 应用物理, 人机交互
作者: Thomas Daunizeau, Sinan Haliyo, David Gueorguiev, Vincent Hayward
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.09829v1
摘要: Acoustic metamaterials are artificial structures, often lattice of resonators, with unusual properties. They can be engineered to stop wave propagation in specific frequency bands. Once manufactured, their dispersive qualities remain invariant in time and space, limiting their practical use. Actively tuned arrangements have received growing interest to address this issue. Here, we introduce a new class of active metamaterial made from dual-state unit cells, either vibration sources when powered or passive resonators when left disconnected. They possess self-tuning capabilities, enabling deep subwavelength band gaps to automatically match the carrier signal of powered cells, typically around 200Hz. Swift electronic commutations between both states establish the basis for real-time reconfiguration of waveguides and shaping of vibration patterns. A series of experiments highlight how these tailored acceleration fields can spatially encode information relevant to human touch. This novel metamaterial can readily be made using off-the-shelf smartphone vibration motors, paving the way for a widespread adoption of multi-touch tactile displays.
A Population-to-individual Tuning Framework for Adapting Pretrained LM to On-device User Intent Prediction
分类: 机器学习, 人机交互
作者: Jiahui Gong, Jingtao Ding, Fanjin Meng, Guilong Chen, Hong Chen, Shen Zhao, Haisheng Lu, Yong Li
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.09815v1
摘要: Mobile devices, especially smartphones, can support rich functions and have developed into indispensable tools in daily life. With the rise of generative AI services, smartphones can potentially transform into personalized assistants, anticipating user needs and scheduling services accordingly. Predicting user intents on smartphones, and reflecting anticipated activities based on past interactions and context, remains a pivotal step towards this vision. Existing research predominantly focuses on specific domains, neglecting the challenge of modeling diverse event sequences across dynamic contexts. Leveraging pre-trained language models (PLMs) offers a promising avenue, yet adapting PLMs to on-device user intent prediction presents significant challenges. To address these challenges, we propose PITuning, a Population-to-Individual Tuning framework. PITuning enhances common pattern extraction through dynamic event-to-intent transition modeling and addresses long-tailed preferences via adaptive unlearning strategies. Experimental results on real-world datasets demonstrate PITuning's superior intent prediction performance, highlighting its ability to capture long-tailed preferences and its practicality for on-device prediction scenarios.
Baby Bear: Seeking a Just Right Rating Scale for Scalar Annotations
分类: 机器学习, 人机交互
作者: Xu Han, Felix Yu, Joao Sedoc, Benjamin Van Durme
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.09765v1
摘要: Our goal is a mechanism for efficiently assigning scalar ratings to each of a large set of elements. For example, "what percent positive or negative is this product review?" When sample sizes are small, prior work has advocated for methods such as Best Worst Scaling (BWS) as being more robust than direct ordinal annotation ("Likert scales"). Here we first introduce IBWS, which iteratively collects annotations through Best-Worst Scaling, resulting in robustly ranked crowd-sourced data. While effective, IBWS is too expensive for large-scale tasks. Using the results of IBWS as a best-desired outcome, we evaluate various direct assessment methods to determine what is both cost-efficient and best correlating to a large scale BWS annotation strategy. Finally, we illustrate in the domains of dialogue and sentiment how these annotations can support robust learning-to-rank models.
SMART-TBI: Design and Evaluation of the Social Media Accessibility and Rehabilitation Toolkit for Users with Traumatic Brain Injury
分类: 人机交互, 68-06
作者: Yaxin Hu, Hajin Lim, Lisa Kakonge, Jade T. Mitchell, Hailey L. Johnson, Lyn Turkstra, Melissa C. Duff, Catalina L. Toma, Bilge Mutlu
发布时间: 2024-08-19
链接: http://arxiv.org/abs/2408.09683v1
摘要: Traumatic brain injury (TBI) can cause a range of cognitive and communication challenges that negatively affect social participation in both face-to-face interactions and computer-mediated communication. In particular, individuals with TBI report barriers that limit access to participation on social media platforms. To improve access to and use of social media for users with TBI, we introduce the Social Media Accessibility and Rehabilitation Toolkit (\textbf{SMART-TBI}). The toolkit includes five aids (Writing Aid, Interpretation Aid, Filter Mode, Focus Mode, and Facebook Customization) designed to address the cognitive and communicative needs of individuals with TBI. We asked eight users with moderate-severe TBI and five TBI rehabilitation experts to evaluate each aid. Our findings revealed potential benefits of aids and areas for improvement, including the need for psychological safety, privacy control, and balancing business and accessibility needs; and overall mixed reactions among the participants to AI-based aids.
Infinite Scrolling, Finite Satisfaction: Exploring User Behavior and Satisfaction on Social Media in Bangladesh
分类: 人机交互
作者: Sanzana Karim Lora, Sadia Afrin Purba, Bushra Hossain, Tanjina Oriana, Ashek Seum
发布时间: 2024-08-18
链接: http://arxiv.org/abs/2408.09601v1
摘要: Social media platforms continue to change our digital relationships nowadays. Therefore, recognizing the complex consequences of infinite scrolling is essential. This paper explores two distinct angles of social media engagement: mindless scrolling and mindful scrolling. This extensive study dives into numerous aspects of social media user behavior and satisfaction via the perspective of multiple surveys. We investigate the psychological exploit of infinite scrolling design to keep users engaged, illuminating its effect on users' emotional well-being. Furthermore, we explore its diverse effects on various groups, such as teenagers, professional people, and pregnant women, to better understand how digital activity differs throughout life phases. Furthermore, our study reveals the psychological consequences of being exposed to unfavorable news material. In the context of nutritional objectives, we examine the problems users confront as well as the significance of scrolling in dietary achievement. By taking into account the demographic effect, we can determine how factors like age, gender, and socioeconomic position affect user behavior. This study presents a comprehensive knowledge of the complicated connection of infinite scrolling with user satisfaction and psychological well-being through a variety of surveys, opening the door for well-informed conversations on online engagement.
Game Development as Human-LLM Interaction
分类: 人工智能, 计算和语言, 人机交互
作者: Jiale Hong, Hongqiu Wu, Hai Zhao
发布时间: 2024-08-18
链接: http://arxiv.org/abs/2408.09386v1
摘要: Game development is a highly specialized task that relies on a complex game engine powered by complex programming languages, preventing many gaming enthusiasts from handling it. This paper introduces the Interaction-driven Game Engine (IGE) powered by LLM, which allows everyone to develop a custom game using natural language through Human-LLM interaction. To enable an LLM to function as an IGE, we instruct it to perform the following processes in each turn: (1) $P_{script}$ : configure the game script segment based on the user's input; (2) $P_{code}$ : generate the corresponding code snippet based on the game script segment; (3) $P_{utter}$ : interact with the user, including guidance and feedback. We propose a data synthesis pipeline based on the LLM to generate game script-code pairs and interactions from a few manually crafted seed data. We propose a three-stage progressive training strategy to transfer the dialogue-based LLM to our IGE smoothly. We construct an IGE for poker games as a case study and comprehensively evaluate it from two perspectives: interaction quality and code correctness. The code and data are available at \url{https://github.com/alterego238/IGE}.
VRCopilot: Authoring 3D Layouts with Generative AI Models in VR
分类: 人机交互, 人工智能, 新兴技术
作者: Lei Zhang, Jin Pan, Jacob Gettig, Steve Oney, Anhong Guo
发布时间: 2024-08-18
链接: http://arxiv.org/abs/2408.09382v1
摘要: Immersive authoring provides an intuitive medium for users to create 3D scenes via direct manipulation in Virtual Reality (VR). Recent advances in generative AI have enabled the automatic creation of realistic 3D layouts. However, it is unclear how capabilities of generative AI can be used in immersive authoring to support fluid interactions, user agency, and creativity. We introduce VRCopilot, a mixed-initiative system that integrates pre-trained generative AI models into immersive authoring to facilitate human-AI co-creation in VR. VRCopilot presents multimodal interactions to support rapid prototyping and iterations with AI, and intermediate representations such as wireframes to augment user controllability over the created content. Through a series of user studies, we evaluated the potential and challenges in manual, scaffolded, and automatic creation in immersive authoring. We found that scaffolded creation using wireframes enhanced the user agency compared to automatic creation. We also found that manual creation via multimodal specification offers the highest sense of creativity and agency.
Auptimize: Optimal Placement of Spatial Audio Cues for Extended Reality
分类: 人机交互, 声音, 音频和语音处理, H.5.1; H.5.2; H.5.5
作者: Hyunsung Cho, Alexander Wang, Divya Kartik, Emily Liying Xie, Yukang Yan, David Lindlbauer
发布时间: 2024-08-18
链接: http://arxiv.org/abs/2408.09320v1
摘要: Spatial audio in Extended Reality (XR) provides users with better awareness of where virtual elements are placed, and efficiently guides them to events such as notifications, system alerts from different windows, or approaching avatars. Humans, however, are inaccurate in localizing sound cues, especially with multiple sources due to limitations in human auditory perception such as angular discrimination error and front-back confusion. This decreases the efficiency of XR interfaces because users misidentify from which XR element a sound is coming. To address this, we propose Auptimize, a novel computational approach for placing XR sound sources, which mitigates such localization errors by utilizing the ventriloquist effect. Auptimize disentangles the sound source locations from the visual elements and relocates the sound sources to optimal positions for unambiguous identification of sound cues, avoiding errors due to inter-source proximity and front-back confusion. Our evaluation shows that Auptimize decreases spatial audio-based source identification errors compared to playing sound cues at the paired visual-sound locations. We demonstrate the applicability of Auptimize for diverse spatial audio-based interactive XR scenarios.
Evaluating Usability and Engagement of Large Language Models in Virtual Reality for Traditional Scottish Curling
分类: 人机交互, 人工智能
作者: Ka Hei Carrie Lau, Efe Bozkir, Hong Gao, Enkelejda Kasneci
发布时间: 2024-08-17
链接: http://arxiv.org/abs/2408.09285v1
摘要: This paper explores the innovative application of Large Language Models (LLMs) in Virtual Reality (VR) environments to promote heritage education, focusing on traditional Scottish curling presented in the game ``Scottish Bonspiel VR''. Our study compares the effectiveness of LLM-based chatbots with pre-defined scripted chatbots, evaluating key criteria such as usability, user engagement, and learning outcomes. The results show that LLM-based chatbots significantly improve interactivity and engagement, creating a more dynamic and immersive learning environment. This integration helps document and preserve cultural heritage and enhances dissemination processes, which are crucial for safeguarding intangible cultural heritage (ICH) amid environmental changes. Furthermore, the study highlights the potential of novel technologies in education to provide immersive experiences that foster a deeper appreciation of cultural heritage. These findings support the wider application of LLMs and VR in cultural education to address global challenges and promote sustainable practices to preserve and enhance cultural heritage.
Social VR for Professional Networking: A Spatial Perspective
分类: 人机交互
作者: Victoria Chang, Ge Gao, Huaishu Peng
发布时间: 2024-08-17
链接: http://arxiv.org/abs/2408.09280v1
摘要: One essential function of professional events, such as industry trade shows and academic conferences, is to foster and extend a person's connections to others within the community of their interest. In this paper, we delve into the emerging practice transitioning these events from physical venues to social VR as a new medium. Specifically, we ask: how does the spatial design in social VR affect the attendee's networking behaviors and experiences at these events? To answer this question, we conducted in-situ observations and in-depth interviews with 13 participants. Each of them had attended or hosted at least one real-world professional event taking place in social VR. We identified four elements of VR spatial design that shaped social interactions at these events: area size, which influenced a person's perceived likelihood of encountering others; pathways connecting areas, which guided their planning of the next activity to perform; magnets in areas, which facilitated spontaneous gatherings among people; and conventionality, which affected the assessment of a person's behavior appropriateness. Some of these elements were interpreted differently depending on the role of the participant, i.e., event hosts vs. attendees. We concluded this paper with multiple design implications derived from our findings.
EEG-SCMM: Soft Contrastive Masked Modeling for Cross-Corpus EEG-Based Emotion Recognition
分类: 人机交互, 人工智能
作者: Qile Liu, Weishan Ye, Yulu Liu, Zhen Liang
发布时间: 2024-08-17
链接: http://arxiv.org/abs/2408.09186v1
摘要: Emotion recognition using electroencephalography (EEG) signals has garnered widespread attention in recent years. However, existing studies have struggled to develop a sufficiently generalized model suitable for different datasets without re-training (cross-corpus). This difficulty arises because distribution differences across datasets far exceed the intra-dataset variability. To solve this problem, we propose a novel Soft Contrastive Masked Modeling (SCMM) framework. Inspired by emotional continuity, SCMM integrates soft contrastive learning with a new hybrid masking strategy to effectively mine the "short-term continuity" characteristics inherent in human emotions. During the self-supervised learning process, soft weights are assigned to sample pairs, enabling adaptive learning of similarity relationships across samples. Furthermore, we introduce an aggregator that weightedly aggregates complementary information from multiple close samples based on pairwise similarities among samples to enhance fine-grained feature representation, which is then used for original sample reconstruction. Extensive experiments on the SEED, SEED-IV and DEAP datasets show that SCMM achieves state-of-the-art (SOTA) performance, outperforming the second-best method by an average accuracy of 4.26% under two types of cross-corpus conditions (same-class and different-class) for EEG-based emotion recognition.
Measuring Visual Sycophancy in Multimodal Models
分类: 人工智能, 计算和语言, 计算机视觉和模式识别, 人机交互
作者: Jaehyuk Lim, Bruce W. Lee
发布时间: 2024-08-17
链接: http://arxiv.org/abs/2408.09111v1
摘要: This paper introduces and examines the phenomenon of "visual sycophancy" in multimodal language models, a term we propose to describe these models' tendency to disproportionately favor visually presented information, even when it contradicts their prior knowledge or responses. Our study employs a systematic methodology to investigate this phenomenon: we present models with images of multiple-choice questions, which they initially answer correctly, then expose the same model to versions with visually pre-marked options. Our findings reveal a significant shift in the models' responses towards the pre-marked option despite their previous correct answers. Comprehensive evaluations demonstrate that visual sycophancy is a consistent and quantifiable behavior across various model architectures. Our findings highlight potential limitations in the reliability of these models when processing potentially misleading visual information, raising important questions about their application in critical decision-making contexts.
Not Too Long, Not Too Short: Goldilocks Principle of 'Optimal' Reflection Time on Online Deliberation Platforms
分类: 人机交互
作者: ShunYi Yeo, Simon Tangi Perrault
发布时间: 2024-08-17
链接: http://arxiv.org/abs/2408.09084v1
摘要: The deliberative potential of online platforms has been widely examined but the impact of reflection time on the quality of deliberation remains under-explored. This paper presents two user studies involving 100 and 72 participants respectively, to investigate the impact of reflection time on the quality of deliberation in minute-scale deliberations. In the first study, we identified an optimal reflection time for composing short opinion comments. In the second study, we introduced four distinct interface-based time nudges aimed at encouraging reflection near the optimal time. While these nudges may not improve the quality of deliberation, they effectively prolonged reflection periods. Additionally, we observed mixed effects on users' experience, influenced by the nature of the time nudges. Our findings suggest that reflection time is crucial, particularly for users who typically deliberate below the optimal reflection threshold.
Me want cookie! Towards automated and transparent data governance on the Web
分类: 人机交互, 计算机与社会
作者: Jesse Wright, Beatriz Esteves, Rui Zhao
发布时间: 2024-08-17
链接: http://arxiv.org/abs/2408.09071v1
摘要: This paper presents a sociotechnical vision for managing personal data, including cookies, within Web browsers. We first present our vision for a future of semi-automated data governance on the Web, using policy languages to describe data terms of use, and having browsers act on behalf of users to enact policy-based controls. Then, we present an overview of the technical research required to {prove} that existing policy languages express a sufficient range of concepts for describing cookie policies on the Web today. We view this work as a stepping stone towards a future of semi-automated data governance at Web-scale, which in the long term will also be used by next-generation Web technologies such as Web agents and Solid.
Language Models Show Stable Value Orientations Across Diverse Role-Plays
分类: 计算和语言, 人工智能, 人机交互
作者: Bruce W. Lee, Yeongheon Lee, Hyunsoo Cho
发布时间: 2024-08-16
链接: http://arxiv.org/abs/2408.09049v1
摘要: We demonstrate that large language models (LLMs) exhibit consistent value orientations despite adopting diverse personas, revealing a persistent inertia in their responses that remains stable across the variety of roles they are prompted to assume. To systematically explore this phenomenon, we introduce the role-play-at-scale methodology, which involves prompting LLMs with randomized, diverse personas and analyzing the macroscopic trend of their responses. Unlike previous works that simply feed these questions to LLMs as if testing human subjects, our role-play-at-scale methodology diagnoses inherent tendencies in a systematic and scalable manner by: (1) prompting the model to act in different random personas and (2) asking the same question multiple times for each random persona. This approach reveals consistent patterns in LLM responses across diverse role-play scenarios, indicating deeply encoded inherent tendencies. Our findings contribute to the discourse on value alignment in foundation models and demonstrate the efficacy of role-play-at-scale as a diagnostic tool for uncovering encoded biases in LLMs.
Keep Calm and Relax -- HMI for Autonomous Vehicles
分类: 人工智能, 计算机与社会, 人机交互, H.4; J.7
作者: Tima M. Yekta, Julius Schöning
发布时间: 2024-08-16
链接: http://arxiv.org/abs/2408.09046v1
摘要: The growing popularity of self-driving, so-called autonomous vehicles has increased the need for human-machine interfaces(HMI) and user interaction(UI) to enhance passenger trust and comfort. While fallback drivers significantly influence the perceived trustfulness of self-driving vehicles, fallback drivers are an expensive solution that may not even improve vehicle safety in emergency situations. Based on a comprehensive literature review, this work delves into the potential of HMI and UI in enhancing trustfulness and emotion regulation in driverless vehicles. By analyzing the impact of various HMI and UI on passenger emotions, innovative and cost-effective concepts for improving human-vehicle interaction are conceptualized. To enable a trustful, highly comfortable, and safe ride, this work concludes by discussing whether HMI and UI are suitable for calming passengers down in emergencies, leading to smarter mobility for all.
Studying the Effects of Collaboration in Interactive Theme Discovery Systems
分类: 计算和语言, 人机交互
作者: Alvin Po-Chun Chen, Dananjay Srinivas, Alexandra Barry, Maksim Seniw, Maria Leonor Pacheco
发布时间: 2024-08-16
链接: http://arxiv.org/abs/2408.09030v1
摘要: NLP-assisted solutions have gained considerable traction to support qualitative data analysis. However, there does not exist a unified evaluation framework that can account for the many different settings in which qualitative researchers may employ them. In this paper, we take a first step in this direction by proposing an evaluation framework to study the way in which different tools may result in different outcomes depending on the collaboration strategy employed. Specifically, we study the impact of synchronous vs. asynchronous collaboration using two different NLP-assisted qualitative research tools and present a comprehensive analysis of significant differences in the consistency, cohesiveness, and correctness of their outputs.
SpreadLine: Visualizing Egocentric Dynamic Influence
分类: 人机交互
作者: Yun-Hsin Kuo, Dongyu Liu, Kwan-Liu Ma
发布时间: 2024-08-16
链接: http://arxiv.org/abs/2408.08992v1
摘要: Egocentric networks, often visualized as node-link diagrams, portray the complex relationship (link) dynamics between an entity (node) and others. However, common analytics tasks are multifaceted, encompassing interactions among four key aspects: strength, function, structure, and content. Current node-link visualization designs may fall short, focusing narrowly on certain aspects and neglecting the holistic, dynamic nature of egocentric networks. To bridge this gap, we introduce SpreadLine, a novel visualization framework designed to enable the visual exploration of egocentric networks from these four aspects at the microscopic level. Leveraging the intuitive appeal of storyline visualizations, SpreadLine adopts a storyline-based design to represent entities and their evolving relationships. We further encode essential topological information in the layout and condense the contextual information in a metro map metaphor, allowing for a more engaging and effective way to explore temporal and attribute-based information. To guide our work, with a thorough review of pertinent literature, we have distilled a task taxonomy that addresses the analytical needs specific to egocentric network exploration. Acknowledging the diverse analytical requirements of users, SpreadLine offers customizable encodings to enable users to tailor the framework for their tasks. We demonstrate the efficacy and general applicability of SpreadLine through three diverse real-world case studies (disease surveillance, social media trends, and academic career evolution) and a usability study.
CPS-TaskForge: Generating Collaborative Problem Solving Environments for Diverse Communication Tasks
分类: 人机交互
作者: Nikita Haduong, Irene Wang, Bo-Ru Lu, Prithviraj Ammanabrolu, Noah A. Smith
发布时间: 2024-08-16
链接: http://arxiv.org/abs/2408.08853v1
摘要: Teams can outperform individuals; could adding AI teammates further bolster performance of teams solving problems collaboratively? Collaborative problem solving (CPS) research commonly studies teams with two agents (human-human or human-AI), but team research literature finds that, for complex tasks, larger teams are more effective. Progress in studying collaboration with more than two agents, through textual records of team interactions, is hindered by a major data challenge: available CPS corpora are predominantly dyadic, and adapting pre-existing CPS tasks to more agents is non-trivial. We address this data challenge by developing a CPS task generator, CPS-TaskForge, that can produce environments for studying CPS under a wide array of conditions, and releasing a CPS task design checklist grounded in the theoretical PISA 2015 CPS framework to help facilitate the development of CPS corpora with more agents. CPS-TaskForge takes the form of a resource management (tower defense) game, and different CPS tasks can be studied by manipulating game design parameters. We conduct a case study with groups of 3-4 humans to validate production of diverse natural language CPS communication in a game instance produced by CPS-TaskForge. We discuss opportunities for advancing research in CPS (both with human-only and human-AI teams) using different task configurations. We will release data and code.
Risks and NLP Design: A Case Study on Procedural Document QA
分类: 计算和语言, 人机交互
作者: Nikita Haduong, Alice Gao, Noah A. Smith
发布时间: 2024-08-16
链接: http://arxiv.org/abs/2408.11860v1
摘要: As NLP systems are increasingly deployed at scale, concerns about their potential negative impacts have attracted the attention of the research community, yet discussions of risk have mostly been at an abstract level and focused on generic AI or NLP applications. We argue that clearer assessments of risks and harms to users--and concrete strategies to mitigate them--will be possible when we specialize the analysis to more concrete applications and their plausible users. As an illustration, this paper is grounded in cooking recipe procedural document question answering (ProcDocQA), where there are well-defined risks to users such as injuries or allergic reactions. Our case study shows that an existing language model, applied in "zero-shot" mode, quantitatively answers real-world questions about recipes as well or better than the humans who have answered the questions on the web. Using a novel questionnaire informed by theoretical work on AI risk, we conduct a risk-oriented error analysis that could then inform the design of a future system to be deployed with lower risk of harm and better performance.
A Transparency Paradox? Investigating the Impact of Explanation Specificity and Autonomous Vehicle Perceptual Inaccuracies on Passengers
分类: 人机交互, 人工智能, 计算机与社会, 机器学习, 机器人技术
作者: Daniel Omeiza, Raunak Bhattacharyya, Marina Jirotka, Nick Hawes, Lars Kunze
发布时间: 2024-08-16
链接: http://arxiv.org/abs/2408.08785v1
摘要: Transparency in automated systems could be afforded through the provision of intelligible explanations. While transparency is desirable, might it lead to catastrophic outcomes (such as anxiety), that could outweigh its benefits? It's quite unclear how the specificity of explanations (level of transparency) influences recipients, especially in autonomous driving (AD). In this work, we examined the effects of transparency mediated through varying levels of explanation specificity in AD. We first extended a data-driven explainer model by adding a rule-based option for explanation generation in AD, and then conducted a within-subject lab study with 39 participants in an immersive driving simulator to study the effect of the resulting explanations. Specifically, our investigation focused on: (1) how different types of explanations (specific vs. abstract) affect passengers' perceived safety, anxiety, and willingness to take control of the vehicle when the vehicle perception system makes erroneous predictions; and (2) the relationship between passengers' behavioural cues and their feelings during the autonomous drives. Our findings showed that passengers felt safer with specific explanations when the vehicle's perception system had minimal errors, while abstract explanations that hid perception errors led to lower feelings of safety. Anxiety levels increased when specific explanations revealed perception system errors (high transparency). We found no significant link between passengers' visual patterns and their anxiety levels. Our study suggests that passengers prefer clear and specific explanations (high transparency) when they originate from autonomous vehicles (AVs) with optimal perceptual accuracy.
TextCAVs: Debugging vision models using text
分类: 机器学习, 人工智能, 人机交互, I.2.1; I.2.6
作者: Angus Nicolson, Yarin Gal, J. Alison Noble
发布时间: 2024-08-16
链接: http://arxiv.org/abs/2408.08652v1
摘要: Concept-based interpretability methods are a popular form of explanation for deep learning models which provide explanations in the form of high-level human interpretable concepts. These methods typically find concept activation vectors (CAVs) using a probe dataset of concept examples. This requires labelled data for these concepts -- an expensive task in the medical domain. We introduce TextCAVs: a novel method which creates CAVs using vision-language models such as CLIP, allowing for explanations to be created solely using text descriptions of the concept, as opposed to image exemplars. This reduced cost in testing concepts allows for many concepts to be tested and for users to interact with the model, testing new ideas as they are thought of, rather than a delay caused by image collection and annotation. In early experimental results, we demonstrate that TextCAVs produces reasonable explanations for a chest x-ray dataset (MIMIC-CXR) and natural images (ImageNet), and that these explanations can be used to debug deep learning-based models.
Models Matter: Setting Accurate Privacy Expectations for Local and Central Differential Privacy
分类: 密码学和安全, 人机交互
作者: Mary Anne Smart, Priyanka Nanayakkara, Rachel Cummings, Gabriel Kaptchuk, Elissa Redmiles
发布时间: 2024-08-16
链接: http://arxiv.org/abs/2408.08475v2
摘要: Differential privacy is a popular privacy-enhancing technology that has been deployed both in industry and government agencies. Unfortunately, existing explanations of differential privacy fail to set accurate privacy expectations for data subjects, which depend on the choice of deployment model. We design and evaluate new explanations of differential privacy for the local and central models, drawing inspiration from prior work explaining other privacy-enhancing technologies. We find that consequences-focused explanations in the style of privacy nutrition labels that lay out the implications of differential privacy are a promising approach for setting accurate privacy expectations. Further, we find that while process-focused explanations are not enough to set accurate privacy expectations, combining consequences-focused explanations with a brief description of how differential privacy works leads to greater trust.
Voicing Uncertainty: How Speech, Text, and Visualizations Influence Decisions with Data Uncertainty
分类: 人机交互, H.5.0
作者: Chase Stokes, Chelsea Sanker, Bridget Cogley, Vidya Setlur
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.08438v1
摘要: Understanding and communicating data uncertainty is crucial for informed decision-making across various domains, including finance, healthcare, and public policy. This study investigates the impact of gender and acoustic variables on decision-making, confidence, and trust through a crowdsourced experiment. We compared visualization-only representations of uncertainty to text-forward and speech-forward bimodal representations, including multiple synthetic voices across gender. Speech-forward representations led to an increase in risky decisions, and text-forward representations led to lower confidence. Contrary to prior work, speech-forward forecasts did not receive higher ratings of trust. Higher normalized pitch led to a slight increase in decision confidence, but other voice characteristics had minimal impact on decisions and trust. An exploratory analysis of accented speech showed consistent results with the main experiment and additionally indicated lower trust ratings for information presented in Indian and Kenyan accents. The results underscore the importance of considering acoustic and contextual factors in presentation of data uncertainty.
Understanding Help-Seeking Behavior of Students Using LLMs vs. Web Search for Writing SQL Queries
分类: 人机交互, 人工智能, 计算机与社会, 数据库
作者: Harsh Kumar, Mohi Reza, Jeb Mitchell, Ilya Musabirov, Lisa Zhang, Michael Liut
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.08401v1
摘要: Growth in the use of large language models (LLMs) in programming education is altering how students write SQL queries. Traditionally, students relied heavily on web search for coding assistance, but this has shifted with the adoption of LLMs like ChatGPT. However, the comparative process and outcomes of using web search versus LLMs for coding help remain underexplored. To address this, we conducted a randomized interview study in a database classroom to compare web search and LLMs, including a publicly available LLM (ChatGPT) and an instructor-tuned LLM, for writing SQL queries. Our findings indicate that using an instructor-tuned LLM required significantly more interactions than both ChatGPT and web search, but resulted in a similar number of edits to the final SQL query. No significant differences were found in the quality of the final SQL queries between conditions, although the LLM conditions directionally showed higher query quality. Furthermore, students using instructor-tuned LLM reported a lower mental demand. These results have implications for learning and productivity in programming education.
Retail-GPT: leveraging Retrieval Augmented Generation (RAG) for building E-commerce Chat Assistants
分类: 信息检索, 人工智能, 计算和语言, 人机交互
作者: Bruno Amaral Teixeira de Freitas, Roberto de Alencar Lotufo
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.08925v1
摘要: This work presents Retail-GPT, an open-source RAG-based chatbot designed to enhance user engagement in retail e-commerce by guiding users through product recommendations and assisting with cart operations. The system is cross-platform and adaptable to various e-commerce domains, avoiding reliance on specific chat applications or commercial activities. Retail-GPT engages in human-like conversations, interprets user demands, checks product availability, and manages cart operations, aiming to serve as a virtual sales agent and test the viability of such assistants across different retail businesses.
有标记还是无标记?适用于各种机器人任务的模式可切换光学触觉传感
分类: 机器人技术, 人机交互
作者: Ni Ou, Zhuo Chen, Shan Luo
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.08276v1
摘要: 光学触觉传感器在机器人感知和操纵任务中发挥着关键作用。这些传感器的膜可以涂有标记或保持无标记,使它们能够在有标记或无标记模式下工作。然而,这种单模态选择意味着传感器仅适用于操纵或感知任务。虽然标记对于操作至关重要,但它们也会阻碍相机,从而妨碍感知。在有标记和无标记模式之间进行选择的困境是一个重大障碍。为了解决这个问题,我们提出了一种新颖的模式可切换光学触觉传感方法,可以促进两种模式之间的转换。标记到无标记的转换是通过生成模型实现的,而其逆转换是使用稀疏监督回归模型实现的。我们的方法允许单模光学传感器在标记和无标记模式下有效运行,而不需要额外的硬件,使其非常适合感知和操纵任务。大量的实验验证了我们方法的有效性。对于感知任务,我们的方法将包含错误分类样本的类别数量减少了 2 个,并将接触区域分割 IoU 提高了 3.53%。对于操纵任务,我们的方法在滑动检测中获得了 92.59% 的高成功率。代码、数据集和演示视频可在项目网站上获取:https://gitouni.github.io/Marker-Markerless-Transition/
逃离课堂
分类: 人机交互
作者: John O'Connor
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.08273v1
摘要: 教育逃生室(EER)通过沉浸式讲故事和抽象概念的实际应用,提出了一种吸引学习者参与各种学科的新颖技术。然而,建造新的实体逃生室需要大量的时间和材料投入,而之前创建数字逃生室的尝试导致游戏缺乏使实体逃生室如此引人注目的沉浸式品质。本文介绍了 ESCape the Classroom,这是一个用于创建虚拟现实教育逃生室 (VR EER) 的 Web 框架,可以将其交付给任何联网设备。该框架配备了使用 HTML 和 Web 组件设计和部署复杂的多房间 VR 逃生体验的基本工具。它旨在供具有基本编程技能的教育工作者使用,无需高级游戏编程或开发专业知识。使用该平台创建的 VR EER 可以作为 WebXR 网站在线发布,这些网站与广泛的 VR 硬件(包括 Meta Quest 3)兼容,使教育工作者能够分享他们创建的体验,同时无需在设备上安装额外的软件。本文将介绍 ESCape the Classroom 的设计和实现,并讨论该平台在教育环境中使用的潜力。
“我试图展现真实的自己”:通过体现社交 VR 化身的隐形残疾人的自我呈现偏好
分类: 人机交互
作者: Ria J. Gualano, Lucy Jiang, Kexin Zhang, Tanisha Shende, Andrea Stevenson Won, Shiri Azenkot
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.08193v1
摘要: 随着社交虚拟现实 (VR) 的日益普及,设计具有包容性的化身至关重要。虽然研究人员已经调查了盲人和聋哑人希望在 VR 中披露自己的残疾的方式和原因,但对于许多其他患有隐形残疾(例如多动症、阅读障碍、慢性病)的人的偏好却知之甚少。我们通过采访 15 名参与者来填补这一空白,每名参与者都有 1 到 3 名隐形残疾,他们总共代表 22 种不同的隐形残疾。我们发现,隐形残疾人通过根据他们之前的经历进行情境化考虑来进行基于化身的披露。例如,一些人希望使用 VR 的具体功能(例如面部表情和肢体语言)来动态地表示他们的能量水平或与他人互动的意愿,而另一些人则倾向于在任何情况下都不要透露他们的残疾身份。我们为体现的无形残疾表达(公共和私人)定义了一个二元框架,并讨论了三种披露模式(积极分子、非披露者和情境披露者),为未来包容性 VR 体验的设计提供信息。
EmBARDiment:提高 XR 生产力的嵌入式 AI 代理
分类: 人机交互, 多代理系统
作者: Riccardo Bovo, Steven Abreu, Karan Ahuja, Eric J Gonzalez, Li-Te Cheng, Mar Gonzalez-Franco
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.08158v1
摘要: 运行由大型语言模型 (LLM) 支持的聊天机器人的 XR 设备作为始终在线的代理具有巨大的潜力,可以实现更好的生产力场景。然而,基于屏幕的聊天机器人并没有利用 XR 中提供的全套自然输入,包括向内的传感器数据,而是过度依赖明确的语音或文本提示,有时与丢弃的多模式数据配对作为查询的一部分。我们提出了一种利用注意力框架的解决方案,该框架从 XR 环境中的用户操作、眼睛注视和上下文记忆中隐式导出上下文。这最大限度地减少了对设计明确提示的需求,促进了基础和直观的交互,为聊天机器人收集用户见解。我们的用户研究表明,我们简化 XR 与聊天机器人的用户交互的方法具有迫在眉睫的可行性和变革潜力,同时为未来 XR 体现的 LLM 代理的设计提供见解。
人机判断的置信加权整合,以实现卓越决策
分类: 人机交互, 人工智能, 神经元和认知
作者: Felipe Yáñez, Xiaoliang Luo, Omar Valerio Minero, Bradley C. Love
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.08083v1
摘要: 大型语言模型(LLM)已成为各个领域的强大工具。最近的研究表明,大语言模型可以在某些任务上超越人类,例如预测神经科学研究的结果。这在整个决策过程中给人类留下什么作用?一种可能性是,尽管人类的表现比大语言模型差,但与他们合作时仍然可以增加价值。当团队成员的信心得到良好校准并且团队成员在他们认为困难的任务上存在分歧(即需要校准和多样性)时,人和机器团队可以超越每个团队成员。我们简化并扩展了贝叶斯方法,使用逻辑回归框架来组合判断,该框架集成了任意数量团队成员的置信加权判断。使用这种简单的方法,我们在一项神经科学预测任务中证明,即使人类不如大语言模型,他们与一个或多个大语言模型的结合也能持续提高团队绩效。我们希望这种简单而有效的整合人类和机器判断的策略将带来富有成效的合作。
电子表格自我效能的悖论:最终用户编程中非正式知识共享的社会激励
分类: 人机交互
作者: Qing, Xia, Advait Sarkar, Duncan P. Brumby, Anna Cox
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.08068v1
摘要: 非正式知识共享(KS)对于最终用户程序员获得专业知识至关重要。为了更好地了解个人(自我效能)、社会(声誉收益、同事之间的信任)和软件相关(编码工作)变量如何影响电子表格 KS 意图,我们根据电子表格用户的调查数据进行了多元回归分析(\ textit{n}=100) 担任行政和财务角色。我们发现,高水平的电子表格自我效能感和认为共享会带来声誉收益的认知预示着更高的 KS 意图,但发现知识编纂费力的个人表现出较低的 KS 意图。我们还观察到,无论职业如何,用户在一般电子表格熟练程度方面往往报告较低的自我效能感,尽管在与工作相关的环境中使用电子表格时也报告较高的自我效能感。我们的研究结果表明,承认和设计这些社会和个人变量可以帮助避免有经验的人不必要地避免共享的情况,这对电子表格设计有影响。
研究 VR 对象的视觉感知与其物理世界代理的触觉感知之间的尺寸一致性
分类: 人机交互
作者: Wenqi Zheng, Dawei Xiong, Cekai Weng, Jiajun Jiang, Junwei Li, Jinni Zhou, Mingming Fan
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.08018v1
摘要: 对物理对象和微缩模型的感知增强了 VR 的真实感和沉浸感。这项工作探讨了真实物体的触觉反馈与其在 VR 中的视觉表现之间的关系。该研究考察了用户如何确认和调整不同虚拟对象的大小。结果表明,随着虚拟立方体尺寸的增加,用户不太可能正确感知尺寸并需要更多调整。这项研究提供了关于触觉和视觉输入如何相互作用的见解,有助于理解 VR 环境中的视觉触觉错觉。
使用大型语言模型来通过摄像头识别用户情绪的对话系统
分类: 人机交互, 人工智能, 机器人技术, 68T40, I.2.10; I.2.7
作者: Hiroki Tanioka, Tetsushi Ueta, Masahiko Sano
发布时间: 2024-08-15
链接: http://arxiv.org/abs/2408.07982v1
摘要: ChatGPT\copyright{}和其他LLM的性能得到了极大的提高,并且在在线环境中,它们越来越有可能被用于各种各样的情况,例如网页上的ChatBot、使用语音交互的呼叫中心操作以及对话使用代理的功能。在线下环境中,多模态对话功能也正在实现,例如使用平板电脑终端的人工智能代理(AI代理)的引导以及安装在机器人上的LLM形式的对话系统。在这种多模态对话中,人工智能和用户之间的相互情感识别将变得重要。到目前为止,已经有人工智能代理表达情感或使用用户话语的文本或语音信息识别情感的方法,但尚未研究人工智能代理从用户的面部表情识别情感的方法。在这项研究中,我们通过捕捉用户与摄像头的对话、从面部表情识别情绪并将此类情绪信息添加到提示中,检查基于 LLM 的人工智能代理是否可以根据用户的情绪状态与用户进行交互。结果证实,对于分数相对较高的情绪状态,例如快乐和愤怒,人工智能代理可以根据情绪状态进行对话。
MyoGestic:肌电图接口框架,用于解码神经损伤患者手部的多个备用自由度
分类: 人机交互, H.5.2; J.3; I.5.4; D.2.13
作者: Raul C. Sîmpetru, Dominik I. Braun, Arndt U. Simon, Michael März, Vlad Cnejevici, Daniela Souza de Oliveira, Nico Weber, Jonas Walter, Jörg Franke, Daniel Höglinger, Cosima Prahm, Matthias Ponfick, Alessandro Del Vecchio
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07817v1
摘要: 恢复脊髓损伤 (SCI)、中风或截肢患者的肢体运动功能仍然是一项严峻的挑战,影响着全世界数百万人。最近的研究表明,通过表面肌电图(EMG),即使没有明显的肢体运动,幸存的运动神经元仍然可以自主控制。这些信号可以被解码并用于运动意图估计;然而,当前的可穿戴解决方案缺乏必要的硬件和软件来直观地连接神经损伤后保留的自由度。为了解决这些限制,我们开发了一款无线高密度 EMG 手环,并配有新颖的软件框架 MyoGestic。我们的系统允许机器学习模型快速、定制地适应用户的需求,促进多个备用独特自由度的实时解码。在我们的研究中,我们成功地实时解码了两名 SCI 参与者、两名脊髓中风患者和三名截肢者的运动意图,在佩戴 EMG 手环后几分钟内实现了多个可控自由度。我们提供了一个概念验证,即这些解码信号可用于控制数字渲染的手、可穿戴矫形器、假肢或 2D 光标。我们的框架提倡以参与者为中心的方法,允许即时反馈集成,从而增强肌肉控制算法的迭代开发。所提出的开源软件框架 MyoGestic 使研究人员和患者能够专注于神经损伤后剩余自由度的增强和训练,从而有可能弥合研究和临床应用之间的差距,并推动直观肌电图界面的开发多种神经病变。
保护洋葱服务用户免受网络钓鱼
分类: 密码学和安全, 人机交互, D.4.6; K.6.5; E.3; E.4
作者: Benjamin Güldenring, Volker Roth
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07787v1
摘要: 网络钓鱼网站是 Tor 洋葱服务中的常见现象,网络钓鱼者利用很难区分网络钓鱼和真实洋葱域名的特点。洋葱服务运营商制定了多种策略来保护用户免受网络钓鱼的侵害。但正如我们在这项工作中所展示的那样,没有一种方法可以保护用户免受网络钓鱼的侵害,同时又不会产生有关所访问服务的痕迹 - 这是特别容易受到攻击的用户可能希望避免的情况。为了寻找解决方案,我们回顾了解决此问题的先前研究,发现只有两种已知方法(哈希可视化和 PAKE)能够解决此问题。哈希可视化需要用户识别大哈希值。为了使哈希可视化更加实用,我们设计了一种称为识别器的新颖机制,它大大减少了用户必须识别的信息量。我们正式分析系统的安全和隐私属性,并报告我们的原型实现作为 Tor 网络浏览器的浏览器扩展。
应对悖论:大学生在现实世界实践中管理心理健康药物的挑战和策略
分类: 人机交互
作者: Jiachen Li, Justin Steinberg, Elizabeth Mynatt, Varun Mishra
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07784v1
摘要: 心理健康已成为大学生日益关注的问题。虽然药物治疗是一种常见的治疗方法,但了解大学生在现实世界中如何管理心理健康症状的药物治疗尚未得到充分探索。在这项研究中,我们对大学生进行了半结构化访谈,以了解心理健康药物管理过程中的独特挑战及其应对策略,特别是研究了各种技术在此过程中的作用。我们发现,由于自我接受方面的挣扎以及药物、症状、日程安排和生活变化之间的相互依赖关系,学生的药物管理过程是一个高度动态的过程,涉及频繁的剂量变化。因此,学生们采取了灵活的策略,使用最少的技术来管理不同情况下的用药,同时保持高度的自主权。根据我们的研究结果,我们提出了对未来技术的设计启示,以无缝融入他们的日常生活并帮助学生管理他们的心理健康药物。
创造数据艺术:真实学习与可视化展览
分类: 人机交互, 图形, I.3.8; K.3.0
作者: Jonathan C. Roberts
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07590v1
摘要: 我们提出了一个为计算机专业学生设计的真实学习任务,其核心是根据公共展览所选择的数据集创建数据艺术可视化。该展览于六月在电影院门厅展出了两周,为学生提供了一个展示作品的真实平台。在两年的时间里,我们对两组不同的学生实施了这项主动学习任务。在本文中,我们分享了这些活动的经验和见解,强调了这些活动对学生参与度和学习成果的影响。我们还详细描述了学习者必须执行的七个单独任务:主题和数据选择与分析、研究和艺术灵感、设计概念化、提出的解决方案、可视化创建、展览策展和反思。通过整合这些任务,学生不仅可以培养技术技能,还可以获得向公众展示其作品的实践经验,从而弥合学术学习和专业实践之间的差距。
图像缩放攻击模拟:隐秘性和可检测性的衡量标准
分类: 人机交互
作者: Devon A. Kelly, Sarah A. Flanery, Christiana Chamon
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07513v1
摘要: 网络安全实践需要努力维持,而一个弱点是缺乏对潜在攻击的认识,不仅在机器学习模型的使用中,而且在其开发过程中。先前的研究已经确定,预处理攻击(例如图像缩放攻击)很难被人类(通过视觉响应)和计算机(通过熵算法)检测到。然而,这些研究未能解决这些攻击的实际性能和可检测性。这项工作的目的是分析图像缩放攻击的意识与人口背景和经验之间的关系。我们进行了一项调查,收集受试者的人口统计数据,分析受试者在网络安全方面的经验,记录他们对性能不佳的卷积神经网络模型的反应,该模型已在不知不觉中受到所用数据集的图像缩放攻击的阻碍,并记录他们的反应在发现损坏模型中使用的图像受到攻击后的反应。我们在这项研究中发现,攻击的总体检测率足够低,足以在工作场所或学术环境中可行,即使在发现之后,受试者也无法从受攻击的图像中最终确定良性图像。
通过基于视觉的多模态接口增强情境感知
分类: 人机交互
作者: Yongquan Hu, Wen Hu, Aaron Quigley
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07488v1
摘要: 基于视觉的界面 (VI) 对于推进人机交互 (HCI) 至关重要,特别是在增强情境感知方面。然而,由于多模式人工智能 (AI) 的快速发展,这些接口存在巨大的机会,这预示着人类和智能系统之间紧密耦合的未来。人工智能驱动的 VI 与其他模式集成时,可以提供强大的解决方案,有效捕获和解释用户意图和复杂的环境信息,从而促进无缝、高效的交互。本博士研究探索了多模态界面增强情境感知的三个应用案例,分别关注视觉模态的三个维度:尺度、深度和时间:通过显微图像对物理表面进行细粒度分析,利用深度数据,并在虚拟环境中渲染来自视频背景的触觉反馈。
可视化图集:通过数据、可视化和叙述解释和探索复杂的主题
分类: 人机交互
作者: Jinrui Wang, Xinhuan Shu, Benjamin Bach, Uta Hinrichs
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07483v1
摘要: 本文定义、分析和讨论了新兴的可视化图集类型。目前,我们目睹了基于网络、数据驱动的举措的增加,这些举措自称为“地图集”,同时通过数据和可视化解释复杂的当代问题:气候变化、可持续发展、人工智能或文化发现。为了了解这一新兴流派并为他们的设计、研究和创作提供支持,我们对 33 个可视化图集进行了系统分析,并对八位可视化图集创建者进行了半结构化访谈。根据我们的结果,我们贡献了(1)可视化图集的定义,作为(网页)页面的概要,旨在通过数据、可视化和叙述来解释和支持对特定主题的数据探索。 (2)一套8个设计维度的设计模式,(3)访谈中对图集创建的见解以及(4)5种可视化图集流派的定义。我们发现可视化图集的独特之处在于它们结合了 i) 探索性可视化,ii) 数据驱动讲故事的叙事元素和 iii) 结构化导航机制。它们针对具有不同领域知识水平的广泛受众,充当学习、交流和发现的工具。最后,我们讨论了当前的设计实践以及围绕可视化图集的伦理和潜在现实世界影响的新问题,旨在为可视化图集的设计和研究提供信息。
增强同地共享 VR 体验:在 HMD 和 2D 屏幕上代表非 HMD 观察者
分类: 人机交互
作者: Zixuan Guo, Wenge Xu, Hongyu Wang, Tingjie Wan, Nilufar Baghaei, Cheng-Hung Lo, Hai-Ning Liang
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07470v1
摘要: 虚拟现实 (VR) 不仅允许头戴式显示器 (HMD) 用户沉浸在虚拟世界中,还可以与他人分享。如果设计得当,这种共享体验将会是令人愉快的。然而,在典型场景中,HMD 用户被设备隔离,非 HMD 观察者与虚拟世界缺乏联系。为了解决这个问题,我们的研究调查了在 HMD 和 2D 屏幕上以视觉方式呈现观察者的方式,以增强共享体验。该研究包括五种代表性条件,表明纳入观察者代表性会对 HMD 用户和观察者产生积极影响。对于如何设计和表示它们,我们的工作表明,HMD 用户更喜欢显示真实世界视觉效果的方法,而观察者则对用真实或虚拟图像表示表示不同的偏好。我们提供针对两种显示器量身定制的设计指南,为增强 HMD 用户和非 HMD 观察者的共处共享 VR 体验提供宝贵的见解。
探索直通对公共环境中 VR 运动游戏的影响:实地研究
分类: 人机交互
作者: Zixuan Guo, Hanxiao Deng, Hongyu Wang, Angel J. Y. Tan, Wenge Xu, Hai-Ning Liang
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07468v1
摘要: 久坐行为在日常工作和学习环境中变得越来越普遍。 VR 运动游戏已成为这些工作和学习场所的一种有前景的解决方案。然而,在这些环境中的私人空间并不容易,在公共环境中参与 VR 运动游戏也带来了一系列挑战(例如安全、社会接受度、隔离和隐私保护)。 VR 耳机中最近开发的直通功能使用户能够保持对周围环境的了解,从而增强安全性和便利性。尽管具有潜在的好处,但人们对 Passthrough 如何影响用户性能和体验以及如何解决在现实世界公共环境中玩 VR 运动游戏的挑战知之甚少。据我们所知,这项工作首次在大学校园的地下通道中进行实地研究,以无干扰的封闭房间作为基线,探索 Passthrough 在现实公共环境中的使用。结果表明,在公共环境中启用直通可以提高性能而不影响存在。此外,传递可以提高社会接受度,尤其是在自我意识水平较高的个体中。这些发现凸显了 Passthrough 在鼓励公共环境中采用 VR 运动游戏的潜力,对整体健康和福祉具有良好的影响。
通过基于人机偏好的合作解决问题
分类: 人工智能, 人机交互
作者: Subhabrata Dutta, Timo Kaufmann, Goran Glavaš, Ivan Habernal, Kristian Kersting, Frauke Kreuter, Mira Mezini, Iryna Gurevych, Eyke Hüllermeier, Hinrich Schuetze
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07461v2
摘要: 尽管人们普遍认为通用人工智能(AGI)——甚至是超人类的人工智能——即将到来,但专家领域的复杂问题还远未得到解决。我们认为,此类问题需要人类与人工智能的合作,并且由于存在诸多缺点,包括无法跟踪复杂的解决方案工件(例如,生成式人工智能),当前最先进的生成式人工智能无法发挥可靠合作伙伴的作用。 ,一个软件程序),对多种人类偏好表达的支持有限,并且缺乏在交互环境中适应人类偏好的能力。为了应对这些挑战,我们提出了 HAI-Co2,一种新型的人机共建框架。我们将 HAI-Co2 形式化并讨论其面临的困难的开放研究问题。最后,我们提出了 HAI-Co2 的案例研究,并证明了其与整体生成人工智能模型相比的功效。
设计欠驱动手部外骨骼的增强优化策略
分类: 机器人技术, 人机交互, 神经和进化计算
作者: Baris Akbas, Huseyin Taner Yuksel, Aleyna Soylemez, Mine Sarac, Fabio Stroppa
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07384v1
摘要: 外骨骼可以增强人类的力量,并为身体残疾的人提供帮助。然而,确保其设计的安全性和最佳性能面临着巨大的挑战。本研究介绍了欠驱动手外骨骼 (U-HEx) 的设计过程,首先包括单个目标(最大化力传递),然后扩展到多目标(同时最小化扭矩方差和执行器位移)。优化依赖于遗传算法、Big Bang-Big Crunch 算法及其多目标优化版本。分析表明,使用 Big Bang-Big Crunch 在最优性方面提供了较高且更一致的结果,并且收敛时间较短。此外,添加更多目标为设计人员提供了多种权衡解决方案,他们稍后可能会为目标设置优先级,而无需重复该过程 - 代价是优化算法和计算负担变得复杂。这些发现强调了在设计外骨骼时进行适当优化以及对这种特定机器人设计进行重大改进的重要性。
将梦想与视觉头脑风暴教学联系起来
分类: 人机交互
作者: Yasheng Sun, Bohan Li, Mingchen Zhuge, Deng-Ping Fan, Salman Khan, Fahad Shahbaz Khan, Hideki Koike
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07317v1
摘要: 最近在理解人类大脑方面取得的突破揭示了其有效处理和解释人类思想的令人印象深刻的能力,为干预大脑信号开辟了可能性。在本文中,我们的目标是开发一个简单的框架,使用其他模式(例如自然语言)来翻译原始的梦境。我们展示了 DreamConnect,采用双流扩散框架来操纵视觉刺激的大脑信号。通过集成异步扩散策略,我们的框架与人类梦想建立了有效的接口,逐步完善了最终的图像合成。通过大量的实验,我们证明了该方法能够以高保真度准确指导人脑信号。我们的项目将在 https://github.com/Sys-Nexus/DreamConnect 上公开发布
探索大规模语言模型来评估基于脑电图的心理健康多模态数据
分类: 人机交互
作者: Yongquan Hu, Shuning Zhang, Ting Dang, Hong Jia, Flora D. Salim, Wen Hu, Aaron J. Quigley
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07313v1
摘要: 将脑电图(EEG)等生理信号与采访音频等其他数据相结合,可以为心理状态或神经系统疾病提供有价值的多模式见解。大语言模型 (LLM) 的最新进展使它们成为心理健康评估的潜在“健康代理人”。然而,当前的研究主要集中在单一数据模式,这提供了通过多模式数据增进理解的机会。我们的研究旨在通过使用大语言模型调查多模式数据进行心理健康评估,特别是通过零样本和少样本提示来推进这种方法。采用三个数据集结合脑电图、面部表情和音频(文本)进行抑郁和情绪分类。结果表明,在心理健康评估中,多模态信息比单一模态方法具有显着优势。值得注意的是,将脑电图与常用的大语言模型模式(例如音频和图像)相结合显示出巨大的潜力。此外,我们的研究结果表明,与零样本学习方法相比,1 样本学习提供了更大的好处。
MultiSurf-GPT:利用大规模语言模型促进多模态表面感知的上下文感知推理
分类: 人机交互
作者: Yongquan Hu, Black Sun, Pengcheng An, Zhuying Li, Wen Hu, Aaron J. Quigley
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07311v1
摘要: 表面传感广泛应用于健康诊断、制造和安全监测。移动传感的进步为移动计算中的情境感知提供了潜力,通常采用单一传感模式。新兴的多模态大规模语言模型提供了新的机遇。我们提出了 MultiSurf-GPT,它利用 GPT-4o 的先进功能,根据提示策略(零样本提示和少样本提示)统一处理和解释不同模式(雷达、显微镜和多光谱数据)。我们通过使用 MultiSurf-GPT 来识别低级信息并推断高级上下文感知分析来初步验证我们的框架,展示了增强上下文感知洞察的能力。该框架有望成为未来加速开发更复杂的上下文感知应用程序的工具,提供更快、更具成本效益的集成解决方案。
NL2OR:使用自然语言输入解决复杂的运筹学问题
分类: 人工智能, 人机交互
作者: Junxuan Li, Ryan Wickman, Sahil Bhatnagar, Raj Kumar Maity, Arko Mukherjee
发布时间: 2024-08-14
链接: http://arxiv.org/abs/2408.07272v1
摘要: 运筹学 (OR) 使用数学模型来增强决策能力,但开发这些模型需要专业知识,并且可能非常耗时。自动数学编程(AMP)的出现可以简化这一过程,但现有系统存在局限性。本文介绍了一种新颖的方法,该方法利用大语言模型 (LLM) 的最新进展,根据使用自然语言表达的非专家用户查询创建和编辑 OR 解决方案。这减少了对领域专业知识的需求和提出问题的时间。该论文提出了一个名为 NL2OR 的端到端管道,它可以根据自然语言输入生成 OR 问题的解决方案,并分享几个重要 OR 问题的实验结果。
俄罗斯入侵乌克兰期间 Telegram 中反克里姆林宫数字异议的适应性策略
分类: 社交和信息网络, 计算机与社会, 人机交互
作者: Apaar Bawa, Ugur Kursuncu, Dilshod Achilov, Valerie L. Shalin
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.07135v1
摘要: 2022 年 2 月俄罗斯入侵乌克兰期间,Telegram 成为克里姆林宫赞助的宣传传播的重要社交媒体平台。随着时间的推移,反克里姆林宫的俄罗斯反对派渠道也成为反对国家支持宣传的突出声音。本研究受叙事理论中“突破”概念的启发,考察了 Telegram 上反克里姆林宫内容在入侵的七个阶段中的动态。对新兴主题的数据驱动计算分析揭示了俄罗斯经济、战斗最新情况、国际政治和俄罗斯内政等。使用按入侵阶段划分的一组常见的统计对比,对主题流行度的纵向分析使我们能够检查与记录的线下事件和观众反应的关联,从而提出一种保持观众兴趣的自适应的面向破坏的通信策略。观众对这些威胁克里姆林宫控制权的事件的认可表明,Telegram 为反对派提供了公平的在线竞争环境,考虑到克里姆林宫压制线下言论自由,这一点令人惊讶。
基于理论的可解释的音乐情感深度学习架构
分类: 声音, 人工智能, 人机交互, 音频和语音处理
作者: Hortense Fong, Vineet Kumar, K. Sudhir
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.07113v1
摘要: 本文开发了一种基于理论的、可解释的深度学习卷积神经网络(CNN)分类器来预测对音乐的时变情绪反应。我们设计了新颖的 CNN 滤波器,利用声学物理学中已知会影响音乐特征感知的频率谐波结构。我们基于理论的模型更加简约,但提供了与理论深度学习模型相当的预测性能,同时比使用手工特征的模型表现更好。我们的模型可以用手工制作的功能来补充,但性能的提高是有限的。重要的是,CNN 滤波器上基于谐波的结构为模型如何预测情绪反应(效价和唤醒度)提供了更好的解释性,因为情绪与和谐密切相关——和谐是由谐波对齐定义的感知特征。最后,我们通过涉及数字广告的应用程序来说明我们的模型的实用性。受 YouTube 中贴片广告的启发,我们进行了一项实验室实验,在视频中的不同时间插入广告。我们发现,放置在情感相似的环境中的广告可以提高广告参与度(跳过率更低,品牌回忆率更高)。与非理论模型相比,基于我们基于理论的可解释模型预测的情感相似性指标的广告插入产生了可比或更好的参与度。
众包:可用性评估框架
分类: 软件工程, 人机交互
作者: Muhammad Nasir
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06955v1
摘要: 目的:本研究探索使用众包进行软件可用性评估。背景:可用性研究对于设计用户友好的软件至关重要,但传统方法通常成本高昂且耗时。众包为远程可用性评估提供了一种更快、更具成本效益的替代方案,尽管确保质量反馈仍然是一个挑战。方法:进行系统的绘图研究来回顾当前的可用性评估研究。随后,进行了多项实验,以专家启发式评估为基准,将新手人群可用性检查员与专家进行比较。这些结果用于通过案例研究创建和验证人群可用性检查的框架。结果:映射研究确定专家启发式评估是一种普遍的方法,尤其是对于网站。实验结果表明,在专家启发式指导下,新手人群可用性检查可以与专家在内容、质量、严重性和时间效率方面识别可用性问题方面相媲美。案例研究表明,该框架允许有效的可用性检查,从而成功进行软件重新设计。迭代3-5次新手检查,在三个周期内有效解决了关键的可用性问题。结论:众包是可用性评估专家启发式评估的有效替代方案。对于预算有限的软件公司来说,拟议的人群可用性检查框架是一个可行的解决方案。关键词:众包、人群可用性评估、专家启发式评估、框架。
用于数据可听化的基于语音的标记
分类: 人机交互
作者: Yichun Zhao, Jingyi Lu, Miguel A Nacenta
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06942v1
摘要: 可听化是获取数据的强大工具,特别是对于视力丧失的人来说。在各种形式中,语音是一种熟悉的交流方式,类似于文本在可视化中的作用。然而,基于语音的可听化尚未得到充分探索。我们引入了 SpeechTone,这是一种新颖的基于语音的数据可听化标记,并且是对现有伊利可听化声明语法的扩展。它将数据编码为语音属性,例如音调、速度、语音和语音内容。我们通过三个例子展示了 SpeechTone 的功效。
Entendre,一款适用于小众、边缘和极端社交媒体的社交机器人检测工具
分类: 计算机与社会, 人工智能, 人机交互, 社交和信息网络, J.4; I.2; I.7; K.4
作者: Pranav Venkatesh, Kami Vinton, Dhiraj Murthy, Kellen Sharp, Akaash Kolluri
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06900v1
摘要: 社交机器人(在社交媒体上生成和传播内容的自动化帐户)正在利用这些平台中的漏洞来操纵公众认知并传播虚假信息。这促使了公共机器人检测服务的发展;然而,这些服务大多数主要集中在 Twitter 上,使得利基平台容易受到攻击。 Parler、Gab 和 Gettr 等边缘社交媒体平台通常没有多少节制,这有利于仇恨言论和错误信息的传播。为了解决这一差距,我们引入了 Entendre,一个开放访问、可扩展且与平台无关的机器人检测框架。 Entender 可以处理来自任何社交平台的标记数据集,以使用随机森林分类方法生成定制的机器人检测模型,从而确保稳健的社交机器人检测。我们利用大多数社交平台共享通用模板的想法,用户可以在其中发布内容、批准内容并提供简介(通用数据功能)。通过强调通用数据功能而不是特定于平台的数据功能,Entender 提供了快速可扩展性,但牺牲了一定的准确性。为了证明 Entendre 的有效性,我们用它来探索在现已不复存在的右翼平台 Parler 上发布种族主义内容的帐户中是否存在机器人。我们检查了 38,379 个唯一用户的 233,000 个帖子,发现 1,916 个唯一用户 (4.99%) 表现出类似机器人的行为。可视化技术进一步显示,这些机器人对网络产生了重大影响,放大了有影响力的言论和标签(例如#qanon、#trump、#antilgbt)。这些初步调查结果强调需要像 Entender 这样的工具来监控和评估不同平台上的机器人活动。
学术研究中的生成人工智能工具:定性和定量研究方法的应用和启示
分类: 人机交互, 人工智能
作者: Mike Perkins, Jasper Roe
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06872v1
摘要: 本研究探讨了生成人工智能(GenAI)对学术研究的影响,重点关注其在定性和定量数据分析中的应用。随着 GenAI 工具的快速发展,它们为提高研究生产力和民主化复杂的分析过程提供了新的可能性。然而,它们融入学术实践引发了有关研究诚信和安全、作者身份以及学术工作性质变化的重大问题。通过检查当前功能和潜在的未来应用,本研究提供了研究人员如何负责任且合乎道德地使用 GenAI 工具的见解。我们提出了案例研究,展示了 GenAI 在各种研究方法中的应用,讨论了人工智能辅助研究中可复制性和一致性的挑战,并考虑了学术界增加人工智能整合的伦理影响。本研究探讨了 GenAI 的定性和定量应用,重点介绍了转录、编码、主题分析、可视化分析和统计分析工具。通过解决这些问题,我们的目标是为关于人工智能在塑造学术研究未来中的作用的持续讨论做出贡献,并为研究人员探索人工智能辅助研究工具和研究快速发展的前景提供指导。
DracoGPT:从大型语言模型中提取可视化设计首选项
分类: 人机交互
作者: Huichen Will Wang, Mitchell Gordon, Leilani Battle, Jeffrey Heer
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06845v1
摘要: 经过大量语料库的训练,大型语言模型 (LLM) 有潜力编码可视化设计知识和最佳实践。但是,如果他们不这样做,他们可能会提供不可靠的可视化建议。那么,大语言模型学到了哪些可视化设计偏好呢?我们贡献了 DracoGPT,一种从大语言模型中提取、建模和评估可视化设计偏好的方法。为了评估不同的任务,我们开发了两个管道——DracoGPT-Rank 和 DracoGPT-Recommend——来对 LLM 进行建模,提示对视觉编码规范进行排名或推荐。我们使用 Draco 作为共享知识库,在其中代表 LLM 设计偏好,并将它们与实证研究的最佳实践进行比较。我们证明 DracoGPT 可以准确地对大语言模型表达的偏好进行建模,从而能够根据 Draco 设计约束进行分析。在一系列支持的大语言模型中,我们发现 DracoGPT-Rank 和 DracoGPT-Recommend 彼此相当一致,但两者都与人类受试者实验得出的指导方针存在很大差异。未来的工作可以基于我们的方法来扩展 Draco 的知识库,以模拟更丰富的偏好集,并为大语言模型提供强大且具有成本效益的替代方案。
人类图表要点和大语言模型预测有多一致?不同布局的条形图案例研究
分类: 人机交互
作者: Huichen Will Wang, Jane Hoffswell, Sao Myat Thazin Thane, Victor S. Bursztyn, Cindy Xiong Bearfield
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06837v1
摘要: 大型语言模型 (LLM) 已被用于各种可视化任务,但我们离能够预测人类要点的感知感知 LLM 还有多远?图形感知文献表明,人体图表要点对可视化设计选择(例如空间布局)很敏感。在这项工作中,我们使用具有不同空间布局的条形图作为案例研究,研究了大语言模型在生成要点时表现出这种敏感性的程度。我们进行了三个实验并测试了四种常见的条形图布局:垂直并置、水平并置、重叠和堆叠。在实验 1 中,我们通过测试四个 LLM、两个温度设置、九个图表规范和两个提示策略,确定了生成有意义的图表要点的最佳配置。我们发现,即使是最先进的大语言模型也很难得出语义多样且事实上准确的结论。在实验 2 中,我们使用最佳配置生成 30 个图表要点,每个图表要点适用于四种布局和零样本和单样本设置中的两个数据集的八个可视化。与人类的结论相比,我们发现大语言模型生成的结论通常与人类进行的比较类型不匹配。在实验 3 中,我们研究了图表背景和数据对大语言模型要点的影响。我们发现,大语言模型与人类不同,对于使用相同条形布局的不同条形图,其外卖比较类型表现出差异。总的来说,我们的案例研究评估了大语言模型模拟人类对数据的解释的能力,并指出了使用大语言模型预测人类图表要点的挑战和机遇。
通过改进视觉脑电图语义一致性进行视觉神经解码
分类: 计算机视觉和模式识别, 人机交互
作者: Hongzhou Chen, Lianghua He, Yihang Liu, Longzhen Yang
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06788v1
摘要: 视觉神经解码是指从人脑活动中提取和解释原始视觉体验的过程。基于度量学习的脑电图视觉解码方法的最新进展已经取得了有希望的结果,并证明了从大脑活动中解码新的视觉类别的可行性。然而,直接将 EEG 特征映射到 CLIP 嵌入空间的方法可能会引入映射偏差并导致特征之间的语义不一致,从而降低对齐并损害解码性能。进一步探讨视觉和神经信号之间的语义一致性。在这项工作中,我们构建了一个联合语义空间,并提出了一个视觉脑电图语义解耦框架,该框架显式提取这两种模态的语义相关特征以促进最佳对齐。具体来说,引入跨模态信息解耦模块来指导从模态中提取语义相关信息。然后,通过量化视觉图像和脑电图特征之间的互信息,我们观察到解码性能和互信息大小之间存在很强的正相关性。此外,受神经科学视觉对象理解机制的启发,我们在对齐过程中提出了一种类内几何一致性方法。该策略将同一类别内的视觉样本映射到一致的神经模式,这进一步增强了脑电图视觉解码的鲁棒性和性能。在大型图像脑电图数据集上的实验表明,我们的方法在零样本神经解码任务中取得了最先进的结果。
视角-观察者-透明度——基于人类数字孪生的结构化审查,在人与任何事物的交互中建模人类的新范式
分类: 人机交互
作者: Nils Mandischer, Alexander Atanasyan, Michael Schluse, Jürgen Roßmann, Lars Mikelsons
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06785v1
摘要: 现代建模方法在理解而不是对人类行为的纯粹监督方面失败了。随着人类越来越融入人与物的互动中,对人类整体的理解变得至关重要。在本文中,我们对人类数字孪生进行了结构化审查,以指出现代范式未能对人类代理进行建模的地方。特别是,机械观点限制了人类和一般数字双胞胎的可用性。相反,我们提出了一种思考模型、状态及其关系的新方法:视角-观察者-透明度。建模范式表明透明度(或白度)与观察者的能力如何相关,这再次允许模拟系统模型对人类心理的渗透深度。人类外在状态和内在状态之间的分裂是用透视模型来描述的,具有内省和外省的特点。我们通过采用正在进行的研究中的两个最新场景来探索这种新颖的范式,并举例来强调建模范式的具体特征。
EditScribe:使用自然语言验证循环进行非视觉图像编辑
分类: 人机交互, 人工智能, 计算和语言
作者: Ruei-Che Chang, Yuxuan Liu, Lotus Zhang, Anhong Guo
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06632v1
摘要: 图像编辑是一个迭代过程,需要精确的视觉评估和操作以使输出符合编辑意图。然而,当前的图像编辑工具无法为盲人和低视力个体提供可访问的交互或足够的反馈来实现这种控制水平。为了解决这个问题,我们开发了 EditScribe,这是一个原型系统,可以使用由大型多模式模型支持的自然语言验证循环来进行图像编辑。使用 EditScribe,用户首先通过最初的一般描述和对象描述来理解图像内容,然后使用开放式自然语言提示指定编辑操作。 EditScribe 执行图像编辑,并提供四种类型的验证反馈供用户验证所执行的编辑,包括视觉变化摘要、AI 判断以及更新的一般和对象描述。在执行另一次编辑之前,用户可以提出后续问题来澄清和探究编辑或验证反馈。在一项针对 10 名盲人或弱视用户的研究中,我们发现 EditScribe 支持参与者以非视觉方式执行和验证图像编辑操作。我们观察了参与者不同的提示策略,以及他们对各种类型验证反馈的看法。最后,我们讨论利用自然语言验证循环使视觉创作变得非视觉可访问的含义。
WorldScribe:迈向上下文感知的实时视觉描述
分类: 人机交互, 人工智能, 计算和语言
作者: Ruei-Che Chang, Yuxuan Liu, Anhong Guo
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06627v1
摘要: 自动实时视觉描述可以帮助盲人自主和独立地了解周围环境。然而,提供丰富、上下文相关且及时的描述一直是可访问性方面的长期挑战。在这项工作中,我们开发了 WorldScribe,这是一个生成自动实时现实世界视觉描述的系统,这些描述可定制并适应用户的上下文:(i) WorldScribe 的描述根据用户的意图量身定制,并根据语义相关性进行优先级排序。 (ii) WorldScribe 能够适应视觉环境,例如,为动态场景提供连续的简洁描述,同时为稳定的场景提供更长、更详细的描述。 (iii) WorldScribe 能够适应声音环境,例如,在嘈杂的环境中增加音量,或在对话开始时暂停。 WorldScribe 由一套视觉、语言和声音识别模型提供支持,引入了一个描述生成管道,可以平衡其丰富性和延迟之间的权衡,以支持实时使用。 WorldScribe 的设计借鉴了之前提供视觉描述的工作以及针对盲人参与者的形成性研究。我们的用户研究和随后的管道评估表明,WorldScribe 可以提供实时且相当准确的视觉描述,以促进根据用户上下文进行自适应和定制的环境理解。最后,我们讨论了使实时视觉描述更加具有情境意识和人性化的含义和进一步的步骤。
超级智慧还是迷信?探索对人工智能预测毫无根据的信念背后的心理因素
分类: 人机交互, 人工智能
作者: Eunhae Lee, Pat Pataranutaporn, Judith Amores, Pattie Maes
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06602v1
摘要: 这项研究调查了影响人工智能对个人行为预测的信念的心理因素,并将其与占星术和基于个性的预测的信念进行了比较。通过对 238 名参与者进行的实验,我们研究了认知风格、超自然信仰、人工智能态度、人格特质和其他因素如何影响不同来源预测的感知有效性、可靠性、有用性和个性化。我们的研究结果表明,对人工智能预测的信念与对基于占星学和人格心理学的预测的信念呈正相关。值得注意的是,超自然现象信念和积极的人工智能态度显着提高了人工智能预测的感知有效性、可靠性、有用性和个性化。责任心与对所有来源的预测的信念呈负相关,对预测主题的兴趣增加了预测的可信度。令人惊讶的是,认知风格并没有显着影响对预测的信念。这些结果凸显了人工智能中的“理性迷信”现象,其中信念更多地是由心理启发和直觉驱动,而不是批判性评估。我们讨论了设计人工智能系统和促进适当信任和怀疑的沟通策略的影响。这项研究有助于我们理解人机交互的心理学,并为人工智能系统的设计和部署提供见解。
HiRegEx:多元分层数据的交互式可视化查询和探索
分类: 人机交互, 图形, 65D18, I.3.6
作者: Guozheng Li, Haotian Mi, Chi Harold Liu, Takayuki Itoh, Guoren Wang
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06601v1
摘要: 当使用探索性可视化分析来检查多元分层数据时,用户通常需要查询数据以缩小分析范围。然而,对于多元分层数据来说,制定有效的查询表达式仍然是一个挑战,特别是当数据集变得非常大时。为了解决这个问题,我们开发了一种声明性语法 HiRegEx(分层数据正则表达式),用于查询和探索多元分层数据。 HiRegEx 植根于树可视化的扩展多级任务拓扑框架(e-MLTT),描绘了三个查询目标(节点、路径和子树)以及查询这些目标的两个方面(特征和位置),并使用基于用于查询构造的经典正则表达式。基于 HiRegEx 语法,我们开发了一个用于查询和探索多元分层数据的探索框架,并将其集成到 TreeQueryER 原型系统中。探索性框架包括三个主要组成部分:自上而下的模式规范、自下而上的数据驱动查询和上下文创建数据概述。我们通过 e-MLTT 框架中的任务验证了 HiRegEx 的表达能力,并通过涉及专家用户分析引文树数据集的案例研究展示了 TreeQueryER 系统的实用性和有效性。
HaptoFloater:通过嵌入难以察觉的颜色振动信号实现空中图像触觉显示控制的视觉触觉增强现实
分类: 人机交互, H.5.1
作者: Rina Nagano, Takahiro Kinoshita, Shingo Hattori, Yuichi Hiroi, Yuta Itoh, Takefumi Hiraki
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06552v1
摘要: 我们提出了 HaptoFloater,这是一种低延迟空中视觉触觉增强现实 (VHAR) 系统,利用难以察觉的颜色振动。当向空中图像的视觉信息添加触觉刺激时,用户不应该感知触觉和视觉信息之间的延迟。然而,基于相机检测的指尖定位的空中图像的传统触觉呈现方法会由于图像处理和通信而引入延迟。为了减轻这种延迟,我们使用了颜色振动技术;当显示屏以 25 Hz 或更高的频率在两种不同颜色的刺激之间交替时,人类无法感知振动。在我们的系统中,我们将这种难以察觉的颜色振动嵌入到由微镜阵列板形成的半空图像中,指尖设备上的光电二极管直接检测到这种颜色振动以提供触觉刺激。因此,我们的系统可以在 59.5 毫秒内对空中图像上的多个图案进行触觉感知。此外,我们还使用我们的 VHAR 系统和具有单一模式和更快响应时间的触觉执行器来评估空中显示器上的视觉-触觉延迟容忍度。我们的用户研究结果表明,视觉-触觉延迟容忍度为 110.6 毫秒,这比使用多种触觉模式的系统相关的延迟要大得多。
拉伸还是振动?通过盲人触觉反馈在 VR 中渲染静态和移动物体的空间信息
分类: 人机交互
作者: Jiasheng Li, Zining Zhang, Zeyu Yan, Yuhang Zhao, Huaishu Peng
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06550v1
摘要: 对于寻求沉浸式虚拟现实体验的盲人用户来说,感知虚拟对象的空间信息(例如方向、距离)至关重要,但也具有挑战性。为了方便盲人用户使用 VR,在本文中,我们研究了两种类型的触觉提示(振动触觉提示和皮肤拉伸提示)在应用于盲人背侧时传达虚拟对象的空间信息的有效性用户的手。我们对 10 名盲人用户进行了一项用户研究,调查他们如何使用定制的触觉设备感知 VR 中的静态和移动物体。我们的结果表明,与振动触觉线索相比,盲人用户在接收皮肤拉伸线索时可以更准确地理解物体的位置和运动。我们讨论了两种类型的触觉提示的优缺点,并针对未来 VR 可访问性的触觉解决方案提出了设计建议。
与人工智能格格不入:盲人如何验证和质疑人工智能错误
分类: 人机交互
作者: Rahaf Alharbi, Pa Lor, Jaylin Herskovitz, Sarita Schoenebeck, Robin Brewer
发布时间: 2024-08-13
链接: http://arxiv.org/abs/2408.06546v1
摘要: 盲人在日常生活中使用人工智能视觉辅助技术(AI VAT)来获得视觉访问,但这些技术嵌入了可能难以通过非视觉方式验证的错误。之前的研究主要探讨了视力正常的用户对人工智能输出的理解,并创建了依赖于视觉的可解释人工智能(XAI)特征。我们通过对 26 名盲人进行深入的定性研究来扩展这一文献,以了解他们的验证经验和偏好。我们首先描述盲人遇到的错误,强调人工智能增值税如何无法支持复杂的文档布局、多种语言和文化文物。然后,我们通过试验人工智能增值税、运用非视觉技能、战略性地包括视力正常的人以及与其他设备的交叉引用,阐明盲人如何理解人工智能。参与者提供了设计可访问的 XAI 的详细机会,例如支持争论的功能可供性。根据不适应和适应的残疾研究框架,我们用 AI VAT 解开了有害的假设,强调了庆祝残疾人认知方式的重要性。最后,我们提供负责任的 AI 实践的实用要点,以推动可访问的 XAI 领域向前发展。
语音与文字记录:语音摘要中的人类注释者重要吗?
分类: 计算和语言, 人机交互, 声音, 音频和语音处理
作者: Roshan Sharma, Suwon Shon, Mark Lindsey, Hira Dhamyal, Rita Singh, Bhiksha Raj
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.07277v1
摘要: 抽象语音摘要的参考摘要需要人工注释,这可以通过收听录音或阅读录音的文字记录来执行。在本文中,我们研究了基于注释者收听录音的摘要是否与基于注释者阅读笔录的摘要不同。使用现有的基于人工评估、自动指标、基于大语言模型的评估和基于检索的无参考方法的内在评估。我们发现,根据源模态的不同,摘要确实有所不同,并且基于语音的摘要比基于文字记录的摘要更具有事实一致性和信息选择性。与此同时,基于文字记录的摘要会受到源中识别错误的影响,而专家撰写的摘要信息更丰富、更可靠。我们将所有收集到的数据和分析代码公开(https://github.com/cmu-mlsp/interview_ humanssum),以方便复制我们的工作并推进该领域的研究。
DriveStats:构建有效可持续驾驶显示的移动平台
分类: 人机交互
作者: Song Mi Lee-Kan, Alexandre Filipowicz, Nayeli Bravo, Candice L. Hogan, David A. Shamma
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.06522v1
摘要: 跟踪车辆信息的手机应用程序已经变得越来越普遍,可以提供有关油耗、车辆状态和可持续驾驶行为的见解。但是,要测试在没有深度车辆集成的情况下与驾驶员产生共鸣的内容,需要适当的研究仪器。我们构建了 DriveStats:一个可重复使用的库(并包含一个移动应用程序)来监控驾驶行程并显示相关信息。通过在目标导向框架中提供估计的成本/排放减少量,我们展示了如何在与一组北美参与者进行的为期 10 天的日记研究过程中提高信息效用。参与者最初对节省金钱感兴趣,报告称随着应用程序使用量的增加,排放相关信息的效用增加,并导致自我报告的可持续行为改变。 DriveStats 软件包可用作多种移动性研究(驾驶、骑自行车、步行等)的研究探针,以支持移动交通研究。
用积分图像整理散点图
分类: 人机交互
作者: Hennes Rave, Vladimir Molchanov, Lars Linsen
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.06513v1
摘要: 散点图提供了双变量数据(或多变量数据的二维嵌入)的可视化表示,可以有效分析数据依赖性、聚类、趋势和异常值。不幸的是,经典散点图存在可扩展性问题,因为不断增长的数据大小最终会导致固定分辨率的屏幕上出现过度绘制和视觉混乱,从而阻碍数据分析过程。我们提出了一种通过散点图视觉域的平滑变换来补偿不规则样本分布的算法。我们的算法评估散点图的密度分布,以计算基于栅格化密度函数的积分图像的正则化映射。该映射保留了样本的邻域关系。很少的正则化迭代就足以实现几乎均匀的样本分布,从而有效地利用可用的屏幕空间。我们进一步提出了视觉传达应用于散点图的转换的方法,并在用户研究中对它们进行比较。我们提出了一种新颖的并行算法,用于基于 GPU 的快速积分图像计算,该算法允许将我们的去杂波方法集成到交互式视觉数据分析系统中。
哪种配色方案可以更有效地帮助读者在颜色编码的文章中查找信息?
分类: 人机交互, 计算机视觉和模式识别
作者: Ho Yin Ng, Zeyu He, Ting-Hao 'Kenneth' Huang
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.06494v1
摘要: 颜色编码是一种为聚类信息类型分配特定颜色的技术,已被证明在帮助人类认知活动(尤其是阅读和理解)方面具有优势。大型语言模型 (LLM) 的兴起简化了文档编码,支持使用各种方案进行简单的自动文本标记。这有可能使颜色编码更容易使用并让更多用户受益。然而,颜色选择对信息搜索的影响尚未得到充分研究。我们进行了一项用户研究,评估各种配色方案在 LLM 编码的文本文档中的有效性,将各个方案的对比度标准化为大约 5.55:1。参与者在颜色编码的学术摘要中执行定时信息查找任务。结果显示,非类似和包含黄色的配色方案提高了表现,而后者也更受参与者的青睐。这些发现可以为文本注释提供更好的配色方案选择。随着大语言模型推进文档编码,我们主张进行更多的研究,重点关注颜色编码技术的“颜色”方面。
触觉旋律:用于感知音乐体验的桌面触觉
分类: 人机交互, H.5.2; H.5.5
作者: Raj Varshith Moora, Gowdham Prabhakar
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.06449v1
摘要: 本文介绍了一种通过手掌触觉脉冲体验音乐的新颖界面。它展示了系统的实际实现,通过将来自数字音频工作站 (DAW) 的 MIDI 数据实时转换为来自一组触觉执行器的触觉感觉,探索音乐触觉领域。它还包括合适的音乐到触觉映射策略,将乐器的音符转换为触觉反馈。触觉执行器策略性地放置在手的手掌表面,使用户能够感知音乐并能够识别不同音乐作品的旋律和节奏。进行的一项试点用户研究旨在通过测试参与者从同一音乐作品的触觉呈现中选择正确的音频呈现来评估界面的准确性。它提出了一项比较研究,区分具有先前音乐背景的人和没有音乐背景的人,仅通过触觉输入识别正确的音频对应物。这项试点研究深入研究了用户如何在音乐作品的背景下感知和解释触觉反馈。这项研究在丰富我们对音乐场景中用户对触觉反馈的反应的理解以及探索系统用户体验的复杂性及其对音乐解释的影响方面取得了可喜的成果。
AniBalloons:动画聊天气球作为社交消息和聊天机器人交互的情感增强
分类: 人机交互
作者: Pengcheng An, Chaoyu Zhang, Haichen Gao, Ziqi Zhou, Yage Xiao, Jian Zhao
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.06294v1
摘要: 尽管基于文本消息的通信很突出且无处不在,但它在非语言表达情感方面受到限制。除了表情符号或贴纸之外,消息传递用户还在继续寻求更丰富的情感交流选择。最近的研究探索使用聊天气球的形状和颜色来传达情绪状态。然而,很少有人探讨聊天气球动画是否以及如何设计来传达情感。我们展示 AniBalloons 的设计,这是 30 个聊天气球动画,传达快乐、愤怒、悲伤、惊讶、恐惧和平静。以AniBalloons为研究手段,我们进行了三项研究来评估动画对可识别性和情感属性的影响(N = 40),并探讨动画聊天气球如何影响即时消息(N = 72)和聊天机器人等典型场景中的通信体验服务(N = 70)。我们的探索提供了一组聊天气球动画,以补充一系列短信界面的非非语言情感交流,以及对动画聊天气球如何调解特定对话体验(例如,感知的人际亲密程度或聊天机器人个性)的实证见解。
ARCADE:用于与对话代理进行多模式交互的增强现实显示环境
分类: 人机交互
作者: Carolin Schindler, Daiki Mayumi, Yuki Matsuda, Niklas Rach, Keiichi Yasumoto, Wolfgang Minker
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.06222v1
摘要: 以普遍且自然的方式与实体对话代理进行交互不仅是底层软件的问题,而且还给用于显示它们的技术系统带来了挑战。为此,我们推出了空间增强现实系统 ARCADE,它可以像传统监视器一样使用,用于显示虚拟代理以及附加内容。凭借其光学透视显示器,ARCADE 创造了代理在房间中的错觉,就像人类一样。我们的系统的适用性在两种不同的对话场景中得到了证明,这些场景包含在本文随附的视频中:https://youtu.be/9nH4c4Q-ooE。
r/ifyoulikeblank 中媒体推荐征集的特征研究
分类: 人机交互, 信息检索
作者: Md Momen Bhuiyan, Donghan Hu, Andrew Jelson, Tanushree Mitra, Sang Won Lee
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.06201v1
摘要: 尽管存在 Google、Netflix 和 Spotify 等基于搜索的推荐系统,但在线用户有时可能会转向 r/ifyoulikeblank subreddit 等地方的众包推荐。在这项探索性研究中,我们探讨了用户为什么去 r/ifyoulikeblank、他们如何寻找推荐,以及 subreddit 用户如何响应推荐请求。为了回答这个问题,我们从 r/ifyoulikeblank 收集了示例帖子,并使用定性方法对其进行了分析。我们的分析表明,用户出于各种原因来到这个 Reddit 子版块,例如耗尽流行的搜索系统、不知道搜索什么或如何搜索某个项目,以及认为大众比搜索系统拥有更好的知识。检查用户查询及其描述,我们发现用户在使用 r/ifyoulikeblank 寻求推荐期间提供了新颖的信息。例如,有时他们会要求根据用于创建工件的工具来推荐工件。或者,有时指出推荐寻求者的时间限制可以帮助更好地满足他们的需求。最后,推荐响应和交互揭示了请求者和响应者如何完善查询和推荐的模式。我们的工作为未来的智能推荐系统设计提供了信息。
Curio:基于数据流的协作城市视觉分析框架
分类: 人机交互, 计算机与社会
作者: Gustavo Moreira, Maryam Hosseini, Carolina Veiga, Lucas Alexandre, Nicola Colaninno, Daniel de Oliveira, Nivan Ferreira, Marcos Lage, Fabio Miranda
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.06139v1
摘要: 在过去的十年中,人们提出了几种城市可视化分析系统和工具来解决城市在交通、天气和房地产等不同领域面临的一系列挑战。其中许多工具是通过与城市专家合作设计的,旨在将复杂的城市分析工作流程提炼为交互式可视化和界面。然而,这些工具的设计、实现和实际使用仍然依赖于孤立的方法,导致定制应用程序难以复制和扩展。在设计层面,这些工具低估了城市专家丰富的数据工作流程,通常仅将他们视为数据提供者和评估者。在实现层面,它们缺乏与其他技术框架的互操作性。在实际使用层面,它们往往狭隘地关注特定领域,无意中为跨领域协作造成了障碍。为了解决这些差距,我们提出了 Curio,一个用于协作城市视觉分析的框架。 Curio 使用具有多个抽象级别(代码、语法、GUI 元素)的数据流模型来促进可视化分析组件的设计和实现之间的协作。该框架允许专家将数据预处理、管理和可视化阶段交织在一起,同时跟踪代码和可视化的来源。我们与城市专家合作,通过针对城市可达性、城市微气候和阳光获取的多种使用场景来评估 Curio。这些场景使用不同类型的数据和领域方法来说明 Curio 在应对紧迫的社会挑战方面的灵活性。 Curio 可在 https://urbantk.org/curio 上获取。
增强图书馆:利用基于 HMD 的增强现实丰富实体图书馆体验
分类: 人机交互
作者: Qianjie Wei, Jingling Zhang, Pengqi Wang, Xiaofu Jin, Mingming Fan
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.06107v1
摘要: 尽管数字图书馆和在线阅读平台兴起,实体图书馆仍然为教育和社区参与提供独特的好处。然而,由于数字资源的便利,实体图书馆的访问量,尤其是大学生的访问量有所下降。这强调了更好地吸引这些用户的必要性。增强现实(AR)有可能弥合物理世界和数字世界之间的差距。在本文中,我们提出了 \textit{Augmented Library},这是一种基于 HMD 的 AR 系统,旨在振兴实体图书馆体验。通过创建增强图书发现、鼓励社区参与并满足不同用户需求的互动功能,\textit{增强图书馆}将数字便利性与实体图书馆的丰富体验结合起来。本文讨论了该系统的开发以及对其对学生参与实体图书馆的影响的初步用户反馈。
TRIZ-GPT:一种 LLM 增强的问题解决方法
分类: 人机交互
作者: Liuqing Chen, Yaxuan Song, Shixian Ding, Lingyun Sun, Peter Childs, Haoyu Zuo
发布时间: 2024-08-12
链接: http://arxiv.org/abs/2408.05897v1
摘要: TRIZ,即创造性问题解决理论,源自对各个领域专利的全面分析,为解决问题提供了框架和实用工具。尽管 TRIZ 方法论具有促进创新解决方案的潜力,但其复杂性和抽象性往往使其获取和应用具有挑战性。这通常需要用户对理论有深刻的理解,以及跨学科的丰富实践经验和知识。大型语言模型 (LLM) 的出现提供了一个解决这些挑战的机会,可以利用其广泛的知识库和推理能力,在基于 TRIZ 的问题解决过程中生成创新的解决方案。本研究探索并评估了大语言模型在基于 TRIZ 的问题解决过程中的应用。 TRIZ案例集的构建为我们的实验奠定了坚实的经验基础,并为TRIZ社区提供了宝贵的资源。专门设计的工作流程,利用分步推理和经过评估验证的提示策略,有效地将具体问题转化为TRIZ问题,最终产生创造性的解决方案。最后,我们提出了一个机械工程领域的案例研究,强调了这种大语言模型增强方法的实际应用。它展示了 GPT-4 生成与原始解决方案密切共鸣的解决方案的能力,并提出了更多的实施机制。
使用 Delta-Engine 扩展虚拟世界
分类: 人工智能, 人机交互
作者: Hongqiu Wu, Zekai Xu, Tianyang Xu, Jiale Hong, Weiqi Wu, Hai Zhao, Min Zhang, Zhezhi He
发布时间: 2024-08-11
链接: http://arxiv.org/abs/2408.05842v1
摘要: 在本文中,我们关注的是\emph{虚拟世界},一个人们可以居住的网络空间。理想的虚拟世界与我们的现实世界有很大的相似之处。关键方面之一是其不断发展的性质,这反映在个人成长并从而影响客观世界的能力上。这种动态是不可预测的,超出了现有系统的范围。为此,我们提出了一个名为 \emph{Delta-Engine} 的特殊引擎来驱动这个虚拟世界。 $\Delta$ 将世界的演变与引擎的扩张联系起来。 Delta 引擎由基础引擎和神经代理组成。给定一个观察结果,代理通过\emph{增量预测}过程基于基本引擎生成新代码。本文对 Delta 引擎进行了全栈介绍。 Delta引擎的关键特征是它对世界中未知元素的可扩展性,从技术上讲,它源于神经代理和基础引擎的完美配合,以及与高质量数据的对齐。我们采用面向引擎的微调方法,将基础引擎嵌入到代理中。然后,我们讨论人机协作设计过程,以有效地生成新颖有趣的数据。最终,我们提出了三种评估原则来全面评估Delta引擎的性能:朴素评估、增量评估和对抗性评估。我们的代码、数据和模型在 \url{https://github.com/gingasan/delta-engine} 上开源。
通过多任务学习变压器增强眼动追踪性能
分类: 人机交互
作者: Weigeng Li, Neng Zhou, Xiaodong Qu
发布时间: 2024-08-11
链接: http://arxiv.org/abs/2408.05837v1
摘要: 在这项研究中,我们引入了一种创新的脑电图信号重建子模块,旨在增强深度学习模型在脑电图眼动追踪任务上的性能。该子模块可以与所有基于编码器分类器的深度学习模型集成,并在多任务学习框架内实现端到端训练。此外,由于该模块在无监督学习下运行,因此具有多功能性,适用于各种任务。我们通过将其纳入先进的深度学习模型(包括 Transformer 和预训练的 Transformer)来证明其有效性。我们的结果表明特征表示能力显着增强,54.1 毫米的均方根误差 (RMSE) 证明了这一点。这代表了对现有方法的显着改进,展示了子模块在完善基于脑电图的模型性能方面的潜力。这种方法的成功表明该重建子模块能够增强编码器的特征提取能力。由于子模块作为主任务下的子任务安装并通过多任务学习框架进行维护,因此我们的模型保留了原始模型的端到端训练过程。与自动编码器等预训练方法相比,我们的模型节省了与预训练相关的计算成本,并且在适应各种模型结构方面表现出更大的灵活性。受益于子模块的无监督性质,它可以应用于不同的任务。我们相信它代表了一种提高深度学习模型在脑电图相关挑战中的性能的新范例。
利用空气质量监测仪进行室内监控:学术环境
分类: 人机交互
作者: Prasenjit Karmakar, Swadhin Pradhan, Sandip Chakraborty
发布时间: 2024-08-11
链接: http://arxiv.org/abs/2408.05779v1
摘要: 公众观念的变化和政府法规的改变导致低成本空气质量监测仪在现代室内空间中得到广泛使用。通常,这些监测器会检测空气污染物,以增强最终用户对其室内环境的了解。研究表明,了解自己的空气质量情况会增强用户采取必要行动来随着时间的推移改善空气质量的冲动。因此,用户的活动显着影响室内空气质量。可以利用这种相关性从侧通道空气质量波动中获取敏感的室内活动。本研究探讨了在一个研究实验室中识别八种室内活动(即进入、退出、风扇打开、风扇关闭、空调打开、空调关闭、聚会、吃饭)的可能性,该实验室配有一个名为道尔顿。我们在三个月内进行的广泛数据收集和分析显示,我们的数据集中的分类准确度为 97.7%。
在线互动中自我兴奋情绪动态的量化
分类: 社交和信息网络, 人机交互, 应用领域
作者: Yishan, Luo, Didier Sornette, Sandro Claudio Lera
发布时间: 2024-08-11
链接: http://arxiv.org/abs/2408.05700v1
摘要: 情绪对于指导人类行为至关重要,尤其是在社交互动中。在现代社会中,越来越多的人类互动在网上进行,事实证明,这会放大和扭曲情感的表达和感知。然而,不同情感之间的纠葛尚未完全理解。我们使用多元霍克斯自激点过程来建模和校准 YouTube 实时聊天中六种基本情绪的时间表达。这使我们能够理解情绪之间的相互依赖性,同时也能够理清视频内容和与同伴社交互动的影响。研究发现,积极情绪更具感染力,而消极情绪往往会在用户的记忆中留下更持久的印象。此外,我们量化了在线情绪动态的内生性,发现同伴互动对用户情绪表达的驱动力是被动内容消费的 3-5 倍。这凸显了社交互动的强大激励作用以及通过使用现代聊天机器人进行情绪操纵的潜在风险。
利用大型语言模型优化网络钓鱼网站的检测和可解释性
分类: 密码学和安全, 人工智能, 人机交互, 信息检索, 机器学习
作者: Sayak Saha Roy, Shirin Nilizadeh
发布时间: 2024-08-11
链接: http://arxiv.org/abs/2408.05667v1
摘要: 在本文中,我们介绍了 PhishLang,这是一种开源的轻量级大型语言模型 (LLM),专门用于通过网站的上下文分析来检测网络钓鱼网站。与依赖静态特征并难以适应新威胁的传统启发式或机器学习模型以及计算密集型深度学习模型不同,我们的模型利用大语言模型的高级语言处理能力来学习网络钓鱼攻击的细粒度特征。此外,PhishLang 只需最少的数据预处理即可运行,其性能可与领先的深度学习工具相媲美,同时速度明显更快且资源占用更少。经过 3.5 个月的测试,PhishLang 成功识别了大约 26K 个网络钓鱼 URL,其中许多未被流行的反网络钓鱼阻止列表检测到,从而展示了其协助当前检测措施的潜力。我们还针对几种现实的对抗性攻击评估了 PhishLang,并开发了六个补丁,使其能够非常强大地抵御此类威胁。此外,我们将 PhishLang 与 GPT-3.5 Turbo 集成以创建 \textit{explainable blocklisting} - 警告,为用户提供有关导致网站被标记为网络钓鱼的不同功能的上下文信息。最后,我们开源了 PhishLang 框架,并开发了基于 Chromium 的浏览器扩展和 URL 扫描网站,为最终用户实现了可解释的警告。
分层多臂强盗并发智能辅导不同难度的概念和问题
分类: 计算机与社会, 人工智能, 人机交互, 机器学习, 多代理系统
作者: Blake Castleman, Uzay Macar, Ansaf Salleb-Aouissi
发布时间: 2024-08-10
链接: http://arxiv.org/abs/2408.07208v1
摘要: 远程教育在二十世纪蓬勃发展,催生了智能辅导系统。特别是,研究发现多臂老虎机(MAB)智能导师在遍历探索与利用权衡景观以提供学生问题建议方面具有显着的能力。然而,先前的文献严重缺乏开源 MAB 智能导师,这阻碍了这些教育 MAB 推荐系统的潜在应用。在本文中,我们将有关 MAB 智能辅导技术的最新文献结合到一种开源且易于部署的分层 MAB 算法中,该算法能够通过概念和问题同时促进学生进步,确定理想的推荐问题难度,并评估潜在记忆衰退。我们使用 500 名学生组成的模拟小组来评估我们的算法,利用贝叶斯知识追踪来估计学生的内容掌握情况。结果表明,我们的算法在与难度无关时,可以显着提高学生的成功率,并且进一步添加问题难度适应功能可以显着提高该指标。
大语言模型可以取代软件工程工件的手动注释吗?
分类: 软件工程, 人机交互, 机器学习
作者: Toufique Ahmed, Premkumar Devanbu, Christoph Treude, Michael Pradel
发布时间: 2024-08-10
链接: http://arxiv.org/abs/2408.05534v1
摘要: 软件工程创新(例如工具和流程)的实验评估通常包括人类受试者研究,作为多管齐下策略的组成部分,以获得更大的研究结果的普遍性。然而,由于寻找和雇用合适的受试者(理想情况下是具有不同经验程度的专业程序员)的成本和难度,我们领域的人类受试者研究具有挑战性。与此同时,大型语言模型(LLM)最近开始在多个领域展示人类水平的表现。本文探讨了在评估代码和代码相关工件时用更便宜的 LLM 查询替代昂贵的人类受试者的可能性。我们通过将六个最先进的大语言模型应用于先前工作创建的五个数据集的十个注释任务来研究这个想法,例如判断方法的自然语言摘要的准确性或确定代码更改是否修复了静态分析警告。我们的结果表明,用大语言模型取代一些人工注释工作可以产生与人类评估者协议相同或接近的评估者间协议。为了帮助决定何时以及如何在人类受试者研究中使用大语言模型,我们提出模型-模型一致性作为给定任务是否适合大语言模型的预测指标,并将模型置信度作为选择大语言模型可以安全地选择特定样本的手段。取代人类注释者。总的来说,我们的工作是软件工程领域混合人类与大语言模型评估的第一步。
DeepFace-Attention:用于注意力估计的多模态面部生物识别技术及其在电子学习中的应用
分类: 人机交互, 计算机视觉和模式识别
作者: Roberto Daza, Luis F. Gomez, Julian Fierrez, Aythami Morales, Ruben Tolosana, Javier Ortega-Garcia
发布时间: 2024-08-10
链接: http://arxiv.org/abs/2408.05523v1
摘要: 这项工作引入了一种创新方法,使用应用于网络摄像头视频的面部分析技术集合来估计注意力水平(认知负荷)。我们的方法在电子学习应用中特别有用,因此我们在 mEBAL2 数据库(一个在电子学习环境中获取的公共多模式数据库)上训练、评估和比较我们的方法。 mEBAL2 包含来自执行 8 项不同任务的 60 位用户的数据。这些任务的难度各不相同,导致他们的认知负荷发生变化。我们的方法采用最先进的面部分析技术,以高或低注意力的形式量化用户的认知负荷。使用与认知负荷相关的几种行为信号和生理过程,例如眨眼、心率、面部动作单位和头部姿势等。此外,我们还进行了一项研究,以了解哪些单个特征可以获得更好的结果、最有效的组合、探索局部和全局特征,以及临时时间间隔如何影响注意力水平估计等。我们发现全局面部特征更适合使用分数级融合的多模态系统,特别是随着时间窗口的增加。另一方面,局部特征更适合通过神经网络训练与分数级融合方法进行融合。我们的方法优于使用公共 mEBAL2 基准的现有最先进的精度。
重新想象的艺术品:通过身体提示探索人类与人工智能的共同创造
分类: 人机交互, 人工智能, 新兴技术, H.5.m
作者: Jonas Oppenlaender, Hannah Johnston, Johanna Silvennoinen, Helena Barranha
发布时间: 2024-08-10
链接: http://arxiv.org/abs/2408.05476v1
摘要: 使用生成人工智能生成图像是一项流行的活动。然而,它几乎完全是在个人家中通过键盘打字进行的。在本文中,我们探索身体提示作为图像生成的输入。身体提示将与生成式人工智能的交互扩展到文本输入之外,将图像生成的创造性行为与创作艺术品的物理行为重新连接起来。我们在互动艺术装置“Artworks Reimagined”中实现了这一概念,旨在通过身体提示来改变艺术品。我们在一次有数百名参观者的公共和私人活动中部署了该装置。我们对访客样本(N=79)的结果表明,身体提示很受欢迎,并且提供了引人入胜且有趣的体验。我们确定了与生成人工智能的具体交互的三种不同模式,并提出了对参与者的身体提示和人工智能共同创造体验的见解。我们为寻求在博物馆、画廊和其他公共文化空间设计交互式生成人工智能体验的从业者提供宝贵的建议。
Humboldt:元数据驱动的可扩展数据发现
分类: 数据库, 人机交互
作者: Alex Bäuerle, Çağatay Demiralp, Michael Stonebraker
发布时间: 2024-08-10
链接: http://arxiv.org/abs/2408.05439v1
摘要: 数据发现对于数据管理和分析至关重要,并且可以从更好地利用元数据中受益。例如,用户可能希望使用诸如“查找由 Alex 创建并由 Mike 认可的包含销售数字的表”之类的查询来搜索数据。他们可能还想查看他们查看的数据如何与其他数据及其沿袭相关,或其上游数据集(所有元数据)的质量和合规性。然而,通过交互式用户界面 (UI) 有效地呈现元数据以增强数据发现带来了挑战。每次更新元数据源(或提供程序)时不断修改 UI 会消耗大量的开发资源,并且缺乏可伸缩性和可扩展性。为此,我们推出了 Humboldt,这是一个新框架,使交互式数据系统能够有效地利用元数据进行数据发现,并快速发展其 UI 以支持元数据更改。 Humboldt 将元数据源与数据发现 UI 的实现分离,这些 UI 支持使用元数据字段的搜索和数据集可视化。它根据声明性规范自动生成交互式数据发现接口,避免昂贵的元数据特定(重新)实现。
使用屏蔽自动编码器增强脑电图数据的表示学习
分类: 人机交互
作者: Yifei Zhou, Sitong Liu
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05375v1
摘要: 自监督学习一直是促进表征学习的强大训练范例。在这项研究中,我们设计了一个掩码自动编码器(MAE)来指导深度学习模型学习脑电图(EEG)信号表示。我们的 MAE 包括编码器和解码器。一定比例的输入 EEG 信号被随机屏蔽并发送到我们的 MAE。目标是恢复这些屏蔽信号。经过这种自我监督的预训练后,编码器将针对下游任务进行微调。我们在 EEGEyeNet 凝视估计任务上评估我们的 MAE。我们发现 MAE 是一种有效的大脑信号学习器。也显着提高了学习效率。与没有进行 MAE 预训练的模型相比,经过预训练的模型只需 1/3 的训练时间就可以达到相同的性能,并且只需一半的训练时间即可达到相同的性能。我们的研究表明,与其他领域(自然语言处理、计算机视觉、机器人等)一样,自监督学习对于基于脑电图的应用来说是一个有前途的研究方向,因此我们期望基础模型在脑电图领域取得成功。
SHIELD:LLM 驱动的模式归纳,用于电动汽车电池供应链中断的预测分析
分类: 人工智能, 人机交互
作者: Zhi-Qi Cheng, Yifei Dong, Aike Shi, Wei Liu, Yuzhi Hu, Jason O'Connor, Alexander Hauptmann, Kate Whitefoot
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05357v1
摘要: 电动汽车 (EV) 电池供应链很容易受到干扰,因此需要先进的预测分析。我们推出了 SHIELD(基于模式的电动汽车供应链中断分层归纳),这是一个将大型语言模型 (LLM) 与电动汽车电池供应链风险评估领域专业知识相结合的系统。 SHIELD 结合了:(1)LLM 驱动的模式学习来构建综合知识库,(2)利用微调语言模型进行事件提取、用于模式匹配的多维相似性匹配以及图卷积网络(GCN)的中断分析系统)具有预测的逻辑约束,以及(3)用于可视化结果并结合专家反馈以增强决策的交互式界面。对来自 365 个来源的 12,070 个段落(2022-2023 年)进行评估,SHIELD 在中断预测方面优于基线 GCN 和 LLM+ 提示方法(例如 GPT-4o)。这些结果证明了 SHIELD 将大语言模型能力与领域专业知识相结合以增强供应链风险评估的有效性。
可解释的 AI 重装上阵:在大语言模型时代挑战 XAI 现状
分类: 人机交互, 人工智能
作者: Upol Ehsan, Mark O. Riedl
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05345v1
摘要: 当可解释性(XAI)的最初愿景被阐明时,最流行的框架是打开人工智能的(众所周知的)“黑匣子”,以便我们能够理解其内部运作方式。随着大型语言模型 (LLM) 的出现,打开黑匣子的能力越来越有限,尤其是对于非人工智能专家最终用户而言。在本文中,我们挑战了 LLM 时代“打开”黑匣子的假设,并主张改变我们的 XAI 期望。我们强调以算法为中心的 XAI 观点的认知盲点,认为以人为中心的观点可以成为前进的道路。我们通过沿着三个维度综合 XAI 研究来操作该论点:黑箱外的可解释性、黑箱边缘的可解释性以及利用基础设施接缝的可解释性。我们得出结论,反射性地将 XAI 作为一个域。
从文本到洞察:利用大型语言模型进行管理绩效评估
分类: 计算和语言, 人工智能, 新兴技术, 人机交互, 普通经济学, 经济学
作者: Ning Li, Huaikang Zhou, Mingze Xu
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05328v1
摘要: 本研究探讨了大型语言模型 (LLM)(特别是 GPT-4)在增强组织任务绩效评估客观性方面的潜力。通过对两项研究(包括各种任务绩效输出)的比较分析,我们证明大语言模型可以作为评估基于知识的绩效输出(这是知识工作者的关键贡献)的人类评估者的可靠甚至更好的替代方案。我们的结果表明,GPT 评分与人类评分相当,但表现出更高的一致性和可靠性。此外,对同一绩效输出的多个 GPT 评级的组合显示出与总体人类绩效评级的强相关性,类似于绩效评估文献中观察到的共识原则。然而,我们也发现大语言模型很容易出现情境偏差,例如光环效应,反映了人类的评价偏差。我们的研究表明,虽然大语言模型能够从基于文本的数据中提取有意义的结构,但其范围目前仅限于特定形式的绩效评估。通过强调大语言模型的潜力和局限性,我们的研究有助于探讨人工智能在管理研究中的作用,并为未来研究完善人工智能在管理中的理论和实际应用奠定了基础。
多发短信还是现在开车?在有条件自动驾驶的汽车中发短信后恢复驾驶
分类: 人机交互
作者: Nabil Al Nahin Ch, Jared Fortier, Christian P. Janssen, Orit Shaer, Caitlin Mills, Andrew L. Kun
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05286v1
摘要: 在这项研究中,我们重点关注驾驶员在驾驶和非驾驶相关任务(NDRT)之间交错时使用的不同策略,同时从自动驾驶中夺回控制权。我们进行了两项驾驶模拟器实验,以研究短信、优先级和接管时间预算的不同认知需求如何影响驾驶员的接管策略。我们还评估了不同的收购策略如何影响收购绩效。我们发现接管策略的选择受到优先级和接管时间预算的影响,但不受 NDRT 认知需求的影响。接管策略对接管质量或 NDRT 参与度没有任何影响,但影响了接管时间。
评估大型语言模型为不同中学生提供个性化科学文本的能力
分类: 人机交互, 计算和语言, 计算机与社会
作者: Michael Vaccaro Jr, Mikayla Friday, Arash Zaghi
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05204v1
摘要: 大型语言模型 (LLM),包括 OpenAI 的 GPT 系列,近年来取得了重大进展。大语言模型以其跨学科领域的专业知识和对用户提供的提示的快速适应能力而闻名,拥有作为个性化学习 (PL) 工具的独特潜力。尽管有这种潜力,但它们在 K-12 教育中的应用在很大程度上仍未得到探索。本文介绍了首批随机对照试验之一 (n = 23),以评估 GPT-4 在为中学生个性化教育科学文本方面的有效性。在本研究中,GPT-4 用于根据培训课程期间的选择来分析学生的学习偏好。对于实验组,GPT-4 用于重写科学文本以符合学生的预测概况,而对于对照组的学生,文本被重写以违背他们的学习偏好。 Mann-Whitney U 测试的结果表明,当学生与自己的个人资料一致时,他们明显更喜欢(0.10 水平)重写的文本(p = 0.059)。这些发现表明,GPT-4 可以根据不同的学习者偏好有效地解释和定制教育内容,标志着 PL 技术的重大进步。还讨论了本研究的局限性以及在教育中使用人工智能的伦理考虑。
使用 Vision Foundation 模型对 HAR 数据集进行弱注释
分类: 人机交互, 计算机视觉和模式识别
作者: Marius Bock, Kristof Van Laerhoven, Michael Moeller
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05169v1
摘要: 迄今为止,基于可穿戴设备的数据注释仍然是一项繁琐、耗时的任务,需要研究人员投入大量时间,因此与相关领域的可用数据集相比,人类活动识别领域的基准数据集缺乏丰富性和规模。最近,诸如 CLIP 之类的视觉基础模型引起了广泛关注,帮助视觉社区在寻找稳健、可泛化的特征表示方面取得进展。由于可穿戴社区中的大多数研究人员依靠视觉模式来克服可穿戴数据的有限表达能力,并准确地离线标记其即将发布的基准数据集,我们提出了一种新颖的、基于聚类的注释管道,以显着减少可穿戴数据的数量。需要人工注释者注释的数据。我们证明,使用我们的方法,质心剪辑的注释足以在三个公开可用的 HAR 基准数据集中实现接近 90% 的平均标记精度。使用弱注释数据集,我们进一步证明我们可以在所有三个基准数据集上匹配完全监督的深度学习分类器的准确性分数。代码以及补充数据和结果可通过 github.com/mariusbock/weak_har 公开下载。
大语言模型和主题分析:研究社交媒体仇恨言论的人机协同
分类: 人机交互, 计算和语言, 社交和信息网络
作者: Petre Breazu, Miriam Schirmer, Songbo Hu, Napoleon Kastos
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05126v1
摘要: 在人工智能 (AI) 的动态领域,用于文本分析的大型语言模型 (LLM) 的开发和应用具有重要的学术意义。尽管各种大语言模型在进行定性分析方面很有前途,但它们在人文和社会科学中的应用尚未得到彻底的审查。本文通过记录涉及 GPT-4 的实验研究,为大语言模型定性分析的新兴文献做出了贡献。该研究的重点是使用源自欧盟资助项目的 YouTube 数据集进行主题分析 (TA),其他研究人员此前曾对该数据集进行过分析。该数据集反映了 2016 年瑞典罗姆移民的情况,这一时期是 2015 年难民危机之后、2017 年瑞典全国选举之前的时期。我们的研究旨在了解将人类智能与人工智能的可扩展性和效率相结合的潜力,研究利用大语言模型进行人文和社会科学定性研究的优势和局限性。此外,我们还讨论了大语言模型在这些领域的未来应用方向。
Sportify:通过嵌入式可视化和体育视频拟人化叙事进行问答
分类: 人机交互
作者: Chunggi Lee, Tica Lin, Hanspeter Pfister, Chen Zhu-Tian
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05123v1
摘要: 随着篮球运动的普及,球迷们经常发现自己对快速的比赛节奏和复杂性感到困惑和不知所措。篮球战术涉及一系列复杂的动作,需要大量的知识才能完全理解。这种复杂性导致需要额外的信息和解释,这可能会分散球迷对比赛的注意力。为了应对这些挑战,我们推出了 Sportify,这是一种视觉问答系统,它集成了叙述和嵌入式可视化,以揭开篮球战术问题的神秘面纱,帮助球迷了解比赛的各个方面。我们提出了三种新颖的动作可视化(即通过、剪切和屏幕)来演示关键动作序列。为了解释玩家行为背后的推理和逻辑,我们利用大语言模型(LLM)来生成叙述。我们采用从第一人称和第三人称视角讲述复杂场景的方法,并结合动作可视化。我们与篮球迷一起评估了 Sportify,以调查其对战术理解的影响,以及不同的个人叙事视角如何通过动作可视化影响对复杂战术的理解。我们对篮球迷的评估表明,Sportify 有能力加深战术洞察并增强观看体验。此外,第三人称解说有助于人们深入了解游戏,而第一人称解说则增强了粉丝的游戏参与度
评估 PC+VR 非对称协同决策中的布局维度
分类: 人机交互, 图形
作者: Daniel Enriquez, Wai Tong, Chris North, Huamin Qu, Yalong Yang
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05105v1
摘要: 随着虚拟/增强现实 (VR/AR) 设备的商业化,人们越来越关注结合沉浸式和非沉浸式设备(例如台式计算机)进行非对称协作。虽然这种不对称设置已经在社交平台上得到了检验,但数据驱动决策中围绕布局维度的重大问题仍未得到充分探索。一个关键的问题出现了:尽管在沉浸式和非沉浸式平台上呈现一致的 3D 虚拟世界是社交应用程序中的常见做法,但同样的准则是否也适用于布局数据?还是应该根据每个设备的显示能力本地优化数据放置?本研究旨在为数据驱动决策中不对称协作的用户体验提供实证见解。我们测试了PC和VR之间的实际维度组合,产生了三种情况:PC2D+VR2D、PC2D+VR3D和PC3D+VR3D。结果显示,人们更倾向于 PC2D+VR3D,并且 PC2D+VR2D 的任务完成速度最快。我们的调查促进了对不对称协作中不同布局维度相关权衡的深入讨论。
通过能力增量探索人机团队基于能力的控制分布:形式化和含义
分类: 机器人技术, 人机交互, 系统与控制, 系统与控制
作者: Nils Mandischer, Marcel Usai, Frank Flemisch, Lars Mikelsons
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.05069v1
摘要: 现代团队概念中普遍存在人类和自主代理具有某些能力的隐含假设。然而,没有人以灵活且可量化的方式形式化这些能力。在本文中,我们提出了能力增量,它建立了一个可量化的来源来设计自主辅助系统,其中一个代理担任领导者,另一个代理担任支持者角色。我们根据既定的评估和记录程序,从残疾人的职业包容性中扣除人类能力的量化。这使我们能够量化团队当前能力与工作流程建立的要求之间的增量或差距。然后,该概念扩展到多维能力空间,从而可以形式化补偿行为并评估自主代理所需的行动。
回顾过去,展望未来:以第一人称视角了解过去的人工智能遭遇如何塑造当今的创意实践
分类: 人机交互, 68T99, I.2.m
作者: Makayla Lewis
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.04978v1
摘要: 此视觉叙述是对 2023 年 ACM 创意与认知第一届国际可解释人工智能艺术研讨会 (XAIxArts) 上一张图片的第一人称反映。最初的研讨会图片探讨了研究人员与人工智能之间的关系,应对创造性挑战整个2023年教学区。最后提出了有关归属透明度、创作过程的道德维度以及灵感与抄袭之间微妙平衡的关键问题。研讨会上的后续讨论产生了宝贵的见解,特别是在解释创意之旅方面。后续的视觉叙事反映了 Makayla Lewis 与人工智能互动的持久影响。一幅深入探讨创造力和内省相互作用的自画像。
DG Comics:半自动创作动态图的图漫画
分类: 人机交互
作者: Joohee Kim, Hyunwook Lee, Duc M. Nguyen, Minjeong Shin, Bum Chul Kwon, Sungahn Ko, Niklas Elmqvist
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.04874v1
摘要: 漫画是顺序数据驱动讲故事的有效方法,特别是对于动态图(顶点和边随时间变化的图)。然而,目前手动创建此类漫画非常耗时、复杂且容易出错。在本文中,我们提出了 DG Comics,这是一种新颖的动态图漫画创作工具,允许用户半自动地构建和注释漫画。该工具使用新开发的层次聚类算法来分割动态图的连续快照,同时保留其时间顺序。它还以多个视图呈现从动态图表中提取的有关个人和社区的丰富信息,用户可以在其中探索动态图表并选择漫画中要讲述的内容。为了进行评估,我们提供了一个示例并报告了用户研究和专家评审的结果。
调查 360° 视频中面部匿名化技术的感知
分类: 人机交互
作者: Leslie Wöhler, Satoshi Ikehata, Kiyoharu Aizawa
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.04844v1
摘要: 在这项工作中,我们研究了 360{\deg} 视频中的面部匿名化技术,并评估它们对感知真实性、匿名化效果和参与者存在的影响。与传统的镜头相比,360{\deg} 视频可以传达引人入胜的沉浸式体验,准确地再现现实世界的氛围。由于整个环境是同时捕获的,因此有必要对公共场所录制中的旁观者面孔进行匿名处理。由于这会改变视频内容,因此感知的真实感和沉浸感可能会降低。为了了解这些效果,我们比较了在普通屏幕或头戴式显示器 (HMD) 上显示的使用模糊、黑盒和面部交换的非匿名和匿名 360{\deg} 视频。我们的结果表明,人们对匿名化技术的认知存在显着差异。我们发现换脸是最现实且破坏性最小的,然而,参与者对匿名化的有效性提出了担忧。此外,我们观察到 HMD 条件下的存在受到面部匿名化的影响。总体而言,结果强调了平衡照片真实感和隐私感的面部匿名技术的必要性。
自然语言代码大纲:大语言模型时代的文学编程
分类: 软件工程, 人工智能, 人机交互, 机器学习
作者: Kensen Shi, Deniz Altınbüken, Saswat Anand, Mihai Christodorescu, Katja Grünwedel, Alexa Koenings, Sai Naidu, Anurag Pathak, Marc Rasi, Fredde Ribeiro, Brandon Ruffin, Siddhant Sanyam, Maxim Tabachnyk, Sara Toth, Roy Tu, Tobias Welp, Pengcheng Yin, Manzil Zaheer, Satish Chandra, Charles Sutton
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.04820v1
摘要: 我们建议使用自然语言大纲作为一种新颖的模式和交互界面,在整个软件开发过程中为开发人员提供人工智能帮助。代码函数的 NL 大纲由用简洁的散文编写的多个语句组成,这些语句以文学编程的方式划分代码并总结其主要思想。至关重要的是,我们发现现代大语言模型可以在实践中生成准确且高质量的自然语言大纲。此外,NL 大纲可实现代码和 NL 之间的双向同步,允许其中一个的更改自动反映在另一个中。我们讨论了 NL 大纲的许多用例:它们可以加速代码和差异的理解和导航、简化代码维护、增强代码搜索、引导代码生成等等。然后,我们提出并比较了多种用于生成大纲的LLM提示技术,并要求专业开发人员判断大纲的质量。最后,我们提出了两个将 NL 概要应用于代码审查和恶意软件检测的艰巨任务的案例研究。
当可刷新触觉显示器遇到会话代理时:研究通过触摸和语音进行可访问的数据呈现和分析
分类: 人机交互
作者: Samuel Reinders, Matthew Butler, Ingrid Zukerman, Bongshin Lee, Lizhen Qu, Kim Marriott
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.04806v1
摘要: 尽管最近为使盲人或弱视人士 (BLV) 能够访问数据可视化而开展的研究工作激增,但如何支持 BLV 人士的数据分析仍然是一个重要且具有挑战性的问题。随着可刷新触觉显示器 (RTD) 变得越来越便宜,对话代理不断改进,它们的组合为支持 BLV 人们的交互式数据探索和分析提供了一种有前途的方法。为了了解 BLV 人们如何使用 RTD 与对话代理相结合的系统并对其做出反应,我们对 11 位 BLV 参与者进行了绿野仙踪研究,他们与折线图、条形图和等差图进行交互。我们对参与者互动的分析确定了九种不同的模式。我们还了解到,模式的选择取决于任务类型和触觉图形的先前经验,并且参与者强烈喜欢 RTD 和语音的组合而不是单一模式。此外,具有更多触觉经验的参与者描述了触觉图像如何促进更深入地参与数据并支持独立解释。我们的研究结果将为此类交互式混合模态系统的界面设计提供信息。
基于运动的视觉编码可以提高动态时间序列感知任务的性能
分类: 人机交互
作者: Songwen Hu, Ouxun Jiang, Jeffrey Riedmiller, Cindy Xiong Bearfield
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.04799v1
摘要: 动态数据可视化可以随着时间的推移传达大量信息,例如使用运动来描述多个实体的数据值的变化。这种动态显示对我们的视觉处理能力提出了要求,但我们对运动的感知是有限的。多种技术已被证明可以改进动态显示的处理。上演动画以顺序显示过渡中的步骤并通过显示轨迹历史来跟踪对象移动可以通过减少认知负荷来改进处理。在本文中,我们研究了动态显示中分段和跟踪的有效性。我们向参与者展示了描述线条运动的动画折线图,并要求他们识别具有最高均值和方差的线条。我们操纵动画来显示带有或不带有分段、跟踪和历史的线条,并将结果与作为对照的静态图表进行比较。结果表明,追踪和分期是参与者的首选,并分别提高了他们在均值和方差任务中的表现。当使用舞台时,他们还希望展示时间缩短 3 倍。此外,使用一致任务中的均值和方差对动画速度进行编码与更高的准确性相关。这些发现有助于为现实世界构建动态显示的最佳实践提供信息。补充材料可以在 https://osf.io/8c95v/ 找到
可操作的语义组件:数据可视化场景的计算表示
分类: 人机交互
作者: Zhicheng Liu, Chen Chen, John Hooker
发布时间: 2024-08-09
链接: http://arxiv.org/abs/2408.04798v1
摘要: 各种数据可视化应用程序(例如逆向工程和交互式创作)需要描述可视化场景的结构以及操作它们的过程的词汇表。已经提出了一些场景抽象,但它们仅限于一组有限的可视化类型的特定应用。不同应用程序的数据可视化场景的统一且富有表现力的模型一直缺失。为了填补这一空白,我们提出了可操作语义组件(MSC),它是数据可视化场景的计算表示,以支持场景理解和增强中的应用。 MSC由两部分组成:用语义组件描述可视化场景结构的统一对象模型,以及生成和修改场景组件的一组操作。我们在三个应用中展示了 MSC 的优势:可视化创作、可视化解构和重用以及动画规范。
探索 XAI 中个性驱动的个性化:增强用户对游戏的信任
分类: 人机交互, 机器人技术
作者: Zhaoxin Li, Sophie Yang, Shijie Wang
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04778v1
摘要: 根据个人需求定制 XAI 方法对于直观的人机交互至关重要。虽然背景和任务目标至关重要,但用户个性特征等因素也可能影响方法选择。我们的研究调查了使用个性特征来预测用户在决策树、文本和因子图中的偏好。我们训练了一个机器学习模型,用于对大五人格测试的反应来预测偏好。在导航游戏中部署这些预测偏好 (n=6),我们发现用户更容易接受个性化 XAI 推荐,从而增强了对系统的信任。这强调了 XAI 界面定制的重要性,影响用户的参与度和信心。
事件序列分析的多级任务框架
分类: 人机交互
作者: Kazi Tasnim Zinat, Saimadhav Naga Sakhamuri, Aaron Sun Chen, Zhicheng Liu
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04752v1
摘要: 尽管针对不同领域的事件序列数据开发了许多可视化分析工具,包括但不限于医疗保健、数字营销和用户行为分析,但比较这些特定领域的调查并将结果转移到新的数据集和问题领域仍然具有挑战性。任务抽象可以帮助我们超越特定领域的细节,但现有的可视化任务抽象不足以进行事件序列可视化分析,因为它们主要关注多变量数据集,并且经常忽略自动化分析技术。为了解决这一差距,我们提出了一个用于事件序列分析的与领域无关的多级任务框架,该框架源自对 58 篇介绍事件序列可视化系统的论文的分析。我们的框架由四个层次组成:目标、意图、策略和技术。总体目标确定了分析的主要目标。意图包括每个分析步骤采用的五种高级方法:增强数据、简化数据、配置数据、配置可视化和管理来源。每个意图都是通过多种策略来实现的,例如,可以通过聚合、汇总或分段来实现数据简化。最后,每个策略都可以通过一组取决于输入和输出组件的技术来实现。我们进一步表明,每种技术都可以通过四个动作输入输出标准来表达。我们通过案例研究展示了该框架的描述能力,并讨论了其与之前的事件序列任务分类法的异同。
参与数据艺术:举办公众实践研讨会
分类: 人机交互, I.3.8; K.3.0
作者: Jonathan C. Roberts
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04750v1
摘要: 数据艺术融合了可视化、数据科学和艺术表达。它允许人们将信息和数据转化为令人兴奋和有趣的视觉叙事。举办公共数据艺术实践研讨会使参与者能够接触数据并学习基本的可视化技术。然而,作为一项公共活动,它带来了一系列挑战。我们概述了组织和举办公共研讨会的方法,该研讨会适合从儿童到成人的广泛年龄段。我们将教程分为三个部分,重点关注数据、素描技巧和可视化。我们重视公众参与,确保参与者在学习新技能的同时获得乐趣。
DaedalusData:医疗制造中颗粒的探索、知识外化和标记——一项设计研究
分类: 人机交互
作者: Alexander Wyss, Gabriela Morgenshtern, Amanda Hirsch-Hüsler, Jürgen Bernard
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04749v1
摘要: 在早期疾病检测和常规患者护理的医疗诊断中,体外诊断耗材的颗粒污染对患者构成重大威胁。关于污染严重程度的客观数据驱动决策是降低患者风险的关键,同时节省质量评估的时间和成本。我们的合作者向我们介绍了他们的质量控制流程,包括通过图像识别、特征提取和反映颗粒生产背景的属性采集颗粒数据。当前流程的缺点是探索数千张图像的局限性、数据驱动的决策以及无效的知识外化。遵循设计研究方法,我们的贡献是问题空间和需求的表征、DaedalusData 的开发和验证、对我们研究成果的全面讨论以及知识外化的通用框架。 DaedalusData 是一个可视化分析系统,使领域专家能够探索粒子污染模式、在标签字母表中标记粒子,并通过半监督的标签信息数据投影将知识外化。我们的案例研究和用户研究的结果表明,DaedalusData 具有很高的可用性,并且能够有效支持专家生成数千个粒子的全面概述、标记大量粒子以及将知识外化以进一步扩充数据集。反思我们的方法,我们讨论了通过人类知识外化来增强数据集的见解,以及在实践中采用这种方法所带来的可扩展性和权衡。
问题多于答案?将可解释的人工智能集成到网络人工智能工具中的经验教训
分类: 人机交互, 人工智能
作者: Ashley Suh, Harry Li, Caitlin Kenney, Kenneth Alperin, Steven R. Gomez
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04746v1
摘要: 我们分享了在网络安全分析师的特定领域工作流程中实施可解释人工智能 (XAI) 的持续努力中的观察结果和挑战。具体来说,我们简要描述了使用 XAI 进行源代码分类的初步案例研究,其中准确的评估和及时性至关重要。我们发现,最先进的显着性解释技术(例如 SHAP 或 LIME)的输出在由缺乏人工智能专业知识的人解释时会在翻译中丢失,尽管这些技术是针对非技术用户销售的。此外,我们发现,当流行的 XAI 技术是事后且解释过于本地化时,它们对实时人类人工智能工作流程提供的见解较少。相反,我们观察到网络分析师需要更高层次、易于理解的解释,以尽可能减少对其工作流程的干扰。我们概述了实用且有效的 XAI 中尚未解决的差距,然后讨论了大型语言模型 (LLM) 等新兴技术如何缓解这些现有障碍。
直线加速器相干光源下仪器操作的多尺度认知交互模型
分类: 人机交互, 多代理系统, 高能物理-实验
作者: Jonathan Segal, Wan-Lin Hu, Paul Fuoss, Frank E. Ritter, Jeff Shrager
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04734v1
摘要: 我们描述了直线加速器相干光源(LCLS)仪器操作的新型多智能体、多尺度计算认知交互模型。 LCLS 是领先的科学用户设施,是世界上第一个硬 X 射线自由电子激光器,由美国能源部 SLAC 国家加速器实验室运营。作为世界上第一个 X 射线自由电子激光器,LCLS 的需求量很大,而且超额认购。我们的整个项目采用认知工程方法,通过完善实验界面和工作流程、简化任务、减少错误以及提高操作员安全性和压力水平来提高实验效率和科学生产力。我们的模型在多个认知和时间尺度(从几秒到几小时)以及扮演多种角色(包括仪器操作员、实时数据分析师和实验经理)的代理之间模拟人类认知的各个方面。该模型可以预测对操作界面和工作流程提出的更改所产生的影响。由于模型代码是开源的,并且补充视频详细介绍了模型和结果的各个方面,因此该方法可以应用于其他实验设备和过程。示例结果证明了该模型在指导修改以提高运营效率和科学产出方面的潜力。我们讨论了我们的研究结果对复杂实验环境中认知工程的影响,并概述了未来的研究方向。
由大型语言模型支持的对话式人工智能放大了证人访谈中的错误记忆
分类: 计算和语言, 人工智能, 计算机与社会, 人机交互
作者: Samantha Chan, Pat Pataranutaporn, Aditya Suri, Wazeer Zulfikar, Pattie Maes, Elizabeth F. Loftus
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04681v1
摘要: 这项研究探讨了人工智能对人类错误记忆的影响——对未发生或偏离实际发生事件的回忆。它通过人机交互中的暗示性提问来探索错误记忆诱导,模拟犯罪证人访谈。测试了四种条件:控制、基于调查、预先编写脚本的聊天机器人和使用大语言模型 (LLM) 的生成聊天机器人。参与者 (N=200) 观看犯罪视频,然后与指定的人工智能采访者或调查互动,回答包括五个误导性问题在内的问题。错误记忆立即和一周后进行评估。结果显示,生成式聊天机器人条件显着增加了错误记忆的形成,产生的直接错误记忆比对照方法多 3 倍,比调查方法多 1.7 倍。 36.4% 的用户对生成式聊天机器人的反应在交互过程中被误导了。一周后,生成聊天机器人诱发的错误记忆数量保持不变。然而,一周后,对这些错误记忆的信心仍然高于对照组。我们探讨了调节因素:不太熟悉聊天机器人但更熟悉人工智能技术并且对犯罪调查更感兴趣的用户更容易受到错误记忆的影响。这些发现强调了在敏感环境中使用先进人工智能的潜在风险,例如警方采访,强调了道德考虑的必要性。
Transformer 解释器:文本生成模型的交互式学习
分类: 机器学习, 人工智能, 计算和语言, 人机交互
作者: Aeree Cho, Grace C. Kim, Alexander Karpekov, Alec Helbling, Zijie J. Wang, Seongmin Lee, Benjamin Hoover, Duen Horng Chau
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04619v1
摘要: 变形金刚彻底改变了机器学习,但其内部运作方式对许多人来说仍然不透明。我们推出 Transformer Expander,这是一款交互式可视化工具,专为非专家人士设计,旨在通过 GPT-2 模型了解 Transformer。我们的工具通过集成模型概述并实现数学运算和模型结构抽象级别的平滑过渡,帮助用户理解复杂的 Transformer 概念。它在用户浏览器本地运行实时 GPT-2 实例,使用户能够试验自己的输入并实时观察 Transformer 的内部组件和参数如何协同工作以预测下一个代币。我们的工具不需要安装或特殊硬件,扩大了公众对现代生成人工智能技术的教育机会。我们的开源工具可从 https://poloclub.github.io/transformer-explainer/ 获取。视频演示请访问 https://youtu.be/ECR4oAwocjs。
将注释集成到声音化和物理化的设计过程中
分类: 人机交互
作者: Rhys Sorenson-Graff, S. Sandra Bae, Jordan Wirfs-Brock
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04574v1
摘要: 注释是可视化的重要组成部分,可帮助查看者解释视觉表示并突出关键数据见解。尽管注释发挥着重要作用,但我们对如何将注释合并到其他数据表示(例如物理化和可听化)中缺乏了解。鉴于这些表示的新兴性质,声音化和物理化缺乏正式的约定(例如设计空间、词汇),这可能会给观众解释预期的数据编码带来挑战。为了应对这一挑战,这项工作的重点是如何将注释更紧密地集成到创建声音化和物理化的设计过程中。在一项与 13 名设计师合作的探索性研究中,我们探索了如何将可视化注释技术适应声音和物理模式。我们的工作强调了可听化和物理化的注释如何与其数据编码密不可分。
ParetoTracker:通过视觉分析了解多目标进化算法中的种群动态
分类: 神经和进化计算, 人机交互
作者: Zherui Zhang, Fan Yang, Ran Cheng, Yuxin Ma
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04539v1
摘要: 多目标进化算法 (MOEA) 已成为解决复杂优化问题的强大工具,这些优化问题的特征是多个且经常相互冲突的目标。尽管在计算效率以及解决方案的多样性和收敛性方面取得了进步,但一个关键的挑战仍然存在:内部进化机制对人类用户来说是不透明的。借鉴可解释人工智能在解释复杂算法和模型方面的成功经验,我们认为理解 MOEA 中底层进化算子和种群动态的需要与可视化分析范式非常一致。本文介绍了 ParetoTracker,这是一个可视化分析框架,旨在支持理解和检查 MOEA 进化过程中的种群动态。根据初步文献综述和专家访谈,该框架建立了一个多层次的分析方案,满足用户的参与和探索,从检查性能指标的总体趋势到对进化操作进行细粒度的检查。与需要手动绘制每一代解决方案的传统做法相比,ParetoTracker 有助于在集成可视化界面中检查连续几代的时间趋势和动态。该框架的有效性通过针对广泛采用的基准优化问题的案例研究和专家访谈得到了证明。
谁毁了游戏?:揭露《战地》游戏中的作弊玩家
分类: 人机交互
作者: Dong Young Kim, Huy Kang Kim
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04506v1
摘要: 《战地》网络游戏以其大规模多人游戏能力和独特的游戏功能(包括各种车辆控制)而闻名。然而,这些功能使游戏成为作弊的主要目标,大大降低了游戏体验。本研究采用统计方法分析了流行网络游戏《战地》中作弊游戏的用户行为。我们的目标是通过对通过“游戏工具 API”收集的 44,000 多起报告的作弊事件进行广泛分析,提供有关作弊玩家的全面见解。我们的方法包括详细的统计分析,例如计算关键变量的基本统计数据、相关性分析以及使用直方图、箱线图和散点图的可视化。我们的研究结果强调了采用自适应、数据驱动的方法来防止在线游戏中作弊的重要性。
“我是人类,就像你一样”:交叉的、神经分歧的生活经历给无障碍研究带来了什么
分类: 人机交互
作者: Lindy Le
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04500v1
摘要: 神经分歧的日益普遍使社会更加认识到神经多样性的重要性。然而,社会对神经分歧的看法仍然主要是负面的。利用严重残疾研究,无障碍研究人员已经证明了神经规范假设如何主导人机交互。尽管有他们的指导,神经分歧者和残疾人在技术研究中仍然被边缘化。特别是,人机交互神经分歧研究中很大程度上仍然缺乏交叉身份。在本文中,我作为学术研究界的局外人分享了我的观点:我使用批判性的自我民族志来分析我在权力、特权和压迫系统中理解、接受和重视我的神经分歧的经历。使用数据女权主义作为交叉性的易于理解和实用的指南,我得出了重新概念化神经分歧以更加包容交叉经验的三个原则:(1)神经分歧是一种功能差异,而不是缺陷; (2)神经发散性残疾是一个摩擦时刻,而不是一个静态标签; (3)神经分歧可及性是一种协作实践,而不是片面的解决方案。然后,我将应用相同的交叉镜头,在现有人机交互研究的背景下讨论这些原则。最后,我就可访问性研究如何在未来的工作中应用这些原则提供三点建议,以弥合人机交互神经分歧研究中可访问性理论与实践之间的差距
新闻学院数据可视化教学的思考
分类: 人机交互
作者: Xingyu Lan
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04386v1
摘要: 近年来,数据可视化在新闻业中的整合促进了数据叙事的增长。如今,新闻学校将数据可视化纳入其课程越来越普遍。然而,受学生背景不同以及这些学科固有的独特价值体系的影响,新闻学院的数据可视化教学方法可能与计算机科学或设计学院的数据可视化教学方法有很大不同。本文回顾了我在新闻学院教授数据可视化的经验和思考。首先讨论新闻教育的突出特点对课程设计和教学带来的挑战。然后,我分享与每个特征相关的第一手教学经验,并推荐有效教学的方法。
从模糊到清晰:阐明威胁追踪者的认知过程和认知支持需求
分类: 密码学和安全, 人机交互
作者: Alessandra Maciel Paz Milani, Arty Starr, Samantha Hill, Callum Curtis, Norman Anderson, David Moreno-Lumbreras, Margaret-Anne Storey
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04348v1
摘要: 随着安全威胁的频率和严重性不断增加,我们必须考虑威胁猎手的重要作用。这些训练有素的安全专业人员学习如何发现、识别和拦截安全威胁。网络安全领域的许多最新工作和现有工具都专注于自动化威胁搜寻过程,往往忽视了关键的人为因素。我们的研究通过强调以人为本的方法来理解威胁猎人的生活经历,从而改变了这种范式。通过在狩猎过程中观察威胁猎人并分析他们提供的丰富见解,我们寻求加深对他们的认知过程和他们所需的工具支持的理解。通过对威胁狩猎者的深入观察研究,我们介绍了他们在威胁狩猎过程中如何构建和完善心理模型的模型。我们还提出了 23 个主题,为更好地理解威胁追踪需求奠定了基础,并提出了 5 个可操作的设计主张,以增强支持这些主题的工具。通过这些贡献,我们的工作丰富了对威胁狩猎的理论理解,并为设计更有效、以人为本的网络安全工具提供了实践见解。
数字代理学习:基于活动理论的分析
分类: 人机交互, 人工智能
作者: Mateusz Dolata, Dzmitry Katsiuba, Natalie Wellnhammer, Gerhard Schwabe
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04304v1
摘要: 数字代理被认为是一种通用技术。它们在私人和组织环境中迅速传播,包括教育。然而,研究缺乏一个概念框架来以整体方式描述与此类代理的交互。在关注与教学代理(即能够与学习者进行自然语言交互的数字代理)的交互的同时,我们提出了一种基于活动理论的学习活动模型。我们使用这个模型和对教育中数字代理的先前研究的回顾来分析活动的各种特征(包括教学代理或学习者的特征)如何影响学习成果。该分析有助于确定信息系统的研究方向,并为教学代理和数字代理的开发人员提供指导。最后,我们将基于活动理论的模型扩展到教育背景之外,并展示它如何帮助设计师和研究人员在创建数字代理时提出正确的问题。
用于混合现实远程呈现的空间可供性感知的可交互子空间分配
分类: 新兴技术, 人机交互
作者: Dooyoung Kim, Seonji Kim, Selin Choi, Woontack Woo
发布时间: 2024-08-08
链接: http://arxiv.org/abs/2408.04297v1
摘要: 为了使远程虚拟现实(VR)和增强现实(AR)客户端能够在混合现实(MR)远程呈现期间像在同一空间中一样进行协作,必须克服空间异构性并通过集成远程来生成统一的共享协作环境空间到目标主机空间。尤其是当多个远程用户连接时,人们在协作时需要较大的共享空间来维护自己的个人空间,但现有的简单交叉方法会导致随着远程空间数量的增加而创建狭窄的共享空间。为了即使在远程空间数量增加时也能稳健地与主机空间对齐,我们提出了一种空间可供性感知的可交互子空间分配算法。我们方法的关键概念是分别考虑可感知和可交互区域,其中每个用户都会看到相同的共同空间,但考虑到他们的位置和空间可供性,每个远程用户都有不同的可交互子空间。我们对 900 个空间组合进行了评估,将远程空间的数量分为两个、四个和六个,结果表明,与其他空间匹配方法相比,我们的方法在确保广泛的可交互空间和实例化用户方面表现出色。我们的工作使来自不同远程位置的多个客户能够访问 AR 主机的空间,通过在连接的共同空间内对齐其物理子空间,使他们能够直接与桌子、墙壁或地板进行交互。
用于纸笔计算机教育的手写代码识别
分类: 计算机视觉和模式识别, 人工智能, 计算机与社会, 人机交互
作者: Md Sazzad Islam, Moussa Koulako Bala Doumbouya, Christopher D. Manning, Chris Piech
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.07220v1
摘要: 通过让学生在纸上手写程序来教授计算机科学 (CS) 具有关键的教学优势:与使用带有智能支持工具的集成开发环境 (IDE) 或“只是尝试一下”相比,它可以集中学习并需要仔细思考。笔和纸的熟悉环境还减轻了没有计算机经验的学生的认知负担,对于他们来说,仅仅基本的计算机使用就可能令人生畏。最后,这种教学方法为使用计算机有限的学生提供了学习机会。然而,一个主要障碍是目前缺乏用于处理和运行手写程序的教学方法和支持软件。手写代码的光学字符识别 (OCR) 具有挑战性:轻微的 OCR 错误(可能是由于手写风格不同)很容易导致代码无法运行,而识别缩进对于 Python 等语言至关重要,但由于手写水平间距不一致而很难做到。我们的方法整合了两种创新方法。第一个将 OCR 与压痕识别模块和专为 OCR 后纠错而设计的语言模型相结合,而不会引入幻觉。据我们所知,这种方法在手写代码识别方面超越了所有现有系统。它将错误从最先进的 30% 减少到 5%,同时对学生程序的逻辑修复产生最小的幻觉。第二种方法利用多模式语言模型以端到端的方式识别手写程序。我们希望这一贡献能够刺激进一步的教学研究,并有助于实现普及计算机科学教育的目标。我们在 https://github.com/mdoumbouya/codeocr 发布了手写程序和代码的数据集以支持未来的研究
将空间感知纳入虚拟代理的数据驱动手势生成中
分类: 人机交互, 计算和语言, 图形, I.3.6; I.2.10
作者: Anna Deichler, Simon Alexanderson, Jonas Beskow
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04127v1
摘要: 本文重点关注通过将空间上下文集成到虚拟代理的非语言行为(特别是手势)中来增强人与代理的通信。协同语音手势生成的最新进展主要利用数据驱动的方法,该方法创建自然的运动,但将手势的范围限制为在空中执行的手势。我们的工作旨在通过使生成模型将场景信息合并到语音驱动的手势合成中来扩展这些方法。我们引入了为此目的量身定制的新颖的合成手势数据集。这一发展代表了创建可与环境和用户更自然地交互的具体对话代理的关键一步。
使用大型语言模型的基于知识的情绪识别
分类: 人机交互
作者: Bin Han, Cleo Yau, Su Lei, Jonathan Gratch
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04123v1
摘要: 社交情境中的情绪识别是一项复杂的任务,需要整合来自面部表情和情境背景的信息。虽然自动情绪识别的传统方法侧重于脱离情境的信号,但最近的研究强调了情境在塑造情绪感知方面的重要性。本文利用人类情绪感知的心理学理论为自动化方法的设计提供信息,为基于情境的情绪识别这一新兴领域做出了贡献。我们提出了一种将情感识别方法与贝叶斯线索集成(BCI)相结合的方法,以整合来自脱离语境的面部表情的情感推断和通过大语言模型推断的语境知识。我们在社会任务(囚徒困境)期间解释面部表情的背景下测试了这种方法。我们的结果为一系列自动情绪识别方法的 BCI 提供了明确的支持。最好的自动化方法取得了与人类观察者相当的结果,这表明这种方法有可能推动情感计算领域的发展。
Patchview:大语言模型驱动的世界构建,具有生成尘埃和磁铁可视化
分类: 人机交互, 人工智能, 计算和语言
作者: John Joon Young Chung, Max Kreminski
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04112v1
摘要: 大型语言模型 (LLM) 可以通过生成派系、角色和地点等世界元素来帮助作家构建故事世界。然而,理解许多生成的元素可能会让人不知所措。此外,如果用户想要精确控制难以口头指定的生成元素的各个方面,仅提示可能是不够的。我们推出了 Patchview,这是一个由 LLM 驱动的可定制系统,它允许用户通过磁铁和灰尘的物理隐喻与故事概念和元素进行交互,从而在视觉上帮助世界构建。 Patchview 中的元素在视觉上被拉近到具有高度相关性的概念,从而促进意义建构。用户还可以通过指示概念之间元素的所需位置来引导语言上难以捉摸的概念的生成。当用户不同意 LLM 的可视化和生成时,他们可以通过重新定位元素来纠正这些问题。这些修正可用于使大语言模型未来的行为与用户的看法保持一致。通过用户研究,我们表明 Patchview 支持世界元素的意义构建和元素生成的指导,从而促进世界构建过程中的探索。 Patchview 提供了有关可定制视觉表示如何帮助意义构建、引导和调整生成式 AI 模型行为与用户意图的见解。
多尺度结构复杂性作为视觉复杂性的定量度量
分类: 物理与社会, 计算机视觉和模式识别, 人机交互
作者: Anna Kravchenko, Andrey A. Bagrov, Mikhail I. Katsnelson, Veronica Dudarev
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04076v1
摘要: 虽然视觉复杂性的概念对人类来说很直观,但很难正式定义和量化。我们建议采用多尺度结构复杂性(MSSC)度量,这种方法将对象的结构复杂性定义为其层次结构中不同尺度之间的差异量。在这项工作中,我们将 MSSC 应用于视觉刺激的情况,使用从人类参与者 (SAVOIAS) 获得的主观复杂性分数的开放图像数据集。我们证明 MSSC 与主观复杂性的相关性与其他计算复杂性度量相当,同时其定义更加直观、跨图像类别一致并且更易于计算。我们讨论人类对复杂性的感知中固有的客观和主观因素,以及两者更可能出现分歧的领域。我们展示了 MSSC 的多尺度性质如何允许进一步研究人类感知的复杂性。
Desk2Desk:基于优化的混合现实工作空间集成,用于远程并排协作
分类: 人机交互
作者: Ludwig Sidenmark, Tianyu Zhang, Leen Al Lababidi, Jiannan Li, Tovi Grossman
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04062v1
摘要: 混合现实支持混合工作空间,其中物理和虚拟监视器可以自适应地创建和移动,以适应当前的环境和需求。然而,在共享设置中,各个用户的工作区很少对齐,并且在显示器数量、可用物理空间和工作区布局方面可能存在显着差异,从而在工作区之间造成不一致,从而可能导致混乱并减少协作。我们推出了 Desk2Desk,这是一种基于优化的远程协作方法,其中两个协作者的混合工作空间完全集成,以实现沉浸式并排协作。该优化调整每个用户的工作空间的布局和共享显示器的数量,并在工作空间之间创建映射,以处理由于物理限制(例如物理显示器)而导致的工作空间之间的不一致。我们在用户研究中展示了我们的系统如何自适应地合并不同的物理工作空间以实现沉浸式并排协作,并演示基于优化的方法如何有效地解决不同的物理布局。
基于文献的甘特图可视化任务分类法
分类: 人机交互
作者: Sayef Azad Sakin, Katherine E. Isaacs
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04050v1
摘要: 甘特图是一种广泛使用的习惯用法,用于可视化事件之间存在依赖性的时间离散事件序列数据。它们因其直观的数据布局而在制造和计算等领域很受欢迎。然而,这些领域经常生成一定规模的数据,这对视觉表示和以交互速度渲染数据的能力造成了负担。为了帮助在这些情况下使用甘特图的可视化开发人员,我们开发了甘特图支持的低级可视化任务的任务分类,并将它们连接到支持它们所需的数据查询。我们的分类法是通过过去 30 年使用甘特图进行可视化的文献调查得出的。
用于可视化复合图的概述+详细布局
分类: 人机交互
作者: Chang Han, Justin Lieffers, Clayton Morrison, Katherine E. Isaacs
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04045v1
摘要: 复合图是一种网络,其中顶点可以分组为更大的子集,这些子集能够进一步分组,从而产生多层深度的嵌套。在一些应用中,包括生物工作流程、化学方程和计算数据流分析,这些图通常表现出树状嵌套结构,其中兄弟簇是不相交的。常见的复合图布局优先考虑最低级别的分组,直至各个未分组的顶点,这可能会使更高级别的分组结构更难以辨别,尤其是在深度嵌套的网络中。利用树状嵌套的附加结构,我们为此类复合图提供了概述+详细布局,当组扩展以显示内部嵌套结构时,该布局保留了更高级别网络结构的显着性。我们的布局绘制与其父级相邻的内部结构,使用修改后的树布局来放置子结构。我们描述我们的算法,然后提供案例研究,向从事数据流分析的领域专家展示布局的实用性。最后,我们讨论我们的布局非常适合的网络参数和分析情况。
一种以 Deixis 为中心的方法,用于记录围绕数据可视化的远程同步通信
分类: 人机交互
作者: Chang Han, Katherine E. Isaacs
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04041v1
摘要: 指代手势,或者用语言学术语来说,指示语,是围绕数据可视化进行交流的重要组成部分。尽管它们很重要,但在记录数据分析会议时,这些手势经常被忽视。例如,文字记录无法捕捉手势,而视频记录可能无法充分捕捉或强调它们。我们引入了一种记录协作数据会议的新颖方法,该方法将指示语视为一等公民。我们提出的框架捕获基于光标的手势数据和音频,并将它们转换为交互式文档。该框架利用大型语言模型来识别单词与手势的对应关系。这些标识的引用用于在生成的交互式文档中创建基于上下文的注释。我们通过用户研究评估了我们提出的方法的有效性,发现参与者更喜欢我们的自动交互式文档而不是录音、成绩单和手动笔记。此外,我们从研究期间参与者的行为中得出了基于光标的指示手势的初步分类。这种分类法为在协作数据分析场景中更好地利用基于光标的指示表示提供了更多机会。
使用人工智能助手查找信息
分类: 软件工程, 人机交互
作者: Ebtesam Al Haque, Chris Brown, Thomas D. LaToza, Brittany Johnson
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04032v1
摘要: 软件从业人员每天的大部分时间都涉及寻找和使用信息来支持任务完成。尽管软件从业者的信息需求已被广泛研究,但人工智能辅助工具对其需求和信息寻求行为的影响在很大程度上仍未得到探索。为了解决这一差距,我们进行了一项混合方法研究,以了解人工智能辅助从业者的信息搜索行为及其对他们感知的生产力和技能发展的影响。我们发现,开发人员越来越多地使用人工智能工具来支持他们的信息搜索,并将提高效率作为主要优势。我们的研究结果还强调了有效使用人工智能工具进行信息搜索(尤其是学习和技能开发)所带来的警告,例如可以指导和告知人工智能工具提供的信息的基础开发人员知识的重要性。我们的努力对于将人工智能工具作为信息检索和学习辅助工具有效集成到开发人员工作流程中具有重要意义。
评估基于力的触觉,以实现与表面可视化的沉浸式有形交互
分类: 人机交互
作者: Hamza Afzaal, Usman Alim
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04031v1
摘要: 触觉反馈提供了一种重要的感官刺激,对于交互和分析表面可视化上的三维时空现象至关重要。鉴于虚拟现实 (VR) 能够提供增强的空间感知和场景可操作性,因此可以促进表面可视化上的触觉交互。已经使用触觉力反馈设备探索了各种交互模式,包括空中和地面交互(无论是否施加辅助力刺激)。在本文中,我们评估了与非触觉交互模式相比,表面和辅助表面触觉交互模式的使用。所有三种模式均使用基于力的触觉手写笔;表面模式使用基于碰撞的力,而辅助表面模式则伴随着额外的捕捉力。我们进行了一项受试者内用户研究,涉及在表面可视化上执行的基本交互任务。为了在所有三种模式中保持一致的视觉设计,我们的研究纳入了需要定位表面上的最高点、最低点和随机点的任务;以及专注于在具有不同复杂性和遮挡级别的表面上刷曲线的任务。我们的研究结果表明,参与者使用所有交互模式刷曲线所需的时间几乎相同。与无触觉模式相比,他们可以使用表面交互模式绘制更平滑的曲线。然而,辅助地面模式比地面模式提供了更好的精度。表面模式的点定位速度较慢,但准确性取决于与任务相关的视觉线索和遮挡。最后,我们讨论了参与者使用触觉力反馈作为有形输入方式的反馈,并分享了一些要点,以帮助设计基于触觉的有形交互以实现表面可视化。
MetaDragonBoat:在元界校园探索虚拟龙舟划水技术
分类: 多媒体, 人机交互
作者: Wei He, Xiang Li, Shengtian Xu, Yuzheng Chen, Chan-In Sio, Ge Lin Kan, Lik-Hang Lee
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.04013v1
摘要: 根据联合国可持续发展目标 (SDG) 的规定,保护文化遗产是可持续城市发展的组成部分。本文重点关注端午节这一中国文化遗产的重要活动,并建议利用虚拟现实 (VR) 来加强其保存和可访问性。传统上,参加节日龙舟比赛的人仅限于精英运动员,不包括更广泛的人群。我们提出的解决方案名为 MetaDragonBoat,可以虚拟参与龙舟比赛,提供身临其境的体验,通过文化之旅复制体力消耗。因此,我们为位于具有丰富龙舟赛传统的地区的大学校园建立了数字孪生。结合由商业控制器或带触觉反馈的物理桨控制器启用的三种划桨技术,多样化的用户可以享受逼真的划船体验。我们的结果表明,通过将阻力集成到桨控制中,用户可以模拟龙舟比赛的体力消耗,从而促进对这一文化遗产的更深入的理解和欣赏。
可视化研究论文的可重复性标记状态
分类: 图形, 数字图书馆, 人机交互
作者: Tobias Isenberg
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03889v1
摘要: 我分析了经图形可复制性标记计划 (GRSI) 认证为可复制的论文的演变,特别关注解决可视化相关主题的出版物子集。通过这个分析,我表明,虽然可视化领域的论文数量总体上在增加,但我们仍然需要做出很大的改进才能摆脱复制危机。我的分析基于 GRSI 发布的数据以及可视化不同场所的出版物数据以及在以可视化为重点的会议上发表的期刊论文列表。我还分析了所涉及期刊之间的差异以及不同发表地点的可重复论文的百分比。此外,我还会查看出版物的作者,特别是他们的所属国家,以了解最可重复的论文来自哪里。最后,我讨论了重复性数字低的潜在原因,并提出了克服这些障碍的可能方法。本文本身是可复制的,可从 github.com/tobiasisenberg/Visualization-Reproducibility 获取源代码和数据,并在 osf.io/mvnbj 上获取免费纸质副本和所有补充材料。
从数据到故事:利用基于 LLM 的多代理系统实现自动动画数据视频创建
分类: 人机交互
作者: Leixian Shen, Haotian Li, Yun Wang, Huamin Qu
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03876v1
摘要: 由于人类注意力有限且需要专业技能,从原始数据创建数据故事具有挑战性。大语言模型 (LLM) 的最新进展为开发具有自主代理的系统以简化数据讲述工作流程提供了绝佳的机会。尽管多智能体系统具有通过分解各个智能体的任务来充分发挥LLM潜力等优点,但设计此类系统也面临着任务分解、子任务性能优化和工作流设计等方面的挑战。为了更好地理解这些问题,我们开发了 Data Director,这是一个基于 LLM 的多代理系统,旨在自动创建动画数据视频(数据故事的代表类型)。 Data Director 解释原始数据、分解任务、设计代理角色以自动做出明智的决策,并无缝集成数据视频的不同组件。案例研究证明了 Data Director 在生成数据视频方面的有效性。在整个开发过程中,我们从应对挑战中汲取了经验教训,指导了数据讲故事的自主代理的进一步发展。我们还阐明了全局优化、人机交互设计以及先进多模式大语言模型应用的未来方向。
ImageSI:深度学习图像投影的语义交互
分类: 人机交互
作者: Jiayue Lin, Rebecca Faust, Chris North
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03845v1
摘要: 图像降维 (DR) 中的语义交互 (SI) 允许用户通过直接操作图像的 2D 位置来合并反馈。通过交互,用户指定 DR 应旨在捕获的一组成对关系。现有的图像方法通过抽象嵌入特征的特征权重将反馈合并到 DR 中。然而,如果原始嵌入功能不能适当地捕获用户的任务,那么 DR 也不能。我们提出了 ImageSI,一种用于图像 DR 的 SI 方法,它将用户反馈直接合并到图像模型中以更新底层嵌入,而不是对其进行加权。在此过程中,ImageSI 确保嵌入适当地捕获任务所需的特征,以便 DR 随后可以使用这些特征来组织图像。我们使用不同的损失函数提出了 ImageSI 的两种变体 - ImageSI_MDS_Inverse,它优先考虑交互中的显式成对关系;ImageSI_Triplet,它优先考虑聚类,使用交互来定义图像组。最后,我们提出了一个使用场景和基于模拟的评估,以展示 ImageSI 的实用性并将其与当前方法进行比较。
针对移动应用程序中的辅助功能问题的自动代码修复建议
分类: 软件工程, 人工智能, 人机交互, D.2.5; I.2
作者: Forough Mehralian, Titus Barik, Jeff Nichols, Amanda Swearngin
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03827v1
摘要: 可访问性对于包容性应用程序可用性至关重要,但由于缺乏意识、专业知识和工具不足,开发人员常常难以识别和解决应用程序可访问性问题。当前的可访问性测试工具可以识别可访问性问题,但可能并不总是提供如何解决这些问题的指导。我们推出 FixAlly,这是一种自动化工具,旨在针对自动可访问性扫描程序检测到的可访问性问题提出源代码修复建议。 FixAlly 采用多代理 LLM 架构来生成修复策略、定位源代码中的问题并提出代码修改建议以修复可访问性问题。我们的实证研究表明,FixAlly 能够提出解决可访问性扫描仪发现的问题的修复方案,生成合理修复建议的效率为 77%,而且我们对 12 名 iOS 开发人员进行的调查发现,他们愿意接受 69.4% 的评估修复方案建议。
利用反事实数据增强中的变异理论来优化主动学习
分类: 机器学习, 计算和语言, 人机交互
作者: Simret Araya Gebreegziabher, Kuangshi Ai, Zheng Zhang, Elena L. Glassman, Toby Jia-Jun Li
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03819v1
摘要: 主动学习 (AL) 允许模型从用户反馈中交互学习。本文介绍了一种针对 AL 的反事实数据增强方法,特别是解决了用户查询数据点的选择问题,这是提高数据效率的关键问题。我们的方法受到变异理论的启发,变异理论是一种人类概念学习理论,通过关注保持不变和变化的内容来强调概念的基本特征。我们的方法不仅仅是查询现有数据点,而是合成人工数据点,使用结合大型语言模型(LLM)和基于规则的模型的神经符号管道来突出标签之间潜在的关键相似性和差异。通过文本分类示例领域的实验,我们表明,当注释数据较少时,我们的方法可以实现显着更高的性能。随着带注释的训练数据变得越来越大,生成数据的影响开始减弱,显示出其解决 AL 中冷启动问题的能力。这项研究揭示了如何将人类学习理论整合到 AL 的优化中。
空间敏感性的交互式视觉分析
分类: 人机交互
作者: Marina Evers, Simon Leistikow, Hennes Rave, Lars Linsen
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03817v1
摘要: 仿真集成的敏感性分析确定仿真参数如何影响仿真结果。通常,每个模拟参数都会计算一个全局数值灵敏度值。然而,在考虑 3D 空间模拟时,不同空间区域的局部敏感性分析在许多应用中非常重要。为了分析参数灵敏度的空间变化,需要计算每个模拟参数的空间灵敏度标量场。给定$n$个模拟参数,在考虑所有模拟参数时,我们获得由$n$个标量场组成的多场数据。我们提出了一种交互式可视化分析解决方案来分析多字段敏感性数据。它支持调查各个参数对模拟结果的影响程度和方式、这种情况发生在哪些空间区域以及模拟参数之间的相互作用是什么。其核心组件是所有敏感区域的概览可视化,通过使用数据驱动的空间填充曲线的自适应方案对数据进行线性化来避免 3D 遮挡。空间敏感度值以地平线图和折线图的组合形式可视化。我们通过将其应用于合成和现实世界的集成数据来验证我们的方法。
对墙说话:语音交互在协作视觉分析中的作用
分类: 人机交互, H.5.2
作者: Gabriela Molina León, Anastasia Bezerianos, Olivier Gladin, Petra Isenberg
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03813v1
摘要: 我们展示了一项探索性研究的结果,该研究涉及在协作意义建构任务期间,配对如何在墙壁大小的显示器上与语音命令和触摸手势进行交互。先前的工作表明,语音命令单独或与其他输入方式结合,可以支持个人的视觉数据探索。然而,目前尚不清楚语音命令是否可以、如何用于协作以及用于什么任务。为了回答这些问题,我们开发了一个功能原型,用作技术探针。我们对 10 对参与者进行了深入的探索性研究,以分析他们的交互选择、输入方式之间的相互作用以及他们的协作。虽然触摸是最常用的方式,但我们发现参与者更喜欢进行全局操作的语音命令,将其用于远程交互,并且语音交互有助于了解合作伙伴的行为。此外,在协作过程中使用语音命令的可能性与宜人的人格特质有关。关于协作方式,参与者与语音交互的频率相同,无论他们是松散还是紧密耦合的协作。虽然合作伙伴在密切协作过程中彼此站得更近,但他们并没有因为使用语音命令而保持距离。根据我们的研究结果,我们得出并贡献了一系列协作和多模式交互式数据分析系统的设计考虑因素。所有补充材料均可在 https://osf.io/8gpv2 上获取
构建和侵蚀:影响可视化主观信任的外生和内生因素
分类: 人机交互
作者: R. Jordan Crouser, Syrine Matoussi, Lan Kung, Saugat Pandey, Oen G. McKinley, Alvitta Ottley
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03800v1
摘要: 信任是人机交互的主观但基本的组成部分,是塑造数据可视化效果的决定性因素。先前的研究已经确定了可视化中信任评估的五个维度(可信度、清晰度、可靠性、熟悉度和置信度),并观察到这些维度往往会随着被评估的可视化的某些特征而发生可预测的变化。这就提出了一个进一步的问题:驱动观众信任评估的设计特征如何随着观众本身的特征而变化?通过从个体差异的角度重新分析这些研究的数据,我们构建了一个更详细的设计特征、个体特征和信任行为之间关系的图谱。特别是,我们对内生设计特征(例如可视化类型或颜色的使用)和外生用户特征(例如可视化素养)的独特贡献以及它们之间的交互进行建模。然后,我们利用这些发现为个性化和自适应可视化设计提出建议。
用于构建和探索替代可视化的基于路径的设计模型
分类: 人机交互, J.5; I.3.0; I.3.6; I.3.8; H.5.2
作者: James Jackson, Panagiotis D. Ritsos, Peter W. S. Butcher, Jonathan C. Roberts
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03681v1
摘要: 我们提出了一个基于路径的设计模型和系统,用于设计和创建可视化。我们的模型代表了一种按照预定义的步骤序列构建数据或概念的视觉表示的系统方法。第一步涉及通过创建骨架结构(称为流程)来概述可视化的整体外观。随后,我们指定对象、视觉标记、属性和外观,并将它们存储在基因中。最后,我们将数据映射到流路径上,确保合适的态射。替代设计是通过交换基因中的值而创建的。例如,具有相似特征的设计是通过对基因进行微小的增量改变而创建的。我们的设计方法促进了多样化创意概念、充满空间的可视化以及条形图、圆形图和饼图等传统格式的生成。通过我们的实施,我们展示了该模型的实际应用。作为示例应用程序,我们将输出可视化集成到智能手表和可视化仪表板上。在本文中,我们(1)介绍、定义和解释路径模型并讨论其使用的可能性,(2)介绍我们的实现、结果和评估,以及(3)演示和评估其在移动手表上的使用应用程序。
多维分区的 2D 嵌入
分类: 人机交互
作者: Marina Evers, Lars Linsen
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03641v1
摘要: 分区(或分段)将给定域划分为不相交的连接区域,这些区域的联合再次形成整个域。例如,在分析仿真模型的参数空间时会发生多维分区,其中分区的每个段代表相似模型行为的区域。计算出分区后,人们通常有兴趣了解分段有多大以及哪些分段彼此相邻。虽然显示大小和邻域的 2D 域划分的视觉表示很简单,但在考虑三个或更多维度的多维域时,情况不再如此。我们提出了一种计算多维分区的二维嵌入的算法。嵌入应具有以下属性: 它应保持分区的拓扑并优化嵌入段的区域大小和联合边界长度,以匹配多维域中的各自大小和长度。我们通过将其应用于不同的用例来证明该方法的有效性,包括 3D 空间域分割的视觉探索和模拟集成的多维参数空间划分。我们根据域的维度和段的数量对大小和长度的保留程度进行数值评估。
焦深估计:一种免校准、受试者和白天不变的方法
分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习, 信号处理
作者: Benedikt W. Hosp, Björn Severitt, Rajat Agarwala, Evgenia Rusak, Yannick Sauer, Siegfried Wahl
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03591v1
摘要: 在个性化技术与日常生活日益交织在一起的时代,传统的眼球追踪系统和自动对焦眼镜面临着重大挑战:需要频繁的、针对特定用户的校准,这阻碍了它们的实用性。这项研究引入了一种突破性的免校准方法来估计焦深,利用机器学习技术来分析短序列内的眼球运动特征。我们的方法以其对 LSTM 网络和特定领域特征工程的创新使用而著称,实现了小于 10 厘米的平均绝对误差 (MAE),树立了新的焦深估计精度标准。这一进步有望增强自动对焦眼镜的可用性,并为其无缝集成到扩展现实环境中铺平道路,标志着个性化视觉技术的重大飞跃。
癌症治疗引起的心脏毒性决策中的临床挑战和人工智能机遇
分类: 人机交互
作者: Siyi Wu, Weidan Cao, Shihan Fu, Bingsheng Yao, Ziqi Yang, Changchang Yin, Varun Mishra, Daniel Addison, Ping Zhang, Dakuo Wang
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03586v1
摘要: 癌症治疗引起的心脏毒性已成为临床关注的主要问题,影响癌症患者的长期生存和生活质量。有效的临床决策,包括检测癌症治疗引起的心脏毒性和监测相关症状,对于临床医生来说仍然是一项具有挑战性的任务。本研究调查了临床医生在癌症治疗引起的心脏毒性临床决策中的当前实践和需求,并探讨了数字健康技术支持这一过程的潜力。通过对七位临床专家的半结构化访谈,我们确定了一个三步决策范例:1)症状识别,2)诊断测试和专家协作,3)临床决策和干预。我们的研究结果强调了诊断心脏毒性(缺乏统一的方案和症状的高度变异性)和监测患者症状(缺乏准确和及时的患者自我报告症状)的困难。临床医生还表示,他们需要能够集成远程患者监测功能的有效早期检测工具。基于这些见解,我们讨论了了解临床工作流程的动态性质的重要性,以及支持癌症治疗引起的心脏毒性决策的未来数字工具的设计考虑因素。
思维漂移,数据转移:利用思维漫游通过数据可视化跟踪用户体验的演变
分类: 人机交互
作者: Anjana Arunkumar, Lace Padilla, Chris Bryan
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03576v1
摘要: 数据可视化中的用户体验通常是通过观看后的自我报告来评估的,但这些忽略了交互过程中的动态认知过程。这项研究探讨了如何使用走神(一种注意力自发地从主要任务转移到内部、与任务相关的想法或不相关的干扰的现象)作为可视化探索过程中的动态测量。参与者报告在查看预先标记的可视化数据库中的可视化时出现走神现象,然后提供信任、参与度和设计质量的定量评级,以及定性描述和短期/长期回忆评估。结果表明,走神会对短期可视化回忆和各种观看后测量产生负面影响,特别是对于文本注释很少的可视化。此外,走神的类型会影响参与度和情绪反应。走神还充当将可视化设计元素与观看后测量联系起来的中间过程,随着时间的推移影响观看者如何参与和解释视觉信息。总体而言,这项研究强调了将思维游移作为可视化设计和评估中的动态测量的重要性,为增强用户参与和理解提供了新颖的途径。
社交边缘计算中基于角色识别的网络欺凌分析方法
分类: 人机交互, 社交和信息网络
作者: Runyu Wang, Tun Lu, Peng Zhang, Ning Gu
发布时间: 2024-08-07
链接: http://arxiv.org/abs/2408.03502v1
摘要: 在过去的几年里,许多努力致力于研究社交边缘计算设备中的网络欺凌,其中大多数集中在三个角色:受害者、施暴者和旁观者。如果我们想深入了解互联网边缘设备中网络欺凌的形成、演变和干预,就需要探索更细粒度的角色。本文提出了一种多层次的角色特征建模方法,并提出了一种差分进化辅助K均值(DEK)方法来识别不同的角色。我们的工作旨在为社交边缘计算环境的网络欺凌场景提供角色识别方案,以缓解网络欺凌带来的一般安全问题。对从微博获得的 10 个真实世界数据集和 5 个公共数据集进行的实验表明,所提出的 DEK 在方法层面优于现有方法。经过聚类,我们得到了九个角色,并分析了每个角色的特征及其在不同网络欺凌场景下的演化趋势。我们本文的工作可以放置在互联网边缘的设备中,从而获得更好的实时识别性能,并适应移动设备的广泛地理位置和高移动性。
将 HCI 数据集集成到基于项目的机器学习课程中:大学水平的回顾和案例研究
分类: 机器学习, 计算机与社会, 人机交互
作者: Xiaodong Qu, Matthew Key, Eric Luo, Chuhui Qiu
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03472v1
摘要: 本研究探索在大学课程中使用人机界面 (HCI) 数据集集成现实世界的机器学习 (ML) 项目,以增强教学和学习体验。该研究采用全面的文献综述、课程网站分析和详细的案例研究,确定了将人机交互数据集纳入基于项目的机器学习教育的最佳实践。主要研究结果表明,通过实践项目提高了学生的参与度、积极性和技能发展,而教师则受益于教授复杂概念的有效工具。该研究还解决了数据复杂性和资源分配等挑战,为未来的改进提供了建议。这些见解为教育工作者提供了一个有价值的框架,旨在弥合两者之间的差距
使用颜色:颜色量化如何帮助研究人员研究有问题的信息
分类: 计算机与社会, 人机交互
作者: Nina Lutz, Jordyn W. Padzensky, Joseph S. Schafer
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03424v1
摘要: 分析大量视觉媒体仍然是一项具有挑战性的任务,特别是在处理有问题的信息和人类受试者的混合方法研究中。在此类分析中使用人工智能工具可能会具体化和加剧偏见,以及难以维持的计算和成本限制。因此,我们转向采用几何计算机图形和视觉方法,结合人机交互定性分析来分析来自有问题的信息活动的大量图像。我们通过实施颜色量化来分析美国-墨西哥边境的在线仇恨图像来说明这种方法的有效案例,以及颜色量化和肤色尺度历史的历史主义追踪,以告知我们对这些的使用和回收其方法论源自种族主义。为此,我们在案例研究中提出了更多研究人员的动机和需要,以考虑在他们自己的工作中重新利用此类方法的优势和风险。
融合力:深度人工引导的分割掩模细化
分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习
作者: Rafael Sterzinger, Christian Stippel, Robert Sablatnig
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03304v1
摘要: 伊特鲁里亚镜子构成了伊特鲁里亚艺术的一个重要类别,其特点是背面有精美的比喻插图。他们的分析和记录的一个费力且昂贵的方面是手动跟踪这些插图的任务。在之前的工作中,已经提出了一种方法来自动化这一过程,涉及光度立体扫描与深度神经网络的结合。虽然实现了类似于专家注释器的定量性能,但一些结果仍然缺乏定性精度,因此需要注释器进行检查和潜在的校正,以保持资源强度。作为回应,我们提出了一种深度神经网络,经过训练可以根据人类指导交互式地完善现有注释。我们的人机交互方法简化了注释,实现了同等质量,同时所需的手动输入减少了 75%。此外,在细化过程中,我们的方法相对于纯手工贴标的相对改进达到了峰值高达 26%,更快地获得了更好的质量。通过针对分割复杂线条的复杂任务进行定制,特别将其与以前的方法区分开来,我们的方法提供了功效的巨大改进,可转移到伊特鲁里亚镜子之外的广泛应用。
了解盲人用户如何处理对象识别错误:策略和挑战
分类: 人机交互, 人工智能
作者: Jonggi Hong, Hernisa Kacorri
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03303v1
摘要: 物体识别技术有潜力支持盲人和低视力人士探索周围的世界。然而,基准性能和实际可用性之间的差距仍然是一个重大挑战。本文提出了一项研究,旨在了解盲人用户与物体识别系统的交互,以识别和避免错误。利用针对我们的实验进行微调的现有物体识别系统 URCam,我们进行了一项涉及 12 名盲人和低视力参与者的用户研究。通过深入访谈和实际的错误识别任务,我们深入了解了用户的体验、挑战以及识别基于摄像头的辅助技术和对象识别系统中的错误的策略。在采访中,许多参与者更喜欢独立的错误审查,同时表达了对误识的担忧。在错误识别任务中,参与者改变图像中的视点、背景和物体大小,以避免和克服错误。即使在重复任务后,参与者也只发现了一半的错误,并且发现的错误比例与他们第一次尝试没有显着差异。基于这些见解,我们为设计可访问的界面提供了建议,以满足盲人和低视力用户在识别对象识别错误方面的需求。
JetUnit:使用水射流在虚拟现实中渲染不同的力反馈
分类: 人机交互
作者: Zining Zhang, Jiasheng Li, Zeyu Yan, Jun Nishida, Huaishu Peng
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03285v1
摘要: 我们提出了 JetUnit,这是一种水基 VR 触觉系统,旨在通过水射流产生各种强度和频率的力反馈。设计该系统的关键挑战在于优化参数,使触觉设备能够产生力反馈,该反馈可以精确复制直接水射流产生的最强烈的力,同时确保用户保持干燥。在本文中,我们提出了通过一组定量实验和感知研究确定的 JetUnit 可穿戴设备的关键设计参数。我们进一步进行了一项用户研究,以评估将我们的触觉解决方案集成到虚拟现实体验中的影响。结果表明,遵循JetUnit的设计原理,水基触觉系统能够提供多种力反馈感觉,显着增强虚拟现实中的沉浸式体验。
压缩和比较:交互式评估 ML 模型压缩实验的效率和行为
分类: 人机交互, 人工智能, 机器学习
作者: Angie Boggust, Venkatesh Sivaraman, Yannick Assogba, Donghao Ren, Dominik Moritz, Fred Hohman
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03274v1
摘要: 为了在设备上部署机器学习模型,从业者使用压缩算法来缩小和加速模型,同时保持高质量的输出。实践中压缩的一个关键方面是模型比较,包括跟踪许多压缩实验、识别模型行为的细微变化以及协商复杂的准确性-效率权衡。然而,现有的压缩工具很难支持比较,导致在不相交的工具中进行繁琐且有时不完整的分析。为了支持现实世界的比较工作流程,我们开发了一个名为“压缩和比较”的交互式视觉系统。在单个界面中,压缩和比较通过可视化压缩模型之间的来源关系来显示有希望的压缩策略,并通过比较模型的预测、权重和激活来揭示压缩引起的行为变化。我们通过两个案例研究演示了压缩和比较如何支持常见的压缩分析任务,调试生成语言模型上失败的压缩以及识别图像分类模型中的压缩伪影。我们在与八位压缩专家的用户研究中进一步评估了压缩和比较,说明了它为压缩工作流程提供结构的潜力,帮助从业者建立关于压缩的直觉,并鼓励彻底分析压缩对模型行为的影响。通过这些评估,我们确定了未来可视化分析工具应考虑的特定于压缩的挑战,并压缩和比较可视化,这些可视化可以推广到更广泛的模型比较任务。
超越数据的联系:通过可视化探索同质性
分类: 人机交互
作者: Poorna Talkad Sukumar, Maurizio Porfiri, Oded Nov
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03269v1
摘要: 同质性是指个体倾向于与与自己特征相似的人交往,例如种族、民族、年龄、性别或兴趣。在本文中,我们以美国大规模枪击数据作为示例主题,调查个人在观看可视化时是否表现出种族同质性。我们进行了一项众包实验(N=450),向每个参与者展示了一个可视化的大规模枪击受害者的计数,突出显示了三个种族群体(白人、黑人或西班牙裔)之一的计数。参与者被分配查看突出显示自己种族或不同种族的可视化效果,以评估种族一致性对枪支管制的影响(情绪)和态度变化的影响。虽然我们没有发现同质性的证据,但结果显示所有可视化条件下的影响都出现了显着的负向转变。值得注意的是,政治意识形态显着影响了情感的变化,更自由的观点与更负面的情感变化相关。我们的研究结果强调了大规模枪击可视化反应的复杂性,并建议未来的研究应考虑各种方法改进,以更好地评估同质效应。
用于心血管手术规划的多用户移动增强现实
分类: 人机交互
作者: Pratham Mehta, Rahul Narayanan, Harsha Karanth, Haoyang Yang, Dr Timothy C Slesnick, Dr. Fawwaz Shaw, Duen Horng, Chau
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03249v1
摘要: 先天性心脏病的协作规划通常涉及通过 3D 打印创建物理心脏模型,然后由外科医生和心脏病专家进行检查。移动增强现实 (AR) 技术的最新发展提供了一种可行的替代方案,以其易用性和便携性而闻名。然而,仍然缺乏研究利用多用户移动 AR 环境来支持心血管手术的协作规划。我们创建了 ARCollab,这是一款 iOS AR 应用程序,旨在让多名外科医生和心脏病专家能够在共享环境中与患者的 3D 心脏模型进行交互。 ARCollab 使外科医生和心脏病专家能够导入心脏模型,通过手势操纵它们并与其他用户协作,从而无需制作物理心脏模型。我们与三名心胸外科医生和两名心脏病专家一起对 ARCollab 在加强协作方面的可用性和实用性进行了评估,这标志着对用于手术规划的多用户移动 AR 工具的首次人类评估。 ARCollab 是开源的,可从 https://github.com/poloclub/arcollab 获取。
DaVE——可视化示例精选数据库
分类: 分布式、并行和集群计算, 图形, 人机交互
作者: Jens Koenen, Marvin Petersen, Christoph Garth, Tim Gerrits
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03188v1
摘要: 可视化,从简单的线图到复杂的高维视觉分析系统,已经在众多领域中建立起来,用于探索、分析和评估数据。在模拟科学的背景下应用此类可视化,其中高性能计算 (HPC) 会产生越来越多的数据,这些数据更加复杂、可能是多维和多模式的,会占用领域通常无法获得的资源和高水平的技术经验专家。在这项工作中,我们介绍了 DaVE——一个可视化示例的精选数据库,旨在提供 HPC 应用程序环境中出现的最先进和先进的可视化方法。根据用户输入的特定于领域或数据的描述符,DaVE 提供了一系列适当的可视化技术,每种技术都附有描述、示例、参考和资源。可以下载示例代码、适应性强的容器模板以及可轻松集成到 HPC 应用程序中的配方,以便轻松访问高保真可视化。虽然该数据库目前基于对当前 HPC 用户的需求和挑战的广泛评估而填充了有限数量的条目,但 DaVE 的设计目的是可以由可视化和 HPC 社区的专家轻松扩展。
OpenOmni:用于构建面向未来的多模式对话代理的协作开源工具
分类: 人机交互, 人工智能, 计算和语言
作者: Qiang Sun, Yuanyi Luo, Sirui Li, Wenxiao Zhang, Wei Liu
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03047v1
摘要: 多模式会话代理非常受欢迎,因为它们提供自然且类似人类的交互。然而,缺乏全面的端到端解决方案来支持协作开发和基准测试。虽然 GPT-4o 和 Gemini 等专有系统展示了令人印象深刻的音频、视频和文本集成,响应时间为 200-250 毫秒,但在平衡延迟、准确性、成本和数据隐私方面仍然存在挑战。为了更好地理解和量化这些问题,我们开发了 OpenOmni,这是一个开源的端到端管道基准测试工具,它集成了语音转文本、情绪检测、检索增强生成、大型语言模型等先进技术,以及集成定制模型的能力。 OpenOmni 支持本地和云部署,确保数据隐私并支持延迟和准确性基准测试。这种灵活的框架允许研究人员定制管道,重点关注真正的瓶颈并促进快速的概念验证开发。 OpenOmni 可以显着增强应用程序,例如为视障人士提供室内帮助,从而推进人机交互。我们的演示视频可通过 https://www.youtube.com/watch?v=zaSiT3clWqY 获取,演示可通过 https://openomni.ai4wa.com 获取,代码可通过 https://github.com/AI4WA/OpenOmniFramework 获取。
使用基于扩散的以噪声为中心的学习进行跨用户活动识别的对抗域适应
分类: 机器学习, 人工智能, 人机交互
作者: Xiaozhou Ye, Kevin I-Kai Wang
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03353v1
摘要: 人类活动识别(HAR)在人机交互和医疗保健监控等各种应用中发挥着至关重要的作用。然而,由于训练和实际数据分布之间的数据分布差异,HAR 模型仍然存在挑战,在跨用户场景中尤其明显。本文介绍了一种新颖的框架,称为基于扩散的以噪声为中心的对抗性学习域适应(Diff-Noise-Adv-DA),旨在通过利用生成扩散建模和对抗性学习技术来应对这些挑战。传统的 HAR 模型常常难以应对用户行为和传感器数据分布的多样性。 Diff-Noise-Adv-DA 创新地将固有噪声集成到扩散模型中,利用其潜在信息来增强域适应。具体来说,该框架将噪声转化为活动和域类信息的关键载体,从而促进跨不同用户域的稳健分类。实验评估证明了 Diff-Noise-Adv-DA 在提高不同用户的 HAR 模型性能方面的有效性,超越了传统的域适应方法。该框架不仅减少了分布不匹配,还通过基于噪声的去噪技术提高了数据质量。
行人群体行为对自动驾驶车辆交互决策影响的跨文化分析
分类: 人机交互, 人工智能
作者: Sergio Martín Serrano, Óscar Méndez Blanco, Stewart Worrall, Miguel Ángel Sotelo, David Fernández-Llorca
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.03003v1
摘要: 了解文化背景对于将自动驾驶无缝融入日常生活至关重要,因为它可以确保系统适应不同的社会规范和行为,从而提高不同文化背景下的接受度和安全性。在这项工作中,我们考虑文化和情境因素,研究同一地点的行人对过马路行为的影响。为了实现这一目标,我们在 CARLA 模拟器中创建了一个全尺寸的虚拟现实 (VR) 环境,从而能够在西班牙和澳大利亚复制相同的实验。参与者(N = 30)试图在城市人行横道上与其他行人一起过马路,表现出保守到更大胆的行为,而自动驾驶汽车(AV)以不同的驾驶方式接近。为了分析交互作用,我们利用了问卷调查和参与者进入车道时的直接测量。我们的研究结果表明,行人倾向于一起穿过相同的交通间隙,尽管群体的鲁莽行为会降低信心并使情况变得更加复杂。澳大利亚参与者比西班牙参与者愿意承担更少的风险,在不确定 AV 是否会屈服时采取更加谨慎的行为。
VirtualNexus:通过环境剪切和虚拟副本增强 360 度视频 AR/VR 协作
分类: 人机交互
作者: Xincheng Huang, Michael Yin, Ziyi Xia, Robert Xiao
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.02914v1
摘要: 非对称 AR/VR 协作系统将远程 VR 用户带到本地 AR 用户的物理环境中,使他们能够在共享的虚拟/物理空间中进行通信和工作。此类系统通常通过 3D 重建或 360 度视频来显示远程环境。虽然 360 度摄像机以更高的质量传输环境,但它们缺乏空间信息,从而降低了交互性。我们推出 VirtualNexus,这是一种 AR/VR 协作系统,可通过环境剪切和虚拟副本增强 360 度视频 AR/VR 协作。 VR 用户可以定义远程环境的切口,将其作为一个微型世界进行交互,并且他们的交互会与本地 AR 视角同步。此外,AR 用户可以使用神经渲染快速扫描和共享物理对象的 3D 虚拟复制品。我们通过 3 个示例应用程序展示了我们系统的实用性,并在二元可用性测试中评估了我们的系统。 VirtualNexus 扩展了 360 度远程呈现系统的交互空间,提供改进的物理临场感、多功能性和交互清晰度。
“分享,而不是炫耀”:BeReal 如何通过设计在社交媒体上实现真实的自我呈现
分类: 人机交互, 社交和信息网络
作者: JaeWon Kim, Robert Wolfe, Ishita Chordia, Katie Davis, Alexis Hiniker
发布时间: 2024-08-06
链接: http://arxiv.org/abs/2408.02883v1
摘要: 青少年特别容易受到社交媒体带来的压力,例如自我意识增强和广泛自我展示的需要。在这项研究中,我们调查了 BeReal(一个旨在应对其中一些压力的社交媒体平台)如何影响青少年的自我表现行为。我们采访了 29 名 13-18 岁的用户,了解他们对 BeReal 的体验。我们发现BeReal的设计注重自发分享,包括随机定时的每日通知和互惠发帖,不鼓励分阶段发帖,鼓励对受众进行精心策划,并减轻自我展示的压力。 BeReal 创造的空间提供了诸如验证未经过滤的生活和重新构建社会比较等好处,但其自我呈现的方式有时被认为是有限的或没有吸引力的,有时甚至是有毒的。根据这些经验数据,我们提炼出了一套设计指南,用于创建支持在线真实自我展示的平台,例如脚手架互惠和扩展到自发照片共享之外,让用户能够更准确、更舒适地描绘自己。
论道德偏好的稳定性:计算启发方法的一个问题
分类: 计算机与社会, 人工智能, 人机交互
作者: Kyle Boerstler, Vijay Keswani, Lok Chan, Jana Schaich Borg, Vincent Conitzer, Hoda Heidari, Walter Sinnott-Armstrong
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02862v1
摘要: 偏好诱导框架在参与式道德人工智能工具的研究中占有重要地位,并提供了一种可行的机制来询问和整合各个利益相关者的道德价值观。作为启发过程的一部分,有关道德偏好、观点和判断的调查通常只对每个参与者进行一次。如果参与者的回答随着时间的推移保持稳定,那么在所有其他相关因素保持不变的情况下,他们今天的回答将与以后对相同问题的回答相同,那么这种方法实践是合理的。然而,我们不知道这种情况发生的频率。参与者真正的道德偏好可能会发生变化,受到暂时情绪或突发奇想的影响,或者受到我们无法追踪的环境因素的影响。如果参与者的道德反应如此不稳定,那么如何确定参与者真实的道德偏好、观点和判断就会引发重要的方法论和理论问题。我们在这里通过向相同的调查参与者询问相同的道德问题来解决这种可能性,即当在两周内的十次不同会议中只有十次可用肾脏时,哪个患者应该接受肾脏,仅在会议之间改变呈现顺序。我们测量了参与者对简单(研究一)和更复杂(研究二)重复场景做出不同反应的频率。平均而言,在所有研究中,参与者改变对有争议场景的反应的次数约为 10-18%,并且观察到这种不稳定性与反应时间和决策难度呈正相关。我们讨论了这些结果对道德偏好诱导有效性的影响,强调了响应不稳定性在导致利益相关者和受其道德判断训练的人工智能工具之间价值失调的作用。
分析用于评估腰痛物理康复练习的机器学习算法的数据效率和性能
分类: 人机交互, 计算机视觉和模式识别
作者: Aleksa Marusic, Louis Annabi, Sao Msi Nguyen, Adriana Tapus
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02855v1
摘要: 分析人体运动是一个活跃的研究领域,具有多种应用。在这项工作中,我们专注于使用机器人教练系统进行身体康复背景下的人体运动分析。身体康复的计算机辅助评估需要评估患者完成规定的康复练习的表现,基于处理由 RGB 和 RGB-D 相机等感觉系统捕获的运动数据。由于 RGB 图像的 2D 和 3D 人体姿势估计取得了令人瞩目的改进,我们的目标是使用从 RGB-D 相机(Microsoft Kinect)获得的运动数据和 RGB 视频(OpenPose 和 BlazePose 算法)的估计来比较物理康复练习的评估。根据位置(和方向)特征采用高斯混合模型(GMM),并根据 GMM 的对数似然值定义性能指标。该评估是在临床患者的医学数据库上进行的,这些患者进行了腰痛康复训练,之前由机器人 Poppy 指导。
背部支撑、肩部支撑和坐站被动职业外骨骼的可用性:设计的启发式评估
分类: 人机交互
作者: Alejandra Martinez, Laura Tovar, Carla Irigoyen Amparan, Karen Gonzalez, Prajina Edayath, Priyadarshini Pennathur, Arunkumar Pennathur
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02852v1
摘要: 职业外骨骼有望减轻产业工人的肌肉骨骼损伤。对于外骨骼设计相对于用户设备交互点的可用性以及使用设计原理进行评估和评级的设计特征、功能和部件的问题的了解仍然有限。此外,外骨骼在组装、穿戴、脱下和拆卸时的可用性(可被视为使用前和使用后任务)的评估也至关重要,特别是从设备设计的角度来看。我们对三种流行的外骨骼(背部支撑装置、肩部支撑装置和坐站式外骨骼)在组装、穿戴、脱下和拆卸时的可用性进行了启发式评估。七名评估人员使用 Nielsen 和 Shneiderman 可用性启发法来评估设备。结果表明,这三个外骨骼都没有任何灾难性的可用性问题,但三个外骨骼都存在重大可用性问题,包括适应不同的用户、组装、穿脱需要两人操作、文档记录不完整、组装过程中缺乏顺序指示符。设备、穿脱设备时是否存在安全隐患以及手动强度要求。此外,组装任务是最困难的任务,导致最违反可用性启发法。外骨骼人为因素研究界应该让不同的用户参与评估,并对这些设备进行可用性、可访问性和安全性评估,以便为设备设计者提供设计反馈。
SiCo:尺寸可控的虚拟试戴方法,有助于做出明智的决策
分类: 人机交互, 计算机视觉和模式识别
作者: Sherry X. Chen, Alex Christopher Lim, Yimeng Liu, Pradeep Sen, Misha Sra
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02803v1
摘要: 虚拟试穿 (VTO) 应用程序旨在通过允许用户在做出购买决定之前预览服装来改善在线购物体验。然而,许多 VTO 工具未能考虑服装尺寸与用户身体尺寸之间的关键关系,在可视化服装时通常采用一刀切的方法。这会导致尺寸建议和购买决策不佳,从而导致退货率增加。为了解决这个限制,我们推出了 SiCo,一个在线 VTO 系统,用户可以上传自己的图像,并可视化不同尺码的衣服穿在自己身上的效果,以帮助做出更明智的购买决策。我们的用户研究显示 SiCo 相对于基线 VTO 的优越性。结果表明,我们的方法显着增强了用户衡量服装在其身体上的外观的能力,并增强了他们选择符合所需目标的服装尺寸的信心。根据我们的评估,我们相信我们的 VTO 设计有潜力降低退货率并增强在线服装购物体验。我们的代码可在 https://github.com/SherryXTchen/SiCo 上获取。
使用增强现实实现可靠手术导航的器官变形建模方法综述
分类: 医学物理, 人工智能, 人机交互, 图像和视频处理
作者: Zheng Han, Qi Dou
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02713v1
摘要: 增强现实 (AR) 使外科医生能够可视化患者体内的关键结构,从而具有彻底改变外科手术的潜力。这是通过将术前器官模型叠加到实际解剖结构上来实现的。手术过程中器官的动态变形带来了挑战,使得术前模型不足以忠实地代表术中解剖结构。为了在增强手术中实现可靠的导航,术中变形建模以获得术前器官模型与术中解剖结构的精确对准是必不可少的。尽管存在多种方法来模拟术中器官变形,但仍然很少有文献综述系统地对这些方法进行分类和总结。本综述旨在通过对手术增强现实中的术中器官变形建模方法提供全面且以技术为导向的概述来填补这一空白。通过系统的检索和筛选过程,112篇密切相关的论文纳入本次综述。通过介绍器官变形建模方法的现状及其临床应用,本文旨在增强对 AR 引导手术中器官变形建模的理解,并讨论未来发展的潜在主题。
语言模型可以边听边说
分类: 计算和语言, 人工智能, 人机交互, 声音, 音频和语音处理
作者: Ziyang Ma, Yakun Song, Chenpeng Du, Jian Cong, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02622v1
摘要: 对话是最自然的人机交互(HCI)方式。语音语言模型 (SLM) 的最新进展显着增强了基于语音的会话 AI。然而,这些模型仅限于回合制对话,缺乏与人类实时语音场景交互的能力,例如,当生成的内容不令人满意时会被打断。为了解决这些限制,我们探索交互式语音语言模型(iSLM)中的全双工建模(FDM),重点是增强实时交互,更明确地,探索中断的本质能力。我们引入了一种新颖的模型设计,即边听边说语言模型(LSLM),这是一种同时配备听力和口语通道的端到端系统。我们的 LSLM 采用基于令牌的纯解码器 TTS 来生成语音,并采用流式自监督学习 (SSL) 编码器来实现实时音频输入。 LSLM 融合两个通道以进行自回归生成并实时检测轮流。探索了早期融合、中期融合和后期融合三种融合策略,其中中期融合实现了语音生成和实时交互之间的最佳平衡。基于命令的 FDM 和基于语音的 FDM 两种实验设置证明了 LSLM 对噪声的鲁棒性和对不同指令的敏感性。我们的结果凸显了 LSLM 实现双工通信的能力,同时对现有系统的影响最小。这项研究旨在推动交互式语音对话系统的发展,增强其在现实世界中的适用性。
DanModCap:为利用影响力字幕的视频共享平台设计弹幕审核工具
分类: 人机交互
作者: Siying Hu, Huanchen Wang, Yu Zhang, Piaohong Wang, Zhicong Lu
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02574v1
摘要: 在线视频平台因其支持信息消费和共享以及所提供的多样化社交互动的能力而越来越受欢迎。弹幕是一种在视频上叠加用户评论的实时评论功能,已被发现可以提高用户参与度,但是,使用弹幕可能会导致不良行为和不当评论。为了解决这些问题,我们提出了一种主动调节方法,其灵感来自影响字幕(东亚综艺节目中使用的一种视觉技术)。影响力字幕将文本内容和视觉元素结合起来,构建情感和认知共鸣。在这项工作的背景下,影响力字幕被用来引导观众进行积极的弹幕相关活动,并引发更多的亲社会行为。利用 Impact Captions,我们开发了 DanModCap,这是一种审核工具,可以收集和分析 Danmaku,并将其用作大型生成语言模型的输入以生成 Impact Captions。我们对 DanModCap 的评估表明,影响字幕减少了负面敌对情绪,增加了用户分享积极内容的愿望,并引发弹幕社会行动中的自我控制,从而培养积极主动的社区维护行为。我们的方法强调了使用大语言模型支持的内容审核方法在大规模实时内容环境中进行主动审核的好处。
事件知识图增强的粗粒度视觉语言导航任务规划
分类: 信息检索, 人机交互, 机器人技术
作者: Zhao Kaichen, Song Yaoxian, Zhao Haiquan, Liu Haoyu, Li Tiefeng, Li Zhixu
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02535v1
摘要: 视觉语言导航(VLN)是具身人工智能的重要研究之一。它的目的是使智能体能够了解周围环境并完成导航任务。 VLN指令可以分为粗粒度和细粒度命令。细粒度命令描述了整个任务以及逐步的子任务。相比之下,粗粒度命令给出了抽象的任务描述,更符合人类的习惯。大多数现有工作都集中在 VLN 任务中的前一种指令,而忽略了后者属于日常生活场景的抽象指令。为了克服抽象指令中的上述挑战,我们尝试通过事件知识增强来考虑 VLN 中的粗粒度指令。具体来说,我们首先提出了一个基于提示的框架,在多个主流基准数据集上整体提取 VLN 的事件知识图(名为 VLN-EventKG)。通过小型和大型语言模型协作,我们实现了粗粒度指令输入的 VLN 任务的知识增强导航规划(称为 EventNav)。此外,我们设计了一种新颖的动态历史回溯模块来实时纠正潜在的错误行动计划。各种公共基准测试的实验结果表明,我们的知识增强方法在使用我们提出的 VLN-EventKG 的粗粒度指令 VLN 方面具有优越性,成功率提高了超过 $5%$。我们的项目位于 https://sites.google.com/view/vln-eventkg
通过单击或双击预测减少单击延迟
分类: 人机交互, 人工智能, 机器学习
作者: Naoto Nishida, Kaori Ikematsu, Junichi Sato, Shota Yamanaka, Kota Tsubouchi
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02525v1
摘要: 触摸表面广泛应用于智能手机、平板电脑和笔记本电脑(触摸板),单击和双击是其最基本和常见的操作。单击或双击的检测会导致单击延迟问题,从而在触摸输入的灵敏度方面造成瓶颈。为了减少单击延迟,我们提出了一种新颖的基于机器学习的点击预测方法,称为 PredicTaps。我们的方法可以预测检测到的轻击是单击还是双击的第一次接触,而无需等待传统上所需的数百毫秒。我们提供三项评估和一项用户评估,证明其在两种外形尺寸(触摸板和智能手机)上的各种点击情况下的广泛适用性和可用性。结果显示,PredicTaps 将笔记本电脑上的单击延迟从 150-500 毫秒减少到 12 毫秒,在智能手机上减少到 17.6 毫秒,而不会降低可用性。
PUREsuggest:基于引文的文献搜索和视觉探索以及关键词控制的排名
分类: 人机交互, 数字图书馆
作者: Fabian Beck
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02508v1
摘要: 引用可以快速识别相关研究。如果选择多个出版物作为种子,则可以根据该选择的传入和传出引用链接的数量提出相关文献的具体建议。以交互方式将推荐的出版物添加到选择中可以完善下一个建议,并逐步构建相关的出版物集合。遵循这种方法,本文提出了一种搜索和搜寻方法 PUREsuggest,它将基于引文的建议与引文网络的增强可视化相结合。该方法的重点和新颖之处在于,首先,排名如何直观地解释的透明度,其次,可以通过用户定义的反映兴趣主题的关键字来引导该过程。该系统可用于建立新的文献库,更新和评估现有的文献库,以及使用收集的文献来识别该领域的相关专家。我们通过模拟会话评估了推荐方法,并进行了用户研究,调查界面支持的搜索策略和使用模式。
责任与监管:探索医疗人工智能信任的社会措施
分类: 人机交互, K.4
作者: Glenn McGarry, Andy Crabtree, Lachlan Urquhart, Alan Chamberlain
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02386v1
摘要: 本文探讨了医疗设备领域 (MD) 自主系统 (AS) 开发的专家叙述,涉及人工智能 (AI)、机器学习 (ML) 以及其他算法和数学建模技术的应用。我们根据负责任的创新 (RI) 的概念以及如何在实践中进行 RI 的新问题来构建我们的观察结果。为了对围绕可信自治系统(TAS)的持续讨论做出贡献[29],我们阐明了在现有治理结构中部署新型自治系统所固有的实际挑战,包括特定领域的法规和政策以及严格的测试和开发流程,并讨论了这些用于新型人工智能部署中的责任分配。
自定心 3 自由度脚控制器,用于远程呈现和虚拟现实中的免提运动控制
分类: 机器人技术, 人机交互
作者: Raphael Memmesheimer, Christian Lenz, Max Schwarz, Michael Schreiber, Sven Behnke
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02319v1
摘要: 我们提出了一种新颖的坐式脚踏控制器,用于处理 3-DOF,旨在控制远程呈现机器人和虚拟现实环境的运动。在两个轴上倾斜脚会产生向前、向后和侧向运动。此外,单独的旋转接头允许绕垂直轴旋转。所有关节上的附加弹簧使控制器自动居中。 HTC Vive 跟踪器用于将跟踪器的方向转换为运动命令。所提出的自定心脚踏控制器已成功用于 ANA Avatar XPRIZE 竞赛,其中一位天真的操作员使机器人穿越了更长的距离,超越了障碍,同时解决了其间的各种交互和操作任务。我们公开提供大多数 3D 打印的脚控制器的模型以供复制。
CHORDination:评估网络数据和弦图中的视觉设计选择
分类: 人机交互
作者: Kai Wang, Shuqi He, Wenlu Wang, Jinbei Yu, Yu Liu, Lingyun Yu
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02268v1
摘要: 弦图广泛用于可视化网络中节点之间的数据连接和流动。它们可以通过直观且具有视觉吸引力的圆形布局有效地表示复杂的结构。虽然以前的工作重点是提高美观性和交互性,但基本设计元素对用户感知和信息检索的影响仍未得到充分探索。在这项研究中,我们在三个连续的实验阶段探索了弦图解剖学的三个主要组成部分,即节点、圆形轮廓和弧形连接。在第一阶段,我们进行了对照实验(N=90),以找到感知和信息优化的节点宽度(窄、中、宽)和数量(低、中、高)。这组最佳的节点宽度和数量为后续评估奠定了基础,并保持固定以保持一致性。在研究的第二阶段,我们进行了专家设计审查,以确定最佳的径向刻度线和颜色渐变。然后在第三阶段,我们通过比较四种弦图设计(基线、径向刻度线、弧形颜色渐变、刻度线和颜色渐变)来评估对照实验(N = 24)中设计选择的感知和信息检索性能。结果表明,节点宽度和数量显着影响用户的信息检索性能和主观评分,而刻度线的存在主要影响主观体验。基于这些发现,我们讨论了这些视觉元素的设计含义,并为优化网络可视化任务中的弦图设计提供指导和建议。
CompositingVis:探索在沉浸式环境中创建复合可视化的交互
分类: 人机交互
作者: Qian Zhu, Tao Lu, Shunan Guo, Xiaojuan Ma, Yalong Yang
发布时间: 2024-08-05
链接: http://arxiv.org/abs/2408.02240v1
摘要: 复合可视化代表了一种广泛接受的设计,它结合了多种视觉表示来创建一个集成视图。然而,在沉浸式环境中创建复合可视化的传统方法通常在沉浸式空间之外异步发生,并由经验丰富的专家执行。在这项工作中,我们的目标是让用户能够通过具体交互参与沉浸式环境中复合可视化的创建。这可以通过沉浸式可视化提供灵活、流畅的体验,并有可能促进对可视化视图之间关系的理解。我们首先开发一个体现交互的设计空间,以在考虑数据关系的情况下创建各种类型的复合可视化。从人们操作物理对象的自然体验中汲取灵感,我们在沉浸式环境中设计了交互 \zq{基于 3D 操作的组合}。在设计空间的基础上,我们提出了一系列案例研究,展示了在虚拟现实中创建不同类型的复合可视化的交互。随后,我们进行了用户研究,以评估派生的交互技术的可用性以及通过具体交互创建复合可视化的用户体验。我们发现,通过具体交互使用户能够参与复合可视化,使他们能够灵活地利用不同的可视化视图来理解和交流不同视图之间的关系,这凸显了未来几个应用场景的潜力。
运动可视化的用户体验:案例研究和设计注意事项
分类: 人机交互
作者: Lijie Yao, Federica Bucchieri, Victoria McArthur, Anastasia Bezerianos, Petra Isenberg
发布时间: 2024-08-04
链接: http://arxiv.org/abs/2408.01991v1
摘要: 我们提出了系统回顾、实证研究以及设计动态可视化的第一组考虑因素,这些考虑因素源自这些可视化用于支持主要任务的具体场景。在实践中,当观看者面对嵌入式可视化时,他们通常必须专注于主要任务,并且只能快速浏览显示丰富且通常动态更新的信息的可视化。因此,可视化的设计必须避免分散对主要任务的注意力,同时具有可读性并且有助于帮助完成主要任务。例如,在游戏中,参与战斗的玩家必须看着他们的敌人,同时还要从角色头上的生命条读取自己游戏角色的剩余生命值。在这种动态场景中,嵌入式可视化的设计可能需要进行许多权衡,我们将在本文中重点探讨用户体验。我们使用视频游戏作为应用程序上下文的示例,其中包含丰富的现有动态可视化集。我们首先对游戏中的动态可视化进行系统审查。接下来,我们进行实证用户研究,以调查运动设计中不同的嵌入式可视化如何影响用户体验。最后,我们从我们对视频游戏的了解中得出了一系列考虑因素和权衡,以便更广泛地设计运动可视化。本文的所有补充材料均可在 https://osf.io/3v8wm/} 上获取。
JobViz:技能驱动的招聘广告视觉探索
分类: 人机交互
作者: Ran Wang, Qianhe Chen, Yong Wang, Boyang Shen, Lewei Xiong
发布时间: 2024-08-04
链接: http://arxiv.org/abs/2408.01989v1
摘要: 各种招聘门户或网站上的在线招聘广告已成为当今人们寻找潜在职业机会的最流行方式。然而,这些招聘网站大多数仅限于提供基本过滤器,例如职位名称、关键字和薪酬范围。这通常给求职者在海量的招聘信息中有效识别与其独特技能相匹配的相关招聘广告带来挑战。因此,我们提出了协调一致的可视化方案,为求职者提供三个层次的工作信息细节:技能工作概述,通过分层可视化设计将技能集、就业岗位以及它们之间的关系可视化;探索后视图利用增强的雷达图字形来表示工作职位,并进一步促进用户快速理解相应职位所需的相关技能;职位详细信息视图列出了所选职位的具体信息,以便进行深入分析和比较。通过使用从中国最大的招聘网站之一 51Job 收集的真实招聘广告数据集,我们进行了两个案例研究和用户访谈来评估 JobViz。结果证明了我们方法的实用性和有效性。
开放生成模型在以人为中心的数据科学工作中的含义:事实核查组织的案例研究
分类: 人机交互, 人工智能, 计算和语言, 计算机与社会, 新兴技术
作者: Robert Wolfe, Tanushree Mitra
发布时间: 2024-08-04
链接: http://arxiv.org/abs/2408.01962v1
摘要: 在学术研究中使用开放生成语言模型的呼声凸显了科学研究中对可重复性和透明度的需求。然而,生成式人工智能的影响远远超出了学术界,因为企业和公共利益组织已经开始将这些模型整合到他们的数据科学管道中。我们将这一视角扩展到包括开放模型对组织的影响,特别关注事实核查组织,这些组织使用人工智能来观察和分析大量传播的错误信息,但还必须确保其工作的可重复性和公正性。我们想了解事实核查组织在其数据科学管道中何处使用开放模型;是什么促使他们使用开放模型或专有模型;以及他们对开放或专有模型的使用如何为生成人工智能的社会影响的研究提供信息。为了回答这些问题,我们对六大洲 20 个事实核查组织的 N=24 名专业人士进行了访谈研究。根据这些采访,我们提供了一个由五个组成部分的概念模型,说明事实核查组织在其中使用生成式人工智能来支持或自动化其数据科学管道的部分内容,包括数据摄取、数据分析、数据检索、数据交付和数据共享。然后,我们提供了事实核查组织使用开放模型的动机以及阻止他们进一步采用开放模型的限制的分类,发现他们更喜欢组织自治、数据隐私和所有权、应用程序专用性和能力透明度的开放模型。然而,由于在性能、可用性和安全性方面的明显优势,以及与参与新兴生成式人工智能生态系统相关的机会成本,他们仍然使用专有模型。我们的工作为数据驱动组织中的开放模型提供了新颖的视角。
人工智能中青少年的代表性偏差:一项双语、双文化研究
分类: 计算机与社会, 人工智能, 计算和语言, 人机交互, 机器学习
作者: Robert Wolfe, Aayushi Dangol, Bill Howe, Alexis Hiniker
发布时间: 2024-08-04
链接: http://arxiv.org/abs/2408.01961v1
摘要: 大众媒体和新闻媒体经常以耸人听闻的方式将青少年描绘成既对社会构成风险又面临社会风险的人。随着人工智能开始吸收传统媒体的一些认知功能,我们研究了两个国家的青少年如何使用两种语言:1)人工智能如何描绘,2)他们更喜欢如何被描绘。具体来说,我们研究了青少年通过静态词嵌入(SWE)和生成语言模型(GLM)学到的偏见,并将其与生活在美国和尼泊尔的青少年的观点进行比较。我们发现英语 SWE 将青少年与社会问题联系在一起,在预训练的 GloVe SWE 中与青少年最相关的 1,000 个单词中,超过 50% 反映了此类问题。鉴于有关青少年的提示,GPT2-XL 的 30% 和 LLaMA-2-7B GLM 的 29% 的输出讨论了社会问题,最常见的是暴力,但也包括吸毒、精神疾病和性禁忌。尼泊尔模式虽然不能摆脱这种联想,但较少受到社会问题的影响。来自 13 名美国青少年和 18 名尼泊尔青少年的研讨会数据表明,人工智能演示与青少年生活脱节,而青少年生活围绕着学校和友谊等活动。参与者对 20 个特征词描述青少年的程度的评分与 SWE 协会不相关,皮尔逊的 r=.02,n.s.英文 FastText 和 r=.06,n.s.在手套中;且 r=.06,n.s.在尼泊尔语 FastText 中,r=-.23,n.s.在手套中。美国参与者认为人工智能可以通过强调多样性来公平地呈现青少年,而尼泊尔参与者则以积极性为中心。参与者乐观地认为,如果人工智能从青少年而不是媒体来源学习,它可以帮助减轻刻板印象。我们的工作让我们了解了 SWE 和 GLM 歪曲发展弱势群体的方式,并为不那么耸人听闻的描述提供了一个模板。
未来的公共交通:通过设计以人为本的公共交通空间来增强福祉
分类: 人机交互
作者: Yasaman Hakiminejad, Elizabeth Pantesco, Arash Tavakoli
发布时间: 2024-08-04
链接: http://arxiv.org/abs/2408.01908v1
摘要: 研究表明,心理影响是公共交通使用者最关心的问题之一。尽管许多美国人大部分时间都花在公共交通空间上,但这些空间的设计和维护对用户福祉的影响尚未得到充分研究。在本研究中,我们进行了一项调查,以更好地了解实施不同设计对人们福祉和感知指标的影响 (N=304)。参与者收到了六幅描绘不同客舱配置的图像,包括(1)客舱空间的当前版本,(2)低维护版本,(3)美观增强版本,(4)支持自行车架的版本, (5) 增加了工作空间的版本,以及 (6) 具有亲生命设计的改进版本。查看每张图像后,将评估参与者的幸福指标(例如压力和情绪)及其公共交通感知指标(例如对安全的感知和合理成本)。我们的线性混合效应模型结果表明,添加功能设施和亲生物设计元素可以整体提高幸福感和感知指标。相反,维护成本低会恶化所有衡量的幸福感。这项研究为开发以人为本的公共交通空间奠定了基础,从而提高了公共交通的采用率。
计算三色重建:利用增强现实帮助色觉缺陷者识别颜色
分类: 人机交互, 计算机视觉和模式识别
作者: Yuhao Zhu, Ethan Chen, Colin Hascup, Yukang Yan, Gaurav Charma
发布时间: 2024-08-04
链接: http://arxiv.org/abs/2408.01895v1
摘要: 我们提出了一种辅助技术,可以帮助色觉缺陷 (CVD) 患者识别/命名颜色。二色视觉者的颜色感知是正常三色视觉的三维颜色 (3D) 感知的简化二维 (2D) 子集,当与二色视觉者看起来相同的视觉刺激由不同的颜色名称引用时,会导致混乱。使用我们提出的系统,CVD 个体可以通过计算色彩空间变换交互式地对最初令人困惑的颜色产生明显的感知变化。通过将原始的 2D 颜色规则与辨别性变化相结合,重建了三维颜色空间,二色视觉者可以在其中学习解决颜色名称混乱并准确识别颜色。我们的系统在智能手机上实现为增强现实(AR)界面,用户可以通过滑动手势交互式地控制旋转,并观察相机视图或显示图像中引起的颜色变化。通过心理物理学实验和纵向用户研究,我们证明了这种旋转颜色变化具有辨别能力(最初令人困惑的颜色在旋转下变得清晰),并表现出二色视觉者可以通过适度的训练学习的结构化感知变化。 AR 应用程序还在两个现实场景中进行了评估(用乐高积木搭建和诠释艺术作品);用户都表示在使用该应用程序来识别物体颜色方面获得了积极的体验,否则他们无法识别物体颜色。
建立对心理健康聊天机器人的信任:安全指标和基于大语言模型的评估工具
分类: 计算和语言, 人工智能, 人机交互, 机器学习
作者: Jung In Park, Mahyar Abbasian, Iman Azimi, Dawn Bounds, Angela Jun, Jaesu Han, Robert McCarron, Jessica Borelli, Jia Li, Mona Mahmoudi, Carmen Wiedenhoeft, Amir Rahmani
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.04650v1
摘要: 目的:本研究旨在开发和验证一个评估框架,以确保心理健康聊天机器人的安全性和可靠性,心理健康聊天机器人由于其可访问性、类人交互和情境感知支持而越来越受欢迎。材料和方法:我们创建了一个评估框架,其中包含 100 个基准问题和理想答案,以及 5 个聊天机器人答案的指导问题。该框架经过心理健康专家的验证,并在基于 GPT-3.5-turbo 的聊天机器人上进行了测试。探索的自动评估方法包括基于大语言模型(LLM)的评分、使用实时数据的代理方法以及将聊天机器人响应与地面真实标准进行比较的嵌入模型。结果:结果强调了指南和基本事实对于提高大语言模型评估准确性的重要性。动态访问可靠信息的代理方法证明了与人类评估的最佳一致性。遵守经过专家验证的标准化框架可显着增强聊天机器人响应的安全性和可靠性。讨论:我们的研究结果强调需要针对心理健康聊天机器人制定全面的、专家定制的安全评估指标。虽然大语言模型具有巨大的潜力,但必须谨慎实施以降低风险。代理方法的卓越性能强调了实时数据访问在增强聊天机器人可靠性方面的重要性。结论:该研究验证了心理健康聊天机器人的评估框架,证明其在提高安全性和可靠性方面的有效性。未来的工作应该将评估扩展到准确性、偏见、同理心和隐私,以确保整体评估和负责任地融入医疗保健。标准化评估将在用户和专业人士之间建立信任,促进更广泛的采用并通过技术改善心理健康支持。
MoodPupilar:通过智能手机在自然环境中检测到的瞳孔反应来预测情绪
分类: 人机交互
作者: Rahul Islam, Tongze Zhang, Priyanshu Singh Bisen, Sang Won Bae
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.01855v1
摘要: MoodPupilar 推出了一种利用智能手机前置摄像头在日常使用过程中捕获的瞳孔反应进行情绪评估的新颖方法。在四个星期的时间里,我们收集了 25 名参与者的数据,以开发能够预测每日平均情绪的模型。利用 GLOBEM 行为建模平台,我们对瞳孔反应作为情绪预测因子的效用进行了基准测试。我们提出的模型显示,效价的马修相关系数 (MCC) 得分为 0.15,唤醒得分为 0.12,这与 GLOBEM 支持的现有行为建模算法所达到的水平相当或超过了这些结果。这种准确预测情绪趋势的能力强调了瞳孔反应数据在为及时心理健康干预和资源分配提供重要见解方面的有效性。结果令人鼓舞,证明了实时和预测情绪分析在支持心理健康干预方面的潜力。
MotionTrace:基于 IMU 的智能手机 AR 交互视场预测
分类: 人机交互
作者: Rahul Islam, Vasco Xu, Karan Ahuja
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.01850v1
摘要: 对于手持智能手机 AR 交互,带宽是一个关键限制。尽管存在这些挑战,流媒体技术的发展仍可提供无缝且高质量的用户体验。为了优化基于智能手机的 AR 的流媒体性能,准确预测用户的视野至关重要。这种预测使系统能够优先加载用户可能参与的数字内容,从而增强 AR 体验的整体交互性和沉浸感。在本文中,我们提出了 MotionTrace,一种使用智能手机惯性传感器预测用户视野的方法。该方法持续估计 3D 空间中用户的手部位置以定位手机位置。我们使用大型运动捕捉 (AMASS) 和基于智能手机的全身姿势估计 (Pose-on-the-Go) 数据集,在 50、100、200、400 和 800 毫秒时间范围内评估了未来手部位置的 MotionTrace。我们发现我们的方法可以估计用户未来的手机位置,不同时间范围内的平均 MSE 介于 0.11 - 143.62 mm 之间。
促进基于编程的 CAD 中几何属性的参数化定义
分类: 人机交互
作者: J. Felipe Gonzalez, Thomas Pietrzak, Audrey Girouard, Géry Casiez
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.01815v1
摘要: 参数化计算机辅助设计 (CAD) 通过将变量集成到几何属性中,可以创建可重复使用的模型,从而无需完全重新设计即可实现定制。然而,在基于编程的 CAD 中创建参数化设计面临着巨大的挑战。用户使用编程语言在代码编辑器中定义模型,应用程序在视口中生成可视化表示。此过程涉及复杂的编程和算术表达式来描述几何属性,链接各种对象属性以创建参数化设计。不幸的是,这些应用程序缺乏帮助,使得该过程不必要地苛刻。我们提出了一种解决方案,允许用户从视觉表示中检索参数表达式以便在代码中重用,从而简化设计过程。我们通过在基于编程的 CAD 应用程序 OpenSCAD 中实现的概念验证演示了这一概念,并与 11 位用户进行了实验。我们的研究结果表明,该解决方案可以显着减少设计错误,提高设计过程的交互性和参与度,并通过减少基于编程的 CAD 应用程序通常所需的数学技能来降低新手的进入门槛
在基于构造实体几何的 CAD 中引入双向编程
分类: 人机交互
作者: J. Felipe Gonzalez, Danny Kieken, Thomas Pietrzak, Audrey Girouard, Géry Casiez
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.01801v1
摘要: 3D 计算机辅助设计 (CAD) 用户需要克服一些障碍才能从编程接口工具的灵活性中受益。除了任何编程语言的障碍之外,用户还面临 3D 空间交互固有的挑战。编写简单操作(例如在 3D 空间中移动元素)的脚本可能比使用直接操作执行相同任务更具挑战性。我们通过对编程接口用户进行采访,介绍了构造实体几何 (CSG) CAD 工具的双向编程概念。我们描述了用户如何使用视图中的直接操作或代码编辑来导航和编辑 3D 模型,同时系统确保两个空间之间的一致性。我们还详细介绍了使用 OpenSCAD 修改版本的概念验证实现。
了解 OpenSCAD 用户面临的 3D 打印挑战
分类: 人机交互
作者: J. Felipe Gonzalez, Thomas Pietrzak, Audrey Girouard, Géry Casiez
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.01796v1
摘要: 几十年来,直接操作已被确立为计算机辅助设计 (CAD) 的主要交互范例。它提供快速、增量和可逆的操作,允许对结果的视觉表示进行迭代过程。尽管具有众多优点,但一些用户更喜欢基于编程的方法,他们使用特定的编程语言(例如 OpenSCAD)来描述他们设计的 3D 模型。它允许用户创建复杂的结构化几何图形并促进抽象。不幸的是,当前关于 CAD 实践的大多数知识只集中于直接操作程序。在本研究中,我们采访了 20 位基于编程的 CAD 用户,以了解他们的动机和挑战。我们的研究结果表明,这种面向编程的人群在 3D 空间理解、验证和代码调试、有机形状的创建以及代码视图导航等任务的设计过程中遇到了困难。
自适应:具有触觉重定向功能的形状变化道具
分类: 人机交互
作者: J. Felipe Gonzalez, John C. McClelland, Robert J. Teather, Pablo Figueroa, Audrey Girouard
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.01789v1
摘要: 我们推出了 Adaptic,一种新颖的“混合”主动/被动触觉设备,可以改变形状以充当 VR 中一系列虚拟对象的代理。我们使用带有触觉重定向的自适应技术来重定向用户的手,从而仅使用单个道具即可为手臂可及的多个虚拟对象提供触觉反馈。为了评估 Adaptic 与触觉重定向的有效性,我们进行了一项受试者内实验,利用对接任务将 Adaptic 与不匹配的代理对象(即聚苯乙烯泡沫塑料球)和匹配的形状道具进行比较。在我们的研究中,Adaptic 坐在用户面前的桌子上,在抓握之间改变形状,为放置在不同虚拟位置的各种虚拟对象提供匹配的触觉反馈。结果表明,这种错觉是令人信服的:用户感觉他们正在使用单个 Adaptic 设备操纵不同虚拟位置中的多个虚拟对象。使用 Adaptic 的对接性能(完成时间和准确性)与没有触觉重定向的道具相当。
3DSoryline:沉浸式视觉叙事
分类: 人机交互
作者: Haonan Yao, Lixiang Zhao, Boyuan Chen, Kaiwen Li, Hai-Ning Liang, Lingyun Yu
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.01775v1
摘要: 故事情节可视化已成为一种创新方法,用于说明各个领域故事的发展和变化。传统方法通常用每个角色一行来表示故事,从左到右进行。虽然这种方法对于简单的叙述有效,但在处理涉及多个角色以及时空动态的复杂故事时面临着重大挑战。在这项研究中,我们研究了沉浸式环境增强故事情节可视化的潜力。我们首先总结虚拟现实 (VR) 中有效故事情节可视化的关键设计注意事项。在这些原则的指导下,我们开发了 3DStoryline,这是一个允许用户查看 3D 沉浸式故事情节可视化并与之交互的系统。为了评估 3DSoryline 的有效性,我们进行了基于任务的用户研究,结果表明该系统显着增强了用户对复杂叙述的理解。
WaitGPT:通过动态代码可视化监控和指导数据分析中的对话式 LLM 代理
分类: 人机交互
作者: Liwenhan Xie, Chengbo Zheng, Haijun Xia, Huamin Qu, Chen Zhu-Tian
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.01703v1
摘要: 大型语言模型 (LLM) 通过对话式用户界面支持数据分析,如 OpenAI 的 ChatGPT(正式名称为高级数据分析或代码解释器)所示。本质上,大语言模型生成用于完成不同分析任务的代码。然而,呈现原始代码可能会掩盖逻辑并阻碍用户验证。为了增强用户对大语言模型进行的分析的理解和增强控制,我们提出了一种将大语言模型生成的代码转换为交互式视觉表示的新方法。在该方法中,用户可以实时看到LLM生成的代码的清晰、逐步的可视化,使他们能够理解、验证和修改分析中的各个数据操作。我们的设计决策基于对用户实践和挑战的形成性研究 (N=8)。我们进一步开发了一个名为 WaitGPT 的原型,并进行了用户研究(N=12)来评估其可用性和有效性。用户研究的结果表明,WaitGPT 有助于监控和指导大语言模型执行的数据分析,使参与者能够增强错误检测并提高他们对结果的整体信心。
降解为功能:通过编程顺序降解实现环保的变形设备
分类: 人机交互
作者: Qiuyu Lu, Semina Yi, Mentian Gan, Jihong Huang, Xiao Zhang, Yue Yang, Chenyi Shen, Lining Yao
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.01660v1
摘要: 虽然认为操作设备内的降解是有益的似乎违反直觉,但有人可能会争辩说,当合理设计时,可以利用材料的受控分解来实现特定功能。为了将此原理应用于变形设备的设计,我们引入了退化到功能(DtF)的概念。这一概念旨在创建环保且独立的变形设备,该设备通过一系列环境触发的降解来运行。我们通过识别环境条件和可利用的降解类型、评估能够受控降解的潜在材料、建议可利用降解来实现各种转变和功能的结构设计以及开发集成的顺序控制方法来探索其设计考虑因素和实施技术。降解触发因素。为了证明这种设计策略的可行性和多功能性,我们展示了各种环境条件下的多个应用示例。
Music2P:用于简化专辑封面设计的多模式人工智能驱动工具
分类: 多媒体, 人工智能, 人机交互, H.5.1; H.5.5
作者: Joong Ho Choi, Geonyeong Choi, Ji-Eun Han, Wonjin Yang, Zhi-Qi Cheng
发布时间: 2024-08-03
链接: http://arxiv.org/abs/2408.01651v1
摘要: 在当今的音乐行业,专辑封面设计与音乐本身一样至关重要,体现了艺术家的愿景和品牌。然而,许多人工智能驱动的专辑封面服务需要订阅或技术专业知识,限制了可访问性。为了应对这些挑战,我们开发了 Music2P,这是一种开源、多模式 AI 驱动的工具,可以简化专辑封面的创作,通过 Ngrok 使其变得高效、易于访问且具有成本效益。 Music2P 使用引导语言图像预训练 (BLIP)、音乐到文本转换 (LP-music-caps)、图像分割 (LoRA) 以及专辑封面和 QR 代码生成 (ControlNet) 等技术来自动化设计过程。本文演示了 Music2P 界面,详细介绍了我们对这些技术的应用,并概述了未来的改进。我们的最终目标是提供一种工具,帮助音乐家和制作人,尤其是那些资源或专业知识有限的音乐家和制作人,创作出引人注目的专辑封面。
推进混合现实游戏开发:动作冒险和 FPS 类型中视觉游戏分析工具的评估
分类: 人机交互
作者: Parisa Sargolzaei, Mudit Rastogi, Loutfouz Zaman
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01573v1
摘要: 为了应对混合现实(MR)游戏开发的独特挑战,我们开发了GAMR,一种专为MR游戏设计的分析工具。 GAMR 旨在帮助开发者有效识别和解决游戏问题。它具有重建的游戏会话、数据可视化热图、全面的注释系统以及针对手部、摄像头、输入和音频的高级跟踪,为细致入微的游戏分析提供深入的见解。为了评估 GAMR 的有效性,我们对游戏开发学生进行了一项实验研究,涉及两种游戏类型:动作冒险游戏和第一人称射击游戏 (FPS)。参与者使用 GAMR 并提供了关于其实用性的反馈。结果表明 GAMR 对这两种类型都产生了显着的积极影响,特别是在动作冒险游戏中。这项研究展示了 GAMR 在 MR 游戏开发中的有效性,并表明其影响未来 MR 游戏分析的潜力,满足开发人员在这个不断发展的领域的特定需求。
分析大语言模型建立软件需求的隐式用户情绪的能力
分类: 计算和语言, 人工智能, 人机交互, 机器学习, 软件工程, I.2.7; D.2.8; I.2.6; H.5.2
作者: Sherri Weitl-Harms, John D. Hastings, Jonah Lum
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01527v1
摘要: 本研究探讨了使用多个大语言模型对用户表达的隐式软件需求进行定量零样本情绪分析。该研究提供了规模化的数字情绪分析,与其他简单地将情绪分类为积极、中性或消极的方法不同。数值分析可以更深入地了解情绪的大小,从而推动有关产品需求的更好决策。数据是通过使用 Microsoft 产品需求工具包 (PDT) 收集的,这是一种著名的定性用户体验分析工具。为了进行初步探索,我们向 ZORQ(一种用于本科计算机科学教育的游戏化系统)的用户提供了 PDT 指标。收集的 PDT 数据通过多个 LLM(Claude Sonnet 3 和 3.5、GPT4 和 GPT4o)、领先的迁移学习技术 Twitter-Roberta-Base-Sentiment (TRBS) 以及领先的情感分析工具 Vader 提供,用于定量情绪分析。每个系统都被要求以两种方式评估数据,首先查看 PDT 单词/解释对中表达的情绪;并通过整体观察用户在五个单词的分组选择和解释中表达的情绪。每个大语言模型还被要求提供其情绪评分的置信度(低、中、高),并解释为什么选择情绪值。所有测试的大语言模型都能够从用户分组数据中统计检测用户情绪,而 TRBS 和 Vader 则不能。大语言模型提供的置信度和置信度解释有助于理解用户的情绪。这项研究加深了对评估用户体验的更深入理解,以实现创建量化所表达的隐含情感的通用工具的目标。
使用 CNN 模型评估视觉艺术品的创造力
分类: 计算机视觉和模式识别, 人机交互, 机器学习
作者: Zhehan Zhang, Meihua Qian, Li Luo, Ripon Saha, Qianyi Gao, Xinxin Song
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01481v1
摘要: 评估艺术创造力长期以来一直对研究人员提出挑战,传统方法被证明非常耗时。最近的研究已经应用机器学习来评估绘画的创造力,但没有评估绘画的创造力。我们的研究通过开发 CNN 模型来自动评估学生绘画的创造力来解决这一差距。使用包含专业人士和儿童的 600 幅绘画的数据集,我们的模型实现了 90% 的准确率,并且比人类评分者更快的评估时间。这种方法展示了机器学习在推进艺术创造力评估方面的潜力,为传统方法提供了更有效的替代方案。
长期机器人任务理解的支柱
分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 人机交互
作者: Xiaoshuai Chen, Wei Chen, Dongmyoung Lee, Yukun Ge, Nicolas Rojas, Petar Kormushev
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01334v1
摘要: 端到端的机器人学习,尤其是长期任务,通常会导致不可预测的结果和较差的泛化能力。为了应对这些挑战,我们提出了一种新型的基于 Therblig 的骨干框架(TBBF)来增强机器人任务的理解和可转移性。该框架使用 therbligs(基本动作元素)作为骨干,将高级机器人任务分解为基本的机器人配置,然后将其与当前的基础模型集成以提高任务理解。该方法包括两个阶段:离线训练和在线测试。在离线训练阶段,我们开发了 Meta-RGate SynerFusion (MGSF) 网络,用于跨各种任务进行准确的热分割。在在线测试阶段,在收集新任务的一次性演示后,我们的 MGSF 网络提取高级知识,然后使用动作注册(ActionREG)将其编码到图像中。此外,采用大语言模型(LLM)-视觉校正对齐策略(LAP-VC)来确保精确的动作执行,促进新颖的机器人场景中的轨迹转移。实验结果验证了这些方法,在分割中实现了 94.37% 的召回率,在简单和复杂场景的真实在线机器人测试中分别实现了 94.4% 和 80% 的成功率。补充材料位于:https://sites.google.com/view/therbligsbasedbackbone/home
这有什么特殊含义吗?网络可视化的交互模式解释
分类: 人机交互
作者: Xinhuan Shu, Alexis Pister, Junxiu Tang, Fanny Chevalier, Benjamin Bach
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01272v1
摘要: 本文提出了一种交互式技术,向不理解这些可视化以及正在学习阅读它们的分析师解释网络可视化中的视觉模式。学习可视化需要掌握其视觉语法并解码通过视觉标记、图形编码和空间配置呈现的信息。为了帮助人们学习网络可视化设计并提取有意义的信息,我们引入了交互式模式解释的概念,它允许观看者在可视化中选择任意区域,然后自动挖掘底层数据模式,并解释网络中存在的视觉和数据模式。观众的选择。在一项共有 32 名参与者参与的定性和定量用户研究中,我们将交互式模式解释与纯文本和纯视觉(备忘单)解释进行了比较。我们的结果表明,交互式解释可以增加对以下内容的学习:i) 不熟悉的可视化,ii) 网络科学模式,以及 iii) 相应的网络术语。
虚拟CAT:瑞士义务教育算法思维评估工具
分类: 人机交互, 人工智能, 计算机与社会
作者: Giorgia Adorni, Alberto Piatti
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01263v1
摘要: 在当今的数字时代,掌握算法思维(AT)技能至关重要,不仅在计算机科学相关领域。这些能力使个人能够将复杂的问题分解为更易于管理的步骤,并创建一系列行动来解决这些问题。为了解决教育环境中对 AT 评估日益增长的需求以及当前方法的局限性,本文引入了虚拟交叉阵列任务 (CAT),这是一种不插电评估活动的数字化版本,旨在评估瑞士义务教育中的算法技能。该工具提供可扩展的自动化评估,减少人工参与并减少潜在的数据收集错误。该平台具有基于手势和基于视觉块的编程界面,确保其对不同学习者的可用性,并得到多语言功能的进一步支持。为了评估虚拟 CAT 平台,我们在瑞士进行了一项试点评估,涉及一组不同的学生。研究结果表明,该平台评估不同年龄、发展阶段和教育背景的学生AT技能的可用性、熟练程度和适用性,以及大规模数据收集的可行性。
协调在线行为的检测和表征:调查
分类: 社交和信息网络, 人工智能, 计算机与社会, 人机交互, 机器学习
作者: Lorenzo Mannocci, Michele Mazza, Anna Monreale, Maurizio Tesconi, Stefano Cresci
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01257v1
摘要: 协调是生活的一个基本方面。社交媒体的出现也使其成为在线人类互动的一部分,例如那些以蓬勃发展的在线社区和社会运动为特征的互动。与此同时,协调也是有效的虚假信息、操纵和仇恨活动的核心。这项调查收集、分类并批判性地讨论了由于人们对协调在线行为日益增长的兴趣而产生的作品。我们协调行业和学术定义,提出一个综合框架来研究协调的在线行为,并回顾和批判性地讨论现有的检测和表征方法。我们的分析确定了开放的挑战和有希望的研究方向,为学者、从业者和政策制定者理解和解决在线协调固有的复杂性提供了指导。
用于解释反动列车延误的概率模型输出的可缩放详细程度图表
分类: 人机交互
作者: Aidan Slingsby, Jonathan Hyde
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01203v1
摘要: “反应性延误”是连锁列车延误累积连锁效应的结果,由于铁路基础设施利用率的提高,英国铁路的连锁反应不断增加。众所周知,它对火车晚点的影响是难以预测的。我们使用反作用延迟的随机蒙特卡托式模拟,产生可能的反作用延迟的整体分布以及由此引起的延迟。我们演示了如何使用可缩放详细级别图表表 - 逐个变量表,其中案例是行,变量是列,变量是包含分布的复杂复合指标,单元格包含迷你图表,通过以下方式将这些图表描述为不同的详细级别缩放交互 - 帮助解释模型输出的整体分布,以帮助理解反应性延迟的原因和影响,它们如何为时间表稳健性测试提供信息,以及如何在其他情况下使用它们。
算法、专家,还是两者兼而有之?评估特征选择方法对用户偏好和依赖的作用
分类: 人机交互
作者: Jaroslaw Kornowicz, Kirsten Thommes
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01171v1
摘要: 机器学习中用户和专家的整合是人工智能文献中广泛研究的主题。同样,人机交互研究广泛探讨了影响人工智能作为决策支持系统的接受度的因素。在这项实验研究中,我们调查了用户对专家在此类系统开发中的整合的偏好,以及这如何影响他们对这些系统的依赖。具体来说,我们关注特征选择的过程——由于机器学习模型对透明度的需求不断增长,这一元素变得越来越重要。我们区分三种特征选择方法:基于算法、基于专家和组合方法。在第一个处理中,我们分析用户对这些方法的偏好。在第二个处理中,我们将用户随机分配给三种方法之一,并分析该方法是否影响建议依赖。用户更喜欢组合方法,其次是基于专家和基于算法的方法。然而,第二次治疗的用户同样依赖所有方法。因此,我们发现陈述的偏好和实际使用之间存在显着差异。此外,允许用户选择他们喜欢的方法没有任何效果,并且偏好和依赖程度是特定于领域的。研究结果强调了理解人工智能支持的决策中认知过程的重要性以及在人类与人工智能交互中进行行为实验的必要性。
LessonPlanner:协助新手教师使用大型语言模型准备教学驱动的课程计划
分类: 人机交互
作者: Haoxiang Fan, Guanzheng Chen, Xingbo Wang, Zhenhui Peng
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01102v1
摘要: 准备课程计划,例如包含指导 90 分钟课程的策略和材料的详细路线图,对于新手教师来说既有益又具有挑战性。大型语言模型 (LLM) 可以通过为课程计划生成自适应内容来简化此过程,否则需要教师从头开始创建或搜索现有资源。在这项工作中,我们首先对六名新手教师进行了形成性研究,以了解他们对支持大语言模型准备课程计划的需求。然后,我们开发了LessonPlanner,帮助用户根据Gagne的九个事件,使用自适应大语言模型生成的内容交互式地构建课程计划。我们的受试者内研究(N=12)表明,与基线 ChatGPT 界面相比,LessonPlanner 可以显着提高成果课程计划的质量,并减轻用户在准备过程中的工作量。我们的专家访谈 (N=6) 进一步证明了 LessonPlanner 在建议有效的教学策略和有意义的教育资源方面的有用性。我们讨论了支持大语言模型教学活动的问题和设计考虑因素。
NotePlayer:使用 Jupyter Notebook 动态呈现分析过程
分类: 人机交互
作者: Yang Ouyang, Leixian Shen, Yun Wang, Quan Li
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01101v1
摘要: 多样化的呈现格式对于数据分析过程中有效传达代码和分析过程发挥着关键作用。教程视频是一种越来越流行的格式,尤其是基于 Jupyter 笔记本的教程视频,它提供了代码的直观解释和分析过程的生动解释。然而,创建此类视频需要多种技能和大量的手动工作,这对许多分析师构成了障碍。为了弥补这一差距,我们引入了一种名为 NotePlayer 的创新工具,它将笔记本单元连接到视频片段,并将计算引擎与语言模型结合起来,以简化视频创建和编辑。我们的目标是让分析师能够更轻松地访问该流程并提高效率。为了为 NotePlayer 的设计提供信息,我们对 38 个 Jupyter 教程视频的语料库进行了形成性研究并进行了内容分析。这帮助我们识别现有教程视频中遇到的关键模式和挑战,指导 NotePlayer 的开发。通过结合使用场景和用户研究,我们验证了NotePlayer的有效性。结果表明,该工具简化了视频创建并促进了数据分析师的沟通过程。
支持行业计算研究人员评估、阐明和解决其工作的潜在负面社会影响
分类: 人机交互
作者: Wesley Hanwen Deng, Solon Barocas, Jennifer Wortman Vaughan
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01057v1
摘要: 近年来,越来越多的人呼吁计算机研究人员应对其工作的社会影响。影响评估等工具作为发现潜在影响的方法而受到重视,许多出版场所现在鼓励作者在提交的材料中包含影响声明。尽管最近有这样的推动,但人们对研究人员如何应对其工作潜在的负面社会影响知之甚少——尤其是在行业环境中,研究成果往往会很快融入到产品中。此外,尽管人们正在努力支持研究人员完成这项任务,但仍然缺乏基于经验的工具和流程。通过采访不同公司和研究领域的 25 名行业计算研究人员,我们首先确定了影响他们如何应对(或选择不应对)其研究的社会影响的四个关键因素。为了开发适合行业计算研究人员需求的有效影响评估模板,我们与这 25 名行业研究人员以及另外 16 名在审查和开发影响评估或广泛影响方面拥有丰富经验和专业知识的研究人员和从业人员进行了迭代协同设计流程。负责任的计算实践。通过协同设计过程,我们制定了 10 个设计注意事项,以促进有效设计、开发和适应用于行业研究环境及其他领域的影响评估模板,以及我们自己的带有混凝土脚手架的“社会影响评估”模板。我们通过对 15 名行业研究实习生进行的用户研究探索了该模板的有效性,揭示了其优点和局限性。最后,我们讨论了对未来研究人员和组织寻求促进更负责任的研究实践的影响。
从干到严:人工智能价值链的可竞争性
分类: 人工智能, 计算机与社会, 人机交互
作者: Agathe Balayn, Yulu Pi, David Gray Widder, Kars Alfrink, Mireia Yurrita, Sohini Upadhyay, Naveena Karusala, Henrietta Lyons, Cagatay Turkay, Christelle Tessono, Blair Attard-Frost, Ujwal Gadiraju
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01051v1
摘要: 本次研讨会将发展和巩固跨学科 CSCW 研究人员社区,重点关注可争议的人工智能主题。作为研讨会的成果,我们将以研究路线图的形式综合人工智能价值链中最紧迫的竞争机遇和挑战。该路线图将有助于塑造和启发该领域即将开展的工作。考虑到人工智能价值链的长度和深度,这将特别引发围绕此类链各个站点的人工智能系统的可竞争性的讨论。该研讨会将作为对话和展示(可能或应该)有争议的人工智能系统的具体、成功和不成功示例的平台,以确定在各种背景下设计和部署可争议人工智能的要求、障碍和机会。这将主要以面对面研讨会的形式举行,并提供一些混合住宿。这一天将包括个人演讲和小组活动,以激发创意并激发对可竞争人工智能领域的广泛反思。我们的目标是通过将研究人员、从业者和利益相关者聚集在一起,促进跨学科对话,以促进可竞争人工智能的设计和部署。
DASH:用于交互式文本和可视化的双峰数据探索工具
分类: 人机交互
作者: Dennis Bromley, Vidya Setlur
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.01011v1
摘要: 将标题、注释和说明文字等文本内容与可视化相集成,有助于数据探索过程中的理解和收获。然而,当前的工具通常缺乏将有意义的长篇散文与视觉数据集成的机制。本文介绍了 DASH,一种双模态数据探索工具,支持将语义级别集成到可视化和基于文本的分析的交互过程中。 DASH 可操作 Lundgard 等人的语义层次模型的修改版本,该模型将数据描述分为从基本编码到高级见解的四个级别。通过利用这种结构化语义层框架和大型语言模型的文本生成功能,DASH 可以通过拖放用户交互创建数据驱动的叙述。通过初步的用户评估,我们讨论了 DASH 的文本和图表集成功能在参与者使用该工具进行数据探索时的效用。
社区蜂窝网络覆盖可视化工具
分类: 人机交互, 计算机与社会, 网络和互联网架构
作者: Chanwut Kittivorawong, Sirapop Theeranantachai, Nussara Tieanklin, Esther Han Beol Jang, Kurtis Heimerl
发布时间: 2024-08-02
链接: http://arxiv.org/abs/2408.00999v1
摘要: 社区蜂窝网络志愿者和研究人员目前很少能够访问有关每个站点的网络的信息。这使得他们难以评估网络性能、识别异常情况和停机时间,甚至难以显示当前站点位置。在本文中,我们提出了社区蜂窝网络覆盖可视化工具,这是一个性能仪表板,可帮助减少技术人员的工作量并通过说明网络的可靠性来获得信任。该地图显示了当前和未来每个 CCN 站点的整体和深入性能,并以隐私为中心的实施,而多系列折线图则强调提供网络超时的能力。它不仅可以帮助用户识别附近信号更强、更可靠的位置,而且我们的应用程序也将成为志愿者和工程师确定安装新站点的最佳位置并快速识别可能的网络故障的重要工具。
SaludConectaMX:在墨西哥部署用于儿科癌症护理的合作移动医疗系统的经验教训
分类: 人机交互, 计算机与社会
作者: Jennifer J. Schnur, Angélica Garcia-Martínez, Patrick Soga, Karla Badillo-Urquiola, Alejandra J. Botello, Ana Calderon Raisbeck, Sugana Chawla, Josef Ernst, William Gentry, Richard P. Johnson, Michael Kennel, Jesús Robles, Madison Wagner, Elizabeth Medina, Juan Garduño Espinosa, Horacio Márquez-González, Victor Olivar-López, Luis E. Juárez-Villegas, Martha Avilés-Robles, Elisa Dorantes-Acosta, Viridia Avila, Gina Chapa-Koloffon, Elizabeth Cruz, Leticia Luis, Clara Quezada, Emanuel Orozco, Edson Serván-Mori, Martha Cordero, Rubén Martín Payo, Nitesh V. Chawla
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00881v1
摘要: 我们开发了 SaludConectaMX 作为一个综合系统,用于跟踪和了解墨西哥癌症儿童化疗过程中并发症的决定因素。 SaludConectaMX 的独特之处在于它将患者临床指标与社会决定因素和护理人员心理健康相结合,形成患者不断变化的健康轨迹的社会临床视角。该系统由网络应用程序(适用于医院工作人员)和移动应用程序(适用于家庭护理人员)组成,为医院和家庭环境中的患者协作监测提供了机会。本文介绍了该系统的初步设计和1.5年试点研究的可用性评估结果。我们的研究结果表明,虽然医院网络应用程序显示出较高的完成率和用户满意度,但家庭移动应用程序需要进行额外的改进才能实现最佳的可访问性;统计和定性数据分析阐明了系统改进的途径。基于这一证据,我们正式提出了中低收入国家卫生系统发展的建议,HCI 研究人员可以在未来的工作中利用这些建议。
招募青少年参与者进行在线安全实验:使用 Peachjar 的案例研究
分类: 人机交互
作者: Elijah Bouma-Sims, Lily Klucinec, Mandy Lanyon, Lorrie Faith Cranor, Julie Downs
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00864v1
摘要: 招募青少年进行可用的隐私和安全研究具有挑战性,但至关重要。本案例研究介绍了我们使用在线传单分发服务 Peachjar 招募未成年青少年进行在线安全实验的经验。通过向 90 所 K-12 学校分发传单,我们招募了 55 名参与者,每个参与者的估计成本为 43.18 美元。我们讨论了 Peachjar 的优点和缺点,得出的结论是,它可以促进招募不同地理位置的青少年样本进行在线研究,但它需要仔细设计以防止垃圾邮件,并且可能比其他在线方法更昂贵。最后,我们提出了更有效地使用 Peachjar 的方法。
HAIGEN:迈向人机协作,促进时装设计中的创造力和风格生成
分类: 人机交互
作者: Jianan Jiang, Di Wu, Hanhui Deng, Yidan Long, Wenyi Tang, Xiang Li, Can Liu, Zhanpeng Jin, Wenlei Zhang, Tangquan Qi
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00855v1
摘要: 时装设计的过程通常涉及素描、提炼和着色,设计师从各种图像中汲取灵感来激发他们的创作努力。然而,传统的图像搜索方法常常会产生不相关的结果,从而阻碍了设计过程。此外,草图的创建和着色可能既耗时又费力,成为设计工作流程中的瓶颈。在这项工作中,我们介绍了 HAIGEN(人类与人工智能协作 GENeration),这是一个为帮助设计师而开发的人类与人工智能协作的高效时装设计系统。具体来说,HAIGEN由四个模块组成。 T2IM位于云端,直接根据文本提示生成参考灵感图像。 I2SM通过本地的另外三个模块,将图像素材库批量生成为某种设计师风格的草图素材库。 SRM将生成的库中相似的草图推荐给设计师进行进一步细化,STM根据灵感图像的风格对细化的草图进行着色。通过我们的系统,任何设计师都可以进行本地个性化微调,并利用云端强大的大型模型生成能力,简化整个设计开发流程。鉴于我们的方法集成了云和本地模型部署方案,它通过避免需要上传本地设计师的个性化数据来有效保护设计隐私。我们通过广泛的定性和定量实验验证了每个模块的有效性。用户调查也证实HAIGEN在设计效率方面具有显着优势,将其定位为新一代设计师辅助工具。
网格线减轻折线图中的正弦错觉
分类: 人机交互
作者: Clayton Knittel, Jane Awuah, Steven Franconeri, Cindy Xiong Bearfield
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00854v1
摘要: 当更快变化的线对导致对它们之间的增量的更大低估时,就会发生正弦错觉。我们通过用户研究评估了三种减轻正弦错觉的视觉操作:虚线、对齐网格线和偏移网格线。我们要求参与者比较两个时间点两条线之间的增量,发现对齐的网格线对于减轻正弦错觉是最有效的。使用用户研究的数据,我们生成了一个模型,通过考虑两个比较点之间的垂直距离的比率来预测折线图中正弦错觉的影响。当该比例低于50%时,参与者开始受到正弦错觉的影响。当两个增量之间的差异低于 30% 时,这种影响可能会显着加剧。我们根据我们的数据比较了对正弦错觉的两种解释:要么参与者错误地使用两条线之间的垂直距离进行比较(垂直解释),要么他们错误地依赖于垂直于角度的线段的长度底线和顶线的平分线(等三角形解释)。我们发现等三角形解释是解释参与者行为的更具预测性的模型。
开发者可以提示吗?代码文档生成的受控实验
分类: 人工智能, 人机交互, 软件工程
作者: Hans-Alexander Kruse, Tim Puhlfürß, Walid Maalej
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00686v1
摘要: 大型语言模型 (LLM) 在自动执行繁琐的开发任务(例如创建和维护代码文档)方面具有巨大潜力。然而,目前尚不清楚开发人员在多大程度上可以有效地促使大语言模型创建简洁且有用的文档。我们报告了一项由 20 名专业人士和 30 名计算机科学专业学生参与的对照实验,其任务是为两个 Python 函数生成代码文档。实验组在 Visual Studio Code 的类似 ChatGPT 的扩展中自由输入临时提示,而对照组则执行预定义的几次提示。我们的结果表明,专业人士和学生不知道或无法应用即时的工程技术。尤其是学生们认为,与准备好的提示生成的文档相比,根据临时提示生成的文档的可读性、简洁性和帮助性明显较差。一些专业人士通过在临时提示中包含关键字 Docstring 来生成更高质量的文档。虽然学生在制定提示时需要更多支持,但专业人士赞赏临时提示的灵活性。两组参与者都很少将输出评估为完美。相反,他们将工具理解为迭代完善文档的支持。需要进一步的研究来了解开发人员拥有哪些提示技能和偏好,以及他们需要哪些支持来完成某些任务。
通过信息融合识别人脑的分层情感区域
分类: 人机交互, 离散数学, 机器学习
作者: Zhongyu Huang, Changde Du, Chaozhuo Li, Kaicheng Fu, Huiguang He
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00525v1
摘要: 情绪的大脑基础一直受到广泛关注,吸引了大量研究来探索这个前沿话题。然而,这些研究中采用的方法通常只模拟两个大脑区域之间的成对关系,而忽略了多个大脑区域之间的相互作用和信息融合$\unicode{x2014}$心理建构主义假说的关键思想之一。为了克服传统方法的局限性,本研究对如何最大化大脑区域之间的相互作用和信息融合提供了深入的理论分析。基于此分析结果,我们建议通过多源信息融合和图机器学习方法来识别人脑中的分层情感区域。综合实验表明,所识别的从低级到高级的分层情感区域主要促进情感感知的基本过程、基本心理操作的构建以及这些操作的协调和整合。总的来说,我们的研究结果基于心理建构主义假设,为特定情绪背后的大脑机制提供了独特的见解。
FlowGPT:探索社区生成的 AI 聊天机器人的领域、输出模式和目标
分类: 人机交互
作者: Xian Li, Yuanning Han, Di Liu, Pengcheng An, Shuo Niu
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00512v1
摘要: 生成式人工智能和大型语言模型的出现不仅增强了交互式应用程序的智能,还促进了热衷于定制这些人工智能功能的社区的形成。 FlowGPT 是一个用于共享 AI 提示和用例的新兴平台,它体现了这一趋势,吸引了许多开发聊天机器人并与更广泛的社区共享的创作者。尽管它越来越受欢迎,但对社区成员创建和共享的人工智能工具的类型和用途的理解仍然存在很大差距。在这项研究中,我们深入研究 FlowGPT 并展示我们关于聊天机器人的领域、输出模式和目标的初步发现。我们的目标是突出人工智能应用的常见类型,并确定人工智能共享社区的未来研究方向。
DiscipLink:通过人机协同探索展开跨学科信息搜索过程
分类: 人机交互, 人工智能, 信息检索
作者: Chengbo Zheng, Yuanhao Zhang, Zeyu Huang, Chuhan Shi, Minrui Xu, Xiaojuan Ma
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00447v1
摘要: 跨学科研究通常要求研究人员探索不同知识领域的文献。然而,浏览来自不熟悉学科的高度分散的知识构成了重大挑战。在本文中,我们介绍了 DiscipLink,这是一种新颖的交互式系统,可促进跨学科信息搜索 (IIS) 中研究人员与大型语言模型 (LLM) 之间的协作。 DiscipLink根据用户感兴趣的主题,从可能的相关研究领域的角度发起探索性问题,用户可以进一步定制这些问题。然后,DiscipLink 通过使用特定学科术语自动扩展查询、从检索到的论文中提取主题以及突出显示论文和问题之间的联系,支持用户在选定问题下搜索和筛选论文。我们的评估包括受试者内比较实验和开放式探索性研究,表明DiscipLink可以有效支持研究人员打破学科界限,整合不同领域的分散知识。研究结果强调了大语言模型驱动的工具在促进信息检索实践和支持跨学科研究方面的潜力。
利用虚拟现实模拟让非残疾人反思残疾人的准入障碍
分类: 人机交互, H.5
作者: Timo Brogle, Andrej Vladimirovic Ermoshkin, Konstantin Vakhutinskiy, Sven Priewe, Claas Wittig, Anna-Lena Meiners, Kathrin Gerling, Dmitry Alexandrovsky
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00328v1
摘要: 残疾人在日常生活中遇到许多障碍,但非残疾人很少停下来反思并采取联合行动来倡导无障碍。在此演示中,我们探讨了虚拟现实 (VR) 让非残疾人对建筑环境中的障碍敏感的潜力。我们对德国卡尔斯鲁厄的一个主要交通枢纽进行了 VR 模拟,并采用视觉装饰和动画来展示障碍物和潜在的清除策略。通过我们的工作,我们寻求让用户参与对话,讨论谁可以进入什么样的环境,以及公平参与社会需要什么。此外,我们的目标是加深对 VR 技术如何通过交互式探索促进反思的理解。
我们听到的一切:解决播客中的错误信息
分类: 人机交互
作者: Sachin Pathiyan Cherumanal, Ujwal Gadiraju, Damiano Spina
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00292v1
摘要: 生成式人工智能的进步、大型多模式模型(LMM)的扩散以及这些技术的民主化开放获取对错误信息的产生和传播有直接影响。在这篇前传中,我们将讨论如何在播客这一独特且日益流行的背景下解决错误信息。播客作为传播不同主题信息的流行媒介的崛起需要采取积极主动的策略来打击错误信息的传播。受到 \textit{听觉警报} 在驾驶员碰撞警报和手机错误 ping 等环境中经过验证的有效性的启发,我们的工作设想将听觉警报应用为解决播客中错误信息的有效工具。我们建议集成适当的听觉警报,以实时通知听众他们正在收听的播客中潜在的错误信息,并且不会妨碍收听体验。我们确定了这条道路上的一些机遇和挑战,旨在引发围绕解决播客中错误信息的工具、方法和措施的新颖对话。
将数据带入对话中:将商业智能仪表板中的内容调整为线程协作平台
分类: 人机交互
作者: Hyeok Kim, Arjun Srinivasan, Matthew Brehmer
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00242v1
摘要: 为了实现跨组织的数据驱动决策,数据专业人员需要通过适合上下文的沟通渠道与同事分享见解。他们的许多同事依赖数据,但他们自己并不是分析师;此外,他们的同事不愿意或无法使用专用的分析应用程序或仪表板,他们希望在 Slack 或 Microsoft Teams 等线程协作平台内进行通信。在本文中,我们介绍了一组六种策略,用于将商业智能 (BI) 仪表板中的内容调整为适当的格式,以便在协作平台上共享,这些格式我们称为仪表板快照。根据之前围绕数据进行的企业通信研究,这些策略超越了重新设计或重新设计的范围,考虑了整个组织的不同数据素养水平,引入了自助式问答功能,并预测了数据工件的共享后生命周期。这些策略涉及使用与常见交流意图相匹配的模板,有助于减少数据专业人员的工作量。我们提供了这些策略的正式表述,并展示了它们在历时数月展开的由多个利益相关者组成的综合企业沟通场景中的适用性。
人机交互任务中的随时信任评级动态
分类: 人机交互
作者: Jason Dekarske, Gregory Bales, Zhaodan Kong, Sanjay Joshi
发布时间: 2024-08-01
链接: http://arxiv.org/abs/2408.00238v1
摘要: 目标 我们对影响单维、随时对机器人技术信任度的评级时间的因素进行建模。背景 许多研究将信任视为受试者完成试验后或定期变化的缓慢变化值。信任是一个多方面的概念,可以与人机交互同时进行衡量。方法 65 受试者在模拟空间站中指挥远程机械臂。机器人根据受试者的指挥拾取和放置物品,但机器人的性能在每次试验中都存在差异。在整个实验过程中,受试者随时对非侵入式信任滑块的信任度进行评分。结果考克斯比例风险模型描述了受试者评估对机器人信任度所需的时间。一项回顾性调查表明,受试者的信任基于机器人的表现或任务结果。代表任务状态的强协变量在模型中反映了这一点。结论 信任和机器人任务表现对信任评级的时间影响不大。受试者的退出调查反应与机器人的任务进展是其信任评级时间的主要原因的假设一致。应用测量人机交互任务中的信任应该尽可能少地分散对任务的注意力。这种信任评级技术为探测估计的人类行为的单维信任查询奠定了基础。