2024-04

一种新颖的情境驱动的关键综合水平 (CIL) 方法:在具有实用门槛的公共图书馆中推进以人为本的综合照明资产管理

分类: 人机交互, 系统与控制, 信号处理, 系统与控制, 应用领域

作者: Jing Lin, Nina Mylly, Per Olof Hedekvist, Jingchun Shen

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17554v1

摘要: 本文提出了环境驱动的关键集成级别(CIL),这是一种公共图书馆照明资产管理的新颖方法,符合以人为本的集成照明的变革愿景。这种方法不仅涵盖照明性能的视觉方面,还优先考虑图书馆用户的生理和心理健康。该方法采用新定义的指标“平均曝光时间 (MTOE)”,量化用户与灯光的交互,从而实现定制的照明策略,以响应图书馆空间的不同活动和需求。案例研究展示了如何实际应用 CIL 矩阵,通过关注视觉影响和非视觉效果的优化用户体验,与传统方法相比提供了显着改进。

“ChatGPT 是来提供帮助的,而不是取代任何人”——学生对 ChatGPT 融入 CS 课程的意见评价

分类: 新兴技术, 人工智能, 人机交互

作者: Bruno Pereira Cipriano, Pedro Alves

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17443v1

摘要: 像 GPT 和 Bard 这样的大型语言模型 (LLM) 能够根据文本描述生成代码,效果显着。此类技术将对计算机教育产生深远的影响,引发人们对作弊、过度依赖和计算思维技能下降等问题的担忧。关于教师应如何应对这一挑战已有广泛的研究,但了解学生对这种范式转变的感受也很重要。在这项研究中,对 52 名一年级计算机科学学生进行了调查,以便从学术和专业角度评估他们对具有代码生成功能的技术的看法。我们的研究结果表明,虽然学生普遍赞成在学术上使用 GPT,但他们并不会过度依赖它,只是温和地寻求它的帮助。尽管大多数学生从 GPT 中受益,但有些学生很难有效地使用它,因此迫切需要进行特定的 GPT 培训。关于 GPT 对职业生涯影响的看法各不相同,但对其在学术实践中的重要性达成了共识。

人机交互中的儿童语音识别:问题解决了吗?

分类: 计算和语言, 人机交互, 机器人技术

作者: Ruben Janssens, Eva Verhelst, Giulio Antonio Abbo, Qiaoqiao Ren, Maria Jose Pinto Bernal, Tony Belpaeme

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17394v1

摘要: 自动语音识别在成人英语语音的一系列基准测试中表现出超人的表现,但在儿童语音方面却令人失望。这长期以来一直阻碍着儿童与机器人的互动。数据驱动语音识别的最新发展,包括 Transformer 架构的可用性和前所未有的训练数据量,可能意味着儿童语音识别和针对儿童的社交机器人应用的突破。我们重新审视 2017 年针对儿童语音识别的一项研究,结果表明性能确实有所提高,新来者 OpenAI Whisper 的表现明显优于领先的商业云服务。虽然转录尚不完美,但最好的模型可以正确识别 60.3% 的句子,排除微小的语法差异,并且在本地 GPU 上运行的转录时间为亚秒级,显示出可用的自主儿童机器人语音交互的潜力。

M3BAT:通过多分支对抗训练实现多模式移动传感的无监督域适应

分类: 机器学习, 人工智能, 计算机与社会, 人机交互

作者: Lakmal Meegahapola, Hamza Hassoune, Daniel Gatica-Perez

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17391v1

摘要: 多年来,多模式移动传感已广泛用于有关健康和福祉、行为和环境的推断。然而,阻碍此类模型在现实场景中广泛部署的一个重大挑战是分布转移问题。这是训练集中的数据分布与现实世界(即部署环境)中的数据分布不同的现象。虽然在计算机视觉和自然语言处理方面进行了广泛的探索,并且虽然移动传感方面的先前研究简要地解决了这个问题,但当前的工作主要集中在处理单一数据模态的模型,例如音频或加速度计读数,因此,很少有处理多模态传感器数据时的无监督域自适应研究。为了解决这一差距,我们对域对抗神经网络(DANN)进行了广泛的实验,表明它们可以有效地处理多模态传感器数据的分布变化。此外,我们提出了一种对 DANN 的新颖改进,称为 M3BAT,通过多分支对抗训练进行多模态移动传感的无监督域适应,以在具有多个分支的域适应过程中考虑传感器数据的多模态。通过对两个多模态移动传感数据集、三个推理任务和 14 个源-目标域对(包括回归和分类)进行广泛的实验,我们证明了我们的方法在看不见的域上有效执行。与直接将在源域中训练的模型部署到目标域相比,该模型在分类任务上表现出高达 12% AUC(接收器操作特征曲线下的面积)的性能提升,在分类任务上表现出高达 0.13 MAE(平均绝对误差)的性能提升。回归任务。

人工智能如何支持设计教育?跨领域研究推动定位分析

分类: 人机交互, 人工智能, H.5.2

作者: Ajit Jain, Andruid Kerne, Hannah Fowler, Jinsil Seo, Galen Newman, Nic Lupfer, Aaron Perrine

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17390v1

摘要: 我们利用设计教育者评估和反馈实践案例研究的过程和结果来推动关于如何使人工智能为人类体验服务的理论化。我们以苏克曼的情境行动理论为基础。我们对 5 个领域的 11 名教育工作者进行了定性研究,他们在基于项目的学习环境中教授设计流程。通过定性数据收集和分析,我们得出代码:设计流程;评估和反馈挑战;和计算支持。我们两次援引创造性认知的家族相似原则。首先,解释设计教师如何使用评估标准;其次,解释设计创造力分析的类似作用:没有特定的特征是必要或充分的;每一个都只倾向于表明良好的设计工作。人类教师仍然至关重要。我们开发了一套情境设计创意分析——流畅性、灵活性、视觉一致性、多尺度组织和清晰对比——通过向学生提供按需、基于学习目标的评估和反馈来支持教师的工作。我们理论化了一种方法论,我们称之为情境分析,首先是因为让人工智能支持人类活动取决于将分析衡量的指标与情境实践相结合。此外,我们意识到,通过将用户集成到其使用的物质环境中的界面来定位用户,分析对用户来说变得最重要。在这里,这意味着将设计创意分析置于实际的设计环境中。通过案例研究,我们将情境分析确定为向用户解释分析的一种方法,因为与实践保持一致的迭代过程有可能使数据科学家能够得出有意义的分析,作为情境人类体验的一部分并支持情境人类体验。

InspectorRAGet:RAG 评估的自省平台

分类: 软件工程, 人机交互

作者: Kshitij Fadnis, Siva Sankalp Patel, Odellia Boni, Yannis Katsis, Sara Rosenthal, Benjamin Sznajder, Marina Danilevsky

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17347v1

摘要: 大型语言模型 (LLM) 已成为实现检索增强生成 (RAG) 系统的流行方法,并且在构建良好的模型和指标上花费了大量的精力。尽管人们越来越认识到对 RAG 系统进行严格评估的必要性,但除了创建模型输出和自动计算之外,几乎没有工具存在。我们推出 InspectorRAGet,这是一个用于 RAG 评估的自省平台。 InspectorRAGet 允许用户使用人工和算法指标以及注释器质量来分析 RAG 系统的聚合和实例级性能。 InspectorRAGet 适用于多种用例,并向社区公开提供。演示视频位于 https://youtu.be/MJhe8QIXcEc

超越效率和便利。以后成长价值观为核心来改变设计教育和社会

分类: 人机交互

作者: Matthias Laschke, Lenneke Kuijer

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17264v1

摘要: 在这篇立场文件中,我们展示了 Municipan,这是一个由后增长设计实验产生的人工制品,应用于学生设计项目。主流的以人为本的设计旨在提高效率和便利性,我们认为这种设计会导致去技能化、依赖性和气候危机的恶化,与此相反,我们要求学生设想一个相反的用户,愿意投入时间和精力并学习新知识技能。虽然市政并不是迈向后增长社会的直接步骤,但将其创建方式融入设计教育可以充当核心,培养出倾向于创造技术的设计专业人士,这些技术有潜力逐步将社会转变为后增长生活。通过我们自己研究中的例子,我们说明了以这种思维方式创建的设计,例如训练耐寒能力的加热系统,或训练方向的导航系统,有可能重新培训用户、减少技术依赖性并将消费控制在地球极限之内。

元对象:从现实世界中学习后元宇宙的交互式和多感官虚拟对象

分类: 人机交互, 新兴技术

作者: Dooyoung Kim, Taewook Ha, Jinseok Hong, Seonji Kim, Selin Choi, Heejeong Ko, Woontack Woo

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17179v1

摘要: 随着可穿戴增强现实/虚拟现实 (AR/VR) 设备的激增,无处不在的虚拟体验通过元宇宙平台无缝融入日常生活。为了支持类似于现实的沉浸式元宇宙体验,我们提出了下一代虚拟对象,即元对象,一种嵌入属性的虚拟对象,其中包含从现实世界学习的交互式和多感官特征。由于基于有限的物理属性的有限的感官反馈,当前的虚拟对象与现实世界的对象显着不同。为了利用元宇宙中的元对象,需要三个关键组件:元对象建模和属性嵌入、交互自适应多感官反馈以及基于智能模拟的后元宇宙平台。利用元对象使现场和远程用户能够像与真实对象进行交互一样进行交互,可以通过可穿戴 AR/VR 设备促进后元宇宙时代的到来。

Misaka:用于智能电网分布式算法测试和评估的交互式群测试台

分类: 机器人技术, 人机交互, 系统与控制, 系统与控制

作者: Tingliang Zhang, Haiwang Zhong, Zhenfei Tan, Xinfei Yan

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17125v1

摘要: 在本文中,我们介绍了 Misaka,一个用于智能电网算法评估的可视化群体测试平台,也是一个用于开发桌面有形群体接口的可扩展开源开放硬件平台。该平台由一系列定制设计的 3 个全向轮机器人组成,每个机器人直径为 10 厘米,通过覆盖在活动表顶部的微点图案进行高精度定位,以及用于应用程序开发和控制的软件框架,同时保持价格实惠(原型阶段每单位成本约为 30 美元)。我们通过与 Misaka 开发的一组智能电网算法应用场景来说明桌面群体用户界面的潜力。

MER 2024:半监督学习、噪声鲁棒性和开放词汇多模态情感识别

分类: 机器学习, 人机交互

作者: Zheng Lian, Haiyang Sun, Licai Sun, Zhuofan Wen, Siyuan Zhang, Shun Chen, Hao Gu, Jinming Zhao, Ziyang Ma, Xie Chen, Jiangyan Yi, Rui Liu, Kele Xu, Bin Liu, Erik Cambria, Guoying Zhao, Björn W. Schuller, Jianhua Tao

发布时间: 2024-04-26

链接: http://arxiv.org/abs/2404.17113v1

摘要: 多模态情感识别是人工智能领域的一个重要研究课题。在过去的几十年里,研究人员通过增加数据集大小和构建更有效的架构取得了显着的进展。然而,由于各种原因(例如复杂的环境和标签不准确),当前的系统仍然无法满足实际应用的需求。因此,我们计划围绕情感识别组织一系列挑战赛,以进一步推动该领域的发展。去年,我们推出了 MER2023,重点关注三个主题:多标签学习、噪声鲁棒性和半监督学习。今年,我们继续举办MER2024。除了扩大数据集大小之外,我们还引入了围绕开放词汇情感识别的新轨道。该赛道的主要考虑因素是现有数据集通常固定标签空间并使用多数投票来增强注释者的一致性,但这个过程可能会限制模型描述微妙情感的能力。在这个赛道中,我们鼓励参与者在任何类别中生成任意数量的标签,旨在尽可能准确地描述角色的情绪状态。我们的基线基于 MERTools,代码位于:https://github.com/zeroQiaoba/MERTools/tree/master/MER2024。

拥抱多样性:可解释的零样本分类超出每类一个向量

分类: 计算机视觉和模式识别, 人工智能, 人机交互

作者: Mazda Moayeri, Michael Rabbat, Mark Ibrahim, Diane Bouchacourt

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16717v1

摘要: 视觉语言模型可以实现对象的开放世界分类,而无需任何重新训练。虽然这种零样本范式标志着一个重大进步,但当对象与其典型描述不同时,即使是当今最好的模型也会表现出偏差。现实世界中的物体(例如梨)以多种形式出现——从切块到整个,在桌子上或在碗里——然而标准的 VLM 分类器根据类标签将类的所有实例映射到单个向量}。我们认为,为了表示一个类中丰富的多样性,零样本分类应该超越单个向量。我们提出了一种使用推断属性对类内的多样性进行编码和解释的方法,仍然处于零样本设置而无需重新训练。我们发现我们的方法在包含层次结构、不同对象状态和现实世界地理多样性的大量数据集以及类内多样性可能不太普遍的细粒度数据集上始终优于标准零样本分类。重要的是,我们的方法本质上是可解释的,为每个推论提供忠实的解释,以促进模型调试并提高透明度。我们还发现我们的方法可以有效地扩展到大量属性以考虑多样性 - 从而对非典型实例进行更准确的预测。最后,我们描述了总体精度和最差类别精度之间的原则性权衡,可以通过我们方法的超参数进行调整。我们希望这项工作能够促进进一步研究零样本分类的前景,超越单一类向量,以捕捉世界的多样性,并在不影响性能的情况下构建透明的人工智能系统。

对不同配置的移动设备控制代理进行基准测试

分类: 人机交互, 人工智能, 机器学习

作者: Juyong Lee, Taywon Min, Minyong An, Changyeon Kim, Kimin Lee

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16660v1

摘要: 为移动设备开发自主代理可以通过提高效率和可访问性来显着增强用户交互。然而,尽管人们对移动设备控制代理的兴趣日益浓厚,但缺乏普遍采用的基准使得量化该领域的科学进展面临挑战。在这项工作中,我们介绍了 B-MoCA:一种专门为评估移动设备控制代理而​​设计的新颖基准。为了创建一个现实的基准,我们开发了基于Android操作系统的B-MoCA,并定义了60个常见的日常任务。重要的是,我们采用了随机化功能,可以改变移动设备的各个方面,包括用户界面布局和语言设置,以评估泛化性能。我们对不同的智能体进行基准测试,包括采用大语言模型 (LLM) 或多模式 LLM 的智能体,以及使用人类专家演示从头开始训练的智能体。虽然这些智能体在执行简单任务方面表现出熟练程度,但它们在复杂任务上的糟糕表现凸显了未来研究提高其有效性的重要机会。我们的源代码可在 https://b-moca.github.io 上公开获取。

比较远程 VR 研究中的连续情绪评级和回顾性情绪评级

分类: 人机交互

作者: Maximilian Warsinke, Tanja Kojić, Maurizio Vergari, Robert Spang, Jan-Niklas Voigt-Antons, Sebastian Möller

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16487v1

摘要: 本研究通过部署情绪评级实验,探讨使用 VR 耳机和视频会议在家中进行远程虚拟现实 (VR) 研究的可行性。 20 名参与者使用头戴式显示器沉浸在精选的 360{\deg} 视频中,以唤起情绪反应。该研究将使用图形界面的连续评级与用于测量唤醒和效价的数字化李克特量表的回顾性问卷进行比较,两者都基于自我评估模型(SAM)。据推测,两种不同的评级方法将导致效价和唤醒度的值显着不同。目的是调查体验期间的连续评分是否能够通过减少峰终规则等偏差,比问卷调查后更好地反映用户的情绪。结果显示,效价的中度至强效应大小存在显着差异,而低至中度效应大小的唤醒则没有显着差异。这表明需要进一步研究用于评估 VR 研究中情绪评级的方法。总的来说,这项研究是远程进行 VR 实验的一个例子,通过改变评分的时间和界面,提供了对 VR 中情感激发方法的见解。

CoCoG:基于人类概念表征的可控视觉刺激生成

分类: 神经元和认知, 计算机视觉和模式识别, 人机交互

作者: Chen Wei, Jiachen Zou, Dietmar Heinke, Quanying Liu

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16482v1

摘要: 认知科学的一个核心问题是理解人类如何处理视觉对象,即从高维视觉刺激中揭示人类低维概念表征空间。用控制概念产生视觉刺激是关键。然而,目前人工智能领域还没有生成模型来解决这个问题。在这里,我们提出了基于概念的可控发电(CoCoG)框架。 CoCoG 由两个组件组成,一个简单而高效的人工智能代理,用于提取可解释的概念并预测视觉相似性判断任务中的人类决策,以及一个条件生成模型,用于根据给定的概念生成视觉刺激。我们从人类行为预测精度和可控生成能力两个方面量化CoCoG的性能。 CoCoG 的实验表明:1)CoCoG 中可靠的概念嵌入可以在 THINGS-similarity 数据集中以 64.07% 的准确度预测人类行为; 2)CoCoG可以通过概念的控制生成多样化的对象; 3)CoCoG可以通过干预关键概念来操纵人类的相似性判断行为。 CoCoG 提供具有控制概念的视觉对象,以增进我们对人类认知中因果关系的理解。 CoCoG 的代码可在 \url{https://github.com/ncclab-sustech/CoCoG} 获取。

社交环境和交互的影响关注增强现实游戏的用户体验和社会接受度

分类: 人机交互

作者: Lorenzo Cocchia, Maurizio Vergari, Tanja Kojic, Francesco Vona, Sebastian Moller, Franca Garzotto, Jan-Niklas Voigt-Antons

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16479v1

摘要: 扩展现实 (XR) 领域最有前途的技术之一是增强现实。这项技术已经进入人们的口袋,通过智能手机实现移动增强现实。科学界仍然需要答案,了解人类如何能够并且应该在感知刺激与完全物理或数字环境不同的环境中进行互动。此外,人们是否在不同的社会环境和互动环境中接受这些新技术,或者是否存在一些障碍,仍然是一个待确定的问题。本文探讨了在玩基于位置的增强现实游戏时社交环境和社交互动焦点对用户的影响,并通过用户体验和社交接受度指标进行衡量。在不同的社会环境和不同的社交互动焦点设置下,以受试者内部的方式进行了实证研究,N = 28 名参与者在玩增强现实寻宝游戏后编制了自我报告的调查问卷。来自两种不同社会环境(拥挤与不拥挤)的测量结果与社会可接受性维度的指标产生了统计相关的平均差异。此外,分析显示不同程度的社交互动焦点与整体社会存在、感知的心理投入、感知的注意力投入和感知的情绪感染之间的差异具有统计相关性。结果表明,在不同的社交环境和设置中玩基于位置的 AR 游戏可以影响用户体验的社交维度。因此,在涉及玩家之间社交互动的公共空间中设计沉浸式技术体验时应该仔细考虑。

增强户外导航任务期间空间听觉导航对用户体验的影响

分类: 人机交互

作者: Jan-Niklas Voigt-Antons, Zhirou Sun, Maurizio Vergari, Navid Ashrafi, Francesco Vona, Tanja Kojic

发布时间: 2024-04-25

链接: http://arxiv.org/abs/2404.16473v1

摘要: 在导航方面,人类的听觉非常重要。当感兴趣的对象在视觉上被部分或完全覆盖时,这一点的重要性尤其高。与技术用户的交互主要集中在导航任务的视觉领域。本文介绍了文献综述和用户研究的结果,探讨了增强型户外导航任务期间空间听觉导航对用户体验的影响。在用户测试中,参与者使用增强现实应用程序引导他们到具有不同数字增强功能的不同位置。我们的结论是,听觉的利用在增强现实应用中仍然不足。未来,音频增强现实在导航等更多使用场景中将提升用户体验和交互质量。

一种基于NK布尔网络的协调集体行动的通信协议

分类: 社交和信息网络, 人机交互, 多代理系统, 系统与控制, 系统与控制

作者: Yori Ong

发布时间: 2024-04-24

链接: http://arxiv.org/abs/2404.16240v1

摘要: 在本文中,我描述了一种基于 Kauffman 的 NK 布尔网络的数字社交通信协议 (Gridt)。主要论点是,具有这种拓扑的通信网络支持集体行动的无限可扩展的自组织,而不需要层次结构或中央控制。本文介绍了该协议的功能,并证实了有关其功能和含义的以下命题:(1)通过 NK 布尔网络进行通信有助于对任意数量的用户进行集体动作游戏的协调,并证明了游戏的支付结构的假设是合理的。常识; (2) 使用该协议增加了用户的转移授权,这是一种内在动机,可以激励独立于任务或结果的协调行动; (3) 通过该网络进行的交流可以被视为“廉价谈话”,有利于利益一致的玩家的策略,但不利于利益冲突的玩家的策略; (4) 由于其实现不存在重大障碍,因此需要及时、持续地讨论该技术的伦理和影响; (5) 充分发挥该技术的潜力需要提供免费使用的服务,并具有最大程度的设计透明度和相关的经济激励措施。

MiMICRI:对心血管图像分类模型进行以领域为中心的反事实解释

分类: 人机交互, 计算机视觉和模式识别, 机器学习

作者: Grace Guo, Lifu Deng, Animesh Tandon, Alex Endert, Bum Chul Kwon

发布时间: 2024-04-24

链接: http://arxiv.org/abs/2404.16174v1

摘要: 最近,可公开访问的大型医学成像数据集的流行导致了用于心血管图像分类和分析的人工智能(AI)模型的激增。与此同时,这些模型的潜在重大影响推动了一系列可解释的人工智能(XAI)方法的开发,这些方法旨在解释给定特定图像输入的模型预测。然而,其中许多方法并不是由领域专家开发或评估的,并且解释也没有根据医学专业知识或领域知识来进行背景化。在本文中,我们提出了一个新颖的框架和 python 库 MiMICRI,它提供了心血管图像分类模型的以领域为中心的反事实解释。 MiMICRI 帮助用户交互式地选择和替换与形态结构相对应的医学图像片段。根据生成的反事实,用户可以评估每个细分对模型预测的影响,并根据已知的医学事实验证模型。我们与两位医学专家一起评估这个库。我们的评估表明,以领域为中心的 XAI 方法可以增强模型解释的可解释性,并帮助专家根据相关领域知识来推理模型。然而,人们也对所产生的反事实的临床合理性表示担忧。最后,我们讨论了 MiMICRI 框架的普遍性和可信性,以及我们的研究结果对开发以领域为中心的 XAI 方法以实现医疗保健环境中模型可解释性的影响。

印度 WhatsApp for Business 的情景基础设施

分类: 计算机与社会, 人机交互, K.4.4; K.4.2; K.4.3; H.5.2; H.4.3; J.4

作者: Ankolika De

发布时间: 2024-04-24

链接: http://arxiv.org/abs/2404.16124v1

摘要: WhatsApp 已成为印度重要的通讯工具,超越了文化界限,深入融入了国家的数字格局。 Meta 推出的 WhatsApp for Business 与该平台的受欢迎程度完美契合,为企业提供了一个重要的工具。然而,货币化计划在平衡收入目标和可访问性方面提出了挑战,特别是对于小型企业而言。这项研究采用话语分析,考察了 Meta 在印度的 WhatsApp 基础设施,强调技术、社会和文化维度的动态相互作用。因此,它强调了 WhatsApp for Business 的部署及其逐步但重大的修改所造成的潜在权力差异,鼓励学者研究快速技术变革的影响和道德,特别是对于边缘化用户而言。

3D 城市数据可视化分析的最新技术

分类: 人机交互, 计算机与社会, 图形

作者: Fabio Miranda, Thomas Ortner, Gustavo Moreira, Maryam Hosseini, Milena Vuckovic, Filip Biljecki, Claudio Silva, Marcos Lage, Nivan Ferreira

发布时间: 2024-04-24

链接: http://arxiv.org/abs/2404.15976v1

摘要: 城市化放大了城市环境中三维结构对各种现象的重要性,这些现象引起了不同利益相关者的极大兴趣。随着 3D 城市数据的可用性不断增加,许多研究都集中在开发适合城市环境独特特征的视觉分析技术。然而,将三维纳入可视化分析在设计有效的可视化工具来解决城市数据的多样化复杂性方面带来了额外的挑战。在本文中,我们提出了一项关于 3D 城市数据可视化分析的调查。我们的工作从三个主要维度(原因、内容和方式)描述已发表作品的特征,考虑用例、分析任务、数据、可视化和交互。我们对来自可视化期刊和会议以及无数城市领域(包括城市规划、建筑和工程)的已发表作品进行细粒度分类。通过结合城市和可视化专家的观点,我们确定文献差距,激励可视化研究人员了解挑战和机遇,并指出未来的研究方向。

增强声音:增强现实体验凸显南亚穆斯林侨民中性别暴力的社会不公正现象

分类: 人机交互, 新兴技术

作者: Hamida Khatri

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15239v1

摘要: 本文深入探讨了令人痛心的性别暴力(GBV)盛行及其根深蒂固的心理影响,特别是在生活在散居社区的南亚穆斯林妇女中。尽管性别暴力很严重,但这些女性在表达自己的经历和获得支持方面常常面临巨大的障碍。 “增强声音”作为一个技术灯塔出现,利用增强现实(AR)的潜力通过移动设备连接数字和物理领域,提高这些经常被沉默的声音的可见性。 “增强声音”的技术动机牢固地植根于 AR 和现实世界互动的融合,它提供了一个数字平台,在这个平台上讲故事充当催化剂,突出这些女性分享的经历。通过地理信息系统 (GIS) 地图将他们的叙述叠加到实际位置上,该应用程序在侨民中“增强了他们的声音”,提供了表达和团结的渠道。该项目目前正处于开发阶段,旨在将 GBV 受害者的故事提升到一个水平,让他们的挣扎不仅被听到,而且被感受到,在用户和叙述之间建立强大的联系。它旨在超越传统讲故事的局限性,创造一种“增强”的现实,让那些经常因社会限制而被压制的声音能够产生强烈的共鸣。该项目强调了应对性别暴力、促进社会转型并为边缘群体建立强大的支持网络的紧迫性。这是一个开创性的例子,说明技术如何成为争取社会正义和赋予被压迫者权力的强大盟友。此外,本文还深入研究了 AR 工作流程,说明了其对特定地点 AR 促进社会正义这一更广泛主题的相关性和贡献。

评估医生与人工智能在癌症管理中的互动:为精准肿瘤学铺平道路

分类: 人机交互

作者: Zeshan Hussain, Barbara D. Lam, Fernando A. Acosta-Perez, Irbaz Bin Riaz, Maia Jacobs, Andrew J. Yee, David Sontag

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15187v1

摘要: 我们评估了临床医生根据随机对照试验 (RCT) 和机器学习 (ML) 模型的结果如何进行临床决策。为此,我们设计了一个临床决策支持系统 (CDSS),该系统显示来自 12 名多发性骨髓瘤患者的综合 RCT 和 ML 模型的生存曲线和不良事件信息。我们在模拟环境中进行了一项干预研究,以评估临床医生如何综合可用数据来做出治疗决策。参与者被邀请参加后续采访,以开放式的形式讨论他们的选择。当 ML 模型结果与 RCT 结果一致时,与单独获得 RCT 结果相比,医生对治疗选择的信心会增加。当 ML 模型结果与 RCT 结果不一致时,大多数医生在选择治疗时遵循 ML 模型建议。在向医生提供有关机器学习模型如何训练和验证的数据后,机器学习模型的感知可靠性始终较高。后续访谈揭示了四个主要主题:(1) 参与者用于决策的变量的可变性,(2) 机器学习模型相对于 RCT 数据的感知优势,(3) 当机器学习模型质量较差时,决策的不确定性差;(4) 认为此类研究对于临床医生来说是一项重要的思维练习。总体而言,基于机器学习的 CDSS 有可能改变癌症管理中的治疗决策。然而,在部署之前需要对这些系统进行细致的开发和验证以及临床医生培训。

语音传递:用于评估跨性别语音转换的非二元语音性别预测系统

分类: 音频和语音处理, 人机交互, 机器学习, 声音

作者: David Doukhan, Simon Devauchelle, Lucile Girard-Monneron, Mía Chávez Ruz, V. Chaddouk, Isabelle Wagner, Albert Rilliard

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15176v1

摘要: 本文提出了一种软件,允许使用连续的声音女性百分比(VFP)来描述声音。该系统适用于跨性别说话者在语音转换过程中以及在此过程中为他们提供支持的语音治疗师。记录了 41 名法语顺性别者和跨性别者的语料库。 57 名参与者通过感知评估来估计每个声音的 VFP。二元性别分类模型在外部性别平衡数据上进行训练,并在重叠窗口上使用以获得平均性别预测估计值,该估计值经过校准以预测 VFP,并获得比 $F_0$ 或基于声带长度的模型更高的准确性。训练数据说话风格和 DNN 架构被证明会影响 VFP 估计。模型的准确性受到说话者年龄的影响。这凸显了风格、年龄和性别观念(无论是否二元)对于建立文化概念的充分统计表示的重要性。

迷失在数量级中:探索大值范围数据可视化的设计空间

分类: 人机交互

作者: Katerina Batziakoudi, Florent Cabric, Stéphanie Rey, Jean-Daniel Fekete

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15150v1

摘要: 我们探索具有多个数量级变化的定量属性的数据集静态可视化的设计空间(我们将这些属性称为数量级值(OMV)),并提供有关 OMV 有效视觉编码的设计指南和建议。当前的图表依赖线性或对数刻度来可视化值,导致 OMV 执行简单任务时受到限制。特别是,线性刻度无法读取较小的量值及其比较,而对数刻度则难以让公众理解。我们的设计空间利用了将 OMV 分为两个不同部分的方法:尾数和指数,类似于科学记数法。这种分离允许对两个部分进行视觉编码。在我们的探索中,我们使用四个数据集,每个数据集都有两个属性:一个 OMV,分为尾数和指数,第二个属性是名义、序数、时间或定量。我们从图形语法描述的原始设计空间开始,并使用不同的标记和视觉通道系统地为这些数据集生成所有可能的可视化效果。我们通过实施可视化和图形感知文献中的完整性约束来完善这个设计空间。通过对所有可行组合的定性评估,我们讨论了 OMV 最有效的可视化,重点关注渠道和任务有效性。文章的主要贡献是1)OMV设计空间的呈现,2)大量OMV可视化的生成,其中一些是新颖有效的,3)我们称之为E+M的尺度的细化定义针对 OMV,以及 4) 设计有效 OMV 可视化的指南和建议。这些努力旨在丰富可视化系统,以更好地支持 OMV 数据并指导未来的研究。

虚拟宇宙中的虚拟接管:用多层叙事质疑我们过去和未来的权力

分类: 人机交互

作者: Heather Snyder Quinn, Jessa Dickinson

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15108v1

摘要: Mariah 是一款增强现实 (AR) 移动应用程序,通过讲故事揭露权力结构(例如资本主义、父权制、白人至上)并庆祝反抗行为。人们可以利用玛丽亚“合法侵入”虚拟宇宙作为抗议的一种形式。 Mariah 通过叠加图像并播放有关经历过并抵制不公正的人们的故事,为用户的物理环境提供历史背景。我们分享 Mariah 的两个实现,它们提出了有关元宇宙中言论自由和财产权的问题:(1)抗议博物馆接受阿片类药物流行病的“脏钱”; (2) 纪念人们抵抗权力结构的场所。 Mariah 是一个案例研究,说明以未经批准的方式(即“黑客”)试验一项技术如何能够暴露该技术可能与现有权力结构互动并可能放大现有权力结构的方式。

MIMOSA:人类与人工智能在视频上共同创造计算空间音频效果

分类: 人机交互, 多媒体

作者: Zheng Ning, Zheng Zhang, Jerrick Ban, Kaiwen Jiang, Ruohong Gan, Yapeng Tian, Toby Jia-Jun Li

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15107v1

摘要: 空间音频为观众提供更加身临其境的视频消费体验;然而,创建和编辑空间音频通常成本高昂,并且需要专门的设备和技能,这对业余视频创作者构成了很高的障碍。我们推出了 MIMOSA,这是一种人类与人工智能共同创作的工具,使业余用户能够通过计算生成和操纵空间音频效果。对于仅包含单声道或立体声音频的视频,MIMOSA 自动将每个声源接地到视觉场景中相应的发声物体,使用户能够进一步验证和修复发声物体位置的错误。用户还可以通过灵活操纵声源位置并创造性地定制音频效果来增强空间音频效果。 MIMOSA 的设计体现了人机协作方法,该方法不使用最先进的端到端“黑盒”机器学习模型,而是使用多步骤管道,将其可解释的中间结果与用户的工作流程保持一致。一项由 15 名参与者参与的实验室用户研究展示了 MIMOSA 的可用性、实用性、表现力以及与用户协作创建沉浸式空间音频效果的能力。

地平论者和健身教练之间:谁在 YouTube 视频描述中引用科学出版物?

分类: 人机交互, 数字图书馆

作者: Olga Zagovora, Katrin Weller

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.15083v1

摘要: 在这项研究中,我们对 YouTube 频道进行了广泛的分析,这些频道在视频描述中引用了研究出版物,为数字媒体和学术界的交叉提供了独特的见解。我们的调查集中在三个主要方面:YouTube 频道所有者的背景、他们的主题重点以及他们的运营动态的性质,特别是他们是单独工作还是以小组形式工作。我们的结果凸显了对与科学和工程以及健康相关的内容的高度重视,特别是在由个人研究人员和学术机构管理的渠道中。然而,这些频道的受欢迎程度存在显着差异,专业 YouTuber 和商业媒体实体通常在点赞、评论和观看等观众参与度指标方面表现出色。这凸显了学术频道在吸引更广泛受众方面面临的挑战。此外,我们还探讨了 YouTube 上学术参与者的角色,仔细审查了他们在传播研究方面的影响以及他们引用的出版物类型。尽管普遍倾向于专业学术主题,但这些渠道在关注高被引研究方面表现出不同的有效性。通常,他们引用了各种各样的出版物,表明内容选择的方法多种多样,但不一定注重影响力。

超越边界的视觉:人机交互中特定领域大视觉模型的初始设计空间

分类: 人机交互, 机器人技术

作者: Yuchong Zhang, Yong Ma, Danica Kragic

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.14965v1

摘要: 大视觉模型(LVM)的出现是紧随大语言模型(LLM)在接下来几年的繁荣的脚步。然而,尽管有大量证据支持视觉模型在增强人机交互方面的功效,但将 LVM 应用于人机交互 (HRI) 的结构化研究仍存在明显差距。认识到巨大且可预期的潜力,我们引入了一个初始设计空间,其中包含特定于域的 LVM,之所以选择它们是因为它们比普通模型具有卓越的性能。我们深入研究三个主要维度:HRI 环境、基于视觉的任务和特定领域。 15 名专家针对 6 个评估指标进行了实证验证,展示了相关决策场景中的主要功效。我们探索构思过程和潜在的应用场景,将该设计空间设想为未来 HRI 系统设计的基本指南,强调准确的领域对齐和模型选择。

G3R:从 2D 视频生成丰富且细粒度的毫米波雷达数据以进行广义手势识别

分类: 多媒体, 计算机视觉和模式识别, 人机交互

作者: Kaikai Deng, Dong Zhao, Wenxin Zheng, Yue Ling, Kangwen Yin, Huadong Ma

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.14934v1

摘要: 毫米波雷达最近作为一种有前途的实现普遍且保护隐私的手势识别的方式而受到关注。然而,缺乏丰富且细粒度的雷达数据集阻碍了开发用于各种用户姿势(例如站立、坐着)、位置和场景的手势识别的通用深度学习模型的进展。为了解决这个问题,我们设计了一个软件管道,利用丰富的 2D 视频来生成真实的雷达数据,但它需要解决模拟用户手势的多样化和细粒度反射特性的挑战。为此,我们设计了具有三个关键组件的G3R:(i)手势反射点生成器扩展手臂的骨骼点以形成人体反射点; (ii)信号模拟模型模拟雷达信号的多径反射和衰减,输出人体强度图; (iii)编码器-解码器模型结合了采样模块和拟合模块,以解决生成的雷达数据和真实世界的雷达数据之间的点的数量和分布的差异,以生成真实的雷达数据。我们使用来自公共数据源的 2D 视频和自行收集的现实世界雷达数据来实现和评估 G3R,证明其相对于其他最先进的手势识别方法的优越性。

超越代码生成:ChatGPT 在软件工程实践中使用的观察研究

分类: 软件工程, 人工智能, 计算和语言, 人机交互, 机器学习

作者: Ranim Khojah, Mazen Mohamad, Philipp Leitner, Francisco Gomes de Oliveira Neto

发布时间: 2024-04-23

链接: http://arxiv.org/abs/2404.14901v1

摘要: 大型语言模型 (LLM) 在学术界和公众中经常被讨论为几乎任何依赖于文本生成的用例(包括软件工程)的支持工具。目前,关于基于 LLM 的工具(例如 ChatGPT)对于工业工程师的实际有用性,存在很多争论,但很少有实证证据。我们对 24 名在工作中使用 ChatGPT 的专业软件工程师进行了为期一周的观察性研究,并定性分析了他们与聊天机器人的对话以及他们的整体体验(通过退出调查获得)。我们发现,从业者并不期望 ChatGPT 生成现成的软件工件(例如代码),而是更经常使用 ChatGPT 来接收有关如何解决其任务或以更抽象的术语了解某个主题的指导。我们还提出了一个理论框架,说明(i)交互的目的,(ii)内部因素(例如用户的个性)和(iii)外部因素(例如公司政策)共同塑造体验(就感知而言)有用性和信任)。我们预计,我们的框架可以被未来的研究用来进一步促进软件工程从业者对LLM使用的学术讨论,并作为该领域未来LLM实证研究设计的参考点。

评估法律人工智能:通过开源解决方案弥合差距

分类: 人工智能, 人机交互

作者: Rohan Bhambhoria, Samuel Dahan, Jonathan Li, Xiaodan Zhu

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12349v1

摘要: 这项研究评估了 ChatGPT 等通用人工智能在法律问答任务中的表现,强调了法律专业人士和客户面临的重大风险。它建议利用由特定领域知识增强的基础模型来克服这些问题。该论文主张创建开源法律人工智能系统,以提高准确性、透明度和叙述多样性,解决一般人工智能在法律背景下的缺点。

用于共享自动电动交通系统综合参与规划的大型语言模型

分类: 计算工程、金融和科学, 人工智能, 计算机与社会, 人机交互, 多代理系统

作者: Jiangbo Yu

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12317v1

摘要: 在多利益相关者的环境中释放快速发展的移动技术的协同效应,为解决城市交通问题带来了独特的挑战和机遇。本文介绍了一种新颖的综合参与方法,批判性地利用大语言模型(LLM)来创建代表不同利益相关者的数字化身,以规划共享自动电动交通系统(SAEMS)。这些可校准代理协作确定目标、设想和评估 SAEMS 替代方案,并在风险和约束下制定实施策略。蒙特利尔案例研究的结果表明,与使用单个支持 LLM 的专家代理生成的结果相比,结构化和参数化的工作流程在 SAEMS 计划上提供的输出具有更高的可控性和全面性。因此,该方法为经济高效地提高多目标交通规划的包容性和可解释性提供了一条有前途的途径,表明我们如何设想和制定可持续和公平的交通系统战略的范式转变。

谁来验证验证者?使大语言模型辅助的大语言模型输出评估与人类偏好保持一致

分类: 人机交互, 人工智能

作者: Shreya Shankar, J. D. Zamfirescu-Pereira, Björn Hartmann, Aditya G. Parameswaran, Ian Arawjo

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12272v1

摘要: 由于人类评估的繁琐性和基于代码的评估的局限性,大型语言模型(LLM)越来越多地被用来帮助人类评估LLM输出。然而,大语言模型生成的评估者只是继承了他们评估的大语言模型的所有问题,需要进一步的人工验证。我们提出了一种混合主动方法来“验证验证器”——将 LLM 生成的评估函数(无论是提示还是代码)与人类需求保持一致。我们的界面 EvalGen 为用户生成评估标准和实施断言提供自动化帮助。在生成候选实现(Python 函数、LLM 评分器提示)时,EvalGen 要求人类对 LLM 输出的子集进行评分;该反馈用于选择更符合用户等级的实现。一项定性研究发现了对 EvalGen 的总体支持,但强调了调整的主观性和迭代过程。特别是,我们发现了一种称为 \emph{criteriadrift} 的现象:用户需要标准来对输出进行评分,但对输出进行评分可以帮助用户定义标准。更重要的是,一些标准似乎\emph{依赖}于观察到的特定LLM输出(而不是可以定义\emph{先验}的独立标准),这对假设评估独立于模型观察的方法提出了严重的问题输出。我们介绍了我们的界面和实现细节,我们的算法与基线方法的比较,以及对未来大语言模型评估助理设计的影响。

概念归纳:使用 LLooM 分析具有高级概念的非结构化文本

分类: 人机交互, 人工智能

作者: Michelle S. Lam, Janice Teoh, James Landay, Jeffrey Heer, Michael S. Bernstein

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12259v1

摘要: 数据分析师长期以来一直致力于将非结构化文本数据转化为有意义的概念。虽然很常见,但主题建模和聚类侧重于较低级别的关键字,并且需要大量的解释工作。我们引入概念归纳,这是一种计算过程,它从非结构化文本中产生由显式包含标准定义的高级概念。对于有毒在线评论数据集,其中最先进的 BERTopic 模型输出“女性、权力、女性”,概念归纳产生高级概念,例如“对传统性别角色的批评”和“消除女性的担忧” ”。我们提出了 LLooM,一种概念归纳算法,它利用大型语言模型迭代地合成采样文本,并提出人类可解释的、不断增强通用性的概念。然后,我们在混合主动文本分析工具中实例化 LLooM,使分析师能够将注意力从解释主题转移到参与理论驱动的分析。通过技术评估和从文献综述到内容审核的四种分析场景,我们发现LLooM的概念在质量和数据覆盖方面改进了主题模型的现有技术。在专家案例研究中,LLooM 帮助研究人员甚至从熟悉的数据集中发现新的见解,例如,通过在政治社交媒体数据集中提出一个以前未被注意到的攻击党外立场的概念。

电子投票你的良心:对强迫和买票的看法,以及在线投票中虚假凭证的可用性

分类: 人机交互, 密码学和安全

作者: Louis-Henri Merino, Alaleh Azhir, Haoqian Zhang, Simone Colombo, Bernhard Tellenbach, Vero Estrada-Galiñanes, Bryan Ford

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12075v1

摘要: 在线投票因其便利性和可访问性而具有吸引力,但比现场投票更容易受到选民胁迫和买票的影响。一种缓解措施是向选民提供虚假的投票凭证,让他们可以将其交给胁迫者。伪造的凭证看起来与真实的凭证相同,但所投的选票却被默默地从最终计票中忽略掉。一个重要的悬而未决的问题是普通选民如何看待这种缓解措施:他们是否能够理解和使用虚假凭证,以及强制风险是否证明缓解措施的成本是合理的。我们对这些问题进行了首次系统研究,涉及马萨诸塞州波士顿的 150 名不同个体。所有参与者都在模拟选举中“注册”并“投票”:120 名参与者通过虚假凭证面临强制抵抗,其余的形成对照组。在接触到虚假凭证的 120 名参与者中,96% 的人了解其用途。 53% 的人表示,如果有机会,他们会在现实世界的投票场景中创建虚假凭证。然而,有 10% 的人错误地使用伪造的凭证进行了投票。 22% 的人表示有亲身经历或直接了解胁迫或贿选事件。后者的参与者认为,抗强制系统本质上与通过手写纸质选票进行现场投票一样值得信赖。在使用该系统的 150 名参与者中,87% 的人在没有帮助的情况下成功创建了凭证; 83% 的人成功创建并正确使用了他们的凭证。参与者给出的系统可用性量表得分为 70.4,略高于行业平均得分 68。我们的研究结果似乎支持一般强制问题的重要性,以及使用虚假凭证作为可能的缓解措施的承诺,但用户错误率仍然是未来工作的一个重要的可用性挑战。

使用 Docker 和图形数据库的基于 Web 的 GIS 应用程序的灵活架构

分类: 人机交互

作者: Yves Annanias, Daniel Wiegreffe

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12074v1

摘要: 由于涉及大量不同的数据,区域规划流程和相关的重建项目可能会很复杂。然而,所有这些数据都有一个共同的地理参考,特别是在前露天矿区的恢复方面。为了确保安全,全面了解相关数据并得出准确的结论至关重要。这需要特殊的工具,并且可能是一个非常耗时的过程。地理信息系统 (GIS) 非常适合此目的,但即使是 GIS 在处理多种数据类型和来源时也存在局限性。通常需要额外的工具来处理和查看所有数据,这可能会使规划过程变得复杂。我们的论文描述了一种解决上述问题的系统架构,并为这些活动提供了一个简单而灵活的工具。该架构基于使用 Docker 的微服务,分为后端和前端。后端简化和概括了不同数据类型的集成,而图形数据库用于链接相关数据并揭示它们之间潜在的新关系。最后,现代网络前端显示数据和关系。

解构人类与人工智能的协作:代理、交互和适应

分类: 人机交互, 人工智能

作者: Steffen Holter, Mennatallah El-Assady

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.12056v1

摘要: 由于在大多数现实应用中完全基于人工智能的自动化仍然遥不可及,因此焦点已转移到利用人类和人工智能代理的优势,创建有效的协作系统。这一领域的快速发展产生了越来越复杂的系统和框架,而其特征的细微差别也变得更加模糊。同样,现有的概念模型不再捕获这些系统的复杂过程,也不再描述其协作范例的整个范围。在本文中,我们提出了一组新的统一维度来分析和描述人类人工智能系统。我们的概念模型围绕三个高级方面——代理、交互和适应——并通过多步骤过程开发。首先,通过调查文献并整合现有定义和概念框架,提出初步设计空间。其次,通过对该领域的九名研究人员进行半结构化访谈,对该模型进行了迭代完善和验证。最后,为了说明我们的设计空间的适用性,我们利用它来提供选定的人类人工智能系统的结构化描述。

AgentCoord:可视化探索基于 LLM 的多代理协作的协调策略

分类: 人机交互

作者: Bo Pan, Jiaying Lu, Ke Wang, Li Zheng, Zhen Wen, Yingchaojie Feng, Minfeng Zhu, Wei Chen

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.11943v1

摘要: 通过基于大语言模型(LLM)的多智能体协作自动解决任务的潜力最近引起了研究界和业界的广泛关注。虽然利用自然语言来协调多个代理为普通用户提供了一种民主化代理技术的有希望的途径,但设计协调策略对于现有的协调框架仍然具有挑战性。这一困难源于自然语言在指定协作过程方面固有的模糊性,以及在探索过程中从大量文本形式内容中提取关键信息(例如代理关系、任务依赖、结果对应)所需的大量认知努力。在这项工作中,我们提出了一个视觉探索框架,以促进多智能体协作中协调策略的设计。我们首先为基于 LLM 的多智能体协调策略建立结构化表示,以规范自然语言的歧义。基于这种结构,我们设计了一种三阶段生成方法,利用 LLM 将用户的总体目标转换为可执行的初始协调策略。用户可以在生成过程的任何阶段进一步干预,利用 LLM 和一组交互来探索替代策略。每当确定满意的策略时,用户就可以开始协作并检查视觉增强的执行结果。我们开发了 AgentCoord,一个原型交互系统,并进行了正式的用户研究,以证明我们的方法的可行性和有效性。

CelluloTactix:通过与 Cellulo 机器人的有形触觉交互增强协作在线学习

分类: 人机交互, 机器人技术

作者: Hasaru Kariyawasam, Wafa Johal

发布时间: 2024-04-18

链接: http://arxiv.org/abs/2404.11876v1

摘要: 在线学习在新冠肺炎 (COVID-19) 的教育领域中越来越受欢迎,并具有灵活性增强和远程培训资源获取的优势。然而,它也限制了同学和老师之间的交流,限制了身体互动,并将学习限制在电脑屏幕和键盘上。在这个项目中,我们设计了一种新颖的方式,通过使用支持触觉的有形机器人 Cellulo 来让学生参与在线协作学习。我们建立了一个库,可以远程连接两个机器人,以进行基于生物细胞结构的学习活动。为了发现不同的触觉反馈模式如何对协作产生不同的影响,实施了两种触觉力反馈模式(触觉共置和触觉共识)。通过案例研究,我们发现触觉共置模式似乎比触觉共识模式更能刺激集体主义行为,后者与个人主义和互动较少有关。虽然触觉共置模式似乎鼓励信息共享,但使用触觉共识模式的参与者往往更关注技术协调。这项工作介绍了一种新颖的系统,可以为如何将触觉反馈集成到未来的协作远程学习活动中提供有趣的见解。

发展与自动驾驶车辆联合行动的态势感知

分类: 人机交互, 人工智能, 机器人技术

作者: Robert Kaufman, David Kirsh, Nadir Weibel

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11800v1

摘要: 关于人机交互设计人员如何支持骑手的信息需求这一尚未解答的问题阻碍了自动驾驶汽车 (AV) 的采用。为了实现人类与自动驾驶汽车的联合行动目标,例如安全运输、信任或向自动驾驶汽车学习,人类、自动驾驶汽车和人类自动驾驶系统必须共同拥有足够的态势感知能力。我们提出了一个系统级框架,该框架集成了联合行动和态势感知的认知理论,作为定制满足目标成功所需标准的通信的手段。该框架基于共享情境的四个组成部分:自动驾驶特征、行动目标、特定主题特征和状态以及情境驾驶环境。视音频通信应根据这些因素进行定制,并在它们发生变化时保持敏感。该框架可用于理解个体、共享和分布式人类 AV 态势感知,并设计未来的 AV 通信,以满足不同群体和不同驾驶环境中的信息需求和目标。

建立 VR 中注视驱动的身份验证性能基线:对非常大的数据集进行广度优先研究

分类: 计算机视觉和模式识别, 人机交互

作者: Dillon Lohr, Michael J. Proulx, Oleg Komogortsev

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11798v1

摘要: 本文执行的关键工作是建立注视驱动的身份验证性能基线,以开始使用来自 9202 人的注视记录的大型数据集来回答基本研究问题,其眼动追踪 (ET) 信号质量水平相当于现代面向消费者的水平虚拟现实(VR)平台。所使用的数据集的大小至少比以前相关工作中的任何其他数据集大一个数量级。我们的模型需要对眼睛的光轴和视轴进行双眼估计以及注册和验证的最短持续时间,以在五万分之一的错误接受率 (FAR) 下实现低于 3% 的错误拒绝率 (FRR)。就识别准确度随画廊大小而降低而言,我们估计当画廊大小为 148,000 或更大时,我们的模型将低于机会级别准确度。我们的主要发现表明,在最先进的机器学习架构和足够大的训练数据集的驱动下,凝视身份验证可以达到 FIDO 标准要求的准确度。

模糊本体中结构化场景的增量引导和分类

分类: 人工智能, 人机交互, 计算机科学中的逻辑, 机器人技术, 68T40 (Primary) 68T30, 68T27, 68T37, 03B52 (Secondary), I.2.4; I.2.6; I.2.3; I.2.9; I.2.10

作者: Luca Buoncompagni, Fulvio Mastrogiovanni

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11744v1

摘要: 我们预见机器人会引导知识表示并使用它们对相关情况进行分类并根据未来的观察做出决策。特别是对于辅助机器人,引导机制可能由人类监督,他们不应该多次重复训练阶段,并且应该能够改进所教的表示。我们考虑引导结构化表示来对一些可理解的类别进行分类的机器人。这样的结构应该是增量引导的,即,当考虑新的附加类别时,不会使已识别的类别模型无效。为了解决这种情况,我们提出了场景识别和标记 (SIT) 算法,该算法在清晰的 OWL-DL 本体中引导结构化知识表示。随着时间的推移,SIT 会引导出一个表示场景、子场景和类似场景的图表。然后,SIT 可以通过基于逻辑的推理对引导图中的新场景进行分类。然而,SIT 在感知数据方面存在问题,因为其清晰的实现对于感知噪声并不鲁棒。本文提出了模糊域内 SIT 的重新表述,它利用模糊 DL 本体来克服鲁棒性问题。通过比较 SIT 的模糊和清晰实现的性能,我们表明模糊 SIT 是稳健的,保留了其清晰公式的属性,并增强了自举表示。相反,SIT 的模糊实现导致知识表示比在清晰域中引导的知识表示更难理解。

使用在线租户论坛上的生成人工智能评估租户与房东的紧张关系

分类: 人机交互, 计算机与社会

作者: Xin Chen, Cheng Ren, Tim A Thomas

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11681v1

摘要: 租客与房东的关系表现出权力不对称,房东以低成本驱逐租客的权力导致他们在这种关系中占据主导地位。因此,租户的担忧往往是不言而喻的、未解决的或被忽视的,随着被压抑的租户担忧的累积,这可能会导致公然的冲突。现代机器学习方法和大型语言模型(LLM)已经证明了执行语言任务的巨大能力。在本研究中,我们将潜在狄利克雷分配(LDA)与 GPT-4 结合起来,对从 subreddit r/Tenant 中抓取的 Reddit 帖子数据进行分类,旨在揭示租户关注的趋势,同时探索大语言模型和机器学习方法在社会科学研究中的采用。我们发现,在所分析的所有四个州中,租户对费用纠纷和公用事业问题等话题的担忧始终占主导地位,而每个州都有其他特殊的常见租户担忧。此外,我们发现租户担忧的时间趋势,对大流行和暂停驱逐的影响提供了重要影响。

移动设备上探索性数据可视化的交互技术

分类: 人机交互

作者: Luke S. Snyder, Ryan A. Rossi, Eunyee Koh, Jeffrey Heer, Jane Hoffswell

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11602v1

摘要: 移动设备的普遍性和移动可用性使其成为人际通信和媒体消费等许多任务的核心。然而,尽管移动设备具有按需探索性数据可视化的潜力,但现有的移动交互很困难,通常使用高度自定义的交互、复杂的手势或多模式输入。我们综合了文献中的局限性,并概述了改进移动交互的四个激励原则:利用普遍存在的模式、优先考虑可发现性、实现快速的上下文数据探索以及促进优雅的恢复。然后,我们贡献 13 名交互候选者,并与 12 名在测试台原型中体验过我们的交互的参与者进行形成性研究。基于这些采访,我们从四个主题讨论了设计考虑因素和权衡:精确和快速的检查、集中导航、单点触摸和固定方向交互以及明智地使用运动。

将隐私融入计算社会科学和人工智能研究

分类: 人工智能, 计算机与社会, 新兴技术, 人机交互

作者: Keenan Jones, Fatima Zahrah, Jason R. C. Nurse

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11515v1

摘要: 隐私是一项人权。它确保个人可以自由地参与讨论、参加团体以及在线或离线建立关系,而不必担心他们的数据被不当收集、分析或以其他方式用于伤害他们。保护隐私已成为研究中的一个关键因素,特别是在计算社会科学 (CSS)、人工智能 (AI) 和数据科学领域,因为这些领域依赖个人数据来获得新颖的见解。先进计算模型的日益使用势必会加剧隐私问题,因为如果使用不当,它们可能会迅速侵犯隐私权,并对个人(尤其是弱势群体)和社会造成不利影响。我们已经见证了随着 ChatGPT 等大型语言模型 (LLM) 的出现而出现的一系列隐私问题,这进一步证明了从一开始就嵌入隐私的重要性。本文通过讨论隐私的作用以及 CSS、人工智能、数据科学和相关领域的研究人员可能面临的主要问题,对该领域做出了贡献。然后,它为研究人员提供了几个关键考虑因素,以确保参与者的隐私在研究设计、数据收集和使用、分析以及研究结果传播中得到最好的保护。

社区主导的女权主义伦理框架

分类: 计算机与社会, 人机交互

作者: Ana O Henriques, Hugo Nicolau, Kyle Montague

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11514v1

摘要: 本文介绍了女权主义数字公民和社区主导设计背景下的伦理关系视角。人机交互中的伦理工作主要关注规定的机器伦理和生物伦理原则,而不是人。作为回应,我们提倡采用社区主导的、过程性的道德方法,承认权力动态和当地情况。因此,我们提出了人机交互设计中的多维适应性伦理模型,整合了交叉女权主义伦理视角。这个框架包含了女权主义认识论、方法和方法论,促进了反思性实践。通过将情境知识、立场理论、交叉性、参与方法和护理伦理编织在一起,我们的方法为人机交互中的伦理提供了整体基础,旨在推进社区主导的实践并丰富该领域内围绕伦理的讨论。

设计车载信息娱乐系统的触摸屏菜单界面:深度和广度权衡以及任务类型对视觉手动分心的影响

分类: 人机交互

作者: Louveton Nicolas, McCall Rod, Engel Thomas

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11469v1

摘要: 众所周知,驾驶时使用触摸屏用户界面进行多任务处理会对驾驶性能和安全产生负面影响。文献表明,列表滚动界面比结构化菜单和顺序导航会产生更多的视觉手动干扰。已经研究了结构化导航的深度和广度权衡。然而,人们对次要任务特征如何与这些权衡相互作用知之甚少。在这项研究中,我们假设菜单的深度和任务复杂性相互作用,产生视觉手动干扰。使用驾驶模拟设置,我们收集遥测和眼动追踪数据来评估驾驶表现。参与者使用移动应用程序进行多任务处理,在三种类型的次要任务下呈现一系列八种深度和广度的权衡,涉及不同的认知操作(系统阅读、搜索项目、记住项目的状态)。结果证实了我们的假设。与菜单项的系统交互产生了视觉需求,该视觉需求随着菜单的深度而增加,而视觉需求在搜索和记忆任务中达到最佳状态。我们讨论对设计的影响:在多任务环境中,必须评估显示设计的有效性,同时考虑菜单的布局以及所涉及的认知过程。

使用游戏引擎和机器学习为桌面验证练习创建合成卫星图像

分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者: Johannes Hoster, Sara Al-Sayed, Felix Biessmann, Alexander Glaser, Kristian Hildebrand, Igor Moric, Tuong Vy Nguyen

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11461v1

摘要: 卫星图像被认为是对公民感兴趣的活动进行监测的绝佳机会。然而,相关图像可能无法以足够高的分辨率、质量或节奏获得——更不用说开源分析师可以统一访问了。这限制了利用公开卫星图像对基于公民的核活动监测的真正长期潜力进行评估。在本文中,我们演示了如何使用现代游戏引擎与先进的机器学习技术相结合来生成感兴趣地点的合成图像,并能够根据请求选择相关参数;其中包括一天中的时间、云量、季节或现场活动水平。同时,可以调整分辨率和偏离天底角,以模拟卫星的不同特性。虽然合成图像有多种可能的用例,但在这里我们重点关注其在支持桌面练习方面的有用性,在桌面练习中可以检查简单的监控场景,以更好地了解新卫星星座和极短重访时间所带来的验证功能。

对与 AI 界面中的设计模式交互造成的危害进行表征和建模

分类: 人机交互, 人工智能, 计算机与社会

作者: Lujain Ibrahim, Luc Rocher, Ana Valdivia

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11370v1

摘要: 使用人工智能 (AI) 系统的应用程序激增,导致越来越多的用户通过复杂的界面与这些系统进行交互。人机交互研究长期以来表明,界面塑造了用户行为以及用户对技术能力和风险的感知。然而,评估人工智能系统的社会和道德风险的从业者和研究人员往往忽视拟人化、欺骗性和沉浸式界面对人机交互的影响。在这里,我们认为,自适应人工智能系统界面的设计特征可能会在反馈循环的驱动下产生级联影响,其范围超出了之前考虑的范围。我们首先对人工智能界面设计及其负面影响进行范围审查,以提取人工智能界面中潜在有害设计模式的显着主题。然后,我们提出了人工智能系统的设计增强控制(DECAI),这是一种概念模型,用于构建和促进人工智能界面设计的影响评估。 DECAI 利用控制系统理论(动态物理系统分析和设计的理论)的原理来剖析人机交互系统中界面的作用。通过推荐系统和会话语言模型系统的两个案例研究,我们展示了如何使用 DECAI 来评估 AI 界面设计。

AR 应对性暴力:在增强同理心的同时保持道德平衡

分类: 人机交互

作者: Chunwei Lin

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11305v1

摘要: 这项研究展示了增强现实 (AR) 体验,旨在促进台湾的性别正义并提高对性暴力的认识。该项目利用AR技术,克服了线下展览对社会问题的限制,激发公众的参与度,增强他们对话题的深入研究意愿。讨论探讨了直接接触性暴力如何引起用户的负面情绪和继发性创伤。它还提出了使用 AR 来缓解此类问题的策略,特别是避免模拟实际事件。

“这就是我们的游戏!” :对与神经多样性儿童共同设计机器人游戏的思考

分类: 人机交互

作者: Patricia Piedade, Isabel Neto, Ana Pires, Rui Prada, Hugo Nicolau

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11252v1

摘要: 许多神经分歧(ND)儿童与神经典型(NT)同龄人一起融入主流学校。然而,他们经常面临社会排斥,这可能会产生终生影响。包容性的游戏活动可以成为包容性的强大驱动力。不幸的是,针对神经多样化群体(包括神经多样化和神经典型个体)的特定需求而设计的游戏很少。考虑到机器人作为引人入胜的设备的潜力,我们领导了为期 6 个月的共同设计过程,为神经多元化的教室构建了一款包容性和娱乐性的机器人游戏。我们首先采访了神经分歧的成年人和教育工作者,以确定将神经分歧的儿童纳入主流课堂的障碍和促进因素。然后,我们进行了五次联合设计会议,让四个神经多样化的教室有 81 名儿童(其中 19 名是神经多样化的)。我们通过自我决定理论的视角反思了我们的协同设计过程和由此产生的机器人游戏,讨论了我们的方法如何支持神经分歧儿童的内在动机。

与混合能力儿童群体一起工作时的道德问题

分类: 人机交互

作者: Patricia Piedade, Ana Henriques, Filipa Rocha, Isabel Neto, Hugo Nicolau

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11248v1

摘要: 无障碍研究已获得关注,但在包容残疾人(尤其是儿童)方面仍然存在道德差距。包容性研究实践对于确​​保研究和设计解决方案满足所有人的需求(无论其能力如何)至关重要。在人机交互和人机交互中与残疾儿童一起工作提出了一系列独特的道德困境。这些年轻的参与者通常需要额外的照顾、支持和住宿,这可能会减少研究人员的资源或专业知识。缺乏应对这些挑战的明确指导进一步加剧了问题。为了提供基础并解决这个问题,我们采用批判性反思方法,通过分析 HCI/HRI 研究中涉及残疾儿童的两个案例研究来评估我们的影响。

PartiPlay:神经多元化课堂的参与式游戏设计套件

分类: 人机交互

作者: Patricia Piedade, Isabel Neto, Ana Pires, Rui Prada, Hugo Nicolau

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11234v1

摘要: 游戏是儿童发展的一个核心方面,游戏是促进儿童发展的重要工具。然而,神经多样化的儿童,特别是那些处于神经多样化环境中的儿童,却没有得到人机交互游戏研究的充分服务。大多数现有工作都采用自上而下的方法,忽略了大多数设计过程中神经分歧的兴趣。协同设计通常被认为是创造真正易于访问和包容的游戏体验的工具。然而,与神经多样化群体中的神经多样化儿童共同设计会带来独特的挑战,例如不同的沟通方式、感官需求和偏好。基于先前在神经多样性、混合能力和儿童主导的协同设计方面的工作的建议,我们提出了一种适用于神经多样性课堂的具体参与式游戏设计套件:PartiPlay。此外,我们还展示了该套件的野外实验的初步结果,展示了其为神经多样性儿童群体创建包容性协同设计流程的能力。我们的目标是为未来针对神经多样性儿童的参与式设计研究提供可行的步骤。

用人工智能解锁记忆:探索人工智能生成的线索在个人回忆中的作用

分类: 人机交互

作者: Jun Li Jeung, Janet Yi-Ching Huang

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11227v1

摘要: 虽然以技术为媒介的回忆已经被研究了几十年,但生成相关线索来触发个人回忆仍然具有挑战性。人工智能在跨领域生成相关内容的潜力最近已得到认识,但其在促进回忆方面的应用仍然较少被探索。这项工作旨在探索人工智能的用途,以支持回忆与家中重要物体相关的个人记忆。我们设计了 Treasurefinder,这是一种由大型语言模型 (LLM) 提供支持的设备,可根据 NFC 标记的物理对象或卡片中存储的故事生成开放式问题。我们对 12 名参与者进行了一项探索性研究,两人一组,观察使用 Treasurefinder 时的回忆行为。结果显示,人工智能生成的问题 1)支持个人回忆过去,2)提供有关他人的新见解,3)鼓励反思。值得注意的是,该设备促进了与经常被忽视的珍贵物品相关的主动记忆检索。

[DC] bRight XR:如何训练设计师保持光明的一面?

分类: 新兴技术, 人机交互

作者: Romain Rouyer, David Bourguignon, Stéphanie Fleck

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11142v1

摘要: 该研究项目旨在通过提供自我评估工具来促进从事自适应 XR 的设计师的道德原则。我们引入基于设计的研究(DBR)方法来构建 bRight-XR,这是一个包含启发式评估矩阵并基于学习理论的框架。

你需要 DAO 吗?

分类: 人机交互, C.2.4; H.5.3; K.4.3

作者: Henrik Axelsen, Johannes Rude Jensen, Omri Ross

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11076v1

摘要: 由于具有重新定义组织结构和治理的潜力,去中心化自治组织 (DAO) 的增长和兴趣呈指数级增长。尽管如此,自治和去中心化的理想与 DAO 利益相关者的实际体验之间仍然存在差异。信息系统 (IS) 文献尚未充分探讨 DAO 是否是最佳组织选择。为了解决这一差距,我们的研究提出了这样的问题:“DAO 适合您的组织需求吗?”我们通过对 DAO 的学术和灰色文献进行专题回顾,得出了一个封闭的决策框架。通过五个场景,该框架批判性地强调了 DAO 的理论能力与实际挑战之间的差距。我们的研究结果有助于 IS 关于区块链技术的讨论,并对组织管理和从业者文献的 IS 文献做出了一些辅助贡献。

大型语言模型满足用户界面:提供反馈的案例

分类: 人机交互, 人工智能

作者: Stanislav Pozdniakov, Jonathan Brazil, Solmaz Abdi, Aneesha Bakharia, Shazia Sadiq, Dragan Gasevic, Paul Denny, Hassan Khosravi

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11072v1

摘要: 将生成式人工智能(GenAI)和大型语言模型(LLM)融入教育中可以提高教学效率并丰富学生的学习。目前大语言模型的使用涉及会话用户界面(CUI),用于生成材料或提供反馈等任务。然而,这带来了挑战,包括需要人工智能和 CUI 方面的教育者专业知识、高风险决策的道德问题以及隐私风险。 CUI 还难以应对复杂的任务。为了解决这些问题,我们建议从 CUI 过渡到通过 API 调用利用 LLM 的用户友好型应用程序。我们提出了一个将 GenAI 合乎道德地纳入教育工具的框架,并在我们的工具 Feedback Copilot 中展示了其应用,该工具为学生作业提供个性化反馈。我们的评估显示了这种方法的有效性,对 GenAI 研究人员、教育工作者和技术人员具有重要意义。这项工作为 GenAI 在教育领域的未来指明了方向。

推进人工智能代理的社交智能:技术挑战和悬而未决的问题

分类: 人机交互, 计算和语言, 机器学习

作者: Leena Mathur, Paul Pu Liang, Louis-Philippe Morency

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.11023v1

摘要: 构建社交智能 AI 代理 (Social-AI) 是一个多学科、多模式的研究目标,涉及创建能够感知、感知、推理、学习和响应其他代理(人类或人工)的情感、行为和认知的代理。 )。过去十年来,多个计算社区的社交人工智能进展加速,包括自然语言处理、机器学习、机器人、人机交互、计算机视觉和语音。自然语言处理在社交人工智能研究中尤其突出,因为语言在构建社交世界中发挥着关键作用。在这篇立场文件中,我们为整个计算社区的研究人员确定了一系列潜在的技术挑战和开放问题,以推动社交人工智能的发展。我们的讨论以社交智能概念和社交人工智能研究的先前进展为背景。

使用激光雷达技术进行远程呼吸监测

分类: 图像和视频处理, 人机交互, 信号处理

作者: Omar Rinchi, Ahmad Alsharoa, Denise A. Baker

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.10970v1

摘要: 呼吸监测对于医疗保健中早期发现健康问题至关重要,但传统方法面临侵入性、隐私问题和日常环境中适用性有限等挑战。本文介绍了光检测和测距 (LiDAR) 传感器作为一种远程、尊重隐私的替代方案,用于监测呼吸指标,包括吸气/呼气模式、呼吸频率、呼吸深度和检测呼吸困难。我们强调激光雷达在各种姿势下发挥作用的能力,并提供其准确性和可靠性的经验证据。我们的研究结果使激光雷达成为呼吸监测的创新解决方案,与传统方法相比具有显着优势。

修补还是转移?可视化教学中两种技术的故事

分类: 人机交互

作者: Adam Hyland, Murtaza Ali

发布时间: 2024-04-17

链接: http://arxiv.org/abs/2404.10967v1

摘要: 在教育领域,两种学习模式之间存在着紧张关系:传统的基于讲座的教学和更多基于修补的创造性学习。在本文中,我们概述了两位博士的努力。学生(精通可视化,但重要的是不是经过专业培训的可视化专家)在我们本部的信息可视化课程中实施创造性学习活动。我们描述了我们这样做的动机,以及如何将出于必要而开始的事情转变为我们坚信其实用性的努力。在实施这些活动时,我们收到了学生的大部分积极评价,以及帮助我​​们迭代改进活动的建设性反馈。最后,我们还详细介绍了我们未来的计划,将这项工作转变为与学生一起进行正式的设计探究,以建立一个完全以创意学习为中心的新课程。

工程系统的人算法协同贝叶斯优化

分类: 人机交互, 机器学习

作者: Tom Savage, Ehecatl Antonio del Rio Chanona

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10949v1

摘要: 贝叶斯优化已成功应用于整个化学工程领域,用于优化评估成本高昂或梯度不易获得的函数。然而,领域专家通常拥有宝贵的物理见解,而这些见解在全自动决策方法中被忽视,因此需要包含人工输入。在本文中,我们通过概述协作贝叶斯优化方法,将人类重新引入数据驱动的决策循环。我们的方法利用了这样的假设:人类在做出离散选择而不是连续选择方面更有效,并使专家能够影响关键的早期决策。我们应用高通量(批量)贝叶斯优化以及离散决策理论,使领域专家能够影响实验的选择。在每次迭代中,我们都应用多目标方法,产生一组既具有高实用性又相当独特的替代解决方案。然后,专家从该集合中选择所需的评估解决方案,从而允许包含专家知识并提高问责制,同时保持贝叶斯优化的优势。我们在许多应用和数值案例研究中展示了我们的方法,包括生物过程优化和反应器几何设计,证明即使在不知情的从业者的情况下,我们的算法也能弥补标准贝叶斯优化的遗憾。通过不断纳入专家意见,我们的方法可以实现更快的收敛,并改进工程系统中贝叶斯优化的责任。

迈向可解释强化学习的研究社区:InterpPol 研讨会

分类: 人工智能, 人机交互, 机器学习, 符号计算

作者: Hector Kohler, Quentin Delfosse, Paul Festor, Philippe Preux

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10906v1

摘要: 追求本质上可解释的强化学习提出了关键问题:可解释性与可解释性有何区别?是否应该在必须透明的领域之外开发可解释和可解释的代理?与神经网络相比,可解释策略具有哪些优势?在没有用户研究的情况下,我们如何严格定义和衡量政策的可解释性?什么强化学习范式最适合开发可解释代理?马尔可夫决策过程可以集成可解释的状态表示吗?除了激励围绕上述问题的可解释强化学习社区之外,我们还提出了第一个专门用于可解释强化学习的场所:InterpPol 研讨会。

探索基于人工智能的合成角色的增强和认知策略

分类: 人工智能, 人机交互, 信息检索, I.2.7

作者: Rafael Arias Gonzalez, Steve DiPaola

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10890v1

摘要: 大型语言模型 (LLM) 具有创新 HCI 研究的潜力,包括创建合成角色。然而,它们的黑匣子性质和产生幻觉的倾向带来了挑战。为了解决这些限制,本立场文件主张使用大语言模型作为数据增强系统而不是零样本生成器。我们进一步建议开发强大的认知和记忆框架来指导大语言模型的反应。初步探索表明,数据丰富、情景记忆和自我反思技术可以提高合成角色的可靠性,并为人机交互研究开辟新途径。

数字孪生本体 Gemini 原则的系统调查

分类: 新兴技术, 计算机与社会, 人机交互, 系统与控制, 系统与控制

作者: James Michael Tooth, Nilufer Tuptuk, Jeremy Daniel McKendrick Watson

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10754v1

摘要: 本体被广泛用于实现可互操作的数字孪生 (DTws),但相互竞争的 DTw 定义却加剧了互操作性问题。通过本体论和认知数字双胞胎(CDTws)在语义上链接这些不同的双胞胎是可行的。然而,本体的使用如何促进更广泛的 DTw 进步通常不清楚。本文提出了遵循 PRISMA 方法的系统调查,以探索本体支持 DTw 以满足英国数字化建设中心的双子座原则的潜力,并旨在将本体的进展与该框架联系起来。 Gemini 原则侧重于常见的 DTw 要求,考虑到: 1) 公共利益、2) 价值创造和 3) 洞察力的目的;具有足够的4)安全性、5)开放性和6)质量的可信度;以及 7) 联合、8) 管理和 9) 进化的适当功能。这篇系统的文献综述探讨了本体论在促进每项原则中的作用。现有研究使用本体来解决这些原则内的 DTw 挑战,特别是通过连接 DTw、优化决策和推理治理政策。此外,分析文献的部门分布发现,涵盖本体论、DTws 和双子座原则交叉的研究正在兴起,并且大多数创新主要集中在制造和建筑环境领域。随后确定了研究人员、行业从业者和政策制定者的关键差距。

引导线性模型以实现人机协作中的快速在线适应

分类: 人工智能, 人机交互, 机器人技术

作者: Benjamin A Newman, Chris Paxton, Kris Kitani, Henny Admoni

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10733v1

摘要: 为人们提供帮助的代理需要制定良好的初始化策略,以便能够快速适应其合作伙伴的奖励功能。初始化策略以最大限度地提高与未知合作伙伴的性能可以通过在大型离线数据集上使用模仿学习来引导非线性模型来实现。此类策略可能需要大量计算才能进行原位微调,因此可能会错过有关合作伙伴奖励函数(通过其直接行为表达)的关键运行时信息。相比之下,使用低容量模型的在线逻辑回归可以执行快速推理和微调更新,因此可以有效利用即时任务内行为来进行奖励函数对齐。然而,这些低容量模型无法通过离线数据集有效地引导,因此初始化效果很差。我们提出了 BLR-HAC(用于人类代理协作的引导逻辑回归),它引导大型非线性模型来学习低容量模型的参数,然后在协作期间使用在线逻辑回归进行更新。我们在模拟表面重排任务中测试了 BLR-HAC,并证明它比浅层方法实现了更高的零射击精度,并且在线适应所需的计算量少得多,同时仍然实现与微调的大型非线性模型相似的性能。有关代码,请参阅我们的项目页面 https://sites.google.com/view/blr-hac。

注意力感知可视化:随着时间的推移跟踪和响应用户感知

分类: 人机交互

作者: Arvind Srinivasan, Johannes Ellemose, Peter W. S. Butcher, Panagiotis D. Ritsos, Niklas Elmqvist

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10732v1

摘要: 我们提出了注意力感知可视化(AAV)的概念,它随着时间的推移跟踪用户对视觉表示的感知,并将这些信息反馈给可视化。这种上下文感知对于无处不在的沉浸式分析特别有用,其中了解用户正在查看哪些嵌入式可视化可用于使可视化对用户的注意力做出适当的反应:例如,通过突出显示用户尚未看到的数据。我们可以将该方法分为三个部分:(1)测量用户对可视化及其部分的注视; (2) 随着时间的推移跟踪用户的注意力; (3)基于当前注意力度量反应性地修改视觉表示。在本文中,我们提出了两种独立的 AAV 实现:一种用于基于 Web 的可视化的 2D 数据无关方法,可以使用具体的眼球追踪器来捕获用户的注视;另一种是 3D 数据感知方法,该方法使用模板缓冲区来跟踪用户的视线。可视化中每个单独标记的可见性。两种方法都提供了类似的机制,用于随着时间的推移积累注意力并改变响应标记的外观。我们还展示了研究视觉反馈和捕获和重新视觉化注意力的触发机制的定性评估结果。

围绕阿拉伯之春的不同集体记忆的跨语言演变

分类: 计算机与社会, 计算和语言, 人机交互, 社交和信息网络

作者: H. Laurie Jones, Brian C. Keegan

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10706v1

摘要: 阿拉伯之春是 2011 年开始的一系列历史性抗议活动,推翻了政府并导致了重大冲突。由于政治、文化和语言因素的影响,对此类事件的集体记忆在不同的社会背景下可能会有很大差异。虽然维基百科在记录历史和时事方面发挥着重要作用,但很少有人关注在重大事件发生后创建的维基百科文章如何在数年或数十年中继续发展。利用 2011 年至 2024 年间阿拉伯语和英语维基百科上阿拉伯之春相关主题的存档内容,我们定义和评估了围绕阿拉伯之春的事件显着性、审议、情境化和集体记忆巩固的多语言衡量标准。我们关于维基百科文章跨语言内容相似性的时间演变的发现对于在线集体记忆过程的理论化和评估基于这些数据训练的语言模型具有重要意义。

MathWriting:手写数学表达式识别的数据集

分类: 计算机视觉和模式识别, 人机交互, 机器学习

作者: Philippe Gervais, Asya Fadeeva, Andrii Maksai

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10690v1

摘要: 我们推出 MathWriting,这是迄今为止最大的在线手写数学表达式数据集。它由 23 万个人工编写的样本和另外 40 万个合成样本组成。 MathWriting 还可用于离线 HME 识别,并且比所有现有的离线 HME 数据集(如 IM2LATEX-100K)更大。我们引入了基于 MathWriting 数据的基准,以推进在线和离线 HME 识别的研究。

PD-Insighter:监控帕金森病治疗日常行为的可视化分析系统

分类: 人机交互

作者: Jade Kandel, Chelsea Duppen, Qian Zhang, Howard Jiang, Angelos Angelopoulos, Ashley Neall, Pranav Wagh, Daniel Szafir, Henry Fuchs, Michael Lewek, Danielle Albers Szafir

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10661v1

摘要: 帕金森病 (PD) 患者可以通过物理治疗减缓症状的进展。然而,临床医生缺乏对患者日常生活运动功能的了解,导致他们无法根据患者的需求制定治疗方案。本文介绍了 PD-Insighter,这是一个用于综合分析人的日常运动以供临床审查和决策的系统。 PD-Insighter 提供了一个概览仪表板,用于发现运动模式并识别日常生活活动中的关键缺陷,并提供沉浸式重播,用于根据环境背景仔细研究患者的身体运动。我们与临床医生协商使用迭代设计研究方法开发,我们发现 PD-Insighter 能够汇总和显示有关时间、行为和当地环境的数据,使临床医生能够评估一个人在诊所外日常生活中的整体功能。 PD-Insighter 的设计为未来的广义多视角身体运动分析提供了指导,这可能会显着改善临床决策并减缓 PD 和其他医疗状况的功能衰退。

探索严肃的游戏设计格局:综合参考文档

分类: 人机交互

作者: Julieana Moon, Naimul Khan

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10649v1

摘要: 在不断发展的数字干预领域,严肃的游戏成为基于证据的干预的有前途的工具。研究表明,游戏化疗法,无论是独立使用还是与在线心理教育或传统项目结合使用,都被证明在为患者提供护理方面更有效。当我们探索严肃游戏设计的复杂领域时,弥合治疗方法和创意设计之间的差距被证明是复杂的。临床和研究领域的专业人士表现出创新思维,但由于缺乏专业的设计技能和知识,在执行有吸引力的治疗性严肃游戏时面临挑战。因此,一个更大的问题仍然存在:我们如何帮助和教育临床和研究专业人士游戏设计的重要性以支持他们的创新治疗方法?这项研究探讨了旨在促进将游戏化设计原则整合到临床研究方案中的潜在解决方案,这是在追求创新干预措施时将治疗实践与引人入胜的叙述相结合的关键方面。我们提出了两种解决方案,即严肃游戏的流程图框架或包含游戏化设计原则和最佳设计实践指南的综合参考文档。通过对文献综述的检查,我们发现不同研究中选定的设计决策有所不同。因此,我们建议第二种解决方案,即综合参考设计指南,更加通用且适应性更强。

通过与社交机器人在线互动进行儿童幸福感评估的纵向研究

分类: 人机交互, 机器人技术

作者: Nida Itrat Abbasi, Guy Laban, Tasmin Ford, Peter B. Jones, Hatice Gunes

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10593v1

摘要: 社交辅助机器人在不同的儿童机器人交互环境中进行研究。然而,后勤方面的限制限制了可及性,特别是影响了对心理健康的及时支持。在这项工作中,我们研究了与机器人的在线互动是否可以用于评估儿童的心理健康。这些孩子(N=40,其中 20 名女孩和 20 名男孩;8-13 岁)与 Nao 机器人进行了三轮互动(30-45 分钟),间隔至少一周。在整个课程中收集了视听记录,最后孩子们回答了有关他们对机器人的焦虑和机器人能力的用户感知调查问卷。我们根据参与者对短期情绪和情感问卷 (SMFQ) 的回答,将他们分为三个幸福感集群(低、中和高三分位数),并进一步分析了他们的幸福感和对机器人的看法在幸福感三分位数、会话和时间之间的变化。跨越参与者的性别。我们的主要研究结果表明,(I)与机器人的在线介导互动可以有效地评估儿童随着时间的推移的心理健康状况,以及(II)儿童对机器人的整体感知随着时间的推移而改善或保持一致。补充探索性分析还显示,性别影响了孩子们的幸福感评估以及他们对机器人的看法。

从人类主导的演示中学习符号任务表示:存储、检索、巩固和忘记经验的记忆

分类: 机器人技术, 人工智能, 人机交互, 计算机科学中的逻辑, 68T40 (Primary) 68T20, 68T27, 68T30, 68T37, 05C72, 68Q32 (Secondary), I.2.4; I.2.6; E.1

作者: Luca Buoncompagni, Fulvio Mastrogiovanni

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10591v1

摘要: 我们提出了一个受类认知记忆功能(即存储、检索、巩固和遗忘)启发的符号学习框架,以生成任务表示来支持高级任务规划和知识引导。我们解决了一个场景,涉及一个执行单个任务演示的非专家和一个机器人,该机器人在线学习结构化知识以根据经验(即观察)重新执行任务。我们考虑基于非注释数据的一次性学习过程来存储任务的可理解表示,可以通过交互(例如通过口头或视觉交流)进行细化。我们的通用框架依赖于模糊描述逻辑,该逻辑已用于扩展先前开发的场景识别和标记算法。在本文中,我们利用这样的算法来实现类似认知的记忆功能,利用分数根据简单的启发式对一段时间内记忆的观察结果进行排名。我们的主要贡献是一个框架的形式化,该框架可用于系统地研究不同的启发式方法,以基于机器人观察引导分层知识表示。通过一个说明性的组装任务场景,本文介绍了我们框架的性能,并讨论了其优点和局限性。

学习的演变:评估生成式人工智能对高等教育的变革性影响

分类: 人工智能, 新兴技术, 人机交互

作者: Stefanie Krause, Bhumi Hitesh Panchal, Nikhil Ubhe

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10551v1

摘要: ChatGPT 等生成人工智能 (GAI) 模型的受欢迎程度激增,在 2 个月内吸引了 1 亿活跃用户,每天产生约 1000 万次查询。尽管采用率很高,但人们对这种创新技术对高等教育的影响程度仍知之甚少。本研究论文调查了 GAI 对大学生和高等教育机构 (HEIs) 的影响。该研究采用混合方法,将综合调查与情景分析相结合,探讨新技术带来的潜在好处、缺点和变革。通过对 130 名参与者进行的在线调查,我们评估了学生对目前学术界使用 ChatGPT 的看法和态度。结果表明,学生们使用当前的技术来完成作业写作和考试准备等任务,并相信它可以有效帮助实现学术目标。随后的情景分析预测了未来的潜在情景,为将 GAI 纳入高等教育相关的可能性和挑战提供了宝贵的见解。主要动机是对高等教育机构的潜在后果有切实而准确的了解,并为应对不断变化的学习环境提供指导。研究结果表明,不负责任和过度使用该技术可能会带来重大挑战。因此,高等教育机构必须制定严格的政策,重新评估学习目标,提高讲师的技能,调整课程并重新考虑考试方法。

BDAN:通过生成桥接域减轻跨对象运动想象分类中电极之间的时间差异

分类: 人机交互, 机器学习

作者: Zhige Chen, Rui Yang, Mengjie Huang, Chengxuan Qin, Zidong Wang

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10494v1

摘要: 由于“实验设置和条件的不可重复性”以及“受试者之间大脑模式的可变性”,在跨受试者运动想象(MI)研究中,跨会话和电极的数据分布是不同的,最终降低了分类模型。本文在系统总结现有研究的基础上,研究了受试者内和受试者间场景下的一种新颖的时间电极数据分布问题。基于所提出的问题,提出了一种新颖的桥接域适应网络(BDAN),旨在最小化电极方面跨会话的数据分布差异,从而改善和增强模型性能。在所提出的 BDAN 中,所有 EEG 数据的深层特征都是通过专门设计的空间特征提取器提取的。利用获得的时空特征,建立了一个特殊的生成桥接域,跨会话桥接来自所有受试者的数据。然后使用定制的桥接损失函数将会话和电极之间的差异最小化,并且已知的知识通过构建的桥接域自动转移。为了展示所提出的 BDAN 的有效性,在公共脑电图数据集上进行了比较实验和消融研究。总体比较结果表明,与其他先进的深度学习和领域适应方法相比,所提出的 BDAN 具有优越的性能。

合成面孔与人类情感面孔:人类解码准确性有何变化

分类: 人机交互

作者: Terry Amorese, Marialucia Cuciniello, Alessandro Vinciarelli, Gennaro Cordasco, Anna Esposito

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10435v1

摘要: 考虑到越来越多地使用虚拟代理形式的辅助技术,有必要研究那些表征和影响用户与代理之间交互的因素,其中出现了人们解释和解码合成情感的方式,即虚拟代理传达的情感表达。鉴于这些原因,提出了一篇文章,其中涉及不同年龄组(青年、中年和老年)的 278 名参与者。在每个年龄组中,一些参与者接受自然解码任务,即人类情感面孔的识别任务,而其他参与者则接受综合解码任务,即虚拟代理传达的情感表达。参与者被要求标记不同年龄(年轻、中年和老年)的女性和男性人类或虚拟代理的照片,这些照片显示出厌恶、愤怒、悲伤、恐惧、快乐、惊讶和中立的静态表情。结果显示,年轻参与者(与年长组相比)对愤怒、悲伤和中立表现出更好的识别表现,而女性参与者对悲伤、恐惧和中立表现出更好的识别表现(与男性相比);当通过真实的人脸表达时,悲伤和恐惧可以更好地被识别,而当通过虚拟代理表达时,快乐、惊讶和中立可以更好地被识别。年轻的面孔在表达愤怒和惊讶时更好地解码,中年的面孔在表达悲伤、恐惧和快乐时更好地解码,而老年面孔在表达厌恶的情况下更好地解码;平均而言,与男性面孔相比,女性面孔的解码效果更好。

CanvasPic:基于空间布局自由生成人脸图像的交互工具

分类: 人机交互

作者: Jiafu Wei, Chia-Ming Chang, Xi Yang, Takeo Igarashi

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10352v1

摘要: 在实际使用中,现有的 GAN 图像生成工具由于缺乏直观的界面和有限的灵活性而存在不足。为了克服这些限制,我们开发了 CanvasPic,这是一种用于灵活生成 GAN 图像的创新工具。我们的工具引入了一种新颖的 2D 布局设计,允许用户根据真实世界的图像直观地控制图像属性。通过与空间布局中图像之间的距离进行交互,用户可以方便地控制每个属性对目标图像的影响,并探索广泛的生成结果。考虑到实际应用场景,我们进行了一项涉及 24 名参与者的用户研究,将我们的工具与现有的 GAN 图像生成工具进行比较。研究结果表明,我们的工具显着增强了用户体验,能够更有效地实现所需的生成结果。

人工智能支持写作中作者的匮乏

分类: 人机交互, 人工智能

作者: Max Kreminski

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10289v1

摘要: 我们诊断并简要讨论了作者的缺乏:当基于人工智能的创造力支持工具允许用户在没有做出相应数量的创造性决策的情况下生成大量文本,从而导致输出表达意图稀疏时,就会出现这种情况。我们认为,作者的缺乏有助于解释围绕基于人工智能的写作支持工具反复出现的一些困难和焦虑,但这也表明基于人工智能的 CST 需要一个雄心勃勃的新目标。

人工智能辅助教育写作:生态系统风险和缓解措施

分类: 人机交互, 人工智能

作者: Antonette Shibani, Simon Buckingham Shum

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10281v1

摘要: 虽然对技术进步能力的兴奋正在催生新的基于人工智能的写作助手,但总体生态系统在它们如何在教育实践中采用方面发挥着至关重要的作用。在本文中,我们指出了需要考虑的关键生态方面。我们从大学 9 年多的时间里对写作反馈工具的广泛研究和实践中汲取见解,并强调了被忽视时的潜在风险。它告知教育写作支持工具的设计,以便在更广泛的背景下更好地协调一致,以平衡创新与实际影响。

CO-oPS:用于社区隐私和安全监督的移动应用程序

分类: 人机交互

作者: Mamtaj Akter, Leena Alghamdi, Dylan Gillespie, Nazmus Miazi, Jess Kropczynski, Heather Lipford, Pamela Wisniewski

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10258v1

摘要: 智能手机用户安装了大量需要从其设备访问不同信息的移动应用程序。其中大部分信息非常敏感,由于缺乏有关移动隐私的技术专业知识和知识,用户常常难以管理这些访问。因此,他们经常寻求他人的帮助来做出有关其移动隐私和安全的决定。我们将这些社交流程嵌入到名为“CO-oPS”(“隐私和安全的社区监督”)的移动应用程序中。CO-oPS 允许受信任的社区成员查看彼此安装的应用程序以及授予这些应用程序的权限。社区成员可以用户还可以隐藏一些他们不希望其他人看到的移动应用程序,以确保他们的个人隐私。

AniFrame:用于 2D 绘图和基于帧的动画的编程语言

分类: 编程语言, 人机交互, 多媒体, D.3.2; J.5

作者: Mark Edward M. Gonzales, Hans Oswald A. Ibrahim, Elyssia Barrie H. Ong, Ryan Austin Fernandez

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10250v1

摘要: 创意编码是一项实验性很强的活动,需要将高级视觉创意转化为代码。然而,大多数用于创意编码的语言和库对于初学者来说可能不够直观。在本文中,我们提出了 AniFrame,一种用于绘图和动画的领域特定语言。它专为新手程序员设计,(i) 具有动画特定的数据类型、操作和内置函数,以简化复合对象的创建和动画,(ii) 允许通过明确指定动画序列来对动画序列进行细粒度控制。目标对象以及开始和结束帧,(iii) 通过类似 Python 的语法、类型推断以及与其语义意图紧密映射的最小控制结构和关键字集来缩短学习曲线,以及 (iv) 提高计算表达能力通过支持常见的数学运算、内置三角函数和用户定义的递归。我们的可用性测试证明了 AniFrame 在增强多个创意编码用例的可读性和可写性方面的潜力。 AniFrame 是开源的,其实现和参考可在 https://github.com/memgonzales/aniframe-language 上找到。

计算机科学专业最后一年学生的冒名顶替综合症:眼球追踪和生物识别研究

分类: 软件工程, 人机交互

作者: Alyssia Chen, Carol Wong, Katy Tarrit, Anthony Peruma

发布时间: 2024-04-16

链接: http://arxiv.org/abs/2404.10194v1

摘要: 冒名顶替综合症是一种心理现象,影响那些尽管拥有必要能力但怀疑自己技能和能力的人。这可能会导致缺乏信心和表现不佳。虽然研究探讨了冒名顶替综合症对各个领域的学生和专业人士的影响,但对其如何影响软件工程中的代码理解的了解有限。在这项探索性研究中,我们使用眼动仪和心率监测器调查了计算机科学本科生最后一年冒名顶替综合症的患病率及其对他们的代码理解认知的影响。主要研究结果表明,被认定为男性的学生在分析代码时表现出较低的冒名顶替综合症水平,而较高的冒名顶替综合症与审查代码片段的时间增加和正确解决代码的可能性较低有关。这项研究提供了有关该主题的初步数据,并为进一步研究奠定了基础,以支持学生的学业成功并提高开发人员的生产力和心理健康。

SoK(或SoLK?):社会人口因素和计算机安全行为的定量研究

分类: 密码学和安全, 计算机与社会, 人机交互

作者: Miranda Wei, Jaron Mink, Yael Eiger, Tadayoshi Kohno, Elissa M. Redmiles, Franziska Roesner

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.10187v1

摘要: 研究人员越来越多地探索性别、文化和其他社会人口因素如何与用户计算机安全和隐私行为相关。为了更全面地理解这些因素和行为之间的关系,我们做出了两项贡献。首先,我们广泛调查了有关社会人口统计学和安全行为的现有学术成果(151 篇论文),然后对 47 篇论文进行了重点文献综述,以综合目前已知的知识并确定未来研究的开放性问题。其次,通过结合当代社会和批判理论,我们为未来的社会人口因素和安全行为研究制定了指导方针,以解决如何克服常见的陷阱。我们提出了一个案例研究来展示我们的大规模行动指南,该指南对 16 个国家/地区 16,829 名 Facebook 用户的社会人口统计特征与去识别化的安全和隐私行为聚合日志数据之间的关系进行了测量研究。通过这些贡献,我们将我们的工作定位为知识缺乏的系统化(SoLK)。总的来说,我们发现关于身份如何塑造安全行为的矛盾结果和巨大的未知数。通过我们的指南和讨论,我们制定了新的方向,以更深入地研究社会人口因素如何以及为何影响安全行为。

EyeFormer:通过 Transformer 引导的强化学习预测个性化扫描路径

分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者: Yue Jiang, Zixin Guo, Hamed Rezazadegan Tavakoli, Luis A. Leiva, Antti Oulasvirta

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.10163v1

摘要: 从视觉感知的角度来看,现代图形用户界面 (GUI) 包含文本、图像和交互对象(例如按钮和菜单)的复杂图形丰富的二维视觉空间排列。虽然现有模型可以准确预测“平均”可能吸引注意力的区域和物体,但到目前为止,还没有能够预测个体扫描路径的扫描路径模型。为了弥补这一差距,我们引入了 EyeFormer,它利用 Transformer 架构作为策略网络来指导控制注视位置的深度强化学习算法。我们的模型具有在给定一些用户扫描路径样本时生成个性化预测的独特能力。它可以预测个人和各种刺激类型的完整扫描路径信息,包括注视位置和持续时间。此外,我们还演示了由我们的模型驱动的 GUI 布局优化中的应用程序。我们的软件和模型将公开。

用户如何在电视直播中体验隐藏式字幕:质量指标仍然是一个挑战

分类: 人机交互

作者: Mariana Arroyo Chavez, Molly Feanny, Matthew Seita, Bernard Thompson, Keith Delk, Skyler Officer, Abraham Glasser, Raja Kushalnagar, Christian Vogler

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.10153v1

摘要: 本文提出了一项混合方法研究,研究耳聋、听力障碍和听力观众如何通过旨在反映电视字幕体验的字幕视频刺激来感知直播电视字幕质量。为了评估字幕质量,我们使用了四种常用的质量指标,重点关注准确性:单词错误率、加权单词错误率、自动字幕评估 (ACE) 及其后继者 ACE2。我们计算了四个质量指标与主观质量收视率之间的相关性,发现相关性很弱,这表明除了准确性之外,其他因素也会影响用户收视率。此外,尽管控制了混杂因素,但即使是高质量的字幕也被认为存在问题。对观众评论的定性分析揭示了影响他们体验的三个主要因素:字幕中的错误、跟随字幕的困难以及字幕的外观。研究结果提出了如何使客观字幕质量指标与不同观众群体的用户体验相协调的问题。

Epigraphics:消息驱动的信息图表创作

分类: 人机交互

作者: Tongyu Zhou, Jeff Huang, Gromit Yeuk-Yin Chan

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.10152v1

摘要: 设计师想要传达的信息在指导信息图表的设计中发挥着关键作用,但大多数创作工作流程首先创建可视化或图形,而不衡量它们是否适合信息。为了解决这一差距,我们提出了 Epigraphics,这是一个基于网络的创作系统,它将“铭文”视为第一类对象,并使用它来指导信息图表资产的创建、编辑和同步。该系统使用基于文本的消息来推荐可视化、图形、数据过滤器、调色板和动画。它还支持资产之间的交互和微调,例如重新着色、突出显示和动画同步,从而增强资产的美学凝聚力。画廊和案例研究表明,我们的系统可以生成受现有流行信息图表启发的信息图表,而由 10 名设计师参与的基于任务的可用性研究表明,文本来源的工作流程可以标准化内容,使用户能够更多地思考大局,并且促进快速原型设计。

塑造现实:利用制造约束增强 3D 生成式 AI

分类: 人机交互, 人工智能

作者: Faraz Faruqi, Yingtao Tian, Vrushank Phadnis, Varun Jampani, Stefanie Mueller

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.10142v1

摘要: 生成式 AI 工具在 3D 建模中变得越来越普遍,使用户能够以文本或图像作为输入来操作或创建新模型。这使得用户可以更轻松地快速定制和迭代他们的 3D 设计并探索新的创意。这些方法侧重于 3D 模型的美学质量,将其细化为与用户提供的提示相似的外观。然而,在创建用于制造的 3D 模型时,设计人员需要在 3D 模型的美观品质与其预期的物理属性之间进行权衡。为了在制造后发挥功能,3D 模型必须满足物理原理所规定的结构约束。目前,生成式人工智能工具并未强制执行此类要求。这导致了美观但可能无功能的 3D 几何体的发展,这些几何体在现实世界中很难制造和使用。本研讨会论文强调了生成式 AI 工具在将数字创作转化为物理世界方面的局限性,并提出了生成式 AI 工具的新增强功能,用于创建物理上可行的 3D 模型。我们主张开发操纵或生成 3D 模型的工具,不仅要考虑美观,还要考虑物理属性作为约束。这一探索旨在弥合数字创造力与现实世界适用性之间的差距,将生成式人工智能的创造潜力扩展到有形领域。

基于Java的客户端-服务器应用程序的设计与实现

分类: 分布式、并行和集群计算, 人机交互

作者: Omkar Patil, Aarya Shirbhate

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.10107v1

摘要: 本报告详细介绍了名为组通信系统 (GCS) 的网络分布式系统的开发,该系统用 Java 实现,以举例说明套接字编程和通信协议。 GCS 通过命令行界面 (CLI) 促进基于组的客户端-服务器通信,从而实现无缝的组交互和管理。该项目强调容错、设计模式和版本控制系统(VCS)的利用。该报告提供了对系统架构、实现和实际考虑因素的见解,提供了对分布式系统技术背景和操作方面的全面了解。

CFlow:支持大规模编程问题中学生代码的语义流分析

分类: 人机交互

作者: Ashley Ge Zhang, Xiaohang Tang, Steve Oney, Yan Chen

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.10089v1

摘要: 对计算机科学教育的高需求导致入学率很高,许多入门课程有数千名学生。在如此大型的课程中,教师很难理解全班的问题解决模式或问题,而这对于改进教学和解决重要的教学挑战至关重要。在本文中,我们提出了一种技术和系统 CFlow,用于大规模创建可理解和可导航的代码表示。 CFlow 能够在类似于单个代码示例的可视化中表示数千个代码示例。 CFlow 通过以下方式创建可扩展的代码表示:(1) 对具有相似语义目的的各个语句进行聚类,(2) 以维护语句之间语义关系的方式呈现聚类语句,(3) 将不同变化的正确性表示为直方图,以及 (4)允许用户使用语义过滤器交互式地浏览解决方案。通过多级视图设计,用户可以导航高级模式和低级实现。这与之前的工具形成鲜明对比,之前的工具要么限制对孤立语句的关注(从而丢弃这些语句的周围上下文),要么对整个代码示例进行聚类(这可能导致大量的聚类——例如,如果有 n 个代码)每个特征和 m 个实现,可以有 m^n 个簇)。我们通过比较研究评估了 CFlow 的有效性,发现使用 CFlow 的参与者仅花费一半的时间来识别错误,并从 6,000 多个提交中回忆起两倍的所需模式。

上下文确实很重要:面向任务的对话系统中众包评估标签的含义

分类: 计算和语言, 人机交互, 信息检索

作者: Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09980v1

摘要: 众包标签在评估面向任务的对话系统(TDS)中发挥着至关重要的作用。从注释者那里获取高质量且一致的地面实况标签面临着挑战。在评估 TDS 时,注释者必须充分理解对话,然后才能做出判断。先前的研究表明在注释过程中仅使用对话上下文的一部分。然而,这种限制对标签质量的影响仍有待探索。本研究调查了对话上下文对注释质量的影响,考虑了相关性和有用性标签的截断上下文。我们进一步建议使用大型语言模型(LLM)来总结对话上下文,以提供对话上下文的丰富而简短的描述,并研究这样做对注释器性能的影响。减少上下文会带来更积极的评价。相反,提供整个对话上下文会产生更高质量的相关性评级,但会在有用性评级中引入模糊性。使用第一个用户话语作为上下文可以获得一致的评级,类似于使用整个对话获得的评级,同时显着减少注释工作。我们的研究结果表明任务设计,特别是对话上下文的可用性,如何影响众包评估标签的质量和一致性。

交互作为解释:一种基于用户交互的图像分类模型解释方法

分类: 人机交互, 人工智能, 计算机视觉和模式识别, 机器学习

作者: Hyeonggeun Yun

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09828v1

摘要: 在计算机视觉中,可解释的人工智能(xAI)方法试图通过使深度学习模型的决策过程更加可解释和透明来缓解“黑匣子”问题。传统的 xAI 方法专注于可视化影响模型预测的输入特征,提供主要适合专家的见解。在这项工作中,我们提出了一种基于交互的 xAI 方法,通过交互增强用户对图像分类模型的理解。因此,我们开发了一个基于网络的原型,允许用户通过绘画和擦除来修改图像,从而观察分类结果的变化。我们的方法使用户能够辨别影响模型决策过程的关键特征,使他们的心理模型与模型的逻辑保持一致。对五张图像进行的实验证明了该方法通过用户交互揭示特征重要性的潜力。我们的工作以最终用户的参与和理解为中心,为 xAI 提供了一种新颖的视角,为人工智能系统中更直观、更易于解释的能力铺平了道路。

弥合差距:支持痴呆症护理的技术进步——范围界定审查

分类: 人机交互

作者: Yong Ma, Oda Elise Nordberg, Jessica Hubbers, Yuchong Zhang, Arvid Rongve, Miroslav Bachinski, Morten Fjeld

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09685v1

摘要: 由于认知、行为和功能能力下降,痴呆症对受影响者的日常生活造成严重后果。照顾痴呆症患者可能充满挑战且令人痛苦。创新的解决方案对于丰富受影响者的生活和减轻护理人员的负担变得至关重要。这份范围界定综述涵盖了 2010 年至 2023 年 7 月人机交互 (HCI) 领域的文献,全面探讨了交互技术如何促进痴呆症护理。本次审查强调了技术在满足痴呆症患者 (PwD) 及其护理人员的独特需求方面的作用,涵盖辅助设备、移动应用程序、传感器和 GPS 跟踪。它深入探讨了临床和家庭护理环境中遇到的挑战,简洁地概述了可穿戴设备、虚拟现实、机器人和人工智能等尖端技术在支持痴呆症患者及其护理人员方面的影响。我们根据其预期用途和功能将当前的痴呆症相关技术分为六组:1)日常生活监测,2)日常生活支持,3)社交互动和沟通,4)幸福感增强,5)认知支持,和6) 照顾者支持。

AAM-VDT:用于先进空中机动远程操作的车辆数字孪生

分类: 系统与控制, 新兴技术, 人机交互, 系统与控制

作者: Tuan Anh Nguyen, Taeho Kwag, Vinh Pham, Viet Nghia Nguyen, Jeongseok Hyun, Minseok Jang, Jae-Woo Lee

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09621v1

摘要: 这项研究通过为 eVTOL 飞机创建车辆数字孪生 (VDT) 系统来推进先进空中机动 (AAM) 中的远程操作,该系统旨在提高远程控制安全性和效率,特别是超视距 (BVLOS) 操作。通过将数字孪生技术与沉浸式虚拟现实 (VR) 界面相结合,我们显着提高了远程操作员的态势感知和控制精度。我们的 VDT 框架将沉浸式远程操作与高保真空气动力学数据库集成在一起,这对于真实模拟飞行动力学和控制策略至关重要。我们方法的核心在于 eVTOL 的高保真数字复制品,放置在准确反映物理定律的模拟现实中,使操作员能够通过主从动态管理飞机,其性能大大优于传统的 2D 界面。所设计的系统架构确保操作员、数字孪生和实际飞机之间的无缝交互,从而促进准确、即时的反馈。实验评估包括推进数据采集、仿真数据库保真度验证和远程操作测试,验证了系统精确控制命令传输和保持数字物理同步的能力。我们的研究结果强调了 VDT 系统在提高 AAM 效率和安全性方面的潜力,为自动驾驶飞行器中更广泛的数字孪生应用铺平了道路。

使用有形交互为非音乐家设计音乐制品

分类: 人机交互

作者: Lucía Montesinos, Halfdan Hauch Jensen, Anders Sundnes Løvlie

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09597v1

摘要: 本文提出了一项通过设计进行的研究,探讨了使用有形互动为非音乐家提供积极的音乐体验(音乐之王)的潜力。我们展示了 Tubularium 原型,旨在帮助非音乐家演奏音乐,而不需要任何初始技能。我们介绍了原型的初始设计和实现的功能,以便让非音乐家能够制作音乐,并根据对原型的非正式初始用户探索的观察提供一些反思。

基于跨语料库脑电图的情绪识别的联合对比学习与特征对齐

分类: 人机交互, 人工智能

作者: Qile Liu, Zhihao Zhou, Jiyuan Wang, Zhen Liang

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09559v1

摘要: 将人类情感融入多媒体应用程序显示出丰富用户体验和增强跨各种数字平台的参与度的巨大潜力。与问卷、面部表情、声音分析等传统方法不同,大脑信号可以更直接、客观地了解情绪状态。然而,在基于脑电图(EEG)的情绪识别领域,之前的研究主要集中在单个数据集中训练和测试脑电图模型,忽视了不同数据集之间的变异性。当将脑电图模型应用于跨语料库场景时,这种疏忽会导致性能显着下降。在这项研究中,我们提出了一种新颖的具有特征对齐(JCFA)的联合对比学习框架来解决基于跨语料库脑电图的情感识别。 JCFA 模型的运作分为两个主要阶段。在预训练阶段,引入联合域对比学习策略来表征脑电图信号的可泛化时频表示,而不使用标记数据。它为每个脑电图样本提取强大的基于时间和基于频率的嵌入,然后将它们在共享的潜在时频空间内对齐。在微调阶段,JCFA 结合下游任务进行细化,其中考虑脑电极之间的结构连接。该模型的能力可以进一步增强,以应用于情绪检测和解释。在两个公认的情感数据集上进行的大量实验结果表明,所提出的 JCFA 模型实现了最先进的 (SOTA) 性能,在基于跨语料库 EEG 的情况下,平均准确度提高了 4.09%,优于第二好的方法情绪识别任务。

用于自动检测 ADHD 的新型基于熵差的脑电图通道选择技术

分类: 信号处理, 人机交互, 神经和进化计算

作者: Shishir Maheshwari, Kandala N V P S Rajesh, Vivek Kanhangad, U Rajendra Acharya, T Sunil Kumar

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09493v1

摘要: 注意缺陷多动障碍(ADHD)是儿童常见的神经发育障碍之一。本文提出了一种使用所提出的基于熵差 (EnD) 的脑电图 (EEG) 通道选择方法进行 ADHD 检测的自动化方法。在所提出的方法中,我们使用基于 EnD 的通道选择方法选择了最重要的 EEG 通道来准确识别 ADHD。其次,从选定的通道中提取一组特征并将其馈送到分类器。为了验证所选通道的有效性,我们探索了三组特征和分类器。更具体地说,我们探索了基于离散小波变换(DWT)、经验模式分解(EMD)和对称加权局部二值模式(SLBP)的特征。为了执行自动分类,我们使用了 k 最近邻 (k-NN)、集成分类器和支持向量机 (SVM) 分类器。我们提出的方法使用公共数据库获得了 99.29% 的最高准确率。此外,所提出的基于 EnD 的通道选择始终比基于熵的通道选择方法提供更好的分类精度。另外,所开发的方法

LatticeML:一种数据驱动的应用程序,用于预测基于高温图的建筑材料的有效杨氏模量

分类: 机器学习, 人工智能, 人机交互, 优化与控制, 应用物理

作者: Akshansh Mishra

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09470v1

摘要: 建筑材料具有独特的拓扑结构和几何形状,具有改变物理和机械性能的潜力。机器学习可以通过识别最佳设计和预测性能来加速这些材料的设计和优化。这项工作提出了 LatticeML,这是一种数据驱动的应用程序,用于预测基于图形的高温架构材料的有效杨氏模量。该研究考虑了两种高温合金(Ti-6Al-4V 和 Inconel 625)的 11 种基于图形的晶格结构。有限元模拟用于计算 2x2x2 晶胞配置的有效杨氏模量。开发了一个机器学习框架来预测杨氏模量,包括数据收集、预处理、回归模型的实现以及最佳性能模型的部署。评估了五种监督学习算法,其中 XGBoost Regressor 实现了最高准确度(MSE = 2.7993,MAE = 1.1521,R 平方 = 0.9875)。该应用程序使用 Streamlit 框架创建交互式 Web 界面,允许用户输入材料和几何参数并获得预测的杨氏模量值。

多物种珊瑚图像的人机交互分割

分类: 计算机视觉和模式识别, 人机交互, 机器学习, 机器人技术

作者: Scarlett Raine, Ross Marchant, Brano Kusy, Frederic Maire, Niko Suenderhauf, Tobias Fischer

发布时间: 2024-04-15

链接: http://arxiv.org/abs/2404.09406v1

摘要: 水下航行器进行的大规模海洋调查显着增加了珊瑚礁图像的可用性,但领域专家标记图像既昂贵又耗时。点标签传播是一种利用稀疏点标签标记的现有图像数据的方法。然后,生成的增强地面实况用于训练语义分割模型。在这里,我们首先证明基础模型的最新进展能够使用去噪 DINOv2 特征和 K 最近邻 (KNN) 生成多物种珊瑚增强地面实况掩模,而无需任何预训练或定制设计的算法。对于标记极其稀疏的图像,我们提出了一种基于人机循环原理的标记机制,从而显着提高了标注效率:如果每个图像只有 5 个点标签可用,我们提出的人机循环方法像素精度比现有技术提高了 17.3%,mIoU 提高了 22.6%;当每幅图像有 10 个点标签可用时,分别提高 10.6% 和 19.1%。即使不使用人机循环标记机制,使用 KNN 的去噪 DINOv2 特征在像素精度方面优于现有技术 3.5%,在 mIoU(5 个网格点)方面优于现有技术 5.7%。我们还详细分析了点标签样式和每幅图像的点数量如何影响点标签传播质量,并提供了有关最大化点标签效率的一般建议。

智能互动写作助手的欺骗模式

分类: 人机交互, 计算和语言

作者: Karim Benharrak, Tim Zindulka, Daniel Buschek

发布时间: 2024-04-14

链接: http://arxiv.org/abs/2404.09375v1

摘要: 大型语言模型已成为新型智能交互式写作助手不可或缺的一部分。许多在商业上提供了类似聊天机器人的 UI,例如 ChatGPT,并且提供的有关其内部工作原理的信息很少。这使得这种新型的广泛系统成为欺骗性设计模式的潜在目标。例如,此类助理可能会利用隐性成本,在某一点之前提供指导,然后要求付费查看其余部分。另一个例子,他们可能会将不需要的内容/编辑隐藏到较长的生成或修改的文本片段中(例如,以影响所表达的意见)。通过这些和其他例子,我们从概念上将文献中的几种欺骗性模式转移到人工智能写作助手的新环境中。我们的目标是提高认识并鼓励未来研究此类系统的用户界面和交互设计如何影响人们及其写作。

作为 HCI 模型的 Sinestesia:系统回顾

分类: 人机交互

作者: Simona Corciulo, Mario Alessandro Bochicchio

发布时间: 2024-04-14

链接: http://arxiv.org/abs/2404.09303v1

摘要: 联觉被认为是一种神经心理状况,通过分析刺激触发的感觉或认知反应的同时发生,可能在研究人类与机器之间的相互作用中有价值。在我们的方法中,联觉超越了单纯的感知认知异常,提供了对人类与数字系统之间相互作用的见解,指导新颖的实验设计并丰富了结果解释。这篇综述拓宽了传统的范围,传统上植根于神经科学和心理学,通过考虑计算机科学如何解决这种情况。跨学科检查围绕两个主要观点:一个将这种情况与特定的认知、知觉和行为异常联系起来,另一个承认它是一种普遍的人类经历。在这篇综述中,联觉成为人机交互(HCI)的一个重要模型。对这种特定条件的探索旨在破译如何编码非典型的感知和认知途径,使机器能够积极参与处理来自身体和环境的信息。作者试图融合不同学科的发现和见解,促进计算机科学、神经科学、心理学和哲学之间的合作。总体目标是构建一个全面的框架,阐明如何在人机交互中利用信息处理中的联觉和异常现象,特别强调为医学研究数字技术做出贡献并增强患者护理和舒适度。从这个意义上说,本综述也致力于填补理论理解与实际应用之间的差距。

研究虚拟元素错位对协作增强现实体验的影响

分类: 人机交互

作者: Francesco Vona, Sina Hinzmann, Michael Stern, Tanja Kojić, Navid Ashrafi, David Grieshammer, Jan-Niklas Voigt-Antons

发布时间: 2024-04-14

链接: http://arxiv.org/abs/2404.09174v1

摘要: 共置共享环境中的协作激发了人们对增强现实 (AR) 等沉浸式技术的兴趣。由于该领域的研究主要集中在 AR 中的个人用户体验,因此对共享 AR 空间内的协作方面的探索仍然较少,而且很少有研究可以为设计此类体验提供指导。本文研究了虚拟对象的不同感知以及位置同步和化身的影响如何影响协作共享 AR 空间中的用户体验。为此,我们开发了一款 AR 应用程序,并使用两种不同的实验条件来研究影响因素。 48 名参与者分成 24 对,参与了实验并与共享的虚拟对象共同互动。结果表明,对虚拟对象的不同感知并不直接影响沟通和协作动态。相反,位置同步成为一个关键因素,显着提高了协作体验的质量。相反,虽然不可忽视,但化身在影响这些动态方面发挥的作用相对不那么明显。这些发现可能会提供有价值的实用见解,指导未来协作 AR/VR 环境的开发。

评估触觉反馈、360°跑步机集成虚拟现实框架以及复杂搜索和射击模拟中决策性能纵向训练的效果

分类: 人机交互

作者: Akash K Rao, Arnav Bhavsar, Shubhajit Roy Chowdhury, Sushil Chandra, Ramsingh Negi, Prakash Duraisamy, Varun Dutt

发布时间: 2024-04-14

链接: http://arxiv.org/abs/2404.09147v1

摘要: 虚拟现实 (VR) 取得了长足的进步,为用户提供了多种与虚拟环境交互的方式。 VR 中的每种感官模式都提供不同的输入和交互,增强用户的沉浸感和临场感。然而,其他感官方式(例如触觉反馈和 360° 运动)在提高决策性能方面的潜力尚未得到彻底研究。本研究通过评估触觉反馈、360°运动集成 VR 框架以及纵向异构训练对复杂搜索和射击模拟中决策性能的影响来解决这一差距。该研究涉及来自印度国防模拟基地的 32 名参与者,他们被随机分为两组:实验组(触觉反馈、360°运动集成 VR 框架,具有纵向、异构训练)和安慰剂对照组(纵向、异构 VR)没有超感觉模式的训练)。实验持续了10天。第一天,所有受试者都执行了紧密复制现实世界中的元素/情况的搜索和射击模拟。从第 2 天到第 9 天,受试者接受了异构训练,通过使用敌人行为属性/人工智能的变化在模拟中设计各种复杂程度来进行训练。第 10 天,他们重复了第 1 天执行的搜索和射击模拟。结果显示,与安慰剂对照组相比,实验组的存在感、沉浸感和参与度逐渐增加。然而,第 10 天两组之间的决策表现没有显着差异。我们打算利用这些发现来设计多感官 VR 培训框架,以提高参与水平和决策表现。

ALICE:将特征选择和评估者间的一致性相结合以获取机器学习见解

分类: 机器学习, 人机交互, 应用领域, 机器学习

作者: Bachana Anasashvili, Vahidin Jeleskovic

发布时间: 2024-04-13

链接: http://arxiv.org/abs/2404.09053v1

摘要: 本文提出了一个名为自动学习进行深入比较和评估(ALICE)的新 Python 库,它以一种简单、用户友好的方式融合了传统的特征选择和评估者间一致性的概念,以寻求对黑盒机器学习模型的见解。该框架是在概述机器学习中可解释性的关键概念后提出的。还深入讨论了该框架主要方法的整个架构和直觉,并介绍了客户流失预测建模任务的初步实验结果,以及未来探索可能途径的想法。框架和实验笔记本的完整源代码可以在以下位置找到:https://github.com/anasashb/aliceHU

NeurIT:突破室内机器人物联网神经惯性跟踪的极限

分类: 机器人技术, 人工智能, 人机交互

作者: Xinzhe Zheng, Sijie Ji, Yipeng Pan, Kaiwen Zhang, Chenshu Wu

发布时间: 2024-04-13

链接: http://arxiv.org/abs/2404.08939v1

摘要: 惯性跟踪对于机器人物联网至关重要,并且由于低成本惯性测量单元 (IMU) 和深度学习驱动的跟踪算法的普遍存在而受到欢迎。然而,现有的工作并没有充分利用 IMU 测量,特别是磁力计,也没有最大限度地发挥深度学习的潜力来达到所需的精度。为了提高室内机器人应用的跟踪精度,我们引入了 NeurIT,这是一种序列到序列的框架,可将跟踪精度提升到一个新的水平。 NeurIT 以时频块循环变压器 (TF-BRT) 为核心,结合循环神经网络 (RNN) 和 Transformer 的强大功能来学习时域和频域的代表性特征。为了充分利用 IMU 信息,我们策略性地采用磁力计的车身框架微分,这大大减少了跟踪误差。 NeurIT 在定制的机器人平台上实施,并在各种室内环境中进行评估。实验结果表明,NeurIT 在 300 米距离内实现了仅 1 米的跟踪误差。值得注意的是,它在未见过的数据上显着优于最先进的基线 48.21%。在视觉有利的条件下,NeurIT 的表现也可与视觉惯性方法(Tango Phone)相媲美,并在普通环境中超越它。我们相信 NeurIT 朝着实用的神经惯性跟踪迈出了重要的一步,以实现无处不在且可扩展的机器人物体跟踪。 NeurIT,包括源代码和数据集,已在此处开源:https://github.com/NeurIT-Project/NeurIT。

根据人类偏好进行奖励学习的事后诸葛亮

分类: 机器学习, 人工智能, 人机交互

作者: Mudit Verma, Katherine Metcalf

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08828v1

摘要: 基于偏好的强化学习 (PbRL) 通过从策略行为的偏好反馈中学习奖励,无需手动指定奖励函数。当前的 PbRL 方法没有解决确定行为的哪些部分对偏好最有贡献时所固有的信用分配问题,从而导致数据密集型方法和低于标准的奖励函数。我们通过引入信用分配策略(Hindsight PRIOR)来解决这些限制,该策略使用世界模型来近似轨迹内的状态重要性,然后通过辅助预测回报再分配目标引导奖励与状态重要性成比例。将状态重要性纳入奖励学习可以提高策略学习的速度、整体策略性能以及运动和操纵任务的奖励恢复。例如,Hindsight PRIOR 在 MetaWorld (20%) 和 DMC (15%) 上平均显着 (p<0.05) 恢复更多奖励。性能提升和我们的消融表明,即使是简单的信用分配策略也可以对奖励学习产生好处,并且前向动态预测中的州重要性是州对偏好决策的贡献的有力代表。代码存储库可以在 https://github.com/apple/ml-rlhf-hindsight-prior 找到。

使用 ChucK 和 Unity 实现健康和能源的交互式超声处理

分类: 人机交互, 声音, 音频和语音处理

作者: Yichun Zhao, George Tzanetakis

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08813v1

摘要: 可听化可以提供有关数据的宝贵见解,但大多数现有方法并非旨在由用户以交互方式控制。交互使音响设计者能够更快地试验声音设计,并允许通过与各种控制参数交互来实时修改音响。在本文中,我们描述了交互式发声的两个案例研究,这些案例研究利用了最近在国际听觉显示会议(ICAD)上描述的公开数据集。它们来自健康和能源领域:脑电图(EEG)α波数据和由二氧化氮、二氧化硫、一氧化碳和臭氧组成的空气污染物数据。我们展示了如何重新创建这些声音处理,以支持利用使用 ChucK、Unity 和 Chunity 构建的通用交互式声音处理框架进行交互。除了支持现有听音工具包中常见的典型听音方法外,我们的框架还引入了新颖的方法,例如支持离散事件、多个数据流的交错播放以进行比较,以及在一个数据属性调制方面使用调频(FM)合成。其他。我们还描述了如何使用这些新功能来改善我们研究的两个数据集的可听体验。

可视化决策任务的类型学

分类: 人机交互

作者: Camelia D. Brumar, Sam Molnar, Gabriel Appleby, Kristi Potter, Remco Chang

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08812v1

摘要: 尽管决策是数据可视化的一个重要目标,但在我们领域内区分决策任务的工作却很少。虽然存在可视化任务分类法和类型学,但它们通常过于细化,无法描述复杂的决策目标和决策过程,从而限制了它们在设计决策支持工具中的潜在用途。在本文中,我们贡献了一种决策任务的类型,这些任务是从文献综述中提炼出的设计目标列表中迭代提炼出来的。我们的类型很简洁,仅包含三个任务:选择、激活和创建。最初由科学界提出,我们扩展并提供了适合可视化界的这些任务的定义。我们提出的类型有两个好处。首先,它促进了使用这三个任务的决策组合,允许跨不同复杂性和领域进行灵活和清晰的描述。其次,使用这种类型创建的图表通过抽象复杂的数据来鼓励可视化设计者和领域专家之间富有成效的对话,从而促进决策过程的清晰度和严格分析。我们通过四个案例研究来激发我们的类型学的使用,并通过与可视化社区的经验丰富的成员(包括学术和行业专家)进行半结构化访谈来展示我们的方法的好处,他们为开发或发布领域的决策支持系统做出了贡献专家。我们的受访者使用我们的类型学绘制了图表来描述驱动其决策支持工具的决策过程,展示其描述能力和有效性。

量化扩散模型图像生成一致性的语义方法

分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者: Brinnae Bent

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08799v1

摘要: 在这项研究中,我们确定了对扩散模型中图像生成的可重复性或一致性的可解释的定量评分的需求。我们提出了一种语义方法,使用成对平均 CLIP(对比语言图像预训练)分数作为我们的语义一致性分数。我们应用这个指标来比较两种最先进的开源图像生成扩散模型,Stable Diffusion XL 和 PixArt-{\alpha},我们发现模型的语义一致性分数之间存在统计上的显着差异。所选模型的语义一致性评分与聚合的人工注释之间的一致性为 94%。我们还探讨了 SDXL 和 LoRA 微调版本的 SDXL 的一致性,发现微调模型在生成的图像中具有显着更高的语义一致性。这里提出的语义一致性分数提供了图像生成对齐的衡量标准,有助于评估特定任务的模型架构,并有助于做出有关模型选择的明智决策。

JailbreakLens:针对大型语言模型的越狱攻击可视化分析

分类: 密码学和安全, 计算和语言, 人机交互

作者: Yingchaojie Feng, Zhizhang Chen, Zhining Kang, Sijia Wang, Minfeng Zhu, Wei Zhang, Wei Chen

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08793v1

摘要: 大型语言模型(LLM)的激增凸显了对其安全漏洞的担忧,特别是针对越狱攻击,攻击者设计越狱提示来规避潜在滥用的安全机制。解决这些问题需要对越狱提示进行全面分析,以评估大语言模型的防御能力并识别潜在的弱点。然而,评估越狱性能和理解提示特征的复杂性使得这种分析变得很费力。我们与领域专家合作来描述问题,并提出一个大语言模型辅助框架来简化分析过程。提供自动越狱评估,方便性能评估,支持对提示中的组件和关键词进行分析。基于该框架,我们设计了JailbreakLens,这是一个可视化分析系统,使用户能够针对目标模型探索越狱性能,对提示特征进行多层次分析,并细化提示实例以验证结果。通过案例研究、技术评估和专家访谈,我们展示了我们的系统在帮助用户评估模型安全性和识别模型弱点方面的有效性。

将视觉语言模型训练为智能手机助手

分类: 机器学习, 人工智能, 计算机视觉和模式识别, 人机交互

作者: Nicolai Dorka, Janusz Marecki, Ammar Anwar

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08755v1

摘要: 为了解决能够执行各种用户任务的数字助理的挑战,我们的研究重点是基于指令的移动设备控制领域。我们利用大型语言模型 (LLM) 的最新进展,提出了一种可以在移动设备上完成各种任务的视觉语言模型 (VLM)。我们的模型仅通过与用户界面(UI)交互来发挥作用。它使用来自设备屏幕的视觉输入并模仿类人交互,包括点击和滑动等手势。输入和输出空间的这种通用性允许我们的代理与设备上的任何应用程序进行交互。与以前的方法不同,我们的模型不仅在单个屏幕图像上运行,而且在根据过去的屏幕截图序列以及相应的动作创建的视觉语言句子上运行。在具有挑战性的 Android in the Wild 基准测试中评估我们的方法,证明了其有希望的功效和潜力。

VizGroup:用于实时协作编程学习分析的人工智能辅助事件驱动系统

分类: 人机交互

作者: Xiaohang Tang, Sam Wong, Kevin Pu, Xi Chen, Yalong Yang, Yan Chen

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08743v1

摘要: 编程教师经常开展协作学习活动,例如同伴指导,以加深学生的理解并提高他们对学习的参与度。然而,由于学生心智模式的多样性及其无效的合作,这些活动可能并不总是产生富有成效的成果。在这项工作中,我们介绍了 VizGroup,这是一种人工智能辅助系统,使编程教师能够轻松监督学生在大型编程课程中的实时协作学习行为。 VizGroup 利用大型语言模型 (LLM) 为讲师推荐活动规范,以便他们可以同时跟踪和接收有关各种协作指标和正在进行的编码任务之间的关键关联模式的警报。我们使用从大型编程讲座中进行的同伴指导活动中收集的数据集对 12 名讲师进行了评估。结果表明,与没有建议单元的 VizGroup 版本相比,具有建议单元的 VizGroup 帮助教师自行针对以前未检测到的模式创建额外的监控单元,覆盖了更多样化的指标,并影响了参与者的后续通知创建策略。

混合模式:语音、文本和可视化的主动和被动集成,以传达数据不确定性

分类: 人机交互

作者: Chase Stokes, Chelsea Sanker, Bridget Cogley, Vidya Setlur

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08623v1

摘要: 解释不确定的数据可能很困难,特别是当数据表示很复杂时。我们研究了不同模式表示数据的有效性,以及如何结合每种模式的优势来促进数据不确定性的交流。我们实现了两个多模式原型来探索集成语音、文本和可视化元素的设计空间。来自学术界和工业界的 20 名参与者的初步评估表明,不存在一刀切的不确定性沟通策略方法;相反,传达不确定数据的有效性与用户偏好和情境背景交织在一起,因此未来的界面设计需要更精细的多模式策略。

比较苹果和橙子:对象分类任务中由大语言模型支持的多模态意图预测

分类: 机器人技术, 人工智能, 人机交互

作者: Hassan Ali, Philipp Allgeuer, Stefan Wermter

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08424v1

摘要: 基于意图的人机交互(HRI)系统使机器人能够感知和解释用户的行为,从而主动与人类交互并适应他们的行为。因此,意图预测对于创建人与机器人之间的自然交互协作至关重要。在本文中,我们研究了在与物理机器人进行协作对象分类任务期间使用大型语言模型(LLM)推断人类意图的情况。我们引入了一种分层方法来解释用户非语言提示,例如手势、身体姿势和面部表情,并将它们与环境状态和使用现有自动语音识别(ASR)系统捕获的用户语言提示相结合。我们的评估证明了大语言模型在解释非语言线索并将其与上下文理解能力和现实世界知识相结合以支持人机交互期间的意图预测方面的潜力。

使用多层多模态潜在狄利克雷分配集成视觉、生理学和文字信息的情感概念形成研究

分类: 人工智能, 人机交互, 机器学习, 机器人技术, 符号计算

作者: Kazuki Tsurumaki, Chie Hieida, Kazuki Miyazawa

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08295v1

摘要: 情绪是如何形成的?经过广泛的争论和各种理论的推广,建构情感理论在最近的情感研究中变得流行。根据该理论,情感概念是指由与特定情感相关的内感受和外感受信息形成的范畴。情感概念将过去的经验存储为知识,并可以从获取的信息中预测未观察到的信息。因此,在本研究中,我们尝试从建构情感理论的角度,使用建构主义方法来模拟情感概念的形成。特别是,我们使用多层多模态潜在狄利克雷分配构建了一个模型,这是一个概率生成模型。然后,我们使用从经历过不同视觉情感唤起刺激的多个人获得的视觉、生理学和文字信息来训练每个受试者的模型。为了评估模型,我们验证了形成的类别是否符合人类主观性,并确定是否可以通过类别预测未观察到的信息。验证结果超出了机会水平,表明情感概念的形成可以通过所提出的模型来解释。

GazePointAR:可穿戴增强现实中用于代词消歧的上下文感知多模态语音助手

分类: 人机交互

作者: Jaewook Lee, Jun Wang, Elizabeth Brown, Liam Chu, Sebastian S. Rodriguez, Jon E. Froehlich

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08213v1

摘要: Siri 和 Alexa 等语音助手 (VA) 正在改变人机交互方式;然而,他们缺乏对用户时空背景的认识,导致性能有限和对话不自然。我们推出了 GazePointAR,这是一种用于可穿戴增强现实的全功能上下文感知 VA,它利用眼睛注视、指向手势和对话历史记录来消除语音查询的歧义。借助 GazePointAR,用户可以询问“那边有什么?”或“我该如何解决这道数学问题?”只需通过查看和/或指向即可。我们在一项由三部分组成的实验室研究中评估了 GazePointAR(N=12):(1)将 GazePointAR 与两个商业系统进行比较; (2) 检查 GazePointAR 在三个任务中的代词消歧; (3) 以及一个开放式阶段,参与者可以建议并尝试自己的上下文相关查询。参与者赞赏代词驱动的查询的自然性和类人性,尽管有时代词的使用是违反直觉的。然后,我们迭代 GazePointAR 并进行了第一人称日记研究,检查 GazePointAR 在野外的表现。最后,我们列举了未来情境感知虚拟设备的局限性和设计注意事项。

克拉克斯顿 AR 网关项目:在小镇中锚定难民的存在和叙述

分类: 人机交互, 新兴技术

作者: Joshua A. Fisher, Fernando Rochaix

发布时间: 2024-04-12

链接: http://arxiv.org/abs/2404.08179v1

摘要: 本文概述了克拉克斯顿 AR 网关项目,这是一个进入第二阶段的投机过程和工件,其中增强现实 (AR) 将用于放大佐治亚州克拉克斯顿难民社区的多样化叙述。该项目专注于将他们的故事和存在融入城镇的物理和数字景观中,采用参与式协同设计方法,直接与社区成员互动。这项场所营造工作旨在通过教难民增强现实开发技能来提升难民的生活水平,帮助他们通过公共艺术更自主地表达和提高自己的声音。希望其结果是 AR 体验不仅挑战流行的叙事,而且庆祝小镇的文化挂毯。这项工作是通过 AR 独特的功能提供支持的,用户可以将他们的体验作为公共空间中的交互式叙述。这种针对特定地点的 AR 互动故事可以鼓励这些空间内的互动,从而改变他们的构思、感知和体验方式。这个由难民驱动的 AR 创作过程反射性地改变了空间并确认了他们的存在和代理。该项目的第二阶段旨在建立一个适应多元化、包容难民的社区的模型,展示 AR 讲故事如何成为文化定位和庆祝活动的强大工具。

用于分布式眼动追踪的 A-DisETrac 高级分析仪表板

分类: 人机交互

作者: Yasasi Abeysinghe, Bhanuka Mahanama, Gavindya Jayawardena, Yasith Jayawardana, Mohan Sunkara, Andrew T. Duchowski, Vikas Ashok, Sampath Jayarathna

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.08143v1

摘要: 了解个人在协作任务期间如何聚焦和执行视觉搜索有助于提高用户参与度。眼球追踪测量为这种理解提供了信息线索。本文介绍 A-DisETrac,这是一种用于分布式眼动追踪的高级分析仪表板。它使用现成的眼动仪来并行监控多个用户,实时计算传统和高级的注视测量,并将其显示在交互式仪表板上。通过两项试点研究,该系统在用户体验和实用性方面进行了评估,并与现有工作进行了比较。此外,该系统还用于研究高级注视测量(例如环境焦点系数 K 和瞳孔活动实时指数)如何与协作行为相关。据观察,一组完成拼图所需的时间与量化的环境视觉扫描行为有关,花费更多时间的组有更多的扫描行为。用户体验调查结果表明他们的仪表板提供了相对良好的用户体验。

短暂的肌动:重新调整肌臂带的用途来控制一次性气动雕塑

分类: 人机交互, 新兴技术, 机器人技术

作者: Celia Chen, Alex Leitch

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.08065v1

摘要: 本文详细介绍了由已弃用的硬件技术和有意可分解的瞬态材料构建的交互式雕塑的开发过程。我们详细介绍了“Strain”的案例研究——一个情感原型,它回收了两个孤立的数字文物,为由普通一次性物品制成的动态雕塑提供动力。我们使用 Myo(一种废弃的肌电臂带)与 Programmable Air(一个软机器人原型项目)配合,操纵由避孕套、竹签和一个小型 3D 打印 PLA 塑料连接器库构成的气动膀胱阵列,用于工作与这些通用零件。由此产生的雕塑实现了令人惊讶的有机驱动。该项目的目标是生产几个可重复使用的组件:用于复苏 Myo Armband 的软件、用于可编程空气或等效气动项目的稳态软件,以及一个易于打印的部件库,可与通用竹制一次性用品一起用于雕塑原型制作。该项目致力于开发可用、可重复的工程,将其应用到一个稍微异想天开的物体上,以促进观众强烈的情感反应。通过这一点,我们将一次性产品转变为可持续产品。在本文中,我们反思了基于项目的见解,以拯救和振兴废弃的消费电子产品以供未来使用。

通过线性规划进行目标识别

分类: 人工智能, 人机交互

作者: Felipe Meneguzzi, Luísa R. de A. Santos, Ramon Fraga Pereira, André G. Pereira

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07934v1

摘要: 目标识别是观察者旨在识别与符合以观察序列给出的主体代理的感知行为的计划相对应的目标的任务。目标识别作为规划的研究包括使用规划技术对规划任务模型、观察结果和目标进行推理,从而产生非常有效的识别方法。在本文中,我们设计了依赖于算子计数框架的新颖的识别方法,提出了新的约束,并从理论上和经验上分析了它们的约束属性。操作员计数框架是一种使用整数/线性规划 (IP/LP) 有效计算目标成本启发式估计的技术。在理论领域,我们证明新的约束条件为符合观察结果的计划的成本提供了下限。我们还提供了广泛的实证评估来评估新的约束如何提高解决方案的质量,我们发现他们在决定哪些目标不太可能成为解决方案的一部分时特别知情。我们新颖的识别方法有两个关键优势:首先,它们采用新的 IP/LP 约束来有效地识别目标;其次,我们展示了新的 IP/LP 约束如何在部分可观察性和噪声可观察性下提高对目标的识别。

利用大型语言模型 (LLM) 支持人类与人工智能协作在线风险数据注释

分类: 人机交互, 人工智能

作者: Jinkyung Park, Pamela Wisniewski, Vivek Singh

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07926v1

摘要: 在这篇立场文件中,我们讨论了利用大语言模型作为交互式研究工具来促进人类编码员和人工智能之间的协作以有效地大规模注释在线风险数据的潜力。人机协作标记是一种很有前途的方法,可以为各种任务注释大规模且复杂的数据。然而,支持有效的人类与人工智能协作进行数据注释的工具和方法尚未得到充分研究。这种差距是相关的,因为联合标记任务需要支持双向互动讨论,可以增加细微差别和背景,特别是在高度主观和情境化的在线风险背景下。因此,我们提供了使用基于大语言模型的工具进行风险注​​释的一些早期好处和挑战,并为人机交互研究社区提出了未来的方向,以利用大语言模型作为研究工具,促进情境化在线数据注释中的人类与人工智能的协作。我们的研究兴趣与大语言模型作为研究工具研讨会的目的非常吻合,旨在确定使用大语言模型在人机交互研究中处理数据的持续应用和挑战。我们期望从组织者和参与者那里学习大语言模型如何帮助重塑 HCI 社区处理数据的方法的宝贵见解。

蛇的故事:探索混合主动共同创意讲故事游戏的游戏机制

分类: 人机交互

作者: Daijin Yang, Erica Kleinman, Giovanni Maria Troiano, Elina Tochilnikova, Casper Harteveld

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07901v1

摘要: 混合主动共同创意讲故事游戏作为一种将讲故事与游戏融合在一起的方式已经存在了一段时间。然而,现代混合主动共同创意叙事游戏主要优先考虑故事创作而不是游戏机制,这可能不会引起所有玩家的共鸣。因此,创建具有更复杂机制的混合主动游戏还有尚未开发的潜力,玩家可以在其中实现共同创造和游戏目标。为了探索混合主动共同创意叙事游戏中更突出的游戏玩法的潜力,我们创建了《贪吃蛇物语》,这是经典贪吃蛇游戏的变体,具有人类与人工智能共同写作的元素。为了探索玩家如何与混合主动游戏互动,我们对 11 名参与者进行了定性游戏测试。对出声思考和访谈数据的分析表明,玩家的策略和体验受到他们对《贪吃蛇总动员》作为协作工具、传统游戏或两者的结合的看法的影响。基于这些发现,我们提出了混合主动共同创意游戏未来发展的设计考虑因素。

Apprentice Tutor Builder:用户创建和个性化智能导师的平台

分类: 人机交互, 人工智能

作者: Glen Smith, Adit Gupta, Christopher MacLellan

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07883v1

摘要: 智能辅导系统(ITS)可以有效提高学生的学习成果。然而,它们的开发往往复杂、耗时,并且需要专门的编程和导师设计知识,从而阻碍了它们的广泛应用和个性化。我们推出了 Apprentice Tutor Builder (ATB),这是一个简化导师创建和个性化的平台。教师可以利用 ATB 的拖放工具来构建导师界面。然后,教师可以交互式地训练导师的底层人工智能代理,以生成可以解决问题的专家模型。培训是通过使用多种交互方式来实现的,包括演示、反馈和用户标签。我们与 14 名讲师进行了一项用户研究,以评估 ATB 设计对最终用户的有效性。我们发现用户喜欢界面构建器的灵活性以及代理教学的简便性和速度,但通常需要额外的节省时间的功能。有了这些见解,我们为我们的平台和其他利用交互式人工智能代理进行导师创建和定制的平台确定了一组设计建议。

逻辑与不可预测性的舞蹈:检查视觉分析任务中用户行为的可预测性

分类: 人机交互

作者: Alvitta Ottley

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07865v1

摘要: 开发能够与人类协作和自然交互的智能视觉分析 (VA) 系统是一个多方面且有趣的挑战。为协作而设计的 VA 系统必须能够熟练地应对复杂的环境,其中充满了人类行为的微妙性和不可预测性。然而,值得注意的是,存在人类行为可预测表现的场景。这些场景通常涉及常规操作或提供有限范围的选择。本文深入研究了视觉分析任务背景下用户行为的可预测性。它就预测用户行为在哪些情况下可行以及在哪些情况下具有挑战性进行了基于证据的讨论。最后,我们对未来必要的工作进行了前瞻性讨论,以培养人类与退伍军人事务部系统之间更加协同和高效的伙伴关系。这种探索不仅是为了了解我们当前在反映人类行为方面的能力和局限性,也是为了设想并为人机交互更加直观和高效的未来铺平道路。

使用深度学习文本到图像模型生成合成卫星图像——监测和验证的技术挑战和影响

分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者: Tuong Vy Nguyen, Alexander Glaser, Felix Biessmann

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07754v1

摘要: 新颖的深度学习(DL)架构已经达到了可以生成数字媒体的水平,包括逼真的图像,这些媒体很难与真实数据区分开来。这些技术已被用于生成机器学习 (ML) 模型的训练数据,DALL-E 2、Imagen 和 Stable Diffusion 等大型文本到图像模型在逼真的高分辨率图像生成方面取得了显着的成果。鉴于这些发展,监测和验证中的数据认证问题值得认真、系统地分析:合成图像的真实性如何?它们的生成有多容易?它们对机器学习研究人员有多大用处,以及它们在开放科学方面的潜力是什么?在这项工作中,我们使用新颖的深度学习模型来探索如何使用条件机制创建合成卫星图像。我们研究合成卫星图像生成的挑战,并根据真实性和最先进的指标评估结果。此外,我们还研究了合成数据如何缓解遥感机器学习方法中数据的缺乏。最后,我们讨论合成卫星图像在监测和验证方面的影响。

解开人工智能错误的困境:探索人类和机器解释大型语言模型的有效性

分类: 人机交互, 人工智能

作者: Marvin Pafla, Kate Larson, Mark Hancock

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07725v1

摘要: 可解释人工智能(XAI)领域已经产生了大量的方法(例如显着图)来深入了解人工智能(AI)模型,并随着深度学习(DL)的兴起而爆炸式增长。然而,人类参与研究质疑这些方法的有效性,特别是当人工智能输出错误时。在这项研究中,我们收集并分析了在问答任务 (N=40) 中收集的 156 个人类生成的文本和基于显着性的解释,并将它们与最先进的 XAI 解释(积分梯度、保守 LRP和 ChatGPT)在一项人类参与者研究中(N=136)。我们的研究结果表明,参与者发现人类显着图比机器显着图更有助于解释人工智能答案,但表现与对人工智能模型和解释的信任呈负相关。这一发现暗示了人工智能解释错误的困境,当有用的解释支持错误的人工智能预测时,可能会导致任务绩效降低。

通过分层尖峰注意特征分解网络进行高效的基于表面肌电图的跨受试者关节角度估计

分类: 人机交互

作者: Xin Zhou, Chuang Lin, Can Wang, Xiaojiang Peng

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07517v1

摘要: 表面肌电图 (sEMG) 已证明在同步和比例控制 (SPC) 方面具有巨大潜力。然而,现有的基于表面肌电图的关节角度预测算法往往推理成本较高,或者仅限于特定主题而不是跨主题场景。为了应对这些挑战,我们引入了分层尖峰注意力特征分解网络(SAFE-Net)。该网络最初使用尖峰稀疏注意力编码器(SSAE)将 sEMG 信号压缩为神经尖峰形式。随后,通过尖峰注意力特征分解(SAFD)模块将压缩特征分解为运动学和生物特征。最后,运动学和生物学特征分别用于预测关节角度和识别受试者身份。我们对两个数据集(SIAT-DB1 和 SIAT-DB2)的验证以及与两种现有方法 Informer 和 Spikformer 的比较表明,SSAE 在推理成本方面分别比它们节省了 39.1% 和 37.5% 的显着功耗。此外,SAFE-Net 在两个数据集上的识别准确性均超过了 Informer 和 Spikformer。这项研究强调了 SAFE-Net 在推进下肢康复外骨骼机器人 SPC 领域发展的潜力。

具有序列显着性的交互式提示调试

分类: 计算和语言, 人工智能, 人机交互, 机器学习

作者: Ian Tenney, Ryan Mullins, Bin Du, Shree Pandya, Minsuk Kahng, Lucas Dixon

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07498v1

摘要: 我们推出了 Sequence Salience,这是一种使用输入显着性方法进行交互式提示调试的可视化工具。序列显着性建立在广泛使用的文本分类和单标记预测显着性方法的基础上,并将其扩展到专为调试复杂的 LLM 提示而定制的系统。我们的系统非常适合长文本,并通过以下方式扩展了之前的工作:1)提供对单词、句子或段落级别的标记级显着性的可控聚合,使长输入的显着性易于处理; 2)支持快速迭代,从业者可以根据显着性结果采取行动,完善提示,并对新输出运行显着性。我们提供的案例研究显示了序列显着性如何帮助从业者使用几种复杂的提示策略,包括少样本、思维链和宪法原则。 Sequence Salience 基于 Learning Interpretability Tool(一个用于 ML 模型可视化的开源平台)构建,代码、笔记本和教程可从 http://goo.gle/sequence-salience 获取。

RASSAR:增强现实中的房间无障碍和安全扫描

分类: 人机交互

作者: Xia Su, Han Zhang, Kaiming Cheng, Jaewook Lee, Qiaochu Liu, Wyatt Olson, Jon Froehlich

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07479v1

摘要: 我们家的安全性和可达性对于生活质量至关重要,并且随着我们年龄的增长、生病、接待客人或经历生孩子等生活事件而不断变化。研究人员和卫生专业人员创建了检查表等评估工具,使房主和经过培训的专家能够识别和缓解安全和访问问题。随着计算机视觉、增强现实 (AR) 和移动传感器的进步,新方法现已成为可能。我们推出 RASSAR,这是一款移动 AR 应用程序,用于使用激光雷达和实时计算机视觉半自动识别、定位和可视化室内无障碍和安全问题,例如难以接近的桌子高度或不安全的松散地毯。我们展示了三项研究的结果:一项由 5 个利益相关者群体的 18 名参与者参与的形成性研究,旨在为 RASSAR 的设计提供信息;对 10 个家庭进行的技术性能评估,展示了最先进的性能;以及由 6 个利益相关者参与的用户研究。最后我们讨论了未来基于人工智能的室内可达性评估工具、RASSAR 的可扩展性和关键应用场景。

多样性的双刃剑:分析种族对远程结对编程交互的影响

分类: 软件工程, 人机交互

作者: Shandler A. Mason, Sandeep Kaur Kuttal

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07427v1

摘要: 远程结对编程广泛应用于软件开发中,但没有研究探讨种族如何影响这些交互。我们之所以开展这项研究,是因为历史上黑人开发者在科技行业的代表性不足,而白人开发者占大多数。我们的研究涉及 24 名经验丰富的开发人员,形成了 12 组性别平衡的同族和混血对。两人利用有声思考的方法合作完成一项编程任务,然后进行个人回顾性访谈。我们的研究结果显示,混血对的生产力得分较高,而同族和混血对之间的代码质量没有差异。混血对在任务分配、共同决策和角色交换方面表现出色,但遇到了沟通挑战、不适和焦虑,这揭示了多样性动态的复杂性。我们的研究强调了种族对远程结对编程的影响,并强调需要多样化的工具和方法来解决协作的种族差异。

好得令人难以置信:人们拒绝机器人提供的免费礼物,因为它们推断出不良意图

分类: 人机交互

作者: Benjamin Lebrun, Andrew Vonasch, Christoph Bartneck

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07409v1

摘要: 最近的一项心理学研究发现,人们有时会拒绝别人过于慷慨的提议,因为他们认为隐藏的“幻影成本”一定是交易的一部分。当一个人无缘无故地显得过于慷慨时,就会出现幻影成本。这项研究旨在探讨人们在与机器人互动时是否可以想象虚拟成本。为此,屏幕或物理实体(人或机器人)向人们提供 cookie 或 cookie + $2。然后参与者被要求做出选择是接受还是拒绝该提议。结果表明,在两个具体层面上,当与人类以及机器人互动时,人们确实会感知到要约中的幻影成本 + $2 条件,从而导致特征性的行为效应,即提供更多的钱使人们不太可能接受要约。虽然人们比人类更有可能接受来自机器人的提议,但当与实体化的屏幕相比时,人们更经常接受来自人类的提议,但无论是屏幕还是实体化的机器人,人们同样有可能接受来自机器人的提议。这表明人们可以将机器人(和人类)视为具有隐藏意图和知识的社会主体,这会影响他们对机器人的行为。这不仅为人们在与机器人交互时如何做出决策提供了新的见解,而且还为机器人的具体化如何影响 HRI 研究提供了新的见解。

SealMates:使用集体行为驱动的化身支持视频会议中的通信

分类: 人机交互

作者: Mark Armstrong, Chi-Lan Yang, Kinga Skiers, Mengzhen Lim, Tamil Selvan Gunasekaran, Ziyue Wang, Takuji Narumi, Kouta Minamizawa, Yun Suen Pai

发布时间: 2024-04-11

链接: http://arxiv.org/abs/2404.07403v1

摘要: 远程通信的有限非语言线索和空间分布性质使得不熟悉的成员在通过视频会议进行社交互动时难以表达。虽然它可以看到他人的面部表情,但视觉反馈反而会导致意外的自我关注,导致用户错过其他人平等参与对话的线索。为了支持不熟悉的对方之间的表达性沟通和平等参与,我们提出了 SealMates,这是一种行为驱动的化身,其中化身根据集体凝视和言语模式推断群体的参与程度,然后在视频会议中跨越对话者的窗口。通过对 15 组三合会进行对照实验,我们发现与没有行为驱动的化身相比,化身的运动鼓励人们体验更多的自我暴露,并使他们感觉每个人都平等地参与对话。我们讨论行为驱动的化身如何影响分布式成员的看法以及化身介导的通信对未来平台的影响。

DimBridge:使用谓词逻辑降维中视觉模式的交互式解释

分类: 人机交互

作者: Brian Montambault, Gabriel Appleby, Jen Rogers, Camelia D. Brumar, Mingwei Li, Remco Chang

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07386v2

摘要: 降维技术广泛用于可视化高维数据。然而,在原始数据空间的背景下对解释降维结果模式的支持通常是不够的。因此,用户可能很难从预测中获取见解。在本文中,我们介绍了 DimBridge,这是一种可视化分析工具,允许用户与投影中的视觉模式进行交互并检索相应的数据模式。 DimBridge 支持多种交互,允许用户执行各种分析,从对比多个集群到解释复杂的潜在结构。利用一阶谓词逻辑,DimBridge 识别与查询模式相关的原始维度中的子空间,并为用户提供可视化并与其交互的界面。我们演示了 DimBridge 如何帮助用户克服与解释投影中的视觉模式相关的挑战。

通过最大差异竞争对大型语言模型进行样本高效的人类评估

分类: 机器学习, 计算和语言, 人机交互

作者: Kehua Feng, Keyan Ding, Kede Ma, Zhihua Wang, Qiang Zhang, Huajun Chen

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.08008v1

摘要: 过去几年见证了大型语言模型(LLM)的激增。然而,由于标准指标在反映人类偏好方面的不准确以及对信息丰富且多样化的测试示例的采样效率低下,对大语言模型的自动化和公正评估具有挑战性。虽然人工评估仍然是黄金标准,但它既昂贵又耗时,特别是在处理大量测试样本时。为了解决这个问题,我们提出了一种基于最大差异(MAD)竞争的样本高效人类评估方法。 MAD 自动选择一小组信息丰富且多样化的指令,每个指令适用于两个大语言模型,其反应受到人类受试者的三个替代强制选择的影响。然后使用 Elo 评级系统将成对比较结果汇总为全球排名。我们选择了八位具有代表性的大语言模型,从知识理解、数学推理、写作和编码这四种技能方面对他们进行了比较。实验结果表明,所提出的方法对大语言模型的能力进行了可靠且合理的排名,确定了他们的相对优势和劣势,并为大语言模型的进一步发展提供了宝贵的见解。

BISCUIT:在计算笔记本中使用临时 UI 搭建 LLM 生成的代码

分类: 人机交互, 人工智能

作者: Ruijia Cheng, Titus Barik, Alan Leung, Fred Hohman, Jeffrey Nichols

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07387v1

摘要: 新手经常在计算笔记本中学习机器学习教程,并一直在采用基于大型语言模型 (LLM) 的代码生成技术。然而,他们在理解和使用大语言模型生成的代码方面遇到了困难。为了缓解这些挑战,我们在计算笔记本中引入了一种新颖的工作流程,通过额外的临时 UI 步骤来增强基于 LLM 的代码生成,为用户提供基于 UI 的支架作为用户提示和代码生成之间的中间阶段。我们在 BISCUIT 中展示了这个工作流程,BISCUIT 是 JupyterLab 的扩展,它为用户提供由 LLM 基于其代码上下文和意图生成的临时 UI,为用户提供理解、指导和探索 LLM 生成的代码的脚手架。通过 10 个新手使用 BISCUIT 进行机器学习教程的用户研究,我们发现 BISCUIT 提供了代码的用户语义表示来帮助他们理解,降低了提示工程的复杂性,并为用户创建了一个探索不同变量并迭代他们的想法的游乐场。我们讨论了我们的研究结果对代码生成大语言模型中以 UI 为中心的交互范式的影响。

使用谓词逻辑降维中视觉模式的交互式解释

分类: 人机交互

作者: Brian Montambault, Gabriel Appleby, Jen Rogers, Camelia D. Brumar, Mingwei Li, Remco Chang

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07386v1

摘要: 降维技术广泛用于可视化高维数据。然而,在原始数据空间的背景下对解释降维结果模式的支持通常是不够的。因此,用户可能很难从预测中获取见解。在本文中,我们介绍了 DimBridge,这是一种可视化分析工具,允许用户与投影中的视觉模式进行交互并检索相应的数据模式。 DimBridge 支持多种交互,允许用户执行各种分析,从对比多个集群到解释复杂的潜在结构。利用一阶谓词逻辑,DimBridge 识别与查询模式相关的原始维度中的子空间,并为用户提供可视化并与其交互的界面。我们演示了 DimBridge 如何帮助用户克服与解释投影中的视觉模式相关的挑战。

在 STEM-EELS 中构建交互式人在环自动化实验 (hAE) 的工作流程

分类: 材料科学, 人机交互

作者: Utkarsh Pratiush, Kevin M. Roccapriore, Yongtao Liu, Gerd Duscher, Maxim Ziatdinov, Sergei V. Kalinin

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07381v1

摘要: 随着扫描透射电子显微镜 (STEM) 中像差校正电子能量损失光谱 (EELS) 的最新进展,在纳米和原子尺度上探索物质的结构、化学和物理特性已成为可能。然而,当前的 STEM-EELS 范式依赖于经典的矩形网格采样,其中假设所有表面区域都具有相同的先验兴趣。对于现实世界场景来说,情况通常并非如此,在现实世界场景中,感兴趣的现象集中在少数空间位置。基本问题之一是发现在 EELS 光谱中具有特定特征的纳米或原子尺度结构。在这里,我们系统地探索了控制 STEM-EELS 深度内核学习 (DKL) 发现工作流程的超参数,并确定了局部结构描述符和采集函数在实验进展中的作用。与实际实验一致,我们观察到对于某些参数组合,实验路径可能陷入局部最小值。我们演示了在系统的真实空间和特征空间中监控自动化实验的方法,并监控 DKL 模型的知识获取。在此基础上,我们构建了干预策略,从而定义了人在环自动化实验(hAE)。这种方法可以进一步扩展到其他技术,包括 4D STEM 和其他形式的光谱成像。

通过减色处理制造纸电路

分类: 人机交互

作者: Ruhan Yang, Krithik Ranjan, Ellen Yi-Luen Do

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07364v1

摘要: 本文介绍了一种新的纸电路制造方法,该方法克服了设计障碍并提高了电路设计的灵活性。传统的电路板依赖于细迹线,这限制了应用于纸质电路时的复杂性和准确性。为了解决这个问题,我们提出了一种在纸电路中使用大导电区域并在制造过程中进行减材处理的方法。这种方法消除了设计障碍,并为电路设计提供了更大的灵活性。我们推出 PaperCAD,这是一种软件工具,可通过将传统电路设计转换为纸质电路设计来简化设计过程。我们通过创建两个纸电路板来展示我们的技术。我们的方法有潜力促进纸电路新应用的开发。

“我们需要结构化输出”:面向以用户为中心的大型语言模型输出约束

分类: 人机交互

作者: Michael Xieyang Liu, Frederick Liu, Alexander J. Fiannaca, Terry Koo, Lucas Dixon, Michael Terry, Carrie J. Cai

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07362v1

摘要: 大型语言模型可以产生创造性和多样化的反应。然而,要将它们集成到当前的开发人员工作流程中,必须限制它们的输出遵循特定的格式或标准。在这项工作中,我们调查了 51 位经验丰富的行业专业人士,从以用户为中心的角度了解推动输出限制需求的场景和动机的范围。我们确定了两个级别约束的 134 个具体用例:低级,确保输出遵循结构化格式和适当的长度;高级,要求输出遵循语义和风格指南,而不产生幻觉。至关重要的是,应用输出约束不仅可以简化当前为开发人员开发、测试和集成 LLM 提示的重复过程,还可以增强 LLM 支持的功能和应用程序的用户体验。最后,我们讨论了用户偏好和需求,以阐明大语言模型的预期约束,以及约束原型工具的初始设计。

增强软机器人的可访问性:探索嵌入磁铁的纸质交互

分类: 人机交互

作者: Ruhan Yang, Ellen Yi-Luen Do

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07360v1

摘要: 本文探讨了嵌入式磁铁的实现,以增强基于纸张的交互。将磁铁集成到基于纸张的交互中简化了制造过程,使其更容易构建软机器人系统。我们讨论通过这种方法可实现的各种交互模式,并强调它们的潜在应用。

基于 Transformer 的视频人类注视行为预测模型

分类: 计算机视觉和模式识别, 人机交互, 机器学习

作者: Suleyman Ozdel, Yao Rong, Berat Mert Albaba, Yen-Ling Kuo, Xi Wang

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07351v1

摘要: 在视频理解任务中利用人类凝视的眼动追踪应用程序变得越来越重要。为了有效地自动化基于眼动追踪数据的视频分析过程,准确复制人类注视行为非常重要。然而,由于人类注视模式固有的复杂性和模糊性,这项任务提出了重大挑战。在这项工作中,我们介绍了一种模拟人类凝视行为的新方法。我们的方法使用基于变压器的强化学习算法来训练充当人类观察者的代理,其主要作用是观看视频和模拟人类凝视行为。我们采用了从 VirtualHome 模拟器生成的视频中收集的眼动追踪数据集,主要关注活动识别。我们的实验结果通过强调其复制人类凝视行为的能力及其对使用真实人类凝视作为输入的下游任务的适用性,证明了我们的凝视预测方法的有效性。

混合现实遗产表演作为遗产地的非殖民化工具

分类: 人机交互

作者: Mariza Dima, Damon Daylamani-Zad, Vangelis Lympouridis

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07348v1

摘要: 在本文中,我们介绍了两种世界首创的混合现实 (MR) 体验,它们融合了智能 AR 眼镜和现场剧院,并在遗址中进行,旨在揭示该遗址关于奴隶制的隐藏而艰难的历史。我们将这些独特的普通观众体验称为混合现实遗产表演 (MRHP)。随着我们最初的两场表演的发展,我们设计并开发了一种工具和指南,可以通过批判性地让公众了解欧洲和殖民叙事中代表性不足的声音和观点,帮助遗产组织完成非殖民化进程。评估显示了 MRHP 在吸引和教育遗产观众方面的具体和情感潜力。对设计过程的见解正在被形成一个广泛的设计工具包,旨在支持体验设计、剧院和遗产专业人士合作开展类似的项目。

用于以意图为条件的动作预期的注视引导图神经网络

分类: 计算机视觉和模式识别, 人机交互, 机器学习

作者: Suleyman Ozdel, Yao Rong, Berat Mert Albaba, Yen-Ling Kuo, Xi Wang

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07347v1

摘要: 人类利用目光将注意力集中在重要信息上,同时感知和解释视频中的意图。将人类凝视纳入计算算法可以显着提高视频理解任务中的模型性能。在这项工作中,我们解决了视频理解中的一项具有挑战性和创新性的任务:根据部分视频预测视频中代理的动作。我们引入了凝视引导动作预期算法,该算法根据视频输入建立视觉语义图。我们的方法利用图神经网络来识别代理的意图并预测实现该意图的动作序列。为了评估我们方法的效率,我们收集了一个数据集,其中包含 VirtualHome 环境中生成的家庭活动,以及观看视频的人类注视数据。我们的方法优于最先进的技术,18 类意图识别的准确率提高了 7%。这凸显了我们的方法从人类注视数据中学习重要特征的效率。

评估桌面和虚拟现实中计算笔记本的导航和比较性能

分类: 人机交互

作者: Sungwon In, Erick Krokos, Kirsten Whitley, Chris North, Yalong Yang

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07161v1

摘要: 计算笔记本是数据分析的多功能工具。然而,其传统的用户界面无法跟上不断增长的数据相关任务的步伐,这表明需要新的方法。随着交互技术和计算环境的快速发展,人们对将新兴技术集成到数据驱动的工作流程中越来越感兴趣。尤其是虚拟现实,已经展示了其在交互式数据可视化方面的潜力。在这项工作中,我们的目的是尝试将计算笔记本应用到 VR 中,并验证 VR 可以带来的潜在好处。我们专注于导航和比较方面,因为它们是分析师工作流程中的基本组件。为了进一步改进比较,我们设计并实现了分支和合并功能。我们在桌面和 VR 中测试了计算笔记本,无论是否添加了分支和合并功能。我们发现与桌面相比,VR 显着促进了导航,并且创建分支的能力增强了比较。

探索基于虚拟现实的自闭症谱系障碍干预措施中的生理反应:数据驱动的调查

分类: 人机交互, 机器学习, 92C30 (Primary) 92C55, 68T99 (Secondary)

作者: Gianpaolo Alvari, Ersilia Vallefuoco, Melanie Cristofolini, Elio Salvadori, Marco Dianti, Alessia Moltani, Davide Dal Castello, Paola Venuti, Cesare Furlanello

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07159v1

摘要: 虚拟现实 (VR) 已成为增强自闭症谱系障碍 (ASD) 患者社交技能和情感健康的有前途的工具。通过技术探索,本研究采用 VR 内的多人严肃游戏环境,让 34 名被诊断患有自闭症谱系障碍 (ASD) 的个体参与进来,并采用高精度生物传感器来全面了解参与者在 VR 会话期间的唤醒和反应。参与者接受了与利益相关者和临床专家合作设计的一系列 3 个虚拟场景,以在受控和结构化的虚拟环境中促进社会认知技能和情绪调节。我们将该框架与可穿戴式非侵入式生物信号采集传感器结合起来,重点收集心率变异性和呼吸模式来监测参与者的行为。此外,通过观察和半结构化访谈进行行为评估,结合生理测量分析数据,以确定相关性并探索数字干预效果。初步分析显示生理反应和行为结果之间存在显着相关性,表明生理反馈有可能增强基于 VR 的 ASD 干预措施。该研究证明了使用实时数据来适应虚拟场景的可行性,为支持个性化治疗提供了一条有前途的途径。将定量生理反馈整合到数字平台中代表着自闭症谱系障碍个性化干预的向前迈出了一步。通过利用实时数据来调整治疗内容,这种方法有望提高数字疗法的功效和参与度。

临床医生的一致性如何?用动力学模型评估脓毒症疾病进展的可预测性

分类: 机器学习, 人机交互

作者: Unnseo Park, Venkatesh Sivaraman, Adam Perer

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07148v1

摘要: 强化学习(RL)是一种很有前景的方法,可以为重症监护中的脓毒症患者制定治疗政策。虽然回顾性评估指标显示,遵循这些政策后死亡率会降低,但临床医生的研究表明,他们的建议往往是虚假的。我们认为这些缺点可能是由于训练数据中观察到的行为和结果缺乏多样性,并且我们构建了实验来研究预测临床医生行为引起的脓毒症严重程度变化的可行性。初步结果表明,纳入行动信息并不能显着提高模型性能,这表明临床医生的行动可能不足以对疾病进展产生可测量的影响。我们讨论这些发现对优化脓毒症治疗的影响。

“我的有毒特质是认为我会记住这一点”:功能丰富的软件视频教程的学习者体验中的差距

分类: 人机交互

作者: Ian Drosos, Advait Sarkar, Andrew D. Gordon

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07114v1

摘要: 视频教程是非正式和正式学习的流行媒介。然而,当学习者尝试查看并遵循这些教程时,他们会遇到我们所说的差距,即可能妨碍学习的问题。我们研究了电子表格等功能丰富的软件视频教程用户遇到的差距。通过收集和分析 43 位创作者在 YouTube、TikTok 和 Instagram 上发布的 90 个 Microsoft Excel 视频教程中的 360 条观众评论,我们开发了此类差距的理论和分类法,确定了它们如何成为学习障碍。我们对 8 位极具影响力的教程创作者进行了情境访谈,以调查他们的观众体验到的差距以及他们如何解决这些差距。此外,我们还深入了解了他们在创建视频教程时的创作过程和挫折。最后,我们向创作者提供了两种设计,旨在解决反馈和替代设计理念的评论分析中发现的差距。

VLLM 通过常识推理为情感理解提供更好的背景

分类: 计算机视觉和模式识别, 人机交互

作者: Alexandros Xenos, Niki Maria Foteinopoulou, Ioanna Ntinou, Ioannis Patras, Georgios Tzimiropoulos

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07078v1

摘要: 识别情境中的情绪涉及识别个人的明显情绪,并考虑周围场景的情境线索。以前完成此任务的方法涉及显式场景编码架构的设计或外部场景相关信息(例如字幕)的合并。然而,这些方法通常利用有限的上下文信息或依赖于复杂的训练管道。在这项工作中,我们利用视觉和大型语言模型(VLLM)的突破性功能来增强上下文情感分类,而不会在两阶段方法中增加训练过程的复杂性。在第一阶段,我们建议促使 VLLM 以自然语言生成主体相对于视觉上下文的明显情绪的描述。在第二阶段,描述被用作上下文信息,并与图像输入一起用于训练基于变压器的架构,该架构在最终分类任务之前融合文本和视觉特征。我们的实验结果表明,文本和图像特征具有互补信息,并且我们的融合架构在没有任何复杂训练方法的情况下显着优于单独的模式。我们在三个不同的数据集(即 EMOTIC、CAER-S 和 BoLD)上评估我们的方法,并且与更复杂的方法相比,在所有数据集和指标上实现了最先进的或可比的准确性。该代码将在 github 上公开:https://github.com/NickyFot/EmoCommonSense.git

WordDecipher:通过可解释的人工智能增强非英语母语人士的数字工作空间沟通

分类: 人机交互, 人工智能, 计算和语言

作者: Yuexi Chen, Zhicheng Liu

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.07005v1

摘要: 非英语母语人士 (NNES) 在数字工作空间通信(例如电子邮件、Slack 消息)中面临挑战,他们经常会无意中翻译母语的表达方式,这可能会导致尴尬或不正确的使用。目前的AI辅助写作工具都具备流畅度增强和重写建议功能;然而,NNES 可能很难掌握各种表达方式之间的微妙之处,因此很难选择准确反映其意图的表达方式。在高风险的基于文本的通信中,此类挑战会更加严重,因为缺乏非语言提示会增加误解的风险。通过利用大语言模型 (LLM) 和词嵌入的最新进展,我们提出了 WordDecipher,这是一种可解释的人工智能辅助写作工具,可增强 NNES 的数字工作空间通信。 WordDecipher 不仅可以识别用户写作中检测到​​的感知社交意图,还可以通过数字或从用户用母语书写的内容来推断,生成与用户预期消息一致的重写建议。然后,WordDecipher 提供细微差别的概述,以帮助 NNES 做出选择。通过使用场景,我们演示了 WordDecipher 如何显着增强 NNES 传达其请求的能力,展示了其改变 NNES 工作空间通信的潜力。

理清学生书面评估中与人工智能的关键互动

分类: 人机交互, 人工智能, I.2; K.3.1

作者: Antonette Shibani, Simon Knight, Kirsty Kitto, Ajanie Karunanayake, Simon Buckingham Shum

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06955v1

摘要: 人工智能 (AI) 已成为社会无处不在的一部分,但存在一个关键挑战,即确保人类具备所需的批判性思维和人工智能素养技能,以便通过了解机器的能力和局限性来与机器进行有效交互。这些技能对于学习者在生成人工智能时代的发展尤为重要,在这个时代,人工智能工具可以展示以前被认为是人类独有的复杂知识和能力。为了以书面形式激活有效的人类与人工智能伙伴关系,本文为概念化学习者与人工智能的批判性互动的概念迈出了第一步。使用理论模型和经验数据,我们的初步研究结果表明,在写作过程中普遍缺乏与人工智能的深度互动。我们相信,这些成果可以在未来带来更好的任务和工具设计,让学习者在与人工智能互动时发展深入的批判性思维。

ChildCIdbLong:纵向儿童计算机交互数据库和儿童发展的定量分析

分类: 人机交互

作者: Juan Carlos Ruiz-Garcia, Ruben Tolosana, Ruben Vera-Rodriguez, Aythami Morales, Julian Fierrez, Javier Ortega-Garcia, Jaime Herreros-Rodriguez

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06919v1

摘要: 本文全面概述了儿童计算机交互 (CCI) 领域的最新研究。本文的主要贡献有两个方面。首先,我们提出了一个名为 ChildCIdbLong 的新型纵向 CCI 数据库,该数据库包含 600 多名 18 个月至 8 岁的儿童,在 4 个学年(2019-2023)内连续获取。因此,ChildCIdbLong 在平板电脑设备上包含超过 12K 的测试采集。 ChildCIdbLong 考虑了不同的测试,需要不同的触摸和手写笔手势,从而能够评估手眼协调、精细运动技能、规划和视觉跟踪等技能。除了 ChildCIdbLong 数据库之外,我们还提出了一种称为测试质量 (Q) 的新型定量指标,旨在通过儿童与平板设备的交互来衡量儿童的运动和认知发展。为了更好地理解所提出的 Q 指标,每个测试都引入了流行的基于百分位数的增长表示,提供了一个二维空间来比较儿童的发展与人口的典型年龄技能。本文取得的结果凸显了新型 ChildCIdbLong 数据库与提出的 Q 指标相结合来衡量儿童成长过程中的运动和认知发展的潜力。拟议的框架作为一种自动工具非常有用,可以支持儿童专家(例如儿科医生、教育工作者或神经科医生)及早发现儿童发育过程中潜在的身体/认知障碍。

SARA:智能阅读理解助手

分类: 人机交互

作者: Enkeleda Thaqi, Mohamed Mantawy, Enkelejda Kasneci

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06906v1

摘要: SARA 将眼动追踪和最先进的大型语言模型集成到混合现实框架中,通过提供实时个性化帮助来增强阅读体验。通过跟踪眼球运动,SARA 可以识别最吸引用户注意力的文本片段,并可能表明不确定区域和理解问题。该过程涉及以下关键步骤:文本检测和提取、视线跟踪和对齐以及检测到的阅读难度评估。结果是定制的解决方案直接呈现在用户的视野内,作为识别的困难文本区域上的虚拟覆盖。这种支持通过提供额外的上下文、改写的解决方案和多语言帮助,使用户能够克服不熟悉的词汇和复杂句子等挑战。 SARA 的创新方法表明它有潜力改变阅读体验并提高阅读水平。

扩展对浏览器性能的影响:Google Chrome 的实证研究

分类: 表现, 人机交互, 软件工程

作者: Bihui Jin, Heng Li, Ying Zou

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06827v1

摘要: 用户已广泛使用网络浏览器来进行各种在线活动,例如信息查找或在线购物。为了改善用户体验并扩展浏览器的功能,从业者提供了允许用户在其浏览器上安装第三方提供的插件(即扩展)的机制。然而,人们对此类扩展造成的性能影响知之甚少。在本文中,我们进行了一项实证研究,以了解扩展对最流行的浏览器 Google Chrome 的用户感知性能(即能耗和页面加载时间)的影响。我们总共研究了 11 个类别(例如开发工具和体育)的 72 个代表性扩展。我们观察到,使用扩展程序可能会对浏览器性能产生负面影响,即使扩展程序是在非预期情况下使用的(例如,当未授予但需要登录扩展程序时,或者当扩展程序未用于指定网站时)。我们还确定了一系列对扩展的性能影响有显着影响的因素,例如扩展所采用的代码复杂性和隐私实践(即用户数据的收集)。根据我们的经验观察,我们为开发者和用户提供建议,以减轻浏览器扩展的性能影响,例如针对扩展的非预期使用场景进行性能测试和优化,或者遵守扩展的正确使用习惯(例如,登录需要时可延长)。

修订智能辅导系统元架构的提案,以促进教育工作者的可解释性和透明度

分类: 人机交互

作者: Florian Gnadlinger, Simone Kriglstein

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06820v1

摘要: 这一贡献引起了人们对形成性评估背景下智能辅导系统元架构设计决策的关注。作为解决这个问题的第一个结果,本贡献提出了一种包含教育者角色的元架构系统设计。

对话式智能辅导系统的个性感知学生模拟

分类: 计算和语言, 人机交互

作者: Zhengyuan Liu, Stella Xin Yin, Geyu Lin, Nancy F. Chen

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06762v1

摘要: 智能辅导系统(ITS)可以提供个性化和自定进度的学习体验。大语言模型(LLM)的出现进一步实现了更好的人机交互,并促进了数学和语言学习等各个学科中会话式ITS的发展。在对话教学中,认识并适应个体特征可以显着提高学生的参与度和学习效率。然而,在训练和评估会话式智能交通系统中,表征和模拟学生的性格仍然具有挑战性。在这项工作中,我们提出了一个框架,通过完善和整合认知和非认知方面来构建不同学生群体的概况,并利用大语言模型在语言学习场景中进行人格意识的学生模拟。我们通过多方面验证进一步增强了框架,并从教师和学生的角度进行了广泛的分析。我们的实验结果表明,最先进的大语言模型可以根据给定的语言能力和个性特征产生不同的学生反应,并触发教师的适应性脚手架策略。

增量 XAI:通过增量解释对 AI 进行令人难忘的理解

分类: 人机交互, 人工智能

作者: Jessica Y. Bo, Pan Hao, Brian Y. Lim

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06733v1

摘要: 许多可解释的人工智能(XAI)技术通过提供简洁的显着信息(例如稀疏线性因子)来努力实现可解释性。然而,用户要么只能看到不准确的全局解释,要么看到差异很大的本地解释。我们建议通过利用人类认知能力通过逐步接收更多细节来积累知识来提供更详细的解释。专注于线性因子解释(因子$\times$值=结果),我们引入增量XAI,通过提供基础+增量因子来自动划分一般实例和非典型实例的解释,帮助用户阅读和记住更忠实的解释。通过重用基本因子并减少非典型案例中显示的因子数量来提高记忆力。在建模、形成性和总结性用户研究中,我们根据基线解释方法评估了增量 XAI 的忠实性、可记忆性和可理解性。这项工作有助于提供更可用的解释,让用户可以更好地根深蒂固,以促进与人工智能的直观互动。

MathVC:用于数学教育的大语言模型模拟多角色虚拟教室

分类: 计算和语言, 人机交互

作者: Murong Yue, Wijdane Mifdal, Yixuan Zhang, Jennifer Suh, Ziyu Yao

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06711v1

摘要: 数学建模 (MM) 被认为是 STEM 学科学生的一项基本技能。当学生能够参与小组讨论和协作解决问题时,练习 MM 技能通常是最有效的。然而,由于监督此类团体活动所需的教师和教育资源分布不均,学生并不总是能获得平等的机会进行这种实践。令人兴奋的是,大型语言模型(LLM)最近在数学问题建模和模拟具有不同特征和属性的角色方面表现出了强大的能力。从大语言模型的进步中汲取灵感,在这项工作中,我们推出了 MATHVC,这是第一个由大语言模型支持的虚拟教室,其中包含多个大语言模型模拟的学生角色,人类学生可以与他们一起练习他们的 MM 技能。为了鼓励每个 LLM 角色的行为与其指定的数学相关属性保持一致(称为“特征对齐”),并使整体对话过程接近真实的学生 MM 讨论(称为“对话程序对齐”),我们提出了三项创新:将 MM 领域知识集成到模拟中,定义符号模式作为角色模拟的基础,并在平台级别设计元规划器来驱动对话过程。通过实验和消融研究,我们证实了模拟方法的有效性,并表明 MATHVC 有望在未来使现实生活中的学生受益。

文化团队:人工智能辅助的交互式红队,挑战大语言模型(缺乏)多元文化知识

分类: 计算和语言, 人工智能, 人机交互

作者: Yu Ying Chiu, Liwei Jiang, Maria Antoniak, Chan Young Park, Shuyue Stella Li, Mehar Bhatia, Sahithya Ravi, Yulia Tsvetkov, Vered Shwartz, Yejin Choi

发布时间: 2024-04-10

链接: http://arxiv.org/abs/2404.06664v1

摘要: 前沿大语言模型(LLM)是由具有不同文化背景的研究人员和从业者在具有不同来源的数据集上开发的。然而,大语言模型(缺乏)多元文化知识无法通过当前制定基准的方法进行有效评估。现有的多元文化评估主要依赖于昂贵且受限的人工注释或可能过时的互联网资源。因此,他们努力捕捉文化规范的复杂性、动态性和多样性。 LLM 生成的基准很有前途,但也存在传播其旨在衡量的相同偏差的风险。为了协同人类注释者的创造力和专业文化知识以及基于大语言模型的自动化的可扩展性和标准化,我们引入了CulturalTeaming,这是一个交互式红队系统,利用人类与人工智能的协作来构建真正具有挑战性的评估数据集,用于评估大语言模型,同时提高注释者的能力和经验。我们的研究表明,CulturalTeaming 的各种人工智能辅助模式支持注释者以游戏化的方式提出现代大语言模型无法解决的文化问题。重要的是,人工智能辅助水平的提高(例如,大语言模型生成的修订提示)使用户能够通过增强的自身感知创造力来创建更困难的问题,从而揭示了在现代评估数据集创建程序中涉及更重的人工智能辅助的承诺。通过一系列时长一小时的研讨会,我们收集了 CULTURALBENCH-V0.1,这是一个紧凑但高质量的评估数据集,其中包含用户的红队尝试,现代大语言模型的不同系列的准确率在 37.7% 到 72.2% 之间,揭示了大语言模型多元文化能力的显着差距。

缺失的部分:框架不确定性如何影响人工智能决策辅助的纵向信任——零工司机案例研究

分类: 人机交互

作者: Rex Chen, Ruiyi Wang, Norman Sadeh, Fei Fang

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06432v1

摘要: 基于人工智能 (AI) 的决策辅助变得越来越普遍。当此类系统部署在具有固有不确定性的环境中时,遵循人工智能推荐的决策可能会导致各种各样的结果。在这项工作中,我们研究了结果的不确定性如何影响用户对人工智能决策辅助的纵向信任,这对于确保这些系统实现其预期目的至关重要。更具体地说,我们使用零工驾驶作为代表性领域来解决这个问题:暴露不同粒度级别的不确定性如何影响用户信任的演变以及他们依赖推荐决策的意愿?我们报告了一项纵向混合方法研究 $(n = 51)$,其中我们测量了零工司机在与基于人工智能的时间表推荐工具交互时的信任度。统计上显着的定量结果表明,参与者对规划工具的信任和意愿取决于工具估计的感知准确性;提供范围估计可以改善信任;即使在信任度较低的情况下,增加预测粒度和使用对冲语言也可以提高依赖该工具的意愿。此外,我们报告了对参与者的采访,这些采访揭示了该工具的多样性体验,这表明人工智能系统必须通过超越一般设计来校准个人用户的期望来建立信任。

研究助理学徒:利用大型语言模型推进研究

分类: 人机交互, 人工智能, 机器学习, I.2; H.5; H.3; K.4; I.7

作者: M. Namvarpour, A. Razi

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06404v1

摘要: 大型语言模型 (LLM) 已成为各个研究领域的强大工具。本文通过文献综述和第一手实验检验了它们的潜力。虽然大语言模型提供成本效益和效率等优势,但必须解决及时调整、偏见和主观性等挑战。该研究提出了利用大语言模型进行定性分析的实验的见解,强调了成功和局限性。此外,它还讨论了缓解挑战的策略,例如即时优化技术和利用人类专业知识。这项研究与“大语言模型作为研究工具”研讨会的重点相一致,即以批判性和道德的方式将大语言模型整合到人机交互数据工作中。通过应对机遇和挑战,我们的工作有助于就其在研究中负责任的应用进行持续对话。

ActNetFormer:用于视频中半监督动作识别的 Transformer-ResNet 混合方法

分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习, 多媒体, Artificial intelligence, Computer vision, Machine learning, Deep learning, Human-computer Interaction, I.2; I.2.9; I.2.10; I.3.3; I.4.5

作者: Sharana Dharshikgan Suresh Dass, Hrishav Bakul Barua, Ganesh Krishnasamy, Raveendran Paramesran, Raphael C. -W. Phan

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06243v1

摘要: 视频中的人类动作或活动识别是计算机视觉的一项基本任务,可应用于监控、自动驾驶汽车、运动分析、人机交互等领域。传统的监督方法需要大量带注释的数据集进行训练,获取这些数据集既昂贵又耗时。这项工作提出了一种使用跨架构伪标签和对比学习进行半监督动作识别的新颖方法。我们的框架利用标记和未标记数据来稳健地学习视频中的动作表示,将伪标记与对比学习相结合,以便从两种类型的样本中进行有效学习。我们引入了一种新颖的跨架构方法,其中利用 3D 卷积神经网络 (3D CNN) 和视频转换器 (VIT) 来捕获动作表示的不同方面;因此我们称之为 ActNetFormer。 3D CNN 擅长捕获时域中的空间特征和局部依赖性,而 VIT 擅长捕获跨帧的远程依赖性。通过将这些互补架构集成到 ActNetFormer 框架中,我们的方法可以有效地捕获操作的本地和全局上下文信息。这种全面的表示学习使模型能够利用每种架构的优势,在半监督动作识别任务中实现更好的性能。标准动作识别数据集的实验结果表明,我们的方法比现有方法表现更好,仅用一小部分标记数据即可实现最先进的性能。这项工作的官方网站位于:https://github.com/rana2149/ActNetFormer。

基于大语言模型的多模式路网生成

分类: 人机交互

作者: Jiajing Chen, Weihang Xu, Haiming Cao, Zihuan Xu, Yu Zhang, Zhao Zhang, Siyao Zhang

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06227v1

摘要: 随着ChatGPT的日益普及,大语言模型(LLM)展示了其通信和推理能力,为交通部门的智能化带来了希望。然而,他们仍然面临特定领域知识的挑战。本文旨在利用大语言模型的推理和识别能力取代传统的用户界面,创建交通仿真软件的“智能操作系统”,探索其在交通建模和仿真方面的潜力。我们引入网络生成人工智能(NGAI),将大语言模型与道路网络建模插件集成,并通过实验验证准确性和鲁棒性。 NGAI的有效使用降低了建模成本,彻底改变了交通模拟,优化了用户步骤,并提出了交通领域LLM集成的新方法。

普遍眼动追踪的隐私保护扫描路径比较

分类: 密码学和安全, 人机交互

作者: Suleyman Ozdel, Efe Bozkir, Enkelejda Kasneci

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06216v1

摘要: 随着眼动追踪在基于屏幕的设备和头戴式显示器中变得普遍,有关眼动追踪数据的隐私问题不断升级。虽然最先进的隐私保护眼动追踪方法主要涉及差分隐私和经验数据操作,但之前的研究并未关注扫描路径方法。我们引入了一种新颖的隐私保护扫描路径比较协议,专为广泛使用的 Needleman-Wunsch 算法而设计,该算法是编辑距离算法的通用版本。特别是,通过结合 Paillier 同态加密方案,我们的协议确保不会泄露私人信息。此外,我们引入了随机处理策略和多层掩码方法来混淆值,同时保留加密编辑操作成本的原始顺序。这最大限度地减少了通信开销,Needleman-Wunsch 过程的每次迭代都需要单轮通信。我们通过全面的计算性能分析在三个公开可用的数据集上展示了我们的协议的效率和适用性,并使我们的源代码可供公开访问。

EVE:让任何人都可以使用增强现实训练机器人

分类: 人机交互, 机器人技术

作者: Jun Wang, Chun-Cheng Chang, Jiafei Duan, Dieter Fox, Ranjay Krishna

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06089v1

摘要: 机器人硬件的日益普及正在加速机器人融入日常活动。然而,训练机器人自动执行任务通常需要物理机器人和来自训练有素的人类注释者的昂贵的演示数据。因此,只有那些能够接触到实体机器人的人才能进行演示来训练机器人。为了缓解这个问题,我们推出了 EVE,这是一款 iOS 应用程序,使日常用户能够使用直观的增强现实可视化来训练机器人,而无需物理机器人。使用EVE,用户可以通过用手指定路径点、目视检查环境中的障碍物、修改现有路径点以及验证收集的轨迹来收集演示。在一项由三个常见桌面任务组成的用户研究($N=14$,$D=30$)中,EVE 在成功率方面优于三个最先进的界面,并且与动觉教学(物理移动真实机器人)相当- 完成时间、可用性、动作意图交流、享受和偏好 ($mean_{p}=0.30$)。最后,我们列举了未来基于 AR 的机器人演示收集系统的局限性和设计注意事项。

为现有可视化注入新的生命:自然语言驱动的操作框架

分类: 人机交互

作者: Can Liu, Jiacheng Yu, Yuhan Guo, Jiayi Zhuang, Yuchu Luo, Xiaoru Yuan

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06039v1

摘要: 我们提出了一种操纵现有交互式可视化来回答用户自然语言查询的方法。我们分析自然语言任务并提出分层任务结构的设计空间,它允许对复杂查询进行系统分解。我们引入了四级可视化操作空间,以促进可视化的原位操作,从而实现对可视化元素的细粒度控制。我们的方法包含两个基本组件:自然语言到任务翻译器和可视化操作解析器。自然语言到任务的翻译器采用先进的 NLP 技术从自然语言查询中提取结构化、分层的任务,甚至是那些具有不同程度歧义的任务。可视化操作解析器利用分层任务结构将这些任务简化为一系列原子可视化操作。为了说明我们方法的有效性,我们提供了现实世界的例子和实验结果。该评估凸显了我们自然语言解析能力的准确性,并强调了可视化操作的平滑转换。

Cymatics Cup:利用 Cymatics 改变形状的饮料

分类: 人机交互

作者: Weijen Chen, Yang Yang, Kao-Hua Liu, Yun Suen Pai, Junichi Yamaoka, Kouta Minamizawa

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06027v1

摘要: 为了增强用餐体验,之前的人机交互 (HCI) 和美食物理学研究表明,改变固体食物的静态形状可以增强味觉。然而,对液体食品动态形状变化机制的探索在很大程度上尚未开发。在本研究中,我们采用了 Cymatics,这是一门专注于利用声音频率在液体和颗粒中生成模式以增强饮用体验的科学学科。利用扬声器,我们动态地重塑了具有五种不同口味特征的液体,并评估了味觉感知和饮用体验的最终变化。我们的研究目标不仅仅是增强从视觉到触觉的味觉;我们还优先考虑饮酒的体验方面。通过一系列的实验和研讨会,我们揭示了在cymatics效应的介导下对味觉和整体饮酒体验的显着影响。基于这些发现,我们设计并开发了餐具,将 Cymatics 原理融入美食体验中。

动态网络的组合非均匀时间切片

分类: 人机交互

作者: Seokweon Jung, DongHwa Shin, Hyeon Jeon, Jinwook Seo

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.06021v1

摘要: 动态网络代表现实世界实体之间复杂且不断发展的相互关系。考虑到这些网络的规模和可变性,找到最佳切片间隔对于有意义的分析至关重要。适应网络内密度变化的非均匀时间切片作为该问题的解决方案引起了人们的关注。在这项研究中,我们根据现有算法解决问题的方法将其分为两个领域:数据挖掘和可视化。数据挖掘方法侧重于捕获动态网络的时间模式,而可视化方法则强调减轻分析负担。然后,我们引入一种新颖的非均匀时间切片方法,该方法综合了两种方法的优点,并通过真实世界的数据证明了其有效性。研究结果表明,结合这两种方法可以提供更有效的网络分析的潜力。

以儿童为中心的人工智能设计和测试的包容性实践

分类: 人机交互, 人工智能

作者: Emani Dotch, Vitica Arnold

发布时间: 2024-04-09

链接: http://arxiv.org/abs/2404.05920v1

摘要: 我们探索为神经分歧儿童设计和测试以儿童为中心的人工智能技术的想法和包容性实践。人工智能有望支持神经分歧儿童常见的社交沟通、自我调节和感觉处理挑战。作者都是神经分歧个体以及与神经分歧人士相关的人,他们从他们的专业和个人经验中汲取灵感,提供有关创建易于使用并包含神经分歧儿童输入的人工智能技术的见解。我们提供为神经分化儿童设计人工智能技术的想法,以及将他们纳入设计过程同时考虑他们的感官敏感性的考虑因素。最后,我们强调适应性和支持性人工智能技术和设计流程的重要性,并呼吁进一步对话以完善以儿童为中心的人工智能设计和测试方法。

英语是新的编程语言吗?伪代码工程怎么样?

分类: 计算和语言, 人工智能, 人机交互, 计算机与社会, J.4; K.3; I.2

作者: Gian Alexandre Michaelsen, Renato P. dos Santos

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.08684v1

摘要: 背景:人工智能(AI)融入日常生活,特别是通过利用自然语言处理(NLP)的聊天机器人,既带来了革命性的潜力,也带来了独特的挑战。目的是研究不同的输入形式如何影响 ChatGPT(OpenAI 的领先语言模型)理解和执行复杂、多意图任务的性能。设计:该研究采用案例研究方法并辅以话语分析,分析了 ChatGPT 对从自然语言到伪代码工程等不同输入的响应。该研究具体考察了模型在四个方面的熟练程度:对意图的理解、可解释性、完整性和创造力。设置和参与者:作为人工智能交互的理论探索,本研究重点分析 ChatGPT 处理的结构化和非结构化输入,没有直接的人类参与者。数据收集和分析:该研究利用合成案例场景,包括组织“每周​​膳食计划”和“购物清单”,来评估 ChatGPT 对自然语言和伪代码工程提示的响应。该分析的基础是识别不同输入格式的模式、矛盾和独特的响应元素。结果:研究结果表明,伪代码工程输入显着增强了 ChatGPT 响应的清晰度和确定性,减少了自然语言固有的歧义。通过即时工程技术构建的增强型自然语言同样提高了模型的可解释性和创造力。结论:该研究强调了伪代码工程在改善人类与人工智能交互并实现更加确定性、简洁和直接结果方面的潜力,倡导其在需要精确人工智能响应的学科中更广泛的应用。

允许人类以交互方式引导机器去看哪里并不总能提高人类人工智能团队的分类准确性

分类: 计算机视觉和模式识别, 人机交互

作者: Giang Nguyen, Mohammad Reza Taesiri, Sunnie S. Y. Kim, Anh Nguyen

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05238v2

摘要: 通过可解释人工智能(XAI)中的数千篇论文,注意力图 \cite{vaswani2017attention} 和特征归因图 \cite{bansal2020sam} 已被确立为一种常用方法,用于查找每个输入特征对人工智能决策的重要性。这是一个有趣的、未经探索的问题,允许用户在测试时编辑特征重要性是否会提高人类人工智能团队在下游任务上的准确性。在本文中,我们通过利用 CHM-Corr 来解决这个问题,CHM-Corr 是一种最先进的、事前可解释的分类器\cite{taesiri2022visual},它首先预测输入和训练集图像之间的补丁式对应关系,并且然后根据它们做出分类决策。我们构建了 CHM-Corr++,这​​是 CHM-Corr 的交互式界面,使用户能够编辑 CHM-Corr 提供的特征归因图并观察更新的模型决策。通过 CHM-Corr++,用户可以深入了解模型是否、何时以及如何改变其输出,从而提高他们对静态解释之外的理解。然而,我们对 18 位用户执行了 1,400 个决策的用户研究发现,与静态解释相比,我们的交互式方法提高了 CUB-200 鸟类图像分类的用户准确性并没有统计学意义。这挑战了交互性可以提高人类人工智能团队准确性的假设~\cite{sokol2020one,sun2022exploring,shen2024towards,singh2024rethinking,mindlin2024beyond,lakkaraju2022rethinking, Cheng2019explaining,liu2021understanding}并提出了未来研究的需求。我们开源了 CHM-Corr++,这​​是一个用于编辑图像分类器注意力的交互式工具(请参阅交互式演示 \href{http://137.184.82.109:7080/}{here})。 % ,并为未来研究在计算机视觉中实现有效的人机交互奠定了基础。我们在 \href{https://github.com/anguyen8/chm-corr-interactive}{github} 上发布代码和数据。

ClusterRadar:一种交互式网络工具,用于随时间推移对空间集群进行多方法探索

分类: 人机交互

作者: Lee Mason, Blánaid Hicks, Jonas S. Almeida

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05897v1

摘要: 空间聚类分析,即检测地理空间数据中相似性的局部模式,在科学发现和实际决策中具有广泛的应用。检测空间聚类的一种方法是使用空间关联的局部指标,例如 Local Moran's I 或 Getis-Ord Gi*。然而,由于其不同的操作特性,不同的指标往往会产生截然不同的结果。选择合适的方法或比较多种方法的结果是一项复杂的任务。此外,空间集群是动态的,跟踪它们随时间的演变通常很有用,这又增加了一层复杂性。 ClusterRadar 是一个网络工具,旨在解决这些分析挑战。该工具允许用户在交互式环境中轻松执行空间聚类并分析结果,独特地优先考虑时间分析和多种方法的比较。该工具的交互式仪表板提供了多种可视化效果,每种可视化效果都提供了空间聚类结果的时间和方法方面的独特视角。 ClusterRadar 具有多种功能,旨在最大限度地提高其对广泛用户群的实用性,包括支持各种地理空间格式,以及完全在浏览器内执行环境以保护敏感数据的隐私。来自不同研究人员的反馈表明 ClusterRadar 具有增强空间集群时间分析的潜力。

无论是否许可:特定地点的增强现实促进社会正义 CHI 2024 研讨会论文集

分类: 人机交互

作者: Rafael M. L. Silva, Ana María Cárdenas Gasca, Joshua A. Fisher, Erica Principe Cruz, Cinthya Jauregui, Amy Lueck, Fannie Liu, Andrés Monroy-Hernández, Kai Lukoff

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05889v1

摘要: 本卷代表了“有或没有许可:社会正义的特定地点增强现实 CHI 2024”研讨会的会议记录。

青年作为同行审计员:让青少年参与机器学习应用程序的算法审计

分类: 人机交互, 计算机与社会, K.3.0

作者: Luis Morales-Navarro, Yasmin B. Kafai, Vedya Konda, Danaë Metaxa

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05874v1

摘要: 随着人工智能/机器学习 (AI/ML) 应用在年轻人的生活中变得越来越普遍,支持他们交互、设计和评估应用程序至关重要。本文将年轻人定位为同龄人的机器学习应用程序的审计员,以更好地理解算法系统不透明的内部运作和外部影响。在为期两周的研讨会上,13 名青少年(14-15 岁)设计并审核了 ML 支持的应用程序。我们分析了临床前/后的访谈,其中向年轻人提出了审计任务。分析显示,研讨会结束后,所有年轻人都发现了算法偏差,并推断出数据集和模型设计问题。 Youth 还讨论了算法正义问题和 ML 模型改进。此外,年轻人反映,审计为他们提供了关于模型功能的新视角以及改进自己模型的想法。这项工作贡献了(1)针对青少年的算法审计的概念化; (2) 审计潜在好处的经验证据。我们讨论算法审计在学习和儿童计算机交互研究中的潜在用途。

为基于网络的交互定义空中手势词典的实证评估

分类: 人机交互

作者: Thomas Pasquale, Cristina Gena, Fabiana Vernero

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05842v1

摘要: 本文对网络环境中的空中手势进行了实证评估。五十六 (56) 名受试者,全部是 HCI 学生,被分为 16 个组,并作为设计师参与其中。每个小组都按照相同的要求单独工作。首先,设计者确定了与大学课堂搜索服务进行基于网络的交互所需的主要操作。其次,他们提出了一组空中手势来执行已识别的动作:总共为 16 个不同的网络动作生成了 99 个不同的空中手势。然后,设计者通过外部主体(总共 248 位用户)验证了他们的建议。最后,我们分析了他们的结果,并确定了最常见或直观的手势以及与他们的提案相关的潜在关键点。因此,我们定义了一个空中手势字典,根据我们的分析,其中包含最适合每个识别的网络操作的手势。我们的结果表明,大多数人倾向于在非接触式交互中复制基于触摸和基于鼠标的界面中使用的手势,而忽略了这样一个事实:由于每个交互上下文中用户和设备之间的距离不同,这些手势可能会出现问题。

自动驾驶汽车中的人机交互:减少驾驶员的自愿干预

分类: 人机交互, 系统与控制, 系统与控制

作者: Xinzhi Zhong, Yang Zhou, Varshini Kamaraj, Zhenhao Zhou, Wissam Kontar, Dan Negrut, John D. Lee, Soyoung Ahn

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05832v1

摘要: 本文开发了一种新颖的跟车控制方法,以减少驾驶员的自愿干预并提高自动驾驶车辆(AV)的交通稳定性。通过实验和实证分析相结合,我们展示了驾驶员的自愿干预如何引发严重的交通干扰,并沿着上游交通放大。受这些发现的启发,我们提出了一个基于证据积累(EA)的驾驶员干预框架,该框架描述了驾驶员对自动化的不信任的演变,最终导致干预。通过 EA 框架,我们提出了一种基于深度强化学习 (DRL) 的自动驾驶汽车跟随控制,其战略性设计旨在减少不必要的驾驶员干预并提高交通稳定性。进行数值实验来证明所提出的控制模型的有效性。

Ferret-UI:基于多模式大语言模型的移动 UI 理解

分类: 计算机视觉和模式识别, 计算和语言, 人机交互

作者: Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05719v1

摘要: 多模态大语言模型 (MLLM) 的最新进展值得注意,但是,这些通用域 MLLM 往往缺乏理解用户界面 (UI) 屏幕并与其有效交互的能力。在本文中,我们提出了 Ferret-UI,这是一种新的 MLLM,专为增强对移动 UI 屏幕的理解而定制,配备了引用、接地和推理功能。鉴于 UI 屏幕通常表现出比自然图像更拉长的纵横比,并且包含更小的感兴趣对象(例如图标、文本),我们在 Ferret 之上合并“任何分辨率”,以放大细节并利用增强的视觉功能。具体地,每个屏幕根据原始宽高比被划分为2个子图像(即,纵向屏幕横向划分,横向屏幕纵向划分)。两个子图像在发送到 LLM 之前都会单独编码。我们从广泛的基本 UI 任务中精心收集训练样本,例如图标识别、查找文本和小部件列表。这些样本经过格式化以遵循指令并带有区域注释,以方便精确的参考和基础。为了增强模型的推理能力,我们进一步编译了用于高级任务的数据集,包括详细描述、感知/交互对话和函数推理。在对精选数据集进行训练后,Ferret-UI 展现出了对 UI 屏幕的出色理解能力以及执行开放式指令的能力。对于模型评估,我们建立了涵盖所有上述任务的综合基准。 Ferret-UI 不仅优于大多数开源 UI MLLM,而且在所有基本 UI 任务上也超过了 GPT-4V。

具有视觉增强功能的文本阅读眼动追踪

分类: 人机交互

作者: Franziska Huth, Maurice Koch, Miriam Awad, Daniel Weiskopf, Kuno Kurzhals

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05572v1

摘要: 文本和可视化之间的相互作用对于媒体来说越来越重要,传统文本通过视觉元素丰富,以提高可读性并强调事实。在两个受控眼动追踪实验($N=12$)中,我们回答了以下问题:可视化技术如何影响阅读行为?我们将纯文本与标有突出显示、图标和字大小数据可视化的文本进行比较。我们评估定量指标(眼球运动、完成时间、错误率)和主观反馈(个人偏好和评分)。结果表明,可视化技术,尤其是在第一个实验中,显示出改善阅读行为的有希望的趋势。结果还表明需要进一步研究以使阅读更加有效并为未来的研究提供建议。

工程师数学问题的交互式形式规范

分类: 人机交互, 计算机科学中的逻辑, 数学软件, H.5.2; I.5.5; F.4.m

作者: Walther Neuper

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05462v1

摘要: 本文的第二部分对过去二十年 ISAC 项目过程中开发的原型进行了精确描述。这部分描述了“指定阶段”,而描述“解决阶段”的第一部分已经发布。在指定阶段,学生交互式地构建正式的规范。 ISAC原型实现了理论计算机科学中建立的形式化规范,然而,构建的输入语言避免了要求用户具备逻辑知识;这使得该系统对各种工程学院(以及高中)很有用。本文不仅详细讨论了 ISAC 对指定阶段的设计,还对实现进行了简要介绍,目的是宣传正式框架(包括各自的前端)及其语言定义和通用工具的重用。他们丰富的形式数学软件组件库。

通过生成式人工智能解锁自适应用户体验

分类: 人机交互, 软件工程

作者: Yutan Huang, Tanjila Kanij, Anuradha Madugalla, Shruti Mahajan, Chetan Arora, John Grundy

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05442v1

摘要: 开发满足不同用户需求的以用户为中心的应用程序需要严格的用户研究。这是耗费时间、精力和成本的。随着最近基于大型语言模型(LLM)的生成式人工智能技术的兴起,这些强大的工具有可能用于开发自适应界面。本文提出了一种使用 ChatGPT 为特定领域开发用户角色和自适应界面候选的新方法。我们使用 ChatGPT 和传统的手动流程开发用户角色和自适应界面,并比较这些结果。为了获取角色数据,我们与一家非营利组织合作,从 37 名调查参与者和 4 次访谈中收集了数据。 ChatGPT 生成的内容和手动内容的比较显示出有希望的结果,鼓励在自适应界面设计过程中使用 LLM。

按建设性和好奇心重新排列新闻评论可显着提高尊重度、可信度和兴趣

分类: 人机交互

作者: Emily Saltz, Zaria Howard, Tin Acosta

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05429v1

摘要: 在线评论平台通常开发出通过删除内容和降低排名来解决在线危害的系统。另一种尚未充分探索的方法是专注于提升内容排名,主动优先考虑亲社会评论并制定更好的对话规范。我们对 460 名美国英语新闻读者进行了一项研究,旨在了解根据建设性、好奇心和个人故事对评论进行重新排名对参与意愿和参与意愿以及感知可信度和个人经历的各种结果的影响。评论区两极分化。在我们的富媒体调查实验中,这四种排名条件的参与者和对照组审查了政治专栏和餐饮文章的评论部分的原型。我们发现,不同文章类型的结果差异很大。好奇心和建设性的提升改善了政治文章的许多衡量标准,包括评论部分的感知\textit{尊重}、\textit{信任度}和\textit{趣味性}。建设性的看法也增加了人们对这些言论有利于共和党人的看法,而没有任何情况恶化了对党派的看法。此外,在《餐饮》文章中,个人故事和建设性排名显着提高了评论的信息量。总体而言,这些发现表明,将亲社会言论质量纳入排名可能是一种有前途的方法,可以促进在线评论部分中更健康、更少两极分化的对话。

将分析索引到实例:集成仪表板如何支持设计教育

分类: 人机交互, 人工智能, 计算机与社会, H.5.2

作者: Ajit Jain, Andruid Kerne, Nic Lupfer, Gabriel Britain, Aaron Perrine, Yoonsuck Choe, John Keyser, Ruihong Huang, Jinsil Seo, Annie Sungkajun, Robert Lightfoot, Timothy McGuire

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05417v1

摘要: 我们研究如何使用基于人工智能的分析来支持设计教育。现有的分析衡量多尺度设计,即学生利用空间和尺度在视觉上和概念上组织他们的设计工作。为了让教师能够理解分析,我们开发了一个研究工件,将设计分析仪表板与设计实例以及学生用来创建它们的设计环境集成在一起。我们对 Suchman 的相互可理解性概念如何需要对人工智能进行情境化调查进行理论分析,以便得出关于分析如何为人们服务的发现。我们在 3 个系的 5 个情境课程环境中研究了研究工件。共有 236 名学生使用了多尺度设计环境。教授这些学生的 9 名讲师通过新的研究工件体验了分析。我们通过对讲师的经历进行访谈的定性分析得出结果。教师们反思了分析及其在仪表板中的呈现如何有可能影响设计教育。我们开发的研究意义涉及:(1)如何将仪表板中的设计分析索引到实际的设计工作实例,帮助设计教师反思他们的意思,更广泛地说,是一种基于人工智能的设计分析如何支持教师评估和评估的技术。情境课程背景下的反馈经验; (2) 多尺度设计分析如何有潜力支持设计教育。通过索引,我们的意思是提供上下文的链接,这里将分析的数字与视觉注释的设计工作实例连接起来。

WebXR、A-Frame 和 Networked-Aframe 作为开放元宇宙的基础:概念架构

分类: 计算机视觉和模式识别, 图形, 人机交互, 多媒体

作者: Giuseppe Macario

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05317v1

摘要: 这项工作提出了一种基于 WebXR 的跨平台概念架构,利用 A-Frame 和 Networked-Aframe 框架,以促进开放、可访问和可互操作的元宇宙的开发。通过引入空间网络应用程序的概念,这项研究为元宇宙的讨论做出了贡献,提供了一种架构,使通过网络访问虚拟环境和扩展现实变得民主化,并与蒂姆·伯纳斯·李对万维网的最初愿景保持一致:数字领域的开放平台。

在交互式和以用户为中心的算法资源中利用偏好诱导:初步探索

分类: 人机交互, 计算机与社会, 机器学习

作者: Seyedehdelaram Esfahani, Giovanni De Toni, Bruno Lepri, Andrea Passerini, Katya Tentori, Massimo Zancanaro

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05270v1

摘要: 算法追索旨在提供可行的解释或追索计划,以推翻自动化机器学习模型做出的潜在不利决策。在本文中,我们提出了一种基于引导交互模式的交互范式,旨在引出用户的偏好并引导他们进行有效的资源干预。在虚构的借贷任务中,我们将这种方法与基于替代计划和用户自己自由更改配置的可能性相结合的探索性交互模式进行比较。我们的结果表明,用户可能会认识到引导式交互范例可以提高效率。然而,他们也感觉不太自由地尝试“假设”场景。然而,花在纯粹探索性界面上的时间往往会被认为缺乏效率,从而降低了吸引力、清晰性和可靠性。相反,对于引导界面,在界面上停留更多时间似乎会增加其吸引力、清晰度和可靠性,同时不会影响感知效率。这可能表明这种类型的界面应该结合这两种方法,尝试支持探索行为,同时温和地推动引导式有效解决方案。

允许人类以交互方式引导机器去看哪里并不总能提高人类人工智能团队的分类准确性

分类: 计算机视觉和模式识别, 人机交互

作者: Giang Nguyen, Mohammad Reza Taesiri, Sunnie S. Y. Kim, Anh Nguyen

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05238v1

摘要: 通过可解释人工智能(XAI)中的数千篇论文,注意力图 \cite{vaswani2017attention} 和特征归因图 \cite{bansal2020sam} 已被确立为解释对人工智能决策很重要的输入特征的常用方法。允许用户在测试时编辑输入特征的重要性分数是否会提高人类人工智能团队在下游任务上的准确性,这是一个有趣但尚未探索的问题。在本文中,我们通过采用 CHM-Corr 来解决这个问题,CHM-Corr 是一种最先进的事前解释方法\cite{taesiri2022visual},它首先预测输入和训练集图像之间的补丁对应关系,然后使用它们做出分类决策。我们在 CHM-Corr 之上构建了一个交互式界面,使用户能够直接编辑 CHM-Corr 提供的初始特征归因图。通过我们的 CHM-Corr++ 界面,用户可以深入了解模型是否、何时以及如何改变其输出,从而增强对静态解释之外的理解。我们对 18 名机器学习研究人员进行的用户研究表明,与静态解释相比,我们的交互式方法并没有提高 CUB-200 鸟类图像分类的用户准确性,这些研究人员执行了 1,400 美元的决策。这挑战了交互性本质上提高 XAI 有效性的信念 ~\cite{sokol2020one,sun2022exploring,shen2024towards,singh2024rethinking,mindlin2024beyond,lakkaraju2022rethinking, Cheng2019explaining,liu2021understanding} 并提出了未来研究的需求。我们的工作通过开源用于操纵模型注意力的交互式工具为该领域做出了贡献,并为未来的研究奠定了基础,以实现计算机视觉中有效的人机交互。我们在 \href{https://anonymous.4open.science/r/CHMCorrPlusPlus/}{github} 上发布代码和数据。我们的界面可用\href{http://137.184.82.109:7080/}{这里}。

公平机器指导可增强有偏见的人的公平决策

分类: 人机交互

作者: Mingzhe Yang, Hiromi Arai, Naomi Yamashita, Yukino Baba

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05228v1

摘要: 教授公正的决策对于解决日常生活中的偏见决策至关重要。尽管提高对个人偏见的认识和为公正的决策提供指导都很重要,但后一个主题仍然没有得到充分研究。在这项研究中,我们开发并评估了一个人工智能系统,旨在教育个人使用公平意识机器学习做出公正的决策。在一项受试者间实验设计中,99 名容易产生偏见的参与者执行了个人评估任务。他们被分为两组:a)在任务前接受人工智能指导以做出公平决策的人;b)没有收到此类指导但被告知自己偏见的人。结果表明,尽管一些参与者怀疑人工智能系统的公平性,但公平的机器指导促使他们重新评估自己对公平性的看法,反思自己的偏见,并修改自己的决策标准。我们的研究结果为指导人类公平决策的人工智能系统设计提供了见解。

大语言模型在识别逻辑谬误方面的评估:在人机交互研究中采用大语言模型时要求严谨

分类: 人机交互, 人工智能

作者: Gionnieve Lim, Simon T. Perrault

发布时间: 2024-04-08

链接: http://arxiv.org/abs/2404.05213v1

摘要: 人们对在人机交互研究中采用大语言模型越来越感兴趣。然而,大语言模型通常可能被视为万能药,因为它们具有强大的能力,并伴随着对其是否适合其预期任务的监督。我们认为,应在严格评估后以批判性的方式采用大语言模型。因此,我们提出了大语言模型在识别逻辑谬误方面的评估,这些逻辑谬误将构成数字错误信息干预的一部分。通过与标记数据集进行比较,我们发现 GPT-4 的准确度为 0.79,对于排除无效或未识别实例的预期用例,准确度为 0.90。这使我们有信心继续申请大语言模型,同时牢记其仍存在不足的领域。本文描述了我们的评估方法、结果以及对使用大语言模型来完成我们的预期任务的反思。

图表我所说的:探索人工智能辅助图表创作中的跨模态提示对齐

分类: 人机交互

作者: Nazar Ponochevnyi, Anastasia Kuzminykh

发布时间: 2024-04-07

链接: http://arxiv.org/abs/2404.05103v1

摘要: 最近的图表创作系统(例如 QuickSight 中的 Amazon Q 和 Power BI 的 Copilot)显示出对支持自然语言输入的新兴关注,以通过图表创建来分享来自数据的有意义的见解。目前,图表创作系统倾向于通过依赖语音到文本转录来集成语音输入功能,以类似的方式处理语音和打字输入。然而,其他交互领域的跨模态输入比较表明,口头交互和键入交互的结构可能显着不同,反映了基于界面可供性的用户期望的变化。因此,在这项工作中,我们比较了图表创建的口头指令和打字指令。研究结果表明,虽然文本和语音指令都涵盖了图表元素和元素组织,但语音描述具有多种命令格式、元素特征和复杂的语言特征。基于这些发现,我们制定了设计基于语音的创作导向系统的指南,以及可以合并到现有基于文本的系统中以支持语音模态的附加功能。

共同设计无障碍公共机器人:行动不便人士、机器人从业者及其合作的见解

分类: 人机交互

作者: Howard Ziyu Han, Franklin Mingzhe Li, Alesandra Baca Vazquez, Daragh Byrne, Nikolas Martelaro, Sarah E Fox

发布时间: 2024-04-07

链接: http://arxiv.org/abs/2404.05050v1

摘要: 人行道机器人在全球范围内越来越普遍。然而,它们在公共道路上的运营给行动不便的人(PwMD)带来了挑战,他们面临着无障碍障碍,例如路边削减不足。我们采访了 15 位残疾人士,了解他们如何看待人行道机器人。调查结果表明,残疾人管理局认为,当引入机器人时,他们必须争夺人行道上的空间。接下来我们采访了八位机器人从业者,了解他们对无障碍的态度。从业者描述了问题通常是由机器人公司在问题出现后才解决可访问性问题造成的。两个采访小组都强调了从一开始就整合可访问性的重要性。基于这一发现,我们与 PwMD 和从业者配对举办了四次联合设计研讨会。这些会议满足了在公共空间和公共利益中运行的机器人的无障碍需求。我们的研究旨在为公共服务机器人更具包容性的未来奠定基础。

使用基于 360 度视频的沉浸式虚拟环境在编码过程中减少因上下文变化而导致的遗忘

分类: 人机交互

作者: Takato Mizuho, Takuji Narumi, Hideaki Kuzuoka

发布时间: 2024-04-07

链接: http://arxiv.org/abs/2404.05007v1

摘要: 与学习不同的环境背景下的回忆障碍称为情境相关遗忘。人们提出了两种学习方法来防止上下文相关的遗忘:恢复和去上下文化。恢复与学习和检索之间的环境情境相匹配,而去情境化涉及在各种环境情境中重复学习并消除记忆的情境依赖性。传统上,这些方法是通过在物理房间之间切换来验证的。然而,在本研究中,我们使用沉浸式虚拟环境(IVE)作为虚拟现实(VR)辅助的环境上下文,与传统操纵相比,虚拟现实(VR)以其低成本和高再现性而闻名。尽管大多数现有的使用 VR 的研究未能揭示恢复效果,但我们使用基于 360 度视频的 IVE 来测试其发生情况,该 IVE 具有更高的熟悉度和真实感,而不是基于计算机图形的 IVE。此外,我们是第一个使用 VR 解决去情境化问题的人。我们的实验表明,与在不同常数 IVE 中重复学习相比,在相同常数 IVE 中重复学习作为检索并没有显着减少遗忘。相反,在不同的 IVE 中重复学习比在恒定的 IVE 中重复学习显着减少了遗忘。这些发现有助于基于 VR 的应用程序的 IVE 设计,特别是在教育环境中。

为多发性硬化症患者开发脑机接口

分类: 人机交互, 神经元和认知

作者: John S. Russo, Tim Mahoney, Kirill Kokorin, Ashley Reynolds, Chin-Hsuan Sophie Lin, Sam E. John, David B. Grayden

发布时间: 2024-04-07

链接: http://arxiv.org/abs/2404.04965v2

摘要: 多发性硬化症 (MS) 是一种严重致残的疾病,会导致各种神经系统症状。脑机接口(BCI)可以替代一些失去的功能;然而,缺乏针对多发性硬化症患者的脑机接口研究。为了有效和高效地推进这一研究领域,我们旨在评估用户需求并评估 BCI 针对 MS 患者的可行性和以用户为中心的要求。我们对 34 名多发性硬化症患者进行了在线调查,以定性评估用户偏好并建立以用户为中心的设计的初始步骤。该调查旨在了解他们对脑机接口和仿生应用的兴趣和偏好。我们对 MS 各个阶段的 BCI 应用表现出了广泛的兴趣,与护理人员协助 (n = 6) 相比,我们更倾向于非侵入性 (n = 12) 或微创 (n = 15) BCI。定性评估表明,这种偏好不受独立程度的影响。此外,人们对用于感觉和自主功能的仿生技术也表现出了浓厚的兴趣。考虑到提高多发性硬化症患者的独立性和生活质量的潜力,研究结果强调了以用户为中心的设计对于脑机接口未来发展的重要性,该设计解释了与多发性硬化症相关的独特病理变化。

平衡信息感知与阴阳:基于代理的推荐系统信息中立模型

分类: 人机交互, 信息检索

作者: Mengyan Wang, Yuxuan Hu, Shiqing Wu, Weihua Li, Quan Bai, Verica Rupar

发布时间: 2024-04-07

链接: http://arxiv.org/abs/2404.04906v1

摘要: 虽然基于偏好的推荐算法通过推荐个性化内容有效地增强了用户参与度,但它们通常会导致“过滤气泡”的产生。这些气泡限制了用户交互的信息范围,无意中强化了他们现有的观点。之前的研究主要集中在修改这些底层算法来解决这个问题。然而,保持原始算法完整性的方法在很大程度上仍未被探索。本文介绍了一种基于阴阳理论的基于Agent的信息中立模型,即AbIN。这种创新方法针对的是现有推荐系统中信息感知的不平衡。它旨在与这些基于偏好的系统集成,确保提供具有中立信息的建议。我们对该模型的实证评估证明了其有效性,展示了其在尊重用户偏好的同时扩展信息多样性的能力。因此,AbIN 成为减轻过滤泡沫对信息消费负面影响的有效工具。

探索提示生成研究的前景:从过去到未来

分类: 计算和语言, 人机交互

作者: Anubhav Jangra, Jamshid Mozafari, Adam Jatowt, Smaranda Muresan

发布时间: 2024-04-06

链接: http://arxiv.org/abs/2404.04728v1

摘要: 数字教育在过去十年中越来越受欢迎,尤其是在 COVID-19 大流行之后。随着大型语言模型推理和与用户交流的能力不断提高,设想能够促进自学的智能辅导系统(ITS)并不是很遥不可及。实现这一愿景的一个不可或缺的组成部分是能够通过提示提供准确有效的反馈来支撑学习过程。在这篇调查文章中,我们对提示生成的先前研究进行了全面回顾,旨在弥合教育和认知科学研究与人工智能和自然语言处理研究之间的差距。根据我们的发现,我们提出了提示生成任务的正式定义,并讨论了构建与正式定义一致的有效提示生成系统的路线图,包括开放挑战、未来方向和道德考虑。

“别踩我的脚趾”:解决计算笔记本实时协作中的编辑冲突

分类: 人机交互

作者: April Yi Wang, Zihan Wu, Christopher Brooks, Steve Oney

发布时间: 2024-04-06

链接: http://arxiv.org/abs/2404.04695v1

摘要: 计算笔记本中的实时协作编辑可以提高数据科学家的团队合作效率。然而,通过同步编辑笔记本进行协作会带来新的挑战。如果数据科学家没有建立一个共同工作和监控协作者进度的社交协议,他们可能会通过改变共享代码库和运行时状态而无意中干扰彼此的工作。在本文中,我们提出了一种实时协作编辑模型,用于解决计算笔记本中的冲突编辑,该模型引入了三个级别的编辑保护,以帮助协作者避免向程序源代码和运行时状态更改引入错误。

互补性设计:超越当前在医疗保健中使用 XAI 范式的概念框架

分类: 人机交互

作者: Elisa Rubegni, Omran Ayoub, Stefania Maria Rita Rizzo, Marco Barbero, Guenda Bernegger, Francesca Faraci, Francesca Mangili, Emiliano Soldini, Pierpaolo Trimboli, Alessandro Facchini

发布时间: 2024-04-06

链接: http://arxiv.org/abs/2404.04638v1

摘要: 基于人工智能的工具在医疗保健领域的广泛使用引发了许多道德和法律问题,主要原因之一是它们的黑匣子性质,因此其特征和决策过程看​​似不透明和难以理解。文献广泛讨论了这如何导致过度依赖和依赖不足的现象,最终限制人工智能的采用。我们通过构建基于三个概念的理论框架来解决这些问题:特征重要性、反例解释和类似案例解释。该模型以文献为基础,在案例研究中部署,在该案例研究中,我们使用参与式设计方法设计并开发了高保真原型。通过原型和底层模型的共同设计和开发,我们提高了有关如何设计基于人工智能的系统的知识,以实现医疗保健领域决策过程的互补性。我们的工作旨在为当前有关设计人工智能系统以支持临床医生决策过程的讨论做出贡献。

分析印度高级计算课程中 LLM 的使用情况

分类: 人机交互, 计算机与社会

作者: Chaitanya Arora, Utkarsh Venaik, Pavit Singh, Sahil Goyal, Jatin Tyagi, Shyama Goel, Ujjwal Singhal, Dhruv Kumar

发布时间: 2024-04-06

链接: http://arxiv.org/abs/2404.04603v1

摘要: 本文调查了本科生和研究生在高级计算课程背景下使用大型语言模型 (LLM) 来处理编程作业时的使用模式。现有的工作主要关注大语言模型在入门编程环境中的影响。此外,很少有研究分析学生和大语言模型之间的实际对话。我们的研究对印度大学高级计算课程(分布式系统)中学生和大语言模型之间的原始互动进行了全面的定量和定性分析。我们通过对学生进行访谈来进一步补充这一点,以更深入地了解他们的使用模式。我们的研究表明,学生以多种方式使用大型语言模型(LLM):生成代码或通过识别和修复错误来调试代码。他们还将作业描述复制并粘贴到 LLM 界面中以获得特定解决方案,提出有关复杂编程思想或理论概念的概念性问题,并生成测试用例以检查代码功能和稳健性。我们的分析包括来自 411 名学生的 4,000 多个提示,并对 10 名学生进行了采访。我们的分析表明,大语言模型擅长生成样板代码和协助调试,而学生则负责组件集成和系统故障排除。这与高级计算课程的学习目标是一致的,高级计算课程旨在教学生如何构建系统和排除故障,而不是强调从头开始生成代码。因此,正如我们收集的数据所示,可以利用大语言模型工具来提高学生的生产力。这项研究促进了关于大语言模型在教育中的应用的持续讨论,倡导其在高级计算课程中的有用性,以补充更高水平的学习和生产力。

TeleAware 机器人:设计用于远程协作运动的意识增强远程呈现机器人

分类: 人机交互, H.5.2

作者: Ruyi Li, Yaxin Zhu, Min Liu, Yihang Zeng, Shanning Zhuang, Jiayi Fu, Yi Lu, Guyue Zhou, Can Liu, Jiangtao Gong

发布时间: 2024-04-06

链接: http://arxiv.org/abs/2404.04579v1

摘要: 远程呈现机器人可用于支持用户远程导航环境并与社交伙伴分享访问体验。尽管此类系统允许用户看到和听到远程环境并通过实时视频馈送与其合作伙伴进行通信,但这并不能提供对环境及其远程合作伙伴的活动的足够认识。在本文中,我们介绍了一种在现场和远程用户一起访问某个地方的场景中协作移动的感知框架。通过对一小群人参观展览的观察研究,我们得出了四个旨在增强社会伙伴之间的环境和社会意识的设计目标,并开发了一套意识增强技术,以添加到标准远程呈现机器人中 - 名为 TeleAware 机器人。通过一项模拟引导展览参观任务的对照实验,TeleAware 机器人与标准机器人相比,显示出降低工作量、促进更紧密的社交距离、提高相互意识和社交存在感的能力。我们讨论了本地和远程用户的移动性和角色的影响,并为促进协作运动的增强意识远程呈现机器人系统的未来设计提供了见解。

用大语言模型探索人类互动模式的地图:对协作和创造力的见解

分类: 人机交互

作者: Jiayang Li, Jiale Li

发布时间: 2024-04-06

链接: http://arxiv.org/abs/2404.04570v1

摘要: 大语言模型出色的性能能力驱动了当前AI系统交互模式的演进。这在人机交互(HAII)社区内引发了大量讨论。许多研究从技术、设计和经验的角度探讨了这种相互作用。然而,当前的大多数文献评论都集中在更广泛的人工智能领域的交互,而对与大语言模型交互的特定领域的关注有限。我们检索了大语言模型关于人机交互的文章,选择了 110 篇符合人机交互定义的相关出版物。随后,我们开发了一个全面的映射程序,分为五个不同的阶段,以系统地分析和分类收集的出版物。采用这种有条不紊的方法,我们精心绘制了所选研究的地图,最终对研究领域进行了详细而富有洞察力的表述。总的来说,我们的评论提出了一种新颖的方法,引入了一种独特的映射方法,专门用于评估人类与大语言模型的交互模式。我们对相关领域的当前研究进行了全面分析,采用聚类技术进行分类,这使我们能够清楚地描绘出每个确定领域中普遍存在的现状和挑战。

作为批判性思维工具的语言模型:哲学家的案例研究

分类: 人机交互, 计算和语言, 计算机与社会

作者: Andre Ye, Jared Moore, Rose Novick, Amy X. Zhang

发布时间: 2024-04-06

链接: http://arxiv.org/abs/2404.04516v1

摘要: 目前语言模型(LM)方面的工作可以通过加速和自动化认知工作来帮助我们加快甚至跳过思考。但是 LM 能否帮助我们进行批判性思维——以更深入、更具反思性的方式思考,挑战假设、澄清想法并设计新概念?我们将哲学视为批判性思维的案例研究,并采访了 21 位专业哲学家,了解他们如何进行批判性思维以及他们与 LM 的经历。我们发现哲学家认为 LM 没有用,因为他们缺乏自我意识(记忆、信念、一致性)和主动性(好奇心、主动性)。我们提出了批判性思维工具的自我主动模型来描述这种差距。使用该模型,我们制定了 LM 作为批判性思维工具可以扮演的三个角色:对话者、监控者和受访者。我们希望我们的工作能够激励 LM 研究人员进一步将 LM 开发为批判性思维工具,并激励哲学家和其他“批判性思考者”想象 LM 在智力上的实质性用途。

医生的多数投票提高了病理学中人工智能依赖的适当性

分类: 人机交互

作者: Hongyan Gu. Chunxu Yang, Shino Magaki, Neda Zarrin-Khameh, Nelli S. Lakis, Inma Cobos, Negar Khanlou, Xinhai R. Zhang, Jasmeet Assi, Joshua T. Byers, Ameer Hamza, Karam Han, Anders Meyer, Hilda Mirbaha, Carrie A. Mohila, Todd M. Stevens, Sara L. Stone, Wenzhong Yan, Mohammad Haeri, Xiang 'Anthony' Chen

发布时间: 2024-04-06

链接: http://arxiv.org/abs/2404.04485v1

摘要: 随着人工智能 (AI) 在医疗决策方面取得进步,越来越需要确保医生适当依赖人工智能以避免不良结果。然而,现有的实现适当人工智能依赖的方法在应用于医疗领域时可能会遇到挑战。在这方面,这项工作采用并验证了另一种方法——多数投票——以促进医疗决策中对人工智能的适当依赖。这是通过一项多机构用户研究实现的,该研究涉及 32 名具有不同背景的医疗专业人员,重点关注视觉检测肿瘤图像中的有丝分裂模式的病理学任务。在这里,多数投票过程是通过一组病理医生(病理学家)在人工智能协助下综合决策来进行的。使用两个指标来评估人工智能依赖的适当性:相对人工智能依赖(RAIR)和相对自力更生(RSR)。结果显示,即使是由三名病理学家组成的小组,与一名病理学家与 AI 合作做出的决策相比,多数投票决策也显着提高了 RAIR 和 RSR,分别提高了约 9% 和 31%。这种增加的适当性导致有丝分裂检测中更好的精确度和召回率。虽然我们的研究以病理学为中心,但我们相信这些见解可以扩展到涉及类似视觉任务的一般高风险决策过程。

使用时态图网络对社交互动动态进行建模

分类: 人机交互, 社交和信息网络

作者: J. Taery Kim, Archit Naik, Isuru Jayarathne, Sehoon Ha, Jouh Yeong Chew

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.06611v1

摘要: 由于人类行为和内部状态的相互影响,将机器人等智能系统集成到动态群体环境中会带来挑战。社会互动动态的稳健表示对于有效的人机协作至关重要。现有的方法通常将注意力集中在面部表情或言语上,而忽视了更广泛的背景。我们建议采用适应性强的时态图网络来全面表示社交互动动态,同时使其能够实际实施。我们的方法结合了时间多模式行为数据,包括凝视交互、语音活动和环境背景。使用带注释的注视交互数据将社交交互动态的这种表示训练为链接预测问题。 F1 分数比基线模型高出 37.0%。这一改进与下一个说话者预测的次要任务一​​致,实现了 29.0% 的改进。我们的贡献有两个方面,包括一个表示社交互动动态的模型,该模型可用于许多下游人机交互任务,例如人类状态推断和下一个说话者预测。更重要的是,这是通过更简洁而高效的消息传递方法实现的,将其从 768 个元素显着减少到 14 个,同时优于基线模型。

马拉维艾滋病毒客户对数字健康的看法

分类: 人机交互

作者: Lisa Orii, Caryl Feldacker, Jacqueline Madalitso Huwa, Agness Thawani, Evelyn Viola, Christine Kiruthu-Kamamia, Odala Sande, Hannock Tweya, Richard Anderson

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04444v1

摘要: 电子卫生保健在推动低收入和中等收入国家的艾滋病毒护理方面具有巨大潜力。鉴于艾滋病毒相关信息的敏感性以及与无意的艾滋病毒状况披露相关的风险,应检查客户对电子医疗应用程序的隐私看法,以开发以客户为中心的技术。通过与马拉维公共艾滋病毒护理计划 Lighthouse Trust 的抗逆转录病毒治疗 (ART) 客户进行焦点小组讨论,我们探讨了他们对数据安全和隐私的看法,包括他们对数据流的理解以及他们对跨多个数据使用层的数据机密性的担忧。我们的研究结果强调了广泛的隐私问题,这些问题影响了 ART 客户的日常选择、客户对马拉维卫生系统的信任以及他们对艾滋病毒护理中使用的护理点技术的接受和熟悉程度。根据我们的研究结果,我们提供了在资源有限、隐私法规尚不成熟以及采取行动保护客户数据的政治意愿的低收入和中等收入国家建立强大的数字医疗系统的建议。

工作中的人形机器人:我们在哪里?

分类: 计算机与社会, 人机交互, 机器人技术

作者: Fabrice R. Noreils

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04249v1

摘要: 由埃隆·马斯克和他的擎天柱发起的,我们正在见证一场新的竞赛,许多公司已经参与其中。其目标是在 2 至 3 年内将新一代人形机器人投入到苛刻的工业环境中。这个目标现实吗?本文件的目的及其主要贡献是通过涵盖以下主题来提供一些提示:首先,根据八个标准对 12 家公司进行分析,这将有助于我们根据成熟度和市场方式来区分公司;其次,由于这些类人机器人是非常复杂的系统,我们将概述要解决的技术挑战;第三,当大规模部署类人机器人时,操作和维护变得至关重要,我们将探索这些复杂机器的新功能;最后,试点是大规模部署之前测试新系统可行性的最后一步。这是测试产品成熟度和人形供应商应对市场的策略的重要一步,我们将讨论两种实用的方法。

大语言模型的社交技能训练

分类: 计算和语言, 人机交互

作者: Diyi Yang, Caleb Ziems, William Held, Omar Shaikh, Michael S. Bernstein, John Mitchell

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04204v1

摘要: 人们依靠解决冲突等社交技能来有效沟通并在工作和个人生活中蓬勃发展。然而,社交技能的练习环境对于大多数人来说通常是遥不可及的。我们如何才能使社交技能培训变得更容易获得、更容易获得、更有吸引力?这篇观点论文借鉴了传播学和心理学的跨学科研究,确定了进入专业领域的社交技能障碍。然后,我们提出了一个解决方案,通过通用框架利用大型语言模型进行社交技能培训。我们的 AI 合作伙伴 AI Mentor 框架将体验式学习与现实实践和定制反馈相结合。这项工作最终需要跨学科创新,以解决对劳动力发展和社会平等的更广泛影响。

设计机器人来帮助女性

分类: 机器人技术, 人机交互

作者: Martin Cooney, Lena Klasén, Fernando Alonso-Fernandez

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04123v1

摘要: 机器人的设计目的是为了在越来越多的环境中为人们提供帮助,但迄今为止,似乎很少有人关注女性的具体需求,女性约占世界人口的一半,但在机器人领域的代表性却严重不足。在这里,我们使用推测性原型设计方法来探索这个广阔的设计空间:首先,我们确定了一些潜在的有趣挑战,包括对女性影响尤为严重的犯罪和疾病,以及设计师的潜在机会,这些都在五个草图中形象化。然后,通过开发原型机,进一步探索了所描绘的场景之一,该原型机是配备计算机视觉的机器人辅助无人机,可以检测可用于监视女性的隐藏摄像头。虽然对象检测引入了一些错误,但隐藏摄像机的识别准确度合理,达到 80%(交并集 (IoU) 分数:0.40)。我们的目标是,所确定的挑战和机遇可以帮助激发讨论并激励设计师,通过负责任地使用技术来实现更安全、更具包容性的未来。

ChoreoVis:舞蹈编排中的规划和评估

分类: 人机交互

作者: Samuel Beck, Nina Doerr, Kuno Kurzhals, Alexander Riedlinger, Fabian Schmierer, Michael Sedlmair, Steffen Koch

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04100v1

摘要: 在过去的几十年里,体育可视化已发展成为一个活跃的研究领域。许多方法侧重于分析从非结构化情况(例如足球)记录的运动数据。然而,对于编队舞蹈等编排活动的分析,目标有所不同,因为舞者遵循协调运动轨迹中的特定队形。迄今为止,关于可视化分析方法如何支持此类精心设计的表演的工作还很少。为了填补这一空白,我们引入了一种新的视觉方法来规划和评估舞蹈编排。在编排规划方面,我们提供了一个网络应用程序,其中包含交互式创作工具以及舞者位置和方向、运动轨迹、姿势、舞池利用率和运动距离的视图。为了评估通过手动边界框注释提取的舞者的真实世界运动轨迹,我们开发了显示聚合轨迹偏差的时间线和用于详细轨迹比较的舞池视图。我们的方法是与舞蹈教练合作开发和评估的,表明将视觉分析引入该领域有望提高未来的培训效率。

用于可解释需求预测的分层神经加法模型

分类: 机器学习, 人机交互

作者: Leif Feddersen, Catherine Cleophas

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04070v1

摘要: 需求预测是从库存管理到战略设施规划等众多业务决策的重要基础。虽然机器学习 (ML) 方法可以提高准确性,但其可解释性和接受度却是出了名的缺乏。为了解决这个困境,我们引入了时间序列分层神经加法模型(HNAM)。 HNAM 通过引入具有水平和交互协变量组件的时间序列特定加性模型来扩展神经加性模型 (NAM)。仅允许根据用户指定的交互层次结构进行协变量交互。例如,工作日效应可以独立于其他协变量进行估计,而假日效应可能取决于工作日,并且额外的促销可能取决于交互层次结构中较低的两个前协变量。因此,HNAM 产生了一个直观的预测界面,分析师可以在其中观察每个已知协变量的贡献。我们评估所提出的方法,并根据真实世界零售数据广泛地与其他最先进的机器学习和统计模型进行性能基准测试。结果表明,HNAM 提供了有竞争力的预测性能,同时提供了合理的解释。

VoicePilot:利用大语言模型作为物理辅助机器人的语音接口

分类: 机器人技术, 计算和语言, 人机交互

作者: Akhil Padmanabha, Jessie Yuan, Janavi Gupta, Zulekha Karachiwalla, Carmel Majidi, Henny Admoni, Zackory Erickson

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04066v1

摘要: 身体辅助机器人提供了一个机会,可以显着提高患有运动障碍或其他形式的残疾且无法完成日常生活活动的个人的福祉和独立性。语音接口,尤其是利用大型语言模型 (LLM) 的语音接口,可以使个人能够有效、自然地向机器人传达高级命令和细微的偏好。已经提出了将大语言模型集成为机器人接口以进行高级任务规划和代码生成的框架,但未能纳入以人为本的考虑因素,而这在开发辅助界面时至关重要。在这项工作中,我们提出了一个将大语言模型纳入物理辅助机器人语音接口的框架,该框架通过涉及喂养机器人的 3 个测试阶段迭代构建,最终对独立生活设施中的 11 名老年人进行了评估。我们使用最终研究中的定量和定性数据来验证我们的框架,并另外提供使用大语言模型作为辅助机器人语音接口的设计指南。视频和支持文件位于我们的项目网站上:https://sites.google.com/andrew.cmu.edu/voicepilot/

哪种实验设计更适合 VQA 任务?关于认知负荷、表现和注视分配的眼动追踪研究

分类: 人机交互

作者: Sita A. Vriend, Sandeep Vidyapu, Amer Rama, Kun-Ting Chen, Daniel Weiskopf

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04036v1

摘要: 我们对 13 名参与者进行了一项眼球追踪用户研究,以调查刺激问题排序和问题模式对使用视觉问答 (VQA) 任务的参与者的影响。我们检查了五种不同实验设计的认知负荷、任务表现和注视分配,旨在确定最大限度减少参与者认知负担的设置。使用定量和定性方法对收集的表现和注视数据进行分析。我们的结果表明刺激问题排序对认知负荷和任务绩效有显着影响,以及问题模态对任务绩效的显着影响。这些发现为可视化研究中受控用户研究的实验设计提供了见解。

基于共享控制的关键机动验证

分类: 人机交互, 计算机与社会, 机器人技术, 系统与控制, 系统与控制, 68U99, I.6.6; J.7

作者: Mauricio Marcano, Joseba Sarabia, Asier Zubizarreta, Sergio Díaz

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04011v1

摘要: 本文介绍了自动驾驶系统中关键操作的共享控制策略的验证。共享控制涉及驾驶员和自动化之间的协作,允许双方在不同级别的驾驶任务中积极参与和合作。驾驶员的参与增加了控制回路的复杂性,需要全面的验证方法。所提出的方法侧重于两个关键的机动:低能见度情况下的超车和横向规避动作。实现了具有仲裁模块和共享控制算法的模块化架构,主要关注车辆的横向控制。验证是使用动态模拟器进行的,涉及 8 个真实驾驶员与虚拟环境的交互。结果表明,安全性和用户接受度得到了提高,表明与无共享控制支持相比,共享控制策略的有效性。未来的工作包括在线控驾驶系统中实施共享控制,以提高关键操作期间的安全性和驾驶员舒适度。总的来说,这项研究有助于自动驾驶系统中共享控制方法的开发和验证。

从理论到理解:差异隐私和$k$-匿名的比较研究

分类: 密码学和安全, 人机交互

作者: Saskia Nuñez von Voigt, Luise Mehner, Florian Tschorsch

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04006v1

摘要: $\varepsilon$-差分隐私的概念是一个广泛使用的为个人提供可量化隐私的概念。然而,目前尚不清楚如何解释具有一组$\varepsilon$的差分隐私机制提供的隐私保护级别。在本研究中,我们重点关注用户对差异隐私机制提供的隐私保护的理解。为此,我们研究了解释差异隐私提供的隐私保护的三种变体:(1)原始数学定义; (2) $\varepsilon$ 转化为特定的隐私风险; (3) 使用随机响应技术进行解释。我们将用户对使用这些解释模型的隐私保护的理解与他们对 $k$-匿名隐私保护的理解作为基线可理解性进行比较。我们的研究结果表明,隐私风险模型和基于随机响应的模型增强了参与者对差别隐私保护的理解。此外,我们的结果证实了我们的直觉,即 $k$ 匿名提供的隐私保护更容易理解。

近似 UMAP 可实现高维数据流的高速在线可视化

分类: 机器学习, 人工智能, 人机交互, 信号处理, I.5.3; I.5.3; J.4

作者: Peter Wassenaar, Pierre Guetschel, Michael Tangermann

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.04001v1

摘要: 在 BCI 领域,需要对大脑信号进行内省和解释,以提供反馈或指导快速范式原型设计,但由于信号的高噪声水平和维度而具有挑战性。深度神经网络通常通过使用统一流形逼近和投影 (UMAP) 等投影算法将学习到的特征表示转换为 2 维或 3 维子空间可视化来进行内省。不幸的是,这些方法的计算成本很高,使得实时数据流投影成为一项艰巨的任务。在这项研究中,我们引入了 UMAP 的一种新变体,称为近似 UMAP (aUMAP)。它旨在生成快速预测以进行实时内省。为了研究其对实时投影的适用性,我们将这些方法与标准 UMAP 及其神经网络对应的参数化 UMAP 进行了基准测试。我们的结果表明,近似 UMAP 提供的投影复制了标准 UMAP 的投影空间,同时将投影速度降低了一个数量级并保持相同的训练时间。

偏好与性能之间的紧张关系:多频率医疗网络数据的可视化探索设计

分类: 人机交互

作者: Christian Knoll, Laura Koesten, Isotta Rigoni, Serge Vulliémoz, Torsten Möller

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.03965v1

摘要: 复杂高维数据的分析是许多领域的常见任务,从而产生了定制的视觉探索工具。领域专家作为用户的期望和实践并不总是与可视化理论一致。在本文中,我们报告了医学领域的一项设计研究,其中我们开发了两种高保真原型,使用不同类型的可视化对脑电图衍生的大脑网络数据进行编码。我们评估这些原型的有效性、效率和偏好,分为两组:具有领域知识的参与者(医学研究领域的专家)和没有领域知识的参与者,两组都很少或没有可视化经验。对低保真原型的需求分析和研究揭示了人们对新颖且美观的可视化设计的强烈偏好,而不是基于可视化理论被认为更优化的设计。我们的研究强调了两种方法的优缺点,讨论了特定任务测量和主观偏好之间的权衡。虽然美观且新颖的低保真原型受到青睐,但我们的评估结果表明,在大多数情况下,这并没有反映在参与者的表现或对高保真原型的主观偏好上。

通过语音合成的迁移学习来发现开放词汇关键词

分类: 人机交互, 声音, 音频和语音处理

作者: Kesavaraj V, Anil Kumar Vuppala

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.03914v1

摘要: 在开放词汇环境中识别关键字对于与智能设备进行个性化交互至关重要。以前的开放词汇关键词识别方法依赖于音频和文本编码器创建的共享嵌入空间。然而,这些方法面临异构模态表示(即音频文本不匹配)的问题。为了解决这个问题,我们提出的框架利用了从预先训练的文本转语音 (TTS) 系统中获得的知识。这种知识传输允许将对音频投影的感知合并到从文本编码器导出的文本表示中。所提出的方法的性能与四个不同数据集的各种基线方法进行了比较。我们提出的模型的稳健性是通过评估其在不同字长和词汇外(OOV)场景中的性能来评估的。此外,通过分析 TTS 系统的不同中间表示来研究迁移学习的有效性。实验结果表明,在具有挑战性的 LibriPhrase Hard 数据集中,所提出的方法优于跨模态对应检测器(CMCD)方法,曲线下面积(AUC)显着提高了 8.22%,等错误率显着提高了 12.56%(能效比)。

多感官反馈对虚拟现实手重定向交互的感知和性能的影响

分类: 人机交互

作者: Hyunyoung Jang, Jinwook Kim, Jeongmi Lee

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.03899v1

摘要: 修改真实运动的视觉表示的重定向方法已被广泛用于扩展交互空间并创建引人入胜的虚拟现实体验。为了获得最佳的用户体验和性能,必须指定重定向的感知并利用适当范围的修改参数。然而,以往的研究主要集中在用户是否感知到目标感觉,很少考察感知准确性和重定向的敏感性。此外,目前尚不清楚手重定向交互中的感知和表现如何受到多感官反馈的影响。在本研究中,我们使用严格的心理物理学方法来指定用户对手部重定向的感知准确性和敏感性,并提供可接受的重定向参数范围。我们还在重定向的同时提出了不同的多感官反馈,以探讨其对用户感知和任务绩效的影响。实验结果表明,提供与虚拟手和目标目的地之间的距离成比例的连续多感官反馈,可以提高用户手部重定向感知的准确性,而不会改变其感知灵敏度。此外,多感官反馈的利用大大提高了任务执行的精度,特别是在增益系数较低的情况下。基于这些发现,我们提出了 VR 手部重定向交互和多感官反馈的设计指南和潜在应用,以实现最佳的用户体验和性能。

Buck You:在 Sui 上设计具有零知识登录和赞助交易的易于使用的区块链应用程序

分类: 密码学和安全, 人机交互

作者: Eason Chen, Zimo Xiao, Justa Liang, Damien Chen, Pierce Hung, Kostas Kryptos Chalkias

发布时间: 2024-04-05

链接: http://arxiv.org/abs/2404.03845v1

摘要: 在本文中,我们开发了一个区块链应用程序来演示 Sui 最近的创新功能:零知识登录和赞助交易。零知识登录允许用户仅使用其 OAuth 帐户(例如 Google、Facebook、Twitch)创建和访问其区块链钱包,而赞助交易则无需用户准备交易费用,因为他们可以将费用委托给赞助商的帐户。此外,得益于Sui的存储返利功能,赞助交易的赞助商可以从赞助中获利,实现双赢和可持续的服务模式。零知识登录和赞助交易对于克服区块链新手用户面临的关键挑战至关重要,特别是在管理私钥和存入初始交易费用方面。通过解决区块链用户体验中的这些挑战,Sui 使区块链对于新手用户来说更容易访问和参与,并为日常生活中更广泛地采用区块链应用程序铺平了道路。

SleepVST:使用预先训练的变压器根据近红外视频信号进行睡眠分级

分类: 计算机视觉和模式识别, 人机交互, 神经元和认知

作者: Jonathan F. Carter, João Jorge, Oliver Gibson, Lionel Tarassenko

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03831v1

摘要: 基于摄像头的生理监测技术的进步使得呼吸和心搏的稳健、非接触式测量成为可能,众所周知,这可以指示睡眠阶段。这导致了对基于摄像头的睡眠监测的研究,作为“黄金标准”多导睡眠图的有前途的替代品,“金标准”多导睡眠图操作繁琐、管理昂贵,因此不适合长期临床研究。在本文中,我们介绍了 SleepVST,这是一种 Transformer 模型,可在基于摄像头的睡眠阶段分类(睡眠分期)中实现最先进的性能。在对接触传感器数据进行预训练后,SleepVST 在 SHHS 和 MESA 数据集上优于现有的心肺睡眠分期方法,科恩 kappa 总分分别为 0.75 和 0.77。然后,我们证明 SleepVST 可以成功地转换为从视频中提取的心肺波形,从而实现完全无接触的睡眠分期。使用 50 个夜晚的视频数据集,我们在基于四级视频的睡眠分期中实现了 78.8% 的总准确率和 0.71 的 Cohen's kappa$,在该领域树立了新的最先进水平。

我没有注意到:沉浸式分析与增强现实和虚拟现实的比较

分类: 人机交互

作者: Xiaoyan Zhou, Anil Ufuk Batmaz, Adam S. Williams, Dylan Schreiber, Francisco Ortega

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03814v1

摘要: 沉浸式环境使用户能够参与具体的交互,增强完成沉浸式分析等任务所涉及的意义建构过程。先前对使用增强现实和虚拟现实的沉浸式分析的比较研究表明,用户根据环境采用不同的数据解释和基于文本的分析策略。我们的研究旨在调查增强现实和虚拟现实如何影响定量沉浸式分析中的意义建构过程。我们的结果来自不同的参与者群体,表明用户在两种环境中表现出相当的性能。然而,据观察,用户在 VR 中对认知负荷表现出更高的容忍度,并且在 AR 中走得更远。根据我们的发现,我们建议为用户提供在 AR 和 VR 之间切换的选项,从而使他们能够选择符合其偏好和任务要求的环境。

从非专家利益相关者的肾脏放置意见中学习社会公平偏好

分类: 机器学习, 人机交互

作者: Mukund Telukunta, Sukruth Rao, Gabriella Stickney, Venkata Sriram Siddardh Nadendla, Casey Canfield

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03800v1

摘要: 现代肾脏放置结合了多种智能推荐系统,这些系统由于从训练数据继承的偏差而表现出社会歧视。尽管文献中最初尝试研究肾脏放置的算法公平性,但这些方法用外科医生的决定取代了真实的结果,因为可靠地记录这些结果涉及长时间的延迟。然而,用外科医生的决定代替真实结果忽视了专家利益相关者的偏见以及不具备医学专业知识的其他利益相关者的社会意见。本文缓解了后一个问题,并设计了一种新颖的公平反馈调查来评估接受率预测器(ARP),该预测器可预测给定肾脏匹配对中肾脏的接受率。该调查在众包平台Prolific上发起,从85位匿名众包参与者那里收集民意。提出了一种新颖的社会公平偏好学习算法,该算法基于使用新颖的基于逻辑的公平反馈模型计算的最小化社会反馈遗憾。所提出的模型和学习算法均使用模拟实验和多产数据进行了验证。已经对肾脏放置背景下公众对群体公平概念的偏好进行了估计和详细讨论。 Prolific 调查中测试的具体 ARP 被参与者认为是公平的。

重新审视散点图中的分类颜色感知:顺序、发散和分类调色板

分类: 人机交互

作者: Chin Tseng, Arran Zeyu Wang, Ghulam Jilani Quadri, Danielle Albers Szafir

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03787v1

摘要: 现有的分类颜色选择指南是启发式的,通常基于直觉,而不是对读者能力的实证研究。虽然设计惯例建议调色板最大化色调差异,但最近的探索性发现表明其他因素(例如亮度)可能在有效的分类调色板设计中发挥作用。我们使用五个调色板系列(单色调连续、多色调连续、感知均匀多色调连续、发散和多色调分类)对多类散点图中的平均值判断进行了众包实验。他们如何操纵色调和亮度。参与者使用 20 个颜色图估计包含 2 到 10 个类别的散点图中的相对平均位置。我们的结果证实了启发式指导,即基于色调的分类调色板是最有效的。然而,它们还提供了额外的证据,表明可扩展的分类编码不仅仅依赖于色调方差。

不同色调的假货:警告如何影响人类对大语言模型幻觉的感知和参与

分类: 人机交互, 人工智能, 计算和语言

作者: Mahjabin Nahar, Haeseung Seo, Eun-Ju Lee, Aiping Xiong, Dongwon Lee

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03745v1

摘要: 大型语言模型(LLM)的广泛采用和变革性影响引发了人们对其产生不准确和虚构内容(称为“幻觉”)的能力的担忧。考虑到与幻觉相关的潜在风险,人类应该能够识别它们。这项研究旨在通过系统地改变幻觉的程度(真正的、轻微的幻觉、严重的幻觉)并检查其与警告(即潜在不准确的警告:不存在与存在)的相互作用,来了解人类对大语言模型幻觉的感知。来自 Prolific 的参与者 (N=419) 以问答形式对感知准确性和参与内容(例如喜欢、不喜欢、分享)进行评分。结果表明,人类对内容的真实性排序顺序是真实 > 轻微幻觉 > 严重幻觉,用户参与行为也反映了这种模式。更重要的是,我们观察到警告可以改善幻觉检测,而不会显着影响真实内容的感知真实性。最后,我们为未来帮助人类检测幻觉的工具提供了见解。

解释可解释性:理解概念激活向量

分类: 机器学习, 人工智能, 计算机视觉和模式识别, 人机交互, I.2.6

作者: Angus Nicolson, Lisa Schut, J. Alison Noble, Yarin Gal

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03713v1

摘要: 最近的可解释性方法提出使用基于概念的解释将深度学习模型的内部表示转化为人类熟悉的语言:概念。这需要了解神经网络的表示空间中存在哪些概念。查找概念的一种流行方法是概念激活向量 (CAV),它是使用概念范例的探测数据集来学习的。在这项工作中,我们研究了 CAV 的三个特性。 CAV 可能:(1) 各层之间不一致,(2) 与不同概念纠缠在一起,(3) 空间相关。每个属性都为解释模型提供了挑战和机遇。我们引入了旨在检测​​这些属性是否存在的工具,深入了解它们如何影响派生的解释,并提供建议以尽量减少其影响。了解这些属性可以为我们带来优势。例如,我们引入空间相关的 CAV 来测试模型对于特定概念和类是否具有平移不变性。我们的实验是在 ImageNet 和新的合成数据集 Elements 上进行的。 Elements 旨在捕获概念和类之间已知的基本事实关系。我们发布此数据集是为了促进理解和评估可解释性方法的进一步研究。

创作者之心:调查 YouTube 创作者发出的积极信号对塑造评论区行为的影响

分类: 人机交互

作者: Frederick Choi, Charlotte Lambert, Vinay Koshy, Sowmya Pratipati, Tue Do, Eshwar Chandrasekharan

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03612v1

摘要: 在线审核的大部分研究都集中在惩罚性行为上。然而,新兴研究表明,积极强化可以有效鼓励在线平台上的理想行为。我们通过研究 YouTube 上的“创作者之心”功能来扩展这项研究,量化其对获得爱心的评论和获得爱心的视频的主要影响。我们发现创作者之心增加了评论的可见度,并增加了他们从其他用户那里获得的积极参与度。我们还发现,视频发布后不久创作者的真诚评论可以激励观看者发表评论,从而随着时间的推移增加视频的总体参与度。我们讨论了创作者通过突出、奖励和激励用户的理想行为,利用爱心来塑造社区行为的潜力。我们讨论了将我们的研究扩展到理解其他平台上的版主发出的积极信号的途径。

将大型语言模型与多模态虚拟现实界面相集成,支持人机协作构建工作

分类: 机器人技术, 人机交互

作者: Somin Park, Carol C. Menassa, Vineet R. Kamat

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03498v1

摘要: 在建筑行业,工作环境复杂、非结构化且常常危险,人机协作 (HRC) 的实施正在成为一项充满希望的进步。这凸显了对直观通信界面的迫切需求,使建筑工人能够与机器人助手无缝协作。本研究引入了集成多模态交互的会话式虚拟现实(VR)界面,以增强建筑工人和机器人之间的直观沟通。通过将语音和控制器输入与机器人操作系统(ROS)、建筑信息模型(BIM)以及具有由大语言模型(LLM)支持的聊天界面的游戏引擎集成,所提出的系统能够在虚拟现实设置。十二名建筑工人通过干墙安装案例研究进行了评估,所提出的系统通过简洁的命令输入证明了其低工作量和高可用性。所提出的多模态交互系统表明,这种技术集成可以极大地促进机器人助手在建筑行业的集成。

Agora电梯身体感觉研究——报告

分类: 人机交互

作者: Rebekah Rousi

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03356v1

摘要: 这项研究旨在研究表达的社会情绪(即人们所说的感受)与身体感觉之间的关系,以及情绪与身体体验之间的联系。它还提供了一个机会来研究如何在实践中观察性别差异的神经学发现,我们拥有不同水平的镜像神经元活动对行为和判断有何影响?以下报告记录了研究、程序、结果和发现。

游戏时长、手部追踪和基于控制器的控制方法对 VR 中用户体验的影响

分类: 人机交互

作者: Tanja Kojić, Maurizio Vergari, Simon Knuth, Maximilian Warsinke, Sebastian Möller, Jan-Niklas Voigt-Antons

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03337v1

摘要: 由内而外的跟踪在消费者 VR 中越来越流行,增强了可访问性。它使用 HMD 摄像头数据和神经网络进行有效的手部跟踪。然而,有限的用户体验研究将该方法与传统控制器进行了比较,但对于最优控制技术尚未达成共识。本文研究了控制方法和游戏持续时间对 VR 用户体验的影响,假设手部跟踪可能更适合短时间会话,并且由于其简单性而受到 VR 新用户的青睐。通过对 20 名参与者进行的实验室研究,评估存在感、情绪反应、用户体验质量和流程,结果显示控制类型和会话长度会影响用户体验,而无需进行大量交互。控制员通常表现出色,这归因于其可靠性,并且较长的会话时间增加了临场感和真实感。研究发现,拥有更多 VR 经验的人更倾向于向其他人推荐手部追踪,这与预测相矛盾。

使用交互式 VR 游戏探索多成分空间中的情感

分类: 人机交互, 人工智能, 机器学习

作者: Rukshani Somarathna, Gelareh Mohammadi

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03239v1

摘要: 情绪理解是一个涉及多个组成部分的复杂过程。识别情绪的能力不仅会带来新的情境感知方法,而且还可以通过感知和表达情绪来增强系统交互的有效性。尽管人们关注离散和维度模型,但神经科学证据支持这些情绪是复杂且多方面的。与这些发现产生良好共鸣的一个框架是组件过程模型(CPM),该理论考虑了情绪的复杂性,包括五个相互关联的组件:评价、表达、动机、生理和感觉。然而,CPM 与离散情绪之间的关系尚未得到充分探讨。因此,为了更好地理解情绪背后的过程,我们使用交互式虚拟现实 (VR) 游戏实施了数据驱动的方法,并收集了 39 名参与者的多模式测量(自我报告、生理和面部信号)。我们使用机器学习 (ML) 方法来识别每个成分对情绪分化的独特贡献。我们的结果显示了不同成分在情绪分化中的作用,该模型包括所有成分,显示出最显着的贡献。此外,我们发现至少需要五个维度来表示数据集中情绪的变化。这些发现对于在情感研究中使用 VR 环境也具有重要意义,并强调了生理信号在此类环境中情感识别中的作用。

NLP4Gov:计算政策分析的综合库

分类: 人机交互

作者: Mahasweta Chakraborti, Sailendra Akash Bonagiri, Santiago Virgüez-Ruiz, Seth Frey

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03206v1

摘要: 正式的规则和政策是正式指定社会系统的基础:它的运作、边界、过程,甚至本体论。最近的学术研究强调了正式政策在集体知识创造、游戏社区、数字公共产品生产和国家社交媒体治理中的作用。研究人员对在线社区如何建立可行的自治机制来规范成员活动并通过指定责任、角色和层次结构来分配权利和特权感兴趣。我们推出了 NLP4Gov,这是一个交互式工具包,用于培训和帮助学者和从业者进行计算政策分析。该库探索并集成了计算语言学和 NLP 的方法和功能,从文本记录生成社区政策的语义和符号表示。 NLP4Gov 功能多样、记录丰富且易于访问,为机构结构和交互提供了精细的比较视图,以及用于下游分析的其他信息提取功能。

实现以家庭为中心的在线安全、隐私和安保的协作设计

分类: 人机交互

作者: Mamtaj Akter, Zainab Agha, Ashwaq Alsoubai, Naima Ali, Pamela Wisniewski

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03165v1

摘要: 传统的在线安全技术往往过度限制青少年并侵犯他们的隐私,而父母往往缺乏关于他们的数字隐私的知识。因此,先前的研究人员呼吁在青少年在线安全和网络隐私方面采取更多协作方法。在本文中,我们提出以家庭为中心的方法,以促进家长与青少年的合作,确保他们的移动隐私和在线安全,同时尊重个人隐私,加强公开讨论和青少年的自我监管。然而,在实施这些方法时,会出现权力不平衡和与家庭价值观冲突等挑战,使家长与青少年的合作变得困难。因此,参加以家庭为中心的设计研讨会将为我们提供一个宝贵的机会来讨论这些挑战,并为家庭内部协作在线安全和隐私的未来确定最佳研究实践。

可生物降解的互动材料

分类: 人机交互

作者: Zhihan Zhang, Mallory Parker, Kuotian Liao, Jerry Cao, Anandghan Waghmare, Joseph Breda, Chris Matsumura, Serena Eley, Eleftheria Roumeli, Shwetak Patel, Vikram Iyer

发布时间: 2024-04-04

链接: http://arxiv.org/abs/2404.03130v1

摘要: 触觉是我们与物理和数字世界互动的基础。传统的交互表面和触觉界面使用嵌入到物体中的电子传感器,但是这种方法对环境可持续性和信息被编码到日常物体中的真正无处不在的交互系统的未来提出了严峻的挑战。在这项工作中,我们提出了可生物降解的交互式材料:利用材料属性中编码的信息的后院可堆肥交互式界面。受自然系统的启发,我们提出了一种架构,以编程方式将多维信息编码到材料本身中,并将其与可扩展人类感官以感知嵌入数据的可穿戴设备相结合。我们将来自植物和藻类(如小球藻)的未精炼生物物质与天然矿物质(如石墨和磁铁矿)相结合,生产出具有不同电、磁和表面特性的材料。我们使用物理模型、计算模拟和现实实验进行深入分析,以表征其信息密度并开发解码方法。我们的无源无芯片材料可以可靠地编码 12 位信息,相当于 4096 个独特的类别。我们进一步开发可穿戴设备原型,可以使用现成的传感器在触摸交互过程中解码这些信息。我们演示了示例应用程序,例如定制按钮、触觉地图和交互式表面。我们进一步证明了这些互动材料在户外 21 天内可自然降解,并对这种方法的优点进行了环境比较分析。

自然生成人工智能:前景、挑战和策略

分类: 人机交互

作者: Yuan Sun, Eunchae Jang, Fenglong Ma, Ting Wang

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.04101v1

摘要: 生成式人工智能 (GenAI) 技术凭借其生成新颖且引人入胜的内容的卓越能力,正在颠覆许多行业的传统工作流程。虽然之前的研究从以技术为中心的角度审视了 GenAI,但对于用户如何在现实场景中感知和使用 GenAI 仍然缺乏了解。为了弥补这一差距,我们对创意产业中的 (N=18) GenAI 用户进行了半结构化访谈,调查了整体 LUA(学习、使用和评估)框架内的人与 GenAI 共同创造过程。我们的研究揭示了一个有趣的复杂景观:Prospects-GenAI 极大地促进了人类专业知识和 GenAI 能力之间的共同创造,深刻地改变了创意工作流程;挑战——同时,用户面临着资源可用性、工具可用性和法规遵从性带来的巨大不确定性和复杂性;策略——作为回应,用户积极设计各种策略来克服许多此类挑战。我们的研究揭示了对未来 GenAI 工具设计的关键影响。

文化对自动驾驶汽车接受度的影响

分类: 物理与社会, 计算机与社会, 人机交互

作者: Chowdhury Shahriar Muzammel, Maria Spichkova, James Harland

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.03694v1

摘要: 自动驾驶汽车和其他智能交通系统一直在迅速发展,并在全球范围内得到越来越多的部署。之前的研究表明,对自动驾驶汽车的看法和态度取决于多种属性,包括受访者的年龄、教育水平和背景。这些关于年龄和教育水平的调查结果总体上是一致的,例如表明年轻的受访者通常更容易接受自动驾驶汽车,教育水平较高的受访者也是如此。然而,文化等因素的影响则不太明确。在本文中,我们通过著名的霍夫斯泰德文化模型分析了自动驾驶汽车的接受度与民族文化之间的关系。

使用人工智能写作会降低心理所有权,但更长的提示会有所帮助

分类: 人机交互

作者: Nikhita Joshi, Daniel Vogel

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.03108v1

摘要: 对某物属于某人的感觉称为“心理所有权”。一个常见的假设是,使用生成式人工智能写作会降低心理归属感,但这种情况发生的程度以及提示长度的作用尚不清楚。我们报告了两项实验,以更好地理解心理所有权和提示长度之间的关系。参与者要么完全自己写短篇故事,要么写不同长度的提示,并通过字数限制强制执行。结果表明,当参与者写出更长的提示时,他们的心理所有权水平更高。他们的评论表明,他们感到受到鼓励,更多地思考他们的提示,并包含有关故事情节的更多细节。然而,当提示长度为目标故事长度的 75-100% 时,这些好处就会趋于稳定。基于这些结果,我们提出了提示输入界面设计,促使具有软约束和硬约束的用户编写更长的提示,以增加心理所有权。

Talaria:交互式优化机器学习模型以实现高效推理

分类: 人机交互, 人工智能, 机器学习

作者: Fred Hohman, Chaoqun Wang, Jinmook Lee, Jochen Görtler, Dominik Moritz, Jeffrey P Bigham, Zhile Ren, Cecile Foret, Qi Shan, Xiaoyi Zhang

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.03085v1

摘要: 设备端机器学习 (ML) 将计算从云端转移到个人设备,保护用户隐私并实现智能用户体验。然而,在资源有限的设备上拟合模型提出了重大的技术挑战:从业者需要优化模型并平衡模型大小、延迟和功耗等硬件指标。为了帮助从业者创建高效的机器学习模型,我们设计并开发了 Talaria:模型可视化和优化系统。 Talaria 使从业者能够将模型编译到硬件、交互式可视化模型统计数据并模拟优化以测试对推理指标的影响。自两年前内部部署以来,我们使用三种方法对 Talaria 进行了评估:(1) 日志分析,突出显示其 800 多名从业者提交 3,600 多个模型的增长情况; (2) 一项由 26 位用户参与的可用性调查,评估 20 个 Talaria 功能的实用性; (3) 对 7 位最活跃用户进行定性访谈,了解他们使用 Talaria 的体验。

迈向基于人工智能 (AI) 的对话代理的安全进化,以支持青少年心理和性健康知识发现

分类: 人机交互, 人工智能

作者: Jinkyung Park, Vivek Singh, Pamela Wisniewski

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.03023v1

摘要: 随着最近发布的各种基于人工智能 (AI) 的对话代理 (CA),青少年越来越多地使用 CA 来发现敏感主题(包括心理和性健康主题)的交互式知识。通过在线搜索探索此类敏感话题一直是青少年发展的重要组成部分,CA 可以通过类人对话来支持他们对此类话题的知识发现。然而,青少年与基于人工智能的 CA 的互动中已经记录了意想不到的风险,例如接触到不适当的内容、虚假信息和/或得到不利于他们身心健康的建议(例如,自我保护)。 -伤害)。在这篇立场文件中,我们讨论了 CA 支持青少年心理和性健康知识发现的现状和机会。我们还讨论了与确保青少年在与 CA 就性和心理健康话题进行互动时的安全相关的一些挑战。我们呼吁就如何为青少年基于人工智能的 CA 的安全进化设置护栏进行讨论。

ASAP:大规模人工智能生成图像模式的可解释分析和总结

分类: 计算机视觉和模式识别, 人工智能, 人机交互

作者: Jinbin Huang, Chen Chen, Aditi Mishra, Bum Chul Kwon, Zhicheng Liu, Chris Bryan

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02990v1

摘要: 生成图像模型已成为一种有前景的生成逼真图像的技术。尽管有潜在的好处,但人们对其滥用的担忧与日俱增,特别是在生成可能引发重大道德、法律和社会问题的欺骗性图像方面。因此,越来越需要让用户能够有效辨别和理解人工智能生成图像的模式。为此,我们开发了 ASAP,这是一种交互式可视化系统,可以自动提取人工智能生成图像的不同模式,并允许用户通过各种视图交互式地探索它们。为了发现虚假模式,ASAP 引入了一种改编自 CLIP 的新型图像编码器,它将图像转换为紧凑的“蒸馏”表示,并富含用于区分真假图像的信息。这些表示生成梯度,传播回 CLIP 变压器块的注意力图。这个过程量化了每个像素对图像真实性或虚假性的相对重要性,暴露了关键的欺骗模式。 ASAP 通过多个协调的可视化来实现对这些模式的大规模交互式分析。这包括具有创新单元字形的表示概述,以帮助探索和定性评估大量图像中的虚假图案,以及显示图像中指示真实性的图案并量化其影响的图案视图。 ASAP 支持使用最新架构分析尖端生成模型,包括基于 GAN 的模型(如 proGAN)和扩散模型(如潜在扩散模型)。我们通过使用多个虚假图像检测基准数据集的两个使用场景展示了 ASAP 的实用性,揭示了其识别和理解人工智能生成图像中隐藏模式的能力,特别是在检测基于扩散的技术产生的虚假人脸方面。

A Unified Editing Method for Co-Speech Gesture Generation via Diffusion Inversion

分类: 人机交互

作者: Zeyu Zhao, Nan Gao, Zhi Zeng, Guixuan Zhang, Jie Liu, Shuwu Zhang

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02411v1

摘要: Diffusion models have shown great success in generating high-quality co-speech gestures for interactive humanoid robots or digital avatars from noisy input with the speech audio or text as conditions. However, they rarely focus on providing rich editing capabilities for content creators other than high-level specialized measures like style conditioning. To resolve this, we propose a unified framework utilizing diffusion inversion that enables multi-level editing capabilities for co-speech gesture generation without re-training. The method takes advantage of two key capabilities of invertible diffusion models. The first is that through inversion, we can reconstruct the intermediate noise from gestures and regenerate new gestures from the noise. This can be used to obtain gestures with high-level similarities to the original gestures for different speech conditions. The second is that this reconstruction reduces activation caching requirements during gradient calculation, making the direct optimization on input noises possible on current hardware with limited memory. With different loss functions designed for, e.g., joint rotation or velocity, we can control various low-level details by automatically tweaking the input noises through optimization. Extensive experiments on multiple use cases show that this framework succeeds in unifying high-level and low-level co-speech gesture editing.

A neuroergonomics model to evaluating nuclear power plants operators' performance under heat stress driven by ECG time-frequency spectrums and fNIRS prefrontal cortex network: a CNN-GAT fusion model

分类: 人机交互

作者: Yan Zhang, Ming Jia, Meng Li, JianYu Wang, XiangMin Hu, ZhiHui Xu, Tao Chen

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02439v1

摘要: Operators experience complicated physiological and psychological states when exposed to extreme heat stress, which can impair cognitive function and decrease performance significantly, ultimately leading to severe secondary disasters. Therefore, there is an urgent need for a feasible technique to identify their abnormal states to enhance the reliability of human-cybernetics systems. With the advancement of deep learning in physiological modeling, a model for evaluating operators' performance driven by electrocardiogram (ECG) and functional near-infrared spectroscopy (fNIRS) was proposed, demonstrating high ecological validity. The model fused a convolutional neural network (CNN) backbone and a graph attention network (GAT) backbone to extract discriminative features from ECG time-frequency spectrums and fNIRS prefrontal cortex (PFC) network respectively with deeper neuroscience domain knowledge, and eventually achieved 0.90 AUC. Results supported that handcrafted features extracted by specialized neuroscience methods can alleviate overfitting. Inspired by the small-world nature of the brain network, the fNIRS PFC network was organized as an undirected graph and embedded by GAT. It is proven to perform better in information aggregation and delivery compared to a simple non-linear transformation. The model provides a potential neuroergonomics application for evaluating the human state in vital human-cybernetics systems under industry 5.0 scenarios.

PromptRPA: Generating Robotic Process Automation on Smartphones from Textual Prompts

分类: 人机交互

作者: Tian Huang, Chun Yu, Weinan Shi, Zijian Peng, David Yang, Weiqi Sun, Yuanchun Shi

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02475v1

摘要: Robotic Process Automation (RPA) offers a valuable solution for efficiently automating tasks on the graphical user interface (GUI), by emulating human interactions, without modifying existing code. However, its broader adoption is constrained by the need for expertise in both scripting languages and workflow design. To address this challenge, we present PromptRPA, a system designed to comprehend various task-related textual prompts (e.g., goals, procedures), thereby generating and performing corresponding RPA tasks. PromptRPA incorporates a suite of intelligent agents that mimic human cognitive functions, specializing in interpreting user intent, managing external information for RPA generation, and executing operations on smartphones. The agents can learn from user feedback and continuously improve their performance based on the accumulated knowledge. Experimental results indicated a performance jump from a 22.28% success rate in the baseline to 95.21% with PromptRPA, requiring an average of 1.66 user interventions for each new task. PromptRPA presents promising applications in fields such as tutorial creation, smart assistance, and customer service.

Spatial Summation of Localized Pressure for Haptic Sensory Prostheses

分类: 人机交互

作者: Sreela Kodali, Cihualpilli Camino Cruz, Thomas C. Bulea, Kevin S. Rao Diana Bharucha-Goebel, Alexander T. Chesler, Carsten G. Bonnemann, Allison M. Okamura

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02565v1

摘要: A host of medical conditions, including amputations, diabetes, stroke, and genetic disease, result in loss of touch sensation. Because most types of sensory loss have no pharmacological treatment or rehabilitative therapy, we propose a haptic sensory prosthesis that provides substitutive feedback. The wrist and forearm are compelling locations for feedback due to available skin area and not occluding the hands, but have reduced mechanoreceptor density compared to the fingertips. Focusing on localized pressure as the feedback modality, we hypothesize that we can improve on prior devices by invoking a wider range of stimulus intensity using multiple points of pressure to evoke spatial summation, which is the cumulative perceptual experience from multiple points of stimuli. We conducted a preliminary perceptual test to investigate this idea and found that just noticeable difference is reduced with two points of pressure compared to one, motivating future work using spatial summation in sensory prostheses.

Unblind Text Inputs: Predicting Hint-text of Text Input in Mobile Apps via LLM

分类: 人机交互

作者: Zhe Liu, Chunyang Chen, Junjie Wang, Mengzhuo Chen, Boyu Wu, Yuekai Huang, Jun Hu, Qing Wang

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02706v1

摘要: Mobile apps have become indispensable for accessing and participating in various environments, especially for low-vision users. Users with visual impairments can use screen readers to read the content of each screen and understand the content that needs to be operated. Screen readers need to read the hint-text attribute in the text input component to remind visually impaired users what to fill in. Unfortunately, based on our analysis of 4,501 Android apps with text inputs, over 0.76 of them are missing hint-text. These issues are mostly caused by developers' lack of awareness when considering visually impaired individuals. To overcome these challenges, we developed an LLM-based hint-text generation model called HintDroid, which analyzes the GUI information of input components and uses in-context learning to generate the hint-text. To ensure the quality of hint-text generation, we further designed a feedback-based inspection mechanism to further adjust hint-text. The automated experiments demonstrate the high BLEU and a user study further confirms its usefulness. HintDroid can not only help visually impaired individuals, but also help ordinary people understand the requirements of input components. HintDroid demo video: https://youtu.be/FWgfcctRbfI.

Evolving Agents: Interactive Simulation of Dynamic and Diverse Human Personalities

分类: 人机交互

作者: Jiale Li, Jiayang Li, Jiahao Chen, Yifan Li, Shijie Wang, Hugo Zhou, Minjun Ye, Yunsheng Su

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02718v1

摘要: Human-like Agents with diverse and dynamic personality could serve as an important design probe in the process of user-centered design, thereby enabling designers to enhance the user experience of interactive application.In this article, we introduce Evolving Agents, a novel agent architecture that consists of two systems: Personality and Behavior. The Personality system includes three modules: Cognition, Emotion and Character Growth. The Behavior system comprises two modules: Planning and Action. We also build a simulation platform that enables agents to interact with the environment and other agents. Evolving Agents can simulate the human personality evolution process. Compared to its initial state, agents' personality and behavior patterns undergo believable development after several days of simulation. Agents reflect on their behavior to reason and develop new personality traits. These traits, in turn, generate new behavior patterns, forming a feedback loop-like personality evolution.In our experiment, we utilized simulation platform with 10 agents for evaluation. During the evaluation, these agents experienced believable and inspirational personality evolution. Through ablation and control experiments, we demonstrated the outstanding effectiveness of agent personality evolution and all modules of our agent architecture contribute to creating believable human-like agents with diverse and dynamic personalities. We also demonstrated through workshops how Evolving Agents could inspire designers.

IEEE VIS Workshop on Visualization for Climate Action and Sustainability

分类: 人机交互

作者: Benjamin Bach, Fanny Chevalier, Helen-Nicole Kostis, Mark Subbaro, Yvonne Jansen, Robert Soden

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02743v1

摘要: This first workshop on visualization for climate action and sustainability aims to explore and consolidate the role of data visualization in accelerating action towards addressing the current environmental crisis. Given the urgency and impact of the environmental crisis, we ask how our skills, research methods, and innovations can help by empowering people and organizations. We believe visualization holds an enormous power to aid understanding, decision making, communication, discussion, participation, education, and exploration of complex topics around climate action and sustainability. Hence, this workshop invites submissions and discussion around these topics with the goal of establishing a visible and actionable link between these fields and their respective stakeholders. The workshop solicits work-in-progress and research papers as well as pictorials and interactive demos from the whole range of visualization research (dashboards, interactive spaces, scientific visualization, storytelling, visual analytics, explainability etc.), within the context of environmentalism (climate science, sustainability, energy, circular economy, biodiversity, etc.) and across a range of scenarios from public awareness and understanding, visual analysis, expert decision making, science communication, personal decision making etc. After presentations of submissions, the workshop will feature dedicated discussion groups around data driven interactive experiences for the public, and tools for personal and professional decision making.

AI and personalized learning: bridging the gap with modern educational goals

分类: 计算机与社会, 人机交互

作者: Kristjan-Julius Laak, Jaan Aru

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02798v1

摘要: Personalized learning (PL) aspires to provide an alternative to the one-size-fits-all approach in education. Technology-based PL solutions have shown notable effectiveness in enhancing learning performance. However, their alignment with the broader goals of modern education is inconsistent across technologies and research areas. In this paper, we examine the characteristics of AI-driven PL solutions in light of the OECD Learning Compass 2030 goals. Our analysis indicates a gap between the objectives of modern education and the current direction of PL. We identify areas where most present-day PL technologies could better embrace essential elements of contemporary education, such as collaboration, cognitive engagement, and the development of general competencies. While the present PL solutions are instrumental in aiding learning processes, the PL envisioned by educational experts extends beyond simple technological tools and requires a holistic change in the educational system. Finally, we explore the potential of large language models, such as ChatGPT, and propose a hybrid model that blends artificial intelligence with a collaborative, teacher-facilitated approach to personalized learning.

The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers

分类: 软件工程, 人工智能, 人机交互

作者: Hussein Mozannar, Valerie Chen, Mohammed Alsobay, Subhro Das, Sebastian Zhao, Dennis Wei, Manish Nagireddy, Prasanna Sattigeri, Ameet Talwalkar, David Sontag

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02806v1

摘要: Evaluation of large language models (LLMs) for code has primarily relied on static benchmarks, including HumanEval (Chen et al., 2021), which measure the ability of LLMs to generate complete code that passes unit tests. As LLMs are increasingly used as programmer assistants, we study whether gains on existing benchmarks translate to gains in programmer productivity when coding with LLMs, including time spent coding. In addition to static benchmarks, we investigate the utility of preference metrics that might be used as proxies to measure LLM helpfulness, such as code acceptance or copy rates. To do so, we introduce RealHumanEval, a web interface to measure the ability of LLMs to assist programmers, through either autocomplete or chat support. We conducted a user study (N=213) using RealHumanEval in which users interacted with six LLMs of varying base model performance. Despite static benchmarks not incorporating humans-in-the-loop, we find that improvements in benchmark performance lead to increased programmer productivity; however gaps in benchmark versus human performance are not proportional -- a trend that holds across both forms of LLM support. In contrast, we find that programmer preferences do not correlate with their actual performance, motivating the need for better, human-centric proxy signals. We also open-source RealHumanEval to enable human-centric evaluation of new models and the study data to facilitate efforts to improve code models.

Fragmented Moments, Balanced Choices: How Do People Make Use of Their Waiting Time?

分类: 人机交互, H.5.m

作者: Jian Zheng, Ge Gao

发布时间: 2024-04-03

链接: http://arxiv.org/abs/2404.02880v1

摘要: Everyone spends some time waiting every day. HCI research has developed tools for boosting productivity while waiting. However, little is known about how people naturally spend their waiting time. We conducted an experience sampling study with 21 working adults who used a mobile app to report their daily waiting time activities over two weeks. The aim of this study is to understand the activities people do while waiting and the effect of situational factors. We found that participants spent about 60% of their waiting time on leisure activities, 20% on productive activities, and 20% on maintenance activities. These choices are sensitive to situational factors, including accessible device, location, and certain routines of the day. Our study complements previous ones by demonstrating that people purpose waiting time for various goals beyond productivity and to maintain work-life balance. Our findings shed light on future empirical research and system design for time management.

利用数字感知技术对人体生物力学过程进行远程感知和分析:工作负载和联合力量评估的非接触式方法

分类: 计算机视觉和模式识别, 人机交互

作者: Jesudara Omidokun, Darlington Egeonu, Bochen Jia, Liang Yang

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01576v1

摘要: 这项研究提出了一种创新的计算机视觉框架,旨在分析工业环境中的人体运动,旨在通过与现有软件无缝集成来增强生物力学分析。通过先进的成像和建模技术的结合,该框架可以对人体运动进行全面的审查,为运动学模式和动力学数据提供有价值的见解。该方法利用卷积神经网络 (CNN)、直接线性变换 (DLT) 和长短期记忆 (LSTM) 网络,准确检测关键身体点、重建 3D 标志并生成详细的 3D 身体网格。对各种运动的广泛评估验证了该框架的有效性,证明了与传统的基于标记的模型可比较的结果,在关节角度估计以及体重和身高的精确估计方面存在微小差异。统计分析一致支持该框架的可靠性,关节角度估计显示髋关节屈曲、肘关节屈曲和膝关节角度方法的差异小于 5 度。此外,与 10 名受试者的真实值相比,体重估计的平均体重误差小于 6%,身高平均误差小于 2%。 Biomech-57 地标骨架模板的集成进一步增强了稳健性并增强了框架的可信度。该框架为工业环境中细致的生物力学分析带来了巨大的希望,消除了对繁琐标记的需求,并将其实用性扩展到不同的研究领域,包括研究特定外骨骼设备对促进受伤工人迅速返回工作岗位的影响。

群众的舵手?评估狼人游戏中大型语言模型的意见领导力

分类: 计算和语言, 人工智能, 人机交互

作者: Silin Du, Xiaowei Zhang

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01602v1

摘要: 大语言模型(LLM)在社交演绎游戏中表现出了令人难忘的策略行为。然而,基于大语言模型的智能体所表现出的意见领导力的重要性却被忽视了,而这对于多智能体和人机交互环境中的实际应用至关重要。意见领袖是对社会群体中其他人的信仰和行为有显着影响的个人。在这项工作中,我们采用狼人游戏作为模拟平台来评估大语言模型的意见领导力。该游戏以警长的角色为特色,其任务是总结论点并推荐决策选项,因此可以作为意见领袖的可靠代理人。我们开发了一个整合警长角色的框架,并根据意见领袖的关键特征设计了两个新颖的评估指标。第一个指标衡量意见领袖的可靠性,第二个指标评估意见领袖对其他参与者决策的影响。我们进行了大量的实验来评估不同规模的大语言模型。此外,我们还收集了狼人问答数据集(WWQA)来评估和增强LLM对游戏规则的掌握,并且我们还纳入了人类参与者进行进一步分析。结果表明,狼人游戏是评估大语言模型意见领导力的合适测试平台,而很少有大语言模型具备意见领导能力。

人机协作信任(CHAI-T):人机协作信任主动管理的流程框架

分类: 人机交互

作者: Melanie J. McGrath, Andreas Duenser, Justine Lacey, Cecile Paris

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01615v1

摘要: 人类与人工智能 (HAI) 协作团队将人类和机器的独特技能和能力结合在一起,在持续的团队交互中发挥各自的优势。在涉及经常接触新颖性和不确定性的任务中,适应性强、富有创造力的人类与强大而精确的人工智能 (AI) 之间的协作有望带来新的解决方案和效率。用户信任对于创建和维持这些协作关系至关重要。传统形式的人工智能中已建立的信任模型通常会认识到信任因素的三个主要类别的贡献:人类用户的特征、技术的特征和环境因素。然而,HAI 团队的出现需要了解人类信任,考虑任务环境和目标的特殊性,整合交互过程,并捕捉信任如何在团队环境中随着时间的推移而演变。本文借鉴心理学和计算机科学文献,提出了协作 HAI 团队信任的过程框架 (CHAI-T),采用早期模型建立的前因三方结构,同时结合团队过程和绩效阶段来捕捉动态团队环境中信任的固有特征。这些功能支持对协作 AI 系统中的信任进行主动管理,对协作 HAI 团队的设计和部署具有实际意义。

Gen4DS:生成人工智能时代的数据讲故事研讨会

分类: 人机交互, 人工智能, 图形

作者: Xingyu Lan, Leni Yang, Zezhong Wang, Danqing Shi, Sheelagh Carpendale

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01622v1

摘要: 讲故事是一种古老而宝贵的人类能力,在数字时代已经焕发了活力。在过去的十年中,学术界和工业界对数据讲故事的认识和应用显着激增。近年来,生成式人工智能的快速发展给该领域带来了新的机遇和挑战,引发了众多新问题。这些问题不一定会很快转化为论文,但我们认为有必要及时讨论它们,以帮助社区更好地阐明未来的重要问题和研究议程。因此,我们邀请您参加我们的研讨会 (Gen4DS),讨论以下问题:生成式人工智能如何促进数据故事的创建?生成式人工智能如何改变数据故事讲述者的工作流程?将人工智能融入讲故事有哪些陷阱和风险?我们为研讨会设计了论文演示和互动活动(包括动手创作、小组讨论和有争议问题的辩论)。我们希望参与者能够了解数据讲故事的最新进展和开创性工作,相互进行批判性对话,并在活动中获得愉快、难忘和有意义的体验。

InsightLens:在大语言模型支持的数据分析中从对话上下文中发现和探索见解

分类: 人机交互

作者: Luoxuan Weng, Xingbo Wang, Junyu Lu, Yingchaojie Feng, Yihan Liu, Wei Chen

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01644v1

摘要: 大型语言模型 (LLM) 的激增彻底改变了自然语言接口 (NLI) 的数据分析功能。大语言模型可以执行多步骤和复杂的推理,以根据用户的分析意图生成数据见解。然而,这些见解常常与分析对话中的大量上下文(例如代码、可视化和自然语言解释)纠缠在一起。这阻碍了大语言模型当前基于聊天的界面中见解的有效识别、验证和解释。在本文中,我们首先与八位经验丰富的数据分析师进行了形成性研究,以了解他们在大语言模型支持的数据分析过程中的一般工作流程和痛点。然后,我们提出了一个基于 LLM 的多代理框架,可以在分析过程中自动提取、关联和组织见解。基于此,我们推出了InsightLens,这是一个交互式系统,可以从多个方面可视化复杂的对话上下文,以促进洞察发现和探索。一项由 12 名数据分析师参与的用户研究证明了 InsightLens 的有效性,表明它可以显着减少用户的手动和认知工作,而不会中断他们的对话式数据分析工作流程,从而带来更高效的分析体验。

NLP 系统无法区分使用和提及审查反言论,但教授区别会有所帮助

分类: 计算和语言, 计算机与社会, 人机交互, 社交和信息网络

作者: Kristina Gligoric, Myra Cheng, Lucia Zheng, Esin Durmus, Dan Jurafsky

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01651v1

摘要: 传统上,使用词语来传达说话者的意图与“提及”词语(用于引用某人所说的话或指出词语的属性)是有区别的。在这里,我们表明,对这种使用提及的区别进行计算建模对于处理在线反言论至关重要。反驳有问题内容的反言论通常会提到有害语言,但本身并无害(例如,称疫苗危险并不等同于表达不赞成某人称疫苗危险)。我们表明,即使是最近的语言模型也无法区分使用和提及,并且这种失败会传播到两个关键的下游任务:错误信息和仇恨言论检测,从而导致对反言论的审查。我们引入了提示性缓解措施来教导使用提及的区别,并表明它们可以减少这些错误。我们的工作强调了 NLP 和 CSS 中使用提及区别的重要性,并提供了解决该问题的方法。

讲述和展示:结合多种方式向机器人传达操作任务

分类: 人机交互, 机器人技术

作者: Petr Vanc, Radoslav Skoviera, Karla Stepanova

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01702v1

摘要: 随着人机协作变得越来越普遍,需要一种更自然的方式与机器人进行通信。这包括将多种模式的数据与情况背景和背景知识结合起来。当前的通信方法通常仅依赖于单一模式,或者通常非常僵化,并且对于丢失、错位或噪声数据不稳健。在本文中,我们提出了一种新颖的方法,该方法受到传感器融合方法的启发,将来自多种模态的不确定信息结合起来,并通过态势感知(例如,考虑对象属性或场景设置)来增强它。我们首先在模拟双峰数据集(手势和语言)上评估所提出的解决方案,并通过几个消融实验展示系统各个组件的重要性及其对噪声、缺失或错位观测的鲁棒性。然后我们在实际设置上实现并评估模型。在人机交互中,我们还必须考虑所选择的动作是否有足够的可能性执行,或者我们是否应该更好地询问人类以获取澄清。为了这些目的,我们通过基于自适应熵的阈值增强我们的模型,该阈值检测不同类型交互的适当阈值,显示出与微调固定阈值相似的性能。

用于沉浸式通信的生成式人工智能:6G 传感互联网的下一个前沿

分类: 计算和语言, 人工智能, 人机交互, 多媒体, 网络和互联网架构

作者: Nassim Sehad, Lina Bariah, Wassim Hamidouche, Hamed Hellaoui, Riku Jäntti, Mérouane Debbah

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01713v1

摘要: 在过去的二十年里,物联网 (IoT) 一直是一个变革性的概念,随着 2030 年的临近,一种被称为传感互联网 (IoS) 的新范式正在出现。与传统的虚拟现实 (VR) 不同,IoS 寻求提供多感官体验,承认在我们的物理现实中,我们的感知远远超出了视觉和声音;它包含一系列的感官。本文探讨了驱动沉浸式多感官媒体的现有技术,深入研究了它们的功能和潜在应用。这项探索包括传统沉浸式媒体流和利用生成人工智能(AI)支持的语义通信的拟议用例之间的比较分析。本次分析的重点是所提出的方案中带宽消耗大幅减少了 99.93%。通过这种比较,我们的目的是强调生成式人工智能在沉浸式媒体中的实际应用,同时应对挑战并概述未来的发展轨迹。

重新思考注释器模拟:全身 PET 病变交互式分割方法的真实评估

分类: 图像和视频处理, 计算机视觉和模式识别, 人机交互

作者: Zdravko Marinov, Moon Kim, Jens Kleesiek, Rainer Stiefelhagen

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01816v1

摘要: 交互式分割在加速注释方面发挥着至关重要的作用,特别是在需要专业知识的领域,例如核医学。例如,注释全身正电子发射断层扫描 (PET) 图像中的病变每卷可能需要一个多小时。虽然以前的工作通过真实用户研究或模拟注释器来评估交互式分割模型,但这两种方法都面临着挑战。真实的用户研究成本高昂,而且规模通常有限,而模拟注释者(也称为机器人用户)由于其理想化的性质,往往会高估模型性能。为了解决这些限制,我们引入了四个评估指标来量化真实注释器和模拟注释器之间的用户转换。在涉及四名注释者的初始用户研究中,我们使用我们提出的指标评估现有的机器人用户,发现机器人用户与真实注释者相比,在性能和注释行为方面存在显着偏差。基于这些发现,我们提出了一个更现实的机器人用户,通过结合点击变化和注释者间分歧等人为因素来减少用户转移。我们在涉及其他四个注释者的第二次用户研究中验证了我们的机器人用户,并表明与传统机器人用户相比,它始终减少了模拟到真实用户的转变。通过使用我们的机器人用户,我们可以对交互式细分模型进行更大规模和更具成本效益的评估,同时保留真实用户研究的保真度。我们的实施基于 MONAI Label,并将公开发布。

揭示孤独的细微差别:使用数字生物标记来了解大学生的社交和情感孤独

分类: 人机交互

作者: Malik Muhammad Qirtas, Evi Zafeirid, Dirk Pesch, Eleanor Bantry White

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01845v1

摘要: 背景:世界各地学生的孤独感正在增加,这可能对心理健康和学业成功产生影响。为了解决这个日益严重的问题,需要准确的检测方法来识别孤独感并区分社交和情感孤独感,以便可以根据个人需求进行个性化干预。被动传感技术提供了一种独特的技术来捕获与不同孤独形式相关的行为模式,从而可以对孤独进行更细致的理解和干预。方法:为了使用数字生物标记区分社交孤独和情感孤独,我们的研究包括统计测试、用于预测建模的机器学习以及用于特征重要性分析的 SHAP 值,揭示了孤独分类中的重要因素。结果:我们的分析揭示了社交和情感孤独群体之间存在显着的行为差异,特别是在手机使用和基于位置的功能方面,机器学习模型在对孤独水平进行分类方面表现出强大的预测能力。 XGBoost 模型尤其表现出很高的准确性,并且可以有效识别关键数字生物标记,包括手机使用时间和基于位置的特征,作为孤独类别的重要预测因子。结论:这项研究强调了被动传感数据与机器学习技术相结合的潜力,可以深入了解学生社交和情感孤独的行为表现。关键数字生物标志物的识别为旨在减轻该人群孤独感的有针对性的干预措施铺平了道路。

“这不是好科学!”:通过设计在研究中深思熟虑地使用形成情境的论点

分类: 人机交互

作者: Raquel B Robinson, Anya Osborne, Chen Ji, James Collin Fey, Ella Dagan, Katherine Isbister

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01848v1

摘要: 目前大多数接受的评估设计研究 (RtD) 的方法都假定设计原型已最终确定,并准备好在实验室或野外环境中进行可靠的测试。然而,使用中等保真度原型评估中间阶段的设计也很有价值,不仅可以为正在进行的设计过程提供信息,还可以收集对研究界更广泛使用的知识。我们提出“形成情境”作为以这种方式检查中保真度原型的框架。我们制定了一套标准,以帮助社区更好地评估形成情境的严格性,从而开启关于将形成情境建立为 RtD 社区内有价值的贡献类型的对话。

通过运动解耦扩散模型生成协同语音手势视频

分类: 计算机视觉和模式识别, 人机交互, 多媒体

作者: Xu He, Qiaochu Huang, Zhensong Zhang, Zhiwei Lin, Zhiyong Wu, Sicheng Yang, Minglei Li, Zhiyi Chen, Songcen Xu, Xiaofei Wu

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01862v1

摘要: 协同语音手势如果以生动的视频形式呈现,可以在人机交互中达到优异的视觉效果。虽然之前的作品大多生成结构性人体骨骼,导致外观信息的遗漏,但我们在本作品中专注于直接生成音频驱动的协同语音手势视频。存在两个主要挑战:1)需要合适的运动特征来描述具有关键外观信息的复杂人体运动。 2) 手势和语音表现出固有的依赖性,即使是任意长度也应该在时间上对齐。为了解决这些问题,我们提出了一种新颖的运动解耦框架来生成协同语音手势视频。具体来说,我们首先引入精心设计的非线性 TPS 变换,以获得保留基本外观信息的潜在运动特征。然后提出基于变换器的扩散模型来学习手势和语音之间的时间相关性,并在潜在运动空间中执行生成,然后通过最佳运动选择模块来生成长期连贯且一致的手势视频。为了更好的视觉感知,我们进一步设计了一个细化网络,重点关注某些区域缺失的细节。大量的实验结果表明,我们提出的框架在运动和视频相关评估方面均显着优于现有方法。我们的代码、演示和更多资源可从 https://github.com/thuhcsi/S2G-MDDiffusion 获取。

用于投票建议应用的快速自适应问卷

分类: 机器学习, 人机交互, 信息论, 信息论

作者: Fynn Bachmann, Cristina Sarasua, Abraham Bernstein

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01872v1

摘要: 投票建议申请 (VAA) 的有效性通常会因其调查问卷的长度而受到影响。为了解决用户疲劳和回答不完整的问题,一些应用程序(例如 Swiss Smartvote)提供了调查问卷的精简版本。然而,这些精简版本并不能确保推荐政党或候选人的准确性,我们的数据表明其准确性仍低于 40%。为了解决这些限制,这项工作引入了一种自适应问卷方法,该方法根据用户之前的答案选择后续问题,旨在提高推荐准确性,同时减少向选民提出的问题数量。我们的方法使用编码器和解码器模块来预测任何完成阶段的缺失值,利用反映政治科学传统方法的二维潜在空间来可视化政治倾向。此外,还提出了一个选择器模块,用于根据投票者在潜在空间中的当前位置和剩余的未回答问题来确定信息最丰富的后续问题。我们使用 2019 年瑞士联邦选举的 Smartvote 数据集验证了我们的方法,测试了各种空间模型和选择方法,以优化系统的预测准确性。我们的研究结果表明,采用 IDEAL 模型作为编码器和解码器,结合 PostteriorRMSE 方法进行问题选择,可以显着提高推荐的准确性,在询问与精简版本中相同数量的问题后,准确率达到 74%。

现金还是非现金?揭示众包竞赛中创意者的激励偏好

分类: 人机交互, 计算机科学与博弈论

作者: Christoph Riedl, Johann Füller, Katja Hutter, Gerard J. Tellis

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.01997v1

摘要: 尽管研究一再表明非现金激励可能是有效的,但现金激励是众包竞赛的事实上的标准。在这项多项研究中,我们量化了创意者对非现金激励的偏好,并研究了允许创意者自我选择他们喜欢的激励——为创意者提供现金和非现金激励之间的选择——如何影响他们的创意表现。我们进一步探讨举办竞赛的组织的市场环境——社会(非营利)或货币(营利)——是否会调节激励偏好及其有效性。我们发现,即使在营利性环境中,个人也表现出不同的激励偏好,并且通常更喜欢非现金激励。为创意者提供多种激励措施可以提高创意绩效。市场环境会调节激励的效果,因此在营利环境中接受非现金激励的创意者往往会付出更少的努力。我们表明,创意者偏好的异质性(以及通过适当多样化的激励选项满足不同偏好的能力)是通过为创意者提供激励选择来实现收益的关键边界条件。我们通过改善创意者的激励偏好契合度,为管理者提供设计有效激励措施的指导。

沃洛夫语机器人声音对话的概念预告

分类: 计算和语言, 人机交互

作者: Elodie Gauthier, Papa-Séga Wade, Thierry Moudenc, Patrice Collen, Emilie De Neef, Oumar Ba, Ndeye Khoyane Cama, Cheikh Ahmadou Bamba Kebe, Ndeye Aissatou Gningue, Thomas Mendo'o Aristide

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.02009v1

摘要: 本文介绍了有史以来第一个用沃洛夫语构建的自动语音助手的概念验证,沃洛夫语是塞内加尔使用的主要车辆语言。该语音机器人是法国 Orange Innovation、Orange Senegal(又名 Sonatel)和 ADNCorp(一家位于塞内加尔达喀尔的小型 IT 公司)之间合作研究项目的成果。语音机器人的目的是通过使用最自然的沟通方式:语音,向 Orange 客户提供有关 Orange 塞内加尔 Sargal 忠诚度计划的信息。语音机器人接收客户的口头请求输入,然后由 SLU 系统处理,以使用录音回复客户的请求。这个概念验证的第一个结果令人鼓舞,我们在 ASR 任务上实现了 22% 的 WER,在 NLU 任务上实现了 78% 的 F1 分数。

JupyterLab 及其他领域的可解释性:用于集成和协作工作流程的交互式 XAI 系统

分类: 人机交互

作者: Grace Guo, Dustin Arendt, Alex Endert

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.02081v1

摘要: 可解释的人工智能 (XAI) 工具代表了转向更加以人为中心和人机交互的人工智能方法,强调机器学习模型开发工作流程中的用户需求和观点。然而,虽然当今大多数可用的 ML 资源都是为 Python 计算环境(例如 JupyterLab 和 Jupyter Notebook)开发的,但交互式 XAI 系统却并非如此,这些系统通常仍然作为独立接口实现。在本文中,我们通过确定将前端 XAI 接口嵌入到 Jupyter 中的三种设计模式来解决这种不匹配问题,即:1)从 Python 到 JavaScript 的单向通信,2)双向数据同步,以及 3)双向回调。我们还提供了一个开源工具包 bonXAI,它演示了如何使用每种设计模式为 Pytorch 文本分类工作流程构建交互式 XAI 工具。最后,我们以最佳实践和开放性问题的讨论作为结束。我们本文的目的是讨论如何为计算笔记本开发交互式 XAI 工具,以及如何更好地将它们集成到现有模型开发工作流程中,以支持更具协作性、以人为本的 AI。

群体制裁对参与和毒性的影响:来自联邦宇宙的准实验证据

分类: 社交和信息网络, 人机交互

作者: Carl Colglazier, Nathan TeBlunthuis, Aaron Shaw

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.02109v1

摘要: 尽管内容审核的规范和方法不一致,但在线社区经常重叠和共存。当社区出现分歧时,去中心化和联合社区可能会寻求团体级别的制裁,包括联合(断开连接)以阻止特定社区成员之间的通信。我们在 Fediverse 的背景下研究了联邦制的影响,Fediverse 是一组分散的、相互关联的、具有独立治理的社交网络。 Mastodon 和 Pleroma 是为 Fediverse 提供支持的最流行的软件,它们允许一台服务器上的管理员与另一台服务器上的管理员进行联合。我们使用双重差分法和匹配控制来估计联合事件对被阻止和阻止服务器的受影响成员的参与和消息毒性的影响。我们发现,联合会导致被阻止服务器上的帐户活动下降,但不会导致被阻止服务器上的帐户活动下降。此外,我们没有发现任何证据表明联盟对消息毒性有影响。

更难、更好、更快、更强:以人为本的人工智能工具的交互式可视化

分类: 人机交互

作者: Md Naimul Hoque, Sungbok Shin, Niklas Elmqvist

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.02147v1

摘要: 以人为中心的人工智能 (HCAI) 并不是取代人类,而是将人类用户置于所谓以人为中心的人工智能注入工具(HCAI 工具)的驾驶席上:交互式软件工具可以放大、增强、增强和增强使用人工智能模型的人类表现;通常是新颖的生成型或基础型人工智能。在本文中,我们讨论交互式可视化如何成为创建此类以人为中心的人工智能工具的关键支持技术。可视化已被证明是可解释人工智能模型的基本组成部分,并将其与数据驱动、语义和统一交互反馈循环相结合,将实现以人为中心的方法,将循环中的人工智能模型与人类用户集成。我们展示了我们过去和当前在此类 HCAI 工具上的工作的几个示例,包括创意写作、时间预测和用户体验分析。然后,我们对这些工具进行比较,以提出关于交互式可视化如何支持未来 HCAI 工具设计的共同主题。

Exploring How Multiple Levels of GPT-Generated Programming Hints Support or Disappoint Novices

分类: 人机交互, 人工智能, 计算机与社会

作者: Ruiwei Xiao, Xinying Hou, John Stamper

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.02213v1

摘要: Recent studies have integrated large language models (LLMs) into diverse educational contexts, including providing adaptive programming hints, a type of feedback focuses on helping students move forward during problem-solving. However, most existing LLM-based hint systems are limited to one single hint type. To investigate whether and how different levels of hints can support students' problem-solving and learning, we conducted a think-aloud study with 12 novices using the LLM Hint Factory, a system providing four levels of hints from general natural language guidance to concrete code assistance, varying in format and granularity. We discovered that high-level natural language hints alone can be helpless or even misleading, especially when addressing next-step or syntax-related help requests. Adding lower-level hints, like code examples with in-line comments, can better support students. The findings open up future work on customizing help responses from content, format, and granularity levels to accurately identify and meet students' learning needs.

A Change of Scenery: Transformative Insights from Retrospective VR Embodied Perspective-Taking of Conflict With a Close Other

分类: 人机交互

作者: Seraphina Yong, Leo Cui, Evan Suma Rosenberg, Svetlana Yarosh

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.02277v1

摘要: Close relationships are irreplaceable social resources, yet prone to high-risk conflict. Building on findings from the fields of HCI, virtual reality, and behavioral therapy, we evaluate the unexplored potential of retrospective VR-embodied perspective-taking to fundamentally influence conflict resolution in close others. We develop a biographically-accurate Retrospective Embodied Perspective-Taking system (REPT) and conduct a mixed-methods evaluation of its influence on close others' reflection and communication, compared to video-based reflection methods currently used in therapy (treatment as usual, or TAU). Our key findings provide evidence that REPT was able to significantly improve communication skills and positive sentiment of both partners during conflict, over TAU. The qualitative data also indicated that REPT surpassed basic perspective-taking by exclusively stimulating users to embody and reflect on both their own and their partner's experiences at the same level. In light of these findings, we provide implications and an agenda for social embodiment in HCI design: conceptualizing the use of `embodied social cognition,' and envisioning socially-embodied experiences as an interactive context.

From Delays to Densities: Exploring Data Uncertainty through Speech, Text, and Visualization

分类: 人机交互

作者: Chase Stokes, Chelsea Sanker, Bridget Cogley, Vidya Setlur

发布时间: 2024-04-02

链接: http://arxiv.org/abs/2404.02317v1

摘要: Understanding and communicating data uncertainty is crucial for making informed decisions in sectors like finance and healthcare. Previous work has explored how to express uncertainty in various modes. For example, uncertainty can be expressed visually with quantile dot plots or linguistically with hedge words and prosody. Our research aims to systematically explore how variations within each mode contribute to communicating uncertainty to the user; this allows us to better understand each mode's affordances and limitations. We completed an exploration of the uncertainty design space based on pilot studies and ran two crowdsourced experiments examining how speech, text, and visualization modes and variants within them impact decision-making with uncertain data. Visualization and text were most effective for rational decision-making, though text resulted in lower confidence. Speech garnered the highest trust despite sometimes leading to risky decisions. Results from these studies indicate meaningful trade-offs among modes of information and encourage exploration of multimodal data representations.

大型语言模型如何实现更好的社交辅助人机交互:一项简短的调查

分类: 人机交互, 计算和语言, 计算机视觉和模式识别, 机器人技术

作者: Zhonghao Shi, Ellen Landrum, Amy O' Connell, Mina Kian, Leticia Pinto-Alva, Kaleen Shrestha, Xiaoyuan Zhu, Maja J Matarić

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.00938v1

摘要: 社交辅助机器人(SAR)在为有特殊需求的用户群体(如老年人、患有自闭症谱系障碍(ASD)的儿童和有心理健康问题的个人)提供个性化认知情感支持方面取得了巨大成功。关于 SAR 的大量工作表明,它有潜力提供家庭支持,补充心理健康专业人员提供的基于临床的干预措施,使这些干预措施更加有效和容易获得。然而,仍然存在一些重大技术挑战,阻碍 SAR 介导的互动和干预达到人类水平的社会智能和功效。随着大语言模型 (LLM) 的最新进展,SAR 领域的新颖应用的潜力越来越大,可以显着扩展 SAR 的当前功能。然而,合并大语言模型会带来尚未遇到的新风险和道德问题,必须仔细解决以安全地部署这些更先进的系统。在这项工作中,我们的目标是对大语言模型在SAR技术中的使用进行简要调查,并讨论将大语言模型应用于SAR的以下三大技术挑战的潜力和风险:1)自然语言对话; 2)多模态理解; 3)大语言模型作为机器人政策。

拖动噪音:通过扩散语义传播进行交互式基于点的编辑

分类: 计算机视觉和模式识别, 图形, 人机交互, 机器学习

作者: Haofeng Liu, Chenshu Xu, Yifei Yang, Lihua Zeng, Shengfeng He

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01050v1

摘要: 基于点的交互式编辑是补充现有生成模型可控性的重要工具。并行工作 DragDiffusion 可响应用户输入更新扩散潜在图,从而导致全局潜在图更改。这会导致原始内容保存不精确,并且由于梯度消失而导致编辑失败。相比之下,我们推出了 DragNoise,提供强大且加速的编辑,而无需重新追踪潜在图。 DragNoise 的核心原理在于利用每个 U-Net 的预测噪声输出作为语义编辑器。这种方法基于两个关键的观察结果:首先,U-Net 的瓶颈特征本质上拥有适合交互式编辑的丰富语义特征;其次,在去噪过程早期建立的高级语义在后续阶段中表现出最小的变化。利用这些见解,DragNoise 在单个去噪步骤中编辑扩散语义,并有效地传播这些更改,确保扩散编辑的稳定性和效率。对比实验表明,DragNoise 实现了优越的控制和语义保留,与 DragDiffusion 相比,优化时间减少了 50% 以上。我们的代码可以在 https://github.com/haofengl/DragNoise 获取。

聊天建模:基于自然语言的生物结构程序建模,无需训练

分类: 人机交互, 图形

作者: Donggang Jia, Yunhai Wang, Ivan Viola

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01063v1

摘要: 生物结构的 3D 建模本质上是一个复杂的过程,需要对生物学和几何学的理解。此外,3D 建模工具用户界面的复杂性以及相关的陡峭学习曲线进一步加剧了创作 3D 模型的难度。在本文中,我们介绍了一种新颖的框架,通过将用户的文本输入转换为交互式过程建模系统中的建模操作来解决使用 3D 建模软件的挑战。该框架包含新颖代码格式的代码生成器和相应的代码解释器。主要的技术创新包括用户细化机制,该机制可以捕获用户对建模结果的不满意程度,提供交互式修订,并利用此反馈来改进未来的 3D 建模。整个框架由大型语言模型提供支持,无需传统的培训过程。我们开发了一个名为 Chat Modeling 的原型工具,提供自动和分步 3D 建模方法。我们与结构生物学家对该框架的评估凸显了我们的方法在他们的科学工作流程中使用的潜力。所有补充材料均可在 https://osf.io/x4qb7/ 上获取。

LLM Attributor:LLM 生成的交互式视觉归因

分类: 计算和语言, 人工智能, 人机交互, 机器学习

作者: Seongmin Lee, Zijie J. Wang, Aishwarya Chakravarthy, Alec Helbling, ShengYun Peng, Mansi Phute, Duen Horng Chau, Minsuk Kahng

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01361v1

摘要: 虽然大型语言模型 (LLM) 已显示出在不同领域生成令人信服的文本的卓越能力,但对其潜在风险的担忧凸显了理解文本生成背后原理的重要性。我们推出了 LLM Attributor,这是一个 Python 库,它为 LLM 文本生成的训练数据归因提供交互式可视化。我们的库提供了一种新方法,可以快速将大语言模型的文本生成归因于训练数据点,以检查模型行为、增强其可信度,并将模型生成的文本与用户提供的文本进行比较。我们描述了工具的视觉和交互设计,并重点介绍了使用两个不同数据集进行微调的 LLaMA2 模型的使用场景:有关近期灾难的在线文章和与金融相关的问答对。由于 LLM Attributor 对计算笔记本的广泛支持,用户可以轻松地将其集成到他们的工作流程中,以交互方式可视化模型的归因。为了更方便地访问和扩展,我们在 https://github.com/poloclub/LLM-Attribution 上开源了 LLM Attributor。视频演示可在 https://youtu.be/mIG2MDQKQxM 上获取。

AURORA:通过自动神经屏幕理解导航 UI Tarpit

分类: 软件工程, 计算和语言, 计算机视觉和模式识别, 人机交互

作者: Safwat Ali Khan, Wenyu Wang, Yiran Ren, Bin Zhu, Jiangfan Shi, Alyssa McGowan, Wing Lam, Kevin Moran

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01240v1

摘要: 近十年的软件工程研究主要集中在自动化移动应用程序测试上,以帮助工程师克服与软件平台相关的独特挑战。其中大部分工作都是以自动输入生成工具(AIG 工具)的形式进行的,这些工具可以动态探索应用程序屏幕。然而,此类工具已多次被证明可以实现低于预期的代码覆盖率 - 特别是在复杂的专有应用程序上。先前的研究表明,这些覆盖缺陷的主要原因与所谓的防水油坑或难以导航的复杂屏幕有关。在本文中,我们迈出了关键的一步,使 AIG 工具能够通过一种新形式的自动化语义屏幕理解,在应用程序探索期间有效地导航 tarpit。我们介绍 AURORA,这是一种从移动应用程序 UI 中存在的视觉和文本模式学习的技术,可以自动检测常见的屏幕设计并相应地进行导航。 AURORA 的关键思想是,移动应用程序屏幕设计的数量是有限的,尽管存在细微的变化,因此可以学习不同类别的 UI 设计的一般模式。因此,AURORA 采用多模式神经屏幕分类器,能够识别最常见的 UI 屏幕设计类型。识别给定屏幕后,它会应用一组灵活且可概括的启发法来正确导航屏幕。我们对 AURORA 进行了评估,包括 12 个包含之前工作中已知 tarpit 的应用程序,以及 Google Play 商店中的一组新的 5 个最受欢迎的应用程序。我们的结果表明,AURORA 能够有效地导航 tarpit 屏幕,在方法覆盖率方面比之前避免 tarpit 的方法高出 19.6%。这些改进可归因于 AURORA 的 UI 设计分类和启发式导航技术。

使用潜扩散的脑电图图像重建

分类: 神经元和认知, 人机交互

作者: Teng Fei, Virginia de Sa

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01250v1

摘要: 在这项工作中,我们采用了先前用于 fMRI 图像重建的基于扩散的图像重建流程,并将其应用于脑电图(EEG)。脑电图编码方法非常简单,并且形成了可以比较更复杂的脑电图编码方法的基线。我们还使用之前功能磁共振成像(fMRI)和脑磁图(MEG)工作中使用的相同指标评估了生成图像的保真度。我们的结果表明,虽然从脑电图记录到快速呈现的图像的重建不如从功能磁共振成像到较慢呈现的图像的重建,但它包含大量可以应用于特定用例的信息。此外,基于脑电图的图像重建在某些类别(例如陆地动物和食物)上比其他类别效果更好,为之前脑电图对这些类别的敏感性的发现提供了新的线索,并揭示了这些方法进一步了解脑电图对人类视觉编码的反应的潜力。 。更多的研究应该使用持续时间较长的图像刺激来阐明可能对不同图像类别很重要的后续成分。

通过传递熵进行深度学习中的信息平面分析可视化

分类: 机器学习, 人工智能, 人机交互, 信息论, 信息论

作者: Adrian Moldovan, Angel Cataron, Razvan Andonie

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01364v1

摘要: 在前馈网络中,传递熵 (TE) 可用于通过量化训练期间各层之间的信息传递来衡量一层对另一层的影响。根据信息瓶颈原则,神经模型的内部表示应尽可能压缩输入数据,同时仍保留足够的输出信息。信息平面分析是一种可视化技术,用于通过绘制输入数据中的信息量与压缩表示的关系来了解信息瓶颈方法中压缩和信息保存之间的权衡。通过互信息测量,信息论压缩和泛化之间存在因果关系的说法是有道理的,但不同研究的结果是相互矛盾的。与互信息相反,TE 可以捕获变量之间的时间关系。为了探索这些联系,在我们的新方法中,我们使用 TE 来量化神经层之间的信息传输并执行信息平面分析。我们获得了令人鼓舞的实验结果,为进一步研究提供了可能性。

评估软件开发团队的隐私认知、经验和行为

分类: 软件工程, 人机交互

作者: Maxwell Prybylo, Sara Haghighi, Sai Teja Peddinti, Sepideh Ghanavati

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01283v1

摘要: 随着隐私法规数量的增加,小型开发团队被迫自行做出隐私决策。在本文中,我们进行了一项混合方法调查研究,包括统计和定性分析,以评估参与软件开发 (SDLC) 各个阶段的成员的隐私观念、实践和知识。我们的调查包括来自 23 个国家/地区的 362 名参与者,涵盖产品经理、开发人员和测试人员等角色。我们的结果显示了 SDLC 角色对隐私的不同定义,强调了在整个 SDLC 中采用整体隐私方法的必要性。我们发现,无论身处哪个地区,软件团队对隐私概念(例如匿名化)都不太熟悉,主要依靠自学和论坛。大多数参与者比其他法规更熟悉 GDPR 和 HIPAA,多司法管辖区合规性是他们的首要关注点。我们的研究结果主张需要依赖角色的解决方案来应对隐私挑战,并且我们强调研究方向和教育要点,以帮助改进隐私意识软件的开发。

实现健康数据收集和分析的潜在范式转变

分类: 人机交互

作者: David Josef Herzog, Nitsa Judith Herzog

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01403v1

摘要: 工业革命 4.0 改变了医疗保健系统。由于机器数量呈指数级增长,前三次技术革命改变了人与机器交互的关系。第四次革命使人类陷入这样的境地:异构数据不仅通过数字化强制的传统方法,而且通过普适计算、机器对机器交互和智能环境,产生数量和质量无与伦比的异构数据。现代网络物理空间强调了人在计算机化和大数据处理不断扩展的背景下的作用。在医疗保健领域,数据收集和分析尤其依赖于人类的努力,这些发展的颠覆性是显而易见的。适应这一过程需要深入审视趋势并认识未来医疗数据技术的演变。医疗保健、行政和技术利益相关者的要求差异导致了重大困难。医学成像和诊​​断决策支持软件中做出的黑盒和灰盒决策通常不够透明,无法满足专业、社会和医学法律要求。虽然可解释的人工智能为人工智能在医学中的应用提出了部分解决方案,但该方法必须更广泛和多元化。还讨论了大语言模型的潜力和局限性。本文列出了这些主题中最重要的问题并描述了可能的解决方案。

大语言模型作为探索、分析和可视化知识图助手的初步路线图

分类: 人机交互

作者: Harry Li, Gabriel Appleby, Ashley Suh

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01425v1

摘要: 我们提出了一项混合方法研究,以探索大型语言模型(LLM)如何帮助用户对知识图(KG)进行可视化探索和分析。我们调查并采访了来自工业界、政府实验室和学术界的 20 名专业人士,他们经常与 KG 和 LLM 合作或同时合作。我们的研究结果表明,参与者绝大多数希望大语言模型能够通过联合查询构建来促进知识图谱的数据检索,通过多轮对话识别知识图谱中有趣的关系,并根据知识图谱创建按需可视化,以增强他们对大语言模型的信任输出。为了与大语言模型进行互动,参与者强烈喜欢基于聊天的“小部件”,该“小部件”构建在其常规分析工作流程之上,能够指导大语言模型使用与可视化的交互。在查看大语言模型的输出时,参与者同样更喜欢将带注释的视觉效果(例如,从知识图谱中提取的子图或表格)与总结文本结合起来。然而,参与者也对大语言模型在将自然语言问题翻译为知识图谱查询时保持语义意图的能力、大语言模型“幻觉”知识图谱中虚假数据的风险以及设计“完美提示”的困难表示担忧。根据我们的采访分析,我们为大语言模型驱动的知识图探索系统的设计提供了初步路线图,并概述了这个新兴设计领域的未来机会。

真正的 Linda 能经受住大型语言模型的考验吗?检查大语言模型的代表性启发式

分类: 计算和语言, 人机交互

作者: Pengda Wang, Zilin Xiao, Hanjie Chen, Frederick L. Oswald

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01461v1

摘要: 尽管大型语言模型 (LLM) 在理解文本和生成类人文本方面表现出了卓越的能力,但它们在这样做时可能会表现出从训练数据中获得的偏差。具体来说,大语言模型可能容易受到人类决策中常见的认知陷阱(称为代表性启发法)的影响。这是心理学中的一个概念,指的是根据事件与众所周知的原型或典型例子的相似程度来判断事件的可能性,而不是考虑更广泛的事实或统计证据。这项工作研究了代表性启发式对大语言模型推理的影响。我们创建了 REHEAT(代表性启发式 AI 测试),这是一个包含一系列问题的数据集,涵盖六种常见类型的代表性启发式。实验表明,应用于 REHEAT 的四名大语言模型均表现出代表性启发式偏差。我们进一步发现模型的推理步骤通常错误地基于刻板印象而不是问题的描述。有趣的是,当在提示中添加提示以提醒模型使用其知识时,性能会提高。这表明与传统偏差相比代表性启发法的独特性。即使大语言模型拥有正确的知识,但陷入认知陷阱,这种情况也可能发生。这凸显了未来研究重点关注模型推理和决策中的代表性启发式以及开发解决方案的重要性。

具有大比例项目比例的可视化设计空间

分类: 人机交互

作者: Mara Solen, Tamara Munzner

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01485v1

摘要: 比例-项目比率是可视化中最大比例和最小项目之间的关系。当这个比率很大时设计可视化可能具有挑战性,设计人员已经开发了许多方法来克服这一挑战。我们提供了一个具有大比例项目比例的可视化设计空间。设计空间包括三个维度,总共有八个子维度。我们通过使用它对由学者和实践者共同创建的由 54 个示例组成的语料库中的方法进行编码来展示其描述能力。然后,我们将这些示例分为五种策略,这些策略是设计空间维度选择方面的共享方法。我们通过分析示例语料库中错失的机会来展示生成能力,这些机会是通过对设计空间的分析来确定的,其中我们注意到某些示例如何从不同的选择中受益。补充材料:https://osf.io/wbrdm/?view_only=04389a2101a04e71a2c208a93bf2f7f2

深入了解地球的过去:跨多个博物馆环境部署的基于可视化的展览

分类: 人机交互

作者: Mara Solen, Nigar Sultana, Laura Lukes, Tamara Munzner

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01488v1

摘要: 虽然之前的工作在将可视化部署为博物馆展览方面取得了成功,但对不同博物馆背景下的参观者行为差异的研究还不够。我们推出了交互式深度时间素养可视化展览(DeLVE),通过比较不同时间段来提高比例推理能力,帮助博物馆参观者了解深度时间(极长地质过程的长度)。 DeLVE 使用新的可视化惯用语“连接的多层范围”来可视化跨多个时间尺度的过去事件的精选数据集,将极端尺度与具有更熟悉的幅度和单位的具体尺度相关联。三个不同博物馆的博物馆工作人员批准将 DeLVE 部署为数字信息亭,并投入时间在每个博物馆中整理一个独特的数据集。我们从两个来源收集数据:观察研究和系统跟踪日志,产生成功满足我们要求的证据。我们讨论了背景的重要性:不同背景下的类似博物馆展品受到参观者的欢迎。我们还讨论了我们的流程与标准设计研究方法的差异,该方法侧重于用于数据分析目的的设计研究,而不是用于演示。补充材料可访问:https://osf.io/z53dq/?view_only=4df33aad207144aca149982412125541

PlayFutures:用人工智能和木偶想象公民未来

分类: 人机交互

作者: Supratim Pait, Sumita Sharma, Ashley Frith, Michael Nitsche, Noura Howell

发布时间: 2024-04-01

链接: http://arxiv.org/abs/2404.01527v1

摘要: 儿童是未来的建设者,对于我们周围的技术如何发展至关重要。他们不是选民,而是城市公共空间使用方式的参与者。通过围绕 9 至 12 岁儿童设计的研讨会,我们调查人工智能等新技术是否可以融入现有的游戏和表演方式中,以 1) 重新想象城市空间的未来,2) 反思这些新技术3)通过游戏建立公民参与的方式。我们使用混合人工智能图像生成和木偶制作来实现这一目标,最终构建未来场景,围绕未来进行辩论和讨论,并反思人工智能及其在过程中的作用和潜力。我们展示了人工智能如何帮助设想这些未来、辅助表演的发现,并报告了孩子们对这项技术的一些初步反思。

相关