2024-06

使用 SpeechBrain 1.0 的开源对话式 AI

分类: 机器学习, 人工智能, 计算和语言, 人机交互, 音频和语音处理

作者: Mirco Ravanelli, Titouan Parcollet, Adel Moumen, Sylvain de Langen, Cem Subakan, Peter Plantinga, Yingzhi Wang, Pooneh Mousavi, Luca Della Libera, Artem Ploujnikov, Francesco Paissan, Davide Borra, Salah Zaiem, Zeyu Zhao, Shucong Zhang, Georgios Karakasidis, Sung-Lin Yeh, Aku Rouhe, Rudolf Braun, Florian Mai, Juan Zuluaga-Gomez, Seyed Mahed Mousavi, Andreas Nautsch, Xuechen Liu, Sangeet Sagar, Jarod Duret, Salima Mdhaffar, Gaelle Laperriere, Renato De Mori, Yannick Esteve

发布时间: 2024-06-29

链接: http://arxiv.org/abs/2407.00463v2

摘要: SpeechBrain 是一个基于 PyTorch 的开源对话式 AI 工具包,特别专注于语音处理任务,例如语音识别、语音增强、说话人识别、文本转语音等。它通过发布预训练模型以及训练模型所需的完整代码和算法“配方”来提高透明度和可复制性。本文介绍了 SpeechBrain 1.0,这是该工具包发展过程中的一个重要里程碑,该工具包现在拥有 200 多个用于语音、音频和语言处理任务的配方,以及 Hugging Face 上可用的 100 多个模型。 SpeechBrain 1.0 引入了支持多样化学习模式、大语言模型 (LLM) 集成和高级解码策略的新技术,以及新颖的模型、任务和模式。它还包括一个新的基准存储库,为研究人员提供一个统一的平台来评估不同任务的模型

基于人工智能的推荐系统对人类行为影响的调查:方法、结果和未来方向

分类: 信息检索, 人工智能, 计算机与社会, 人机交互

作者: Luca Pappalardo, Emanuele Ferragina, Salvatore Citraro, Giuliano Cornacchia, Mirco Nanni, Giulio Rossetti, Gizem Gezici, Fosca Giannotti, Margherita Lalli, Daniele Gambetta, Giovanni Mauro, Virginia Morini, Valentina Pansanella, Dino Pedreschi

发布时间: 2024-06-29

链接: http://arxiv.org/abs/2407.01630v1

摘要: 推荐系统和助手(简而言之,推荐器)在在线平台中无处不在,影响着我们日常生活的大多数行为,根据用户的偏好或请求推荐项目或提供解决方案。这项调查分析了推荐器在四个人类人工智能生态系统中的影响:社交媒体、在线零售、城市地图和生成人工智能生态系统。其范围是将一个快速发展的领域系统化,其中用于分类方法和结果的术语是分散且不系统的。我们遵循定性系统审查的常规步骤,收集了来自不同学科的 144 篇文章,以制定一个简洁的分类法:所采用的方法(经验、模拟、观察、控制)、观察到的结果(浓度、模型崩溃、多样性、回声室、过滤气泡) 、不平等、两极分化、激进化、数量)及其分析水平(个体、项目、模型和系统)。我们从实质上和方法上系统地讨论了我们调查的所有结果,并强调了未来研究的潜在途径。这项调查面向对不同人类人工智能生态系统感兴趣的学者和从业者、希望更好地了解推荐者可衡量结果的政策制定者和机构利益相关者,以及希望系统了解推荐者影响的科技公司。

学生与人工智能交互:CS1 学生案例研究

分类: 人机交互

作者: Matin Amoozadeh, Daye Nam, Daniel Prol, Ali Alfageeh, James Prather, Michael Hilton, Sruti Srinivasa Ragavan, Mohammad Amin Alipour

发布时间: 2024-06-29

链接: http://arxiv.org/abs/2407.00305v1

摘要: 生成式人工智能工具 Generative AI(例如 ChatGPT)的新功能允许用户以直观的方式与系统交互,例如简单的对话,并接收(大部分)高质量的答案。即使有模糊的查询,这些系统也可以通过提供易于理解的解释和示例来支持学生的学习目标。同时,他们可以通过为学生的家庭作业提供解决方案来鼓励不良的寻求帮助行为。因此,更好地了解学生如何使用这些工具以及这些方法可能给学习者带来的潜在问题非常重要。在本文中,我们提出了一个案例研究,用于了解学生与人工智能协作解决 CS1 入门编程课程中的编程任务。为此,我们在美国一所大型公立大学招募了 15 名以非白人为主的性别均衡的 CS1 学生。我们观察他们解决编程任务。我们使用混合方法来研究他们在处理 Python 编程任务时的交互,重点关注他们何时以及为何使用 ChatGPT 来解决问题。我们对 15 位参与者向 ChatGPT 提交的问题进行分析和分类。此外,我们还分析了用户交互模式、他们对 ChatGPT 响应的反应,以及生成式人工智能对他们自我效能感的潜在影响。我们的结果表明,在大约三分之一的案例中,学生试图通过向 ChatGPT 提交任务的完整描述来完成任务,而无需自己做出任何努力。我们还观察到很少有学生验证他们的解决方案。我们讨论结果及其潜在影响。

人机联合学习,有效获取机器人操作技能

分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 人机交互, 机器学习

作者: Shengcheng Luo, Quanquan Peng, Jun Lv, Kaiwen Hong, Katherine Rose Driggs-Campbell, Cewu Lu, Yong-Lu Li

发布时间: 2024-06-29

链接: http://arxiv.org/abs/2407.00299v2

摘要: 使用远程操作系统来收集演示可以更有效地学习机器人操作。然而,由于其高维性、复杂的运动和生理结构的差异,通过远程操作系统对配备灵巧手或夹具的机器人手臂进行远程操作带来了巨大的挑战。在本研究中,我们引入了一种用于人类操作员和机器人之间联合学习的新颖系统,该系统使人类操作员能够与学习的辅助代理共享机器人末端执行器的控制,从而促进同步人类演示收集和机器人操作教学。在这种设置中,随着数据的积累,辅助代理逐渐学习。因此,需要更少的人力和注意力,从而提高了数据收集过程的效率。它还允许操作员调整控制比率,以实现手动和自动控制之间的权衡。我们在模拟环境和物理现实环境中进行了实验。通过用户研究和定量评估,很明显,所提出的系统可以提高数据收集效率并减少人类适应的需要,同时确保收集的数据对于下游任务具有足够的质量。视频可在 https://norweig1an.github.io/ human-agent-joint-learning.github.io/ 获取。

在沉浸式可穿戴设备上部署基于 CNN 的计算机视觉模型的方法

分类: 计算机视觉和模式识别, 人机交互, 机器学习

作者: Kaveh Malek, Fernando Moreu

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2407.00233v1

摘要: 卷积神经网络 (CNN) 模型通常缺乏整合人类输入的能力,而增强现实 (AR) 耳机可以解决这一问题。然而,当前的 AR 耳机面临处理能力的限制,这阻碍了研究人员使用 AR 耳机中的 CNN 执行实时、复杂的图像识别任务。本文提出了一种在 AR 耳机上部署 CNN 模型的方法,即在计算机上对其进行训练并将优化的权重矩阵传输到耳机。该方法将图像数据和 CNN 层转换为适合 AR 平台的一维格式。我们通过使用 PyTorch 在 MNIST 数据集上训练 LeNet-5 CNN 模型并将其部署在 HoloLens AR 耳机上来演示此方法。结果表明,该模型保持了约 98% 的准确度,与计算机上的性能相似。 CNN 和 AR 的集成可以在 AR 耳机上进行实时图像处理,从而将人类输入纳入 AI 模型中。

GPT-4 可以帮助检测戒烟意图吗?自动数据标注方法的探索

分类: 计算和语言, 人工智能, 新兴技术, 人机交互, 社交和信息网络

作者: Sai Krishna Revanth Vuruma, Dezhi Wu, Saborny Sen Gupta, Lucas Aust, Valerie Lookingbill, Wyatt Bellamy, Yang Ren, Erin Kasson, Li-Shiun Chen, Patricia Cavazos-Rehg, Dian Hu, Ming Huang

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2407.00167v1

摘要: 近年来,美国电子烟或电子烟使用的普及率大幅上升,导致电子烟和电子烟使用相关肺损伤 (EVALI) 病例显着增加,导致住院和死亡。 2019 年 EVALI 爆发,凸显了理解电子烟行为并制定有效戒烟策略的紧迫性。由于社交媒体平台无处不在,全球有超过 47 亿用户使用它们进行连接、通信、新闻和娱乐,其中很大一部分讨论与健康相关,从而将社交媒体数据确立为公共卫生的宝贵有机数据资源研究。在这项研究中,我们从 Reddit 上的一个电子烟子社区中提取了一个样本数据集,以分析用户的戒烟意图。本研究利用 OpenAI 最新的大语言模型 GPT-4 进行句子级戒烟意图检测,将该模型的结果与外行和临床专家注释进行比较。使用零样本、单样本、少样本和思维链提示等不同的提示策略,我们开发了 8 种不同详细程度的提示来向 GPT-4 解释任务,并评估了这些策略的性能互相对抗。这些初步发现强调了 GPT-4 在社交媒体数据分析中的潜力,特别是在识别可能逃避人类检测的用户微妙意图方面。

放射学中的多模态学习和认知过程:用于胸部 X 射线扫描路径预测的 MedGaze

分类: 图像和视频处理, 人工智能, 人机交互

作者: Akash Awasthi, Ngan Le, Zhigang Deng, Rishi Agrawal, Carol C. Wu, Hien Van Nguyen

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2407.00129v1

摘要: 在计算机视觉中预测人类注视行为对于开发交互式系统至关重要,该系统可以预测用户注意力,解决认知科学中的基本问题,并对人机交互 (HCI) 和增强/虚拟现实 (AR/VR) 系统等领域产生影响。尽管引入了用于模拟人眼注视行为的方法,但将这些模型应用于医学成像以进行扫描路径预测仍有待探索。我们提出的系统旨在从放射学报告和 CXR 图像中预测眼睛注视序列,从而可能简化数据收集并使用更大的数据集增强人工智能系统。然而,由于异常区域的多样性,预测医学图像上的人体扫描路径面临着独特的挑战。我们的模型可以预测对于医学扫描路径预测至关重要的注视坐标和持续时间,其性能优于计算机视觉社区中的现有模型。利用两阶段训练过程和大型公开数据集,我们的方法生成与放射学报告一致的静态热图和眼睛注视视频,从而促进全面分析。我们通过将其性能与最先进的方法进行比较并评估其在不同放射科医生之间的普遍性来验证我们的方法,引入新颖的策略来模拟放射科医生在 CXR 图像诊断期间的搜索模式。根据放射科医生的评估,MedGaze 可以生成类似人类的注视序列,高度关注 CXR 图像上的相关区域。有时,它在扫描路径的冗余性和随机性方面也优于人类。

ProgressGym:与千年道德进步保持一致

分类: 机器学习, 人工智能, 计算和语言, 计算机与社会, 人机交互

作者: Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.20087v1

摘要: 前沿人工智能系统,包括大型语言模型(LLM),对人类用户的认识论产生越来越大的影响。这种影响力可以强化普遍的社会价值观,有可能导致错误的道德信仰的锁定,从而导致有问题的道德实践在大范围内长期存在。我们引入进度调整作为技术解决方案来减轻这种迫在眉睫的风险。进步对齐算法学习模仿人类道德进步的机制,从而解决现有对齐方法对当代道德盲点的敏感性。为了增强进步一致性研究的能力,我们引入了 ProgressGym,这是一个实验框架,允许从历史中学习道德进步机制,以促进现实世界道德决策的未来进步。 ProgressGym 利用 9 个世纪的历史文本和 18 个历史大语言模型,能够将现实世界的进步一致性挑战编入具体的基准。具体来说,我们引入了三个核心挑战:跟踪不断演变的价值观(PG-Follow)、先发制人地预测道德进步(PG-Predict)以及调节人类和人工智能价值转变之间的反馈循环(PG-Coevolve)。没有时间维度的对齐方法不适用于这些任务。作为回应,我们提出了终身算法和外推算法作为进度调整的基线方法,并建立了一个开放的排行榜来征求新的算法和挑战。框架和排行榜分别可在 https://github.com/PKU-Alignment/ProgressGymhttps://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard 获取。

概念镜头:可视化分析 GAN 中语义操作的一致性

分类: 人机交互

作者: Sangwon Jeong, Mingwei Li, Matthew Berger, Shusen Liu

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19987v1

摘要: 随着生成式人工智能的应用成为主流,了解生成模型能够生成什么以及可以在多大程度上可预测地控制其输出非常重要。在本文中,我们提出了一种名为 Concept Lens 的可视化设计,用于联合导航生成模型的数据分布以及该模型支持的概念操作。我们的工作重点是现代基于视觉的生成对抗网络(GAN)及其学习的潜在空间,其中概念发现作为图像处理的一种手段引起了人们的极大兴趣。 Concept Lens 旨在支持用户理解所提供的一组概念的多样性、概念之间的关系以及概念为图像生成提供语义控制的适用性。我们方法的关键是概念的分层分组、生成的图像以及相关的联合探索。我们展示了 Concept Lens 如何揭示编辑图像的一致语义操作,同时也作为研究概念发现方法的局限性和权衡的诊断工具。

BESTOW:高效且可流式传输的语音语言模型,兼具 GPT 和 T5 两个世界的优点

分类: 计算和语言, 人机交互, 声音, 音频和语音处理, 68T10, I.2.7

作者: Zhehuai Chen, He Huang, Oleksii Hrinchuk, Krishna C. Puvvada, Nithin Rao Koluguri, Piotr Żelasko, Jagadeesh Balam, Boris Ginsburg

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19954v1

摘要: 将语音理解能力融入到预训练的大语言模型中已成为一个重要的研究方向(SpeechLLM)。以前的架构可以分类为:i) GPT 风格,将语音提示作为 LLM 输入序列添加到文本提示中,就像纯解码器模型一样; ii) T5 风格,将语音交叉注意力引入预训练的 LLM 的每一层。我们提出 BESTOW 架构,将 TwO Worlds 的最佳功能引入到一个高效且具有强大多任务能力的单一模型中。此外,这两种风格都没有明确的流解决方案,特别是考虑到该解决方案应该推广到语音多任务。我们将流式 SpeechLLM 重新表述为读写策略问题,并将离线和流式研究与 BESTOW 架构统一起来。因此,我们展示了第一个开源 SpeechLLM 解决方案,该解决方案可以同时实现大规模流处理和多任务(超出 ASR)。这种流式处理解决方案在各种语音任务(ASR、AST、SQA、看不见的 DynamicSuperb)上实现了非常强大的性能。它是端到端可优化的,训练/推理成本较低,并展示了大语言模型知识到语音的可转移性。

具有最佳传输的交互式主题模型

分类: 计算和语言, 人机交互, 信息检索

作者: Garima Dhanania, Sheshera Mysore, Chau Minh Pham, Mohit Iyyer, Hamed Zamani, Andrew McCallum

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19928v1

摘要: 主题模型广泛用于分析文档集合。虽然当分析师不熟悉语料库时,它们对于发现语料库中的潜在主题很有价值,但分析师通常也会从理解语料库中存在的内容开始。这可能是通过从对语料库的初始传递中获得的类别,或者通过从高级理论框架(例如政治意识形态)派生的一组预定义类别来分析语料库的愿望。在这些场景中,分析师需要一种主题建模方法,该方法能够结合他们对语料库的理解,同时支持与模型的各种形式的交互。在这项工作中,我们提出了 EdTM,作为标签名称监督主题建模的方法。 EdTM 将主题建模建模为分配问题,同时利用基于 LM/LLM 的文档主题亲和力并使用最佳传输来进行全局一致的主题分配。在实验中,我们展示了我们的框架与少样本 LLM 分类器以及基于聚类和 LDA 的主题模型相比的有效性。此外,我们还展示了 EdTM 整合各种形式的分析师反馈的能力,同时对嘈杂的分析师输入保持稳健。

自我中心和离散虚拟运动(隐形传态)中时间和距离感知之间的关系

分类: 人机交互

作者: Matthias Wölwer, Daniel Zielasko

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19895v1

摘要: 现实世界中的旅行距离本质上涉及时间,因为移动到所需位置是一个连续的过程。该时间分量在估计所覆盖的距离时发挥作用。然而,在虚拟环境中,这种关系经常发生变化或不存在。常见的隐形传输技术可以实现瞬时转换,缺乏任何可能有助于距离感知的时间元素。由于在虚拟环境中距离通常被低估,因此我们研究了时间对这种误解的影响,特别是在基于目标选择的隐形传态界面中。我们的第一个实验探讨了引入与隐形传输所覆盖的距离成比例的延迟如何影响参与者对距离的感知,重点关注低估、准确性和精度。参与者需要以不同的延迟沿着预定义的路径传送。第二个实验旨在确定这种效果是否在更特定于应用程序的场景中显现。结果表明,延迟传送方法的距离低估显着减少,从 27% 提高到 16.8%。距离估计的其他子尺度几乎没有区别。尽管对之前的研究设计进行了有针对性的调整,参与者再次找到了支持他们估计距离的策略。我们的结论是,时间是影响距离感知的一个因素,应该与文献中确定的其他因素一起考虑。

MetaDesigner:通过人工智能驱动、以用户为中心的多语言艺术字合成推进艺术排版

分类: 人工智能, 人机交互, 多媒体

作者: Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Qi He, Wangmeng Xiang, Hanyuan Chen, Jin-Peng Lan, Xianhui Lin, Kang Zhu, Bin Luo, Yifeng Geng, Xuansong Xie, Alexander G. Hauptmann

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19859v1

摘要: MetaDesigner 利用大型语言模型 (LLM) 的优势推动以用户参与为中心的设计范式,彻底改变了艺术版式合成。该框架的核心是一个由管道、字形和纹理代理组成的多代理系统,它们共同支持创建定制的艺术字,范围从语义增强到复杂纹理的施加。 MetaDesigner 结合了全面的反馈机制,利用多模式模型和用户评估的见解来迭代地完善和增强设计过程。通过这个反馈循环,系统巧妙地调整超参数,以符合用户定义的风格和主题偏好,生成的艺术字不仅满足而且超出了用户对视觉吸引力和上下文相关性的期望。实证验证凸显了 MetaDesigner 有效服务于不同艺术字应用程序的能力,始终如一地生成美观且上下文相关的结果。

通过虚拟现实中的交互式视觉触觉模型实现大量毛皮抚摸体验

分类: 人机交互

作者: Juro Hosoi, Du Jin, Yuki Ban, Shin'ichi Warisawa

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19746v1

摘要: 抚摸柔软皮毛的触觉以其舒适性和情感益处而闻名,在虚拟现实、动物辅助治疗和家居产品中有着广泛的应用。之前的研究主要利用真实的毛皮来呈现丰富的毛皮体验,这对多功能性和灵活性提出了挑战。在这项研究中,我们开发了一种系统,将头戴式显示器与超声波触觉显示器集成在一起,以提供视觉和触觉反馈。使用人造皮肤片进行的测量揭示了对大量皮毛的触觉和视觉反应的方向差异。基于观察和测量,我们提出了交互式模型,可以动态调整手部动作,模拟毛皮抚摸的感觉。我们的实验表明,所提出的使用视觉和触觉方式的模型显着增强了毛皮抚摸体验的真实感。我们的研究结果表明,交互式视觉触觉模型在虚拟现实中提供了一种很有前景的毛皮抚摸体验,有可能增强治疗、娱乐和零售应用中的用户体验。

CUPID:通过重新匹配系统提高在线MOBA游戏的战斗公平性和位置满意度

分类: 人机交互, 人工智能

作者: Ge Fan, Chaoyun Zhang, Kai Wang, Yingjie Li, Junyang Chen, Zenglin Xu

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19720v1

摘要: 多人在线竞技场 (MOBA) 类型已经获得了巨大的受欢迎程度和经济成功,吸引了人机交互社区的大量研究兴趣。提升游戏体验需要深入了解玩家行为,而 MOBA 游戏的一个重要方面是匹配,其目的是组建具有相当技能水平的团队。然而,现有的匹配系统往往忽略了玩家的位置偏好、球队分配等重要因素,导致比赛不平衡,降低了玩家满意度。为了解决这些限制,本文提出了一种称为 CUPID 的新颖框架,它引入了一种称为“重新匹配”的新颖流程来优化团队和位置分配,以提高公平性和玩家满意度。 CUPID 结合了预过滤步骤,以确保最低水平的匹配质量,然后是赛前胜率预测模型,用于评估潜在分配的公平性。通过同时考虑玩家的位置满意度和游戏公平性,CUPID 旨在提供增强的配对体验。在两个大规模的真实 MOBA 数据集上进行了广泛的实验,以验证 CUPID 的有效性。结果超越了所有现有的最先进基线,获胜预测准确度平均相对提高了 7.18%。此外,CUPID已成功部署在流行的在线移动MOBA游戏中。该部署显着提高了比赛公平性和玩家满意度,通过 A/B 测试观察到的涵盖可用性、可访问性和参与度的关键人机交互 (HCI) 指标证明了这一点。据我们所知,CUPID是首个专为大型MOBA游戏设计的重赛系统。

增强放射诊断:一种集成人工智能和人类专业知识的协作方法,用于视觉误差校正

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别, 人机交互

作者: Akash Awasthi, Ngan Le, Zhigang Deng, Carol C. Wu, Hien Van Nguyen

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19686v1

摘要: 此前尚未探索过人类与人工智能协作来识别和纠正胸部X光片中的感知错误。本研究旨在开发一种协作式人工智能系统 CoRaX,该系统集成了眼睛注视数据和放射学报告,通过查明感知错误和完善决策过程来提高胸部放射学的诊断准确性。该研究使用公共数据集 REFLACX 和 EGD-CXR,回顾性开发了 CoRaX,采用大型多模态模型来分析图像嵌入、眼睛注视数据和放射学报告。该系统的有效性是根据其转诊流程、转诊质量以及协作诊断环境中的表现进行评估的。 CoRaX 在 271 个样本的模拟误差数据集上进行了测试,其中 28%(332 个样本中的 93 个)遗漏了异常情况。系统纠正了 21%(332 个错误中的 71 个),剩下 7%(312 个错误中的 22 个)未解决。推荐有用性得分为 0.63(95% CI 0.59,0.68),表明所有真实推荐的预测区域的准确性。总有用性评分反映了 CoRaX 与放射科医生互动的诊断准确性,显示这些互动中 84%(280 人中的 237 人)的得分高于 0.40。总之,CoRaX 与放射科医生有效合作,解决各种异常的感知错误,并在新手放射科医生的教育和培训中具有潜在的应用。

使用反射机载超声波聚焦的具有两级触觉反馈的空中按钮

分类: 人机交互, 新兴技术

作者: Hiroya Sugawara, Masaya Takasaki, Keisuke Hasegawa

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19663v1

摘要: 我们使用聚焦机载超声波开发了一种带有触觉反馈的新型空中按钮。与过去的相关研究相比,这项研究有两个显着的新颖之处:1)超声波发射器安装在用户手指后面,反射的超声波发射集中在放置在手指下方的固体平面上方,向指垫提供触觉反馈,2)触觉反馈按压动作期间分两个阶段提供反馈;按下按钮并将手指从按钮上移开时。前者在设备实现方面具有显着优势,因为设备的输入表面可以由包括触摸面板的通用薄平面组成,仅当用户触摸屏幕上的对象时才可能呈现输入触摸反馈。我们通过实验发现,与传统的单阶段方法相比,两阶段触觉呈现在加强感知触觉刺激和输入完成感方面更有效。这项研究提出了一种比以往更加实用的空中按钮组合。所提出的系统组合预计将成为机载超声触觉界面中最简单的框架之一。

设计和评估用于人机交互的多聊天机器人界面:说服任务的初步发现

分类: 人机交互, 人工智能, 计算和语言

作者: Sion Yoon, Tae Eun Kim, Yoo Jung Oh

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19648v1

摘要: ChatGPT 等语言模型重塑了人类与人工智能交流的动态。然而,现有的研究主要集中在二元沟通上,关于群体环境中人类与人工智能沟通的动态还有很多有待探索。多语言模型聊天机器人的出现为学者们提供了一个独特的机会,可以更好地理解人类和多个聊天机器人之间的交互。本研究探讨了多聊天机器人通信在特定说服环境中的影响:促进慈善捐赠。我们开发了一个支持多聊天机器人通信的在线环境,并利用两个基于 GPT 的聊天机器人(救助儿童会和联合国儿童基金会聊天机器人)进行了试点实验,以促进慈善捐赠。在这项研究中,我们介绍了多聊天机器人界面的开发过程,并介绍了试点实验的初步结果。提出了定性和定量反馈的分析,并解决了局限性。

设计多模型对话式人工智能金融系统:了解巴西女企业家的敏感价值观

分类: 人机交互, J.m

作者: Heloisa Candello, Gabriel Meneguelli Soella, Leandro de Carvalho Nascimento

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19601v1

摘要: 小企业主(SBO),特别是女性,在日常生活中面临着一些挑战,特别是在向金融机构申请小额信贷时。通常的困难包括信用评分低、未烘烤的情况、未偿债务、非正规就业情况、无法展示其偿付能力以及缺乏财务担保人。此外,由于缺乏如何进行的信息,小型企业经常需要申请小额信贷的帮助。申请贷款是一项复杂的工作,可能会出现不对称的权力关系,但这只是有时对微型企业家有利。在本文中,我们采访了生活在巴西低收入社区的 20 名女企业家。我们希望揭示这种做法所产生的价值紧张,这些紧张可能会影响公众人工智能技术的设计。在此过程中,我们使用对话系统作为探针,了解在人工智能多媒体对话系统的支持下增强其实践能力的机会。我们针对设计人工智能系统以评估低收入社区微型企业的健康状况提出了七项建议。

虚拟城市实地研究:使用基于上下文的界面原型评估城市交互设计

分类: 人机交互

作者: Robert Dongas, Kazjon Grace, Samuel Gillespie, Marius Hoggenmueller, Martin Tomitsch, Stewart Worrall

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19600v1

摘要: 在本研究中,我们建议通过基于上下文的界面原型使用虚拟城市实地研究(VUFS)来评估听觉界面的交互设计。虚拟现场测试使用混合现实技术,将现实世界测试的保真度与实验室测试的经济性和速度结合起来。在本文中,我们应用这一概念来快速测试自动驾驶汽车(AV)的声音设计——具有高度真实性和保真度的行人交互。我们还建议使用经过心理测量验证的存在测量来验证 VUFS 的真实性。使用混合定性和定量方法,我们分析了用户对 VUFS 原型存在的看法以及与原型有效性的关系。我们还研究了高阶立体混响空间化音频的使用及其对临场感的影响。我们的结果提供了有关如何设计 VUFS 来促进存在的见解以及如何利用它的设计指南。

HarmonICA:运动神经元接口的神经非平稳性校正和源分离

分类: 人机交互, 机器学习

作者: Alexander Kenneth Clarke, Agnese Grison, Irene Mendez Guerra, Pranav Mamidanna, Shihan Ma, Silvia Muceli, Dario Farina

发布时间: 2024-06-28

链接: http://arxiv.org/abs/2406.19581v1

摘要: 与脊髓运动神经元连接时的一个主要突出问题是如何在源分离例程期间准确补偿信号中的非平稳效应,特别是当它们无法提前估计时。这迫使当前系统转而使用无差别的批量信号,这限制了潜在的控制自由度。在本研究中,我们提出了一种潜在的解决方案,使用无监督学习算法来盲目纠正驱动信号非平稳性的潜在过程的影响。我们在独立成分分析(ICA)的拟线性版本的理论框架内实现了这种方法。所提出的 HarmonICA 设计回避了非线性 ICA 的可识别性问题,允许与线性 ICA 等效的可预测性,同时保留学习非平稳潜伏及其对信号影响之间复杂非线性关系的能力。我们在模拟和真实的侵入性和非侵入性记录上测试了 HarmonICA,证明了其能够盲目补偿每种特定的非平稳效应,从而显着提高源分离例程的质量。

字幕专业场景中的上下文机器翻译案例研究

分类: 机器学习, 人工智能, 计算和语言, 人机交互

作者: Sebastian Vincent, Charlotte Prescott, Chris Bayliss, Chris Oakley, Carolina Scarton

发布时间: 2024-06-27

链接: http://arxiv.org/abs/2407.00108v1

摘要: 正如最近工作中的自动评估所表明的那样,将电影元数据等文本外上下文纳入机器翻译 (MT) 管道中可以提高翻译质量。然而,此类系统对工业的积极影响尚未得到证实。我们报告了一项工业案例研究,旨在调查机器翻译在翻译电视字幕的专业场景中的好处,重点是利用文本外上下文如何影响后期编辑。我们发现,与非上下文模型相比,译后编辑在纠正上下文感知模型 MTCue 的输出时,标记的上下文相关错误显着减少。我们还提供了对受聘译后编辑的调查结果,该调查强调了语境不足是机器翻译中一贯观察到的重大差距。我们的研究结果增强了在完全上下文机器翻译中进一步工作的动力。

Deriva-ML:可重复机器学习模型的持续公平方法

分类: 机器学习, 人工智能, 数据库, 人机交互, 软件工程

作者: Zhiwei Li, Carl Kesselman, Mike D'Arch, Michael Pazzani, Benjamin Yizing Xu

发布时间: 2024-06-27

链接: http://arxiv.org/abs/2407.01608v1

摘要: 人工智能 (AI) 和机器学习 (ML) 越来越多地应用于电子科学应用中 [9]。虽然这些方法具有巨大潜力,但文献表明,由于管理不善或误用用于训练和验证模型的数据,基于机器学习的方法经常会出现不正确或不可重现的结果 [12, 15]。认识到高质量数据对于正确机器学习结果的必要性,催生了以数据为中心的机器学习方法,这些方法将中心焦点从模型开发转移到创建高质量数据集以训练和验证模型 [14, 20]。然而,可用于以数据为中心的方法来探索和评估电子科学问题的机器学习解决方案的工具和方法有限,这些解决方案通常需要协作的多学科团队处理随着调查的展开而快速发展的模型和数据[1]。在本文中,我们展示了基于所有 ML 数据应可查找、可访问、可互操作和可重用(即 FAIR [26])原则的数据管理工具如何能够显着提高用于 ML 应用程序的数据质量。当与将这些工具应用于基于 ML 的 eScience 调查的整个生命周期的最佳实践相结合时,我们可以显着提高 eScience 团队创建正确且可重复的 ML 解决方案的能力。我们提出了此类工具的架构和实现,并通过两个用例演示了如何使用它们来改进基于 ML 的 eScience 调查。

AR-PPF:基于分辨率的高级像素抢占数据过滤,用于高效的时间序列数据分析

分类: 人机交互, 数据库, 表现

作者: Taewoong Kim, Kukjin Choi, Sungjun Kim

发布时间: 2024-06-27

链接: http://arxiv.org/abs/2406.19575v1

摘要: 随着自动化的出现,许多制造行业已经转向以数据为中心的方法,导致制造过程中出现前所未有的数据涌入。这些数据有助于分析制造工艺和设备的质量。工程师和数据分析师尤其需要大量时间序列数据来进行季节性周期分析。然而,由于计算资源的限制,它们通常仅限于多次查询短期数据或求助于使用可能忽略关键模式的汇总数据。这项研究提出了一种克服这些限制的新颖解决方案;基于分辨率的高级像素抢占数据过滤(AR-PPF)算法。该技术可以实现长时间内时间序列图表的高效可视化,同时显着减少检索数据所需的时间。我们还演示了这种方法如何不仅提高数据分析的效率,而且确保关键特征不会丢失,从而提供对数据更准确、更全面的理解。

了解搜索澄清中的模态首选项

分类: 人机交互

作者: Leila Tavakoli, Giovanni Castiglia, Federica Calo, Yashar Deldjoo, Hamed Zamani, Johanne R. Trippas

发布时间: 2024-06-27

链接: http://arxiv.org/abs/2406.19546v1

摘要: 本研究是首次尝试探索澄清问题模式对搜索引擎中用户偏好的影响。我们介绍了多模态搜索澄清数据集 MIMICS-MM,其中包含与专家收集和模型生成的图像相关的澄清问题。我们通过众包分析用户对文本、图像以及两者组合的不同澄清模式的偏好,同时考虑图像和文本的质量、清晰度和相关性。我们的研究结果表明,与单模式方法相比,用户通常更喜欢多模式澄清。我们探索自动图像生成技术的使用,并将模型生成的图像与人类收集的图像的质量、相关性和用户偏好进行比较。研究表明,文本到图像生成模型(例如稳定扩散)可以有效生成多模态澄清问题。通过研究多模态澄清,这项研究为搜索系统的未来发展奠定了基础。

利用大语言模型辅助视频内容分析:抑郁症短视频的探索性研究

分类: 人机交互, 人工智能, 计算机与社会

作者: Jiaying Liu, Yunlong Wang, Yao Lyu, Yiheng Su, Shuo Niu, Xuhai "Orson" Xu, Yan Zhang

发布时间: 2024-06-27

链接: http://arxiv.org/abs/2406.19528v1

摘要: 尽管人们对利用大型语言模型 (LLM) 进行内容分析越来越感兴趣,但当前的研究主要集中在基于文本的内容。在目前的工作中,我们通过遵循大语言模型辅助多模式内容分析的新工作流程进行案例研究,探索了大语言模型在协助视频内容分析方面的潜力。工作流程包括密码本设计、提示工程、LLM 处理和人工评估。我们精心设计了注释提示,以结构化形式获取 LLM 注释,并精心设计了解释提示,以生成 LLM 解释,以便更好地理解 LLM 推理和透明度。为了测试LLM的视频注释能力,我们分析了从25个YouTube有关抑郁症的短视频中提取的203个关键帧。我们将 LLM 注释与两名人类编码员的注释进行比较,发现 LLM 在对象和活动注释方面比情感和流派注释具有更高的准确性。此外,我们还确定了大语言模型在视频注释方面的潜力和局限性。根据调查结果,我们探讨了未来研究和工作流程改进的机遇和挑战。我们还讨论了基于大语言模型辅助视频分析的未来研究的伦理问题。

使用大型语言模型进行可视化字幕 (CVLLM):教程

分类: 计算和语言, 人工智能, 人机交互

作者: Giuseppe Carenini, Jordon Johnson, Ali Salamatian

发布时间: 2024-06-27

链接: http://arxiv.org/abs/2406.19512v1

摘要: 自动为可视化添加字幕并不新鲜,但大型语言模型 (LLM) 的最新进展开启了令人兴奋的新可能性。在本教程中,在简要回顾了信息可视化 (InfoVis) 原理和过去的字幕工作之后,我们介绍了通用大语言模型中使用的神经模型和转换器架构。然后我们讨论他们最近在 InfoVis 中的应用,重点是字幕。此外,我们探索该领域有前景的未来方向。

PhysioLLM:通过可穿戴设备和大型语言模型支持个性化健康见解

分类: 人机交互

作者: Cathy Mengying Fang, Valdemar Danry, Nathan Whitmore, Andria Bao, Andrew Hutchison, Cayden Pierce, Pattie Maes

发布时间: 2024-06-27

链接: http://arxiv.org/abs/2406.19283v1

摘要: 我们推出了 PhysioLLM,这是一个交互式系统,它利用大语言模型 (LLM),通过将可穿戴设备的生理数据与上下文信息相集成,提供个性化的健康理解和探索。与可穿戴设备的商业健康应用程序不同,我们的系统提供了全面的统计分析组件,可以发现用户数据中的相关性和趋势,允许用户用自然语言提出问题并获得生成的个性化见解,并指导他们制定可行的目标。作为一个案例研究,我们专注于改善睡眠质量,因为睡眠质量可以通过生理数据进行测量,并且对整体健康很重要。通过对 24 位 Fitbit 手表用户进行的用户研究,我们证明 PhysioLLM 在促进对健康数据更深入、个性化的理解以及支持实现个人健康目标的可行步骤方面优于单独的 Fitbit 应用程序和通用 LLM 聊天机器人。

使用大语言模型授权代理模拟课堂教育

分类: 计算和语言, 人机交互

作者: Zheyuan Zhang, Daniel Zhang-Li, Jifan Yu, Linlu Gong, Jinchang Zhou, Zhiyuan Liu, Lei Hou, Juanzi Li

发布时间: 2024-06-27

链接: http://arxiv.org/abs/2406.19226v1

摘要: 大语言模型(LLM)已被应用于各种智能教育任务中以辅助教学。虽然初步探索主要集中于由大语言模型授权的独立代理来完成特定的教育任务,但大语言模型在多代理协作框架内模拟真实用户参与的课堂的潜力仍有待探索。在这项工作中,我们提出了 SimClass,一个涉及用户参与的多主体课堂模拟框架。我们识别具有代表性的班级角色,并为自动课堂教学引入一种新颖的班级控制机制,并在两门真实课程中进行用户实验。利用弗兰德斯互动分析系统和教育分析中的探究社区理论框架,我们证明大语言模型可以有效地模拟传统的课堂互动模式,同时增强用户体验。我们还观察了 SimClass 中代理之间的新兴群体行为,其中代理协作在课堂上创建活跃的交互,以改善用户的学习过程。我们希望这项工作能够开创大语言模型授权的多智能体系统在虚拟课堂教学中的应用。

深入了解交互式深度学习企业 (No-IDLE)

分类: 机器学习, 人工智能, 人机交互

作者: Daniel Sonntag, Michael Barz, Thiago Gouvêa

发布时间: 2024-06-27

链接: http://arxiv.org/abs/2406.19054v1

摘要: 这份 DFKI 技术报告对 No-IDLE 原型系统(由德国联邦教育和研究部资助)进行了剖析,该系统不仅提供了交互式机器学习的基础研究,而且还揭示了对用户行为、需求的更深入洞察和目标。机器学习和深度学习应该可供数百万最终用户使用。 No-IDLE 的目标和科学挑战围绕着为非机器学习专家扩大交互式深度学习解决方案的范围的愿望。本技术报告中描述的关键创新之一是交互式机器学习与多模式交互相结合的方法,当我们开始在即将到来的神经网络和大型语言模型领域与半智能机器交互时,该方法将成为核心。

基于状态的自动化,实现限时饮食依从性

分类: 人机交互, 系统与控制, 系统与控制

作者: Samuel E. Armstrong, Aaron D. Mullen, J. Matthew Thomas, Dorothy D. Sears, Julie S. Pendergast, Jeffrey Talbert, Cody Bumgardner

发布时间: 2024-06-26

链接: http://arxiv.org/abs/2406.18718v1

摘要: 制定和执行研究方案是医学研究的基本组成部分。随着参与者交互的研究复杂性增加,将研究协议转化为支持应用程序代码变得具有挑战性。肯塔基大学和亚利桑那州立大学之间存在合作,以确定限时饮食在改善绝经后妇女代谢风险方面的功效。这项研究利用基于图表的方法来监控和支持对指定时间表的遵守,从而能够对参与者的状态进行验证和逐步审核,从而得出可靠的结论。由参与者图驱动的短信服务自动管理交互并收集数据。然后,研究团队可以通过网站访问参与者数据,从而可以查看、管理和导出。本文提出了一种在限时饮食研究中自动管理参与者的系统,消除了与参与者耗时的互动。

模拟美国参议院:大语言模型驱动的代理方法对立法行为和两党合作进行建模

分类: 人机交互, 计算和语言

作者: Zachary R. Baker, Zarif L. Azher

发布时间: 2024-06-26

链接: http://arxiv.org/abs/2406.18702v1

摘要: 本研究介绍了一种使用大语言模型驱动的虚拟代理来模拟立法流程的新颖方法,重点关注美国参议院情报委员会。我们开发了代表个别参议员的代理人,并将他们置于模拟的委员会讨论中。特工们展示了参与现实辩论、提供深思熟虑的反思以及在某些条件下找到两党解决方案的能力。值得注意的是,模拟还显示出在应对外部扰动时向两党合作建模的前景。我们的结果表明,这种由大语言模型驱动的方法可以成为理解和潜在改进立法流程的宝贵工具,支持更广泛的研究结果模式,强调基于大语言模型的代理人如何有效地模拟现实世界的现象。未来的工作将侧重于增强代理复杂性、扩大模拟范围以及探索在政策测试和谈判中的应用。

Petal-X:以人为本的视觉解释,改善心血管风险沟通

分类: 人机交互, 人工智能, 机器学习

作者: Diego Rojo, Houda Lamqaddam, Lucija Gosak, Katrien Verbert

发布时间: 2024-06-26

链接: http://arxiv.org/abs/2406.18690v1

摘要: 心血管疾病(CVD)是全球主要死亡原因,在大多数情况下可以通过行为干预来预防。因此,有效沟通 CVD 风险以及通过风险因素修正来降低预期风险对于降低个人层面的 CVD 风险至关重要。然而,尽管人们对通过 SCORE2 等改进的预测模型来完善风险估计感兴趣,但在临床实践中呈现这些风险估计的指南在过去几年中基本保持不变,图形评分图表 (GSC) 仍然是流行的系统之一。这项工作描述了 Petal-X 的设计和实现,这是一种新工具,通过解释不同因素对 CVD 风险的贡献并促进假设分析,支持临床医生与患者共同决策。 Petal-X 依赖于新颖的可视化、花瓣产品图和 SCORE2 定制的全局替代模型,其保真度可与临床实践中使用的 GSC 相媲美。我们在一项对照实验中对 Petal-X 与 GSC 进行了比较,该实验涉及 88 名医疗保健学生,除了一名学生外,所有学生都具有慢性病患者的经验。结果表明,Petal-X 在关键任务中的表现优于 GSC,例如比较每个可改变的风险因素对患者 10 年 CVD 风险的贡献,而不会显着损失感知透明度、信任或使用意图。我们的研究提供了一种创新的方法来可视化和解释临床实践中的风险,由于其与模型无关的性质,可以继续支持下一代人工智能风险评估模型。

人机协作分类法构建:专业写作助理案例研究

分类: 人机交互, 人工智能, 计算和语言

作者: Minhwa Lee, Zae Myung Kim, Vivek A. Khetan, Dongyeop Kang

发布时间: 2024-06-26

链接: http://arxiv.org/abs/2406.18675v1

摘要: 大型语言模型(LLM)已经帮助人类完成了多项写作任务,包括文本修改和故事生成。然而,它们在支持特定领域写作(尤其是在商业环境中)方面的有效性相对较少被探讨。我们与行业专业人士的形成性研究揭示了当前大语言模型对此类特定领域写作中细微差别的理解的局限性。为了解决这一差距,我们提出了一种人类与人工智能协作分类开发的方法,作为特定领域写作助手的指南。该方法集成了领域专家的迭代反馈以及这些专家和大语言模型之间的多次互动,以完善分类法。通过更大规模的实验,我们的目标是验证这种方法,从而改进大语言模型支持的写作帮助,对其进行定制以满足不同利益相关者需求的独特要求。

使用大型语言模型进行角色扮演零射击提示以实现开放域人机对话

分类: 计算和语言, 人工智能, 人机交互

作者: Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, Fabrice Lefèvre

发布时间: 2024-06-26

链接: http://arxiv.org/abs/2406.18460v1

摘要: 最近,人们提出了各种方法来使用大型语言模型(LLM)创建开放域会话代理。这些模型能够回答用户的查询,但以单向问答的形式而不是真正的对话。对特定数据集进行微调是修改其风格以提高对话能力的常用方法,但这种方法成本高昂,而且通常仅适用于几种语言。在这项研究中,我们使用经过训练服从指令的多语言大语言模型(Beeching et al., 2023),探索角色扮演零镜头提示作为开放域对话的一种高效且经济高效的解决方案。我们设计了一个提示系统,当与指令跟踪模型(这里是 Vicuna(Chiang 等人,2023))相结合时,它会产生对话代理,在两项不同的任务中,该系统可以匹配甚至超越法语人类评估中的微调模型。

环境照明下立体视觉阈值评估和检测的交互式框架

分类: 人机交互

作者: Kritika Lohia, Rijul Saurabh Soans, Rohit Saxena, Tapan Kumar Gandhi

发布时间: 2024-06-26

链接: http://arxiv.org/abs/2406.18336v1

摘要: 目的:我们的研究旨在为使用贝叶斯推理在环境照明条件下连续评估立体视度提供一个新颖的框架。方法:我们应用心理物理学和预期熵最小化程序的组合来计算连续立体视阈值。随后,我们通过采用基于二分匹配的自适应伽玛校准(AGC)来评估立体视度测试(ST)期间环境照明的影响。参与者 ($N=187$) 包括视力健康对照 ($N=51$)、间歇性发散性斜视患者 (IDS; $N=45$) 和诱发性屈光参差对照 (IA; $N=91$) ST 在​​两种照明条件下使用和不使用 AGC:完全黑暗 (20 cd/m$^2$) 和正常照明 (130 cd/m$^2$) 房间。结果:我们的框架表现出“出色”的可靠性($> 0.9$),并且与 TNO(临床立体测试)呈正相关,无论是否进行 AGC。然而,当不执行 AGC 时,在黑暗和明亮之间的立体视阈值中发现了显着差异(Friedman $X_{r}^{2} = 28.015$;$p<0.00001$;Bland-Altman 偏差:30 角秒)患有 IDS 和 IA 的参与者的条件。控件不受 AGC 影响,并且在两种照明条件下产生相似的立体视阈值。结论:我们的研究证明,如果不考虑环境照明,立体视阈值会显着偏离,特别是对于具有 IDS 或 IA 立体缺陷的参与者。此外,我们的框架提供了立体视阈值的快速(大约 5-10 分钟)评估,并且可以在 30 次 ST 和 15 次 AGC 试验内执行。意义:我们的测试可通过准确评估立体视觉来规划治疗和监测立体缺陷患者的预后。

使用神经网络进行 ADL 支持的多模态到达位置预测

分类: 机器人技术, 人机交互

作者: Yutaka Takase, Kimitoshi Yamazaki

发布时间: 2024-06-26

链接: http://arxiv.org/abs/2406.18162v1

摘要: 本研究旨在开发偏瘫患者和老年人的日常生活支持机器人。为了支持普通家庭使用机器人进行日常生活活动而不给用户带来身心负担,系统必须检测用户的动作并根据他们的动作进行适当的移动。我们提出了一种针对上臂抬起运动的到达位置预测方案,该运动对于偏瘫患者和老年人的日常生活活动来说是负担。对于这种运动,在大规模传感器系统安装不可行且运动时间较短的环境中,很难获得有效的特征来创建预测模型。我们进行了运动收集实验,揭示了目标运动的特征,并利用多模态运动特征和深度学习构建了预测模型。所提出的模型在 35% 的运动完成度下实现了 93% 的宏观平均准确率和 0.69 的 9 类分类预测的 F1 分数。

BADGE:BADminton 报告的生成和大语言模型评估

分类: 计算和语言, 人工智能, 人机交互

作者: Shang-Hsuan Chiang, Lin-Wei Chao, Kuang-Da Wang, Chih-Chuan Wang, Wen-Chih Peng

发布时间: 2024-06-26

链接: http://arxiv.org/abs/2406.18116v1

摘要: 羽毛球运动深受人们喜爱,比赛报道一般包括球员姓名、比赛成绩、球类等详细信息,让观众对比赛有全面的了解。然而,撰写这些报告可能是一项耗时的任务。这一挑战促使我们探索大型语言模型(LLM)是否可以自动生成和评估羽毛球报告。我们引入了一个名为 BADGE 的新颖框架,它是使用 LLM 为此目的而设计的。我们的方法包括两个主要阶段:报告生成和报告评估。最初,羽毛球相关数据由大语言模型处理,然后生成详细的比赛报告。我们测试了不同的输入数据类型、情境学习 (ICL) 和 LLM,发现 GPT-4 在使用 CSV 数据类型和思想链提示时表现最佳。报告生成后,大语言模型会对报告进行评估和评分,以评估其质量。我们对 GPT-4 评估的分数与人类评判者的分数进行比较,结果显示我们倾向于更喜欢 GPT-4 生成的报告。由于大语言模型在羽毛球报道中的应用在很大程度上尚未得到探索,我们的研究为该领域的未来进步奠定了基础。此外,我们的方法可以扩展到其他体育比赛,从而增强体育推广。更多详情请参考https://github.com/AndyChiangSH/BADGE。

自然语言却被省略?从最终用户的角度看大型语言模型隐私政策的无效性

分类: 人机交互

作者: Shuning Zhang, Haobin Xing, Xin Yi, Hewu Li

发布时间: 2024-06-26

链接: http://arxiv.org/abs/2406.18100v1

摘要: 大语言模型驱动的产品在我们的日常生活中越来越普遍,通过基于自然语言的交互方式,人们可能会泄露他们的个人隐私信息。由此可见,隐私政策和用户协议对人们起到了规范和警醒的重要作用。然而,缺乏对LLM隐私政策的阅读进行审查的工作。因此,我们进行了第一次用户研究,让参与者以两种不同的风格(粗略和详细的风格)阅读隐私政策和用户协议。我们发现用户在粗略阅读甚至详细阅读时缺乏重要信息。此外,即使详细阅读,他们的隐私问题也没有得到解决。我们根据调查结果提供了四种设计含义。

Octo-planner:规划操作代理的设备上语言模型

分类: 计算和语言, 人机交互

作者: Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen

发布时间: 2024-06-26

链接: http://arxiv.org/abs/2406.18082v1

摘要: 人工智能代理在各个领域变得越来越重要,能够实现自主决策和解决问题。为了有效地发挥作用,这些代理需要一个规划过程来确定最佳行动方案,然后执行计划的行动。在本文中,我们提出了一个高效的设备上 Planner-Action 框架,它将规划和操作执行分为两个不同的组件:基于 Phi-3 Mini 的规划器代理、针对边缘设备优化的 38 亿参数 LLM 以及操作代理使用章鱼模型进行函数执行。计划代理首先通过将任务分解为一系列子步骤来响应用户查询,然后由操作代理执行。为了优化资源受限设备上的性能,我们采用模型微调而不是上下文学习,从而降低计算成本和能源消耗,同时缩短响应时间。我们的方法涉及使用 GPT-4 根据可用功能生成不同的规划查询和响应,并进行后续验证以确保数据质量。我们在此精选数据集上微调 Phi-3 Mini 模型,在我们的域内测试环境中实现了 97% 的成功率。为了解决多域规划挑战,我们开发了一种多 LoRA 训练方法,该方法合并了在不同功能子集上训练的 LoRA 的权重。这种方法可以灵活处理复杂的多域查询,同时保持资源受限设备上的计算效率。为了支持进一步的研究,我们在 \url{https://huggingface.co/NexaAIDev/octopus-planning} 开源了我们的模型权重。演示请参考\url{https://www.nexa4ai.com/octo-planner}。

VisConductor:用于在手势感知增强视频演示中讲述动画数据故事的影响变化小部件

分类: 人机交互

作者: Temiloluwa Femi-Gege, Matthew Brehmer, Jian Zhao

发布时间: 2024-06-25

链接: http://arxiv.org/abs/2406.17986v1

摘要: 增强视频演示工具为演示者提供了一种与其内容交互的自然方式,从而为远程观众带来引人入胜的体验,例如当演示者使用手势来操作并将注意力转移到覆盖在网络摄像头上的视觉辅助工具时。然而,创作和定制这些演示文稿可能具有挑战性,特别是在呈现动态数据可视化(即动画图表)时。为此,我们引入了 VisConductor,这是一种创作和演示工具,演示者能够配置手势来控制影响变化的可视化动画、预示可视化过渡、直接关注显着数据点以及以动画方式显示注释。这些手势集成到可配置的小部件中,允许演示者通过在小部件边界内执行手势来触发内容转换,并提供只有他们可见的反馈。总而言之,我们的小部件调色板提供了一定程度的灵活性,适合即兴演示和临时内容转换,例如响应观众参与时。为了评估 VisConductor,我们针对演示者 (N = 11) 和观众 (N = 11) 进行了两项研究。我们的研究结果表明,我们采用 VisConductor 的方法可以通过动态视觉辅助工具促进交互式和引人入胜的远程演示。反思我们的发现,我们还提供了一些见解,以告知增强视频演示工具的未来。

通过动态图嵌入轨迹增强跨学科见解

分类: 机器学习, 人机交互, 社交和信息网络

作者: Yiqiao Jin, Andrew Zhao, Yeon-Chang Lee, Meng Ye, Ajay Divakaran, Srijan Kumar

发布时间: 2024-06-25

链接: http://arxiv.org/abs/2406.17963v1

摘要: 我们开发了 DyGETViz,这是一种新颖的框架,用于有效可视化在各种现实世界系统中普遍存在的动态图 (DG)。该框架利用离散时间动态图(DTDG)模型的最新进展来熟练地处理动态图固有的时间动态。 DyGETViz 有效地捕获了这些图中微观和宏观层面的结构变化,为表示复杂和大规模的动态图提供了一种可靠的方法。 DyGETViz 的应用扩展到多种领域,包括行为学、流行病学、金融、遗传学、语言学、传播研究、社会研究和国际关系。通过实施,DyGETViz 揭示或证实了各种重要见解。其中包括在线社区内内容共享模式的多样性和专业化程度、数十年来词汇的时间演变,以及与衰老相关和无关的基因所表现出的独特轨迹。重要的是,DyGETViz 通过简化动态图的复杂性,提高了非领域专家对科学发现的可访问性。我们的框架作为开源 Python 包发布,可供跨学科使用。我们的工作不仅解决了可视化和分析 DTDG 模型方面持续存在的挑战,而且还为未来跨学科的动态图表示和分析的研究建立了基础框架。

网络安全运营教育游戏化应用程序列表

分类: 密码学和安全, 计算机科学与博弈论, 人机交互, H.0; J.0; K.3

作者: Sherri Weitl-Harms, Adam Spanier, John D. Hastings

发布时间: 2024-06-25

链接: http://arxiv.org/abs/2406.17882v1

摘要: 此列表包含网络安全运营 (CSO) 本科教育中使用的总共 80 个游戏化应用程序 (GA),来自 2007 年至 2022 年 6 月期间出版的 74 份出版物。该列表概述了每个已识别的 GA,并提供了每个 GA 的简短概述。该列表既是网络安全本科教育中现有 GA 的综合存储库,也是向列表中添加新 CSO GA 的起点。联系第一作者将 CSO GA 添加到列表的下一版本。

2023年美国车祸原因分析:衡量人们对数据可视化的理解

分类: 人机交互

作者: Hamoud Alhazmi, Marcelo Morales, Jiachen Jiang, Jinxin Zhou, Jian Chen

发布时间: 2024-06-25

链接: http://arxiv.org/abs/2406.17872v1

摘要: 本文以 2023 年美国车祸数据为背景,对交互式数据可视化工具及其功效进行了全面检查。我们开发了交互式热图、直方图和饼图,以增强对事故严重程度随时间和地点分布的理解。我们的研究包括创建和分发在线调查,其中包含九个问题,旨在测试参与者对所提供数据的理解。招募了 15 名受访者来完成调查,目的是评估每个可视化工具的静态和交互式版本的有效性。结果表明,与使用直方图和饼图的参与者相比,使用交互式热图的参与者对数据有更好的理解。相比之下,静态直方图和交互式直方图的用户之间在理解上没有观察到显着差异。出乎意料的是,静态饼图比交互式饼图稍微有效一些。这些发现表明,虽然交互式可视化功能很强大,但其实用性可能会根据所呈现数据的类型和复杂性而有所不同。建议未来的研究探索社会经济因素对车祸数据理解的影响,这可能会导致更加量身定制和有效的可视化策略。这可以更深入地了解车祸的模式和原因,促进利益相关者做出更明智的决策。访问我们的网站,探索我们的互动图,并直接接触数据,以便更全面地了解我们的发现。

InFiConD:通过基于概念的知识蒸馏进行交互式无代码微调

分类: 机器学习, 人工智能, 人机交互

作者: Jinbin Huang, Wenbin He, Liang Gou, Liu Ren, Chris Bryan

发布时间: 2024-06-25

链接: http://arxiv.org/abs/2406.17838v1

摘要: 大规模预训练模型的出现增强了它们在各种下游任务中的应用,但在计算资源有限的环境中部署是一个挑战。知识蒸馏已成为此类场景中的一种解决方案,将大型教师模型中的知识转移到较小的学生模型中,但这是一个不平凡的过程,传统上需要人工智能/机器学习方面的技术专业知识。为了应对这些挑战,本文提出了 InFiConD,这是一种新颖的框架,它利用视觉概念来实现知识蒸馏过程,并能够对学生模型进行后续的无代码微调。我们开发了一种新颖的知识蒸馏管道,基于使用多模态模型从概念语料库中提取文本对齐的视觉概念,并基于视觉概念构建高度可解释的线性学生模型,以基于响应的方式模仿教师模型。 InFiConD 的界面允许用户通过直接在用户界面中操纵概念影响来交互式地微调学生模型。我们通过强大的使用场景和用户研究来验证 InFiConD。我们的研究结果表明,InFiConD 的人机交互和可视化驱动方法使用户能够有效地创建和分析学生模型、了解知识如何转移并有效地执行微调操作。我们讨论这项工作如何突出交互式和可视化方法的潜力,使知识蒸馏和随后的无代码微调更容易访问并适应更广泛的具有特定领域需求的用户。

ELIZA 重新诠释:世界上第一个聊天机器人根本就不是聊天机器人

分类: 人工智能, 计算和语言, 计算机与社会, 人机交互

作者: Jeff Shrager

发布时间: 2024-06-25

链接: http://arxiv.org/abs/2406.17650v1

摘要: ELIZA 通常被认为是世界上第一个聊天机器人,由 Joseph Weizenbaum 在 20 世纪 60 年代初编写。魏森鲍姆无意发明聊天机器人,而是建立一个平台来研究人机对话以及解释和误解的重要认知过程。他的目的被 ELIZA 的名声所掩盖,这在很大程度上是由于它的创造时机及其逃逸到野外的偶然性。在本文中,我为 ELIZA 的创建提供了丰富的历史背景,证明 ELIZA 源于人工智能技术历史中一些中心线索的交叉点。我还简要讨论了 ELIZA 是如何逃入这个世界的,以及它的意外逃逸以及编程语言螺丝的几次巧合,如何导致人们误解 ELIZA 的目的是作为聊天机器人,并导致原始 ELIZA 的丢失。已有50多年的历史。

人类和机器人在制定的服务场景中相互(不)礼貌的体验:实证研究

分类: 机器人技术, 人机交互

作者: Victor Kaptelinin, Suna Bensch, Thomas Hellström, Patrik Björnfot, Shikhar Kumar

发布时间: 2024-06-25

链接: http://arxiv.org/abs/2406.17641v1

摘要: 该论文报告了一项关于人类对待机器人对机器人行为的社会感知影响的实证研究。该研究采用了拟人化“服务员”机器人与两名顾客之间的互动。机器人和其中一名顾客(由研究人员扮演)遵循四种不同的交互脚本,代表机器人和顾客相互礼貌和不礼貌的所有组合。参与者(N = 24,受试者内设计)被分配“包容性观察者”的角色,即在场但未积极参与互动的其他客户。参与者通过提供李克特量表分数和自由文本回答来评估他们如何体验交互场景。结果表明,虽然不礼貌的机器人行为通常会受到负面评价,但人们普遍认为,如果机器人受到人类的不礼貌对待,那就更合理、更公平。讨论了机器人社会感知背景下的礼貌互惠期望。

增强基于大语言模型的人机交互与多样性意识的细微差别

分类: 机器人技术, 人工智能, 人机交互

作者: Lucrezia Grassi, Carmine Tommaso Recchiuto, Antonio Sgorbissa

发布时间: 2024-06-25

链接: http://arxiv.org/abs/2406.17531v1

摘要: 本文提出了一种利用大语言模型(LLM)功能的多样性感知自主对话系统。该系统适应不同的人群和个人,考虑背景、个性、年龄、性别和文化等因素。对话流程由系统预先建立的知识库的结构引导,而大语言模型则负责各种功能,包括生成多样性感知句子。实现多样性意识需要向模型提供精心设计的提示,整合有关用户的全面信息、对话历史记录、上下文细节和具体指南。为了评估系统的性能,我们进行了受控实验和真实实验,测量了广泛的性能指标。

FacePsy:开源情感移动传感系统 - 分析面部行为和头部姿势以在自然环境中检测抑郁症

分类: 人机交互

作者: Rahul Islam, Sang Won Bae

发布时间: 2024-06-24

链接: http://arxiv.org/abs/2406.17181v1

摘要: 抑郁症是一种普遍而复杂的心理健康问题,影响着全世界数百万人,给检测和监测带来了重大挑战。虽然面部表情在实验室环境中显示出识别抑郁症的希望,但由于开发高效移动系统的困难,它们在现实世界应用中的潜力在很大程度上仍未得到开发。在这项研究中,我们的目标是介绍 FacePsy,这是一种开源移动传感系统,旨在通过分析复杂的特征并生成有关面部行为地标、眼球运动和头部姿势的实时数据来捕获情感推断——所有这些都在自然背景下进行25 名参与者的智能手机使用情况。通过严格的开发、测试和优化,我们确定了睁眼状态、头部姿势、微笑表情和特定动作单元(2、6、7、12、15 和 17)作为抑郁发作的重要指标 (AUROC=81 %)。我们预测 PHQ-9 分数的回归模型达到了中等准确度,平均绝对误差为 3.08。我们的研究结果为增强可部署和可用的移动情感传感系统提供了宝贵的见解和启示,最终改善了医疗保健领域的研究人员和开发人员的心理健康监测、预测和及时适应性干预措施。

迈向无处不在的 3D 对象数字化:用于非侵入式物理属性获取的可穿戴计算框架

分类: 图形, 人机交互

作者: Yunxiang Zhang, Xin Sun, Dengfeng Li, Xinge Yu, Qi Sun

发布时间: 2024-06-24

链接: http://arxiv.org/abs/2406.17156v1

摘要: 准确地数字化物理对象是许多应用的核心,包括虚拟/增强现实、工业设计和电子商务。先前的研究已经证明了物体几何形状和视觉外观的有效和忠实重建,这足以以数字方式表示刚性物体。相比之下,弹性和压力等物理特性对于数字化可变形物体的行为保真度也是不可或缺的。然而,获取这些数量的现有方法要么依赖侵入性样本采集,要么依赖昂贵/庞大的实验室设置,使得它们不适用于消费者级别的使用。为了填补这一空白,我们提出了一种可穿戴的非侵入式计算框架,允许用户通过手指触摸方便地估计可变形物体的材料弹性和内部压力。这是通过将其局部表面建模为加压弹性壳并从手指引起的皱纹模式分析得出这两个物理特性来实现的。与摄影测量重建的几何和纹理一起,这两个估计的物理属性使我们能够忠实地复制几个可变形物体的运动和变形行为。对于压力估计,我们的模型实现了 3.5% 的相对误差。在交互实验中,虚拟与物理变形差异小于10.1%。对不规则形状物体的推广进一步证明了我们的方法在实际应用中的潜力。我们希望这项工作能够为日常、工业和科学场景中无处不在的物理环境数字化民主化提供见解并激励研究。

数量更少,质量更高:按算法与时间顺序审核 Twitter/X 上的新闻内容和用户感知

分类: 人机交互

作者: Stephanie Wang, Shengchun Huang, Alvin Zhou, Danaë Metaxa

发布时间: 2024-06-24

链接: http://arxiv.org/abs/2406.17097v1

摘要: 社交媒体个性化算法越来越多地影响公民信息在社会中的流动,导致人们担心“过滤气泡”、“回声室”以及其他可能加剧意识形态隔离并煽动两极分化内容传播的方式。为了解决这些问题,我们设计并进行了社会技术审计 (STA),以调查 Twitter/X 的时间线算法如何影响新闻策划,同时还跟踪用户感知如何响应变化。我们部署了一个定制系统,在三周的时间里,被动跟踪第一周用户浏览器中加载的所有推文,然后在第二周对用户的 Twitter/X 主页进行干预,以限制他们的查看仅算法或时间顺序时间线(随机)。我们在第三周为每个用户翻转了这个条件。我们于 2023 年底进行了审计,收集了 243 位用户以用户为中心的指标(自我报告的调查指标)和以平台为中心的指标(浏览量、点击量、点赞数)以及超过 800,000 条推文。使用 STA 框架,我们的结果有两个方面:(1) 我们的算法审计发现 Twitter/X 的算法时间线导致新闻数量较低但质量较高——意识形态不太一致,不太极端,而且稍微更可靠——与时间线相比。 (2)我们的用户审计表明,虽然我们的时间线干预对用户的行为有显着影响,但对他们对平台的整体看法影响不大。我们的论文讨论了这些发现及其在算法新闻策划、以用户为中心的审计和独立社会科学研究途径的背景下的更广泛的影响。

使用轻型指尖触觉设备进行虚拟灵巧操作,保持现实世界的手指灵活性

分类: 人机交互

作者: Yunxiu XU, Siyu Wang, Shoichi Hasegawa

发布时间: 2024-06-24

链接: http://arxiv.org/abs/2406.16835v1

摘要: 这项研究提出了一种轻量级、可穿戴的指尖触觉设备,它为虚拟环境中的灵巧操作提供基于物理的触觉反馈,而不妨碍现实世界的交互。该设备的设计利用细绳和附着在指甲上的致动器,最大限度地减轻了重量(每个手指 1.76 克),同时保持了手指的灵活性。通过将软件与物理引擎集成来模拟多种类型的触觉反馈。实验评估了该设备在压力感知、滑动反馈和典型灵巧操作任务方面的性能。和日常操作,而主观评估则收集用户体验。结果表明,参与者可以感知压力和振动反馈并做出反应。这些有限的触觉提示至关重要,因为它们可以显着提高虚拟灵巧操作任务的效率。该设备能够保留触觉并最大程度地减少对现实世界操作的阻碍,这是相对于手套型触觉设备的一个关键优势。这项研究为设计触觉界面提供了一个潜在的解决方案,平衡轻量级的触觉反馈以实现灵巧的操作和日常可穿戴性。

基于主观垂直冲突理论的前庭晕动病症状进展数字人体模型

分类: 人机交互, 神经元和认知

作者: Shota Inoue, Hailong Liu, Takahiro Wada

发布时间: 2024-06-24

链接: http://arxiv.org/abs/2406.16737v1

摘要: 晕动病的数字人体模型已经被积极开发,其中基于主观垂直冲突(SVC)理论的模型是最活跃的研究。这些模型有助于预测各种场景(例如乘车)中的晕动病。大多数 SVC 理论模型都会预测晕动病发生率 (MSI),该发病率定义为在给定的特定运动刺激下会呕吐的人数百分比。然而,尽管预测较轻微的症状对于汽车和日常使用车辆的应用很重要,但尚未开发出模型来描述较轻微的不适或晕动病的特定症状。因此,本研究的目的是建立基于SVC理论的前庭晕动病症状进展的计算模型。我们重点研究具有六自由度 (6DoF) 头部运动的前庭晕动病模型。该模型是通过将最先进的 SVC 模型(称为 6DoF-SVC (IN1) 模型)的输出部分从 MSI 更新为 MIsery SCale (MISC) 来开发的,MIsery SCale (MISC) 是症状进展的主观评分量表。我们进行了一项实验来测量直线前后运动期间晕动病的进展情况。结果表明,我们提出的方法通过实验结果优化了输出部分的参数,与观察到的 MISC 非常吻合。

ChatGPT 对富人和穷人的金融歧视——与人类行为和期望不一致

分类: 人机交互, H.1.2

作者: Dmitri Bershadskyy, Florian E. Sachs, Joachim Weimann

发布时间: 2024-06-24

链接: http://arxiv.org/abs/2406.16572v1

摘要: ChatGPT 颠覆了机器学习方法的应用,大幅降低了使用门槛。聊天机器人现在广泛应用于许多不同的情况。他们提供建议、协助编写源代码或评估和总结各种来源的信息。然而,它们的范围不仅限于帮助人类;它们还可以用来承担谈判或讨价还价等任务。为了了解聊天机器人的使用对讨价还价情况的影响,我们对最后通牒游戏进行了实验室实验。在最后通牒游戏中,两个人类玩家互动:接收者决定接受或拒绝提议者的金钱提议。为了阐明新的讨价还价情况,我们让 ChatGPT 向人类玩家提供报价。在新颖的设计中,我们改变了接收器的财富。我们的结果表明,人类对其他人和聊天机器人有着相同的信念。然而,我们的结果在一个重要的点上与这些信念相矛盾:正如人类正确预期的那样,人类偏爱贫穷的接收者,但 ChatGPT 偏爱富有的接收者,这是人类没有预料到的。这些结果意味着 ChatGPT 的答案与人类的答案不一致,并且人类没有预料到这种差异。

PenSLR:使用集成的波斯语端到端手语识别

分类: 人机交互, 人工智能

作者: Amirparsa Salmankhah, Amirreza Rajabi, Negin Kheirmand, Ali Fadaeimanesh, Amirreza Tarabkhah, Amirreza Kazemzadeh, Hamed Farbeh

发布时间: 2024-06-24

链接: http://arxiv.org/abs/2406.16388v1

摘要: 手语识别(SLR)是一个快速发展的领域,旨在填补听力障碍者与正常听力人士之间的沟通差距。波斯手语 (PSL) 的现有解决方案仅限于单词级别的解释,这凸显了对更先进、更全面的解决方案的需求。此外,之前对其他语言的工作主要集中在操纵神经网络架构或硬件配置,而不是从多个模型的聚合结果中受益。在本文中,我们介绍了 PenSLR,这是一种基于手套的手语系统,由惯性测量单元 (IMU) 和五个灵活的传感器组成,由能够预测可变长度序列的深度学习框架提供支持。我们通过利用连接主义时间分类(CTC)损失函数以端到端的方式实现这一点,从而消除了输入信号分割的需要。为了进一步增强其功能,我们提出了一种新颖的集成技术,利用称为星形对齐的多序列对齐算法。此外,我们引入了一个新的 PSL 数据集,包括 16 个 PSL 标志,总共超过 3000 个时间序列样本。我们利用该数据集根据四个单词级和句子级指标来评估我们系统的性能。我们的评估表明,PenSLR 在独立于主题和依赖于主题的设置中分别实现了 94.58% 和 96.70% 的出色单词准确率。这些成就归功于我们的集成算法,它不仅在各自的场景中将词级性能提高了 0.51% 和 1.32%,而且在句子级准确率方面也分别显着提高了 1.46% 和 4.00%。

Flowy:通过多屏用户流程中人工智能驱动的模式注释支持 UX 设计决策

分类: 人机交互

作者: Yuwen Lu, Ziang Tong, Qinyi Zhao, Yewon Oh, Bryan Wang, Toby Jia-Jun Li

发布时间: 2024-06-23

链接: http://arxiv.org/abs/2406.16177v1

摘要: 最近许多由人工智能驱动的用户体验设计工具都专注于从自然语言生成单独的静态 UI 屏幕。然而,他们忽视了跨多个屏幕的交互和用户体验的关键方面。通过与用户体验专业人士的形成性研究,我们发现了这些工具在支持现实用户体验设计工作流程方面的局限性。为此,我们设计并开发了 Flowy,这是一款应用程序,通过用精炼的设计模式知识补充特定的用户流程示例,增强设计师在构思过程中的信息搜集过程。 Flowy利用大型多模态人工智能模型和高质量的用户流数据集来帮助设计人员识别和理解多屏用户流设计空间中的相关抽象设计模式。我们与专业 UX 设计师进行的用户研究展示了 Flowy 如何支持现实的 UX 任务。我们在 Flowy 中的设计考虑因素,例如具有适当抽象级别的表示和通过解决方案空间的辅助导航,可以推广到其他创造性任务,并体现了在用户体验设计中使用人工智能的以人为本的智能增强方法。

Crepe:使用图形查询的移动屏幕数据收集器

分类: 人机交互

作者: Yuwen Lu, Meng Chen, Qi Zhao, Victor Cox, Yang Yang, Meng Jiang, Jay Brockman, Tamara Kay, Toby Jia-Jun Li

发布时间: 2024-06-23

链接: http://arxiv.org/abs/2406.16173v1

摘要: 由于数据访问有限和技术障碍,收集移动数据集对于学术研究人员来说仍然具有挑战性。商业组织往往拥有移动数据的独占访问权,导致“数据垄断”,限制了学术研究的独立性。现有的开源移动数据收集框架主要关注移动传感数据而不是屏幕内容,这对于各种研究至关重要。我们推出了 Crepe,一款无代码 Android 应用程序,研究人员可以通过它简单地演示目标数据来收集屏幕上显示的信息。 Crepe 利用一种新颖的图形查询技术,增强了移动 UI 屏幕的结构,以支持特定数据片段的灵活识别、定位和收集。该工具通过提供所收集数据的完全透明度并允许轻松选择退出来强调参与者的隐私和代理权。我们设计和构建 Crepe 仅用于研究目的以及研究人员获得参与者明确同意的情况。 Code for Crepe 将开源,以支持未来的学术研究数据收集。

TikTok 参与度随着时间的推移和健康风险行为的追踪:结合数据链接和计算方法

分类: 计算机与社会, 人机交互

作者: Xinyan Zhao, Chau-Wai Wong

发布时间: 2024-06-23

链接: http://arxiv.org/abs/2406.15991v1

摘要: 数字技术和社交算法正在彻底改变媒体格局,改变我们选择和消费健康信息的方式。这项研究通过对社交媒体参与度、融合视角和算法影响的研究扩展了选择性范式,调查了个人喜欢的各种健康风险主题的 TikTok 视频与他们的电子烟和饮酒行为之间的关系。从方法上讲,我们依靠数据链接来客观地衡量社交媒体上的选择性参与,其中涉及将调查自我报告与同意受访者 (n = 166) 的 TikTok 互动的数字痕迹相结合。对 2020 年至 2023 年这些受访者喜欢的 13,724 个健康相关视频进行了计算分析。我们的研究结果表明,最初喜欢 TikTok 上与饮酒相关内容的用户随着时间的推移倾向于喜欢更多此类视频,他们对吸烟、饮酒以及水果和蔬菜视频的喜欢会影响他们自我报告的电子烟和饮酒行为。我们的研究强调了结合数字痕迹、计算分析和自我报告数据的方法论价值,可以更客观地检查社交媒体消费和参与度,以及对社交媒体行为影响进行更生态有效的理解。

ChatGPT 在向患者解释复杂医疗报告方面的有效性

分类: 人机交互, 计算和语言, 其他定量生物学

作者: Mengxuan Sun, Ehud Reiter, Anne E Kiltie, George Ramsay, Lisa Duncan, Peter Murchie, Rosalind Adam

发布时间: 2024-06-23

链接: http://arxiv.org/abs/2406.15963v1

摘要: 电子健康记录包含有关患者医疗状况的详细信息,但即使患者能够访问这些信息,也很难理解。我们探讨 ChatGPT (GPT 4) 是否可以帮助向结直肠癌和前列腺癌患者解释多学科团队 (MDT) 报告。这些报告以密集的医学语言编写,并假定了临床知识,因此很好地考验了ChatGPT向患者解释复杂医疗报告的能力。我们要求临床医生和外行人士(而非患者)查看 ChatGPT 的解释和反应。我们还组织了三个焦点小组(包括癌症患者、护理人员、计算机科学家和临床医生)来讨论 ChatGPT 的输出。我们的研究强调了信息不准确、语言不恰当、个性化有限、人工智能不信任以及将大型语言模型 (LLM) 集成到临床工作流程中的挑战等问题。在大语言模型可以用来向患者解释复杂的个人医疗信息之前,需要解决这些问题。

大语言模型可以使用无数据提示生成可视化吗?

分类: 计算和语言, 人工智能, 人机交互

作者: Darius Coelho, Harshit Barot, Naitik Rathod, Klaus Mueller

发布时间: 2024-06-22

链接: http://arxiv.org/abs/2406.17805v1

摘要: 大型语言模型的最新进展彻底改变了信息访问,因为这些模型利用网络上可用的数据来解决复杂的查询,成为许多用户的首选信息源。在某些情况下,查询涉及公开可用的数据,可以通过数据可视化来有效回答。在本文中,我们研究大型语言模型响应此类查询提供准确数据和相关可视化的能力。具体来说,我们研究了 GPT-3 和 GPT-4 在无数据提示(查询中没有数据)的情况下生成可视化的能力。我们通过将模型的结果与可视化专家创建的可视化备忘单进行比较来评估模型的结果。

探索在线视频对发育迟缓儿童的父母或照顾者的影响

分类: 人机交互

作者: Saquib Ahmed, Md Nazmus Sakib, Sanorita Dey

发布时间: 2024-06-22

链接: http://arxiv.org/abs/2406.15953v1

摘要: 发育迟缓和残疾 (DDD) 是指与正常发育儿童相比,儿童发育迟缓或无法达到发育里程碑的情况。这会给父母带来巨大的压力,导致社会孤立和孤独。在线视频,尤其是 YouTube 上的视频,旨在通过提供指导和帮助来支持这些父母和看护者。研究表明,患有 DDD 的孩子的父母会在 YouTube 上制作视频来增强真实性并建立联系。然而,对于其他有 DDD 孩子的家长如何看待这些视频以及如何受到这些视频的影响,人们知之甚少。我们的研究使用混合方法来注释和分析 1500 多个有关儿童 DDD 的 YouTube 视频。我们发现这些视频提供了重要的信息内容,并通过分享个人经历提供精神和情感支持。评论分析揭示了 YouTube 用户和观众之间强烈的社区意识。对 DDD 儿童家长的采访表明,他们发现这些视频具有相关性,对于管理孩子的诊断和治疗至关重要。最后,我们讨论了以平台为中心的设计对支持 DDD 儿童的父母和其他照顾者的影响。

彻底改变心理健康支持:用于动态、主动和上下文自适应对话代理的创新情感移动框架

分类: 人机交互

作者: Rahul Islam, Sang Won Bae

发布时间: 2024-06-22

链接: http://arxiv.org/abs/2406.15942v1

摘要: 随着我们致力于开发能够识别人类情绪状态并在更加个性化和上下文感知的计算时间内更直观和同理心地响应个人需求的交互系统。这对于心理健康支持尤其重要,因为对针对每个人的即时、非侵入性帮助的需求不断增加。个人心理健康和人类情感的复杂性需要超越传统的主动式和反应式聊天机器人方法的新颖方法。在这篇立场文件中,我们将探索如何通过结合实时面部表情分析、生理信号解释和语言模型来创建能够感知、解释和干预情绪信号的聊天机器人。这是通过将面部情感检测融入到现有的实用且无处不在的被动感知环境中来实现的,从而使它们具有利用无处不在的感知行为原语来识别、解释和响应人类情感的能力。与此同时,该系统采用认知重构和情绪日记等认知行为治疗工具,利用聊天机器人在心理健康背景下的治疗干预潜力。最后,我们提出了一个项目来构建一个系统,增强聊天机器人的情感理解,让用户参与基于聊天的干预,从而帮助管理他们的情绪。

EntangleVR++:评估在交互式 VR 场景创建系统中使用纠缠的潜力

分类: 人机交互, H.5.1

作者: Mengyu Chen, Marko Peljhan, Misha Sra

发布时间: 2024-06-22

链接: http://arxiv.org/abs/2406.15928v1

摘要: 交互式数字故事为玩家提供了一种灵活性和自由感,允许他们在关键路口做出选择。这些选择推进了叙事,并在某种程度上决定了玩家的故事如何发展。正如之前的工作所示,控制或参与叙事构建的能力可以为玩家提供高水平的代理能力,从而在叙事体验中带来更强的沉浸感。为了支持这种交互式讲故事的设计,我们的系统 EntangleVR++ 借鉴了量子计算中的纠缠概念。我们对纠缠的使用允许创作者和故事讲述者控制哪些故事事件序列相互关联,由玩家做出的选择发起。在这项工作中,我们评估了纠缠的想法如何帮助创作者轻松快速地设计交互式 VR 叙事。我们邀请 16 名参与者使用我们的系统,根据用户访谈、屏幕录像分析和问卷反馈,我们提取了四个主题。从这些主题和总体研究中,我们为对未来视觉界面设计感兴趣的工具设计者得出了四种创作策略,用于交互式地创建虚拟场景,其中包括关系对象和由玩家交互驱动的多种结果。

ConnectVR:用于创建基于代理的交互式 VR 故事的触发操作界面

分类: 人机交互, H.5.1

作者: Mengyu Chen, Marko Peljhan, Misha Sra

发布时间: 2024-06-22

链接: http://arxiv.org/abs/2406.15889v1

摘要: 随着 VR 和视频游戏的日益普及,对互动叙事的需求也在不断增长。这提供了创建交互式讲故事体验的机会,让玩家能够以第一人称视角参与叙事,无论是在 VR 中还是在计算机上以 3D 方式身临其境。然而,对于没有编程经验的艺术家和故事讲述者来说,创作此类体验是一项特别复杂的任务,因为它涉及对一系列故事事件(角色动画、动作、时间控制、对话等)进行编码,并由各种不同的连接和触发。玩家行为。在这项工作中,我们提出了 ConnectVR,这是一个触发动作界面,使非技术创作者能够设计基于代理的叙事体验。我们的无代码创作方法特别关注由玩家行为触发的一系列因果关系驱动的叙事设计。我们要求 15 名参与者在初步研讨会研究中使用 ConnectVR,并要求两名艺术家在为期三周的深入研究中广泛使用我们的系统来创建 VR 叙事项目。我们的研究结果揭示了 ConnectVR 的触发动作方法所带来的创造性机会,特别是它在虚拟角色和物体之间建立连锁行为效果的能力。这两项研究的结果强调了参与者对我们的系统不仅支持创造力而且简化交互式叙事体验的创建能力的积极反馈。结果表明与非技术叙事创作者的工作流程兼容,展示了其增强 VR 叙事设计领域整体创作过程的潜力。

数字公共产品的隐私要求和现实

分类: 人机交互, 密码学和安全, 计算机与社会

作者: Geetika Gopi, Aadyaa Maddi, Omkhar Arasaratnam, Giulia Fanti

发布时间: 2024-06-22

链接: http://arxiv.org/abs/2406.15842v1

摘要: 在国际发展界,“数字公共产品”一词用于描述旨在实现联合国可持续发展目标的开源数字产品(例如软件、数据集)。 DPG 越来越多地用于在世界各地提供政府服务(例如身份管理、医疗保健注册)。由于 DPG 可能处理敏感数据,联合国已将用户隐私确立为 DPG 的首要要求。 DPG 的隐私风险目前部分由 DPG 标准管理,其中包括一份前提调查问卷,其中的问题旨在评估 DPG 的隐私状况。本研究检验了当前 DPG 标准在确保充分隐私保护方面的有效性。我们对 DPG 关于用户隐私保护的回应进行了系统评估。我们还提供了来自三个广泛使用的 DPG 的深入案例研究,以识别隐私威胁,并将其与他们对 DPG 标准的响应进行比较。我们的研究结果揭示了当前 DPG 标准评估方法的局限性。最后,我们提出了加强与隐私相关的 DPG 标准的初步建议和建议。此外,我们希望这项研究能够鼓励更多关于通信隐私的可用隐私研究,不仅针对最终用户,还针对面向用户技术的第三方采用者。

了解学生和教职人员对人工智能在评估和反馈中的使用的看法

分类: 人机交互, 人工智能

作者: Jasper Roe, Mike Perkins, Daniel Ruelle

发布时间: 2024-06-22

链接: http://arxiv.org/abs/2406.15808v1

摘要: 人工智能(AI)和生成人工智能(GenAI)在高等教育中的兴起使得评估改革成为必要。这项研究通过探索学生和学术人员使用 AI 和 GenAI 工具的经验来解决一个关键差距,重点关注他们对当前和未来潜在的学习和评估应用的熟悉程度和舒适度。一项在线调查收集了越南两所大学和新加坡一所大学的 35 名学术人员和 282 名学生的数据,调查了 GenAI 的熟悉程度、对其在评估评分和反馈中使用的看法、知识检查和参与以及 GenAI 文本检测的经验。描述性统计和反思性主题分析显示,两组人对 GenAI 的熟悉度普遍较低。 GenAI 的反馈被视为负面;然而,当与教师的反馈结合起来时,人们对它的看法更加积极。与学生相比,学术人员更容易接受 GenAI 文本检测工具以及根据检测结果调整成绩。定性分析确定了三个主题:对文本检测工具的理解不明确、GenAI 检测器体验的可变性以及对 GenAI 未来对教育评估影响的复杂感受。这些发现对于制定高等教育中基于 GenAI 的评估和反馈的政策和实践具有重大影响。

迭代服务学习:应用于小型农村组织的基于计算的案例研究

分类: 社交和信息网络, 人机交互, 软件工程, K.3.2; K.3.1; H.5.3; H.3.5; D.2.9

作者: Sherri WeitlHarms

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.15679v1

摘要: 本文描述了服务学习的迭代使用来开发、审查和改进基于计算的工件。众所周知,计算机专业的学生和社区合作伙伴一样受益于服务学习体验。众所周知,如果没有版本控制和更新,计算工件很少能长期正常运行。服务学习项目通常是一次性的,由单个学生团队在一个学期的课程中完成。这限制了没有专业知识或资源来自行审查和更新项目的社区合作伙伴的利益。几年来,参加顶点课程的本科生团队为众多小型农村组织制定了量身定制的社交媒体计划。这些项目需要满足客户的特定需求,具有确定的受众、可衡量的目标以及实现既定目标的战略和策略。本文以之前几年开展的 60 个项目的成果为基础。选择九个客户参与迭代后续流程,新学生团队进行客户访谈,审查初始计划,并分析当前策略和策略的指标,以提供更新、改进的工件。以 ABET 学习目标为基础,客户审查了学生团队和工件。这项纵向研究讨论了这种干预对提高通过服务学习开发的计算工件的实施和持续使用率的影响。学生和客户都表示非常满意,客户对迭代改进过程特别满意。这项研究展示了一种通过迭代服务学习创建和维护计算工件的创新实践,同时解决了小型组织的资源限制。

VR-NRP:新生儿复苏计划培训的虚拟现实模拟

分类: 人机交互, 图形, I.3.8; I.6.3

作者: Mustafa Yalin Aydin, Vernon Curran, Susan White, Lourdes Peña-Castillo, Oscar Meruvia-Pastor

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.15598v1

摘要: 虚拟现实(VR)技术的使用在外科和解剖学教育中得到了广泛的研究。 VR 提供了一个逼真的交互式环境,医疗保健提供者可以在安全的环境中练习和更新他们的技能。 VR 已被证明与传统医学教育教学方法一样有效,有可能提供更具成本效益和便捷的课程交付方式,特别是在农村和偏远地区或实践培训机会有限的环境中。从这个意义上说,VR 有可能用于支持医疗保健提供者的复苏培训,例如新生儿复苏计划 (NRP)。 NRP 计划是一种基于证据的标准化方法,用于对医疗保健提供者进行新生儿复苏培训。在本文中,我们描述了一个 VR 模拟环境,该环境是为了刷新 NRP 提供商的技能而设计和开发的。为了验证该平台,我们将 VR-NRP 模拟与 360 度沉浸式视频进行了比较。我们发现这两种 VR 技术都受到医疗保健专业人士的积极评价,并且表现非常相似。然而,VR 模拟显着增强了临场感。此外,参与者发现 VR 模拟更有用,可以改善体验式学习成果。此外,使用 VR 模拟的参与者对某些 NRP 技能有更高的信心,例如正确的面罩放置和新生儿反应评估。这项研究代表着在理解 VR 和相关扩展现实 (XR) 技术如何应用​​于有效、沉浸式医学教育方面向前迈出了一步,为偏远和农村医疗保健提供者带来潜在好处。

V-RECS,一个低成本的 LLM4VIS 推荐器,带有解释、字幕和建议

分类: 人机交互, 人工智能

作者: Luca Podo, Marco Angelini, Paola Velardi

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.15259v1

摘要: NL2VIS(自然语言可视化)是一个有前途的最新研究领域,涉及解释自然语言查询并将其转换为准确表示基础数据的可视化。当我们进入大数据时代时,NL2VIS 拥有巨大的应用潜力,因为它极大地方便了非专家用户的数据探索。随着生成式 AI 在 NL2VIS 应用中的日益广泛使用,在本文中,我们提出了 V-RECS,这是第一个基于 LLM 的视觉推荐器,增强了解释 (E)、字幕 (C) 和建议 (S),以进行进一步的数据探索。 V-RECS 的可视化叙述有助于非专家用户的响应验证和数据探索。此外,我们提出的解决方案通过利用有效微调小型模型的方法,缓解了与使用强大的大语言模型相关的计算、可控性和成本问题。为了生成富有洞察力的可视化叙述,我们使用思想链 (CoT),这是一种即时工程技术,可以帮助大语言模型识别和生成逻辑步骤以产生正确的答案。据报道,CoT 在小型 LLM 中表现不佳,因此我们采用了一种策略,其中大型 LLM (GPT-4) 作为教师,生成基于 CoT 的指令来微调小型模型 Llama-2-7B,扮演学生的角色。基于人工智能可视化定量评估框架和一组参与者的手动评估的广泛实验表明,V-RECS 以低得多的成本实现了与 GPT-4 相当的性能分数。 V-RECS 师生范式的有效性还通过未经调整的 Llama 在绝大多数测试用例中无法执行任务的事实得到了证明。我们为可视化社区发布了 V-RECS,以在整个可视化生成过程中为可视化设计人员提供帮助。

与 ChatGPT 和 Claude 一起探索机器人助手在增强多动症治疗方面的功效:创新治疗范式

分类: 人工智能, 人机交互, 软件工程

作者: Santiago Berrezueta-Guzman, Mohanad Kandil, María-Luisa Martín-Ruiz, Iván Pau-de-la-Cruz, Stephan Krusche

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.15198v1

摘要: 注意力缺陷多动障碍 (ADHD) 是一种以注意力不集中、多动和冲动为特征的神经发育疾病,可显着影响个人的日常功能和生活质量。职业治疗通过促进日常生活所需技能的发展并增强个人充分参与学校、家庭和社交场合的能力,在治疗多动症方面发挥着至关重要的作用。最近的研究强调了整合 ChatGPT 和社交辅助机器人 (SAR) 等大型语言模型 (LLM) 来改善心理治疗的潜力。这种整合旨在通过提供量身定制的支持并适应这一敏感群体的独特需求,克服心理健康治疗中现有的局限性。然而,探索这些先进技术在多动症治疗中的联合应用的研究仍然存在很大差距,这表明新的治疗方法有机会出现。因此,我们将两种高级语言模型 ChatGPT-4 Turbo 和 Claude-3 Opus 集成到机器人助手中,以探索每种模型在机器人辅助交互中的表现如何。此外,我们还比较了它们在模拟治疗场景中的表现,以根据经过临床验证的定制模型来衡量它们的有效性。这项研究的结果表明,ChatGPT-4 Turbo 在性能和响应能力方面表现出色,使其适合时间敏感的应用程序。另一方面,Claude-3 Opus 在理解、连贯性和道德考虑方面表现出了优势,优先考虑安全和引人入胜的互动。两种模型都展示了创新性和适应性,但 ChatGPT-4 Turbo 提供了更轻松的集成和更广泛的语言支持。它们之间的选择取决于多动症治疗的具体要求。

平衡作弊检测、隐私和公平的看法:远程监考中视觉数据混淆的混合方法研究

分类: 人机交互

作者: Suvadeep Mukherjee, Verena Distler, Gabriele Lenzini, Pedro Cardoso-Leite

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.15074v1

摘要: 远程监考技术是一种预防作弊的措施,通常会引发隐私和公平问题,从而可能影响考生的体验和测试结果的有效性。我们的研究探讨了如何有选择地混淆视频记录中的信息,以保护考生的隐私,同时确保有效和公平的作弊检测。对专家(N=9)的采访确定了表明潜在作弊行为的四个关键视频区域:考生的面部、身体、背景以及背景中个人的存在。专家们根据隐私重要性和作弊行为频率,为每个区域推荐了具体的混淆方法,从传统的模糊到深度伪造、3D 头像和剪影替换等高级方法。然后,我们对潜在的测试者(N = 259,非专家)进行了一个小插曲实验,以评估他们对作弊检测、视觉隐私和公平性的看法,使用每个专家推荐的视频区域组合的静态图像的描述和示例。混淆方法。我们的结果表明,混淆方法的有效性因地区而异。与传统方法相比,使用特定于区域的高级混淆方法定制远程监考可以改善隐私和公平性的感知,尽管它可能会降低检测作弊的感知信息充分性。然而,非专家更喜欢对他们更愿意分享的视频进行传统模糊处理,这凸显了先进模糊方法的感知有效性与实际接受度之间的差距。这项研究通过提出解决当前远程监考挑战的有希望的方向并指导未来的研究,为以用户为中心的隐私领域做出了贡献。

实时手势识别:集成基于骨架的数据融合和多流 CNN

分类: 计算机视觉和模式识别, 人机交互

作者: Oluwaleke Yusuf, Maki Habib, Mohamed Moustafa

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.15003v1

摘要: 这项研究的重点是手势识别(HGR),这对于跨各种现实世界环境的感知计算至关重要。 HGR 领域的主要挑战在于处理人类手形态固有的个体差异。为了应对这一挑战,我们引入了创新的 HGR 框架,该框架结合了数据级融合和 Ensemble Tuner 多流 CNN 架构。这种方法有效地将时空手势信息从骨架模态编码到 RGB 图像中,从而最大限度地减少噪声,同时提高语义手势理解。我们的框架实时运行,显着降低了硬件要求和计算复杂性,同时保持了在 SHREC2017、DHG1428、FPHA、LMDHG 和 CNR 等基准数据集上的竞争性能。 HGR 的这一改进展示了鲁棒性,并为利用资源有限的设备实现人机交互和环境智能的实用实时应用铺平了道路。

人类-人工智能集体产生最准确的鉴别诊断

分类: 人工智能, 人机交互

作者: N. Zöller, J. Berger, I. Lin, N. Fu, J. Komarneni, G. Barabucci, K. Laskowski, V. Shia, B. Harack, E. A. Chu, V. Trianni, R. H. J. M. Kurvers, S. M. Herzog

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.14981v1

摘要: 人工智能系统,特别是大型语言模型(LLM),越来越多地被用于影响个人和整个社会的高风险决策,但往往没有足够的保障措施来确保安全、质量和公平。然而,大语言模型存在幻觉,缺乏常识,并且存在偏见——这些缺点可能反映了大语言模型固有的局限性,因此可能无法通过更复杂的架构、更多的数据或更多的人类反馈来弥补。因此,仅仅依靠大语言模型来做出复杂、高风险的决策是有问题的。在这里,我们提出了一个混合集体智能系统,该系统通过利用人类经验和大语言模型处理的大量信息的互补优势来减轻这​​些风险。我们将我们的方法应用于开放式医疗诊断,将医生做出的 40,762 例鉴别诊断与五位最先进的大语言模型对 2,133 个医疗病例的诊断相结合。我们表明,医生和大语言模型的混合集体优于单个医生和医生集体,以及单个大语言模型和大语言模型整体。这一结果适用于一系列医学专业和专业经验,并且可以归因于人类和大语言模型的互补贡献,从而导致了不同类型的错误。我们的方法强调了人类和机器集体智能在提高医疗诊断等复杂、开放领域的准确性方面的潜力。

信息不对称下协同任务的自治代理

分类: 人工智能, 计算和语言, 人机交互, 多代理系统, 社交和信息网络

作者: Wei Liu, Chenxi Wang, Yifei Wang, Zihao Xie, Rennai Qiu, Yufan Dang, Zhuoyun Du, Weize Chen, Cheng Yang, Chen Qian

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.14928v1

摘要: 大型语言模型多代理系统(LLM-MAS)在解决复杂任务方面取得了巨大进步。它在系统内的Agent之间进行通信,在共享信息的前提下协同解决任务。然而,当利用代理的通信来增强人类合作时,由于信息不对称而出现了新的挑战,因为每个代理只能访问其人类用户的信息。以前的MAS在这种情况下很难完成任务。为了解决这个问题,我们提出了一种新的 MAS 范式,称为 iAgents,它表示信息多代理系统。在iAgents中,人类社交网络反映在代理网络中,代理主动交换任务解决所需的人类信息,从而克服信息不对称。 iAgents 采用新颖的代理推理机制 InfoNav 来引导代理的通信以实现有效的信息交换。 iAgents 与 InfoNav 一起在混合内存中组织人类信息,为代理提供准确、全面的信息进行交换。此外,我们还推出了 InformativeBench,这是第一个为评估 LLM 代理在信息不对称情况下解决任务能力而量身定制的基准。实验结果表明,iAgents 可以在 140 个人和 588 个关系的社交网络中进行协作,自主通信超过 30 轮,并从近 70,000 条消息中检索信息,在 3 分钟内完成任务。

适合用户特定需求的通往建筑物或房间的路线

分类: 人机交互

作者: Stéphanie Jean-Daubias, Thierry Excoffier, Otman Azziz

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.14923v1

摘要: OPALE 是一款为克劳德伯纳德里昂第一大学校园用户提供的多服务移动应用程序,它将实用、文化和科学资源的发现与实用的日常功能结合起来。兴趣点在校园地图上进行地理定位,并且可以通过行程到达。但前往建筑物的行程并不总是足以找到周围的路。方向问题通常出现在最后几米:建筑物入口和您要寻找的房间之间。在本文中,我们介绍 OPALE,以及我们为解决建筑物中用户定位问题而采用的方法。我们还将展示如何考虑用户的具体特征,特别是那些有身体或认知障碍的用户。

我们能说猫就是猫吗?了解注释基于生理信号的情感数据的挑战

分类: 人机交互

作者: Pragya Singh, Mohan Kumar, Pushpendra Singh

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.14908v1

摘要: 人工智能 (AI) 算法根据从生理信号中提取的情绪数据进行训练,为监测情绪、情感和心理健康提供了一种有前景的方法。然而,该领域遇到了挑战,因为缺乏有效的方法来收集日常环境中真正反映情绪或情感变化的高质量数据。本文对当前基于生理信号的情感数据进行注释的技术进行了立场讨论。我们的论述强调了对注释过程进行细致入微的理解的重要性,为更深入地探索生理信号和人类情感之间的复杂关系铺平了道路。

墨迹与算法:探索人机协作写作中的时间动态

分类: 人机交互

作者: Kaixun Yang, Yixin Cheng, Linxuan Zhao, Mladen Raković, Zachari Swiecki, Dragan Gašević, Guanliang Chen

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.14885v1

摘要: 生成人工智能(GAI)的出现彻底改变了写作领域,标志着教育领域向人机协作写作的转变。然而,协作写作过程中人类与人工智能交互的动态还没有得到很好的理解,因此如何通过这种尖端的 GAI 技术有效地支持人类学习仍然是一个未知数。在这项研究中,我们旨在通过调查人类如何在协作写作中使用 GAI 并检查 GAI 使用模式与人类写作行为之间的相互作用来弥合这一差距。考虑到人们对 GAI 使用的潜在不同程度,我们建议使用动态时间扭曲时间序列聚类来识别和分析人机协作写作过程中 AI 使用的常见时间模式。此外,我们还结合认知网络分析来揭示 GAI 使用与反映认知过程(即知识讲述、知识转化和认知存在)的人类写作行为之间的相关性,旨在为开发更好的方法和工具来支持人类通过这种人机协作写作活动有效地学习。我们的研究结果揭示了人工智能使用中的四种主要的不同时间模式,并强调了这些模式与人类写作行为之间的显着相关性。这些发现对于在教育写作任务中使用 GAI 有效支持人类学习具有重要意义。

我不再相信你了! -- 学生LLM的使用对高等教育中讲师-学生-信任的影响

分类: 计算机与社会, 人工智能, 新兴技术, 人机交互, 机器学习, K.3.1; K.4.2; K.4.3; J.4; H.0; I.2.0

作者: Simon Kloker, Matthew Bazanya, Twaha Kateete

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.14871v1

摘要: 信任在师生合作中发挥着关键作用,涵盖教学和研究方面。大型语言模型 (LLM) 在 Open AI 的 ChatGPT 等平台中的出现,加上其成本效益和高质量的结果,使其在大学生中迅速采用。然而,从大语言模型生成的输出中辨别真正的学生输入对讲师来说是一个挑战。这种困境危及了讲师和学生之间的信任关系,可能会影响大学的下游活动,特别是合作研究计划。尽管试图为学生大语言模型的使用制定指导方针,但对高等教育中的讲师和学生互惠互利的明确框架仍然难以实现。本研究解决了以下研究问题:学生使用大语言模型如何影响信息和程序正义、团队信任和预期团队绩效?我们有条不紊地应用了基于结构的定量调查,并使用结构方程模型(PLS-SEM)技术进行评估,以检查这些结构之间的潜在关系。我们基于 Ndejje 大学 23 名有效受访者的调查结果表明,讲师不太关心 LLM 使用本身的公平性,而是更关注学生使用的透明度,这对团队信任产生了显着的积极影响。这项研究有助于全球关于整合和规范大语言模型及后续教育模式的讨论。我们建议指南应支持大语言模型的使用,同时加强讲师与学生合作的透明度,以促进团队信任和绩效。该研究为制定政策提供了宝贵的见解,使大语言模型在教育中的使用符合道德和透明,以确保协作学习环境的有效性。

通过多任务视频分析轻松在家检测帕金森病

分类: 计算机视觉和模式识别, 人机交互, 机器学习

作者: Md Saiful Islam, Tariq Adnan, Jan Freyberg, Sangwu Lee, Abdelrahman Abdelkader, Meghan Pawlik, Cathe Schwartz, Karen Jaffe, Ruth B. Schneider, E Ray Dorsey, Ehsan Hoque

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.14856v1

摘要: 获得神经科护理的机会有限,导致帕金森病 (PD) 的漏诊,导致许多人无法识别和治疗。我们训练了一种新颖的基于神经网络的融合架构,通过分析从三个任务的网络摄像头记录中提取的特征来检测帕金森病(PD):手指敲击、面部表情(微笑)和语音(说出包含字母表中所有字母的句子) 。此外,该模型还结合了蒙特卡罗 Dropout,通过考虑不确定性来提高预测精度。研究参与者(n = 845,272 名 PD)被随机分为三组:60% 用于训练,20% 用于模型选择(超参数调整),20% 用于最终性能评估。该数据集由 1102 个会话组成,每个会话包含所有三个任务的视频。与任何单任务模型相比,我们提出的模型显着提高了准确性、ROC 曲线下面积 (AUROC) 和非劣特异性的灵敏度。排除不确定的预测进一步提高了性能,实现了 88.0% (95% CI: 87.7% - 88.4%) 的准确度、93.0% (92.8% - 93.2%) AUROC、79.3% (78.4% - 80.2%) 的灵敏度和 92.6% ( 92.3% - 92.8%) 的特异性,但代价是无法预测 2.3% (2.0% - 2.6%) 的数据。进一在家中进行方便的 PD 筛查的方法,特别是在临床专家的机会有限的地区。

用于单细胞 RNA 测序的在线 t-SNE

分类: 基因组学, 人机交互

作者: Hui Ma, Kai Chen

发布时间: 2024-06-21

链接: http://arxiv.org/abs/2406.14842v1

摘要: 由于连续的样本到达、不断变化的实验条件和知识的演变,不断可视化连续和多样化的单细胞 RNA 测序 (scRNA-seq) 数据的不断演变的结构的需求变得必不可少。然而,作为最先进的scRNA-seq可视化和分析方法之一,t分布随机邻域嵌入(t-SNE)仅能离线可视化静态scRNA-seq数据,并不能很好地满足需求。为了应对这些挑战,我们引入在线 t-SNE 来无缝集成序列 scRNA-seq 数据。在线 t-SNE 通过利用旧样本的嵌入空间、探索新样本的嵌入空间以及动态对齐两个嵌入空间来实现这一目标。因此,在线 t-SNE 极大地实现了新结构的持续发现以及新 scRNA-seq 数据的高质量可视化,而无需从头开始重新训练。我们展示了在线 t-SNE 在不同序列 scRNA-seq 数据集中的强大可视化功能。

故事图表的网络可视化技术

分类: 计算机与社会, 数字图书馆, 人机交互

作者: Joao T. Aparicio, Andreas Karatsoli, Carlos J. Costa

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14734v1

摘要: 可视化技术已广泛用于分析各种数据类型,包括文本。本文提出了一种通过应用图形可视化技术来分析有争议的葡萄牙语文本的方法。具体来说,我们使用故事图表技术将文本转换为图表。每个节点代表一个角色或主要实体,每条边代表角色之间的交互。我们还提出了几种可视化技术,以深入了解故事的结构、人物之间的关系、最重要的事件以及整本书中如何使用一些关键术语。通过使用这种方法,我们可以有效地揭示通过阅读文本可能不易辨别的复杂模式和关系。最后,我们讨论了我们的技术在文学研究和其他领域的潜在应用。

比较视觉、触觉和视触觉编码对虚拟现实中数字对象记忆保留的影响

分类: 人机交互

作者: Lucas Siqueira Rodrigues, Timo Torsten Schmidt, John Nyakatura, Stefan Zachow, Johann Habakuk Israel, Thomas Kosch

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14139v1

摘要: 尽管虚拟现实 (VR) 无疑改善了人类与 3D 数据的交互,但用户在为物理任务做准备时仍然面临保留复杂数字对象的重要细节的困难。为了解决这个问题,我们评估了视觉触觉集成在提高沉浸式可视化中虚拟对象的可记忆性方面的潜力。在一项用户研究 (N=20) 中,参与者执行了延迟的样本匹配任务,其中他们记住了视觉、触觉或视觉触觉编码条件的刺激。我们通过错误率和响应时间评估了条件之间的性能差异。我们发现,与单峰视觉和触觉条件相比,视觉触觉编码显着提高了记忆准确性。我们的分析表明,将触觉集成到沉浸式可视化中可以增强数字对象的可记忆性。我们讨论了它对 VR 应用程序中最佳编码设计的影响,这些应用程序可以帮助需要在日常工作中记住和回忆虚拟对象的专业人员。

通过人机协作增强基于大语言模型的机器人操作

分类: 机器人技术, 人工智能, 人机交互

作者: Haokun Liu, Yaonan Zhu, Kenji Kato, Atsushi Tsukahara, Izumi Kondo, Tadayoshi Aoyama, Yasuhisa Hasegawa

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14097v1

摘要: 大型语言模型(LLM)在机器人领域越来越受欢迎。然而,由于语言模型、机器人和环境之间的集成度较差,基于LLM的机器人仅限于简单、重复的运动。本文提出了一种通过人机协作(HRC)增强基于大语言模型的自主操作性能的新方法。该方法涉及使用提示的 GPT-4 语言模型将高级语言命令分解为机器人可以执行的运动序列。该系统还采用基于 YOLO 的感知算法,为 LLM 提供视觉提示,有助于规划特定环境中的可行运动。此外,结合远程操作和动态运动原语(DMP)提出了一种 HRC 方法,允许基于 LLM 的机器人从人类指导中学习。使用丰田人类支持机器人执行操作任务进行了真实世界的实验。结果表明,需要复杂轨迹规划和环境推理的任务可以通过结合人类演示来有效完成。

我们到了吗?为领域专家揭示协作沉浸式分析中的可用性挑战和机遇

分类: 人机交互

作者: Fahim Arsad Nafis, Alexander Rose, Simon Su, Songqing Chen, Bo Han

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.13918v1

摘要: 在不断发展的高维科学数据学科中,协作沉浸式分析 (CIA) 为复杂数据可视化和解释领域的专家提供了一个充满希望的前沿领域。这项研究提出了一个综合框架,用于对开源 CIA 系统 ParaView 的扩展现实 (XR) 界面进行可用性研究。通过采用既定的人机交互 (HCI) 原则,包括雅各布·尼尔森的可用性启发法、认知负荷理论、NASA 任务负荷指数、系统可用性量表、可供性理论以及执行和评估海湾,本研究旨在识别潜在的可用性问题和提供增强科学领域用户体验的指南。我们的研究结果揭示了 ParaView XR 界面的重大可用性挑战,阻碍了有效的团队合作和协作。例如,缺乏同步协作、有限的通信方法以及缺乏基于角色的数据访问是需要关注的关键领域。此外,错误处理不足、反馈机制不足以及应用程序使用过程中的支持资源有限,需要进行大量改进才能充分发挥系统的潜力。我们的研究提出了克服协作沉浸式系统现有可用性障碍的潜在改进。

使用大型语言模型进行政治说服的对数缩放定律的证据

分类: 计算和语言, 人工智能, 计算机与社会, 人机交互

作者: Kobi Hackenburg, Ben M. Tappin, Paul Röttger, Scott Hale, Jonathan Bright, Helen Margetts

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14508v1

摘要: 大型语言模型现在可以生成与人类编写的政治信息一样有说服力的政治信息,这引发了人们对这种说服力随着模型规模的增加而不断增加的担忧。在这里,我们通过 24 个规模多个数量级的语言模型生成了关于 10 个美国政治问题的 720 条有说服力的信息。然后,我们将这些消息部署在大规模随机调查实验(N = 25,982)中,以估计每个模型的说服能力。我们的发现是双重的。首先,我们发现了对数缩放定律的证据:模型说服力的特点是收益急剧递减,因此当前的前沿模型几乎不比尺寸小一个数量级或更多的模型更有说服力。其次,仅仅完成任务(连贯性、紧扣主题)似乎就可以解释较大模型的说服力优势。这些发现表明,进一步扩展模型大小不会太大增加静态 LLM 生成的消息的说服力。

第二届可解释人工智能艺术国际研讨会 (XAIxArts) 论文集

分类: 人工智能, 人机交互, 多媒体, 声音, 音频和语音处理

作者: Nick Bryan-Kinns, Corey Ford, Shuoyang Zheng, Helen Kennedy, Alan Chamberlain, Makayla Lewis, Drew Hemment, Zijin Li, Qiong Wu, Lanxi Xiao, Gus Xia, Jeba Rezwana, Michael Clemens, Gabriel Vigliensoni

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14485v1

摘要: 第二届可解释人工智能艺术 (XAIxArts) 国际研讨会汇聚了人机交互、交互设计、人工智能、可解释人工智能 (XAI) 和数字艺术领域的研究人员,共同探讨 XAI 在艺术领域的作用。在美国芝加哥第 16 届 ACM 创造力与认知会议 (C&C 2024) 上举办的研讨会。

科学眨眼:支持标量场中的整体感知

分类: 人机交互

作者: Victor A. Mateevitsi, Michael E. Papka, Khairi Reda

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14452v1

摘要: 可视化支持对科学数据集的快速分析,使查看者能够在瞬间收集汇总信息(例如平均值)。虽然之前的研究已经在传统图表中探索了这种能力,但尚不清楚计算科学家使用的空间可视化是否能提供类似的整体感知能力。我们研究人们从伪彩色标量场估计两个汇总统计量(均值和方差)的能力。在众包实验中,我们发现参与者可以可靠地表征这两种统计数据,尽管方差辨别需要更强的信号。多色调和发散的色彩图在帮助提取方面优于单色、亮度渐变。对定性反应的分析表明,参与者经常估计热点和低谷的分布,作为数据统计的视觉代理。这些发现表明,人们对空间数据集的概括解释可能是由离散颜色段的出现驱动的,而不是对整体亮度的评估。因此,通过促进对颜色编码可视化的快速、要点级判断,定量显示中的隐式颜色分割可能比以前假设的更有用。

Jupyter Scatter:大规模数据集的交互式探索

分类: 人机交互

作者: Fritz Lekschas Trevor Manz

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14397v1

摘要: Jupyter Scatter 是一个可扩展、交互式且相互链接的散点图小部件,用于探索 Jupyter Notebook/Lab、Colab 和 VS Code 中的数据集。其目标是简化大规模双变量数据集的视觉探索、分析和比较。 Jupyter Scatter 可以渲染多达 2000 万个点,支持快速点选择,与 Pandas DataFrame 和 Matplotlib 集成,使用感知有效的默认设置,并提供用户友好的 API。

人工利维坦:通过霍布斯社会契约论的视角探索大语言模型代理人的社会进化

分类: 人工智能, 计算和语言, 计算机与社会, 人机交互, 多代理系统

作者: Gordon Dai, Weijia Zhang, Jinhan Li, Siqi Yang, Chidera Onochie lbe, Srihas Rao, Arthur Caetano, Misha Sra

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14373v1

摘要: 大型语言模型 (LLM) 的出现和人工智能 (AI) 的进步为大规模计算社会科学研究提供了机会。基于之前对大语言模型代理设计的探索,我们的工作引入了一个模拟的代理社会,其中复杂的社会关系随着时间的推移动态形成和演变。特工充满了心理驱动力,并被置于沙盒生存环境中。我们通过托马斯·霍布斯开创性的社会契约理论(SCT)的视角对代理社会进行评估。我们分析是否如理论假设的那样,代理人试图通过向绝对主权者放弃权利以换取秩序和安全来逃避残酷的“自然状态”。我们的实验揭示了一种一致性:最初,主体参与无限制的冲突,反映了霍布斯对自然状态的描述。然而,随着模拟的进行,社会契约出现,导致绝对主权的授权和基于相互合作的和平联邦的建立。我们的大语言模型代理社会的进化轨迹与霍布斯的理论解释之间的一致性表明大语言模型有能力模拟复杂的社会动态,并有可能复制塑造人类社会的力量。通过对群体行为和新兴社会现象进行深入了解,大语言模型驱动的多智能体模拟虽然无法模拟人类行为的所有细微差别,但可能有潜力增进我们对社会结构、群体动态和复杂人类系统的理解。

智能界面:通过教学活动摘要增强讲座参与度

分类: 人工智能, 人机交互

作者: Anna Wróblewska, Marcel Witas, Kinga Frańczak, Arkadiusz Kniaź, Siew Ann Cheong, Tan Seng Chee, Janusz Hołyst, Marcin Paprzycki

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14266v1

摘要: 最近,机器学习的多种应用被介绍。它们包括将图像分析方法应用于广泛理解的视频流时出现的各种可能性。在此背景下,为学术教育工作者开发了一种新颖的工具,通过自动化、总结和提供讲座的及时反馈来增强教学过程。实现的原型利用基于机器学习的技术来识别讲座视频记录中选定的教学和行为教师的特征。具体来说,用户(教师)可以上传他们的讲座视频,这些视频使用机器学习模型进行预处理和分析。接下来,用户可以通过交互式图表和表格查看公认的教学特征的摘要。此外,存储的基于机器学习的预测结果支持根据教学内容对讲座之间进行比较。在开发的应用程序中,应用了基于文本的模型,该模型经过讲座转录训练,并通过采用自动语音识别解决方案增强了转录质量。此外,该系统还为(未来)集成新的/附加的机器学习模型以及用于图像和视频分析的软件模块提供了灵活性。

E-ANT:用于高效自动 GUI 导航的大规模数据集

分类: 计算机视觉和模式识别, 人机交互

作者: Ke Wang, Tianyu Xia, Zhangxuan Gu, Yi Zhao, Shuheng Shen, Changhua Meng, Weiqiang Wang, Ke Xu

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14250v1

摘要: 移动设备上的在线 GUI 导航近年来引起了广泛关注,因为它有助于许多现实世界的应用程序。随着大语言模型(LLM)的快速发展,多模态大语言模型(MLLM)在这项任务上具有巨大的潜力。然而,现有的 MLLM 需要高质量的数据来提高其根据人类用户输入做出正确导航决策的能力。在本文中,我们开发了一个新颖且极具价值的数据集,名为 \textbf{E-ANT},作为第一个中文 GUI 导航数据集,包含真实的人类行为和带注释的高质量屏幕截图,包含近 40,000 个真实的人体痕迹,超过 5000 个不同的tinyAPP。此外,我们在 E-ANT 上评估了各种强大的 MLLM,并通过充分的消融展示了他们的实验结果。我们相信,我们提出的数据集将有利于 GUI 导航和 LLM/MLLM 决策能力的评估和开发。

零场主动屏蔽

分类: 医学物理, 人机交互, 信号处理, 仪器仪表和探测器, 神经元和认知

作者: Alain de Cheveigné

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14234v1

摘要: 环境场抑制对于精确的磁场测量至关重要,也是某些低场传感器运行的要求。噪声和信号之间的幅度差异(高达 10$^9$)使问题具有挑战性,而无源屏蔽、事后处理和大多数有源屏蔽设计等解决方案并不能完全解决这个问题。零场有源屏蔽 (ZFS) 通过前馈结构实现精确的场抑制,其中校正线圈由参考传感器通过使用数据驱动方法找到的矩阵进行馈电。要求是有足够数量的校正线圈和参考传感器,以跨越传感器处的环境场,并将线圈与参考传感器的耦合归零。该解决方案假设瞬时传播和混合,但可以扩展以处理卷积效应。除了提高效率和可用性之外,不需要基于传感器和线圈几何形状的精确计算。该解决方案在此进行模拟,但未在硬件中实现。

指向与倾斜定向转向界面中的离散虚拟旋转:单手与双手视角

分类: 人机交互

作者: Daniel Zielasko, Maximilian Späth, Matthias Wölwer

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14212v1

摘要: 在这项工作中,我们探索将不连续方向选择集成到转向界面中,旨在保留现实世界运动的无缝感觉,同时减轻引起晕车的风险。我们的实现遇到了标准输入映射的冲突,促使我们采用双手交互作为解决方案。认识到此步骤可能产生的复杂性,我们还开发了单手动替代方案,例如利用人体操纵杆,通常称为倾斜界面。围绕启动搜索任务的实证研究的结果产生了意想不到的发现。我们观察到,跨越多个游戏体验级别的用户样本以及平衡的性别分布在双手非对称界面上没有表现出明显的困难。值得注意的是,与之前的工作一样,方向选择的性能至少与捕捉旋转相当。此外,通过随后的探索性分析,我们发现有迹象表明,在给定设置中,指向导向转向在可用性和任务负载方面优于具体接口。

观察观察者:基于云的内容审核服务的比较公平性审计

分类: 计算机与社会, 计算和语言, 人机交互, 机器学习

作者: David Hartmann, Amin Oueslati, Dimitri Staufer

发布时间: 2024-06-20

链接: http://arxiv.org/abs/2406.14154v1

摘要: 在线平台面临着管理不断增加的内容的挑战,其中包括有害的仇恨言论。由于缺乏明确的法律定义,并且算法在内容审核决策中的作用缺乏透明度,因此迫切需要外部问责。我们的研究通过第三方审核系统地评估了四种领先的基于云的内容审核服务,突出了由于过度依赖这些服务而可能出现的针对少数群体和弱势群体的偏见等问题,从而有助于填补这一空白。使用黑盒审计方法和四个基准数据集,我们通过扰动敏感性分析来衡量显式和隐式仇恨言论检测的性能以及反事实公平性,并呈现某些目标身份群体和数据集的性能差异。我们的分析表明,所有服务都难以检测隐含的仇恨言论,这些言论依赖于更微妙和编码的信息。此外,我们的结果表明需要消除特定群体的偏见。似乎对某些群体(例如女性)的偏见已大部分得到纠正,而对其他群体(例如 LGBTQ+ 和 PoC)的偏见仍然存在。

我们是云:城市媒体艺术中的互动与参与的融合

分类: 人机交互, 计算机与社会, H.5; J.5

作者: Varvara Guljajeva, Mar Canet Sola

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13883v1

摘要: 自 2000 年代初以来,文化机构在重塑公共空间、促进社区参与和培育艺术创新方面发挥了重要作用。这些举措的核心是观众互动和参与概念,但它们在城市媒体艺术中的定义和应用仍然模糊。本文致力于揭开这些术语的神秘面纱,探讨城市环境中互动和参与性艺术的独特特征和交叉点。特别强调协调这两种元素的艺术品,探索这种综合的动机和结果。 《我们是云》的案例研究作为焦点,例证了互动和参与的战略整合如何增强社区联系并重振公共空间。通过这一分析,本文强调了城市媒体艺术品在重新定义邻里体验、赋予当地声音和振兴公共领域本质方面的变革力量。

AltGeoViz:促进无障碍地理可视化

分类: 人机交互

作者: Chu Li, Rock Yuren Pang, Ather Sharif, Arnavi Chheda-Kothary, Jeffrey Heer, Jon E. Froehlich

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13853v1

摘要: 地理可视化是探索性空间分析的强大工具,使视力正常的用户能够辨别地理数据中的模式、趋势和关系。然而,屏幕阅读器用户基本上仍然无法访问这些视觉工具。我们推出 AltGeoViz,这是我们设计的一个新系统,旨在促进这些用户的地理可视化探索。 AltGeoViz 根据用户当前的地图视图动态生成替代文本描述,提供空间模式和描述性统计的摘要。在对五名屏幕阅读器用户的研究中,我们发现 AltGeoViz 使他们能够以以前不可行的方式与地理可视化进行交互。参与者表现出对数据摘要及其位置背景的清晰理解,并且他们可以综合他们的探索的空间理解。此外,我们还确定了需要改进的关键领域,例如添加直观的空间导航控件和比较分析功能。

对话式人工智能在纠正心理理论和自主偏见方面的功效:比较分析

分类: 计算机与社会, 人机交互, J.3; K.4.2

作者: Marcin Rządeczka, Anna Sterna, Julia Stolińska, Paulina Kaczyńska, Marcin Moskalewicz

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13813v1

摘要: 该研究评估了会话人工智能(CAI)在纠正认知偏差和识别人机交互影响方面的功效,这对于数字心理健康干预措施至关重要。认知偏差(系统性偏离规范思维)会影响心理健康,加剧抑郁和焦虑等状况。治疗性聊天机器人可以使认知行为疗法 (CBT) 更容易获得、更实惠,并提供可扩展的即时支持。该研究采用结构化方法,通过基于临床的虚拟案例场景模拟典型的用户与机器人交互。绩效和情感识别通过两类认知偏差进行评估:心理理论偏差(人工智能的拟人化、对人工智能的过度信任、人工智能的归因)和自主偏差(控制错觉、基本归因错误、公正世界假设)。定性反馈机制与顺序量表一起使用,根据准确性、治疗质量和对 CBT 原则的遵守来量化反应。治疗机器人(Wysa、Youper)和通用大语言模型(GTP 3.5、GTP 4、Gemini Pro)通过脚本化交互进行评估,并由认知科学家和临床心理学家进行双重审查。统计分析显示,在偏差纠正方面,治疗机器人的表现始终优于非治疗机器人,在情感识别方面,治疗机器人在 6 个偏差中有 4 个表现优于非治疗机器人。数据表明,非治疗性聊天机器人在解决一些认知偏差方面更有效。

针织花样的图形模型和布局算法

分类: 人机交互

作者: Kathryn Gray, Brian Bell, Stephen Kobourov

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13800v1

摘要: 针织是一种古老的纤维艺术,它创造出由线圈或针迹组成的结构化织物。发布手工编织图案需要漫长的测试周期和众多的编织者。使用图表对针织图案进行建模有助于加快错误检测和图案验证。在本文中,我们描述了如何将简单的针织图案建模为平面图。然后,我们设计、实现和评估布局算法以可视化针织图案。针织图案对应于具有预先指定的边缘长度(例如,均匀长度、两个长度等)的图形。这产生了一个自然的图布局优化问题:实现具有预先指定的边长度的平面图,同时确保没有边交叉。我们使用不同尺寸的真实针织图案与其他三种图案来定量评估我们的算法;一种是为针织图案而创建的,一种是保持平面度并优化边缘长度的,以及一种流行的力导向算法。

探索使用生理传感器数据预测认知负荷的最佳时间窗口

分类: 人机交互

作者: Minghao Cai, Carrie Demmans Epp

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13793v1

摘要: 学习分析已开始使用生理信号,因为这些信号与学习者的认知和情感状态相关。当通过机器学习技术解释这些信号时,可以对学生学习经历和过程的时间动态进行细致入微的理解。然而,对于用于分析预测模型中的生理信号的最佳时间窗口缺乏明确的指导。在分析多通道生理传感器数据以预测认知负荷时,我们对不同时间窗口(范围从 60 到 210 秒)进行了实证研究。我们的结果表明人们偏好较长的时间窗口,最佳窗口长度通常超过 90 秒。这些发现挑战了对即时生理反应的传统关注,表明更广泛的时间范围可以提供对认知过程的更全面的理解。此外,最能支持跨分类器预测的时间窗口的变化强调了整合生理测量的复杂性。我们的研究结果为开发教育技术提供了新的见解,这些技术可以更准确地反映和响应复杂学习环境中学习者认知负荷的动态性质。

哪一个变化更多?用于状态变化比较的新颖径向可视化

分类: 人机交互

作者: Shaolun Ruan, Yong Wang, Qiang Guan

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13721v1

摘要: 比较多个数据项的状态变化并确定哪些数据项在各种应用中变化较大是很常见的(例如,不同国家的年度 GDP 增长以及不同地区每天新增的 COVID-19 病例的增长)。分组条形图和斜率图可以可视化多个数据项的状态变化及其初始和最终状态,因此广泛用于状态变化比较。但它们利用隐式条差异或线斜率来指示状态变化,这已被证明对于视觉比较效果较差。当需要比较越来越多的数据项时,这两种可视化都会遇到视觉可扩展性问题。本文通过提出一种称为截距图的新型径向可视化来促进多个状态变化的视觉比较,从而填补了研究空白。它由内轴和外轴组成,并利用内轴截取的线段长度来显式编码状态变化。用户可以交互式地调整内轴,过滤掉自己感兴趣的较大变化,并放大相对相似的状态变化的差异,增强其视觉可扩展性和比较准确性。我们通过两个使用场景、定量指标评估以及精心设计的 50 名参与者的众包用户研究,对截距图与基线方法进行了比较。我们的结果证明了截距图的实用性和有效性。

想象分布状态:可预测的机器人行为如何使用户能够控制学习的策略

分类: 机器人技术, 人工智能, 人机交互

作者: Isaac Sheidlower, Emma Bethel, Douglas Lilly, Reuben M. Aronson, Elaine Schaertl Short

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13711v1

摘要: 至关重要的是,用户必须能够利用机器人的功能,并利用他们对该功能的理解来执行新颖且富有创意的任务。给定一个经过强化学习 (RL) 训练的机器人,用户可能希望利用这种自主性以及他们对机器人行为方式的熟悉程度来与机器人协作。一种技术是用户通过远程操作控制机器人的部分动作空间,从而允许强化学习策略同时控制其余部分。我们将这种类型的共享控制形式化为分区控制(PC)。然而,使用现成的强化学习策略可能无法实现这一点。例如,从策略的角度来看,用户的控制可能会使机器人进入故障状态,导致其意外行动并阻碍用户期望任务的成功。在这项工作中,我们将这个问题形式化,并提出想象的分布外动作(IODA),这是一种初始算法,使用户能够利用他们对机器人行为的期望来完成新任务。我们在真实机器人的用户研究中部署了 IODA,发现 IODA 不仅可以带来更好的任务性能,而且可以提高机器人行为与用户期望之间的一致性。我们还表明,在 PC 中,任务表现与机器人满足用户期望的能力之间存在很强且显着的相关性,这凸显了对 IODA 等方法的需求。代码可在 https://github.com/AABL-Lab/ioda_roman_2024 获取

论 AI 启发的 UI 设计

分类: 人机交互, 人工智能, 软件工程

作者: Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Gérard Dray, Walid Maalej

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13631v1

摘要: 图形用户界面(或简称 UI)是用户与其设备之间交互的主要方式。在本文中,我们讨论了如何使用人工智能 (AI) 来支持应用程序设计人员创建更好、更多样化和更具创意的移动应用程序 UI 的三种主要互补方法。首先,设计者可以提示像GPT这样的大型语言模型(LLM)直接生成和调整一个或多个UI。其次,视觉语言模型(VLM)使设计人员能够有效地搜索大型屏幕截图数据集,例如来自应用程序商店中发布的应用程序。第三种方法是训练专门设计用于生成应用程序 UI 作为鼓舞人心的图像的扩散模型 (DM)。我们讨论一般情况下应如何使用人工智能来激发和协助创意应用程序设计,而不是使其自动化。

驾驶模拟器的系统沉浸感会影响大脑的振荡活动

分类: 人机交互

作者: Nikol Figalová, Jürgen Pichen, Lewis L. Chuang, Martin Baumann, Olga Pollatos

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13570v1

摘要: 提供模拟体验的系统的技术特性是沉浸感的一个关键维度。为了营造临场感并尽可能真实地再现驾驶员的行为,我们需要可靠的驾驶模拟器,让驾驶员高度沉浸其中。这项研究调查了驾驶模拟器的系统沉浸对驾驶有条件自动驾驶车辆时驾驶员大脑活动的影响。 19 名参与者开车大约 40 分钟,同时使用脑电图 (EEG) 记录他们的大脑活动。我们发现系统沉浸对枕骨和顶骨区域有显着影响,主要是在高 Beta 带宽方面。在 Theta、Alpha 和低 Beta 带宽中未发现任何影响。这些发现表明,系统沉浸可能会影响驾驶员的生理唤醒,从而影响他们的认知和情感过程。

标准迷雾的含义:关于标准数据集的知情使用的立场

分类: 机器学习, 人机交互

作者: Tim Cech, Ole Wegen, Daniel Atzberger, Rico Richter, Willy Scheibel, Jürgen Döllner

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13552v1

摘要: 标准数据集经常用于训练和评估机器学习模型。然而,这些数据集假定的标准性导致缺乏对其标签如何匹配相应用例的派生类别的深入讨论。换句话说,数据集的标准性似乎模糊了一致性和适用性,从而阻碍了对机器学习模型的信任。我们建议采用扎根理论和通过可视化进行假设检验作为评估用例、派生类别和标准数据集标签之间匹配的方法。为了展示该方法,我们将其应用于 20 个新闻组数据集和 MNIST 数据集。对于 20 个新闻组数据集,我们证明标签不精确。因此,我们认为机器学习模型既不能学习派生类别的有意义的抽象,也不能从实现高精度中得出结论。对于 MNIST 数据集,我们演示了如何确认标签被很好地定义。我们得出的结论是,数据集标准性的概念意味着用例、派生类别和类标签之间存在匹配,就像 MNIST 数据集的情况一样。我们认为,这对于学习有意义的抽象是必要的,从而提高对机器学习模型的信任。

下一步是什么?探索人工智能生成图像工具在平面设计中的利用、挑战和未来方向

分类: 人机交互, 人工智能

作者: Yuying Tang, Mariana Ciancia, Zhigang Wang, Ze Gao

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13436v1

摘要: 计算机视觉和深度学习等人工智能的最新进展导致了众多生成式人工智能平台的出现,特别是图像生成平台。然而,人工智能生成图像工具在平面设计中的应用尚未得到广泛探索。这项研究对七位不同经验水平的设计师进行了半结构化访谈,以了解他们在图形设计中人工智能生成图像工具的当前使用情况、挑战和未来功能需求。正如我们的研究结果所表明的,人工智能工具可以作为设计中的创意合作伙伴,增强人类创造力,提供战略见解,并促进团队协作和沟通。研究结果为人工智能生成图像工具的未来发展提供了指导性建议,旨在帮助工程师优化这些工具,以更好地满足图形设计师的需求。

调查口语对话理解数据集的低成本大语言模型注释

分类: 人工智能, 计算和语言, 人机交互, 信号处理

作者: Lucas Druart, Valentin Vielzeuf, Yannick Estève

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13269v1

摘要: 在口语面向任务的对话(TOD)系统中,描述用户请求的语义表示的选择是流畅交互的关键。事实上,系统使用这种表示来推理数据库及其领域知识,以选择下一步操作。因此,对话过程取决于该语义表示提供的信息。虽然文本数据集提供了细粒度的语义表示,但口语对话数据集却落后了。本文提供了对口语对话数据集语义表示的自动增强的见解。我们的贡献有三个方面:(1)评估大型语言模型微调的相关性,(2)评估生成的注释捕获的知识,以及(3)突出半自动注释的含义。

MagicItem:消费者元界平台中具有大型语言模型的虚拟对象的动态行为设计

分类: 人机交互

作者: Ryutaro Kurai, Takefumi Hiraki, Yuichi Hiroi, Yutaro Hirao, Monica Perusquia-Hernandez, Hideaki Uchiyama, Kiyoshi Kiyokawa

发布时间: 2024-06-19

链接: http://arxiv.org/abs/2406.13242v1

摘要: 为了在虚拟现实(VR)环境中创造丰富的体验,必须通过编程来定义虚拟对象的行为。然而,在 3D 空间中编程需要广泛的背景知识和编程技能。尽管大型语言模型(LLM)提供了编程支持,但它们仍然主要针对程序员。在元界平台中,许多用户居住在VR空间中,大多数用户不熟悉编程,这使得他们很难轻松地修改VR环境中对象的行为。现有的基于 LLM 的 VR 空间脚本生成方法需要多次冗长的迭代才能实现所需的行为,并且很难集成到 Metaverse 平台的操作中。为了解决这个问题,我们提出了一种工具,可以通过 Cluster 中的自然语言生成 VR 空间中对象的行为,Cluster 是一个拥有庞大用户群的元节平台。通过将LLM与该平台提供的Cluster Script集成,我们使编程经验有限的用户能够在平台内自由定义对象行为。我们还将我们的工具集成到商业元界平台中,并正在与该平台的 63 个普通用户进行在线实验。实验表明,即使没有编程背景的用户也可以成功地为 VR 空间中的对象生成行为,从而形成一个非常令人满意的系统。我们的研究使非程序员能够为元宇宙平台中的虚拟对象设计动态行为,从而为虚拟现实内容创作的民主化做出贡献。

EarDA:迈向准确且数据高效的耳戴式活动传感

分类: 信号处理, 人工智能, 人机交互, 机器学习

作者: Shengzhe Lyu, Yongliang Chen, Di Duan, Renqi Jia, Weitao Xu

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.16943v1

摘要: 在物联网智能传感领域,耳戴式设备具有多模态传感和上下文感知计算智能的能力,在人类活动识别(HAR)领域得到广泛应用。尽管如此,与放置在上半身或下半身的惯性测量单元 (IMU) 传感器捕获的运动不同,从耳戴式设备获得的运动信号显示出幅度和模式的显着变化,特别是在存在动态和不可预测的头部运动的情况下,活动分类面临重大挑战。在这项工作中,我们提出了 EarDA,一种基于对抗性的域适应系统,用于提取不同传感器位置的域无关特征。此外,虽然大多数深度学习方法通​​常依赖于大量标记数据的训练来提供良好的准确性,但所提出的方案可以释放公开的基于智能手机的 IMU 数据集的潜在用途。此外,我们探讨了应用基于过滤器的数据处理方法来减轻头部运动影响的可行性。所提出的系统 EarDA 能够实现更高效、更准确的活动感测。它在 HAR 任务下实现了 88.8% 的准确率,比没有领域自适应的方法显着提高了 43%。这清楚地展示了其在缩小领域差距方面的有效性。

RITA:实时交互式说话化身框架

分类: 计算机视觉和模式识别, 人工智能, 人机交互

作者: Wuxinlin Cheng, Cheng Wan, Yupeng Cao, Sihan Chen

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.13093v1

摘要: RITA 提供了一个基于生成模型的高质量实时交互框架,其设计考虑到了实际应用。我们的框架能够将用户上传的照片转换为可以进行实时对话交互的数字化身。通过利用生成建模的最新进展,我们开发了一个多功能平台,不仅通过动态对话化身增强用户体验,而且还为虚拟现实、在线教育和互动游戏中的应用开辟了新途径。这项工作展示了整合计算机视觉和自然语言处理技术来创建沉浸式和交互式数字角色的潜力,突破了我们与数字内容交互方式的界限。

研究显示刷新率对第一人称射击游戏的影响

分类: 人机交互

作者: Haoshen Qin, Zixian Zhu

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.13027v1

摘要: 对于第一人称射击游戏玩家来说,显示刷新率对于流畅的体验非常重要。多项研究表明,低显示刷新率会降低游戏玩家的体验和性能。然而,人眼对刷新率的感知是有上限的,该上限通常低于玩家支付更高价格的高性能显示器所能提供的上限。这项研究评估了较高的刷新率是否总是对玩家的表现产生积极影响,使他们值得投资高性能显示器。使用商业第一人称射击游戏平台(N = 26)进行组内实验设计研究,以调查玩家在 30Hz、60Hz、120Hz、144Hz 和 240Hz 显示器刷新率下的表现。玩家的表现是根据分数、准确性和玩家的自我评分来评估的。结果表明,显示刷新率仅在 30Hz 时显着影响播放器性能。

夺回人工智能的权力:让酷儿青少年成为预防艾滋病毒的人工智能设计师

分类: 人机交互

作者: William Liem, Andrew Berry, Kathryn Macapagal

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.13018v1

摘要: 在这篇立场文件中,我们探讨了生成式人工智能 (GenAI) 工具在支持 LGBTQ+ 青少年艾滋病毒预防举措方面的潜力。 GenAI 提供了弥合信息差距和增强医疗保健可及性的机会,但它也有可能通过反映异性规范和顺规范价值观的有偏见的人工智能输出而加剧现有的不平等。我们倡导以酷儿青少年为中心的干预措施的重要性,在解决偏见问题的同时,应对 GenAI 工具的承诺,并制定参与框架,以在人工智能工具的设计和开发中赋予酷儿青少年权力。我们将 LGBTQ+ 青少年视为设计师,提出了一种社区参与的方法,让一群具有性健康教育专业知识的酷儿青少年能够设计自己的 GenAI 健康工具。通过这种协作努力,我们提出了参与式方法来开发流程,最大限度地减少有偏见的人工智能模型的潜在医源性危害,同时利用人工智能为 LGBTQ+ 青少年带来的好处。在本次研讨会中,我们提供专业的社区参与知识,以设计公平的人工智能工具来改善 LGBTQ+ 的福祉。

正如广告所言?了解影响者 VPN 广告的影响

分类: 密码学和安全, 人机交互

作者: Omer Akgul, Richard Roberts, Emma Shroyer, Dave Levin, Michelle L. Mazurek

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.13017v1

摘要: YouTube 上有影响力的 VPN 广告(赞助片段)经常传播有关 VPN 以及更广泛的安全和隐私的误导性信息。然而,目前尚不清楚这些广告如何(或是否)影响用户对 VPN 的看法和知识。在这项工作中,我们探讨了 YouTube VPN 广告曝光与用户对 VPN、安全和隐私的心理模型之间的关系。我们使用新颖的 VPN 广告检测模型,通过 217 名参与者的 YouTube 观看历史记录来计算他们的广告曝光率,并开发了量表来描述他们与 VPN 广告中常见声明相关的心理模型。通过(预先注册的)基于回归的分析,我们发现 VPN 广告的曝光与对 VPN 品牌的熟悉程度以及对(双曲线)威胁的信心增加显着相关。虽然这些威胁并非特定于 VPN,但 VPN 广告中经常讨论这些威胁。相比之下,尽管许多参与者都同意广告中经常出现的 VPN 的事实和误导性心理模型,但我们发现 VPN 广告的曝光与这些心理模型之间没有显着相关性。这些发现表明,如果 VPN 广告确实影响心理模型,那么它主要是情感性的(即威胁感知)而不是技术性的。

“很多移动部件”:Thingiverse 社区中开源硬件设计协作的案例研究

分类: 人机交互

作者: Kathy Cheng, Shurui Zhou, Alison Olechowski

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12801v1

摘要: 开源是一种分散和协作的开发方法,鼓励广泛且不确定的个人网络的开放贡献。虽然开源模型通常与软件开发 (OSS) 相关,但它扩展到硬件开发,形成开源硬件开发 (OSH) 的基础。与 OSS 相比,OSH 相对新生,缺乏现有平台的足够工具支持和高效协作的最佳实践。为了改善 OSH 协作,我们采取了必要的步骤,我们对 DrawBot 进行了详细的案例研究,这是一个成功的 OSH 项目,显着促进了 Thingiverse 上的长期合作——Thingiverse 是一个并未明确用于复杂协作设计的平台。通过分析项目过程中的评论线索和设计变更,我们发现了协作是如何发生的、面临的挑战以及 DrawBot 社区如何克服这些障碍。除了提供协作实践和挑战的详细说明之外,我们的工作还分别为 OSH 项目维护者、平台构建者和研究人员提供最佳实践、设计意义和实际意义。凭借这些见解和我们公开的数据集,我们的目标是在职业安全与健康项目中促进更有效和高效的协作设计。

使用大语言模型生成具有不同可读性级别的教育材料

分类: 计算和语言, 人机交互

作者: Chieh-Yang Huang, Jing Wei, Ting-Hao 'Kenneth' Huang

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12787v1

摘要: 本研究引入了分级文本生成任务,旨在将教育材料重写到特定的可读性水平,同时保留含义。我们评估了 GPT-3.5、LLaMA-2 70B 和 Mixtral 8x7B 通过零样本和少样本提示生成各种可读级别内容的能力。对 100 个经过处理的教育材料的评估表明,少量提示显着提高了可读性操作和信息保存的性能。 LLaMA-2 70B 在达到所需的难度范围方面表现更好,而 GPT-3.5 则保持了原来的含义。然而,手动检查凸显了错误信息引入和编辑分布不一致等问题。这些发现强调需要进一步研究以确保生成的教育内容的质量。

根据实验数据对越野行走中的无监督可解释活动进行预测

分类: 机器学习, 人工智能, 人机交互

作者: Silvia García-Méndez, Francisco de Arriba-Pérez, Francisco J. González-Castaño, Javier Vales-Alonso

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12762v1

摘要: 人工智能 (AI) 已在竞技体育中的人类活动识别 (HAR) 中得到应用。迄今为止,大多数 HAR 机器学习 (ML) 方法都依赖于离线(批量)训练,与在线处理无监督方法相比,这会带来更高的计算和标记负担。此外,传统机器学习预测器背后的决策是不透明的,需要人工解释。在这项工作中,我们应用了基于低成本可穿戴惯性测量单元(IMU)的在线处理无监督聚类方法。系统生成的结果允许自动扩展这些集群内可用的有限标记(例如,通过裁判),为可解释的分类阶段生成相关信息。具体来说,我们的工作重点是实现与运动员活动相关的预测的自动解释性,区分越野行走中的正确、不正确和作弊行为。所提出的解决方案平均实现了接近 100% 的性能指标。

MAGIC:为上下文文本到 SQL 生成自我更正指南

分类: 计算和语言, 人工智能, 数据库, 人机交互

作者: Arian Askari, Christian Poelitz, Xinye Tang

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12692v1

摘要: 文本到 SQL 中的自我更正是提示大型语言模型 (LLM) 修改其先前错误生成的 SQL 的过程,并且通常依赖于人类专家手动制定的自我更正指南,这些指南的生成不仅需要大量劳动力但也受到人类识别大语言模型回答中所有潜在错误模式的能力的限制。我们引入了 MAGIC,一种新颖的多代理方法,可以自动创建自我校正指南。 MAGIC 使用三个专门代理:管理器、校正代理和反馈代理。这些代理在训练集上针对基于 LLM 的方法的失败进行协作,以迭代地生成和完善针对 LLM 错误的自我纠正指南,反映人类流程,但无需人工参与。我们大量的实验表明,MAGIC 的指南优于人类专家创建的指南。我们凭经验发现,MAGIC 制定的指南增强了更正的可解释性,为分析大语言模型自我更正失败和成功背后的原因提供了见解。我们向研究社区公开提供所有代理交互,以促进该领域的进一步研究,为未来探索自动自我校正指南生成提供综合数据集。

模式还是神器?使用 TRACE 交互式探索嵌入质量

分类: 图形, 人机交互, 机器学习

作者: Edith Heiter, Liesbet Martens, Ruth Seurinck, Martin Guilliams, Tijl De Bie, Yvan Saeys, Jefrey Lijffijt

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12953v1

摘要: 本文介绍了 TRACE,这是一种分析通过降维技术生成的 2D 嵌入质量的工具。降维方法通常优先考虑保留局部邻域或全局距离,但如果目标没有统一实现,来自视觉结构的见解可能会产生误导。 TRACE 通过提供可扩展且可扩展的管道来计算本地和全球质量度量来应对这一挑战。基于浏览器的交互式界面允许用户探索各种嵌入,同时直观地评估逐点嵌入质量。该界面还通过突出显示任何一组点的高维最近邻并显示点之间的高维距离来促进深入分析。 TRACE 通过显示降维空间中结构保留的程度和位置,使分析师能够就最适合其特定用例的降维方法做出明智的决策。

通过超声机器人的具体智能改变手术干预

分类: 机器人技术, 人工智能, 计算和语言, 人机交互

作者: Huan Xu, Jinlin Wu, Guanglin Cao, Zhen Chen, Zhen Lei, Hongbin Liu

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12651v1

摘要: 超声检查彻底改变了非侵入性诊断方法,显着提高了各个医学领域的患者治疗效果。尽管取得了进步,但将超声波技术与机器人系统集成以进行自动扫描仍面临挑战,包括有限的命令理解和动态执行能力。为了应对这些挑战,本文介绍了一种新颖的超声体现智能系统,该系统将超声机器人与大语言模型(LLM)和特定领域的知识增强相结合,增强超声机器人的智能和操作效率。我们的方法采用双重策略:首先,将大语言模型与超声机器人相结合,通过对超声领域知识(包括API和操作手册)的全面理解,将医生的口头指令解释为精确的运动规划;其次,结合动态执行机制,允许根据患者移动或程序错误实时调整扫描计划。我们通过广泛的实验证明了我们系统的有效性,包括消融研究和各种模型的比较,展示了通过口头命令执行医疗程序的显着改进。我们的研究结果表明,所提出的系统提高了超声扫描的效率和质量,并为自主医疗扫描技术的进一步发展铺平了道路,有可能改变非侵入性诊断并简化医疗工作流程。

通过音乐广告游戏增强消费者的用户体验、教育和品牌意识

分类: 人机交互

作者: Forouzan Farzinnejad, Hadi Khezrian, Mohsen Kasiri, Nilufar Baghaei

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12598v1

摘要: 近年来,传统沟通技术的有效性已经下降,营销专家正在寻找更具创意的方式来吸引消费者。广告游戏最近受到了很多关注,它被视为一种有吸引力的新营销工具,可以提高消费者参与度和品牌意识教育。广告游戏一词是指将品牌广告与游戏相结合以推广商业产品的游戏。在本文中,我们研究了音乐对消费者接受广告游戏的影响 (n=197)。我们的结果表明,广告游戏中的音乐是一个重要特征,因为它能够吸引观众、增强用户体验并提高品牌知名度。

将表征手势集成到自动生成的具体解释中及其对理解和交互质量的影响

分类: 人机交互, 计算机视觉和模式识别, 图形, 声音, 音频和语音处理

作者: Amelie Sophie Robrecht, Hendric Voss, Lisa Gottschalk, Stefan Kopp

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12544v1

摘要: 在人机交互中,手势具有多种功能,例如标记语音节奏、突出关键元素、补充信息等。这些手势也可以在解释性上下文中观察到。然而,手势对虚拟代理提供的解释的影响仍未得到充分研究。进行了一项用户研究,以调查不同类型的手势如何影响感知的交互质量和听众的理解。本研究通过开发一种集成节拍手势和标志性​​手势的具体虚拟解释器来解决手势在解释中的影响,以增强其自动生成的口头解释。我们的模型将学习的语音驱动合成模块生成的节拍手势与手动捕获的标志性手势相结合,支持代理关于棋盘游戏 Quarto 的口头表达!作为解释场景。研究结果表明,无论是单独使用标志性手势还是将其与节拍手势相结合,在理解方面都无法优于基线或仅节拍条件。尽管如此,与之前的研究相比,实体代理显着增强了理解。

具有可视化功能的深度自监督学习,用于自动手势识别

分类: 计算机视觉和模式识别, 人机交互

作者: Fabien Allemand, Alessio Mazzela, Jun Villette, Decky Aspandi, Titus Zaharia

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12440v1

摘要: 手势是非语言交流的重要手段,通过视觉方式让人类在交互过程中传递信息,方便人与人的交互。然而,自动识别手势被认为是困难的。在这项工作中,我们探索了使用深度学习识别手势的三种不同方法:基于监督学习的方法、自监督方法和应用于 3D 移动骨架数据的基于可视化的技术。自监督学习用于训练全连接、CNN 和 LSTM 方法。然后,使用 CNN 作为主干,将重建方法应用于模拟设置中的未标记数据,其中我们使用学习到的特征在剩余标记数据中执行预测。最后,应用Grad-CAM来发现模型的焦点。我们的实验结果表明,监督学习方法能够准确识别手势,自监督学习提高了模拟设置的准确性。最后,Grad-CAM 可视化表明,模型确实关注相关手势上的相关骨骼关节。

生成人工智能引导的用户研究:空中出租车服务的应用

分类: 人机交互, 人工智能

作者: Shengdi Xiao, Jingjing Li, Tatsuki Fushimi, Yoichi Ochiai

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12296v1

摘要: 用户研究对于满足用户需求至关重要。在用户研究中,构建并招募真实的实验场景和参与者。然而,新兴的和不熟悉的研究面临着局限性,包括安全问题和迭代效率。为了应对这些挑战,本研究利用大型语言模型 (LLM) 来创建生成式 AI 虚拟场景,以提供用户体验。通过招募真实用户来评估这种体验,我们可以收集反馈,从而在早期设计阶段实现快速迭代。空中出租车特别代表了这些挑战,并被选为本研究的案例研究。关键贡献是使用 OpenAI 的 GPT-4 模型和 AI 图像和视频生成器设计虚拟 ATJ。根据大语言模型生成的脚本,为空中出租车创建了关键视觉效果,并由 72 名参与者对 ATJ 进行了评估。此外,大语言模型展示了识别和建议显着改善参与者对空中出租车态度的环境的能力。教育水平和性别显着影响参与者的态度及其对 ATJ 的满意度。我们的研究证实了生成式人工智能支持用户研究的能力,为早期设计阶段的空中出租车用户体验设计提供了可行的方法和宝贵的见解。

基于霍普菲尔德观点的思想链推理解释

分类: 计算和语言, 人工智能, 人机交互, 机器学习

作者: Lijie Hu, Liang Liu, Shu Yang, Xin Chen, Hongru Xiao, Mengdi Li, Pan Zhou, Muhammad Asif Ali, Di Wang

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12255v1

摘要: 思想链 (CoT) 在增强大型语言模型 (LLM) 的推理性能方面占有重要地位。虽然一些研究侧重于通过检索增强等方法提高 CoT 准确性,但对于 CoT 为何取得如此成功的严格解释仍不清楚。在本文中,我们通过提出以下问题来分析两种不同设置下的 CoT 方法:(1)对于零样本 CoT,为什么提示模型“让我们一步一步思考”会显着影响其输出? (2)对于few-shot CoT,为什么在质疑模型之前提供例子可以显着提高其推理能力?为了回答这些问题,我们从 Hopfieldian 角度进行了自上而下的可解释分析,并提出了一种读取和控制方法来控制 CoT 的准确性。通过对三个不同任务的七个数据集进行大量实验,我们证明我们的框架可以破译 CoT 的内部工作原理,提供推理错误定位,并控制得出正确的推理路径。

在复杂的城市交通场景中设计与共享自动驾驶的交互

分类: 人机交互

作者: Marius Hoggenmueller, Martin Tomitsch, Stewart Worrall

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12181v1

摘要: 在本文中,我们报告了真实自动驾驶车辆 (AV) 的外部人机界面 (eHMI) 的设计和评估,该车辆被开发为在步行城市空间中作为共享交通舱运行。我们提出了有关以人为本的设计流程的见解,其中包括通过有形的工具包测试初始概念,以及评估虚拟现实中分阶段接送场景的 360 度记录。我们的结果表明,在复杂的移动场景中,参与者会过滤关键的 eHMI 消息;此外,我们发现隐含的线索(即上车操作和与骑手的距离)会影响参与者的体验和信任,同时需要更明确的交互模式。这凸显了更全面地考虑与共享自动驾驶汽车的交互作为一种服务的重要性,以便开发有关复杂移动场景中自动驾驶汽车与行人交互的知识,以补充更有针对性的 eHMI 评估。

了解社交媒体上针对基于图像的性虐待的寻求帮助和提供帮助

分类: 计算机与社会, 密码学和安全, 人机交互, 社交和信息网络, K.4.2; H.4.3; J.4

作者: Miranda Wei, Sunny Consolvo, Patrick Gage Kelley, Tadayoshi Kohno, Tara Matthews, Sarah Meiklejohn, Franziska Roesner, Renee Shelby, Kurt Thomas, Rebecca Umbach

发布时间: 2024-06-18

链接: http://arxiv.org/abs/2406.12161v1

摘要: 基于图像的性虐待 (IBSA) 与其他形式的技术促成的虐待一样,对人们的数字安全构成越来越大的威胁。攻击包括不必要地索取露骨色情图片、以泄露图片为威胁勒索他人,或故意泄露图片以实施报复或施加控制。在本文中,我们探讨了人们如何在社交媒体上寻求和接受 IBSA 帮助。具体来说,我们确定了超过 100,000 个 Reddit 帖子,这些帖子吸引了关系和建议社区来寻求与 IBSA 相关的帮助。我们利用 261 个帖子的分层样本来定性研究各种类型的 IBSA 是如何展开的,包括性别、关系动态和技术参与与不同类型 IBSA 的映射。我们还探讨了经历 IBSA 的受害者幸存者的支持需求,以及社区如何通过技术、情感和关系建议帮助受害者幸存者应对虐待。最后,我们强调在将受害者和幸存者与重要护理联系起来方面存在社会技术差距,无论他们向谁寻求帮助。

PyGWalker:探索性可视化数据分析的即时助手

分类: 人机交互

作者: Yue Yu, Leixian Shen, Fei Long, Huamin Qu, Hao Chen

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11637v1

摘要: 探索性可视化数据分析工具使数据分析师能够在整个分析周期中高效、直观地探索数据洞察。然而,常见的程序分析(例如,在计算笔记本内)和探索性视觉分析之间的差距导致了脱节且低效的数据分析体验。为了弥补这一差距,我们开发了 PyGWalker,这是一个 Python 库,可为探索性可视化数据分析提供即时帮助。它具有轻量级、直观的 GUI 和货架构建器模式。其松散耦合的架构支持多种计算环境以适应不同的数据大小。自 2023 年 2 月发布以来,PyGWalker 受到了广泛关注,截至 2024 年 6 月,PyPI 上的下载量为 61.2 万,GitHub 上的星星数超过 10,500。这证明了它对数据科学和可视化社区的价值,研究人员和开发人员将其集成到他们的项目中。自己的应用和研究。

ESI-GAL:基于脑电图源成像的抓取和举升任务的运动学参数估计

分类: 信号处理, 人机交互

作者: Anant Jain, Lalan Kumar

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11500v2

摘要: 目的:基于脑电图 (EEG) 信号的运动运动学预测 (MKP) 一直是开发脑机接口 (BCI) 系统(例如外装、假肢和康复设备)的活跃研究领域。然而,文献中很少探讨基于脑电图源成像(ESI)的运动学预测。方法:在本研究中,利用运动前脑电图特征来预测抓取和举起运动任务的三维 (3D) 手部运动学。公共数据集 WAY-EEG-GAL 用于 MKP 分析。特别是,针对 MKP 探索了来自额顶叶区域的基于传感器域(EEG 数据)和源域(ESI 数据)的特征。探索基于深度学习的模型以实现高效的运动学解码。分析各种时间滞后和窗口大小以进行手部运动学预测。随后,进行受试者内和受试者间 MKP 分析,以研究神经解码器的受试者特定和受试者独立的运动学习能力。皮尔逊相关系数 (PCC) 用作运动学轨迹解码的性能指标。主要结果:rEEGNet 神经解码器在传感器域和源域特征上实现了最佳性能,时滞和窗口大小分别为 100 ms 和 450 ms。使用传感器域特征实现最高平均 PCC 值 0.790、0.795 和 0.637,而使用 x、y 和 z 方向的源域特征分别实现 0.769、0.777 和 0.647。意义:本研究探讨了使用脑电图传感器域和源域脑电图特征进行抓取和举升任务轨迹预测的可行性。此外,使用所提出的具有脑电图源域特征的深度学习解码器来执行主体间轨迹估计。

GUI 课程:从通用视觉语言模型到多功能 GUI 代理

分类: 人工智能, 计算和语言, 计算机视觉和模式识别, 人机交互

作者: Wentong Chen, Junbo Cui, Jinyi Hu, Yujia Qin, Junjie Fang, Yue Zhao, Chongyi Wang, Jun Liu, Guirong Chen, Yupeng Huo, Yuan Yao, Yankai Lin, Zhiyuan Liu, Maosong Sun

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11317v1

摘要: 利用图形用户界面 (GUI) 进行人机交互对于访问各种数字工具至关重要。视觉语言模型 (VLM) 的最新进展凸显了开发多功能代理来帮助人类完成 GUI 导航任务的巨大潜力。然而,当前的VLM在基础能力(OCR和基础)和GUI知识(GUI元素的功能和控制方法)方面受到挑战,阻碍了它们成为实用的GUI代理。为了解决这些挑战,我们贡献了 GUICourse,这是一套数据集,用于从通用 VLM 中训练基于视觉的 GUI 代理。首先,我们引入GUIEnv数据集来增强VLM的OCR和接地能力。然后,我们介绍 GUIAct 和 GUIChat 数据集,以丰富他们对 GUI 组件和交互的知识。实验表明,我们的 GUI 代理在常见 GUI 任务上比其基准 VLM 具有更好的性能。即使是小型 GUI 代理(具有 3.1B 参数)仍然可以很好地执行单步和多步 GUI 任务。最后,我们通过消融研究来分析该智能体训练阶段的不同品种。我们的源代码和数据集发布在 https://github.com/yiye3/GUICourse。

拓展基于计算机视觉的群舞练习交互系统的设计空间

分类: 人机交互

作者: Soohwan Lee, Seoyeong Hwang, Ian Oakley, Kyungho Lee

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11236v1

摘要: 集体舞是一种以一群表演者紧密同步地做出复杂动作为特征的子流派,有着悠久的历史和重要的文化历史,并且以啦啦操等现代形式,拥有广泛的追随者基础。然而,尽管团体舞很受欢迎,但学习团体舞仍然具有挑战性。基于先前支持个人舞蹈学习的互动系统的成功,本文认为集体舞蹈环境是互动辅助工具增强的沃土。为了更好地理解这些设计机会,本文提出了一系列以用户为中心的业余啦啦队研究,涵盖从形成阶段(访谈、观察)到生成阶段(构思研讨会)到概念验证(技术探索和快速约会) )。结果是对团体舞蹈学习的生活实践的细致入微的理解,一套支持这些实践的互动概念,以及从验证所提出的概念中得出的设计方向。通过这项实证工作,我们将交互式舞蹈练习系统的设计空间从已建立的单用户练习环境(主要关注手势识别)扩展到注重反馈和沟通的多用户、基于群体的场景。

为技术落后地区或资源匮乏社区的妇女设计技术解决方案的初步研究回顾

分类: 计算机与社会, 人机交互

作者: Jones Yeboah, Sophia Bampoh, Annu Sible Prabhakar

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11186v1

摘要: 在西非国家加纳,抑郁症是影响大量女性的一个重大问题。尽管这个问题很重要,但在 COVID-19 大流行期间却没有引起足够的重视。在发达国家,移动电话是获取健康信息和获取医疗服务提供者的便捷媒介。然而,在加纳,妇女使用手机的机会受到文化、社会和经济限制,阻碍了她们寻求心理健康信息和支持的能力。虽然贫困地区的一些女性可以买得起功能手机,例如诺基亚 3310,但智能手机先进功能的缺乏进一步限制了她们获取必要的健康信息。本文回顾了非结构化补充服务数据 (USSD) 技术应对这些挑战的潜力。与短信服务 (SMS) 不同,USSD 可以促进数据收集、复杂交易并提供信息访问,而无需互联网连接。本研究建议研究如何利用 USSD 来改善加纳资源匮乏的妇女获得心理健康资源的机会。

基于深度卷积神经网络的人体活动识别的最佳信号持续时间

分类: 人机交互

作者: Farhad Nazari, Arian Shajari, Darius Nahavandi, Navid Mohajer

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11164v1

摘要: 人类活动识别 (HAR) 是模式识别中的一项关键技术,致力于利用一个或多个感官输入来破译人类的运动和动作。其重要性涵盖多种应用,包括监控、安全协议和人机交互技术的开发。然而,HAR 领域的主流研究经常忽视以人为本的设备的集成,其中与其他应用相比,不同的参数和标准具有不同程度的重要性。值得注意的是,在这个领域内,缩短传感器观察时间对于保障外骨骼和假肢的效率至关重要。这项研究开始使用惯性测量单元 (IMU) 传感器优化专门为 HAR 定制的观测周期。采用深度卷积神经网络 (DCNN),目的是根据持续时间为 0.1 到 4 秒的 IMU 信号片段来识别活动。有趣的是,结果显示最佳观察持续时间为 0.5 秒,分类准确率高达 99.95%,令人印象深刻。这一发现具有巨大的意义,阐明了 HAR 内精确时间分析的重要性,特别是对于以人为中心的设备。这些发现不仅增强了我们对最佳观察期的理解,而且还为改进对于帮助人类移动和功能至关重要的设备的性能和功效奠定了基础。

设计与自主物理系统的交互

分类: 人机交互

作者: Marius Hoggenmueller, Tram Thi Minh Tran, Luke Hespanhol, Martin Tomitsch

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11146v1

摘要: 在这篇立场文件中,我们提出了四种不同的原型设计方法的集合,我们开发并应用这些方法来原型设计和评估自主物理系统的接口和交互。此外,我们对我们的方法进行了分类,旨在支持其他研究人员和设计师选择合适的原型平台和表示形式。

家庭日常事务中的机器人:家庭机器人日常事务清单的开发和初步见解

分类: 机器人技术, 人机交互

作者: Michael F. Xu, Bengisu Cagiltay, Joseph Michaelis, Sarah Sebo, Bilge Mutlu

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11136v1

摘要: 尽管在机器人个性化等领域取得了进步,但在家庭中长期使用机器人仍然是一个挑战。最近的研究发现,将机器人融入家庭的日常生活和仪式是支持长期采用的一种有前途的方法。然而,很少有研究探索将机器人融入家庭日常生活,并且在捕捉家庭对机器人集成的偏好的系统措施方面存在差距。在现有常规清单的基础上,我们开发了家庭机器人日常清单(FRRI),其中包含 24 个家庭常规项目和 24 个儿童常规项目,以了解家长对将机器人技术融入家庭常规的态度和期望。使用此清单,我们通过在线调查收集了 150 名家长的数据。我们的分析表明,父母对于将机器人融入日常生活的效用有不同的看法。例如,父母发现机器人集成对孩子的个人日常生活比对家庭的集体日常生活更有帮助。我们讨论了这些初步研究结果的设计含义,以及它们如何作为理解设计和集成家庭家用机器人的各种挑战和需求的第一步。

理解参与心理健康对话的情绪

分类: 人机交互, 人工智能, H.5.2; I.2.7

作者: Kellie Yu Hui Sim, Kohleen Tijing Fortuno, Kenny Tsu Wei Choo

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11135v1

摘要: 提供及时的支持和干预对于心理健康环境至关重要。随着让年轻人习惯发短信的需求增加,心理健康服务提供者正在探索和采用基于文本的媒体,例如聊天机器人、基于社区的论坛、由有执照的专业人员提供的在线治疗以及由训练有素的响应人员操作的帮助热线。为了支持这些基于文本的媒体用于心理健康——特别是危机护理——我们正在开发一种系统,结合击键动力学和情绪分析来执行被动情绪感知。我们对该系统的早期研究表明,对短文本消息和键盘打字模式的分析可以提供可用于支持客户和响应者的情感信息。我们利用初步研究结果来讨论应用人工智能支持心理健康服务提供者提供更好护理的前进方向。

通过带注释的作品集引出 RTD 研究的新视角:机器人制品的案例研究

分类: 人机交互

作者: Marius Hoggenmuller, Wen-Ying Lee, Luke Hespanhol, Malte Jung, Martin Tomitsch

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11133v1

摘要: 在本文中,我们研究了如何通过带注释的作品集在研究设计(RtD)研究中引发新的观点。考虑到人机交互 (HRI) 中的使用情况,我们使用两个机器人制品作为案例研究:我们首先创建了自己的带注释的作品集,随后举办了在线研讨会,期间我们要求 HRI 专家对我们的机器人制品进行注释。我们通过自己使用带注释的组合技术与与专家一起使用来报告机器人制品的价值、用途和进一步改进的不同方面。我们建议,带注释的作品集——当由外部专家执行时——允许设计研究人员获得一种创造性和生成性的同行批评。我们的论文提供了进行专家注释会议的方法论考虑。此外,我们讨论了使用带注释的组合来揭示 RtD 研究中精心设计的 HRI 知识。

对话代理作为批判性思维的催化剂:挑战群体设计中的设计固定

分类: 人机交互

作者: Soohwan Lee, Seoyeong Hwang, Kyungho Lee

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11125v1

摘要: 本文研究了基于大语言模型的对话代理(CA)在增强关键反思和减轻小组设计工作中的设计固定方面的潜力。通过挑战人工智能生成的建议和普遍的群体意见,这些代理解决了群体思维等问题,并促进更加动态和包容的设计过程。关键的设计考虑因素包括优化干预时机、确保反驳的清晰度以及平衡批判性思维与设计者的满意度。 CA 还可以适应各种角色,支持个人和集体反思。我们的工作与“设计研究员之死?”是一致的。研讨会的目标,强调生成人工智能在重塑设计实践和促进道德考虑方面的变革潜力。通过探索生成式人工智能在群体设计环境中的创新应用,我们的目标是激发讨论并为未来的研究和开发开辟新的途径,最终为设计研究人员提供实用的工具和资源。

以政策和实践为中心:围绕可用差异隐私的研究差距

分类: 密码学和安全, 计算机与社会, 人机交互

作者: Rachel Cummings, Jayshree Sarathy

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.12103v1

摘要: 作为一个积累了丰富理论文献的严格数学框架,差分隐私被许多专家认为是隐私保护数据分析的黄金标准。其他人则认为,虽然差异隐私在理论上是一个干净的表述,但它在实践中提出了重大挑战。我们认为,这两种观点都是有效且重要的。为了弥合差异隐私的承诺与其现实世界可用性之间的差距,研究人员和从业者必须共同努力推进这项技术的政策和实践。在本文中,我们概述了构建可用差异隐私的紧迫开放问题,并为该领域提供了建议,例如开发符合用户需求的风险框架、为不同利益相关者定制通信、对隐私丢失参数的影响进行建模、投资于有效的用户界面,并促进差异隐私系统的算法和程序审核。

用于机器人神经康复训练的社交互动代理:概念化和概念验证研究

分类: 人机交互, 人工智能

作者: Rhythm Arora, Pooja Prajod, Matteo Lavit Nicora, Daniele Panzeri, Giovanni Tauro, Rocco Vertechy, Matteo Malosio, Elisabeth André, Patrick Gebhard

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.12035v1

摘要: 具有不同运动能力的个体通常受益于旨在增强其功能恢复的强化和专门的康复治疗。然而,挑战在于神经康复专业人员的数量有限,阻碍了有效提供必要水平的护理。机器人设备在减少治疗过程中对医务人员的依赖方面具有巨大潜力,但与此同时,它们通常缺乏传统面对面治疗所提供的关键的人际互动和动力。为了弥补这一差距,我们引入了一个基于人工智能的系统,旨在在神经康复训练期间提供个性化的院外援助。该系统包括康复训练设备、情感信号分类模型、训练练习和作为用户界面的社交互动代理。在专业人员的帮助下,设想的系统经过专门设计,可以满足个别患者独特的康复需求。从概念上讲,经过初步设置和指导阶段后,患者可以在舒适的家中自主继续康复治疗,并由充当虚拟教练助理的社交互动代理提供帮助。我们的方法涉及将交互式社交感知虚拟代理集成到神经康复机器人框架中,其主要目标是重新创建面对面康复课程固有的社交方面。我们还进行了一项可行性研究,以健康患者测试该框架。我们的初步调查结果表明,参与者表现出了适应该系统的倾向。值得注意的是,在拟议的练习中,交互代理的存在并不会成为分散注意力的来源;相反,它对用户的参与度产生了积极的影响。

权宜之计和随之而来的误解:设想一种可操作的相互心理理论

分类: 人机交互

作者: Justin D. Weisz, Michael Muller, Arielle Goldberg, Dario Andres Silva Moran

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11946v1

摘要: 设计虚构让我们能够构建未来的原型。它们使我们能够质疑新兴或不存在的技术并检查其影响。我们提出了三种设计假设,探讨了在人类用户和一个(或多个)人工智能代理之间实施相互心理理论(MToM)的潜在后果。我们利用这些虚构故事来探索 MToM 的许多方面,包括如何通过交互塑造对方的模型、这些模型之间的差异如何导致故障,以及人类知识和技能的模型如何使人工智能代理能够代替他们采取行动。我们通过两个视角来审视这些方面:一个乌托邦视角,其中 MToM 增强了人与人之间的互动并导致人与人工智能的协同协作;另一个反乌托邦视角,其中错误或错位的 MToM 会导致有问题的结果。我们的工作为以人为本的 MToM 研究提供了一个理想的愿景,同时警告了实施不正确的后果。

对机器人和心理人类相似性的民间本体论立场

分类: 机器人技术, 人机交互

作者: Edoardo Datteri

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11759v1

摘要: 人们经常争论,人们可以将心理状态归因于机器人,而不对这些状态的现实做出任何本体论承诺。但是,将精神状态“归因于”机器人意味着什么,什么是“本体论承诺”?有人认为,根据对这两个概念的合理解释,尚不清楚在没有任何本体论承诺的情况下心理状态归因如何发生。从科学实在论的哲学辩论中汲取灵感,还将确定对机器人的民间本体论立场的临时分类,对应于理解机器人思维的不同方式。它们包括现实主义、非现实主义、取消主义、还原主义、虚构主义和不可知论。工具主义也将作为一种民间认识论立场进行讨论和呈现。在文章的最后部分,我们将讨论人们对机器人和人类的民间本体论立场会影响他们对机器人与人类的相似性的看法。这里进行的分析可以被视为鼓励人机交互研究的“民间本体论转向”,旨在明确确定人们对机器人思维现实的信念。

STAR:红队语言模型的社会技术方法

分类: 人工智能, 计算和语言, 计算机与社会, 人机交互

作者: Laura Weidinger, John Mellor, Bernat Guillen Pegueroles, Nahema Marchal, Ravin Kumar, Kristian Lum, Canfer Akbulut, Mark Diaz, Stevie Bergman, Mikel Rodriguez, Verena Rieser, William Isaac

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11757v1

摘要: 这项研究引入了 STAR,这是一种社会技术框架,它改进了当前大型语言模型红队安全的最佳实践。 STAR 做出了两个关键贡献:它通过为人类红队队员生成参数化指令来增强可操纵性,从而提高风险面的覆盖范围。参数化指令还可以在不增加成本的情况下提供对模型故障的更详细的了解。其次,STAR 通过匹配人口统计数据来评估特定群体的危害,从而提高信号质量,从而产生更敏感的注释。 STAR 进一步采用了新颖的仲裁步骤来利用不同的观点并提高标签可靠性,将分歧视为对信号质量的宝贵贡献,而不是噪音。

弥合设计差距:采用图形引导扩散模型的参数化数据完成方法

分类: 机器学习, 人工智能, 计算工程、金融和科学, 人机交互

作者: Rui Zhou, Chenyang Yuan, Frank Permenter, Yanxia Zhang, Nikos Arechiga, Matt Klenk, Faez Ahmed

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11934v1

摘要: 本研究引入了一种利用图注意网络和表格扩散模型的生成插补模型来完成工程设计中缺失的参数数据。该模型充当 AI 设计副驾驶,为不完整的设计提供多种设计选项,我们使用自行车设计 CAD 数据集进行了演示。通过比较评估,我们证明我们的模型在插补选项的准确性和多样性方面都显着优于现有的经典方法,例如 MissForest、hotDeck、PPCA 和表格生成方法 TabCSDI。生成建模还可以更广泛地探索设计可能性,从而通过允许工程师探索各种设计完成情况来增强设计决策。图模型将 GNN 与装配图中包含的结构信息相结合,使模型能够理解和预测不同设计参数之间复杂的相互依赖关系。图模型有助于从装配图中准确捕获和估算复杂的参数相互依赖性,这是设计问题的关键。通过学习现有的设计数据集,插补功能使模型能够充当智能助手,根据用户定义的部分参数化设计自动完成 CAD 设计,从而有效地缩小构思与实现之间的差距。拟议的工作提供了一条途径,不仅可以促进明智的设计决策,还可以促进设计中的创造性探索。

SeamPose:将接缝重新用作衬衫中的电容式传感器,用于上半身姿势跟踪

分类: 人机交互, 计算机视觉和模式识别

作者: Tianhong Catherine Yu, Manru, Zhang, Peter He, Chi-Jung Lee, Cassidy Cheesman, Saif Mahmud, Ruidong Zhang, François Guimbretière, Cheng Zhang

发布时间: 2024-06-17

链接: http://arxiv.org/abs/2406.11645v1

摘要: 接缝是在裁剪和缝制服装制造过程中将两块或多块织物缝合在一起形成的重叠织物区域。在 SeamPose 中,我们将接缝重新用作衬衫中的电容传感器,以进行连续的上半身姿势估计。与之前将电极放置在衣服表面的全纺织运动捕捉服装相比,我们的解决方案通过在接缝上机器缝制绝缘导电线来利用衬衫内部的现有接缝。独特的隐形性和接缝位置使传感衬衫的外观和穿着与传统衬衫相同,同时提供令人兴奋的姿势跟踪功能。为了验证这种方法,我们实施了一件概念验证的无绳衬衫。我们定制的深度学习管道具有八个电容式传感接缝,可以准确估计上半身相对于骨盆的 3D 关节位置。通过 12 名参与者的用户研究,我们展示了令人鼓舞的跨用户和跨会话跟踪性能。 SeamPose 代表着智能服装在日常姿势估计方面的低调集成迈出了一步。

LLM 风险和人工智能护栏的现状

分类: 密码学和安全, 人工智能, 人机交互

作者: Suriya Ganesh Ayyamperumal, Limin Ge

发布时间: 2024-06-16

链接: http://arxiv.org/abs/2406.12934v1

摘要: 大型语言模型 (LLM) 变得越来越复杂,导致在安全性和可靠性至关重要的敏感应用中得到广泛部署。然而,大语言模型也伴随着固有的风险,包括偏见、潜在的不安全行为、数据集中毒、缺乏可解释性、幻觉和不可再现性。这些风险需要制定“护栏”,以使大语言模型与期望的行为保持一致并减轻潜在的危害。这项工作探讨了与部署大语言模型相关的风险,并评估了当前实施护栏和模型对齐技术的方法。我们研究了内在和外在偏见评估方法,并讨论了公平指标对于负责任的人工智能开发的重要性。探讨了代理大语言模型(能够进行现实世界行动的大语言模型)的安全性和可靠性,强调了对可测试性、故障保护和态势感知的需求。提出了保护大语言模型的技术策略,包括在外部、二级和内部级别运行的分层保护模型。重点介绍了系统提示、检索增强生成 (RAG) 架构以及最小化偏差和保护隐私的技术。有效的护栏设计需要深入了解大语言模型的预期用例、相关法规和道德考虑。在准确性和隐私等相互竞争的要求之间取得平衡仍然是一个持续的挑战。这项工作强调了持续研究和开发的重要性,以确保大语言模型在实际应用中安全和负责任地使用。

诱发反应脑机接口的贝叶斯动态停止方法

分类: 人机交互

作者: Sara Ahmadi, Peter Desain, Jordy Thielen

发布时间: 2024-06-16

链接: http://arxiv.org/abs/2406.11081v1

摘要: 随着脑机接口(BCI)系统从辅助技术过渡到更多样化的应用,其速度、可靠性和用户体验变得越来越重要。动态停止方法通过随时决定是输出结果还是等待更多信息来提高 BCI 系统速度。这种方法利用试验方差,可以更早地检测到良好的试验,从而加快流程,而不会显着影响准确性。现有的动态停止算法通常会优化诸如每分钟符号数 (SPM) 和信息传输率 (ITR) 等指标。然而,这些指标可能无法准确反映特定应用程序或用户类型的系统性能。此外,许多方法依赖于需要大量训练数据的任意阈值或参数。我们提出了一种基于模型的方法,该方法利用我们对底层分类模型的分析知识。通过使用风险最小化方法,我们的模型可以精确控制错误类型以及精度和速度之间的平衡。这种适应性使其成为定制 BCI 系统以满足各种应用的多样化需求的理想选择。我们在公开数据集上验证了我们提出的方法,并将其与已建立的静态和动态停止方法进行比较。我们的结果表明,我们的方法提供了广泛的准确性与速度权衡,并且比基线停止方法实现了更高的精度。

在扫描透射电子显微镜上实施动态高性能计算支持的工作流程

分类: 仪器仪表和探测器, 材料科学, 人机交互

作者: Utkarsh Pratiush, Austin Houston, Sergei V Kalinin, Gerd Duscher

发布时间: 2024-06-16

链接: http://arxiv.org/abs/2406.11018v1

摘要: 扫描透射电子显微镜 (STEM) 与电子能量损失光谱 (EELS) 相结合,提供了一个强大的平台,可以通过丰富的成像和光谱数据来详细表征材料。现代电子显微镜可以获取远远超出人类感知和反应时间的多种长度尺度和采样率。机器学习 (ML) 的最新进展为通过将 ML 算法集成到 STEM-EELS 框架中来增强这些功能提供了一条有前途的途径,从而营造主动学习的环境。这项工作实现了 STEM 与高性能计算 (HPC) 系统的无缝集成。我们提出了几个已实施的工作流程来举例说明这种集成。这些工作流程包括复杂的技术,例如对象查找和深度内核学习 (DKL)。通过这些发展,我们展示了 STEM-EELS 与 ML 和 HPC 的融合如何提高全球 70% STEM 材料表征的效率和范围。这些代码可在 GitHub 链接中获取。

相关