MiX Knowledge

MM1.5：多模式大语言模型微调的方法、分析和见解

分类： 计算机视觉和模式识别, 计算和语言, 机器学习

作者： Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20566v1

摘要： 我们推出了 MM1.5，这是一个新的多模态大语言模型 (MLLM) 系列，旨在增强丰富文本图像理解、视觉参考和基础以及多图像推理的能力。 MM1.5 基于 MM1 架构，采用以数据为中心的模型训练方法，系统地探索不同数据混合在整个模型训练生命周期中的影响。这包括用于持续预训练的高质量 OCR 数据和合成字幕，以及用于监督微调的优化视觉指令调整数据混合。我们的模型范围从 1B 到 30B 参数，涵盖密集和专家混合 (MoE) 变体，并证明即使在小规模（1B 和 3B）下，仔细的数据管理和训练策略也可以产生强大的性能。此外，我们还引入了两个专门的变体：MM1.5-Video（专为视频理解而设计）和 MM1.5-UI（专为移动 UI 理解而设计）。通过广泛的实证研究和消融，我们提供了对训练过程和决策的详细见解，为我们的最终设计提供了信息，为 MLLM 开发的未来研究提供了宝贵的指导。

排名优于评分：对大语言模型生成的医学解释论点进行可靠且稳健的自动评估

分类： 计算和语言

作者： Iker De la Iglesia, Iakes Goenaga, Johanna Ramirez-Romero, Jose Maria Villa-Gonzalez, Josu Goikoetxea, Ander Barrena

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20565v1

摘要： 评估大语言模型生成的文本已成为一项关键挑战，尤其是在医学领域等特定领域的环境中。这项工作为大语言模型生成的医学解释论点引入了一种新颖的评估方法，依靠代理任务和排名将结果与人类评估标准紧密结合，克服了大语言模型作为法官时通常出现的偏见。我们证明所提出的评估器对于对抗性攻击具有鲁棒性，包括对非论证性文本的评估。此外，训练评估者所需的人工论证被最小化为每个代理任务仅一个示例。通过检查多个 LLM 生成的论据，我们建立了一种方法来确定代理任务是否适合评估 LLM 生成的医学解释论据，仅需要五个示例和两名人类专家。

提议、评估、搜索：利用大语言模型在教学视频中进行目标导向的规划

分类： 计算机视觉和模式识别

作者： Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Fu-Jen Chu, Kris Kitani, Gedas Bertasius, Xitong Yang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20557v1

摘要： 面向目标的规划，或者预期将智能体从当前状态转变为预定义目标的一系列操作，对于开发帮助用户完成日常程序任务的智能助手至关重要。由于需要对时间和层次任务结构的全面了解，以及强大的推理和规划能力，该问题提出了重大挑战。为了实现这一目标，先前的工作通常依赖于对目标数据集的广泛训练，这通常会导致显着的数据集偏差并且缺乏对未见过的任务的泛化。在这项工作中，我们介绍了 VidAssist，这是一个集成框架，专为教学视频中的零/少镜头目标导向规划而设计。 VidAssist 利用大型语言模型 (LLM) 作为知识库和评估工具来生成和评估行动计划，从而克服从小规模、低多样性数据集中获取程序知识的挑战。此外，VidAssist 采用广度优先搜索算法来生成最佳计划，其中利用为目标导向规划设计的价值函数组合来评估每个步骤的预测动作。大量实验表明，VidAssist 为不同的目标导向规划设置（例如视觉辅助规划（VPA）和程序规划（PP））提供了统一的框架，并在零样本和少样本设置中取得了出色的性能。具体来说，我们的小样本模型在预测 4 个未来动作的同时，在 VPA 和 COIN 数据集上的 PP 任务上比之前完全监督的最先进方法高出 7.7% 和 4.81%。代码和模型可在 https://sites.google.com/view/vidassist 上公开获取。

实际代码生成中的大语言模型幻觉：现象、机制和缓解措施

分类： 软件工程, 人工智能, 计算和语言

作者： Ziyao Zhang, Yanlin Wang, Chong Wang, Jiachi Chen, Zibin Zheng

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20550v1

摘要： 代码生成旨在根据输入的需求自动生成代码，显着提高开发效率。最近基于大型语言模型（LLM）的方法已经显示出有希望的结果并彻底改变了代码生成任务。尽管LLM的性能很有前景，但LLM生成的内容常常带有幻觉，特别是对于实际开发过程中需要处理复杂上下文依赖的代码生成场景。尽管之前的研究已经分析了 LLM 支持的代码生成中的幻觉，但该研究仅限于独立函数生成。在本文中，我们进行了实证研究，以在存储库级生成场景中更实际和更复杂的开发环境中研究大语言模型幻觉的现象、机制和缓解。首先，我们手动检查六个主流 LLM 的代码生成结果，以建立 LLM 生成代码的幻觉分类法。接下来，我们详细阐述幻觉现象，分析其在不同模型中的分布。然后，我们分析幻觉的原因并确定导致幻觉的四个潜在因素。最后，我们提出了一种基于 RAG 的缓解方法，该方法在所有研究的大语言模型中表现出一致的有效性。包括代码、数据和实验结果的复制包可在 https://github.com/DeepSoftwareAnalytics/LLMCodingHallucination 获取

VideoINSTA：通过大语言模型的信息时空推理进行零样本长视频理解

分类： 计算机视觉和模式识别

作者： Ruotong Liao, Max Erler, Huiyu Wang, Guangyao Zhai, Gengyuan Zhang, Yunpu Ma, Volker Tresp

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20365v1

摘要： 在视频语言领域，最近利用基于大语言模型的零样本推理进行视频理解的工作已成为先前端到端模型的竞争者。然而，由于长时间跨度推理的复杂性，长视频理解面临着独特的挑战，即使对于基于零样本大语言模型的方法也是如此。长视频中信息冗余的挑战提出了一个问题：哪些特定信息对于大型语言模型（LLM）至关重要，以及如何利用它们在长视频分析中进行复杂的时空推理。我们提出了一个框架VideoINSTA，即用于零样本长格式视频理解的信息时空推理。 VideoINSTA 贡献了 (1) 使用 LLM 理解长视频的零样本框架； (2) 一种基于事件的时间推理和基于内容的空间推理方法，供大语言模型对视频中的时空信息进行推理； (3)基于信息充分性和预测置信度平衡时间因素的自反射信息推理方案。我们的模型显着提高了三个长视频问答基准的最新水平：EgoSchema、NextQA 和 IntentQA，以及开放问答数据集 ActivityNetQA。代码发布在这里：https://github.com/mayhugotong/VideoINSTA。

PersonalLLM：根据个人喜好定制大语言模型

分类： 机器学习, 计算和语言, I.2.7; I.2.6

作者： Thomas P. Zollo, Andrew Wei Tung Siah, Naimeng Ye, Ang Li, Hongseok Namkoong

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20296v1

摘要： 随着大语言模型能够胜任复杂的任务，针对用户微妙而特殊的偏好量身定制的个性化交互的潜力越来越大。我们提出了一个公共基准，PersonalLLM，专注于调整 LLM 为特定用户提供最大利益。与隐含地假设统一偏好的现有对齐基准不同，我们策划了开放式提示，并与许多高质量的答案配对，预计用户将在这些答案上显示异构的潜在偏好。我们开发了一种方法，可以模拟具有来自一组预定义的不同偏好的大型用户群，而不是基于高级属性（例如，用户的种族或响应长度）的角色提示大语言模型，这会产生相对于人类的同质偏好。训练有素的奖励模型。我们的数据集和生成的个性提供了一个创新的测试平台，用于开发个性化算法，通过利用其他（类似）用户的历史数据来解决持续的数据稀疏问题（特定用户几乎没有相关反馈）。我们探索基本的情境学习和元学习基线，以说明 PersonalLLM 的实用性并强调未来方法发展的需求。我们的数据集位于 https://huggingface.co/datasets/namkoong-lab/PersonalLLM

移动边缘计算中稳定的大语言模型培训的资源分配

分类： 分布式、并行和集群计算, 人工智能, 信息论, 系统与控制, 系统与控制, 信息论, 优化与控制

作者： Chang Liu, Jun Zhao

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20247v1

摘要： 随着移动设备日益成为高级应用程序的焦点，边缘计算为其固有的计算限制提供了一种可行的解决方案，特别是在部署大型语言模型 (LLM) 方面。然而，尽管边缘计算取得了进步，但由于与这些模型相关的计算需求和数据隐私问题，有效训练和部署大语言模型仍然面临重大挑战。本文探讨了一种协作培训框架，该框架将移动用户与边缘服务器集成以优化资源分配，从而提高性能和效率。我们的方法利用参数高效微调 (PEFT) 方法，允许移动用户调整 LLM 的初始层，而边缘服务器则处理要求更高的后面层。具体来说，我们制定了一个多目标优化问题，以最大限度地减少训练期间的总能耗和延迟。我们还通过将稳定性增强纳入我们的目标函数来解决模型性能不稳定的常见问题。通过新颖的分数规划技术，我们实现了所表述问题的驻点。模拟表明，我们的方法降低了能耗和延迟，并提高了大语言模型在各种移动设置下的可靠性。

MemSim：用于评估大语言模型个人助理记忆力的贝叶斯模拟器

分类： 人工智能, 计算和语言

作者： Zeyu Zhang, Quanyu Dai, Luyu Chen, Zeren Jiang, Rui Li, Jieming Zhu, Xu Chen, Yi Xie, Zhenhua Dong, Ji-Rong Wen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20163v1

摘要： 基于LLM的代理已被广泛用作个人助理，能够记住用户消息中的信息并响应个人查询。然而，仍然缺乏对他们的记忆能力的客观和自动评估，这很大程度上是由于根据用户消息构建可靠的问题和答案（QA）的挑战。在本文中，我们提出了 MemSim，一种贝叶斯模拟器，旨在根据生成的用户消息自动构建可靠的 QA，同时保持其多样性和可扩展性。具体来说，我们引入贝叶斯关系网络（BRNet）和因果生成机制来减轻LLM幻觉对事实信息的影响，促进评估数据集的自动创建。基于MemSim，我们生成了一个日常生活场景中的数据集，名为MemDaily，并进行了大量的实验来评估我们方法的有效性。我们还提供了一个基准，用于使用 MemDaily 数据集评估基于 LLM 的代理中的不同记忆机制。为了使研究社区受益，我们在 https://github.com/nuster1128/MemSim 发布了我们的项目。

具有领域覆盖范围增强的大语言模型联合指令调整

分类： 机器学习, 计算和语言, 分布式、并行和集群计算

作者： Zezhou Wang, Yaxin Du, Zhuzhong Qian, Siheng Chen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20135v2

摘要： 联合域特定指令调优 (FedDIT) 利用有限的跨客户端私有数据和服务器端公共数据进行指令增强，最终增强特定域内的模型性能。而影响FedDIT的因素尚不清楚，现有的指令增强方法主要集中于集中式设置，而没有考虑分布式环境。我们的实验表明，驱动 FedDIT 中模型性能的是跨客户端域覆盖率，而不是数据异构性。作为回应，我们提出了 FedDCA，它通过贪婪的客户中心选择和基于检索的增强来优化域覆盖范围。为了减轻客户端计算负担，FedDCA$^*$ 使用具有服务器端特征对齐的异构编码器。跨越四个不同领域（代码、医学、金融和数学）的广泛实验证实了这两种方法的有效性。此外，我们还利用不同数量的公共数据研究针对内存提取攻击的隐私保护。结果显示，公共数据量与隐私保护能力之间不存在显着相关性。然而，随着微调轮次的增加，隐私泄露的风险降低或收敛。

通过拒绝特征对抗性训练实现稳健的大语言模型保障

分类： 机器学习, 计算和语言, 密码学和安全

作者： Lei Yu, Virginie Do, Karen Hambardzumyan, Nicola Cancedda

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20089v1

摘要： 大型语言模型 (LLM) 很容易受到对抗性攻击，从而引发有害的反应。由于越狱机制的不透明性以及稳健训练大语言模型的高计算成本，防御此类攻击仍然具有挑战性。我们证明，对抗性攻击共享一种规避 LLM 防护措施的通用机制，该机制通过消除残差流嵌入空间中称为拒绝特征的维度来发挥作用。我们进一步表明，拒绝特征消融（RFA）的操作近似于抵消模型安全性的最坏情况扰动。基于这些发现，我们提出了拒绝特征对抗训练（ReFAT），这是一种通过 RFA 模拟输入级攻击效果来有效执行 LLM 对抗训练的新颖算法。实验结果表明，ReFAT 显着提高了三种流行的 LLM 针对各种对抗性攻击的鲁棒性，与现有的对抗性训练方法相比，计算开销显着减少。

偏好调整是否始终是增强 LLM 翻译的最佳选择？实证分析

分类： 计算和语言

作者： Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20059v1

摘要： 与传统的词汇指标相比，机器翻译（MT）评估的神经指标由于与人类判断的相关性更高而变得越来越重要。因此，研究人员通过质量知情的解码策略利用神经度量，取得了比基于可能性的方法更好的结果。随着大型语言模型 (LLM) 的兴起，基于偏好的对齐技术因其通过直接根据质量估计器引起的偏好优化模型权重来提高翻译质量的潜力而受到关注。本研究重点关注对比偏好优化 (CPO)，并进行了大量实验来评估基于偏好的对齐对翻译质量的影响。我们的研究结果表明，虽然 CPO 在对齐指标方面的高质量数据上始终优于监督微调（SFT），但它可能会导致下游评估指标的不稳定，特别是神经和词汇指标之间的不稳定。此外，我们证明，仅依靠基本模型来生成候选翻译可以实现与使用多个外部系统相当的性能，同时确保下游指标之间更好的一致性。

早起的鸟儿发现了漏洞：揭开 LLM 服务系统中的计时侧通道的面纱

分类： 密码学和安全

作者： Linke Song, Zixuan Pang, Wenhao Wang, Zihao Wang, XiaoFeng Wang, Hongbo Chen, Wei Song, Yier Jin, Dan Meng, Rui Hou

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20002v1

摘要： 大型语言模型（LLM）的广泛部署引发了对其推理性能优化的强烈需求。当今用于此目的的技术主要侧重于通过算法和硬件增强来减少延迟并提高吞吐量，同时在很大程度上忽略了其隐私副作用，特别是在多用户环境中。在我们的研究中，我们首次在 LLM 系统中发现了一组新的定时侧通道，这些通道由共享缓存和 GPU 内存分配产生，可用于推断机密系统提示和其他用户发出的提示。这些漏洞与传统计算系统中观察到的安全挑战相呼应，突出表明迫切需要解决大语言模型服务基础设施中潜在的信息泄漏问题。在本文中，我们报告了新颖的攻击策略，旨在利用LLM部署中固有的时序侧通道，特别针对广泛用于增强LLM推理性能的键值（KV）缓存和语义缓存。我们的方法利用时序测量和分类模型来检测缓存命中，从而使对手能够高精度地推断私人提示。我们还提出了一种逐个令牌搜索算法，可以有效地恢复缓存中的共享提示前缀，展示了窃取系统提示和对等用户生成的提示的可行性。我们对流行的在线大语言模型服务进行黑盒测试的实验研究表明，这种隐私风险是完全现实的，会产生重大后果。我们的研究结果强调需要采取强有力的缓解措施来保护大语言模型系统免受此类新出现的威胁。

增强基于LLM的推荐模型的高阶交互意识

分类： 信息检索, 计算和语言

作者： Xinfeng Wang, Jin Cui, Fumiyo Fukumoto, Yoshimi Suzuki

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19979v2

摘要： 大型语言模型（LLM）通过将推荐任务转化为文本生成任务，在推荐任务中展现了突出的推理能力。然而，现有的方法要么忽视用户-项目高阶交互，要么无法有效地建模。为此，本文提出了一种增强的基于 LLM 的推荐器（ELMRec）。我们增强了全字嵌入，以显着增强大语言模型对图构建的推荐交互的解释，而不需要图预训练。这一发现可能会激发人们通过全字嵌入将丰富的知识图谱融入到基于 LLM 的推荐系统中。我们还发现大语言模型经常根据用户之前的交互而不是最近的交互来推荐项目，并提出重新排名的解决方案。我们的 ELMRec 在直接推荐和顺序推荐方面均优于最先进的 (SOTA) 方法。

多模态大语言模型增强型跨语言跨模态检索

分类： 计算机视觉和模式识别, 计算和语言

作者： Yabing Wang, Le Wang, Qiang Zhou, Zhibin Wang, Hao Li, Gang Hua, Wei Tang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19961v1

摘要： 跨语言跨模态检索（CCR）旨在基于非英语查询检索视觉相关内容，而不在训练期间依赖人工标记的跨模态数据对。一种流行的方法是利用机器翻译 (MT) 创建伪并行数据对，在视觉数据和非英语文本数据之间建立对应关系。然而，由于视觉和文本之间存在显着的语义差距，以及预训练编码器和数据噪声导致的非英语表示质量较低，对齐它们的表示提出了挑战。为了克服这些挑战，我们提出了 LECCR，这是一种新颖的解决方案，它结合了多模态大语言模型 (MLLM)，以改善视觉和非英语表示之间的一致性。具体来说，我们首先使用 MLLM 生成详细的视觉内容描述，并将它们聚合到封装不同语义的多视图语义槽中。然后，我们将这些语义槽作为内部特征，并利用它们与视觉特征进行交互。通过这样做，我们增强了视觉特征中的语义信息，缩小了模态之间的语义差距，并为后续的多级匹配生成局部视觉语义。此外，为了进一步增强视觉和非英语特征之间的一致性，我们在英语指导下引入了软化匹配。这种方法提供了视觉和非英语特征之间更全面、更可靠的模态间对应。对四个 CCR 基准（即 Multi30K、MSCOCO、VATEX 和 MSR-VTT-CN）的大量实验证明了我们提出的方法的有效性。代码：\url{https://github.com/LiJiaBei-7/leccr}。

OpenAI o1-mini性别偏见初评：LLM更高智商不一定能解决性别偏见和刻板印象问题

分类： 计算机与社会

作者： Rajesh Ranjan, Shailja Gupta, Surya Naranyan Singh

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19959v1

摘要： 在本文中，我们对 OpenAI o1-mini 模型进行了早期评估，分析了其在性别包容性和偏见方面的表现。我们对 700 个角色（其中 350 个来自 GPT-4o mini 和 350 个来自 o1-mini）进行了研究，结果表明，尽管人格特征和偏好的包容性有所改善，但显着的性别偏见仍然存在。例如，o1-mini 对男性角色的能力评价较高，得分为 8.06，而女性角色为 7.88，非二元角色为 7.80。此外，o1-mini 将博士角色分配给了 28% 的男性角色，但只有 22.4% 的女性角色和 0% 的非二元角色角色。男性角色也更有可能被视为成功的创始人（69.4％）和首席执行官（62.17％），而女性角色（分别为67.97％和61.11％）和非二元角色（分别为65.7％和58.37％）。分析揭示了工程、数据和技术等领域持续存在的性别偏见，其中男性占主导地位，反映了传统的刻板印象。相反，在设计、艺术和营销等领域，女性的存在感更强，强化了将创造力和沟通与女性联系在一起的社会观念。这些发现凸显了减轻性别偏见方面持续存在的挑战，强化了采取进一步干预措施以确保人工智能模型中所有性别的公平代表性的必要性。

UniSumEval：迈向大语言模型统一、细粒度、多维度的总结评估

分类： 计算和语言, 人工智能

作者： Yuho Lee, Taewon Yun, Jason Cai, Hang Su, Hwanjun Song

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19898v2

摘要： 现有的摘要质量评估基准通常缺乏多样化的输入场景，专注于狭隘定义的维度（例如，忠实度），并且与主观和粗粒度的注释方案作斗争。为了解决这些缺点，我们创建了 UniSumEval 基准，它扩展了输入上下文的范围（例如域、长度）并提供细粒度的多维注释。我们在数据创建中使用人工智能辅助，识别潜在的致幻输入文本，并帮助人类注释者降低细粒度注释任务的难度。通过 UniSumEval，我们将九个最新语言模型作为摘要器进行基准测试，提供对它们在不同输入上下文和评估维度上的性能的见解。此外，我们对 SOTA 自动总结评估器进行了彻底的比较。我们的基准数据将在 https://github.com/DISL-Lab/UniSumEval-v1.0 上提供。

TRANSAGENT：基于大语言模型的代码翻译多代理系统

分类： 软件工程, 人工智能

作者： Zhiqiang Yuan, Weitong Chen, Hanlin Wang, Kai Yu, Xin Peng, Yiling Lou

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19894v2

摘要： 代码翻译将代码从一种编程语言转换为另一种编程语言，同时保持其原有功能，这对于软件迁移、系统重构和跨平台开发至关重要。传统的基于规则的方法依赖于手动编写的规则，这可能非常耗时，并且通常会导致代码可读性较差。为了克服这个问题，开发了基于学习的方法，利用并行数据来训练自动代码翻译模型。最近，大型语言模型 (LLM) 的进步进一步促进了基于学习的代码翻译。尽管前景光明，LLM 翻译的程序仍然存在各种质量问题（例如语法错误和语义错误）。特别是，当仅提供相应的错误消息时，大语言模型很难自我调试这些错误。在这项工作中，我们提出了一种新颖的基于LLM的多代理系统TRANSAGENT，它通过四个基于LLM的代理（包括初始代码翻译器、语法错误修复器）之间的协同作用来修复语法错误和语义错误，从而增强了基于LLM的代码翻译、代码对齐器和语义错误修复器。 TRANSAGENT的主要思想是首先根据目标程序和源程序之间的执行对齐来定位目标程序中的错误代码块，这样可以缩小修复空间，从而降低修复难度。为了评估 TRANSAGENT，我们首先根据最近的编程任务构建一个新的基准，以减轻潜在的数据泄漏问题。在我们的基准测试中，TRANSAGENT 在翻译效果和效率方面均优于最新的基于 LLM 的代码翻译技术 UniTrans；此外，我们对不同大语言模型的评估显示了 TRANSAGENT 的泛化性，我们的消融研究显示了每种药物的贡献。

HDMoLE：LoRA 专家与分层路由和动态阈值的结合，用于微调基于 LLM 的 ASR 模型

分类： 声音, 音频和语音处理

作者： Bingshen Mu, Kun Wei, Qijie Shao, Yong Xu, Lei Xie

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19878v1

摘要： 大型语言模型 (LLM) 与自动语音识别 (ASR) 集成的最新进展在一般领域表现出色。虽然通常采用所有模型参数的监督微调 (SFT) 来使预训练的基于 LLM 的 ASR 模型适应特定领域，但它会带来很高的计算成本，并显着降低其在一般领域的性能。在本文中，我们提出了一种新颖的参数有效的多域微调方法，用于将预训练的基于 LLM 的 ASR 模型适应多口音域，而不会发生灾难性遗忘，名为 \textit{HDMoLE}，该方法利用分层路由和动态阈值基于低秩自适应（LoRA）与专家混合器（MoE）的结合，并且可以推广到任何线性层。分层路由在LoRA专家和重点域之间建立了明确的对应关系，改善了LoRA专家之间的跨域协作。与激活 LoRA 专家的静态 Top-K 策略不同，动态阈值可以自适应地激活每个 MoE 层不同数量的 LoRA 专家。在多口音和标准普通话数据集上的实验证明了 HDMoLE 的有效性。将 HDMoLE 应用于基于 LLM 的 ASR 模型投影仪模块可实现与目标多重音域中的完全微调类似的性能，同时仅使用完全微调所需的 9.6% 的可训练参数并在源一般域中将退化降至最低。

大语言模型论文的独特品味：使用大语言模型进行数字图书馆文献推荐任务的潜在问题

分类： 数字图书馆

作者： Yifan Tian, Yixin Liu, Yi Bu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19868v2

摘要： 本文研究了文献推荐领域几个具有代表性的大型模型的表现，并探讨了潜在的偏差。结果表明，虽然一些大型模型经过简单的人工筛选后推荐效果可以得到一定程度的满足，但总体而言，这些模型在特定文献推荐任务中的准确率普遍中等。此外，这些模型倾向于推荐及时的、协作的、扩展或深化该领域的文献。在学者推荐任务中。没有证据表明大语言模型会加剧与性别、种族或国家发展水平相关的不平等。

使用持续预训练和模型合并在没有指令数据的情况下构建指令调整的金融大语言模型

分类： 计算和语言, 普通经济学, 计算金融, 经济学

作者： Masanori Hirano, Kentaro Imajo

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19854v1

摘要： 本文提出了一种在没有指令数据的情况下构建用于金融的指令调整大语言模型（LLM）的新方法。传统上，开发此类特定领域的大语言模型需要大量资源，需要大量数据集和强大的计算能力来进行持续的预训练和指令调整。我们的研究提出了一种更简单的方法，将特定领域的持续预训练与模型合并相结合。鉴于通用预训练的 LLM 及其指令调整的 LLM 通常是公开可用的，因此可以利用它们来获取必要的指令任务向量。通过将其与特定领域的预训练向量合并，我们可以有效地创建针对金融的指令调整的 LLM，而无需额外的指令数据。我们的流程包括两个步骤：首先，我们对财务数据进行持续的预训练；其次，我们将指令调整向量与特定领域的预训练向量合并。我们的实验证明了根据指令调整的金融大语言模型的成功构建。我们的方法的一个主要优点是指令调整和特定领域的预训练向量几乎是独立的。这种独立性使我们的方法非常有效。我们在本研究中开发的日本金融指令调整的大语言模型可在 https://huggingface.co/pfnet/nekomata-14b-pfn-qfin-inst-merge 上找到。

RAG 是否会给大语言模型带来不公平？评估检索增强生成系统的公平性

分类： 计算和语言

作者： Xuyang Wu, Shuowei Li, Hsin-Tai Wu, Zhiqiang Tao, Yi Fang

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19804v1

摘要： RAG（检索增强生成）最近因其在开放域问答（QA）任务中集成外部知识源的能力增强而受到广泛关注。然而，目前尚不清楚这些模型如何解决公平性问题，特别是在性别、地理位置和其他人口统计因素等敏感属性方面。首先，随着语言模型的发展优先考虑实用性，例如提高精确匹配的准确性，公平性可能在很大程度上被忽视了。其次，RAG 方法是复杂的管道，因此很难识别和解决偏差，因为每个组件都针对不同的目标进行了优化。在本文中，我们的目标是对几种 RAG 方法的公平性进行实证评估。我们提出了一个适合 RAG 方法的公平性评估框架，使用基于场景的问题并分析人口统计属性之间的差异。实验结果表明，尽管最近在效用驱动的优化方面取得了进展，但在检索和生成阶段仍然存在公平性问题，这凸显了在 RAG 管道中进行更有针对性的公平干预的必要性。我们将在论文被接受后发布我们的数据集和代码。

平衡大语言模型合成数据生成策略的成本和有效性

分类： 计算和语言, 机器学习

作者： Yung-Chieh Chan, George Pu, Apaar Shanker, Parth Suresh, Penn Jenks, John Heyer, Sam Denton

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19759v1

摘要： 随着大型语言模型 (LLM) 应用于更多用例，创建高质量、特定于任务的数据集以进行微调成为模型改进的瓶颈。使用高质量的人类数据是解锁模型性能的最常见方法，但在许多情况下成本高昂。还出现了几种替代方法，例如生成合成或混合数据，但这些方法的有效性仍不清楚，特别是在资源受限的场景和不易验证的任务中。为了研究这一点，我们将各种合成数据生成策略分为三个代表性类别——答案增强、问题改写和新问题——并研究在各种约束（即种子指令集大小和查询预算）下训练的大语言模型学生的表现。我们证明这些策略在不同环境下并不同样有效。值得注意的是，最佳数据生成策略很大程度上取决于可用的教师查询预算与种子指令集大小之间的比率。当该比率较低时，对现有问题生成新答案被证明是最有效的，但随着该比率增加，生成新问题变得最佳。在所有任务中，我们发现增强方法的选择和其他设计选择在中低数据体系中比在高数据体系中更重要。我们提供了一个实用的框架，用于跨设置选择适当的增强方法，同时考虑到其他因素，例如每种方法的可扩展性、验证合成数据的重要性以及使用不同的 LLM 来生成合成数据。

AstroMLab 2：AstroLLaMA-2-70B 模型和基准测试天文学专业大语言模型

分类： 天体物理学仪器和方法, 计算和语言

作者： Rui Pan, Tuan Dung Nguyen, Hardik Arora, Alberto Accomazzi, Tirthankar Ghosal, Yuan-Sen Ting

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19750v1

摘要： 人们提出对特定领域数据的大型语言模型进行持续预训练，以提高下游任务的性能。在天文学领域，之前缺乏以天文学为重点的基准，阻碍了对这些专门的大语言模型模型的客观评估。本研究利用最近一项策划高质量天文学 MCQ 的举措，旨在定量评估天文学专业大语言模型。我们发现之前发布的基于 LLaMA-2-7B 的 AstroLLaMA 系列与基础模型相比表现不佳。我们证明，通过利用高质量数据进行持续预训练，例如来自 arXiv 的摘要文本，可以部分缓解这种性能下降。尽管在较小的模型中观察到了灾难性遗忘，但我们的结果表明，对 70B 模型进行持续预训练可以产生显着的改进。然而，当前的监督微调数据集仍然限制了指令模型的性能。结合这项研究，我们在之前的 AstroLLaMA 系列的基础上推出了一组新模型 AstroLLaMA-3-8B 和 AstroLLaMA-2-70B。

多模式大语言模型，用于从大脑录音中非侵入性解码口语文本

分类： 神经元和认知, 计算和语言, 机器学习, 声音, 音频和语音处理, 信号处理, 定量方法

作者： Youssef Hmamouche, Ismail Chihab, Lahoucine Kdouri, Amal El Fallah Seghrouchni

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19710v1

摘要： 人工智能中与大脑相关的研究主题最近越来越受欢迎，特别是由于多模式架构的功能从计算机视觉扩展到自然语言处理。我们这项工作的主要目标是探索这些架构在非侵入性功能磁共振成像语音文本解码中的可能性和局限性。与视觉和文本数据相反，由于脑部扫描仪的多样性，功能磁共振成像数据代表了一种复杂的模式，这意味着（i）记录信号格式的多样性，（ii）原始信号的低分辨率和噪声，以及（iii））可用作生成学习基础模型的预训练模型的稀缺。这些点使得对功能磁共振成像记录中的文本进行非侵入性解码的问题非常具有挑战性。在本文中，我们提出了端到端多模态 LLM，用于从功能磁共振成像信号中解码口语文本。所提出的架构基于（i）从特定变压器派生的编码器，该编码器包含编码器的增强嵌入层和比现有技术更好调整的注意力机制，以及（ii）冻结的大型语言模型适合对齐输入文本的嵌入和大脑活动的编码嵌入以解码输出文本。在由一组人与人以及人与机器人交互组成的语料库上执行的基准，其中功能磁共振成像和对话信号被同步记录。获得的结果非常有希望，因为我们的建议优于评估的模型，并且能够生成捕获真实情况中存在的更准确语义的文本。 https://github.com/Hmamouche/brain_decode 中提供了实现代码。

通过多模态大语言模型从合成数据中学习进行多模态错误信息检测

分类： 计算和语言

作者： Fengzhu Zeng, Wenqian Li, Wei Gao, Yan Pang

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19656v1

摘要： 检测多模态错误信息，尤其是图像文本对形式的错误信息至关重要。获取用于训练探测器的大规模、高质量的现实世界事实检查数据集的成本很高，这导致研究人员使用人工智能技术生成的合成数据集。然而，由于分布差距，基于合成数据训练的检测器对现实世界场景的通用性仍不清楚。为了解决这个问题，我们建议通过两种与合成和现实世界数据分布相匹配的与模型无关的数据选择方法来从合成数据中学习，以检测现实世界的多模态错误信息。实验表明，我们的方法增强了小型 MLLM (13B) 在现实世界事实检查数据集上的性能，使其甚至超越了 GPT-4V~\cite{GPT-4V}。

LANDeRMT：检测和路由语言感知神经元，用于选择性地微调大语言模型以实现机器翻译

分类： 计算和语言

作者： Shaolin Zhu, Leiyu Pan, Bo Li, Deyi Xiong

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19523v1

摘要： 即使在有限的双语监督下，大语言模型（LLM）的最新进展在多语言翻译方面也显示出了有希望的结果。主要挑战是在提供并行训练数据时对 LLM 进行微调的灾难性遗忘和参数干扰。为了应对这些挑战，我们提出了 LANDeRMT，一个 \textbf{L}anguage-\textbf{A}ware \textbf{N}euron \textbf{De}tecting 和 \textbf{R}outing 框架，有选择地将 LLM 微调到 \textbf {M}achine \textbf{T}翻译具有不同的翻译训练数据。在 LANDeRMT 中，我们评估神经元对 MT 任务的感知，并将它们分类为通用语言神经元和特定语言神经元。这种分类可以在微调期间进行选择性参数更新，从而减轻参数干扰和灾难性遗忘问题。对于检测到的神经元，我们进一步提出了一种基于条件意识的路由机制，以在翻译信号的引导下动态调整大语言模型内的通用语言和特定语言能力。实验结果表明，所提出的 LANDeRMT 在学习翻译知识方面非常有效，与多种语言对的各种强基线相比，显着提高了翻译质量。

CoT-ST：利用多模态思想链增强基于大语言模型的语音翻译

分类： 计算和语言

作者： Yexing Du, Ziyang Ma, Yifan Yang, Keqi Deng, Xie Chen, Bo Yang, Yang Xiang, Ming Liu, Bing Qin

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19510v1

摘要： 语音语言模型 (SLM) 在语音翻译任务中表现出了令人印象深刻的性能。然而，现有的研究主要集中在直接指令微调上，往往忽视了 SLM 固有的推理能力。在本文中，我们介绍了一个三阶段训练框架，旨在激活 SLM 的思维链（CoT）能力。我们提出了 CoT-ST，一种语音翻译模型，利用多模态 CoT 将语音翻译分解为语音识别和翻译的连续步骤。我们在两个数据集上验证了我们的方法的有效性：CoVoST-2 数据集和 MuST-C 数据集。实验结果表明，CoT-ST 优于之前最先进的方法，取得了更高的 BLEU 分数（CoVoST-2 en-ja：30.5->30.8，en-zh：45.2->47.7，MuST-C en- zh：19.6->21.2）。这项工作在 https://github.com/X-LANCE/SLAM-LLM/tree/main/examples/st_covost2 上开源。

HealthQ：揭示 LLM 链在医疗保健对话中的提问能力

分类： 计算和语言, 机器学习

作者： Ziyu Wang, Hao Li, Di Huang, Amir M. Rahmani

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19487v1

摘要： 在数字医疗保健中，大语言模型（LLM）主要用于增强问答能力和改善患者互动。然而，有效的患者护理需要大语言模型连锁机构能够通过提出相关问题来主动收集信息。本文介绍了 HealthQ，这是一种新颖的框架，旨在评估 LLM 医疗保健连锁店的提问能力。我们实施了多个 LLM 链，包括检索增强生成（RAG）、思维链（CoT）和反思链，并引入了 LLM 法官来评估所生成问题的相关性和信息性。为了验证 HealthQ，我们采用了传统的自然语言处理 (NLP) 指标，例如面向召回的 Gisting 评估 (ROUGE) 和基于命名实体识别 (NER) 的集合比较，并从公共医疗记录数据集 ChatDoctor 构建了两个自定义数据集和 MTS-Dialog。我们的贡献有三方面：我们首次对大语言模型在医疗保健对话中的提问能力进行了全面研究，开发了一种新颖的数据集生成管道，并提出了一种详细的评估方法。

解码回声室：大语言模型支持的模拟揭示了社交网络中的极化

分类： 社交和信息网络, 计算和语言

作者： Chenxi Wang, Zongfang Liu, Dequan Yang, Xiuying Chen

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19338v1

摘要： 社交媒体对回音室等关键问题的影响需要得到解决，因为这些现象可能对我们的社会产生破坏性后果。传统研究往往将情感倾向和观点演变过度简化为数字和公式，而忽略了新闻和交流是通过文本传达的，这限制了这些方法。因此，在这项工作中，我们提出了一种基于大语言模型的社会舆论网络模拟，以评估和对抗两极分化现象。我们首先构建三种典型的网络结构来模拟社交互动的不同特征。然后，智能体根据推荐算法进行交互，并通过推理和分析来更新策略。通过将这些交互与经典的有界置信模型（BCM）、Friedkin Johnsen（FJ）模型进行比较，并使用回声室相关指数，我们证明了我们的框架在模拟舆论动态和再现舆论极化和回声等现象方面的有效性室。我们提出了两种缓解方法，主动和被动推动，可以帮助减少回音室，特别是在基于语言的模拟中。我们希望我们的工作能为缓解社会两极分化提供宝贵的见解和指导。

大语言模型真的可以从一本语法书中学习翻译资源匮乏的语言吗？

分类： 计算和语言

作者： Seth Aycock, David Stap, Di Wu, Christof Monz, Khalil Sima'an

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19151v1

摘要： 极低资源 (XLR) 语言缺乏用于训练 NLP 模型的大量语料库，因此需要使用所有可用资源，例如词典和语法书。《一本书的机器翻译》（Tanzer 等人，2024 年）建议用一本语法书提示长上下文大语言模型可以实现英语-Kalamang 翻译，这是一种看不见的 XLR 语言，这是语言知识帮助 NLP 任务的一个值得注意的案例。我们调查了本书的语法解释或其平行示例对于学习 XLR 翻译是否最有效，发现几乎所有改进都源于平行示例。此外，我们在尼泊尔语（一种常见的低资源语言）中发现了类似的结果，并且通过简单地微调编码器-解码器翻译模型，获得了与使用语法书的大语言模型相当的性能。然后，我们通过测试语法判断和光泽预测这两项语言任务来研究语法书在哪里有帮助，并通过引入类型学特征提示来探索什么样的语法知识有帮助，该提示在这些更相关的任务上取得了领先的结果。因此，我们强调适合 XLR 语言的任务数据的重要性：翻译的并行示例以及语言任务的语法数据。由于我们没有发现任何证据表明长上下文大语言模型可以有效利用 XLR 翻译的语法解释，因此我们建议多语言 XLR 任务（例如翻译）的数据收集最好侧重于并行数据而不是语言描述。

机密提示：保护来自 Cloud LLM 提供商的用户提示

分类： 密码学和安全, 计算和语言

作者： In Gim, Caihua Li, Lin Zhong

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19134v1

摘要： 我们的工作解决了在基于云的大语言模型 (LLM) 服务中保护用户输入的挑战，同时确保输出一致性、模型机密性和计算效率。我们引入安全多方解码（SMD），它利用机密计算将用户提示限制在可信执行环境，即机密虚拟机（CVM）中，同时允许服务提供商有效地生成令牌。我们还引入了一种新颖的加密方法，即提示混淆（PO），以确保针对 SMD 重建攻击的鲁棒性。我们证明，我们的方法既能保证及时的保密性，又能保证大语言模型的服务效率。我们的解决方案可以启用保护隐私的云 LLM 服务，处理敏感提示，例如临床记录、财务数据和个人信息。

概述患者教育中大语言模型应用的边界：为前列腺癌患者教育开发由大语言模型支持的专家在环聊天机器人

分类： 人机交互

作者： Yuexing Hao, Jason Holmes, Mark Waddle, Nathan Yu, Kirstin Vickers, Heather Preston, Drew Margolin, Corinna E. Löckenhoff, Aditya Vashistha, Marzyeh Ghassemi, Saleh Kalantari, Wei Liu

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19100v1

摘要： 由于机构资源有限、缺乏成熟的专业指导以及健康素养较低，癌症患者往往难以迅速过渡到治疗。大语言模型 (LLM) 的出现为此类患者提供了获取丰富的现有患者教育材料的新机会。当前的论文介绍了基于大语言模型的聊天机器人的开发过程，重点关注前列腺癌教育，包括需求评估、协同设计和可用性研究。由此产生的应用程序 MedEduChat 与患者的电子健康记录数据集成，并采用闭域、半结构化、以患者为中心的方法来满足现实世界的需求。本文通过展示基于大语言模型的聊天机器人在加强前列腺癌患者教育方面的潜力，并为未来基于大语言模型的医疗保健下游应用提供共同设计指南，为不断发展的患者与大语言模型互动领域做出了贡献。

在工业过程建模中实施大语言模型：解决类别变量

分类： 机器学习, 机器学习

作者： Eleni D. Koronaki, Geremy Loachamin Suntaxi, Paris Papavasileiou, Dimitrios G. Giovanis, Martin Kathrein, Andreas G. Boudouvis, Stéphane P. A. Bordas

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19097v1

摘要： 在许多情况下，过程的重要变量是分类的，即代表的名称或标签，例如输入类别、反应器类型或一系列步骤。在这项工作中，我们使用大型语言模型（LLM）来派生此类输入的嵌入，这些输入代表其实际含义，或反映类别之间的“距离”，即它们的相似或不同程度。这与当前的显着差异使用二进制或单热编码将分类变量替换为 1 和 0 序列的标准做法结合降维技术，可以是线性的，例如主成分分析 (PCA)，也可以是非线性的，例如统一流形逼近和投影 (UMAP)。），所提出的方法导致了 \textit{有意义}，低维特征空间的重要性在包括数值和分类输入的切削工具的工业涂层过程中得到了说明。实现了特征重要性，与分类变量编码中当前最先进的技术 (SotA) 相比，这是一个显着的改进。

CLLMate：天气和气候事件预测的多模式大语言模型

分类： 机器学习, 人工智能, 计算和语言, 大气和海洋物理

作者： Haobo Li, Zhaowei Wang, Jiachen Wang, Alexis Kai Hon Lau, Huamin Qu

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19058v1

摘要： 预测天气和气候事件对于采取适当措施减轻环境危害并最大限度地减少相关损失至关重要。以往的环境预报研究主要集中于预测与闭集事件相关的数值气象变量，而不是直接预测开集事件，这限制了事件预测的综合性。我们提出了天气和气候事件预报（WCEF），这是一项利用气象栅格数据和文本事件数据来预测潜在天气和气候事件的新任务。然而，由于对齐多模态数据的困难以及缺乏足够的监督数据集，这项任务很难完成。因此，我们首先提出一个框架，使用大语言模型（LLM）将历史气象数据与过去的天气和气候事件进行匹配。在此框架中，我们使用大语言模型构建了一个知识图谱，从超过 41,000 篇高度关注环境的新闻文章的语料库中提取有关天气和气候事件的信息。随后，我们将这些事件与气象栅格数据进行映射，创建了一个监督数据集，这是针对 WCEF 任务的 LLM 调优最大且最新颖的数据集。最后，我们介绍了我们的对齐模型 CLLMate（气候大语言模型），这是一种使用气象栅格数据预测天气和气候事件的多模式大语言模型。在评估 CLLMate 时，我们进行了广泛的实验。结果表明 CLLMate 超越了基线和其他多模式大语言模型，展示了利用大语言模型将天气和气候事件与气象数据结合起来的潜力，并强调了 WCEF 任务研究的光明前景。

AIPatient：使用 EHR 和 LLM 支持的代理工作流程模拟患者

分类： 计算和语言, 人工智能

作者： Huizi Yu, Jiayan Zhou, Lingyao Li, Shan Chen, Jack Gallifant, Anye Shi, Xiang Li, Wenyue Hua, Mingyu Jin, Guang Chen, Yang Zhou, Zhao Li, Trisha Gupte, Ming-Li Chen, Zahra Azizi, Yongfeng Zhang, Themistocles L. Assimes, Xin Ma, Danielle S. Bitterman, Lin Lu, Lizhou Fan

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18924v2

摘要： 模拟患者系统在现代医学教育和研究中发挥着至关重要的作用，提供安全、综合的学习环境并支持临床决策模拟。大型语言模型（LLM）可以通过以高保真度和低成本复制医疗状况和医患互动来推进模拟患者系统。然而，确保这些系统的有效性和可信度仍然是一个挑战，因为它们需要庞大、多样化和精确的患者知识库，以及向用户传播强大且稳定的知识。在这里，我们开发了 AIPatient，这是一种先进的模拟患者系统，以 AIPatient 知识图谱 (AIPatient KG) 作为输入，以推理检索增强生成 (Reasoning RAG) 代理工作流程作为生成主干。 AIPatient KG 从重症监护医疗信息市场 (MIMIC)-III 数据库中的电子健康记录 (EHR) 中采样数据，生成了由 1,495 名患者组成的临床多样化且相关的队列，具有较高的知识库有效性 (F1 0.89)。 Reasoning RAG 利用六个 LLM 支持的代理，涵盖检索、KG 查询生成、抽象、检查、重写和摘要等任务。该代理框架在基于 EHR 的医疗问答 (QA) 中的总体准确率达到 94.15%，优于不使用代理或仅使用部分代理集成的基准。我们的系统还具有高可读性（Flesch 阅读轻松度中位数 77.23；Flesch Kincaid 等级中位数 5.6）、稳健性（ANOVA F 值 0.6126，p>0.1）和稳定性（ANOVA F 值 0.782，p>0.1）。 AIPatient 系统的良好性能凸显了其支持广泛应用的潜力，包括医学教育、模型评估和系统集成。

IDGen：项目歧视诱导的 LLM 评估提示生成

分类： 计算和语言

作者： Fan Lin, Shuyi Xie, Yong Dai, Wenlin Yao, Tianjiao Lang, Zishan Xu, Zhichao Hu, Xiao Xiao, Yuhong Liu, Yu Zhang

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18892v1

摘要： 随着大型语言模型 (LLM) 越来越擅长管理复杂的任务，评估集必须跟上这些进步，以确保其保持足够的辨别力。项目歧视（ID）理论广泛应用于教育评估，衡量单个测试项目区分高低表现者的能力。受这一理论的启发，我们提出了一种ID诱导的即时合成框架来评估LLM，以确保评估集能够根据模型能力不断更新和细化。我们的数据合成框架优先考虑广度和特异性。它可以生成全面评估大语言模型能力的提示，同时揭示模型之间有意义的性能差异，从而有效地区分不同任务和领域的相对优势和劣势。为了产生高质量的数据，我们将自我纠正机制纳入我们的泛化框架中，并开发了两个模型来预测提示歧视和难度分数，以促进我们的数据合成框架，为评估数据合成研究提供有价值的工具。我们应用生成的数据来评估五个 SOTA 模型。我们的数据平均得分为 51.92，方差为 10.06。相比之下，之前的作品（即 SELF-INSTRUCT 和 WizardLM）获得了超过 67 分的平均分，方差低于 3.2。结果表明，与之前的工作相比，我们的框架生成的数据更具挑战性和辨别力。我们将发布包含 3,000 多个精心设计的提示的数据集，以促进大语言模型的评估研究。

Open-Nav：利用开源大语言模型探索连续环境中的零射击视觉和语言导航

分类： 机器人技术, 计算机视觉和模式识别

作者： Yanyuan Qiao, Wenqi Lyu, Hui Wang, Zixu Wang, Zerui Li, Yuan Zhang, Mingkui Tan, Qi Wu

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18794v1

摘要： 视觉和语言导航 (VLN) 任务要求代理遵循文本指令在 3D 环境中导航。传统方法使用监督学习方法，严重依赖特定领域的数据集来训练 VLN 模型。最近的方法尝试利用 GPT-4 等闭源大型语言模型 (LLM) 以零样本方式解决 VLN 任务，但面临与实际应用中昂贵的代币成本和潜在数据泄露相关的挑战。在这项工作中，我们介绍了 Open-Nav，这是一项新颖的研究，探索连续环境中零样本 VLN 的开源 LLM。 Open-Nav 采用时空思维链 (CoT) 推理方法将任务分解为指令理解、进度估计和决策。它通过细粒度的物体和空间知识增强场景感知，以提高大语言模型在导航中的推理能力。我们在模拟和现实环境中进行的大量实验表明，与使用闭源大语言模型相比，Open-Nav 实现了具有竞争力的性能。

描绘未来：使用图表问答对大语言模型驱动的数据可视化进行可扩展评估

分类： 计算机视觉和模式识别, 计算和语言

作者： James Ford, Xingmeng Zhao, Dan Schumacher, Anthony Rios

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18764v1

摘要： 我们提出了一种新颖的框架，利用视觉问答（VQA）模型来自动评估大语言模型生成的数据可视化。传统的评估方法往往依赖于人的判断，成本高昂且不可扩展，或者只注重数据准确性，忽视视觉传达的有效性。通过采用 VQA 模型，我们评估数据表示质量和图表的总体沟通清晰度。使用两个领先的 VQA 基准数据集 ChartQA 和 PlotQA 进行实验，并通过 OpenAI 的 GPT-3.5 Turbo 和 Meta 的 Llama 3.1 70B-Instruct 模型生成可视化。我们的结果表明，LLM 生成的图表与基于 VQA 绩效衡量的原始非 LLM 生成的图表的准确性不符。此外，虽然我们的结果表明，少量提示可以显着提高图表生成的准确性，但在大语言模型能够完全匹配人类生成图表的精度之前，仍然需要取得相当大的进展。这强调了我们工作的重要性，我们的工作无需人工注释即可快速迭代，从而加快了研究过程，从而加速了该领域的进步。

通读一遍：用 ASCII 艺术攻击大语言模型和毒性检测系统以掩盖脏话

分类： 计算和语言, 人工智能, 密码学和安全

作者： Sergey Berezin, Reza Farahbakhsh, Noel Crespi

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18708v3

摘要： 我们引入了一系列新颖的对抗性攻击，这些攻击利用了语言模型无法解释 ASCII 艺术的特性。为了评估这些攻击，我们提出了 ToxASCII 基准并开发了两种自定义 ASCII 艺术字体：一种利用特殊标记，另一种使用文本填充字母形状。我们的攻击在十个模型中实现了完美的 1.0 攻击成功率，包括 OpenAI 的 o1-preview 和 LLaMA 3.1。警告：本文包含用于研究目的的有毒语言示例。

不是银弹：LLM 增强的编程错误消息在实践中无效

分类： 人工智能, 人机交互

作者： Eddie Antonio Santos, Brett A. Becker

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18661v1

摘要： ChatGPT 等大型语言模型 (LLM) 的突然出现对整个计算教育界产生了颠覆性影响。大语言模型已被证明擅长为 CS1 和 CS2 问题生成正确的代码，甚至可以充当学习编码的学生的友好助手。最近的研究表明，大语言模型在解释和解决编译器错误消息方面表现出了明显的卓越成果——几十年来，这是学习如何编码最令人沮丧的部分之一。然而，LLM 生成的错误消息解释仅由专家程序员在人工条件下进行评估。这项工作旨在了解新手程序员如何在更现实的场景中解决编程错误消息 (PEM)。我们对 $n$ = 106 名参与者进行了一项受试者内研究，其中学生的任务是修复 6 个有缺陷的 C 程序。对于每个程序，参与者被随机分配使用库存编译器错误消息、专家手写错误消息或 GPT-4 生成的错误消息解释来修复问题。尽管综合基准上有令人鼓舞的证据，但我们发现，根据学生解决每个问题的时间来衡量，GPT-4 生成的错误消息仅在 6 个任务中的 1 个上优于传统编译器错误消息。无论是在客观还是主观指标上，手写解释仍然优于大语言模型和传统的错误信息。

大语言模型是否会遭受多方宿醉的困扰？对话中收件人识别和响应选择的诊断方法

分类： 计算和语言

作者： Nicolò Penzo, Maryam Sajedinia, Bruno Lepri, Sara Tonelli, Marco Guerini

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18602v1

摘要： 由于对话的语言特征和结构特征之间的相互关联，评估多方对话 (MPC) 分类系统的性能具有挑战性。传统的评估方法经常忽略交互图上不同结构复杂程度的模型行为的差异。在这项工作中，我们提出了一种方法管道来研究跨对话特定结构属性的模型性能。作为概念证明，我们专注于响应选择和收件人识别任务，以诊断模型的弱点。为此，我们从大型开放的在线 MPC 语料库中提取具有固定用户数量和良好结构多样性的代表性诊断子数据集。我们进一步从数据最小化方面构建我们的工作，避免使用原始用户名以保护隐私，并提出使用原始文本消息的替代方案。结果表明，响应选择更多地依赖于对话的文本内容，而收件人识别则需要捕获其结构维度。在零样本环境中使用大语言模型，我们进一步强调了对提示变化的敏感性是如何依赖于任务的。

“Oh LLM，我问你，请给我一棵决策树”：零样本决策树归纳和大型语言模型的嵌入

分类： 人工智能, 计算和语言, 机器学习

作者： Ricardo Knauer, Mario Koddenbrock, Raphael Wallsberger, Nicholas M. Brisson, Georg N. Duda, Deborah Falla, David W. Evans, Erik Rodner

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18594v1

摘要： 大型语言模型 (LLM) 提供了在数据有限时利用先验知识进行预测建模的强大方法。在这项工作中，我们演示了大语言模型如何使用其压缩的世界知识来生成本质上可解释的机器学习模型，即决策树，而无需任何训练数据。我们发现这些零样本决策树可以在一些小型表格数据集上超越数据驱动树，并且从这些树派生的嵌入平均性能与数据驱动的基于树的嵌入相当。因此，我们的知识驱动的决策树归纳和嵌入方法可以为低数据状态下数据驱动的机器学习方法提供强大的新基线。

Easy2Hard-Bench：用于分析 LLM 表现和泛化的标准化难度标签

分类： 机器学习, 人工智能, 计算和语言

作者： Mucong Ding, Chenghao Deng, Jocelyn Choo, Zichu Wu, Aakriti Agrawal, Avi Schwarzschild, Tianyi Zhou, Tom Goldstein, John Langford, Anima Anandkumar, Furong Huang

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18433v1

摘要： 虽然从易到难的任务泛化对于概要语言模型 (LLM) 至关重要，但针对各种复杂程度的每个问题进行细粒度难度注释的数据集仍然是空白。为了解决这一限制，我们推出了 Easy2Hard-Bench，这是一个格式一致的 6 个基准数据集集合，涵盖各个领域，例如数学和编程问题、国际象棋难题和推理问题。这些数据集中的每个问题都用数字难度分数进行注释。为了系统地估计问题难度，我们收集了现实世界中的人类或著名排行榜上的大语言模型尝试解决每个问题的大量绩效数据。利用丰富的性能数据，我们应用完善的难度排名系统，例如项目响应理论（IRT）和Glicko-2模型，为问题统一分配数字难度分数。此外，Easy2Hard-Bench 中的数据集与以前的数据集的区别在于具有更高比例的挑战性问题。通过对六位最先进的大语言模型进行广泛的实验，我们对他们在不同难度级别的表现和泛化能力进行了全面分析，旨在启发未来大语言模型泛化的研究。数据集可在 https://huggingface.co/datasets/furonghuang-lab/Easy2Hard-Bench 获取。

通用大语言模型增强 BIM 框架：在语音到 BIM 系统中的应用

分类： 计算和语言, 人工智能, 人机交互

作者： Ghang Lee, Suhyung Jang, Seokho Hyun

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18345v1

摘要： 执行建筑信息模型 (BIM) 任务是一个复杂的过程，由于需要记住众多命令的序列，因此需要陡峭的学习曲线和繁重的认知负担。随着大语言模型 (LLM) 的快速发展，可以预见的是，BIM 任务，包括查询和管理 BIM 数据、4D 和 5D BIM、设计合规性检查或创作设计，将使用书面或口头自然语言（即文本）到 BIM 或语音到 BIM），将很快取代传统的图形用户界面。本文提出了一种通用的 LLM 增强型 BIM 框架，通过提供分步开发流程来加快 LLM 增强型 BIM 应用程序的开发。所提出的框架由六个步骤组成：解释-填充-匹配-结构-执行-检查。本文以外墙细部设计为例，通过实施语音到 BIM 应用程序 NADIA-S（通过语音与人工智能交互实现基于自然语言的建筑细部设计），展示了所提出框架的适用性。

前列腺癌篮内消息的回顾性比较分析：闭域大语言模型与临床团队的回应

分类： 人工智能, 计算机与社会

作者： Yuexing Hao, Jason M. Holmes, Jared Hobson, Alexandra Bennett, Daniel K. Ebner, David M. Routman, Satomi Shiraishi, Samir H. Patel, Nathan Y. Yu, Chris L. Hallemeier, Brooke E. Ball, Mark R. Waddle, Wei Liu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18290v1

摘要： 篮内消息交互在医患沟通中发挥着至关重要的作用，发生在患者护理过程的所有阶段（术前、术中和术后）。然而，回应这些患者的询问已成为医疗保健工作流程的重大负担，耗费了临床护理团队的大量时间。为了解决这个问题，我们推出了 RadOnc-GPT，这是一种由 GPT-4 提供支持的专用大语言模型 (LLM)，其设计重点是通过先进的提示工程对前列腺癌进行放射治疗，并专门用于帮助产生反应。我们将 RadOnc-GPT 与来自全院 EHR 数据库和内部放射肿瘤学特定数据库的患者电子健康记录 (EHR) 集成。 RadOnc-GPT 根据之前记录的 158 个篮子消息交互进行了评估。使用定量自然语言处理 (NLP) 分析和临床医生和护士的两项分级研究来评估 RadOnc-GPT 的反应。我们的研究结果表明，RadOnc-GPT 在“清晰度”和“同理心”方面略优于临床护理团队，同时在“完整性”和“正确性”方面取得了相当的分数。从阅读查询到发送回复，RadOnc-GPT 预计每条消息可以为护士节省 5.2 分钟，为临床医生节省 2.4 分钟。使用 RadOnc-GPT 生成篮内消息草稿有可能减轻临床护理团队的工作量，并通过生成高质量、及时的响应来降低医疗成本。

人工智能政策投影仪：在迭代制图中奠定大语言模型政策设计的基础

分类： 人机交互, 人工智能, 计算和语言, 机器学习

作者： Michelle S. Lam, Fred Hohman, Dominik Moritz, Jeffrey P. Bigham, Kenneth Holstein, Mary Beth Kery

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18203v1

摘要： 无论大型语言模型政策是显式宪法还是隐式奖励模型，评估政策必须应对的无限现实世界情况的覆盖范围都是具有挑战性的。我们引入了受地图制作启发的人工智能政策设计流程，该流程开发了在地图上可视化和迭代的策略，即使无法完全覆盖。借助政策投影仪，政策设计者可以调查模型输入输出对的情况，定义自定义区域（例如“暴力”），并使用可应用于 LLM 输出的规则导航这些区域（例如，如果输出包含“暴力”）和“图形细节”，然后重写，不包含“图形细节”）。政策投影仪支持使用大语言模型分类和指导以及反映政策设计者工作的地图可视化来进行交互式政策创作。在 12 名人工智能安全专家的评估中，我们的系统帮助政策设计者解决超出现有综合危害分类法的有问题的模型行为。

探索 LLM 驱动的量子算法解释

分类： 计算和语言, 软件工程, 量子物理学

作者： Giordano d'Aloisio, Sophie Fortz, Carol Hanna, Daniel Fortunato, Avner Bensoussan, Eñaut Mendiluze Usandizaga, Federica Sarro

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.19028v1

摘要： 背景：量子计算是一种快速发展的新编程范式，给算法的设计和实现带来了重大变化。理解量子算法需要物理和数学知识，这对软件开发人员来说可能具有挑战性。目标：在这项工作中，我们首次分析了大语言模型如何支持开发人员理解量子代码。方法：我们对三种广泛采用的大语言模型（Gpt3.5、Llama2 和 Tinyllama）使用两种不同的人工编写提示风格对七种最先进的量子算法提供的解释质量进行实证分析和比较。我们还分析了大语言模型解释在多轮中的一致性，以及大语言模型如何改进现有的量子算法描述。结果：Llama2 从头开始提供了最高质量的解释，而 Gpt3.5 成为最适合改进现有解释的大语言模型。此外，我们还发现，在提示中添加少量上下文可以显着提高解释的质量。最后，我们观察解释在多轮中如何在定性和语法上保持一致。结论：这项工作突出了有希望的结果，并为量子代码解释大语言模型领域的未来研究提出了挑战。未来的工作包括通过及时优化和解析量子代码解释来完善方法，并对解释的质量进行系统评估。

Data-Prep-Kit：为 LLM 应用程序开发准备数据

分类： 人工智能, 计算和语言, 机器学习

作者： David Wood, Boris Lublinsky, Alexy Roytman, Shivdeep Singh, Abdulhamid Adebayo, Revital Eres, Mohammad Nassar, Hima Patel, Yousaf Shah, Constantin Adam, Petros Zerfos, Nirmit Desai, Daiki Tsuzuku, Takuya Goto, Michele Dolfi, Saptha Surendran, Paramesvaran Selvam, Sungeun An, Yuan Chi Chang, Dhiraj Joshi, Hajar Emami-Gohari, Xuan-Hong Dang, Yan Koyfman, Shahrokh Daijavad

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18164v1

摘要： 数据准备是任何大型语言模型 (LLM) 开发的第一步，也是非常重要的一步。本文介绍了一种易于使用、可扩展且规模灵活的开源数据准备工具包，称为数据准备套件 (DPK)。 DPK 的架构和设计使用户能够根据自己的需求扩展数据准备。借助 DPK，他们可以在本地计算机上准备数据，或者轻松扩展以在具有数千个 CPU 核心的集群上运行。 DPK 配备了一组高度可扩展且可扩展的模块，用于转换自然语言和代码数据。如果用户需要额外的转换，可以使用广泛的 DPK 支持来轻松开发转换创建。这些模块可以独立使用，也可以流水线方式执行一系列操作。在本文中，我们描述了 DPK 架构，并展示了其从小规模到大量 CPU 的性能。 DPK 的模块已用于准备花岗岩模型 [1] [2]。我们相信 DPK 对 AI 社区做出了宝贵的贡献，可以轻松准备数据以增强 LLM 模型的性能或通过检索增强生成 (RAG) 微调模型。

具有从弱到强知识蒸馏的大语言模型的后门攻击

分类： 密码学和安全, 人工智能, 计算和语言

作者： Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17946v2

摘要： 尽管大型语言模型 (LLM) 因其卓越的功能而得到广泛应用，但已被证明容易受到后门攻击。这些攻击通过毒害训练样本和全参数微调，将有针对性的漏洞引入 LLM。然而，这种后门攻击是有限的，因为它们需要大量的计算资源，特别是随着 LLM 规模的增加。此外，参数高效微调（PEFT）提供了一种替代方案，但受限的参数更新可能会阻碍触发器与目标标签的对齐。在本研究中，我们首先验证PEFT后门攻击在实现可行性能方面可能会遇到挑战。为了解决这些问题并提高PEFT后门攻击的有效性，我们提出了一种基于特征对齐增强知识蒸馏（W2SAtack）的从弱到强的新型后门攻击算法。具体来说，我们通过全参数微调对小规模语言模型进行毒害，以充当教师模型。然后，教师模型通过采用 PEFT 的特征对齐增强知识蒸馏，将后门秘密转移到大规模学生模型。理论分析表明，W2SAtack 有潜力增强后门攻击的有效性。我们展示了 W2SAtack 在四种语言模型、四种后门攻击算法和两种不同架构的教师模型的分类任务上的卓越性能。实验结果表明，针对 PEFT 的后门攻击成功率接近 100%。

Role-RL：在线长上下文处理和角色强化学习，帮助不同的大语言模型发挥最佳角色

分类： 人工智能

作者： Lewei He, Tianyu Shi, Pengran Huang, Bingzhi Chen, Qianglong Chen, Jiahui Pan

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18014v1

摘要： 由于其实现复杂性、训练效率和数据稀疏性，具有长上下文处理的大型语言模型（LLM）仍然具有挑战性。为了解决这个问题，当我们处理无限长度的文档时，提出了一种名为在线长上下文处理（OLP）的新范式，这通常发生在各种流媒体的信息接收和组织中，例如自动新闻报道、实时电子直播等。商业和病毒式短视频。而且，在爆发式增长的情况下，我们在众多LLM中选择最合适的LLM时常常遇到一个困境，就是追求优异的表现、实惠的价格和较短的响应延迟。鉴于此，我们还开发了角色强化学习（Role-RL），根据不同的LLM的实际表现，自动将不同的LLM部署在OLP管道中各自的角色中。在我们的 OLP-MINI 数据集上进行了大量的实验，发现采用 Role-RL 框架的 OLP 达到了 OLP 基准，平均召回率为 93.2%，LLM 成本节省了 79.4%。代码和数据集可在以下网址公开获取：https://anonymous.4open.science/r/Role-RL。

BEATS：通过 BackVerify 和基于自适应消歧的高效树搜索来优化 LLM 数学能力

分类： 计算和语言, 机器学习

作者： Linzhuang Sun, Hao Liang, Wentao Zhang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17972v1

摘要： 大型语言模型 (LLM) 在广泛的任务和领域中表现出了卓越的性能。然而，由于数学的严谨性和逻辑性，他们在解决数学问题时仍然遇到困难。之前的研究已经采用监督微调（SFT）、即时工程和基于搜索的方法等技术来提高大语言模型解决数学问题的能力。尽管做出了这些努力，但它们的性能仍然不够理想，并且需要大量的计算资源。为了解决这个问题，我们提出了一种新方法，即 BEATS，来增强数学问题解决能力。我们的方法利用新设计的提示来指导模型迭代重写、前进一步，并根据先前的步骤生成答案。此外，我们引入了一种新的反向验证技术，该技术使用 LLM 来验证生成答案的正确性。此外，我们采用剪枝树搜索来优化搜索时间，同时实现强大的性能。值得注意的是，我们的方法将 Qwen2-7b-Instruct 的分数从 36.94 提高到 61.52，在 MATH 基准上优于 GPT4 的 42.5。

通过对比知识蒸馏对大语言模型进行从弱到强的后门攻击

分类： 密码学和安全, 人工智能, 计算和语言

作者： Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17946v1

摘要： 尽管大型语言模型 (LLM) 因其卓越的功能而得到广泛应用，但已被证明容易受到后门攻击。这些攻击通过毒害训练样本和全参数微调，将有针对性的漏洞引入 LLM。然而，这种后门攻击是有限的，因为它们需要大量的计算资源，特别是随着 LLM 规模的增加。此外，参数高效微调（PEFT）提供了一种替代方案，但受限的参数更新可能会阻碍触发器与目标标签的对齐。在本研究中，我们首先验证PEFT后门攻击在实现可行性能方面可能会遇到挑战。为了解决这些问题并提高PEFT后门攻击的有效性，我们提出了一种基于对比知识蒸馏的从弱到强的新型后门攻击算法（W2SAtack）。具体来说，我们通过全参数微调对小规模语言模型进行毒害，以充当教师模型。然后，教师模型通过对比知识蒸馏（使用 PEFT）将后门秘密转移到大规模学生模型中。理论分析表明，W2SAtack 有潜力增强后门攻击的有效性。我们展示了 W2SAtack 在四种语言模型、四种后门攻击算法和两种不同架构的教师模型的分类任务上的卓越性能。实验结果表明，针对 PEFT 的后门攻击成功率接近 100%。

AssistantX：人类协作环境中由大语言模型支持的主动助理

分类： 机器人技术, 人工智能, 多代理系统

作者： Nan Sun, Bo Mao, Yongchang Li, Lumeng Ma, Di Guo, Huaping Liu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17655v1

摘要： 人类居住环境中对智能助手的需求不断增长，推动了自主机器人系统的重大研究。然而，传统的服务机器人和虚拟助手由于动态推理和交互的能力有限，尤其是在需要人类协作时，在执行现实世界的任务时遇到了困难。大型语言模型的最新发展为改进这些系统开辟了新途径，实现更复杂的推理和自然交互功能。在本文中，我们介绍了 AssistantX，这是一种由大语言模型支持的主动助理，旨在在物理办公环境中自主操作。与传统服务机器人不同，AssistantX 利用新颖的多代理架构 PPDR4X，提供先进的推理能力和全面的协作意识。通过有效地弥合虚拟操作和物理交互之间的差距，AssistantX 在管理复杂的现实场景方面展示了强大的性能。我们的评估强调了该架构的有效性，表明 AssistantX 可以响应明确的指令，主动从内存中检索补充信息，并主动寻求团队成员的协作以确保成功完成任务。更多详细信息和视频可以在 https://assistantx-agent.github.io/AssistantX/ 找到。

GPT博士在校园咨询：了解高等教育学生对大语言模型辅助的心理健康服务的看法

分类： 人机交互, 人工智能

作者： Owen Xingjian Zhang, Shuyao Zhou, Jiayi Geng, Yuhan Liu, Sunny Xun Liu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17572v1

摘要： 为了应对大学生面临的日益严重的心理健康挑战，我们试图了解他们对如何利用人工智能应用，特别是大型语言模型（LLM）来增强他们的心理健康的看法。通过对十名不同的学生进行试点访谈，我们探讨了他们对在五个虚构场景中使用大语言模型的看法：一般信息查询、初步筛选、重塑患者与专家的动态、长期护理和后续护理。我们的研究结果显示，学生对大语言模型的接受程度因情况而异，参与者强调了潜在的好处，例如主动参与和个性化的后续护理，以及担忧，包括培训数据和情感支持的限制。这些见解告诉我们如何设计和实施人工智能技术，以有效支持和增强学生的心理健康，特别是在大语言模型可以补充传统方法的情况下，同时保持同理心并尊重个人偏好。

从新闻到预测：将基于 LLM 的时间序列预测中的事件分析与反思相结合

分类： 人工智能

作者： Xinlei Wang, Maike Feng, Jing Qiu, Jinjin Gu, Junhua Zhao

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17515v1

摘要： 本文介绍了一种使用大型语言模型 (LLM) 和生成代理来增强时间序列预测的新方法。以语言为媒介，我们的方法自适应地将各种社会事件集成到预测模型中，使新闻内容与时间序列波动保持一致，以获得丰富的见解。具体来说，我们利用基于 LLM 的代理迭代过滤掉不相关的新闻，并采用类人推理和反思来评估预测。这使得我们的模型能够分析复杂的事件，例如突发事件和社会行为的变化，并不断完善新闻的选择逻辑和代理输出的稳健性。通过使用时间序列数据编译选定的新闻，我们对 LLaMa2 预训练模型进行了微调。结果表明，预测准确性显着提高，并表明通过有效利用非结构化新闻数据，时间序列预测可能发生范式转变。

HaloScope：利用未标记的 LLM 世代进行幻觉检测

分类： 机器学习, 计算和语言

作者： Xuefeng Du, Chaowei Xiao, Yixuan Li

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17504v1

摘要： 大语言模型（LLM）应用的激增引发了人们对误导性或捏造信息（称为幻觉）的产生的担忧。因此，检测幻觉对于维持对大语言模型生成内容的信任至关重要。学习真实性分类器的主要挑战是缺乏大量带标签的真实数据和幻觉数据。为了应对这一挑战，我们引入了 HaloScope，这是一种新颖的学习框架，它利用野外未标记的 LLM 世代进行幻觉检测。这种未标记的数据是在开放世界中部署大语言模型时自由产生的，并且包含真实的和幻觉的信息。为了利用未标记的数据，我们提出了一个自动隶属估计分数，用于区分未标记的混合数据中的真实和不真实的生成，从而能够在顶部训练二元真实性分类器。重要的是，我们的框架不需要额外的数据收集和人工注释，为实际应用提供了强大的灵活性和实用性。大量实验表明，HaloScope 可以实现卓越的幻觉检测性能，大幅领先竞争对手。代码可在 https://github.com/deeplearningwisc/halscope 获取。

HDFlow：通过混合思维和动态工作流程增强大语言模型解决复杂问题的能力

分类： 计算和语言, 人工智能

作者： Wenlin Yao, Haitao Mi, Dong Yu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17433v1

摘要： 尽管大型语言模型（LLM）最近取得了进展，但它们在需要多步骤思考和结合各种技能的复杂推理问题上的表现仍然有限。为了解决这个问题，我们提出了一种新的框架 HDFlow，用于 LLM 的复杂推理，以自适应方式结合了快速和慢速思维模式。我们的方法由两个关键组成部分组成：1）一种称为动态工作流的缓慢、深思熟虑的推理新方法，它自动将复杂的问题分解为更易于管理的子任务，并动态设计一个工作流来组装专门的大语言模型或符号推理工具来解决子任务任务； 2）混合思维，根据问题复杂程度动态组合快慢思维的通用框架。最后，我们提出了一种易于扩展的方法，用于自动合成包含 27K 个具有挑战性的复杂推理推理问题的大规模数据集，以及一种混合思维调整方法，可在该数据集上训练较小的大语言模型，以内化快/慢混合推理策略。对四个推理基准数据集的实验表明，我们的动态工作流程的慢速思维明显优于思维链，并且混合思维实现了最高的准确性，同时在计算效率和性能之间提供了有效的平衡。使用我们的混合思维方法进行微调还可以显着提高开源语言模型的复杂推理能力。结果展示了缓慢思维、动态工作流程和混合思维在扩大大语言模型解决复杂问题前沿的前景\footnote{代码和数据将在\url发布{https://github.com/wenlinyao/HDFlow }.}。

发现早期层中的宝石：通过减少 1000 倍的输入令牌来加速长上下文 LLM

分类： 计算和语言, 人工智能, 机器学习

作者： Zhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17422v1

摘要： 大型语言模型 (LLM) 在处理长上下文输入方面表现出了卓越的能力，但这是以增加计算资源和延迟为代价的。我们的研究引入了一种针对长上下文瓶颈的新颖方法，以加速 LLM 推理并减少 GPU 内存消耗。我们的研究表明，大语言模型可以在生成查询答案之前识别早期层中的相关标记。利用这一见解，我们提出了一种算法，该算法使用 LLM 的早期层作为过滤器来选择和压缩输入标记，从而显着减少后续处理的上下文长度。与标准注意力和 SnapKV/H2O 等现有技术相比，我们的方法 GemFilter 在速度和内存效率方面都有显着改进。值得注意的是，与 SOTA 方法相比，它实现了 2.4$\times$ 的加速和 30% 的 GPU 内存使用量减少。对 Haystack 任务中 Needle 的评估表明，GemFilter 的性能显着优于标准注意力 SnapKV，并且在 LongBench 挑战中表现出可比的性能。 GemFilter 简单、无需培训，并且广泛适用于不同的大语言模型。至关重要的是，它通过允许人类检查所选的输入序列来提供可解释性。这些发现不仅为LLM部署提供了实际好处，而且增强了我们对LLM内部机制的理解，为LLM设计和推理的进一步优化铺平了道路。我们的代码位于 \url{https://github.com/SalesforceAIResearch/GemFilter}。

心理健康的严重程度预测：基于大语言模型的新型多语言数据集的创建、分析和评估

分类： 计算和语言, 机器学习

作者： Konstantinos Skianis, John Pavlopoulos, A. Seza Doğruöz

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17397v1

摘要： 大语言模型（LLM）越来越多地融入各个医学领域，包括心理健康支持系统。然而，关于大语言模型在非英语心理健康支持申请中的有效性的研究存在空白。为了解决这个问题，我们提出了一种广泛使用的心理健康数据集的新颖的多语言改编，将英语翻译成六种语言（希腊语、土耳其语、法语、葡萄牙语、德语和芬兰语）。该数据集可以对大语言模型在检测心理健康状况并评估其严重程度的多种语言方面的表现进行全面评估。通过试验 GPT 和 Llama，我们观察到不同语言的性能存在相当大的差异，尽管是在相同的翻译数据集上进行评估。这种不一致凸显了多语言心理健康支持固有的复杂性，其中特定语言的细微差别和心理健康数据覆盖范围可能会影响模型的准确性。通过全面的错误分析，我们强调了在医疗环境中完全依赖大型语言模型 (LLM) 的风险（例如，它们可能导致误诊）。此外，我们提出的方法为多语言任务提供了显着的成本节省，为大规模实施提供了主要优势。

通过隐式思维链内化 ASR，实现高效的语音对话大语言模型

分类： 计算和语言

作者： Robin Shing-Hei Yuen, Timothy Tin-Long Tse, Jian Zhu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17353v1

摘要： 当前基于语音的大语言模型主要接受广泛的 ASR 和 TTS 数据集的培训，在与这些领域相关的任务中表现出色。然而，他们处理直接语音对话的能力仍然受到明显限制。这些模型通常依赖于 ASR 到 TTS 的思想链管道，在生成音频响应之前将语音转换为文本进行处理，这会引入延迟并丢失音频功能。我们提出了一种将 ASR 思想链隐式内化到语音大语言模型中的方法，从而增强其原生语音理解能力。我们的方法减少了延迟并提高了模型对语音的本机理解，为更高效、更自然的实时音频交互铺平了道路。我们还发布了一个大规模的合成对话数据集以促进进一步的研究。

使用视觉工作空间指导大语言模型总结以进行意义建构

分类： 人机交互

作者： Xuxin Tang, Eric Krokos, Can Liu, Kylie Davidson, Kirsten Whitley, Naren Ramakrishnan, Chris North

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17289v1

摘要： 大型语言模型（LLM）由于其快速且高质量的文本生成而在摘要中得到了广泛的应用。意义建构的总结涉及信息压缩和洞察提取。意义建构任务中的人工指导可以对大语言模型的相关信息进行优先排序和聚类。然而，用户必须将他们的认知思维转化为自然语言才能与大语言模型进行交流。我们能否使用更具可读性和可操作性的视觉表征来指导意义建构的总结过程？因此，我们建议在大语言模型生成之前引入一个中间步骤——用于人类意义建构的示意性视觉工作空间，以引导和完善总结过程。我们进行了一系列概念验证实验，以研究 GPT-4 通过可视化工作空间增强摘要的潜力。利用带有真实摘要的文本意义构建数据集，我们评估了人类生成的视觉工作空间对大语言模型生成的数据集摘要的影响，并评估了空间引导摘要的有效性。我们对典型人类工作空间中的几种可提取信息进行了分类，这些信息可以注入到设计提示中以指导大语言模型总结。结果表明，此类工作空间如何帮助大语言模型与事实真相保持一致，从而获得比没有工作空间更准确的总结结果。

Mnemosyne：无需近似即可高效服务数百万上下文长度 LLM 推理请求的并行化策略

分类： 机器学习, 分布式、并行和集群计算

作者： Amey Agrawal, Junda Chen, Íñigo Goiri, Ramachandran Ramjee, Chaojie Zhang, Alexey Tumanov, Esha Choukse

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17264v1

摘要： 随着大型语言模型 (LLM) 不断发展以处理越来越长的上下文，为数百万个标记范围内的上下文长度提供推理请求提出了独特的挑战。虽然现有技术对于训练来说是有效的，但它们无法解决推理的独特挑战，例如不同的预填充和解码阶段及其相关的延迟限制 - 例如第一个令牌的时间 (TTFT) 和令牌之间的时间 (TBT)。此外，目前还没有长上下文推理解决方案可以允许批处理请求来提高硬件利用率。在本文中，我们提出了高效交互式长上下文 LLM 推理的三个关键创新，无需诉诸任何近似：自适应分块以减少混合批处理中的预填充开销、序列管道并行性 (SPP) 以降低 TTFT 以及 KV 缓存并行性 (KVP)尽量减少 TBT。这些贡献被结合到 3D 并行策略中，使 Mnemosyne 能够将交互式推理扩展到至少高达 1000 万个令牌的上下文长度，并通过批处理实现高吞吐量。据我们所知，Mnemosyne 是第一个能够高效支持 1000 万个长上下文推理，同时在高达 1000 万个上下文的 TBT（30 毫秒）上满足生产级 SLO。

复数：通过模拟社交团体指导大语言模型的系统

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互, 多代理系统

作者： Joshua Ashkinaze, Emily Fry, Narendra Edara, Eric Gilbert, Ceren Budak

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17213v1

摘要： 最近的争论引起了人们的担忧，即语言模型可能支持某些观点。但是，如果解决方案不是以“无处可去的观点”为目标，而是利用不同的观点呢？我们引入了 Plurals，一个用于多元人工智能审议的系统和 Python 库。 Pplurals 由代理人（大语言模型，可选角色）组成，他们在可定制的结构中进行审议，并由主持人监督审议。复数是模拟社会整体的生成器。 Plurals 与政府数据集集成，创建具有全国代表性的人物角色，包括受民主审议理论启发的审议模板，并允许用户在结构中自定义信息共享结构和审议行为。六个案例研究证明了理论结构和功效的忠实度。三项随机实验表明，模拟焦点小组产生的输出与相关受众的在线样本产生共鸣（在 75% 的试验中选择零样本生成）。复数既是多元人工智能的范式，也是具体的体系。 Plurals 库可在 https://github.com/josh-ashkinaze/plurals 上获取，并将不断更新。

将每个应用程序变成一个代理：通过基于 API 优先的 LLM 代理实现高效的人机交互

分类： 人工智能

作者： Junting Lu, Zhiyang Zhang, Fangkai Yang, Jue Zhang, Lu Wang, Chao Du, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17140v1

摘要： 多模态大语言模型 (MLLM) 使基于 LLM 的代理能够直接与应用程序用户界面 (UI) 交互，从而提高代理在复杂任务中的性能。然而，由于大量的顺序 UI 交互，这些代理通常会遇到高延迟和低可靠性的问题。为了解决这个问题，我们提出了 AXIS，这是一种基于 LLM 的新型代理框架，优先考虑通过应用程序编程接口 (API) 进行的操作，而不是 UI 操作。该框架还通过自动探索应用程序来促进 API 的创建和扩展。我们在 Office Word 上的实验表明，与人类相比，AXIS 将任务完成时间减少了 65%-70%，认知工作量减少了 38%-53%，同时保持了 97%-98% 的准确度。我们的工作为大语言模型时代的应用程序提供商提供了新的人机交互 (HACI) 框架和全新的 UI 设计原则。它还探索了将每个应用程序转变为代理的可能性，为以代理为中心的操作系统（Agent OS）铺平了道路。

表征 LLM 残余流中的稳定区域

分类： 机器学习

作者： Jett Janiak, Jacek Karwowski, Chatrik Singh Mangat, Giorgi Giglemiani, Nora Petrova, Stefan Heimersheim

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17113v1

摘要： 我们在 Transformers 的残余流中识别出“稳定区域”，其中模型的输出对小的激活变化保持不敏感，但在区域边界处表现出高敏感性。这些区域在训练期间出现，并随着训练的进展或模型大小的增加而变得更加明确。这些区域似乎比之前研究的多胞体要大得多。我们的分析表明，这些稳定区域与语义区别相一致，其中相似的提示聚集在区域内，并且来自同一区域的激活导致相似的下一个标记预测。

使用大语言模型将医患互动实时转录并总结为印度尼西亚的 ePuskesmas

分类： 人工智能, 计算和语言, 声音, 音频和语音处理

作者： Azmul Asmar Irfan, Nur Ahmad Khatim, Mansur M. Arief

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17054v1

摘要： 导致 Puskesmas 效率低下的关键问题之一是医患互动非常耗时。医生需要进行彻底的会诊，包括诊断患者的病情、提供治疗建议以及将详细的记录记录到病历中。在语言背景不同的地区，医生常常不得不提出澄清问题，从而进一步延长了这个过程。虽然诊断至关重要，但通常可以使用人工智能实现转录和总结自动化，以提高时间效率并帮助医生提高护理质量并实现早期诊断和干预。本文提出了一种使用本地化大语言模型 (LLM) 来转录、翻译和总结医患对话的解决方案。我们利用 Whisper 模型进行转录，并使用 GPT-3 将它们汇总为 ePuskemas 医疗记录格式。该系统作为现有网络浏览器扩展的附加组件实现，允许医生在交谈时填写患者表格。通过利用该解决方案进行实时转录、翻译和摘要，医生可以缩短患者护理的周转时间，同时提高记录的质量，使未来的就诊变得更加详细和富有洞察力。这项创新解决了印度尼西亚设施过度拥挤和医疗保健提供者的行政负担等挑战。我们相信，该解决方案将帮助医生节省时间、提供更好的护理并生成更准确的医疗记录，这是迈向现代化医疗保健并确保患者即使在资源有限的情况下也能获得及时、高质量护理的重要一步。

AXCEL：使用大语言模型自动进行可解释一致性评估

分类： 人工智能, 计算和语言

作者： P Aditya Sreekar, Sahil Verma, Suransh Chopra, Sarik Ghazarian, Abhishek Persad, Narayanan Sadagopan

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16984v1

摘要： 大型语言模型 (LLM) 在工业界和学术界广泛用于各种任务，但评估生成的文本响应的一致性仍然是一个挑战。 ROUGE 和 BLEU 等传统指标与人类判断的相关性较弱。使用自然语言推理 (NLI) 的更复杂的指标已显示出改进的相关性，但实施起来很复杂，由于跨域泛化性差，需要特定领域的培训，并且缺乏可解释性。最近，出现了使用大语言模型作为评估者的基于提示的指标；虽然它们更容易实施，但仍然缺乏可解释性，并且依赖于特定任务的提示，这限制了它们的普遍性。这项工作介绍了使用大语言模型 (AXCEL) 的自动可解释一致性评估，这是一种基于提示的一致性度量，它通过提供详细的推理和查明不一致的文本范围来提供一致性分数的解释。 AXCEL 也是一个通用指标，可以在不更改提示的情况下应用于多个任务。 AXCEL 在检测摘要不一致、自由文本生成和数据到文本转换任务不一致方面均优于非提示和基于提示的最先进 (SOTA) 指标，提高了 8.7%、自由文本生成提高了 6.2%、数据到文本转换任务提高了 29.4%。我们还评估了基础大语言模型对基于提示的指标性能的影响，并使用最新的大语言模型重新校准了基于提示的 SOTA 指标，以进行公平比较。此外，我们还表明 AXCEL 使用开源大语言模型展示了强大的性能。

用于动态设备上 LLM 个性化的自适应自我监督学习策略

分类： 计算和语言, 人工智能, 机器学习

作者： Rafael Mendoza, Isabella Cruz, Richard Liu, Aarav Deshmukh, David Williams, Jesscia Peng, Rohan Iyer

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16973v1

摘要： 大型语言模型 (LLM) 彻底改变了我们与技术交互的方式，但它们针对个人用户偏好的个性化仍然是一个重大挑战，特别是在设备上的应用程序中。传统方法通常严重依赖标记数据集，并且可能会占用大量资源。为了解决这些问题，我们提出了自适应自我监督学习策略（ASLS），它利用自我监督学习技术来动态个性化大语言模型。该框架包括用于收集交互数据的用户分析层和用于实时模型微调的神经适应层。这种创新方法可以从用户反馈中持续学习，从而使模型能够生成与用户特定上下文密切相关的响应。 ASLS 的自适应机制最大限度地减少了计算需求并提高了个性化效率。各种用户场景的实验结果说明了 ASLS 在提高用户参与度和满意度方面的卓越性能，突显了其将 LLM 重新定义为高度响应和上下文感知的设备上系统的潜力。

DALDA：利用扩散模型和具有自适应指导缩放的大语言模型的数据增强

分类： 计算机视觉和模式识别

作者： Kyuheon Jung, Yongdeuk Seo, Seongwoo Cho, Jaeyoung Kim, Hyun-seok Min, Sungchul Choi

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16949v1

摘要： 在本文中，我们提出了一种有效的数据增强框架，利用大型语言模型（LLM）和扩散模型（DM）来应对数据稀缺场景中固有的挑战。最近，DM 开辟了生成合成图像以补充一些训练图像的可能性。然而，增加合成图像的多样性也会增加生成目标分布之外的样本的风险。我们的方法通过大语言模型将新颖的语义信息嵌入到文本提示中并利用真实图像作为视觉提示来解决这个问题，从而生成语义丰富的图像。为了确保生成的图像保持在目标分布范围内，我们根据每个图像的 CLIPScore 动态调整指导权重以控制多样性。实验结果表明，我们的方法生成的合成图像具有增强的多样性，同时保持对目标分布的遵守。因此，事实证明，我们的方法在几个基准测试的小样本设置中更加有效。我们的代码可在 https://github.com/kkyuhun94/dalda 获取。

使用令牌凝聚力对 LLM 生成的文本进行零样本检测

分类： 计算和语言

作者： Shixuan Ma, Quan Wang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16914v1

摘要： 大型语言模型 (LLM) 的功能不断增强和广泛使用，凸显了自动检测 LLM 生成的文本的必要性。零样本探测器由于其免训练的性质，受到了相当大的关注并取得了显着的成功。在本文中，我们确定了一个新特征，即令牌凝聚力，它对于零样本检测很有用，并且我们证明了 LLM 生成的文本往往比人类编写的文本表现出更高的令牌凝聚力。基于这一观察，我们设计了 TOCSIN，一种通用的双通道检测范例，它使用令牌内聚性作为即插即用模块来改进现有的零样本检测器。为了计算 token 内聚性，TOCSIN 只需要几轮随机 token 删除和语义差异测量，使其特别适合用于生成的源模型不可访问的实际黑盒设置。使用四个最先进的基础检测器在各种数据集、源模型和评估设置上进行的广泛实验证明了所提出方法的有效性和通用性。代码位于：\url{https://github.com/Shixuan-Ma/TOCSIN}。

大语言模型的实践和社会基础路线图

分类： 机器人技术, 人工智能, 计算和语言, 人机交互, I.2.7; I.2.9; J.4; F.3.2; D.3.1

作者： Sara Incao, Carlo Mazzola, Giulia Belgiovine, Alessandra Sciutti

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16900v1

摘要： 大型语言模型 (LLM) 和机器人系统的融合带来了机器人领域的变革范式，不仅在通信领域提供了无与伦比的功能，而且在多模式输入处理、高级推理和计划生成等技能方面也提供了无与伦比的功能。将大语言模型知识扎根于实证世界被认为是发挥机器人学大语言模型效率的重要途径。然而，通过多模式方法或机器人的身体将大语言模型的表征与外部世界连接起来并不足以让他们理解他们正在操作的语言的含义。这项工作从人类身上汲取灵感，提请人们关注智能体掌握和体验世界的三个必要要素。大语言模型的基础路线图被设想为以主动身体系统作为体验环境的参考点，为与外部世界进行连贯、自我相关的互动而提供的时间结构化体验，以及获得共同基础的共享体验的社交技能。

GRACE：利用大语言模型和人类解释生成适合社交的机器人动作

分类： 机器人技术

作者： Fethiye Irmak Dogan, Umut Ozyurt, Gizem Cinar, Hatice Gunes

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16879v1

摘要： 在人类环境中操作时，机器人需要处理复杂的任务，同时遵守社会规范并适应个人偏好。例如，基于常识，家用机器人可以预测它应该避免在社交聚会期间吸尘，但仍然可能不确定是否应该在有客人之前或之后吸尘。在这种情况下，将常识知识与人类偏好（通常通过人类解释传达）相结合是基本的，但对现有系统来说也是一个挑战。在本文中，我们介绍了 GRACE，这是一种解决此问题的新方法，同时生成适合社交的机器人动作。 GRACE 利用大型语言模型 (LLM) 的常识知识，并通过生成网络架构将这些知识与人类解释相集成。 GRACE 的双向结构使机器人能够利用人类的解释来完善和增强 LLM 预测，并使机器人能够为人类指定的动作生成此类解释。我们的实验评估表明，整合人类解释可以提高 GRACE 的性能，它优于多个基线并提供合理的解释。

PeerArg：大语言模型的论证性同行评审

分类： 人工智能

作者： Purin Sukpanichnant, Anna Rapberger, Francesca Toni

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16813v1

摘要： 同行评审是确定提交给科学会议或期刊的论文质量的重要过程。然而，它是主观的并且容易产生偏见。已经进行了几项研究来应用 NLP 技术来支持同行评审，但它们基于黑盒技术，并且其输出难以解释和信任。在本文中，我们提出了一种新颖的管道来支持和理解同行评审的评审和决策过程：将大语言模型与知识表示方法相结合的 PeerArg 系统。 PeerArg 输入一组论文评论并输出论文接受预测。我们评估了 PeerArg 管道在三个不同数据集上的性能，并与一种新颖的端到端 LLM 进行比较，该 LLM 使用少量学习来预测给定评论的论文接受度。结果表明，end-2-end LLM 能够预测审稿中论文的接受程度，但 PeerArg 管道的变体优于该 LLM。

基于上下文增强的 LLM 框架，用于自动测试重构

分类： 软件工程

作者： Yi Gao, Xing Hu, Xiaohu Yang, Xin Xia

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16739v1

摘要： 测试气味源于不良的设计实践和领域知识不足，这会降低测试代码的质量并使其更难以维护和更新。手动重构测试气味既耗时又容易出错，这凸显了自动化方法的必要性。当前基于规则的重构方法通常在预定义规则未涵盖的场景中遇到困难，并且缺乏有效处理不同情况所需的灵活性。在本文中，我们提出了一种称为 UTRefactor 的新颖方法，这是一种上下文增强的、基于 LLM 的框架，用于 Java 项目中的自动测试重构。 UTRefactor 从测试代码中提取相关上下文，并利用外部知识库，其中包括测试气味定义、描述和基于 DSL 的重构规则。 UTRefactor通过思路链的方式模拟手动重构过程，指导LLM逐步消除测试异味，确保整个重构过程的准确性和一致性。此外，我们还实施了检查点机制来促进全面重构，特别是当存在多种气味时。我们对来自 6 个开源 Java 项目的 879 个测试进行了 UTRefactor 评估，将测试异味数量从 2,375 个减少到 265 个，减少了 89%。 UTRefactor 在气味消除方面优于直接基于 LLM 的重构方法 61.82%，并且显着超过基于规则的测试气味重构工具的性能。我们的结果证明了 UTRefactor 在提高测试代码质量同时最大限度地减少手动参与方面的有效性。

“它完美地解释了我目前正在经历的事情”：了解用户对大语言模型增强叙事干预的看法

分类： 人机交互

作者： Ananya Bhattacharjee, Sarah Yi Xu, Pranav Rao, Yuchen Zeng, Jonah Meyerhoff, Syed Ishtiaque Ahmed, David C Mohr, Michael Liut, Alex Mariakakis, Rachel Kornfield, Joseph Jay Williams

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16732v1

摘要： 关于克服个人挣扎的故事可以有效地说明心理学理论在现实生活中的应用，但它们可能无法与个人的经历产生共鸣。在这项工作中，我们采用大型语言模型（LLM）来创建定制的叙述，承认并解决个人面临的独特的具有挑战性的想法和情况。我们的研究涉及两种环境中的 346 名年轻人，结果表明，大语言模型增强的故事在传达关键要点、促进反思和减少对消极想法的信念方面比人类编写的故事更好。这些故事不仅被认为更具有相关性，而且与人类撰写的故事同样真实，凸显了大语言模型在帮助年轻人应对困境方面的潜力。这项工作的结果为未来基于叙事的数字心理健康干预措施提供了关键的设计考虑因素，例如需要保持相关性而不转向难以置信，以及完善人工智能增强内容的措辞和语气。

PMSS：用于 LLM 微调的预训练矩阵骨架选择

分类： 计算和语言, 机器学习

作者： Qibin Wang, Xiaolin Hu, Weikai Xu, Wei Liu, Jian Luan, Bin Wang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16722v1

摘要： 低秩适应（LoRA）及其变体最近引起了人们的广泛兴趣，因为它们能够避免过多的推理成本。然而，LoRA仍然遇到以下挑战：（1）低秩假设的局限性； (2)其初始化方法可能不是最优的。为此，我们提出了 PMSS（预训练矩阵骨架选择），它能够以低成本实现高秩更新，同时利用预训练权重中固有的语义和语言信息。它通过从预先训练的权重矩阵中选择骨架并仅学习一个小矩阵来实现这一点。实验表明，在可训练参数较少的任务中，PMSS 的性能优于 LoRA 和其他微调方法。我们展示了其有效性，特别是在处理复杂任务方面，例如 DROP 基准测试（LLaMA2-7B/13B 上+3.4%/+5.9%）和数学推理（LLaMA2-7B、Mistral 上+12.89%/+5.61%/+3.11%） GSM8K 的-7B 和 Gemma-7B）。代码和模型将很快发布。

大语言模型的蕴涵驱动隐私政策分类

分类： 人工智能

作者： Bhanuka Silva, Dishanika Denipitiyage, Suranga Seneviratne, Anirban Mahanti, Aruna Seneviratne

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16621v1

摘要： 虽然许多在线服务为最终用户提供隐私政策，以供其阅读和了解正在收集哪些个人数据，但这些文档通常冗长而复杂。结果，绝大多数用户根本不阅读它们，导致在不知情的情况下收集数据。人们已经做出了一些尝试，通过总结隐私政策、为关键部分提供自动注释或标签，或者提供聊天界面来提出特定问题，从而使隐私政策更加用户友好。随着大型语言模型 (LLM) 的最新进展，我们有机会开发更有效的工具来解析隐私策略并帮助用户做出明智的决策。在本文中，我们提出了一种基于蕴涵驱动的大语言模型框架，将隐私政策的段落分类为易于用户理解的有意义的标签。结果表明，我们的框架优于传统的 LLM 方法，F1 分数平均提高了 11.2%。此外，我们的框架提供了本质上可解释且有意义的预测。

EventHallusion：在视频大语言模型中诊断事件幻觉

分类： 计算机视觉和模式识别

作者： Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Jingjing Chen, Yu-Gang Jiang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16597v1

摘要： 最近，多模态大语言模型（MLLM）在视频理解领域取得了重大进展。尽管他们展示了出色的内容推理和指令跟踪能力，但与图像领域的对应物相比，这些 VideoLLM 的幻觉问题很少被探讨。为了缩小这一差距，我们首先提出了 EventHallusion，这是一个新颖的基准，专注于评估 VideoLMM 在视频事件理解方面的幻觉现象。基于对现有 VideoLLM 与其基础模型的先验纠缠在一起的观察，我们的 EventHallusion 是通过精心收集视频和注释问题来策划的，以故意误导 VideoLLM 根据这些先验解释事件，而不是准确理解视频内容。另一方面，我们还提出了一种简单而有效的方法，称为时间对比解码（TCD），来解决 VideoLLM 的幻觉问题。所提出的 TCD 通过在自回归解码阶段将原始视频与构建的对应视频进行比较（其时间线索被破坏）来抑制模型对其先验的偏好。通过在提议的 EventHallusion 基准上对八个开源和两个闭源 VideoLLM 进行综合评估，我们发现开源模型严重受到幻觉问题的影响，而闭源模型的表现明显更好。通过进一步为开源 VideoLLM 配备所提出的 TCD 方法，EventHallusion 基准测试中的大多数指标都实现了明显的性能改进。我们的代码和基准数据可在 https://github.com/Stevetich/EventHallusion 获取。

通过微调弱标签上的轻量级大语言模型，增强放射学报告中的疾病检测

分类： 人工智能

作者： Yishu Wei, Xindi Wang, Hanley Ong, Yiliang Zhou, Adam Flanders, George Shih, Yifan Peng

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16563v1

摘要： 尽管在将大型语言模型（LLM）应用于医学领域方面取得了重大进展，但仍有一些限制阻碍了它们的实际应用。其中包括模型大小的限制和缺乏特定于队列的标记数据集。在这项工作中，我们研究了通过使用合成标签对数据集进行微调来改进轻量级 LLM（例如 Llama 3.1-8B）的潜力。两个任务通过组合各自的指令数据集来联合训练。当任务特定合成标签的质量相对较高时（例如，由 GPT4-o 生成），Llama 3.1-8B 在开放式疾病检测任务上取得了令人满意的性能，微 F1 得分为 0.91。相反，当与任务相关的合成标签的质量相对较低时（例如，来自 MIMIC-CXR 数据集），微调后的 Llama 3.1-8B 能够超越其嘈杂的教师标签（微 F1 分数为 0.67 vs. 0.63）当根据策划的标签进行校准时，表明模型具有强大的内在基础能力。这些发现证明了利用合成标签微调大语言模型的潜力，为医学领域大语言模型专业化的未来研究提供了有希望的方向。

用于高效 LLM 推理的动态宽度推测光束解码

分类： 人工智能

作者： Zongyue Qin, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16560v1

摘要： 大型语言模型 (LLM) 在众多现实任务中表现出了出色的性能。然而，这些模型的自回归性质使得推理过程缓慢且成本高昂。推测性解码已成为一种有前途的解决方案，利用较小的辅助模型来起草未来的令牌，然后由较大的模型同时验证，从而实现 1-2 倍的加速。尽管推测解码与多项式采样匹配相同的分布，但多项式采样本身很容易产生次优输出，而波束采样被广泛认为可以通过在每一步维护多个候选序列来产生更高质量的结果。本文探讨了推测解码与波束采样的新颖集成。然而，存在四个关键挑战：（1）如何根据小模型的草图序列从较大模型的分布生成多个序列； (2)如何动态优化波束数量以平衡效率和精度； (3)如何高效地并行验证多个草案； (4) 如何解决波束采样固有的额外内存成本。为了应对这些挑战，我们提出了动态宽度推测波束解码（DSBD）。具体来说，我们首先介绍一种新颖的草案和验证方案，该方案根据小模型的光束采样轨迹生成遵循大模型分布的多个序列。然后，我们引入了一种自适应机制，可以根据上下文动态调整波束数量，从而优化效率和效果。此外，我们扩展了基于树的并行验证以同时处理多个树，从而加速了验证过程。最后，我们说明了对算法的简单修改，以减轻波束采样的内存开销......

揭秘 LLM 开源项目中的问题、原因和解决方案

分类： 软件工程, 人工智能

作者： Yangxiao Cai, Peng Liang, Yifei Wang, Zengyang Li, Mojtaba Shahin

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16559v1

摘要： 随着大型语言模型（LLM）的进步，越来越多的开源软件项目正在使用LLM作为其核心功能组件。尽管大语言模型的研究和实践引起了相当大的兴趣，但没有专门的研究探讨大语言模型开源项目的从业者面临的挑战、这些挑战的原因以及潜在的解决方案。为了填补这一研究空白，我们进行了实证研究，了解从业者在开发和使用LLM开源软件时遇到的问题、这些问题的可能原因以及潜在的解决方案。我们收集了15个LLM开源软件的所有已关闭问题满足我们要求的项目和标记问题。然后，我们从标记的问题中随机选取 994 个问题作为样本进行数据提取和分析，以了解普遍存在的问题、其根本原因和潜在的解决方案。我们的研究结果表明，（1）模型问题是从业者面临的最常见问题，（2）模型问题、配置和连接问题以及特征和方法问题被认为是问题最常见的原因，（3）优化模型是解决问题的主要方法。根据研究结果，我们为 LLM 开源项目的从业者和研究人员提供了启示。

大语言模型与工具：调查

分类： 人工智能

作者： Zhuocheng Shen

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.18807v1

摘要： 增强大型语言模型中的工具集成提供了一种新颖的方法，可以提高这些模型处理特定复杂任务的效率和准确性。本文深入探讨了教授大语言模型使用外部工具的方法、挑战和发展，从而突破了他们的能力界限，超越了现有的知识库。我们引入了一个标准化的工具集成范例，由一系列功能引导，将用户指令映射到可操作的计划及其执行，强调理解用户意图、工具选择和动态计划调整的重要性。我们的探索揭示了遇到的各种挑战，例如工具调用时间、选择准确性以及对强大推理过程的需求。在应对这些挑战时，我们在微调和情境学习范式的背景下研究技术，强调确保多样性、扩充数据集和提高泛化性的创新方法。此外，我们研究了使大语言模型不仅能够利用而且能够自主学习的观点创建工具，这可能会将他们的角色从单纯的工具用户重新定义为工具创建者。最后，我们在ScienceQA上重现了Chameleon的结果并分析了代码结构。

大语言模型改进 NL 到 FOL 翻译的策略：数据生成、增量微调和验证

分类： 计算和语言

作者： Ramya Keerthy Thatikonda, Jiuzhou Han, Wray Buntine, Ehsan Shareghi

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16461v1

摘要： 逻辑推理是自然语言处理中的一项基本任务，对大型语言模型 (LLM) 提出了重大挑战。逻辑推理的固有特征使其非常适合一阶逻辑（FOL）等符号表示。符号逻辑推理研究探索了使用最先进的 LLM（即 GPT-4）生成自然语言 (NL) 语句的 FOL 翻译的 FOL 生成，但翻译错误通常不是焦点。我们通过对大语言模型生成的 FOL 语句中的翻译错误进行分类来解决这个问题。为了在提高 LLaMA-2 13B 和 Mistral 7B 等较小语言模型的 FOL 翻译质量方面取得进展，我们使用 GPT-4o 创建了 ProofFOL，这是 ProofWriter 数据集的高质量 FOL 注释子集。与 LLaMA-2 70B 等较大的语言模型相比，在此银标准数据上进行微调的模型在性能方面取得了显着的进步。除了使用大数据改进模型之外，我们还解决数据稀缺的问题，并引入包含数据增强和验证步骤的增量框架。在增强过程中，一对（前提，结论）根据谓词和 FOL 被分割成多个新实例。该数据用于微调，并且该模型的推理生成的 FOL 比在原始数据上训练的模型错误更少。我们对翻译错误的调查导致生成扰动数据集，该数据集用于训练纠正潜在句法和语义 FOL 翻译错误的验证器。我们展示了一种有效的方法来充分利用有限的现有人工注释数据集。我们的结果显示了在 LLaMA-2 和 Mistral 模型上使用 ProofFOL 的 ProofWriter 和 ProntoQA 数据集的最先进性能。

MultiTalk：人类-环境-大语言模型协调的内省和外省对话

分类： 机器人技术

作者： Venkata Naren Devarakonda, Ali Umut Kaypak, Shuaihang Yuan, Prashanth Krishnamurthy, Yi Fang, Farshad Khorrami

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16455v1

摘要： 大语言模型由于其强大的自然语言理解和推理能力，在任务规划方面表现出了可喜的成果。然而，幻觉、人类指令的模糊性、环境限制以及执行主体能力的限制等问题往往会导致计划有缺陷或不完整。本文提出了 MultiTalk，这是一种基于大语言模型的任务规划方法，通过内省和外省对话循环的框架来解决这些问题。这种方法有助于在环境和代理能力的背景下生成计划，同时还解决给定任务中的不确定性和模糊性。这些循环由专门的系统启用，该系统旨在提取和预测特定于任务的状态，并标记人类用户、LLM 代理和环境之间的不匹配或不一致。这些系统和大语言模型规划者之间的有效反馈途径可以促进有意义的对话。该方法的有效性通过其在机器人操作任务中的应用得到了证明。实验和消融凸显了我们方法的稳健性和可靠性，与基线的比较进一步说明了 MultiTalk 在实体代理任务规划中的优越性。

大语言模型偏见的全面调查：当前形势和未来方向

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互

作者： Rajesh Ranjan, Shailja Gupta, Surya Narayan Singh

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16430v1

摘要： 大型语言模型 (LLM) 通过提供前所未有的文本生成、翻译和理解功能，彻底改变了自然语言处理 (NLP) 领域的各种应用。然而，它们的广泛部署引发了人们对这些模型中嵌入的偏见的严重担忧。本文对大语言模型中的偏见进行了全面调查，旨在对与这些偏见相关的类型、来源、影响和缓解策略进行广泛的回顾。我们系统地将偏见分为几个维度。我们的调查综合了当前的研究结果，并讨论了现实应用中偏差的影响。此外，我们严格评估现有的偏见缓解技术，并提出未来的研究方向，以增强大语言模型的公平性和公平性。这项调查为关注解决和理解大语言模型偏见的研究人员、从业者和政策制定者提供了基础资源。

使用大语言模型和药物数据集成设计和评估药物过敏管理 CDSS

分类： 人工智能

作者： Gabriele De Vito, Filomena Ferrucci, Athanasios Angelakis

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16395v1

摘要： 用药错误严重威胁患者安全，导致药物不良事件并给医疗保健系统带来巨大的经济负担。旨在减轻这些错误的临床决策支持系统 (CDSS) 通常面临局限性，包括依赖静态数据库和基于规则的算法，这可能导致临床医生出现较高的误报率和警报疲劳。本文介绍了 HELIOT，这是一种用于药物过敏管理的创新 CDSS，它将大型语言模型 (LLM) 与综合药物数据存储库相集成。 HELIOT 利用先进的自然语言处理能力来解释复杂的医学文本并合成非结构化数据，克服了传统 CDSS 的局限性。使用合成患者数据集和专家验证的真实情况进行的实证评估表明，HELIOT 具有较高的准确度、精确度、召回率和 F1 分数，在多次实验运行中均达到 100%。结果强调了 HELIOT 在增强临床环境中的决策支持方面的潜力，为管理药物过敏提供可扩展、高效且可靠的解决方案。

做正确的事，就是 Debias！使用大语言模型减轻多类别偏见

分类： 计算和语言

作者： Amartya Roy, Danush Khanna, Devanshu Mahapatra, Vasanthakumar, Avirup Das, Kripabandhu Ghosh

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16371v1

摘要： 本文解决了为语言构建稳健且可推广的偏见缓解模型的挑战。认识到现有数据集的局限性，我们引入了 ANUBIS，这是一个新颖的数据集，包含 1507 个精心策划的句子对，涵盖九个社会偏见类别。我们评估 T5 等最先进的模型，利用监督微调 (SFT)、强化学习（PPO、DPO）和上下文学习 (ICL) 来有效缓解偏差。我们的分析重点是多类别社会偏见的减少、跨数据集的普遍性以及训练模型的环境影响。 ANUBIS 和我们的研究结果为构建更公平的人工智能系统提供了宝贵的资源，并有助于开发具有广泛社会影响的负责任和公正的技术。

质量很重要：评估使用工具的大语言模型的综合数据

分类： 机器学习, 计算和语言, 软件工程

作者： Shadi Iskander, Nachshon Cohen, Zohar Karnin, Ori Shapira, Sofia Tolmach

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16341v1

摘要： 训练用于外部工具使用的大型语言模型 (LLM) 是一个快速扩展的领域，最近的研究重点是生成合成数据以解决可用数据的短缺问题。然而，缺乏系统的数据质量检查给正确训练和测试模型带来了复杂性。为此，我们提出了两种评估数据可靠性的方法，以培训大语言模型使用外部工具。第一种方法使用直观的、人类定义的正确性标准。第二种方法使用模型驱动的评估和上下文评估。我们对两个流行的基准进行了全面的数据质量评估，然后进行了外部评估，展示了数据质量对模型性能的影响。我们的结果表明，即使使用较少量的数据进行训练，基于高质量数据训练的模型也优于基于未经验证数据训练的模型。这些发现从经验上支持了评估和确保使用工具的大语言模型培训数据的可靠性的重要性。

REBEL：大语言模型基于规则和经验增强的学习，用于多人多机器人团队的初始任务分配

分类： 机器人技术

作者： Arjun Gupte, Ruiqi Wang, Vishnunandan L. N. Venkatesh, Taehyeon Kim, Dezhong Zhao, Byung-Cheol Min

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16266v1

摘要： 多人多机器人团队结合了人类和机器人的互补优势，可以解决跨不同应用的复杂任务。然而，这些团队固有的异构性给初始任务分配（ITA）带来了巨大的挑战，这涉及到在任务执行之前根据每个团队成员的个人能力将最合适的任务分配给每个团队成员。虽然当前基于学习的方法已经显示出有希望的结果，但它们的训练计算成本通常很高，并且缺乏将用户偏好纳入多目标优化和适应现实世界动态环境中最后一刻变化的灵活性。为了解决这些问题，我们提出了 REBEL，这是一个基于 LLM 的 ITA 框架，集成了基于规则和经验增强的学习。 REBEL利用检索增强生成，动态检索相关规则和过去的经验，提高推理效率。此外，REBEL 可以补充基于 RL 的预训练 ITA 策略，提高态势感知和整体团队绩效。大量的实验验证了我们的方法在各种设置下的有效性。更多详细信息请访问 https://sites.google.com/view/ita-rebel 。

LLM Echo Chamber：个性化和自动化的虚假信息

分类： 人工智能, 计算机与社会

作者： Tony Ma

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16241v1

摘要： 最近的进展展示了 GPT4 和 Llama2 等大型语言模型在摘要、翻译和内容审阅等任务中的能力。然而，它们的广泛使用引起了人们的担忧，特别是大语言模型有可能大规模传播有说服力的、人性化的错误信息，这可能会严重影响公众舆论。本研究探讨了这些风险，重点关注大语言模型将错误信息传播为事实的能力。为了调查这一点，我们建立了大语言模型回声室，这是一个模拟社交媒体聊天室的受控数字环境，错误信息经常在聊天室中传播。在回声室中，个人只与志同道合的人互动，这进一步巩固了信念。通过研究在这种环境下传播错误信息的恶意机器人，我们可以更好地理解这种现象。我们回顾了当前的大语言模型，探讨了错误信息风险，并应用了 sota 微调技术。使用 Microsoft phi2 模型，并使用我们的自定义数据集进行微调，我们生成了有害内容来创建回声室。这种设置经过 GPT4 的说服力和危害性评估，揭示了围绕大语言模型的道德问题，并强调需要采取更强有力的措施来防范错误信息。

LLMCount：利用多模态 LLM 增强固定毫米波检测

分类： 计算机视觉和模式识别

作者： Boyan Li, Shengyi Ding, Deen Ma, Yixuan Wu, Hongjie Liao, Kaiyuan Hu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16209v1

摘要： 毫米波传感为人们提供了以非侵入性且保护隐私的方式感知周围人群的能力，具有巨大的应用潜力。然而，由于一些因素，例如最小的运动（如呼吸或随意的坐立不安），检测静止人群仍然具有挑战性，这些因素在数据收集过程中很容易被视为噪声簇，从而在后续处理过程中被过滤。此外，由于信号功率衰减以及外部反射器或吸收器产生的干扰而导致信号功率分布不均匀，进一步使准确检测变得复杂。为了应对这些挑战并在需要专门领域适应的各种应用场景中实现静态人群检测，我们推出了 LLMCount，这是第一个利用大语言模型 (LLM) 功能来增强人群检测性能的系统。通过利用LLM的决策能力，我们可以成功地补偿信号功率以获得均匀分布，从而实现更高精度的检测。为了评估系统的性能，在大厅、会议室、影院等多种场景下进行综合评估。评估结果表明，与以前的方法相比，我们提出的方法实现了较高的检测精度和较低的总体延迟。

人工智能可能存在认知偏差：基于大语言模型的批次相关性评估中阈值启动的探索性研究

分类： 计算和语言, 人工智能

作者： Nuo Chen, Jiqun Liu, Xiaoyu Dong, Qijiong Liu, Tetsuya Sakai, Xiao-Ming Wu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16022v1

摘要： 认知偏差是思维中的系统性偏差，会导致非理性判断和有问题的决策，在各个领域得到了广泛的研究。最近，大型语言模型（LLM）表现出了先进的理解能力，但可能会从其训练数据中继承人类偏见。虽然大语言模型的社会偏见已得到充分研究，但认知偏见受到的关注较少，现有研究侧重于特定场景。在各种决策背景下，认知偏差对大语言模型的更广泛影响仍未得到充分探索。我们调查了大语言模型是否受到相关性判断中阈值启动效应的影响，这是信息检索（IR）界的一项核心任务和广泛讨论的研究主题。当暴露于某些刺激无意识地影响随后的行为和决定时，就会发生启动效应。我们的实验采用了 TREC 2019 深度学习段落轨迹集合中的 10 个主题，并测试了不同文档相关性分数、批次长度和 LLM 模型（包括 GPT-3.5、GPT-4、LLaMa2-13B 和 LLaMa2-70B）下的 AI 判断。结果表明，如果较早的文档具有较高的相关性，则大语言模型倾向于对较晚的文档给予较低的分数，反之亦然，无论使用何种组合和模型。我们的研究结果表明，大语言模型的判断与人类的判断类似，也受到阈值启动偏差的影响，并建议研究人员和系统工程师在设计、评估和审核 IR 任务中的大语言模型时应考虑潜在的类人认知偏差以及更远的地方。

连接语音和文本：通过大语言模型的拼音到字符预训练增强 ASR

分类： 计算和语言, 声音, 音频和语音处理

作者： Yang Yuhang, Peng Yizhou, Eng Siong Chng, Xionghu Zhong

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16005v1

摘要： 大语言模型 (LLM) 与预训练语音模型的集成为自动语音识别 (ASR) 开辟了新途径。尽管大语言模型在多模式理解任务方面表现出色，但有效利用其 ASR 能力仍然是一项重大挑战。本文提出了一种新颖的训练方法来提高大语言模型在 ASR 任务中的表现。我们提出对代表发音特征的拼音嵌入序列进行预训练LLM，以生成相应的汉字。此步骤使大语言模型能够适应在遇到真实语音数据之前根据发音特征生成文本。此外，我们还微调 LoRA 参数，以增强大语言模型对语音模态信息的理解。在 AISHELL-1 语料库中，与没有进行拼音到字符预训练的基线相比，我们的方法在 ASR 任务中相对提高了 9.5%。此外，纳入拼音转汉字预训练的辅助文本数据进一步提升了性能，实现了 19.0% 的相对提升。

针对比较评估任务微调大语言模型

分类： 计算和语言

作者： Vatsal Raina, Adian Liusie, Mark Gales

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15979v1

摘要： 自然语言生成中的自动评估是一项具有挑战性的任务。指令调整的大语言模型 (LLM) 在无参考评估方面显示出了前景，特别是通过比较评估。然而，成对比较的二次计算复杂性限制了其可扩展性。为了解决这个问题，通过对零样本大语言模型概率应用比较策略，探索了有效的比较评估。我们提出了一个微调大语言模型以进行比较评估的框架，以使模型的输出与比较概率的目标分布保持一致。通过对软概率进行训练，我们的方法提高了最先进的性能，同时通过有效的比较子集保持高性能。

自动测试生成，以评估工具增强的 LLM 作为对话式 AI 代理

分类： 计算和语言, 人工智能, 机器学习

作者： Samuel Arcadinho, David Aparicio, Mariana Almeida

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15934v1

摘要： 工具增强的大语言模型是创建人工智能代理的一种很有前景的方法，它可以进行真实的对话、遵循程序并调用适当的函数。然而，由于可能的对话多种多样，并且现有数据集仅关注单一交互和函数调用，因此评估它们具有挑战性。我们提出了一个测试生成管道来评估大语言模型作为对话式人工智能代理的能力。我们的框架使用大语言模型来生成基于用户定义的程序的各种测试。为此，我们使用中间图来限制 LLM 测试生成器产生不基于输入过程的幻觉内容的倾向，并强制执行可能对话的高覆盖率。此外，我们还提出了 ALMITA，这是一个手动策划的数据集，用于评估客户支持中的人工智能代理，并用它来评估现有的大语言模型。我们的结果表明，虽然工具增强的大语言模型在单次交互中表现良好，但他们往往难以处理完整的对话。虽然我们的重点是客户支持，但我们的方法是通用的，并且能够为不同领域提供人工智能代理。

黑暗中的规划：大语言模型-无需专家的符号规划流程

分类： 人工智能

作者： Sukai Huang, Nir Lipovetzky, Trevor Cohn

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15915v1

摘要： 大型语言模型（LLM）在解决自然语言描述的规划任务方面表现出了希望，但直接使用它们常常会导致推理不一致和产生幻觉。虽然混合大语言模型-符号规划管道已成为一种更强大的替代方案，但它们通常需要广泛的专家干预来完善和验证生成的行动模式。它不仅限制了可扩展性，而且还引入了潜在的偏见解释，因为单个专家对模糊自然语言描述的解释可能与用户的实际意图不一致。为了解决这个问题，我们提出了一种新颖的方法，该方法构建一个动作模式库来生成多个候选者，考虑到自然语言描述的多种可能解释。我们进一步引入了语义验证和排名模块，可以自动过滤和排名生成的模式和计划，无需专家参与。实验表明，我们的流程在规划方面比直接大语言模型规划方法保持着优越性。这些发现证明了完全自动化的端到端 LLM 符号规划器的可行性，无需专家干预，为更广泛的受众参与人工智能规划提供了可能性，而无需领域专业知识的先决条件。

通过专家混合增强语音条件大语言模型来促进语码转换 ASR

分类： 声音, 人工智能, 音频和语音处理

作者： Fengrun Zhang, Wang Geng, Hukai Huang, Cheng Yi, He Qu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15905v1

摘要： 在本文中，我们介绍了一种与基于专家混合 (MoE) 的连接器集成的语音调节大语言模型 (LLM)，以解决自动语音识别 (ASR) 中的代码切换 (CS) 挑战。具体来说，我们提出了一种插入和删除中断令牌（IDIT）机制，以更好地将LLM的文本生成能力转移到语音识别任务。我们还提供了一个具有 MoE 架构的连接器，可以有效地管理多种语言。为了进一步加强多位专家的协作并利用大语言模型的理解能力，我们提出了一种两阶段渐进训练策略：1）解冻连接器并由语言专业专家进行训练，以将语音表示映射到文本空间。 2) 连接器和 LLM LoRA 适配器使用建议的 IDIT 机制进行训练，并且所有专家都被激活来学习一般表示。实验结果表明，我们的方法显着优于最先进的模型，包括端到端和大规模音频语言模型。

HLB：大语言模型在语言使用方面的人性化基准

分类： 计算和语言

作者： Xufeng Duan, Bei Xiao, Xuemei Tang, Zhenguang G. Cai

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15890v1

摘要： 随着合成数据在训练语言模型中变得越来越普遍，特别是通过生成的对话，人们担心这些模型可能会偏离真实的人类语言模式，可能会失去人类交流固有的丰富性和创造力。这凸显了评估现实世界语言使用中语言模型的人性化的迫切需要。在本文中，我们提出了一个全面的人性基准（HLB），使用 10 个心理语言学实验来评估 20 个大型语言模型（LLM），这些实验旨在探讨核心语言方面，包括声音、单词、语法、语义和话语（参见 https://huggingface .co/spaces/XufengDuan/HumanLikeness）。为了确定这些比较，我们收集了 2,000 多名人类参与者的回答，并将它们与这些实验中大语言模型的输出进行比较。为了进行严格的评估，我们开发了一种编码算法，可以准确识别语言使用模式，从而能够提取每个任务的响应分布。通过比较人类参与者和大语言模型之间的响应分布，我们通过分布相似性来量化人类相似性。我们的结果揭示了大语言模型在不同语言水平上复制人类反应的程度存在细微差异。重要的是，我们发现其他性能指标的改进并不一定会导致更人性化，在某些情况下甚至会导致人性化下降。通过将心理语言学方法引入模型评估，该基准为系统评估大语言模型在语言使用方面的人性化提供了第一个框架。

SwiftDossier：为大语言模型和代理人量身定制的药物发现自动档案

分类： 人工智能, 68T07, 92C50, 68T09, I.2.7; J.3

作者： Gabriele Fossi, Youssef Boulaimen, Leila Outemzabet, Nathalie Jeanray, Stephane Gerart, Sebastien Vachenc, Joanna Giemza, Salvatore Raieli

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15817v1

摘要： 人工智能算法的进步将其应用扩展到生物医学领域等多个领域。包括大型语言模型 (LLM) 在内的人工智能系统在药物发现方面尤其具有优势，这是一个非常漫长且昂贵的过程。然而，大语言模型本身缺乏对特定领域的深入了解，可能会产生事实上不正确的信息。此外，他们无法执行需要使用外部工具的更复杂的操作。我们的工作主要集中在这两个问题上。首先，我们展示先进的 RAG 系统的实施如何帮助大语言模型为药物发现相关问题提供更准确的答案。结果表明，使用 RAG 系统的大语言模型生成的答案在质量上优于不使用 RAG 的模型生成的答案。其次，我们展示了如何使用大语言模型创建自动目标档案，并将其与外部工具结合起来，他们可以使用外部工具执行更复杂的任务来收集数据，例如访问数据库和执行代码。结果是一个可立即投入生产的目标档案，其中包含汇总为 PDF 和 PowerPoint 演示文稿的获取信息。

LSAST——通过大语言模型支持的静态应用程序安全测试增强网络安全

分类： 密码学和安全

作者： Mete Keltek, Ziyue Li

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15735v1

摘要： 在快速发展的网络安全领域，大型语言模型 (LLM) 发挥着关键作用，不断提高其分析软件代码的能力。本文介绍了一种新颖的漏洞扫描方法，将保守的 SAST（静态应用程序安全测试）扫描器与 LLM 功能集成，从而创建了 LSAST（LLM 支持的静态应用程序安全测试）。我们的方法显着提高了大语言模型在漏洞扫描方面的表现，在该领域建立了新标准。我们对 LSAST 的效率进行基准测试，并将其结果与最先进的大语言模型进行比较。此外，我们还解决了大语言模型在漏洞扫描方面的固有缺陷：它们对静态训练数据集的依赖，这导致最新的漏洞被排除在外，以及与向第三方大语言模型提供商发送代码相关的隐私问题。为了缓解这些问题，我们利用开源大语言模型来确保隐私，并采用一种新颖的方法来收集相关漏洞信息，从而为大语言模型提供最新的知识。

LLM-Cure：基于 LLM 的竞争对手用户评论分析以增强功能

分类： 软件工程, 人工智能, 信息检索

作者： Maram Assi, Safwat Hassan, Ying Zou

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15724v1

摘要： 移动应用市场的指数级增长凸显了持续创新和快速响应用户需求的重要性。由于用户满意度对于移动应用程序 (app) 的成功至关重要，因此开发人员通常依赖用户评论，这些评论代表用户反馈，包括评级和评论来确定需要改进的领域。然而，大量的用户评论给手动分析带来了挑战，需要自动化方法。现有的自动化方法要么只分析目标应用程序的评论，忽略与竞争对手相似功能的比较，要么无法提供功能增强的建议。为了解决这些差距，我们提出了一种基于大型语言模型（LLM）的竞争性用户评论分析（用于功能增强）（LLM-Cure），这是一种由 LLM 支持的方法，可以自动生成移动应用程序功能改进的建议。更具体地说，LLM-Cure 通过应用 LLM 来识别评论中的特征并对其进行分类。当用户评论中收到投诉时，LLM-Cure 会在与投诉相关的竞争应用程序中策划高评价（4 星和 5 星）评论，并针对目标应用程序提出潜在的改进建议。我们根据 70 个热门 Android 应用程序的 1,056,739 条评论对 LLM-Cure 进行评估。我们的评估表明，LLM-Cure 在为评论分配特征方面显着优于最先进的方法，F1 分数提高了 13%，召回率提高了 16%，准确率提高了 11%。此外，LLM-Cure 还展示了其为解决用户投诉提供建议的能力。我们使用反映目标移动应用程序功能更改的发行说明来验证建议。 LLM-Cure 所提供建议的平均实施率为 73%，令人鼓舞。

使用基于 LLM 的策略客观评估细胞类型注释的可靠性

分类： 定量方法, 基因组学

作者： Wenjin Ye, Yuanchen Ma, Junkai Xiang, Hongjie Liang, Tao Wang, Qiuling Xiang, Andy Peng Xiang, Wu Song, Weiqiang Li, Weijun Huang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15678v1

摘要： 在单细胞 RNA 测序数据分析中，细胞类型注释的可靠性具有挑战性，因为专家驱动的方法和自动化方法都可能受到训练数据的偏差或限制，尤其是对于新颖或稀有的细胞类型。尽管大型语言模型（LLM）很有用，但我们的评估发现，由于数据源有偏差和训练输入不灵活，只有少数匹配的专家注释。为了克服这些限制，我们使用多模型融合和“与机器对话”策略开发了LICT（基于大语言模型的细胞类型标识符）软件包。我们的方法在各种单细胞 RNA 测序数据集上进行了测试，显着提高了注释的可靠性，特别是在细胞异质性较低的数据集中。值得注意的是，我们建立了客观标准来使用“机器对话”方法评估注释可靠性，该方法解决了我们的注释与专家注释之间的差异，即使没有参考数据也能进行可靠的评估。该策略提高了注释的可信度，并为推进未来基于 LLM 的细胞类型注释方法奠定了基础。

Cambricon-LLM：基于 Chiplet 的混合架构，用于 70B LLM 的设备上推理

分类： 硬件架构

作者： Zhongkai Yu, Shengwen Liang, Tianyun Ma, Yunke Cai, Ziyuan Nan, Di Huang, Xinkai Song, Yifan Hao, Jie Zhang, Tian Zhi, Yongwei Zhao, Zidong Du, Xing Hu, Qi Guo, Tianshi Chen

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15654v1

摘要： 在智能手机和机器人等边缘设备上部署先进的大型语言模型是一种日益增长的趋势，可以增强用户数据隐私和网络连接弹性，同时保留智能功能。然而，此类任务表现出单批计算的算术强度极低，这对有限的边缘资源带来了巨大的内存占用和带宽需求的重大挑战。为了解决这些问题，我们推出了 Cambricon-LLM，这是一种基于小芯片的混合架构，具有 NPU 和专用 NAND 闪存芯片，可实现 70B LLM 的高效设备上推理。这种混合架构同时利用了 NPU 的高计算能力和 NAND 闪存芯片的数据容量，并提出了硬件平铺策略，最大限度地减少了 NPU 和 NAND 闪存芯片之间的数据移动开销。具体来说，NAND闪存芯片经过我们创新的闪存内计算和片上ECC技术的增强，擅长执行精确的轻量级片上处理。同时，NPU 与闪存芯片协作进行矩阵运算，并处理超出闪存片上处理能力的特殊功能计算。总体而言，Cambricon-LLM 能够以 3.44 token/s 的速度实现 70B LLM 的设备上推理，以 36.34 token/s 的速度实现 7B LLM 的设备上推理，比现有闪存卸载技术快 22 倍至 45 倍以上，显示在边缘设备中部署强大的大语言模型的潜力。

定性洞察工具 (QualIT)：LLM 增强主题建模

分类： 信息检索, 计算和语言

作者： Satya Kapoor, Alex Gil, Sreyoshi Bhaduri, Anshul Mittal, Rutu Mulkar

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15626v1

摘要： 主题建模是一种广泛使用的技术，用于从大型文本语料库中揭示主题结构。然而，大多数主题建模方法，例如潜在狄利克雷分配 (LDA) 难以捕捉准确建模复杂叙述所需的细微语义和上下文理解。该领域的最新进展包括 BERTopic 等方法，这些方法显着提高了主题连贯性，从而建立了新的基准测试标准。在本文中，我们提出了一种新颖的方法，即定性洞察工具（QualIT），它将大型语言模型（LLM）与现有的基于集群的主题建模方法集成在一起。我们的方法利用大语言模型的深刻的上下文理解和强大的语言生成能力来丰富使用聚类的主题建模过程。我们在大量新闻文章语料库上评估了我们的方法，并证明了与基线主题建模技术相比，主题连贯性和主题多样性方面的显着改进。在 20 个真实主题上，我们的方法显示出 70% 的主题一致性（相对于 65% 和 57% 基准）和 95.5% 的主题多样性（相对于 85% 和 72% 基准）。我们的研究结果表明，大语言模型的整合可以为动态和复杂文本数据的主题建模带来新的机会，这在人才管理研究环境中很常见。

Safe Guard：用于社交虚拟现实中基于语音的实时仇恨言论检测的大语言模型代理

分类： 音频和语音处理, 人工智能, 声音

作者： Yiwen Xu, Qinyang Hou, Hongyu Wan, Mirjana Prpa

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15623v1

摘要： 在本文中，我们提出了 Safe Guard，这是一种 LLM 代理，用于检测社交 VR (VRChat) 中基于语音的交互中的仇恨言论。我们的系统利用 Open AI GPT 和音频特征提取来实现实时语音交互。我们贡献了系统设计和系统评估，证明了我们的方法在检测仇恨言论方面的能力，并与当前可用的方法相比减少了误报。我们的结果表明基于 LLM 的代理在创建更安全的虚拟环境方面的潜力，并为 LLM 驱动的审核方法的进一步发展奠定了基础。

Persona-L 已加入讨论：利用大语言模型和基于能力的框架来构建具有复杂需求的人的角色

分类： 人机交互

作者： Lipeipei Sun, Tianzi Qin, Anran Hu, Jiale Zhang, Shuojia Lin, Jianyan Chen, Mona Ali, Mirjana Prpa

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15604v1

摘要： 我们提出了 Persona-L，这是一种使用大型语言模型 (LLM) 和基于能力的框架创建角色的新颖方法，专门用于改善具有复杂需求的用户的表示。传统的人物角色创建方法往往无法准确描述复杂需求的动态和多样性，从而导致人物形象过于简单化或刻板化。 Persona-L 使用户能够通过聊天界面创建角色并与之交互。 Persona-L 通过与用户体验设计师 (N=6) 的访谈进行评估，我们检查了它在反映具有复杂需求的人们的生活体验的复杂性方面的有效性。我们报告的研究结果表明，Persona-L 有潜力增强对复杂需求的同理心和理解，同时还揭示了角色创建中使用的数据透明度的必要性、语言和语气的作用，以及提供更平衡的需求展示有限制的能力。

超越回合制界面：同步 LLM 作为全双工对话代理

分类： 计算和语言, 机器学习, 声音, 音频和语音处理

作者： Bandhav Veluri, Benjamin N Peloquin, Bokai Yu, Hongyu Gong, Shyamnath Gollakota

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15594v1

摘要： 尽管人们对建模语音对话代理有着广泛的兴趣，但大多数方法本质上都是“半双工”的——仅限于与需要用户显式提示或隐式跟踪中断或静音事件的响应进行基于回合的交互。相比之下，人类对话是“全双工”的，允许以快速和动态的轮流、重叠语音和反向通道的形式实现丰富的同步性。从技术上讲，与大语言模型实现全双工对话的挑战在于同步建模，因为预先训练的大语言模型没有“时间”感。为了弥补这一差距，我们提出了用于全双工口语对话建模的同步大语言模型。我们设计了一种新颖的机制将时间信息集成到 Llama3-8b 中，以便它们与现实世界的时钟同步运行。我们还介绍了一种训练方法，该方法使用从文本对话数据生成的 212k 小时的合成口语对话数据来创建一个模型，该模型可以生成有意义且自然的口语对话，而仅需要 2000 小时的真实口语对话数据。同步大语言模型在对话意义方面优于最先进的技术，同时保持自然性。最后，我们通过模拟在不同数据集上训练的两个代理之间的交互，同时考虑高达 240 毫秒的互联网规模延迟，展示了模型参与全双工对话的能力。网页：https://syncllm.cs.washington.edu/。

修改、推理和识别：通过特定情绪提示和 ASR 纠错进行基于 LLM 的情绪识别

分类： 音频和语音处理, 人工智能, 计算和语言, 多媒体, 声音

作者： Yuanchao Li, Yuan Gong, Chao-Han Huck Yang, Peter Bell, Catherine Lai

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15551v1

摘要： 随着大型语言模型（LLM）的进步，最近出现了使用即时工程注释和识别语音情感的方法，但其有效性和可靠性仍然值得怀疑。在本文中，我们对这个主题进行了系统的研究，首先提出了新颖的提示，其中结合了声学、语言学和心理学的特定情感知识。随后，我们检查了基于 LLM 的提示对自动语音识别 (ASR) 转录的有效性，并将其与真实转录进行了对比。此外，我们提出了一个 Revise-Reason-Recognize 提示管道，用于从具有 ASR 错误的口语中进行基于 LLM 的稳健情感识别。此外，还进行了情境感知学习、情境学习和指令调整的实验，以检验大语言模型培训方案在这个方向上的有用性。最后，我们研究了大语言模型对微小提示变化的敏感性。实验结果证明了情感特定提示、ASR 纠错和 LLM 训练方案对于基于 LLM 的情感识别的有效性。我们的研究旨在完善大语言模型在情感识别和相关领域的使用。

SEAL：评估大语言模型 API 使用的套件

分类： 人工智能

作者： Woojeong Kim, Ashish Jagmohan, Aditya Vempaty

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15523v1

摘要： 大型语言模型 (LLM) 在处理需要实时访问外部 API 的任务时存在局限性。虽然已经开发了一些基准（例如 ToolBench 和 APIGen）来评估大语言模型的 API 使用能力，但它们经常遇到诸如缺乏通用性、有限的多步骤推理覆盖范围以及由于实时 API 波动而导致的不稳定等问题。在本文中，我们介绍 SEAL，这是一个端到端测试平台，旨在评估 LLM 在实际 API 使用中的情况。 SEAL 标准化了现有基准，集成了用于测试 API 检索和规划的代理系统，并通过引入具有确定性评估缓存功能的 GPT-4 支持的 API 模拟器来解决实时 API 的不稳定性。我们的测试床提供了全面的评估管道，涵盖 API 检索、API 调用和最终响应，为不同现实场景中的结构化性能比较提供可靠的框架。 SEAL 是公开可用的，并且不断更新新的基准。

仅使用推理引擎即可实现 LLM 的资源高效型设备上微调

分类： 机器学习, 分布式、并行和集群计算

作者： Lei Gao, Amir Ziashahabi, Yue Niu, Salman Avestimehr, Murali Annavaram

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15520v1

摘要： 大型语言模型 (LLM) 在自动执行各种任务（例如文本生成和摘要）方面表现出了卓越的性能。目前，大语言模型是在大型云服务器上进行培训和微调的。由于其大量的内存和计算要求，在资源受限的边缘设备上部署和微调这些模型仍然是一个重大挑战。本文介绍了一种资源高效的零阶优化方法，该方法降低了在此类受限环境中微调大语言模型的障碍。我们的方法采用并行随机梯度估计（P-RGE）技术，可以以高并行效率执行梯度估计。 P-RGE 利用外循环和内循环并行化来并行执行多个函数查询和前向传递，从而减少挂钟端到端训练时间。通过将该技术与参数高效的微调方法（例如 LoRA）和设备上推理引擎（例如 ExecuTorch）相集成，我们展示了服务器端和边缘设备上 LLM 的高效微调。实验表明，P-RGE 在保持微调精度的同时实现了显着的运行时加速和内存节省，这为在实时设备上应用程序中更实际地部署 LLM 铺平了道路。

Eagle：用于多大语言模型推理的高效免培训路由器

分类： 机器学习

作者： Zesen Zhao, Shuowei Jin, Z. Morley Mao

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15518v1

摘要： 具有不同功能和成本的大型语言模型 (LLM) 的激增催生了在人工智能系统中进行高效模型选择的需求。 LLM 路由器通过根据任务要求和预算限制为给定查询动态选择最合适的模型来满足这一需求。然而，现有路由器在可扩展性和实时适应方面面临挑战，特别是在大流量的在线环境中。我们提出了 Eagle，一种新颖的 LLM 路由方法，结合了全球和本地 ELO 排名模块来克服这些限制。通过评估一般和专业的 LLM 能力，Eagle 提供了一种可扩展、免培训的解决方案，可提高模型选择质量，同时减少计算开销。我们在多个数据集上进行的实验表明，Eagle 的性能始终优于基线方法，曲线下面积 (AUC) 分数提高了高达 23.52%。此外，Eagle 还表现出卓越的效率，初始化时间仅为基线方法的 1/20，在线场景下增量更新速度提高 100 至 200 倍，非常适合动态、大容量的在线服务环境。

EvAlignUX：通过大语言模型支持的评估指标探索推进用户体验研究

分类： 人机交互

作者： Qingxiao Zheng, Minrui Chen, Pranav Sharma, Yiliu Tang, Mehul Oswal, Yiren Liu, Yun Huang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15471v1

摘要： 在人工智能的复杂性、不可预测性和生成性的背景下评估用户体验提出了独特的挑战。人机交互学者缺乏足够的工具支持来围绕不同的评估指标构建知识并制定全面的用户体验评估计划。在本文中，我们介绍了 EvAlignUX，这是一个以科学文献为基础、由大型语言模型 (LLM) 提供支持的创新系统，旨在帮助 HCI 学者探索评估指标及其与潜在研究成果的关系。一项涉及 19 名 HCI 学者的用户研究表明，EvAlignUX 显着提高了他们评估建议的感知清晰度、特异性、可行性和整体质量。 EvAlignUX 的使用增强了参与者的思维过程，从而创建了一个可用于指导用户体验评估开发的问题库。此外，研究人员的背景对其感知灵感的影响以及对过度依赖人工智能的担忧凸显了人工智能在培养批判性思维方面的作用的未来研究方向。

可爱：衡量大语言模型对其代币的理解

分类： 计算和语言

作者： Lukas Edman, Helmut Schmid, Alexander Fraser

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15452v1

摘要： 大型语言模型 (LLM) 在各种任务上都表现出了卓越的性能。大多数大语言模型将文本分割成多字符标记，并将它们作为原子单元处理，而无需直接访问单个字符。这就提出了一个问题：大语言模型可以在多大程度上学习拼写信息？为了回答这个问题，我们提出了一个新的基准，CUTE，它具有一系列旨在测试大语言模型的拼写知识的任务。我们对 CUTE 上流行的大语言模型进行了评估，发现他们中的大多数人似乎都知道其标记的拼写，但未能有效地使用这些信息来操作文本，这让人质疑这些知识有多少是可推广的。

GenAI 广告：与大语言模型进行个性化广告的风险

分类： 人机交互

作者： Brian Jay Tang, Kaiwen Sun, Noah T. Curran, Florian Schaub, Kang G. Shin

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15436v1

摘要： 大型语言模型的最新进展使得高效的聊天机器人的创建成为可能，该机器人可以作为定向广告的平台。本文研究了聊天机器人中向用户提供个性化广告的风险。受到人工智能公司类似尝试的启发，我们开发了一个聊天机器人，将个性化产品广告嵌入到大语言模型回复中。我们的基准测试表明，广告注入影响了某些 LLM 属性性能，特别是响应意愿。我们对 179 名参与者进行了一项受试者间实验，使用无广告、未标记的定向广告和标记的定向广告的聊天机器人。结果显示，参与者很难检测到聊天机器人广告，并且未标记的广告聊天机器人响应的评分较高。然而，一旦披露，参与者发现大语言模型回复中嵌入的广告的使用具有操纵性、不太可信且具有侵入性。参与者尝试通过聊天界面而不是披露来更改他们的隐私设置。我们的研究结果凸显了将广告融入聊天机器人响应中的道德问题

风格重于实质：大语言模型法官在一致性基准测试中的失败模式

分类： 机器学习, 人工智能

作者： Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15268v1

摘要： 2022 年 11 月 ChatGPT 的发布引发了人们对后训练的兴趣激增，以及大量新的偏好优化 (PO) 方法。这些方法声称凭借与人类成对偏好的更好对应性而具有卓越的一致性，通常由大语言模型法官进行衡量。在这项工作中，我们试图回答以下问题——大语言模型法官的偏好是否会转化为其他更具体的一致性指标的进展，如果没有，为什么不呢？我们定义了一个具体的对齐指标，并引入了 SOS-Bench，这是迄今为止最大的标准化、可重复的 LLM 元基准。我们发现（1）大语言模型的判断与安全、世界知识和遵循指令的具体措施无关； (2) LLM法官有很强的隐性偏见，优先考虑风格而不是事实和安全； (3) 训练后的监督微调 (SFT) 阶段，而不是 PO 阶段，对对齐影响最大，其中数据扩展和提示多样性是驱动因素。我们的代码库和完整结果可以在 https://github.com/penfever/sos-bench 找到。

Domino：通过通用张量切片和重叠消除 LLM 培训中的沟通

分类： 分布式、并行和集群计算, 人工智能, 机器学习

作者： Guanhua Wang, Chengming Zhang, Zheyu Shen, Ang Li, Olatunji Ruwase

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15241v1

摘要： 鉴于生成式 AI 的流行，大型语言模型 (LLM) 通常会消耗数百或数千个 GPU 来并行化和加速训练过程。当大规模培训大语言模型时，沟通开销变得更加明显。为了消除分布式 LLM 训练中的通信开销，我们提出了 Domino，它提供了一种通用方案来隐藏计算背后的通信。通过将单批训练的数据依赖性分解为更小的独立片段，Domino 将这些独立片段训练进行管道化，并提供细粒度通信和计算重叠的通用策略。大量结果表明，与 Megatron-LM 相比，Domino 在 Nvidia DGX-H100 GPU 上进行 LLM 训练时可实现高达 1.3 倍的加速。

通过大语言模型引导的分层思想链推理进行可控交通模拟

分类： 机器人技术

作者： Zhiyuan Liu, Leheng Li, Yuning Wang, Haotian Lin, Zhizhe Liu, Lei He, Jianqiang Wang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15135v1

摘要： 通过可控仿真评估复杂多样交通场景下的自动驾驶系统对于确保其安全性和可靠性至关重要。然而，现有的交通模拟方法在可控性方面面临挑战。为了解决这个问题，本文提出了一种新颖的基于扩散和大语言模型增强的交通模拟框架。我们的方法采用了独特的思想链（CoT）机制，系统地检查交通要素的层次结构，并引导大语言模型一步步彻底分析交通场景描述，增强他们对复杂情况的理解。此外，我们提出了一种基于 Frenet 框架的成本函数框架，为大语言模型提供几何上有意义的数量，提高他们对场景中空间关系的掌握，并实现更准确的成本函数生成。 Waymo 开放运动数据集（WOMD）上的实验表明，我们的方法可以处理更复杂的描述，以可控的方式生成更广泛的场景，并且在效率方面优于现有的基于扩散的方法。

不要使用大语言模型来做出相关性判断

分类： 信息检索

作者： Ian Soboroff

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15133v1

摘要： 对 TREC 风格的测试集进行相关性判断可能非常复杂且昂贵。典型的 TREC 赛道通常由六名承包商组成的团队工作 2-4 周。这些承包商需要接受培训和监督。必须编写软件来支持正确有效地记录相关性判断。最近出现的大型语言模型可以根据自然语言提示生成极其类似人类的流畅文本输出，这激发了 IR 研究人员思考如何在相关性判断收集过程中使用这些模型。在 ACM SIGIR 2024 会议上，研讨会“LLM4Eval”为这项工作提供了场所，并以数据挑战活动为特色，参与者重现了 TREC 深度学习轨迹判断，正如 Thomas 等人所做的那样 (arXiv:2408.08896，arXiv: 2309.10621）。我被要求在研讨会上发表主题演讲，本文以文章的形式介绍了该主题演讲。最重要的是，不要使用大语言模型来为 TREC 式评估创建相关性判断。

通过检索背景提升医疗保健大语言模型

分类： 人工智能, I.2 ARTIFICIAL INTELLIGENCE

作者： Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15127v1

摘要： 大型语言模型 (LLM) 在自然语言处理方面表现出了卓越的能力，然而，它们的事实错误和幻觉限制了它们的应用，特别是在医疗保健等关键领域。通过引入相关信息作为输入的上下文检索方法已成为提高大语言模型真实性和可靠性的关键方法。本研究探讨了医疗保健领域上下文检索方法的边界，优化其组件并根据开放和封闭替代方案对其性能进行基准测试。我们的研究结果揭示了开放式大语言模型在优化检索系统的增强后，如何能够在既定的医疗保健基准（多项选择题回答）上实现与最大的私人解决方案相当的性能。认识到在问题中包含可能的答案（仅在医学考试中发现的设置）缺乏现实性，并且在评估了缺乏这些选项的情况下大语言模型性能的严重下降后，我们朝这个方向扩展了上下文检索系统。特别是，我们提出了 OpenMedPrompt 一个管道，可以改进更可靠的开放式答案的生成，使该技术更接近实际应用。

评估大语言模型在威胁情报丰富方面的可用性

分类： 密码学和安全, 计算和语言, 人机交互, 机器学习

作者： Sanchana Srikanth, Mohammad Hasanuzzaman, Farah Tasnur Meem

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15072v1

摘要： 大型语言模型 (LLM) 有潜力通过自动收集、预处理和分析威胁数据来显着增强威胁情报。然而，这些工具的可用性对于确保安全专业人员有效采用它们至关重要。尽管大语言模型拥有先进的能力，但对其可靠性、准确性和产生不准确信息的可能性的担忧仍然存在。本研究对五位大语言模型 ChatGPT、Gemini、Cohere、Copilot 和 Meta AI 进行了全面的可用性评估，重点关注其用户界面设计、错误处理、学习曲线、性能以及与现有威胁情报丰富工具的集成。利用启发式演练和用户研究方法，我们确定关键的可用性问题并提供可行的改进建议。我们的研究结果旨在弥合大语言模型功能和用户体验之间的差距，从而通过确保这些工具用户友好且可靠来促进更高效、更准确的威胁情报实践。

WMT 2024 上的 Brotherhood：利用大语言模型生成的上下文对话进行跨语言图像字幕

分类： 计算和语言, 人工智能

作者： Siddharth Betala, Ishan Chokshi

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15052v1

摘要： 在本文中，我们以“Brotherhood”团队名称描述了我们的系统，用于英语到洛雷斯多模态翻译任务。我们参与英语-印地语、英语-豪萨语、英语-孟加拉语和英语-马拉雅拉姆语语言对的多模态翻译任务。我们提出了一种利用多模态大语言模型 (LLM)（特别是 GPT-4o 和 Claude 3.5 Sonnet）的方法，无需传统训练或微调即可增强跨语言图像字幕。我们的方法利用指令调整的提示来生成有关裁剪图像的丰富的上下文对话，并使用它们的英文标题作为附加上下文。然后这些合成对话被翻译成目标语言。最后，我们采用加权提示策略，平衡原始英语字幕和翻译后的对话，以生成目标语言的字幕。该方法取得了有竞争力的结果，在英语-印地语挑战集上得分为 37.90 BLEU，在英语-豪萨语挑战赛和评估排行榜上分别排名第一和第二。我们对 250 张图像的子集进行了额外的实验，探索不同加权方案中 BLEU 分数和语义相似性之间的权衡。

用于个性化风险评估的生成式 LLM 支持的对话式 AI 应用程序：COVID-19 案例研究

分类： 计算和语言, 人工智能

作者： Mohammad Amin Roshani, Xiangyu Zhou, Yao Qiang, Srinivasan Suresh, Steve Hicks, Usha Sethuraman, Dongxiao Zhu

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15027v1

摘要： 大型语言模型（LLM）在各种自然语言任务中表现出了卓越的能力，并且越来越多地应用于医疗保健领域。这项工作通过流式人类与人工智能对话展示了一种由大语言模型支持的新疾病风险评估方法，消除了传统机器学习方法所需的编程需求。在 COVID-19 严重性风险评估案例研究中，我们使用一些自然语言示例对预先训练的生成式 LLM（例如 Llama2-7b 和 Flan-t5-xl）进行微调，将其性能与传统分类器（即、逻辑回归、XGBoost、随机森林），使用各种实验设置的表格数据从头进行训练。我们开发了一款移动应用程序，使用这些经过微调的大语言模型作为其生成人工智能 (GenAI) 核心，以促进临床医生和患者之间的实时交互，通过对话界面提供无代码风险评估。这种集成不仅允许使用流式问答 (QA) 作为输入，还提供源自大语言模型注意力层的个性化特征重要性分析，从而增强风险评估的可解释性。通过使用有限数量的微调样本获得高曲线下面积（AUC）分数，我们的结果证明了生成大语言模型在低数据情况下优于判别性分类方法的潜力，突出了它们在现实世界中的适应性和有效性。这项工作旨在填补利用生成大语言模型进行交互式无代码风险评估的现有空白，并鼓励在这一新兴领域进行进一步研究。

多模态生成人工智能：多模态大语言模型、扩散及其他

分类： 人工智能, 计算机视觉和模式识别

作者： Hong Chen, Xin Wang, Yuwei Zhou, Bin Huang, Yipeng Zhang, Wei Feng, Houlun Chen, Zeyang Zhang, Siao Tang, Wenwu Zhu

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14993v1

摘要： 多模态生成人工智能越来越受到学术界和工业界的关注。特别是，两个主要技术家族是： i）多模态大语言模型（MLLM），例如 GPT-4V，它显示了令人印象深刻的多模态理解能力； ii）诸如 Sora 之类的扩散模型，它表现出显着的多模态能力，特别是在视觉生成方面。因此，一个自然的问题就出现了：是否有可能有一个统一的理解和生成模型？为了回答这个问题，在本文中，我们首先详细回顾了 MLLM 和扩散模型，包括它们的概率建模过程、多模态架构设计以及图像/视频大语言模型以及文本到文本的高级应用。 -图像/视频生成。然后，我们讨论关于统一模型的两个重要问题：i）统一模型是否应该采用自回归或扩散概率建模，ii）模型是否应该采用密集架构或专家混合（MoE）架构更好地支持生成和理解，这两个目标。我们进一步提供了构建统一模型的几种可能策略，并分析了它们的潜在优点和缺点。我们还总结了现有的大规模多模态数据集，以便将来更好的模型预训练。最后，我们提出了几个具有挑战性的未来方向，我们相信这些方向有助于多模式生成人工智能的持续进步。

超越微调：释放临床大语言模型持续预训练的潜力

分类： 计算和语言

作者： Clément Christophe, Tathagata Raha, Svetlana Maslenkova, Muhammad Umar Salman, Praveen K Kanithi, Marco AF Pimentel, Shadab Khan

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14988v1

摘要： 大型语言模型 (LLM) 在改变临床应用方面表现出了巨大的潜力。在这项研究中，我们研究了四种技术在使大语言模型适应临床用例方面的功效：连续预训练、指导微调、NEFTune 和即时工程。我们在 Mistral 7B 和 Mixtral 8x7B 模型上采用这些方法，利用包含 500 亿个令牌的大规模临床预训练数据集和包含 5 亿个令牌的指令微调数据集。我们对各种临床任务的评估揭示了每种技术的影响。虽然超过 2500 亿个代币的持续预训练本身会产生边际改进，但它为指令微调奠定了坚实的基础。值得注意的是，NEFTune 的主要设计目的是提高发电质量，令人惊讶的是，它在我们的基准测试中表现出了额外的进步。复杂的提示工程方法进一步提高了性能。这些发现表明了制定微调策略和探索创新技术以优化临床领域大语言模型表现的重要性。

UELLM：LLM 推理服务的统一高效方法

分类： 分布式、并行和集群计算

作者： Yiyuan He, Minxian Xu, Jingfeng Wu, Wanyi Zheng, Kejiang Ye, Chengzhong Xu

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14961v2

摘要： 在机器学习即服务 (MLaaS) 云的背景下，大型语言模型 (LLM) 的广泛使用通常需要对大量查询负载进行有效管理。在提供实时推理服务时，会出现一些挑战。首先，增加 GPU 数量可能会因通信开销增加而导致推理速度下降，而 GPU 数量不足可能会导致内存不足错误。其次，需要评估不同的部署策略，以保证最佳利用率和最小推理延迟。最后，推理查询的低效编排很容易导致严重的服务级别目标 (SLO) 违规。最后，推理查询的低效编排很容易导致严重的服务级别目标 (SLO) 违规。为了应对这些挑战，我们提出了一种统一、高效的大型语言模型推理服务 (UELLM) 方法，该方法由三个主要组件组成：1) 资源分析器、2) 批处理调度器和 3) LLM 部署器。 UELLM 最大限度地减少资源开销、减少推理延迟并降低 SLO 违规率。与state-of-the-art（SOTA）技术相比，UELLM将推理延迟降低了72.3％至90.3％，将GPU利用率提高了1.2倍至4.1倍，并将吞吐量提高了1.92倍至4.98倍，它还可以服务不违反推理延迟 SLO。

检索增强生成 (RAG) 及其他：关于如何让您的大语言模型更明智地使用外部数据的综合调查

分类： 计算和语言, 人工智能

作者： Siyun Zhao, Yuqing Yang, Zilong Wang, Zhiyuan He, Luna K. Qiu, Lili Qiu

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14924v1

摘要： 使用外部数据增强的大型语言模型（LLM）在完成现实世界任务方面表现出了卓越的能力。将外部数据集成到大语言模型中的技术，例如检索增强生成（RAG）和微调，正在获得越来越多的关注和广泛应用。尽管如此，在各个专业领域有效部署数据增强大语言模型仍面临着巨大的挑战。这些挑战涵盖了广泛的问题，从检索相关数据和准确解释用户意图到充分利用大语言模型的推理能力来完成复杂的任务。我们相信，对于数据增强大语言模型应用程序来说，没有一种万能的解决方案。在实践中，绩效不佳通常是由于未能正确识别任务的核心焦点，或者因为该任务本质上需要混合多种功能，必须将这些功能分解以获得更好的解决方案。在本次调查中，我们提出了一种 RAG 任务分类方法，根据所需的外部数据类型和任务的主要焦点将用户查询分为四个级别：显式事实查询、隐式事实查询、可解释的基本原理查询和隐藏的基本原理查询。我们定义这些级别的查询，提供相关数据集，并总结关键挑战和应对这些挑战的最有效技术。最后，我们讨论了将外部数据集成到大语言模型中的三种主要形式：上下文、小模型和微调，强调了它们各自的优势、局限性以及它们适合解决的问题类型。本文旨在帮助读者深入理解和分解构建LLM应用程序的数据需求和关键瓶颈，为不同的挑战提供解决方案，并作为系统开发此类应用程序的指南。

通过快速工程为大语言模型进行隐私政策分析

分类： 计算和语言, 计算机与社会, 软件工程

作者： Arda Goknil, Femke B. Gelderblom, Simeon Tverdal, Shukun Tokas, Hui Song

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14879v1

摘要： 隐私政策往往因其复杂性而令人困惑，这阻碍了透明度和知情同意。自动分析这些政策的传统机器学习方法需要大量资源和大量特定领域的培训，从而导致适应性问题。此外，它们依赖于广泛的数据集，由于隐私问题的变化，这些数据集可能需要定期维护。在本文中，我们提出、应用和评估 PAPEL（大语言模型即时工程隐私政策分析），这是一个通过即时工程利用大型语言模型 (LLM) 的强大功能来自动分析隐私政策的框架。 PAPEL 旨在简化这些政策中信息的提取、注释和总结，增强其可访问性和可理解性，而无需额外的模型训练。通过整合零样本、单样本和少样本学习方法以及创建预定义提示和提示模板的思维链提示，PAPEL 指导大语言模型有效剖析、解释和综合隐私政策的关键方面用户友好的摘要。我们通过两个应用证明了 PAPEL 的有效性：(i) 注释和 (ii) 矛盾分析。我们评估了多个 LLaMa 和 GPT 模型识别和阐明数据处理实践的能力，提供与现有自动化分析方法相当的见解，同时减少培训工作并提高对新分析需求的适应性。实验表明，PAPEL 使用的大语言模型（LLaMA 和 Chat GPT 模型）在隐私策略注释方面取得了稳健的性能，F1 分数达到 0.8 及以上（使用 OPP-115 黄金标准），强调了跨各种高级语言的更简单提示的有效性模型。

针对大语言模型的有效且规避的模糊测试驱动的越狱攻击

分类： 密码学和安全, 人工智能

作者： Xueluan Gong, Mingzhe Li, Yilin Zhang, Fengyuan Ran, Chen Chen, Yanjiao Chen, Qian Wang, Kwok-Yan Lam

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14866v1

摘要： 大型语言模型 (LLM) 在各种任务中表现出色，但仍然容易受到越狱攻击，攻击者会创建越狱提示来误导模型产生有害或攻击性内容。当前的越狱方法要么严重依赖手动制作的模板，这在可扩展性和适应性方面提出了挑战，要么难以生成语义连贯的提示，使它们易于检测。此外，大多数现有方法都涉及冗长的提示，导致更高的查询成本。在本文中，为了解决这些挑战，我们引入了一种新颖的越狱攻击框架，这是一种采用黑盒模糊的自动化黑盒越狱攻击框架具有一系列定制设计的测试方法。我们的方法不依赖手动制作的模板，而是从空的种子池开始，无需搜索任何相关的越狱模板。我们还开发了三种新颖的问题依赖突变策略，使用 LLM 助手生成提示，保持语义连贯性，同时显着缩短其长度。此外，我们还实现了两级判断模块来准确检测真正成功的越狱。我们在 7 位有代表性的大语言模型上评估了我们的方法，并将其与 5 种最先进的越狱攻击策略进行了比较。对于专有的 LLM API，例如 GPT-3.5 Turbo、GPT-4 和 Gemini-Pro，我们的方法分别实现了超过 90%、80% 和 74% 的攻击成功率，超出现有基线 60% 以上。此外，我们的方法可以保持高度的语义一致性，同时显着减少越狱提示的长度。当针对 GPT-4 时，即使使用 100 个代币，我们的方法也可以实现超过 78% 的攻击成功率。此外，我们的方法展示了可转移性，并且对最先进的防御具有鲁棒性。我们将在发布后开源我们的代码。

大语言模型看待用户角色的方式

分类： 人机交互

作者： Swaroop Panda

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14858v1

摘要： 近年来获得巨大关注的大型语言模型 (LLM) 也可用作大型结构化数据存储库。用户角色是人机交互中重要且广泛使用的方法。本研究旨在调查大语言模型作为数据存储库的角色如何解释用户角色。我们特别关注印度背景下的人物角色，试图了解大语言模型如何解释这种特定于文化的人物角色。为了实现这一目标，我们进行定量和定性分析。这种多方面的方法使我们能够初步了解大语言模型在印度背景下对人物角色的解释能力。

ToolPlanner：用于多粒度指令的工具增强大语言模型，具有路径规划和反馈

分类： 计算和语言, 人工智能

作者： Qinzhuo Wu, Wei Liu, Jian Luan, Bin Wang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14826v1

摘要： 最近，工具增强的大语言模型受到越来越多的关注。根据指令，工具增强的大语言模型可以与各种外部工具进行多轮交互并提供最终答案。然而，以前的大语言模型接受的培训过于详细，其中包括 API 名称或参数，而真正的用户不会明确提及这些 API 详细信息。这导致训练有素的大语言模型与现实场景之间存在差距。另外，大多数作品都忽略了交互过程是否遵循指令。为了解决这些问题，我们构建了一个名为 MGToolBench 的训练数据集，其中包含语句和类别级指令，以更好地反映真实场景。此外，我们提出了 ToolPlanner，这是一个两阶段强化学习框架，利用路径规划和两种反馈机制来增强大语言模型的任务完成和指令跟踪能力。实验结果表明，与SOTA模型相比，ToolPlanner的匹配率、通过率和胜率显着提高了26.8%、20.2%和5.6%。人工评估验证多粒度指令能够更好地符合用户的使用习惯。我们的数据和代码将在接受后发布。

使用 MBR 解码从 NMT 和 LLM 假设中选择最终翻译：HW-TSC 提交给 WMT24 通用 MT 共享任务

分类： 人工智能

作者： Zhanglin Wu, Daimeng Wei, Zongyao Li, Hengchao Shang, Jiaxin Guo, Shaojun Li, Zhiqiang Rao, Yuanchang Luo, Ning Xie, Hao Yang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14800v1

摘要： 本文介绍了华为翻译服务中心（HW-TSC）向WMT24通用机器翻译（MT）共享任务的提交，其中我们参与了英汉（en2zh）语言对。与前几年的工作类似，我们使用正则化dropout、双向训练、数据多样化、正向翻译、反向翻译、交替训练、课程学习、转导集成学习等训练策略来训练基于深层 Transformer 大架构。不同的是，我们还使用持续预训练、监督微调和对比偏好优化来训练基于大语言模型（LLM）的 MT 模型。通过使用最小贝叶斯风险 (MBR) 解码从 NMT 和基于 LLM 的 MT 模型的多个假设中选择最终翻译，我们提交的内容在最终评估中获得了有竞争力的结果。

LINKAGE：通过大语言模型进行非 Factoid QA 评估的各种质量参考文献中的列表排名

分类： 计算和语言

作者： Sihui Yang, Keping Bi, Wanqing Cui, Jiafeng Guo, Xueqi Cheng

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14744v1

摘要： 由于潜在答案多种多样且没有客观标准，非事实 (NF) 问答 (QA) 的评估具有挑战性。常用的自动评估指标如 ROUGE 或 BERTScore 无法准确衡量语义相似度或不同角度的答案。最近，大型语言模型（LLM）因其在各种 NLP 任务上的出色表现而被用于 NFQA 评估。常见的方法包括对每个候选答案进行逐点评分以及答案之间的成对比较。受到学习排序方法从点式到成对式再到列表式演变的启发，我们提出了一种新颖的列表式 NFQA 评估方法，该方法利用 LLM 对按质量降序排列的参考答案列表中的候选答案进行排名。此外，对于没有多级或任何黄金答案的 NF 问题，我们利用 LLM 生成各种质量的参考答案列表，以方便列表式评估。对三个 NFQA 数据集（ANTIQUE、TREC-DL-NF 和 WebGLM）的广泛实验结果表明，与自动评分和常见的逐点和成对方法相比，我们的方法与人类注释的相关性显着更高。

LlamaPartialSpoof：LLM 驱动的模拟虚假信息生成的虚假语音数据集

分类： 音频和语音处理, 声音

作者： Hieu-Thi Luong, Haoyang Li, Lin Zhang, Kong Aik Lee, Eng Siong Chng

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14743v1

摘要： 以前的虚假语音数据集是从防御者的角度构建的，以开发对策（CM）系统，而没有考虑攻击者的不同动机。为了更好地符合现实生活场景，我们创建了 LlamaPartialSpoof，这是一个包含完全和部分虚假语音的 130 小时数据集，使用大型语言模型 (LLM) 和语音克隆技术来评估 CM 的稳健性。通过检查对攻击者和防御者都有价值的信息，我们发现了当前 CM 系统中的几个关键漏洞，可以利用这些漏洞来提高攻击成功率，包括对某些文本到语音模型或串联方法的偏见。我们的实验结果表明，当前的虚假语音检测系统很难泛化到未见过的场景，达到了 24.44% 等错误率的最佳性能。

AmpAgent：基于 LLM 的多智能体系统，用于从工艺和性能移植文献中进行多级放大器原理图设计

分类： 新兴技术, 系统与控制, 系统与控制

作者： Chengjie Liu, Weiyu Chen, Anlan Peng, Yuan Du, Li Du, Jun Yang

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14739v1

摘要： 多级放大器广泛应用于模拟电路中。然而，它们的大量组件、复杂的传递函数和复杂的零极点分布需要大量的人力进行推导和参数调整，以确保其稳定性。为了实现传递函数的高效推导并简化电路设计的难度，我们提出了AmpAgent：一种基于大语言模型（LLM）的多智能体系统，用于通过工艺和性能移植从文献中有效地设计此类复杂的放大器。 AmpAgent 由三个代理组成：文献分析代理、数学推理代理和设备规模调整代理。他们分别负责从文献中检索关键信息（例如公式和传递函数），通过推导关键公式来分解整个电路的设计问题，并迭代解决分解后的问题。 AmpAgent 用于七种不同补偿技术的多级放大器的原理图设计。在设计效率方面，AmpAgent较传统优化算法减少了迭代次数1.32$ \sim $4${\times}$，执行时间减少1.19$ \sim $2.99${\times}$，成功率增加了 1.03$ \sim $6.79${\times}$。电路性能方面，较原文献提高了1.63$ \sim $27.25${\times}$。研究结果表明，大语言模型可以在复杂模拟电路原理图设计以及工艺和性能移植领域发挥至关重要的作用。

解析树引导 LLM 快速压缩

分类： 计算和语言, 人工智能

作者： Wenhao Mao, Chengbin Hou, Tianyu Zhang, Xinyu Lin, Ke Tang, Hairong Lv

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15395v1

摘要： 为大型语言模型 (LLM) 提供丰富的上下文已证明可以提高各种任务的性能，但由此产生的较长提示会增加计算成本，并可能超出 LLM 的输入限制。最近，已经提出了一些提示压缩方法，通过使用语言模型生成较短的提示或通过开发计算模型来选择原始提示的重要部分来缩短提示的长度。生成压缩方法会遇到幻觉等问题，而选择性压缩方法不涉及语言规则并且忽略了提示的全局结构。为此，我们提出了一种新颖的选择性压缩方法，称为 PartPrompt。它首先根据语言规则获得每个句子的解析树，并计算解析树中每个节点的局部信息熵。然后根据句子、段落和部分的依赖关系等层次结构将这些局部解析树组织成全局树。之后，提出根向传播和叶向传播来调整全局树上的节点值。最后，开发了一种递归算法来根据调整后的节点值修剪全局树。实验表明，PartPrompt 在各种数据集、指标、压缩比和用于推理的目标 LLM 上都获得了最先进的性能。深入的消融研究证实了 PartPrompt 设计的有效性，其他附加实验也证明了其在压缩提示的连贯性和超长提示场景下的优越性。

PROMPTFUZZ：利用模糊技术对大语言模型中的即时注入进行稳健测试

分类： 密码学和安全, 人工智能

作者： Jiahao Yu, Yangguang Shao, Hanwen Miao, Junzheng Shi, Xinyu Xing

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14729v1

摘要： 大型语言模型 (LLM) 因其强大的生成类人文本的能力而在各种应用中获得了广泛的应用。然而，提示注入攻击涉及用恶意提示覆盖模型的原始指令来操纵生成的文本，这引起了人们对大语言模型的安全性和可靠性的严重担忧。确保大语言模型能够抵御此类攻击对于其在实际应用程序中的部署至关重要，尤其是在关键任务中。在本文中，我们提出了 PROMPTFUZZ，这是一种新颖的测试框架，它利用模糊测试技术来系统地评估 LLM 针对即时注入攻击的稳健性。受软件模糊测试的启发，PROMPTFUZZ 选择有希望的种子提示并生成一组多样化的提示注入来评估目标 LLM 的弹性。 PROMPTFUZZ 分两个阶段运行：准备阶段，涉及选择有前途的初始种子并收集少数样本；焦点阶段，使用收集的样本生成多样化的高质量提示注入。使用 PROMPTFUZZ，我们可以发现 LLM 中的更多漏洞，甚至是那些具有强大防御提示的漏洞。通过在现实世界的比赛中部署 PROMPTFUZZ 生成的攻击提示，我们在 2 小时内从 4000 多名参与者中获得了第七名（排名前 0.14%）。此外，我们构建了一个数据集来微调 LLM，以增强针对即时注入攻击的鲁棒性。虽然经过微调的模型显示出稳健性有所提高，但 PROMPTFUZZ 仍继续识别漏洞，强调了大语言模型稳健测试的重要性。我们的工作强调了对有效测试工具的迫切需求，并提供了一个实用的框架来评估和提高大语言模型针对即时注入攻击的稳健性。

zsLLMCode：通过零样本学习的 LLM 进行功能代码嵌入的有效方法

分类： 软件工程, 人工智能

作者： Zixiang Xian, Chenhui Cui, Rubing Huang, Chunrong Fang, Zhenyu Chen

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14644v1

摘要： 对于软件工程（SE）任务，大型语言模型（LLM）具有零样本学习的能力，与预训练模型（PTM）不同，不需要训练或微调。然而，LLM 主要是为自然语言输出而设计的，不能直接从源代码生成中间嵌入。他们还面临一些挑战，例如，有限的上下文长度可能会阻止他们处理更大的输入，限制他们对许多 SE 任务的适用性；而当大语言模型应用于复杂的下游任务时，可能会出现幻觉。受上述事实的启发，我们提出了 zsLLMCode，这是一种使用 LLM 生成功能代码嵌入的新颖方法。我们的方法利用大语言模型通过零样本学习将源代码转换为简洁的摘要，然后使用专门的嵌入模型将其转换为功能代码嵌入。这种无人监督的方法消除了培训的需要，并解决了大语言模型遇到的幻觉问题。据我们所知，这是第一个结合 LLM 和嵌入模型来生成代码嵌入的方法。我们进行了实验来评估我们方法的性能。结果证明了我们的方法相对于最先进的无监督方法的有效性和优越性。

Scideator：基于研究论文方面重组的人类大语言模型科学思想生成

分类： 人机交互, 人工智能, H.5.2, I.2

作者： Marissa Radensky, Simra Shahid, Raymond Fok, Pao Siangliulue, Tom Hope, Daniel S. Weld

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14634v1

摘要： 科学构思过程通常涉及融合现有论文的突出方面以创造新的想法。为了了解大型语言模型 (LLM) 是否可以协助这一过程，我们贡献了 Scideator，这是一种用于科学构思的新型混合主动工具。 Scideator 从用户提供的一组论文开始，从这些论文和相关论文中提取关键方面（目的、机制和评估），允许用户通过交互式重新组合方面来探索想法空间，以综合创造性的想法。 Scideator 还可以通过搜索文献中潜在的重叠部分并显示自动的新颖性评估和解释来帮助用户衡量想法的新颖性。为了支持这些任务，Scideator 引入了四个由 LLM 支持的检索增强生成 (RAG) 模块：Analogous Paper Facet Finder、Faceted Idea Generator、Idea Novelty Checker 和 Idea Novelty Iterator。在一项受试者内部用户研究中，19 名计算机科学研究人员使用 Scideator 发现了比将科学搜索引擎与大语言模型互动相结合的强大基线更有趣的想法。

大语言模型支持的人工智能代理首次现场试验，用于自动驾驶光网络的生命周期管理

分类： 系统与控制, 系统与控制

作者： Xiaomin Liu, Qizhi Qiu, Yihao Zhang, Yuming Cheng, Lilin Yi, Weisheng Hu, Qunbi Zhuge

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14605v2

摘要： 我们为 ADON 设计并演示了 LLM 支持的 AI 代理的首次现场试验。针对网络生命周期管理提出了Agent的三种运行模式。该代理有效地处理波长添加/删除和软/硬故障，并实现与人工设计的功率优化算法相当的性能。

评估大语言模型在材料科学问答和性能预测方面的表现和稳健性

分类： 计算和语言, 材料科学, 人工智能, 机器学习

作者： Hongchen Wang, Kangming Li, Scott Ramsay, Yao Fehlis, Edward Kim, Jason Hattrick-Simpers

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14572v1

摘要： 大型语言模型 (LLM) 具有彻底改变科学研究的潜力，但其在特定领域应用中的稳健性和可靠性尚未得到充分探索。本研究对材料科学领域的大语言模型进行了全面的评估和稳健性分析，重点关注特定领域的问答和材料性能预测。本研究使用了三个不同的数据集：1）本科材料科学课程中的一组多项选择题，2）包含各种钢成分和屈服强度的数据集，3）带隙数据集，包含以下内容的文本描述：材料晶体结构和带隙值。大语言模型的表现是使用各种提示策略进行评估的，包括零样本思维链、专家提示和少样本情境学习。这些模型的稳健性针对各种形式的“噪声”进行测试，从现实干扰到故意对抗性操作，以评估它们在现实条件下的弹性和可靠性。此外，该研究还揭示了大语言模型在预测任务期间的独特现象，例如提示示例的接近度改变时的模式崩溃行为以及训练/测试不匹配导致的性能增强。这些发现旨在为大语言模型在材料科学中的广泛使用提供明智的怀疑，并激发进步，提高其实际应用的稳健性和可靠性。

学习使用基于 LLM 的多路径文本视频对齐来本地化教学视频中的动作

分类： 计算机视觉和模式识别

作者： Yuxiao Chen, Kai Li, Wentao Bao, Deep Patel, Yu Kong, Martin Renqiang Min, Dimitris N. Metaxas

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.16145v1

摘要： 由于带注释的大规模培训视频的可用性有限，学习定位教学视频中程序步骤的时间边界具有挑战性。最近的工作重点是通过对比学习来学习视频片段和 ASR 转录的叙述文本之间的跨模式对齐。然而，这些方法无法考虑对齐噪声，即视频中与教学任务不相关的叙述以及叙述中不可靠的时间戳。为了应对这些挑战，这项工作提出了一种新颖的培训框架。受大型语言模型（LLM）在过程理解和文本摘要方面强大能力的启发，我们首先应用LLM过滤掉与任务无关的信息，并从叙述中总结与任务相关的过程步骤（LLM步骤）。为了进一步在 LLM 步骤和训练视频之间生成可靠的伪匹配，我们提出了多路径文本视频对齐（MPTVA）策略。关键思想是通过多种途径测量LLM步骤和视频之间的对齐，包括：（1）使用叙述时间戳的步骤叙述视频对齐，（2）基于长期语义相似性的直接步骤到视频对齐，以及（3）直接的步骤到视频对齐，重点关注从一般视频领域学习的短期细粒度语义相似性。来自不同路径的结果被融合以生成可靠的伪步骤视频匹配。我们对各种任务和问题设置进行了广泛的实验，以评估我们提出的方法。我们的方法在三个下游任务中超越了最先进的方法：程序步骤基础、步骤定位和叙述基础，分别提高了 5.9%、3.1% 和 2.8%。

RACOON：基于 LLM 的框架，用于使用知识图进行检索增强列类型注释

分类： 数据库, 人工智能

作者： Linxi Wei, Guorui Xiao, Magdalena Balazinska

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14556v1

摘要： 作为数据探索和集成的重要组成部分，列类型注释（CTA）旨在用一种或多种语义类型来标记表的列。随着大型语言模型（LLM）的最新发展，研究人员开始探索将 LLM 用于 CTA 的可能性，利用其强大的零样本能力。在本文中，我们在这项有前途的工作的基础上，通过展示如何使用知识图（KG）来增强提供给大语言模型的上下文信息，改进基于大语言模型的 CTA 方法。我们的方法称为 RACOON，在生成过程中结合了预先训练的参数化和非参数化知识，以提高大语言模型在 CTA 上的表现。我们的实验表明，与普通的 LLM 推理相比，RACOON 实现了高达 0.21 微 F-1 的改进。

LLM 会员资格推断的速度大幅提升

分类： 机器学习, 密码学和安全, 机器学习

作者： Rongting Zhang, Martin Bertran, Aaron Roth

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14513v2

摘要： 大型语言模型 (LLM) 有望彻底改变计算，但其复杂性和广泛的训练数据也暴露了重大的隐私漏洞。与大语言模型相关的最简单的隐私风险之一是它们容易受到成员推理攻击（MIA）的影响，其中对手的目的是确定特定数据点是否是模型训练集的一部分。尽管这是一个已知的风险，但 MIA 的最先进方法依赖于训练多个计算成本高昂的影子模型，使得大型模型的风险评估难以进行。在这里，我们改编了最近的一项工作，使用分位数回归来发起成员推理攻击；我们通过提出一种低成本 MIA 来扩展这项工作，该 MIA 利用小分位数回归模型的集合来确定文档是否属于模型的训练集。我们在不同系列（OPT、Pythia、Llama）的微调大语言模型和多个数据集上证明了这种方法的有效性。在所有场景中，与最先进的影子模型方法相比，我们获得了可比或更高的精度，而计算预算仅为其 6%。我们展示了跨多纪元训练的目标模型的有效性以及架构未规范稳健性的提高，也就是说，我们可以使用不同的分词器和架构对模型进行有效的攻击，而无需了解目标模型。

InteLiPlan：基于大语言模型的交互式轻量级家用机器人自主规划器

分类： 机器人技术

作者： Kim Tien Ly, Kai Lu, Ioannis Havoutis

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14506v1

摘要： 我们引入了一个基于 LLM 的轻量级框架，旨在增强家用机器人的自主性和鲁棒性，针对机载体现智能。通过解决运动学约束和动态环境等挑战，我们的方法减少了对大规模数据的依赖，并整合了与机器人无关的管道。我们的框架 InteLiPlan 确保了 LLM 模型的决策能力与机器人功能有效结合，增强了操作的鲁棒性和适应性，而我们的人机循环机制允许在系统出现问题时进行实时人工干预。失败。我们在模拟和真实的丰田 HSR 机器人上评估我们的方法。结果表明，我们的方法在完成 fetch me 任务和系统故障恢复方面实现了 93% 的成功率，优于国内环境中的基准方法。 InteLiPlan 的性能可与最先进的基于 LLM 的大型机器人规划器相媲美，同时保证具有嵌入式智能的实时机载计算。

增强基于 LLM 的自动驾驶代理以减轻感知攻击

分类： 密码学和安全, 人工智能

作者： Ruoyu Song, Muslum Ozgur Ozmen, Hyungsub Kim, Antonio Bianchi, Z. Berkay Celik

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14488v1

摘要： 人们对将大型语言模型 (LLM) 与自动驾驶 (AD) 系统集成越来越感兴趣。然而，AD 系统很容易受到针对其对象检测和跟踪 (ODT) 功能的攻击。不幸的是，我们对最近四个 LLM 代理针对 ODT 攻击的评估表明，这些攻击在导致其崩溃或违反流量规则方面的成功率为 63.26%，原因是 (1) 误导性内存模块为决策提供了过去的经验，(2)提示识别不一致之处，以及（3）依赖地面真实感知数据。在本文中，我们介绍了 Hudson，这是一种驾驶推理代理，它扩展了之前基于 LLM 的驾驶系统，以便在感知攻击期间做出更安全的决策，同时在良性条件下保持有效性。 Hudson 通过首先使用 AD 软件来收集实时感知结果和来自驾驶场景的上下文信息来实现这一目标。然后，该数据被形式化为特定领域语言 (DSL)。为了指导大语言模型在 ODT 攻击期间检测并做出安全控制决策，Hudson 将 DSL 翻译为自然语言，以及自定义攻击检测指令列表。执行查询后，Hudson 分析 LLM 的控制决策，以了解其因果推理过程。我们使用专有的 LLM (GPT-4) 和两个开源 LLM（Llama 和 Gemma）在各种对抗性驾驶场景中评估 Hudson 的有效性。 GPT-4、Llama 和 Gemma 的平均攻击检测准确度为 83. 3%、63. 6% 和 73. 6%。因此，他们在 86.4%、73.9% 和 80% 的攻击中做出了安全控制决策。随着人们对将 LLM 集成到 AD 系统中的兴趣日益浓厚，我们的结果突出了 LLM 的优势及其检测和缓解 ODT 攻击的潜力。

重新思考大型语言模型的语义解析：通过语义提示提高 LLM 性能

分类： 计算和语言

作者： Kaikai An, Shuzheng Si, Helan Hu, Haozhe Zhao, Yuchi Wang, Qingyan Guo, Baobao Chang

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14469v1

摘要： 语义解析旨在捕获句子的含义并将其转换为逻辑的结构化形式。先前的研究表明，语义解析可以增强较小模型（例如 BERT）在下游任务上的性能。然而，目前尚不清楚这些改进是否也适用于大语言模型。在本文中，我们的实证研究结果表明，与较小的模型不同，直接将语义解析结果添加到 LLM 中会降低其性能。为了克服这个问题，我们提出了 SENSE，一种新颖的提示方法，可以在提示中嵌入语义提示。实验表明，SENSE 持续提高了大语言模型在各种任务中的表现，凸显了集成语义信息以提高大语言模型能力的潜力。

利用大语言模型打造汽车创新景观

分类： 计算和语言, 人工智能, 机器人技术

作者： Raju Gorain, Omkar Salunke

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14436v1

摘要： 通过专利分析来美化汽车创新的过程对于研发团队至关重要。它有助于了解创新趋势、技术进步和竞争对手的最新技术。传统上，这个过程需要大量的手工工作。然而，随着大型语言模型 (LLM) 的出现，现在可以实现自动化，从而实现更快、更高效的专利分类和最先进的发明概念提取。这种自动化可以帮助各个研发团队从广泛的专利数据库中提取相关信息。介绍了一种基于即时工程的园林绿化要素信息提取方法。这些信息包括专利解决的问题、所使用的技术以及车辆生态系统内的创新领域（例如安全性、高级驾驶员辅助系统等）。结果展示了该方法的实施，以创建燃料景观使用开源专利数据的细胞技术。这种方法全面概述了燃料电池技术的现状，为该领域的未来研究和开发提供了宝贵的见解。

更有效的 LLM 压缩令牌，具有均匀分布的位置标识符和压缩损失

分类： 计算和语言

作者： Runsong Zhao, Pengcheng Huang, Xinyu Liu, Chunyang Xiao, Tong Xiao, Jingbo Zhu

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14364v1

摘要： 将 Transformer 输入压缩为压缩令牌可以提高运行 LLM 的速度和成本效率。基于压缩方法 ICAE，我们仔细检查了压缩令牌的位置标识符选择，并提出了新的压缩损失。我们凭经验证明，我们提出的方法可实现显着更高的压缩比（ICAE 的压缩比为 15 倍，而 ICAE 为 4 倍），同时能够获得可比的重建性能。

MQM-APE：在 LLM 翻译评估器中通过自动后期编辑实现高质量错误注释预测器

分类： 计算和语言

作者： Qingyu Lu, Liang Ding, Kanjian Zhang, Jinxia Zhang, Dacheng Tao

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14335v1

摘要： 大型语言模型 (LLM) 作为机器翻译 (MT) 质量评估的评判者显示出巨大的潜力，可以提供分数和细粒度的反馈。尽管 GEMBA-MQM 等方法在无参考评估中表现出 SOTA 性能，但预测的错误与人类注释的错误并不一致，限制了它们作为反馈信号的可解释性。为了提高LLM评估者预测的错误注释的质量，我们引入了一个通用且免训练的框架$\textbf{MQM-APE}$，基于通过自动后期编辑（APE）过滤掉无影响的错误的思想）根据每个错误进行原始翻译，只留下那些有助于质量改进的错误。具体来说，我们提示大语言模型充当 1) $\textit{evaluator}$ 提供错误注释，2) $\textit{post-editor}$ 确定错误是否影响质量改进，以及 3) $\textit{pairwisequality verifier}$ 作为错误过滤器。实验表明，我们的方法相对于 GEMBA-MQM，在高资源和低资源语言的八个大语言模型中持续提高了错误跨度的可靠性和质量。与经过训练的方法正交，MQM-APE 补充了 Tower 等特定于翻译的评估器，突出了其广泛的适用性。进一步的分析证实了每个模块的有效性，并为评估者设计和大语言模型选择提供了宝贵的见解。该代码将被发布以方便社区。

ISC4DGF：通过 LLM 驱动的初始种子语料库生成增强定向灰盒模糊测试

分类： 软件工程

作者： Yijiang Xu, Hongrui Jia, Liguo Chen, Xin Wang, Zhengran Zeng, Yidong Wang, Qing Gao, Jindong Wang, Wei Ye, Shikun Zhang, Zhonghai Wu

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14329v1

摘要： 模糊测试对于识别软件漏洞至关重要，AFL 和 Angora 等覆盖范围引导的灰盒模糊器在广泛的检测方面表现出色。然而，随着目标检测需求的增长，定向灰盒模糊测试 (DGF) 变得至关重要，重点关注特定漏洞。初始种子语料库由模糊器用作起点的精心选择的输入样本组成，对于确定模糊器探索的路径至关重要。精心设计的种子语料库可以更有效地引导模糊器到达代码的关键区域，从而提高模糊测试过程的效率和成功率。尽管它很重要，但许多工作都集中在完善指导机制上，而很少关注优化初始种子语料库。在本文中，我们介绍了 ISC4DGF，这是一种使用大型语言模型 (LLM) 为 DGF 生成优化初始种子语料库的新方法。通过利用大语言模型对软件的深入理解和精确的用户输入，ISC4DGF 创建了精确的种子语料库，可有效触发特定漏洞。 ISC4DGF 在 AFL 上实施，并使用 Magma 基准测试对 AFLGo、FairFuzz 和 Entropic 等最先进的模糊器进行测试，实现了 35.63 倍的加速和 616.10 倍的目标到达率。此外，ISC4DGF 专注于更有效地检测目标漏洞，提高效率，同时减少代码覆盖率。

LLM 是一次性 URL 分类器和解释器

分类： 人工智能

作者： Fariza Rashid, Nishavi Ranaweera, Ben Doyle, Suranga Seneviratne

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14306v1

摘要： 恶意 URL 分类是网络安全的一个重要方面。尽管现有的工作包括大量基于机器学习和深度学习的 URL 分类模型，但大多数都因缺乏代表性训练数据集而出现泛化和领域适应问题。此外，这些模型无法以自然人类语言对给定的 URL 分类提供解释。在这项工作中，我们研究并演示了使用大型语言模型 (LLM) 来解决这个问题。具体来说，我们提出了一种基于 LLM 的一次性学习框架，该框架使用思想链 (CoT) 推理来预测给定 URL 是良性的还是网络钓鱼。我们使用三个 URL 数据集和五个最先进的 LLM 评估我们的框架，并表明一次性 LLM 提示确实提供了接近监督模型的性能，其中 GPT 4-Turbo 是最好的模型，其次是 Claude 3 Opus。我们对LLM的解释进行了定量分析，结果表明LLM提供的大多数解释与监督分类器的事后解释是一致的，并且解释具有较高的可读性、连贯性和信息量。

PretextTrans：通过谓词-文本双重转换研究大语言模型的医学事实知识掌握情况

分类： 计算和语言, 人工智能

作者： Yuxuan Zhou, Xien Liu, Chen Ning, Ji Wu

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14302v1

摘要： 在这项研究中，我们的目的是通过动态评估模式来调查当前大语言模型对医学事实知识的掌握情况，该模型可以为每个医学事实知识点自动生成多个测试样本。大语言模型直接产生的测试样本总是会引入事实错误，并且知识表达方式缺乏多样性。为了克服这些缺点，我们通过将谓词转换引入动态评估模式，提出了一种新颖的评估方法，即谓词文本双重转换（PretextTrans）。具体地，首先将每个医学知识点转化为谓词表达式；然后，谓词表达式通过谓词变换导出一系列变体；最后，将生成的谓词变体转换回文本表达，从而产生一系列既具有事实可靠性又具有表达多样性的测试样本。使用所提出的 PretextTrans 方法，我们基于两个医学数据集系统地调查了 12 名知名大语言模型对医学事实知识的掌握情况。比较结果表明，当前的大语言模型在充分掌握医学知识方面仍然存在显着缺陷，这可能说明了为什么当前的大语言模型尽管在公共基准上取得了相当大的表现，但在现实世界的医疗场景中仍然表现不佳。我们提出的方法是评估医学领域大语言模型的有效解决方案，并为开发特定医学大语言模型提供了宝贵的见解。

大语言模型时代对话分析的势在必行：任务、技术和趋势调查

分类： 计算和语言

作者： Xinghua Zhang, Haiyang Yu, Yongbin Li, Minzheng Wang, Longze Chen, Fei Huang

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14195v1

摘要： 在大语言模型（LLM）时代，由于语言UI的快速发展趋势，将积累大量的对话日志。对话分析 (CA) 致力于从对话数据中发现和分析关键信息，简化手动流程并支持业务洞察和决策。 CA 提取可行见解和推动赋权的需求变得越来越突出并引起广泛关注。但由于CA缺乏明确的范围，导致各种技术分散，难以形成系统的技术协同来赋能业务应用。在本文中，我们对CA任务进行了彻底的回顾和系统化，以总结现有的相关工作。具体来说，我们正式定义了CA任务来面对该领域碎片化、混乱的局面，并推导出CA的四个关键步骤：从对话场景重构，到深入的归因分析，再到进行有针对性的训练，最终根据对话生成对话。有针对性的培训，以实现特定目标。此外，我们还展示了相关基准，讨论了潜在的挑战，并指出了行业和学术界的未来方向。从目前的进展来看，很明显，大多数工作仍然集中在浅层会话元素的分析上，这在研究和商业之间呈现出相当大的差距，并且在大语言模型的帮助下，最近的工作呈现出以下趋势：对复杂且高水平的因果关系和战略任务的研究。分析的经验和见解必然会在针对对话日志的业务运营中具有更广泛的应用价值。

大语言模型的三元组知识：通过语义提取提高表 QA 准确性

分类： 计算和语言, 信息检索

作者： Hossein Sholehrasa, Sanaz Saki Norouzi, Pascal Hitzler, Majid Jaberi-Douraki

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14192v1

摘要： 从表格格式集成结构化知识给自然语言处理 (NLP) 带来了重大挑战，主要是在处理复杂的半结构化表格（例如 FeTaQA 数据集中的表格）时。这些表格需要先进的方法来准确解释和生成有意义的响应。传统方法（例如 SQL 和 SPARQL）通常无法完全捕获此类数据的语义，尤其是在存在不规则表结构（例如 Web 表）的情况下。本文通过提出一种新颖的方法来解决这些挑战，该方法可以直接从表格数据中提取三元组，并将其与检索增强生成（RAG）模型集成，以提高由微调的 GPT 生成的响应的准确性、连贯性和上下文丰富度。 3.5-turbo-0125 型号。我们的方法明显优于 FeTaQA 数据集上的现有基线，特别是在 Sacre-BLEU 和 ROUGE 指标方面表现出色。它有效地从表格中生成上下文准确且详细的长格式答案，展示了其在复杂数据解释方面的优势。

PathSeeker：利用基于强化学习的越狱方法探索 LLM 安全漏洞

分类： 密码学和安全, 人工智能

作者： Zhihao Lin, Wei Ma, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Yang Liu, Jun Wang, Li Li

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14177v1

摘要： 近年来，大型语言模型（LLM）得到了广泛的使用，同时人们对其安全性的担忧也日益增加。传统的越狱攻击依赖于内部模型细节，或者在探索受害者模型的不安全行为时存在局限性，从而限制了其普遍性。在本文中，我们介绍了 PathSeeker，这是一种新颖的黑盒越狱方法，其灵感来自于逃离安全迷宫的概念。这部作品的灵感来自于老鼠逃离迷宫的游戏。我们认为每个LLM都有其独特的“安全迷宫”，攻击者试图从收到的反馈和积累的经验中寻找出口来破坏目标LLM的安全防御。我们的方法利用多代理强化学习，其中较小的模型协作指导主要 LLM 执行突变操作以实现攻击目标。通过根据模型的反馈逐步修改输入，我们的系统会引发更丰富、有害的响应。在我们手动尝试执行越狱攻击的过程中，我们发现目标模型的响应词汇逐渐变得丰富，最终产生有害的响应。根据观察，我们还引入了一种奖励机制，利用 LLM 响应中词汇丰富度的扩展来削弱安全约束。在 13 个商业和开源 LLM 中进行测试时，我们的方法优于五种最先进的攻击技术，实现了很高的攻击成功率，特别是在 GPT-4o-mini、Claude-3.5 和 GLM 等高度一致的商业模型中4 风，具有很强的安全性。这项研究旨在提高对 LLM 安全漏洞的理解，我们希望这一成果能够有助于开发更强大的防御措施。

QMOS：通过问题掩蔽损失和选项洗牌增强电信大语言模型

分类： 计算和语言, 人工智能, 机器学习

作者： Blessed Guda, Gabrial Zencha A., Lawrence Francis, Carlee Joe-Wong

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14175v1

摘要： 大型语言模型 (LLM) 为问答 (QA) 系统领域带来了实质性进步。这些模型在解决各种学科的复杂查询方面表现得非常好。然而，由于特定领域的词汇、复杂的技术概念以及对将大语言模型应用于电信等专业领域的精确反应的要求，存在额外的障碍。 GPT-3.5 已在最近的工作中使用，以在检索增强生成 (RAG) 框架中获得电信相关问题的显着准确性。尽管取得了这些进展，GPT-3.5 等模型的实际使用仍受到其专有性质和高计算要求的限制。本文介绍了 QMOS，这是一种创新方法，它使用问题掩蔽损失和选项洗牌技巧来增强大语言模型在电信领域回答多项选择题的性能。我们的重点是在增强的 RAG 框架内使用开源的小型语言模型（Phi-2 和 Falcon-7B）。我们的多方面方法涉及对整个 LLM-RAG 流程的微调、检索、即时工程和推理的多项增强。我们的方法明显优于现有结果，Falcon-7B 的精度从基线的 24.70% 提高到 49.30%，Phi-2 的精度从基线的 42.07% 提高到 84.65%。

PTD-SQL：使用文本到 SQL 中的 LLM 进行分区和定向钻取

分类： 计算和语言, 人工智能

作者： Ruilin Luo, Liyuan Wang, Binghuai Lin, Zicheng Lin, Yujiu Yang

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14082v1

摘要： 大型语言模型 (LLM) 已成为文本到 SQL 任务的强大工具，展现出卓越的推理能力。与数学应用题和常识推理等任务不同，SQL 解决方案具有相对固定的模式。这有助于调查大语言模型是否可以从分类思维中受益，反映了人类如何通过基于可比示例的归纳推理来获取知识。在这项研究中，我们建议采用查询组分区可以让大语言模型专注于学习特定于单一问题类型的思维过程，从而增强他们跨不同难度级别和问题类别的推理能力。我们的实验表明，多个高级大语言模型在配备 PTD-SQL 后，可以超越或匹配 Spider 和 BIRD 数据集上之前最先进的 (SOTA) 方法。有趣的是，具有不同初始性能的模型表现出了显着的改进，主要是在定向钻探后其能力的边界，这表明与人类的进步是平行的。代码可从 https://github.com/lrlbbzl/PTD-SQL 获取。

实际实施大语言模型支持的协作漏洞修复流程：基于团队的方法

分类： 密码学和安全

作者： Xiaoqing Wang, Yuanjing Tian, Keman Huang, Bin Liang

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14058v1

摘要： 将大语言模型纳入网络安全运营是一项典型的现实世界高风险任务，这一点至关重要，但在实践中却并非微不足道。以网络安全为研究背景，我们进行了三步混合方法研究，将大语言模型有效地纳入漏洞修复过程。具体来说，我们解构了现有流程中用户满意度方面的缺陷（研究 1）。这激励我们通过实地研究（研究 2）设计、实施和实证验证大语言模型支持的协作漏洞修复流程。鉴于LLM的多元化贡献，我们通过分析补救报告和后续访谈进一步调查LLM的双刃角色（研究3）。从本质上讲，我们的贡献在于促进大语言模型支持的高效协作漏洞修复流程。这些第一手的真实证据表明，当将大语言模型纳入实际流程时，可以促进所有相关利益相关者之间的协作，根据任务复杂性重塑大语言模型的角色，以及解决改进用户的短期副作用具有理性思维的大语言模型促进了参与。

大语言模型可以取代尼尔·德格拉斯·泰森吗？评估大语言模型作为科学传播者的可靠性

分类： 计算和语言, 人工智能

作者： Prasoon Bajpai, Niladri Chatterjee, Subhabrata Dutta, Tanmoy Chakraborty

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.14037v1

摘要： 由这些模型驱动的大型语言模型 (LLM) 和人工智能助手在专家和业余用户中的使用量正在呈指数级增长。在这项工作中，我们重点评估当前大语言模型作为科学传播者的可靠性。与现有基准不同，我们的方法强调在科学问答任务上评估这些模型，这些任务需要对可回答性有细致入微的理解和意识。我们引入了一个新颖的数据集 SCiPS-QA，其中包含嵌入复杂科学概念的 742 个是/否查询，以及一个用于评估大语言模型跨各种标准的正确性和一致性的基准测试套件。我们对来自 OpenAI GPT 系列的 3 个专有大语言模型和来自 Meta Llama-2、Llama-3 和 Mistral 系列的 13 个开放访问大语言模型进行了基准测试。虽然大多数开放访问模型的性能明显低于 GPT-4 Turbo，但我们的实验表明 Llama-3-70B 是一个强大的竞争对手，在各个评估方面通常超过 GPT-4 Turbo。我们还发现，即使是 GPT 模型在可靠验证 LLM 响应方面也普遍表现出无能。此外，我们观察到一个令人担忧的趋势，即人类评估者被 GPT-4 Turbo 的错误响应所欺骗。

Mufu：大语言模型低资源翻译的多语言融合学习

分类： 计算和语言

作者： Zheng Wei Lim, Nitish Gupta, Honglin Yu, Trevor Cohn

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13949v1

摘要： 多语言大语言模型 (LLM) 是出色的翻译器，但这在很大程度上仅限于高资源语言。对于许多大语言模型来说，低资源语言的翻译仍然是一项具有挑战性的任务。为了在这种资源匮乏的环境中最大限度地提高数据效率，我们引入了 Mufu，其中包括自动生成的多语言候选选项的选择以及纠正提示中不准确翻译的指令。 Mufu提示将翻译任务转变为后编辑任务，并寻求利用辅助翻译候选人的LLM推理能力，其中模型需要评估输入质量，跨语言对齐语义，从相关输入复制并覆盖实例那些是不正确的。我们在 Flores-200 数据集上对 En-XX 翻译进行的实验表明，针对 Mufu 风格提示进行微调的 LLM 对于质量较差的辅助翻译候选者具有鲁棒性，在 64% 的低和极低翻译中实现了优于 NLLB 1.3B 蒸馏模型的性能。资源语言对。然后，我们提炼这些模型以降低推理成本，同时在低资源翻译中保持比仅微调基线平均 3.1 chrF 的改进。

TalkMosaic：具有多模式大语言模型问答互动的交互式照片马赛克

分类： 计算机视觉和模式识别, 人工智能

作者： Kevin Li, Fulu Li

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13941v1

摘要： 我们使用各种汽车图像来构图鸟类或狮子等动物图像，以环保为主题，以在单个合成图像中最大化有关汽车的信息，并提高人们对环境挑战的认识。我们提出了一种与艺术合成的马赛克图像进行图像交互的新颖方式，通过“点击显示”的简单操作来演示马赛克图像中的平铺图像与相应的原始汽车图像之间的交互切换，这将自动保存在桌面上。我们通过将汽车图像信息和相关知识整合到 ChatGPT 中，构建了一个名为 TalkMosaic 的多模式自定义 GPT。通过将原始汽车图像上传到TalkMosaic，我们可以针对给定的汽车图像提出问题，并高效有效地得到相应的答案，例如汽车图像中满足高环保标准的轮胎在哪里购买。我们深入分析了如何使用稀疏注意力和量化技术以及提出的概率 FlashAttention (PrFlashAttention) 和阶梯自适应量化 (SAQ) 方法来加速多模态 LLM 的推理。实现的原型证明了所提出方法的可行性和有效性。

适合所有人的大语言模型：代表大型语言模型中代表性不足的人

分类： 计算和语言, 人工智能

作者： Samuel Cahyawijaya

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13897v1

摘要： 自然语言处理 (NLP) 见证了在多种任务中表现出色的大型语言模型 (LLM) 的深远影响。然而，大语言模型在多语言环境中的局限性，特别是在代表性不足的语言中，仍然是一个重大障碍。本论文旨在通过关注代表性不足的语言来缩小 NLP 研究和开发的差距。对大语言模型进行全面评估，以评估他们使用这些语言的能力，揭示多语言和多文化泛化的挑战。针对多语言泛化差距，本文提出了数据和计算高效的方法，以减轻代表性不足的语言中大语言模型能力的差异，从而可以在不损失任务泛化能力的情况下更好地泛化代表性不足的语言。所提出的解决方案涵盖跨语言持续指令调优、基于检索的跨语言上下文学习和上下文查询对齐。此外，还提出了一种衡量不同语言大语言模型之间文化价值观一致性的新方法，确保文化敏感性和包容性。这些贡献旨在加强代表性不足语言的大语言模型的多语言和多文化一致性，最终推动 NLP 领域走向更大的平等和包容性。

多大语言模型去偏框架

分类： 计算和语言, 人工智能, 计算机与社会, 机器学习

作者： Deonna M. Owens, Ryan A. Rossi, Sungchul Kim, Tong Yu, Franck Dernoncourt, Xiang Chen, Ruiyi Zhang, Jiuxiang Gu, Hanieh Deilamsalehy, Nedim Lipka

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13884v1

摘要： 大型语言模型（LLM）是强大的工具，具有给社会带来巨大利益的潜力，但它们也表现出了导致社会不平等长期存在的偏见。尽管使用数据增强、零样本提示和模型微调的偏差缓解技术取得了重大进展，但偏差仍然持续存在，包括可能逃避人类检测的微妙偏差。最近的研究表明，人们对多大语言模型方法越来越感兴趣，这些方法已被证明可以有效提高大语言模型的推理质量和事实性。基于这种方法，我们提出了一个新颖的多大语言模型去偏见框架，旨在减少大语言模型的偏见。我们的工作是第一个在这个框架内引入和评估两种不同的方法来消除大语言模型的偏差：一种是集中式方法，其中对话由单个中央大语言模型促进，另一种是分散式方法，其中所有模型都直接通信。我们的研究结果表明，我们的多大语言模型框架显着减少了大语言模型的偏见，在多个社会群体中的表现优于基线方法。

语言模型言行一致吗？检查大语言模型中编码的有关性别语言改革的语言意识形态

分类： 计算和语言, 人工智能

作者： Julia Watson, Sophia Lee, Barend Beekhuizen, Suzanne Stevenson

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13852v1

摘要： 我们通过英语性别语言改革的案例研究（与国会议员/-女人/-男人等角色名词和单数they相关）来研究大语言模型撰写的文本中的语言意识形态。首先，我们发现政治偏见：当被要求使用“正确”或“自然”的语言时，大语言模型使用的语言与被要求与保守（与进步）价值观保持一致时最相似。这表明大语言模型的元语言偏好如何隐含地传达特定政治团体的语言意识形态，即使在看似非政治的背景下也是如此。其次，我们发现大语言模型表现出内部不一致：当提供更明确的元语言上下文时，大语言模型更频繁地使用性别中立变体。这显示了大语言模型生成的文本中表达的语言意识形态如何变化，这可能是用户意想不到的。我们讨论这些发现对价值调整的更广泛影响。

通过使用 LLM 代理和自我反思进行有序代码分析来增强故障定位

分类： 软件工程

作者： Md Nakhla Rafi, Dong Jae Kim, Tse-Hsun Chen, Shaowei Wang

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13642v1

摘要： 定位和修复软件故障是软件开发中一项耗时且耗费资源的任务。传统的故障定位方法，例如基于频谱的故障定位（SBFL），依赖于测试覆盖数据的统计分析，但往往精度较低。基于学习的技术虽然更有效，但需要大量的训练数据，并且计算成本可能很高。大型语言模型 (LLM) 的最新进展通过增强代码理解和推理，为故障定位提供了有希望的改进。然而，这些基于 LLM 的技术仍然面临挑战，包括代币限制、长时间输入导致的性能下降，以及管理涉及多个交互组件的复杂系统的大型项目的困难。为了解决这些问题，我们引入了 LLM4FL，这是一种新颖的基于 LLM 代理的故障定位方法，它将 SBFL 排名与分而治之策略相结合。通过将大型覆盖数据划分为可管理的组并通过提示链接使用多个 LLM 代理，LLM4FL 可以更有效地导航代码库并定位故障。该方法还结合了自我反思和思维链推理，使代理能够迭代地生成修复程序并对可疑方法重新排序。我们在 Defects4J (V2.0.0) 基准测试上评估了 LLM4FL，其中包括来自 14 个开源 Java 项目的 675 个实际错误。我们的结果表明，LLM4FL 在 Top-1 准确率方面比 AutoFL 高出 19.27%，并且超越了 DeepFL 和 Grace 等最先进的监督技术，所有这些都无需进行特定于任务的训练。此外，我们强调了覆盖分割和提示链接对故障定位性能的影响，并表明不同的方法排序可以将 Top-1 准确率提高高达 22%。

ChainBuddy：用于生成 LLM 管道的 AI 代理系统

分类： 人机交互, 人工智能, H.5.2; I.2

作者： Jingyue Zhang, Ian Arawjo

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13588v1

摘要： 随着大型语言模型（LLM）的进步，它们的潜在应用显着增长。然而，评估 LLM 在特定于用户的任务上的行为并为此制定有效的管道仍然很困难。许多用户都在纠结从哪里开始，这通常被称为“空白页”问题。 ChainBuddy 是一款 AI 助手，用于生成内置于 ChainForge 平台中的评估性 LLM 管道，旨在解决这个问题。 ChainBuddy 提供了一种简单且用户友好的方式来规划和评估 LLM 行为，使该过程不再那么令人畏惧，并且在各种可能的任务和用例中更易于访问。我们报告了一项受试者内用户研究，将 ChainBuddy 与基线界面进行比较。我们发现，在使用人工智能辅助时，参与者报告的工作量要求较低，并且对建立大语言模型行为的评估渠道更有信心。我们对界面的未来提出了见解，以帮助用户对人工智能进行开放式评估。

Kalahi：为菲律宾人手工制作的草根文化大语言模型评估套件

分类： 计算和语言, 人工智能

作者： Jann Railey Montalan, Jian Gang Ngui, Wei Qi Leong, Yosephine Susanto, Hamsawardhini Rengarajan, William Chandra Tjhi, Alham Fikri Aji

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.15380v1

摘要： 如今的多语言大语言模型 (LLM) 不一定能够为其菲律宾用户提供文化上适当且相关的响应。我们介绍 Kalahi，这是一个由菲律宾母语人士合作创建的文化大语言模型评估套件。它由 150 个高质量、手工制作且细致入微的提示组成，测试几代人与菲律宾共同文化知识和价值观相关的大语言模型。卡拉希大语言模型的出色表现表明模型能够生成类似于普通菲律宾人在特定情况下所说或所做的反应。我们对具有多语言和菲律宾语支持的大语言模型进行了实验。结果显示，Kalahi 虽然对于菲律宾人来说微不足道，但对于大语言模型来说却具有挑战性，最佳模型仅正确回答了 46.0% 的问题，而菲律宾本土人的表现为 89.10%。因此，Kalahi 可用于准确可靠地评估大语言模型中的菲律宾文化代表性。

用于网络防御的情境化人工智能：使用大语言模型的自动调查

分类： 密码学和安全, 人工智能

作者： Christoforus Yoga Haryanto, Anne Maria Elvira, Trung Duc Nguyen, Minh Hieu Vu, Yoshiano Hartanto, Emily Lomempow, Arathi Arakala

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13524v1

摘要： 本文调查了情境化人工智能在增强网络防御能力方面的潜力，揭示了 2015 年至 2024 年研究的显着增长。我们确定重点关注稳健性、可靠性和集成方法，同时注意到组织信任和治理框架方面的差距。我们的研究采用了两种大语言模型辅助的文献调查方法：(A) ChatGPT 4 用于探索，(B) Gemma 2:9b 用于过滤，使用 Claude 3.5 Sonnet 进行全文分析。我们讨论在学术研究中使用大语言模型的有效性和挑战，为未来的研究人员提供见解。

“因为律师是男性......”：大语言模型检查印地语生成中的隐性性别偏见

分类： 计算和语言, 人工智能, 人机交互

作者： Ishika Joshi, Ishita Gupta, Adrita Dey, Tapan Parikh

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13484v1

摘要： 大型语言模型 (LLM) 越来越多地用于生成跨各种语言的文本，用于翻译、客户支持和教育等任务。尽管取得了这些进步，大语言模型在英语中仍表现出明显的性别偏见，当用印地语等代表性相对不足的语言生成内容时，这种偏见变得更加明显。本研究探讨了印地语文本生成中隐含的性别偏见，并将其与英语文本进行比较。我们受 WinoBias 启发开发了印地语数据集，以检查 GPT-4o 和 Claude-3 十四行诗等模型响应中的刻板模式。我们的结果显示，印地语中存在 87.8% 的显着性别偏见，而英语 GPT-4o 一代中的这一比例为 33.4%，印地语的反应经常依赖于与职业、权力等级和社会阶层相关的性别刻板印象。这项研究强调了不同语言之间性别偏见的差异，并为在生成人工智能系统中解决这些偏见提供了考虑因素。

AQA：通过情境多臂强盗在大语言模型社会中进行自适应问答

分类： 计算和语言

作者： Mohanna Hoveyda, Arjen P. de Vries, Maarten de Rijke, Harrie Oosterhuis, Faegheh Hasibi

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13447v2

摘要： 在问答（QA）中，不同的问题可以通过不同的回答策略来有效解决。有些需要简单的查找，而另一些则需要复杂的多步骤推理才能得到充分的答案。这一观察结果推动了一种动态方法的开发，该方法可以自适应地为每个问题选择最合适的 QA 策略，从而实现更高效、更有效的系统，能够解决更广泛的问题类型。为此，我们基于多个大型语言模型 (LLM) 编排方面的最新进展，并将自适应 QA 制定为动态编排挑战。我们将其定义为上下文多臂老虎机问题，其中上下文由传入问题的特征定义，动作空间由 LLM 代理之间的潜在通信图配置组成。然后，我们训练一个线性置信上限模型，以学习不同问题类型及其相应的最佳多 LLM 通信图表示之间的最佳映射。我们的实验表明，所提出的解决方案对于具有多个模块的 QA 系统的自适应编排是可行的，因为它结合了更复杂策略的卓越性能，同时在更简单的策略就足够时避免了它们的成本。

大语言模型仍无法制定计划； LRM 可以吗？ OpenAI o1 在 PlanBench 上的初步评估

分类： 人工智能, 计算和语言

作者： Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13373v1

摘要： 规划行动方案以实现所需状态的能力长期以来一直被认为是智能代理的核心能力，并且自人工智能研究诞生以来一直是人工智能研究不可或缺的一部分。随着大型语言模型（LLM）的出现，人们对它们是否具有这种规划能力的问题产生了极大的兴趣。 PlanBench 是我们在 GPT3 发布后不久于 2022 年开发的可扩展基准，它仍然是评估大语言模型规划能力的重要工具。尽管自 GPT3 以来出现了大量新的私人和开源大语言模型，但这一基准的进展却出人意料地缓慢。 OpenAI 声称他们最近的 o1（草莓）模型经过专门构建和训练，可以摆脱自回归大语言模型的正常限制，使其成为一种新型模型：大型推理模型（LRM）。以这一发展为催化剂，本文全面审视了当前的大语言模型和新的大语言模型在 PlanBench 上的表现。正如我们将看到的，虽然 o1 的性能在基准测试上有了巨大的进步，超过了竞争对手，但它还远未达到饱和状态。这种改进还引发了部署此类系统之前必须考虑的准确性、效率和保证方面的问题。

使用大语言模型进行机器人操作的自动行为树扩展

分类： 机器人技术

作者： Jonathan Styrud, Matteo Iovino, Mikael Norrlöf, Mårten Björkman, Christian Smith

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13356v1

摘要： 人们越来越期望用于操作任务的机器人系统能够轻松配置新任务或不可预测的环境，同时保持人类可读和可验证的透明策略。我们提出了使用大型语言模型的 BEhavior TRee eXPansion (BETR-XP-LLM) 方法来动态、自动地扩展和配置行为树作为机器人控制的策略。该方法利用大语言模型来解决任务规划者能力之外的错误，无论是在规划还是执行过程中。我们证明该方法能够解决各种任务和故障，并永久更新策略以处理将来的类似问题。

利用知识图和大语言模型支持和监控立法系统

分类： 数据库, 人工智能

作者： Andrea Colombo

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13252v1

摘要： 知识图（KG）已被用来将大型数据集组织成结构化的、互连的信息，从而增强跨各个领域的数据分析。在立法背景下，知识图谱的一个潜在的自然应用是对一系列复杂的互连进行建模，这些互连将法律及其条款彼此以及更广泛的立法背景联系起来。与此同时，GPT 等大型语言模型 (LLM) 的兴起为文本生成和文档起草等法律应用带来了新的机遇。尽管大语言模型具有潜力，但在立法环境中使用大语言模型至关重要，因为它要求没有幻觉并依赖最新信息，因为每天都会发布新的法律。这项工作研究了立法知识图和大语言模型如何协同和支持立法流程。我们解决三个关键问题：在立法系统中使用知识图谱的好处，大语言模型如何通过确保准确的输出来支持立法活动，以及我们如何允许非技术用户在其活动中使用此类技术。为此，我们开发了 Legis AI Platform，这是一个专注于意大利立法的互动平台，增强了进行立法分析的可能性，旨在支持立法活动。

CFSP：具有从粗到细激活信息的大语言模型的高效结构化修剪框架

分类： 计算和语言

作者： Yuxin Wang, Minghua Ma, Zekun Wang, Jingchang Chen, Huiming Fan, Liping Shan, Qing Yang, Dongliang Xu, Ming Liu, Bing Qin

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13199v1

摘要： 大型语言模型 (LLM) 的巨大参数和计算开销对其实际应用提出了挑战。网络剪枝通过删除冗余参数来实现非结构化或结构化稀疏性，最近已被探索用于 LLM 加速。现有的 LLM 剪枝工作侧重于非结构化剪枝，这通常需要特殊的硬件支持才能实现实际加速。相比之下，结构化修剪可以减少一般设备上的延迟。然而，有效地执行结构化剪枝并保持性能仍然是一个挑战，特别是在高稀疏率的情况下。为此，我们引入了一种名为 CFSP 的高效结构化剪枝框架，该框架利用粗粒度（块间）和细粒度（块内）激活信息作为指导剪枝的重要标准。剪枝非常高效，因为它只需要一次前向传递即可计算特征激活。具体来说，我们首先根据块的重要性在块之间分配稀疏预算，然后在每个块内保留重要的权重。此外，我们引入了一种恢复微调策略，该策略根据粗粒度重要性自适应地分配训练开销，以进一步提高性能。实验结果表明，CFSP 在各种稀疏预算的各种模型上优于现有方法。我们的代码将在 https://github.com/wyxscir/CFSP 上提供。

使用可解释的人工智能和大语言模型的自适应端到端物联网安全框架

分类： 机器学习, 密码学和安全

作者： Sudipto Baral, Sajal Saha, Anwar Haque

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13177v1

摘要： 物联网 (IoT) 的指数级增长显着增加了网络安全威胁的复杂性和数量，因此需要开发先进、可扩展和可解释的安全框架。本文提出了一种利用机器学习 (ML)、可解释人工智能 (XAI) 和大型语言模型 (LLM) 进行实时物联网攻击检测和响应的创新综合框架。通过将 SHAP（SHapley Additive exPlanations）和 LIME（Local Interpretable Model-agnostic Explanations）等 XAI 技术与模型无关的架构相集成，我们确保了我们的框架对各种 ML 算法的适应性。此外，大语言模型的纳入增强了检测决策的可解释性和可访问性，为系统管理员提供了对检测到的威胁的可操作的、人类可理解的解释。我们的端到端框架不仅促进了从模型开发到部署的无缝过渡，而且还代表了现有研究中经常缺乏的现实应用程序功能。根据我们对 CIC-IOT-2023 数据集的实验 \cite{neto2023ciciot2023}，Gemini 和 OPENAI LLMS 展示了在攻击缓解方面的独特优势：Gemini 提供精确、集中的策略，而 OPENAI 提供广泛、深入的安全措施。在 XAI 中结合 SHAP 和 LIME 算法可以提供对攻击检测的全面见解，强调通过详细的特征分析、微调和适应错误分类来提高准确性来改进模型的机会。

可视化：使用大语言模型为可视化设计师自动提供设计反馈

分类： 人机交互

作者： Sungbok Shin, Sanghyun Hong, Niklas Elmqvist

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13109v1

摘要： 交互式可视化编辑器使人们能够在不编写代码的情况下创作可视化效果，但不能指导他们有效视觉传达的艺术和工艺。在本文中，我们探讨了使用现成的大型语言模型 (LLM) 为可视化设计人员提供可操作的定制反馈的潜力。我们的实现称为“VISUALIZATIONARY”，展示了如何使用两个组件以这种方式使用 ChatGPT：可视化设计指南的序言和一套从可视化图像中提取显着指标的感知过滤器。我们展示了一项纵向用户研究的结果，该研究涉及 13 名可视化设计师（其中 6 名新手、4 名中级设计师和 3 名专家），在几天的时间内从头开始创作新的可视化。我们的结果表明，使用大语言模型提供自然语言指导甚至可以帮助经验丰富的设计师完善他们的可视化。本文附带的所有补充材料均可在 https://osf.io/v7hu8 上获取。

引导式配置文件生成通过大语言模型提高个性化

分类： 计算和语言, 人工智能

作者： Jiarui Zhang

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13093v1

摘要： 在现代商业系统中，包括推荐、排名和电子商务平台，存在通过将个性化上下文作为输入纳入大型语言模型 (LLM) 来改善客户体验的趋势。然而，大语言模型通常很难在没有额外处理或上下文丰富的情况下有效地解析和利用稀疏和复杂的个人上下文，这凸显了对更复杂的上下文理解机制的需要。在这项工作中，我们提出了引导配置文件生成（GPG），这是一种旨在以自然语言生成个人配置文件的通用方法。正如所观察到的，中级引导型档案生成使大语言模型能够从个人背景中总结和提取重要的、独特的特征，形成简洁的描述性句子，从而更准确地根据个人的独特习惯和偏好来定制他们的生成。我们的实验结果表明，GPG 提高了 LLM 在不同任务中的个性化能力，例如，与直接向 LLM 提供原始个人背景相比，它在预测个人偏好方面的准确性提高了 37%。

大语言模型手术：大型语言模型中的高效知识忘却和编辑

分类： 计算和语言, 人工智能, 机器学习

作者： Akshaj Kumar Veldanda, Shi-Xiong Zhang, Anirban Das, Supriyo Chakraborty, Stephen Rawls, Sambit Sahu, Milind Naphade

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13054v1

摘要： 大型语言模型 (LLM) 已经彻底改变了各个领域，但其实用性也面临着与预训练过程中嵌入的过时或有问题的知识相关的重大挑战。本文解决了修改大语言模型以忘却有问题和过时信息的挑战，同时有效地整合新知识，而无需从头开始重新培训。在这里，我们提出了LLM外科手术，这是一个通过优化三部分目标函数来有效修改LLM行为的框架，该目标函数：（1）在未学习的数据集（有问题和过时的信息）上执行反向梯度，（2）在更新数据集上执行梯度下降（新的和更新的信息），以及（3）最小化保留数据集（未更改文本的小子集）上的 KL 散度，确保预训练和修改后的模型输出之间的对齐。由于缺乏专门为我们的新任务量身定制的公开数据集，我们编制了一个新的数据集和评估基准。使用 Llama2-7B，我们证明了 LLM 手术可以在遗忘集上实现显着的遗忘，在更新集上提高 20% 的准确性，并保持在保留集上的性能。

在大语言模型与搜索学习之间进行选择：高等教育学生的观点

分类： 人机交互

作者： Rahul R. Divekar, Sophia Guerra, Lisette Gonzalez, Natasha Boos

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13051v1

摘要： 大型语言模型 (LLM) 正在迅速改变学习过程，因为学生可以随时使用它们，并可以快速完成或增强一些与学习相关的活动，并具有非凡的性能。学习动态的这种重大转变以前在搜索引擎和维基百科引入时就发生过，它们增强了或传统的信息消费来源，例如大学生的图书馆和书籍。我们研究了下一个转变的可能性：使用大语言模型在学习背景下查找和消化信息，以及它们与搜索引擎等现有技术的关系。我们进行了一项研究，要求学生使用搜索引擎和大语言模型在科目内平衡设计中学习新主题。我们将该研究用作体验后后续访谈的背景基础，在访谈中我们通过搜索引擎（Google）引发了学生的反思、偏好、痛点和大语言模型（ChatGPT）的总体前景。

ADHD 研究的新视角：利用大语言模型和网络洞察构建知识图谱

分类： 社交和信息网络, 计算和语言, 68T30, 68T50, 92C30, I.2.4; I.2.7; J.3

作者： Hakan T. Otal, Stephen V. Faraone, M. Abdullah Canbaz

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12853v1

摘要： 注意力缺陷/多动障碍（ADHD）由于其复杂的症状和多种影响因素，是一种具有挑战性的研究障碍。为了探索如何获得对此主题更深入的见解，我们对 ADHD 的综合知识图谱（KG）进行了网络分析，该知识图谱是在尖端大语言模型的帮助下整合科学文献和临床数据而构建的。该分析（包括 k 核心技术）确定了对于理解这种疾病至关重要的关键节点和关系。基于这些发现，我们使用大型语言模型 (LLM) 和检索增强生成 (RAG) 开发了上下文感知聊天机器人，从而实现了准确且知情的交互。我们的知识图不仅增进了对 ADHD 的理解，还为研究和临床应用提供了强大的工具。

SituationAdapt：通过 LLM 推理实现情境感知的混合现实中的上下文 UI 优化

分类： 人机交互

作者： Zhipeng Li, Christoph Gebhardt, Yves Inglin, Nicolas Steck, Paul Streli, Christian Holz

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12836v1

摘要： 混合现实越来越多地用于受控家庭和办公空间之外的移动环境。这种移动性引入了对适应不同环境的用户界面布局的需求。然而，现有的自适应系统仅针对静态环境而设计。在本文中，我们介绍了 SituationAdapt，这是一个通过考虑共享设置中的环境和社交线索来调整混合现实 UI 以适应现实环境的系统。我们的系统由用于 UI 适配的感知、推理和优化模块组成。我们的感知模块识别用户周围的物体和个人，而我们的推理模块利用视觉和语言模型来评估交互式 UI 元素的位置。这确保了调整后的布局不会阻碍相关的环境线索或干扰社会规范。然后，我们的优化模块会生成考虑到这些考虑因素以及时间约束的混合现实界面。为了进行评估，我们首先验证推理模块与人类专家用户相比评估 UI 上下文的能力。在一项在线用户研究中，我们建立了 SituationAdapt 为混合现实生成上下文感知布局的能力，其性能优于以前的自适应布局方法。最后，我们通过一系列应用程序和场景来展示 SituationAdapt 的多功能性。

评估大语言模型在强化学习中行动评估的零样本能力

分类： 机器学习, 人工智能

作者： Eduardo Pignatelli, Johan Ferret, Tim Rockäschel, Edward Grefenstette, Davide Paglieri, Samuel Coward, Laura Toni

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12798v1

摘要： 时间信用分配问题是强化学习（RL）中的一个核心挑战，涉及将适当的影响归因于轨迹中的每个动作以实现目标的能力。然而，当反馈延迟且稀疏时，学习信号较差，动作评估变得更加困难。规范的解决方案，例如奖励塑造和选项，需要广泛的领域知识和人工干预，限制了它们的可扩展性和适用性。在这项工作中，我们为语言模型信用分配 (CALM) 奠定了基础，这是一种利用大型语言模型 (LLM) 通过奖励塑造和选项发现来自动化信用分配的新颖方法。 CALM 使用 LLM 将任务分解为基本子目标，并评估这些子目标在状态-动作转换中的实现情况。每次选项终止时，都会实现一个子目标，并且 CALM 会提供辅助奖励。当任务奖励稀疏且延迟时，这种额外的奖励信号可以增强学习过程，而不需要人为设计的奖励。我们使用 MiniHack 的人工注释演示数据集对 CALM 进行了初步评估，表明大语言模型可以在零样本设置中有效地分配学分，而无需示例或大语言模型微调。我们的初步结果表明，大语言模型的知识对于强化学习中的学分分配来说是一个有前途的先验，有助于将人类知识转化为价值函数。

PromSec：使用大型语言模型 (LLM) 安全生成功能源代码的提示优化

分类： 软件工程, 机器学习

作者： Mahmoud Nazzal, Issa Khalil, Abdallah Khreishah, NhatHai Phan

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12699v1

摘要： 使用大型语言模型 (LLM) 生成高质量源代码的能力减少了软件开发时间和成本。然而，由于对不安全的开源数据进行训练，它们经常会引入安全漏洞。这凸显了确保安全且功能性代码生成的必要性。本文介绍了 PromSec，一种用于使用 LLM 生成安全且功能代码的 prom 优化算法。在 PromSec 中，我们将 1) 使用生成对抗图神经网络（称为 gGAN）的代码漏洞清除技术来修复和减少生成代码中的安全漏洞，以及 2）使用 LLM 进行代码生成到交互式循环中，从而使得gGAN 通过增强的提示驱动 LLM 生成安全代码，同时保留其功能。在 gGAN 中引入一种新的对比学习方法，我们将代码清除和生成制定为双目标优化问题，使 PromSec 能够显着减少 LLM 推理的数量。 PromSec 提供了一种经济高效且实用的解决方案，用于生成安全、功能性的代码。对 Python 和 Java 代码数据集进行的大量实验证实，PromSec 有效增强了代码安全性，同时保留了其预期功能。我们的实验表明，虽然最先进的方法无法解决所有代码漏洞，但 PromSec 可以有效地解决它们。此外，PromSec 在操作时间、LLM 查询数量和安全分析成本方面实现了多个数量级的减少。此外，使用 PromSec 针对某个 LLM 优化的提示可以跨编程语言转移到其他 LLM，并且可以推广到训练中未见的漏洞。这项研究是增强大语言模型在安全和功能代码生成方面的可信度的一步，支持它们集成到现实世界的软件开发中。

大语言模型可以检查自己的结果，以减轻交通理解任务中的幻觉

分类： 计算机视觉和模式识别

作者： Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12580v1

摘要： 当今的大型语言模型 (LLM) 已经展示了从简单文本生成到高级图像处理的示范性功能。鉴于大语言模型具有处理多模态数据的能力，此类模型目前正在探索用于车载服务，例如支持高级驾驶辅助系统（ADAS）或自动驾驶（AD）系统中的感知任务。然而，大语言模型经常产生无意义或不忠实的信息，称为“幻觉”：这是一个需要缓解的显着问题。在本文中，我们系统地探索了三位最先进的大语言模型（GPT-4o、LLaVA 和 Llama3）在分析来自两个来源的视觉汽车数据时采用 SelfCheckGPT 来发现幻觉：来自美国的 Waymo 开放数据集，以及来自瑞典的 PREPER CITY 数据集。我们的结果表明，GPT-4o 比 LLaVA 更能生成忠实的图像说明，而与后者相比，前者在将非幻觉内容错误标记为幻觉方面表现出宽容。此外，对性能指标的分析表明，数据集类型（Waymo 或 PREPER CITY）不会显着影响字幕的质量或幻觉检测的有效性。然而，与黎明、黄昏或夜间拍摄的图像相比，这些模型在白天拍摄的图像上表现出更好的性能。总体而言，结果表明，SelfCheckGPT 及其改编可用于过滤最先进的大语言模型生成的与交通相关的图像字幕中的幻觉。

人类利益还是冲突？利用大语言模型进行电视节目的自动框架分析

分类： 人机交互

作者： David Alonso del Barrio, Max Tiel, Daniel Gatica-Perez

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12561v1

摘要： 在当前的媒体格局中，理解信息的框架对于批判性消费和明智的决策至关重要。框架分析是识别用于呈现信息的基本观点的宝贵工具，并已应用于包括电视节目在内的各种媒体格式。然而，手动分析框架可能非常耗时且费力。这就是大型语言模型 (LLM) 可以发挥关键作用的地方。在本文中，我们提出了一种使用提示工程来识别电视节目中口头内容的框架的新颖方法。我们的研究结果表明，即时工程大语言模型可以用作识别框架的支持工具，人与机器之间的一致率高达 43%。由于大语言模型仍在开发中，我们相信我们的方法有潜力得到完善和进一步改进。这项技术在交互式媒体应用方面的潜力是巨大的，包括为记者开发支持工具、为新闻系学生学习框架和相关概念的教育资源，以及为观众提供交互式媒体体验。

PersonaFlow：利用大语言模型模拟专家角色促进研究创意

分类： 人机交互, 人工智能

作者： Yiren Liu, Pranav Sharma, Mehul Jitendra Oswal, Haijun Xia, Yun Huang

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12538v1

摘要： 开发新颖的跨学科研究想法通常需要来自不同领域的专家的讨论和反馈。然而，由于领域专家稀缺，及时获得输入具有挑战性。大型语言模型 (LLM) 研究的最新进展表明，利用 LLM 模拟的专家角色来支持研究构思是可行的。在这项研究中，我们介绍了 PersonaFlow，这是一个基于大语言模型的系统，使用角色模拟来支持跨学科科学发现的构思阶段。我们的研究结果表明，在构思过程中使用多个角色可以显着提高用户感知的结果质量（例如，批评的相关性、研究问题的创造力），而不会增加认知负荷。我们还发现，用户角色定制交互显着提高了他们的控制感和对所产生想法的回忆。根据研究结果，我们讨论了突出的道德问题，包括潜在的过度依赖和认知偏见，并提出了在无法获得人类专业知识时利用大语言模型模拟的专家角色来支持研究构想的设计含义。

将 FP8 培训扩展到万亿代币的 LLM

分类： 机器学习, 人工智能

作者： Maxim Fishman, Brian Chmiel, Ron Banner, Daniel Soudry

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12517v1

摘要： 我们首次使用 FP8 精度在高达 2 万亿个 token 的数据集上训练大型语言模型，比之前的限制增加了 20 倍。通过这些扩展的训练运行，我们发现了 FP8 训练中的严重不稳定性，这些不稳定性在早期持续时间较短的工作中是观察不到的。我们将这些不稳定性追溯到 SwiGLU 激活函数的离群值放大。有趣的是，我们从分析和经验上都表明，这种放大仅发生在长时间的训练期间，并将其与 SwiGLU 权重对齐过程联系起来。为了解决这个新发现的问题，我们引入了 Smooth-SwiGLU，这是一种新颖的修改，可确保稳定的 FP8 训练而不改变函数行为。我们还首次演示了两个 Adam 优化器矩的 FP8 量化。结合这些创新，我们在 256 个 Intel Gaudi2 加速器上使用 FP8 精度成功训练了 7B 参数模型，实现了与 BF16 基准相当的结果，同时吞吐量提高了 $\sim 34 %$。

CritiPrefill：大语言模型预填充加速的基于分段关键性的方法

分类： 计算和语言, 人工智能, 机器学习

作者： Junlin Lv, Yuan Feng, Xike Xie, Xin Jia, Qirong Peng, Guiming Xie

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12490v2

摘要： 大型语言模型在各个领域取得了显着的成功，但有效的推理仍然受到注意力机制的二次计算复杂性的限制。推理包括预填充和解码阶段。尽管已经进行了多次尝试来加速解码，但预填充阶段的低效率，尤其是对于长上下文任务，仍然是一个挑战。在本文中，我们观察了长上下文处理的预填充阶段查询关键性的局部性：相邻查询令牌倾向于关注过去键值（KV）缓存的相似子集。基于这一观察，我们提出了 CritiPrefill，一种基于关键性的分段预填充方法。该方法将输入序列的查询和 KV 缓存划分为段和块，利用分段算法来估计查询关键性。通过在自注意力机制中修剪查询段和缓存块之间的非关键计算，可以显着加速预填充过程。对多个长上下文数据集的广泛评估显示，对于单个 A100 GPU 上的 128K 上下文长度，Llama3-8B 的加速速度最高可达 2.7 倍，Yi-9B 的加速速度最高可达 3.0 倍，而质量下降程度最低。

大语言模型长上下文扩展和泛化的对照研究

分类： 计算和语言, 机器学习

作者： Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12181v1

摘要： 广泛的文本理解和上下文学习需要利用完整文档上下文的语言模型。由于与直接训练长上下文模型相关的实现挑战，人们提出了许多方法来扩展模型以处理长上下文。然而，由于数据和模型类别的差异，比较这些方法一直具有挑战性，导致如何评估长上下文性能以及它是否与标准评估不同存在不确定性。我们利用一致的基础模型和扩展数据，通过标准化评估实现了扩展方法的受控协议。我们的研究对长情境行为产生了一些见解。首先，我们重申困惑度作为通用绩效指标的关键作用，即使在较长上下文的任务中也是如此。其次，我们发现当前的近似注意力方法在长上下文任务中系统地表现不佳。最后，我们确认基于精确微调的方法在其扩展范围内通常是有效的，而外推仍然具有挑战性。所有代码库、模型和检查点都将开源，从而提高透明度并促进人工智能开发这一关键领域的进一步研究。

解码风格：LLM 的高效微调，用于图像引导的偏好服装推荐

分类： 信息检索, 人工智能, 机器学习

作者： Najmeh Forouzandehmehr, Nima Farrokhsiar, Ramin Giahi, Evren Korpeoglu, Kannan Achan

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12150v1

摘要： 个性化服装推荐仍然是一个复杂的挑战，需要对时尚兼容性的理解和趋势意识。本文提出了一种新颖的框架，该框架利用大型语言模型（LLM）的表达能力来完成这项任务，通过微调和直接反馈集成来减轻其“黑匣子”和静态性质。我们通过使用带有多模态大语言模型（MLLM）的图像字幕来弥合项目描述中的项目视觉文本差距。这使得大语言模型能够从人工策划的时尚图像中提取风格和颜色特征，形成个性化推荐的基础。大语言模型在精选时尚图像的开源 Polyvore 数据集上进行了有效的微调，优化了其推荐时尚服装的能力。采用使用负面例子的直接偏好机制来增强大语言模型的决策过程。这创建了一个自我增强的人工智能反馈循环，根据季节性时尚趋势不断完善建议。我们的框架在 Polyvore 数据集上进行了评估，证明了其在两个关键任务中的有效性：填空和补充项目检索。这些评估强调了该框架生成时尚、符合趋势的服装建议的能力，并通过直接反馈不断改进。评估结果表明，我们提出的框架显着优于基础大语言模型，创造了更具凝聚力的服装。这些任务中性能的提高凸显了所提出的框架通过准确建议增强购物体验的潜力，证明了其相对于基于普通大语言模型的服装生成的有效性。

低帧率语音编解码器：专为快速高质量语音 LLM 训练和推理而设计的编解码器

分类： 音频和语音处理, 计算和语言, 声音

作者： Edresson Casanova, Ryan Langman, Paarth Neekhara, Shehzeen Hussain, Jason Li, Subhankar Ghosh, Ante Jukić, Sang-gil Lee

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12117v1

摘要： 大型语言模型 (LLM) 通过将音频转换为离散标记的音频编解码器具有显着先进的音频处理能力，从而能够将语言建模技术应用于音频数据。然而，音频编解码器通常以高帧速率运行，导致训练和推理速度缓慢，特别是对于自回归模型。为了应对这一挑战，我们推出了低帧率语音编解码器 (LFSC)：一种神经音频编解码器，利用有限标量量化和大型语音语言模型的对抗性训练，以 1.89 kbps 比特率和 21.5 帧实现高质量音频压缩每秒。我们证明，我们的新型编解码器可以使基于 LLM 的文本到语音模型的推理速度提高大约三倍，同时提高清晰度并产生与以前的模型相当的质量。

从 LLM 派生的嵌入表示中采样潜在材料属性信息

分类： 计算和语言, 材料科学

作者： Luke P. J. Gilligan, Matteo Cobelli, Hasan M. Sayeed, Taylor D. Sparks, Stefano Sanvito

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11971v1

摘要： 来自大型语言模型（LLM）的向量嵌入在从文献中捕获潜在信息方面表现出了希望。有趣的是，这些可以集成到材料嵌入中，对于数据驱动的材料属性预测可能有用。我们研究了大语言模型衍生的向量捕获所需信息的程度及其在无需额外培训的情况下提供材料特性见解的潜力。我们的研究结果表明，尽管大语言模型可用于生成反映某些属性信息的表示，但提取嵌入需要识别最佳上下文线索和适当的比较器。尽管存在这种限制，大语言模型似乎仍然有潜力在生成有意义的材料科学表征方面发挥作用。

教育大语言模型：新视角、挑战和机遇

分类： 计算和语言

作者： Bashar Alhafni, Sowmya Vajjala, Stefano Bannò, Kaushal Kumar Maurya, Ekaterina Kochmar

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11917v1

摘要： 考虑到大型语言模型 (LLM) 为教学、学习和评估提供的新机会，大型语言模型 (LLM) 在教育中的作用如今越来越受到人们的关注。本前沿教程概述了 NLP 的教育应用以及大语言模型的最新进展对该领域的影响。我们将讨论大语言模型带来的主要挑战和机遇，将其置于四个主要教育应用的背景下：阅读、写作和口语技能以及智能辅导系统（ITS）。本 COLING 2025 教程专为对 NLP 教育应用以及大语言模型在该领域所扮演的角色感兴趣的研究人员和从业者而设计。这是第一次讨论这个及时的话题。

LLM + Persona-Plug = 个性化 LLM

分类： 计算和语言

作者： Jiongnan Liu, Yutao Zhu, Shuting Wang, Xiaochi Wei, Erxue Min, Yu Lu, Shuaiqiang Wang, Dawei Yin, Zhicheng Dou

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11901v1

摘要： 个性化在许多语言任务和应用程序中起着至关重要的作用，因为具有相同需求的用户可能会根据个人兴趣更喜欢不同的输出。这导致了各种个性化方法的发展，旨在适应大型语言模型（LLM）以生成符合用户偏好的定制输出。其中一些涉及为每个用户微调独特的个性化LLM，这对于广泛应用来说过于昂贵。替代方法通过检索用户的相关历史文本作为演示，以即插即用的方式引入个性化信息。然而，这种基于检索的策略可能会破坏用户历史的连续性，并且无法捕获用户的整体风格和模式，从而导致性能次优。为了应对这些挑战，我们提出了一种新颖的个性化 LLM 模型，\ours{}。它通过轻量级插件用户嵌入器模块对每个人的所有历史上下文进行建模，为每个人构建特定于用户的嵌入。通过将这种嵌入附加到任务输入中，大语言模型可以更好地理解和捕获用户习惯和偏好，从而产生更个性化的输出，而无需调整自己的参数。对语言模型个性化 (LaMP) 基准中的各种任务进行的广泛实验表明，所提出的模型显着优于现有的个性化 LLM 方法。

检索、注释、评估、重复：利用多模式大语言模型进行大规模产品检索评估

分类： 信息检索, 人工智能, 计算和语言, 新兴技术, 人机交互

作者： Kasra Hosseini, Thomas Kober, Josip Krapac, Roland Vollgraf, Weiwei Cheng, Ana Peleteiro Ramallo

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11860v1

摘要： 由于大量训练有素的人类注释者的可用性有限，大规模评估生产级检索系统是一项至关重要但具有挑战性的任务。大型语言模型 (LLM) 有潜力解决这一扩展问题，并为人类完成大量注释任务提供可行的替代方案。在本文中，我们提出了一个在大规模电子商务环境中评估产品搜索引擎的框架，利用多模式大语言模型（i）为单个查询生成定制的注释指南，以及（ii）执行后续注释任务。我们的方法通过在大型电子商务平台上的部署进行了验证，展示了与人工注释相当的质量，显着减少了时间和成本，有助于快速发现问题，并为大规模生产级质量控制提供了有效的解决方案。

MEOW：记忆监督的大语言模型通过颠倒的事实忘记了学习

分类： 计算和语言, 人工智能

作者： Tianle Gu, Kexin Huang, Ruilin Luo, Yuanqi Yao, Yujiu Yang, Yan Teng, Yingchun Wang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11844v1

摘要： 大型语言模型 (LLM) 可以记住敏感信息，引发人们对潜在滥用的担忧。 LLM Unlearning 是一种从训练有素的 LLM 中删除这些信息的事后方法，为减轻这些风险提供了一个有前景的解决方案。然而，以前的实践面临三个关键挑战： 1. 效用：成功的忘却往往会导致不相关任务的灾难性崩溃。 2. 效率：许多方法要么涉及添加类似大小的模型，这会减慢遗忘或推理的速度，要么需要保留难以获得的数据。 3. 鲁棒性：即使有效的方法仍然可能通过提取技术泄漏数据。为了应对这些挑战，我们提出了 MEOW，一种简单而有效的基于梯度下降的取消学习方法。具体来说，我们使用离线大语言模型来生成一组颠倒的事实。然后，我们设计了一个新的指标 MEMO 来量化大语言模型的记忆力。最后，根据 MEMO 提供的信号，我们选择最合适的一组反转事实，并基于它们对模型进行微调。我们使用 Llama2-7B-Chat 和 Phi-1.5B 在常用的 unlearn 基准 ToFU 上评估 MEOW，并在 NLU 和 NLG 任务上进行测试。结果表明 MEOW 的遗忘质量显着提高，而模型效用没有显着损失。同时，MEOW 在 NLU 或 NLG 能力上并没有表现出明显的下降，甚至在 NLU 性能上还有轻微的提升。

揭示大语言模型角色扮演中检测角色知识错误的挑战

分类： 计算和语言, 人机交互

作者： Wenyuan Zhang, Jiawei Sheng, Shuaiyi Nie, Zefeng Zhang, Xinghua Zhang, Yongquan He, Tingwen Liu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11726v1

摘要： 大语言模型（LLM）角色扮演受到了广泛的关注，其中真实的角色知识对于构建现实的LLM角色扮演代理至关重要。然而，现有的工作通常忽视了大语言模型在扮演角色时检测角色已知知识错误（KKE）和未知知识错误（UKE）能力的探索，这将导致角色可训练语料库的自动构建质量低下。在本文中，我们提出了一个探测数据集来评估大语言模型检测 KKE 和 UKE 错误的能力。结果表明，即使是最新的大语言模型也很难有效地检测这两类错误，特别是在涉及熟悉的知识时。我们尝试了各种推理策略，并提出了一种基于代理的推理方法——自我回忆和自我怀疑（S2RD），以进一步探索提高错误检测能力的潜力。实验表明，我们的方法有效提高了大语言模型检测错误字符知识的能力，但这仍然是一个需要持续关注的问题。

利用 LLM 进行 API 交互：分类和综合数据生成框架

分类： 计算和语言

作者： Chunliang Tao, Xiaojing Fan, Yahe Yang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11703v1

摘要： 随着大型语言模型 (LLM) 在自然语言处理方面的进步，人们越来越有兴趣利用其功能来简化软件交互。在本文中，我们提出了一种新颖的系统，该系统集成了大语言模型，用于将自然语言输入分类为相应的 API 调用，并自动创建针对特定 API 函数定制的示例数据集。我们的系统通过对自然语言命令进行分类，让用户通过简单的输入即可调用复杂的软件功能，提高交互效率，降低软件使用门槛。我们的数据集生成方法还可以对不同的大语言模型在 API 调用分类方面进行高效、系统的评估，为开发人员或企业主评估大语言模型是否适合定制 API 管理提供实用工具。我们使用为各种 API 函数生成的样本数据集对几个著名的大语言模型进行实验。结果表明，GPT-4 实现了 0.996 的高分类精度，而 LLaMA-3-8B 的表现要差得多，为 0.759。这些发现凸显了大语言模型在转变 API 管理和验证我们的系统在指导跨不同应用程序的模型测试和选择方面的有效性的潜力。

针对无 ID 推荐系统的 LLM 支持的文本模拟攻击

分类： 信息检索

作者： Zongwei Wang, Min Gao, Junliang Yu, Xinyi Gao, Quoc Viet Hung Nguyen, Shazia Sadiq, Hongzhi Yin

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11690v2

摘要： 无 ID 推荐范式的提出是为了解决传统推荐系统难以对具有新 ID 的冷启动用户或项目进行建模的限制。尽管其有效性，这项研究发现无 ID 推荐系统很容易受到拟议的文本模拟攻击 (TextSimu) 的影响，该攻击旨在推广特定的目标项目。作为一种新型的文本投毒攻击，TextSimu 利用大型语言模型（LLM）通过模拟流行项目的特征来改变目标项目的文本信息。它在黑盒和白盒设置中都能有效运行，利用两个关键组件：统一的流行度提取模块，用于捕获流行项目的基本特征；以及 N 角色一致性模拟策略，用于创建多个角色来协作合成通过模拟热门商品，精细化目标商品的促销文字描述。为了抵御类似 TextSimu 的攻击，我们进一步探索了识别 LLM 生成的促销文本的检测方法。在三个数据集上进行的大量实验表明，TextSimu 比现有的中毒攻击具有更严重的威胁，而我们的防御方法可以检测 TextSimu 生成的目标项目的恶意文本。通过识别该漏洞，我们的目标是推进更强大的无 ID 推荐系统的开发。

通过基于大语言模型的检测来打击电话诈骗：我们的立场如何？

分类： 密码学和安全, 人工智能, 计算机与社会, I.2.0

作者： Zitong Shen, Kangzhong Wang, Youqian Zhang, Grace Ngai, Eugene Y. Fu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11643v1

摘要： 电话诈骗对个人和社区构成重大威胁，造成重大经济损失和精神困扰。尽管人们不断努力打击这些诈骗，但诈骗者仍在不断调整和完善他们的策略，因此探索创新对策势在必行。这项研究探讨了大型语言模型 (LLM) 在检测欺诈电话方面的潜力。通过分析诈骗者和受害者之间的对话动态，基于 LLM 的检测器可以在潜在的诈骗发生时识别它们，为用户提供即时保护。虽然这些方法展示了有希望的结果，但我们也承认有偏见的数据集、相对较低的召回率和幻觉的挑战，必须解决这些挑战才能进一步推进该领域

BanStereoSet：衡量孟加拉大语言模型中刻板社会偏见的数据集

分类： 计算和语言

作者： Mahammed Kamruzzaman, Abdullah Al Monsur, Shrabon Das, Enamul Hassan, Gene Louis Kim

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11638v1

摘要： 本研究提出了 BanStereoSet，这是一个数据集，旨在评估孟加拉语多语言大语言模型中的刻板社会偏见。为了将偏见研究的重点扩展到以英语为中心的数据集之外，我们对 StereoSet、IndiBias 和 Kamruzzaman 等人的内容进行了本地化。等人的数据集，生成了专门用于捕捉孟加拉语社区中普遍存在的偏见的资源。我们的 BanStereoSet 数据集包含 1,194 个句子，涵盖 9 个类别的偏见：种族、职业、性别、年龄歧视、美丽、职业美丽、地区、种姓和宗教。该数据集不仅是衡量多语言大语言模型偏见的重要工具，而且有助于探索不同社会类别之间的刻板偏见，有可能指导孟加拉国语环境中更公平的语言技术的发展。我们使用该数据集对几种语言模型的分析表明存在显着的偏差，这强化了适应文化和语言的数据集以开发更公平的语言技术的必要性。

“女人比男人更有文化知识？”：人物角色对大语言模型文化规范解释的影响

分类： 计算和语言

作者： Mahammed Kamruzzaman, Hieu Nguyen, Nazmul Hassan, Gene Louis Kim

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11636v1

摘要： 随着大型语言模型 (LLM) 部署的扩大，对个性化 LLM 的需求不断增加。个性化和指导这些模型输出的一种方法是分配一个角色——描述 LLM 预期行为的角色（例如，男性、女性、工程师）。这项研究调查了大语言模型对社会规范的理解是否因指定的角色而异。理想情况下，无论角色如何，对社会规范的看法都应保持一致，因为社会规范的可接受性应由规范起源的地区决定，而不是由性别、体型或种族等个人特征决定。规范在其文化背景下具有普遍性。在我们的研究中，我们测试了四个不同大语言模型的 12 个社会人口统计学类别（例如年龄、性别、美貌）的 36 个不同角色。我们发现大语言模型的文化规范解释根据所使用的角色而变化，并且规范解释在社会人口统计学类别内也有所不同（例如，外貌群体中的胖人和瘦人），其中具有更受社会欢迎的角色的大语言模型（与不太受社会欢迎的角色（例如，胖子）相比，它更准确地解释社会规范。我们还讨论了不同类型的社会偏见如何影响我们观察到的结果。

PLATO：利用大语言模型和工具操作的可供性进行规划

分类： 机器人技术

作者： Arvind Car, Sai Sravan Yarlagadda, Alison Bartsch, Abraham George, Amir Barati Farimani

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11580v1

摘要： 随着机器人系统越来越多地集成到复杂的现实世界环境中，越来越需要一种方法，使机器人能够理解自然语言指令并根据自然语言指令采取行动，而无需依赖于对其周围环境的广泛预编程知识。本文介绍了 PLATO，这是一种创新系统，它通过利用专门的大型语言模型代理来处理自然语言输入、了解环境、预测工具可供性并为机器人系统生成可执行操作，从而应对这一挑战。与依赖于硬编码环境信息的传统系统不同，PLATO 采用专门代理的模块化架构，无需对环境有任何初始了解即可运行。这些代理识别场景中的对象及其位置，生成全面的高级计划，将该计划转换为一系列低级操作，并验证每个步骤的完成情况。该系统特别针对具有挑战性的工具使用任务进行了测试，其中涉及处理不同的物体并需要长期规划。 PLATO 的设计使其能够适应动态和非结构化设置，显着增强其灵活性和鲁棒性。通过在各种复杂场景中评估系统，我们展示了其处理各种任务的能力，并提供了一种将大语言模型与机器人平台集成的新颖解决方案，从而推进了自主机器人任务执行的最先进水平。有关视频和提示详细信息，请参阅我们的项目网站：https://sites.google.com/andrew.cmu.edu/plato

小语言模型在短篇创意写作中可以超越人类：一项将 SLM 与人类和 LLM 进行比较的研究

分类： 计算和语言, 人工智能

作者： Guillermo Marco, Luz Rello, Julio Gonzalo

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11547v1

摘要： 在本文中，我们评估了微调小语言模型 (SLM) BART Large 的创意小说写作能力，并将其性能与人类和两个大型语言模型 (LLM)：GPT-3.5 和 GPT-4o 进行比较。我们的评估包括两个实验：(i) 人类评估，读者将 SLM 生成的故事与人类编写的故事进行比较，以及 (ii) 定性语言分析，比较不同模型生成的故事的文本特征。在第一个实验中，我们要求 68 名参与者根据语法、相关性、创造力和吸引力等维度对模型和人类生成的短篇故事进行评分。 BART Large 在除创造力之外的大多数方面都优于人类作家，其总体得分为 2.11，而人类书写文本的总体得分为 1.85，提高了 14%。在第二个实验中，定性分析显示，虽然 GPT-4o 表现出近乎完美的内部和外部连贯性，但它往往会产生更可预测的叙述，只有 3% 的故事被认为是小说。相比之下，BART 的故事中有 15% 被认为是新颖的，这表明尽管模型尺寸较小，但创造力较高。这项研究提供了定量和定性的见解，了解模型大小和微调如何影响创意写作任务中创造力、流畅性和连贯性之间的平衡。

ChatGPT 如何看待历史股票回报？ LLM 股票回报预测中的外推和误校准

分类： 一般财务, 普通经济学, 经济学

作者： Shuaiyu Chen, T. Clifton Green, Huseyin Gulen, Dexin Zhou

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11540v1

摘要： 我们研究大型语言模型（LLM）如何解释历史股票回报，并将其预测与众包股票排名平台的估计进行比较。虽然股票回报率出现短期逆转，但大语言模型的预测过度推断，过度重视近期与人类相似的表现。相对于历史和未来实现的回报，大语言模型的预测显得乐观。当提示进行 80% 置信区间预测时，LLM 响应比调查证据更好地校准，但对异常值持悲观态度，导致预测分布出现偏差。研究结果表明，大语言模型在预测预期回报时表现出常见的行为偏差，但比人类更擅长衡量风险。

使用多智能体思想树验证器智能体改进 LLM 推理

分类： 人工智能

作者： Fatemeh Haji, Mazal Bethany, Maryam Tabar, Jason Chiang, Anthony Rios, Peyman Najafirad

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11527v1

摘要： 多智能体策略已成为一种有前途的方法，通过在问题解决过程中分配专门的角色来增强大型语言模型（LLM）的推理能力。同时，思想树（ToT）方法已经显示出通过探索不同的推理路径来改进复杂问答任务的推理的潜力。多智能体推理的一个关键限制是“推理者”智能体对推理路径的浅层探索。虽然 ToT 策略可以帮助缓解这个问题，但它们可能会产生有缺陷的推理分支，这可能会损害最终答案的可信度。为了利用多代理推理和 ToT 策略的优势，我们引入了一种将基于 ToT 的推理代理与思想验证代理相结合的新颖方法。多个 Reasoner 代理并行运行，利用 ToT 探索不同的推理路径。然后，思想验证器会仔细检查这些路径，仅当推理器的推理有效时才考虑推理器的结论。该方法通过丢弃错误的推理路径来实现更稳健的投票策略，从而增强系统处理需要系统且值得信赖的推理的任务的能力。在 GSM8K 数据集上进行评估时，我们的方法表现出比现有技术更优越的性能，在四个大语言模型中平均优于标准 ToT 策略 5.6%。

增强、删除和交换：提高大语言模型字幕的多样性，以实现高效的音乐文本表示学习

分类： 声音, 人工智能, 计算和语言, 音频和语音处理

作者： Ilaria Manco, Justin Salamon, Oriol Nieto

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11498v1

摘要： 音频文本对比模型已成为音乐表征学习的强大方法。然而，尽管他们在实证上取得了成功，但人们对关键设计选择对通过该框架学习的音乐文本表示质量的影响知之甚少。在这项工作中，我们在有限的数据和计算预算的限制下公开了这些设计选择，并基于三个轴的经验观察对其影响建立了更扎实的理解：基本编码器的选择、训练数据的管理水平、以及文本增强的使用。我们发现数据管理是资源受限场景中音乐文本对比训练的最重要因素。受这种见解的启发，我们引入了两种新颖的技术：增强视图丢弃和文本交换，它们增加了训练中文本输入的多样性和描述性。通过我们的实验，我们证明这些可以有效地提高不同预训练方案、模型架构和下游数据分布的性能，而不会产生更高的计算成本或需要额外的训练数据。

AraDiCE：大语言模型方言和文化能力的基准

分类： 计算和语言, 人工智能, 68T50, F.2.2; I.2.7

作者： Basel Mousi, Nadir Durrani, Fatema Ahmad, Md. Arid Hasan, Maram Hasanain, Tameem Kabbani, Fahim Dalvi, Shammur Absar Chowdhury, Firoj Alam

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11404v1

摘要： 阿拉伯语具有丰富的方言多样性，但在大型语言模型中的代表性仍然严重不足，特别是在方言变体方面。我们通过引入七个方言合成数据集以及现代标准阿拉伯语 (MSA) 来解决这一差距，这些数据集是使用机器翻译 (MT) 与人工后期编辑相结合创建的。我们推出 AraDiCE，阿拉伯方言和文化评估基准。我们评估大语言模型的方言理解和生成，特别关注资源匮乏的阿拉伯方言。此外，我们还推出了首个细粒度基准，旨在评估海湾、埃及和黎凡特地区的文化意识，为大语言模型评估提供了一个新颖的维度。我们的研究结果表明，虽然 Jais 和 AceGPT 等阿拉伯语特定模型在方言任务上优于多语言模型，但方言识别、生成和翻译方面仍然存在重大挑战。这项工作提供了约 45,000 个经过编辑的样本，这是一个文化基准，并强调了定制培训对于提高大语言模型在捕捉不同阿拉伯方言和文化背景的细微差别方面的表现的重要性。我们将发布本研究中策划的方言翻译模型和基准。

NVLM：开放前沿级多模式大语言模型

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习, 多媒体

作者： Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11402v1

摘要： 我们推出了 NVLM 1.0，这是一系列前沿级多模态大语言模型 (LLM)，可在视觉语言任务上取得最先进的结果，可与领先的专有模型（例如 GPT-4o）和开放获取相媲美型号（例如 Llama 3-V 405B 和 InternVL 2）。值得注意的是，在多模式训练后，NVLM 1.0 在其 LLM 主干上显示出改进的纯文本性能。在模型设计方面，我们对仅解码器的多模态 LLM（例如 LLaVA）和基于交叉注意力的模型（例如 Flamingo）进行了全面比较。基于这两种方法的优点和缺点，我们提出了一种新颖的架构，可以提高训练效率和多模态推理能力。此外，我们还为基于图块的动态高分辨率图像引入了一维图块标记设计，这显着提高了多模态推理和 OCR 相关任务的性能。关于训练数据，我们精心策划并提供有关多模式预训练和监督微调数据集的详细信息。我们的研究结果表明，即使在所有架构的预训练阶段，数据集质量和任务多样性也比规模更重要。值得注意的是，我们为 NVLM-1.0 模型开发了生产级多模态，使它们能够在视觉语言任务中表现出色，同时与 LLM 主干相比，保持甚至提高纯文本性能。为了实现这一目标，我们精心制作了高质量的纯文本数据集，并将其与大量多模态数学和推理数据一起集成到多模态训练中，从而增强了跨模态的数学和编码能力。为了推进该领域的研究，我们正在发布模型权重，并将为社区开源代码：https://nvlm-project.github.io/。

LLM-Agent-UMF：基于LLM的代理统一建模框架，用于无缝集成多个主动/被动核心代理

分类： 软件工程, 人工智能, 密码学和安全, 多代理系统

作者： Amine B. Hassouna, Hana Chaari, Ines Belhaj

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11393v1

摘要： 基于LLM的代理中的工具集成克服了独立LLM和传统代理能力有限的困难。然而，这些技术的结合以及几个最先进作品中提出的增强功能遵循非统一的软件架构，导致缺乏模块化。事实上，他们主要关注功能而忽略了代理内组件边界的定义。这导致了研究人员之间术语和架构上的歧义，我们在本文中通过提出一个统一的框架来解决这一问题，该框架从功能和软件架构的角度为基于 LLM 的代理开发奠定了明确的基础。我们的框架 LLM-Agent-UMF（基于 LLM 的代理统一建模框架）清楚地区分了代理的不同组件，将 LLM 和工具与新引入的元素分开：核心代理，扮演代理的角色代理的中央协调器，由五个模块组成：规划、记忆、配置文件、行动和安全，后者在以前的工作中经常被忽视。核心主体内部结构的差异使我们将它们分为被动型和主动型的分类。在此基础上，我们结合各种个体代理的独特特征，提出了不同的多核代理架构。出于评估目的，我们将此框架应用于精选的最先进代理，从而证明其与其功能的一致性并澄清了被忽视的架构方面。此外，我们通过将独特的代理集成到混合主动/被动核心代理系统中，彻底评估了我们提出的四种架构。该分析提供了对潜在改进的清晰见解，并强调了特定药物组合所涉及的挑战。

与大语言模型一起进行时间序列推理

分类： 机器学习

作者： Winnie Chow, Lauren Gardiner, Haraldur T. Hallgrímsson, Maxwell A. Xu, Shirley You Ren

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11376v1

摘要： 多模态大语言模型（MLLM）在视觉等领域的理解和推理方面取得了巨大进步，但我们尚未看到时间序列取得如此广泛的成功。尽管之前关于时间序列 MLLM 的工作在时间序列预测方面表现出了良好的性能，但很少有工作展示如何将 LLM 用于自然语言的时间序列推理。我们提出了一种新颖的多模态时间序列大语言模型方法，该方法能够以强大的零样本性能学习跨各个领域的通用信息。首先，我们在 LLM 之上训练一个轻量级时间序列编码器，以直接提取时间序列信息。然后，我们通过思想链增强时间序列任务来微调我们的模型，以鼓励模型生成推理路径。我们表明，我们的模型学习了反映特定时间序列特征（例如斜率、频率）的潜在表示，并且在多个领域的一组零样本推理任务上优于 GPT-4o。

Hackphyr：针对网络安全环境的本地微调 LLM 代理

分类： 密码学和安全

作者： Maria Rigaki, Carlos Catania, Sebastian Garcia

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11276v1

摘要： 大型语言模型 (LLM) 在包括网络安全在内的各个领域都显示出巨大的潜力。由于隐私问题、成本和网络连接限制，使用基于商业云的大语言模型可能并不理想。在本文中，我们介绍了 Hackphyr，这是一种本地微调的 LLM，可用作网络安全环境中的红队代理。我们经过微调的 70 亿参数模型可以在单个 GPU 卡上运行，并实现与更大、更强大的商业模型（例如 GPT-4）相当的性能。 Hackphyr 明显优于其他模型，包括 GPT-3.5-turbo 和基线，例如在复杂的、以前未见过的场景中的 Q 学习代理。为了实现这一性能，我们生成了一个新的特定于任务的网络安全数据集，以增强基本模型的功能。最后，我们对代理的行为进行了全面分析，深入了解了此类代理的规划能力和潜在缺点，有助于更广泛地了解网络安全环境中基于 LLM 的代理

通过扎根归因和学习拒绝来衡量和增强 RAG 大语言模型的可信度

分类： 计算和语言

作者： Maojia Song, Shang Hong Sim, Rishabh Bhardwaj, Hai Leong Chieu, Navonil Majumder, Soujanya Poria

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11242v1

摘要： 大语言模型是检索增强生成（RAG）系统的组成部分。虽然许多研究侧重于评估端到端 RAG 系统的质量，但缺乏了解 LLM 对于 RAG 任务的适当性的研究。因此，我们引入了一个新的指标——信任评分，它可以对 RAG 框架中大语言模型的可信度进行整体评估。我们表明，各种提示方法（例如情境学习）无法使大语言模型有效地适应 RAG 任务。因此，我们提出了 Trust-Align，这是一个使 LLM 获得更高信任分数的框架。 LLaMA-3-8b 与我们的方法一致，在 ASQA（上升 10.7）、QAMPARI（上升 29.2）和 ELI5（上升 14.9）上显着优于同等规模的开源 LLM。我们在以下位置发布代码：https://github.com/declare-lab/trust-align。

大语言模型作为法官和奖励模型：他们能做什么和不能做什么

分类： 计算和语言

作者： Guijin Son, Hyunwoo Ko, Hoyoung Lee, Yewon Kim, Seunghyeok Hong

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11239v1

摘要： LLM-as-a-Judge 和奖励模型是广泛用于大型语言模型 (LLM) 评估的多项选择题或人工注释器的替代方案。他们的功效在评估长篇回答方面表现出色，作为排行榜的评估者和通过强化学习调整大语言模型的代理发挥着关键作用。然而，尽管它们很受欢迎，但它们在英语之外的有效性在很大程度上仍未得到探索。在本文中，我们对自动评估器进行了全面分析，报告了他们在非英语环境中行为的主要发现。首先，我们发现英语评估能力显着影响特定语言的能力，通常比语言熟练程度本身更重要，使得接受过英语培训的评估人员能够轻松地将他们的技能转移到其他语言。其次，我们发现了大语言模型未能发现和惩罚错误的关键缺点，例如事实不准确、文化误传以及不需要的语言的存在。最后，我们发布了 Kudge，这是第一个非英语元评估数据集，包含 5,012 个韩语人工注释。

快速分析 OpenAI O1-Preview 模型解决随机 K-SAT 问题：LLM 自己解决问题还是调用外部 SAT 求解器？

分类： 计算和语言, 无序系统和神经网络, 人工智能

作者： Raffaele Marino

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11232v1

摘要： 在这篇手稿中，我对 OpenAI O1-preview 模型在解决随机 K-SAT 实例方面的性能进行了分析，其中 K$\in {2,3,4}$ 作为 $\alpha=M/N$ 的函数，其中 $ M$ 是子句的数量，$N$ 是可满足问题的变量的数量。我证明该模型可以调用外部 SAT 求解器来求解实例，而不是直接求解它们。尽管使用外部求解器，该模型仍将错误的分配报告为输出。此外，我提出并提出了一项分析，以量化 OpenAI O1 预览模型在输出布尔可满足性问题的分配时是否表现出智能火花或仅进行随机猜测。

Ideal-LLM：集成双编码器和语言适应的 LLM 以实现多语言语音到文本

分类： 音频和语音处理, 声音

作者： Hongfei Xue, Wei Ren, Xuelong Geng, Kun Wei, Longhao Li, Qijie Shao, Linju Yang, Kai Diao, Lei Xie

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11214v1

摘要： 通过连接器将音频编码器与 LLM 集成，使这些模型能够处理和理解音频模式，显着增强语音到文本的任务，包括自动语音识别 (ASR) 和自动语音翻译 (AST)。然而，这些方法常常忽视多语言环境中语言适应的关键方面，而是依赖多语言数据而没有充分解决语言差异。为了解决这一差距，我们提出了 Ideal-LLM 模型，该模型采用双多语言编码器来丰富语言特征信息，并利用语言适应连接器专门针对每种语言的适应。通过利用 Whisper 和 MMS 编码器的互补优势，我们的方法可确保更丰富的多语言表示。此外，语言适应连接器通过为每种语言量身定制的语言权重选择器来增强模态转换。实验结果表明，Ideal-LLM 显着提高了 ASR 性能，与集成 LLM 的标准语音编码器相比，平均单词错误率相对降低了 32.6%，并且 AST 任务的平均 BLEU 得分为 36.78。

SuperCoder2.0：探索大语言模型作为自主程序员可行性的技术报告

分类： 软件工程, 人工智能

作者： Anmol Gautam, Kishore Kumar, Adarsh Jha, Mukunda NS, Ishaan Bhola

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11190v1

摘要： 我们推出 SuperCoder2.0，这是一种先进的自主系统，旨在通过人工智能增强软件开发。该系统将人工智能原生开发方法与智能代理相结合，以实现完全自主编码。关键重点领域包括具有错误输出回溯的重试机制、使用抽象语法树 (ast) 解析进行全面的代码重写和替换以最大程度地减少 linting 问题、用于检索增强生成的代码嵌入技术，以及注重解决问题的本地化方法而不是识别特定的行号。该方法采用三步分层搜索空间缩减方法进行代码库导航和错误定位：利用检索增强生成（RAG）和存储库文件级映射来识别候选文件，（2）使用文件级示意图，以及 (3) 提取这些文件中的“相关位置”。代码编辑是通过由 CodeGeneration 和 CodeEditing 组成的两部分模块执行的，该模块在不同温度值下生成多个解决方案，并替换整个方法或类以保持代码完整性。反馈循环执行存储库级测试用例来验证和完善解决方案。在 SWE-bench Lite 数据集上进行的实验证明了 SuperCoder2.0 的有效性，在前 5 名候选者中的 84.33% 的情况下实现了正确的文件本地化，并成功解决了 34% 的测试实例。这一性能使 SuperCoder2.0 在 SWE 基准排行榜上排名全球第四。该系统处理不同存储库和问题类型的能力凸显了其作为自主软件开发多功能工具的潜力。未来的工作将集中于完善代码编辑过程并探索先进的嵌入模型以改进自然语言到代码的映射。

大型语言模型是良好的多语言学习者：当大语言模型遇到跨语言提示时

分类： 计算和语言

作者： Teng Wang, Zhenqi He, Wing-Yin Yu, Xiaojin Fu, Xiongwei Han

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11056v1

摘要： 随着大型语言模型 (LLM) 的出现，为现实世界的应用程序生成基于规则的数据变得更加容易。由于自然语言固有的歧义性和规则集的复杂性，特别是在长上下文中，大语言模型常常难以遵循所有指定的规则，经常忽略至少一个规则。为了增强LLM在长而复杂的背景下的推理和理解，我们提出了一种新颖的提示策略多语言提示，即MLPrompt，它自动将LLM难以遵循的容易出错的规则翻译成另一种语言，从而引起更多关注到它。在各种任务的公共数据集上的实验结果表明，MLPrompt 的性能优于最先进的提示方法，例如思想链、思想树和自我一致性。此外，我们还介绍了一个将 MLPrompt 与结构化数据生成自动检查机制集成的框架，并在文本到 MIP 实例中进行了具体案例研究。此外，我们扩展了所提出的文本到 SQL 的框架，以展示其结构化数据合成的生成能力。

少即是多：高效多模式大语言模型的简单而有效的令牌减少方法

分类： 计算和语言, 人工智能, 多媒体

作者： Dingjie Song, Wenjun Wang, Shunian Chen, Xidong Wang, Michael Guan, Benyou Wang

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10994v1

摘要： 多模态大语言模型（MLLM）的快速发展在各个领域取得了显着的性能。然而，这一进步伴随着这些模型的资源消耗的大幅激增。我们通过引入一种新方法来解决这一紧迫问题，即使用 CLIP Metric (TRIM) 进行代币减少，旨在提高 MLLM 的效率而不牺牲其性能。受视觉问答（VQA）任务中人类注意力模式的启发，TRIM 提出了关于图像标记的选择和缩减的全新视角。 TRIM 方法已在 12 个数据集上进行了广泛测试，结果表明计算开销显着减少，同时保持了一致的性能水平。这项研究标志着高效 MLLM 开发的关键一步，促进高性能模型的更容易获得和可持续性。

利用构建的语码转换数据增强大语言模型的多语言语音生成和识别能力

分类： 音频和语音处理, 计算和语言, 声音

作者： Jing Xu, Daxin Tan, Jiaqi Wang, Xiao Chen

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10969v1

摘要： 虽然大语言模型（LLM）已经在语音领域针对生成和识别任务进行了探索，但它们的应用主要局限于单语言场景，在多语言和代码交换（CS）环境中的探索有限。此外，语音生成和识别任务通常是分开处理的，例如VALL-E和Qwen-Audio。在本文中，我们提出了一种多语言多任务（MLMT）模型，将多语言语音生成和识别任务集成到单个大语言模型中。此外，我们开发了一种有效的数据构建方法，可以拆分和连接不同语言的单词，使大语言模型具备 CS 合成能力，而不依赖于 CS 数据。实验结果表明，我们的模型在具有可比数据规模的情况下优于其他基线。此外，我们的数据构建方法不仅使大语言模型具备CS语音合成能力，与任何给定说话人具有可比较的说话者一致性和相似性，而且还提高了大语言模型在多语言语音生成和识别任务中的性能。

推进：通过微小微调引导大语言模型

分类： 计算和语言

作者： Md Kowsher, Nusrat Jahan Prottasha, Prakash Bhat

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10927v2

摘要： 大型语言模型 (LLM) 的快速进步彻底改变了自然语言处理 (NLP) 及相关领域。然而，针对特定任务微调这些模型的计算成本仍然很高，并且存在降低预先学习的特征的风险。为了应对这些挑战，我们提出了 Propulsion，这是一种新颖的参数高效微调（PEFT）方法，旨在优化特定任务的性能，同时大幅减少计算开销。受物理运动受控调整概念的启发，Propulsion 有选择地重新调整预训练模型的特定维度，引导输出预测实现任务目标，而无需修改模型的参数。通过在预训练层引入轻量级、可训练的推进参数，我们最大限度地减少了微调期间更新的参数数量，防止过度拟合或覆盖现有知识。我们的理论分析在神经正切核 (NTK) 理论的支持下表明，Propulsion 可以用更少的可训练参数来近似完全微调的性能。根据经验，Propulsion 将参数数量从 3.553 亿减少到仅 086 万，与 LoRA 等标准方法相比减少了 10 倍以上，同时在基准测试中保持了具有竞争力的性能。

ASHABot：由大语言模型支持的聊天机器人，支持社区卫生工作者的信息需求

分类： 人机交互

作者： Pragnya Ramjee, Mehak Chhokar, Bhuvan Sachdeva, Mahendra Meena, Hamid Abdullah, Aditya Vashistha, Ruchit Nagar, Mohit Jain

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10913v1

摘要： 社区卫生工作者 (CHW) 提供最后一英里的医疗服务，但由于医疗知识和培训有限而面临挑战。本文介绍了 ASHABot 的设计、部署和评估，ASHABot 是一个由大语言模型支持、专家参与、基于 WhatsApp 的聊天机器人，旨在满足印度社区卫生工作者的信息需求。通过对社区卫生工作者及其主管的访谈以及日志分析，我们研究了影响他们与 ASHABot 互动的因素，以及 ASHABot 在满足社区卫生工作者信息需求方面的作用。我们发现 ASHABot 为社区卫生工作者提供了一个私人渠道，让他们可以提出一些他们犹豫是否要问主管的基本和敏感问题。社区卫生工作者信任他们在 ASHABot 上收到的信息，并将其视为权威资源。社区卫生工作者的主管通过对 ASHABot 未能回答的问题提供答案来扩展他们的知识，但他们担心对他们的工作量和责任增加的要求。我们强调将大语言模型定位为社区医疗保健生态系统中的补充性易错资源，而不是作为主管支持的替代品。

挑战公平：全面探讨大语言模型推荐中的偏见

分类： 信息检索, 人工智能, 新兴技术, 机器学习

作者： Shahnewaz Karim Sakib, Anindya Bijoy Das

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10825v1

摘要： 基于大语言模型（LLM）的推荐系统通过深入分析内容和用户行为，提供比传统系统更全面的推荐。然而，这些系统经常表现出偏见，偏向主流内容，同时由于训练数据的偏差而边缘化非传统选项。这项研究调查了偏见与基于大语言模型的推荐系统之间的复杂关系，重点关注不同人口和文化群体的音乐、歌曲和书籍推荐。通过对不同的大语言模型模型进行综合分析，本文评估了偏见对推荐结果的影响。我们的研究结果表明，偏见在这些系统中根深蒂固，即使是像即时工程这样更简单的干预措施也可以显着减少偏见，凸显了这个问题的普遍性。此外，交叉身份和社会经济地位等背景信息等因素进一步放大了这些偏见，表明在不同群体之间创建公平建议所面临的挑战的复杂性和深度。

AutoSafeCoder：通过静态分析和模糊测试保护 LLM 代码生成的多代理框架

分类： 软件工程, 人工智能

作者： Ana Nunez, Nafis Tanveer Islam, Sumit Kumar Jha, Peyman Najafirad

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10737v1

摘要： 使用大型语言模型 (LLM) 自动代码生成的最新进展使我们更接近完全自动化的安全软件开发。然而，现有的方法通常依赖于单个代理来生成代码，这很难生成安全、无漏洞的代码。传统的大语言模型程序综合主要关注功能的正确性，常常忽略运行时发生的关键动态安全影响。为了应对这些挑战，我们提出了 AutoSafeCoder，这是一个多代理框架，它利用 LLM 驱动的代理通过持续协作进行代码生成、漏洞分析和安全增强。该框架由三个代理组成：负责代码生成的编码代理、识别漏洞的静态分析器代理以及使用基于突变的模糊测试方法执行动态测试以检测运行时错误的模糊测试代理。我们的贡献重点是通过在 LLM 代码生成期间将动态和静态测试集成到迭代过程中来确保多代理代码生成的安全性，从而提高安全性。使用 SecurityEval 数据集的实验表明，与基线 LLM 相比，代码漏洞减少了 13%，且功能没有受到影响。

模型在环 (MILO)：利用大语言模型加速多模式 AI 数据注释

分类： 人机交互, 人工智能, 计算和语言, 机器学习

作者： Yifan Wang, David Stevens, Pranay Shah, Wenwen Jiang, Miao Liu, Xu Chen, Robert Kuo, Na Li, Boying Gong, Daniel Lee, Jiabo Hu, Ning Zhang, Bob Kamma

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10702v1

摘要： 对人工智能训练数据不断增长的需求已将数据注释转变为一个全球性行业，但依赖人工注释者的传统方法通常耗时、劳动密集型，并且容易出现质量不一致的情况。我们提出了模型在环（MILO）框架，它将 AI/ML 模型集成到注释过程中。我们的研究引入了一种协作范式，利用了专业人类注释者和大型语言模型 (LLM) 的优势。通过使用大语言模型作为预注释和实时助手，并对注释者的反应进行判断，MILO 实现了人类注释者和大语言模型之间的有效交互模式。关于多模式数据注释的三项实证研究证明了 MILO 在减少处理时间、提高数据质量和增强注释者体验方面的功效。我们还引入了高质量的标准，用于对开放式注释进行灵活的评估和细粒度的反馈。 MILO 框架对于加速 AI/ML 开发、减少对人类注释的依赖以及促进人类和机器价值之间更好的一致性具有重要意义。

大语言模型作为信息战士？审计大语言模型支持的聊天机器人如何处理有关俄罗斯乌克兰战争的虚假信息

分类： 计算机与社会

作者： Mykola Makhortykh, Ani Baghumyan, Victoria Vziatysheva, Maryna Sydorova, Elizaveta Kuznetsova

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10697v2

摘要： 大型语言模型（LLM）的兴起对信息战产生了重大影响。通过促进与虚假信息和宣传活动相关的内容的制作，大语言模型可以放大不同类型的信息操作并误导在线用户。在我们的研究中，我们实证研究了由谷歌、微软和 Perplexity 开发的由 LLM 驱动的聊天机器人如何处理有关俄罗斯乌克兰战争的虚假信息，以及聊天机器人提供有关该主题的准确信息的能力是否因语言和时间而异。我们的研究结果表明，虽然对于某些聊天机器人（Perplexity）来说，随着时间的推移，多种语言的性能都有显着提高，但对于其他聊天机器人（Gemini）来说，性能仅在英语方面有所提高，但在资源匮乏的语言中却有所下降。

GPT-O1 能消灭所有 bug 吗？ QuixBugs 上 GPT-Family 大语言模型的评估

分类： 软件工程, 人工智能

作者： Haichuan Hu, Ye Shang, Guolin Xu, Congqing He, Quanjun Zhang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10033v2

摘要： 大语言模型长期以来在自动程序修复（APR）方面表现出了显着的有效性，OpenAI 的 ChatGPT 是该领域使用最广泛的模型之一。通过GPT系列模型的不断迭代和升级，其修复Bug的性能已经达到了最先进的水平。然而，很少有工作比较不同版本的 GPT 系列模型在 APR 上的有效性和变化。在这项工作中，受到最近公开发布的 GPT-o1 模型的启发，我们进行了第一项研究来比较不同版本的 GPT 系列模型在 APR 中的有效性。我们在 APR 上评估了最新版本的 GPT 系列模型（即 O1-preview 和 O1-mini）、GPT-4o 以及 ChatGPT 的历史版本的性能。我们从多个评估角度（包括修复成功率、修复成本、响应长度和行为模式）对 QuixBugs 基准上的四种 GPT 系列模型与其他大语言模型和 APR 技术进行了实证研究。结果表明，O1 的修复能力超过了之前的 GPT 系列模型，成功修复了基准测试中的全部 40 个错误。我们的工作可以为进一步深入探索GPT系列模型在APR中的应用奠定基础。

自动驾驶中高效多模式大语言模型的视频令牌稀疏化

分类： 计算机视觉和模式识别

作者： Yunsheng Ma, Amr Abdelraouf, Rohit Gupta, Ziran Wang, Kyungtae Han

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.11182v1

摘要： 多模态大语言模型（MLLM）已展现出通过强大的逻辑推理能力增强自动驾驶系统场景理解的巨大潜力。然而，这些模型的部署面临着巨大的挑战，因为它们的参数大小和计算需求往往超出了机载计算的限制。一个主要限制来自于捕获细粒度和长上下文视觉信息所需的大量视觉标记，从而导致延迟和内存消耗增加。为了解决这个问题，我们提出了视频令牌稀疏化（VTS），这是一种利用连续视频帧中固有的冗余来显着减少视觉令牌总数的新颖方法，同时保留最显着的信息。 VTS 采用基于 CNN 的轻量级提议模型来自适应识别关键帧并修剪信息量较少的标记，从而有效减轻幻觉并提高推理吞吐量，而不会影响性能。我们对 DRAMA 和 LingoQA 基准进行了全面的实验，证明了 VTS 的有效性，与基线相比，在不影响性能的情况下，推理吞吐量提高了 33%，内存使用量减少了 28%。

RetrievalAttention：通过向量检索加速长上下文 LLM 推理

分类： 机器学习, 计算和语言

作者： Di Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10516v1

摘要： 基于 Transformer 的大型语言模型 (LLM) 在各个领域变得越来越重要。然而，由于缓存键值 (KV) 向量的推理延迟和 GPU 内存消耗极高，注意力操作的二次时间复杂度对扩展到更长的上下文提出了重大挑战。本文提出了 RetrievalAttention，这是一种加速注意力计算的免训练方法。为了利用注意力的动态稀疏特性，RetrievalAttention 在 CPU 内存中的 KV 向量上构建近似最近邻搜索 (ANNS) 索引，并在生成过程中通过向量搜索检索最相关的索引。由于查询向量和键向量之间存在分布外（OOD），现成的 ANNS 索引仍然需要扫描 O(N)（通常是所有键的 30%）数据才能准确检索，这无法利用高稀疏性。 RetrievalAttention 首先识别基于 ANNS 注意力的 OOD 挑战，并通过注意力感知向量搜索算法解决该问题，该算法可以适应查询并且仅访问 1--3% 的数据，从而实现亚线性时间复杂度。 RetrievalAttention 极大地降低了长上下文 LLM 的推理成本，同时保持模型精度，GPU 内存需求也低得多。特别是，RetrievalAttention 只需 16GB GPU 内存即可在具有 8B 参数的 LLM 中提供 128K 令牌，能够在单个 NVIDIA RTX4090（24GB）上于 0.188 秒内生成一个令牌。

大语言模型作为 BT-Planner：利用大语言模型在机器人任务规划中生成行为树

分类： 机器人技术

作者： Jicong Ao, Fan Wu, Yansong Wu, Abdalla Swikir, Sami Haddadin

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10444v1

摘要： 由于任务期限长和零件关系复杂，机器人装配任务是一个开放的挑战。行为树（BT）因其模块化性和灵活性而越来越多地用于机器人任务规划，但手动设计它们可能会耗费大量精力。大型语言模型 (LLM) 最近已应用于机器人任务规划中以生成动作序列，但其生成 BT 的能力尚未得到充分研究。为此，我们建议将 LLM 作为 BT 规划器，这是一种利用 LLM 在机器人装配任务规划和执行中进行 BT 生成的新颖框架。引入了四种情境学习方法，利用大语言模型的自然语言处理和推理能力来生成 BT 格式的任务计划，减少人工工作量并确保鲁棒性和可理解性。我们还评估了经过微调、参数较少的大语言模型在相同任务上的表现。模拟和现实环境中的实验表明，我们的框架增强了大语言模型在 BT 生成中的性能，通过上下文学习和监督微调提高 BT 生成的成功率。

使用自适应信息调制促进大语言模型代理人之间的合作

分类： 人工智能, 计算和语言, 计算机与社会, 计算机科学与博弈论

作者： Qiliang Chen, Alireza, Ilami, Nunzio Lore, Babak Heydari

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10372v1

摘要： 本文介绍了一种新颖的框架，将 LLM 代理作为人类战略行为的代理与强化学习 (RL) 相结合，使这些代理参与团队环境中不断发展的战略交互。我们的方法通过使用战略 LLM 代理 (SLA) 扩展了传统的基于代理的模拟，并通过亲社会促进 RL 代理 (PPA) 引入动态和自适应治理，该代理调节网络中代理之间的信息访问，优化社会福利并促进亲社会社会行为。通过迭代博弈（包括囚徒困境）的验证，我们证明 SLA 代理表现出微妙的战略适应能力。 PPA 代理有效地学习调整信息透明度，从而提高合作率。该框架提供了对人工智能介导的社会动态的重要见解，有助于在现实团队环境中部署人工智能。

从大规模部署大语言模型支持的专家在环医疗保健聊天机器人中获得的经验教训

分类： 人机交互

作者： Bhuvan Sachdeva, Pragnya Ramjee, Geeta Fulari, Kaushik Murali, Mohit Jain

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10354v2

摘要： 大型语言模型 (LLM) 广泛应用于医疗保健领域，但幻觉、信息不完整和偏见等限制阻碍了其可靠性。为了解决这些问题，研究人员发布了“构建您自己的专家机器人”(BYOeB) 平台，使开发人员能够创建具有集成专家验证、由大语言模型支持的聊天机器人。 CataractBot 是其第一个实施方案，可为白内障手术问题提供经过专家验证的答案。试点评估显示了其潜力；然而，该研究的样本量较小，并且主要是定性的。在这项工作中，我们对 CataractBot 进行了为期 24 周的大规模部署，涉及 318 名患者和护理人员，发送了 1,992 条消息，其中 91.71% 的回复得到了 7 名专家的验证。对交互日志的分析显示，医疗问题的数量明显多于后勤问题，幻觉可以忽略不计，专家认为 84.52% 的医疗答案准确。随着知识库的扩展和专家修正，系统性能提高了19.02%，减少了专家的工作量。这些见解指导未来大语言模型支持的聊天机器人的设计。

从文本到表情符号：PEFT 驱动的人格操纵如何释放大语言模型中表情符号的潜力

分类： 计算和语言

作者： Navya Jain, Zekun Wu, Cristian Munoz, Airlie Hilliard, Adriano Koshiyama, Emre Kazim, Philip Treleaven

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10245v1

摘要： 随着与大语言模型进行类人互动的需求不断增长，人们对操纵其人格特质的兴趣也在不断增长，这已成为一个关键的研究领域。基于提示的上下文知识编辑（IKE）和基于梯度的模型编辑器网络（MEND）等方法已经被探索过，但显示出不规则性和可变性。 IKE 取决于提示，导致可变性和敏感性，而 MEND 会产生不一致且乱码的输出。为了解决这个问题，我们采用了基于意见 QA 的参数高效微调 (PEFT)，特别是量化低阶适应 (QLORA)，来操纵五大人格特质：开放性、责任心、外向性、宜人性和神经质。 PEFT 之后，Mistral-7B-Instruct 和 Llama-2-7B-chat 等模型开始生成表情符号，尽管它们在 PEFT 数据中不存在。例如，Llama-2-7B-chat 在 99.5% 的外向性相关测试实例中生成表情符号，而 Mistral-8B-Instruct 在 92.5% 的开放性相关测试实例中生成表情符号。可解释性分析表明，大语言模型有意使用表情符号来表达这些特征。本文提供了许多新颖的贡献。首先，引入用于 PEFT 驱动的个性操纵的意见 QA 数据集；其次，开发衡量模型来衡量大语言模型的人格特质；第三，展示了PEFT在人格操纵方面相对于IKE的优越性；最后，通过机械可解释性和情境学习可解释性方法等可解释性方法来分析和验证表情符号的使用。

临床风险预测大语言模型

分类： 计算和语言

作者： Mohamed Rezk, Patricia Cabanillas Silva, Fried-Michael Dahlweid

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10191v1

摘要： 本研究比较了 GPT-4 和 clinalytix Medical AI 在预测谵妄发生的临床风险方面的功效。研究结果表明，GPT-4 在识别阳性病例方面存在显着缺陷，并且难以为谵妄风险提供可靠的概率估计，而 clinalytix Medical AI 则表现出卓越的准确性。对大语言模型（LLM）输出的彻底分析阐明了这些差异的潜在原因，与现有文献中报告的局限性一致。这些结果强调了大语言模型在准确诊断病情和解释复杂临床数据方面面临的挑战。虽然大语言模型在医疗保健领域具有巨大潜力，但它们目前不适合独立的临床决策。相反，他们应该担任辅助角色，补充临床专业知识。持续的人工监督对于确保患者和医疗保健提供者获得最佳结果仍然至关重要。

通过反事实大语言模型推理增强强化学习安全性

分类： 机器学习

作者： Dennis Gross, Helge Spieker

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10188v1

摘要： 强化学习 (RL) 策略可能会表现出不安全行为并且难以解释。我们使用反事实大语言模型推理来增强强化学习策略训练后的安全性。我们证明了我们的方法得到了改进，并有助于解释 RL 策略的安全性。

MotionCom：利用 LLM 和视频扩散先验进行自动运动感知图像合成

分类： 计算机视觉和模式识别

作者： Weijing Tao, Xiaofeng Yang, Miaomiao Cui, Guosheng Lin

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10090v1

摘要： 这项工作提出了 MotionCom，这是一种免训练的基于运动感知扩散的图像合成，能够将目标对象自动无缝地集成到新场景中，并获得动态一致的结果，而无需微调或优化。该领域的传统方法存在两个重大限制：它们需要手动规划对象放置，并且通常生成缺乏运动真实感的静态合成。 MotionCom 通过利用大视觉语言模型 (LVLM) 进行智能规划，并利用视频扩散优先进行运动注入图像合成，从而简化合成过程，从而解决了这些问题。我们使用 LVLM 的多模式思想链 (CoT) 提示可以自动执行前景对象的战略放置规划，同时考虑它们在场景中的潜在运动和交互。作为补充，我们提出了一种新方法 MotionPaint，在生成阶段从预训练的视频扩散模型中提取运动感知信息，确保这些对象不仅无缝集成，而且赋予真实的运动。广泛的定量和定性结果凸显了 MotionCom 的优势，展示了其简化规划流程的效率以及生成真实描述运动和交互的构图的能力。

凌乱的代码使管理 ML 管道变得困难？让大语言模型重写代码吧！

分类： 数据库

作者： Sebastian Schelter, Stefan Grafberger

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10081v1

摘要： 从数据中学习的机器学习 (ML) 应用程序越来越多地用于自动执行有影响力的决策。不幸的是，这些应用程序通常无法充分管理关键数据并遵守即将出台的法规。这些问题持续存在的一个技术原因是常见机器学习库和云服务中的数据管道缺乏基本的声明性、以数据为中心的抽象。最近的研究表明，此类抽象如何支持来源跟踪和自动检查等技术来帮助管理机器学习管道。不幸的是，这些方法在现实世界中缺乏采用，因为它们需要使用声明式 API 编写的干净的 ML 管道代码，而不是数据科学家通常为数据准备编写的混乱的命令式 Python 代码。我们认为，期望数据科学家改变他们既定的开发实践是不现实的。相反，我们建议通过利用大型语言模型（LLM）的代码生成功能来规避这种“代码抽象差距”。我们的想法是将凌乱的数据科学代码重写为定制的声明性管道抽象，我们将其作为概念验证在原型 Lester 中实现。我们详细介绍了其在具有挑战性的合规性管理示例中的应用，该示例涉及已部署的 ML 管道的“增量视图维护”。我们运行示例的代码重写显示了 LLM 使混乱的数据科学代码声明性的潜力，例如，通过识别 Python 中的手动编码连接并将其转换为数据帧上的连接，或者通过从 NumPy 代码生成声明性特征编码器。

MindGuard：通过 Edge LLM 实现无障碍且无 Sitgma 的心理健康急救

分类： 计算和语言, 人工智能, 人机交互

作者： Sijie Ji, Xinzhe Zheng, Jiawei Sun, Renqi Chen, Wei Gao, Mani Srivastava

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10064v1

摘要： 精神健康障碍是全世界最普遍的疾病之一，影响近四分之一的人。尽管影响广泛，但干预率仍低于 25%，这主要是由于诊断和干预都需要患者的大力配合。治疗率低背后的核心问题是耻辱感，这阻碍了超过一半的受影响者寻求帮助。本文介绍了 MindGuard，这是一种易于使用、无耻辱且专业的移动心理保健系统，旨在提供心理健康急救。 MindGuard 的核心是一个创新的边缘大语言模型，配备专业的心理健康知识，将客观的移动传感器数据与主观生态瞬时评估记录无缝集成，以提供个性化的筛查和干预对话。我们使用跨越四年的开放数据集和涉及 20 个受试者的各种移动设备的实际部署，对 MindGuard 进行了广泛的评估，为期两周。值得注意的是，MindGuard 取得了与 GPT-4 相当的结果，并且模型大小是其同类产品的 10 倍以上。我们相信，MindGuard 为移动大语言模型应用程序铺平了道路，通过用日常生活中的被动综合监控取代自我报告和干预对话，可能会彻底改变心理保健实践，从而确保可获取且无耻辱的心理健康支持。

Householder伪旋转：一种从方向-幅度角度进行大语言模型激活编辑的新方法

分类： 计算和语言

作者： Van-Cuong Pham, Thien Huu Nguyen

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10053v1

摘要： 激活编辑涉及直接编辑大型语言模型（LLM）的内部表示以改变其行为并实现所需的属性，已成为一个有前途的研究领域。现有的工作主要将 LLM 的激活视为空间中的点，并通过添加转向向量来修改它们。然而，这种方法在保持激活幅度必要的一致性的同时实现更大的性能改进的能力受到限制。为了克服这些问题，我们提出了一种新颖的编辑方法，可以根据激活的方向和幅度来查看激活。我们的方法称为 Householder Pseudo-Rotation (HPR)，模仿旋转变换，从而保留激活规范并提高各种安全基准的性能。

HALO：幻觉分析和学习优化为大语言模型提供检索增强背景以指导临床决策

分类： 计算和语言, 人工智能

作者： Sumera Anjum, Hanzhi Zhang, Wenjun Zhou, Eun Jin Paek, Xiaopeng Zhao, Yunhe Feng

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10011v1

摘要： 大型语言模型 (LLM) 具有显着先进的自然语言处理任务，但它们很容易产生不准确或不可靠的响应，这种现象称为幻觉。在健康和医学等关键领域，这些幻觉可能会带来严重的风险。本文介绍了 HALO，这是一种新颖的框架，旨在通过专注于幻觉的检测和缓解来提高医疗问答 (QA) 系统的准确性和可靠性。我们的方法使用大语言模型生成给定查询的多种变体，并从外部开放知识库检索相关信息以丰富上下文。我们利用最大边际相关性评分来对检索到的上下文进行优先级排序，然后将其提供给大语言模型以生成答案，从而降低产生幻觉的风险。 LangChain 的集成进一步简化了这一流程，导致开源和商业 LLM 的准确性显着而强劲的提高，例如 Llama-3.1（从 44％到 65％）和 ChatGPT（从 56％到 70％））。该框架强调了解决医疗质量保证系统中的幻觉、最终改善临床决策和患者护理的至关重要性。开源 HALO 位于：https://github.com/ResponsibleAILab/HALO。

情感分析综合研究：从基于规则到现代大语言模型系统

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互

作者： Shailja Gupta, Rajesh Ranjan, Surya Narayan Singh

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09989v1

摘要： 本文对人工智能 (AI) 和大型语言模型 (LLM) 背景下的情感分析进行了全面的调查。情感分析是自然语言处理 (NLP) 的一个重要方面，已经从传统的基于规则的方法显着发展到先进的深度学习技术。这项研究考察了情感分析的历史发展，强调了从基于词典和基于模式的方法到更复杂的机器学习和深度学习模型的转变。讨论了关键挑战，包括处理双语文本、检测讽刺和解决偏见。本文回顾了最先进的方法，确定了新兴趋势，并概述了推动该领域发展的未来研究方向。通过综合当前的方法并探索未来的机会，本调查旨在彻底了解人工智能和大语言模型背景下的情绪分析。

SFR-RAG：迈向忠实于背景的大语言模型

分类： 计算和语言, 人工智能

作者： Xuan-Phi Nguyen, Shrey Pandit, Senthil Purushwalkam, Austin Xu, Hailin Chen, Yifei Ming, Zixuan Ke, Silvio Savarese, Caiming Xong, Shafiq Joty

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09916v1

摘要： 检索增强生成（RAG）是一种将外部上下文信息与大型语言模型（LLM）集成以提高事实准确性和相关性的范式，已成为生成人工智能的关键领域。 RAG申请中使用的大语言模型需要忠实、完整地理解所提供的上下文和用户的问题，避免产生幻觉，处理无法回答、反事实或其他低质量和不相关的上下文，执行复杂的多跳推理并产生可靠的引文。在本文中，我们介绍了 SFR-RAG，这是一种小型大语言模型，经过指令调整，重点是基于上下文的生成和幻觉最小化。我们还推出了 ContextualBench，这是一个新的评估框架，编译了多个流行且多样化的 RAG 基准，例如 HotpotQA 和 TriviaQA，具有一致的 RAG 设置，以确保模型评估的可重复性和一致性。实验结果表明，我们的 SFR-RAG-9B 模型优于 Command-R+ (104B) 和 GPT-4o 等领先基线，在 ContextualBench 的 7 个基准测试中的 3 个中以明显更少的参数实现了最先进的结果。该模型还被证明能够适应上下文信息的改变，并且在相关上下文被删除时表现得适当。此外，SFR-RAG 模型在一般指令跟踪任务和函数调用功能方面保持了具有竞争力的性能。

政治内容文本注释中大语言模型的基准测试：使用毒性和不文明行为数据进行概念验证

分类： 计算和语言, 人工智能, 68T50 (Primary) 91F10, 91F20 (Secondary)

作者： Bastián González-Bustamante

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09741v1

摘要： 本文对 OpenAI 的 GPT 和许多开源 LLM 对政治内容执行注释任务的能力进行了基准测试。我们使用了一个包含超过三百万次数字交互的新颖抗议事件数据集，并创建了一个黄金标准，其中包括由人类编码员注释的有关社交媒体上的毒性和不文明行为的真实标签。我们在基准测试中纳入了 Google 的 Perspective 算法，该算法与 GPT 一起在各自的 API 中使用，而开源 LLM 则部署在本地。研究结果表明，使用较宽松阈值的 Perspective API、GPT-4o 和 Nous Hermes 2 Mixtral 优于其他 LLM 的零样本分类注释。此外，Nous Hermes 2 和 Mistral OpenOrca 具有较少的参数，能够以高性能执行任务，是有吸引力的选择，可以在性能、实施成本和计算时间之间提供良好的权衡。使用设置不同温度水平的实验的辅助结果表明，尽管 GPT 往往不仅表现出出色的计算时间，而且总体上也表现出良好的可靠性水平，但只有开源 LLM 才能确保注释的完全可重复性。

PersonaMark：用于模型保护和用户归因的个性化 LLM 水印

分类： 密码学和安全, 计算和语言

作者： Yuehan Zhang, Peizhuo Lv, Yinpeng Liu, Yongqiang Ma, Wei Lu, Xiaofeng Wang, Xiaozhong Liu, Jiawei Liu

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09739v1

摘要： 大语言模型的快速发展既带来了便利，也带来了潜在的威胁。随着服装大语言模型和私人大语言模型的广泛应用，模特版权保护变得越来越重要。文本水印正在成为解决人工智能生成的文本检测和模型保护问题的一种有前景的解决方案。然而，当前的文本水印在很大程度上忽略了为不同用户注入不同水印的关键需求，这有助于将水印归因于特定的个人。在本文中，我们探索了针对LLM版权保护等场景的个性化文本水印方案，确保内容生成的可问责性和可追溯性。具体来说，我们提出了一种新颖的文本水印方法 PersonaMark，它利用句子结构作为水印信息的隐藏媒介，并优化句子级生成算法，以尽量减少对模型自然生成过程的干扰。通过采用个性化哈希函数为不同用户注入独特的水印信号，可以获得个性化的水印文本。由于我们的方法在句子级别而不是标记概率上执行，因此文本质量得到了高度保留。通过设计的多用户散列函数，针对不同用户的唯一水印信号的注入过程对于大量用户而言是高效的。据我们所知，我们通过此首次实现了个性化文本水印。我们对四种不同的大语言模型在困惑度、情感极性、对齐、可读性等方面进行了广泛的评估。结果表明，我们的方法在对模型行为的扰动最小的情况下保持了性能，允许公正地插入水印信息，并表现出很强的水印识别功能。

AlpaPICO：使用大语言模型从临床试验文档中提取 PICO 框架

分类： 计算和语言, 信息检索, 机器学习

作者： Madhusudan Ghosh, Shrimon Mukherjee, Asmit Ganguly, Partha Basuchowdhuri, Sudip Kumar Naskar, Debasis Ganguly

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09704v1

摘要： 近年来，临床试验报告的发表激增，给系统评价带来了挑战。从临床试验研究中自动提取人群、干预、比较和结果 (PICO) 可以减轻传统上手动审查系统评价的耗时过程。现有的 PICO 帧提取方法涉及监督方法，该方法依赖于 BIO 标签标记形式的手动注释数据点的存在。最近的方法，例如上下文学习 (ICL)，已被证明对许多下游 NLP 任务有效，需要使用标记的示例。在这项工作中，我们采用 ICL 策略，利用在 LLM 的预训练阶段收集的大型语言模型 (LLM) 的预训练知识，在无监督的设置中自动从临床试验文档中提取与 PICO 相关的术语，以绕过可用性大量带注释的数据实例。此外，为了展示LLM在有大量注释样本的oracle场景中的最高有效性，我们采用低秩适应（LORA）的指令调优策略，在PICO框架的低资源环境下进行巨型模型的训练提取任务。我们的实证结果表明，我们提出的基于 ICL 的框架在所有版本的 EBM-NLP 数据集上产生了可比较的结果，并且我们提出的框架的指令调整版本在所有不同的 EBM-NLP 数据集上产生了最先进的结果。我们的项目位于 \url{https://github.com/shrimonmuke0202/AlpaPICO.git}。

ContractTinker：大语言模型授权的现实世界智能合约漏洞修复

分类： 软件工程, 密码学和安全

作者： Che Wang, Jiashuo Zhang, Jianbo Gao, Libin Xia, Zhi Guan, Zhong Chen

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09661v1

摘要： 智能合约很容易被攻击者利用，尤其是在面临现实世界的漏洞时。为了减轻这种风险，开发人员通常依靠第三方审计服务在项目部署之前识别潜在的漏洞。然而，修复已识别的漏洞仍然是复杂且劳动密集型的，特别是对于缺乏安全专业知识的开发人员而言。此外，现有的基于模式的修复工具由于缺乏高级语义理解而大多无法解决现实世界的漏洞。为了填补这一空白，我们提出了 ContractTinker，这是一种基于大型语言模型 (LLM) 的工具，用于现实世界的漏洞修复。关键的见解是我们采用思想链方法将整个生成任务分解为子任务。此外，为了减少幻觉，我们集成了程序静态分析来指导大语言模型。我们对 ContractTinker 的 48 个高风险漏洞进行了评估。实验结果显示，ContractTinker 生成的补丁中，有 23 个（48%）是修复漏洞的有效补丁，而 10 个（21%）只需要进行较小的修改。 ContractTinker 的视频可在 https://youtu.be/HWFVi-YHcPE 上观看。

基于 LLM 的对话状态跟踪的置信度估计

分类： 计算和语言, 人工智能

作者： Yi-Jyun Sun, Suvodip Dey, Dilek Hakkani-Tur, Gokhan Tur

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09629v1

摘要： 估计模型对其输出的置信度对于基于大型语言模型 (LLM) 的对话式 AI 系统至关重要，特别是对于减少幻觉和防止过度依赖。在这项工作中，我们对方法进行了详尽的探索，包括为开放权重和封闭权重大语言模型提出的方法，旨在量化和利用模型不确定性来提高大语言模型生成的响应的可靠性，特别关注对话状态跟踪（DST）面向任务的对话系统（TODS）。无论模型类型如何，经过良好校准的置信度分数对于处理不确定性至关重要，从而提高模型性能。我们评估了四种基于 softmax、原始标记得分、语言化置信度以及这些方法的组合来估计置信度得分的方法，使用曲线下面积 (AUC) 指标来评估校准，AUC 越高表明校准效果越好。我们还通过针对封闭模型提出的自探测机制来增强这些功能。此外，我们使用针对 DST 任务进行微调的开放权重模型来评估这些方法，从而实现卓越的联合目标精度（JGA）。我们的研究结果还表明，微调开放权重 LLM 可以提高 AUC 性能，表明更好的置信度校准。

MindScape 研究：整合大语言模型和行为感知，打造个性化人工智能驱动的日记体验

分类： 人机交互, 人工智能, H.5.0; H.5.3; H.5.m; J.0

作者： Subigya Nepal, Arvind Pillai, William Campbell, Talie Massachi, Michael V. Heinz, Ashmita Kunwar, Eunsol Soul Choi, Orson Xu, Joanna Kuc, Jeremy Huckins, Jason Holden, Sarah M. Preum, Colin Depp, Nicholas Jacobson, Mary Czerwinski, Eric Granholm, Andrew T. Campbell

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09570v1

摘要： 大学生普遍存在心理健康问题，这凸显了采取有效干预措施来促进自我意识和整体福祉的必要性。 MindScape 通过将被动收集的行为模式（例如对话参与、睡眠和位置）与大型语言模型 (LLM) 相结合，开创了一种基于人工智能的日记的新颖方法。这种集成创造了高度个性化和情境感知的日记体验，通过将行为智能嵌入人工智能来增强自我意识和幸福感。我们对 20 名大学生进行了一项为期 8 周的探索性研究，展示了 MindScape 应用程序在增强积极情绪 (7%)、减少消极情绪 (11%)、孤独感 (6%) 以及焦虑和抑郁方面的功效，一周的效果显着- PHQ-4 分数每周下降（-0.25 系数），同时正念（7%）和自我反思（6%）有所改善。该研究强调了情境人工智能日记的优势，参与者特别欣赏 MindScape 应用程序提供的定制提示和见解。我们的分析还包括对人工智能驱动的情境提示与一般提示的反应进行比较、参与者反馈见解以及利用情境人工智能日记改善大学校园福祉的建议策略。通过展示情境人工智能日记支持心理健康的潜力，我们为进一步研究情境人工智能日记对心理健康和福祉的影响奠定了基础。

黑客，懒惰的方式：大语言模型增强渗透测试

分类： 密码学和安全, 人工智能, I.2.1

作者： Dhruva Goyal, Sitaraman Subramanian, Aditya Peela

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09493v1

摘要： 安全研究人员不断面临着需要跟上快速发展的网络安全研究、工具和技术的需求的挑战。这种不断学习、忘却和再学习的循环，加上筛选文档和分析数据的重复性任务，往往会阻碍生产力和创新。这导致了一种差异，即只有拥有大量资源的组织才能接触顶级安全专家，而其他组织则依赖于技术水平较低的研究人员的公司，这些研究人员主要关注合规性而不是实际的安全性。我们引入了“LLM 增强渗透测试”，通过名为“Pentest Copilot”的工具进行演示，以解决这一差距。这种方法将大型语言模型集成到渗透测试工作流程中。我们的研究包括“思想链”机制，以简化代币使用并提高性能，以及独特的检索增强生成实现，以最大限度地减少幻觉并使模型与最新技术保持一致。此外，我们提出了一种新颖的文件分析方法，使大语言模型能够理解文件。此外，我们强调了一个独特的基础设施系统，如果实施的话，可以支持浏览器内辅助渗透测试，为网络安全专业人员提供强大的平台。这些进步标志着弥合自动化工具和人类专业知识之间差距的重要一步，提供了强大的解决现代网络安全团队面临的挑战。

通过 REAP 增强 LLM 问题解决能力：反思、显式问题解构和高级提示

分类： 计算和语言, 人工智能, 机器学习

作者： Ryan Lingo, Martin Arroyo, Rajeev Chhajer

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09415v1

摘要： 大型语言模型（LLM）已经改变了自然语言处理，但提高其解决问题的能力，特别是复杂的推理密集型任务，仍然是一个持续的挑战。本文介绍了 REAP（反思、显式问题解构和高级提示）方法，这是动态上下文生成框架内的一种创新方法。 REAP 指导大语言模型反思查询，将其解构为可管理的组件，并生成相关上下文以增强解决方案过程。我们使用旨在暴露 LLM 局限性的数据集评估了 REAP，比较了六种最先进模型的零样本提示和 REAP 增强提示：OpenAI 的 o1-preview、o1-mini、GPT-4o、GPT-4o- mini、Google 的 Gemini 1.5 Pro 和 Claude 3.5 Sonnet。结果显示性能显着提升，o1-mini 提高了 40.97%，GPT-4o 提高了 66.26%，GPT-4o-mini 提高了 112.93%。尽管 OpenAI 的 o1 预览版的基线性能已经很强劲，但仍观察到了适度的增长。除了性能改进之外，REAP 还提供了一种经济高效的解决方案；例如，GPT-4o-mini 比 o1-preview 便宜大约 100 倍，但提供了有竞争力的结果。 REAP 还提高了模型输出的清晰度，使人们更容易理解结果背后的推理，并简化识别和解决任何问题的过程。这些发现表明，REAP 有潜力极大地提高大语言模型的能力，在广泛的应用中提供更好的性能和更高的成本效率。

用于论文来源追踪的大语言模型支持的集成学习：一种无需 GPU 的方法

分类： 机器学习, 人工智能, 计算和语言

作者： Kunlong Chen, Junjun Wang, Zhaoqun Chen, Kunjin Chen, Yitian Chen

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09383v2

摘要： 我们参加了 KDD CUP 2024 纸张溯源大赛并获得第三名。本次竞赛要求参与者识别给定学术论文的参考来源（即竞赛组织者提到的参考来源）。与大多数通过微调 BERT 或 ChatGLM 等预训练神经语言模型来应对这一挑战的团队不同，我们的主要方法利用闭源大型语言模型 (LLM)。随着大语言模型技术的最新进步，闭源大语言模型已经证明了在零样本或少样本场景中处理复杂推理任务的能力。因此，在没有 GPU 的情况下，我们采用闭源 LLM 直接从提供的论文中生成预测参考源。我们通过集成学习进一步完善了这些预测。值得注意的是，我们的方法是获奖方法中唯一一种不需要使用 GPU 进行模型训练的方法。代码可在 https://github.com/Cklwanfifa/KDDCUP2024-PST 获取。

点石成金：触发大语言模型进行 RM-API 滥用检测的能力

分类： 密码学和安全

作者： Yi Yang, Jinghua Liu, Kai Chen, Miaoqian Lin

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09380v1

摘要： 在本文中，我们提出了一种由 LLM 授权的 RM-API 误用检测解决方案 ChatDetector，它完全自动化了 LLM 的文档理解，这有助于 RM-API 约束检索和 RM-API 误用检测。为了正确检索 RM-API 约束，ChatDetector 受到基于思想链 (CoT) 优化的 ReAct 框架的启发，将复杂的任务分解为分配 API 识别、RM 对象（由 RM API 分配/释放）提取和 RM-API 配对（RM API 通常成对存在）。它首先根据通过 LLM 从 API 文档中检索到的 RM 句子来验证分配 API 的语义。受到大语言模型在各种提示方法上的表现的启发，ChatDetector 采用二维提示方法进行交叉验证。同时，利用现成的自然语言处理（NLP）工具，采用LLM输出与推理过程之间的不一致检查方法来确认分配API。为了准确配对 RM-API，ChatDetector 再次分解任务并首先识别 RM-对象类型，然后可以准确配对发布的 API，并进一步构造用于误用检测的 RM-API 约束。随着幻觉的减少，ChatDetector 识别了 165 对 RM-API，与最先进的 API 检测器相比，准确率达到 98.21%。通过使用静态检测器 CodeQL，我们道德地向开发人员报告了集成在六个流行库上的应用程序的 115 个安全错误，这可能会导致严重的问题，例如拒绝服务 (DoS) 和内存损坏。与端到端基准测试方法相比，结果表明 ChatDetector 可以检索至少多 47% 的 RM 句子和 80.85% 多的 RM-API 约束。

通过两阶段前缀增强多模态大语言模型为电影生成面向事件的归因

分类： 计算和语言

作者： Yuanjie Lyu, Tong Xu, Zihan Niu, Bo Peng, Jing Ke, Enhong Chen

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09362v1

摘要： 社交媒体平台的繁荣提出了对事件和故事情节归因等丰富语义服务的迫切需求。然而，大多数现有研究主要集中在剪辑级事件理解上，主要是通过基本的字幕任务，而不是分析整部电影中事件的原因。这是一个重大挑战，因为即使是先进的多模态大语言模型（MLLM）也会由于上下文长度有限而难以处理大量的多模态信息。为了解决这个问题，我们提出了一种用于事件归因的两阶段前缀增强 MLLM (TSPE) 方法，即将电影视频中的相关事件与其因果语义联系起来。在本地阶段，我们引入了交互感知前缀，引导模型关注单个剪辑内的相关多模态信息，简要总结单个事件。相应地，在全局阶段，我们使用推理知识图来加强关联事件之间的联系，并设计一个事件感知前缀，引导模型关注关联事件而不是所有先前的片段，从而实现准确的事件归因。对两个现实世界数据集的综合评估表明我们的框架优于最先进的方法。

PeriGuru：基于GUI图像理解和LLM提示的外围机器人移动应用操作助手

分类： 机器人技术, 人工智能

作者： Kelin Fu, Yang Tian, Kaigui Bian

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09354v1

摘要： 智能手机极大地增强了我们的日常学习、沟通和娱乐，成为现代生活的重要组成部分。然而，某些人群，包括老年人和残疾人，在使用智能手机时遇到挑战，因此需要移动应用程序操作助手，又称移动应用程序代理。考虑到隐私、权限和跨平台兼容性问题，我们在这项工作中致力于设计和开发PeriGuru，一个基于GUI图像理解和大语言模型（LLM）提示的外围机器人移动应用操作助手。 PeriGuru 利用一套计算机视觉技术来分析 GUI 屏幕截图，并利用 LLM 来告知行动决策，然后由机械臂执行。 PeriGuru 在测试任务集上的成功率达到 81.94%，比没有 PeriGuru GUI 图像解读和提示设计的方法高出一倍以上。我们的代码可在 https://github.com/Z2sJ4t/PeriGuru 上获取。

通过阶梯级 Q 值模型增强 LLM 代理人的决策能力

分类： 人工智能

作者： Yuanzhao Zhai, Tingkai Yang, Kele Xu, Feng Dawei, Cheng Yang, Bo Ding, Huaimin Wang

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09345v1

摘要： 代理通过感知环境、制定决策和执行操作，显着增强独立大型语言模型 (LLM) 的功能。然而，大语言模型代理人在需要多个决策步骤的任务中仍然面临挑战。当中间行为既没有得到适当的奖励也没有受到适当的惩罚时，估计特定任务中行为的价值就很困难。在本文中，我们建议利用与任务相关的 Q 值模型来指导行动选择。具体来说，我们首先通过蒙特卡洛树搜索（MCTS）收集用阶梯级 Q 值注释的决策轨迹并构建偏好数据。然后，我们使用另一个大语言模型通过阶梯级直接策略优化（DPO）（充当 Q 值模型）来适应这些偏好。在推理过程中，在每个决策步骤中，LLM 代理在与环境交互之前选择具有最高 Q 值的操作。我们将我们的方法应用于各种开源和基于 API 的 LLM 代理，证明 Q 值模型显着提高了它们的性能。值得注意的是，当使用 Q 值模型增强时，使用 Phi-3-mini-4k-instruct 构建的代理的性能在 WebShop 上提高了 103%，在 HotPotQA 上提高了 75%，甚至超过了 GPT-4o-mini。此外，Q 值模型还具有多种优势，例如对不同 LLM 代理的泛化以及与现有提示策略的无缝集成。

你说什么或者你怎么说？预测真实对话和大语言模型生成的对话中的冲突结果

分类： 社交和信息网络, 人机交互

作者： Priya Ronald D'Costa, Evan Rowbotham, Xinlan Emily Hu

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09338v1

摘要： 当冲突升级时，是因为所说的话还是怎么说的？在冲突文献中，两种理论方法采取相反的观点：一种侧重于分歧的内容，另一种侧重于分歧的表达方式。本文旨在通过对 191 个通信特征（128 个与表达相关，63 个与内容相关）的计算分析来整合这两种观点。我们分析了来自 Reddit 的 1,200 个 GPT-4 模拟对话和 12,630 个现实世界讨论。我们发现，尽管最重要的特征有所不同，但表达特征可以更可靠地预测两种环境中的破坏性冲突结果。在 Reddit 数据中，轮流和对话平等等对话动态具有高度预测性，但在模拟对话中却无法预测。这些结果可能表明用语言模型模拟社交互动可能存在局限性，我们讨论了我们的发现对构建社交计算系统的影响。

使用 LLM 生成 API 参数安全规则以进行 API 滥用检测

分类： 密码学和安全, 软件工程

作者： Jinghua Liu, Yi Yang, Kai Chen, Miaoqian Lin

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09288v1

摘要： 在本文中，我们提出了一个名为 GPTAid 的新框架，通过使用 LLM 分析 API 源代码并检测由于不正确的参数使用导致的 API 误用，自动生成 APSR。为了验证 LLM 生成的 APSR 的正确性，我们提出了一种执行反馈检查方法，该方法基于以下观察：安全关键 API 误用通常是由 APSR 违规引起的，并且大多数会导致运行时错误。具体来说，GPTAid首先使用LLM生成原始APSR和Right调用代码，然后通过使用LLM修改Right调用代码来为每个原始APSR生成Violation代码。随后，GPTAid对每一段Violation代码进行动态执行，并根据运行时错误进一步过滤掉不正确的APSR。为了进一步生成具体的 APSR，GPTAid 采用代码差异分析来细化过滤后的 APSR。特别是，由于编程语言比自然语言更加精确，GPTAid通过差异分析来识别Violation代码中的关键操作，然后根据上述操作生成相应的具体APSR。这些具体的 APSR 可以被精确地解释为适用的检测代码，这在 API 滥用检测中被证明是有效的。在包含来自 8 个流行库的 200 个随机选择的 API 的数据集上实施时，GPTAid 的精度达到 92.3%。此外，在先前报告的错误和 APSR 的比较数据集上，它生成的 APSR 比最先进的检测器多 6 倍。我们进一步对 47 个应用程序进行了 GPTAid 评估，发现了 210 个可能导致严重安全问题（例如系统崩溃）的未知安全错误，其中 150 个已在我们的报告后得到开发人员的确认。

使用 LLM 支持的代码生成进行 Python 符号执行

分类： 软件工程, 编程语言

作者： Wenhan Wang, Kaibo Liu, An Ran Chen, Ge Li, Zhi Jin, Gang Huang, Lei Ma

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09271v1

摘要： 符号执行是软件测试中的一项关键技术，它通过收集符号路径约束，然后使用SMT求解器求解约束来生成测试用例。符号执行已被证明有助于生成高覆盖率的测试用例，但其局限性（例如，解决路径约束的困难）阻碍了它在软件测试中更广泛的使用。此外，符号执行在应用于Python等动态类型语言时遇到了许多困难，因为将灵活的Python语法转换为严格的求解器极具挑战性。为了克服在 Python 中应用符号执行的主要挑战，我们提出了一种 LLM 授权的代理 LLM-Sym，它自动调用 SMT 求解器 Z3 来解决执行路径约束。基于入门级符号执行引擎，我们的 LLM 代理可以将其扩展为支持具有复杂数据类型“列表”的程序。 LLM-Sym 的核心贡献是将复杂的 Python 路径约束转换为 Z3 代码。为了实现 Z3 的准确路径转换，我们设计了一个多步骤代码生成管道，包括类型推断、检索和自我优化。我们的实验表明，LLM-Sym 能够解决具有复杂控制流和列表数据结构的 Leetcode 问题的路径约束，这对于骨干符号执行引擎来说是不可能的。我们的方法为 LLM 的生成能力与符号求解器的推理能力的结合铺平了道路，并为 LLM 增强测试用例生成开辟了新的机会。

通过协调双塔动态语义令牌生成器释放大语言模型的推荐潜力

分类： 信息检索, 人工智能, 计算和语言, 机器学习

作者： Jun Yin, Zhengxin Zeng, Mingzheng Li, Hao Yan, Chaozhuo Li, Weihao Han, Jianjin Zhang, Ruochen Liu, Allen Sun, Denvy Deng, Feng Sun, Qi Zhang, Shirui Pan, Senzhang Wang

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09253v1

摘要： 由于语义理解和逻辑推理方面前所未有的能力，预训练的大语言模型（LLM）在开发下一代推荐系统（RS）方面显示出了巨大的潜力。然而，当前方法采用的静态索引范式极大地限制了LLM推荐能力的利用，不仅导致语义和协作知识之间的对齐不足，而且忽视了高阶用户-项目交互模式。在本文中，我们提出了双塔动态语义推荐器（TTDS），这是第一个采用动态语义索引范式的生成RS，旨在同时解决上述问题。更具体地说，我们首次设计了一种动态知识融合框架，将双塔语义标记生成器集成到基于LLM的推荐器中，为项目和用户分层分配有意义的语义索引，并相应地预测目标的语义索引物品。此外，提出了一种双模态变分自动编码器，以促进语义和协作知识之间的多粒度对齐。最终，提出了一系列专门为捕获高阶用户-项目交互模式而定制的新颖调整任务，以利用用户历史行为。三个公共数据集的广泛实验证明了所提出的方法在开发基于 LLM 的生成 RS 方面的优越性。与领先的基线方法相比，所提出的 TTDS 推荐器的命中率平均提高了 19.41%，NDCG 指标平均提高了 20.84%。

ProcessTBench：用于流程挖掘的 LLM 计划生成数据集

分类： 机器学习, 人工智能, 新兴技术

作者： Andrei Cosmin Redis, Mohammadreza Fani Sani, Bahram Zarrin, Andrea Burattin

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09191v1

摘要： 大型语言模型 (LLM) 在计划生成方面显示出了巨大的前景。然而，现有数据集通常缺乏高级工具使用场景所需的复杂性，例如处理释义查询语句、支持多种语言以及管理可以并行完成的操作。这些场景对于评估大语言模型在现实应用中不断发展的能力至关重要。此外，当前的数据集无法从流程角度对大语言模型进行研究，特别是在了解在不同条件或配方下执行同一流程的典型行为和挑战至关重要的情况下。为了解决这些差距，我们提出了 ProcessTBench 数据集，这是 TaskBench 数据集的扩展，专门设计用于评估流程挖掘框架内的 LLM。

与大语言模型的多模态融合用于自然对话中的参与度预测

分类： 人工智能, 计算和语言, 人机交互, 机器学习

作者： Cheng Charles Ma, Kevin Hyekang Joo, Alexandria K. Vail, Sunreeta Bhattacharya, Álvaro Fernández García, Kailana Baker-Matsuoka, Sheryl Mathew, Lori L. Holt, Fernando De la Torre

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09135v1

摘要： 在过去的十年中，可穿戴计算设备（“智能眼镜”）在传感器技术、设计和处理能力方面取得了显着的进步，开创了高密度人类行为数据的新时代。这些眼镜配备了可穿戴摄像头，为分析自然环境中个体互动时的非语言行为提供了独特的机会。我们的重点在于通过仔细检查言语和非言语线索来预测二元互动的参与度，旨在发现不感兴趣或困惑的迹象。利用此类分析可能会彻底改变我们对人类沟通的理解，促进专业环境中更有效的协作，通过同理心虚拟互动提供更好的心理健康支持，并增强那些有沟通障碍的人的可及性。在这项工作中，我们收集了一个包含 34 位参与随意二元对话的参与者的数据集，每个参与者在每次对话结束时都提供了自我报告的参与度评分。我们引入了一种新颖的融合策略，使用大型语言模型（LLM）将多种行为模式集成到“多模式转录本”中，该转录本可以由 LLM 处理以执行行为推理任务。值得注意的是，即使在初步实施中，该方法也能达到与现有融合技术相当的性能，这表明进一步研究和优化的巨大潜力。这种融合方法是第一个通过语言模型对现实世界人类行为进行“推理”的方法。智能眼镜使我们能够不引人注目地收集有关人类行为的高密度多模式数据，为理解和改善人类沟通的新方法铺平了道路，并具有潜在的重要社会效益。研究期间收集的特征和数据将公开以促进进一步的研究。

AI-LieDar：检查 LLM 代理的实用性和真实性之间的权衡

分类： 人工智能, 计算和语言

作者： Zhe Su, Xuhui Zhou, Sanketh Rangreji, Anubha Kabra, Julia Mendelsohn, Faeze Brahman, Maarten Sap

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.09013v1

摘要： 为了安全、成功地部署，大语言模型必须同时满足真实性和实用性目标。然而，这两个目标通常是相互竞争的（例如，人工智能代理协助二手车销售员销售有缺陷的汽车），部分原因是用户指令含糊或误导。我们提出了 AI-LieDar，这是一个框架，用于研究基于 LLM 的代理如何在多轮交互设置中导航具有效用真实性冲突的场景。我们设计了一组现实场景，其中指示语言智能体在与模拟人类智能体的多轮对话中实现与诚实相冲突的目标。为了大规模评估真实性，我们受心理学文献启发开发了一种真实性检测器来评估代理人的反应。我们的实验表明，尽管真实性和目标实现（效用）率因模型而异，但所有模型的真实率均低于 50%。我们进一步测试了大语言模型对真实性的可引导性，发现模型遵循恶意指令进行欺骗，即使是真实引导的模型仍然可能撒谎。这些发现揭示了大语言模型真实性的复杂性，并强调了进一步研究以确保大语言模型和人工智能代理安全可靠部署的重要性。

保护去中心化社交媒体：用于自动化社区规则合规的大语言模型代理

分类： 计算机与社会, 计算和语言, 人机交互, 物理与社会

作者： Lucio La Cava, Andrea Tagarelli

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08963v1

摘要： 确保内容符合社区准则对于维护健康的在线社交环境至关重要。然而，由于用户生成的内容量不断增加且审核者数量有限，传统的基于人工的合规性检查难以扩展。大型语言模型所展示的自然语言理解领域的最新进展为自动化内容合规性验证带来了新的机遇。这项工作评估了六个基于 Open-LLM 构建的人工智能代理，用于在去中心化社交网络中进行自动规则合规性检查，这是一个由于异构社区范围和规则而具有挑战性的环境。通过分析来自数百个 Mastodon 服务器的 50,000 多个帖子，我们发现人工智能代理可以有效检测不合规内容、掌握语言微妙之处并适应不同的社区环境。大多数代理人在评分合理性和合规建议方面也表现出较高的评估者间可靠性和一致性。领域专家进行的基于人的评估证实了代理的可靠性和实用性，使它们成为半自动或人机交互内容审核系统的有前途的工具。

基于LLM的视频搜索查询意图分类弱监督框架

分类： 信息检索

作者： Farnoosh Javadi, Phanideep Gampa, Alyssa Woo, Xingxing Geng, Hang Zhang, Jose Sepulveda, Belhassen Bayar, Fei Wang

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08931v1

摘要： 流媒体服务重塑了我们发现和参与数字娱乐的方式。尽管取得了这些进步，有效理解广泛的用户搜索查询仍然构成重大挑战。可以处理代表不同用户意图的各种实体的准确查询理解系统对于提供增强的用户体验至关重要。我们可以通过训练自然语言理解（NLU）模型来构建这样的系统；然而，在这个专业领域获得高质量的标记训练数据是一个巨大的障碍。手动注释对于捕获用户大量的词汇变化来说成本高昂且不切实际。为了解决这个问题，我们引入了一种新颖的方法，通过弱监督利用大型语言模型（LLM）来自动注释大量的用户搜索查询。使用即时工程和多样化的大语言模型角色，我们生成符合人类注释者期望的训练数据。通过思想链和上下文学习整合领域知识，我们的方法利用标记数据来训练针对实时推理优化的低延迟模型。广泛的评估表明，我们的方法优于基线，召回率平均相对增益为 113%。此外，我们新颖的即时工程框架可产生更高质量的大语言模型生成的数据，用于弱监督；我们观察到，根据搜索查询出现的分布进行加权，LLM 预测和人工注释之间的 F1 分数一致性率比基线提高了 47.60%。在我们新颖的提示工程框架之上，我们的角色选择路由机制进一步将加权 F1 分数额外增加了 3.67%。

你的薄弱大语言模型其实是一个强大的协调老师

分类： 计算和语言

作者： Leitian Tao, Yixuan Li

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08813v1

摘要： 大型语言模型 (LLM) 的迅速发展的能力强调了调整的必要性，以确保这些模型按照人类价值观和意图行事。现有的对齐框架以昂贵的人力或高计算成本的形式存在限制。本文探讨了一个有希望的中间立场，我们采用弱大语言模型，其资源密集程度明显低于顶级模型，但提供比纯粹人类反馈更多的自动化。我们提出了一项系统研究来评估和理解大语言模型生成调整反馈的能力较弱。我们的实证研究结果表明，薄弱的大语言模型可以提供与完全人工注释的数据相媲美甚至超过的反馈。我们的研究表明模型大小对反馈功效的影响最小化，揭示了可扩展和可持续的调整策略。为了加深我们对弱LLM反馈下一致性的理解，我们进行了一系列定性和定量分析，为人类反馈与弱LLM反馈之间的质量差异提供了新颖的见解。

人类与人工智能协作中的相互心理理论：实时共享工作空间任务中大语言模型驱动的人工智能代理的实证研究

分类： 人机交互, 人工智能, 多代理系统

作者： Shao Zhang, Xihuai Wang, Wenhao Zhang, Yongshan Chen, Landi Gao, Dakuo Wang, Weinan Zhang, Xinbing Wang, Ying Wen

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08811v1

摘要： 心智理论 (ToM) 极大地影响着人类的协作和沟通，作为理解他人的重要能力。当具有 ToM 能力的 AI 智能体与人类协作时，人类与 AI 团队 (HAT) 中就会出现相互思维理论 (MToM)。 MToM流程涉及交互沟通和基于ToM的策略调整，影响团队的绩效和协作流程。为了探索 MToM 过程，我们在实时共享工作空间任务中使用大型语言模型驱动的 AI 代理以及 ToM 和通信模块进行了混合设计实验。我们发现智能体的 ToM 能力不会显着影响团队绩效，但会增强人们对智能体的理解以及被理解的感觉。我们研究中的大多数参与者认为言语沟通会增加人类负担，结果表明双向沟通会导致 HAT 绩效降低。我们讨论了这些结果对于设计与人类在实时共享工作空间任务中协作的人工智能代理的影响。

你说什么=你想要什么？教人类阐明大语言模型的要求

分类： 人机交互, 人工智能

作者： Qianou Ma, Weirui Peng, Hua Shen, Kenneth Koedinger, Tongshuang Wu

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08775v1

摘要： 提示 ChatGPT 实现复杂的目标（例如，创建客户支持聊天机器人）通常需要细致的提示工程，包括流畅的写作和思维链技术等方面。虽然新兴的提示优化器可以自动完善其中许多方面，但我们认为，清楚地传达定制需求（例如，如何处理不同的输入）仍然是以人为中心的挑战。在这项工作中，我们引入了面向需求的提示工程（ROPE），这是一种将人类注意力集中在提示过程中生成清晰、完整需求的范例。我们通过评估和培训套件实施 ROPE，该套件提供刻意练习和大语言模型生成的反馈。在一项针对 30 名新手的研究中，我们表明以需求为中心的培训使新手的提示表现翻倍，显着优于传统的提示工程培训和提示优化。我们还证明，高质量的大语言模型输出与输入要求的质量直接相关。我们的工作为人类与大语言模型协作提示中更有效的任务委派铺平了道路。

融合动力学方程：基于 LLM 代理的社会意见预测算法

分类： 社交和信息网络, 计算机与社会

作者： Junchi Yao, Hongjie Zhang, Jie Ou, Dingyi Zuo, Zheng Yang, Zhicheng Dong

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08717v1

摘要： 在社交媒体日益成为社会运动和舆论形成的重要平台的背景下，准确模拟和预测用户舆情动态对于了解社会现象、制定政策、引导舆论具有重要意义。然而，现有的模拟方法在捕捉用户行为的复杂性和动态性方面面临挑战。针对这一问题，本文提出了一种创新的社交媒体用户观点动态模拟方法——FDE-LLM算法，该算法结合了观点动态和流行病模型。这有效地约束了大型语言模型（LLM）的行为和观点演化过程，使它们更加符合真实的网络世界。特别是，FDE-LLM 将用户分为意见领袖和追随者。意见领袖基于LLM角色扮演，受到CA模型的约束，而意见追随者则融入到CA模型与SIR模型相结合的动态系统中。这种创新设计显着提高了模拟的准确性和效率。在四个真实的微博数据集上进行了实验，并使用开源模型 ChatGLM 进行了验证。结果表明，与传统的基于代理建模（ABM）观点动态算法和基于LLM的观点扩散算法相比，我们的FDE-LLM算法表现出更高的准确性和可解释性。

L3Cube-IndicQuest：用于评估印度背景下大语言模型知识的基准查询回答数据集

分类： 计算和语言, 机器学习

作者： Pritika Rohera, Chaitrali Ginimav, Akanksha Salunke, Gayatri Sawant, Raviraj Joshi

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08706v1

摘要： 大型语言模型 (LLM) 在将印度语言纳入多语言模型方面取得了重大进展。然而，定量评估这些语言的表现是否与全球主导语言（例如英语）相当至关重要。目前，缺乏专门设计用于评估各种印度语言大语言模型区域知识的基准数据集。在本文中，我们提出了 L3Cube-IndicQuest，这是一个黄金标准的问答基准数据集，旨在评估多语言大语言模型捕获各种印度语言的区域知识的程度。该数据集包含 200 个问答对，每个问答对对应英语和 19 种印度语言，涵盖印度地区特有的五个领域。我们的目标是将该数据集作为基准，为评估大语言模型在理解和表达与印度背景相关的知识方面的表现提供基本事实。 IndicQuest 可用于基于参考的评估和大语言模型法官评估。该数据集在 https://github.com/l3cube-pune/indic-nlp 上公开共享。

CPL：关键规划步骤学习促进 LLM 在推理任务中的泛化

分类： 人工智能, 机器学习

作者： Tianlong Wang, Xueting Han, Jing Bai

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08642v1

摘要： 事实证明，用于开发推理能力的大型语言模型 (LLM) 后训练在不同领域（例如数学推理和代码生成）是有效的。然而，现有方法主要侧重于改进特定任务的推理，但没有充分解决模型在更广泛的推理任务中的泛化能力。为了应对这一挑战，我们引入了关键规划步骤学习（CPL），它利用蒙特卡罗树搜索（MCTS）来探索多步骤推理任务中的不同规划步骤。基于长期结果，CPL 学习步骤级规划偏好，以提高模型的规划能力，从而提高其一般推理能力。此外，虽然在许多情况下对大语言模型的调整都很有效，但现有的偏好学习方法（例如直接偏好优化（DPO））由于无法在每一步捕获细粒度的监督，因此难以应对复杂的多步骤推理任务。我们提出了阶梯级优势偏好优化（Step-APO），它将通过 MCTS 获得的阶梯级偏好对的优势估计集成到 DPO 中。这使得模型能够更有效地学习关键的中间规划步骤，从而进一步提高其在推理任务中的泛化能力。实验结果表明，我们的方法仅在 GSM8K 和 MATH 上进行训练，不仅显着提高了 GSM8K (+10.5%) 和 MATH (+6.5%) 上的性能，而且还增强了域外推理基准，例如 ARC-C (+4.0%)、BBH (+1.8%)、MMLU-STEM (+2.2%) 和 MMLU (+0.9%)。

大语言模型的政策原型：通过互动和协作政策制定实现多元协调

分类： 人机交互

作者： K. J. Kevin Feng, Inyoung Cheong, Quan Ze Chen, Amy X. Zhang

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08622v1

摘要： 人工智能协调方面的新兴努力旨在通过征求集体意见并将其整合到模型微调政策中来扩大对塑造模型行为的参与。尽管是多元化的，但这些过程通常是线性的，并且不允许参与的利益相关者确认其贡献的潜在结果是否确实与其意图一致。设计原型长期以来一直提倡使用构思、实验和评估的紧密反馈循环进行快速迭代，以缓解这些问题。因此，我们建议为大语言模型制定政策原型，这是一个从原型实践中汲取灵感的新流程，使利益相关者能够协作和交互地起草大语言模型政策。通过从工业人工智能实验室的现实世界大语言模型政策制定计划中学习，我们激发了我们的方法，并用四个指导原则来描述政策原型。由于政策原型与以前的方法相比强调了一组截然不同的优先事项，因此我们预计我们的方法将成为多元联盟方法论的宝贵补充。

LA-RAG：通过检索增强生成提高基于 LLM 的 ASR 准确性

分类： 声音, 计算和语言, 音频和语音处理

作者： Shaojun Li, Hengchao Shang, Daimeng Wei, Jiaxin Guo, Zongyao Li, Xianghui He, Min Zhang, Hao Yang

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08597v1

摘要： 将语音信息集成到大型语言模型 (LLM) 方面的最新进展显着提高了自动语音识别 (ASR) 的准确性。然而，现有方法通常受到语音编码器在不同声学条件（例如口音）下的能力的限制。为了解决这个问题，我们提出了 LA-RAG，这是一种基于 LLM 的 ASR 的新型检索增强生成 (RAG) 范例。 LA-RAG 利用细粒度令牌级语音数据存储和语音到语音检索机制，通过 LLM 上下文学习 (ICL) 功能来提高 ASR 准确性。对普通话和各种中国方言数据集的实验表明，与现有方法相比，ASR 准确性有了显着提高，验证了我们方法的有效性，特别是在处理口音变化方面。

破解密码：印度尼西亚真实世界专业考试的多领域大语言模型评估

分类： 计算和语言

作者： Fajri Koto

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08564v1

摘要： 虽然大型语言模型中的知识评估主要集中在数学和物理等学术科目上，但这些评估往往无法捕捉现实世界职业的实际需求。在本文中，我们介绍了 IndoCareer，这是一个包含 8,834 个多项选择题的数据集，旨在评估各个领域的职业和专业认证考试的表现。 IndoCareer 以印度尼西亚为重点，提供丰富的当地背景，涵盖六个关键领域：(1) 医疗保健、(2) 保险和金融、(3) 创意和设计、(4) 旅游和酒店、(5) 教育和培训、 (6) 法律。我们对 27 个大型语言模型的综合评估表明，这些模型尤其在保险和金融等本地背景较强的领域表现不佳。此外，在使用整个数据集时，改组答案选项通常会在模型之间保持一致的评估结果，但它会带来不稳定，特别是在保险和金融领域。

LLM 支持的字素到音素的转换：基准和案例研究

分类： 计算和语言

作者： Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08554v1

摘要： 字素到音素 (G2P) 转换在语音处理中至关重要，特别是对于语音合成等应用。 G2P 系统必须具备对具有多音字和上下文相关音素的语言的语言理解和上下文感知。大型语言模型 (LLM) 最近在各种语言任务中表现出了巨大的潜力，这表明它们的语音知识可以用于 G2P。在本文中，我们评估了 LLM 在 G2P 转换中的表现，并介绍了提示和后处理方法，这些方法可以在无需额外训练或标记数据的情况下增强 LLM 的输出。我们还提供了一个基准数据集，旨在评估 G2P 在波斯语句子级语音挑战方面的表现。我们的结果表明，通过应用所提出的方法，大语言模型可以胜过传统的 G2P 工具，即使是波斯语等代表性不足的语言，这凸显了开发大语言模型辅助的 G2P 系统的潜力。

智能激光雷达导航：以大语言模型为副驾驶，利用外部信息和语义图

分类： 机器人技术

作者： Fujing Xie, Jiajie Zhang, Sören Schwertfeger

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08493v1

摘要： 传统的机器人导航系统主要利用占用网格地图和基于激光的传感技术，正如 ROS 中流行的 move_base 包所证明的那样。与机器人不同，人类不仅通过空间意识和物理距离进行导航，还通过集成外部信息来导航，例如来自公共通知板的电梯维护更新和经验知识，例如通过某些门进行特殊访问的需要。随着大型语言模型（LLM）的发展，它具有接近人类表现的文本理解和智能，现在有机会为机器人导航系统注入类似于人类认知的理解水平。在本研究中，我们建议使用 osmAG（OpensStreetMap 文本格式的区域图），一种创新的语义拓扑分层地图表示形式，来弥合 ROS move_base 的功能与大语言模型提供的上下文理解之间的差距。我们的方法采用大语言模型作为机器人导航的实际副驾驶，从而能够集成更广泛的信息输入，同时保持传统机器人导航系统的稳健性。我们的代码、演示、地图、实验结果可以在 https://github.com/xiexiexiaoxiexie/Intelligent-LiDAR-Navigation-LLM-as-Copilot 访问。

通过大语言模型进行竞争市场行为的实验研究

分类： 人机交互, 人工智能, 普通经济学, 经济学

作者： Jingru Jia, Zehua Yuan

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08357v1

摘要： 本研究探讨了大型语言模型（LLM）进行市场实验的潜力，旨在了解它们理解竞争市场动态的能力。我们在受控实验环境中对市场主体的行为进行建模，评估他们趋向竞争均衡的能力。结果揭示了当前大语言模型在复制人类交易行为的动态决策过程特征时面临的挑战。与人类不同，大语言模型缺乏实现市场均衡的能力。研究表明，虽然大语言模型为可扩展和可重复的市场模拟提供了有价值的工具，但其当前的局限性需要进一步发展，以充分捕捉市场行为的复杂性。未来增强动态学习能力并融入行为经济学要素的工作可以提高大语言模型在经济领域的有效性，提供对市场动态的新见解并有助于完善经济政策。

真实的还是机器人的？评估大语言模型是否准确模拟对话中人类反应的质量

分类： 计算和语言, 计算机与社会, 人机交互

作者： Jonathan Ivey, Shivani Kumar, Jiayu Liu, Hua Shen, Sushrita Rakshit, Rohan Raju, Haotian Zhang, Aparna Ananthasubramaniam, Junghwan Kim, Bowen Yi, Dustin Wright, Abraham Israeli, Anders Giovanni Møller, Lechen Zhang, David Jurgens

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08330v2

摘要： 由于需要招募、培训和收集研究参与者的数据，研究和构建对话任务的数据集既昂贵又耗时。为此，最近的许多工作都试图使用大型语言模型（LLM）来模拟人与人以及人与 LLM 的交互，因为它们已被证明可以在许多环境中生成令人信服的类似人类的文本。然而，基于 LLM 的模拟\textit{实际上}在多大程度上反映了人类对话？在这项工作中，我们通过从 WildChat 数据集中生成 100,000 个配对的 LLM-LLM 和人类与 LLM 对话的大规模数据集，并量化 LLM 模拟与人类对应物的一致性程度来回答这个问题。总体而言，我们发现模拟和人类交互之间的一致性相对较低，这表明多种文本属性（包括样式和内容）存在系统性分歧。此外，在英语、中文和俄语对话的比较中，我们发现模型的表现相似。我们的结果表明，当人们自己以更类似于大语言模型自己的风格的方式写作时，大语言模型通常会表现得更好。

LLM蜜罐：利用大型语言模型作为高级交互式蜜罐系统

分类： 密码学和安全, 人工智能, 计算和语言, 机器学习, 网络和互联网架构, 68T50, 68M10, I.2.7; D.4.6; K.6.5

作者： Hakan T. Otal, M. Abdullah Canbaz

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08234v1

摘要： 网络威胁的快速发展需要创新的解决方案来检测和分析恶意活动。蜜罐是一种旨在引诱攻击者并与其交互的诱饵系统，已成为网络安全的关键组成部分。在本文中，我们提出了一种使用大型语言模型（LLM）创建逼真的交互式蜜罐系统的新颖方法。通过在攻击者生成的命令和响应的不同数据集上微调预先训练的开源语言模型，我们开发了一个能够与攻击者进行复杂交互的蜜罐。我们的方法涉及几个关键步骤：数据收集和处理、快速工程、模型选择以及监督微调以优化模型的性能。通过相似性指标和实时部署进行的评估表明，我们的方法有效地生成了准确且信息丰富的响应。结果凸显了大语言模型彻底改变蜜罐技术的潜力，为网络安全专业人员提供了检测和分析恶意活动的强大工具，从而增强了整体安全基础设施。

LLM-POTUS 分数：使用大型语言模型分析总统辩论的框架

分类： 计算和语言

作者： Zhengliang Liu, Yiwei Li, Oleksandra Zolotarevych, Rongwei Yang, Tianming Liu

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08147v1

摘要： 大型语言模型在自然语言处理方面表现出了卓越的能力，但它们在政治话语分析中的应用仍未得到充分探索。本文介绍了一种使用大语言模型评估总统辩论表现的新颖方法，解决了客观评估辩论结果的长期挑战。我们提出了一个框架，用于分析候选人的“政策、角色和观点”(3P)，以及他们如何与四个关键受众群体的“利益、意识形态和身份”(3I) 产生共鸣：选民、企业、捐助者和政治家。我们的方法采用大型语言模型来生成 LLM-POTUS 分数，这是一种基于 3P 和 3I 之间的一致性的辩论表现的定量衡量标准。我们应用这个框架来分析最近美国总统辩论的记录，证明它有能力对候选人的表现提供细致入微、多维度的评估。我们的结果揭示了不同辩论策略的有效性及其对不同受众群体的影响。这项研究不仅为政治分析提供了一种新工具，而且还探讨了在复杂的社会背景下使用大语言模型作为公正法官的潜力和局限性。此外，该框架为公民个人提供了评估总统辩论表现的独立工具，从而增强民主参与并减少对潜在偏见的媒体解读和机构影响的依赖，从而加强知情公民参与的基础。

从解释到行动：零次、理论驱动的 LLM 学生表现反馈框架

分类： 计算机与社会, 人机交互, 机器学习

作者： Vinitra Swamy, Davide Romano, Bhargav Srinivasa Desikan, Oana-Maria Camburu, Tanja Käser

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08027v1

摘要： 用于教育的可解释人工智能 (XAI) 的最新进展凸显了一个关键挑战：确保教育工作者和学生等非技术用户可以理解最先进的人工智能模型的解释。作为回应，我们引入了 iLLuMinaTE，这是一种零样本、提示链 LLM-XAI 管道，其灵感来自 Miller 的认知解释模型。 iLLuMinaTE 旨在为在线课程中的学生提供理论驱动的、可操作的反馈。 iLLuMinaTE 导航三个主要阶段 - 因果联系、解释选择和解释呈现 - 其变化源自八种社会科学理论（例如异常条件、珀尔的解释模型、必然性和鲁棒性选择、对比解释）。我们使用三种不同的底层 XAI 方法（LIME、Counterfactuals、MC-LIME）对来自三个不同在线课程的学生从三个 LLM（GPT-4o、Gemma2-9B、Llama3-70B）中提取的 21,915 个 iLLuMinaTE 自然语言解释进行了广泛评估。我们的评估包括对社会科学理论的解释一致性分析、解释的可理解性以及对 114 名大学生进行的真实世界用户偏好研究，其中包含新颖的可操作性模拟。我们发现，89.52% 的情况下，学生更喜欢 iLLuMinaTE 的解释，而不是传统的解释者。我们的工作提供了一个强大的、随时可用的框架，可以有效地传达混合 XAI 驱动的教育见解，并具有在其他以人为中心的领域的巨大推广潜力。

异议被驳回！外行人可以区分大型语言模型和律师，但仍然喜欢大语言模型的建议

分类： 人机交互, 计算机与社会

作者： Eike Schneiders, Tina Seabrooke, Joshua Krook, Richard Hyde, Natalie Leesakul, Jeremie Clos, Joel Fischer

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07871v1

摘要： 大型语言模型（LLM）似乎正在渗透到每个领域，法律领域也不例外。在本文中，我们提出了三个实验（总共 N=288）的结果，这些实验调查了外行人采取行动的意愿，以及他们区分大语言模型和律师提供的法律建议的能力。在实验1中，参与者在法律建议来源已知或未知的情况下判断他们是否愿意按照法律建议采取行动。当建议来源未知时，参与者表示他们更愿意按照大语言模型提出的建议采取行动。这一结果在实验 2 中得到了重复。有趣的是，尽管参与者在实验 1 和 2 中表示更愿意按照 LLM 生成的建议采取行动，但参与者对 LLM 和律师生成的文本的区分明显高于实验 3 中的机会水平。我们讨论了我们的发现、局限性和未来工作的潜在解释和风险，以及语言复杂性和现实世界可比性的重要性。

通过基于检索的大语言模型实现经济高效的 UI 自动化测试：微信案例研究

分类： 软件工程

作者： Sidong Feng, Haochuan Lu, Jianqin Jiang, Ting Xiong, Likun Huang, Yinglin Liang, Xiaoqin Li, Yuetang Deng, Aldeida Aleti

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07829v1

摘要： UI 自动化测试在确保移动应用程序的质量方面发挥着至关重要的作用。尽管生成这些测试的机器学习技术越来越受欢迎，但它们仍然面临一些挑战，例如 UI 元素的不匹配。大型语言模型 (LLM) 的最新进展通过利用其语义理解能力解决了这些问题。然而，将这些模型应用于工业级应用程序测试方面仍然存在很大差距，特别是在成本优化和知识限制方面。为了解决这个问题，我们引入 CAT，通过将机器学习和大语言模型与最佳实践相结合，为行业应用程序创建具有成本效益的 UI 自动化测试。根据任务描述，CAT 采用检索增强生成 (RAG) 来获取工业应用程序使用示例作为小样本学习上下文，帮助大语言模型生成特定的操作序列。然后，CAT 采用机器学习技术，并以大语言模型作为补充优化器，将目标元素映射到 UI 屏幕上。我们对微信测试数据集的评估证明了 CAT 的性能和成本效益，以 0.34 美元的成本实现了 90% 的 UI 自动化，优于最先进的技术。我们还将我们的方法集成到现实世界的微信测试平台中，展示了其在检测 141 个错误和增强开发人员测试流程方面的有用性。

与偏好优化保持一致是 LLM 安全所需的一切

分类： 机器学习

作者： Reda Alami, Ali Khalifa Almansoori, Ahmed Alzubaidi, Mohamed El Amine Seddik, Mugariya Farooq, Hakim Hacid

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07772v1

摘要： 我们证明偏好优化方法可以有效提高 LLM 的安全性。使用安全数据集将各种对齐技术应用于 Falcon 11B 模型，我们通过 LlamaGuard 3 8B 测量，全球安全得分显着提升（从 $57.64%$ 到 $99.90%$），与最先进的技术竞争模型。在毒性基准上，对抗环境中的平均得分从 0.6 美元以上下降到 0.07 美元以下。然而，这种安全性的提高是以一般能力下降为代价的，特别是在数学方面，这表明需要权衡。我们将噪声对比对齐（Safe-NCA）确定为平衡安全性和性能的最佳方法。我们的研究最终表明，对齐技术足以构建安全且稳健的模型。

我们可以依靠大语言模型吗？固定效应谬误和 GPT-4 功能的主张

分类： 人工智能, 计算和语言, 机器学习

作者： Thomas Ball, Shuo Chen, Cormac Herley

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07638v1

摘要： 在本文中，我们探讨了大语言模型能力的评估。我们展示了 GPT-4 在几个确定性任务上的性能测量结果；每个任务都涉及基本计算，并采用从大量明确定义的总体中提取的某些元素作为输入参数（例如，对列表中的元素进行计数、将两个 k 位数字相乘等）。我们检查每个任务的多个条件并进行足够的试验，以便可以检测到统计上显着的差异。这使我们能够研究任务准确性对查询短语和输入参数总体的敏感性。我们发现，任务提示或输入群体中看似微不足道的修改可能会产生远远大于抽样效应所能解释的差异。例如，简单的列表计数任务的性能随查询短语和列表长度的不同而变化，而且还随列表的组成（即要计数的事物）和对象频率（例如，当一个元素占总数时成功）而变化。列表的 $\approx$ 50% 与它占 $\approx$ 70% 等时不同）。我们得出的结论是，量化大语言模型能力的努力很容易屈服于语言固定效应谬误，即实验观察结果被不适当地概括为超出了数据支持的范围。结果似乎是，基于与人类互动而形成的直觉对于哪些输入修改应该对大语言模型表现“没有影响”形成了非常不可靠的指导。

基于 LLM 的推荐系统中的多语言提示：跨语言的性能

分类： 信息检索

作者： Makbule Gulcin Ozsoy

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07604v1

摘要： 大型语言模型 (LLM) 越来越多地用于自然语言处理任务。推荐系统传统上使用协同过滤和矩阵分解等方法，以及深度学习和强化学习等先进技术。尽管语言模型已应用于推荐，但最近的趋势集中在利用大语言模型的生成能力来提供更个性化的建议。虽然目前的研究主要集中在英语，因为其资源丰富，但这项工作探讨了非英语提示对推荐性能的影响。使用 OpenP5（一个用于开发和评估基于 LLM 的推荐的平台），我们扩展了其英语提示模板，以包括西班牙语和土耳其语。对三个现实世界数据集（即 ML1M、LastFM 和 Amazon-Beauty）的评估表明，使用非英语提示通常会降低性能，尤其是在土耳其语等资源匮乏的语言中。我们还使用多语言提示重新训练了基于 LLM 的推荐模型，以分析性能变化。使用多语言提示进行再训练可以使跨语言表现更加平衡，但英语表现略有下降。这项工作强调了基于 LLM 的推荐系统对多种语言支持的需求，并建议未来研究使用更新的模型和其他语言创建评估数据集。

探索恶意软件检测的大语言模型：审查、框架设计和对策方法

分类： 密码学和安全

作者： Jamal Al-Karaki, Muhammad Al-Zafar Khan, Marwan Omar

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07587v1

摘要： 由于大型语言模型 (LLM) 能够轻松生成和分发攻击，因此越来越多地使用大型语言模型 (LLM) 创建和传播恶意软件，这给网络安全带来了重大挑战。单个提示可能会引发多种恶意活动。本文通过多方面的方法解决了这个关键问题。首先，我们全面概述了大语言模型及其在不同来源的恶意软件检测中的作用。我们研究了大语言模型的五个具体应用：恶意软件蜜罐、基于文本的威胁识别、用于检测恶意意图的代码分析、恶意软件趋势分析以及非标准伪装恶意软件检测。我们的审查包括对现有文献的详细分析，并为安全使用大语言模型制定了指导原则。我们还引入了分类方案来对相关文献进行分类。其次，我们提出绩效指标来评估大语言模型在这些背景下的有效性。第三，我们提出了一个风险缓解框架，旨在利用大语言模型来预防恶意软件。最后，我们根据各种因素评估了我们提出的风险缓解策略的性能，并证明了它们在对抗支持 LLM 的恶意软件方面的有效性。本文最后提出了在这个令人着迷的人工智能领域中未来的进步和需要更深入探索的领域。

共同思考，更好地工作：结合人类和大语言模型的有声思考结果，实现有效的文本评估

分类： 计算和语言

作者： SeongYeub Chu, JongWoo Kim, MunYong Yi

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07355v1

摘要： 本研究引入了 \textbf{InteractEval}，这是一个框架，它集成了人类专业知识和大型语言模型 (LLM)，使用大声思考 (TA) 方法来生成基于清单的文本评估的属性。通过将人类的灵活性和推理与大语言模型一致性相结合，InteractEval 在四个不同维度（包括连贯性、流畅性、一致性和相关性）上优于传统的非基于大语言模型和基于大语言模型的基线。该实验还研究了 TA 方法的有效性，表明它促进了人类和大语言模型的发散思维，从而生成更广泛的相关属性并提高文本评估性能。比较分析表明，人类擅长识别与内部质量（连贯性和流畅性）相关的属性，但大语言模型在与外部一致性（一致性和相关性）相关的属性方面表现更好。因此，同时利用人类和大语言模型可以产生最佳的评估结果。换句话说，这项研究强调了在基于检查表的自动文本评估框架中有效结合人类和大语言模型的必要性。该代码位于 \textbf{\url{https://github.com/BBeeChu/InteractEval.git}}。

MEDIC：建立评估临床应用大语言模型的综合框架

分类： 计算和语言, 人工智能

作者： Praveen K Kanithi, Clément Christophe, Marco AF Pimentel, Tathagata Raha, Nada Saadi, Hamza Javed, Svetlana Maslenkova, Nasir Hayat, Ronnie Rajan, Shadab Khan

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07314v1

摘要： 用于医疗保健应用的大型语言模型 (LLM) 的快速发展引发了人们对超越 USMLE 等经常引用的基准进行整体评估的呼声，以更好地反映现实世界的表现。虽然现实世界的评估是有价值的效用指标，但它们往往落后于大语言模型的发展速度，可能导致研究结果在部署后就过时了。这种时间上的脱节需要进行全面的前期评估，以指导特定临床应用的模型选择。我们推出 MEDIC，这是一个评估大语言模型临床能力五个关键维度的框架：医学推理、道德和偏见、数据和语言理解、情境学习和临床安全。 MEDIC 采用新颖的交叉检查框架，可量化大语言模型在覆盖范围和幻觉检测等领域的表现，而无需参考输出。我们应用 MEDIC 来评估大语言模型在医学问答、安全性、总结、笔记生成和其他任务方面的能力。我们的结果显示了模型大小、基线与医学微调模型之间的性能差异，并且对需要特定模型强度（例如低幻觉或较低推理成本）的应用程序的模型选择有影响。 MEDIC 的多方面评估揭示了这些性能权衡，弥合了医疗保健环境中理论能力和实际实施之间的差距，确保识别出最有前途的模型并适应不同的医疗保健应用。

STORE：通过单一大语言模型简化语义标记化和生成推荐

分类： 信息检索

作者： Qijiong Liu, Jieming Zhu, Lu Fan, Zhou Zhao, Xiao-Ming Wu

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07276v2

摘要： 传统的推荐模型通常依靠唯一的项目标识符 (ID) 来区分项目，这可能会阻碍其有效利用项目内容信息并泛化到长尾或冷启动项目的能力。最近，语义标记化被提出作为一种有前途的解决方案，旨在将每个项目的语义表示标记为一系列离散标记。通过这种方式，它在这些标记中保留了项目的语义，并确保语义相似的项目由相似的标记表示。这些语义标记已成为训练生成推荐模型的基础。然而，现有的生成推荐方法通常涉及多个用于嵌入、量化和推荐的子模型，导致系统过于复杂。在本文中，我们建议使用一个名为 STORE 的统一框架来简化语义标记化和生成推荐过程，该框架利用单个大型语言模型（LLM）来完成这两项任务。具体来说，我们将语义标记化制定为文本到标记任务，将生成推荐制定为标记到标记任务，并辅以标记到文本重建任务和文本到标记辅助任务。所有这些任务都以生成方式构建，并使用单个大语言模型骨干进行训练。我们进行了大量的实验来验证我们的 STORE 框架在各种推荐任务和数据集上的有效性。我们将发布源代码和配置以进行可重复的研究。

仇恨宣传：多代理大语言模型对阿拉伯模因的多模态分析

分类： 计算和语言, 人工智能, 68T50, F.2.2; I.2.7

作者： Firoj Alam, Md. Rafiul Biswas, Uzair Shah, Wajdi Zaghouani, Georgios Mikros

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07246v1

摘要： 过去十年，社交媒体平台被用于信息传播和消费。虽然发布的大部分内容是为了促进公民新闻和公众意识，但也有一些内容是为了误导用户。在文本、图像和视频等不同内容类型中，迷因（覆盖在图像上的文本）尤其普遍，可以作为宣传、仇恨和幽默的强大工具。在当前的文献中，人们一直在努力单独检测模因中的此类内容。然而，对其交叉点的研究非常有限。在这项研究中，我们使用基于大语言模型的多代理方法探索模因中的宣传和仇恨之间的交叉点。我们用粗粒度和细粒度的仇恨标签扩展了宣传模因数据集。我们的发现表明模因中的宣传和仇恨之间存在关联。我们提供详细的实验结果，可以作为未来研究的基线。我们将向社区公开提供实验资源。

基于 LLM 的可追踪知识图中语句的验证

分类： 人工智能, 机器学习

作者： Daniel Adam, Tomáš Kliegr

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07507v1

摘要： 本文提出了一种使用 LLM 验证 RDF 三元组的方法，重点是提供可追踪的参数。由于大语言模型目前无法可靠地识别用于构建对用户查询的响应的信息的来源，因此我们的方法是完全避免使用内部大语言模型事实知识。相反，经过验证的 RDF 语句会与通过网络搜索或维基百科检索到的外部文档块进行比较。为了评估此工作流程在生物科学内容上的可能应用，我们评估了 BioRED 数据集中的 1,719 个正面陈述以及相同数量的新生成的负面陈述。结果准确率为 88%，召回率为 44%。这表明该方法需要人工监督。我们在 Wikidata 上演示了该方法，其中使用 SPARQL 查询来自动检索需要验证的语句。总体而言，结果表明大语言模型可用于知识图谱中语句的大规模验证，这是一项以前由于人工注释成本而无法实现的任务。

基于 LLM 的文本特征生成，用于可解释的机器学习

分类： 机器学习, 计算和语言

作者： Vojtěch Balek, Lukáš Sýkora, Vilém Sklenák, Tomáš Kliegr

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07132v1

摘要： 现有的文本表示（例如嵌入和词袋）由于其高维度和缺乏或可疑的特征级可解释性而不适合规则学习。本文探讨大型语言模型 (LLM) 是否可以通过从文本中提取少量可解释的特征来解决这个问题。我们在两个数据集（CORD-19 和 M17+）上演示了这一过程，其中包含来自多个学科的数千篇科学文章，目标是研究影响力的代理。基于测试与研究影响的统计显着相关性的评估表明，LLama 2 生成的特征在语义上是有意义的。因此，我们在文本分类中使用这些生成的特征来预测表示 CORD-19 数据集引用率的二元目标变量和表示 M17+ 数据集中专家授予的等级的序数 5 类目标。在 LLM 生成的特征上训练的机器学习模型提供了与最先进的科学文本嵌入模型 SciBERT 类似的预测性能。与 SciBERT 嵌入中的 768 个特征相比，LLM 仅使用了 62 个特征，并且这些特征是可以直接解释的，与文章方法严谨性、新颖性或语法正确性等概念相对应。作为最后一步，我们提取少量易于解释的操作规则。在两个主题不同的数据集上使用相同的大语言模型特征集获得的一致的竞争结果表明，这种方法可以跨领域推广。

了解大语言模型中错误信息造成的知识漂移

分类： 计算和语言, 机器学习

作者： Alina Fastowski, Gjergji Kasneci

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07085v1

摘要： 大型语言模型 (LLM) 彻底改变了众多应用程序，使它们成为我们数字生态系统不可或缺的一部分。然而，它们的可靠性变得至关重要，特别是当这些模型受到错误信息的影响时。我们主要分析最先进的大语言模型在 QnA 场景中遇到虚假信息时对事实不准确的敏感性，这个问题可能导致我们所说的“知识漂移”现象，从而严重损害了大语言模型的可信度。这些模型。我们依靠熵、困惑度和令牌概率指标来评估模型响应的真实性和不确定性。我们的实验表明，当由于接触到虚假信息而错误回答问题时，大语言模型的不确定性可能会增加高达 56.6%。与此同时，重复暴露于相同的错误信息可能会再次降低模型的不确定性（相对于未受污染的提示的答案，-52.8%），可能会操纵底层模型的信念并引入与其原始知识的偏差。这些发现提供了关于大语言模型的稳健性和对抗性输入的脆弱性的见解，为跨各个领域开发更可靠的大语言模型应用程序铺平了道路。该代码可在 https://github.com/afastowski/knowledge_drift 获取。

RLHF 中的策略过滤可微调 LLM 的代码生成

分类： 机器学习, 人工智能

作者： Wei Shen, Chuheng Zhang

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.06957v1

摘要： 根据人类反馈进行强化学习 (RLHF) 是帮助大型语言模型 (LLM) 遵循指令并提供有益且无害的响应的关键技术之一。虽然存在直接策略优化方法，但最先进的大语言模型在 RLHF 中采用基于 RL 的方法（通常是 PPO）来训练策略，以在从偏好数据中学习的奖励模型的指导下生成良好的响应。这些方法的主要挑战是中间奖励模型的不准确性，特别是在需要长时间且复杂的推理来对响应进行评分的代码生成任务中。我们发现奖励模型的可靠性因分配不同奖励的响应而异。这促使我们在策略学习过程中过滤奖励可能不可靠的样本，以提高信噪比，从而产生近端策略优化的策略过滤（PF-PPO）。要为给定的奖励模型选择合适的策略过滤策略，奖励与过滤样本的实际分数之间的决定系数（$R^2$）可以作为一个很好的指标，并帮助我们找到几种有前途的策略。我们提供了大量的实验来验证 PF-PPO 在代码生成任务中的有效性，并发现 PF-PPO 的某些变体非常有效，并在 HumanEval 上的 70 亿参数模型中实现了新的最先进的性能， MBPP，以及一个新的、更具挑战性的 LeetCode 竞赛基准。

AdaPPA：针对 LLM 的自适应位置预填充越狱攻击方法

分类： 密码学和安全, 人工智能, 计算和语言

作者： Lijia Lv, Weigang Zhang, Xuehai Tang, Jie Wen, Feng Liu, Jizhong Han, Songlin Hu

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07503v1

摘要： 大型语言模型（LLM）中的越狱漏洞是指通过精心设计提示或后缀从模型中提取恶意内容的方法，这引起了研究界的高度关注。然而，传统的攻击方法主要集中在语义层面，很容易被模型检测到。这些方法忽略了模型在不同输出阶段的对齐保护能力的差异。为了解决这个问题，我们提出了一种自适应位置预填充越狱攻击方法，用于对 LLM 执行越狱攻击。我们的方法利用模型的指令跟踪功能首先输出预先填充的安全内容，然后利用其叙事转移能力生成有害内容。大量的黑盒实验表明，与现有方法相比，我们的方法可以将广泛认可的安全模型（Llama2）上的攻击成功率提高 47％。我们的代码可以在以下位置找到：https://github.com/Yummy416/AdaPPA。

用于评估研究问题提取任务的基于 LLM 的评估函数的数据集

分类： 计算和语言, 人工智能, 机器学习

作者： Yuya Fujisaki, Shiro Takagi, Hideki Asoh, Wataru Kumagai

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06883v1

摘要： 文本摘要技术的进步是显着的。然而，从研究论文等高度专业化的文档中准确提取和总结必要信息的任务尚未得到充分研究。我们专注于从研究论文中提取研究问题（RQ）的任务，并构建一个由机器学习论文、GPT-4 从这些论文中提取的 RQ 以及从多个角度对提取的 RQ 进行人类评估组成的新数据集。使用该数据集，我们系统地比较了最近提出的基于 LLM 的评估函数进行总结，发现没有一个函数与人类评估表现出足够高的相关性。我们希望我们的数据集为进一步研究开发适合 RQ 提取任务的更好的评估函数奠定基础，并有助于提高任务的性能。该数据集可从 https://github.com/auto-res/PaperRQ-HumanAnno-Dataset 获取。

小模特在大语言模型时代的作用是什么：一项调查

分类： 计算和语言

作者： Lihu Chen, Gaël Varoquaux

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06857v2

摘要： 大型语言模型 (LLM) 在推进通用人工智能 (AGI) 方面取得了重大进展，导致了 GPT-4 和 LLaMA-405B 等越来越大的模型的开发。然而，扩大模型大小会导致计算成本和能源消耗成倍增加，使得这些模型对于资源有限的学术研究人员和企业来说不切实际。与此同时，小模型（SM）在实际环境中经常使用，尽管它们的重要性目前被低估。这就提出了关于小模型在大语言模型时代的作用的重要问题，这个话题在之前的研究中受到的关注有限。在这项工作中，我们从两个关键角度系统地研究了 LLM 和 SM 之间的关系：合作和竞争。我们希望这项调查为从业者提供有价值的见解，促进对小模型贡献的更深入理解，并促进更有效地利用计算资源。代码可在 https://github.com/tigerchen52/role_of_small_models 获取

LLM-增强软件补丁本地化

分类： 密码学和安全

作者： Jinhong Yu, Yi Chen, Di Tang, Xiaozhong Liu, XiaoFeng Wang, Chen Wu, Haixu Tang

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06816v2

摘要： 开源软件 (OSS) 是现代产品开发不可或缺的一部分，其中的任何漏洞都可能危及众多产品。尽管开发人员努力应用安全补丁，但在广泛的 OSS 更新中精确定位这些补丁仍然是一个挑战。安全补丁本地化 (SPL) 推荐方法是解决此问题的主要方法。然而，当提交与其相应的 CVE 缺乏明确的关联时，现有的 SPL 模型常常会出现问题，并且没有考虑漏洞在完全解决之前随着时间的推移提出了多个补丁的情况。为了应对这些挑战，我们引入了 LLM-SPL，这是一种基于推荐的 SPL 方法，它利用大型语言模型 (LLM) 的功能来定位给定 CVE 的安全补丁提交。更具体地说，我们提出了一个联合学习框架，其中大语言模型的输出作为附加功能来帮助我们的推荐模型确定安全补丁的优先级。我们对与 2,461 个补丁相关的 1,915 个 CVE 的数据集进行的评估表明，LLM-SPL 在对补丁提交进行排名方面表现出色，在召回方面超越了最先进的方法，同时显着减少了手动工作量。值得注意的是，对于需要多个补丁的漏洞，LLM-SPL 显着提高了召回率 22.83%，NDCG 提高了 19.41%，并且在检查前 10 名排名时减少了超过 25% 的人工工作量。数据集和源代码可在 \url{https://anonymous.4open.science/r/LLM-SPL-91F8} 获取。

社交媒体环境中大语言模型生成的文本内容的人类感知

分类： 人机交互

作者： Kristina Radivojevic, Matthew Chou, Karla Badillo-Urquiola, Paul Brenner

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06653v1

摘要： 新兴技术，特别是人工智能（AI），更具体地说是大型语言模型（LLM），为恶意行为者提供了操纵数字话语的强大工具。大语言模型有可能影响传统形式的民主参与，例如选民选择、政府调查，甚至与监管机构的在线沟通；因为机器人能够产生大量可信的文本。为了调查人类对 LLM 生成内容的看法，我们招募了 1,000 多名参与者，然后他们试图将机器人与社交媒体讨论线程中的人类帖子区分开来。我们发现，人类在识别社交媒体上用户帖子的真实性质方面表现不佳。我们还发现了人类如何在社交媒体话语中识别大语言模型生成的文本内容的模式。最后，我们在用户感知和识别方面观察了文本对话中的恐怖谷效应。这表明，尽管人类在识别过程中表现不佳，但他们在阅读大语言模型生成的内容时仍然会感到不适。

战略管理分析：大语言模型从数据到战略图

分类： 人机交互, H.5.2

作者： Richard Brath, Adam Bradley, David Jonker

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06643v1

摘要： 战略管理分析是由业务顾问使用通用分析框架（即比较分析）和相关图表创建的。我们展示了这些可以在很大程度上使用大语言模型构建，首先从数据中提取见解，根据策略管理框架组织这些见解，然后在该框架的典型策略管理图中进行描述（静态文本可视化）。我们讨论了注意事项和未来的方向，以推广到更广泛的用途。

MAPS：通过大语言模型渗透科学进行自动驾驶汽车的能源可靠性权衡管理

分类： 硬件架构, 机器人技术

作者： Mahdieh Aliazam, Ali Javadi, Amir Mahdi Hosseini Monazzah, Ahmad Akbari Azirani

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06558v1

摘要： 随着自动驾驶汽车变得越来越普遍，高精度和高效的系统对于提高安全性、性能和能耗变得越来越重要。这些系统中能源可靠性权衡的有效管理需要能够预测车辆运行期间的各种条件。随着大型语言模型（LLM）的有望改进以及 ChatGPT 等知名模型的出现，近年来为自动驾驶汽车相关预测提供了独特的机会。本文提出了 MAPS，使用大语言模型作为地图阅读器副驾驶员来预测自动驾驶车辆运行期间要设置的重要参数，以平衡能源可靠性权衡。与最佳基线方法相比，MAPS 方法的导航精度提高了 20%。 MAPS 还显示计算单元节能 11%，机械和计算单元节能高达 54%。

使用大语言模型和叙事结构化文本嵌入映射新闻叙事

分类： 计算和语言

作者： Jan Elfes

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06540v1

摘要： 鉴于叙事对从个人身份到国际政治等各个社会层面的深远影响，了解它们随时间的分布和发展至关重要。这在在线空间中尤其重要。在网络上，叙事可以迅速传播并加剧社会分歧和冲突。尽管存在许多定性方法，但量化叙述仍然是一个重大挑战。计算叙述分析缺乏全面且可概括的框架。为了解决这一差距，我们引入了一种基于结构主义语言理论的数字叙事表示。格雷马斯的 Actantial 模型主要通过六个功能性角色角色来代表叙事。这些所谓的演员与流派无关，使得该模型具有高度概括性。我们使用开源大语言模型提取行动者，并将它们集成到叙事结构文本嵌入中，以捕获文本的语义和叙事结构。我们以半岛电视台和华盛顿邮报关于以色列-巴勒斯坦冲突的 5000 篇全文新闻文章为例，展示了该方法的分析见解。我们的方法成功地区分了涵盖相同主题但叙事结构不同的文章。

从 LLM 令牌激活中提取段落

分类： 计算和语言

作者： Nicholas Pochinkov, Angelo Benoit, Lovkush Agarwal, Zainab Ali Majid, Lucile Ter-Minassian

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06328v1

摘要： 生成式大语言模型（LLM）在自然语言处理任务中表现出色，但除了标记级预测之外，其内部工作原理仍未得到充分探索。这项研究调查了这些模型在段落开始时决定其内容的程度，揭示了它们对上下文的理解。通过检查单令牌激活中编码的信息，特别是“\textbackslash n\textbackslash n”双换行符，我们证明修补这些激活可以传输有关下一段上下文的重要信息，从而进一步了解模型的能力提前计划。

通过大语言模型在定量投资中自动寻找策略

分类： 投资组合管理, 机器学习, 证券定价

作者： Zhizhuo Kou, Holam Yu, Jingshu Peng, Lei Chen

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06289v1

摘要： 尽管金融交易深度学习取得了重大进展，但现有模型往往面临不稳定性和高度不确定性，阻碍了其实际应用。利用大型语言模型（LLM）和多代理架构的进步，我们提出了一种用于投资组合管理和阿尔法挖掘中的定量股票投资的新颖框架。我们的框架通过整合大语言模型来生成多样化的阿尔法并采用多代理方法来动态评估市场状况来解决这些问题。本文提出了一个框架，大型语言模型（LLM）从多模式金融数据中挖掘阿尔法因子，确保全面了解市场动态。第一个模块通过整合数值数据、研究论文和可视化图表来提取预测信号。第二个模块使用集成学习来构建具有不同风险偏好的多样化交易代理池，通过更广泛的市场分析来提高策略性能。在第三个模块中，动态权重门控机制根据实时市场状况选择权重并将其分配给最相关的代理，从而能够创建自适应且上下文感知的复合阿尔法公式。对中国股票市场的大量实验表明，该框架在多个财务指标上显着优于最先进的基线。结果强调了将 LLM 生成的 alpha 与多代理架构相结合以实现卓越的交易性能和稳定性的功效。这项工作凸显了人工智能驱动的方法在增强量化投资策略方面的潜力，并为将先进的机器学习技术集成到金融交易中（也可以应用于不同的市场）设定了新的基准。

DiPT：通过多元化的视角加强大语言模型推理

分类： 机器学习, 人工智能

作者： Hoang Anh Just, Mahavir Dabas, Lifu Huang, Ming Jin, Ruoxi Jia

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06241v1

摘要： 现有的改进语言模型推理的工作通常探索单一的解决方案路径，这可能容易出错。受社会研究中观点采择的启发，本文介绍了 DiPT，这是一种通过明确纳入多元化观点来补充当前推理方法的新颖方法。这种方法使模型能够更深入地了解问题的背景，并在推理阶段确定最有效的解决方案路径。此外，它还提供了一个以数据为中心的通用人工智能配方，用于增强现有数据，以提高其微调质量。我们的实证结果表明，DiPT 可以灵活地集成到专注于单一推理方法的现有方法中，从而提高其推理性能和解决释义问题时的稳定性。此外，我们通过维护模型的安全输出来防止故意设计用于绕过已部署模型中内置的安全措施的“越狱”提示，从而说明了上下文理解的改进。最后，我们表明，与单独使用原始数据进行微调相比，使用丰富的不同视角的数据进行微调可以提高模型的推理能力。

SHAPE-IT：与大语言模型一起探索文本到形状显示的生成形状改变行为

分类： 人机交互, 计算和语言, H.5.2

作者： Wanli Qian, Chenfeng Gao, Anup Sathya, Ryo Suzuki, Ken Nakagaki

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06205v1

摘要： 本文介绍了文本到形状显示，这是一种通过自然语言命令在基于引脚的形状显示中生成动态形状变化的新方法。通过利用大型语言模型 (LLM) 和人工智能链，我们的方法允许用户通过文本提示按需创作形状改变行为，而无需编程。我们描述了这样一个系统所需的基本方面，包括基于形成性探索和迭代设计过程识别关键生成元素（原始、动画和交互）和增强用户交互的设计要求。基于这些见解，我们开发了 SHAPE-IT，这是一种基于 LLM 的 24 x 24 形状显示创作工具，它将用户的文本命令转换为可执行代码，并允许通过基于 Web 的控制界面进行快速探索。我们通过两种方式评估 SHAPE-IT 的有效性：1）性能评估和 2）用户评估（N = 10）。研究结论强调了人工智能促进快速构思各种形状变化行为的能力。然而，研究结果也暴露了与准确性相关的挑战和局限性，促使人们进一步探索完善利用人工智能的框架，以更好地满足变形系统的独特要求。

NOVI：面向拥有 BERT 和大语言模型的大学新手的聊天机器人系统

分类： 计算和语言, 人工智能

作者： Yoonji Nam, TaeWoong Seo, Gyeongcheol Shin, Sangji Lee, JaeEun Im

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06192v1

摘要： 为了缓解大学新生适应大学生活的困难，我们开发了基于GPT-4o的聊天机器人系统NOVI。该系统利用来自大学社区网站 SKKU 'Everytime' 的帖子和评论数据。 NOVI使用LangChain开发，通过BLEU评分、Perplexity评分、ROUGE-1评分、ROUGE-2评分、ROUGE-L评分和METEOR评分来评估NOVI的性能。这种方法不仅限于帮助大学新生，也有望帮助各种人适应不同数据的新环境。这项研究探讨了新教育技术工具的开发和潜在应用，有助于初学者更轻松地适应社会，并为大语言模型学习的未来发展奠定基础。

$\mathbb{USCD}$：通过不确定性感知选择性对比解码改进大语言模型的代码生成

分类： 软件工程, 人工智能

作者： Shuai Wang, Liang Ding, Li Shen, Yong Luo, Zheng He, Wei Yu, Dacheng Tao

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05923v1

摘要： 大型语言模型（LLM）在代码生成方面表现出了非凡的能力。然而，幻觉（例如输出噪声）的影响使得大语言模型一次性生成高质量代码变得特别具有挑战性。在这项工作中，我们提出了一种简单有效的 \textbf{u}certainty-aware \textbf{s}elective \textbf{c}contrastive \textbf{d}ecoding ($\mathbb{USCD}$) 机制来提高质量大语言模型中的一次性代码生成并减少输出噪声的影响。具体来说，我们首先通过从标准的少样本提示中删除输入输出示例，精心设计了一个负提示（即蹩脚提示）来输出噪声。我们的初步研究表明，代币分布不确定性和输出噪声之间的 Jensen-Shannon 散度（JS 散度）相对较低（约 0.25 美元），表明它们的相关性较高。然后，我们根据标准提示的预测分布的不确定性，有选择地消除由蹩脚提示引起的输出噪声。值得注意的是，我们提出的即插即用机制是一种仅推理的方法，具有吸引人的灵活性。在多个 LLM（即 Inocder-6b、CodeLlama-7b、WizardCoder-15b、StarCoder 和 Llama2-7b）上对广泛使用的基准（例如 HumanEval、MBPP 和 MultiPL-E）进行的广泛实验表明，我们提出的 USCD 显着改进了一次性代码生成，平均 \textit{pass@$1$} 分数增加了 16.59%。我们将在 GitHub 上发布代码和数据。

大语言模型总会产生幻觉，我们需要忍受这一点

分类： 机器学习, 机器学习

作者： Sourav Banerjee, Ayushi Agarwal, Saloni Singla

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05746v1

摘要： 随着大型语言模型在各个领域变得越来越普遍，批判性地检查其固有的局限性变得很重要。这项工作认为，语言模型中的幻觉不仅仅是偶然的错误，而是这些系统不可避免的特征。我们证明幻觉源于大语言模型的基本数学和逻辑结构。因此，不可能通过架构改进、数据集增强或事实检查机制来消除它们。我们的分析借鉴了计算理论和哥德尔第一不完备性定理，该定理引用了诸如停止、空虚和接受问题等问题的不可判定性。我们证明了大语言模型过程的每个阶段——从训练数据编译到事实检索、意图分类和文本生成——产生幻觉的概率不为零。这项工作引入了结构性幻觉的概念作为这些系统的内在本质。通过建立幻觉的数学确定性，我们挑战了幻觉可以完全缓解的普遍观念。

基于LLM的异构数据问答系统和基准

分类： 数据库, 人工智能

作者： Achille Fokoue, Srideepika Jayaraman, Elham Khabiri, Jeffrey O. Kephart, Yingjie Li, Dhruv Shah, Youssef Drissi, Fenno F. Heath III, Anu Bhamidipaty, Fateh A. Tipu, Robert J. Baseman

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05735v1

摘要： 在许多工业环境中，用户希望提出的问题可以在结构化数据源（例如电子表格、数据库、API 或其组合）中找到答案。通常，用户不知道如何识别或访问正确的数据源。如果必须组合多个（并且可能是孤立的）数据源来得出答案，那么这个问题会更加复杂。最近，各种利用大型语言模型 (LLM) 的文本到 SQL 应用程序通过允许用户以自然语言提问来解决其中一些问题。然而，这些应用程序在现实的工业环境中仍然不切实际，因为它们无法应对典型的此类环境的数据源异构性。在本文中，我们通过引入 siwarex 平台来解决异构性问题，该平台支持对数据库和 API 的无缝自然语言访问。为了证明 siwarex 的有效性，我们通过用数据检索 API 替换其一些表来扩展流行的 Spider 数据集和基准。我们发现 siwarex 在应对数据源异构性方面做得很好。我们修改后的 Spider 基准测试很快将提供给研究界

CauseJudger：通过大语言模型进行溯因逻辑推理来识别原因

分类： 人工智能

作者： Jinwei He, Feng Lu

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05559v1

摘要： 大型语言模型（LLM）已被用于解决各种推理任务，包括常识、算术和演绎任务。然而，由于逆向思维模式的困难和不相关的前提，如何确定溯因逻辑推理中原因的真实性仍有待探索。受假设和验证方法以及人类思维过程中不相关信息识别的启发，我们提出了一种新的大语言模型溯因逻辑推理框架CauseJudger（CJ），通过将思维从逆向思维转变为正向思维并去除不相关信息来识别可能原因的真实性。此外，我们还为决策任务构建了一个名为 CauseLogics 的溯因逻辑推理数据集，其中包含 200,000 个不同推理长度的任务。我们的实验通过整体实验和消融实验以及对我们的数据集和重建的公共数据集的案例研究展示了 CJ 的效率。值得注意的是，CJ 的实现非常高效，只需要两次调用 LLM。其影响是深远的：当使用 gpt-3.5 时，CJ 与 Zero-Shot-CoT 相比，最大正确性提高了 41%。此外，利用 gpt-4，CJ 在所有数据集上获得了超过 90% 的准确率。

OneGen：大语言模型的高效一次性统一生成和检索

分类： 计算和语言, 人工智能, 数据库, 信息检索, 机器学习

作者： Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05152v1

摘要： 尽管大型语言模型（LLM）最近取得了进步，显着增强了各种 NLP 任务的生成能力，但 LLM 在直接处理检索任务方面仍然面临限制。然而，许多实际应用需要检索和生成的无缝集成。本文介绍了一种新颖且高效的一次性生成和检索框架（OneGen），旨在提高大语言模型在需要生成和检索的任务上的性能。所提出的框架通过合并自回归生成的检索标记，弥合了传统上独立的生成和检索训练方法。这使得单个大语言模型能够在统一的前向传递中同时处理这两项任务。我们对两种不同类型的复合任务（RAG 和实体链接）进行了实验，以验证 OneGen 在训练和推理方面的可插入性、有效性和效率。此外，我们的结果表明，在同一上下文中集成生成和检索可以保留大语言模型的生成能力，同时提高检索性能。据我们所知，OneGen 是第一个使大语言模型能够在生成过程中进行向量检索的公司。

基于 LLM 的 GUI 测试迁移的抽象和具体化

分类： 软件工程, 计算和语言

作者： Yakun Zhang, Chen Liu, Xiaofei Xie, Yun Lin, Jin Song Dong, Dan Hao, Lu Zhang

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05028v1

摘要： GUI 测试迁移旨在生成带有事件和断言的测试用例，以测试目标应用程序的特定功能。现有的迁移方法通常侧重于将小部件从源应用程序映射到目标应用程序的小部件映射范例。然而，由于不同的应用程序可能以不同的方式实现相同的功能，直接映射可能会导致测试用例不完整或有错误，从而严重影响测试目标功能的有效性和实际适用性。在本文中，我们提出了一种新的迁移范式（即抽象-具体化范式），它首先抽象目标功能的测试逻辑，然后利用该逻辑生成具体的 GUI 测试用例。此外，我们还介绍了 MACdroid，这是第一个基于此范例迁移 GUI 测试用例的方法。具体来说，我们提出了一种抽象技术，该技术利用来自针对相同功能的源应用程序的源测试用例来提取该功能的通用测试逻辑。然后，我们提出了一种具体化技术，利用通用测试逻辑来指导大语言模型为目标应用程序生成相应的 GUI 测试用例（包括事件和断言）。我们在两个广泛使用的数据集（包括 31 个应用程序、34 个功能和 123 个测试用例）上评估 MACdroid。在 FrUITeR 数据集上，MACdroid 生成的测试用例成功测试了 64% 的目标功能，将基线提高了 191%。在 Lin 数据集上，MACdroid 成功测试了 75% 的目标功能，比基线高出 42%。这些结果强调了 MACdroid 在 GUI 测试迁移中的有效性。

InstInfer：存储内注意力卸载，实现经济高效的长上下文 LLM 推理

分类： 硬件架构, 计算和语言

作者： Xiurui Pan, Endian Li, Qiao Li, Shengwen Liang, Yizhou Shan, Ke Zhou, Yingwei Luo, Xiaolin Wang, Jie Zhang

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.04992v1

摘要： 大型语言模型（LLM）的广泛应用标志着生成人工智能的一个重要里程碑。然而，离线LLM推理中不断增加的上下文长度和批量大小增加了键值（KV）缓存的内存需求，这给GPU VRAM带来了巨大的负担，特别是对于资源受限的场景（例如边缘计算和个人计算）设备）。多种经济高效的解决方案利用主机内存或 SSD 来降低离线推理场景的存储成本并提高吞吐量。然而，由于 PCIe 带宽有限，它们会因密集的 KV 缓存访问而遭受严重的性能损失。为了解决这些问题，我们提出了 InstInfer，一种新颖的 LLM 推理系统，它将对性能最关键的计算（即解码阶段的注意力）和数据（即 KV 缓存）部分卸载到计算存储驱动器（CSD），从而最大限度地减少巨大的 KV 传输开销。 InstInfer 设计了一个具有 KV 缓存管理机制的专用闪存感知存储内注意力引擎，以利用 CSD 的高内部带宽，而不是受到 PCIe 带宽的限制。 GPU和CSD之间优化的P2P传输进一步减少了数据迁移开销。实验结果表明，对于使用 NVIDIA A6000 GPU 的 13B 模型，与现有基于 SSD 的解决方案（例如 FlexGen）相比，InstInfer 将长序列推理的吞吐量提高了高达 11.1$\times$。

如何协调大型语言模型进行英语教学？设计和开发基于大语言模型的聊天机器人，用于英语会话教学，调查结果和局限性

分类： 人机交互

作者： Jaekwon Park, Jiyoung Bae, Unggi Lee, Taekyung Ahn, Sookbun Lee, Dohee Kim, Aram Choi, Yeil Jeong, Jewoong Moon, Hyeoncheol Kim

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.04987v1

摘要： 本研究调查了基于大型语言模型 (LLM) 的聊天机器人的设计、开发和评估，用于在英语作为外语 (EFL) 环境中教授英语会话。我们利用设计和开发研究（DDR），分析需求，建立设计原则，并通过试验各种大语言模型和对齐方法迭代地完善聊天机器人。通过定量和定性评估，我们确定了最有效的大语言模型及其及时组合，以产生高质量、适合具体情况的回应。对教师的采访让我们深入了解了理想的系统功能、潜在的教育应用以及聊天机器人开发和部署中的道德考虑。设计迭代凸显了反馈机制和可定制人工智能角色的重要性。未来的研究应该探索自适应反馈策略、与不同利益相关者的协作方法，以及人机交互（HCI）和用户体验（UX）设计见解的整合。这项研究为越来越多的关于将大语言模型应用于语言教育的研究做出了贡献，为用于 EFL 对话练习的基于大语言模型的聊天机器人的设计、开发和评估提供了见解和建议。随着该领域的发展，教育工作者、人工智能工程师和其他利益相关者之间持续的研究和合作对于利用这些技术的潜力来增强语言学习体验至关重要。

只是 ASR + LLM 吗？语音大语言模型识别和理解口语对话中说话人的能力研究

分类： 计算和语言, 音频和语音处理

作者： Junkai Wu, Xulin Fan, Bo-Ru Lu, Xilin Jiang, Nima Mesgarani, Mark Hasegawa-Johnson, Mari Ostendorf

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04927v1

摘要： 近年来，我们观察到语音语言模型（SpeechLLM）的快速进步，已经赶上了人类的听力和推理能力。值得注意的是，SpeechLLM 在高考（中国高考的英语听力测试）等基准测试中表现出了令人印象深刻的口语对话问答（SQA）表现，这似乎需要理解对话中说话者的口语内容和语音特征。然而，仔细研究高考的问题后，我们发现许多问题的正确答案可以仅从对话上下文中推断出来，而无需识别问题中提出的说话人。我们对高考中最先进的模型 Qwen-Audio 和 WavLLM 的评估以及我们提出的“你喜欢什么？”数据集显示，这些基于上下文的问题的准确性明显高于身份关键问题，而身份关键问题只能通过正确的说话人识别来正确回答。我们的结果和分析表明，在解决 SQA 时，当前的 SpeechLLM 从音频中表现出有限的说话者意识，并且其行为类似于 LLM 从无声音的对话转录中进行推理。我们建议，我们对基于上下文和身份关键问题的定义和自动分类可以为 SQA 任务中的 SpeechLLM 提供更准确的评估框架。

将大语言模型与有影响力的推荐系统相结合

分类： 信息检索

作者： Mingze Wang, Shuxian Bi, Wenjie Wang, Chongming Gao, Yangyang Li, Fuli Feng

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04827v1

摘要： 多年来，推荐系统的准确性不断提高。然而，这种精确性往往会导致用户的兴趣范围缩小，从而导致多样性有限和产生回声室等问题。当前的研究通过主动推荐系统解决这些挑战，通过推荐一系列项目（称为影响路径）来引导用户对目标项目的兴趣。然而，现有的方法很难构建一条由用户可能喜欢的项目组成的连贯的影响路径。在本文中，我们利用大型语言模型 (LLM) 的卓越路径规划和指令跟踪能力，引入了一种名为基于 LLM 的影响路径规划 (LLM-IPP) 的新颖方法。我们的方法保持连续推荐之间的一致性，并增强用户对推荐项目的可接受性。为了评估 LLM-IPP，我们实施了各种用户模拟器和指标来衡量用户可接受性和路径一致性。实验结果表明，LLM-IPP 显着优于传统的主动推荐系统。这项研究开创了将大语言模型集成到主动推荐系统中的先河，为未来的推荐技术提供了可靠且吸引用户的方法。

HULLMI：具有可解释性的人类与 LLM 识别

分类： 人工智能

作者： Prathamesh Dinesh Joshi, Sahil Pocker, Raj Abhijit Dandekar, Rajat Dandekar, Sreedath Panat

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04808v1

摘要： 随着大语言模型越来越擅长产生类似人类的反应，致力于将给定文本标记为“人类”或“人工智能”的学术和工业追求不断增加。这些追求大多涉及现代 NLP 检测器，如 T5-Sentinel 和 RoBERTa-Sentinel，而没有过多关注这些模型的可解释性和可解释性问题。在我们的研究中，我们提供了全面的分析，表明传统的 ML 模型（朴素贝叶斯、MLP、随机森林、XGBoost）在人类文本检测和人工智能文本检测方面的表现与现代 NLP 检测器一样好。我们通过对不同的数据集（包括精选的语料库和真实世界的样本）实施强大的测试程序来实现这一目标。随后，通过采用可解释的人工智能技术 LIME，我们发现了对每个模型的预测贡献最大的部分输入，从而提供了对检测过程的见解。我们的研究有助于满足开发生产级 LLM 检测工具日益增长的需求，这些工具可以利用我们提出的各种传统和现代 NLP 检测器。最后，我们展示的 LIME 技术还有可能为这些检测工具配备可解释性分析功能，使它们在教育、医疗保健和媒体等各个领域更加可靠和值得信赖。

利用 LLM、图形和对象层次结构进行大规模环境中的任务规划

分类： 机器人技术, 人工智能

作者： Rodrigo Pérez-Dattari, Zhaoting Li, Robert Babuška, Jens Kober, Cosimo Della Santina

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04775v1

摘要： 在解决大规模环境中的任务级问题时，规划方法面临着计算困难的问题。这项工作探索利用大语言模型中编码的常识知识来增强规划技术来处理这些复杂的场景。我们通过有效地使用 LLM 从规划问题的状态空间中删除不相关的组件来实现这一点，从而大大简化其复杂性。我们通过家庭模拟环境中的大量实验以及使用 7-DoF 操纵器进行的实际验证来展示该系统的功效（视频 https://youtu.be/6ro2UOtOQS4）。

大型语言模型 (LLM) 作为文献综述工具的出现：LLM 自动系统综述

分类： 数字图书馆, 人工智能

作者： Dmitry Scherbakov, Nina Hubig, Vinita Jansari, Alexander Bakumenko, Leslie A. Lenert

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04600v1

摘要： 目的：本研究旨在总结大型语言模型（LLM）在创建科学评论过程中的使用。我们着眼于可自动化评审的各个阶段，并评估该领域当前最先进的研究项目。材料和方法：人类审稿人于 2024 年 6 月在 PubMed、Scopus、Dimensions 和 Google Scholar 数据库中进行了检索。在使用 OpenAI gpt-4o 模型的 LLM 插件的帮助下，筛选和提取过程在 Covidence 中进行。 ChatGPT 用于清理提取的数据并生成本手稿中的图形代码，ChatGPT 和 Scite.ai 用于起草手稿的所有组成部分（方法和讨论部分除外）。结果：检索到3,788篇文章，172项研究被认为符合最终审查资格。 ChatGPT 和基于 GPT 的大语言模型成为审查自动化的最主要架构（n=126，73.2%）。我们发现了大量的自动化审稿项目，但只有有限数量的论文（n=26，15.1%）是在其创作过程中使用 LLM 的实际审稿。大多数引用集中于特定审查阶段的自动化，例如搜索出版物（n=60，34.9%）和数据提取（n=54，31.4%）。在比较基于 GPT 和基于 BERT 的模型的汇总性能时，前者在数据提取方面表现更好，平均精度为 83.0%（SD=10.4），召回率为 86.0%（SD=9.8），而在标题和精度方面稍差一些。摘要筛选阶段（Maccuracy=77.3%，SD=13.0）。讨论/结论：我们的大语言模型辅助系统审查揭示了大量与使用大语言模型的审查自动化相关的研究项目。结果看起来很有希望，我们预计大语言模型将在不久的将来改变科学审查的进行方式。

Paper Copilot：一个自我进化、高效的大语言模型系统，提供个性化的学术援助

分类： 计算和语言

作者： Guanyu Lin, Tao Feng, Pengrui Han, Ge Liu, Jiaxuan You

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04593v1

摘要： 随着科学研究的激增，研究人员面临着浏览和阅读大量文献的艰巨任务。现有的解决方案（例如文档质量保证）无法有效地提供个性化和最新的信息。我们推出 Paper Copilot，这是一个自我进化、高效的大语言模型系统，旨在帮助研究人员基于思想检索、用户配置文件和高性能优化。具体来说，Paper Copilot 可以提供个性化的研究服务，维护实时更新的数据库。量化评估表明，Paper Copilot 高效部署后可节省 69.92% 的时间。本文详细介绍了 Paper Copilot 的设计和实现，强调了它对个性化学术支持的贡献及其简化研究流程的潜力。

迈向由大语言模型支持的社交机器人，支持对污名化健康状况的敏感披露

分类： 人机交互

作者： Alemitu Bezabih, Shadi Nourriz, C. Estelle Smith

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04508v1

摘要： 披露敏感的健康状况在个人和社会层面都有显着的好处。然而，由于担心耻辱，患者经常面临挑战。使用社交机器人和聊天机器人来支持敏感信息披露正在获得越来越多的关注，特别是随着大语言模型模型的出现。然而，在这种情况下，必须仔细解决许多技术、道德、隐私、安全、功效和报告问题。在这篇立场文件中，我们重点关注艾滋病毒状况披露的例子，研究与大语言模型支持的社交机器人相关的关键机遇、技术考虑因素和风险。

RLPF：利用 LLM 进行用户总结的预测反馈强化学习

分类： 计算和语言, 人工智能, 机器学习

作者： Jiaxing Wu, Lin Ning, Luyang Liu, Harrison Lee, Neo Wu, Chao Wang, Sushant Prakash, Shawn O'Banion, Bradley Green, Jun Xie

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04421v1

摘要： 由 LLM 支持的个性化代理系统采用大型语言模型 (LLM) 来根据用户过去的活动来预测用户的行为。然而，由于其固有的噪声和数据的长度，它们的有效性通常取决于有效利用广泛、长期的用户历史数据的能力。现有的预训练大语言模型可能会生成简洁的摘要，但缺乏下游任务的必要上下文，从而阻碍了它们在个性化系统中的实用性。为了应对这些挑战，我们引入了预测反馈强化学习（RLPF）。 RLPF 对 LLM 进行微调，以生成简洁的、人类可读的用户摘要，并针对下游任务性能进行了优化。通过最大限度地提高生成摘要的有用性，RLPF 可以有效地提取大量用户历史数据，同时保留下游任务的基本信息。我们的实证评估表明，外在下游任务效用和内在摘要质量均显着提高，在下游任务性能方面超越基线方法高达 22%，并在事实性、抽象性和可读性方面实现高达 84.59% 的胜率。 RLPF 还实现了上下文长度显着减少 74%，同时提高了 19 个未见过的任务和/或数据集中的 16 个的性能，展示了其通用性。这种方法通过有效地将冗长、嘈杂的用户历史转换为信息丰富且人类可读的表示形式，为增强 LLM 个性化提供了一种有前景的解决方案。

AGR：大语言模型中减轻偏见的年龄组公平奖励

分类： 机器学习, 人工智能, 计算和语言

作者： Shuirong Cao, Ruoxi Cheng, Zhiqiang Wang

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04340v1

摘要： 大语言模型可能会表现出年龄偏见，导致不同年龄段的个人受到不平等待遇。尽管许多研究已经解决了种族和性别偏见，但年龄偏见仍然很少被探讨。年龄偏差的指令调整和偏好数据集的缺乏阻碍了其检测和测量，并且现有的微调方法很少解决与年龄相关的公平性。在本文中，我们构建了 RLHF 的年龄偏差偏好数据集和指令调整数据集。我们引入了 ARG，一种年龄公平奖励，以减少不同年龄组的大语言模型的回答质量差异。大量实验表明，这种奖励可以显着提高反应准确性并减少不同年龄段的表现差异。我们的源代码和数据集可在匿名 \href{https://anonymous.4open.science/r/FairRLHF-D445/readme.md}{link} 中获取。

学习与检索：上下文示例在大语言模型回归中的作用

分类： 计算和语言, 人工智能, I.2.7

作者： Aliakbar Nafar, Kristen Brent Venable, Parisa Kordjamshidi

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04318v1

摘要： 生成式大语言模型（LLM）能够成为上下文学习者。然而，上下文学习（ICL）的潜在机制仍然是一个主要的研究问题，并且关于模型如何利用 ICL 的实验研究结果并不总是一致的。在这项工作中，我们提出了一个评估上下文学习机制的框架，我们声称该框架是通过关注回归任务来检索内部知识和从上下文示例中学习的结合。首先，我们证明大语言模型可以对现实世界的数据集进行回归，然后设计实验来衡量大语言模型检索其内部知识与从上下文示例中学习的程度。我们认为这个过程介于这两个极端之间。我们根据各种因素（例如有关任务的先验知识以及上下文示例提供的信息的类型和丰富性）对触发这些机制的程度进行深入分析。我们聘请了三位大语言模型并利用多个数据集来证实我们研究结果的稳健性。我们的结果揭示了如何设计提示，利用上下文示例中的元学习，并根据要解决的问题促进知识检索。

结合大语言模型和知识图来减少问答中的幻觉

分类： 计算和语言

作者： Larissa Pusch, Tim O. F. Conrad

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04181v1

摘要： 自然语言处理的进步彻底改变了我们与数据库等数字信息系统交互的方式，使它们更易于访问。然而，挑战仍然存在，特别是当准确性至关重要时，例如在生物医学领域。一个关键问题是幻觉问题，其中模型生成不受基础数据支持的信息，可能导致危险的错误信息。本文以生物医学 KG 为例，提出了一种旨在弥补这一差距的新颖方法，通过结合大型语言模型 (LLM) 和知识图 (KG) 来提高问答系统的准确性和可靠性。我们的方法基于 LangChain 框架构建，包含一个查询检查器，可确保 LLM 生成的查询的语法和语义有效性，然后用于从知识图谱中提取信息，从而大大减少幻觉等错误。我们使用包含 50 个生物医学问题的新基准数据集评估了整体性能，测试了多个 LLM，包括 GPT-4 Turbo 和 llama3:70b。我们的结果表明，虽然 GPT-4 Turbo 在生成准确查询方面优于其他模型，但像 llama3:70b 这样的开源模型在适当的提示工程方面表现出了希望。为了使这种方法易于使用，我们开发了一个用户友好的基于 Web 的界面，允许用户输入自然语言查询、查看生成和更正的 Cypher 查询，并验证结果路径的准确性。总体而言，这种混合方法有效地解决了数据差距和幻觉等常见问题，为问答系统提供了可靠且直观的解决方案。用于生成本文结果和用户界面的源代码可以在我们的 Git 存储库中找到：https://git.zib.de/lpusch/cyphergenkg-gui

从计算到裁决：检验LLM法官的数学推理任务

分类： 计算和语言, 人工智能

作者： Andreas Stephan, Dawei Zhu, Matthias Aßenmacher, Xiaoyu Shen, Benjamin Roth

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04168v1

摘要： 为了减少对人工注释的需求，人们提出了大型语言模型（LLM）作为其他候选模型质量的评判者。通常通过衡量摘要或机器翻译等生成任务与人类判断的相关性来评估大语言模型法官。相比之下，我们研究的是大语言模型法官的数学推理任务。这些任务需要多步推理，并且其解决方案的正确性是可验证的，从而能够更加客观地进行评估。我们进行了详细的性能分析，发现所使用的法官大多无法提高任务性能，但能够选择更好的模型。我们的分析揭示了判断表现与候选模型任务表现之间存在很强的相关性。我们观察到，即使答案不正确，法官也倾向于选择更高质量的模型。此外，我们表明可以使用统计数据（例如各个模型的任务表现）来预测判断表现。在消融中，我们交换或掩盖候选人的答案，并观察到法官经常保留原始判决，这提供了法官将写作风格纳入其判决的证据。总之，我们发现判断中的规律性可以使用统计措施来量化，并提供利用它们的各种角度。

大语言模型可以产生新颖的研究想法吗？ 100 多名 NLP 研究人员参与的大规模人体研究

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互, 机器学习

作者： Chenglei Si, Diyi Yang, Tatsunori Hashimoto

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04109v1

摘要： 大型语言模型 (LLM) 的最新进展激发了人们对其加速科学发现潜力的乐观态度，越来越多的作品提出了自动生成和验证新想法的研究代理。尽管如此，没有任何评估表明大语言模型系统可以迈出产生新颖的专家级想法的第一步，更不用说执行整个研究过程了。我们通过建立一个实验设计来解决这个问题，该设计可以评估研究想法的生成，同时控制混杂因素，并在 NLP 专家研究人员和大语言模型创意代理之间进行首次面对面比较。通过招募超过 100 名 NLP 研究人员来撰写新颖的想法，并对 LLM 和人类的想法进行盲审，我们获得了关于当前 LLM 研究构思能力的第一个具有统计意义的结论：我们发现 LLM 生成的想法被认为更新颖（p < 0.05））比人类专家的想法强，但可行性稍弱。通过仔细研究我们的代理基线，我们发现了构建和评估研究代理时存在的开放性问题，包括大语言模型自我评估的失败及其生成缺乏多样性。最后，我们承认人类对新颖性的判断可能很困难，即使是专家也是如此，并提出了一种端到端的研究设计，招募研究人员将这些想法落实到完整的项目中，使我们能够研究这些新颖性和可行性判断是否会导致研究结果的有意义的差异。

初步了解针对 KV 泄漏的高效、安全的设备上 LLM 推理

分类： 密码学和安全, 人工智能

作者： Huan Yang, Deyu Zhang, Yudong Zhao, Yuanchun Li, Yunxin Liu

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04040v1

摘要： 由于其在隐私保护方面的优势，在终端设备上运行大语言模型最近引起了极大的关注。随着轻量级 LLM 模型和专门设计的 GPU 的出现，设备上的 LLM 推理已经达到了必要的准确性和性能指标。然而，我们发现 GPU 上的 LLM 推理可能会泄露隐私敏感的中间信息，特别是 KV 对。攻击者可以利用这些 KV 对来重建整个用户对话，从而导致重大漏洞。现有的解决方案，例如完全同态加密 (FHE) 和可信执行环境 (TEE)，要么计算过于密集，要么资源有限。为了解决这些问题，我们设计了 KV-Shield，它分两个阶段运行。在初始化阶段，它对权重矩阵进行排列，使得所有KV对都相应地排列。在运行时阶段，注意力向量被逆排列以确保层输出的正确性。所有与排列相关的操作都在 TEE 内执行，确保不安全的 GPU 无法访问原始 KV 对，从而阻止会话重建。最后，我们从理论上分析了KV-Shield的正确性、优点和开销。

论即时构建在提高基于 LLM 的表格数据生成的功效和效率方面的作用

分类： 计算和语言

作者： Banooqa Banday, Kowshik Thopalli, Tanzima Z. Islam, Jayaraman J. Thiagarajan

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.03946v1

摘要： 用于现实世界表格数据的基于 LLM 的数据生成可能会因用于描述列的特征名称中缺乏足够的语义上下文而受到挑战。我们假设通过特定领域的见解丰富提示可以提高数据生成的质量和效率。为了检验这个假设，我们探索了三种即时构建协议：专家指导、大语言模型指导和小说映射。通过最近提出的 GReaT 框架的实证研究，我们发现上下文丰富的提示可以显着提高数据生成质量和训练效率。

利用大语言模型进行跨城市 OD 流量预测

分类： 人工智能

作者： Chenyang Yu, Xinpeng Xie, Yan Huang, Chenxi Qiu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03937v1

摘要： 了解和预测出发地-目的地 (OD) 流量对于城市规划和交通管理至关重要。传统的 OD 预测模型虽然在单个城市内有效，但由于交通条件、城市布局和社会经济因素的不同，在不同城市应用时往往面临局限性。在本文中，通过采用大型语言模型（LLM），我们引入了一种跨城市 OD 流量预测的新方法。我们的方法利用大语言模型先进的语义理解和情境学习能力来弥合具有不同特征的城市之间的差距，为准确的 OD 流量预测提供强大且适应性强的解决方案，并且可以从一个城市转移到另一个城市。我们的新颖框架涉及四个主要组成部分：从源城市收集 OD 训练数据集、对 LLM 进行指令调整、预测目标城市中的目的地 POI，以及识别与预测目的地 POI 最匹配的位置。我们引入了一种新的损失函数，在训练过程中集成了 POI 语义和行程距离。通过从人员流动和 POI 数据中提取高质量的语义特征，该模型可以理解城市空间内的空间和功能关系，并捕获个人与各种 POI 之间的交互。大量的实验结果证明了我们的方法在跨城市 OD 流量预测方面优于最先进的基于学习的方法。

RETAIN：用于回归测试的交互式工具引导 LLM 迁移

分类： 信息检索

作者： Tanay Dixit, Daniel Lee, Sally Fang, Sai Sree Harsha, Anirudh Sureshan, Akash Maharaj, Yunyao Li

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03928v1

摘要： 大型语言模型 (LLM) 越来越多地集成到各种应用程序中。大语言模型的快速发展为开发人员提供了不断增强应用程序的机会。然而，这种不断的适应也可能导致模型迁移期间的性能回归。虽然已经提出了几种交互式工具来简化即时工程的复杂性，但很少有人能满足大语言模型迁移回归测试的具体要求。为了弥补这一差距，我们引入了 RETAIN（回归测试引导的 LLM 迁移），这是一个专门为 LLM 迁移中的回归测试而设计的工具。 RETAIN 包含两个关键组件：一个针对 LLM 迁移期间回归测试需求量身定制的交互式界面，以及一个有助于理解模型行为差异的错误发现模块。错误发现模块生成模型输出之间的各种错误或差异的文本描述，为及时改进提供可操作的见解。我们的自动评估和实证用户研究表明，与手动评估相比，RETAIN 使参与者能够识别两倍的错误，通过多出 75% 的提示促进实验，并在给定时间范围内获得高出 12% 的指标分数。

Sirius：上下文稀疏性与高效大语言模型的校正

分类： 计算和语言

作者： Yang Zhou, Zhuoming Chen, Zhaozhuo Xu, Victoria Lin, Beidi Chen

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03856v1

摘要： 随着大型语言模型（LLM）的蓬勃发展，推理效率变得越来越重要。提出了各种近似方法来降低推理时间的成本。上下文稀疏性 (CS) 因其免训练的性质以及看似不降低质量而达到更高压缩比的能力而颇具吸引力。然而，在对各种复杂生成任务上的上下文稀疏方法进行综合评估后，我们发现虽然 CS 在提示理解任务中取得了成功，但 CS 显着降低了推理、演绎和基于知识的任务的模型性能。尽管端到端准确性存在差距，但我们观察到稀疏模型通常共享通用的问题解决逻辑，并且只需要进行一些标记校正即可恢复原始模型性能。本文介绍了 Sirius，一种高效的校正机制，它可以显着恢复推理任务上的 CS 模型质量，同时保持效率增益。 Sirius 在 6 个模型上进行了评估，涉及 8 项推理、数学和编码方面的困难生成任务，并显示出一致的有效性和效率。此外，我们精心开发了 Sirius 的系统实现，并表明 Sirius 使片上 8B 模型的延迟减少了大约 20%，而 70B 模型卸载的延迟减少了 35%。我们在 https://github.com/Infini-AI-Lab/Sirius.git 上开源了 Sirius 的实现。

您的代码大语言模型表现如何？利用高质量数据进行代码指令调优

分类： 软件工程, 人工智能, 计算和语言, 机器学习

作者： Yejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03810v1

摘要： 最近，人们对研究如何构建更好的代码指令调整数据越来越感兴趣。然而，我们观察到使用这些数据集训练的代码模型在 HumanEval 上表现出高性能，但在 LiveCodeBench 等其他基准测试上表现较差。经过进一步调查，我们发现许多数据集存在严重的数据泄露问题。在清理大部分泄露数据后，一些知名的高质量数据集表现不佳。这一发现揭示了一个新的挑战：确定哪个数据集真正符合高质量代码指令数据的条件。为了解决这个问题，我们提出了一种有效的代码数据修剪策略来选择好的样本。我们的方法基于三个维度：教学复杂性、响应质量和教学多样性。根据我们选择的数据，我们推出了 XCoder，这是一个从 LLaMA3 中微调的模型系列。我们的实验表明，XCoder 使用更少的训练数据实现了新的最先进的性能，这验证了我们数据策略的有效性。此外，我们对数据构成进行了全面分析，发现现有的代码数据集根据其构建方法具有不同的特征，这为未来的代码LLM提供了新的见解。我们的模型和数据集发布在 https://github.com/banksy23/XCoder

用自然语言进行规划改进了大语言模型搜索代码生成

分类： 机器学习, 人工智能, 计算和语言

作者： Evan Wang, Federico Cassano, Catherine Wu, Yunfeng Bai, Will Song, Vaskar Nath, Ziwen Han, Sean Hendryx, Summer Yue, Hugh Zhang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03733v1

摘要： 虽然扩展训练计算已经导致大型语言模型 (LLM) 的显着改进，但扩展推理计算尚未产生类似的收益。我们假设核心缺失部分是缺乏多样化的 LLM 输出，由于模型重复采样高度相似但不正确的代，导致搜索效率低下。我们凭经验证明，可以通过搜索用自然语言解决问题的候选计划来缓解这种多样性的缺乏。基于这一见解，我们提出了 PLANSEARCH，这是一种新颖的搜索算法，它在 HumanEval+、MBPP+ 和 LiveCodeBench（竞争性编码的无污染基准）上显示出强大的结果。 PLANSEARCH 生成关于问题的一系列不同的观察结果，然后使用这些观察结果来构建解决问题的计划。通过用自然语言搜索计划而不是直接搜索代码解决方案，与基线搜索方法相比，PLANSEARCH 探索了更加多样化的潜在解决方案。在 Claude 3.5 Sonnet 之上使用 PLANSEARCH 在 LiveCodeBench 上实现了 77.0% 的最先进的 pass@200，优于没有搜索时获得的最佳分数 (pass@1 = 41.4%) 和使用标准重复采样 (pass@ 200 = 60.6%）。最后，我们表明，在所有分析的模型、搜索算法和基准测试中，我们可以准确预测搜索带来的性能增益，作为生成想法的多样性的直接函数。

非合作环境下基于LLM的多智能体诗歌生成

分类： 计算和语言

作者： Ran Zhang, Steffen Eger

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03659v1

摘要： 尽管自动诗歌生成的大型语言模型（LLM）取得了实质性进展，但生成的诗歌缺乏多样性，而且训练过程与人类学习有很大不同。基于诗歌生成系统的学习过程应该更加人性化、输出更加多样化和新颖的理念，我们引入了一个基于社会学习的框架，除了合作互动之外，我们还强调非合作互动，以鼓励多样性。我们的实验是在非合作环境中使用基于训练的代理（GPT-2）和基于提示的代理（GPT-3 和 GPT-4）的基于 LLM 的多代理系统的诗歌生成的首次尝试。我们基于 96k 生成的诗歌进行的评估表明，我们的框架有利于基于训练的智能体的诗歌生成过程，从而导致 1）多样性增加 3.0-3.7 个百分点 (pp)，根据不同的和新颖的 n 元语法。基于训练的智能体生成的诗歌在词汇、风格和语义方面也表现出群体差异。我们框架中的基于提示的智能体也受益于非合作环境，并且具有非同质智能体的更多样化的模型集合有可能进一步增强多样性，根据我们的实验，增加了 7.0-17.5 pp。然而，随着时间的推移，基于提示的代理表现出词汇多样性的减少，并且没有表现出社交网络中预期的基于群体的分歧。我们的论文主张创造性任务的范式转变，例如自动诗歌生成，以包括类似于人类互动的社会学习过程（通过基于大语言模型的代理建模）。

先参加，后巩固：论不同LLM层次中注意力的重要性

分类： 计算和语言

作者： Amit Ben Artzy, Roy Schwartz

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03621v1

摘要： 在基于解码器的 LLM 中，给定层的表示有两个目的：在当前令牌计算期间作为下一层的输入；并作为未来代币注意力机制的输入。在这项工作中，我们表明后一个角色的重要性可能被高估了。为了证明这一点，我们首先操纵先前标记的表示；例如通过用随机向量替换某个层 k 的隐藏状态。我们对四个大语言模型和四个任务的实验表明，此操作通常会导致性能下降很小甚至可以忽略不计。重要的是，如果操作发生在 model-k 的顶部，也就是最后 30-50% 的层中，就会发生这种情况。相反，在较早的层中进行相同的操作可能会导致机会级别的性能。我们继续将某些标记的隐藏状态与另一个提示中其他标记的隐藏状态进行切换；例如，在“意大利的首都是什么？”中将“意大利”一词替换为“法国”。我们发现，当在模型的顶部 1/3 应用此开关时，模型会忽略它（回答“罗马”）。但是，如果我们之前应用它，则该模型符合交换机（“巴黎”）。我们的结果暗示了基于 Transformer 的 LLM 的两个阶段过程：第一部分收集以前令牌的输入，而第二部分主要在内部处理该信息。

您只需要 100 个实例：通过在几个实例上进行测试来预测新的 LLM 在未见数据上的成功

分类： 计算和语言, 人工智能, 机器学习

作者： Lorenzo Pacchiardi, Lucy G. Cheke, José Hernández-Orallo

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03563v1

摘要： 预测大语言模型在单个任务实例上的性能对于确保其在高风险应用程序中的可靠性至关重要。为此，一种可能性是在一组任务实例上评估所考虑的大语言模型，并训练评估者根据实例的特征预测其表现。然而，这种方法需要在足够大的任务实例集上评估每个新的大语言模型，以培训专门针对它的评估员。在这项工作中，我们利用之前测试的大语言模型的评估结果来减少预测新大语言模型表现所需的评估数量。在实践中，我们建议在一小组参考实例上测试新的 LLM，并训练一个通用评估器，该评估器根据前者在参考集上的性能和感兴趣实例的特征来预测 LLM 在实例上的性能。我们对 HELM-Lite 和 KindsOfReasoning 进行实证研究，这是我们引入的现有推理数据集的集合，我们在其中评估所有经过指令微调的 OpenAI 模型，直到 2024 年 1 月版本的 GPT4。当预测与用于训练通用评估器的分布相同的实例的性能时，我们发现这实现了与在全套实例上训练的 LLM 特定评估器相当的性能。此外，我们发现随机选择参考实例的效果与我们测试的一些高级选择方法一样好。然而，对于分布外的情况，没有出现明显的赢家，并且整体表现较差，这表明大语言模型的固有可预测性较低。

从 MOOC 到 MAIC：通过 LLM 驱动的代理重塑在线教学

分类： 计算机与社会, 计算和语言

作者： Jifan Yu, Zheyuan Zhang, Daniel Zhang-li, Shangqing Tu, Zhanxin Hao, Rui Miao Li, Haoxuan Li, Yuanchun Wang, Hanming Li, Linlu Gong, Jie Cao, Jiayin Lin, Jinchang Zhou, Fei Qin, Haohua Wang, Jianxiao Jiang, Lijun Deng, Yisi Zhan, Chaojun Xiao, Xusheng Dai, Xuan Yan, Nianyi Lin, Nan Zhang, Ruixin Ni, Yang Dang, Lei Hou, Yu Zhang, Xu Han, Manli Li, Juanzi Li, Zhiyuan Liu, Huiqin Liu, Maosong Sun

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03512v1

摘要： 自从在线教育首次出现以来，课程被上传到可访问和共享的在线平台，这种扩大人类知识传播范围以覆盖更广泛受众的形式引发了广泛的讨论和广泛采用。认识到个性化学习仍然具有巨大的改进潜力，新的人工智能技术不断融入这种学习形式，催生了教育推荐、智能辅导等各种教育人工智能应用。大语言模型 (LLM) 中智能的出现使得这些教育增强功能能够建立在统一的基础模型之上，从而实现更深入的集成。在此背景下，我们提出了MAIC（大规模人工智能赋能课程），这是一种新形式的在线教育，利用大语言模型驱动的多智能体系统构建人工智能增强课堂，平衡可扩展性与适应性。除了探索概念框架和技术创新之外，我们还在中国顶尖大学之一的清华大学进行了初步实验。我们从 500 多名学生的 100,000 多个学习记录中获得了一系列有价值的观察和初步分析。该项目将不断发展，最终目标是建立一个支持和统一研究、技术和应用的综合开放平台，探索大模型人工智能时代在线教育的可能性。我们将该平台设想为一个协作中心，将教育工作者、研究人员和创新者聚集在一起，共同探索人工智能驱动的在线教育的未来。

基于 LLM 的事件抽象和 IoT 源日志集成

分类： 数据库, 新兴技术, 机器学习, 68M14, I.2.1; H.4.0

作者： Mohsen Shirali, Mohammadreza Fani Sani, Zahra Ahmadi, Estefania Serral

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03478v1

摘要： 物联网 (IoT) 设备收集的持续数据流彻底改变了我们通过各种应用了解世界并与之交互的能力。然而，在开始分析之前，必须准备好这些数据并将其转换为事件数据。在本文中，我们阐明了在事件抽象和集成中利用大型语言模型 (LLM) 的潜力。我们的方法旨在根据原始传感器读数创建事件记录，并将来自多个物联网源的日志合并到适合进一步流程挖掘应用程序的单个事件日志中。我们考虑了老年护理和纵向健康监测中物联网应用的案例研究，展示了大语言模型在事件抽象方面的能力。结果显示，检测高级活动的平均准确度为 90%。这些结果凸显了大语言模型在解决事件抽象和集成挑战方面的巨大潜力，有效缩小了现有差距。

Rx 策略师：使用 LLM 代理系统验证处方

分类： 计算和语言

作者： Phuc Phan Van, Dat Nguyen Minh, An Dinh Ngoc, Huy Phan Thanh

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03440v1

摘要： 为了保护患者安全，现代制药的复杂性需要严格的处方验证。我们提供了一种新方法 - Rx Strategist - 利用知识图和不同的搜索策略来增强代理框架内大型语言模型 (LLM) 的功能。这种多方面的技术允许多阶段大语言模型管道和从定制的活性成分数据库中检索可靠的信息。管道的每个阶段都涵盖了处方验证的不同方面，例如适应症、剂量和可能的药物相互作用。我们通过将推理分散到这些阶段来减轻整体 LLM 技术的缺点，提高正确性和可靠性，同时减少内存需求。我们的研究结果表明，Rx Strategist 超越了许多目前的大语言模型，其表现可与经验丰富的临床药剂师相媲美。在复杂的现代药物世界中，大语言模型与有组织的知识和复杂的搜索方法的结合为减少处方错误和提高患者治疗效果提供了一条可行的途径。

大语言模型的硬件加速：全面调查和比较

分类： 硬件架构, 人工智能

作者： Nikoletta Koilia, Christoforos Kachris

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03384v1

摘要： 大型语言模型 (LLM) 已成为自然语言处理任务的强大工具，以其理解和生成类人文本的能力彻底改变了该领域。在本文中，我们对使用硬件加速器加速大型语言模型的变压器网络的多项研究工作进行了全面的调查。该调查介绍了已提出的框架，然后对技术、处理平台（FPGA、ASIC、内存中、GPU）、加速比、能源效率、性能（GOP）和每个框架的能源效率（GOPs/W）。比较的主要挑战是每个提出的方案都是在不同的工艺技术上实现的，因此很难进行公平的比较。本文的主要贡献在于，我们推断了相同技术的性能和能源效率的结果，以进行公平的比较；一个是理论的，一个是实践的。我们在多个 FPGA 芯片上实现了部分 LLM，将结果外推到相同的工艺技术，然后对性能进行公平的比较。

Con-ReCall：通过对比解码检测大语言模型中的预训练数据

分类： 计算和语言

作者： Cheng Wang, Yiwei Wang, Bryan Hooi, Yujun Cai, Nanyun Peng, Kai-Wei Chang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03363v1

摘要： 大型语言模型中的训练数据是其成功的关键，但它也带来了隐私和安全风险，因为它可能包含敏感信息。检测预训练数据对于缓解这些问题至关重要。现有方法通常单独或仅使用非成员上下文来分析目标文本，从而忽略了同时考虑成员和非成员上下文的潜在见解。虽然之前的研究表明，由于成员环境引起的微小分布变化，会员环境提供的信息很少，但我们的分析表明，与非成员环境相比，这些微妙的变化可以得到有效利用。在本文中，我们提出了 Con-ReCall，这是一种新颖的方法，通过对比解码来利用成员和非成员上下文引起的不对称分布变化，放大细微差异以增强成员推理。广泛的实证评估表明，Con-ReCall 在 WikiMIA 基准上实现了最先进的性能，并且对各种文本操作技术具有鲁棒性。

Sketch：简化 LLM 操作的工具包

分类： 计算和语言, 人工智能

作者： Xin Jiang, Xiang Li, Wenjia Ma, Xuezhi Fang, Yiqun Yao, Naitong Yu, Xuying Meng, Peng Han, Jing Li, Aixin Sun, Yequan Wang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03346v1

摘要： 以GPT家族为代表的大型语言模型（LLM）取得了令人瞩目的成功。大语言模型的特点在于它们能够通过生成方法来适应广泛的任务。然而，其输出格式的灵活性给控制和利用模型输出带来了挑战，从而限制了大语言模型在各个领域的应用。在这项工作中，我们推出了 Sketch，这是一个创新工具包，旨在简化跨不同领域的大语言模型操作。 Sketch 包含以下组件：（1）一套包含各种 NLP 任务的任务描述模式和提示模板； (2) 一个用户友好的交互式流程，用于构建针对各种 NLP 任务量身定制的结构化输出 LLM 服务； (3) 用于输出格式控制的开源数据集，以及数据集构建工具； (4) 基于 LLaMA3-8B-Instruct 的开源模型，能够熟练理解并遵守输出格式化指令。我们预计这一举措将为LLM用户带来相当大的便利，实现各种应用程序“即插即用”的目标。 Sketch 的组件将在 https://github.com/cofe-ai/Sketch 上逐步开源。

LLM 检测器仍然达不到现实世界：LLM 生成的类似新闻的短帖子案例

分类： 计算和语言, 人工智能, 密码学和安全, 机器学习, I.2.7; K.6.5

作者： Henrique Da Silva Gameiro, Andrei Kucharavy, Ljiljana Dolamic

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03291v1

摘要： 随着广泛可用的强大的大语言模型的出现，大型语言模型（LLM）产生的虚假信息已成为一个主要问题。从历史上看，LLM 检测器一直被誉为一种解决方案，但它们在现实世界中的有效性仍有待证明。在本文中，我们重点关注信息操作中的一个重要设置——由中等复杂的攻击者生成的类似新闻的短帖子。我们证明现有的 LLM 检测器，无论是零样本还是专门训练的，都还没有准备好在该环境中实际使用。所有经过测试的零样本探测器的性能与之前的基准测试不一致，并且非常容易受到采样温度升高的影响，这是最近的基准测试中没有的微不足道的攻击。可以开发出一种针对 LLM 和看不见的攻击进行泛化的专门训练的检测器，但它无法泛化到新的人类编写的文本。我们认为，前者表明需要针对特定领域的基准测试，而后者则表明在对抗性规避弹性和对参考人类文本的过度拟合之间进行权衡，两者都需要在基准测试中进行评估，但目前尚不存在。我们认为，这建议重新考虑当前的 LLM 检测器基准测试方法，并提供一个动态可扩展的基准测试来允许它 (https://github.com/Reliable-Information-Lab-HEVS/dynamic_llm_ detector_benchmark)。

战略思维链：通过策略启发指导大语言模型的准确推理

分类： 人工智能, 计算和语言, 人机交互

作者： Yu Wang, Shiwan Zhao, Zhihu Wang, Heyuan Huang, Ming Fan, Yubo Zhang, Zhixing Wang, Haijun Wang, Ting Liu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03271v1

摘要： 思想链 (CoT) 范式已成为增强大型语言模型 (LLM) 推理能力的关键方法。然而，尽管 CoT 方法被广泛采用并取得了成功，但由于它们无法始终如一地确保生成的推理路径的质量，从而导致推理性能不佳，因此经常表现出不稳定。为了应对这一挑战，我们提出了\textbf{战略思想链}（SCoT），这是一种新颖的方法，旨在通过在生成中间推理步骤之前整合战略知识来提高大语言模型的绩效。 SCoT 在单个提示中采用两阶段方法：首先引出有效的问题解决策略，然后用于指导生成高质量的 CoT 路径和最终答案。我们在八个具有挑战性的推理数据集上进行的实验证明了显着的改进，包括使用 Llama3-8b 模型在 GSM8K 数据集上提高了 21.05%，在 TrackingObjects 数据集上分别提高了 24.13%。此外，我们扩展了 SCoT 框架，开发了一种具有自动匹配演示的小样本方法，产生了更强大的结果。这些发现强调了 SCoT 的功效，强调了其在复杂推理任务中大幅提高大语言模型表现的潜力。

通过纵向研究了解 LLM 发展：来自 Open Ko-LLM 排行榜的见解

分类： 计算和语言, 人工智能

作者： Chanjun Park, Hyeonwoo Kim

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03257v1

摘要： 本文进行了超过 11 个月的纵向研究，以解决 Open Ko-LLM 排行榜先前研究的局限性，这些研究依赖于只有五个月的有限观察期的实证研究。通过延长分析持续时间，我们的目标是更全面地了解韩国大语言模型（LLM）的开发进展。我们的研究以三个主要研究问题为指导：（1）随着时间的推移，在开放 Ko-LLM 排行榜上提高跨不同任务的 LLM 表现的具体挑战是什么？ (2) 模型大小如何影响各种基准的任务性能相关性？ (3) Open Ko-LLM 排行榜上的排行榜排名模式如何随时间变化？通过分析这一时期的 1,769 个模型，我们的研究对大语言模型的持续进步和评估框架的演变性质进行了全面检查。

个性化内容分类器的最终用户创作：比较示例标签、规则编写和 LLM 提示

分类： 人机交互

作者： Leijie Wang, Kathryn Yurechko, Pranati Dani, Quan Ze Chen, Amy X. Zhang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03247v1

摘要： 现有的供外行创建个人分类器的工具通常假设有积极性的用户在单个冗长的会话中不间断地工作。然而，用户倾向于随意地使用社交媒体，每天都会进行许多简短的会话。为了使此类用户更轻松地创建用于内容管理的个人分类器，工具应支持快速初始化和迭代细化。在这项工作中，我们比较了最终用户构建个人内容分类器的三种策略：(1) 示例标记、(2) 规则编写和 (3) 大语言模型 (LLM) 提示。通过对 37 名非程序员负责创建个性化评论审核过滤器的实验，我们发现，在 LLM 提示下，参与者在 5 分钟内达到了 95% 的峰值表现，由于更高的召回率而击败了其他策略，但所有策略都难以迭代细化。尽管 LLM 提示的表现更好，但参与者在不同的情况下更喜欢不同的策略，即使在提示时，也会提供示例或编写类似规则的提示，建议混合方法。

通过非典型演示重新校准增强医疗保健大语言模型信任

分类： 计算和语言

作者： Jeremy Qin, Bang Liu, Quoc Dinh Nguyen

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03225v1

摘要： 黑盒大型语言模型 (LLM) 越来越多地部署在各种环境中，因此这些模型必须有效地传达其信心和不确定性，尤其是在高风险环境中。然而，这些模型往往表现出过度自信，导致潜在风险和误判。现有的用于引发和校准 LLM 置信度的技术主要集中在一般推理数据集上，仅产生了适度的改进。准确的校准对于做出明智的决策和防止不良结果至关重要，但由于这些模型执行的任务的复杂性和可变性，准确的校准仍然具有挑战性。在这项工作中，我们调查了医疗保健环境中黑盒大语言模型的错误校准行为。我们提出了一种新颖的方法，\textit{非典型演示重新校准}，它利用非典型演示来调整模型的置信估计。我们的方法显着改进了校准，在三个医学问答数据集上将校准误差减少了约 60%，并且优于现有方法，例如普通语言置信度、CoT 语言置信度等。此外，我们还对重新校准框架中的非典型性的作用进行了深入分析。

大语言模型的内容审核：从准确性到合法性

分类： 计算机与社会, 人工智能, 新兴技术, 人机交互, 机器学习

作者： Tao Huang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03219v1

摘要： LLM（大语言模型）的一种趋势应用是将其用于在线平台中的内容审核。目前关于该应用程序的大多数研究都集中在准确性指标上，即大语言模型对内容做出正确决策的程度。本文认为准确性是不够的并且具有误导性，因为它没有掌握简单情况和困难情况之间的区别，以及在实现更高准确性时不可避免的权衡。仔细考察就会发现，内容审核是平台治理的一个组成部分，其关键是获得和增强合法性。大语言模型的主要目标不是使审核决策正确，而是使其合法化。在这方面，本文提出了从单一准确性基准到基于合法性的评估 LLM 主持人绩效框架的范式转变。该框架建议，对于简单的案例，关键是确保准确性、速度和透明度，而对于困难的案例，重要的是合理的理由和用户参与。在此框架下进行检验，LLM 的真正潜力并不是准确性的提高。相反，LLM可以在其他四个方面做出更好的贡献：从简单案例中筛选困难案例，为审核决策提供高质量的解释，帮助人类审稿人获得更多上下文信息，并以更具互动性的方式促进用户参与。本文利用法律和社会科学的规范理论来批判性地评估新技术的应用，试图重新定义大语言模型在内容审核中的作用，并重新引导该领域的相关研究。

MoA 就是您所需要的：使用混合代理建立大语言模型研究团队

分类： 计算金融

作者： Sandy Chen, Leqi Zeng, Abhinav Raghunathan, Flora Huang, Terrence C. Kim

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.07487v1

摘要： 由于文献中提出的方法数量庞大，金融领域的大型语言模型 (LLM) 研究尤其复杂。检索增强生成 (RAG) 由于其固有的基础性和数据源可变性，已成为该领域的领先方法之一。在这项工作中，我们介绍了一种名为 Mixture of Agents (MoA) 的 RAG 框架，并展示了其作为一种实用、可定制且高效的扩展 RAG 应用程序方法的可行性。 MoA 本质上是一个由单独定制的小语言模型组成的分层网络（Hoffmann et al., 2022），协作回答问题并提取信息。虽然这种架构有很多理论命题，甚至有一些库可以在实践中普遍应用该结构，但考虑到成本和速度等实际业务限制，评估该框架潜力的文献研究却很有限。我们发现，由小语言模型组成的 MoA 框架（Hoffmann 等人，2022）可以在 Vanguard 业务核心的各个金融领域产生更高质量和更扎实的响应，同时保持低成本。

NESTFUL：评估 API 调用嵌套序列的 LLM 的基准

分类： 人工智能, 计算和语言

作者： Kinjal Basu, Ibrahim Abdelaziz, Kelsey Bradford, Maxwell Crouse, Kiran Kate, Sadhana Kumaravel, Saurabh Goyal, Asim Munawar, Yara Rizk, Xin Wang, Luis Lastras, Pavan Kapanipathi

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03797v1

摘要： 由大型语言模型 (LLM) 提供支持的自主代理应用程序最近作为解决复杂的现实世界任务的有效工具而受到关注。代理工作流程的核心是依赖大语言模型来计划和执行工具和外部应用程序编程接口 (API) 的使用顺序，以获得用户请求的答案。已经出现了各种基准和排行榜来评估大语言模型使用工具和 API 的能力；然而，大多数这些评估仅跟踪单个或多个独立的 API 调用能力。在本文中，我们提出了 NESTFUL，这是一种评估嵌套 API 调用序列（即一个 API 调用的输出作为输入传递给后续调用的序列）的 LLM 的基准。 NESTFUL 共有 300 个人工注释样本，分为可执行和不可执行两种类型。可执行样本是通过爬取 Rapid-API 手动管理的，而非可执行样本是由人工注释者从使用 LLM 综合生成的数据中手工挑选的。我们在 NESTFUL 上评估具有函数调用能力的最先进的大语言模型。我们的结果表明，与现有基准测试中可用的更简单问题设置的性能相比，大多数模型在 NESTFUL 中的嵌套 API 上表现不佳。

使用 LLM 生成多语言单元测试

分类： 软件工程

作者： Rangeet Pan, Myeongsoo Kim, Rahul Krishna, Raju Pavuluri, Saurabh Sinha

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03093v1

摘要： 实施自动化单元测试是软件开发中一项重要但耗时的活动。开发人员花费大量时间编写测试来验证应用程序并防止回归。为了支持开发人员完成这项任务，过去几十年的软件工程研究开发了许多自动生成单元测试的技术。然而，尽管做出了这些努力，但适用于极少数编程语言的可用工具——主要是 Java、C 和 C#，以及最近的 Python。此外，研究发现自动生成的测试可读性较差，并且通常与开发人员编写的测试不同。在这项工作中，我们对大型语言模型 (LLM) 如何帮助缩小差距进行了严格的调查。我们描述了一个通用的管道，它结合了静态分析来指导大语言模型生成可编译和高覆盖率的测试用例。我们说明了如何将管道应用于不同的编程语言（特别是 Java 和 Python）以及需要环境模拟的复杂软件。我们进行了一项全面的实证研究，以评估生成的测试在覆盖率、突变得分和测试自然性方面的质量——在标准以及企业 Java 应用程序和大型 Python 基准测试上对其进行评估。我们的结果表明，基于 LLM 的测试生成在静态分析的指导下，可以与最先进的测试生成技术相媲美，甚至超越最先进的测试生成技术，同时还能生成开发人员发现的更自然的测试用例易于阅读和理解。我们还展示了与 161 名专业开发人员进行的用户研究结果，该结果强调了我们的方法生成的测试的自然性特征。

假新闻检测中离线模型和在线大语言模型的比较研究

分类： 社交和信息网络

作者： Ruoyu Xu, Gaoxiang Li

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03067v1

摘要： 在当今快速发展的数字环境中，虚假新闻检测仍然是一个严峻的挑战，错误信息的传播速度比以往任何时候都快。传统的假新闻检测模型通常依赖于静态数据集和辅助信息，例如元数据或社交媒体交互，这限制了它们对实时场景的适应性。大型语言模型 (LLM) 的最新进展表明，由于其广泛的预训练知识以及在不依赖辅助数据的情况下分析文本内容的能力，在应对这些挑战方面具有巨大潜力。然而，许多基于大语言模型的方法仍然植根于静态数据集，对其实时处理能力的探索有限。本文对用于实时假新闻检测的传统离线模型和最先进的大语言模型进行了系统评估。我们展示了现有离线模型的局限性，包括它们无法适应动态错误信息模式。此外，我们还表明，具有在线功能的新型 LLM 模型（例如 GPT-4、Claude 和 Gemini）更适合检测实时环境中新出现的假新闻。我们的研究结果强调了从离线到在线 LLM 模型过渡到实时假新闻检测的重要性。此外，大语言模型的公众可访问性增强了其可扩展性，并使打击错误信息所需的工具民主化。通过利用实时数据，我们的工作标志着朝着更具适应性、更有效和可扩展的假新闻检测系统迈出了重要一步。

大语言模型中的幻觉检测：快速且节省内存的微调模型

分类： 机器学习, 人工智能, 计算和语言

作者： Gabriel Y. Arteaga, Thomas B. Schön, Nicolas Pielawski

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02976v1

摘要： 在自动驾驶汽车、医疗或保险等高风险环境中实施人工智能时，不确定性估计是一个必要的组成部分。近年来，大型语言模型（LLM）越来越受欢迎，但它们容易产生幻觉，在高风险环境中可能会造成严重伤害。尽管大语言模型取得了成功，但其训练和运行成本高昂：它们需要大量计算和内存，阻碍了集成方法在实践中的使用。在这项工作中，我们提出了一种新颖的方法，可以对大语言模型集成进行快速且记忆友好的训练。我们证明，由此产生的集成可以检测幻觉，并且在实践中是一种可行的方法，因为只需要一个 GPU 来进行训练和推理。

LongCite：使大语言模型能够在长上下文 QA 中生成细粒度的引文

分类： 计算和语言

作者： Jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02897v2

摘要： 尽管当前的长上下文大语言模型（LLM）在基于大量文本回答用户问题方面表现出了令人印象深刻的能力，但其答复中缺乏引用使得用户验证变得困难，导致由于其潜在的幻觉而导致对其可信度的担忧。在这项工作中，我们的目标是使长上下文大语言模型能够生成具有细粒度句子级引用的回复，从而提高其可信度和可验证性。我们首先介绍 LongBench-Cite，这是一个自动基准，用于评估当前大语言模型在长上下文引文问答 (LQAC) 方面的表现，揭示了相当大的改进空间。为此，我们提出了 CoF（从粗到细），这是一种新颖的管道，利用现成的 LLM 自动生成具有精确句子级引用的长上下文 QA 实例，并利用该管道构建 LongCite-45k， LQAC 的大规模 SFT 数据集。最后，我们使用 LongCite-45k 数据集训练 LongCite-8B 和 LongCite-9B，成功地在单个输出中生成准确的响应和细粒度的句子级引用。 LongBench-Cite 的评估结果表明，我们训练的模型达到了最先进的引文质量，超越了包括 GPT-4o 在内的先进专有模型。

LongLLaVA：通过混合架构将多模态 LLM 有效扩展至 1000 张图像

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 多媒体

作者： Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02889v1

摘要： 扩展多模态大语言模型（MLLM）的长上下文功能对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及到一系列系统优化，包括模型架构、数据构建和训练策略，特别是解决诸如 \textit{图像增多导致性能下降}和 \textit{高计算成本}等挑战。在本文中，我们将模型架构调整为 Mamba 和 Transformer 块的混合，利用多个图像之间的时间和空间依赖性来进行数据构建，并采用渐进式训练策略。发布的模型 \textbf{LongLLaVA}~(\textbf{Long}-Context \textbf{L}arge \textbf{L}anguage \textbf{a}nd \textbf{V}ision \textbf{A}ssistant) 是第一个混合MLLM，它在效率和效果之间取得了更好的平衡。 LongLLaVA 不仅在各种基准测试中取得了有竞争力的结果，而且还保持了高吞吐量和低内存消耗。特别是，它可以在单个 A100 80GB GPU 上处理近千张图像，在广泛的任务中显示出良好的应用前景。

可配置的基础模型：从模块化的角度构建大语言模型

分类： 人工智能, 计算和语言, 机器学习

作者： Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02877v1

摘要： 大语言模型的进步最近暴露了与计算效率和持续可扩展性相关的挑战，因为它们需要巨大的参数，使得这些模型在计算资源有限的设备和需要各种能力的场景上的应用和演进变得越来越繁琐。受人脑模块化的启发，越来越多的人倾向于将大语言模型分解为众多功能模块，从而允许使用部分模块进行推理并动态组装模块来处理复杂的任务，例如专家混合。为了强调模块化方法的固有效率和可组合性，我们创造了术语“brick”来表示每个功能模块，将模块化结构指定为可配置的基础模型。在本文中，我们对可配置基础模型的构建、利用和限制进行了全面的概述和研究。我们首先将模块形式化为紧急砖块（在预训练阶段出现的功能神经元分区）和定制砖块（通过额外的训练后构建的砖块，以提高大语言模型的能力和知识）。基于不同的功能块，我们进一步提出了四种面向块的操作：检索和路由、合并、更新和增长。这些操作允许根据指令动态配置 LLM 以处理复杂的任务。为了验证我们的观点，我们对广泛使用的大语言模型进行了实证分析。我们发现 FFN 层遵循神经元功能专门化和功能神经元分区的模块化模式。最后，我们强调了未来研究的几个悬而未决的问题和方向。总体而言，本文旨在为现有大语言模型研究提供全新的模块化视角，并激发未来创建更高效、可扩展的基础模型。

语言理解对大语言模型社团共识规模的限制

分类： 物理与社会

作者： Giordano De Marzo, Claudio Castellano, David Garcia

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02822v1

摘要： 大型语言模型 (LLM) 的应用正在走向协作任务，其中多个智能体像在 LLM 社会中一样相互交互。在这种情况下，大批大语言模型可以就任意规范达成共识，而没有任何信息支持一种选择而不是另一种选择，以自组织的方式规范自己的行为。在人类社会中，在没有制度的情况下达成共识的能力限制了人类的认知能力。为了了解类似的现象是否也是大语言模型的特征，我们在人工智能人类学的新方法中应用了复杂性科学的方法和行为科学的原理。我们发现大语言模型能够在群体中达成共识，并且大语言模型的舆论动态可以通过由多数力量系数参数化的函数来理解，该函数决定是否可能达成共识。对于具有较高语言理解能力的模型，这种多数力量会更强，而对于较大的群体，这种多数力量会减弱，从而导致一个临界群体规模，超过这个规模，对于给定的大语言模型，达成共识是不可行的。这个临界群体规模随着模型的语言理解能力呈指数级增长，对于最先进的模型来说，它可以达到超出非正式人类群体典型规模的一个数量级。

池化和注意力：基于 LLM 的嵌入模型的有效设计是什么？

分类： 计算和语言, 信息检索

作者： Yixuan Tang, Yi Yang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02727v2

摘要： 大型语言模型 (LLM) 在生成任务中的显着进步导致越来越多的工作探索基于 LLM 的嵌入模型。虽然这些模型采用不同的池化和注意力策略，在公共嵌入基准上取得了最先进的性能，但仍然存在关于什么构成基于 LLM 的嵌入模型的有效设计的问题。然而，这些模型通常使用不同的 LLM 基础模型或训练设置在不同的数据集上进行训练。此外，对公共嵌入基准的评估通常无法报告统计显着性，因此很难确定哪些设计真正有助于最终性能。这使得从业者为基于 LLM 的嵌入模型寻求最佳训练方案的过程变得复杂。在本研究中，我们进行了大规模实验，使用相同的训练数据和基础模型，但池化和注意力策略不同，训练一系列基于 LLM 的嵌入模型。结果表明，不存在一刀切的解决方案：虽然双向注意力和额外的可训练池化层在文本相似性和信息检索任务中表现优于 EOS-last 令牌池和默认因果等简单设计聚类和分类任务中的注意力。此外，我们提出了一种新的池化策略，即多层可训练池化，它使用交叉注意网络来转换所有隐藏层的输出，而不仅仅是最后一层。事实证明，与现有的池化方法相比，该方法在文本相似性和检索任务方面具有统计上的优越性。总的来说，本文揭示了基于 LLM 的嵌入模型的有效训练策略。

大语言模型辅助视觉分析：机遇与挑战

分类： 人机交互, 人工智能

作者： Maeve Hutchinson, Radu Jianu, Aidan Slingsby, Pranava Madhyastha

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02691v1

摘要： 我们探索将大型语言模型 (LLM) 集成到视觉分析 (VA) 系统中，以通过直观的自然语言交互来转变其功能。我们调查了这个新兴领域的当前研究方向，研究了大语言模型如何集成到数据管理、语言交互、可视化生成和语言生成过程中。我们强调大语言模型为 VA 带来的新可能性，特别是他们如何改变通常用例之外的 VA 流程。我们特别强调构建新的可视化语言模型，允许访问广泛的领域知识、多模式交互和指导机会。最后，我们仔细考虑了在 VA 任务中使用当前大语言模型的突出挑战。我们在本文中的讨论旨在指导未来研究大语言模型辅助 VA 系统的研究人员，并帮助他们在开发这些系统时克服常见的障碍。

解混因果关系感知参数高效微调，提高大语言模型解决问题的能力

分类： 计算和语言, 人工智能, 机器学习

作者： Ruoyu Wang, Xiaoxuan Li, Lina Yao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02686v1

摘要： 大型语言模型（LLM）在处理基于人类指令的各种任务方面表现出了显着的效率，但最近的研究表明，这些模型往往无法在涉及推理的问题（例如数学或物理问题）上取得令人满意的结果。这种现象通常归因于这些模型是否能够真正理解文本中嵌入的知识，或者只是学习复制令牌分布而没有真正理解内容的不确定性。在本文中，我们深入研究了这个问题，旨在增强大语言模型的推理能力。首先，我们通过在注意力和表示级别可视化文本生成过程来调查模型是否具有真正的推理能力。然后，我们将大语言模型的推理过程制定为因果框架，为我们在可视化中观察到的问题提供了正式的解释。最后，基于这个因果框架，我们提出了去混杂因果适应（DCA），这是一种新颖的参数高效微调（PEFT）方法，通过鼓励模型提取一般问题解决技能并应用这些技能来增强模型的推理能力针对不同问题的技巧。实验表明，我们的方法在多个基准测试中始终优于基线，并且仅使用 120 万个可调参数，我们就获得了与其他微调方法更好或相当的结果。这证明了我们的方法在提高大语言模型整体准确性和可靠性方面的有效性和效率。

使用大语言模型假设缺失的因果变量

分类： 机器学习, 方法

作者： Ivaxi Sheth, Sahar Abdelnabi, Mario Fritz

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02604v1

摘要： 科学发现是人类智力进步的催化剂，由假设生成、实验设计、数据评估和迭代假设细化的循环驱动。这一过程虽然至关重要，但成本高昂，并且严重依赖科学家的领域知识来生成假设并引导科学周期。其中的核心是因果关系，即建立原因和结果之间关系的能力。受科学发现过程的推动，在这项工作中，我们制定了一项新颖的任务，其中输入是带有缺失变量的部分因果图，输出是关于缺失变量的假设以完成部分图。我们设计了一个具有不同难度级别和关于因果图的知识假设的基准。随着人们对使用大型语言模型 (LLM) 协助科学发现的兴趣日益浓厚，我们在测试平台上对开源和封闭模型进行了基准测试。我们展示了大语言模型假设原因与其结果之间的中介变量的强大能力。相反，他们在假设因果变量本身方面表现不佳。我们还观察到令人惊讶的结果，其中一些开源模型优于封闭的 GPT-4 模型。

经济生产力的扩展法则：大语言模型辅助翻译的实验证据

分类： 普通经济学, 人工智能, 经济学

作者： Ali Merali

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02391v1

摘要： 本文推导了“规模法则”——用于大型语言模型 (LLM) 的训练计算量与其性能之间的经验关系——以实现经济成果。在一项预先注册的实验中，300 名专业翻译人员完成了 1800 项任务，并获得了 13 个具有不同模型训练计算规模（或对照）的大语言模型之一的访问权限。我们的结果表明，模型扩展大大提高了生产力：模型计算量每增加 10 倍，翻译人员完成任务的速度就会加快 12.3%，获得 0.18 s.d. 的效率。成绩更高，每分钟收入增加 16.1%（包括奖金）。此外，对于低技能工人来说，模型扩展带来的收益要高得多，他们的任务完成速度提高了 4 倍。这些结果意味着前沿模型的进一步扩展（目前估计每年增长 4 倍）可能会产生重大的经济影响。

LongGenbench：长上下文大语言模型中长格式生成的基准测试

分类： 计算和语言

作者： Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02076v3

摘要： 长上下文语言模型 (LM) 的能力通常使用“大海捞针”(NIAH) 测试来评估，该测试包括旨在评估模型在大范围内识别特定信息（“针”）的能力的任务。文本序列（“haystack”）。虽然这些基准衡量模型对长上下文输入序列的理解程度，但它们并不能有效地衡量长文本生成的质量——这是设计方案和创意写作等应用程序的一个关键方面。为了解决这一差距，我们引入了一个新的长文本评估基准 LongGenbench，它测试模型识别生成的长文本序列中特定事件的能力。在此基准测试中，我们提示长上下文语言模型创建必须包含特定事件或约束的长文本，并评估它们合并这些元素的能力。我们评估了四种不同场景、三种类型的提示指令和两种不同的生成长度设置（16K 和 32K）的 10 个长上下文 LM。尽管这些模型在 NIAH 基准测试上表现良好，但没有一个模型在 LongGenbench 上表现出令人满意的性能，这引发了人们对其生成遵循指令的连贯长格式文本的能力的担忧。此外，随着生成文本长度的增加，所有模型的性能都会显着下降。

这是查理！在大语言模型时代实现代理的语义网络愿景

分类： 人工智能

作者： Jesse Wright

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.04465v1

摘要： 本文介绍了我们对近期的研究，其中个人和组织等法律实体可以委托半自治的人工智能驱动的代理代表他们进行在线交互。作者的研究涉及半自主 Web 代理的开发，当且仅当系统没有足够的上下文或信心来继续自主工作时，该代理才会咨询用户。这将创建一个用户与代理对话，允许用户向代理传授他们信任的信息源、他们的数据共享偏好以及他们的决策偏好。最终，这使用户能够最大限度地控制其数据和决策，同时保留使用代理（包括由大语言模型驱动的代理）的便利性。鉴于开发近期解决方案，该研究试图回答以下问题：“我们如何建立一个值得信赖且可靠的半自治代理网络，代表网络上的个人和组织？”。在确定关键需求后，本文提供了通用个人助理示例用例的演示。这是使用（Notation3）规则来实施围绕信念、数据共享和数据使用的安全保证，以及大语言模型以允许与用户的自然语言交互以及软件代理之间的偶然对话。

MMLU-Pro+：评估大语言模型的高阶推理和快捷学习

分类： 计算和语言, 机器学习

作者： Saeid Asgari Taghanaki, Aliasgahr Khani, Amir Khasahmadi

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02257v1

摘要： 大型语言模型 (LLM) 的现有基准越来越难以区分表现最好的模型，这凸显了对更具挑战性的评估框架的需求。我们引入了 MMLU-Pro+，这是一个基于 MMLU-Pro 的增强基准，用于评估大语言模型中的快捷学习和高阶推理。通过将问题与不同领域的多个正确答案相结合，MMLU-Pro+ 测试了大语言模型参与复杂推理和抵制简单化问题解决策略的能力。我们的结果表明，MMLU-Pro+ 保持了 MMLU-Pro 的难度，同时提供了更严格的模型辨别测试，特别是在多正确答案场景中。我们引入了诸如捷径选择率和正确配对识别率等新颖的指标，为模型行为和锚定偏差提供了更深入的见解。对五个最先进的大语言模型的评估揭示了显着的绩效差距，突出了推理能力和偏见敏感性的差异。我们在 \url{https://github.com/asgsaeid/mmlu-pro-plus} 发布了数据集和评估代码。

作为 NLP 任务的治疗：心理学家对大语言模型和人类同行在 CBT 方面的比较

分类： 人机交互, 计算和语言, I.2.7; J.4

作者： Zainab Iftikhar, Sean Ransom, Amy Xiao, Jeff Huang

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02244v1

摘要： 更广泛地获得治疗护理是心理健康治疗的最大挑战之一。由于制度障碍，一些寻求心理健康支持的人转向大型语言模型（LLM）进行个性化治疗，尽管这些模型基本上未经批准和测试。我们通过使用混合方法临床指标来研究使用大语言模型作为循证治疗提供者的潜力和局限性。使用 HELPERT（使用与同伴咨询师对比组相同的流程和培训在大型语言模型上进行提示运行），我们复制了植根于认知行为治疗 (CBT) 的可公开访问的心理健康对话，以比较会话动态和咨询师基于 CBT 的行为原始同伴支持会话和重建的 HELPERT 会话之间的关系。两名经过 CBT 培训的有执照的临床心理学家使用认知治疗评定量表对课程进行了评估，并提供了定性反馈。我们的研究结果表明，同伴会议的特点是同理心、闲聊、治疗联盟和分享经验，但往往表现出治疗师的漂移。相反，HELPERT 重建的疗程表现出最小的治疗师漂移和对 CBT 方法的更高的依从性，但表现出缺乏协作、同理心和文化理解。通过 CTRS 评级和心理学家的反馈，我们强调了人机协作对于可扩展的心理健康的重要性。我们的工作概述了在治疗环境中向大语言模型传授类人主观品质的伦理含义，特别是欺骗性同理心的风险，这可能会导致不切实际的患者期望和潜在伤害。

RACONTEUR：知识渊博、富有洞察力且可移植的 LLM 支持的 Shell 命令解释器

分类： 密码学和安全, 人机交互, 机器学习, 软件工程

作者： Jiangyi Deng, Xinfeng Li, Yanjiao Chen, Yijie Bai, Haiqin Weng, Yan Liu, Tao Wei, Wenyuan Xu

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02074v1

摘要： 恶意 shell 命令是许多网络攻击的关键，但由于复杂且经常伪装的代码结构，安全分析人员可能不容易理解。大语言模型 (LLM) 的进步释放了为 shell 命令生成可理解的解释的可能性。然而，现有的通用大语言模型缺乏专业知识，并且在解释 shell 命令的任务中容易产生幻觉。在本文中，我们介绍 Raconteur，一个由 LLM 提供支持的知识渊博、富有表现力且可移植的 shell 命令解释器。 Raconteur 融入了专业知识，对 shell 命令提供全面的解释，不仅包括命令的作用（即行为），还包括命令为什么这样做（即目的）。为了阐明命令的高层意图，我们还将基于自然语言的解释转化为全球网络安全知识库 MITRE ATT&CK 定义的标准技术和策略。为了使 Raconteur 能够解释看不见的私有命令，我们进一步开发了一个文档检索器，从补充文档中获取相关信息以协助解释过程。我们创建了一个大规模的训练数据集，并进行了大量的实验来评估 Raconteur 在 shell 命令解释方面的能力。实验验证 Raconteur 能够提供高质量的解释并深入了解命令的意图。

高效的大语言模型背景蒸馏

分类： 机器学习

作者： Rajesh Upadhayayaya, Zachary Smith, Chritopher Kottmyer, Manish Raj Osti

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01930v1

摘要： 本文专门研究了上下文蒸馏，这是一种通过内化任务特定示例来扩展其实用性的方法，从而增加了可用于模型推理的示例集。

焦点代理：大语言模型支持的虚拟焦点小组

分类： 人机交互

作者： Taiyu Zhang, Xuesong Zhang, Robbe Cools, Adalberto L. Simeone

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01907v1

摘要： 在人机交互领域，焦点小组代表了一种广泛使用但资源密集的方法，通常需要熟练主持人的专业知识和细致的准备工作。这项研究引入了“焦点代理”，这是一个大型语言模型（LLM）驱动的框架，它可以模拟焦点小组（用于数据收集）并在与人类参与者一起的焦点小组环境中充当主持人。为了评估来自 Focus Agent 的数据质量，我们与总共 23 名人类参与者进行了五次焦点小组会议，并部署 Focus Agent 来模拟与 AI 参与者的这些讨论。定量分析表明，Focus Agent 可以产生与人类参与者类似的意见。此外，该研究还揭示了大语言模型在包括人类参与者在内的焦点小组讨论中充当主持人的一些改进。

研究古代互文分析的专家在环大语言模型话语模式

分类： 计算和语言

作者： Ray Umphrey, Jesse Roberts, Lindsey Roberts

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01882v1

摘要： 本研究探讨了大型语言模型 (LLM) 在识别和检查圣经、通用希腊语文本中互文关系方面的潜力。通过评估大语言模型在各种互文场景中的表现，研究表明这些模型可以检测文本之间的直接引用、典故和呼应。大语言模型产生新颖的互文观察和联系的能力凸显了其发现新见解的潜力。然而，该模型也难以应对长查询段落和包含错误的互文依赖性，这强调了专家评估的重要性。所提出的专家循环方法为互文研究提供了一种可扩展的方法，用于研究圣经语料库内外复杂的互文性网络。

ASD-Chat：基于LLM和VB-MAPP的自闭症儿童创新对话干预系统

分类： 人机交互

作者： Chengyun Deng, Shuzhong Lai, Chi Zhou, Mengyi Bao, Jingwen Yan, Haifeng Li, Lin Yao, Yueming Wang

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01867v1

摘要： 早期诊断和专业干预可以帮助自闭症谱系障碍（ASD）儿童恢复正常生活。然而，目前专业医疗资源的匮乏和不平衡，使得许多自闭症儿童无法得到必要的诊断和干预。因此，人们提出了许多利用计算机技术辅助或独立进行ASD干预的范例，以期缓解上述问题。然而，这些范例往往缺乏临床干预方法的基础，并且缺乏个性化。为了解决这些问题，我们提出了 ASD-Chat，这是一种基于 VB-MAPP（言语行为里程碑评估和安置计划）并由 ChatGPT 提供支持的社会干预系统，作为对话生成的支柱。具体来说，我们基于临床干预方法VB-MAPP设计了干预范式和提示，并利用ChatGPT的生成能力来促进社会对话干预。实验结果表明，我们提出的系统实现了与专业干预医生竞争的干预效果，使其成为未来真实医疗保健场景中长期干预的有前途的工具。

Laser：参数高效的 LLM Bi-Tuning，用于利用协作信息进行顺序推荐

分类： 信息检索, 人工智能

作者： Xinyu Zhang, Linmei Hu, Luhao Zhang, Dandan Song, Heyan Huang, Liqiang Nie

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01605v1

摘要： 顺序推荐系统对于从历史交互中辨别用户偏好并促进有针对性的推荐至关重要。最近采用大型语言模型 (LLM) 的创新通过编码项目语义推动了该领域的发展，但它们通常需要大量的参数调整并且需要大量资源。此外，这些工作未能考虑不同类型用户的不同特征，从而降低了推荐的准确性。在本文中，我们提出了一种参数高效的大型语言模型双调优框架，用于具有协作信息（激光）的顺序推荐。具体来说，Bi-Tuning 的工作原理是在输入序列的前缀和后缀处插入可训练的虚拟令牌并冻结 LLM 参数，从而优化 LLM 的顺序推荐。在我们的 Laser 中，前缀用于合并用户-项目协作信息并使 LLM 适应推荐任务，而后缀将 LLM 的输出嵌入从语言空间转换为后续项目推荐的推荐空间。此外，为了在通过前缀集成协作信息时捕获不同类型用户的特征，我们引入了 M-Former，这是一种基于 MoE 的轻量级查询转换器，它使用一组查询专家来集成由冻结基于ID的顺序推荐系统，显着提高推荐的准确性。对现实世界数据集的大量实验表明，Laser 可以参数有效地使 LLM 适应有效的推荐系统，显着优于最先进的方法。

狼人代理的实现并不真正信任大语言模型

分类： 计算和语言

作者： Takehiro Sato, Shintaro Ozaki, Daisaku Yokoyama

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01575v1

摘要： 狼人杀是一种不完全信息游戏，由于缺乏对情境和话语个性的理解（例如，计算机代理无法进行个性化表达或情境性谎言），因此在创建作为玩家的计算机代理时面临一些挑战。我们提出了一种狼人代理，通过结合大型语言模型（LLM）和基于规则的算法来解决其中一些困难。特别是，我们的代理使用基于规则的算法来选择来自 LLM 的输出或基于使用 LLM 分析对话历史记录的结果预先准备的模板。它允许代理在特定情况下反驳，确定何时结束对话，并以角色行事。这种方法减少了对话的不一致，从而促进了逻辑表达。我们还进行了定性评估，结果是我们的代理被认为比未经修改的大语言模型更接近人类。该代理可以免费为狼人游戏领域的研究做出贡献。

大语言模型认知领域的基准测试：台湾客家文化的见解

分类： 计算和语言, 人工智能

作者： Chen-Chi Chang, Ching-Yuan Chen, Hung-Shin Lee, Chih-Cheng Lee

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01556v1

摘要： 本研究引入了一个综合基准，旨在评估大型语言模型（LLM）在理解和处理文化知识方面的表现，并特别关注客家文化作为案例研究。该研究利用布鲁姆分类法，开发了一个多维框架，系统地评估大语言模型的六个认知领域：记忆、理解、应用、分析、评估和创造。该基准超越了传统的单维度评估，对大语言模型处理特定文化内容的能力进行了更深入的分析，范围从基本的事实回忆到创造性综合等高阶认知任务。此外，该研究还集成了检索增强生成（RAG）技术来解决大语言模型中少数民族文化知识表示的挑战，展示了 RAG 如何通过动态整合相关外部信息来增强模型的性能。结果强调了 RAG 在提高所有认知领域的准确性方面的有效性，特别是在需要精确检索和应用文化知识的任务中。然而，研究结果也揭示了 RAG 在创造性任务中的局限性，强调了进一步优化的必要性。该基准为评估和比较多元文化背景下的大语言模型提供了强大的工具，为人工智能驱动的文化知识保存和传播的未来研究和开发提供了宝贵的见解。

自指导派生提示生成与情境学习相结合：释放黑盒大语言模型的新潜力

分类： 计算和语言, 人工智能

作者： Zhuo Li, Yuhao Du, Jinpeng Hu, Xiang Wan, Anningzhe Gao

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01552v1

摘要： 大型语言模型 (LLM) 在生成高质量响应方面已显示出成功。为了更好地与人类偏好的LLM保持一致，基于特定的优化过程提出了各种工作，然而，由于参数不可访问，这些工作并不适合像GPT-4这样的黑盒LLM。在黑盒大语言模型的情况下，他们的表现高度依赖于所提供提示的质量。现有的提高响应质量的方法通常涉及提示细化模型，但这些方法可能会遇到细化提示和原始提示之间语义不一致的问题，并且通常会忽略它们之间的关系。为了应对这些挑战，我们引入了一个自学的情境学习框架，该框架使大语言模型能够通过生成可靠的派生提示来构建信息丰富的情境环境，从而提供更有效的响应。我们的方法采用了自指导强化学习机制，可以在派生提示生成过程中与响应模型直接交互，以实现更好的对齐。然后，我们将查询制定为上下文学习任务，使用大语言模型的响应与派生的提示相结合，为原始提示建立上下文演示。该策略确保与原始查询保持一致，减少与精炼提示的差异，并最大限度地提高大语言模型的情境学习能力。大量实验表明，所提出的方法不仅可以生成更可靠的派生提示，还可以显着增强大语言模型提供更有效响应的能力，包括 GPT-4 等黑盒模型。

PoliPrompt：基于 LLM 的高性能、经济有效的政治学文本分类框架

分类： 计算和语言, 人工智能

作者： Menglin Liu, Ge Shi

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01466v1

摘要： 大语言模型 (LLM) 的最新进展为提高政治学中的文本分类效率开辟了新途径，超越了通常需要大量特征工程、人工标记和特定任务训练的传统机器学习方法。然而，它们在实现高分类精度方面的有效性仍然值得怀疑。本文介绍了一种三阶段的上下文学习方法，该方法利用大语言模型来提高分类准确性，同时最大限度地降低实验成本。我们的方法结合了自动增强提示生成、自适应范例选择和共识机制，该机制解决了两个较弱的大语言模型之间的差异，并由高级大语言模型进行了细化。我们使用 BBC 新闻报道、卡瓦诺最高法院确认函和 2018 年竞选广告中的数据集来验证我们的方法。结果显示，分类 F1 分数（零样本分类为 +0.36）显着提高，经济成本可控（与人工标记相比为-78%），这表明我们的方法有效解决了传统机器学习的局限性，同时提供了可扩展且可靠的模型。政治学文本分析的解决方案。

自动检测 LLM 生成的代码：Claude 3 Haiku 案例研究

分类： 软件工程, 人工智能

作者： Musfiqur Rahman, SayedHassan Khatoonabadi, Ahmad Abdellatif, Emad Shihab

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01382v1

摘要： 使用大型语言模型 (LLM) 生成源代码在软件开发人员中越来越受欢迎。然而，使用 LLM 生成的代码可能会带来添加次优、有缺陷和易受攻击的代码的风险。这使得有必要设计出准确检测 LLM 生成代码的方法。为了实现这一目标，我们在 CodeSearchNet 数据集上对 Claude 3 Haiku（简称 Claude 3）进行了案例研究。我们将分析分为两部分：函数级别和类级别。我们为每个粒度级别提取 22 个软件度量特征，例如代码行和圈复杂度。然后，我们使用提取的特征分析 Claude 3 生成的代码片段及其人工编写的代码片段，以了解 Claude 3 生成的代码有多么独特。在接下来的步骤中，我们使用 Claude 3 生成的代码的独特特征来构建机器学习 (ML) 模型，并确定代码片段的哪些特征使它们更容易被 ML 模型检测到。我们的结果表明，与人类相比，Claude 3 倾向于生成更长的函数，但生成的类更短，并且此特性可用于使用 ML 模型检测 Claude 3 生成的代码，函数级和类级片段的准确率分别为 82% 和 66% ，分别。

CHESS：通过通道阈值和选择性稀疏优化 LLM 推理

分类： 计算和语言, 人工智能, 机器学习

作者： Junhui He, Shangyu Wu, Weidong Wen, Chun Jason Xue, Qingan Li

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01366v1

摘要： 由于大量的计算开销和内存需求，在边缘设备上部署大型语言模型 (LLM) 面临着巨大的挑战。激活稀疏化可以通过减少推理过程中激活的神经元的数量来缓解这些挑战。现有方法通常采用基于激活张量统计的基于阈值的稀疏化。然而，这些方法没有明确地模拟激活稀疏化对性能的影响，从而导致性能下降。为了解决这个问题，本文通过引入优化稀疏化决策的新目标来重新表述激活稀疏化问题。在此重新制定的基础上，我们提出了 CHESS，这是一种通过通道明智的阈值处理和选择性稀疏化的通用激活稀疏化方法。首先，通道阈值分配给前馈网络（FFN）层中的每个激活通道分配一个唯一的阈值。然后，选择性稀疏化涉及将基于阈值的激活稀疏化应用于注意模块内的特定层。最后，我们详细介绍了稀疏内核的实现，以加速 LLM 推理。实验结果表明，与现有方法相比，所提出的 CHESS 在激活更少的参数的同时，在 8 个下游任务上实现了较低的性能下降，从而将 LLM 推理速度提高了 1.27 倍。

通过上下文感知句子编码进行提示压缩，以实现快速且改进的 LLM 推理

分类： 计算和语言, 机器学习

作者： Barys Liskavets, Maxim Ushakov, Shuvendu Roy, Mark Klibanov, Ali Etemad, Shane Luke

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01227v2

摘要： 大型语言模型 (LLM) 引发了一系列新的研究，重点是压缩上下文长度以降低计算成本，同时确保保留 LLM 回答给定问题的有用信息。基于令牌的删除方法是这个方向上最突出的方法之一，但存在因中间令牌删除而导致上下文语义丢失的风险，特别是在高压缩比下，同时还面临计算效率的挑战。在这项工作中，我们提出了上下文感知提示压缩（CPC），这是一种句子级提示压缩技术，其关键创新是一种新颖的上下文感知句子编码器，可为给定问题的每个句子提供相关性得分。为了训练这个编码器，我们生成一个由问题、正例和负例对组成的新数据集，其中正例是与问题相关的句子，而负例是不相关的上下文句子。我们在对比设置中训练编码器来学习上下文感知的句子表示。我们的方法在基准数据集上的即时压缩方面明显优于先前的工作，并且与最佳令牌级压缩方法相比，推理速度提高了 10.93 倍。我们还在大多数基准测试中发现了针对较短长度约束的更好改进，显示了我们提出的解决方案在较短上下文中压缩相关信息的有效性。最后，我们发布代码和数据集以实现快速重现和进一步开发：https://github.com/Workday/cpc。

LATEX-GCL：基于大型语言模型 (LLM) 的文本属性图对比学习数据增强

分类： 社交和信息网络, 人工智能

作者： Haoran Yang, Xiangyu Zhao, Sirui Huang, Qing Li, Guandong Xu

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01145v1

摘要： 图对比学习（GCL）是自监督图学习的有效范例，在各种应用场景中引起了人们的关注。然而，用于学习文本属性图（TAG）的 GCL 仍有待探索。因为传统的增强技术（例如特征嵌入掩码）无法直接处理标签上的文本属性。将 GCL 应用到 TAG 的一个简单策略是通过语言模型将文本属性编码为特征嵌入，然后将嵌入输入到后续的 GCL 模块中进行处理。这种策略面临三个关键挑战：I）无法避免信息丢失，II）文本编码阶段的语义丢失，以及III）导致不可控和难以理解的结果的隐式增强约束。在本文中，我们提出了一种名为 LATEX-GCL 的新型 GCL 框架，利用大型语言模型 (LLM) 生成文本增强，并利用 LLM 强大的自然语言处理 (NLP) 能力来解决上述三个限制，为应用 GCL 铺平道路标记任务。对四个高质量 TAG 数据集的大量实验说明了所提出的 LATEX-GCL 方法的优越性。发布源代码和数据集是为了简化可重复性，可以通过以下链接访问：https://anonymous.4open.science/r/LATEX-GCL-0712。

LLM-PQA：LLM 增强预测查询应答

分类： 信息检索, 机器学习

作者： Ziyu Li, Wenjie Zhao, Asterios Katsifodimos, Rihan Hai

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01140v1

摘要： 大型语言模型 (LLM) 的出现提供了改变查询处理方式的机会，超越了传统的基于 SQL 的数据库系统的限制。然而，使用 LLM 来回答预测查询仍然具有挑战性，因为必须采用外部 ML 模型并且必须执行推理才能提供答案。本文介绍了 LLM-PQA，这是一种解决用自然语言表述的预测查询的新颖工具。 LLM-PQA 是第一个通过集成数据湖和模型动物园来结合 LLM 和检索增强机制的功能，以满足预测查询的需求。这种集成使用户能够访问大量异构数据和不同的机器学习模型，从而促进动态预测查询应答。此外，LLM-PQA 可以根据特定查询要求动态按需训练模型，即使模型库中没有可用于任务的预训练模型，也能确保可靠且相关的结果。

范围：大语言模型嵌入的手语语境处理

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01073v1

摘要： 全球约有 7000 万聋人使用手语，手语是传达视觉和上下文信息的视觉语言。由于数据集多样性有限且忽视了上下文相关信息，当前基于视觉的手语识别（SLR）和翻译（SLT）方法很难处理对话场景。为了应对这些挑战，我们引入了 SCOPE（大语言模型嵌入的手语上下文处理），这是一种新颖的基于上下文感知视觉的 SLR 和 SLT 框架。对于 SLR，我们通过多模式编码器利用对话上下文来增强光泽度识别。对于后续的 SLT，我们通过合并先前的对话上下文进一步微调大型语言模型 (LLM)。我们还贡献了一个新的手语数据集，其中包含 72 小时的各种场景的上下文对话的中国手语视频。实验结果表明，我们的 SCOPE 框架在多个数据集上实现了最先进的性能，包括 Phoenix-2014T、CSL-Daily 和我们的 SCOPE 数据集。此外，对聋人社区参与者进行的调查进一步验证了我们的方法在实际应用中的稳健性和有效性。我们的数据集和代码都将开源，以促进进一步的研究。

超越 ChatGPT：利用多样化的大语言模型和验证技术增强软件质量保证任务

分类： 软件工程

作者： Ratnadira Widyasari, David Lo, Lizi Liao

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01001v1

摘要： 随着大型语言模型（LLM）的进步，它们在软件质量保证（SQA）中的应用有所增加。然而，目前这些应用程序的焦点主要集中在 ChatGPT 上。在了解各个大语言模型在这个关键领域的表现方面仍然存在差距。本文旨在通过对多个大语言模型跨两项 SQA 任务的能力进行全面调查来弥补这一差距：故障定位和漏洞检测。我们使用 GPT-3.5、GPT-4o 和其他四个公开的 LLM（LLaMA-3-70B、LLaMA-3-8B、Gemma-7B 和 Mixtral-8x7B）进行了比较研究，以评估它们在这些任务中的有效性。我们的研究结果表明，一些 LLM 在这两项任务中的表现都优于 GPT-3.5。此外，即使是表现较差的大语言模型也能提供独特的正确预测，这表明结合不同大语言模型的结果有可能提高整体表现。通过实施投票机制来结合大语言模型的结果，我们在这两项任务中都比 GPT-3.5 取得了超过 10% 的改进。此外，我们引入了一种交叉验证方法，通过使用验证提示将一个 LLM 答案与另一个 LLM 答案进行验证来完善 LLM 答案。与 GPT-3.5 相比，这种方法使故障定位性能提高了 16%，漏洞检测性能提高了 12%，与性能最佳的 LLM 相比提高了 4%。我们的分析还表明，大语言模型结果中包含的解释会影响交叉验证技术的有效性。

DataSculpt：通过多目标分区为 LLM 培训后打造数据景观

分类： 计算和语言

作者： Keer Lu, Zheng Liang, Xiaonan Nie, Da Pan, Shusen Zhang, Keshi Zhao, Weipeng Chen, Zenan Zhou, Guosheng Dong, Wentao Zhang, Bin Cui

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.00997v1

摘要： 长上下文建模的有效性对于各种应用中的大型语言模型 (LLM) 非常重要。尽管大语言模型具有潜力，但其在处理长上下文方面的功效并不能始终达到预期，这对培训中长时间序列的有效管理提出了重大挑战。由于不同数据源之间固有的长度偏差，以及与扩展上下文中的训练的海量数据管理相关的逻辑复杂性，适合长序列的全面且多样化的训练数据集的稀缺加剧了这一困难。在这项工作中，我们介绍了 DataSculpt，这是一个数据构建框架，旨在战略性地增强扩展上下文训练的数据架构。我们的全面评估表明，DataSculpt 在提升长上下文训练性能方面具有非凡的能力，取得了一些改进，包括检索增强提高 18.09%、摘要提高 21.23%、阅读理解提高 21.27%、代码完成提高 3.81%，同时保留了模型的整体熟练度提高了 4.88%。

使用自然语言的大语言模型代理人社会规范的演变

分类： 多代理系统

作者： Ilya Horiguchi, Takahide Yoshida, Takashi Ikegami

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.00993v1

摘要： 大型语言模型 (LLM) 的最新进展激发了人们对利用这些模型进行博弈论模拟的兴趣激增，其中 LLM 充当参与社交互动的个体代理。本研究以阿克塞尔罗德元规范游戏的基础工作为基础，探讨了大语言模型代理人通过自然语言话语自发生成并遵守规范策略的潜力。我们的实验表明，通过对话，LLM代理可以形成复杂的社会规范，例如元规范——纯粹通过自然语言交互强制惩罚那些不惩罚作弊者的规范。结果证实了使用 LLM 代理来模拟社交互动以及通过自然语言理解复杂策略和规范的出现和演变的有效性。未来的工作可能会通过纳入更广泛的场景和主体特征来扩展这些发现，旨在揭示社会规范形成背后更微妙的机制。

ToolACE：赢得LLM函数调用的积分

分类： 机器学习, 人工智能, 计算和语言

作者： Weiwen Liu, Xu Huang, Xingshan Zeng, Xinlong Hao, Shuai Yu, Dexun Li, Shuai Wang, Weinan Gan, Zhengying Liu, Yuanqing Yu, Zezhong Wang, Yuxian Wang, Wu Ning, Yutai Hou, Bin Wang, Chuhan Wu, Xinzhi Wang, Yong Liu, Yasheng Wang, Duyu Tang, Dandan Tu, Lifeng Shang, Xin Jiang, Ruiming Tang, Defu Lian, Qun Liu, Enhong Chen

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.00920v1

摘要： 函数调用显着扩展了大型语言模型的应用边界，其中高质量和多样化的训练数据对于解锁此功能至关重要。然而，真正的函数调用数据的收集和注释非常具有挑战性，而现有管道生成的合成数据往往缺乏覆盖范围和准确性。在本文中，我们提出了 ToolACE，这是一种自动代理管道，旨在生成准确、复杂和多样化的工具学习数据。 ToolACE 利用新颖的自我进化综合流程来管理包含 26,507 个不同 API 的综合 API 池。在形式化思维过程的指导下，通过多个代理之间的相互作用进一步生成对话。为了保证数据的准确性，我们实施了基于规则和基于模型的检查相结合的双层验证系统。我们证明，在我们的合成数据上训练的模型，即使只有 8B 参数，也能在 Berkeley 函数调用排行榜上实现最先进的性能，可与最新的 GPT-4 模型相媲美。我们的模型和数据子集可在 https://huggingface.co/Team-ACE 上公开获取。

利用半结构化知识和大语言模型的力量，通过基于三元组的预过滤进行问答

分类： 计算和语言, 人工智能, 机器学习, 计算机科学中的逻辑

作者： Derian Boer, Fabian Koch, Stefan Kramer

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00861v1

摘要： 大型语言模型 (LLM) 经常缺乏特定领域的知识，甚至微调模型也容易出现幻觉。因此，需要包含外部知识的更可靠的模型。我们提出了一个管道 4StepFocus，特别是一个预处理步骤，可以显着提高大语言模型的答案。这是通过利用模型捕获关系上下文并自行进行基本推理的能力，提供对外部知识的引导访问来实现的。该方法通过在半结构化知识库中以直接、可追踪的方式进行基于三元组的搜索来缩小潜在正确答案的范围，然后切换到潜在表示以根据非结构化数据对这些候选者进行排名。这将其与纯粹基于潜在表示的相关方法区分开来。 4StepFocus 包含以下步骤：1）由大语言模型生成三元组，用于提取关系数据；2）使用知识图替换这些三元组中的变量以缩小候选答案的范围；3）通过涉及相关非关联的向量相似性搜索对剩余候选进行排序。 -结构化数据，4）由大语言模型根据提供的背景数据对最佳候选人进行重新排名。医学、产品推荐和学术论文搜索测试集的实验表明，这种方法确实是一种强大的增强。它不仅添加了来自信息检索的相关可追溯背景信息，而且与最先进的方法相比，还大大提高了性能。本文提出了一个新颖的、很大程度上未经探索的方向，因此提供了广泛的未来工作机会。使用的源代码可在 https://github.com/kramerlab/4StepFocus 上找到。

使用可视数据流语言对音频编程的 LLM 代码生成进行基准测试

分类： 软件工程, 人工智能, 计算和语言, 编程语言

作者： William Zhang, Maria Leon, Ryan Xu, Adrian Cardenas, Amelia Wissink, Hanna Martin, Maya Srikanth, Kaya Dorogi, Christian Valadez, Pedro Perez, Citlalli Grijalva, Corey Zhang, Mark Santolucito

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00856v1

摘要： 基于节点的编程语言在媒体艺术编码领域越来越流行。这些语言旨在供编码经验有限的用户使用，使他们能够在没有广泛的编程背景的情况下实现创造性的输出。使用基于 LLM 的代码生成来进一步降低创意输出的障碍是一个令人兴奋的机会。然而，基于可视节点的编程语言的代码生成的最佳策略仍然是一个悬而未决的问题。特别地，这样的语言在文本中具有多个级别的表示，每个级别都可以用于代码生成。在这项工作中，我们探索了 LLM 代码生成在多个表示级别的可视化编程语言的音频编程任务中的性能。我们通过这些语言的元编程代码表示（即使用不同的基于文本的高级编程语言对语言进行编码）以及通过使用 JSON 直接生成节点来探索代码生成。我们在一组基准编码问题上评估以这种方式生成的用于音频编程的两种视觉语言的代码。我们测量生成代码的正确性和复杂性。我们发现，假设代码格式良好（即语法正确并且可以运行），元编程会生成语义上更正确的生成代码。我们还发现，使用随机性和循环进行更丰富的元编程会导致更复杂的代码。

大语言模型支持的非结构化分析系统的设计

分类： 数据库, 人工智能, 信息检索

作者： Eric Anderson, Jonathan Fritz, Austin Lee, Bohou Li, Mark Lindblad, Henry Lindeman, Alex Meyer, Parth Parmar, Tanvi Ranade, Mehul A. Shah, Benjamin Sowell, Dan Tecuci, Vinayak Thapliyal, Matt Welsh

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00847v2

摘要： 大语言模型展示了处理非结构化数据的不可思议的能力，因此有潜力超越搜索并大规模运行复杂的语义分析。我们描述了非结构化分析系统 Aryn 的设计，以及激发其设计的原则和用例。借助 Aryn，用户可以用自然语言指定查询，系统会自动确定语义计划并执行它，以使用大语言模型从大量非结构化文档中计算答案。 Aryn 的核心是 Sycamore，这是一个使用 Ray 构建的声明性文档处理引擎，它提供了一个名为 DocSets 的可靠分布式抽象。 Sycamore 允许用户大规模分析、丰富和转换复杂文档。 Aryn 还包括 Luna（将自然语言查询转换为 Sycamore 脚本的查询规划器）和 Aryn Partitioner（获取原始 PDF 和文档图像，并将其转换为 DocSet 以进行下游处理）。我们使用 Aryn 演示了一个用于分析国家运输安全委员会 (NTSB) 事故报告的真实用例，并讨论了我们在野外部署 Aryn 时遇到的一些主要挑战。

比较用于语音识别的离散空间大语言模型和连续空间大语言模型

分类： 计算和语言

作者： Yaoxun Xu, Shi-Xiong Zhang, Jianwei Yu, Zhiyong Wu, Dong Yu

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00800v1

摘要： 本文研究了基于大语言模型 (LLM) 的自动语音识别 (ASR) 中的离散和连续语音表示，通过特征连续性和训练方法将它们分为四类：离散和连续类型的有监督和无监督。我们根据大语言模型的输入和自回归反馈进一步将其分类为连续空间模型和离散空间模型。我们使用专门的编码器并通过联合训练语言模型 (JTFS LM) 和预训练的 LLaMA2-7b 进行比较分析，对其有效性进行了详细检查。我们的工作标志着基于 LLM 的 ASR 中语音表示的首次广泛比较，并探索了各种建模技术。我们展示了使用 HuBERT 编码器在 LibriSpeech 上实现 1.69% 的最先进的词错误率 (WER) 的开源成果，为推进 ASR 和自然语言处理 (NLP) 研究提供了宝贵的见解。

聚合评级：用于大语言模型评估的具有成本效益且具有偏见意识的评级系统

分类： 计算和语言, 人工智能

作者： Jasper Dekoninck, Maximilian Baader, Martin Vechev

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00696v1

摘要： 基于评级的人工评估已成为准确评估大型语言模型 (LLM) 令人印象深刻的性能的重要工具。然而，当前的评级系统存在一些关键的限制。具体来说，它们未能考虑到显着影响评估结果的人类偏见，需要大量且昂贵的偏好数据集才能获得准确的评级，并且无法促进对不同任务的模型评级进行有意义的比较。为了解决这些问题，我们引入了 Polyating，这是一种基于最大后验估计的富有表现力且灵活的评级系统，可以以更低的成本对模型性能进行更细致、更彻底的分析。聚合评级可以检测和量化影响人类偏好的偏差，确保更公平的模型比较。此外，通过利用现有的基准分数，聚合评级可以将新模型的人工评估成本降低高达 41%$，将新任务的人工评估成本降低高达 77%$。最后，聚合评级可以直接比较不同任务的评级，从而全面了解大语言模型在不同应用程序中的优势、劣势和相对表现。

基于开源矩阵指令集扩展（向量点积）的高性能RISC-V处理器“象山”（南湖版）LLM加速研究

分类： 硬件架构, C.1.3 [Other Architecture Styles]: RISC (Reduced Instruction Set Computing)

作者： Xu-Hao Chen, Si-Peng Hu, Hong-Chao Liu, Bo-Ran Liu, Dan Tang, Di Zhao

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00661v1

摘要： 考虑到边缘AI的高性能和低功耗要求，本研究基于RISC-V指令集架构设计了一种专门用于边缘AI的指令集处理器，解决了边缘设备数字信号处理的实际问题。该设计在有限的硬件开销下提高了边缘AI的执行效率并降低了能耗，满足边缘AI应用中高效大语言模型（LLM）推理计算的需求。本文的主要贡献如下：针对大语言模型的特点，在RISC-V指令集的基础上扩展了自定义指令来进行向量点积计算，在专用向量点积加速上加速大语言模型的计算硬件。基于开源高性能RISC-V处理器核象山南湖架构，实现了矢量点积专用指令集处理器Nanhu-vdot，在象山南湖之上增加了矢量点积计算单元和流水线处理逻辑。 Nanhu-vdot经过了FPGA硬件测试，在矢量点积计算中实现了标量方法四倍以上的速度。采用软硬件协同设计的方式进行第二代Generative Pre-Trained Transformer（GPT-2）模型推理，与纯软件实现相比，速度提升了约30%，几乎没有额外消耗硬件资源和功耗。

大语言模型作为评估者：评估错误报告摘要的新方法

分类： 软件工程

作者： Abhishek Kumar, Sonia Haiduc, Partha Pratim Das, Partha Pratim Chakrabarti

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00630v1

摘要： 总结软件工件是一项经过深入研究的重要任务。对于评估软件摘要方法，人类判断仍然是最值得信赖的评估。然而，这对于评估者来说既耗时又疲劳，使得扩展和重现具有挑战性。大型语言模型（LLM）在各种软件工程任务中表现出了卓越的能力，激励我们探索它们作为旨在总结软件工件的方法的自动评估器的潜力。在这项研究中，我们研究了大语言模型是否可以有效地评估错误报告摘要。我们进行了一项实验，向人类和三位大语言模型（GPT-4o、LLaMA-3 和 Gemini）提出了相同的一组错误总结问题，以评估两项任务：从错误报告中选择正确的错误报告标题和错误报告摘要。选项集。我们的结果表明，大语言模型在评估错误报告摘要方面总体表现良好，其中 GPT-4o 的表现优于其他大语言模型。此外，人类和大语言模型都表现出了一致的决策能力，但人类会感到疲劳，随着时间的推移会影响他们的准确性。我们的结果表明，大语言模型表现出被视为错误报告摘要自动评估者的潜力，这可以扩大评估规模，同时减少人类评估者的工作量和疲劳。

通过大语言模型增强源代码安全性：揭开挑战的神秘面纱并实现可靠的修复

分类： 密码学和安全, 人工智能

作者： Nafis Tanveer Islam, Joseph Khoury, Andrew Seong, Elias Bou-Harb, Peyman Najafirad

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00571v1

摘要： 随着最近人工智能 (AI) 计算取得前所未有的进步，大型语言模型 (LLM) 的进展正在迅速加速，这给建立明确的指导方针带来了挑战，特别是在安全领域。话虽这么说，我们彻底确定并描述了跨越整个大语言模型工作流程的安全和软件工程文献中的三个主要技术挑战，即： \textbf{\textit{(i)}} 数据收集和标签； \textbf{\textit{(ii)}} 系统设计与学习；和 \textbf{\textit{(iii)}} 绩效评估。基于这些挑战，本文介绍了 \texttt{SecRepair}，这是一种基于指令的 LLM 系统，旨在可靠地 \textit{identify}、\textit{describe} 和自动 \textit{repair} 易受攻击的源代码。我们的系统附有一系列关于 \textbf{\textit{(i)}} 数据准备和增强技术的可操作指南； \textbf{\textit{(ii)}} 选择和采用最先进的 LLM 模型； \textbf{\textit{(iii)}} 评估程序。 \texttt{SecRepair} 使用基于强化学习的微调和语义奖励，以满足生成代码的功能和安全方面的需求。我们的实证分析表明，在使用强化学习进行训练时，与其他大语言模型相比，\texttt{SecRepair} 在安全代码修复方面实现了 \textit{12}% 的改进。此外，我们还展示了 \texttt{SecRepair} 使用自动评估指标针对实际测试用例生成可靠、实用且可编译的安全代码修复的功能。