MiX Knowledge

LASSI：基于大语言模型的自动自校正管道，用于翻译并行科学代码

分类： 软件工程, 人工智能, 分布式、并行和集群计算, 编程语言

作者： Matthew T. Dearing, Yiheng Tao, Xingfu Wu, Zhiling Lan, Valerie Taylor

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.01638v1

摘要： 本文解决了提供一种新方法来为专注于科学和工程的大语言模型获取重要培训数据的问题。特别是，一个关键的挑战是采购数百万到数十亿代码的并行科学代码。为了解决这个问题，我们提出了一个名为 LASSI 的自动化管道框架，旨在通过引导现有的封闭或开源 LLM 在并行编程语言之间进行转换。 LASSI 通过自我纠正循环实现自主增强，在生成代码的编译和执行过程中遇到的错误会通过调试和重构的引导提示反馈给 LLM。我们重点介绍现有 GPU 基准测试在 OpenMP 目标卸载和 CUDA 之间的双向转换，以验证 LASSI。在四个大语言模型中使用不同应用程序代码评估 LASSI 的结果证明了 LASSI 在生成可执行并行代码方面的有效性，其中 80% 的 OpenMP 到 CUDA 的翻译和 85% 的 CUDA 到 OpenMP 的翻译产生了预期的输出。我们还观察到，大约 78% 的 OpenMP 到 CUDA 的翻译以及 62% 的 CUDA 到 OpenMP 的翻译的执行时间比相同语言的原始基准代码的运行时间少 10% 或更快。

LLM4GEN：利用 LLM 的语义表示来生成文本到图像

分类： 计算机视觉和模式识别

作者： Mushui Liu, Yuhang Ma, Xinfeng Zhang, Yang Zhen, Zeng Zhao, Zhipeng Hu, Bai Liu, Changjie Fan

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.00737v1

摘要： 扩散模型在文本到图像的生成方面取得了巨大的成功。然而，在处理涉及多个对象、属性绑定和长描述的复杂而密集的提示时，他们经常遇到挑战。本文提出了一个名为 \textbf{LLM4GEN} 的框架，该框架通过利用大型语言模型（LLM）的语义表示来增强文本到图像扩散模型的语义理解能力。通过专门设计的交叉适配器模块（CAM），将文本到图像模型的原始文本特征与LLM特征相结合，LLM4GEN可以作为即插即用组件轻松融入到各种扩散模型中，并增强文本到图像的能力。 -图像生成。此外，为了促进复杂而密集的提示语义理解，我们开发了一个 LAION 细化数据集，由 100 万 (M) 个文本图像对组成，并具有改进的图像描述。我们还引入了 DensePrompts，其中包含 7,000 个密集提示，为文本到图像生成任务提供全面的评估。 LLM4GEN 仅需要最新 ELLA 所需训练数据的 10%，就显着改善了 SD1.5 和 SDXL 的语义对齐，在 T2I-CompBench 上显示颜色分别增加了 7.69% 和 9.60%。 DensePrompts 上的大量实验还表明，LLM4GEN 在样本质量、图文对齐和人类评估方面超越了现有的最先进模型。项目网站位于：\textcolor{magenta}{\url{https://xiaobul.github.io/LLM4GEN/}}

使用大型语言模型 (LLM) 注释系统扩展技术验收分析

分类： 计算和语言

作者： Pawel Robert Smolinski, Joseph Januszewicz, Jacek Winiarski

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.00702v1

摘要： 技术接受模型有效地预测用户将如何采用新技术产品。这种评估通常使用传统的调查，通常昂贵且繁琐。作为调查的替代方案，我们探索使用大型语言模型来注释在线用户生成的内容，例如数字评论和评论。我们的研究涉及设计一个大语言模型注释系统，该系统根据接受和技术使用统一理论模型将评论转换为结构化数据。我们进行了两项研究来验证注释的一致性和准确性。结果显示 LLM 注释系统具有中等到强的一致性，通过降低模型温度进一步提高。 LLM 注释与人类专家注释实现了密切一致，并且优于 UTAUT 变量专家之间的一致性。这些结果表明，大语言模型可以成为分析用户情绪的有效工具，为传统调查方法提供实用的替代方案，并能够更深入地了解技术设计和采用。

CAMON：基于 LLM 对话的多对象导航协作代理

分类： 机器人技术, 计算和语言, 计算机视觉和模式识别, 多代理系统

作者： Pengying Wu, Yao Mu, Kangjie Zhou, Ji Ma, Junting Chen, Chang Liu

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.00632v1

摘要： 视觉导航任务对于家庭服务机器人至关重要。随着这些任务变得越来越复杂，多个机器人之间的有效沟通和协作对于确保成功完成至关重要。近年来，大型语言模型（LLM）在具体代理的背景下表现出了卓越的理解和规划能力。然而，它们在家庭场景中的应用，特别是使用多个代理通过通信协作完成复杂的导航任务，仍有待探索。因此，本文提出了一个利用 LLM 支持的通信和协作的去中心化多智能体导航框架。通过设计沟通触发的动态领导组织结构，我们以更少的沟通次数更快地达成团队共识，从而获得更好的导航效果和协作探索效率。通过所提出的新颖的通信方案，我们的框架有望在多目标导航任务中实现无冲突且稳健，即使团队规模激增也是如此。

迭代纳什政策优化：通过无悔学习使大语言模型与一般偏好保持一致

分类： 机器学习, 人工智能, 计算和语言, 计算机科学与博弈论

作者： Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.00617v2

摘要： 带人类反馈的强化学习 (RLHF) 在使大型语言模型 (LLM) 与人类偏好保持一致方面取得了巨大成功。流行的 RLHF 方法是基于奖励的，遵循 Bradley-Terry (BT) 模型假设，该模型可能无法完全捕捉人类偏好的复杂性。在本文中，我们在一般偏好框架下探索 RLHF，并从博弈论的角度对其进行研究。具体来说，我们将问题表述为两人游戏，并提出了一种新颖的算法：迭代纳什策略优化（INPO）。关键思想是让策略通过无悔学习来对抗自身，从而逼近纳什策略。与以前的方法不同，INPO 不需要估计单个响应的预期胜率，这通常会产生高昂的计算或注释成本。相反，我们引入了一个新的损失目标，该目标在偏好数据集上直接最小化。我们为我们的方法提供理论分析，并通过各种代表性基准的实验证明其有效性。借助基于 LLaMA-3-8B 的 SFT 模型，INPO 在 AlpacaEval 2.0 上实现了 41.5% 的长度控制胜率，在 Arena-Hard 上实现了 38.3% 的胜率，与最先进的迭代算法相比有了显着改进[Dong et al., 2024] 在 BT 模型假设下。此外，我们的消融研究强调了将 KL 正则化纳入响应长度控制的好处。

大语言模型作为讲师：从错误中学习以实现模型自动化改进

分类： 计算和语言

作者： Jiahao Ying, Mingbao Lin, Yixin Cao, Wei Tang, Bo Wang, Qianru Sun, Xuanjing Huang, Shuicheng Yan

发布时间： 2024-06-29

链接： http://arxiv.org/abs/2407.00497v1

摘要： 本文介绍了创新的“LLM-as-Instructors”框架，该框架利用先进的大型语言模型（LLM）来自主增强较小目标模型的训练。受“从错误中学习”理论的启发，该框架聘请大语言模型讲师仔细分析目标模型中的具体错误，促进有针对性和高效的培训周期。在此框架内，我们实施两种策略：“从错误中学习”，仅关注错误响应以定制训练数据；“通过对比从错误中学习”，使用对比学习来分析正确和错误的响应，以更深入地理解的错误。我们使用多个开源模型进行的实证研究证明了多个基准的显着改进，包括数学推理、编码能力和事实知识。值得注意的是，改进后的 Llama-3-8b-Instruction 的性能优于 ChatGPT，说明了我们方法的有效性。通过利用这两种策略的优势，我们在域内和域外基准测试上都获得了更加平衡的性能改进。我们的代码可以在 https://yingjiahao14.github.io/LLMs-as-Instructors-pages/ 找到。

现在是变形时间：通过多目标优化释放多个大语言模型的潜力

分类： 计算和语言

作者： Bingdong Li, Zixiang Di, Yanting Yang, Hong Qian, Peng Yang, Hao Hao, Ke Tang, Aimin Zhou

发布时间： 2024-06-29

链接： http://arxiv.org/abs/2407.00487v1

摘要： 在本文中，我们介绍了一种通过黑盒多目标优化算法进行大型语言模型合并的新方法。模型合并的目标是将多个模型（每个模型在不同的任务上表现出色）组合成一个优于任何单个源模型的模型。然而，模型合并面临两个重大挑战：首先，现有方法严重依赖人类直觉和定制策略。其次，合并过程中经常会出现参数冲突，虽然像 DARE [1] 这样的方法可以缓解这个问题，但它们往往会随机丢弃参数，从而面临丢失重要增量参数的风险。为了应对这些挑战，我们提出了 MM-MO 方法，该方法使用多目标优化算法自动搜索最佳合并配置，从而消除了人类直觉的需要。在配置搜索过程中，我们使用多个不同任务的估计性能作为优化目标，以减轻不同源模型之间的参数冲突，而不丢失关键的增量参数。我们与其他主流模型合并方法进行了对比实验，证明我们的方法始终优于它们。此外，我们的实验表明，即使没有明确作为优化目标的任务类型也显示出性能改进，这表明我们的方法增强了模型的整体潜力，而不仅仅是过度拟合特定的任务类型。这种方法在模型合并技术方面取得了重大进展，提供了强大的即插即用解决方案，用于将不同的模型集成到统一的高性能模型中。

训练太晚，使用太早？资源匮乏的孟加拉大语言模型的必要性和可行性研究

分类： 计算和语言

作者： Tamzeed Mahfuz, Satak Kumar Dey, Ruwad Naswan, Hasnaen Adil, Khondker Salman Sayeed, Haz Sameen Shahgir

发布时间： 2024-06-29

链接： http://arxiv.org/abs/2407.00416v1

摘要： 每一代新一代的面向英语的大语言模型 (LLM) 都表现出增强的跨语言迁移能力，并且在低资源语言方面显着优于旧的 LLM。这就提出了一个问题：是否需要专门研究特定的低资源语言的大语言模型？我们的目标是针对孟加拉语探讨这个问题，孟加拉语是一种低到中等资源的印度-雅利安语，原产于南亚孟加拉地区。我们将 LLaMA-3 和 GPT-4 等开放权重和闭源 LLM 的性能与各种孟加拉语下游任务（包括翻译、摘要、释义、问答、和自然语言推理。我们的研究结果表明，虽然大语言模型通常在推理任务中表现出色，但他们在需要生成孟加拉语脚本的任务中的表现却不一致。主要挑战包括现有大语言模型对孟加拉语脚本的标记化效率低下，导致计算成本增加和潜在的性能下降。此外，我们还强调了孟加拉语 NLP 任务中常用的机器翻译数据集的偏差。我们的结论是，非常需要面向孟加拉语的大语言模型，但该领域目前缺乏开发高效模型所需的高质量预训练和指令调整数据集。

Teola：迈向基于 LLM 的应用程序的端到端优化

分类： 分布式、并行和集群计算, 人工智能, 网络和互联网架构

作者： Xin Tan, Yimin Jiang, Yitao Yang, Hong Xu

发布时间： 2024-06-29

链接： http://arxiv.org/abs/2407.00326v1

摘要： 基于大型语言模型 (LLM) 的应用程序由 LLM 和非 LLM 组件组成，每个组件都会导致端到端延迟。尽管在优化 LLM 推理方面付出了巨大努力，但端到端工作流程优化却被忽视了。现有框架采用任务模块的粗粒度编排，这将优化限制在每个模块内，并产生次优的调度决策。我们提出了细粒度的端到端编排，它利用任务原语作为基本单元，并将每个查询的工作流程表示为原语级数据流图。这显式地暴露了更大的设计空间，实现了跨不同模块原语的并行化和流水线优化，并增强了调度以提高应用程序级性能。我们为基于 LLM 的应用程序构建了 Teola，一个新颖的编排框架，用于实现该方案。综合实验表明，Teola 在各种流行的 LLM 应用程序中可以比现有系统实现高达 2.09 倍的加速。

大语言模型生成的自然语言满足缩放定律：新的探索和数据增强方法

分类： 计算和语言

作者： Zhenhua Wang, Guang Xu, Ming Ren

发布时间： 2024-06-29

链接： http://arxiv.org/abs/2407.00322v1

摘要： 随着大型语言模型 (LLM) 的兴起，自然语言处理得到了增强，例如基于 LLM 的数据增强。尽管如此，先前的研究存在两个主要问题：首先，缺乏对LLM（LLMNL）生成的自然语言是否真正与人类自然语言（HNL）一致这一关键基础问题的思考；其次，LLM 忽略了增强数据是随机生成的，这意味着并非所有数据都具有相同的训练价值，这可能会阻碍分类器的性能。为了解决这些挑战，我们引入了缩放定律来本质上计算 LLMNL 和 HNL。通过大量的实验，我们揭示了 LLMNL 中与 Mandelbrot 定律的轻微偏差（大约 0.2 Mandelbrot 指数），强调了 HNL 中的复杂性优势，并补充了关于语言风格的解释性讨论。这为LLM的拓展奠定了坚实的基础。此外，我们引入了一种用于少样本文本分类的新颖数据增强方法，称为 ZGPTDA，它利用由符合缩放定律驱动的模糊计算机制来做出有关 GPT-4 增强数据的决策。在现实场景中进行的大量实验证实了 ZGPTDA 的有效性（将 Bert 和 RoBerta 的 F1 提高了 7-10%）和竞争力（在 DeBerta 上超过最近的 AugGPT 和 GENCO 方法约 2% 的准确度）。此外，我们还揭示了一些有趣的见解，例如希尔伯格定律和泰勒定律可以为文本分类带来更多好处等。

LiteSearch：大语言模型的有效树搜索

分类： 计算和语言, 人工智能, 机器学习

作者： Ante Wang, Linfeng Song, Ye Tian, Baolin Peng, Dian Yu, Haitao Mi, Jinsong Su, Dong Yu

发布时间： 2024-06-29

链接： http://arxiv.org/abs/2407.00320v1

摘要： 最近的研究表明，树搜索算法（例如蒙特卡罗树搜索）可以显着提高大语言模型在复杂数学推理任务上的表现。然而，由于浪费的搜索策略，它们通常需要超过贪婪解码10倍以上的计算资源，使得它们难以在实际应用中部署。本研究引入了一种新颖的引导树搜索算法，具有动态节点选择和节点级探索预算（最大子节点数）计算来解决这个问题。通过考虑最终答案（历史）的搜索进度以及在没有任何逐步注释的情况下训练的价值网络（未来）的指导，我们的算法迭代地选择最有希望的树节点，然后在分配的计算预算的范围内扩展它。在 GSM8K 和 TabMWP 数据集上进行的实验表明，与基线方法相比，我们的方法不仅提供有竞争力的性能，而且计算成本显着降低。

对大语言模型在测试用例生成方面的能力进行大规模、独立和全面的研究

分类： 软件工程

作者： Wendkûuni C. Ouédraogo, Kader Kaboré, Haoye Tian, Yewei Song, Anil Koyuncu, Jacques Klein, David Lo, Tegawendé F. Bissyandé

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2407.00225v1

摘要： 单元测试对于识别类和方法等代码模块中的错误至关重要，但由于时间限制，单元测试经常被开发人员忽视。自动测试生成技术已经出现来解决这个问题，但通常缺乏可读性并且需要开发人员干预。大型语言模型 (LLM)，如 GPT 和 Mistral，在软件工程（包括测试生成）方面显示出前景。然而，它们的有效性仍不清楚。本研究对大语言模型进行了首次全面调查，评估了四个大语言模型和五种即时工程技术在单元测试生成方面的有效性。我们分析了由选定的高级指令调整 LLM 为从不同数据集中收集的 690 个 Java 类生成的 216,300 个测试。我们评估 LLM 生成的测试的正确性、可理解性、覆盖率和错误检测能力，并将其与流行的自动化测试工具 EvoSuite 进行比较。虽然大语言模型显示出潜力，但测试正确性的改进是必要的。这项研究揭示了大语言模型与传统方法相比的优势和局限性，为软件工程大语言模型的进一步研究铺平了道路。

评估大语言模型基本原理的人类一致性和模型可信度

分类： 计算和语言, 人工智能

作者： Mohsen Fayyaz, Fan Yin, Jiao Sun, Nanyun Peng

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2407.00219v1

摘要： 我们研究大型语言模型 (LLM) 如何通过基本原理（从反映 LLM 决策过程的输入文本中提取的一组标记）解释其生成。我们检查用两种方法提取的 LLM 基本原理：1）基于归因的方法，使用注意力或梯度来定位重要标记；2）基于提示的方法，指导 LLM 使用提示提取基本原理。通过大量的实验，我们表明，基于提示的基本原理比基于归因的基本原理更符合人类注释的基本原理，并且即使在模型性能较差的情况下也能证明与人类的合理一致。我们还发现，在之前的工作中发现的基于提示的方法的忠实性局限性可能与其崩溃的预测有关。通过在相应的数据集上微调这些模型，提示和归因方法都表现出更高的忠实度。我们的研究揭示了对大语言模型理由的更严格和公平的评估，尤其是基于激励的评估。

LLM 批评者帮助发现 LLM 错误

分类： 软件工程, 机器学习

作者： Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2407.00215v1

摘要： 基于人类反馈的强化学习（RLHF）从根本上受到人类正确评估模型输出的能力的限制。为了提高人类评估能力并克服这一限制，这项工作训练了“批评家”模型，帮助人类更准确地评估模型编写的代码。这些批评者本身就是接受 RLHF 培训的大语言模型，可以编写自然语言反馈，突出显示现实世界助理任务中代码中的问题。对于包含自然发生的 LLM 错误的代码，在 63% 的情况下，模型编写的批评比人工批评更受青睐，人工评估发现模型比人工承包商为代码审查付费发现的错误更多。我们进一步确认，经过微调的 LLM 批评者可以成功识别 ChatGPT 训练数据中的数百个被评为“完美”的错误，尽管这些任务中的大多数是非代码任务，因此对于批评者模型来说是不符合分布的。批评者可能有自己的局限性，包括幻觉错误，这些错误可能会误导人类犯下本来可以避免的错误，但批评者和承包商的人机团队发现的错误数量与大语言模型批评者相似，但产生的幻觉少于大语言模型单独的错误。

Web2Code：大规模网页到代码数据集和多模式大语言模型评估框架

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Sukmin Yun, Haokun Lin, Rusiru Thushara, Mohammad Qazim Bhat, Yongxin Wang, Zutao Jiang, Mingkai Deng, Jinhong Wang, Tianhua Tao, Junbo Li, Haonan Li, Preslav Nakov, Timothy Baldwin, Zhengzhong Liu, Eric P. Xing, Xiaodan Liang, Zhiqiang Shen

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.20098v1

摘要： 多模态大语言模型 (MLLM) 在各种理解和生成任务中跨图像、视频和音频等模态显示出令人印象深刻的成功。然而，当前的 MLLM 在理解网页屏幕截图和生成相应的 HTML 代码方面表现得非常差。为了解决这个问题，我们提出了 Web2Code，这是一个基准测试，由用于指令调整的新的大规模网页到代码数据集以及用于 MLLM 的网页理解和 HTML 代码翻译能力的评估框架组成。对于数据集构建，我们利用预训练的 LLM 来增强现有的网页到代码数据集，并生成渲染为图像的各种新网页池。具体来说，输入是网页图像和指令，而响应是网页的HTML代码。我们进一步在响应中包含有关网页内容的各种自然语言问答对，以便更全面地理解网页内容。为了评估模型在这些任务中的性能，我们开发了一个评估框架来测试 MLLM 在网页理解和网络到代码生成方面的能力。大量的实验表明，我们提出的数据集不仅有利于我们提出的任务，而且在一般视觉领域也有好处，而以前的数据集会导致性能更差。我们希望我们的工作能够有助于开发适用于基于网络的内容生成和任务自动化的通用 MLLM。我们的数据和代码将在 https://github.com/MBZUAI-LLM/web2code 上提供。

大语言模型中隐式词汇项的标记擦除

分类： 计算和语言, 机器学习, I.2.7

作者： Sheridan Feucht, David Atkinson, Byron Wallace, David Bau

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.20086v1

摘要： LLM 将文本处理为大致对应于单词的标记序列，其中不太常见的单词由多个标记表示。然而，单个标记通常在语义上与其所包含的单词/概念的含义无关。例如，Llama-2-7b 的标记器将单词“northeastern”拆分为标记 ['_n'、'ort'、'he'、'astern']，其中没有一个对应于诸如“north”或“”等语义上有意义的单位。东方。”类似地，像“Neil Young”这样的命名实体和像“break aleg”这样的多词表达的整体含义不能从它们的组成标记中直接推断出来。从机制上讲，大语言模型如何将这些任意的标记组转换为有用的高级表示？在这项工作中，我们发现命名实体和多标记单词的最后标记表示表现出明显的“擦除”效应，其中有关先前和当前标记的信息在早期层中很快被遗忘。利用这一观察结果，我们提出了一种通过检查跨层标记表示的差异来“读出”自回归 LLM 隐式词汇的方法，并为 Llama-2-7b 和 Llama-3-8B 提供了该方法的结果。据我们所知，这是探索大语言模型隐含词汇的首次尝试。

分子事实：大语言模型事实验证中去情境化的需求

分类： 计算和语言, 人工智能

作者： Anisha Gunjal, Greg Durrett

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.20079v1

摘要： 大语言模型（LLM）生成的自动事实性验证越来越广泛地用于对抗幻觉。文献中的一个主要紧张点是这种事实检查的粒度：较大的文本块很难进行事实检查，但更原子的事实（如命题）可能缺乏正确解释的上下文。在这项工作中，我们评估了上下文在这些原子事实中的作用。我们认为完全原子事实并不是正确的表示，并为分子事实定义了两个标准：去上下文性，或者它们可以独立存在的程度，以及极简性，或者为实现去上下文性添加多少额外信息。我们量化去情境化对极简性的影响，然后提出自动生成分子事实的基线方法，旨在添加适量的信息。我们与各种去情境化方法进行比较，发现分子事实在模糊的环境中平衡了极简性和事实验证的准确性。

在轻量级 LLM 中使用 API 使用 RLAIF 进行代码生成

分类： 计算和语言

作者： Sujan Dutta, Sayantan Mahinder, Raviteja Anantha, Bortik Bandyopadhyay

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.20060v1

摘要： AI 反馈强化学习 (RLAIF) 在各个领域都展现出巨大的潜力，包括减轻大语言模型输出的危害、增强文本摘要和数学推理。本文介绍了一个 RLAIF 框架，用于提高轻量级（<1B 参数）LLM 的代码生成能力。我们特别关注需要编写适当的 API 调用的代码生成任务，由于大语言模型中众所周知的幻觉问题，这具有挑战性。我们的框架通过专门的提示策略从较大的大语言模型（例如 GPT-3.5）中提取人工智能反馈，并使用这些数据来训练奖励模型，以更好地与较小的大语言模型保持一致。我们在 Gorilla 数据集上运行实验，并通过各种指标（包括 AST、ROUGE 和 Code-BLEU）仔细评估模型生成的代码的质量，并开发一个管道来准确计算其可执行率。我们的方法显着提高了经过微调的 LLM 基线的性能，使可执行率提高了 4.5%。值得注意的是，使用 RLAIF 训练的较小的 LLM 模型（780M 参数）超过了具有 7B 参数的更大的微调基线，实现了 1.0% 高的代码可执行率。

隐蔽恶意微调：保障 LLM 适应的挑战

分类： 密码学和安全, 人工智能, 计算和语言, 机器学习

作者： Danny Halawi, Alexander Wei, Eric Wallace, Tony T. Wang, Nika Haghtalab, Jacob Steinhardt

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.20053v1

摘要： 黑盒微调是一种新兴接口，用于使最先进的语言模型适应用户需求。然而，此类访问也可能让恶意行为者破坏模型安全。为了演示防御微调接口的挑战，我们引入了隐蔽的恶意微调，这是一种通过微调同时逃避检测来损害模型安全的方法。我们的方法构建了一个恶意数据集，其中每个单独的数据点都显得无害，但对数据集的微调教会模型使用编码的有害响应来响应编码的有害请求。应用于 GPT-4 时，我们的方法会生成一个经过微调的模型，该模型在 99% 的时间内都会对有害指令起作用，并避免被数据集检查、安全评估和输入/输出分类器等防御机制检测到。我们的研究结果质疑黑盒微调访问是否可以抵御复杂的对手。

理解和减轻大语言模型中的语言混乱

分类： 计算和语言

作者： Kelly Marchisio, Wei-Yin Ko, Alexandre Bérard, Théo Dehaze, Sebastian Ruder

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.20052v1

摘要： 我们研究了大语言模型的一个令人惊讶的局限性：它们无法一致地以用户所需的语言生成文本。我们创建了语言混淆基准 (LCB) 来评估此类失败，涵盖 15 种不同类型的语言以及现有和新创建的英语和多语言提示。我们评估了一系列反映实际用例的单语言和跨语言生成的大语言模型，发现 Llama Instruct 和 Mistral 模型表现出高度的语言混乱，即使是最强大的模型也无法一致地以正确的语言做出响应。我们观察到，以基础和英语为中心的指令模型更容易出现语言混乱，而复杂的提示和高采样温度会加剧这种混乱。我们发现，通过几次提示、多语言 SFT 和偏好调整可以部分缓解语言混乱。我们在 https://github.com/for-ai/language-confusion 发布了语言混淆基准，作为高效、可扩展的多语言评估的第一层。

ScaleBiO：用于 LLM 数据重新加权的可扩展双层优化

分类： 机器学习, 优化与控制

作者： Rui Pan, Jipeng Zhang, Xingyuan Pan, Renjie Pi, Xiaoyu Wang, Tong Zhang

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19976v1

摘要： 双层优化已在各种机器学习设置中显示出其实用性，但实践中的大多数算法都需要二阶信息，这使得扩展它们具有挑战性。直到最近，出现了一种一阶算法范例，能够有效解决双层优化问题。然而，这种范式的实际效率仍未得到验证，特别是在大型语言模型（LLM）的背景下。本文介绍了该范例的第一个可扩展实例，称为 ScaleBiO，重点关注大规模 LLM 数据重新加权的双层优化。通过与最近提出的名为 LISA 的内存高效训练技术相结合，我们的新颖算法允许范例在 8 个 A40 GPU 上扩展到 340 亿参数的 LLM，这标志着双层优化在大型 LLM 实际场景下的首次成功应用。根据经验，大量的数据重新加权实验验证了 ScaleBiO 对于不同尺度模型的有效性，包括 GPT-2、LLaMA-3-8B、GPT-NeoX-20B 和 Yi-34B，其中双层优化成功地过滤了不相关的数据样本和选择信息丰富的样本。理论上，ScaleBiO 确保学习数据权重的最优性，并保证在平滑和强凸目标上与传统的一阶双层优化范例相匹配的收敛性。

通过思维树上的偏好优化来校准大语言模型，以生成科学问题评分的基本原理

分类： 计算和语言

作者： Jiazheng Li, Hainiu Xu, Zhaoyue Sun, Yuxiang Zhou, David West, Cesare Aloisi, Yulan He

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19949v1

摘要： 生成证明评分决策合理性的基本原理是促进自动评分系统可解释性的一种很有前途的方法。然而，现有方法的准确性无法与基于分类器的方法相媲美。另外，生成的理由通常包含幻觉信息。为了解决这些问题，我们提出了一种新颖的框架，能够产生更忠实的理由，更重要的是，能够将性能与基于分类器的黑盒评分系统相匹配。我们首先通过查询大型语言模型（LLM）来生成思想树来模仿人类评估过程。然后，我们总结每个思想树路径的中间评估决策，以创建综合理由数据和理由偏好数据。最后，我们利用生成的合成数据通过两步训练过程来校准 LLM：监督微调和偏好优化。大量的实验结果表明，与之前的工作相比，我们的框架在 QWK 分数方面实现了 38% 的评估性能提高，同时产生了更高质量的理由，正如人类评估者和大语言模型所认可的那样。我们的工作揭示了使用从思想树路径获得的合成偏好数据执行偏好优化的有效性。

AnomaLLMy——通过低置信度单标记预测检测黑盒 LLM 中的异常标记

分类： 计算和语言, 人工智能

作者： Waligóra Witold

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19840v1

摘要： 本文介绍了 AnomaLLMy，这是一种通过仅 API 访问自动检测黑盒大型语言模型 (LLM) 中异常标记的新技术。 AnomaLLMy 利用低置信度单令牌预测作为成本效益指标，识别模型行为中的不规则行为，解决异常令牌降低模型质量和可靠性的问题。 AnomaLLMy 在 cl100k_base 数据集（GPT-4 的令牌集）上进行验证，检测到 413 个主要异常和 65 个次要异常，证明了该方法的效率，仅花费 24.39 美元的 API 积分。这项研究的见解预计将有助于提高大语言模型的稳健性和准确性，特别是在标记器的开发和评估方面。

NLPerturbator：研究代码大语言模型对自然语言变化的鲁棒性

分类： 软件工程, 计算和语言

作者： Junkai Chen, Zhenhao Li, Xing Hu, Xin Xia

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19783v1

摘要： 大型语言模型 (LLM) 在基于给定自然语言描述的代码生成方面取得了有希望的结果。它们已被集成到开源项目和商业产品中，以促进日常编码活动。提示中的自然语言描述对于大语言模型理解用户的需求至关重要。之前的研究发现，大语言模型对提示的变化很敏感，包括看起来不明显的细微变化。然而，自然语言描述在现实场景中通常会有所不同（例如不同的格式、语法和措辞）。先前对大语言模型稳健性的研究通常基于随机扰动，而这种扰动实际上可能不会发生。在本文中，我们进行了一项全面的研究，以调查代码大语言模型如何对现实场景中自然语言描述的变化保持鲁棒性。根据我们的文献综述和对从业者的在线调查，我们总结了 18 类自然语言扰动和 3 种同时出现的类别组合。我们提出了一个自动化框架 NLPerturbator，它可以在给定一组提示的情况下执行每个类别的扰动。通过使用六个代码LLM进行的一系列代码生成实验，我们发现扰动的提示会显着降低代码生成的性能（例如，高达21.2％，平均为4.8％至6.1％）。我们的研究强调了增强大语言模型对提示中现实世界变化的鲁棒性的重要性，以及精心构建提示的重要性。

MMRo：多模式大语言模型是否有资格成为家用机器人的大脑？

分类： 机器人技术, 计算机视觉和模式识别

作者： Jinming Li, Yichen Zhu, Zhiyuan Xu, Jindong Gu, Minjie Zhu, Xin Liu, Ning Liu, Yaxin Peng, Feifei Feng, Jian Tang

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19693v1

摘要： 对于机器人来说，在人类环境中充当有用的助手是一项根本性的挑战，因为这需要解决机器人技术中的一系列子问题，包括感知、语言理解、推理和规划。多模态大型语言模型（MLLM）的最新进展证明了它们在解决复杂数学问题、掌握常识和抽象推理方面的卓越能力。这导致最近使用 MLLM 作为机器人系统的大脑，使这些模型能够在触发任务执行的低级控制操作之前进行高级规划。然而，现有的 MLLM 在服务机器人大脑方面是否可靠仍不确定。在本研究中，我们引入了第一个评估机器人多模态 LLM (MMRo) 基准的基准，该基准测试 MLLM 用于机器人应用的能力。具体来说，我们确定了 MLLM 必须具备的四种基本能力，即感知、任务规划、视觉推理和安全测量，才能成为机器人的中央处理单元。我们为每种能力开发了多个场景，总共产生了 14 个评估指标。我们提供了各种 MLLM（包括商业模型和开源模型）的实验结果，以评估现有系统的性能。我们的研究结果表明，没有一个模型在所有领域都表现出色，这表明当前的 MLLM 还不够值得信赖，不足以充当机器人的认知核心。我们的数据可以在 https://mm-robobench.github.io/ 中找到。

LLMEasyQuant——一个易于使用的 LLM 量化工具包

分类： 机器学习

作者： Dong Liu, Meng Jiang, Kaiser Pister

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19657v1

摘要： 目前，针对LLM量化的量化方法有很多，但用户友好且易于本地部署的却很少。 TensorRT、Quanto等包底层结构较多，内部函数自调用较多，不利于开发者个性化开发和学习部署。因此，我们开发了LLMEasyQuant，它是一个旨在轻松量化部署的软件包，用户友好且适合初学者学习。

超越人类偏好：通过大语言模型探索强化学习轨迹评估和改进

分类： 人工智能

作者： Zichao Shen, Tianchen Zhu, Qingyun Sun, Shiqi Gao, Jianxin Li

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19644v1

摘要： 由于难以设计全面且精确的奖励函数，强化学习（RL）在评估复杂的游戏任务中的策略轨迹时面临挑战。这种固有的困难限制了强化学习在具有不同约束的游戏环境中的更广泛应用。基于偏好的强化学习（PbRL）提出了一个开创性的框架，它利用人类偏好作为关键奖励信号，从而避免了细致的奖励工程的需要。然而，从人类专家那里获取偏好数据成本高昂且效率低下，尤其是在具有复杂约束的条件下。为了应对这一挑战，我们提出了一个名为 LLM4PG 的支持 LLM 的自动偏好生成框架，该框架利用大型语言模型 (LLM) 的功能来抽象轨迹、对偏好进行排名并重建奖励函数以优化条件策略。对具有复杂语言约束的任务进行的实验证明了我们支持 LLM 的奖励函数的有效性，加速了 RL 收敛并克服了原始奖励结构下因进展缓慢或缺乏进展而导致的停滞。这种方法减轻了对人类专业知识的依赖，并展示了大语言模型在野外复杂环境中增强强化学习有效性的潜力。

背景专家的混合增强了大语言模型的长期背景意识

分类： 计算和语言

作者： Hongzhan Lin, Ang Lv, Yuhan Chen, Chen Zhu, Yang Song, Hengshu Zhu, Rui Yan

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19598v1

摘要： 许多研究表明，大型语言模型（LLM）对不同的上下文位置表现出不均匀的意识。它们有限的上下文意识可能导致忽视关键信息和随后的任务失败。虽然已经提出了几种方法来增强大语言模型的情境意识，但同时实现有效性和效率仍然具有挑战性。在本文中，对于利用 RoPE 作为位置嵌入的大语言模型，我们引入了一种称为“情境专家混合”的新颖方法（ MoICE）来应对这一挑战。 MoICE 包含两个关键组件：集成到 LLM 内每个注意力头的路由器和仅包含轻量级路由器的训练优化策略：(1) MoICE 将每个 RoPE 角度视为“上下文中”专家，被证明能够引导注意力头部到特定的上下文位置。因此，每个注意力头使用路由器动态选择的多个 RoPE 角度灵活地处理令牌，以关注所需的位置。这种方法降低了忽视重要上下文信息的风险。 (2) 仅路由器训练策略需要冻结 LLM 参数并仅更新几个步骤的路由器。当应用于 Llama 和 Mistral 等开源大语言模型时，MoICE 在长上下文理解和生成方面超越了多个任务的现有方法，同时保持了值得称赞的推理效率。

SK-VQA：大规模合成知识生成，用于培训情境增强多模式大语言模型

分类： 计算和语言, 计算机视觉和模式识别

作者： Xin Su, Man Luo, Kris W Pan, Tien Pei Chou, Vasudev Lal, Phillip Howard

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19593v1

摘要： 合成数据生成最近因其在训练大型视觉和语言模型方面的实用性而受到广泛关注。然而，合成数据在多模态上下文增强生成系统训练中的应用尚未得到探索。现有工作中的这一差距很重要，因为现有的视觉和语言模型（VLM）并未专门针对上下文增强生成进行训练。因此，适应此类模型的资源对于使其在检索增强生成（RAG）设置中使用至关重要，其中检索器用于收集相关信息，然后通过上下文增强将其提供给生成模型。为了解决这个具有挑战性的问题，我们生成了 SK-VQA：一个大型综合多模态数据集，包含超过 200 万个问答对，需要外部知识来确定最终答案。我们的数据集比现有的同类资源更大，而且更加多样化，拥有比之前提出的数据集多 11 倍的独特问题，并且包含来自更多种类来源的图像。通过大量的实验，我们证明我们的合成数据集不仅可以作为具有挑战性的基准，而且对于适应现有的生成多模态模型以进行上下文增强生成也非常有效。

合成癌症——用大语言模型增强蠕虫

分类： 密码学和安全, 人工智能

作者： Benjamin Zimmerman, David Zollikofer

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19570v1

摘要： 随着大型语言模型 (LLM) 的日益复杂，滥用的可能性急剧上升。作为瑞士人工智能安全奖的提交材料，我们提出了一种利用 LLM 进行两个关键流程的新型变形恶意软件。首先，LLM 用于自动代码重写，以逃避反恶意软件程序基于签名的检测。然后，恶意软件利用大语言模型对电子邮件回复进行社交工程，通过电子邮件传播其副本，以鼓励收件人执行附加的恶意软件。我们提交的内容包括一个功能性最小原型，强调了大语言模型对网络安全构成的风险，并强调了进一步研究智能恶意软件的必要性。

xTower：用于解释和纠正翻译错误的多语言大语言模型

分类： 计算和语言

作者： Marcos Treviso, Nuno M. Guerreiro, Sweta Agrawal, Ricardo Rei, José Pombal, Tania Vaz, Helena Wu, Beatriz Silva, Daan van Stigt, André F. T. Martins

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19482v1

摘要： 虽然机器翻译 (MT) 系统在基准测试中取得了越来越强的性能，但它们生成的翻译经常存在错误和异常。了解这些错误可能有助于提高翻译质量和用户体验。本文介绍了 xTower，这是一种构建在 TowerBase 之上的开放式大语言模型 (LLM)，旨在为翻译错误提供自由文本解释，以指导生成更正的翻译。 xTower 生成的解释的质量通过内在和外在评估进行评估。我们要求专家翻译从两个维度评估解释的质量：与所解释的错误范围的相关性以及对错误理解和提高翻译质量的帮助。从外部来看，我们在生成翻译校正方面跨各种实验设置测试了 xTower，证明了翻译质量的显着改进。我们的研究结果强调了 xTower 的潜力，不仅可以为自动翻译提供合理且有用的解释，还可以利用它们来建议更正的翻译。

大语言模型的卓越稳健性：推理阶段？

分类： 机器学习, 人工智能, 计算和语言

作者： Vedang Lad, Wes Gurnee, Max Tegmark

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19384v1

摘要： 我们通过删除和交换相邻层来展示和研究大型语言模型的卓越鲁棒性。我们发现，删除和交换干预措施在不进行微调的情况下保留了原始模型预测精度的 72-95%，而具有更多层的模型表现出更强的鲁棒性。基于分层干预和进一步实验的结果，我们假设八个不同模型存在四个通用的推理阶段：去标记化、特征工程、预测集成和残差锐化。第一阶段集成本地信息，将原始标记表示提升为更高级别的上下文表示。接下来是任务和实体特定功能的迭代细化。然后，模型的后半部分从相变开始，其中由于专门的模型组件，隐藏表示与词汇空间更加一致。最后，最后一层通过消除给预测添加噪声的过时特征来锐化以下标记分布。

模型编辑的基本问题：理性信念修正在大语言模型中应该如何运作？

分类： 计算和语言, 人工智能

作者： Peter Hase, Thomas Hofweber, Xiang Zhou, Elias Stengel-Eskin, Mohit Bansal

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19354v1

摘要： 模型编辑问题涉及语言模型如何随着时间的推移学习有关世界的新事实。虽然模型编辑的实证研究引起了广泛的关注，但模型编辑的概念基础仍然不稳定——这也许并不奇怪，因为模型编辑本质上是信念修正，这是一个传奇的哲学问题，几十年来一直没有简洁的解决方案。尽管如此，模型编辑仍然需要一个解决方案，因为我们需要能够控制语言模型中的知识。考虑到这一目标，本文批评了模型编辑问题的标准制定，并提出了模型编辑研究的正式测试平台。我们首先描述了模型编辑的 12 个开放问题，基于以下挑战：(1) 定义问题，(2) 制定基准，以及 (3) 假设大语言模型首先具有可编辑的信念。其中许多挑战非常难以解决，例如确定编辑的深远影响，标记事实之间的概率蕴涵，以及更新代理模拟器的信念。接下来，我们介绍一个基于维基数据的用于模型编辑的半合成数据集，我们可以在其中根据理想化贝叶斯代理给出的标签来评估编辑。这使我们能够准确地说出语言模型中的信念修正如何达不到理想的认知标准。我们鼓励进一步研究探索可以与这种黄金标准进行比较的环境。我们的代码公开于：https://github.com/peterbhase/LLM-belief-revision

利用 LLM 生成的先验知识快速启动 Bandits

分类： 机器学习, 人工智能, 计算和语言

作者： Parand A. Alamdari, Yanshuai Cao, Kevin H. Wilson

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19317v1

摘要： 我们提供了大量证据，证明将大型语言模型 (LLM) 与上下文 Multi-Armed Bandit 框架集成的好处。上下文强盗已广泛应用于推荐系统中，以根据用户特定的上下文生成个性化建议。我们证明，大语言模型在富含人类知识和偏好的广泛语料库上进行了预先训练，可以很好地模拟人类行为，从而启动上下文多臂老虎机，以减少在线学习的遗憾。我们通过提示大语言模型生成强盗的近似人类偏好的预训练数据集，提出了一种上下文强盗的初始化算法。这显着减少了在线学习的遗憾和训练此类模型的数据收集成本。我们的方法通过两组不同老虎机设置的实验进行了实证验证：一组利用 LLM 作为预言机，另一组利用联合调查实验的数据进行现实世界的实验。

LiveBench：具有挑战性、无污染的 LLM 基准

分类： 计算和语言, 人工智能, 机器学习

作者： Colin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19314v1

摘要： 测试集污染（其中来自基准测试的测试数据最终出现在较新模型的训练集中）是公平 LLM 评估的一个有据可查的障碍，并且可以很快使基准测试过时。为了缓解这一问题，最近的许多基准测试都从人类或大语言模型法官那里众包了新的提示和评估；然而，这些可能会引入显着的偏差，并在对难题进行评分时崩溃。在这项工作中，我们为大语言模型引入了一个新的基准，旨在免受测试集污染以及大语言模型评审和人工众包的陷阱的影响。我们发布了 LiveBench，这是第一个基准测试，它 (1) 包含来自最新信息源的经常更新的问题，(2) 根据客观的真实值自动对答案进行评分，以及 (3) 包含各种具有挑战性的任务，涵盖数学、编码、推理、语言、指令遵循和数据分析。为了实现这一目标，LiveBench 包含基于最近发布的数学竞赛、arXiv 论文、新闻文章和数据集的问题，并且包含来自先前基准测试（例如 Big-Bench Hard、AMPS 和IFEval。我们评估了许多著名的闭源模型，以及数十个大小从 0.5B 到 110B 的开源模型。 LiveBench 很困难，顶级模型的准确率低于 65%。我们发布所有问题、代码和模型答案。问题将每月添加和更新，我们将随着时间的推移发布新任务和更难版本的任务，以便 LiveBench 能够区分大语言模型未来改进的能力。我们欢迎社区参与和协作，以扩展基准任务和模型。

从人造针到真正的大海捞针：通过对合成数据进行微调来提高大语言模型的检索能力

分类： 机器学习, 人工智能, 计算和语言

作者： Zheyang Xiong, Vasilis Papageorgiou, Kangwook Lee, Dimitris Papailiopoulos

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19292v1

摘要： 最近的研究表明，大型语言模型 (LLM) 在处理长上下文输入时很难准确检索信息并保持推理能力。为了解决这些限制，我们提出了一种微调方法，利用精心设计的包含数字键值检索任务的合成数据集。我们在 GPT-3.5 Turbo 和 Mistral 7B 等模型上进行的实验表明，在此数据集上微调 LLM 可以显着提高 LLM 在较长上下文环境中的信息检索和推理能力。我们对微调模型进行了分析，说明了从综合任务评估到实际任务评估的技能转移（例如，对于 GPT-3.5 Turbo，$20$ 文档 MDQA 的 $10.5%$ 改进为 $10$）。我们还发现，在一般基准上微调的 LLM 的性能几乎保持不变，而在其他基线长上下文增强数据上微调的 LLM 可能会鼓励幻觉（例如，在 TriviaQA 上，在我们的合成数据上微调的 Mistral 7B 不会导致性能下降，而其他基线数据可能会导致性能下降）导致跌幅从 $2.33%$ 到 $6.19%$)。我们的研究强调了对合成数据进行微调以提高大语言模型在较长上下文任务上的表现的潜力。

HuatuoGPT-Vision，致力于将医学视觉知识大规模注入多模式大语言模型

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者： Junying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19280v1

摘要： 多模态大语言模型 (MLLM)（例如 GPT-4V）的快速发展带来了显着的进步。然而，由于数据隐私问题和高昂的注释成本，导致医学视觉文本数据的数量和质量受到限制，这些模型在医学多模态能力方面仍然面临挑战。虽然开创性的方法利用 PubMed 的大规模、去识别化的医学图像文本对来解决这些限制，但由于固有的数据噪声，它们仍然存在不足。为了解决这个问题，我们提炼了 PubMed 中的医学图像文本对，并以“非盲”能力使用 MLLM (GPT-4V) 对数据进行去噪和重新格式化，从而创建了包含 130 万个医学 VQA 样本的 PubMedVision 数据集。我们的验证表明：（1）PubMedVision 可以显着增强当前 MLLM 的医疗多模式能力，在包括 MMMU 健康与医学赛道在内的基准方面显示出显着改进；（2）医学专家的手动检查和实证结果验证了我们的数据集与其他数据构建方法相比具有优越的数据质量。使用 PubMedVision，我们训练了 34B 医疗 MLLM HuatuoGPT-Vision，它在开源 MLLM 中在医疗多模态场景中表现出优越的性能。

AutoPureData：自动过滤 Web 数据以进行 LLM 微调

分类： 计算和语言

作者： Praneeth Vadlapati

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19271v1

摘要： 最新且可靠的大型语言模型 (LLM) 一直受到追捧。通常，大语言模型在固定数据集上进行培训，然后进行部署。然而，训练数据不断变得过时。由于偏见、垃圾邮件和其他不安全或不需要的文本，使用网络数据进行人工智能自动训练涉及到对数据质量和安全性的重大担忧。纯数据对于生成可靠的模型至关重要。使用不纯数据训练模型可能会导致不良结果。这项研究提出了一种系统，可以收集网络数据并在现有可信人工智能模型的帮助下自动过滤掉不需要的文本。在实验中，收集并过滤了一小部分网络数据样本，证明了系统在净化数据方面的有效性。

使用大语言模型授权代理模拟课堂教育

分类： 计算和语言, 人机交互

作者： Zheyuan Zhang, Daniel Zhang-Li, Jifan Yu, Linlu Gong, Jinchang Zhou, Zhiyuan Liu, Lei Hou, Juanzi Li

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19226v1

摘要： 大语言模型（LLM）已被应用于各种智能教育任务中以辅助教学。虽然初步探索主要集中于由大语言模型授权的独立代理来完成特定的教育任务，但大语言模型在多代理协作框架内模拟真实用户参与的课堂的潜力仍有待探索。在这项工作中，我们提出了 SimClass，一个涉及用户参与的多主体课堂模拟框架。我们识别具有代表性的班级角色，并为自动课堂教学引入一种新颖的班级控制机制，并在两门真实课程中进行用户实验。利用弗兰德斯互动分析系统和教育分析中的探究社区理论框架，我们证明大语言模型可以有效地模拟传统的课堂互动模式，同时增强用户体验。我们还观察了 SimClass 中代理之间的新兴群体行为，其中代理协作在课堂上创建活跃的交互，以改善用户的学习过程。我们希望这项工作能够开创大语言模型授权的多智能体系统在虚拟课堂教学中的应用。

T-FREE：通过稀疏表示实现内存高效嵌入的无分词器生成 LLM

分类： 计算和语言, 人工智能, 机器学习

作者： Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19223v1

摘要： 分词器对于大型语言模型中的信息编码至关重要，但它们的发展最近陷入停滞，并且存在固有的弱点。主要限制包括计算开销、无效的词汇使用以及不必要的大型嵌入层和头层。此外，它们的性能偏向参考语料库，导致代表性不足的语言的有效性降低。为了解决这些问题，我们提出了 T-FREE，它通过字符三元组上的稀疏激活模式直接嵌入单词，并且不需要参考语料库。 T-FREE 本质上利用了形态相似性，并允许对嵌入层进行强力压缩。在我们详尽的实验评估中，我们在这些层上实现了具有竞争力的下游性能，参数减少了 85% 以上。此外，T-FREE 在跨语言迁移学习方面显示出显着改进。

对比策略梯度：以监督友好的方式在序列级分数上调整大语言模型

分类： 机器学习

作者： Yannis Flet-Berliac, Nathan Grinsztajn, Florian Strub, Eugene Choi, Chris Cremer, Arash Ahmadian, Yash Chandak, Mohammad Gheshlaghi Azar, Olivier Pietquin, Matthieu Geist

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19185v1

摘要： 强化学习 (RL) 已用于使用根据偏好数据训练的奖励模型来微调大型语言模型 (LLM)，以更好地符合人类判断。最近推出的直接对齐方法通常更简单、更稳定、计算量更轻，可以更直接地实现这一点。然而，这些方法无法优化任意奖励，并且基于偏好的奖励并不是大语言模型感兴趣的唯一奖励（例如，用于代码生成的单元测试或用于摘要的文本蕴含等）。强化学习微调通常通过不同的策略梯度来完成，这需要在策略或接近策略的样本，需要昂贵的代数。我们引入了对比策略梯度（CoPG），这是一种简单且具有数学原理的新强化学习算法，甚至可以根据偏离策略的数据来估计最优策略。它可以被视为一种离政策的政策梯度方法，不依赖于重要的采样技术，并强调使用（正确的）状态基线的重要性。我们展示了这种方法来推广直接对齐方法 IPO（身份偏好优化）和经典策略梯度。我们在玩具强盗问题上对所提出的 CoPG 进行了实验，以说明其属性，并在总结任务上对 LLM 进行微调，使用学习的奖励函数作为实验目的的基本事实。

应用大语言模型重新评分休闲对话的 N 最佳 ASR 假设：领域适应和上下文延续的影响

分类： 音频和语音处理, 计算和语言

作者： Atsunori Ogawa, Naoyuki Kamo, Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Takatomo Kano, Naohiro Tawara, Marc Delcroix

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.18972v1

摘要： 大型语言模型 (LLM) 已成功应用于重新评分自动语音识别 (ASR) 假设。然而，他们重新评估随意对话的 ASR 假设的能力尚未得到充分探索。在本研究中，我们通过在 CHiME-7 远程 ASR (DASR) 任务上使用 Llama2 执行 N 最佳 ASR 假设重新评分来揭示这一点。 Llama2 是最具代表性的 LLM 之一，CHiME-7 DASR 任务提供了多个参与者之间随意对话的数据集。我们研究了执行 N 最佳重新评分时 LLM 的领域适应和上下文遗留的影响。实验结果表明，即使没有域自适应，Llama2 的性能也优于标准大小的域自适应 Transformer-LM，尤其是在使用长上下文时。域适应缩短了 Llama2 实现最佳性能所需的上下文长度，即降低了 Llama2 的计算成本。

评估大语言模型在 Android 应用程序漏洞分析中的有效性

分类： 密码学和安全

作者： Vasileios Kouliaridis, Georgios Karopoulos, Georgios Kambourakis

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.18894v1

摘要： 针对 Android 应用程序的攻击频率不断增加，加上最近大型语言模型 (LLM) 的流行，需要全面了解后者识别潜在漏洞的能力，这是降低总体风险的关键。为此，我们手头的工作比较了九个最先进的大语言模型检测最新开放全球应用程序安全项目 (OWASP) 移动 Top 10 中列出的 Android 代码漏洞的能力。每个大语言模型都根据开放数据集进行了评估超过 100 个易受攻击的代码样本（包括混淆代码样本），评估每个模型识别关键漏洞的能力。我们的分析揭示了每个大语言模型的优势和劣势，确定了影响其表现的重要因素。此外，我们还通过检索增强生成 (RAG) 提供了对上下文增强的见解，用于检测 Android 代码漏洞，这反过来又可能推动安全应用程序开发。最后，虽然报告的有关代码漏洞分析的结果显示出希望，但它们也揭示了不同大语言模型之间的显着差异。

LayoutCopilot：用于交互式模拟布局设计的大语言模型支持的多代理协作框架

分类： 硬件架构

作者： Bingyang Liu, Haoyi Zhang, Xiaohan Gao, Zichen Kong, Xiyuan Tang, Yibo Lin, Runsheng Wang, Ru Huang

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.18873v1

摘要： 模拟布局设计很大程度上涉及人类和设计工具之间的交互过程。这些工具通常设计为使用脚本命令或可视化按钮进行操作，特别是对于那些交互式自动化功能，这些功能具有陡峭的学习曲线和繁琐的用户体验，这对设计人员的采用造成了显着的障碍。为了解决此类可用性问题，本文介绍了 LayoutCopilot，这是一种由大型语言模型 (LLM) 提供支持的开创性多智能体协作框架，用于交互式模拟布局设计。 LayoutCopilot 通过将自然语言指令转换为可执行脚本命令来简化人机交互，并将高级设计意图解释为可操作的建议，从而显着简化设计流程。实验结果证明了 LayoutCopilot 在处理实际模拟设计方面的灵活性、效率和可访问性。

网络安全中的心理分析：大语言模型和心理语言学特征

分类： 计算和语言, 机器学习

作者： Jean Marie Tshimula, D'Jeff K. Nkashama, Jean Tshibangu Muabila, René Manassé Galekwa, Hugues Kanda, Maximilien V. Dialufuma, Mbuyi Mukendi Didier, Kalala Kalonji, Serge Mundele, Patience Kinshie Lenye, Tighana Wenge Basele, Aristarque Ilunga, Christian N. Mayemba, Nathanaël M. Kasoro, Selain K. Kasereka, Hardy Mikese, Pierre-Martin Tardif, Marc Frappier, Froduald Kabanza, Belkacem Chikhaoui, Shengrui Wang, Ali Mulenda Sumbu, Xavier Ndona, Raoul Kienge-Kienge Intudi

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18783v1

摘要： 网络威胁日益复杂，需要创新的网络安全方法。在本文中，我们探讨了心理剖析技术的潜力，特别关注大型语言模型（LLM）和心理语言学特征的利用。我们研究心理学和网络安全的交叉点，讨论如何利用大语言模型来分析文本数据以识别威胁行为者的心理特征。我们探索将心理语言学特征（例如语言模式和情感线索）纳入网络安全框架。 \iffalse 通过案例研究和实验，我们讨论了这些方法在增强威胁检测和缓解策略方面的有效性。\fi 我们的研究强调了将心理学观点融入网络安全实践中以加强针对不断变化的威胁的防御机制的重要性。

重温直言三段论：大语言模型分析直言三段论的逻辑推理能力回顾

分类： 计算和语言

作者： Shi Zong, Jimmy Lin

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18762v1

摘要： 人们提出了大量基准来评估大型语言模型 (LLM) 在逻辑推理任务中的表现。然而，如何正确评估这种能力仍然是一个悬而未决的问题。在本文中，我们系统地概述了大语言模型用于分析分类三段论的逻辑推理能力的先前研究。我们首先从纯粹的逻辑角度研究分类三段论的所有可能变化，然后检查现有数据集测试的底层配置（即情绪和图形）。我们的结果表明，与基于模板的合成数据集相比，众包方法通常会牺牲分类三段论的配置（即情绪和图形）的覆盖范围以获取更多的语言变化，从而给不同情况下全面测试大语言模型带来了挑战。然后，我们继续总结大语言模型表现的发现和观察，以从当前文献中推断三段论的有效性。错误率细分分析表明，量词的解释似乎是当前限制大语言模型表现的瓶颈，因此值得更多关注。最后，我们讨论了研究人员计划未来发布分类三段论数据集时可能值得考虑的几个要点。我们希望我们的工作不仅能够及时回顾有关分类三段论的当前文献，而且能够激发社区之间，特别是计算语言学家和逻辑学家之间更多的跨学科研究。

使用阿拉伯语音译和arabizi 越狱大语言模型

分类： 机器学习, 计算和语言

作者： Mansour Al Ghanim, Saleh Almohaimeed, Mengxin Zheng, Yan Solihin, Qian Lou

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18725v1

摘要： 这项研究确定了大型语言模型 (LLM) 对“越狱”攻击的潜在漏洞，特别关注阿拉伯语言及其各种形式。虽然大多数研究都集中在基于英语的提示操作上，但我们的调查扩大了研究阿拉伯语的范围。我们最初用标准化阿拉伯语测试了 AdvBench 基准，发现即使使用前缀注入等提示操作技术，也不足以促使大语言模型生成不安全内容。然而，当使用阿拉伯语音译和聊天语言（或 arabizi）时，我们发现 OpenAI GPT-4 和 Anthropic Claude 3 Sonnet 等平台上可能会产生不安全的内容。我们的研究结果表明，使用阿拉伯语及其各种形式可能会暴露可能隐藏的信息，从而可能增加越狱攻击的风险。我们假设这种暴露可能是由于模型学习到了与特定单词的联系，这凸显了对所有语言形式进行更全面的安全培训的必要性。

模拟美国参议院：大语言模型驱动的代理方法对立法行为和两党合作进行建模

分类： 人机交互, 计算和语言

作者： Zachary R. Baker, Zarif L. Azher

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18702v1

摘要： 本研究介绍了一种使用大语言模型驱动的虚拟代理来模拟立法流程的新颖方法，重点关注美国参议院情报委员会。我们开发了代表个别参议员的代理人，并将他们置于模拟的委员会讨论中。特工们展示了参与现实辩论、提供深思熟虑的反思以及在某些条件下找到两党解决方案的能力。值得注意的是，模拟还显示出在应对外部扰动时向两党合作建模的前景。我们的结果表明，这种由大语言模型驱动的方法可以成为理解和潜在改进立法流程的宝贵工具，支持更广泛的研究结果模式，强调基于大语言模型的代理人如何有效地模拟现实世界的现象。未来的工作将侧重于增强代理复杂性、扩大模拟范围以及探索在政策测试和谈判中的应用。

学习使用黑盒大语言模型纠正 QA 推理

分类： 机器学习, 人工智能, 计算和语言

作者： Jaehyung Kim, Dongyoung Kim, Yiming Yang

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18695v1

摘要： 最近机器学习中的一个公开挑战是如何在黑盒设置中提高大型语言模型（LLM）的推理能力，即无法访问输出标记概率等详细信息。现有的方法要么依赖可访问性（这通常是不现实的），要么显着增加训练和推理时间成本。本文通过提出一种新方法来解决这些限制或缺点，即 CoBB（改进黑盒大语言模型的 QA 推理的正确方法）。它使用训练有素的适应模型来执行从原始黑盒 LLM 的经常不完美的推理到正确或改进的推理的 seq2seq 映射。具体来说，适应模型使用相对较小的开源 LLM 进行初始化，并在子采样训练对的集合上进行调整。为了选择正确和错误推理的代表对，我们将数据集构造公式化为一个优化问题，最大限度地减少采样子集和整个集合之间的统计差异，并通过遗传算法解决它。然后，我们通过对比正确和错误推理的可能性来训练采样对的适应模型。我们的实验结果表明，与表现最佳的适应基线相比，CoBB 显着提高了各种 QA 基准的推理准确性。

大语言模型的少数样本个性化反应不一致

分类： 机器学习, 人工智能, 计算和语言

作者： Jaehyung Kim, Yiming Yang

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18678v1

摘要： 随着用户多样性的增加，通过大型语言模型 (LLM) 提供个性化响应的能力变得越来越重要。由于缺乏个性化学习或依赖共享个人数据，现有方法在大语言模型个性化方面只取得了有限的成功。本文提出了一种新方法，用于对大语言模型的少数样本个性化及其错误的响应（费米）。我们的关键想法是根据用户个人资料（例如人口统计信息）和之前意见的一些示例，使用大语言模型逐步改进提示，为每个用户学习一组个性化提示。在快速改进的迭代过程中，我们纳入了大语言模型反应不一致的背景，这对于大语言模型的有效个性化尤其重要。此外，我们开发了一种有效的推理方法，以进一步利用测试查询的上下文和个性化提示。我们的实验结果表明，与性能最佳的基准相比，费米显着提高了各种基准的性能。

了解大语言模型的需求：检索增强生成的双重偏好调整

分类： 计算和语言, 人工智能, 机器学习

作者： Guanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18676v1

摘要： 检索增强生成（RAG）已证明可以有效缓解大型语言模型（LLM）的幻觉问题。然而，将检索器与不同的大语言模型的知识偏好保持一致的困难不可避免地给开发可靠的 RAG 系统带来了不可避免的挑战。为了解决这个问题，我们提出了 DPA-RAG，这是一个通用框架，旨在协调 RAG 系统内的不同知识偏好。具体来说，我们最初引入了偏好知识构建管道，并结合了五种新颖的查询增强策略来缓解偏好数据稀缺性。基于偏好数据，DPA-RAG 完成外部和内部偏好对齐： 1）它将成对、逐点和对比偏好对齐能力联合集成到重排序器中，实现 RAG 组件之间的外部偏好对齐。 2）在普通监督微调（SFT）之前进一步引入了预对齐阶段，使大语言模型能够隐式捕获与其推理偏好一致的知识，实现大语言模型的内部对齐。四个知识密集型 QA 数据集的实验结果表明，DPA-RAG 优于所有基线，并无缝集成黑盒和开源 LLM 阅读器。进一步的定性分析和讨论也为实现可靠的 RAG 系统提供了经验指导。我们的代码可在 https://github.com/dongguanting/DPA-RAG 上公开获取。

RouteLLM：学习使用偏好数据路由大语言模型

分类： 机器学习, 人工智能, 计算和语言

作者： Isaac Ong, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E. Gonzalez, M Waleed Kadous, Ion Stoica

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18665v1

摘要： 大型语言模型 (LLM) 在各种任务中展现出令人印象深刻的功能，但选择使用哪种模型通常需要在性能和成本之间进行权衡。更强大的模型虽然有效，但费用更高，而能力较差的模型更具成本效益。为了解决这个困境，我们提出了几种有效的路由器模型，它们在推理过程中动态选择更强和更弱的LLM，旨在优化成本和响应质量之间的平衡。我们为这些路由器开发了一个训练框架，利用人类偏好数据和数据增强技术来提高性能。我们对广泛认可的基准的评估表明，我们的方法显着降低了成本（在某些情况下降低了 2 倍以上），同时又不影响响应的质量。有趣的是，我们的路由器模型还展示了显着的迁移学习功能，即使在测试时强模型和弱模型发生变化也能保持其性能。这凸显了这些路由器为部署 LLM 提供经济高效且高性能的解决方案的潜力。

Step-DPO：大语言模型长链推理的逐步偏好优化

分类： 机器学习, 人工智能, 计算和语言

作者： Xin Lai, Zhuotao Tian, Yukang Chen, Senqiao Yang, Xiangru Peng, Jiaya Jia

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18629v1

摘要： 由于准确性所需的广泛且精确的推理链，数学推理对大型语言模型 (LLM) 提出了重大挑战。确保每个推理步骤的正确性至关重要。为了解决这个问题，我们的目标是通过学习人类反馈来增强大语言模型的稳健性和真实性。然而，直接偏好优化 (DPO) 对长链数学推理的好处有限，因为采用 DPO 的模型很难识别错误答案中的详细错误。这种限制源于缺乏细粒度的过程监督。我们提出了一种简单、有效且数据高效的方法，称为 Step-DPO，它将单个推理步骤视为偏好优化的单位，而不是整体评估答案。此外，我们还为 Step-DPO 开发了数据构建管道，能够创建包含 10K 逐步偏好对的高质量数据集。我们还观察到，在 DPO 中，由于后者的非分布性质，自行生成的数据比人类或 GPT-4 生成的数据更有效。我们的研究结果表明，对于具有超过 70B 参数的模型，只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤，即可将 MATH 的准确度提高近 3%。值得注意的是，Step-DPO应用于Qwen2-72B-Instruct时，在MATH和GSM8K测试集上的得分分别达到70.8%和94.0%，超越了一系列闭源模型，包括GPT-4-1106、 Claude-3-Opus 和 Gemini-1.5-Pro。我们的代码、数据和模型可在 https://github.com/dvlab-research/Step-DPO 获取。

基于大语言模型的生物医学发现知识合成和科学推理框架

分类： 定量方法, 人工智能, 计算和语言

作者： Oskar Wysocki, Magdalena Wysocka, Danilo Carvalho, Alex Teodor Bogatu, Danilo Miranda Gusicuma, Maxime Delmas, Harriet Unsworth, Andre Freitas

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18626v1

摘要： 我们展示使用 Lunar 框架开发的 BioLunar，作为支持生物分析的工具，特别强调肿瘤学中生物标志物发现的分子水平证据丰富。该平台集成了大型语言模型（LLM），以促进跨分布式证据空间的复杂科学推理，增强异构数据源的协调和推理能力。 BioLunar 展示了其在癌症研究中的实用性，它利用模块化设计、可重复使用的数据访问和数据分析组件以及低代码用户界面，使所有编程级别的研究人员都能够构建支持大语言模型的科学工作流程。通过促进自动科学发现和从异构证据中进行推理，BioLunar 体现了大语言模型、专业数据库和生物医学工具之间集成的潜力，以支持专家级知识合成和发现。

请告诉我！用于机器翻译和摘要评估的开源大语言模型的大规模快速探索

分类： 计算和语言

作者： Christoph Leiter, Steffen Eger

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18528v1

摘要： 大型语言模型 (LLM) 彻底改变了 NLP 领域。值得注意的是，它们的上下文学习功能还可以用作自然语言生成的评估指标，使它们在资源匮乏的场景和时间受限的应用程序中特别具有优势。在这项工作中，我们引入了 PrExMe，这是一种大规模的指标提示探索，我们在机器翻译 (MT) 和摘要数据集上评估了 720 多个基于开源 LLM 指标的提示模板，总计超过 660 万次评估。这种广泛的比较（1）作为最近开源大语言模型绩效的基准作为衡量标准，（2）探讨了不同提示策略的稳定性和可变性。我们发现，一方面，在某些情况下提示是稳定的。例如，一些大语言模型表现出特殊的偏好，喜欢用文本标签对生成的文本进行评分，而其他大语言模型则更喜欢返回数字分数。另一方面，提示和模型排名的稳定性可能容易受到看似无害的变化的影响。例如，将请求的输出格式从“0到100”更改为“-1到+1”可以强烈影响我们评估中的排名。我们的研究有助于理解不同的提示方法对基于大语言模型的机器翻译和总结评估指标的影响，强调最稳定的提示模式和潜在的局限性。

CharXiv：多模式大语言模型中现实图表理解的差距

分类： 计算和语言, 计算机视觉和模式识别

作者： Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18521v1

摘要： 将多模态大型语言模型 (MLLM) 应用于分析科学论文或财务报告等实际任务时，图表理解发挥着关键作用。然而，现有的数据集通常侧重于过于简单和同质的图表以及基于模板的问题，导致对进展的衡量过于乐观。我们证明，尽管开源模型在这些基准测试中似乎优于强大的专有模型，但使用略有不同的图表或问题进行简单的压力测试可能会使性能下降高达 34.5%。在这项工作中，我们提出了 CharXiv，这是一个综合评估套件，涉及 arXiv 论文中的 2,323 个自然、具有挑战性和多样化的图表。 CharXiv 包括两种类型的问题：1）有关检查基本图表元素的描述性问题，2）需要综合图表中复杂视觉元素的信息的推理问题。为了确保质量，所有图表和问题均由人类专家精心挑选、策划和验证。我们的结果显示，最强的专有模型（即 GPT-4o）的推理能力与最强的开源模型（即 InternVL Chat V1.5）之间存在巨大的、先前被低估的差距，前者的准确率达到 47.1%达到29.2%。所有模型都远远落后于人类 80.5% 的表现，凸显了现有 MLLM 的图表理解能力的弱点。我们希望 CharXiv 通过提供更现实、更忠实的进度衡量标准来促进未来对 MLLM 图理解的研究。项目页面和排行榜：https://charxiv.github.io/

“ChatGPT 是比我的教授更好的解释器吗？”：与人类基线相比，评估大语言模型在对话中的解释能力

分类： 计算和语言

作者： Grace Li, Milad Alshomary, Smaranda Muresan

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18512v1

摘要： 解释构成了知识共享的基础，并建立在沟通原则、社会动态和学习理论的基础上。我们特别关注对话式的解释方法，因为上下文具有高度的适应性和交互性。我们的研究利用了之前关于解释性行为的工作，这是一个框架，用于理解解释者和被解释者在对话中用来解释、理解和与对方互动的不同策略。我们使用的 5 级数据集是由 Wachsmuth 等人根据 WIRED YouTube 系列构建的，后来由 Booshehri 等人注释。具有解释性行为。这些注释提供了一个框架，用于理解解释者和被解释者在制作响应时如何构建他们的响应。随着过去一年生成式人工智能的兴起，我们希望更好地了解大型语言模型（LLM）的功能以及它们如何增强专家解释者在对话环境中的能力。为了实现这一目标，5 级数据集（我们使用 Booshehri 等人的 2023 年带解释性行为的注释数据集）使我们能够审核大语言模型参与解释对话的能力。为了评估 LLM 在生成解释器响应方面的有效性，我们比较了 3 种不同的策略，我们要求人类注释者评估 3 种不同的策略：人类解释器响应、GPT4 标准响应、带有解释移动的 GPT4 响应。

WildGuard：针对安全风险、越狱和大语言模型拒绝的开放式一站式审核工具

分类： 计算和语言

作者： Seungju Han, Kavel Rao, Allyson Ettinger, Liwei Jiang, Bill Yuchen Lin, Nathan Lambert, Yejin Choi, Nouha Dziri

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18495v1

摘要： 我们引入了 WildGuard——一种开放的、轻量级的 LLM 安全审核工具，它实现了三个目标：(1) 识别用户提示中的恶意意图，(2) 检测模型响应的安全风险，以及 (3) 确定模型拒绝率。 WildGuard 共同满足了对 LLM 交互的自动安全审核和评估日益增长的需求，提供了具有更高准确性和广泛覆盖 13 个风险类别的一站式工具。虽然现有的开放审核工具（例如 Llama-Guard2）在对直接模型交互进行分类方面得分相当不错，但它们远远落后于提示的 GPT-4，特别是在识别对抗性越狱和评估模型的拒绝方面，这是评估模型中安全行为的关键措施回应。为了应对这些挑战，我们构建了 WildGuardMix，这是一个大规模且仔细平衡的多任务安全审核数据集，其中包含 92K 个标记示例，涵盖普通（直接）提示和对抗性越狱，并配有各种拒绝和合规响应。 WildGuardMix 是 WildGuardTrain（WildGuard 的训练数据）和 WildGuardTest 的组合，WildGuardTest 是高质量的人工注释审核测试集，包含 5K 个标记项目，涵盖广泛的风险场景。通过对 WildGuardTest 和十个现有公共基准的广泛评估，我们表明，与十个强大的现有开源审核模型（例如，高达拒绝检测提高了 26.4%）。重要的是，WildGuard 与 GPT-4 性能相当，有时甚至超过（例如，在快速危害识别方面提高了 3.9%）。 WildGuard 在 LLM 界面中充当高效的安全调节器，将越狱攻击的成功率从 79.8% 降低到 2.4%。

LoongTrain：具有头部上下文并行性的长序列大语言模型的高效训练

分类： 分布式、并行和集群计算

作者： Diandian Gu, Peng Sun, Qinghao Hu, Ting Huang, Xun Chen, Yingtong Xiong, Guoteng Wang, Qiaoling Chen, Shangchun Zhao, Jiarui Fang, Yonggang Wen, Tianwei Zhang, Xin Jin, Xuanzhe Liu

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18485v1

摘要： 使用长序列有效训练大语言模型很重要，但面临大量计算和内存需求的挑战。序列并行性已经被提出来解决这些问题，但现有的方法存在可扩展性或效率问题。我们提出了 LoongTrain，这是一种新颖的系统，可以有效地大规模训练具有长序列的大语言模型。 LoongTrain的核心是2D-Attention机制，它结合了头部并行和上下文并行技术，在保持效率的同时打破了可扩展性限制。我们引入双环注意力并分析设备放置策略的性能，以进一步加快训练速度。我们使用混合 ZeRO 和 Selective Checkpoint++ 技术来实现 LoongTrain。实验结果表明，LoongTrain 在端到端训练速度和可扩展性方面均优于最先进的基线（即 DeepSpeed-Ulysses 和 Megatron Context Parallelism），并将模型 FLOP 利用率（MFU）提高高达 2.88 倍。

IRCAN：通过识别和重新加权情境感知神经元来缓解 LLM 生成中的知识冲突

分类： 计算和语言, 人工智能

作者： Dan Shi, Renren Jin, Tianhao Shen, Weilong Dong, Xinwei Wu, Deyi Xiong

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18406v1

摘要： 人们普遍认为，大型语言模型（LLM）经过海量数据训练后可以编码大量知识。最近的研究揭示了大语言模型生成中的知识冲突，其中过时或不正确的参数知识（即编码知识）与上下文中提供的新知识相矛盾。为了缓解这种知识冲突，我们提出了一种新颖的框架，IRCAN（识别和重新加权情境感知神经元）来利用对处理情境线索至关重要的神经元。具体来说，IRCAN 首先利用从积分梯度得出的上下文感知归因得分来识别对上下文处理有显着贡献的神经元。随后，识别出的上下文感知神经元通过重新加权得到加强。在此过程中，我们引导大语言模型根据上下文中提供的新知识生成上下文敏感的输出。在各种模型和任务中进行的大量实验表明，IRCAN 不仅在处理知识冲突方面取得了显着的改进，而且还提供了可扩展、即插即用的解决方案，可以与现有模型无缝集成。

大语言模型而不是人类法官？跨 20 个 NLP 评估任务的大规模实证研究

分类： 计算和语言

作者： Anna Bavaresco, Raffaella Bernardi, Leonardo Bertolazzi, Desmond Elliott, Raquel Fernández, Albert Gatt, Esam Ghaleb, Mario Giulianelli, Michael Hanna, Alexander Koller, André F. T. Martins, Philipp Mondorf, Vera Neplenbroek, Sandro Pezzelle, Barbara Plank, David Schlangen, Alessandro Suglia, Aditya K Surikuchi, Ece Takmaz, Alberto Testoni

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18403v1

摘要： 使用大语言模型生成的判断而不是人类判断来评估 NLP 模型的趋势越来越明显。由于缺乏与人类数据的比较，这引起了人们对这些评估有效性的担忧；如果它们是使用专有模型进行的，这也会引起对可重复性的担忧。我们提供 JUDGE-BENCH，这是 20 个带有人工注释的 NLP 数据集的集合，并全面评估 11 个当前的大语言模型（涵盖开放权重模型和专有模型）复制注释的能力。我们的评估表明，每个大语言模型在数据集与人类判断的相关性方面表现出很大的差异。我们的结论是，大语言模型尚未准备好系统地取代 NLP 领域的人类法官。

大语言模型会梦见大象吗（当被告知不要这样做时）？变形金刚中的潜在概念关联和联想记忆

分类： 计算和语言, 机器学习, 机器学习

作者： Yibo Jiang, Goutham Rajendran, Pradeep Ravikumar, Bryon Aragam

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18400v1

摘要： 大型语言模型 (LLM) 具有存储和调用事实的能力。通过对开源模型的实验，我们观察到这种检索事实的能力可以通过改变上下文来轻松操纵，即使不改变其事实含义。这些发现强调，大语言模型的行为可能类似于联想记忆模型，其中上下文中的某些标记可以作为检索事实的线索。我们通过研究 Transformer（LLM 的构建模块）如何完成此类记忆任务，从数学上探索了这一特性。我们使用单层变压器研究了一个简单的潜在概念关联问题，并从理论上和经验上证明了变压器使用自注意力收集信息，并使用值矩阵进行联想记忆。

AI 原生内存：从大语言模型迈向 AGI 的途径

分类： 计算和语言, 人工智能

作者： Jingbo Shang, Zai Zheng, Xiang Ying, Felix Tao, Mindverse Team

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18312v1

摘要： 大型语言模型（LLM）向世界展示了通用人工智能（AGI）的火花。一种观点，尤其是来自一些研究大语言模型的初创公司的观点，认为具有几乎无限上下文长度的大语言模型可以实现 AGI。然而，他们可能对（现有）大语言模型的长上下文能力过于乐观——（1）最近的文献表明，他们的有效上下文长度明显小于他们声称的上下文长度；（2）我们的大海捞针推理实验进一步证明，同时从长上下文中查找相关信息并进行（简单）推理几乎是不可能的。在本文中，我们设想了一条通过整合 \emph{memory} 从 LLM 到 AGI 的途径。我们认为AGI应该是一个以LLM作为核心处理器的系统。除了原始数据之外，该系统中的内存还存储大量推理过程得出的重要结论。与仅处理原始数据的检索增强生成（RAG）相比，这种方法不仅更紧密地连接语义相关的信息，而且还简化了查询时的复杂推理。作为中间阶段，记忆可能会以自然语言描述的形式出现，也可以被用户直接使用。最终，每个智能体/个人都应该拥有自己的大型个人模型，一个深度神经网络模型（因此 \emph{AI-native}），它可以参数化和压缩所有类型的记忆，即使是那些无法用自然语言描述的记忆。最后，我们讨论了人工智能原生内存作为 AGI 时代（主动）参与、个性化、分发和社交的变革性基础设施的巨大潜力，以及初步解决方案所带来的隐私和安全挑战。

CheckThat 的事实发现者！ 2024 年：通过数据修剪，利用大语言模型完善值得检查的语句检测

分类： 计算和语言

作者： Yufeng Li, Rrubaa Panchendrarajan, Arkaitz Zubiaga

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18297v1

摘要： 信息通过社交媒体和互联网的快速传播给事实核查带来了重大挑战，其中包括识别事实核查人员应注意的值得核查的主张，即从大量信息中过滤需要事实核查的主张。句子。这一挑战强调需要重点确定索赔的优先级，特别是哪些索赔值得进行事实核查。尽管近年来这一领域取得了进展，但 GPT 等大型语言模型 (LLM) 的应用直到最近才引起研究的关注。然而，许多开源大语言模型仍未得到充分探索。因此，本研究调查了八个著名的开源大语言模型的应用，并进行了微调和快速工程，以从政治转录中识别值得检查的陈述。此外，我们提出了一种两步数据修剪方法来自动识别高质量的训练数据实例以进行有效的学习。我们的方法的效率是通过对英语数据集的评估来证明的，作为 CheckThat! 的检查价值评估任务的一部分！ 2024。此外，通过数据剪枝进行的实验表明，仅用约 44% 的训练数据即可实现竞争性能。我们的团队在英语的检查价值评估任务中排名第一。

分层上下文修剪：使用存储库级预训练代码 LLM 优化现实世界代码完成

分类： 计算和语言

作者： Lei Zhang, Yunshui Li, Jiaming Li, Xiaobo Xia, Jiaxi Yang, Run Luo, Minzheng Wang, Longze Chen, Junhao Liu, Min Yang

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18294v2

摘要： 一些最近开发的代码大语言模型（Code LLM）已经在存储库级代码数据（Repo-Code LLM）上进行了预训练，使这些模型能够识别存储库结构并利用跨文件信息来完成代码。然而，在现实开发场景中，简单地连接整个代码存储库通常会超出这些 Repo-Code LLM 的上下文窗口限制，从而导致性能显着下降。在这项研究中，我们对六个 Repo-Code 大语言模型进行了广泛的初步实验和分析。结果表明，保持文件的拓扑依赖关系、增加补全提示中的代码文件内容可以提高补全准确率；修剪所有相关文件中函数的具体实现并不会显着降低完成的准确性。基于这些发现，我们提出了一种名为分层上下文修剪（HCP）的策略来构建具有高信息代码内容的完成提示。 HCP在功能层面对代码存储库进行建模，保持代码文件之间的拓扑依赖关系，同时去除大量不相关的代码内容，显着减少存储库级代码补全的输入长度。我们在六个 Repo-Code LLM 的实验中应用了 HCP 策略，结果表明我们提出的方法可以显着提高完成精度，同时大幅减少输入长度。我们的代码和数据可在 https://github.com/Hambaobao/HCP-Coder 获取。

“Vorbeşti Româneşte？”用英语指导培养强大的罗马尼亚大语言模型的秘诀

分类： 计算和语言

作者： Mihai Masala, Denis C. Ilie-Ablachim, Alexandru Dima, Dragos Corlatescu, Miruna Zavelca, Ovio Olaru, Simina Terian-Dan, Andrei Terian-Dan, Marius Leordeanu, Horia Velicu, Marius Popescu, Mihai Dascalu, Traian Rebedea

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18266v1

摘要： 近年来，大型语言模型（LLM）在各种任务上取得了几乎与人类相似的性能。虽然一些大语言模型接受了多语言数据的培训，但大多数培训数据都是英语的；因此，他们的英语表现大大超过其他语言。据我们所知，我们是第一个收集和翻译大量文本、说明和基准，并培训、评估和发布专为罗马尼亚语定制的开源大语言模型的人。我们根据四个不同的类别评估我们的方法，包括学术基准、MT-Bench（手动翻译）以及专业构建的适合罗马尼亚语的历史、文化和社会基准。我们通过全面获得最先进的结果来论证 RoLLM 的实用性和高性能。我们公开发布所有资源（即数据、培训和评估代码、模型），以支持和鼓励对罗马尼亚语大语言模型的研究，同时创建一个适用于其他资源匮乏或资源匮乏的语言的通用配方。

与大语言模型的个性化对话的选择性提示调整

分类： 计算和语言, 人工智能, 机器学习

作者： Qiushi Huang, Xubo Liu, Tom Ko, Bo Wu, Wenwu Wang, Yu Zhang, Lilian Tang

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18187v1

摘要： 在对话式人工智能中，利用人物角色和情境理解进行个性化对话至关重要。尽管大型语言模型（LLM）提高了响应的一致性，但有效的人物角色整合仍然是一个挑战。在这项工作中，我们首先研究了个性化大语言模型的两种常见方法：文本提示和直接微调。我们观察到，文本提示通常很难产生与数据集中的基本事实相似的响应，而直接微调往往会产生重复或过于通用的答复。为了缓解这些问题，我们提出 \textbf{S}elective \textbf{P}rompt \textbf{T}uning (SPT)，它以选择性的方式温和地提示大语言模型进行个性化对话。具体来说，SPT初始化一组软提示，并使用可训练的密集检索器根据不同的输入上下文自适应地为LLM选择合适的软提示，其中提示检索器通过LLM的反馈动态更新。此外，我们提出上下文提示对比学习和提示融合学习，以鼓励 SPT 增强个性化对话的多样性。 CONVAI2 数据集上的实验表明，SPT 显着提高了响应多样性高达 90%，同时其他关键性能指标也得到了改善。这些结果凸显了 SPT 在促进参与和个性化对话生成方面的功效。 SPT 模型代码 (https://github.com/hqsiswiliam/SPT) 已公开供进一步探索。

UIO-LLM：长上下文 LLM 的无偏增量优化

分类： 计算和语言

作者： Wenhao Li, Mingbao Lin, Yunshan Zhong, Shuicheng Yan, Rongrong Ji

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18173v1

摘要： 由于上下文窗口大小有限，管理长文本对于大型语言模型 (LLM) 来说是一项挑战。本研究介绍了 UIO-LLM，这是一种在长上下文设置下用于记忆增强变压器的无偏增量优化方法。我们最初将该过程概念化为一个简化的编码器-解码器框架，其中权重共享的编码器和解码器分别将上下文片段封装到存储器中，并利用这些存储器来预测后续片段的输出。随后，通过将我们的记忆增强型变压器视为完全连接的循环神经网络（RNN），我们使用截断反向传播随时间（TBPTT）算法改进了训练过程，该算法结合了创新的增量优化技术。这些技术不仅降低了时间复杂度，而且还通过无偏优化过程解决了梯度计算中的偏差。 UIO-LLM 成功处理长上下文，例如使用最少 2% 的附加参数将 Llama2-7b-chat 的上下文窗口从 4K 扩展到 100K 令牌，同时随着上下文长度的增加保持推理成本几乎呈线性。

中毒的LangChain：LangChain越狱大语言模型

分类： 计算和语言, 人工智能

作者： Ziqiu Wang, Jun Liu, Shengkai Zhang, Yang Yang

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18122v1

摘要： 随着自然语言处理（NLP）的发展，大语言模型（LLM）变得越来越流行。大语言模型正在更多地融入日常生活，引起公众对其安全漏洞的担忧。因此，大型语言模型的安全性变得至关重要。目前，针对LLM的攻击和防御技术正在不断发展。一种重要的攻击方法类型是越狱攻击，其旨在逃避模型安全机制并诱导生成不当内容。现有的越狱攻击主要依靠制作诱导提示来直接越狱，对于过滤能力强、理解能力强的大型模型效果较差。鉴于大型语言模型对实时能力的需求不断增加，新知识的实时更新和迭代变得至关重要。检索增强生成（RAG）作为一种弥补模型缺乏新知识的先进技术，正逐渐成为主流。由于 RAG 使模型能够利用外部知识库，因此它为越狱攻击提供了新的途径。在本文中，我们进行了第一个工作，提出间接越狱的概念并通过LangChain实现检索增强生成。在此基础上，我们进一步设计了一种新颖的间接越狱攻击方法，称为Poisoned-LangChain（PLC），它利用有毒的外部知识库与大型语言模型进行交互，从而导致大型模型生成恶意的不合规对话。我们在跨越三大类越狱问题的六种不同的大型语言模型上测试了这种方法。实验表明，PLC在三种不同场景下成功实现了间接越狱攻击，成功率分别达到88.56%、79.04%和82.69%。

ArzEn-LLM：使用大语言模型进行代码转换埃及阿拉伯语-英语翻译和语音识别

分类： 计算和语言, 人工智能, 计算机与社会, 机器学习

作者： Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18120v1

摘要： 受近年来埃及阿拉伯语和英语之间语码转换现象广泛增加的推动，本文探讨了机器翻译 (MT) 和自动语音识别 (ASR) 系统的复杂性，重点是翻译埃及阿拉伯语语码转换-英语到英语或埃及阿拉伯语。我们的目标是利用 LLama 和 Gemma 等大型语言模型来展示开发这些系统所采用的方法。在 ASR 领域，我们探索了使用 Whisper 模型进行埃及阿拉伯语语码转换识别，详细介绍了我们的实验过程，包括数据预处理和训练技术。通过实施集成 ASR 和 MT 的连续语音到文本翻译系统，我们旨在克服资源有限和埃及阿拉伯语方言独特特征带来的挑战。根据既定指标进行的评估显示出有希望的结果，我们的方法在英语翻译中比最先进的技术显着提高了 56%$，在阿拉伯语翻译中显着提高了 9.3%$。由于语码转换是口语中根深蒂固的现象，因此 ASR 系统能够有效处理这种现象至关重要。这种能力对于实现商务谈判、文化交流和学术对话等各个领域的无缝互动至关重要。我们的模型和代码可作为开源资源提供。代码：\url{http://github.com/ahmedheakl/arazn-llm}}，模型：\url{http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e}。

BADGE：BADminton 报告的生成和大语言模型评估

分类： 计算和语言, 人工智能, 人机交互

作者： Shang-Hsuan Chiang, Lin-Wei Chao, Kuang-Da Wang, Chih-Chuan Wang, Wen-Chih Peng

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18116v1

摘要： 羽毛球运动广泛普及，比赛报道一般包括球员姓名、比赛成绩、球类等详细信息，让观众对比赛有全面的了解。然而，撰写这些报告可能是一项耗时的任务。这一挑战促使我们探索大型语言模型（LLM）是否可以自动生成和评估羽毛球报告。我们引入了一个名为 BADGE 的新颖框架，它是使用 LLM 为此目的而设计的。我们的方法包括两个主要阶段：报告生成和报告评估。最初，羽毛球相关数据由大语言模型处理，然后生成详细的比赛报告。我们测试了不同的输入数据类型、情境学习 (ICL) 和 LLM，发现 GPT-4 在使用 CSV 数据类型和思想链提示时表现最佳。报告生成后，大语言模型会对报告进行评估和评分，以评估其质量。我们对 GPT-4 评估的分数与人类评判者的分数进行比较，结果显示我们倾向于更喜欢 GPT-4 生成的报告。由于大语言模型在羽毛球报道中的应用在很大程度上尚未得到探索，我们的研究为该领域的未来进步奠定了基础。此外，我们的方法可以扩展到其他体育比赛，从而增强体育推广。更多详情请参考https://github.com/AndyChiangSH/BADGE。

LLM驱动的多模式意见表达识别

分类： 计算和语言, 人工智能, 声音, 音频和语音处理

作者： Bonian Jia, Huiyao Chen, Yueheng Sun, Meishan Zhang, Min Zhang

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18088v1

摘要： 意见表达识别 (OEI) 在 NLP 中对于从语音助手到抑郁症诊断等应用至关重要。这项研究将 OEI 扩展到涵盖多模式输入，强调了听觉线索在传递超出文本能力的情感微妙方面的重要性。我们引入了一种新颖的多模式 OEI (MOEI) 任务，它将文本和语音集成起来以反映现实世界的场景。利用 CMU MOSEI 和 IEMOCAP 数据集，我们构建了 CI-MOEI 数据集。此外，将文本转语音（TTS）技术应用于MPQA数据集以获得CIM-OEI数据集。我们为 OEI 任务设计了一个模板，以充分利用大语言模型 (LLM) 的生成能力。进一步推进，我们提出了一种 LLM 驱动的方法 STOEI，它结合了语音和文本模式来识别意见表达。我们的实验表明，MOEI 显着提高了性能，而我们的方法比现有方法提高了 9.20%，并获得了 SOTA 结果。

评估检索增强生成答案的质量：您所需要的就是强大的大语言模型

分类： 计算和语言

作者： Yang Wang, Alberto Garcia Hernandez, Roman Kyslyi, Nicholas Kersting

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18064v1

摘要： 我们使用 vRAG-Eval 对检索增强生成 (RAG) 应用程序中的答案质量进行全面评估，vRAG-Eval 是一种新颖的评分系统，旨在评估正确性、完整性和诚实性。我们进一步将上述质量方面的分级映射为二进制分数，指示接受或拒绝决定，反映了聊天应用程序中常用的直观“拇指向上”或“拇指向下”手势。这种方法适合实际的业务环境，其中明确的决策意见至关重要。我们的评估将 vRAG-Eval 应用于两个大型语言模型 (LLM)，评估普通 RAG 应用程序生成的答案的质量。我们将这些评估与人类专家的判断进行比较，发现 GPT-4 的评估与人类专家的评估基本一致，在接受或拒绝决策方面达成了 83% 的一致性。这项研究强调了大语言模型在封闭领域、封闭式环境中作为可靠评估者的潜力，特别是当人工评估需要大量资源时。

医生的大语言模型：利用医学大语言模型协助医生，而不是取代他们

分类： 计算和语言

作者： Wenya Xie, Qingying Xiao, Yu Zheng, Xidong Wang, Junying Chen, Ke Ji, Anningzhe Gao, Xiang Wan, Feng Jiang, Benyou Wang

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18034v1

摘要： 大型语言模型 (LLM) 最近的成功对医疗保健领域产生了重大影响，为患者提供医疗建议、诊断信息等。然而，由于缺乏专业的医学知识，患者很容易被大语言模型产生的错误信息误导，从而可能导致严重的医疗问题。为了解决这个问题，我们专注于将大语言模型调整为与更有经验的医生合作的医疗助理。我们首先通过灵感反馈的方式进行两阶段调查，以广泛了解医生对医疗助理的真实需求。基于此，我们构建了一个名为DoctorFLAN的中文医疗数据集来支持医生的整个工作流程，其中包括来自22个任务和27个专家的92K个问答样本。此外，我们通过构建包含 550 个单轮问答的 DoctorFLAN-\textit{test} 和包含 74 个多轮对话的 DotaBench 来评估面向医生的场景中的 LLM。评估结果表明，作为一名医疗助理仍然对现有开源模型构成挑战，但 DoctorFLAN 可以为他们提供显着帮助。这表明我们构建的面向医生的数据集和基准可以补充现有的面向患者的工作，更好地促进医学大语言模型的研究。

使用知识条件大语言模型自动提取临床数据

分类： 计算和语言, 人工智能

作者： Diya Li, Asim Kadav, Aijing Gao, Rui Li, Richard Bourgon

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18027v1

摘要： 从临床和医学影像报告中提取肺部病变信息对于肺部相关疾病的研究和临床护理至关重要。大语言模型 (LLM) 可以有效地解释报告中的非结构化文本，但由于缺乏特定领域的知识，它们经常产生幻觉，导致准确性降低，并对临床环境中的使用提出挑战。为了解决这个问题，我们提出了一个新颖的框架，通过上下文学习（ICL）将生成的内部知识与外部知识结合起来。我们的框架使用检索器来识别内部或外部知识的相关单元，并使用分级器来评估检索到的内部知识规则的真实性和有用性，以调整和更新知识库。我们的知识条件方法还通过分两个阶段处理提取任务来提高 LLM 输出的准确性和可靠性：（i）肺部病变发现检测和主要结构化字段解析，然后（ii）将病变描述文本进一步解析为附加结构化字段。使用专家策划的测试数据集进行的实验表明，与现有 ICL 方法相比，这种 ICL 方法可以将关键字段（病变大小、边缘和坚固性）的 F1 分数平均提高 12.9%。

NormTab：通过表格数据标准化改进大语言模型的符号推理

分类： 计算和语言, 人工智能, 数据库, 信息检索

作者： Md Mahadi Hasan Nahid, Davood Rafiei

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17961v1

摘要： 近年来，大型语言模型（LLM）在解析文本数据和生成代码方面表现出了卓越的能力。然而，由于网络表格中经常出现的表格单元格值的结构差异和不一致，它们在涉及表格数据的任务中的性能，特别是那些需要符号推理的任务，面临着挑战。在本文中，我们介绍了NormTab，这是一种新颖的框架，旨在通过规范化网络表来增强大语言模型的符号推理性能。我们将表标准化作为一个独立的一次性预处理步骤来研究，使用 LLM 支持表格数据的符号推理。我们对具有挑战性的 Web 表数据集（例如 WikiTableQuestion 和 TabFact）进行的实验评估表明，利用 NormTab 显着提高了符号推理性能，展示了 Web 表规范化对于增强基于 LLM 的符号推理任务的重要性和有效性。

通过学习单调对齐提高基于 LLM 的语音合成的鲁棒性

分类： 声音, 人工智能, 音频和语音处理

作者： Paarth Neekhara, Shehzeen Hussain, Subhankar Ghosh, Jason Li, Rafael Valle, Rohan Badlani, Boris Ginsburg

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17957v1

摘要： 基于大型语言模型 (LLM) 的文本转语音 (TTS) 系统在处理大型语音数据集和为新说话者生成自然语音方面表现出了卓越的能力。然而，基于 LLM 的 TTS 模型并不稳健，因为生成的输出可能包含重复单词、缺失单词和未对齐的语音（称为幻觉或注意力错误），特别是当文本包含多次出现相同的 token 时。我们在编码器-解码器转换器模型中研究了这些挑战，发现此类模型中的某些交叉注意力头在接受训练以预测给定文本的语音标记时隐式学习文本和语音对齐。为了使对齐更加稳健，我们提出了利用 CTC 损失和注意力先验的技术，鼓励对文本标记的单调交叉注意力。我们的引导注意力训练技术没有引入任何新的可学习参数，并且显着提高了基于 LLM 的 TTS 模型的稳健性。

PAFT：有效 LLM 微调的并行培训范式

分类： 计算和语言

作者： Shiva Kumar Pentyala, Zhichao Wang, Bin Bi, Kiran Ramnath, Xiang-Bo Mao, Regunathan Radhakrishnan, Sitaram Asur, Na, Cheng

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17923v1

摘要： 大型语言模型（LLM）在各种自然语言处理（NLP）任务中表现出了卓越的能力。大语言模型通常会经过监督微调（SFT），然后进行偏好调整，以便在下游应用中使用。然而，这种连续的训练流程会导致对齐税，从而降低大语言模型的表现。本文介绍了 PAFT，一种用于有效 LLM 微调的新并行训练范例，它在各自的数据集上使用相同的预训练模型独立执行 SFT 和偏好对齐（例如 DPO 和 ORPO 等）。然后，SFT 生成的模型和偏好对齐的模型通过参数融合合并为最终模型，以供下游应用使用。这项工作揭示了重要的发现，即像 DPO 这样的偏好对齐自然会产生稀疏模型，而 SFT 会产生自然密集模型，需要对其进行稀疏化才能有效进行模型合并。本文介绍了一种有效的干扰解决方法，通过稀疏增量参数来减少冗余。大语言模型源于新的培训模式，在 HuggingFace 开放大语言模型排行榜上排名第一。综合评价显示了并行训练范式的有效性。

逐层量化：一种实用且有效的方法，用于量化超越整数位级别的 LLM

分类： 计算和语言, 人工智能, 机器学习, I.2.7; I.2.0

作者： Razvan-Gabriel Dumitru, Vikas Yadav, Rishabh Maheshwary, Paul-Ioan Clotan, Sathwik Tejaswi Madhusudhan, Mihai Surdeanu

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17415v2

摘要： 我们提出了一种简单的变量量化方法，可以在不同的位级别量化大型语言模型（LLM）的不同层。具体来说，我们将最重要的层量化为更高的位精度，将不太重要的层量化为更低的位，以实现浮点量化级别。我们提出了两种有效的策略来衡量 LLM 中各层的重要性：第一个根据输出嵌入与输入嵌入的差异程度来衡量层的重要性（越高越好）；第二个使用远大于平均值的层权重数量（越小越好）来估计层的重要性。我们表明，根据我们的重要性分数以不同的位量化不同的层，可以在模型大小压缩得多的情况下实现最小的性能下降。最后，我们从我们的可变逐层量化实验中提出了几个实用的关键要点：（a）可变量化下的 LLM 性能保持接近原始模型，直到使用我们建议的排序将 25-50% 的层移动到较低的量化中，但仅直到如果不使用特定顺序进行移动，则为 5-10%； (b) 除非使用极端量化（2 位），否则将 LLM 量化到较低位的效果比修剪要好得多； (c) 与具有较少层的较小 LLM 相比，在具有更多层的较大 LLM 的情况下，逐层量化到较低位的效果更好。用于运行实验的代码位于：https://github.com/RazvanDu/LayerwiseQuant。

LLM 针对表现不佳对弱势用户造成不成比例的影响

分类： 计算和语言, 人工智能, 机器学习

作者： Elinor Poole-Dayan, Deb Roy, Jad Kabbara

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17737v1

摘要： 虽然最先进的大型语言模型 (LLM) 在许多任务上都表现出了令人印象深刻的性能，但人们对不良模型行为（例如幻觉和偏见）进行了广泛的研究。在这项工作中，我们调查了 LLM 回答的质量在信息准确性、真实性和拒绝方面的变化，具体取决于三个用户特征：英语水平、教育水平和原籍国。我们对三个最先进的大语言模型和两个针对真实性和事实性的不同数据集进行了广泛的实验。我们的研究结果表明，对于英语水平较低、教育程度较低且来自美国以外的用户来说，最先进的大语言模型中的不良行为发生得不成比例，这使得这些模型对于最脆弱的用户而言成为不可靠的信息来源。

FedBiOT：无需完整模型的联邦学习中的 LLM 局部微调

分类： 机器学习, 计算和语言, 分布式、并行和集群计算

作者： Feijie Wu, Zitao Li, Yaliang Li, Bolin Ding, Jing Gao

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17706v1

摘要： 在使用一些适当的数据进行微调后，大型语言模型 (LLM) 在许多特定领域的任务上显示出惊人的性能。然而，许多特定领域的数据私下分布在多个所有者之间。因此，这种困境引起了人们对如何在联邦学习（FL）中进行LLM微调的兴趣。然而，面对有限的计算和通信能力，FL 客户很难有效地调整 LLM。为此，我们引入了 FedBiOT，这是一种资源高效的 LLM FL 微调方法。具体来说，我们的方法涉及服务器生成压缩的 LLM 并将其性能与完整模型保持一致。随后，客户对压缩模型的轻量级但重要的部分（称为适配器）进行微调。请注意，由于服务器无法访问客户端拥有的私有数据，因此服务器用于对齐的数据与客户端用于微调的数据具有不同的分布。我们将问题转化为双层优化问题，以最小化数据差异的负面影响，并导出服务器和客户端的更新规则。我们对 LLaMA-2 进行了广泛的实验，经验表明该适配器在重新集成到全局 LLM 中时具有出色的性能。结果还表明，与现有基准相比，拟议的 FedBiOT 显着降低了资源消耗，同时实现了可比较的性能水平。

LLM-ARC：通过自动推理评论家增强大语言模型

分类： 计算和语言, 人工智能, 计算机科学中的逻辑

作者： Aditya Kalyanpur, Kailash Saravanakumar, Victor Barres, Jennifer Chu-Carroll, David Melville, David Ferrucci

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17663v1

摘要： 我们引入了 LLM-ARC，这是一种神经符号框架，旨在通过将大型语言模型 (LLM) 与自动推理批评家 (ARC) 相结合来增强大型语言模型 (LLM) 的逻辑推理能力。 LLM-ARC 采用 Actor-Critic 方法，其中 LLM Actor 生成声明性逻辑程序以及语义正确性测试，而自动推理 Critic 评估代码、运行测试并提供测试失败的反馈以进行迭代细化。 LLM-ARC 使用答案集编程 (ASP) 实现，在测试复杂逻辑推理能力的 FOLIO 基准测试中达到了 88.32% 的最新准确率。我们的实验证明了与仅大语言模型基线相比的显着改进，强调了逻辑测试生成和迭代自我完善的重要性。我们使用完全自动化的自我监督训练循环来实现最佳结果，其中演员通过评论家反馈进行端到端对话跟踪的训练。我们讨论了潜在的增强功能并提供了详细的错误分析，展示了 LLM-ARC 对于复杂自然语言推理任务的稳健性和有效性。

Grass：使用结构化稀疏梯度计算高效的低内存 LLM 训练

分类： 机器学习

作者： Aashiq Muhamed, Oscar Li, David Woodruff, Mona Diab, Virginia Smith

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17660v1

摘要： 大型语言模型 (LLM) 训练和微调通常会因 GPU 内存有限而成为瓶颈。虽然现有的基于投影的优化方法通过将梯度投影到低维子空间以减少优化器状态内存来解决这个问题，但它们通常依赖于密集的投影矩阵，这会带来计算和内存开销。在这项工作中，我们提出了 Grass（GRAdient 结构化稀疏化），这是一种利用稀疏投影将梯度转换为结构化稀疏更新的新颖方法。这种设计不仅显着减少了优化器状态的内存使用量，而且最大限度地减少了梯度内存占用、计算和通信成本，从而显着提高了吞吐量。对预训练和微调任务的大量实验表明，Grass 实现了与全排名训练和现有基于投影的方法相比的竞争性能。值得注意的是，Grass 能够在单个 40GB A100 GPU 上对 13B 参数 LLaMA 模型进行半精度预训练（这是以前的方法无法实现的壮举），并在 8-GPU 系统上实现高达 2 倍的吞吐量提升。代码可以在 https://github.com/aashiqmuhamed/GRASS 找到。

消除大语言模型的幻觉需要重新思考泛化

分类： 计算和语言, 人工智能

作者： Johnny Li, Saksham Consul, Eda Zhou, James Wong, Naila Farooqui, Yuxin Ye, Nithyashree Manohar, Zhuxiaona Wei, Tian Wu, Ben Echols, Sharon Zhou, Gregory Diamos

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17642v1

摘要： 尽管大型语言模型（LLM）拥有强大的聊天、编码和推理能力，但他们经常产生幻觉。传统观点认为，幻觉是创造力与事实性之间平衡的结果，可以通过将大语言模型扎根于外部知识源来减轻但不能消除幻觉。通过广泛的系统实验，我们表明这些传统方法无法解释为什么大语言模型在实践中会产生幻觉。具体来说，我们表明，通过大量记忆专家混合（MoME）增强的大语言模型可以轻松记忆大型随机数数据集。我们用理论结构证实了这些实验结果，该理论结构表明，当训练损失高于阈值时，经过训练来预测下一个标记的简单神经网络会产生幻觉，就像在实践中对互联网规模数据进行训练时通常所做的那样。我们通过与减轻幻觉的传统检索方法进行比较来解释我们的发现。我们利用我们的发现设计了第一代消除幻觉的模型——Lamini-1——它将事实存储在由数百万个动态检索的记忆专家组成的巨大混合物中。

自动注释中的知识蒸馏：使用大语言模型生成的训练标签进行监督文本分类

分类： 计算和语言, 机器学习

作者： Nicholas Pangakis, Samuel Wolken

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17633v1

摘要： 计算社会科学（CSS）从业者经常依靠人工标记的数据来微调监督文本分类器。我们评估研究人员使用生成大语言模型 (LLM) 的替代训练标签来增强或替换人类生成的训练数据的潜力。我们介绍了推荐的工作流程，并通过复制 14 个分类任务并测量性能来测试该 LLM 应用程序。我们采用了一个新颖的英语文本分类数据集语料库，该数据集来自高影响力期刊上最近的 CSS 文章。由于这些数据集存储在受密码保护的档案中，因此我们的分析不易出现污染问题。对于每项任务，我们将使用 GPT-4 标签微调的监督分类器与使用人工注释微调的分类器以及通过少量上下文学习的 GPT-4 和 Mistral-7B 标签进行比较。我们的研究结果表明，在大语言模型生成的标签上进行微调的监督分类模型的性能与使用人类注释者的标签进行微调的模型相当。使用 LLM 生成的标签微调模型可以是构建监督文本分类器的快速、高效且经济高效的方法。

“以小见大”：大语言模型能否通过一些解释来近似人类对 NLI 的判断分布？

分类： 计算和语言

作者： Beiduo Chen, Xinpeng Wang, Siyao Peng, Robert Litschko, Anna Korhonen, Barbara Plank

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17600v1

摘要： 人工标签变异 (HLV) 是一种宝贵的信息来源，当多个人工注释者出于正当理由提供不同的标签时就会出现这种情况。在自然语言推理 (NLI) 中，早期捕获 HLV 的方法涉及从许多人群收集注释来表示人类判断分布 (HJD)，或者使用专家语言学家为他们选择的标签提供详细解释。虽然前一种方法提供了更密集的 HJD 信息，但获取它是资源密集型的。相比之下，后者提供了更丰富的文本信息，但扩展到许多人类法官具有挑战性。此外，大型语言模型（LLM）越来越多地被用作评估者（“LLM 法官”），但结果好坏参半，很少有作品旨在研究 HJD。本研究建议利用 LLM 使用少量专家标签和解释来近似 HJD。我们的实验表明，一些解释显着提高了大语言模型在有或没有显式标签的情况下近似 HJD 的能力，从而提供了扩大 HJD 注释的解决方案。然而，使用 LLM 生成的模型判断分布 (MJD) 微调较小的软标签感知模型会出现部分不一致的结果：虽然距离相似，但它们得到的微调模型和可视化分布却有很大差异。我们展示了用全局级形状度量和可视化来补充实例级距离度量的重要性，以根据人类判断分布更有效地评估 MJD。

LongIns：针对大语言模型的具有挑战性的基于长上下文指令的考试

分类： 计算和语言

作者： Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17588v1

摘要： 大型语言模型（LLM）的长上下文能力一直是近年来的热门话题。为了评估大语言模型在不同情况下的表现，出现了各种评估基准。然而，由于这些基准大多侧重于识别回答问题的关键信息，这主要需要大语言模型的检索能力，因此这些基准可以部分代表大语言模型从大量信息中的推理性能。与此同时，尽管 LLM 经常声称拥有 32k、128k、200k 甚至更长的上下文窗口，但这些基准测试未能揭示这些 LLM 实际支持的长度。为了解决这些问题，我们提出了 LongIns 基准数据集，这是一项针对大语言模型的具有挑战性的基于长上下文指令的考试，它是基于现有指令数据集构建的。具体来说，在我们的 LongIns 中，我们引入了三种评估设置：全局指令和单任务（GIST）、本地指令和单任务（LIST）以及本地指令和多任务（LIMT）。基于LongIns，我们对现有的LLM进行综合评估，得到以下重要发现：（1）．具有 128k 上下文长度的性能最佳的 GPT-4 在我们的 LongIn 中的 16k 评估上下文窗口上表现不佳。（2）。对于许多现有LLM的多跳推理能力，在短上下文窗口（小于4k）下仍然需要付出巨大的努力。

MemServe：使用弹性内存池进行分类 LLM 服务的上下文缓存

分类： 分布式、并行和集群计算

作者： Cunchen Hu, Heyang Huang, Junhao Hu, Jiang Xu, Xusheng Chen, Tao Xie, Chenxi Wang, Sa Wang, Yungang Bao, Ninghui Sun, Yizhou Shan

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17565v1

摘要： 大型语言模型 (LLM) 服务已从无状态系统转变为有状态系统，利用上下文缓存和分类推理等技术。这些优化延长了 KV 缓存的寿命和域，因此需要一种新的架构方法。我们推出 MemServe，一个集成了请求间和请求内优化的统一系统。 MemServe 引入了 MemPool，这是一个弹性内存池，管理跨服务实例的分布式内存和 KV 缓存。 MemServe 使用 MemPool API，首次将上下文缓存与分类推理相结合，并得到全局调度程序的支持，该调度程序通过基于全局提示树的位置感知策略来增强缓存重用。测试表明 MemServe 显着缩短了工作完成时间和首次完成时间。

Disce aut Deficere：根据 INVALSI 意大利基准评估大语言模型的熟练程度

分类： 计算和语言, 人工智能

作者： Fabio Mercorio, Mario Mezzanzanica, Daniele Potertì, Antonio Serino, Andrea Seveso

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17535v1

摘要： 大型语言模型 (LLM) 的最新进展显着增强了它们生成和操作人类语言的能力，凸显了它们在各种应用中的潜力。评估英语以外语言的大语言模型对于确保其语言多功能性、文化相关性以及在不同全球背景下的适用性至关重要，从而扩大其可用性和有效性。我们通过引入使用 INVALSI 测试的结构化基准来应对这一挑战，INVALSI 测试是一套完善的评估，旨在衡量意大利各地的教育能力。我们的研究做出了三个主要贡献：首先，我们采用了 INVALSI 基准来进行自动化 LLM 评估，其中包括严格调整测试格式以适应自动化处理，同时保留原始测试的本质。其次，我们对当前的大语言模型进行了详细的评估，为学术界提供了重要的参考点。最后，我们将这些模型的性能与人类结果进行直观比较。此外，研究人员还被邀请提交他们的模型以进行持续评估，以确保基准仍然是最新且有价值的资源。

增强基于大语言模型的人机交互与多样性意识的细微差别

分类： 机器人技术, 人工智能, 人机交互

作者： Lucrezia Grassi, Carmine Tommaso Recchiuto, Antonio Sgorbissa

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17531v1

摘要： 本文提出了一种利用大语言模型（LLM）功能的多样性感知自主对话系统。该系统适应不同的人群和个人，考虑背景、个性、年龄、性别和文化等因素。对话流程由系统预先建立的知识库的结构引导，而大语言模型则负责各种功能，包括生成多样性感知句子。实现多样性意识需要向模型提供精心设计的提示，整合有关用户的全面信息、对话历史记录、上下文细节和具体指南。为了评估系统的性能，我们进行了受控实验和真实实验，测量了广泛的性能指标。

告诉我你在哪里：多模式大语言模型满足地点认可

分类： 计算机视觉和模式识别, 机器人技术

作者： Zonglin Lyu, Juexiao Zhang, Mingxuan Lu, Yiming Li, Chen Feng

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17520v1

摘要： 大型语言模型 (LLM) 在机器人技术中展现出多种有前途的功能，包括长期规划和常识推理。然而，它们在位置识别中的表现仍尚未得到充分探索。在这项工作中，我们将多模态 LLM (MLLM) 引入视觉位置识别 (VPR)，其中机器人必须使用视觉观察来定位自身。我们的关键设计是使用基于视觉的检索来提出几个候选者，然后利用基于语言的推理来仔细检查每个候选者以做出最终决定。具体来说，我们利用现成的视觉基础模型（VFM）生成的强大视觉特征来获取多个候选位置。然后，我们提示 MLLM 以成对的方式描述当前观察结果与每个候选者之间的差异，并根据这些描述推理出最佳候选者。我们在三个数据集上的结果表明，将 VFM 的通用视觉特征与 MLLM 的推理能力相结合已经提供了一种有效的位置识别解决方案，而无需任何特定于 VPR 的监督训练。我们相信我们的工作可以激发应用和设计基础模型（即 VFM、LLM 和 MLLM）的新可能性，以增强移动机器人的定位和导航。

MedCare：通过分离临床联盟和知识聚合来推进医学大语言模型

分类： 计算和语言

作者： Yusheng Liao, Shuyang Jiang, Yanfeng Wang, Yu Wang

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17484v1

摘要： 大型语言模型（LLM）在自然语言理解和生成方面取得了长足的进步，尤其在医学领域证明了其价值。尽管取得了进步，但由于医疗任务固有的复杂性和多样性，挑战仍然存在，这些任务可以分为知识密集型任务和需要调整的任务。以前的方法要么忽略后一个任务，要么专注于少数任务，从而失去泛化性。为了解决这些缺点，我们提出了渐进式微调管道。该管道采用知识聚合器和噪声聚合器在第一阶段对不同的知识进行编码并过滤掉有害信息。在第二阶段，我们放弃噪声聚合器以避免次优表示的干扰，并利用针对知识空间正交方向优化的附加对齐模块来减轻知识遗忘。基于这种两阶段范式，我们通过解耦临床协调和知识聚合（MedCare）提出了医学大语言模型，旨在在 20 多项医疗任务上实现最先进的（SOTA）性能，以及 SOTA特定医疗调整任务的结果。 MedCare 的各种模型尺寸（1.8B、7B、14B）均比具有相似模型尺寸的现有模型有显着改进。

学习提出信息性问题：通过偏好优化和预期信息增益增强大语言模型

分类： 计算和语言

作者： Davide Mazzaccara, Alberto Testoni, Raffaella Bernardi

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17453v1

摘要： 问题是获取必要信息以完成信息查找任务的重要工具。然而，根据预期信息增益 (EIG) 衡量，大型语言模型 (LLM)，尤其是开源模型，在生成信息丰富的问题方面通常表现不佳。在本文中，我们提出了一种方法来增强 LLM 生成的 20 个问题游戏对话中问题的信息量。我们从每个游戏的同一模型 (LLAMA 2-CHAT 7B) 中抽取多个问题，并创建低 EIG 和高 EIG 问题对以应用直接偏好优化 (DPO) 算法。我们的结果表明，即使在与用于训练 DPO 模型的领域不同的领域中，该方法也能产生更有效的问题（就 EIG 而言）。

不要留下任何文档：通过扩展的多文档质量保证对长上下文大语言模型进行基准测试

分类： 计算和语言, 人工智能

作者： Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17419v1

摘要： 长上下文建模能力已经引起了广泛的关注，导致了具有超上下文窗口的大型语言模型（LLM）的出现。与此同时，评估长背景大语言模型的基准正在逐渐迎头赶上。然而，现有的基准测试采用不相关的噪声文本来人为地延长测试用例的长度，这与长上下文应用程序的现实场景背道而驰。为了弥补这一差距，我们提出了一种新颖的长上下文基准 Loong，通过扩展的多文档问答 (QA) 与现实场景保持一致。与典型的文档QA不同，在Loong的测试用例中，每个文档都与最终答案相关，忽略任何文档都会导致答案失败。此外，Loong还引入了四种具有不同上下文长度的任务：聚光灯定位、比较、聚类和推理链，以促进对长上下文理解进行更现实、更全面的评估。大量实验表明，现有的长上下文语言模型仍然表现出巨大的增强潜力。检索增强生成 (RAG) 的性能较差，这表明 Loong 可以可靠地评估模型的长上下文建模能力。

可变分层量化：一种简单有效的 LLM 量化方法

分类： 计算和语言, 人工智能, 机器学习, I.2.7; I.2.0

作者： Razvan-Gabriel Dumitru, Vikas Yadav, Rishabh Maheshwary, Paul-Ioan Clotan, Sathwik Tejaswi Madhusudhan, Mihai Surdeanu

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17415v1

一篇文本值得多个令牌：LLM 的文本嵌入秘密地与关键令牌保持一致

分类： 计算和语言, 信息检索

作者： Zhijie Nie, Richong Zhang, Zhanyu Wu

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17378v1

摘要： 来自大型语言模型（LLM）的文本嵌入在信息检索、语义文本相似性等任务中取得了优异的结果。在这项工作中，我们展示了一个有趣的发现：当将文本输入到嵌入 LLM 时，获得的文本嵌入将能够与输入文本中的关键标记对齐。我们首先在八个嵌入大语言模型上充分分析了这种现象，并表明这种现象是普遍存在的，并且不受模型架构、训练策略和嵌入方法的影响。通过更深入的分析，我们发现嵌入 LLM 与其原始生成 LLM 之间嵌入空间的主要变化在于第一主成分。通过调整第一个主成分，我们可以将文本嵌入与关键标记对齐。最后，我们给出了几个例子来证明这一发现的巨大应用潜力：（1）我们提出了一种简单实用的基于对齐标记的稀疏检索方法，可以达到相同模型密集检索效果的80%，同时显着减少计算量；（2）我们表明，我们的发现提供了一个新的视角，有助于理解该领域的模糊概念（例如，语义相关性与语义相似性）和新兴技术（例如，指令跟踪嵌入）。

多语言大语言模型跨语言适应的三管齐下方法

分类： 计算和语言

作者： Vaibhav Singh, Amrith Krishna, Karthika NJ, Ganesh Ramakrishnan

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17377v1

摘要： 根据其定义，低资源语言在大型语言模型的预训练语料库中往往代表性不足。在这项工作中，我们研究了三种资源匮乏的跨语言方法，使大语言模型能够适应以前未见过的语言中的任务。 Llama-2 是一门大语言模型，其中印度语以及许多其他语系对总价值 2 万亿美元的代币预训练语料库的贡献不到 0.005%$。在这项工作中，我们尝试使用以英语为主的 Llama-2 来跨语言迁移到三种印度语言：孟加拉语、印地语和泰米尔语作为目标语言。我们研究了 ICL 和微调下的三种跨语言迁移方法。第一，我们发现通过大语言模型中的主导语言添加额外的监督信号，可以在上下文学习和微调方面带来改进。第二，在 ICL 下使目标语言适应单词重新排序可能是有益的，但其影响会随着微调而减弱。最后，继续使用一种低资源语言进行预训练可以提高其他相关低资源语言的模型性能。

利用大语言模型进行对话质量测量

分类： 计算和语言

作者： Jinghan Jia, Abi Komma, Timothy Leffel, Xujun Peng, Ajay Nagesh, Tamer Soliman, Aram Galstyan, Anoop Kumar

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17304v1

摘要： 在面向任务的对话式人工智能评估中，无监督方法与人类判断的相关性较差，而有监督方法缺乏泛化性。大型语言模型 (LLM) 的最新进展显示了跨 NLP 任务的强大的零样本和少样本能力。本文探讨了如何使用大语言模型进行自动对话质量评估，并在公共和专有数据集上尝试各种配置。通过操纵模型大小、上下文示例和选择技术等因素，我们研究了“思想链”(CoT) 推理和标签提取程序。我们的结果表明（1）更大的模型可以产生更准确的对话标签； (2) 上下文示例的算法选择优于随机选择； (3) CoT 推理，要求大语言模型在输出最终标签之前提供理由，以提高性能； (4) 经过微调的大语言模型优于现成的大语言模型。我们的结果表明，经过适当微调并具有足够推理能力的大语言模型可以用于自动对话评估。

BlockLLM：通过选择和优化正确的坐标块来实现 LLM 的内存高效适应

分类： 机器学习

作者： Amrutha Varshini Ramesh, Vignesh Ganapathiraman, Issam H. Laradji, Mark Schmidt

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17296v1

摘要： 随着应用程序的扩展，训练大型语言模型（LLM）以进行预训练或适应新任务和领域变得越来越重要。然而，随着模型和数据大小的增长，训练过程会带来巨大的内存挑战，通常需要大量的 GPU 内存，而这些内存可能不容易获得。低秩自适应 (LoRA) 等现有方法添加了可训练的低秩矩阵分解，改变了训练动态并将模型的参数搜索限制在低秩子空间。 GaLore 是一种更新的方法，在全参数训练设置中采用梯度低秩投影来减少内存占用。然而，GaLore 只能应用于满足“可逆性”属性的 LLM 层的子集，从而限制了它们的适用性。为了应对这些挑战，我们引入了 BlockLLM，这是一种受块坐标下降启发的方法。我们的方法仔细选择和更新可训练参数的一个非常小的子集，而不改变其架构和训练过程的任何部分。 BlockLLM 在微调和预训练任务中实现了最先进的性能，同时减少了底层优化过程的内存占用。我们的实验表明，仅用不到 5% 的参数进行微调，BlockLLM 就可以在 GLUE 基准测试中获得最先进的困惑度分数。在 C4 数据集上预训练的 Llama 模型上，BlockLLM 能够使用比最先进技术少得多的内存进行训练，同时仍然保持有竞争力的性能。

超越人口统计：使用人类信念网络调整基于 LLM 的角色扮演代理

分类： 计算和语言

作者： Yun-Shiuan Chuang, Zach Studdiford, Krirk Nirunwiroj, Agam Goyal, Vincent V. Frigo, Sijia Yang, Dhavan Shah, Junjie Hu, Timothy T. Rogers

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17232v1

摘要： 创建类人大语言模型（LLM）代理对于忠实的社会模拟至关重要。让大语言模型根据人口统计信息进行角色扮演有时会提高人类相似度，但通常不会。这项研究评估了大语言模型与人类行为的一致性是否可以通过整合来自经验得出的人类信念网络的信息来改善。使用人类调查的数据，我们估计了一个包含 18 个主题的信念网络，加载在两个不重叠的潜在因素上。然后，我们向基于 LLM 的代理植入对某个主题的意见，并评估其对其余测试主题表达的意见与相应人类数据的一致性。仅基于人口统计信息的角色扮演并不能使 LLM 和人类观点保持一致，但为代理植入单一信念极大地改善了信念网络中相关主题的一致性，而不是网络外主题的一致性。这些结果为寻求模拟和理解社会信仰分布模式的工作中的人类与大语言模型信仰一致性提供了一条新途径。

EVALALIGN：使用与人类对齐的数据来监督微调多模式大语言模型，用于评估文本到图像模型

分类： 计算机视觉和模式识别, 计算和语言

作者： Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Mengping Yang, Cheng Zhang, Hao Li

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16562v2

摘要： 文本到图像生成模型的最新进展非常显着。然而，该领域缺乏准确反映这些模型性能的评估指标，特别是缺乏可以指导模型优化的细粒度指标。在本文中，我们提出了 EvalAlign，一种以准确性、稳定性和细粒度为特征的指标。我们的方法利用了在广泛数据集上预先训练的多模态大型语言模型 (MLLM) 的功能。我们开发的评估协议侧重于两个关键维度：图像忠实度和文本图像对齐。每个协议都包含一组与特定评分选项相关的详细、细粒度的指令，从而能够对生成的图像进行精确的手动评分。我们对 MLLM 进行监督微调 (SFT)，使其与人类的评估判断紧密结合，从而形成一个稳健的评估模型。我们对 24 个文本到图像生成模型的全面测试表明，EvalAlign 不仅提供卓越的指标稳定性，而且比现有指标更符合人类偏好，证实了其在模型评估中的有效性和实用性。

大语言模型协助 NLP 研究人员：评论论文（元）审查

分类： 计算和语言

作者： Jiangshu Du, Yibo Wang, Wenting Zhao, Zhongfen Deng, Shuaiqi Liu, Renze Lou, Henry Peng Zou, Pranav Narayanan Venkit, Nan Zhang, Mukund Srinath, Haoran Ranran Zhang, Vipul Gupta, Yinghui Li, Tao Li, Fei Wang, Qin Liu, Tianlin Liu, Pengzhi Gao, Congying Xia, Chen Xing, Jiayang Cheng, Zhaowei Wang, Ying Su, Raj Sanjay Shah, Ruohao Guo, Jing Gu, Haoran Li, Kangda Wei, Zihao Wang, Lu Cheng, Surangika Ranathunga, Meng Fang, Jie Fu, Fei Liu, Ruihong Huang, Eduardo Blanco, Yixin Cao, Rui Zhang, Philip S. Yu, Wenpeng Yin

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16253v2

摘要： 这项工作是由两个主要趋势推动的。一方面，大型语言模型（LLM）在写作、绘画和问答等各种生成任务中表现出显着的多功能性，显着减少了许多日常任务所需的时间。另一方面，研究人员的工作不仅耗时，而且对专业知识的要求很高，他们面临着越来越大的挑战，因为他们必须花更多的时间阅读、写作和审阅论文。这就提出了一个问题：大语言模型如何能够帮助研究人员减轻繁重的工作量？本研究重点关注大语言模型协助 NLP 研究人员的主题，特别考察大语言模型在协助论文（元）审稿方面的有效性及其可识别性。为了解决这个问题，我们构建了 ReviewCritique 数据集，其中包括两种类型的信息：（i）NLP 论文（初始提交而不是相机准备）包含人工撰写和 LLM 生成的评论，以及（ii）每条评论都带有由专家注释的“缺陷”标签和各个部分的相应解释。本研究利用 ReviewCritique 探讨了两个研究问题：（i）“大语言模型作为审稿人”，大语言模型生成的评论与人类撰写的评论在质量和可区分性方面如何比较？ (ii) “大语言模型作为元审稿人”，大语言模型如何有效地识别个别论文审稿中的潜在问题，例如缺陷或不专业的审稿部分？据我们所知，这是第一篇提供如此全面分析的著作。

DEXTER：使用大语言模型进行开放域复杂问答的基准

分类： 计算和语言, 信息检索

作者： Venktesh V. Deepali Prabhu, Avishek Anand

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.17158v1

摘要： 开放域复杂问答（QA）是一项艰巨的任务，在证据检索和推理方面面临挑战。此类问题的复杂性可能源于问题的组合性、混合证据或问题的模糊性。虽然经典 QA 任务的检索性能已得到很好的探索，但它们执行异构复杂检索任务的能力（尤其是在开放域设置中）以及对下游 QA 性能的影响相对尚未被探索。为了解决这个问题，在这项工作中，我们提出了一个由各种复杂的 QA 任务组成的基准，并提供了一个工具包来评估开放域设置中最先进的预训练密集和稀疏检索模型。我们观察到，与其他预训练的密集检索模型相比，后期交互模型和令人惊讶的词汇模型（如 BM25）表现良好。此外，由于基于上下文的推理对于解决复杂的 QA 任务至关重要，因此我们还评估了 LLM 的推理能力以及检索性能对其推理能力的影响。通过实验，我们观察到复杂 QA 的检索还有待取得很大进展，以提高下游 QA 性能。我们的软件和相关数据可以在 https://github.com/VenkteshV/DEXTER 访问

有限状态机的 LLM 辅助测试平台生成和错误检测

分类： 硬件架构

作者： Jitendra Bhandari, Johann Knechtel, Ramesh Narayanaswamy, Siddharth Garg, Ramesh Karri

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.17132v1

摘要： 这项工作研究了为芯片测试领域定制大型语言模型 (LLM)（特别是 GPT3.5 和 GPT4）的潜力。芯片设计的一个关键方面是功能测试，它依靠测试平台来评估寄存器传输级 (RTL) 设计的功能和覆盖范围。我们的目标是通过将商业级电子设计自动化 (EDA) 工具的反馈纳入大语言模型来增强测试平台的生成。通过这些工具的迭代反馈，我们改进了测试平台以提高测试覆盖率。我们的案例研究呈现出有希望的结果，表明这种方法可以有效地提高测试覆盖率。通过集成 EDA 工具反馈，生成的测试平台在识别 RTL 设计中的潜在问题方面变得更加准确。此外，我们扩展了我们的研究，使用这个增强的测试覆盖框架来检测 RTL 实现中的错误

MM-SpuBench：更好地理解多模式大语言模型中的虚假偏差

分类： 计算机视觉和模式识别, 机器学习

作者： Wenqian Ye, Guangtao Zheng, Yunsheng Ma, Xu Cao, Bolin Lai, James M. Rehg, Aidong Zhang

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.17126v1

摘要： 虚假偏差是一种使用非必要输入属性和目标变量之间的虚假相关性进行预测的倾向，它揭示了在单一模态数据上训练的深度学习模型中存在严重的鲁棒性缺陷。多模态大语言模型（MLLM）集成了视觉和语言模型，在视觉-语言联合理解方面表现出了强大的能力。然而，虚假偏见在 MLLM 中是否普遍存在仍有待探索。我们通过分析多模式环境中的虚假偏差来缩小这一差距，揭示当视觉模型中的偏差级联到 MLLM 中的视觉和文本标记之间的对齐时可能表现出此问题的特定测试数据模式。为了更好地理解这个问题，我们引入了 MM-SpuBench，这是一个全面的视觉问答 (VQA) 基准，旨在评估 MLLM 对来自五个开源图像数据集的九个不同类别的虚假相关性的依赖程度。 VQA 数据集是根据人类可理解的概念信息（属性）构建的。利用这一基准，我们对当前最先进的 MLLM 进行了全面评估。我们的研究结果阐明了对这些模型的虚假相关性的持续依赖，并强调了对新方法来减轻虚假偏差的迫切需要。为了支持 MLLM 稳健性研究，我们在 https://huggingface.co/datasets/mmbench/MM-SpuBench 上发布了 VQA 基准。

Cambrian-1：完全开放、以视觉为中心的多模式大语言模型探索

分类： 计算机视觉和模式识别

作者： Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Austin Wang, Rob Fergus, Yann LeCun, Saining Xie

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16860v1

摘要： 我们推出 Cambrian-1，这是一个采用以视觉为中心的方法设计的多模式大语言模型 (MLLM) 系列。虽然更强大的语言模型可以增强多模态能力，但视觉组件的设计选择通常没有得到充分探索，并且与视觉表示学习研究脱节。这种差距阻碍了现实场景中准确的感官基础。我们的研究使用大语言模型和视觉指令调整作为评估各种视觉表示的界面，基于 20 多个视觉编码器的实验，为不同模型和架构（自监督、强监督或其组合）提供新的见解。我们批判性地检查现有的 MLLM 基准，解决整合和解释各种任务结果所涉及的困难，并引入一个新的以视觉为中心的基准 CV-Bench。为了进一步改善视觉基础，我们提出了空间视觉聚合器（SVA），这是一种动态的空间感知连接器，它将高分辨率视觉功能与大语言模型集成在一起，同时减少了令牌的数量。此外，我们讨论了来自公开来源的高质量视觉指令调整数据的管理，强调数据源平衡和分配比率的重要性。总的来说，Cambrian-1 不仅实现了最先进的性能，而且还可以作为指令调整 MLLM 的全面、开放的食谱。我们提供模型权重、代码、支持工具、数据集以及详细的指令调整和评估方法。我们希望我们的发布能够激发并加速多模式系统和视觉表示学习的进步。

PISTOL：用于大语言模型结构性遗忘的数据集编译管道

分类： 机器学习, 人工智能, 计算和语言

作者： Xinchi Qiu, William F. Shen, Yihong Chen, Nicola Cancedda, Pontus Stenetorp, Nicholas D. Lane

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16810v1

摘要： 最近，机器去学习旨在删除预训练或微调模型中存储的特定数据，已成为大语言模型的一项重要保护措施。然而，迄今为止所考虑的大语言模型的去学习方法都集中在删除独立数据点，而没有考虑到存储的事实在逻辑上相互连接并形成隐式知识图。为了促进结构性遗忘方法的开发，这对于遗忘的实际应用至关重要，我们提出了 PISTOL，一个用于编译多场景数据集以对结构性 LLM 遗忘进行基准测试的管道。此外，利用使用 PISTOL 合成的样本数据集，我们在 Llama2-7B 和 Mistral-7B 模型上使用四种不同的遗忘方法进行了基准测试。此分析有助于说明有效、稳健地删除高度互连的数据、批量数据或偏向特定领域的数据所面临的普遍挑战。它还强调了预训练模型的选择会影响遗忘性能。这项工作不仅增进了我们对当前大语言模型学习方法局限性的理解并提出了未来的研究方向，而且还为该领域持续探索和验证提供了一个可复制的框架。

彩票改编：减轻大语言模型的破坏性干扰

分类： 计算和语言, 人工智能

作者： Ashwinee Panda, Berivan Isik, Xiangyu Qi, Sanmi Koyejo, Tsachy Weissman, Prateek Mittal

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16797v1

摘要： 使大语言模型（LLM）适应新任务的现有方法不适合多任务适应，因为它们修改了所有模型权重——导致任务之间的破坏性干扰。由此产生的影响，例如对早期任务的灾难性遗忘，使得同时在多个任务上获得良好表现变得具有挑战性。为了缓解这个问题，我们提出了彩票自适应（LoTA），这是一种稀疏自适应方法，仅识别和优化模型的稀疏子网络。我们在一系列具有挑战性的任务上评估 LoTA，例如指令遵循、推理、数学和总结。 LoTA 获得了比完全微调和低秩适应 (LoRA) 更好的性能，并且即使在其他任务训练后也能保持良好的性能，从而避免灾难性遗忘。通过提取和微调\emph{彩票}（或\emph{稀疏任务向量}），LoTA 还可以对高度不同的任务进行模型合并。

将大语言模型融入级联语音翻译：KIT 的 IWSLT 2024 离线语音翻译系统

分类： 计算和语言, 人工智能

作者： Sai Koneru, Thai-Binh Nguyen, Ngoc-Quan Pham, Danni Liu, Zhaolin Li, Alexander Waibel, Jan Niehues

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16777v1

摘要： 目前正在探索大型语言模型 (LLM) 用于各种任务，包括自动语音识别 (ASR)、机器翻译 (MT)，甚至端到端语音翻译 (ST)。在本文中，我们通过结合最近提出的可添加到任何级联语音翻译的技术，展示了 KIT 在约束 + LLM 轨道中的离线提交。具体来说，我们将 Mistral-7B\footnote{mistralai/Mistral-7B-Instruct-v0.1} 集成到我们的系统中，以两种方式增强它。首先，我们利用系统生成的 N 个最佳列表来细化 ASR 输出，并微调 LLM 以准确预测成绩单。其次，我们通过微调 LLM 来细化文档级别的 MT 输出，利用 ASR 和 MT 预测来提高翻译质量。我们发现，将 LLM 集成到 ASR 和 MT 系统中，tst2019 测试集的单词错误率绝对提高了 $0.3%$，COMET 绝对提高了 $0.65%$。在具有重叠扬声器和背景噪声的挑战性测试集中，我们发现由于 ASR 性能较差，集成 LLM 并没有什么好处。在这里，我们使用 ASR 和分块长格式解码来改善上下文的使用，而这在单独使用语音活动检测分段进行转录时可能无法实现。

迈向快速多语言 LLM 推理：推测性解码和专业起草者

分类： 计算和语言

作者： Euiin Yi, Taehyeon Kim, Hongseok Jeung, Du-Seong Chang, Se-Young Yun

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16758v1

摘要： 大型语言模型 (LLM) 彻底改变了自然语言处理，并扩大了其在不同商业应用中的适用性。然而，这些模型的部署受到多语言环境中推理时间长的限制。为了缓解这一挑战，本文探索了推测解码中辅助模型的训练配方，该模型用于起草，然后由目标大语言模型验证其未来的令牌。我们表明，与以前的方法相比，通过有针对性的预训练和微调策略进行优化的特定于语言的草稿模型可以大大加快推理时间。我们在推理时间、域外加速和 GPT-4o 评估方面跨各种语言验证了这些模型。

在基于大语言模型的决策中引入群体公平性

分类： 机器学习, 人工智能, 计算机与社会

作者： James Atwood, Preethi Lahoti, Ananth Balashankar, Flavien Prost, Ahmad Beirami

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16738v1

摘要： 大型语言模型 (LLM) 为文本数据分类创造了新的、有趣的方法。虽然评估和修复群体公平性是分类器公平性文献中一个经过充分研究的问题，但一些经典方法（例如正则化）并没有延续下去，并且出现了一些新的机会（例如基于提示的修复）。我们在毒性分类任务中衡量基于 LLM 的分类器的公平性，并根据经验表明基于提示的分类器可能会导致不公平的决策。我们介绍了几种修复技术，并对它们的公平性和性能权衡进行了基准测试。我们希望我们的工作能够鼓励更多关于基于大语言模型的分类器中的群体公平性的研究。

吵闹的邻居：针对 LLM 的高效成员资格推理攻击

分类： 密码学和安全, 机器学习

作者： Filippo Galli, Luca Melis, Tommaso Cucinotta

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16565v1

摘要： 基于变压器的大语言模型的潜力可能因隐私问题而受到阻碍，因为它们依赖于广泛的数据集（可能包括敏感信息）。 GDPR 和 CCPA 等监管措施要求使用强大的审计工具来解决潜在的隐私问题，其中会员推断攻击 (MIA) 是评估大语言模型隐私风险的主要方法。与传统的 MIA 方法不同，传统的 MIA 方法通常需要对额外模型进行计算密集型训练，本文引入了一种有效的方法，通过在嵌入空间中添加随机噪声来为目标样本生成 \textit{noisy Neighbors}，需要在推理模式下操作目标模型仅有的。我们的研究结果表明，这种方法与采用影子模型的有效性紧密匹配，显示了其在实际隐私审计场景中的可用性。

建立在高效的基础上：利用结构化前馈层有效培训大语言模型

分类： 计算和语言

作者： Xiuying Wei, Skander Moalla, Razvan Pascanu, Caglar Gulcehre

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16450v1

摘要： 大型语言模型 (LLM) 的最先进结果通常依赖于规模，这在计算上变得昂贵。这引发了一项研究议程，以减少这些模型的参数数量和计算成本，而又不会显着影响其性能。我们的研究重点是基于 Transformer 的 LLM，特别针对计算密集型前馈网络（FFN），与注意力块相比，该网络的研究较少。我们通过组合高效的低秩矩阵和块对角矩阵来考虑 FFN 中的三个候选线性层近似。与之前检查这些近似值的许多工作相比，我们的研究 i) 从头开始训练的角度探索了这些结构，ii) 扩展到 1.3B 参数，以及 iii) 在最近基于 Transformer 的 LLM 中进行，而不是在卷积中进行架构。我们首先证明它们可以在各种场景中带来实际的计算增益，包括使用预合并技术时的在线解码。此外，我们提出了一种新颖的训练机制，称为 \textit{自引导训练}，旨在改善这些近似值在初始化时表现出的不良训练动态。在大型RefinedWeb数据集上的实验表明，我们的方法对于训练和推理来说既高效又有效。有趣的是，这些结构化 FFN 表现出比原始模型更陡峭的缩放曲线。进一步将自引导训练应用于具有 32% FFN 参数和 2.5$\times$ 加速的结构化矩阵，在相同的训练 FLOP 下，困惑度仅增加 0.4。最后，我们开发了在复杂度和吞吐量性能上超越当前中型和大型 Transformer 的宽泛结构化网络。我们的代码位于 \url{https://github.com/CLAIRE-Labo/StructuredFFN/tree/main}。

快速一致性图像生成（PCIG）：集成大语言模型、知识图和可控扩散模型的统一框架

分类： 计算机视觉和模式识别, 人工智能

作者： Yichen Sun, Zhixuan Chu, Zhan Qin, Kui Ren

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16333v1

摘要： 文本到图像（T2I）生成模型的快速发展使得在文本描述指导下合成高质量图像成为可能。尽管取得了重大进展，但这些模型通常容易生成与输入文本相矛盾的内容，这对其可靠性和实际部署提出了挑战。为了解决这个问题，我们引入了一种新颖的基于扩散的框架，以显着增强生成的图像与其相应描述的对齐，解决视觉输出和文本输入之间的不一致问题。我们的框架建立在对不一致现象的全面分析的基础上，并根据它们在图像中的表现对它们进行分类。利用最先进的大型语言模块，我们首先提取对象并构建知识图来预测这些对象在可能生成的图像中的位置。然后，我们将最先进的可控图像生成模型与视觉文本生成模块集成，以在预测的对象位置的指导下生成与原始提示一致的图像。通过对先进的多模态幻觉基准进行大量实验，我们证明了我们的方法在准确生成图像方面的有效性，并且不会与原始提示不一致。该代码可以通过 https://github.com/TruthAI-Lab/PCIG 访问。

通过合并进行修剪：通过基于流形对齐的层合并来压缩 LLM

分类： 计算和语言, 人工智能

作者： Deyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang, Fangying Rong, Qingbin Liu, Yanchao Hao, Xi Chen, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Bo Li, Dianbo Sui

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16330v1

摘要： 虽然大型语言模型 (LLM) 在许多领域都表现出色，但其复杂性和规模对资源有限环境中的部署提出了挑战。当前的压缩技术，例如参数修剪，通常无法有效地利用来自修剪参数的知识。为了应对这些挑战，我们提出了基于流形的知识对齐和层合并压缩（MKA），这是一种使用流形学习和归一化成对信息瓶颈（NPIB）测量来合并相似层的新颖方法，在保持基本性能的同时减小了模型大小。我们在多个基准数据集和各种大语言模型上评估 MKA。我们的研究结果表明，MKA 不仅保留了模型性能，而且还实现了可观的压缩比，优于传统的剪枝方法。此外，当与量化相结合时，MKA 可以提供更大的压缩。具体来说，在使用 Llama3-8B 模型的 MMLU 数据集上，MKA 实现了 43.75% 的压缩比，性能下降最小，仅为 2.82%。所提出的 MKA 方法为大语言模型提供了一种资源高效且保留性能的模型压缩技术。

使用 LLM 进行表格数据异常检测

分类： 机器学习, 人工智能, 计算和语言

作者： Aodong Li, Yunhan Zhao, Chen Qiu, Marius Kloft, Padhraic Smyth, Maja Rudolph, Stephan Mandt

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16308v1

摘要： 大型语言模型（LLM）已显示出其在长上下文理解和数学推理方面的潜力。在本文中，我们研究了使用 LLM 检测表格异常的问题，并表明预训练的 LLM 是零样本批量级异常检测器。也就是说，无需额外的特定于分布的模型拟合，他们就可以发现一批数据中隐藏的异常值，证明他们识别低密度数据区域的能力。对于与异常检测不太一致且经常输出事实错误的大语言模型，我们应用简单而有效的数据生成过程来模拟合成的批量级异常检测数据集，并提出一种端到端的微调策略来得出大语言模型在检测真实异常方面的潜力。大型异常检测基准 (ODDS) 上的实验展示了 i) GPT-4 具有与最先进的基于转导学习的异常检测方法相当的性能，以及 ii) 我们的合成数据集和微调的功效使大语言模型适应这项任务的策略。

大语言模型协助 NLP 研究人员：评论论文（元）审查

分类： 计算和语言

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16253v1

用于个性化健康见解的图增强大语言模型：睡眠分析案例研究

分类： 机器学习, 人工智能

作者： Ajan Subramanian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16252v1

摘要： 健康监测系统能够持续捕获生理和行为数据，这对预防措施和早期健康干预至关重要，从而彻底改变了现代医疗保健。虽然将这些数据与大型语言模型 (LLM) 集成在提供交互式健康建议方面显示出了希望，但检索增强生成 (RAG) 和微调等传统方法通常无法充分利用复杂、多维和时间相关的数据来自可穿戴设备。由于动态整合和解释不同健康数据流的能力不足，这些传统方法通常提供有限的可操作和个性化的健康见解。为此，本文引入了图增强大语言模型框架，旨在显着增强健康见解的个性化和清晰度。该框架利用分层图结构，捕获患者之间和患者内部的关系，通过随机森林模型派生的动态特征重要性评分丰富 LLM 提示。这种方法的有效性通过一项涉及 20 名大学生的 COVID-19 封锁期间的睡眠分析案例研究得到了证明，突显了我们的模型有效生成可操作的个性化健康见解的潜力。我们利用另一个大语言模型来评估相关性、全面性、可操作性和个性化的见解，满足对有效处理和解释复杂健康数据的模型的关键需求。我们的研究结果表明，使用我们的框架增强提示可以在所有 4 个标准方面产生显着改进。通过我们的框架，我们可以针对特定患者提出精心设计、更周到的应对措施。

通过神经常微分方程和控制理论揭示大语言模型机制

分类： 机器学习, 人工智能, 计算和语言

作者： Yukun Zhang

发布时间： 2024-06-23

链接： http://arxiv.org/abs/2406.16985v1

摘要： 这项研究提出了一种新颖的方法，利用神经常微分方程（神经常微分方程）来阐明大型语言模型（LLM）中输入和输出之间的复杂关系，并采用稳健的控制来微调输出以满足预定义的标准。我们方法的核心是将大语言模型的输入和输出转换为低维潜在空间，从而促进对大语言模型内信息处理路径的详细检查。神经常微分方程在这项研究中发挥着关键作用，它提供了一个动态模型来捕获大语言模型内数据的持续演变。此外，还应用稳健的控制机制来战略性地调整模型的输出，确保它们不仅保持高质量和可靠性，而且遵守特定的性能标准。神经常微分方程和鲁棒控制的融合代表了大语言模型可解释性的重大进步，提供了一个全面的框架，阐明了这些复杂模型以前不透明的机制。我们的实证结果验证了这种综合方法的有效性，通过将先进的机器学习技术与人工智能输出的透明度和控制的迫切需求相结合，为可解释人工智能领域做出了重大贡献。

大语言模型的分类表现被高估了

分类： 计算和语言

作者： Hanzi Xu, Renze Lou, Jiangshu Du, Vahid Mahzoon, Elmira Talebianaraki, Zhuoan Zhou, Elizabeth Garrison, Slobodan Vucetic, Wenpeng Yin

发布时间： 2024-06-23

链接： http://arxiv.org/abs/2406.16203v1

摘要： 在许多专为人工智能或人类解决的分类任务中，默认情况下，黄金标签通常包含在标签空间内，通常表现为“以下哪项是正确的？”这一标准设置传统上强调了高级人工智能在常规分类任务中的强大性能，特别是表现最佳的大型语言模型（LLM）。然而，当故意将黄金标签从标签空间中排除时，很明显大语言模型仍然尝试从可用的标签候选中进行选择，即使没有一个是正确的。这就提出了一个关键问题：大语言模型是否真正展示了他们在理解分类任务本质方面的智慧？在这项研究中，我们评估了代表性分类任务中的闭源和开源大语言模型，认为大语言模型的感知表现被夸大了，因为它们无法表现出对任务的预期理解。本文做出了三重贡献：i）据我们所知，这是第一篇在没有金标签的情况下确定大语言模型在分类任务中的局限性的工作。我们将此任务定义为 Classify-w/o-Gold 并建议将其作为大语言模型的新测试平台。 ii）我们引入了一个基准，Know-No，包括两个现有的分类任务和一个新任务，来评估 Classify-w/o-Gold。 iii) 这项工作定义并倡导了一种新的评估指标 OmniAccuracy，该指标评估大语言模型在存在和不存在金标签时在分类任务中的表现。

LLM 图形推理可以超越模式记忆吗？

分类： 计算和语言, I.2.7

作者： Yizhuo Zhang, Heng Wang, Shangbin Feng, Zhaoxuan Tan, Xiaochuang Han, Tianxing He, Yulia Tsvetkov

发布时间： 2024-06-23

链接： http://arxiv.org/abs/2406.15992v1

摘要： 大型语言模型（LLM）展示了解决隐式图形结构问题的巨大潜力，而最近的工作试图通过专门的指令调整来增强 LLM 的图形推理能力。由此产生的“图大语言模型”仅使用分布内设置进行评估，因此大语言模型是否正在学习可概括的图推理技能或仅仅是记住合成训练数据中的模式仍然没有得到充分探索。为此，我们提出了 NLGIft 基准，这是一个 LLM 图推理泛化的评估套件：LLM 是否可以超越合成训练数据中的语义、数字、结构、推理模式，并提高现实世界中基于图的任务的实用性。两个大语言模型在四个图形推理任务中的广泛实验表明，虽然对简单模式（语义、数字）的泛化有些令人满意，但大语言模型很难在推理和现实世界模式中进行泛化，这让人们对合成图调整对现实世界的好处产生了怀疑。具有底层网络结构的世界任务。我们探索了三种提高 LLM 图推理泛化能力的策略，我们发现虽然训练后对齐对于现实世界的任务最有希望，但使 LLM 图推理超越模式记忆仍然是一个开放的研究问题。

大语言模型可以使用无数据提示生成可视化吗？

分类： 计算和语言, 人工智能, 人机交互

作者： Darius Coelho, Harshit Barot, Naitik Rathod, Klaus Mueller

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.17805v1

摘要： 大型语言模型的最新进展彻底改变了信息访问，因为这些模型利用网络上可用的数据来解决复杂的查询，成为许多用户的首选信息源。在某些情况下，查询涉及公开可用的数据，可以通过数据可视化来有效回答。在本文中，我们研究大型语言模型响应此类查询提供准确数据和相关可视化的能力。具体来说，我们研究了 GPT-3 和 GPT-4 在无数据提示（查询中没有数据）的情况下生成可视化的能力。我们通过将模型的结果与可视化专家创建的可视化备忘单进行比较来评估模型的结果。

模块化多元主义：通过多大语言模型协作实现多元协调

分类： 计算和语言

作者： Shangbin Feng, Taylor Sorensen, Yuhan Liu, Jillian Fisher, Chan Young Park, Yejin Choi, Yulia Tsvetkov

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.15951v1

摘要： 虽然现有的对齐范式在开发大型语言模型 (LLM) 中是不可或缺的，但 LLM 经常学习人类的平均偏好，并且很难对跨文化、人口统计和社区的不同偏好进行建模。我们提出模块化多元主义，这是一个基于多 LLM 协作的模块化框架，以实现多元对齐：它将一个较小但专业的社区 LM 池“插入”基础 LLM，其中模型以不同的模式进行协作，以灵活地支持三种多元化模式：，可操纵和分布式。模块化多元主义与黑盒 LLM 具有独特的兼容性，并提供为以前代表性不足的社区添加新社区 LM 的模块化控制。我们通过六个任务和四个数据集来评估模块化多元主义，这些数据集包含问题/指令以及充满价值和观点的答案。大量实验表明，模块化多元化在六个黑盒和开源大语言模型中推进了三个多元化目标。进一步的分析表明，大语言模型通常忠实于较小社区大语言模型的输入，通过添加新的社区大语言模型来实现无缝修补，以更好地覆盖以前代表性不足的社区。

通过多语言反馈教导大语言模型跨语言戒律

分类： 计算和语言

作者： Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Orevaoghene Ahia, Shuyue Stella Li, Vidhisha Balachandran, Sunayana Sitaram, Yulia Tsvetkov

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.15948v1

摘要： 多语言大语言模型通常存在跨语言的知识差距，资源贫乏的语言知识差距更大。因此，教导大语言模型在面对知识差距时放弃是一种有前途的策略，可以减轻多语言环境中的幻觉。然而，以往关于LLM弃权的研究主要集中在英语方面；我们发现，直接应用英语以外的现有解决方案会导致高资源语言和低资源语言之间高达 20.5% 的性能差距，这可能是由于大语言模型在少数资源丰富的语言之外的校准和推理能力下降所致。为此，我们提出了通过学习多语言反馈来提高大语言模型放弃率的策略，大语言模型通过在相关语言中生成多个反馈项目来自我反思一种语言中提出的答案：我们表明这有助于识别不同语言之间的知识差距，文化和社区。大量实验表明，我们的多语言反馈方法优于各种强大的基线，在三个数据集上的三个黑盒和开放模型中实现了高达 9.2% 的低资源语言改进，其中包括开卷、闭卷和常识 QA。进一步分析表明，多语言反馈是一种服务于不同语言使用者的有效且更公平的弃权策略，文化因素对语言选择和LLM弃权行为有很大影响，突出了多语言和多文化可靠语言建模的未来方向。

RuleR：通过基于规则的数据回收提高LLM可控性

分类： 计算和语言, 人工智能, 机器学习

作者： Ming Li, Han Chen, Chenguang Wang, Dang Nguyen, Dianqi Li, Tianyi Zhou

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.15938v1

摘要： 大型语言模型（LLM）仍然缺乏对其响应的微妙控制，这对于提高其性能和用户体验至关重要。然而，管理监督微调（SFT）数据集以提高大语言模型的可控性通常依赖于人类专家或专有的大语言模型，这需要额外的成本。为了弥补这一差距，我们提出了基于规则的数据回收（RuleR），这是一种根据预定义规则将多个约束合并到原始数据样本中的数据增强方法，它创建了新的训练任务来巩固LLM的可控性。 RuleR 不是从头开始创建新数据，而是通过简单地将基于规则的编辑应用于其响应并在其原始指令中附加规则指令来“回收”现有数据。实验结果证明了 RuleR 在提高 LLM 可控性方面的有效性，同时保持了一般指令跟踪能力。代码将在 https://github.com/MingLiiii/RuleR 上发布。

语义熵探针：大语言模型中稳健且廉价的幻觉检测

分类： 计算和语言, 人工智能, 机器学习

作者： Jannik Kossen, Jiatong Han, Muhammed Razzak, Lisa Schut, Shreshth Malik, Yarin Gal

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.15927v1

摘要： 我们提出了语义熵探针（SEP），这是一种廉价且可靠的大型语言模型（LLM）不确定性量化方法。幻觉，听起来似乎有道理，但实际上不正确且任意的模型生成，对大语言模型的实际采用提出了重大挑战。 Farquhar 等人的最新工作。 (2024) 提出了语义熵 (SE)，它可以通过估计一组模型生成的空间语义的不确定性来检测幻觉。然而，与 SE 计算相关的计算成本增加了 5 到 10 倍，阻碍了实际采用。为了解决这个问题，我们提出了 SEP，它直接从单代的隐藏状态近似 SE。 SEP 训练起来很简单，并且不需要在测试时对多个模型生成进行采样，从而将语义不确定性量化的开销减少到几乎为零。我们表明，与之前直接预测模型准确性的探测方法相比，SEP 保留了幻觉检测的高性能，并且可以更好地推广到分布外数据。我们跨模型和任务的结果表明，模型隐藏状态捕获了SE，并且我们的消融研究进一步深入了解了这种情况下的令牌位置和模型层。

不太可能的决斗：通过独特的场景评估大语言模型的创意写作

分类： 计算和语言, 68T50, I.2.7

作者： Carlos Gómez-Rodríguez, Paul Williams

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.15891v1

摘要： 这是论文“模型联盟：对创意写作大语言模型的综合评估”的摘要，该论文发表在 EMNLP 2023 的发现中。我们评估了一系列最新的、经过教学调整的大型模型英语创意写作任务的语言模型（LLM），并将其与人类作家进行比较。为此，我们使用专门定制的提示（基于约翰·肯尼迪·图尔的《笨蛋联盟》的主角伊格内修斯·J·赖利和翼手龙之间的史诗般的战斗）来最大程度地减少训练数据泄漏和强制的风险模型要有创意，而不是重复使用现有的故事。向大语言模型和人类作家提出相同的提示，并由人类使用详细的评分标准进行评估，包括流畅性、风格、原创性或幽默等各个方面。结果表明，一些最先进的商业大语言模型在大多数评估维度上都与我们的人类作家相匹配或略胜一筹。开源大语言模型落后了。人类在原创性方面保持着遥遥领先的优势，只有前三名的大语言模型才能像人类一样处理幽默。

LLM 支持的解释：通过子图推理阐明建议

分类： 信息检索, 人工智能

作者： Guangsi Shi, Xiaofeng Deng, Linhao Luo, Lijuan Xia, Lei Bao, Bei Ye, Fei Du, Shirui Pan, Yuxiao Li

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.15859v1

摘要： 推荐系统通过分析用户和项目之间的复杂关系，对于增强各种 Web 应用程序的用户体验至关重要。知识图（KG）已被广泛用于增强推荐系统的性能。然而，知识图谱存在噪声且不完整，很难为推荐结果提供可靠的解释。可解释的推荐系统对于产品开发和后续决策至关重要。为了应对这些挑战，我们引入了一种新颖的推荐器，它可以协同大型语言模型（LLM）和知识图谱来增强推荐并提供可解释的结果。具体来说，我们首先利用大语言模型的力量来增强 KG 重建。 LLM 理解用户评论并将其分解为添加到 KG 中的新三元组。通过这种方式，我们可以通过表达用户偏好的可解释路径来丰富知识图谱。为了增强增强知识图谱的推荐，我们引入了一种新颖的子图推理模块，该模块可以有效地测量节点的重要性并发现推荐的推理。最后，这些推理路径被输入到大语言模型中，以生成推荐结果的可解释解释。我们的方法显着提高了推荐系统的有效性和可解释性，特别是在传统方法失效的交叉销售场景中。我们的方法的有效性已经在四个开放的现实世界数据集上经过了严格的测试，我们的方法表现出比当代最先进技术更优越的性能，平均提高了 12%。我们的模型在跨国工程技术公司交叉销售推荐系统中的应用进一步强调了其实用性以及通过提高准确性和用户信任来重新定义推荐实践的潜力。

LaMSUM：使用大语言模型对用户生成内容进行提取总结的新颖框架

分类： 计算和语言, 机器学习

作者： Garima Chhikara, Anurag Sharma, V. Gurucharan, Kripabandhu Ghosh, Abhijnan Chakraborty

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.15809v1

摘要： 大型语言模型 (LLM) 在各种 NLP 任务（包括摘要）中表现出了令人印象深刻的性能。本质上，大语言模型会产生抽象摘要，而通过大语言模型实现提取摘要的任务在很大程度上仍未得到探索。为了弥补这一差距，在这项工作中，我们提出了一种新颖的框架 LaMSUM，通过 LLM 并利用投票算法为大型用户生成的文本生成提取摘要。我们对三种流行的开源 LLM（Llama 3、Mixtral 和 Gemini）的评估表明，LaMSUM 优于最先进的提取摘要方法。我们进一步尝试提供大语言模型产出摘要背后的基本原理。总的来说，这是利用大语言模型实现大型用户生成文本的提取摘要的早期尝试之一，并且可能会引起社区的进一步兴趣。

Ladder：一个与模型无关的框架，将基于 LLM 的机器翻译提升到新的水平

分类： 计算和语言, 人工智能, 机器学习

作者： Zhaopeng Feng, Ruizhe Chen, Yan Zhang, Zijie Meng, Zuozhu Liu

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.15741v1

摘要： 像 GPT-4 这样的通用大型语言模型 (LLM) 通过利用广泛的 Web 内容，在机器翻译 (MT) 方面取得了显着的进步。另一方面，特定于翻译的大语言模型是通过对特定领域的单语语料库进行预训练并使用人工注释的翻译数据进行微调来构建的。尽管性能优越，这些方法要么需要前所未有的计算和数据规模，要么需要大量的人工编辑和注释工作。在本文中，我们开发了 Ladder，这是一种与模型无关且经济高效的新型工具，用于改进 MT 的通用大语言模型的性能。 Ladder 接受了伪细化三元组的训练，这些三元组可以从现有的大语言模型轻松获得，无需额外的人力成本。在训练过程中，我们提出了一种由易到难的分层微调策略，逐步提高Ladder的精炼性能。经过训练的 Ladder 可以与任何通用大语言模型无缝集成，以提高其翻译性能。通过利用 Gemma-2B/7B 作为骨干，Ladder-2B 可以将原始翻译提升到顶级开源模型的水平（例如，针对 XX-En 使用 +6.91 BLEU 和 +3.52 COMET 改进 BigTranslate-13B）， Ladder-7B 可以进一步增强模型性能，使其与最先进的 GPT-4 相当。广泛的消融和分析证实了梯子在不同环境中的有效性。我们的代码位于 https://github.com/fzp0424/Ladder

RankAdaptor：结构修剪 LLM 的分层动态低秩适应

分类： 计算和语言, 人工智能

作者： Changhai Zhou, Shijie Han, Shiyang Zhang, Shichao Weng, Zekai Liu, Cheng Jin

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.15734v1

摘要： 大型语言模型 (LLM) 的高效压缩正变得越来越流行。然而，恢复压缩的大语言模型的准确性仍然是一个重大挑战。使用标准低秩适应 (LoRA) 进行结构修剪是当前 LLM 压缩中的常见技术。在结构剪枝中，模型架构修改不均匀，导致通过固定秩的标准LoRA在各种下游任务中表现不佳。为了解决这个问题，我们引入了 RankAdaptor，这是一种针对修剪后的 LLM 进行分层动态排名调度的高效微调方法。开发了端到端自动优化流程，利用轻量级性能模型来确定微调期间的不同等级。对流行基准的综合实验表明，RankAdaptor 在不同剪枝设置上的结构剪枝始终优于标准 LoRA。在不增加可训练参数的情况下，与标准 LoRA 相比，RankAdaptor 进一步缩小了剪枝模型的恢复与原始模型之间的精度性能差距。

低资源翻译大语言模型的缺点：检索和理解都是问题

分类： 计算和语言, 人工智能, 机器学习

作者： Sara Court, Micha Elsner

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15625v1

摘要： 这项工作研究了预训练的大型语言模型 (LLM) 在被指示将文本从低资源语言翻译为高资源语言（作为自动机器翻译管道的一部分）时的上下文学习能力。我们进行了一系列将南盖丘亚语翻译成西班牙语的实验，并检查从数字化教学材料（词典和语法课程）和平行语料库的有限数据库中检索到的各种类型信息的信息量。使用模型输出的自动和人工评估，我们进行消融研究，操纵（1）上下文类型（语素翻译、语法描述和语料库示例），（2）检索方法（自动与手动），以及（3）模型类型。我们的结果表明，即使是相对较小的大语言模型，在提供最少足够数量的相关语言信息时，也能够利用即时上下文进行零样本低资源翻译。然而，提示类型、检索方法、模型类型和语言特定因素的可变影响凸显了即使是最好的大语言模型作为世界 7,000 多种语言及其使用者中的大多数的翻译系统的局限性。

智能助记符听起来像“补品”：将大语言模型与学生反馈相结合，使助记符学习棒

分类： 计算和语言

作者： Nishant Balepur, Matthew Shu, Alexander Hoyle, Alison Robey, Shi Feng, Seraphina Goldfarb-Tarrant, Jordan Boyd-Graber

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15352v1

摘要： 关键字助记符是将新术语与更简单的关键字联系起来的令人难忘的解释。先前的工作为学生生成助记符，但它们并没有将模型引导到学生喜欢的助记符和帮助学习。我们构建了 SMART，这是一个助记符生成器，根据学习新术语的真实学生的反馈进行训练。为了训练 SMART，我们首先根据一组精心设计的用户编写的助记符对 LLaMA-2 进行微调。然后，我们使用 LLM 对齐来增强 SMART：我们在抽认卡应用程序中部署 SMART 生成的助记符，以找到学生喜欢的助记符偏好。我们收集了 45 名学生的 2684 个偏好，分为两种类型：表达的（从评分推断）和观察的（从学生的学习推断），得出三个关键发现。首先，表达的偏好和观察到的偏好不一致；学生认为有帮助的内容并没有完全体现出真正有帮助的内容。其次，贝叶斯模型可以将多种偏好类型的互补数据合成为单个有效性信号。 SMART 通过直接偏好优化对该信号进行调整，我们展示了该信号解决了典型的成对比较方法中的联系和缺失标签问题，从而增强了 LLM 输出质量增益的数据。第三，助记符专家评估 SMART 与 GPT-4 相匹配，部署成本要低得多，这显示了捕获不同学生反馈以调整大语言模型教育的效用。

GenoTEX：评估基于 LLM 的基因表达数据探索的基准，与生物信息学家保持一致

分类： 机器学习, 人工智能, 基因组学

作者： Haoyang Liu, Haohan Wang

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15341v1

摘要： 机器学习的最新进展显着提高了从基因表达数据集中识别疾病相关基因的能力。然而，这些过程通常需要大量的专业知识和手动工作，限制了它们的可扩展性。基于大型语言模型 (LLM) 的代理由于解决问题的能力不断增强，在自动化这些任务方面表现出了希望。为了支持此类方法的评估和开发，我们引入了 GenoTEX，这是一个用于自动探索基因表达数据的基准数据集，涉及数据集选择、预处理和统计分析的任务。 GenoTEX 在遵循计算基因组学标准的完整分析流程中提供带注释的代码和结果，用于解决各种基因识别问题。这些注释由人类生物信息学家策划，他们仔细分析数据集以确保准确性和可靠性。为了为这些任务提供基线，我们提出了 GenoAgents，这是一个基于 LLM 的代理团队，旨在通过上下文感知规划、迭代校正和领域专家咨询来协作探索基因数据集。我们使用 GenoAgents 进行的实验证明了基于 LLM 的方法在基因组学数据分析中的潜力，而错误分析则强调了未来改进的挑战和领域。我们建议 GenoTEX 作为一种有前途的资源，用于基准测试和增强人工智能驱动的基因组数据分析方法。我们在 \url{https://github.com/Liu-Hy/GenoTex} 公开提供我们的基准测试。

大语言模型时代打击学术不诚实的击键动态

分类： 计算机视觉和模式识别, 计算机与社会, I.5.4

作者： Debnath Kundu, Atharva Mehta, Rajesh Kumar, Naman Lal, Avinash Anand, Apoorv Singh, Rajiv Ratn Shah

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15335v1

摘要： 向在线考试和作业的过渡引起了人们对学术诚信的严重担忧。传统的抄袭检测系统通常很难识别智能作弊的实例，特别是当学生利用先进的生成式人工智能工具来制定他们的回答时。本研究提出了一种基于击键动力学的方法来区分学术背景下的真实写作和辅助写作。为了实现这一目标，我们开发了一个数据集来捕获从事写作任务的个人的击键模式，无论是否有生成式人工智能的帮助。该检测器使用修改后的 TypeNet 架构进行训练，在特定条件场景中实现了 74.98% 至 85.72% 的准确率，在与条件无关的场景中实现了 52.24% 至 80.54% 的准确率。研究结果强调了真实书写和辅助书写之间击键动态的显着差异。这项研究的结果增强了我们对用户如何与生成人工智能交互的理解，并对提高数字教育平台的可靠性具有影响。

梯度掩模调整提高了 LLM 性能的上限

分类： 人工智能, 计算和语言

作者： Haoling Li, Xin Zhang, Xiao Liu, Yeyun Gong, Yifan Wang, Yujiu Yang, Qi Chen, Peng Cheng

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15330v1

摘要： 大型语言模型（LLM）已经彻底改变了许多研究领域。尽管众所周知，微调对于增强大语言模型的能力至关重要，但现有研究表明微调过程中存在潜在的冗余，因此建议仅更新一部分参数。然而，这些方法无法利用特定于任务的信息来识别训练期间的重要参数。基于梯度本质上包含特定任务数据信息的见解，我们提出了梯度掩模调整（GMT），这是一种在训练期间根据梯度信息有选择地更新参数的方法。具体来说，我们计算梯度的绝对值并对幅度相对较小的梯度应用掩蔽。我们在各种任务中的实证结果表明，GMT 不仅优于传统的微调方法，而且还提高了 LLM 性能的上限。进一步的分析表明，GMT 对掩模比不敏感，并且具有与普通 SFT 相当的计算效率。

代码堆栈中的错误：大语言模型能否在大型 Python 代码堆栈中找到错误

分类： 人工智能, 软件工程, 68T50, I.2.7; D.2.5

作者： Hokyung Lee, Sumanyu Sharma, Bing Hu

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15325v1

摘要： 最近的大海捞针 (NIAH) 基准研究探索了大型语言模型 (LLM) 从大型文本文档中检索上下文信息的能力。然而，随着大语言模型越来越多地集成到软件开发过程中，评估其在基于代码的环境中的性能至关重要。随着大语言模型进一步发展为程序综合，我们需要确保大语言模型能够理解语法并编写语法正确的代码。作为确保大语言模型理解语法的一个步骤，可以评估大语言模型查找和检测语法错误的能力。我们的基准测试“代码堆栈中的错误”(BICS) 旨在评估大语言模型识别大型源代码中简单语法错误的能力。我们的研究结果揭示了三个关键见解：（1）与基于文本的环境相比，基于代码的环境对检索任务提出了更大的挑战，（2）不同模型之间存在巨大的性能差异，（3）存在显着的相关性较长的上下文长度和性能下降之间的关系，尽管这种下降的程度因模型而异。

LongRAG：通过长上下文大语言模型增强检索增强生成

分类： 计算和语言, 人工智能

作者： Ziyan Jiang, Xueguang Ma, Wenhu Chen

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15319v1

摘要： 在传统的RAG框架中，基本检索单元通常很短。像 DPR 这样的常见检索器通常处理 100 字的维基百科段落。这样的设计迫使检索器搜索大型语料库以找到“针”单元。相反，读者只需要从简短的检索单元中提取答案。这种不平衡的“重型”检索器和“轻型”阅读器设计可能会导致性能不佳。为了缓解这种不平衡，我们提出了一个新的框架LongRAG，由“长检索器”和“长阅读器”组成。 LongRAG 将整个维基百科处理为 4K 令牌单元，比以前长了 30 倍。通过增加单元大小，我们将单元总数从 22M 显着减少到 700K。这显着减轻了检索器的负担，从而获得了显着的检索分数：NQ 上的答案recall@1=71%（之前为 52%），HotpotQA 上的答案recall@2=72%（之前为 47%）（完整维基）。然后，我们将 top-k 检索到的单元（$\approx$ 30K token）提供给现有的长上下文 LLM 以执行零样本答案提取。在不需要任何训练的情况下，LongRAG 在 NQ 上实现了 62.7% 的 EM，这是最著名的结果。 LongRAG 在 HotpotQA（完整维基）上也达到了 64.3%，与 SoTA 模型相当。我们的研究为将 RAG 与长背景大语言模型相结合的未来路线图提供了见解。

基于LLM的自动反叙事生成评估排序方法

分类： 计算和语言

作者： Irune Zubiaga, Aitor Soroa, Rodrigo Agerri

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15227v1

摘要： 网络话语中错误信息和有害叙事的扩散凸显了对有效的反叙事（CN）生成技术的迫切需要。然而，现有的自动评估方法往往缺乏可解释性，无法捕捉生成的 CN 与人类感知之间的微妙关系。为了实现与人类判断的更高相关性，本文提出了一种评估生成 CN 的新方法，其中包括使用大型语言模型（LLM）作为评估器。通过以锦标赛形式成对比较生成的 CN，我们建立了一个模型排名管道，该管道与人类偏好的相关性达到 0.88 美元。作为额外贡献，我们利用 LLM 作为零样本（ZS）CN 生成器，并对聊天、指令和基础模型进行比较分析，探索它们各自的优势和局限性。通过细致的评估，包括微调实验，我们阐明了性能和对特定领域数据的响应能力的差异。我们的结论是，ZS 中的聊天模型是执行该任务的最佳选择，前提是它们不会因安全问题而拒绝生成答案。

历史问题大型语言模型回答能力评估（大语言模型）

分类： 信息检索, 人工智能

作者： Mathieu Chartier, Nabil Dakkoune, Guillaume Bourgeois, Stéphane Jean

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15173v1

摘要： ChatGPT 或 Bard 等大型语言模型 (LLM) 彻底改变了信息检索，并以其在创纪录的时间内生成自定义响应（无论主题如何）的能力吸引了观众。在本文中，我们评估了各个大语言模型在用法语对历史事实做出可靠、全面且足够相关的回应方面的能力。为了实现这一目标，我们构建了一个测试平台，其中包含许多不同类型、主题和难度级别的历史相关问题。我们对十位选定的大语言模型的回答进行的评估揭示了实质和形式上的许多缺陷。除了总体准确率不足之外，我们还强调了对法语的处理不平衡，以及大语言模型提供的回答冗长和不一致的问题。

PARIKSHA：对多语言和多文化数据的人类大语言模型评估者协议的大规模调查

分类： 计算和语言

作者： Ishaan Watts, Varun Gumma, Aditya Yadavalli, Vivek Seshadri, Manohar Swaminathan, Sunayana Sitaram

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15053v1

摘要： 由于多种因素，多语言大语言模型 (LLM) 的评估具有挑战性：缺乏具有足够语言多样性的基准、LLM 预训练数据中流行基准的污染以及翻译基准中缺乏本地文化的细微差别。在这项工作中，我们研究了多语言、多文化环境中的人类和基于大语言模型的评估。我们通过进行 90K 人类评估和 30K 基于 LLM 的评估，评估了 10 种印度语言的 30 个模型，发现 GPT-4o 和 Llama-3 70B 等模型对于大多数印度语言始终表现最佳。我们为两种评估设置（成对比较和直接评估）构建排行榜，并分析人类和大语言模型之间的一致性。我们发现人类和大语言模型在成对设置中的一致性相当好，但在直接评估评估中一致性下降，尤其是对于孟加拉语和奥迪亚语等语言。我们还检查人类和基于 LLM 的评估中的各种偏差，并在基于 GPT 的评估器中找到自我偏差的证据。我们的工作在扩大大语言模型多语言评估方面迈出了重要一步。

检索计划生成：知识密集型大语言模型生成的迭代规划和回答框架

分类： 计算和语言

作者： Yuanjie Lyu, Zihan Niu, Zheyong Xie, Chao Zhang, Tong Xu, Yang Wang, Enhong Chen

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.14979v1

摘要： 尽管大型语言模型（LLM）在各种任务中取得了显着进展，但由于其内部知识有限，它们经常产生事实错误。检索增强生成（RAG）通过外部知识源增强大语言模型的能力，提供了一个有前途的解决方案。然而，这些方法可能会被检索到的文档中不相关的段落所误导。由于LLM生成中固有的不确定性，输入整个文档可能会引入偏离主题的信息，导致模型偏离中心主题，影响生成内容的相关性。为了解决这些问题，我们提出了检索计划生成（RPG）框架。 RPG 生成计划代币，在计划阶段指导后续世代。在答案阶段，模型根据计划选择相关的细粒度段落，并将其用于进一步的答案生成。这个计划-答案过程会反复重复直至完成，通过关注特定主题来增强生成相关性。为了有效地实施这个框架，我们利用了一种简单但有效的多任务提示调整方法，使现有的大语言模型能够处理计划和回答。我们将 RPG 与 5 个知识密集型生成任务的基线进行了全面比较，证明了我们方法的有效性。

信任与准确性的故事：RAG 系统中的基础大语言模型与指导大语言模型

分类： 计算和语言, 信息检索

作者： Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.14972v1

摘要： 检索增强生成 (RAG) 代表了人工智能的重大进步，将检索阶段与生成阶段相结合，后者通常由大型语言模型 (LLM) 提供支持。 RAG 当前的常见做法涉及使用“指导”大语言模型，这些大语言模型通过监督培训进行微调，以增强他们遵循指令的能力，并使用最先进的技术与人类偏好保持一致。与普遍看法相反，我们的研究表明，在我们的实验设置下，基础模型在 RAG 任务中的表现平均比指导模型高出 20%。这一发现挑战了关于 RAG 申请中受指导的大语言模型优越性的普遍假设。进一步的调查揭示了更微妙的情况，对 RAG 的基本方面提出了质疑，并表明需要就该主题进行更广泛的讨论；或者，正如弗洛姆所说，“很少有一眼统计数据就足以理解这些数字的含义”。

解码问题：解决基于 LLM 的推荐的放大偏差和同质性问题

分类： 信息检索

作者： Keqin Bao, Jizhi Zhang, Yang Zhang, Xinyue Huo, Chong Chen, Fuli Feng

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.14900v1

摘要： 考虑到生成项目和自然语言之间的固有差异，采用大型语言模型 (LLM) 进行推荐需要仔细考虑解码过程。现有的方法通常直接应用大语言模型的原始解码方法。然而，我们发现这些方法遇到了重大挑战：1）放大偏差 - 标准长度归一化会夸大包含生成概率接近 1 的标记的项目的分数（称为幽灵标记），以及 2）同质性问题 - 生成多个相似或重复的标记用户的项目。为了应对这些挑战，我们引入了一种新的解码方法，称为去偏多样化解码（D3）。 D3 禁用幽灵令牌的长度标准化以减轻放大偏差，并且它采用了无文本辅助模型来鼓励 LLM 较少生成的令牌，以抵消推荐同质性。对现实世界数据集的大量实验证明了该方法在提高准确性和多样性方面的有效性。

FlowBench：对基于 LLM 的代理的工作流程引导规划进行重新审视和基准测试

分类： 计算和语言

作者： Ruixuan Xiao, Wentao Ma, Ke Wang, Yuchuan Wu, Junbo Zhao, Haobo Wang, Fei Huang, Yongbin Li

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.14884v1

摘要： 基于 LLM 的代理已成为有前途的工具，它们旨在通过迭代规划和行动来完成复杂的任务。然而，当缺乏专业密集型任务的具体知识时，这些代理很容易出现不希望的计划幻觉。为了解决这个问题，初步尝试通过结合外部工作流程相关知识来增强计划的可靠性。尽管有这样的承诺，但这些注入的知识大多是杂乱无章的，格式多样，缺乏严格的形式化和全面的比较。受此启发，我们将不同格式的工作流知识形式化，并提出了 FlowBench，这是工作流引导规划的第一个基准。 FlowBench涵盖6个领域的51个不同场景，知识以多种形式呈现。为了在 FlowBench 上评估不同的大语言模型，我们设计了一个多层评估框架。我们评估了多种格式的工作流程知识的有效性，结果表明当前的大语言模型代理人需要进行相当大的改进才能获得令人满意的规划。我们希望我们具有挑战性的基准能够为未来的代理规划研究铺平道路。

OATH-Frames：与大语言模型助理一起描述网上对无家可归者的态度

分类： 计算和语言, 计算机与社会

作者： Jaspreet Ranjit, Brihi Joshi, Rebecca Dorn, Laura Petry, Olga Koumoundouros, Jayne Bottarini, Peichen Liu, Eric Rice, Swabha Swayamdipta

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.14883v1

摘要： 警告：本文的内容可能会令人不安。公众在网络媒体上表达的对关键社会问题的态度对于政策和改革努力具有巨大价值，但难以大规模理解。我们研究这样一个社会问题：美国的无家可归者，通过利用大型语言模型的卓越功能来协助社会工作专家分析 Twitter 上的数百万条帖子。我们引入了一种框架类型：对无家可归者的在线态度（OATH）框架：九个层次框架捕获批评、回应和看法。我们发布了具有不同程度的语言模型辅助的注释，这在扩展方面带来了巨大的好处：注释时间加速了 6.5 倍，而相对于领域专家而言，性能仅降低了 3 点 F1。我们的实验证明了 OATH-Frames 建模相对于现有情绪和毒性分类器的价值。我们对 240 万篇有关无家可归者的帖子进行了预测 OATH-Frames 的大规模分析，揭示了各州、不同时期和弱势群体态度的主要趋势，从而使人们对这个问题有了新的见解。我们的工作提供了一个总体框架，以大规模地了解公众对无家可归问题以外的问题的细微差别态度。

我不再相信你了！ -- 学生LLM的使用对高等教育中讲师-学生-信任的影响

分类： 计算机与社会, 人工智能, 新兴技术, 人机交互, 机器学习, K.3.1; K.4.2; K.4.3; J.4; H.0; I.2.0

作者： Simon Kloker, Matthew Bazanya, Twaha Kateete

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.14871v1

摘要： 信任在师生合作中发挥着关键作用，涵盖教学和研究方面。大型语言模型 (LLM) 在 Open AI 的 ChatGPT 等平台中的出现，加上其成本效益和高质量的结果，使其在大学生中迅速采用。然而，从大语言模型生成的输出中辨别真正的学生输入对讲师来说是一个挑战。这种困境危及了讲师和学生之间的信任关系，可能会影响大学的下游活动，特别是合作研究计划。尽管试图为学生大语言模型的使用制定指导方针，但对高等教育中的讲师和学生互惠互利的明确框架仍然难以实现。本研究解决了以下研究问题：学生使用大语言模型如何影响信息和程序正义、团队信任和预期团队绩效？我们有条不紊地应用了基于结构的定量调查，并使用结构方程模型（PLS-SEM）技术进行评估，以检查这些结构之间的潜在关系。我们基于 Ndejje 大学 23 名有效受访者的调查结果表明，讲师不太关心 LLM 使用本身的公平性，而是更关注学生使用的透明度，这对团队信任产生了显着的积极影响。这项研究有助于全球关于整合和规范大语言模型及后续教育模式的讨论。我们建议指南应支持大语言模型的使用，同时加强讲师与学生合作的透明度，以促进团队信任和绩效。该研究为制定政策提供了宝贵的见解，使大语言模型在教育中的使用符合道德和透明，以确保协作学习环境的有效性。

从 LLM 到 MLLM：探索多模式越狱的前景

分类： 计算和语言, 人工智能

作者： Siyuan Wang, Zhuohan Long, Zhihao Fan, Zhongyu Wei

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.14859v1

摘要： 大型语言模型（LLM）和多模态大型语言模型（MLLM）的快速发展暴露了各种对抗性攻击的漏洞。本文全面概述了针对 LLM 和 MLLM 的越狱研究，重点介绍了评估基准、攻击技术和防御策略方面的最新进展。与更先进的单模式越狱相比，多模式领域仍未得到充分探索。我们总结了多模式越狱的局限性和潜在的研究方向，旨在启发未来的研究并进一步增强 MLLM 的鲁棒性和安全性。

通过测试执行识别 LLM 生成的代码注释中不准确的描述

分类： 软件工程

作者： Sungmin Kang, Louis Milliken, Shin Yoo

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.14836v1

摘要： 软件注释对于人类理解软件至关重要，因此已经提出了许多注释生成技术。然而，我们发现对生成评论的事实准确性进行系统评估的情况很少；仅给出了主观准确性标签。通过评估三个大型语言模型 (LLM) 生成的评论，我们发现即使对于表现最好的 LLM，其评论中大约有五分之一包含明显不准确的陈述。虽然代码注释一致性检测技术似乎应该能够检测不准确的注释，但我们进行的实验表明它们与注释准确性没有统计上的显着关系，这强调了这个问题的巨大难度。为了解决这个问题，我们提出了文档测试的概念，其中通过使用 LLM 生成基于文档的测试、运行这些测试并观察它们是否通过或失败来验证文档。此外，我们实现了验证 Java 注释的概念。实验表明，我们的方法与评论准确性具有强大的统计关系，在解决先前技术失败的问题上取得了进展。定性评估还揭示了我们的方法在获得开发人员信任方面的前景，同时强调了我们当前实施的局限性。

大语言模型能否很好地体现跨文化的价值观？基于霍夫斯泰德文化维度的大语言模型回应实证分析

分类： 计算和语言

作者： Julia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.14805v1

摘要： 大型语言模型 (LLM) 试图通过以令人类满意的方式响应人类来模仿人类行为，包括坚持他们的价值观。然而，人类来自不同的文化，具有不同的价值观。了解大语言模型是否会根据用户已知国家/地区的刻板价值观向用户展示不同的价值观至关重要。我们根据 5 个霍夫斯泰德文化维度（一种代表国家价值观的量化方式）向不同的大语言模型提出一系列建议请求。在每个提示中，我们都结合了代表 36 个不同国家的人物角色，以及主要与每个国家相关的语言，以分析大语言模型文化理解的一致性。通过对回复的分析，我们发现大语言模型可以区分价值观的一面和另一面，也了解各国有不同的价值观，但在提供建议时并不总是坚持这些价值观，并且无法理解需要根据不同的文化价值观给出不同的答案。基于这些发现，我们提出了培训价值观一致且文化敏感的大语言模型的建议。更重要的是，这里开发的方法和框架可以帮助进一步理解和缓解大语言模型的文化和语言一致性问题。

是什么教机器人走路，也教他们交易——使用知情数据和大语言模型的制度自适应执行

分类： 计算金融, 人工智能, 机器学习, 机器人技术, I.2.0; I.2.6; I.2.7; I.2.9

作者： Raeid Saqur

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.15508v1

摘要： 应用于金融市场预测问题的机器学习技术难以应对动态机制切换或真实（隐藏）市场变量的潜在相关性和协方差变化。从机器人技术中强化学习的成功中汲取灵感，特别是在四足机器人对未见地形的敏捷运动适应方面，我们引入了一种创新方法，该方法利用预训练的 LLM 的世界知识（又名机器人技术中的“特权信息”）并使用动态调整它们使用 LLM 对齐技术的内在、自然的市场奖励，我们将其称为“市场反馈强化学习”(RLMF)。强有力的实证结果证明了我们的方法在适应金融市场政权转变方面的有效性，这是长期困扰该领域预测模型的挑战。所提出的算法框架在现有 (FLARE) 基准库存移动 (SM) 任务上的性能优于性能最佳的 SOTA LLM 模型，精度提高了 15% 以上。在最近提出的 NIFTY SM 任务中，我们的自适应策略优于 GPT-4 等 SOTA 性能最佳的万亿参数模型。本文详细介绍了我们模型的双阶段、师生架构和实现、获得的实证结果，以及对语言嵌入在信息增益方面的作用的分析。

基于大语言模型特征的对话建设性评估框架

分类： 计算和语言, 人工智能, 机器学习

作者： Lexin Zhou, Youmna Farag, Andreas Vlachos

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14760v1

摘要： 对话建设性评估的研究重点是（i）分析影响个人采取具体行动、赢得辩论、改变观点或扩大开放心态的对话因素，以及（ii）预测此类用例对话后的建设性结果。这些目标可以通过训练可解释的基于特征的模型（通常涉及昂贵的人工注释）或神经模型（例如预训练的语言模型）（根据经验显示更高的任务准确性但缺乏可解释性）来实现。我们提出了一种新颖的基于特征的大语言模型框架，在评估对话建设性方面，结合了基于特征和神经方法的优点，同时减轻了它们的缺点。该框架首先定义了一组独立于数据集且可解释的语言特征，可以通过提示 LLM 和简单的启发式方法来提取这些特征。然后使用这些特征来训练基于 LLM 特征的模型。我们将此框架应用于对话建设性的三个数据集，发现我们的基于特征的 LLM 模型显着优于基于特征的标准模型和神经模型，并且倾向于学习更稳健的预测规则，而不是依赖于肤浅的捷径（如神经模型所示））。此外，我们还证明，解释这些基于 LLM 特征的模型可以对对话具有建设性的因素产生有价值的见解。

用手术刀剖析厄尔曼变例：为什么大语言模型在错误信念任务的微小改变上会失败？

分类： 计算和语言

作者： Zhiqiang Pi, Annapurna Vadaparty, Benjamin K. Bergen, Cameron R. Jones

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14737v1

摘要： 最近的实证结果引发了关于大型语言模型（LLM）是否能够进行心理理论（ToM）的争论。虽然有些人发现大语言模型在错误信念任务等 ToM 评估方面取得了成功（Kosinski，2023），但其他人则认为大语言模型通过利用虚假相关性（不代表信念）来解决这些任务，因为他们无法对这些任务进行微不足道的改变任务（Ullman，2023）。在本文中，我们介绍了 SCALPEL：一种为错误信念任务生成有针对性的修改的技术，以测试有关大语言模型失败原因的不同具体假设。我们发现做出明确的共同推论的修改——例如查看透明物体意味着识别其内容——可以保持大语言模型的表现。这表明大语言模型在修改后的 ToM 任务上的失败可能是由于缺乏更普遍的常识推理，而不是未能代表心理状态。我们认为 SCALPEL 可能有助于解释大语言模型在其他情况下的成功和失败。

LLM 是否具有独特且一致的个性？ TRAIT：专为心理测量学大语言模型设计的人格测试集

分类： 计算和语言, 人工智能

作者： Seungbeen Lee, Seungwon Lim, Seungju Han, Giyeong Oh, Hyungjoo Chae, Jiwan Chung, Minju Kim, Beong-woo Kwak, Yeonsoo Lee, Dongha Lee, Jinyoung Yeo, Youngjae Yu

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14703v1

摘要： 描述心理学中的人格概念传统上是通过可观察的行为来定义的，现在已扩展到大型语言模型（LLM），以更好地理解他们的行为。这就提出了一个问题：大语言模型是否表现出与人类相似的独特且一致的人格特征？现有的自我评估人格测试虽然适用，但缺乏精确人格测量所需的有效性和可靠性。为了解决这个问题，我们推出了 TRAIT，这是一种由 8K 多项选择题组成的新工具，旨在评估大语言模型的人格的有效性和可靠性。 TRAIT 建立在经过心理测量验证的人类问卷、大五量表 (BFI) 和短黑三元组 (SD-3) 的基础上，并通过 ATOMIC10X 知识图谱进行增强，用于在各种真实场景中测试性格。 TRAIT克服了通过自我评估衡量大语言模型个性时的信度和效度问题，在拒绝率、提示敏感性和选项顺序敏感性三个指标上显示出最高分。它揭示了对大语言模型个性的显着见解：1）大语言模型表现出独特且一致的个性，这很大程度上受到他们的训练数据（即用于对齐调整的数据）的影响，2）当前的提示技术在引发某些特征方面效果有限，例如高度精神病或低责任心，表明需要在这个方向进行进一步的研究。

使用 RNNT 损失进行语音前缀调整以改进 LLM 预测

分类： 人工智能, 计算和语言, 声音, 音频和语音处理

作者： Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Neeraj Gaur, Zhong Meng

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14701v1

摘要： 在本文中，我们重点讨论将大语言模型应用于 ASR 时面临的限制。最近的工作利用了 prefixLM 类型的模型，直接将语音作为 ASR 的 LLM 的前缀。我们发现优化语音前缀可以带来更好的 ASR 性能，并建议应用 RNNT 损失来执行语音前缀调整。这是一种简单的方法，不会增加模型复杂性或改变推理管道。我们还提出基于语言的软提示，以进一步提高冻结的大语言模型。对 10 种印度语言实时测试集的实证分析表明，我们提出的语音前缀调整可以通过冻结和微调 LLM 产生改进。我们对 10 个 Indics 的平均识别结果表明，与使用微调的 LLM 的基线相比，所提出的使用 RNNT 损失进行的前缀调整导致 WER 相对提高了 12%。我们提出的冻结 LLM 方法比基本软提示 prefixLM 提高了 31%。

洞察 LLM 长上下文失败：当变形者知道但不说出来时

分类： 计算和语言

作者： Taiming Lu, Muhan Gao, Kuai Yu, Adam Byerly, Daniel Khashabi

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14673v1

摘要： 大型语言模型 (LLM) 表现出位置偏差，难以利用长上下文中间或末尾的信息。我们的研究通过探究大语言模型的隐藏表征来探索他们的长上下文推理。我们发现，虽然大语言模型对目标信息的位置进行编码，但他们通常无法利用这一点来生成准确的响应。这揭示了信息检索和利用之间的脱节，一种“知而不说”的现象。我们进一步分析提取时间和最终精度之间的关系，提供对变压器模型的基本机制的见解。

探索构建特定语言大语言模型的设计选择

分类： 计算和语言, 人工智能, 机器学习

作者： Atula Tejaswi, Nilesh Gupta, Eunsol Choi

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14670v1

摘要： 尽管大型语言模型（LLM）取得了快速进展，但它们在绝大多数语言上的表现仍然不能令人满意。在本文中，我们研究通过调整单语和多语言大语言模型来构建特定语言的大语言模型。我们针对设计选择（基本模型选择、词汇扩展和持续微调）如何影响改编后的 LLM 进行系统实验，包括效率（需要多少令牌来编码相同数量的信息）和最终任务性能。我们发现（1）适应前的初始性能并不总是代表最终性能。（2）在我们研究的大多数大语言模型中，通过简单的词汇扩展和持续微调，可以轻松提高效率；（3）最佳适应方法高度依赖于语言，并且最简单的方法在各种实验设置中都能很好地发挥作用。尽管在低资源语言上的初始性能较差，但采用以英语为中心的模型比采用多语言模型可以产生更好的结果。我们的工作共同为通过调整现有大语言模型有效构建特定语言的大语言模型奠定了基础。

动态机器人控制的大语言模型粒度

分类： 机器人技术, 人工智能

作者： Peng Wang, Mattia Robbiani, Zhihao Guo

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14653v1

摘要： 辅助机器人因其有可能提高老年人等弱势群体的生活质量而引起了广泛关注。计算机视觉、大语言模型和机器人技术的融合为辅助机器人引入了“visuolinguomotor”模式，将视觉和语言学融入辅助机器人中，以实现主动和交互式帮助。这就提出了一个问题：\textit{在视觉效果变得不可靠或不可用的情况下，我们是否可以仅依靠语言来控制机器人，即“linguomotor”模式对于辅助机器人的可行性？}这项工作采取了初步的步骤来回答通过以下方式解决这个问题：1）评估辅助机器人对不同粒度的语言提示的反应； 2）探索动态控制机器人的必要性和可行性。我们在 Sawyer 协作机器人上设计并进行了实验来支持我们的论点。 Turtlebot机器人案例旨在演示该解决方案如何适应辅助机器人需要机动协助的场景。代码即将在 GitHub 上发布，造福社区。

LLM 可以通过教学来学习吗？初步研究

分类： 计算和语言, 人工智能

作者： Xuefei Ning, Zifu Wang, Shiyao Li, Zinan Lin, Peiran Yao, Tianyu Fu, Matthew B. Blaschko, Guohao Dai, Huazhong Yang, Yu Wang

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14629v1

摘要： 改进学生模型的教学（例如知识蒸馏）是大语言模型中广泛研究的方法。然而，对于人类来说，教学不仅提高了学生，也提高了教师。我们问：大语言模型也可以通过教学（LbT）来学习吗？如果是的话，我们就有可能释放不断改进模型的可能性，而无需仅仅依赖人类生成的数据或更强大的模型。在本文中，我们对这一雄心勃勃的议程进行了初步探索。我们表明，LbT 想法可以纳入现有的 LLM 培训/提示流程中，并提供显着的改进。具体来说，我们设计了三种方法，每种方法模仿人类 LbT 的三个级别之一：观察学生的反馈、从反馈中学习、迭代学习，目标是在不训练的情况下提高答案准确性，并通过精细的训练提高模型的固有能力。 -调整。研究结果令人鼓舞。例如，与人类的 LbT 类似，我们看到：（1）LbT 可以诱导弱到强的泛化：强模型可以通过教导其他弱模型来改进自己； (2) 学生的多样性可能会有所帮助：教导多名学生可能比教导一名学生或教师本身更好。我们希望这一早期承诺能够激发未来对 LbT 的研究，并更广泛地采用先进的教育技术来提高大语言模型。该代码可在 https://github.com/imagination-research/lbt 获取。

DIRAS：检索增强生成中文档相关性的高效大语言模型辅助注释

分类： 信息检索, 人工智能, 计算和语言

作者： Jingwei Ni, Tobias Schimanski, Meihong Lin, Mrinmaya Sachan, Elliott Ash, Markus Leippold

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14162v1

摘要： 检索增强生成 (RAG) 被广泛用于对特定领域文档的查询进行响应。但是 RAG 实现是否遗漏了重要信息或过多包含了不相关信息？为了减轻这些担忧，有必要注释特定于域的基准来评估信息检索 (IR) 性能，因为相关性定义因查询和域而异。此外，此类基准应该进行经济高效的注释，以避免注释选择偏差。在本文中，我们提出了 DIRAS（具有可扩展性的特定领域信息检索注释），这是一种无需手动注释的模式，可以对开源 LLM 进行微调，以使用校准的相关概率来注释相关标签。广泛的评估表明，DIRAS 微调模型在对未见过的（查询、文档）对进行注释和排名方面达到了 GPT-4 级别的性能，并且有助于现实世界的 RAG 开发。

从数据压缩的角度衡量训练大语言模型的数据修剪中的样本重要性

分类： 人工智能, 机器学习

作者： Minsang Kim, Seungjun Baek

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14124v1

摘要： 大型语言模型（LLM）的计算效率训练已成为一个重要的研究问题。在这项工作中，我们将数据修剪视为 LLM 数据高效训练的一种方法，其中我们对数据修剪采取数据压缩的观点。我们认为样本的信息量或其描述长度可实现的压缩代表了样本的重要性。关键思想是，信息量较少的样本可能包含冗余信息，因此应首先进行修剪。我们利用训练模型的对数似然函数作为替代来衡量样本的信息内容。实验揭示了一个令人惊讶的见解，即与在整个数据集上训练的模型相比，基于信息的剪枝可以增强模型的泛化能力，改进语言建模和下游任务。

基于零样本 LLM 排名器的提示变化的研究

分类： 信息检索, 计算和语言

作者： Shuoqi Sun, Shengyao Zhuang, Shuai Wang, Guido Zuccon

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14117v1

摘要： 我们系统地了解提示中使用的特定组件和措辞对基于零样本大型语言模型 (LLM) 的排名器有效性的影响。最近提出了几种基于LLM的零样本排名方法。在许多方面，方法在以下方面有所不同：（1）它们实现的排名算法，例如逐点与列表，（2）使用的骨干LLM，例如GPT3.5与FLAN-T5，（3）使用的组件和措辞在提示中，例如是否使用角色定义（角色扮演）以及用于表达这一点的实际词语。目前尚不清楚性能差异是由于底层排名算法造成的，还是由于虚假因素（例如更好地选择提示中使用的单词）造成的。这种混乱可能会破坏未来的研究。通过我们的大规模实验和分析，我们发现排名算法确实导致了零样本 LLM 排名方法之间的差异。然而，LLM主干也是如此——但更重要的是，提示组件和措辞的选择会影响排名。事实上，在我们的实验中，我们发现，有时，后面的这些元素比实际的排名算法对排名器的有效性有更大的影响，并且当考虑即时变化时，排名方法之间的差异变得更加模糊。

通过人机协作增强基于大语言模型的机器人操作

分类： 机器人技术, 人工智能, 人机交互

作者： Haokun Liu, Yaonan Zhu, Kenji Kato, Atsushi Tsukahara, Izumi Kondo, Tadayoshi Aoyama, Yasuhisa Hasegawa

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14097v1

摘要： 大型语言模型（LLM）在机器人领域越来越受欢迎。然而，由于语言模型、机器人和环境之间的集成度较差，基于LLM的机器人仅限于简单、重复的运动。本文提出了一种通过人机协作（HRC）增强基于大语言模型的自主操作性能的新方法。该方法涉及使用提示的 GPT-4 语言模型将高级语言命令分解为机器人可以执行的运动序列。该系统还采用基于 YOLO 的感知算法，为 LLM 提供视觉提示，有助于规划特定环境中的可行运动。此外，结合远程操作和动态运动原语（DMP）提出了一种 HRC 方法，允许基于 LLM 的机器人从人类指导中学习。使用丰田人类支持机器人执行操作任务进行了真实世界的实验。结果表明，需要复杂轨迹规划和环境推理的任务可以通过结合人类演示来有效完成。

大语言模型的分类学指导零样本建议

分类： 信息检索, 计算和语言

作者： Yueqing Liang, Liangwei Yang, Chen Wang, Xiongxiao Xu, Philip S. Yu, Kai Shu

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14043v1

摘要： 随着大型语言模型 (LLM) 的出现及其执行各种任务的能力，它们在推荐系统 (RecSys) 中的应用已显示出前景。然而，在将 LLM 部署到 RecSys 中时，我们面临着重大挑战，例如有限的提示长度、非结构化项目信息以及不受约束的建议生成，从而导致性能不佳。为了解决这些问题，我们提出了一种使用分类词典的新方法。该方法提供了一个用于分类和组织项目的系统框架，提高了项目信息的清晰度和结构。通过将分类词典合并到 LLM 提示中，我们实现了高效的标记利用和受控的特征生成，从而产生更准确和上下文相关的建议。我们的分类引导推荐 (TaxRec) 方法采用两步流程：一次性分类和基于 LLM 的推荐，无需针对特定领域进行微调即可实现零样本推荐。实验结果表明，与传统的零样本方法相比，TaxRec 显着提高了推荐质量，展示了其作为大语言模型个人推荐器的功效。代码可在 https://github.com/yueqingliang1/TaxRec 获取。

透过人工智能的镜头：增强人类对大语言模型生成的假新闻的怀疑态度

分类： 计算和语言, 人工智能

作者： Navid Ayoobi, Sadat Shahriar, Arjun Mukherjee

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14012v1

摘要： 大语言模型提供了宝贵的功能，但恶意用户可能会利用它们来传播欺骗性信息并生成虚假新闻。大语言模型的日益普及给制定在各种文本领域保持有效的检测方法带来了困难。此外，在线社交平台上人工智能生成的新闻缺乏预防措施也令人担忧。因此，迫切需要提高人们区分人类撰写的新闻文章和大语言模型制作的新闻文章的能力。通过在人工撰写和大语言模型生成的新闻中提供线索，我们可以帮助个人增强对大语言模型生成的虚假新闻的怀疑态度。本文旨在阐明简单的标记，帮助个人区分人类撰写的文章和大语言模型创建的文章。为了实现这一目标，我们最初收集了一个数据集，其中包含由人类撰写或由四个不同的大语言模型生成的 39,000 篇新闻文章，这些文章的造假程度各不相同。然后，我们基于信息论和熵原理设计了一个名为熵转移作者签名（ESAS）的指标。拟议的 ESAS 根据新闻文章中的术语或实体与辨别文章作者的相关性对术语或实体（例如 POS 标签）进行排名。我们通过使用一小组具有最高 ESAS 分数的术语来展示基本方法（即 TF-IDF 与逻辑回归分类器相结合）所获得的高精度，从而证明了我们指标的有效性。因此，我们引入并审查这些 ESAS 排名靠前的术语，以帮助个人加强对大语言模型生成的假新闻的怀疑。

“全球是好，本地是坏？”：了解大语言模型的品牌偏见

分类： 计算和语言, 计算工程、金融和科学

作者： Mahammed Kamruzzaman, Hieu Minh Nguyen, Gene Louis Kim

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.13997v1

摘要： 最近的许多研究都调查了大语言模型的社会偏见，但品牌偏见却很少受到关注。这项研究调查了大语言模型对不同品牌表现出的偏见，考虑到大语言模型在产品推荐和市场分析等受影响用例中的广泛使用，这是一个重大问题。带有偏见的模式可能会延续社会不平等，不公平地偏向知名的全球品牌，同时边缘化本地品牌。我们使用涵盖四个品牌类别的精选数据集，探讨了大语言模型在该领域的行为。我们发现这个领域存在一贯的偏见模式——无论是过分地将全球品牌与积极属性联系起来，还是过分向高收入国家的个人推荐奢华礼物。我们还发现大语言模型会受到原籍国的影响，这可能会在特定情况下提高大语言模型输出中的本地品牌偏好。

探索大语言模型中国籍指定角色的国家认知变化

分类： 计算和语言, 机器学习

作者： Mahammed Kamruzzaman, Gene Louis Kim

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.13993v1

摘要： 角色分配已成为针对特定任务和环境定制 LLM 使用的常见策略。在这项研究中，我们探讨了当大语言模型被分配特定的国籍角色时，不同国家的看法如何变化。我们将 193 个不同国籍的角色（例如美国人）分配给四名大语言模型，并研究大语言模型对国家的看法如何变化。我们发现，所有大语言模型-人物角色组合都倾向于有利于西欧国家，尽管民族人物角色促使大语言模型的行为更加关注并更有利地看待国家人物角色所在的地区。东欧、拉丁美洲和非洲国家受到不同民族形象的负面看待。我们的研究深入了解了大语言模型在采用不同国家角色时如何实现偏见和刻板印象。根据《人工智能权利法案蓝图》，我们的研究结果强调迫切需要制定机制，以确保大语言模型在全球范围内维护公平，而不是过度概括。

CREF：面向编程导师的基于大语言模型的会话式软件修复框架

分类： 软件工程

作者： Boyang Yang, Haoye Tian, Weiguo Pian, Haoran Yu, Haitao Wang, Jacques Klein, Tegawendé F. Bissyandé, Shunfu Jin

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.13972v1

摘要： 程序修复技术为软件开发和编程教育场景中的调试提供了节省成本的好处。随着大型语言模型（LLM）在代码相关任务中的有效性得到证实，研究人员已经探索了它们在程序修复方面的潜力。然而，重要的是要认识到现有的修复基准可能会影响 LLM 训练数据，从而可能导致数据泄漏。为了评估LLM的实际修复能力，（1）我们引入了一个广泛的、非爬行的基准测试，称为TutorCode，包含1,239个C++缺陷代码和相关信息，例如导师指导、解决方案描述、失败的测试用例和更正的代码。我们的工作评估了 TutorCode 上 12 个大语言模型的修复性能，测量修复正确性（TOP-5 和 AVG-5）和补丁精度（RPSR）。 (2) 然后，我们对哪些类型的额外信息可以帮助大语言模型提高修复缺陷的表现进行全面调查。其中，导师指导被认为是提升LLM修复能力最有效的信息。为了充分利用大语言模型的对话能力和增强信息的优势，（3）我们引入了一种新颖的对话半自动修复框架 CREF 辅助人类导师。与基线相比，它的 AVG-5 显着提高了 17.2%-24.6%，在使用 GPT-4 时实现了 76.6% 的令人印象深刻的 AVG-5。这些结果突显了大语言模型通过与导师的互动和涉及错误反应的历史对话来增强修复能力的潜力。 CREF 在现实世界教育环境中的成功应用证明了它在减少导师工作量和改善学生学习体验方面的有效性，同时也展示了它在促进其他软件工程任务（例如代码审查）方面的承诺。

通过大语言模型 (LLM) 增强的图扩散实现零信任服务的分层微分段

分类： 网络和互联网架构

作者： Yinqiu Liu, Guangyuan Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Zehui Xiong, Dong In Kim, Xuemin Shen

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.13964v1

摘要： 在快速发展的下一代网络（NGN）时代，采用零信任架构对于保护安全变得越来越重要。然而，在 NGN 中提供零信任服务带来了重大挑战，这主要是由于环境的复杂性和动态性。受这些挑战的推动，本文探索使用分层微分段的高效零信任服务配置。具体来说，我们通过层次图对零信任网络进行建模，从而共同考虑资源和信任级别的特征来优化服务效率。我们通过微分段来组织这种零信任网络，从而有效地支持细粒度的零信任策略。为了生成最佳的微分段，我们提出了大型语言模型增强图扩散（LEGD）算法，该算法利用扩散过程来实现高质量的生成范例。此外，我们利用策略提升和大型语言模型 (LLM) 使 LEGD 能够优化生成策略并理解复杂的图形特征。此外，为了实现零信任NGN中独特的可信度更新或服务升级，我们进一步提出了LEGD自适应维护（LEGD-AM），提供了一种自适应方式来对LEGD进行面向任务的微调。大量实验表明，与其他基线相比，所提出的 LEGD 在提供服务方面的效率提高了 90%。此外，LEGD-AM可以减少50%以上的业务中断时间。

连接点：大语言模型可以从不同的训练数据中推断和表达潜在结构

分类： 计算和语言, 人工智能, 机器学习

作者： Johannes Treutlein, Dami Choi, Jan Betley, Cem Anil, Samuel Marks, Roger Baker Grosse, Owain Evans

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14546v1

摘要： 解决大型语言模型 (LLM) 安全风险的一种方法是从训练数据中审查危险知识。虽然这会删除显式信息，但隐式信息可能仍然分散在各种培训文档中。大语言模型能否通过拼凑这些隐含的暗示来推断出被审查的知识？作为回答这个问题的一步，我们研究了归纳式脱离上下文推理（OOCR），这是一种概括，其中大语言模型从分布在训练文档中的证据推断出潜在信息，并将其应用于下游任务，而无需上下文学习。使用一组五个任务，我们证明了前沿大语言模型可以执行归纳式 OOCR。在一项实验中，我们在仅包含未知城市与其他已知城市之间距离的语料库上对大语言模型进行了微调。值得注意的是，在没有上下文示例或思维链的情况下，大语言模型可以用语言表达未知城市是巴黎，并利用这一事实来回答下游问题。进一步的实验表明，仅对单个硬币翻转结果进行训练的大语言模型可以用言语表达硬币是否有偏差，而仅对 $(x,f(x))$ 进行训练的大语言模型可以阐明 $f$ 的定义并计算逆。虽然 OOCR 在一系列案例中取得了成功，但我们也表明它是不可靠的，特别是对于学习复杂结构的小型大语言模型而言。总的来说，大语言模型在没有明确的上下文学习的情况下“连接点”的能力对监测和控制大语言模型所获得的知识构成了潜在的障碍。

大语言模型天生擅长合成表格数据生成吗？

分类： 机器学习

作者： Shengzhe Xu, Cho-Ting Lee, Mandar Sharma, Raquib Bin Yousuf, Nikhil Muralidhar, Naren Ramakrishnan

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14541v1

摘要： 大型语言模型（LLM）已经展示了它们在生成合成文本和图像方面的能力；然而，它们生成表格数据（可以说是商业和科学应用中最常见的数据类型）的潜力在很大程度上尚未得到充分开发。本文证明，按原样使用或经过传统微调后使用的 LLM 作为合成表生成器是严重不足的。由于 LLM 的自回归性质，随机顺序排列的微调与建模函数依赖性的重要性背道而驰，并使 LLM 无法对分布的条件混合进行建模（捕获现实世界约束的关键）。我们展示了如何让大语言模型具有排列意识，从而克服其中的一些缺陷。

针对不正确合成数据的强化学习将 LLM 数学推理的效率提高了八倍

分类： 机器学习, 计算和语言

作者： Amrith Setlur, Saurabh Garg, Xinyang Geng, Naman Garg, Virginia Smith, Aviral Kumar

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14532v1

摘要： 对模型生成的合成数据进行训练是微调大语言模型的一种很有前景的方法，但目前尚不清楚它何时有益或有害。在本文中，我们通过实证研究来研究这个数学推理问题，然后对我们的观察结果建立概念性理解。首先，我们发现，虽然在由有能力的模型生成的合成正确或积极的问题解决方案对上微调模型的典型方法提供了适度的性能增益，但从微调的学习器本身中采样更正确的解决方案，然后对此自我进行后续微调。生成的数据$\textbf{双倍}$相同综合问题的效率。同时，对模型生成的正值进行训练可能会放大各种虚假相关性，随着数据量的增加，导致平坦甚至反向的缩放趋势。令人惊讶的是，我们发现如果我们还利用负面响应，即模型生成的响应被最终答案验证者视为不正确，则可以解决其中几个问题。至关重要的是，必须构建这些否定，以便训练能够适当地恢复否定响应中每个中间步骤的效用或优势。通过这种每步方案，我们能够仅在正数据上获得一致的增益，获得类似于将合成数据量放大 $\mathbf{8 \times}$ 的性能。我们表明，对每步负数进行训练可以帮助消除正数据中的虚假相关性，并且相当于优势加权强化学习（RL），这意味着它继承了 RL 相对于单独模仿正数据的鲁棒性优势。

跨文化翻译：语言内文化适应大语言模型

分类： 计算和语言

作者： Pushpdeep Singh, Mayur Patidar, Lovekesh Vig

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14504v1

摘要： 大语言模型越来越多地应用于多语言应用程序，并在几种低资源语言和高资源语言之间展示了令人印象深刻的翻译能力。翻译中经常被忽视的一个方面是文化适应，即修改源文化参考以适应目标文化。文化适应在多个创意产业都有应用，需要在翻译过程中对源文化和目标文化有深入的了解。虽然从正确性的角度来看，专业翻译模型在机器翻译任务上仍然优于大语言模型，但它们对通常需要手动纠正的文化差异不敏感。另一方面，大语言模型在其参数中嵌入了丰富的文化知识库，可以潜在地用于此类应用。在本文中，我们定义了文化适应的任务，并创建了一个评估框架来为该任务的不同模型进行基准测试。我们评估现代大语言模型在文化适应方面的表现，并分析他们的跨文化知识，同时连接不同文化之间的相关概念。我们还分析了自动适应可能出现的问题，包括文化偏见和刻板印象。我们希望这项任务能够更深入地了解大语言模型的文化理解及其在跨文化场景中的创造力。

人工利维坦：通过霍布斯社会契约论的视角探索大语言模型代理人的社会进化

分类： 人工智能, 计算和语言, 计算机与社会, 人机交互, 多代理系统

作者： Gordon Dai, Weijia Zhang, Jinhan Li, Siqi Yang, Chidera Onochie lbe, Srihas Rao, Arthur Caetano, Misha Sra

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14373v1

摘要： 大型语言模型 (LLM) 的出现和人工智能 (AI) 的进步为大规模计算社会科学研究提供了机会。基于之前对大语言模型代理设计的探索，我们的工作引入了一个模拟的代理社会，其中复杂的社会关系随着时间的推移动态形成和演变。特工充满了心理驱动力，并被置于沙盒生存环境中。我们通过托马斯·霍布斯开创性的社会契约理论（SCT）的视角对代理社会进行评估。我们分析是否如理论假设的那样，代理人试图通过向绝对主权者放弃权利以换取秩序和安全来逃避残酷的“自然状态”。我们的实验揭示了一种一致性：最初，主体参与无限制的冲突，反映了霍布斯对自然状态的描述。然而，随着模拟的进行，社会契约出现，导致绝对主权的授权和基于相互合作的和平联邦的建立。我们的大语言模型代理社会的进化轨迹与霍布斯的理论解释之间的一致性表明大语言模型有能力模拟复杂的社会动态，并有可能复制塑造人类社会的力量。通过对群体行为和新兴社会现象进行深入了解，大语言模型驱动的多智能体模拟虽然无法模拟人类行为的所有细微差别，但可能有潜力增进我们对社会结构、群体动态和复杂人类系统的理解。

利用基于大语言模型的关系提取探索历史湖区文本中的空间表征

分类： 计算和语言, 人工智能

作者： Erum Haris, Anthony G. Cohn, John G. Stell

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14336v1

摘要： 探索历史叙事对揭示过去景观的空间复杂性提出了挑战。拟议的工作利用湖区写作语料库在英语湖区的背景下解决这一挑战。该方法利用生成式预训练变压器模型从语料库中的文本描述中提取空间关系。该研究应用这个大的语言模型来全面理解历史叙事所固有的空间维度。结果以语义三元组的形式呈现，捕捉实体和位置之间的微妙联系，并可视化为网络，提供空间叙事的图形表示。该研究有助于更深入地理解英吉利湖区的空间挂毯，并提供了一种揭示不同历史背景下的空间关系的方法。

medIKAL：整合知识图作为大语言模型的助手，增强电子病历的临床诊断

分类： 计算和语言

作者： Mingyi Jia, Junwen Duan, Yan Song, Jianxin Wang

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14326v1

摘要： 电子病历 (EMR) 虽然是现代医疗保健不可或缺的一部分，但由于其复杂性和信息冗余，给临床推理和诊断带来了挑战。为了解决这个问题，我们提出了 medIKAL（集成知识图作为大语言模型的助手），这是一个将大型语言模型（LLM）与知识图（KG）相结合以增强诊断能力的框架。 medIKAL 根据医疗记录中的实体类型分配加权重要性，从而能够在 KG 内精确定位候选疾病。它创新性地采用了类似残差网络的方法，允许大语言模型的初步诊断合并到知识图谱搜索结果中。通过基于路径的重排序算法和填空式提示模板，进一步细化了诊断过程。我们通过对新引入的开源中国 EMR 数据集进行大量实验，验证了 medIKAL 的有效性，证明了其在现实环境中改善临床诊断的潜力。

Q*：通过深思熟虑的规划改进大语言模型的多步推理

分类： 人工智能

作者： Chaojie Wang, Yanchen Deng, Zhiyi Lv, Shuicheng Yan, An Bo

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14283v1

摘要： 大型语言模型（LLM）在许多自然语言任务中表现出了令人印象深刻的能力。然而，自回归生成过程使得大语言模型在进行多步推理时容易产生错误、幻觉和不一致的陈述。在本文中，我们的目标是通过引入 Q* 来缓解这种病态，Q* 是一个通用、多功能和敏捷的框架，用于通过深思熟虑的规划来指导大语言模型解码过程。通过学习即插即用的 Q 值模型作为启发式函数，我们的 Q* 可以有效地指导 LLM 选择最有希望的下一步，而无需针对每个任务对 LLM 进行微调，从而避免了显着的计算开销和潜在的性能风险其他任务上的退化。在 GSM8K、MATH 和 MBPP 上的大量实验证实了我们方法的优越性。

使用 LLM 进行开放域问答来增强检索增强生成的查询和段落

分类： 计算和语言, 人工智能

作者： Minsang Kim, Cheoneum Park, Seungjun Baek

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14277v1

摘要： 检索增强生成（RAG）作为补偿大型语言模型（LLM）参数知识的一种手段，在开放域问答（ODQA）任务中受到了广泛关注。虽然以前的方法侧重于处理检索到的段落以删除不相关的上下文，但它们仍然严重依赖检索到的段落的质量，如果问题不明确或复杂，检索到的段落的质量可能会降低。在本文中，我们提出了一种简单而有效的方法，称为通过 LLM 进行问题和段落增强，用于开放域 QA。我们的方法首先将原始问题分解为多步骤子问题。通过用详细的子问题和规划来扩充原始问题，我们能够使查询更加具体地了解需要检索的内容，从而提高检索性能。此外，为了弥补检索到的段落包含分散注意力的信息或意见分歧的情况，我们用大语言模型自行生成的段落来扩充检索到的段落，以指导答案提取。实验结果表明，所提出的方案优于以前的最先进技术，并且比现有的 RAG 方法取得了显着的性能增益。

按压缩程度对大语言模型进行排名

分类： 人工智能, 计算和语言

作者： Peijia Guo, Ziguang Li, Haibo Hu, Chao Huang, Ming Li, Rui Zhang

发布时间： 2024-06-20

链接： http://arxiv.org/abs/2406.14171v1

摘要： 我们将理解过程概念化为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLM）排名方法。我们证明了当使用大型语言模型作为先验时，具有累积负对数概率的算术编码下的压缩长度的等价性，即模型的预训练阶段本质上是学习最佳编码长度的过程。同时无需实际压缩即可获得评价指标压缩比，大大节省了开销。在本文中，我们使用五个大型语言模型作为压缩的先验，然后比较它们在具有挑战性的自然语言处理任务上的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩率与模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

通过具有灵活演示检索器的大语言模型的数学问题知识标签系统

分类： 计算和语言, 人工智能

作者： Hang Li, Tianlong Xu, Jiliang Tang, Qingsong Wen

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13885v1

摘要： 问题知识标签在当代智能教育应用中发挥着至关重要的作用，包括学习进度诊断、练习题推荐、课程内容组织等。传统上，这些注释总是由教学专家进行，因为这项任务不仅需要对问题干和知识定义有很强的语义理解，还需要深入洞察将问题解决逻辑与相应的知识概念联系起来。随着最近出现的先进文本编码算法（例如预训练语言模型），许多研究人员开发了基于计算知识和问题嵌入之间的语义相似度的自动知识标记系统。在本文中，我们探索使用大型语言模型（LLM）自动化任务，以应对先前基于编码的方法无法处理涉及强大领域知识和复杂概念定义的难题。通过展示零次和少量结果在数学问题知识标记任务中的强大性能，我们展示了大语言模型在克服先前方法所面临的挑战方面的巨大潜力。此外，通过提出一种基于强化学习的演示检索器，我们成功地利用了不同规模的大语言模型在获得更好的性能结果方面的巨大潜力，同时保持了上下文演示的高使用效率。

SDQ：LLM 推理的稀疏分解量化

分类： 机器学习, 人工智能

作者： Geonhwa Jeong, Po-An Tsai, Stephen W. Keckler, Tushar Krishna

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13868v1

摘要： 最近，大型语言模型 (LLM) 在特定于任务的工作负载以及具有给定提示的一般任务中表现出了令人惊讶的性能。然而，为了实现前所未有的性能，最近的大语言模型使用数十亿到数万亿的参数，由于其极大的计算和内存需求，这阻碍了这些模型的广泛适应。为了解决这个问题，人们正在积极研究各种模型压缩方法。在这项工作中，我们提出 SDQ（稀疏分解量化）来利用结构化稀疏性和量化来实现高计算和内存效率。根据我们的评估，我们观察到 SDQ 可以实现 4 倍的有效计算吞吐量，同时质量下降 <1%。

大语言模型中的分布式推理：多跳推理中的并行推理过程

分类： 计算和语言

作者： Yuval Shalev, Amir Feder, Ariel Goldstein

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13858v1

摘要： 大型语言模型 (LLM) 在执行需要思维过程的任务方面表现出了令人印象深刻的能力。当模型没有记录明确的思维过程时，就很难理解其隐藏层中发生的过程并确定这些过程是否可以称为推理。我们介绍了大语言模型内部多跳推理过程的新颖且可解释的分析。我们证明，可以使用两个语义类别空间之间的简单线性变换来建模组合推理问题的预测过程。我们表明，在推理过程中，网络的中间层会生成高度可解释的嵌入，表示多跳问题的一组潜在中间答案。我们使用统计分析来表明相应的标记子集在模型的输出中被激活，这意味着并行推理路径的存在。即使模型缺乏解决任务所需的知识，这些观察结果仍然成立。我们的研究结果可以帮助揭示大语言模型用来解决推理任务的策略，提供对人工智能可能出现的思维过程类型的见解。最后，我们还讨论了这些结果的认知建模的含义。

大语言模型中的低阶知识蒸馏对微电子推理有用吗？

分类： 机器学习

作者： Nirjhor Rouf, Fin Amin, Paul D. Franzon

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13808v1

摘要： 在这项工作中，我们提出了关于在电子设计自动化 (EDA) 背景下使用离线大语言模型 (LLM) 的可行性的实证结果。目标是调查和评估当代语言模型（Llama-2-7B）作为微电子问答专家的能力以及解决微电子相关问题的推理和生成能力。 Llama-2-7B 通过各种适应方法进行了测试，包括引入一种新颖的低秩知识蒸馏 (LoRA-KD) 方案。我们的实验产生定性和定量结果。

WikiContradict：评估大语言模型现实世界知识冲突的基准（来自维基百科）

分类： 计算和语言, 人工智能, 机器学习

作者： Yufang Hou, Alessandra Pascale, Javier Carnerero-Cano, Tigran Tchrakian, Radu Marinescu, Elizabeth Daly, Inkit Padhi, Prasanna Sattigeri

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13805v1

摘要： 检索增强生成 (RAG) 已成为一种有前景的解决方案，可缓解大型语言模型 (LLM) 的局限性，例如幻觉和过时信息。然而，目前尚不清楚大语言模型如何处理不同增强检索段落引起的知识冲突，特别是当这些段落来自同一来源并具有同等可信度时。在这项工作中，我们对大语言模型生成的问题答案进行了全面评估，这些问题的答案基于维基百科的矛盾段落而有所不同，维基百科是一个被广泛认为是大多数大语言模型的高质量预训练资源的数据集。具体来说，我们引入了 WikiContradict，这是一个由 253 个高质量、人工注释的实例组成的基准，旨在评估大语言模型在使用包含现实世界知识冲突的检索段落进行增强时的表现。我们在不同的 QA 场景下对各种封闭式和开源大语言模型进行了基准测试，包括具有单个段落的 RAG 和具有 2 个相互矛盾的段落的 RAG。通过对涉及 5 个大语言模型和超过 3,500 个判断的 WikiContradict 实例子集进行严格的人类评估，我们揭示了这些模型的行为和局限性。例如，当提供两个包含矛盾事实的段落时，所有模型都难以生成准确反映上下文冲突性质的答案，特别是对于需要推理的隐含冲突。由于人工评估成本高昂，我们还引入了一个自动化模型，使用强大的开源语言模型来评估 LLM 表现，实现了 0.8 的 F 分数。使用这个自动化指标，我们评估了所有 WikiContradict 实例中七个大语言模型的 1,500 多个答案。为了方便未来的工作，我们在 https://ibm.biz/wikicontradict 上发布 WikiContradict。

大语言模型和人类类比推理中的语义结构映射

分类： 计算和语言

作者： Sam Musker, Alex Duchnowski, Raphaël Millière, Ellie Pavlick

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13803v1

摘要： 类比推理被认为是人类学习和认知的核心。最近的研究比较了人类受试者和大型语言模型（LLM）在抽象符号操作任务（例如字母串类比）上的类比推理能力。然而，这些研究很大程度上忽视了对语义上有意义的符号（例如自然语言单词）的类比推理。这种将语言与非语言领域联系起来的类比能力（我们称之为语义结构映射）被认为在语言习得和更广泛的认知发展中发挥着至关重要的作用。我们测试人类受试者和大语言模型的类比推理任务，这些任务需要将语义结构和内容从一个领域转移到另一个领域。高级大语言模型在许多任务变化中与人类表现相匹配。然而，人类和大语言模型对某些任务变化和语义干扰因素的反应不同。总体而言，我们的数据表明大语言模型在这些重要认知任务上的表现正在接近人类水平，但尚未完全像人类。

大语言模型游戏：使用大型语言模型发现活动中的结构构造

分类： 机器学习, 计算和语言

作者： Shruthi K. Hiremath, Thomas Ploetz

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13777v1

摘要： 人类活动识别是一个时间序列分析问题。社区使用的流行分析程序假设最佳窗口长度来设计识别管道。然而，在智能家居的场景中，活动的持续时间和频率各不相同，窗口大小恒定的假设并不成立。此外，之前的工作表明这些活动是由构建块组成的。我们专注于使用大型语言模型来识别这些底层构建块——结构构造。识别这些结构可能非常有益，尤其是在识别短期和不频繁的活动方面。我们还建议开发一种活动识别程序，使用这些构建块对活动进行建模，从而帮助智能家居中活动监控的下游任务。

大语言模型可以用程序进行野外推理吗？

分类： 计算和语言

作者： Yuan Yang, Siheng Xiong, Ali Payani, Ehsan Shareghi, Faramarz Fekri

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13764v1

摘要： 大型语言模型 (LLM) 已显示出解决程序推理问题的卓越能力。虽然这是一个有前途的方向，但大多数此类框架都是在预先了解任务要求的情况下进行训练和评估的。然而，随着大语言模型的能力越来越强，有必要在更现实的场景中评估他们的推理能力，在这些场景中，许多现实世界的问题是开放式的，范围不明确，并且通常需要多种形式主义来解决。为了研究这个问题，我们引入了野外推理任务，大语言模型的任务是通过识别子问题及其相应的形式主义来解决未知类型的推理问题，并在策略的指导下编写程序来解决每个子问题。我们创建了一个大型的策略引导轨迹数据集，其中包含各种推理问题的详细解决方案，范围从明确定义的单一形式推理（例如数学、逻辑）到模糊和混合的推理（例如常识、组合数学和推理）。逻辑）。这使我们能够在细粒度水平上测试大语言模型推理的各个方面，例如策略的选择和执行，以及采取不受欢迎的捷径的倾向。在实验中，我们强调现有的大语言模型在范围模糊和混合的问题上显着失败，揭示了关键的局限性和过度拟合问题（例如，GSM8K 的准确性下降了至少 50%）。我们进一步展示了在策略指导轨迹上微调本地大语言模型以实现更好表现的潜力。项目存储库位于 github.com/gblackout/Reason-in-the-Wild

每种语言都很重要：在多语言大语言模型中学习和忘却

分类： 计算和语言, 机器学习

作者： Taiming Lu, Philipp Koehn

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13748v1

摘要： 本文研究了多语言大语言模型（LLM）中有害信息的传播，并评估了各种遗忘方法的有效性。我们证明，无论使用哪种语言，虚假信息一旦通过训练数据引入这些模型，就可以跨不同语言传播，从而损害生成内容的完整性和可靠性。我们的研究结果表明，通常专注于英语数据的标准遗忘技术不足以减轻有害内容在多语言环境中的传播，并且可能会无意中强化跨语言的有害内容。我们表明，只有通过解决英语和有害数据的原始语言的有害反应，我们才能有效地消除所有语言的生成。这强调了对综合性遗忘策略的迫切需要，该策略考虑了现代大语言模型的多语言性质，以提高其在不同语言环境中的安全性和可靠性。

高吞吐量和负载平衡 LLM 服务的切片级调度

分类： 分布式、并行和集群计算

作者： Ke Cheng, Wen Hu, Zhi Wang, Hongen Peng, Jianguo Li, Sheng Zhang

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13511v1

摘要： 大型语言模型 (LLM) 逐个迭代地生成文本标记，内存使用量随着生成的标记序列的长度而增加。生成长度的不可预测性使得难以估计处理请求所需的时间和内存，这对有效的请求调度提出了挑战。传统的序列级调度（SLS）以先到先服务（FCFS）的方式通过静态批处理来服务请求，其中具有短生成长度的请求被延迟，直到那些具有长生成长度的请求完成生成，这会损害计算效率。此外，为了避免内存不足（OOM）错误，SLS 以较小的批量大小对请求进行批处理，这限制了吞吐量。最近提出的迭代级调度（ILS）通过连续批处理来及时返回已完成的请求并动态添加新的处理请求来提高计算效率。然而，许多 ILS 调度程序会限制并行处理请求的数量，以避免 OOM 错误，同时实现快速推理速度，但这会影响吞吐量。此外，现有的 SLS 和 ILS 调度程序无法平衡多个部署的 LLM 实例之间的工作负载。为了应对这些挑战，我们提出了切片级调度（SCLS）。通过将预定义的最大生成长度限制拆分为切片并逐片服务批次，它为批量请求提供了精确的服务时间和内存使用范围，为有效调度奠定了基础。实验证实，与 SLS 和 ILS 调度器相比，SCLS 可以将吞吐量提高高达 315.8%，并通过所提出的批处理和卸载算法极大地缓解负载不平衡。

大语言模型是零样本上下文感知同传译者

分类： 计算和语言

作者： Roman Koshkin, Katsuhito Sudoh, Satoshi Nakamura

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13476v1

摘要： Transformer 的出现推动了机器翻译的进步。最近，大型语言模型（LLM）因其在包括翻译在内的各种语言任务中的通用性和强大性能而受到关注。在这里，我们展示了开源大语言模型在同步机器翻译（SiMT）任务（零样本）中的表现与一些最先进的基线相当或更好。我们还证明，对于大语言模型来说，注入最少的背景信息很容易，可以带来进一步的性能提升，特别是在具有挑战性的技术主题上。这凸显了大语言模型构建下一代大规模多语言、上下文感知和术语准确的 SiMT 系统的潜力，这些系统不需要资源密集型培训或微调。

使用可解释的清单查找大语言模型评估者的盲点

分类： 计算和语言

作者： Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Sshubam Verma, Mitesh M. Khapra

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13439v1

摘要： 人们越来越依赖大型语言模型 (LLM) 来评估其他 LLM 的文本输出，从而影响排行榜和开发决策。然而，人们仍然对这些评估的准确性以及可能产生误导性结论的担忧。在这项工作中，我们研究了大语言模型作为文本生成任务评估者的有效性。我们提出了 FBI，这是一个新颖的框架，旨在检查评估者大语言模型在评估其他大语言模型的四种关键能力方面的熟练程度：事实准确性、指令遵循、长篇写作的连贯性和推理能力。通过在大语言模型生成的答案中引入有针对性的扰动，这显然会影响这些关键能力之一，我们测试大语言模型评估者是否可以检测到这些质量下降。通过创建涵盖 22 个扰动类别的总共 2400 个扰动答案，我们对文献中常用作评估者的五位著名大语言模型使用不同的评估策略进行了全面研究。我们的研究结果揭示了当前评估大语言模型的重大缺陷，平均超过 50% 的案例未能识别质量下降。单一答案和成对评估显示出明显的局限性，而基于参考的评估则显示出相对更好的性能。这些结果强调了当前评估大语言模型的不可靠性，并主张在实际应用中谨慎实施。代码和数据可在 https://github.com/AI4Bharat/FBI 获取。

大语言模型的事实置信度：关于电流估计量的可靠性和稳健性

分类： 计算和语言, 机器学习

作者： Matéo Mahaut, Laura Aina, Paula Czarnowska, Momchil Hardalov, Thomas Müller, Lluís Màrquez

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13415v1

摘要： 大型语言模型 (LLM) 的答案往往不可靠。为了解决这个问题，NLP 研究人员提出了一系列技术来估计 LLM 对事实的置信度。然而，由于缺乏系统的比较，尚不清楚不同方法之间的比较如何。为了填补这一空白，我们对事实置信度估计者进行了调查和实证比较。我们定义了一个允许公平比较的实验框架，涵盖事实验证和问题回答。我们对一系列大语言模型的实验表明，经过训练的隐藏状态探针提供了最可靠的置信度估计，尽管代价是需要访问权重和训练数据。我们还通过测量输入中保留意义的变化下模型行为的一致性，对事实置信度进行更深入的评估。我们发现大语言模型的置信度在语义等效的输入中通常不稳定，这表明模型参数知识的稳定性还有很大的改进空间。我们的代码可在 (https://github.com/amazon-science/factual-confidence-of-llms) 获取。

VELO：矢量数据库辅助的云边协同LLM QoS优化框架

分类： 人工智能

作者： Zhi Yao, Zhiqing Tang, Jiong Lou, Ping Shen, Weijia Jia

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13399v1

摘要： 大型语言模型 (LLM) 已获得广泛欢迎，并在各个领域得到广泛应用。大多数 LLM 部署发生在云数据中心内，它们会遇到严重的响应延迟并产生高昂的成本，从而影响网络边缘的服务质量 (QoS)。利用矢量数据库缓存在边缘存储 LLM 请求结果可以大大减轻与类似请求相关的响应延迟和成本，而这一点已被以前的研究所忽视。为了解决这些差距，本文介绍了一种新颖的矢量数据库辅助的云边缘协作 LLM QoS 优化（VELO）框架。首先，我们提出了VELO框架，巧妙地利用向量数据库在边缘缓存一些LLM请求的结果，以减少后续类似请求的响应时间。与 LLM 的直接优化不同，我们的 VELO 框架不需要改变 LLM 的内部结构，并且广泛适用于各种 LLM。随后，在 VELO 框架的基础上，我们将 QoS 优化问题表述为马尔可夫决策过程 (MDP)，并设计了一种基于多智能体强化学习 (MARL) 的算法来决定是在云端请求 LLM 还是直接返回来自边缘矢量数据库的结果。此外，为了增强请求特征提取并加快训练速度，我们完善了 MARL 的策略网络并集成了专家演示。最后，我们在真实的边缘系统中实现了所提出的算法。实验结果证实，我们的 VELO 框架同时减少了利用 LLM 的边缘用户的延迟和资源消耗，从而显着提高了用户满意度。

AgentDojo：评估 LLM 代理攻击和防御的动态环境

分类： 密码学和安全, 机器学习

作者： Edoardo Debenedetti, Jie Zhang, Mislav Balunović, Luca Beurer-Kellner, Marc Fischer, Florian Tramèr

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13352v1

摘要： 人工智能代理旨在通过将基于文本的推理与外部工具调用相结合来解决复杂的任务。不幸的是，人工智能代理很容易受到即时注入攻击，外部工具返回的数据会劫持代理来执行恶意任务。为了衡量人工智能代理的对抗鲁棒性，我们引入了 AgentDojo，这是一个针对在不可信数据上执行工具的代理的评估框架。为了捕捉攻击和防御不断变化的本质，AgentDojo 不是一个静态测试套件，而是一个用于设计和评估新代理任务、防御和自适应攻击的可扩展环境。我们在环境中填充了 97 个实际任务（例如，管理电子邮件客户端、浏览电子银行网站或进行旅行预订）、629 个安全测试用例以及文献中的各种攻击和防御范例。我们发现 AgentDojo 对攻击和防御都提出了挑战：最先进的 LLM 在许多任务上都会失败（即使没有攻击），现有的即时注入攻击会破坏一些安全属性，但不是全部。我们希望 AgentDojo 能够促进人工智能代理新设计原则的研究，以可靠和稳健的方式解决常见任务。我们在 https://github.com/ethz-spylab/agentdojo 发布了 AgentDojo 的代码。

通过风险最小化改进零样本 LLM 重排序器

分类： 计算和语言

作者： Xiaowei Yuan, Zhao Yang, Yequan Wang, Jun Zhao, Kang Liu

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13331v1

摘要： 在检索增强生成（RAG）系统中，先进的大型语言模型（LLM）已经以无监督的方式作为有效的查询似然模型（QLM）出现，它根据给定内容的生成查询的概率对文档进行重新排序。一个文件。然而，直接促使 LLM 近似 QLM 本质上是有偏差的，其中估计的分布可能与实际的特定文档分布不同。在这项研究中，我们引入了一个新颖的框架，$\mathrm{UR^3}$，它利用贝叶斯决策理论来量化和减轻这种估计偏差。具体来说，$\mathrm{UR^3}$将问题重新表述为最大化文档生成的概率，从而在统一的风险最小化目标下协调查询和文档生成概率的优化。我们的实证结果表明 $\mathrm{UR^3}$ 显着增强了重新排名，特别是在提高 Top-1 准确性方面。它通过使用更少的输入文档实现更高的准确性，从而使 QA 任务受益。

了解长上下文大语言模型的 RoPE 扩展：注意力视角

分类： 计算和语言

作者： Meizhi Zhong, Chen Zhang, Yikun Lei, Xikai Liu, Yan Gao, Yao Hu, Kehai Chen, Min Zhang

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13282v1

摘要： 让大语言模型能够处理冗长的上下文是目前的一个研究热点。大多数大语言模型都是基于旋转位置嵌入（RoPE），这是一种流行的位置编码方法。因此，一个重要的途径是将在相对较短的文本上训练的 RoPE 推断为更长的文本。为了通过扩展 RoPE 的公式来促进外推，人们付出了巨大的努力，然而，很少有人尝试全面展示其内部工作原理。在本文中，我们致力于从注意力角度和两个基准测试任务上提供对 RoPE 扩展的简单而深入的理解。一系列广泛的实验揭示了几个有价值的发现：1）保持对预训练长度的注意力模式可以改善外推； 2）注意力不确定性大导致检索错误； 3) 使用更长的连续预训练长度进行 RoPE 扩展可以减少注意力的不确定性并显着增强外推能力。

调查口语对话理解数据集的低成本大语言模型注释

分类： 人工智能, 计算和语言, 人机交互, 信号处理

作者： Lucas Druart, Valentin Vielzeuf, Yannick Estève

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13269v1

摘要： 在口语面向任务的对话（TOD）系统中，描述用户请求的语义表示的选择是流畅交互的关键。事实上，系统使用这种表示来推理数据库及其领域知识，以选择下一步操作。因此，对话过程取决于该语义表示提供的信息。虽然文本数据集提供了细粒度的语义表示，但口语对话数据集却落后了。本文提供了对口语对话数据集语义表示的自动增强的见解。我们的贡献有三个方面：（1）评估大型语言模型微调的相关性，（2）评估生成的注释捕获的知识，以及（3）突出半自动注释的含义。

GSR-BENCH：通过多模态大语言模型进行扎根空间推理评估的基准

分类： 计算和语言, 计算机视觉和模式识别, 机器学习

作者： Navid Rajabi, Jana Kosecka

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13246v1

摘要： 理解和推理图像中物体之间的空间关系的能力是视觉推理的重要组成部分。这项技能依赖于识别和定位感兴趣的物体并确定它们的空间关系的能力。早期的视觉和语言模型（VLM）已被证明难以识别空间关系。我们扩展了之前发布的 What'sUp 数据集，并提出了一种新颖的空间关系理解综合评估方法，突出了 27 个不同模型的优点和缺点。除了 What'sUp 中评估的 VLM 之外，我们的广泛评估还包括 3 类多模态 LLM (MLLM)，它们的参数大小（范围从 7B 到 110B）、训练/指令调整方法和视觉分辨率各不相同，以对其进行基准测试性能并仔细检查该任务中的缩放定律。

探讨大语言模型培训期间跨语言一致性的出现

分类： 计算和语言, 人工智能, 机器学习

作者： Hetong Wang, Pasquale Minervini, Edoardo M. Ponti

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13229v1

摘要： 多语言大语言模型 (LLM) 实现了卓越的零样本跨语言迁移性能水平。我们推测这是基于他们在没有平行句子明确监督的情况下对齐语言的能力。虽然不同语言中翻译等效句子的表示在收敛后是相似的，但目前尚不清楚这种跨语言对齐是如何在大语言模型的预训练过程中出现的。我们的研究利用内在探测技术，识别哪些神经元子集编码语言特征，将跨语言神经元重叠程度与给定模型的零样本跨语言迁移性能相关联。特别是，我们依赖 BLOOM（一种多语言自回归大语言模型）跨不同训练步骤和模型规模的检查点。我们观察到神经元重叠和下游性能之间存在高度相关性，这支持了我们关于导致有效跨语言迁移的条件的假设。有趣的是，我们还在预训练过程的某些阶段检测到隐式对齐和多语言能力的退化，为多语言预训练动态提供了新的见解。

Multi-Meta-RAG：使用 LLM 提取的元数据进行数据库过滤，改进多跳查询的 RAG

分类： 计算和语言, 人工智能, 数据库

作者： Mykhailo Poliakov, Nadiya Shvai

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13213v1

摘要： 检索增强生成 (RAG) 能够从外部知识源检索相关信息，并允许大型语言模型 (LLM) 回答对以前未见过的文档集合的查询。然而，事实证明，传统的 RAG 应用程序在回答多跳问题方面表现不佳，这需要对支持证据的多个元素进行检索和推理。我们引入了一种称为 Multi-Meta-RAG 的新方法，该方法使用数据库过滤和 LLM 提取的元数据来改进与问题相关的各种来源的相关文档的 RAG 选择。虽然数据库过滤特定于来自特定领域和格式的一组问题，但我们发现 Multi-Meta-RAG 极大地改善了 MultiHop-RAG 基准测试的结果。该代码可从 https://github.com/mxpoliakov/Multi-Meta-RAG 获取。

使用大语言模型进行块级文本识别

分类： 计算机视觉和模式识别

作者： Ganesh Bannur, Bharadwaj Amrutur

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13208v1

摘要： 近年来，文本识别取得了巨大进步，产生了可以在字符、单词或行级别提取文本的高性能技术。然而，从图像中提取文本块（块级文本识别）相对来说还没有被探索过。块比单独的行、单词或字符包含更多的上下文，因此块级文本识别将增强下游应用程序，例如翻译，这些应用程序受益于添加的上下文。我们提出了一种新颖的方法，BTS-LLM（使用 LLM 进行块级文本识别）来识别块级文本。 BTS-LLM 分为三个部分：1）在行级别检测和识别文本，2）将行分组为块，3）使用大型语言模型 (LLM) 查找块内行的最佳顺序。我们的目标是利用大语言模型中强大的语义知识来实现准确的块级文本识别。因此，如果发现的文本在语义上有意义，但在文本识别过程中已被损坏，大语言模型还能够纠正文本中的错误并对其进行重建。

Amphista：利用非自回归风格的双向多个绘图头加速 LLM 推理

分类： 人工智能, 计算和语言

作者： Zeping Li, Xinlong Yang, Ziheng Gao, Ji Liu, Zhuang Liu, Dong Li, Jinzhang Peng, Lu Tian, Emad Barsoum

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13170v1

摘要： 大型语言模型（LLM）本质上使用自回归解码，这种解码缺乏推理的并行性，导致推理速度显着降低，尤其是在硬件并行加速器和内存带宽未充分利用的情况下。在这项工作中，我们提出了 Amphista，一种遵循非自回归解码范例的推测解码算法。由于并行性的增加，与自回归方法相比，我们的方法表现出更高的推理效率。具体来说，Amphista 建模了一个能够并行推理的自动嵌入块，结合双向注意力以实现不同绘图头之间的交互。此外，Amphista还实现了阶段式适应层，以促进语义信息从基础模型的自回归推理到绘图负责人的非自回归推测的过渡，从而实现范式转换和特征融合。我们使用 MT-Bench 和 Spec-Bench 对一套 Vicuna 模型进行了一系列实验。对于 Vicuna 33B 模型，与普通自回归解码和 Medusa 相比，Amphista 分别实现了高达 2.75$\times$ 和 1.40$\times$ 的挂钟加速，同时保持无损生成质量。

分析医疗保健大语言模型研究的多样性：科学计量学的视角

分类： 计算和语言

作者： David Restrepo, Chenwei Wu, Constanza Vásquez-Venegas, João Matos, Jack Gallifant, Luis Filipe

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13152v1

摘要： 大语言模型 (LLM) 在医疗保健领域的部署已证明在提高临床决策、管理效率和患者治疗效果方面具有巨大潜力。然而，在这些模型的开发和应用中，不同群体的代表性不足可能会延续偏见，导致医疗服务的不公平。本文对医疗保健领域的大语言模型研究进行了全面的科学计量分析，包括 2021 年 1 月 1 日至 2024 年 6 月 16 日的数据。通过分析 PubMed 和 Dimensions 的元数据（包括作者所属机构、国家/地区和资金来源），我们评估了大语言模型研究的贡献者。我们的研究结果凸显了显着的性别和地域差异，男性作者占主导地位，贡献主要来自高收入国家 (HIC)。我们引入了一种基于基尼杂质的新颖期刊多样性指数来衡量科学出版物的包容性。我们的结果强调了提高代表性的必要性，以确保大语言模型在医疗保健领域的公平应用。我们提出切实可行的战略，以增强人工智能研究的多样性和包容性，最终目标是在医疗保健创新领域创造一个更加包容和公平的未来。

当部分大于总和时：单个 LLM 组件可以优于完整模型

分类： 计算和语言

作者： Ting-Yun Chang, Jesse Thomason, Robin Jia

发布时间： 2024-06-19

链接： http://arxiv.org/abs/2406.13131v1

摘要： 本文通过将大型语言模型的输出分解为注意力头和 MLP（组件）的单独贡献来研究上下文学习（ICL）。我们观察到奇怪的组件：即使模型表现不佳，但性能良好的组件在分类任务中单独表现良好；表现不佳的人，其表现比机会差得多；以及总是预测相同标签的标签偏向组件。我们发现，即使全模型精度差异很大，组件精度在不同的演示集和提示模板的扰动之间也具有良好的相关性。根据我们的发现，我们提出了组件重新加权，它学习从一些标记的示例中线性地重新缩放组件激活。给定 24 个标记示例，我们的方法在 Llama-2-7B 上的 8 项任务中比 24 次 ICL 的准确度平均提高了 6.0%。总的来说，本文既丰富了我们对 ICL 的理解，又通过检查模型内部结构提供了一种实用的改进方法。

通过集成提示检测错误（DEEP）：用于检测事实错误的端到端 LLM 框架

分类： 计算和语言, 人工智能

作者： Alex Chandler, Devesh Surve, Hui Su

发布时间： 2024-06-18

链接： http://arxiv.org/abs/2406.13009v1

摘要： 准确的文本摘要是大型语言模型执行的最常见和最重要的任务之一，其中整个文档的人工审查成本可能很高，但摘要错误的成本可能更大。我们提出通过集成提示检测错误（DEEP）——一种端到端的大型语言模型框架，用于检测文本摘要中的事实错误。我们的框架使用一组不同的 LLM 提示来识别事实的不一致，将其输出视为二进制特征，然后将其输入到集成模型中。然后，我们校准集成模型，以根据经验产生准确的概率，表明文本实际上是一致的或没有幻觉。我们证明，在不优化评估数据集子集的阈值的情况下，用于检测摘要中的事实错误的先前模型的性能明显较差。我们的框架在 AggreFact-XSUM FTSOTA、TofuEval 摘要级别和 HaluEval 摘要基准上实现了最先进 (SOTA) 的平衡准确性，用于检测转换器生成的文本摘要中的事实错误。它不需要对语言模型进行任何微调，也不依赖于实际设置中不可用的阈值技术。

SHIELD：大语言模型文本生成中版权合规性的评估和防御策略

分类： 计算和语言, 人工智能, 计算机与社会

作者： Xiaoze Liu, Ting Sun, Tianyang Xu, Feijie Wu, Cunxiang Wang, Xiaoqian Wang, Jing Gao

发布时间： 2024-06-18

链接： http://arxiv.org/abs/2406.12975v1

摘要： 大型语言模型（LLM）已经改变了机器学习，但由于它们可能产生侵犯版权的文本，引发了重大的法律问题，导致了几起备受瞩目的诉讼。法律领域正在努力跟上这些快速进步的步伐，关于生成的文本是否可能抄袭受版权保护的材料的争论仍在继续。目前的大语言模型可能会侵犯版权或过度限制非版权文本，从而带来以下挑战：（i）需要一个综合的评估基准来从多个方面评估版权合规性； (ii) 评估针对绕过防护攻击的稳健性； (iii) 针对受版权保护的文本的生成制定有效的防御措施。为了应对这些挑战，我们引入了一个精心策划的数据集来评估方法、测试攻击策略，并提出轻量级的实时防御措施，以防止生成受版权保护的文本，确保大语言模型的安全和合法使用。我们的实验表明，当前的大语言模型经常输出受版权保护的文本，并且越狱攻击可以显着增加受版权保护的输出量。我们提出的防御机制通过有效拒绝恶意请求，显着减少了大语言模型生成的受版权保护的文本量。代码可在 https://github.com/xz-liu/SHIELD 上公开获取

通过使用 LLM Agent 进行代码分析来识别软件系统中的性能敏感配置

分类： 软件工程, 人工智能

作者： Zehao Wang, Dong Jae Kim, Tse-Hsun Chen

发布时间： 2024-06-18

链接： http://arxiv.org/abs/2406.12806v1

摘要： 配置设置对于定制软件行为以满足特定的性能要求至关重要。然而，不正确的配置很普遍，并且由于可能的设置数量庞大且复杂，识别那些影响系统性能的配置具有挑战性。在这项工作中，我们提出了 PerfSense，这是一个轻量级框架，它利用大型语言模型 (LLM) 以最小的开销有效地识别性能敏感的配置。 PerfSense 采用 LLM 代理，使用提示链和检索增强生成 (RAG) 等高级提示技术来模拟开发人员和性能工程师之间的交互。我们对七个开源 Java 系统的评估表明，PerfSense 在对性能敏感的配置进行分类时达到了 64.77% 的平均准确率，优于我们的 LLM 基线 (50.36%) 和之前最先进的方法 (61.75%) 。值得注意的是，我们的即时链接技术将召回率提高了 10% 至 30%，同时保持相似的精确度水平。此外，对 362 个错误分类的手动分析揭示了常见问题，包括大语言模型对要求的误解 (26.8%)。总之，PerfSense 显着减少了对性能敏感配置进行分类的手动工作，并为未来基于 LLM 的代码分析研究提供了宝贵的见解。

使用大语言模型生成具有不同可读性级别的教育材料

分类： 计算和语言, 人机交互

作者： Chieh-Yang Huang, Jing Wei, Ting-Hao 'Kenneth' Huang

发布时间： 2024-06-18

链接： http://arxiv.org/abs/2406.12787v1

摘要： 本研究引入了分级文本生成任务，旨在将教育材料重写到特定的可读性水平，同时保留含义。我们评估了 GPT-3.5、LLaMA-2 70B 和 Mixtral 8x7B 通过零样本和少样本提示生成各种可读级别内容的能力。对 100 个经过处理的教育材料的评估表明，少量提示显着提高了可读性操作和信息保存的性能。 LLaMA-2 70B 在达到所需的难度范围方面表现更好，而 GPT-3.5 则保持了原来的含义。然而，手动检查凸显了错误信息引入和编辑分布不一致等问题。这些发现强调需要进一步研究以确保生成的教育内容的质量。

AgentReview：与 LLM 代理一起探索同行评审动态

分类： 计算和语言

作者： Yiqiao Jin, Qinlin Zhao, Yiyang Wang, Hao Chen, Kaijie Zhu, Yijia Xiao, Jindong Wang

发布时间： 2024-06-18

链接： http://arxiv.org/abs/2406.12708v1

摘要： 同行评审是科学出版物完整性和进步的基础。传统的同行评审分析方法通常依赖于对现有同行评审数据的探索和统计，这不能充分解决过程的多变量性质、解释潜在变量，并且由于数据的敏感性而进一步受到隐私问题的限制。数据。我们推出了第一个基于大语言模型（LLM）的同行评审模拟框架AgentReview，它有效地消除了多种潜在因素的影响并解决了隐私问题。我们的研究揭示了重要的见解，包括由于审稿人的偏见导致论文决策存在显着的 37.1% 的差异，并得到社会学理论（如社会影响理论、利他主义疲劳和权威偏见）的支持。我们相信这项研究可以为改进同行评审机制的设计提供有价值的见解。