MiX Knowledge

使用 LLM Director 生成合成 3D 感知视频

分类： 计算机视觉和模式识别

作者： Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian

发布时间： 2024-08-31

链接： http://arxiv.org/abs/2409.00558v1

摘要： 通过使用强大的生成模型和大规模互联网数据，文本到视频的生成已经取得了重大进展。然而，在精确控制生成视频中的各个概念方面仍然存在重大挑战，例如特定角色的运动和外观以及视点的移动。在这项工作中，我们提出了一种新颖的范例，它分别生成 3D 表示中的每个概念，然后将它们与来自大型语言模型 (LLM) 和 2D 扩散模型的先验知识组合起来。具体来说，给定输入文本提示，我们的方案由三个阶段组成：1）我们利用 LLM 作为导演，首先将复杂的查询分解为几个子提示，这些子提示指示视频中的各个概念~（\textit{例如}，场景、物体、运动），然后我们让LLM调用预先训练的专家模型来获得相应的概念的3D表示。 2）为了组成这些表示，我们提示多模态 LLM 对对象轨迹的尺度和坐标产生粗略指导。 3）为了使生成的帧遵循自然图像分布，我们进一步利用2D扩散先验并使用分数蒸馏采样来细化合成。大量的实验表明，我们的方法可以从具有不同运动和对每个概念的灵活控制的文本生成高保真视频。项目页面：\url{https://aka.ms/c3v}。

学会提问：当大语言模型遇到不明确的指令时

分类： 计算和语言, 人工智能, 软件工程

作者： Wenxuan Wang, Juluan Shi, Chaozheng Wang, Cheryl Lee, Youliang Yuan, Jen-tse Huang, Michael R. Lyu

发布时间： 2024-08-31

链接： http://arxiv.org/abs/2409.00557v2

摘要： 现代大型语言模型 (LLM) 具备调用函数的能力，可以利用外部工具来解决一系列仅通过语言技能无法完成的任务。然而，这些工具的有效执行不仅在很大程度上依赖于大语言模型的先进能力，而且还依赖于精确的用户指令，而这在现实世界中往往无法保证。为了评估大语言模型在不完美指令下的工具使用性能，我们仔细检查用户查询的实际指令，分析错误模式，并构建一个具有挑战性的工具使用基准，称为噪声工具基准（NoisyToolBench）。我们发现，由于下一个令牌预测训练目标，大语言模型倾向于任意生成遗漏的论点，这可能会导致幻觉和风险。为了解决这个问题，我们提出了一个新颖的框架，即“需要时询问”（AwN），该框架会提示大语言模型在用户因指示不明确而遇到障碍时向用户提问。此外，为了减少用户与LLM交互中涉及的体力劳动，并从准确性和效率的角度评估LLM在工具使用方面的表现，我们设计了一个名为ToolEvaluator的自动化评估工具。我们的实验表明，AwN 的性能明显优于 NoisyToolBench 中现有的工具学习框架。我们将发布所有相关代码和数据集以支持未来的研究。

GenAI 支持的智能城市出行多智能体范式：将大型语言模型 (LLM) 和检索增强生成 (RAG) 与智能交通系统集成的机遇和挑战

分类： 人工智能, 软件工程

作者： Haowen Xu, Jinghui Yuan, Anye Zhou, Guanhao Xu, Wan Li, Xuegang Ban, Xinyue Ye

发布时间： 2024-08-31

链接： http://arxiv.org/abs/2409.00494v2

摘要： 利用生成式人工智能的最新进展，越来越多的多智能体系统被开发出来，以增强智慧城市应用的功能和效率。本文探讨了大语言模型 (LLM) 和新兴的检索增强生成 (RAG) 技术在智能交通系统 (ITS) 中的变革潜力，为创新解决方案应对城市交通的关键挑战铺平了道路。我们首先全面概述移动数据、ITS 和联网车辆 (CV) 应用领域的最新技术。在此回顾的基础上，我们讨论了 RAG 背后的基本原理，并研究了将这些生成式人工智能 (GenAI) 技术集成到智能移动领域的机会。我们提出了一个概念框架，旨在开发能够以智能方式和会话方式向城市通勤者、交通运营商和决策者提供智能移动服务的多智能体系统。我们的方法旨在培育一种自主和智能的方法，（a）促进基于科学的咨询，以减少多个层面的交通拥堵、事故和碳排放，（b）促进公众教育和参与参与式出行管理，以及（c）自动执行专门的运输管理任务和关键 ITS 平台的开发，例如数据分析和解释、知识表示和交通模拟。通过整合 LLM 和 RAG，我们的方法旨在克服传统的基于规则的多智能体系统的局限性，该系统依赖于固定的知识库和有限的推理能力。这种集成为更具可扩展性、直观性和自动化的多代理范式铺平了道路，推动了智能交通系统和城市交通的进步。

对齐调整真的会破坏大语言模型的内部信心吗？

分类： 计算和语言, 机器学习

作者： Hongseok Oh, Wonseok Hwang

发布时间： 2024-08-31

链接： http://arxiv.org/abs/2409.00352v1

摘要： 大型语言模型（LLM）已经取得了显着的进步，但它们的实际应用需要可靠的校准。本研究从模型、校准指标、任务和置信度提取方法四个维度对大语言模型的校准退化进行了全面分析。初步分析表明，对齐和校准之间的关系并不总是一种权衡，但在更严格的分析条件下，我们发现对齐过程始终会损害校准。这突出表明需要（1）在测量模型置信度和校准误差时采取谨慎的方法，以及（2）未来对算法的研究可以帮助大语言模型实现指令跟踪和校准而不牺牲任何一个。

聊天依恋：利用大语言模型来预测成人关系

分类： 机器学习, 计算和语言

作者： Paulo Soares, Sean McCurdy, Andrew J. Gerber, Peter Fonagy

发布时间： 2024-08-31

链接： http://arxiv.org/abs/2409.00347v1

摘要： 在医疗领域获取数据具有挑战性，使得人工智能技术在该领域的采用缓慢且风险高。我们评估是否可以利用大型语言模型（LLM）生成的合成数据来克服这一障碍。特别是，我们使用 GPT-4 和 Claude 3 Opus 来创建代理，模拟具有不同特征、童年记忆和依恋风格的成年人。这些代理参与模拟成人依恋访谈（AAI），我们使用他们的回答来训练模型，以预测他们潜在的依恋风格。我们使用来自 9 个人的转录数据集来评估我们的模型，这些人接受了相同的采访协议，并由心理健康专业人员进行分析和标记。我们的研究结果表明，仅使用合成数据训练模型所达到的性能与使用人类数据训练模型相当。此外，虽然来自合成答案的原始嵌入与来自真实人类反应的原始嵌入相比占据了不同的空间，但引入未标记的人类数据和简单的标准化可以使这些表示更紧密地对齐。这种调整得到了定性分析的支持，并反映在标准化嵌入的预测准确性的提高上。

通过定义增强的启发式驱动的大语言模型提示增强文档级参数提取

分类： 计算和语言

作者： Tongyue Sun, Jiayi Xiao

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2409.00214v1

摘要： 事件参数提取 (EAE) 对于从非结构化文本中提取结构化信息至关重要，但由于现实世界文档级 EAE 的复杂性，它仍然具有挑战性。我们提出了一种新颖的定义增强启发式驱动提示（DHP）方法来增强文档级 EAE 中大型语言模型（LLM）的性能。我们的方法集成了与参数提取相关的定义和启发式规则来指导提取过程，减少错误传播并提高任务准确性。我们还采用思维链（CoT）方法来模拟人类推理，将复杂的问题分解为可管理的子问题。实验表明，与现有的提示方法和文档级 EAE 数据集上的少样本监督学习相比，我们的方法在性能上取得了一定的提高。 DHP方法增强了LLM的泛化能力，减少了对大型注释数据集的依赖，为文档级EAE提供了新颖的研究视角。

大语言模型也会产生图表幻觉：结构视角

分类： 计算和语言, 人工智能, 社交和信息网络

作者： Erwan Le Merrer, Gilles Tredan

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2409.00159v1

摘要： 众所周知，大语言模型确实会产生幻觉，也就是说，他们将错误的信息返回为事实。在本文中，我们介绍了在结构化形式下研究这些幻觉的可能性：图表。当提示文献中众所周知的图表（例如空手道俱乐部、悲惨世界、图表图集）时，这种情况下的幻觉是不正确的输出。这些幻觉图表的优点是比事实的准确性（或不准确）丰富得多。因此，本文认为，这种丰富的幻觉可以用来表征大语言模型的产出。我们的第一个贡献观察了现代主要大语言模型的拓扑幻觉的多样性。我们的第二个贡献是提出了一种衡量此类幻觉幅度的度量标准：图集距离，即图集集中多个图的平均图编辑距离。我们将此指标与幻觉排行榜进行比较，幻觉排行榜利用 10,000 倍以上的提示来获得排名。

动态深度解码：大语言模型的更快推测解码

分类： 计算和语言, 人工智能

作者： Oscar Brown, Zhengjie Wang, Andrea Do, Nikhil Mathew, Cheng Yu

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2409.00142v1

摘要： 通过推测性解码来加速大型语言模型 (LLM) 可显着改善运行时间，而不会损失任何准确性。目前，EAGLE-2 是最先进的推测解码方法，通过动态草案树改进了 EAGLE。我们引入动态深度解码（DDD），它使用动态深度优化 EAGLE-2 的树绘制方法。这使得 EAGLE-2 比 EAGLE 实现的平均加速提高了 $44%$，使 DDD 的平均加速达到 $3.16$x。

获取功能启发的灵感：App Store 与基于 LLM 的方法

分类： 软件工程, 人工智能

作者： Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard, Gérard Dray, Walid Maalej

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17404v1

摘要： 在过去的十年中，应用商店 (AppStore) 启发的需求启发已被证明是非常有益的。开发人员经常探索竞争对手的应用程序以收集新功能的灵感。随着生成式人工智能的进步，最近的研究证明了大语言模型（LLM）启发的需求启发的潜力。大语言模型可以通过为新功能创意提供灵感来协助这一过程。虽然这两种方法在实践中越来越受欢迎，但人们对它们的差异缺乏深入的了解。我们报告了基于 AppStore 和基于 LLM 的方法之间的比较研究，该方法将功能细化为子功能。通过手动分析这两种方法推荐的 1,200 个子功能，我们确定了它们的优点、挑战和关键差异。虽然这两种方法都推荐具有清晰描述的高度相关的子功能，但大语言模型似乎更强大，特别是在新颖的看不见的应用程序范围方面。此外，一些推荐的特征是虚构的，可行性不明确，这表明人类分析师在启发循环中的重要性。

Novel-WD：探索使用前缀调优在大语言模型中获取小说世界知识

分类： 计算和语言

作者： Maxime Méloux, Christophe Cerisara

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17070v1

摘要： 向预先训练的大型语言模型 (PLM) 传授新信息是一项至关重要但具有挑战性的任务。模型适应技术，例如微调和参数高效训练，已被证明可以以较慢的速度存储新事实；持续学习是一种选择，但成本高昂且容易发生灾难性遗忘。这项工作研究并量化了 PLM 如何学习和记住预训练语料库中未出现的新世界知识事实，该语料库仅包含特定日期之前的世界知识。为此，我们首先提出Novel-WD，这是一个新数据集，由包含从最近的维基数据更新中提取的新颖事实的句子组成，以及因果语言建模和多项选择问题（MCQ）形式的两个评估任务。我们向社区免费提供该数据集，并发布一个程序，以便稍后使用最新信息构建类似数据集的新版本。我们还探索了使用前缀调整来学习新信息，并分析给定前缀内可以存储多少信息。我们证明，单个事实可以在单个前缀中可靠地编码，并且前缀容量随着其长度和基本模型大小的增加而增加。

从文本到情感：揭秘大语言模型的情感标注能力

分类： 计算和语言

作者： Minxue Niu, Mimansa Jaiswal, Emily Mower Provost

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17026v1

摘要： 训练情感识别模型在很大程度上依赖于人类注释数据，这带来了多样性、质量和成本方面的挑战。在本文中，我们探讨了大型语言模型 (LLM)（特别是 GPT4）在自动化或辅助情感注释方面的潜力。我们从三个方面将 GPT4 与监督模型或人类进行比较：与人类注释的一致性、与人类感知的一致性以及对模型训练的影响。我们发现，使用聚合的人类注释作为基本事实的常见指标可能会低估 GPT-4 的性能，并且我们的人类评估实验揭示了跨多个数据集和评估者对 GPT-4 注释相对于人类的一致偏好。此外，我们还研究了使用 GPT-4 作为注释过滤过程对改进模型训练的影响。总之，我们的研究结果凸显了大语言模型在情感注释任务中的巨大潜力，并强调了改进评估方法的必要性。

动态自洽：利用推理路径实现高效的 LLM 抽样

分类： 计算和语言, 人工智能

作者： Guangya Wan, Yuqi Wu, Jie Chen, Sheng Li

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17017v1

摘要： 自一致性 (SC) 是一种广泛使用的方法，通过对 LLM 进行多次采样并输出最常见的解决方案来减轻大型语言模型 (LLM) 中的幻觉。尽管有它的好处，但 SC 会导致与生成的样本数量成正比的大量计算成本。以前的早期停止方法，例如早期停止自我一致性和自适应一致性，旨在通过考虑输出一致性来降低这些成本，但它们并不分析推理路径（RP）本身的质量。为了解决这个问题，我们提出了推理感知自我一致性（RASC），这是一种创新的提前停止框架，通过考虑输出答案和思想链（CoT）提示的RP来动态调整样本生成的数量。 RASC 按顺序为生成的样本分配置信度分数，在满足某些条件时停止，然后采用加权多数投票来优化样本使用并增强答案可靠性。我们使用多个大语言模型跨不同的 QA 数据集全面测试 RASC。 RASC 优于现有方法，与原始 SC 相比，平均显着减少了 80% 的样本使用量，同时保持或提高了高达 5% 的准确度

一致的大型语言模型的安全层：LLM 安全的关键

分类： 密码学和安全, 人工智能

作者： Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17003v1

摘要： 一致的大语言模型非常安全，能够识别并拒绝回答恶意问题。然而，内部参数在维护这种安全性方面的作用尚不清楚，此外，当使用非恶意后门数据或正常数据进行微调时，这些模型很容易受到安全性下降的影响。为了应对这些挑战，我们的工作揭示了参数级别的对齐LLM安全背后的机制，识别模型中间的一小组连续层，这些层对于区分恶意查询和正常查询至关重要，称为“安全层” ”。我们首先通过分析模型内部层内输入向量的变化来确认这些安全层的存在。此外，我们利用过度拒绝现象和参数缩放分析来精确定位安全层。基于这种理解，我们提出了一种新颖的微调方法，即安全部分参数微调（SPPPFT），该方法在微调过程中修复安全层的梯度，以解决安全性下降的问题。我们的实验表明，与完全微调相比，这种方法可以显着保护模型安全性，同时保持性能并减少计算资源。

HoneyComb：基于 LLM 的灵活材料科学代理系统

分类： 计算和语言, 人工智能

作者： Huan Zhang, Yu Song, Ziyu Hou, Santiago Miret, Bang Liu

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2409.00135v1

摘要： 专门的大语言模型（LLM）的出现在解决材料科学的复杂任务方面显示出了希望。然而，许多大语言模型经常难以应对材料科学任务的明显复杂性，例如材料科学计算任务，并且常常严重依赖过时的隐性知识，导致不准确和幻觉。为了应对这些挑战，我们推出了 HoneyComb，这是第一个专为材料科学设计的基于 LLM 的代理系统。 HoneyComb 利用新颖、高质量的材料科学知识库 (MatSciKB) 和先进的工具中心 (ToolHub) 来增强其针对材料科学量身定制的推理和计算能力。 MatSciKB 是基于可靠文献的精选结构化知识集合，而 ToolHub 采用归纳工具构建方法来生成、分解和完善材料科学的 API 工具。此外，HoneyComb 利用检索器模块，自适应地为特定任务选择适当的知识源或工具，从而确保准确性和相关性。我们的结果表明，HoneyComb 在材料科学的各种任务中显着优于基线模型，有效地弥合了当前大语言模型能力与该领域的专业需求之间的差距。此外，我们的适应性框架可以轻松扩展到其他科学领域，突显其在推进科学研究和应用方面的广泛适用性的潜力。

人工智能可以取代人类受试者吗？大语言模型心理学实验的大规模复制

分类： 计算和语言, 人工智能, 普通经济学, 经济学

作者： Ziyan Cui, Ning Li, Huaikang Zhou

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2409.00128v2

摘要： 人工智能 (AI) 越来越多地融入科学研究，特别是在社会科学领域，理解人类行为至关重要。像 GPT-4 这样的大型语言模型 (LLM) 在各种心理实验中显示出复制类人反应的前景。然而，大语言模型能在多大程度上有效地在不同的实验环境中替代人类受试者仍不清楚。在这里，我们使用 GPT-4 作为模拟参与者，进行了一项大规模研究，复制了来自顶级社会科学期刊的 154 个心理实验，其中包含 618 个主效应和 138 个交互效应。我们发现 GPT-4 成功复制了原始研究中观察到的 76.0% 的主效应和 47.0% 的交互效应，在方向和意义上都密切反映了人类的反应。然而，GPT-4 的重复置信区间中只有 19.44% 包含原始效应大小，大多数重复效应大小超过原始研究的 95% 置信区间。此外，在原始研究报告无效结果的情况下，有 71.6% 的意外显着结果出现，这表明可能存在高估或误报。我们的结果证明了大语言模型作为心理学研究强大工具的潜力，但也强调在解释人工智能驱动的研究结果时需要谨慎。虽然大语言模型可以补充人类研究，但它们还不能完全取代人类受试者提供的细致入微的见解。

更小、更弱、但更好：通过计算最优采样训练 LLM Reasoners

分类： 计算和语言, 人工智能

作者： Hritik Bansal, Arian Hosseini, Rishabh Agarwal, Vinh Q. Tran, Mehran Kazemi

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16737v1

摘要： 对来自强语言模型 (LM) 的高质量合成数据进行训练是提高 LM 推理性能的常见策略。在这项工作中，我们重新审视该策略在固定推理预算（例如 FLOP）下是否是计算最优的。为此，我们研究了使用更强但更昂贵 (SE) 模型与更弱但更便宜 (WC) 模型生成合成数据之间的权衡。我们通过三个关键指标评估生成的数据：覆盖率、多样性和误报率，并表明来自 WC 模型的数据可能具有更高的覆盖率和多样性，但也表现出更高的误报率。然后，我们在不同设置中根据来自 SE 和 WC 模型的数据对 LM 进行微调：知识蒸馏、自我改进以及一种新颖的从弱到强的改进设置，其中较弱的 LM 向较强的 LM 教授推理。我们的研究结果表明，在多个基准以及 WC 和 SE 模型的多种选择中，针对 WC 生成的数据进行微调的模型始终优于针对 SE 生成的数据进行训练的模型。这些结果挑战了依赖 SE 模型来生成合成数据的普遍做法，表明 WC 可能是训练高级 LM 推理器的计算最佳方法。

大语言模型监督微调中的熵分布匹配：更少的过度拟合和更好的多样性

分类： 机器学习, 人工智能

作者： Ziniu Li, Congliang Chen, Tian Xu, Zeyu Qin, Jiancong Xiao, Ruoyu Sun, Zhi-Quan Luo

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16673v1

摘要： 大型语言模型依靠监督微调（SFT）来专门处理下游任务。交叉熵（CE）损失是 SFT 中事实上的选择，但由于其对数据分布的积极更新，常常导致过度拟合和有限的输出多样性。本文旨在通过引入最大熵原理来解决这些问题，该原理有利于具有更平坦分布但仍能有效捕获数据的模型。具体来说，我们开发了一种称为 GEM 的新分布匹配方法，该方法使用熵正则化器解决反向 Kullback-Leibler 散度最小化问题。对于 Llama-3-8B 模型的 SFT，GEM 在多个方面优于 CE。首先，当应用于 UltraFeedback 数据集以开发一般指令跟踪能力时，GEM 表现出减少的过度拟合，这可以通过 IFEval 基准上较低的困惑度和更好的性能来证明。此外，GEM 还增强了输出多样性，即使没有特定领域的数据，使用 best-of-n 采样，数学推理和代码生成任务的性能也可提升高达 7 个百分点。其次，当使用特定领域的数据集进行数学推理和代码生成的微调时，与 CE 相比，GEM 还表现出较少的过度拟合和最多 10 个点的改进。

大语言模型生成结构上现实的社交网络，但高估了政治同质性

分类： 计算机与社会, 人工智能, 社交和信息网络

作者： Serina Chang, Alicja Chaszczewicz, Emma Wang, Maya Josifovska, Emma Pierson, Jure Leskovec

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16629v1

摘要： 生成社交网络对于许多应用至关重要，例如流行病建模和社交模拟。先前的方法要么涉及深度学习模型（需要许多观察到的网络进行训练），要么涉及程式化模型（其真实性和灵活性有限）。相比之下，大语言模型提供了零样本和灵活网络生成的潜力。然而，两个关键问题是：(1) 大语言模型生成的网络是否现实，(2) 考虑到人口统计在形成社会关系方面的重要性，偏见的风险是什么？为了回答这些问题，我们开发了三种网络生成的提示方法，并将生成的网络与真实的社交网络进行比较。我们发现，与一次构建整个网络的“全局”方法相比，使用“本地”方法生成更真实的网络，其中大语言模型一次为一个角色构建关系。我们还发现生成的网络在许多特征上与真实网络相匹配，包括密度、聚类、社区结构和程度。然而，我们发现大语言模型比所有其他类型的同质性更强调政治同质性，并且相对于现实世界的衡量标准高估了政治同质性。

SALSA：快速 ASR-LLM 同步聚合

分类： 计算和语言, 机器学习, 声音, 音频和语音处理

作者： Ashish Mittal, Darshan Prabhu, Sunita Sarawagi, Preethi Jyothi

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16542v1

摘要： 利用预先训练的大语言模型来改进 ASR 系统，特别是针对资源匮乏的语言，现在已成为一个新兴的研究领域。现有方法包括使用 LLM 进行 ASR 纠错以及用 LLM 替代 ASR 解码器的紧密耦合系统。这些方法要么增加解码时间，要么需要昂贵的交叉注意力层训练。我们提出了 SALSA，它将 ASR 的解码器层耦合到 LLM 解码器，同时同步推进两个解码器。这种耦合是通过最后解码器状态的简单投影来执行的，因此比早期的方法训练效率显着提高。我们提出的耦合的一个挑战是处理 LLM 和 ASR 系统的标记器之间的不匹配。我们使用 LLM 和 ASR 词汇表的级联标记化来处理这种不匹配。我们在 FLEURS 基准测试中对 8 种低资源语言的 SALSA 进行了评估，结果使 WER 大幅降低了 38%。

大语言模型与现有的分类文本增强技术：何时收益超过成本？

分类： 计算和语言

作者： Jan Cegin, Jakub Simko, Peter Brusilovsky

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16502v1

摘要： 生成式大语言模型 (LLM) 越来越多地用于数据增强任务，其中文本样本经过 LLM 解释，然后用于分类器微调。然而，一项能够证实大语言模型相对于更成熟的增强方法具有明显成本效益优势的研究在很大程度上缺失。为了研究基于 LLM 的增强是否（以及何时）具有优势，我们将最新的 LLM 增强方法与现有方法在 6 个数据集、3 个分类器和 2 种微调方法上的效果进行了比较。我们还改变了种子的数量并收集了样本，以更好地探索下游模型的准确性空间。最后，我们进行了成本效益分析，结果表明，只有在使用非常少量的种子时，基于 LLM 的方法才值得部署。此外，在许多情况下，既定方法可以带来相似或更好的模型精度。

自我调整：通过情境学习提高大语言模型文化价值观的调整

分类： 计算和语言

作者： Rochelle Choenni, Ekaterina Shutova

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16482v1

摘要： 提高大型语言模型 (LLM) 与其编码的文化价值观的一致性已成为一个日益重要的话题。在这项工作中，我们研究是否可以在推理时利用有关文化价值的现有知识来调整模型对文化价值探测的响应。我们提出了一种简单且廉价的方法，该方法结合了情境学习 (ICL) 和人类调查数据，并表明我们可以提高 5 个模型（包括以英语为中心的大语言模型和多语言大语言模型）的文化价值观的一致性。重要的是，我们表明，我们的方法可以在英语以外的测试语言中发挥作用，并且可以提高与一系列文化多元化国家相对应的文化价值观的一致性。

基于人类和大语言模型的语音助理交互：用户言语和非言语行为的分析框架

分类： 人机交互

作者： Szeyi Chan, Shihan Fu, Jiachen Li, Bingsheng Yao, Smit Desai, Mirjana Prpa, Dakuo Wang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16465v1

摘要： 大语言模型（LLM）技术的最新进展显着增强了人类与语音助手（VA）之间的交互体验。该项目旨在探索用户在复杂任务期间与基于 LLM 的 VA (LLM-VA) 的持续交互。我们招募了 12 名参与者，让他们在烹饪任务中与大语言模型-VA 进行互动，这是因为其复杂性和持续互动的要求而选择的。我们观察到用户同时表现出语言和非语言行为，尽管他们知道 LLM-VA 无法捕获这些非语言信号。尽管非语言行为在人与人的交流中普遍存在，但还没有既定的分析方法或框架来探索人与 VA 互动中的非语言行为。在分析了 3 小时 39 分钟的视频记录后，我们开发了一个包含三个维度的分析框架：1）行为特征，包括言语和非言语行为，2）互动阶段——探索、冲突和整合——说明了进展用户交互，以及 3) 整个任务的阶段转换。该分析框架确定了关键的言语和非言语行为，为优化人类和大语言模型-VA互动的未来研究和实际应用奠定了基础。

WHISMA：用于执行零样本口语理解的语音大语言模型

分类： 音频和语音处理, 声音

作者： Mohan Li, Cong-Thanh Do, Simon Keizer, Youmna Farag, Svetlana Stoyanchev, Rama Doddipatla

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16423v1

摘要： 语音大语言模型 (speech-LLM) 集成了基于语音和文本的基础模型，为处理各种下游任务提供统一的框架。在本文中，我们介绍了 WHISMA，这是一种专为口语理解 (SLU) 量身定制的语音大语言模型，它在各种零样本设置中展示了强大的性能。 WHISMA 将 Whisper 的语音编码器与 Llama-3 LLM 相结合，并在 SLU 相关数据集的综合集合上以参数有效的方式进行微调。我们的实验表明，WHISMA 显着提高了 SLURP 基准上的零样本槽填充性能，与当前最先进的模型相比，实现了 26.6% 的相对增益。此外，为了评估 WHISMA 对未知领域的泛化能力，我们开发了一个新的任务无关基准，名为 SLU-GLUE。评估结果表明，WHISMA 的性能优于现有的语音 LLM（Qwen-Audio），相对增益为 33.0%。

走出舒适区：分析LLM在软件漏洞检测方面的能力

分类： 密码学和安全

作者： Yuejun Guo, Constantinos Patsakis, Qiang Hu, Qiang Tang, Fran Casino

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16400v1

摘要： 自动化和更快的开发生命周期推动了软件生产的显着增加，导致软件漏洞相应激增。与此同时，软件漏洞检测不断发展的格局，凸显了从传统方法到机器学习和大型语言模型 (LLM) 的转变，以占用大量资源的计算为代价提供了巨大的机会。本文通过测试超出其通常应用程序的模型来研究其在网络安全任务中的潜力，彻底分析了大语言模型检测源代码中漏洞的能力。我们评估了六个开源模型的性能，这些模型专门针对六个通用 LLM 进行漏洞检测训练，其中三个模型在我们编译的数据集上进行了进一步微调。我们的数据集以及五个最先进的基准数据集被用来创建一个管道来利用二进制分类任务，即将代码分为易受攻击和不易受攻击的两类。研究结果强调了不同基准分类准确性的显着差异，揭示了微调对于增强小型大语言模型相对于大型大语言模型的检测能力的关键影响，但仅限于他们接受培训的特定场景。进一步的实验和分析还强调了当前基准数据集的问题，特别是标签错误及其对模型训练和性能的影响，这引起了人们对当前实践状态的担忧。我们还讨论了该领域的未来发展方向，提出了改进模型训练和数据集管理的策略。

使用多通道增强生成纠错对 ASR-LLM 设置上的日语语音识别进行基准测试

分类： 音频和语音处理, 计算和语言, 声音

作者： Yuka Ko, Sheng Li, Chao-Han Huck Yang, Tatsuya Kawahara

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16180v1

摘要： 凭借大型语言模型 (LLM) 强大的表征能力，自动语音识别 (ASR) 的生成纠错 (GER) 旨在提供语义和语音细化来解决 ASR 错误。这项工作探讨了基于 LLM 的 GER 如何增强和扩展日语处理的能力，提出了第一个针对 0.9-2.6k 文本话语的日语 ASR 的 GER 基准。我们还引入了一种新的多通道增强生成误差校正（MPA GER），通过将输入侧的多个系统假设与输出侧的多个 LLM 的校正相集成，然后将它们合并。据我们所知，这是对日语 GER 大语言模型使用的首次调查，其中涉及对 ASR 系统生成的输出转录进行第二遍语言建模（例如，N 最佳假设）。我们的实验证明了所提出的 ASR 质量和泛化方法在 SPREDS-U1-ja 和 CSJ 数据中的性能改进。

用于语义类型检测的 LLM 辅助标记函数生成

分类： 数据库, 人工智能

作者： Chenjie Li, Dan Zhang, Jin Wang

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16173v1

摘要： 检测数据湖表中列的语义类型是一个重要的应用。由于数据湖固有的复杂性，语义类型检测的一个关键瓶颈是人工注释的可用性。在本文中，我们建议使用程序化弱监督，通过利用标签函数来协助注释用于语义类型检测的训练数据。这一过程中的一个挑战是，由于数据湖表数据集体量大、质量低，手动编写标记函数很困难。为了解决这个问题，我们探索使用大型语言模型（LLM）来生成标签函数，并为此引入了几种快速的工程策略。我们对现实世界的网络表数据集进行实验。基于初步结果，我们进行了广泛的分析，并为该领域的研究人员提供了实证见解和未来方向。

EPO：具有环境偏好优化的分层 LLM 代理

分类： 机器学习

作者： Qi Zhao, Haotian Fu, Chen Sun, George Konidaris

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16090v1

摘要： 由于需要跨多个步骤进行广泛的规划，长期决策任务对基于 LLM 的代理提出了重大挑战。在本文中，我们提出了一个分层框架，将复杂的任务分解为可管理的子目标，利用单独的 LLM 进行子目标预测和低级动作生成。为了解决为未注释的数据集创建训练信号的挑战，我们开发了一种奖励模型，利用多模态环境反馈来自动生成奖励信号。我们引入了环境偏好优化（EPO），这是一种从环境反馈中生成偏好信号并使用它们来训练基于 LLM 的代理的新颖方法。 ALFRED 上的大量实验证明了我们框架的最先进性能，在 ALFRED 公共排行榜上取得了第一名，并展示了其在不同环境中改善长期决策的潜力。

Eagle：探索混合编码器的多模态大语言模型的设计空间

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15998v1

摘要： 准确解释复杂视觉信息的能力是多模态大语言模型（MLLM）的一个关键主题。最近的研究表明，增强的视觉感知可显着减少幻觉并提高对分辨率敏感的任务（例如光学字符识别和文档分析）的性能。最近的许多 MLLM 使用视觉编码器的混合来实现这一目标。尽管取得了成功，但缺乏针对关键方面的系统比较和详细消融研究，例如专家选择和多名视觉专家的整合。这项研究结合使用视觉编码器和分辨率，对 MLLM 的设计空间进行了广泛的探索。我们的研究结果揭示了各种现有策略所共有的几个基本原则，从而形成简化而有效的设计方法。我们发现，简单地连接来自一组互补视觉编码器的视觉标记与更复杂的混合架构或策略一样有效。我们还引入了预对齐来弥合视觉编码器和语言标记之间的差距，从而增强模型的一致性。由此产生的 MLLM 系列 Eagle 在主要 MLLM 基准测试中超越了其他领先的开源模型。模型和代码：https://github.com/NVlabs/Eagle

通过能量收集在边缘网络上进行分散式 LLM 推理

分类： 分布式、并行和集群计算

作者： Aria Khoshsirat, Giovanni Perin, Michele Rossi

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15907v1

摘要： 大型语言模型以其在自然语言任务中的卓越性能显着改变了多个领域，但它们在边缘网络等资源受限的环境中的部署提出了持续的挑战。分散式推理技术已经出现，将模型块分布在多个设备之间，以提高灵活性和成本效益。然而，能源限制仍然是边缘设备的一个重要问题。我们提出了一种可持续模型，用于在具有能量收集功能的互连电池供电边缘设备上进行协作推理。考虑到处理参数和平均绿色能源到达量，开发了半马尔可夫模型来描述设备的状态。这为旨在最小化设备停机时间和最大化网络吞吐量的调度算法的设计提供了信息。通过实证评估和模拟运行，我们验证了我们方法的有效性，为边缘网络上的节能去中心化推理铺平了道路。

基于 LLM 的多跳问答与不断发展的环境中的知识图集成

分类： 计算和语言

作者： Ruirui Chen, Weifeng Jiang, Chengwei Qin, Ishaan Singh Rawal, Cheston Tan, Dongkyu Choi, Bo Xiong, Bo Ai

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15903v1

摘要： 大型语言模型 (LLM) 中的信息迅速过时，推动了各种技术的发展以融入新的事实。然而，现有的知识编辑方法仍然面临着多跳问题的困难，这些问题需要准确的事实识别和顺序逻辑推理，特别是在大量的事实更新中。为了应对这些挑战，本文介绍了基于图内存的大型语言模型编辑（GMeLLo），这是一种简单而有效的方法，它将知识图（KG）的显式知识表示与大语言模型的语言灵活性相结合。除了仅仅利用 LLM 进行问答之外，GMeLLo 还利用这些模型将自由格式语言转换为结构化查询和事实三元组，促进与 KG 的无缝交互，以实现快速更新和精确的多跳推理。我们的结果表明，GMeLLo 在多跳问答基准 MQuAKE 中显着超越了当前最先进的知识编辑方法，特别是在具有大量知识编辑的场景中。

大语言模型作为注释者的偏见：团体线索对大型语言模型标签决策的影响

分类： 计算和语言, 机器学习

作者： Sebastian Vallejo Vera, Hunter Driggers

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15895v1

摘要： 人类编码员是有偏见的。我们在大型语言模型（LLM）中作为注释器测试了类似的偏差。通过重复 Ennser-Jedenastik 和 Meyer (2018) 进行的实验，我们发现有证据表明大语言模型使用政治信息，特别是政党线索来判断政治言论。大语言模型不仅使用相关信息根据政党线索来判断某个陈述是积极、消极还是中立，而且还反映了他们接受培训时所依据的人类生成数据的偏见。我们还发现，与人类不同，人类只在面对极端政党的声明时才会产生偏见，而大语言模型即使在中左翼和中右翼政党的声明提示下也表现出明显的偏见。结论中讨论了我们的研究结果的含义。

知识导航器：大语言模型引导的科学文献探索性搜索浏览框架

分类： 信息检索, 人工智能, 计算和语言

作者： Uri Katz, Mosh Levy, Yoav Goldberg

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15836v1

摘要： 科学文献的指数级增长需要先进的工具来有效地探索知识。我们推出了知识导航器，这是一个旨在通过将广泛主题查询检索到的文档组织和构建为可导航的命名和描述性科学主题和子主题的两级层次结构来增强探索性搜索能力的系统。这种结构化的组织提供了一个领域中研究主题的总体视图，同时还允许用户细化他们的焦点并检索其他相关文档，从而在特定子主题中实现迭代搜索和更深入的知识发现。 Knowledge Navigator 将 LLM 功能与基于集群的方法相结合，以实现有效的浏览方法。我们通过对两个新颖的基准 CLUSTREC-COVID 和 SCITOC 进行自动和手动评估来证明我们方法的有效性。我们的代码、提示和基准都是公开的。

通过学习排名实现高效的 LLM 日程安排

分类： 机器学习

作者： Yichao Fu, Siqi Zhu, Runlong Su, Aurick Qiao, Ion Stoica, Hao Zhang

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15792v1

摘要： 在大型语言模型 (LLM) 推理中，LLM 请求的输出长度通常被视为先验未知。因此，大多数 LLM 服务系统采用简单的先到先服务 (FCFS) 调度策略，导致队头 (HOL) 阻塞并降低吞吐量和服务质量。在本文中，我们重新审视了这个假设——我们表明，尽管预测每个请求的确切生成长度是不可行的，但可以使用排名学习来预测一批请求中输出长度的相对排名。排名信息为调度请求提供了宝贵的指导。基于这一见解，我们开发了一种用于 LLM 推理和服务的新颖调度程序，它可以比现有方法更好地逼近最短作业优先（SJF）调度。我们将此调度程序与最先进的 LLM 服务系统集成，并在几个重要应用程序中显示出显着的性能改进：聊天机器人服务延迟降低了 2.8 倍，合成数据生成吞吐量提高了 6.5 倍。我们的代码位于 https://github.com/hao-ai-lab/vllm-ltr.git

互动代理：通过角色扮演大语言模型与大语言模型之间的互动来模拟咨询师与客户的心理咨询

分类： 计算和语言, 信息检索

作者： Huachuan Qiu, Zhenzhong Lan

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15787v1

摘要： 由大语言模型 (LLM) 提供支持的虚拟咨询师旨在创建交互式支持系统，有效帮助客户应对心理健康挑战。为了复制咨询师与客户的对话，研究人员建立了一个在线心理健康平台，允许专业咨询师为客户提供每次约一小时的基于文本的咨询服务。尽管其有效，但仍然存在挑战，因为人工注释耗时、成本密集、隐私受到保护且不可扩展。为了解决这个问题并研究大语言模型在心理咨询对话模拟中的适用性，我们提出了一个框架，该框架使用两名大语言模型通过角色扮演来模拟咨询师与客户的互动。我们的框架涉及两名大语言模型，一名担任拥有特定且现实生活中的用户档案的客户，另一名则扮演经验丰富的顾问，使用综合治疗技术产生专业的反应。我们通过 GPT-4 模型的零样本提示来实现咨询师和客户。为了评估大语言模型在模拟顾问与客户互动方面的有效性，并了解大语言模型和人类生成的对话之间的差异，我们从不同的角度评估合成数据。我们首先通过自动评估来评估客户的表现。接下来，我们分析和比较大语言模型产生的对话与专业顾问产生的对话之间的差异。此外，我们还进行了大量的实验，以最先进的心理健康模型为基准，彻底检查接受过综合互动对话培训的大语言模型辅导员的表现。

一种极其高效的数据效率和基于 LLM 的生成式推荐器强化学习代理

分类： 机器学习, 人工智能, 信息检索

作者： Shuang Feng, Grace Feng

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16032v1

摘要： 大语言模型 (LLM) 的最新进展使人们能够理解网页上下文、产品详细信息和人工指令。利用大语言模型作为强化学习奖励模型或策略的基础架构已经受到欢迎——一个显着的成就是 InstructGPT 的成功。强化学习算法在最大限度地提高长期客户满意度和避免工业推荐系统中的短期短视目标方面发挥了重要作用，而工业推荐系统通常依赖深度学习模型来预测即时点击或购买。在该项目中，使用 WebShop 基准环境、数据、模拟器和预训练模型检查点来实现和评估多种 RL 方法。目标是训练 RL 代理，在给出描述所需产品的详细人工指令的情况下最大化购买奖励。 RL 代理的开发方法是对具有各种目标的预训练 BERT 模型进行微调，在没有奖励模型的情况下从偏好中学习，并采用现代训练技术，例如 InstructGPT 中使用的近端策略优化 (PPO) 和直接偏好优化 (数据保护专员）。该报告还评估了使用生成轨迹训练的强化学习智能体。评估是在 WebShop 模拟器环境中使用 Thompson 抽样进行的。模拟在线实验表明，在生成轨迹上训练的智能体表现出与使用人类轨迹训练的智能体相当的任务性能。这展示了一种训练强化学习代理的极其低成本的数据高效方法的示例。此外，在有限的训练时间（<2 小时）、不使用任何图像的情况下，DPO 代理在 T4 GPU 上训练大约 3000 个步骤或 30 分钟后取得了 19% 的成功率，而 PPO 代理的成功率达到了 15%速度。

CodeSift：基于 LLM 的无参考自动代码验证框架

分类： 软件工程, 人工智能

作者： Pooja Aggarwal, Oishik Chatterjee, Ting Dai, Prateeti Mohapatra, Brent Paulovicks, Brad Blancett, Arthur De Magalhaes

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15630v1

摘要： 大型语言模型（LLM）的出现极大地促进了代码生成，但确保生成代码的功能正确性仍然是一个挑战。传统的验证方法通常非常耗时、容易出错，并且对于大量代码来说不切实际。我们引入了 CodeSift，这是一种新颖的框架，它利用 LLM 作为代码验证的一线过滤器，无需执行、参考代码或人工反馈，从而减少了验证工作。我们在包含两种编程语言的三个不同数据集上评估了我们的方法的有效性。我们的结果表明 CodeSift 的性能优于最先进的代码评估方法。与主题专家进行的内部测试表明，CodeSift 生成的输出符合人类偏好，增强了其作为可靠的自动化代码验证工具的有效性。

CBF-LLM：LLM 对齐的安全控制

分类： 系统与控制, 人工智能, 计算和语言, 系统与控制

作者： Yuya Miyaoka, Masaki Inoue

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15625v1

摘要： 本文提出了一种基于控制的框架，通过利用控制屏障函数（CBF）来对齐大型语言模型（LLM），以确保生成用户所需的文本。所提出的框架将基于CBF设计的安全过滤器应用于基线LLM的输出生成，即令牌序列，目的是干预生成的文本。整个文本生成系统是用 Llama 3 和 RoBERTa 模型实现的，源代码可在 https://github.com/Mya-Mya/CBF-LLM 获取。该实验证明了其控制能力和有效性，可以减少用户指定的对齐任务所需的干预次数。

WildFeedback：将大语言模型与现场用户交互和反馈结合起来

分类： 计算和语言

作者： Taiwei Shi, Zhuoer Wang, Longqi Yang, Ying-Chun Lin, Zexue He, Mengting Wan, Pei Zhou, Sujay Jauhar, Xiaofeng Xu, Xia Song, Jennifer Neville

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15549v1

摘要： 随着大型语言模型 (LLM) 的不断发展，使这些模型与人类偏好保持一致已成为一项重大挑战。传统的对齐方法依赖于人类或大语言模型注释的数据集，受到资源密集型、固有主观性以及放大模型偏差的反馈循环风险的限制。为了克服这些限制，我们引入了 WildFeedback，这是一种新颖的框架，它利用实时、现场的用户交互来创建更准确地反映真实人类价值观的偏好数据集。 WildFeedback 通过三个步骤进行操作：反馈信号识别、偏好数据构建和用户引导评估。我们将此框架应用于大量用户与大语言模型对话的语料库，从而产生了反映真实用户偏好的丰富偏好数据集。该数据集通过识别和分类自然对话中的反馈信号来捕获用户偏好的细微差别，从而能够构建更具代表性和上下文敏感的对齐数据。我们广泛的实验表明，在 WildFeedback 上进行微调的大语言模型表现出显着改善的与用户偏好的一致性，传统基准和我们提出的用户引导评估都证明了这一点。通过整合来自实际用户的实时反馈，WildFeedback 解决了困扰现有方法的可扩展性、主观性和偏见挑战，标志着朝着开发更能响应用户多样化和不断变化的需求的大语言模型迈出了重要一步。总之，WildFeedback 提供了一个强大的、可扩展的解决方案，使大语言模型与真正的人类价值观保持一致，为以用户为中心的语言模型的开发和评估设定了新标准。

SciLitLLM：如何使大语言模型适应科学文献理解

分类： 机器学习, 计算和语言

作者： Sihang Li, Jin Huang, Jiaxi Zhuang, Yaorui Shi, Xiaochen Cai, Mingjun Xu, Xiang Wang, Linfeng Zhang, Guolin Ke, Hengxing Cai

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15545v2

摘要： 科学文献的理解对于提取目标信息和获得见解至关重要，从而显着推进科学发现。尽管大型语言模型（LLM）取得了显着的成功，但它们在科学文献理解方面面临挑战，这主要是由于（1）缺乏科学知识和（2）不熟悉专门的科学任务。为了培养专门从事科学文献理解的大语言模型，我们提出了一种混合策略，集成了持续预训练（CPT）和监督微调（SFT），以同时注入科学领域知识并增强特定领域任务的指令跟踪能力.c在此过程中，我们确定了两个关键挑战：（1）构建高质量的 CPT 语料库，以及（2）生成多样化的 SFT 指令。我们通过细致的流程应对这些挑战，包括 PDF 文本提取、解析内容纠错、质量过滤和合成指令创建。应用这一策略，我们推出了一套大语言模型：SciLitLLM，专门从事科学文献理解。这些模型在科学文献理解基准方面表现出了良好的性能。我们的贡献有三个：（1）我们提出了一个整合 CPT 和 SFT 的有效框架，使大语言模型适应科学文献理解，也可以轻松适应其他领域。 (2)我们提出了一种基于LLM的综合方法来生成多样化和高质量的科学指令，从而产生一个新的指令集——SciLitIns——用于在代表性较少的科学领域进行监督微调。 (3) SciLitLLM 在科学文献理解基准方面取得了有希望的性能改进。

迈向由大语言模型支持的完全自主研究：模拟案例研究

分类： 人工智能, 计算和语言, 化学物理

作者： Zhihan Liu, Yubo Chai, Jianfeng Li

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15512v1

摘要： 大型语言模型（LLM）的出现为科学研究的自动化创造了新的机会，涵盖实验过程和计算模拟。本研究探讨了构建由大语言模型支持的自主模拟代理（ASA）的可行性，通过复杂的 API 集成，实现从实验设计、远程上传和模拟执行、数据分析到报告编译的整个研究过程自动化。使用聚合物链构象的模拟问题作为案例研究，我们评估了由包括 GPT-4-Turbo 在内的不同 LLM 提供支持的 ASA 的性能。我们的研究结果显示，ASA-GPT-4o 在指定的研究任务上实现了近乎完美的执行，凸显了大语言模型自主管理完整科学研究的潜力。所概述的自动化可以在无需人工干预的情况下迭代执行多达二十个周期，这说明了大语言模型在大规模自主研究工作中的潜力。此外，我们还讨论了 ASA 在管理广泛任务方面的内在特征，重点关注自我验证机制以及本地关注与全局监督之间的平衡。

社会模拟大语言模型基础的建模：Defis et Opportunites

分类： 物理与社会

作者： Önder Gürcan

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2409.00100v1

摘要： 随着大型语言模型 (LLM) 继续取得重大进展，它们更好地集成到基于代理的模拟中，为理解复杂的社会系统提供了变革潜力。然而，这种整合并非微不足道，并且带来了许多挑战。基于这一观察，在本文中，我们探索系统开发大语言模型增强社会模拟的架构和方法，并讨论该领域的潜在研究方向。我们的结论是，将大语言模型与基于代理的模拟相结合，为研究人员和科学家提供了强大的工具集，允许对复杂系统和人类行为进行更细致、更现实和更全面的模型。

AUTOGENICS：使用 LLM 为编程问答网站上的代码片段自动生成上下文感知的内联注释

分类： 软件工程

作者： Suborno Deb Bappon, Saikat Mondal, Banani Roy

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15411v1

摘要： 源代码中的内联注释有助于轻松理解、可重用性和增强可读性。然而，像 Stack Overflow (SO) 这样的问答网站上的答案中的代码片段通常缺乏注释，因为回答者自愿贡献时间，并且由于时间限制经常跳过注释或解释。现有研究表明，这些在线代码示例难以阅读和理解，导致开发人员（尤其是新手）难以正确使用它们并导致误用。考虑到这些挑战，我们引入了 AUTOGENICS，这是一种旨在与 SO 集成的工具，利用大型语言模型 (LLM) 为 SO 答案中的代码片段生成有效的内联注释。我们的贡献是三重的。首先，我们从 SO 中随机选择 400 个答案代码片段，并使用 LLM 为它们生成内联注释。然后，我们使用四个关键指标手动评估这些评论的有效性：准确性、充分性、简洁性和有用性。总体而言，大语言模型在为 SO 答案代码片段生成内联注释方面表现出了良好的效果。其次，我们调查了 14 名活跃的 SO 用户，以了解这些内嵌评论的有效性。调查结果与我们之前的人工评估结果一致。然而，根据我们的评估，大语言模型生成的注释对于较短的代码片段来说效果较差，有时会产生嘈杂的注释。第三，为了弥补这一差距，我们引入了 AUTOGENICS，它从问题文本中提取额外的上下文并生成上下文感知的内联注释。它还通过消除噪音来优化注释（例如，导入语句和变量声明中的注释）。我们使用优于标准大语言模型的四个相同指标来评估 AUTOGENICS 生成的评论的有效性。 AUTOGENICS 可以 (a) 增强代码理解能力，(b) 节省时间，并提高开发人员更准确地学习和重用代码的能力。

当今大语言模型研究中的敬畏、法律和缺陷

分类： 计算和语言

作者： Adrian de Wynter

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15409v2

摘要： 我们对当代大语言模型（LLM）研究背后的科学方法进行了严格的审查。为此，我们根据被视为优秀研究的典型标准（例如统计测试的存在和可重复性）评估了 2,000 多项研究工作，并与争议中心的论点（例如紧急行为的主张、使用大语言模型作为评估者）。我们发现了多种趋势，例如紧急行为和道德免责声明的索赔减少；尽管社区对其可用性缺乏共识，但大语言模型作为评估者的崛起；大语言模型推理能力的主张有所增加，通常没有利用人类评估。本文强调该领域需要进行更多的审查和严格，以实现负责任的科学方法的基本原则，即道德的、可重复的、系统的和开放的批评。

LLM 的防御对于多轮人类越狱来说还不够稳健

分类： 机器学习, 计算和语言, 密码学和安全, 计算机与社会

作者： Nathaniel Li, Ziwen Han, Ian Steneker, Willow Primack, Riley Goodside, Hugh Zhang, Zifan Wang, Cristina Menghini, Summer Yue

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15221v1

摘要： 最近的大型语言模型（LLM）防御极大地提高了模型拒绝有害查询的能力，即使在受到对抗性攻击时也是如此。然而，LLM 防御主要针对单轮对话中的自动对抗性攻击进行评估，这对于现实世界的恶意使用来说是一个不足的威胁模型。我们证明，多轮人类越狱可以发现重大漏洞，在 HarmBench 上，针对通过自动单轮攻击报告个位数 ASR 的防御，攻击成功率 (ASR) 超过 70%。人类越狱还揭示了机器遗忘防御中的漏洞，成功地从未学习的模型中恢复了双重用途的生物安全知识。我们将这些结果编译成多轮人类越狱 (MHJ)，这是一个包含 537 次多轮越狱中的 2,912 条提示的数据集。我们公开发布 MHJ 以及在数十次商业红队活动中开发的越狱策略纲要，支持针对更强大的 LLM 防御的研究。

不自信的 LLM 注释能否用于得出可信的结论？

分类： 计算和语言, 人工智能, 人机交互

作者： Kristina Gligorić, Tijana Zrnic, Cinoo Lee, Emmanuel J. Candès, Dan Jurafsky

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15204v1

摘要： 大型语言模型 (LLM) 在各种任务中与人类评分者表现出高度一致，展示了缓解人类数据收集挑战的潜力。在计算社会科学 (CSS) 领域，研究人员越来越多地利用大语言模型注释来补充缓慢且昂贵的人工注释。尽管如此，在不影响下游结论有效性的情况下收集和使用大语言模型注释的指南仍然有限。我们引入了置信度驱动推理：一种结合了大语言模型注释和大语言模型置信度指标的方法，可以战略性地选择应收集哪些人工注释，其目标是生成准确的统计估计和可证明有效的置信区间，同时减少所需的人工注释数量。我们的方法针对低质量的大语言模型注释提供了保障，保证结论既有效又不低于我们仅依赖人工注释的准确性。我们在三种 CSS 设置（文本礼貌、立场和偏见）的统计估计任务中证明了置信驱动推理相对于基线的有效性，将每种设置所需的人工注释数量减少了 25% 以上。尽管我们使用 CSS 设置进行演示，但置信驱动推理可用于估计各种 NLP 问题的大多数标准量。

使用大语言模型向最终用户解释一组反事实示例

分类： 机器学习

作者： Arturo Fredes, Jordi Vitria

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15133v1

摘要： 因果关系对于理解预测模型中变量之间的真正因果关系至关重要，而不仅仅是依赖相关性，这使得它在可解释人工智能领域高度相关。在自动化决策场景中，因果推理方法可以分析底层数据生成过程，通过操作特征和创建反事实示例来解释模型的决策。这些反事实探索了假设的场景，其中最少数量的因素被改变，为最终用户提供了有关如何改变其情况的有价值的信息。然而，对于不习惯分析原始数据记录的最终用户来说，解释一组多个反事实可能具有挑战性。在我们的工作中，我们提出了一种新颖的多步骤管道，该管道使用反事实生成动作的自然语言解释，这将导致使用大语言模型的表格数据分类器的结果发生变化。该流程旨在指导大语言模型完成在解释基于反事实案例的决策时模仿人类推理的较小任务。我们使用公共数据集进行了各种实验，并提出了一种闭环评估方法，以评估最终解释与反事实的一致性以及内容的质量。尽管还需要对其他数据集和人类评估进行进一步的实验，但结果是有希望的。

GIFT-SW：大语言模型显着权重的高斯噪声注入微调

分类： 机器学习, 人工智能

作者： Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15300v1

摘要： 参数高效微调 (PEFT) 方法已经流行起来，并使大型语言模型 (LLM) 的使用民主化。最近的研究表明，一小部分权重会显着影响性能。基于这一观察，我们引入了一种新颖的 PEFT 方法，称为高斯噪声注入显着权重微调 (GIFT-SW)。我们的方法仅更新显着列，同时将高斯噪声注入非显着列。为了识别这些列，我们开发了一个通用的敏感性指标，该指标扩展并统一了先前研究的指标。 LLaMA 模型的实验表明，在相同的计算预算下，GIFT-SW 优于完全微调和现代 PEFT 方法。此外，GIFT-SW 提供了实际优势，可以恢复经过混合精度量化的模型的性能，同时保持显着权重的精度。

AAVENUE：通过新颖的基准检测 AAVE 中 NLU 任务的 LLM 偏差

分类： 计算和语言

作者： Abhay Gupta, Philip Meng, Ece Yurtseven, Sean O'Brien, Kevin Zhu

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.14845v1

摘要： 检测非裔美国人白话英语 (AAVE) 的自然语言理解 (NLU) 偏差对于开发包容性自然语言处理 (NLP) 系统至关重要。为了解决方言引起的性能差异，我们引入了 AAVENUE（{AAVE} {N}自然语言{U}理解{E}评估），这是用于评估 AAVE 和标准美式英语中的 NLU 任务的大语言模型 (LLM) 性能的基准（美国汽车工程师学会）。 AAVENUE 基于并扩展了 VALUE 等现有基准，用更灵活的方法取代了确定性句法和形态转换，利用基于 LLM 的翻译和少量提示，在翻译 GLUE 和 SuperGLUE 基准的关键任务时提高了我们评估指标的性能。我们使用五种流行的大语言模型和一套全面的指标（包括流畅性、BARTScore、质量、连贯性和可理解性）来比较 AAVENUE 和 VALUE 翻译。此外，我们还招募流利的 AAVE 使用者来验证我们翻译的真实性。我们的评估表明，大语言模型在 SAE 任务上的表现始终优于 AAVE 翻译版本，这凸显了固有的偏见，并强调了对更具包容性的 NLP 模型的需求。我们在 GitHub 上开源了我们的源代码，并创建了一个网站来展示我们的工作：https://aavenue.live。

Instruct-SkillMix：用于 LLM 指令调优的强大管道

分类： 机器学习, 计算和语言

作者： Simran Kaur, Simon Park, Anirudh Goyal, Sanjeev Arora

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.14774v1

摘要： 我们推出 Instruct-SkillMix，这是一种用于创建多样化、高质量 SFT 数据的自动化方法。 Instruct-SkillMix 管道涉及两个阶段，每个阶段都利用现有强大的 LLM： (1) 技能提取：使用 LLM 从现有数据集中或通过直接提示模型来提取指令跟踪的核心“技能”； (2) 数据生成：使用强大的 LLM 生成（指令、响应）数据，展示随机选择的这些技能对。在这里，随机技能组合的使用促进了多样性和难度。对 Instruct-SkillMix 生成的数据进行 Vanilla SFT（即无 PPO、DPO 或 RL 方法）可在遵循 AlpacaEval 2.0、MT-Bench 和 WildBench 等基准测试的指令上带来巨大收益。仅用 4$K 美元的示例，LLaMA-3-8B-Base 在 AlpacaEval 2.0 上就实现了 42.76% 的长度控制胜率。据我们所知，这在所有仅经过 SFT（无 RL 方法）的模型中实现了最先进的性能，并与 Claude 3 Opus 和 LLaMA-3.1-405B-Instruct 等专有模型竞争。消融研究还提出了为什么通过简单的众包创建开放指令调整数据集被证明是困难的合理原因。在 $20%$ 的 Instruct-SkillMix 示例中引入低质量答案（“偷懒者”）会导致性能直线下降，有时甚至是灾难性的。 Instruct-SkillMix 管道非常灵活，可适应其他设置。

EVINCE：通过条件统计和信息论优化对抗性大语言模型对话

分类： 人工智能, I.2.7

作者： Edward Y. Chang

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14575v1

摘要： 本文介绍了 EVINCE（条件交换中的熵和变异），这是一种对话框架，通过增强大型语言模型 (LLM) 的多功能性、适应性和推理能力来推进通用人工智能 (AGI)。利用对抗性辩论和新颖的双熵理论，EVINCE 通过集成统计模型、信息论和机器学习来平衡多样化的观点探索和强大的先验开发，从而提高大语言模型的预测准确性、鲁棒性和稳定性。该框架的有效性通过信息论指标的一致融合得到证明，特别是改进的相互信息，促进了富有成效的大语言模型合作。我们将 EVINCE 应用到医疗保健领域，展示了疾病诊断的改进，并讨论了其对跨领域决策的更广泛影响。这项工作为 EVINCE 提供了理论基础和实证验证，为大语言模型合作和 AGI 开发的进步铺平了道路。

CURLoRA：稳定的LLM持续微调和灾难性遗忘缓解

分类： 机器学习, 人工智能, 计算和语言

作者： Muhammad Fawi

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14572v1

摘要： 本文介绍了 CURLoRA，这是一种微调大型语言模型 (LLM) 的新方法，该方法在低秩适应 (LoRA) 的背景下利用 CUR 矩阵分解。我们的方法解决了大语言模型微调中的两个关键挑战：减轻持续学习过程中的灾难性遗忘和减少可训练参数的数量。我们提出了对 CUR 分解过程的独特修改，利用倒概率进行列和行选择，作为隐式正则化，并将 $U$ 矩阵初始化为零矩阵，并且仅对其进行微调。我们通过对多个数据集的实验证明，CURLoRA 在减轻灾难性遗忘方面优于标准 LoRA。它保持模型在任务中的稳定性和性能，同时显着减少可训练参数的数量。我们的结果表明，与 LoRA 相比，经过持续微调，CURLoRA 实现了非常好的且稳定的任务准确性，同时保持基本模型的困惑度分数固定，特别是在数据有限的场景中。

MEDSAGE：利用大语言模型生成的综合对话增强医学对话总结对 ASR 错误的鲁棒性

分类： 计算和语言, 人工智能

作者： Kuluhan Binici, Abhinav Ramesh Kashyap, Viktor Schlegel, Andy T. Liu, Vijay Prakash Dwivedi, Thanh-Tung Nguyen, Xiaoxue Gao, Nancy F. Chen, Stefan Winkler

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14418v1

摘要： 自动语音识别 (ASR) 系统对于将语音转录为文本至关重要，但它们引入的错误可能会显着降低摘要等下游任务的性能。这个问题在临床对话摘要中尤其明显，这是一个资源匮乏的领域，用于微调的监督数据稀缺，因此需要使用 ASR 模型作为黑盒解决方案。由于缺乏足够的医学对话录音和相应的 ASR 转录本，采用传统的数据增强来增强摘要模型的噪声鲁棒性也是不可行的。为了应对这一挑战，我们提出了 MEDSAGE，一种使用大型语言模型 (LLM) 生成用于数据增强的合成样本的方法。具体来说，我们利用大语言模型的上下文学习功能，并指导他们根据一些可用的带有录音的医学对话示例生成类似 ASR 的错误。实验结果表明，LLM 可以有效地对 ASR 噪声进行建模，并将这些噪声数据纳入训练过程，显着提高了医学对话摘要系统的鲁棒性和准确性。这种方法解决了关键应用中嘈杂的 ASR 输出的挑战，提供了强大的解决方案来增强临床对话摘要的可靠性。

重新编程基础大型语言模型（LLM）以供企业采用时空预测应用：开启副驾驶引导的跨模式时间序列表示学习的新时代

分类： 机器学习, 人工智能

作者： Sakhinana Sagar Srinivas, Chidaksh Ravuru, Geethan Sannidhi, Venkataramana Runkana

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14387v1

摘要： 时空预测在交通系统、物流和供应链管理等各个领域发挥着至关重要的作用。然而，现有方法因其处理大型、复杂数据集的能力而受到限制。为了克服这一限制，我们引入了一种混合方法，将开源大型和小型语言模型（LLM 和 LM）的优势与传统预测方法相结合。我们通过动态提示和分组查询、多头注意力机制来增强传统方法，以更有效地捕获不断发展的非线性时间序列数据中的序列内和序列间依赖性。此外，我们还利用消费级硬件上的开源大型 LM 生成的描述，使用具有激活内存减少功能的低阶适应 (LoRA-AMR) 来微调小型开源 LM 进行时间序列趋势分析，从而促进本地定制）技术可减少计算开销和激活存储内存需求，同时保留推理延迟。我们将用于时间序列趋势分析的语言模型处理与用于跨模态集成的传统时间序列表示学习方法相结合，实现稳健且准确的预测。该框架的有效性通过对各种现实数据集的广泛实验得到证明，在预测准确性方面明显优于现有方法。

LLM-3D Print：用于监视和控制 3D 打印的大型语言模型

分类： 计算和语言, 人工智能, 机器学习

作者： Yayati Jadhav, Peter Pak, Amir Barati Farimani

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14307v1

摘要： 工业 4.0 通过推动数字化并将范式转向增材制造 (AM) 彻底改变了制造业。熔融沉积成型 (FDM) 是一项关键的增材制造技术，它能够通过逐层挤压以最小的材料浪费来创建高度定制的、具有成本效益的产品，这对传统的减材方法提出了重大挑战。然而，材料挤出技术容易出错，通常需要专家干预来检测和减少可能严重影响产品质量的缺陷。虽然存在自动错误检测和机器学习模型，但它们在不同 3D 打印机设置、固件和传感器中的通用性有限，而且深度学习方法需要大量标记数据集，从而阻碍了可扩展性和适应性。为了应对这些挑战，我们提出了一个过程监控和控制框架，该框架利用预先训练的大型语言模型 (LLM) 和 3D 打印机来检测和解决打印缺陷。大语言模型通过分析每层或打印段后捕获的图像、识别故障模式并查询打印机的相关参数来评估打印质量。然后它会生成并执行纠正行动计划。我们通过与具有不同增材制造专业知识的工程师对照组进行比较，验证了所提出的框架在识别缺陷方面的有效性。我们的评估表明，基于LLM的代理不仅可以准确识别常见的3D打印错误，例如不一致的挤出、拉丝、翘曲和层粘附，而且可以有效地确定导致这些故障的参数并自动纠正它们，而无需人工干预。

研究贝叶斯垃圾邮件过滤器在检测 LLM 修改的垃圾邮件中的有效性

分类： 密码学和安全

作者： Malte Josten, Torben Weis

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14293v1

摘要： 垃圾邮件和网络钓鱼仍然是网络安全的关键威胁，近 90% 的安全事件都是由垃圾邮件和网络钓鱼造成的。随着这些攻击变得越来越复杂，对强大的防御机制的需求也越来越大。贝叶斯垃圾邮件过滤器，如广泛采用的开源 SpamAssassin，是这场斗争中必不可少的工具。然而，ChatGPT 等大型语言模型 (LLM) 的出现带来了新的挑战。这些模型不仅功能强大且易于访问，而且使用成本低廉，引发了人们对它们被滥用来制作复杂的垃圾邮件以逃避传统垃圾邮件过滤器的担忧。这项工作旨在评估 SpamAssassin 针对 LLM 修改的电子邮件内容的稳健性和有效性。我们开发了一个管道来测试此漏洞。我们的管道使用 GPT-3.5 Turbo 修改垃圾邮件，并评估 SpamAssassin 正确分类这些修改后的电子邮件的能力。结果表明，SpamAssassin 将高达 73.7% 的 LLM 修改垃圾邮件错误分类为合法邮件。相比之下，更简单的字典替换攻击的最大成功率仅为 0.4%。这些发现凸显了经过 LLM 修改的垃圾邮件所构成的重大威胁，特别是考虑到此类攻击的成本效益（每封电子邮件 0.17 美分）。本文提供了有关当前垃圾邮件过滤器的漏洞以及持续改进网络安全措施的必要性的重要见解。

基于大语言模型的推荐系统已经是最好的了吗？简单缩放交叉熵释放传统顺序推荐器的潜力

分类： 信息检索

作者： Cong Xu, Zhangchi Zhu, Mo Yu, Jun Wang, Jianyong Wang, Wei Zhang

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14238v1

摘要： 大型语言模型（LLM）在推荐社区中越来越受到关注。一些研究观察到，LLM 在通过完整的 softmax 交叉熵（CE）损失进行微调时，可以在顺序推荐中实现“最先进”的性能。然而，大多数用于比较的基线都是使用逐点/成对损失函数进行训练的。这种不一致的实验设置导致传统方法的低估，并进一步助长了对大语言模型排名能力的过度自信。在这项研究中，我们通过证明交叉熵损失的两个理想特性：紧密性和覆盖性，为交叉熵损失的优越性提供了理论依据。此外，这项研究还揭示了其他新颖的见解：1）仅考虑推荐性能，CE 还不是最优的，因为它在某些排名指标方面并不是一个非常严格的界限。 2）在无法执行完整softmax的情况下，有效的替代方案是扩大采样归一化项。这些发现有助于释放传统推荐模型的潜力，使它们超越基于大语言模型的同行。考虑到巨大的计算负担，现有的基于 LLM 的方法并不像顺序推荐所声称的那么有效。我们希望这些理论理解与实证结果相结合将有助于将来对基于LLM的推荐进行客观评估。

Geo-Llama：利用大语言模型生成具有时空约束的人类移动轨迹

分类： 人工智能

作者： Siyu Li, Toan Tran, Haowen Lin, John Krumm, Cyrus Shahabi, Li Xiong

发布时间： 2024-08-25

链接： http://arxiv.org/abs/2408.13918v2

摘要： 模拟人员流动数据对于交通、城市规划和流行病控制等各种应用领域至关重要，因为由于昂贵的成本和隐私问题，研究人员通常无法获得真实数据。一些现有的深度生成解决方案建议从真实轨迹中学习来生成合成轨迹。尽管取得了进展，但大多数都存在训练稳定性问题，并且随着数据量的增长而扩展性较差。更重要的是，它们通常缺乏控制机制来根据时空约束（例如固定特定访问）来引导生成的轨迹。为了解决这些限制，我们正式定义了具有时空约束的受控轨迹生成问题，并提出了 Geo-Llama。这个受大语言模型启发的新颖框架以上下文连贯的方式强制实施明确的访问限制。它使用访问明智的排列策略对预先训练的大语言模型的轨迹进行微调，其中每次访问对应一个时间和位置。这使得模型能够捕获时空模式，而不管访问顺序如何，并允许在生成过程中通过提示进行灵活的上下文约束集成。对现实世界和合成数据集的大量实验验证了 Geo-Llama 的有效性，证明了其在处理广泛的约束方面的多功能性和鲁棒性，以生成与现有方法相比更真实的轨迹。

大语言模型是卓越的反馈提供者：通过自我生成的反馈进行谎言检测的引导推理

分类： 计算和语言, 人工智能

作者： Tanushree Banerjee, Richard Zhu, Runzhe Yang, Karthik Narasimhan

发布时间： 2024-08-25

链接： http://arxiv.org/abs/2408.13915v1

摘要： 大型语言模型 (LLM) 擅长生成类人对话和理解文本。然而，理解复杂的语言交流的微妙之处仍然是一个挑战。我们提出了一个引导框架，利用自我生成的反馈来增强 LLM 谎言检测的推理能力。该框架由三个阶段组成：建议、反馈收集和修改。在建议阶段，具有成本效益的语言模型根据游戏状态和对话生成初始预测。反馈收集阶段涉及提供有关这些预测的反馈的语言模型。在修改阶段，更高级的语言模型使用自动生成的反馈来完善初始预测。我们研究了所提出的框架在外交游戏中检测背叛和欺骗的应用，并将其与职业人类玩家的反馈进行比较。 LLM 生成的反馈表现出卓越的质量，并显着提高了模型的性能。我们的方法在无需任何训练数据的情况下，比说谎 F1 的零样本基线提高了 39%，与最先进的监督学习结果相媲美。

SPICED：使用 LLM 增强检测来识别 A/MS 电路中的语法错误和特洛伊木马模式

分类： 密码学和安全, 人工智能, 机器学习

作者： Jayeeta Chaudhuri, Dhruv Thapar, Arjun Chaudhuri, Farshad Firouzi, Krishnendu Chakrabarty

发布时间： 2024-08-25

链接： http://arxiv.org/abs/2408.16018v1

摘要： 模拟和混合信号 (A/MS) 集成电路 (IC) 在现代电子产品中至关重要，在信号处理、放大、传感和电源管理中发挥着关键作用。许多 IC 公司将制造业务外包给第三方代工厂，从而造成隐秘模拟木马等安全风险。传统的检测方法，包括嵌入电路水印或进行基于硬件的监控，通常会带来巨大的面积和功率开销，并且可能无法有效识别所有类型的木马。为了解决这些缺点，我们提出了 SPICED，这是一种基于大型语言模型 (LLM) 的框架，在软件领域内运行，无需修改硬件即可检测和本地化木马。这是第一个使用 LLM 辅助技术来检测和定位电路网表中的语法错误和模拟木马的工作，不需要明确的训练并且产生零面积开销。我们的框架采用思维链推理和少量示例来向大语言模型教授异常检测规则。通过所提出的方法，我们在评估的模拟基准电路中识别受木马影响的节点时，平均木马覆盖率为 93.32%，平均真阳性率为 93.4%。这些实验结果验证了大语言模型在检测和定位模拟网表中的语法错误和木马方面的有效性。

具有用于文档级关系提取的关系分类器的大语言模型

分类： 计算和语言

作者： Xingzuo Li, Kehai Chen, Yunfei Long, Min Zhang

发布时间： 2024-08-25

链接： http://arxiv.org/abs/2408.13889v1

摘要： 大型语言模型 (LLM) 为自然语言处理创建了新的范式。尽管取得了进步，基于大语言模型的方法在文档级关系提取（DocRE）方面仍然落后于传统方法，而文档级关系提取是理解复杂实体关系的关键任务。本文调查了这种绩效差距的原因，确定了大语言模型由于没有关系的实体对而导致的注意力分散是主要因素。然后，我们向 DocRE 引入一种新颖的分类器 - LLM 方法。所提出的方法从专门设计的分类器开始，用于选择表现出潜在关系的实体对候选者，从而将它们提供给大语言模型以进行最终的关系提取。这种方法确保在推理过程中，大语言模型的重点主要集中在具有关系的实体对上。 DocRE 基准测试表明，我们的方法显着优于最新的基于 LLM 的 DocRE 模型，并实现了与几种领先的传统 DocRE 模型的竞争性能。

CodeGraph：用代码增强大语言模型的图形推理

分类： 计算和语言, 人工智能

作者： Qiaolong Cai, Zhaowei Wang, Shizhe Diao, James Kwok, Yangqiu Song

发布时间： 2024-08-25

链接： http://arxiv.org/abs/2408.13863v1

摘要： 随着大型语言模型（LLM）的日益普及，对基本图算法问题的推理是评估其处理和推理复杂图推理任务的能力的重要中间步骤。现有方法通常将图结构数据转换为文本描述，然后使用LLM进行推理和计算。然而，大语言模型经常在基本图算法问题的算术部分产生计算错误，例如计算边数。此外，他们很难控制或理解推理过程的输出，这引发了人们对大语言模型是否只是猜测的担忧。在本文中，我们介绍了 CodeGraph，一种将图问题解决方案编码为代码的方法。这些方法通过学习范例、生成程序并通过程序解释器执行它们来解决新的图问题。使用少样本设置，我们使用基本 LLM GPT-3.5 Turbo、Llama3-70B Instruct、Mixtral-8x22B Instruct 和 Mixtral-8x7B Instruct 来评估 CodeGraph。 GraphQA 数据集中使用 6 种图编码方法的 6 个任务的实验结果表明，CodeGraph 可以将 LLM 内的图推理任务的性能提高 1.3% 到 58.6%，具体取决于任务。与现有方法相比，CodeGraph 在图任务中的算术问题上表现出强大的性能，并为推理过程提供了更可控和可解释的方法。

演示：使用多代理 LLM 和 ns-3 进行生成式开放 xG 网络仿真 (GenOnet)

分类： 网络和互联网架构

作者： Farhad Rezazadeh, Amir Ashtari Gargari, Sandra Lagén, Josep Mangues, Dusit Niyato, Lingjia Liu

发布时间： 2024-08-25

链接： http://arxiv.org/abs/2408.13781v1

摘要： 向第六代 (6G) 网络的发展依赖于开放接口和协议，以实现跨设备、供应商和技术的无缝互操作性。在此背景下，开放式6G开发涉及多个学科，需要先进的仿真方法进行测试。在这篇演示论文中，我们提出了一种基于多智能体大型语言模型（LLM）和网络模拟器 3（ns-3）的生成模拟方法，称为生成开放 xG 网络模拟（GenOnet），以有效地生成、调试、执行，并解释模拟的开放第五代 (5G) 环境。 GenOnet 应用程序的第一个版本代表了 OpenAI GPT 模型的专门改编。它包含补充工具、代理、5G 标准，并与 ns-3 模拟功能无缝集成，支持 C++ 变体和 Python 实现。此版本符合最新的开放无线接入网络 (O-RAN) 和 3GPP 标准。

LLM 作为零样本图学习者：GNN 表示与 LLM 令牌嵌入的对齐

分类： 机器学习, 人工智能, 计算和语言

作者： Duo Wang, Yuan Zuo, Fengzhi Li, Junjie Wu

发布时间： 2024-08-25

链接： http://arxiv.org/abs/2408.14512v1

摘要： 由于标记数据稀缺的挑战，零样本图机器学习，尤其是图神经网络（GNN），引起了人们的极大兴趣。虽然自监督学习和图提示学习等方法已被广泛探索，但它们通常依赖于特定于任务的标签的微调，限制了它们在零样本场景中的有效性。受指令微调大语言模型 (LLM) 的零样本功能的启发，我们引入了一种名为令牌嵌入对齐图语言模型 (TEA-GLM) 的新颖框架，该框架利用 LLM 作为跨数据集和跨任务零-用于图机器学习的射击学习者。具体来说，我们预训练 GNN，将其表示与 LLM 的令牌嵌入对齐。然后，我们训练一个线性投影仪，将 GNN 的表示转换为固定数量的图标记嵌入，而无需调整 LLM。针对不同级别的各种图任务设计了统一的指令，例如节点分类（节点级）和链接预测（边级）。这些设计选择共同增强了我们的方法在零样本学习中的有效性，使其与现有方法区分开来。实验表明，与使用 LLM 作为预测器的其他方法相比，我们的图标记嵌入有助于 LLM 预测器在未见过的数据集和任务上实现最先进的性能。

DHP 基准：大语言模型是优秀的 NLG 评估者吗？

分类： 计算和语言, 人工智能

作者： Yicheng Wang, Jiayi Yuan, Yu-Neng Chuang, Zhuoer Wang, Yingchi Liu, Mark Cusick, Param Kulkarni, Zhengping Ji, Yasser Ibrahim, Xia Hu

发布时间： 2024-08-25

链接： http://arxiv.org/abs/2408.13704v1

摘要： 大型语言模型 (LLM) 越来越多地充当自然语言生成 (NLG) 任务中的评估器。然而，大语言模型在 NLG 质量评分方面的能力仍未得到充分探索。目前的研究依赖于人类评估和简单的指标，无法捕捉大语言模型对不同 NLG 任务的辨别力。为了解决这一差距，我们提出了层次扰动辨别（DHP）基准测试框架，该框架利用层次扰动文本数据和统计测试为大语言模型提供定量辨别分数，以系统地衡量大语言模型的NLG评估能力。我们为此基准重新建立了六个评估数据集，涵盖四个 NLG 任务：摘要、故事完成、问答和翻译。我们对五个主要大语言模型系列进行全面的基准测试，为他们作为 NLG 评估者的优势和局限性提供了重要的见解。

平衡 LLM 抽样的多样性和风险：如何选择开放式文本生成的方法和参数

分类： 计算和语言, 人工智能

作者： Yuxuan Zhou, Margret Keuper, Mario Fritz

发布时间： 2024-08-24

链接： http://arxiv.org/abs/2408.13586v1

摘要： 基于采样的解码策略已广泛应用于大型语言模型 (LLM) 的众多应用中，其目标是通过温度调整和尾部截断（例如 top-k 和 top-p 采样）来实现多样性和质量之间的平衡。考虑到给定不同前缀的候选下一个标记的高动态范围，最近的研究提出自适应地截断 LLM 预测分布的尾部。尽管这些方法在开放式文本生成任务上报告了改进的结果，但结果高度依赖于策划的截断参数和示例文本。在本文中，我们提出了一种系统方法，基于我们收集的保留完整句子上下文的前缀树，通过考虑每个解码步骤的多样性和风险之间的权衡来估计截断采样方法的内在容量。我们的工作对现有截断采样方法及其推荐参数进行了全面比较，为用户提供指导。

HRGraph：利用大语言模型构建 HR 数据知识图和基于信息传播的职位推荐

分类： 计算和语言, 信息检索, 信息论, 社交和信息网络, 信息论

作者： Azmine Toushik Wasi

发布时间： 2024-08-24

链接： http://arxiv.org/abs/2408.13521v1

摘要： 作为语义网络的知识图（KG）在管理不同领域的复杂互连数据方面非常有效，它提供了统一的、上下文化的、结构化的表示形式，并且具有灵活性，可以轻松适应不断发展的知识。通过处理复杂的人力资源 (HR) 数据，知识图谱可以帮助实现不同的人力资源职能，例如招聘、职位匹配、识别学习差距和提高员工保留率。尽管具有潜力，但在实施实用的人力资源知识图谱方面所做的努力有限。本研究通过提出一个使用大型语言模型从文档有效开发人力资源知识图的框架来解决这一差距。生成的知识图谱可用于各种下游任务，包括工作匹配、识别员工技能差距等等。在这项工作中，我们展示了人力资源知识图谱在精确工作匹配方面发挥作用的实例，为雇主和雇员带来了优势。来自知识图谱和图神经网络信息传播实验的经验证据以及案例研究强调了知识图谱在工作和员工推荐以及工作领域分类等任务中的有效性。代码和数据可在以下位置获取：https://github.com/azminewasi/HRGraph

LLM 工作负载的智能路由器：通过工作负载感知调度提高性能

分类： 分布式、并行和集群计算, 系统与控制, 系统与控制

作者： Kunal Jain, Anjaly Parayil, Ankur Mallick, Esha Choukse, Xiaoting Qin, Jue Zhang, Íñigo Goiri, Rujia Wang, Chetan Bansal, Victor Rühle, Anoop Kulkarni, Steve Kofsky, Saravan Rajmohan

发布时间： 2024-08-24

链接： http://arxiv.org/abs/2408.13510v1

摘要： 大型语言模型 (LLM) 工作负载具有不同的预填充和解码阶段，具有不同的计算和内存要求，理想情况下，在跨集群中的不同 LLM 实例调度输入查询时应考虑到这一点。然而，现有的调度算法将 LLM 工作负载视为整体作业，而没有考虑每个工作负载中两个阶段的独特特征。这会导致调度次优并增加响应延迟。在这项工作中，我们提出了一种基于启发式引导的强化学习的智能路由器，用于数据驱动和工作负载感知调度。我们的路由器利用可训练的响应长度预测器和一种新颖的公式来估计混合不同工作负载的影响，以跨 LLM 实例安排查询，并实现比现有方法低 11% 以上的端到端延迟。

LlamaDuo：LLMOps 管道，用于从服务大语言模型无缝迁移到小型本地大语言模型

分类： 机器学习, 人工智能, 分布式、并行和集群计算

作者： Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jing Tang

发布时间： 2024-08-24

链接： http://arxiv.org/abs/2408.13467v2

摘要： 基于云的专有大语言模型 (LLM) 的广泛采用带来了重大挑战，包括操作依赖性、隐私问题以及持续互联网连接的必要性。在这项工作中，我们引入了 LLMOps 管道“LlamaDuo”，用于将知识和能力从面向服务的 LLM 无缝迁移到更小的、本地可管理的模型。该管道对于在出现操作故障、严格的隐私政策或离线要求的情况下确保服务连续性至关重要。我们的 LlamaDuo 涉及使用后者生成的合成数据集针对服务 LLM 微调小型语言模型。如果微调模型的性能未达到预期，则可以通过使用 LLM 服务创建的其他类似数据进行进一步微调来增强模型的性能。这个迭代过程保证了较小的模型最终能够匹配甚至超越服务LLM在特定下游任务中的能力，为在受限环境中管理AI部署提供实用且可扩展的解决方案。我们对领先的大语言模型进行了广泛的实验，以证明 LlamaDuo 在各种下游任务中的有效性、适应性和可负担性。我们的管道实现可在 https://github.com/deep-diver/llamaduo 获取。

优化基于 LLM 的有限元分析代理的协作

分类： 人工智能, 计算工程、金融和科学, 多代理系统

作者： Chuan Tian, Yilei Zhang

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13406v1

摘要： 本文研究了编程和编码任务背景下大型语言模型 (LLM) 中多个代理之间的交互。我们利用 AutoGen 框架来促进代理之间的通信，根据每个设置 40 次随机运行的成功率来评估不同的配置。该研究的重点是开发一个灵活的自动化框架，用于应用有限元法（FEM）解决线弹性问题。我们的研究结果强调了优化代理角色并明确定义其职责的重要性，而不仅仅是增加代理数量。事实证明，代理之间的有效协作对于解决一般 FEM 挑战至关重要。这项研究展示了大语言模型多智能体系统在增强模拟方法中的计算自动化方面的潜力，为工程和人工智能的未来进步铺平了道路。

LLaVaOLMoBitnet1B：三元大语言模型走向多式联运！

分类： 机器学习

作者： Jainaveen Sundaram, Ravishankar Iyer

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13402v1

摘要： 多模态大型语言模型 (MM-LLM) 在去年取得了显着进步，在各种任务中表现出了令人印象深刻的性能。然而，为了真正实现人工智能的民主化，模型必须表现出强大的功能，并且能够在大多数人都可以访问的小型计算资源上高效运行。作为此任务的一部分，我们引入了 LLaVaOLMoBitnet1B - 第一个能够接受图像+文本输入以产生连贯文本响应的三元多模态大语言模型。该模型与培训脚本完全开源，以鼓励该领域的进一步研究。随附的技术报告重点介绍了培训过程、评估细节、与三元模型相关的挑战以及未来的机遇。模型链接：https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B

CodeRefine：增强 LLM 生成的研究论文代码实现的管道

分类： 计算和语言, 人工智能, 机器学习

作者： Ekaterina Trofimova, Emil Sataev, Abhijit Singh Jowhari

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13366v1

摘要： 本文介绍了 CodeRefine，这是一种使用大型语言模型 (LLM) 自动将研究论文方法转换为功能代码的新颖框架。我们的多步骤方法首先从论文中提取和总结关键文本块，分析其代码相关性，并使用预定义的本体创建知识图。然后根据这种结构化表示生成代码，并通过提出的回顾性检索增强生成方法进行增强。 CodeRefine 解决了连接理论研究和实际实施的挑战，为 LLM 零样本提示提供了更准确的替代方案。对各种科学论文的评估表明 CodeRefine 能够改进论文中的代码实现，从而有可能加速尖端算法在实际应用中的采用。

从基础到突破的大语言模型微调终极指南：对技术、研究、最佳实践、应用研究挑战和机遇的详尽回顾

分类： 机器学习, 计算和语言

作者： Venkatesh Balavadhani Parthasarathy, Ahtsham Zafar, Aafaq Khan, Arsalan Shahid

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13296v1

摘要： 本报告研究了大型语言模型 (LLM) 的微调，将理论见解与实际应用相结合。它概述了大语言模型从传统自然语言处理 (NLP) 模型到其在人工智能中的关键作用的历史演变。微调方法（包括有监督的、无监督的和基于指令的方法）的比较强调了它们对不同任务的适用性。该报告介绍了一个结构化的七阶段管道，用于微调 LLM、涵盖数据准备、模型初始化、超参数调整和模型部署。重点是管理不平衡数据集和优化技术。人们探索了诸如低秩适应（LoRA）和半微调之类的参数高效方法来平衡计算效率与性能。讨论了内存微调、专家混合 (MoE) 和代理混合 (MoA) 等先进技术，以利用专用网络和多代理协作。该报告还研究了近端策略优化（PPO）和直接偏好优化（DPO）等新颖方法，这些方法使大语言模型与人类偏好保持一致，同时进行修剪和路由优化以提高效率。其他部分涵盖验证框架、部署后监控和推理优化，重点关注在分布式和基于云的平台上部署大语言模型。多模式大语言模型、音频和语音微调以及与可扩展性、隐私和问责制相关的挑战等新兴领域也得到了解决。该报告为研究人员和从业者在不断变化的环境中进行大语言模型微调提供了可行的见解。

知识图建模驱动的大型语言模型操作系统（LLM OS），用于流程工程问题解决中的任务自动化

分类： 机器学习, 人工智能

作者： Sakhinana Sagar Srinivas, Vijay Sri Vaikunth, Venkataramana Runkana

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.14494v1

摘要： 我们推出了流程工程操作助手 (PEOA)，这是一个人工智能驱动的框架，旨在解决化学和流程工业中的复杂问题。该框架采用由元代理精心编排的模块化架构，元代理充当中央协调器，管理动作生成器和指令调整的小型语言模型（专家模型）。动作生成器将复杂的问题分解为子任务，并确定合适的专家模型来执行每个子任务，为多步骤问题解决提供精确的解决方案。关键技术包括使用属性图进行高级知识建模以改进信息检索，促进更准确和上下文相关的解决方案。此外，该框架利用 GPT-4 (Omni) 的师生迁移学习方法来微调动作生成器和专家模型以实现领域适应，以及具有复杂错误处理功能的迭代问题解决机制。开发自定义数据集是为了根据各种工程任务的领先专有语言模型来评估框架。结果证明了该框架在自动化计算、加速原型设计以及为工业流程提供人工智能增强决策支持方面的有效性，标志着流程工程能力的显着进步。

MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?

分类： 计算机视觉和模式识别

作者： Yi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13257v1

摘要： Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research community. However, we observe that existing benchmarks present several common barriers that make it difficult to measure the significant challenges that models face in the real world, including: 1) small data scale leads to a large performance variance; 2) reliance on model-based annotations results in restricted data quality; 3) insufficient task difficulty, especially caused by the limited image resolution. To tackle these issues, we introduce MME-RealWorld. Specifically, we collect more than $300$K images from public datasets and the Internet, filtering $13,366$ high-quality images for annotation. This involves the efforts of professional $25$ annotators and $7$ experts in MLLMs, contributing to $29,429$ question-answer pairs that cover $43$ subtasks across $5$ real-world scenarios, extremely challenging even for humans. As far as we know, MME-RealWorld is the largest manually annotated benchmark to date, featuring the highest resolution and a targeted focus on real-world applications. We further conduct a thorough evaluation involving $28$ prominent MLLMs, such as GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet. Our results show that even the most advanced models struggle with our benchmarks, where none of them reach $60%$ accuracy. The challenges of perceiving high-resolution images and understanding complex real-world scenarios remain urgent issues to be addressed. The data and evaluation code are released at https://mme-realworld.github.io/ .

Data Exposure from LLM Apps: An In-depth Investigation of OpenAI's GPTs

分类： 密码学和安全, 人工智能, 计算和语言, 计算机与社会, 机器学习

作者： Evin Jaff, Yuhao Wu, Ning Zhang, Umar Iqbal

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13247v1

摘要： LLM app ecosystems are quickly maturing and supporting a wide range of use cases, which requires them to collect excessive user data. Given that the LLM apps are developed by third-parties and that anecdotal evidence suggests LLM platforms currently do not strictly enforce their policies, user data shared with arbitrary third-parties poses a significant privacy risk. In this paper we aim to bring transparency in data practices of LLM apps. As a case study, we study OpenAI's GPT app ecosystem. We develop an LLM-based framework to conduct the static analysis of natural language-based source code of GPTs and their Actions (external services) to characterize their data collection practices. Our findings indicate that Actions collect expansive data about users, including sensitive information prohibited by OpenAI, such as passwords. We find that some Actions, including related to advertising and analytics, are embedded in multiple GPTs, which allow them to track user activities across GPTs. Additionally, co-occurrence of Actions exposes as much as 9.5x more data to them, than it is exposed to individual Actions. Lastly, we develop an LLM-based privacy policy analysis framework to automatically check the consistency of data collection by Actions with disclosures in their privacy policies. Our measurements indicate that the disclosures for most of the collected data types are omitted in privacy policies, with only 5.8% of Actions clearly disclosing their data collection practices.

Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning

分类： 计算和语言

作者： Hourui Deng, Hongjie Zhang, Jie Ou, Chaosheng Feng

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13184v1

摘要： Spatial reasoning in Large Language Models (LLMs) is the foundation for embodied intelligence. However, even in simple maze environments, LLMs still encounter challenges in long-term path-planning, primarily influenced by their spatial hallucination and context inconsistency hallucination by long-term reasoning. To address this challenge, this study proposes an innovative model, Spatial-to-Relational Transformation and Curriculum Q-Learning (S2RCQL). To address the spatial hallucination of LLMs, we propose the Spatial-to-Relational approach, which transforms spatial prompts into entity relations and paths representing entity relation chains. This approach fully taps the potential of LLMs in terms of sequential thinking. As a result, we design a path-planning algorithm based on Q-learning to mitigate the context inconsistency hallucination, which enhances the reasoning ability of LLMs. Using the Q-value of state-action as auxiliary information for prompts, we correct the hallucinations of LLMs, thereby guiding LLMs to learn the optimal path. Finally, we propose a reverse curriculum learning technique based on LLMs to further mitigate the context inconsistency hallucination. LLMs can rapidly accumulate successful experiences by reducing task difficulty and leveraging them to tackle more complex tasks. We performed comprehensive experiments based on Baidu's self-developed LLM: ERNIE-Bot 4.0. The results showed that our S2RCQL achieved a 23%--40% improvement in both success and optimality rates compared with advanced prompt engineering.

A Web-Based Solution for Federated Learning with LLM-Based Automation

分类： 机器学习, 应用领域

作者： Chamith Mawela, Chaouki Ben Issaid, Mehdi Bennis

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13010v1

摘要： Federated Learning (FL) offers a promising approach for collaborative machine learning across distributed devices. However, its adoption is hindered by the complexity of building reliable communication architectures and the need for expertise in both machine learning and network programming. This paper presents a comprehensive solution that simplifies the orchestration of FL tasks while integrating intent-based automation. We develop a user-friendly web application supporting the federated averaging (FedAvg) algorithm, enabling users to configure parameters through an intuitive interface. The backend solution efficiently manages communication between the parameter server and edge nodes. We also implement model compression and scheduling algorithms to optimize FL performance. Furthermore, we explore intent-based automation in FL using a fine-tuned Language Model (LLM) trained on a tailored dataset, allowing users to conduct FL tasks using high-level prompts. We observe that the LLM-based automated solution achieves comparable test accuracy to the standard web-based solution while reducing transferred bytes by up to 64% and CPU time by up to 46% for FL tasks. Also, we leverage the neural architecture search (NAS) and hyperparameter optimization (HPO) using LLM to improve the performance. We observe that by using this approach test accuracy can be improved by 10-20% for the carried out FL tasks.

Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates

分类： 计算和语言

作者： Hui Wei, Shenghua He, Tian Xia, Andy Wong, Jingyang Lin, Mei Han

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13006v1

摘要： Alignment approaches such as RLHF and DPO are actively investigated to align large language models (LLMs) with human preferences. Commercial large language models (LLMs) like GPT-4 have been recently employed to evaluate and compare different LLM alignment approaches. These models act as surrogates for human evaluators due to their promising abilities to approximate human preferences with remarkably faster feedback and lower costs. This methodology is referred to as LLM-as-a-judge. However, concerns regarding its reliability have emerged, attributed to LLM judges' biases and inconsistent decision-making. Previous research has sought to develop robust evaluation frameworks for assessing the reliability of LLM judges and their alignment with human preferences. However, the employed evaluation metrics often lack adequate explainability and fail to address the internal inconsistency of LLMs. Additionally, existing studies inadequately explore the impact of various prompt templates when applying LLM-as-a-judge methods, which leads to potentially inconsistent comparisons between different alignment algorithms. In this work, we systematically evaluate LLM judges on alignment tasks (e.g. summarization) by defining evaluation metrics with improved theoretical interpretability and disentangling reliability metrics with LLM internal inconsistency. We develop a framework to evaluate, compare, and visualize the reliability and alignment of LLM judges to provide informative observations that help choose LLM judges for alignment tasks. Our results indicate a significant impact of prompt templates on LLM judge performance, as well as a mediocre alignment level between the tested LLM judges and human evaluators.

Memory-Efficient LLM Training with Online Subspace Descent

分类： 机器学习, 人工智能, 计算和语言

作者： Kaizhao Liang, Bo Liu, Lizhang Chen, Qiang Liu

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12857v1

摘要： Recently, a wide range of memory-efficient LLM training algorithms have gained substantial popularity. These methods leverage the low-rank structure of gradients to project optimizer states into a subspace using projection matrix found by singular value decomposition (SVD). However, convergence of these algorithms is highly dependent on the update rules of their projection matrix. In this work, we provide the \emph{first} convergence guarantee for arbitrary update rules of projection matrix. This guarantee is generally applicable to optimizers that can be analyzed with Hamiltonian Descent, including most common ones, such as LION, Adam. Inspired by our theoretical understanding, we propose Online Subspace Descent, a new family of subspace descent optimizer without SVD. Instead of updating the projection matrix with eigenvectors, Online Subspace Descent updates the projection matrix with online PCA. Online Subspace Descent is flexible and introduces only minimum overhead to training. We show that for the task of pretraining LLaMA models ranging from 60M to 7B parameters on the C4 dataset, Online Subspace Descent achieves lower perplexity and better downstream tasks performance than state-of-the-art low-rank training methods across different settings and narrows the gap with full-rank baselines.

Investigating LLM Applications in E-Commerce

分类： 计算和语言, 人工智能

作者： Chester Palen-Michel, Ruixiang Wang, Yipeng Zhang, David Yu, Canran Xu, Zhe Wu

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12779v1

摘要： The emergence of Large Language Models (LLMs) has revolutionized natural language processing in various applications especially in e-commerce. One crucial step before the application of such LLMs in these fields is to understand and compare the performance in different use cases in such tasks. This paper explored the efficacy of LLMs in the e-commerce domain, focusing on instruction-tuning an open source LLM model with public e-commerce datasets of varying sizes and comparing the performance with the conventional models prevalent in industrial applications. We conducted a comprehensive comparison between LLMs and traditional pre-trained language models across specific tasks intrinsic to the e-commerce domain, namely classification, generation, summarization, and named entity recognition (NER). Furthermore, we examined the effectiveness of the current niche industrial application of very large LLM, using in-context learning, in e-commerce specific tasks. Our findings indicate that few-shot inference with very large LLMs often does not outperform fine-tuning smaller pre-trained models, underscoring the importance of task-specific model optimization.Additionally, we investigated different training methodologies such as single-task training, mixed-task training, and LoRA merging both within domain/tasks and between different tasks. Through rigorous experimentation and analysis, this paper offers valuable insights into the potential effectiveness of LLMs to advance natural language processing capabilities within the e-commerce industry.

SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection

分类： 计算和语言, 人工智能, 机器学习

作者： Mengya Hu, Rui Xu, Deren Lei, Yaxi Li, Mingyu Wang, Emily Ching, Eslam Kamal, Alex Deng

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12748v1

摘要： Large language models (LLMs) are highly capable but face latency challenges in real-time applications, such as conducting online hallucination detection. To overcome this issue, we propose a novel framework that leverages a small language model (SLM) classifier for initial detection, followed by a LLM as constrained reasoner to generate detailed explanations for detected hallucinated content. This study optimizes the real-time interpretable hallucination detection by introducing effective prompting techniques that align LLM-generated explanations with SLM decisions. Empirical experiment results demonstrate its effectiveness, thereby enhancing the overall user experience.

Can LLMs Understand Social Norms in Autonomous Driving Games?

分类： 人工智能

作者： Boxuan Wang, Haonan Duan, Yanhao Feng, Xu Chen, Yongjie Fu, Zhaobin Mo, Xuan Di

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12680v1

摘要： Social norm is defined as a shared standard of acceptable behavior in a society. The emergence of social norms fosters coordination among agents without any hard-coded rules, which is crucial for the large-scale deployment of AVs in an intelligent transportation system. This paper explores the application of LLMs in understanding and modeling social norms in autonomous driving games. We introduce LLMs into autonomous driving games as intelligent agents who make decisions according to text prompts. These agents are referred to as LLM-based agents. Our framework involves LLM-based agents playing Markov games in a multi-agent system (MAS), allowing us to investigate the emergence of social norms among individual agents. We aim to identify social norms by designing prompts and utilizing LLMs on textual information related to the environment setup and the observations of LLM-based agents. Using the OpenAI Chat API powered by GPT-4.0, we conduct experiments to simulate interactions and evaluate the performance of LLM-based agents in two driving scenarios: unsignalized intersection and highway platoon. The results show that LLM-based agents can handle dynamically changing environments in Markov games, and social norms evolve among LLM-based agents in both scenarios. In the intersection game, LLM-based agents tend to adopt a conservative driving policy when facing a potential car crash. The advantage of LLM-based agents in games lies in their strong operability and analyzability, which facilitate experimental design.

DLCRec: A Novel Approach for Managing Diversity in LLM-Based Recommender Systems

分类： 信息检索

作者： Jiaju Chen, Chongming Gao, Shuai Yuan, Shuchang Liu, Qingpeng Cai, Peng Jiang

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12470v1

摘要： The integration of Large Language Models (LLMs) into recommender systems has led to substantial performance improvements. However, this often comes at the cost of diminished recommendation diversity, which can negatively impact user satisfaction. To address this issue, controllable recommendation has emerged as a promising approach, allowing users to specify their preferences and receive recommendations that meet their diverse needs. Despite its potential, existing controllable recommender systems frequently rely on simplistic mechanisms, such as a single prompt, to regulate diversity-an approach that falls short of capturing the full complexity of user preferences. In response to these limitations, we propose DLCRec, a novel framework designed to enable fine-grained control over diversity in LLM-based recommendations. Unlike traditional methods, DLCRec adopts a fine-grained task decomposition strategy, breaking down the recommendation process into three sequential sub-tasks: genre prediction, genre filling, and item prediction. These sub-tasks are trained independently and inferred sequentially according to user-defined control numbers, ensuring more precise control over diversity. Furthermore, the scarcity and uneven distribution of diversity-related user behavior data pose significant challenges for fine-tuning. To overcome these obstacles, we introduce two data augmentation techniques that enhance the model's robustness to noisy and out-of-distribution data. These techniques expose the model to a broader range of patterns, improving its adaptability in generating recommendations with varying levels of diversity. Our extensive empirical evaluation demonstrates that DLCRec not only provides precise control over diversity but also outperforms state-of-the-art baselines across multiple recommendation scenarios.

PolyRouter: A Multi-LLM Querying System

分类： 人工智能, 机器学习, I.2; I.5

作者： Dimitris Stripelis, Zijian Hu, Jipeng Zhang, Zhaozhuo Xu, Alay Shah, Han Jin, Yuhang Yao, Salman Avestimehr, Chaoyang He

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12320v1

摘要： With the rapid growth of Large Language Models (LLMs) across various domains, numerous new LLMs have emerged, each possessing domain-specific expertise. This proliferation has highlighted the need for quick, high-quality, and cost-effective LLM query response methods. Yet, no single LLM exists to efficiently balance this trilemma. Some models are powerful but extremely costly, while others are fast and inexpensive but qualitatively inferior. To address this challenge, we present PolyRouter, a non-monolithic LLM querying system that seamlessly integrates various LLM experts into a single query interface and dynamically routes incoming queries to the most high-performant expert based on query's requirements. Through extensive experiments, we demonstrate that when compared to standalone expert models, PolyRouter improves query efficiency by up to 40%, and leads to significant cost reductions of up to 30%, while maintaining or enhancing model performance by up to 10%.

Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations

分类： 人工智能, 计算和语言

作者： Kai Tzu-iunn Ong, Taeyoon Kwon, Jinyoung Yeo

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12315v1

摘要： Guiding large language models with a selected set of human-authored demonstrations is a common practice for improving LLM applications. However, human effort can be costly, especially in specialized domains (e.g., clinical diagnosis), and does not guarantee optimal performance due to the potential discrepancy of target skills between selected demonstrations and real test instances. Motivated by these, this paper explores the automatic creation of customized demonstrations, whose target skills align with the given target instance. We present SELF-TAUGHT, a problem-solving framework, which facilitates demonstrations that are "tailored" to the target problem and "filtered" for better quality (i.e., correctness) in a zero-shot manner. In 15 tasks of multiple-choice questions of diverse domains and the diagnosis of Alzheimer's disease (AD) with real-world patients, SELF-TAUGHT achieves superior performance to strong baselines (e.g., Few-shot CoT, Plan-and-Solve, Auto-CoT). We conduct comprehensive analyses on SELF-TAUGHT, including its generalizability to existing prompting methods and different LLMs, the quality of its intermediate generation, and more.

LLMs are not Zero-Shot Reasoners for Biomedical Information Extraction

分类： 计算和语言, 人工智能, 机器学习

作者： Aishik Nagar, Viktor Schlegel, Thanh-Tung Nguyen, Hao Li, Yuping Wu, Kuluhan Binici, Stefan Winkler

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12249v1

摘要： Large Language Models (LLMs) are increasingly adopted for applications in healthcare, reaching the performance of domain experts on tasks such as question answering and document summarisation. Despite their success on these tasks, it is unclear how well LLMs perform on tasks that are traditionally pursued in the biomedical domain, such as structured information extration. To breach this gap, in this paper, we systematically benchmark LLM performance in Medical Classification and Named Entity Recognition (NER) tasks. We aim to disentangle the contribution of different factors to the performance, particularly the impact of LLMs' task knowledge and reasoning capabilities, their (parametric) domain knowledge, and addition of external knowledge. To this end we evaluate various open LLMs -- including BioMistral and Llama-2 models -- on a diverse set of biomedical datasets, using standard prompting, Chain-of-Thought (CoT) and Self-Consistency based reasoning as well as Retrieval-Augmented Generation (RAG) with PubMed and Wikipedia corpora. Counter-intuitively, our results reveal that standard prompting consistently outperforms more complex techniques across both tasks, laying bare the limitations in the current application of CoT, self-consistency and RAG in the biomedical domain. Our findings suggest that advanced prompting methods developed for knowledge- or reasoning-intensive tasks, such as CoT or RAG, are not easily portable to biomedical tasks where precise structured outputs are required. This highlights the need for more effective integration of external knowledge and reasoning mechanisms in LLMs to enhance their performance in real-world biomedical applications.

Search-Based LLMs for Code Optimization

分类： 软件工程, 人工智能, 计算和语言

作者： Shuzheng Gao, Cuiyun Gao, Wenchao Gu, Michael Lyu

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12159v1

摘要： The code written by developers usually suffers from efficiency problems and contain various performance bugs. These inefficiencies necessitate the research of automated refactoring methods for code optimization. Early research in code optimization employs rule-based methods and focuses on specific inefficiency issues, which are labor-intensive and suffer from the low coverage issue. Recent work regards the task as a sequence generation problem, and resorts to deep learning (DL) techniques such as large language models (LLMs). These methods typically prompt LLMs to directly generate optimized code. Although these methods show state-of-the-art performance, such one-step generation paradigm is hard to achieve an optimal solution. First, complex optimization methods such as combinatorial ones are hard to be captured by LLMs. Second, the one-step generation paradigm poses challenge in precisely infusing the knowledge required for effective code optimization within LLMs, resulting in under-optimized code.To address these problems, we propose to model this task from the search perspective, and propose a search-based LLMs framework named SBLLM that enables iterative refinement and discovery of improved optimization methods. SBLLM synergistically integrate LLMs with evolutionary search and consists of three key components: 1) an execution-based representative sample selection part that evaluates the fitness of each existing optimized code and prioritizes promising ones to pilot the generation of improved code; 2) an adaptive optimization pattern retrieval part that infuses targeted optimization patterns into the model for guiding LLMs towards rectifying and progressively enhancing their optimization methods; and 3) a genetic operator-inspired chain-of-thought prompting part that aids LLMs in combining different optimization methods and generating improved optimization methods.

MDD-5k: A New Diagnostic Conversation Dataset for Mental Disorders Synthesized via Neuro-Symbolic LLM Agents

分类： 计算和语言, 人工智能

作者： Congchi Yin, Feng Li, Shu Zhang, Zike Wang, Jun Shao, Piji Li, Jianhua Chen, Xun Jiang

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12142v1

摘要： The clinical diagnosis of most mental disorders primarily relies on the conversations between psychiatrist and patient. The creation of such diagnostic conversation datasets is promising to boost the AI mental healthcare community. However, directly collecting the conversations in real diagnosis scenarios is near impossible due to stringent privacy and ethical considerations. To address this issue, we seek to synthesize diagnostic conversation by exploiting anonymous patient cases that are easier to access. Specifically, we design a neuro-symbolic multi-agent framework for synthesizing the diagnostic conversation of mental disorders with large language models. It takes patient case as input and is capable of generating multiple diverse conversations with one single patient case. The framework basically involves the interaction between a doctor agent and a patient agent, and achieves text generation under symbolic control via a dynamic diagnosis tree from a tool agent. By applying the proposed framework, we develop the largest Chinese mental disorders diagnosis dataset MDD-5k, which is built upon 1000 cleaned real patient cases by cooperating with a pioneering psychiatric hospital, and contains 5000 high-quality long conversations with diagnosis results as labels. To the best of our knowledge, it's also the first labelled Chinese mental disorders diagnosis dataset. Human evaluation demonstrates the proposed MDD-5k dataset successfully simulates human-like diagnostic process of mental disorders. The dataset and code will become publicly accessible in https://github.com/lemonsis/MDD-5k.

Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards

分类： 机器学习, 人工智能, 多代理系统

作者： Shresth Verma, Niclas Boehmer, Lingkai Kong, Milind Tambe

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12112v1

摘要： LLMs are increasingly used to design reward functions based on human preferences in Reinforcement Learning (RL). We focus on LLM-designed rewards for Restless Multi-Armed Bandits, a framework for allocating limited resources among agents. In applications such as public health, this approach empowers grassroots health workers to tailor automated allocation decisions to community needs. In the presence of multiple agents, altering the reward function based on human preferences can impact subpopulations very differently, leading to complex tradeoffs and a multi-objective resource allocation problem. We are the first to present a principled method termed Social Choice Language Model for dealing with these tradeoffs for LLM-designed rewards for multiagent planners in general and restless bandits in particular. The novel part of our model is a transparent and configurable selection component, called an adjudicator, external to the LLM that controls complex tradeoffs via a user-selected social welfare function. Our experiments demonstrate that our model reliably selects more effective, aligned, and balanced reward functions compared to purely LLM-based approaches.

Extraction of Research Objectives, Machine Learning Model Names, and Dataset Names from Academic Papers and Analysis of Their Interrelationships Using LLM and Network Analysis

分类： 机器学习, 人工智能, 计算和语言

作者： S. Nishio, H. Nonaka, N. Tsuchiya, A. Migita, Y. Banno, T. Hayashi, H. Sakaji, T. Sakumoto, K. Watabe

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12097v1

摘要： Machine learning is widely utilized across various industries. Identifying the appropriate machine learning models and datasets for specific tasks is crucial for the effective industrial application of machine learning. However, this requires expertise in both machine learning and the relevant domain, leading to a high learning cost. Therefore, research focused on extracting combinations of tasks, machine learning models, and datasets from academic papers is critically important, as it can facilitate the automatic recommendation of suitable methods. Conventional information extraction methods from academic papers have been limited to identifying machine learning models and other entities as named entities. To address this issue, this study proposes a methodology extracting tasks, machine learning methods, and dataset names from scientific papers and analyzing the relationships between these information by using LLM, embedding model, and network clustering. The proposed method's expression extraction performance, when using Llama3, achieves an F-score exceeding 0.8 across various categories, confirming its practical utility. Benchmarking results on financial domain papers have demonstrated the effectiveness of this method, providing insights into the use of the latest datasets, including those related to ESG (Environmental, Social, and Governance) data.

LLM-enhanced Scene Graph Learning for Household Rearrangement

分类： 机器人技术, 计算机视觉和模式识别

作者： Wenhao Li, Zhiyuan Yu, Qijin She, Zhinan Yu, Yuqing Lan, Chenyang Zhu, Ruizhen Hu, Kai Xu

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12093v1

摘要： The household rearrangement task involves spotting misplaced objects in a scene and accommodate them with proper places. It depends both on common-sense knowledge on the objective side and human user preference on the subjective side. In achieving such task, we propose to mine object functionality with user preference alignment directly from the scene itself, without relying on human intervention. To do so, we work with scene graph representation and propose LLM-enhanced scene graph learning which transforms the input scene graph into an affordance-enhanced graph (AEG) with information-enhanced nodes and newly discovered edges (relations). In AEG, the nodes corresponding to the receptacle objects are augmented with context-induced affordance which encodes what kind of carriable objects can be placed on it. New edges are discovered with newly discovered non-local relations. With AEG, we perform task planning for scene rearrangement by detecting misplaced carriables and determining a proper placement for each of them. We test our method by implementing a tiding robot in simulator and perform evaluation on a new benchmark we build. Extensive evaluations demonstrate that our method achieves state-of-the-art performance on misplacement detection and the following rearrangement planning.

ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM

分类： 计算和语言, 人工智能

作者： Zhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12076v1

摘要： Large language models (LLMs) have achieved impressive advancements across numerous disciplines, yet the critical issue of knowledge conflicts, a major source of hallucinations, has rarely been studied. Only a few research explored the conflicts between the inherent knowledge of LLMs and the retrieved contextual knowledge. However, a thorough assessment of knowledge conflict in LLMs is still missing. Motivated by this research gap, we present ConflictBank, the first comprehensive benchmark developed to systematically evaluate knowledge conflicts from three aspects: (i) conflicts encountered in retrieved knowledge, (ii) conflicts within the models' encoded knowledge, and (iii) the interplay between these conflict forms. Our investigation delves into four model families and twelve LLM instances, meticulously analyzing conflicts stemming from misinformation, temporal discrepancies, and semantic divergences. Based on our proposed novel construction framework, we create 7,453,853 claim-evidence pairs and 553,117 QA pairs. We present numerous findings on model scale, conflict causes, and conflict types. We hope our ConflictBank benchmark will help the community better understand model behavior in conflicts and develop more reliable LLMs.

Better Debugging: Combining Static Analysis and LLMs for Explainable Crashing Fault Localization

分类： 软件工程

作者： Jiwei Yan, Jinhao Huang, Chunrong Fang, Jun Yan, Jian Zhang

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12070v1

摘要： Nowadays, many applications do not exist independently but rely on various frameworks or libraries. The frequent evolution and the complex implementation of framework APIs induce many unexpected post-release crashes. Starting from the crash stack traces, existing approaches either perform direct call graph (CG) tracing or construct datasets with similar crash-fixing records to locate buggy methods. However, these approaches are limited by the completeness of CG or dependent on historical fixing records. Moreover, they fail to explain the buggy candidates by revealing their relationship with the crashing point. To fill the gap, we propose an explainable crashing fault localization approach by combining static analysis and LLM techniques. Our primary insight is that understanding the semantics of exception-throwing statements in the framework code can help find and apprehend the buggy methods in the app code. Based on this idea, first, we design the exception-thrown summary (ETS) that describes the key elements related to each framework-specific exception and extract ETSs by performing static analysis. Then we make data-tracking of its key elements to identify and sort buggy candidates for the given crash. After that, we introduce LLMs to improve the explainability of the localization results. To construct effective LLM prompts, we design the candidate information summary (CIS) that describes multiple types of explanation-related contexts and then extract CISs via static analysis. We apply our approach to one typical scenario, i.e., locating Android framework-specific crashing faults, and implement a tool CrashTracker. For fault localization, it exhibited an overall MRR value of 0.91 in precision. For fault explanation, compared to the naive one produced by static analysis only, the LLM-powered explanation achieved a 67.04% improvement in users' satisfaction score.

Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs

分类： 计算和语言, 人工智能

作者： Ronit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12060v1

摘要： Given the widespread dissemination of misinformation on social media, implementing fact-checking mechanisms for online claims is essential. Manually verifying every claim is highly challenging, underscoring the need for an automated fact-checking system. This paper presents our system designed to address this issue. We utilize the Averitec dataset to assess the veracity of claims. In addition to veracity prediction, our system provides supporting evidence, which is extracted from the dataset. We develop a Retrieve and Generate (RAG) pipeline to extract relevant evidence sentences from a knowledge base, which are then inputted along with the claim into a large language model (LLM) for classification. We also evaluate the few-shot In-Context Learning (ICL) capabilities of multiple LLMs. Our system achieves an 'Averitec' score of 0.33, which is a 22% absolute improvement over the baseline. All code will be made available on All code will be made available on https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.

Enhancing LLM-Based Automated Program Repair with Design Rationales

分类： 软件工程, 人工智能

作者： Jiuang Zhao, Donghao Yang, Li Zhang, Xiaoli Lian, Zitian Yang

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12056v1

摘要： Automatic Program Repair (APR) endeavors to autonomously rectify issues within specific projects, which generally encompasses three categories of tasks: bug resolution, new feature development, and feature enhancement. Despite extensive research proposing various methodologies, their efficacy in addressing real issues remains unsatisfactory. It's worth noting that, typically, engineers have design rationales (DR) on solution-planed solutions and a set of underlying reasons-before they start patching code. In open-source projects, these DRs are frequently captured in issue logs through project management tools like Jira. This raises a compelling question: How can we leverage DR scattered across the issue logs to efficiently enhance APR? To investigate this premise, we introduce DRCodePilot, an approach designed to augment GPT-4-Turbo's APR capabilities by incorporating DR into the prompt instruction. Furthermore, given GPT-4's constraints in fully grasping the broader project context and occasional shortcomings in generating precise identifiers, we have devised a feedback-based self-reflective framework, in which we prompt GPT-4 to reconsider and refine its outputs by referencing a provided patch and suggested identifiers. We have established a benchmark comprising 938 issue-patch pairs sourced from two open-source repositories hosted on GitHub and Jira. Our experimental results are impressive: DRCodePilot achieves a full-match ratio that is a remarkable 4.7x higher than when GPT-4 is utilized directly. Additionally, the CodeBLEU scores also exhibit promising enhancements. Moreover, our findings reveal that the standalone application of DR can yield promising increase in the full-match ratio across CodeLlama, GPT-3.5, and GPT-4 within our benchmark suite. We believe that our DRCodePilot initiative heralds a novel human-in-the-loop avenue for advancing the field of APR.

Aligning (Medical) LLMs for (Counterfactual) Fairness

分类： 计算和语言, 机器学习

作者： Raphael Poulain, Hamed Fayyaz, Rahmatollah Beheshti

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12055v1

摘要： Large Language Models (LLMs) have emerged as promising solutions for a variety of medical and clinical decision support applications. However, LLMs are often subject to different types of biases, which can lead to unfair treatment of individuals, worsening health disparities, and reducing trust in AI-augmented medical tools. Aiming to address this important issue, in this study, we present a new model alignment approach for aligning LLMs using a preference optimization method within a knowledge distillation framework. Prior to presenting our proposed method, we first use an evaluation framework to conduct a comprehensive (largest to our knowledge) empirical evaluation to reveal the type and nature of existing biases in LLMs used for medical applications. We then offer a bias mitigation technique to reduce the unfair patterns in LLM outputs across different subgroups identified by the protected attributes. We show that our mitigation method is effective in significantly reducing observed biased patterns. Our code is publicly available at \url{https://github.com/healthylaife/FairAlignmentLLM}.

1 位 LLM 时代的 Matmul 或无 Matmul

分类： 人工智能, 机器学习

作者： Jinendra Malekar, Mohammed E. Elbtity, Ramtin Zand

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11939v2

摘要： 1 位大语言模型 (LLM) 的出现引起了广泛关注并开辟了新的研究机会。然而，1 位 LLM 通过对投影层应用极端量化而仅改进了一小部分模型，同时保持注意力头不变。因此，为了避免在未来的研究中选择根本性错误的目标，了解 1 位 LLM 在计算和内存使用方面的实际改进至关重要。在这项工作中，我们提出了针对 1 位 LLM 环境量身定制的阿姆达尔定律，它说明了 1 位 LLM 的部分改进如何影响整体模型性能。通过广泛的实验，我们发现了不同模型架构和硬件配置之间的关键细微差别，为 1 位大语言模型时代的未来研究提供了路线图。

RAG-Optimized Tibetan Tourism LLMs: Enhancing Accuracy and Personalization

分类： 计算和语言, I.2.7

作者： Jinhu Qi, Shuai Yan, Yibo Zhang, Wentao Zhang, Rong Jin, Yuwei Hu, Ke Wang

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.12003v1

摘要： With the development of the modern social economy, tourism has become an important way to meet people's spiritual needs, bringing development opportunities to the tourism industry. However, existing large language models (LLMs) face challenges in personalized recommendation capabilities and the generation of content that can sometimes produce hallucinations. This study proposes an optimization scheme for Tibet tourism LLMs based on retrieval-augmented generation (RAG) technology. By constructing a database of tourist viewpoints and processing the data using vectorization techniques, we have significantly improved retrieval accuracy. The application of RAG technology effectively addresses the hallucination problem in content generation. The optimized model shows significant improvements in fluency, accuracy, and relevance of content generation. This research demonstrates the potential of RAG technology in the standardization of cultural tourism information and data analysis, providing theoretical and technical support for the development of intelligent cultural tourism service systems.

SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins

分类： 人工智能

作者： Jingquan Wang, Harry Zhang, Huzaifa Mustafa Unjhawala, Peter Negrut, Shu Wang, Khailanii Slaton, Radu Serban, Jin-Long Wu, Dan Negrut

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11987v1

摘要： We introduce SimBench, a benchmark designed to evaluate the proficiency of student large language models (S-LLMs) in generating digital twins (DTs) that can be used in simulators for virtual testing. Given a collection of S-LLMs, this benchmark enables the ranking of the S-LLMs based on their ability to produce high-quality DTs. We demonstrate this by comparing over 20 open- and closed-source S-LLMs. Using multi-turn interactions, SimBench employs a rule-based judge LLM (J-LLM) that leverages both predefined rules and human-in-the-loop guidance to assign scores for the DTs generated by the S-LLM, thus providing a consistent and expert-inspired evaluation protocol. The J-LLM is specific to a simulator, and herein the proposed benchmarking approach is demonstrated in conjunction with the Chrono multi-physics simulator. Chrono provided the backdrop used to assess an S-LLM in relation to the latter's ability to create digital twins for multibody dynamics, finite element analysis, vehicle dynamics, robotic dynamics, and sensor simulations. The proposed benchmarking principle is broadly applicable and enables the assessment of an S-LLM's ability to generate digital twins for other simulation packages. All code and data are available at https://github.com/uwsbel/SimBench.

Decoding SEC Actions: Enforcement Trends through Analyzing Blockchain litigation using LLM-based Thematic Factor Mapping

分类： 计算和语言

作者： Junliang Luo, Xihan Xiong, William Knottenbelt, Xue Liu

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11961v1

摘要： The proliferation of blockchain entities (persons or enterprises) exposes them to potential regulatory actions (e.g., being litigated) by regulatory authorities. Regulatory frameworks for crypto assets are actively being developed and refined, increasing the likelihood of such actions. The lack of systematic analysis of the factors driving litigation against blockchain entities leaves companies in need of clarity to navigate compliance risks. This absence of insight also deprives investors of the information for informed decision-making. This study focuses on U.S. litigation against blockchain entities, particularly by the U.S. Securities and Exchange Commission (SEC) given its influence on global crypto regulation. Utilizing frontier pretrained language models and large language models, we systematically map all SEC complaints against blockchain companies from 2012 to 2024 to thematic factors conceptualized by our study to delineate the factors driving SEC actions. We quantify the thematic factors and assess their influence on specific legal Acts cited within the complaints on an annual basis, allowing us to discern the regulatory emphasis, patterns and conduct trend analysis.

Matmul or No Matmal in the Era of 1-bit LLMs

分类： 人工智能, 机器学习

作者： Jinendra Malekar, Mohammed E. Elbtity, Ramtin Zand Co

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11939v1

摘要： The advent of 1-bit large language models (LLMs) has attracted considerable attention and opened up new research opportunities. However, 1-bit LLMs only improve a fraction of models by applying extreme quantization to the projection layers while leaving attention heads unchanged. Therefore, to avoid fundamentally wrong choices of goals in future research, it is crucial to understand the actual improvements in computation and memory usage that 1-bit LLMs can deliver. In this work, we present an adaptation of Amdahl's Law tailored for the 1-bit LLM context, which illustrates how partial improvements in 1-bit LLMs impact overall model performance. Through extensive experiments, we uncover key nuances across different model architectures and hardware configurations, offering a roadmap for future research in the era of 1-bit LLMs.

Ancient Wisdom, Modern Tools: Exploring Retrieval-Augmented LLMs for Ancient Indian Philosophy

分类： 计算和语言, 计算机与社会, 信息检索

作者： Priyanka Mandikal

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11903v2

摘要： LLMs have revolutionized the landscape of information retrieval and knowledge dissemination. However, their application in specialized areas is often hindered by factual inaccuracies and hallucinations, especially in long-tail knowledge distributions. We explore the potential of retrieval-augmented generation (RAG) models for long-form question answering (LFQA) in a specialized knowledge domain. We present VedantaNY-10M, a dataset curated from extensive public discourses on the ancient Indian philosophy of Advaita Vedanta. We develop and benchmark a RAG model against a standard, non-RAG LLM, focusing on transcription, retrieval, and generation performance. Human evaluations by computational linguists and domain experts show that the RAG model significantly outperforms the standard model in producing factual and comprehensive responses having fewer hallucinations. In addition, a keyword-based hybrid retriever that emphasizes unique low-frequency terms further improves results. Our study provides insights into effectively integrating modern large language models with ancient knowledge systems. Project page with dataset and code: https://sites.google.com/view/vedantany-10m

LLM Pruning and Distillation in Practice: The Minitron Approach

分类： 计算和语言, 人工智能, 机器学习

作者： Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11796v1

摘要： We present a comprehensive report on compressing the Llama 3.1 8B and Mistral NeMo 12B models to 4B and 8B parameters, respectively, using pruning and distillation. We explore two distinct pruning strategies: (1) depth pruning and (2) joint hidden/attention/MLP (width) pruning, and evaluate the results on common benchmarks from the LM Evaluation Harness. The models are then aligned with NeMo Aligner and tested in instruct-tuned versions. This approach produces a compelling 4B model from Llama 3.1 8B and a state-of-the-art Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo 12B. We found that with no access to the original data, it is beneficial to slightly fine-tune teacher models on the distillation dataset. We open-source our base model weights on Hugging Face with a permissive license.

FocusLLM: Scaling LLM's Context by Parallel Decoding

分类： 计算和语言, 人工智能

作者： Zhenyu Li, Yike Zhang, Tengyu Pan, Yutao Sun, Zhichao Duan, Junjie Fang, Rong Han, Zixuan Wang, Jianyong Wang

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11745v1

摘要： Empowering LLMs with the ability to utilize useful information from a long context is crucial for many downstream applications. However, achieving long context lengths with the conventional transformer architecture requires substantial training and inference resources. In this paper, we present FocusLLM, a framework designed to extend the context length of any decoder-only LLM, enabling the model to focus on relevant information from very long sequences. FocusLLM processes long text inputs by dividing them into chunks based on the model's original context length to alleviate the issue of attention distraction. Then, it appends the local context to each chunk as a prompt to extract essential information from each chunk based on a novel parallel decoding mechanism, and ultimately integrates the extracted information into the local context. FocusLLM stands out for great training efficiency and versatility: trained with an 8K input length with much less training cost than previous methods, FocusLLM exhibits superior performance across downstream long-context tasks and maintains strong language modeling ability when handling extensive long texts, even up to 400K tokens. Our code is available at https://github.com/leezythu/FocusLLM.

LLM4VV: Exploring LLM-as-a-Judge for Validation and Verification Testsuites

分类： 编程语言

作者： Zachariah Sollenberger, Jay Patel, Christian Munley, Aaron Jarmusch, Sunita Chandrasekaran

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11729v2

摘要： Large Language Models (LLM) are evolving and have significantly revolutionized the landscape of software development. If used well, they can significantly accelerate the software development cycle. At the same time, the community is very cautious of the models being trained on biased or sensitive data, which can lead to biased outputs along with the inadvertent release of confidential information. Additionally, the carbon footprints and the un-explainability of these black box models continue to raise questions about the usability of LLMs. With the abundance of opportunities LLMs have to offer, this paper explores the idea of judging tests used to evaluate compiler implementations of directive-based programming models as well as probe into the black box of LLMs. Based on our results, utilizing an agent-based prompting approach and setting up a validation pipeline structure drastically increased the quality of DeepSeek Coder, the LLM chosen for the evaluation purposes.

biorecap: an R package for summarizing bioRxiv preprints with a local LLM

分类： 其他定量生物学

作者： Stephen D. Turner

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11707v1

摘要： The establishment of bioRxiv facilitated the rapid adoption of preprints in the life sciences, accelerating the dissemination of new research findings. However, the sheer volume of preprints published daily can be overwhelming, making it challenging for researchers to stay updated on the latest developments. Here, I introduce biorecap, an R package that retrieves and summarizes bioRxiv preprints using a large language model (LLM) running locally on nearly any commodity laptop. biorecap leverages the ollamar package to interface with the Ollama server and API endpoints, allowing users to prompt any local LLM available through Ollama. The package follows tidyverse conventions, enabling users to pipe the output of one function as input to another. Additionally, biorecap provides a single wrapper function that generates a timestamped CSV file and HTML report containing short summaries of recent preprints published in user-configurable subject areas. By combining the strengths of LLMs with the flexibility and security of local execution, biorecap represents an advancement in the tools available for managing the information overload in modern scientific research. The biorecap R package is available on GitHub at https://github.com/stephenturner/biorecap under an open-source (MIT) license.

Xinyu: An Efficient LLM-based System for Commentary Generation

分类： 计算和语言, 人工智能, I.2.7

作者： Yiquan Wu, Bo Tang, Chenyang Xi, Yu Yu, Pengyu Wang, Yifei Liu, Kun Kuang, Haiying Deng, Zhiyu Li, Feiyu Xiong, Jie Hu, Peng Cheng, Zhonghao Wang, Yi Wang, Yi Luo, Mingchuan Yang

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11609v2

摘要： Commentary provides readers with a deep understanding of events by presenting diverse arguments and evidence. However, creating commentary is a time-consuming task, even for skilled commentators. Large language models (LLMs) have simplified the process of natural language generation, but their direct application in commentary creation still faces challenges due to unique task requirements. These requirements can be categorized into two levels: 1) fundamental requirements, which include creating well-structured and logically consistent narratives, and 2) advanced requirements, which involve generating quality arguments and providing convincing evidence. In this paper, we introduce Xinyu, an efficient LLM-based system designed to assist commentators in generating Chinese commentaries. To meet the fundamental requirements, we deconstruct the generation process into sequential steps, proposing targeted strategies and supervised fine-tuning (SFT) for each step. To address the advanced requirements, we present an argument ranking model for arguments and establish a comprehensive evidence database that includes up-to-date events and classic books, thereby strengthening the substantiation of the evidence with retrieval augmented generation (RAG) technology. To evaluate the generated commentaries more fairly, corresponding to the two-level requirements, we introduce a comprehensive evaluation metric that considers five distinct perspectives in commentary generation. Our experiments confirm the effectiveness of our proposed system. We also observe a significant increase in the efficiency of commentators in real-world scenarios, with the average time spent on creating a commentary dropping from 4 hours to 20 minutes. Importantly, such an increase in efficiency does not compromise the quality of the commentaries.

IKUN for WMT24 General MT Task: LLMs Are here for Multilingual Machine Translation

分类： 计算和语言

作者： Baohao Liao, Christian Herold, Shahram Khadivi, Christof Monz

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11512v1

摘要： This paper introduces two multilingual systems, IKUN and IKUN-C, developed for the general machine translation task in WMT24. IKUN and IKUN-C represent an open system and a constrained system, respectively, built on Llama-3-8b and Mistral-7B-v0.3. Both systems are designed to handle all 11 language directions using a single model. According to automatic evaluation metrics, IKUN-C achieved 6 first-place and 3 second-place finishes among all constrained systems, while IKUN secured 1 first-place and 2 second-place finishes across both open and constrained systems. These encouraging results suggest that large language models (LLMs) are nearing the level of proficiency required for effective multilingual machine translation. The systems are based on a two-stage approach: first, continuous pre-training on monolingual data in 10 languages, followed by fine-tuning on high-quality parallel data for 11 language directions. The primary difference between IKUN and IKUN-C lies in their monolingual pre-training strategy. IKUN-C is pre-trained using constrained monolingual data, whereas IKUN leverages monolingual data from the OSCAR dataset. In the second phase, both systems are fine-tuned on parallel data sourced from NTREX, Flores, and WMT16-23 for all 11 language pairs.

Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering

分类： 人工智能

作者： Zouying Cao, Yifei Yang, Hai Zhao

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11491v1

摘要： Safety alignment is indispensable for Large language models (LLMs) to defend threats from malicious instructions. However, recent researches reveal safety-aligned LLMs prone to reject benign queries due to the exaggerated safety issue, limiting their helpfulness. In this paper, we propose a Safety-Conscious Activation Steering (SCANS) method to mitigate the exaggerated safety concerns in aligned LLMs. First, SCANS extracts the refusal steering vectors within the activation space and utilizes vocabulary projection to anchor some specific safety-critical layers which influence model refusal behavior. Second, by tracking the hidden state transition, SCANS identifies the steering direction and steers the model behavior accordingly, achieving a balance between exaggerated safety and adequate safety. Experiments show that SCANS achieves new state-of-the-art performance on XSTest and OKTest benchmarks, without impairing their defense capability against harmful queries and maintaining almost unchanged model capability.

Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning

分类： 计算和语言, 人工智能

作者： Kai Xiong, Xiao Ding, Li Du, Jiahao Ying, Ting Liu, Bing Qin, Yixin Cao

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11431v1

摘要： Large Language Models (LLMs) are versatile and demonstrate impressive generalization ability by mining and learning information from extensive unlabeled text. However, they still exhibit reasoning mistakes, often stemming from knowledge deficiencies, which can affect their trustworthiness and reliability. Although users can provide diverse and comprehensive queries, obtaining sufficient and effective feedback is demanding. Furthermore, evaluating LLMs comprehensively with limited labeled samples is difficult. This makes it a challenge to diagnose and remedy the deficiencies of LLMs through rich label-free user queries. To tackle this challenge, we propose a label-free curricular meaningful learning framework (LaMer). LaMer first employs relative entropy to automatically diagnose and quantify the knowledge deficiencies of LLMs in a label-free setting. Next, to remedy the diagnosed knowledge deficiencies, we apply curricular meaningful learning: first, we adopt meaningful learning to adaptively synthesize augmentation data according to the severity of the deficiencies, and then design a curricular deficiency remedy strategy to remedy the knowledge deficiencies of LLMs progressively. Experiments show that LaMer efficiently and effectively diagnoses and remedies knowledge deficiencies in LLMs, improving various LLMs across seven out-of-distribution (OOD) reasoning and language understanding benchmarks, achieving comparable results to baselines with just 40% training data. LaMer even surpasses methods that rely on labeled datasets for deficiency diagnosis. In application, our label-free method can offer an effective knowledge deficiency diagnostic tool for efficient LLM development.

Migrating Existing Container Workload to Kubernetes -- LLM Based Approach and Evaluation

分类： 软件工程

作者： Masaru Ueno, Tetsuya Uchiumi

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11428v1

摘要： Although Kubernetes has become a widespread open-source system that automates the management of containerized applications, its complexity can be a significant barrier, particularly for application developers unfamiliar with it. One approach employs large language models (LLMs) to assist developers in generating Kubernetes manifests; however it is currently impossible to determine whether the output satisfies given specifications and is comprehensible. In this study, we proposed a benchmarking method for evaluating the effectiveness of LLMs in synthesizing manifests, using the Compose specification -- a standard widely adopted by application developers -- as input. The proposed benchmarking method revealed that LLMs generally produce accurate results that compensate for simple specification gaps. However, we also observed that inline comments for readability were often omitted, and completion accuracy was low for atypical inputs with unclear intentions.

EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning

分类： 计算机视觉和模式识别

作者： Zhihao Li, Yao Du, Yang Liu, Yan Zhang, Yufang Liu, Mengdi Zhang, Xunliang Cai

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11397v1

摘要： Multi-modal Large Language Models have recently experienced rapid developments and excel in various multi-modal tasks. However, they still struggle with mathematical geometric problem solving, which requires exceptional visual perception proficiency. Existing MLLMs mostly optimize the LLM backbone to acquire geometric reasoning capabilities, while rarely emphasizing improvements in visual comprehension. In this paper, we first investigate the visual perception performance of MLLMs when facing geometric diagrams. Our findings reveal that current MLLMs severely suffer from inaccurate geometric perception and hallucinations. To address these limitations, we propose EAGLE, a novel two-stage end-to-end visual enhancement MLLM framework designed to ElevAte Geometric reasoning through LLM-Empowered visual instruction tuning. Specifically, in the preliminary stage, we feed geometric image-caption pairs into our MLLM that contains a fully fine-tuning CLIP ViT and a frozen LLM, aiming to endow our model with basic geometric knowledge. In the subsequent advanced stage, we incorporate LoRA modules into the vision encoder and unfreeze the LLM backbone. This enables the model to leverage the inherent CoT rationales within question-answer pairs, guiding the MLLM to focus on nuanced visual cues and enhancing its overall perceptual capacity. Moreover, we optimize the cross-modal projector in both stages to foster adaptive visual-linguistic alignments. After the two-stage visual enhancement, we develop the geometry expert model EAGLE-7B. Extensive experiments on popular benchmarks demonstrate the effectiveness of our model. For example, on the GeoQA benchmark, EAGLE-7B not only surpasses the exemplary G-LLaVA 7B model by 2.9%, but also marginally outperforms the larger G-LLaVA 13B model. On the MathVista benchmark, EAGLE-7B achieves remarkable 3.8% improvements compared with the proprietary model GPT-4V.

ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding

分类： 人工智能, 计算工程、金融和科学, 机器学习, 生物分子

作者： Yijia Xiao, Edward Sun, Yiqiao Jin, Qifan Wang, Wei Wang

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11363v1

摘要： Understanding biological processes, drug development, and biotechnological advancements requires detailed analysis of protein structures and sequences, a task in protein research that is inherently complex and time-consuming when performed manually. To streamline this process, we introduce ProteinGPT, a state-of-the-art multi-modal protein chat system, that allows users to upload protein sequences and/or structures for comprehensive protein analysis and responsive inquiries. ProteinGPT seamlessly integrates protein sequence and structure encoders with linear projection layers for precise representation adaptation, coupled with a large language model (LLM) to generate accurate and contextually relevant responses. To train ProteinGPT, we construct a large-scale dataset of 132,092 proteins with annotations, and optimize the instruction-tuning process using GPT-4o. This innovative system ensures accurate alignment between the user-uploaded data and prompts, simplifying protein analysis. Experiments show that ProteinGPT can produce promising responses to proteins and their corresponding questions.

BURExtract-Llama: An LLM for Clinical Concept Extraction in Breast Ultrasound Reports

分类： 计算和语言, 人工智能

作者： Yuxuan Chen, Haoyan Yang, Hengkai Pan, Fardeen Siddiqui, Antonio Verdone, Qingyang Zhang, Sumit Chopra, Chen Zhao, Yiqiu Shen

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11334v1

摘要： Breast ultrasound is essential for detecting and diagnosing abnormalities, with radiology reports summarizing key findings like lesion characteristics and malignancy assessments. Extracting this critical information is challenging due to the unstructured nature of these reports, with varied linguistic styles and inconsistent formatting. While proprietary LLMs like GPT-4 are effective, they are costly and raise privacy concerns when handling protected health information. This study presents a pipeline for developing an in-house LLM to extract clinical information from radiology reports. We first use GPT-4 to create a small labeled dataset, then fine-tune a Llama3-8B model on it. Evaluated on clinician-annotated reports, our model achieves an average F1 score of 84.6%, which is on par with GPT-4. Our findings demonstrate the feasibility of developing an in-house LLM that not only matches GPT-4's performance but also offers cost reductions and enhanced data privacy.

HITS: High-coverage LLM-based Unit Test Generation via Method Slicing

分类： 软件工程

作者： Zejun Wang, Kaibo Liu, Ge Li, Zhi Jin

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11324v1

摘要： Large language models (LLMs) have behaved well in generating unit tests for Java projects. However, the performance for covering the complex focal methods within the projects is poor. Complex methods comprise many conditions and loops, requiring the test cases to be various enough to cover all lines and branches. However, existing test generation methods with LLMs provide the whole method-to-test to the LLM without assistance on input analysis. The LLM has difficulty inferring the test inputs to cover all conditions, resulting in missing lines and branches. To tackle the problem, we propose decomposing the focal methods into slices and asking the LLM to generate test cases slice by slice. Our method simplifies the analysis scope, making it easier for the LLM to cover more lines and branches in each slice. We build a dataset comprising complex focal methods collected from the projects used by existing state-of-the-art approaches. Our experiment results show that our method significantly outperforms current test case generation methods with LLMs and the typical SBST method Evosuite regarding both line and branch coverage scores.

Unlocking Adversarial Suffix Optimization Without Affirmative Phrases: Efficient Black-box Jailbreaking via LLM as Optimizer

分类： 人工智能

作者： Weipeng Jiang, Zhenting Wang, Juan Zhai, Shiqing Ma, Zhengyu Zhao, Chao Shen

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11313v1

摘要： Despite prior safety alignment efforts, mainstream LLMs can still generate harmful and unethical content when subjected to jailbreaking attacks. Existing jailbreaking methods fall into two main categories: template-based and optimization-based methods. The former requires significant manual effort and domain knowledge, while the latter, exemplified by Greedy Coordinate Gradient (GCG), which seeks to maximize the likelihood of harmful LLM outputs through token-level optimization, also encounters several limitations: requiring white-box access, necessitating pre-constructed affirmative phrase, and suffering from low efficiency. In this paper, we present ECLIPSE, a novel and efficient black-box jailbreaking method utilizing optimizable suffixes. Drawing inspiration from LLMs' powerful generation and optimization capabilities, we employ task prompts to translate jailbreaking goals into natural language instructions. This guides the LLM to generate adversarial suffixes for malicious queries. In particular, a harmfulness scorer provides continuous feedback, enabling LLM self-reflection and iterative optimization to autonomously and efficiently produce effective suffixes. Experimental results demonstrate that ECLIPSE achieves an average attack success rate (ASR) of 0.92 across three open-source LLMs and GPT-3.5-Turbo, significantly surpassing GCG in 2.4 times. Moreover, ECLIPSE is on par with template-based methods in ASR while offering superior attack efficiency, reducing the average attack overhead by 83%.

RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining

分类： 计算和语言

作者： Anh-Dung Vo, Minseong Jung, Wonbeen Lee, Daewoo Choi

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11294v1

摘要： The field of Natural Language Processing (NLP) has seen significant advancements with the development of Large Language Models (LLMs). However, much of this research remains focused on English, often overlooking low-resource languages like Korean. This oversight presents challenges due to the unique non-alphabetic token structure of Korean and the substantial memory and computational demands required for LLM training, which frequently lead to memory constraints and out-of-memory errors. To address these issues, we present RedWhale, a model specifically tailored for Korean language processing. RedWhale is developed using an efficient continual pretraining approach that includes a comprehensive Korean corpus preprocessing pipeline, a specialized tokenizer, an optimized model initialization technique, and a multistage pretraining strategy. These innovations collectively reduce training time and computational costs while maintaining high levels of accuracy and comprehension. By leveraging cross-lingual transfer learning, which exploits shared linguistic similarities across languages, RedWhale builds on English models to enhance Korean language processing. Experimental results demonstrate that RedWhale outperforms other leading models on Korean NLP benchmarks, including the Korean Balanced Evaluation of Significant Tasks (KoBEST), showing superior understanding and generation of Korean text. Furthermore, RedWhale showed no signs of convergence even after pretraining on 9.7 billion tokens, indicating the potential for further improvements with additional training. This work represents a significant advancement in bridging the linguistic divide, particularly in enhancing NLP capabilities for the Korean language.

Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data

分类： 计算和语言

作者： Atmika Gorti, Manas Gaur, Aman Chadha

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11247v1

摘要： Large Language Models (LLMs) are prone to inheriting and amplifying societal biases embedded within their training data, potentially reinforcing harmful stereotypes related to gender, occupation, and other sensitive categories. This issue becomes particularly problematic as biased LLMs can have far-reaching consequences, leading to unfair practices and exacerbating social inequalities across various domains, such as recruitment, online content moderation, or even the criminal justice system. Although prior research has focused on detecting bias in LLMs using specialized datasets designed to highlight intrinsic biases, there has been a notable lack of investigation into how these findings correlate with authoritative datasets, such as those from the U.S. National Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how the generated outputs compare with the distributions found in NBLS data. Furthermore, we propose a straightforward yet effective debiasing mechanism that directly incorporates NBLS instances to mitigate bias within LLMs. Our study spans seven different LLMs, including instructable, base, and mixture-of-expert models, and reveals significant levels of bias that are often overlooked by existing bias detection techniques. Importantly, our debiasing method, which does not rely on external datasets, demonstrates a substantial reduction in bias scores, highlighting the efficacy of our approach in creating fairer and more reliable LLMs.

EPiC: Cost-effective Search-based Prompt Engineering of LLMs for Code Generation

分类： 软件工程, 人工智能, 神经和进化计算

作者： Hamed Taherkhani, Melika Sepindband, Hung Viet Pham, Song Wang, Hadi Hemmati

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11198v1

摘要： Large Language Models (LLMs) have seen increasing use in various software development tasks, especially in code generation. The most advanced recent methods attempt to incorporate feedback from code execution into prompts to help guide LLMs in generating correct code, in an iterative process. While effective, these methods could be costly and time-consuming due to numerous interactions with the LLM and the extensive token usage. To address this issue, we propose an alternative approach named Evolutionary Prompt Engineering for Code (EPiC), which leverages a lightweight evolutionary algorithm to evolve the original prompts toward better ones that produce high-quality code, with minimal interactions with LLM. Our evaluation against state-of-the-art (SOTA) LLM-based code generation models shows that EPiC outperforms all the baselines in terms of cost-effectiveness.

Mistral-SPLADE: LLMs for better Learned Sparse Retrieval

分类： 信息检索, 计算和语言

作者： Meet Doshi, Vishwajeet Kumar, Rudra Murthy, Vignesh P, Jaydeep Sen

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11119v2

摘要： Learned Sparse Retrievers (LSR) have evolved into an effective retrieval strategy that can bridge the gap between traditional keyword-based sparse retrievers and embedding-based dense retrievers. At its core, learned sparse retrievers try to learn the most important semantic keyword expansions from a query and/or document which can facilitate better retrieval with overlapping keyword expansions. LSR like SPLADE has typically been using encoder only models with MLM (masked language modeling) style objective in conjunction with known ways of retrieval performance improvement such as hard negative mining, distillation, etc. In this work, we propose to use decoder-only model for learning semantic keyword expansion. We posit, decoder only models that have seen much higher magnitudes of data are better equipped to learn keyword expansions needed for improved retrieval. We use Mistral as the backbone to develop our Learned Sparse Retriever similar to SPLADE and train it on a subset of sentence-transformer data which is often used for training text embedding models. Our experiments support the hypothesis that a sparse retrieval model based on decoder only large language model (LLM) surpasses the performance of existing LSR systems, including SPLADE and all its variants. The LLM based model (Echo-Mistral-SPLADE) now stands as a state-of-the-art learned sparse retrieval model on the BEIR text retrieval benchmark.

Revisiting VerilogEval: Newer LLMs, In-Context Learning, and Specification-to-RTL Tasks

分类： 软件工程, 人工智能

作者： Nathaniel Pinckney, Christopher Batten, Mingjie Liu, Haoxing Ren, Brucek Khailany

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11053v1

摘要： The application of large-language models (LLMs) to digital hardware code generation is an emerging field. Most LLMs are primarily trained on natural language and software code. Hardware code, such as Verilog, represents only a small portion of the training data and few hardware benchmarks exist. To address this gap, the open-source VerilogEval benchmark was released in 2023, providing a consistent evaluation framework for LLMs on code completion tasks. It was tested on state-of-the-art models at the time including GPT-4. However, VerilogEval and other Verilog generation benchmarks lack failure analysis and, in present form, are not conducive to exploring prompting techniques. Also, since VerilogEval's release, both commercial and open-source models have seen continued development. In this work, we evaluate new commercial and open-source models of varying sizes against an improved VerilogEval benchmark suite. We enhance VerilogEval's infrastructure and dataset by automatically classifying failures, introduce new prompts for supporting in-context learning (ICL) examples, and extend the supported tasks to specification-to-RTL translation. We find a measurable improvement in commercial state-of-the-art models, with GPT-4 Turbo achieving a 59% pass rate on spec-to-RTL tasks. We also study the performance of open-source and domain-specific models that have emerged, and demonstrate that models can benefit substantially from ICL. We find that recently-released Llama 3.1 405B achieves a pass rate of 58%, effectively matching that of GPT-4 Turbo, and that the much smaller domain-specific RTL-Coder 6.7B models achieve an impressive 37% pass rate. However, prompt engineering is key to achieving good pass rates, and varies widely with model and task. A benchmark infrastructure that allows for prompt engineering and failure analysis is key to continued model development and deployment.

FLAME: Learning to Navigate with Multimodal LLM in Urban Environments

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器人技术

作者： Yunzhe Xu, Yiyuan Pan, Zhe Liu, Hesheng Wang

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11051v1

摘要： Large Language Models (LLMs) have demonstrated potential in Vision-and-Language Navigation (VLN) tasks, yet current applications face challenges. While LLMs excel in general conversation scenarios, they struggle with specialized navigation tasks, yielding suboptimal performance compared to specialized VLN models. We introduce FLAME (FLAMingo-Architected Embodied Agent), a novel Multimodal LLM-based agent and architecture designed for urban VLN tasks that efficiently handles multiple observations. Our approach implements a three-phase tuning technique for effective adaptation to navigation tasks, including single perception tuning for street view description, multiple perception tuning for trajectory summarization, and end-to-end training on VLN datasets. The augmented datasets are synthesized automatically. Experimental results demonstrate FLAME's superiority over existing methods, surpassing state-of-the-art methods by a 7.3% increase in task completion rate on Touchdown dataset. This work showcases the potential of Multimodal LLMs (MLLMs) in complex navigation tasks, representing an advancement towards practical applications of MLLMs in embodied AI. Project page: https://flame-sjtu.github.io

Proxona: Leveraging LLM-Driven Personas to Enhance Creators' Understanding of Their Audience

分类： 人机交互

作者： Yoonseo Choi, Eun Jeong Kang, Seulgi Choi, Min Kyung Lee, Juho Kim

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10937v1

摘要： Creators are nothing without their audience, and thereby understanding their audience is the cornerstone of their professional achievement. Yet many creators feel lost while comprehending audiences with existing tools, which offer insufficient insights for tailoring content to audience needs. To address the challenges creators face in understanding their audience, we present Proxona, a system for defining and extracting representative audience personas from the comments. Creators converse with personas to gain insights into their preferences and engagement, solicit feedback, and implement evidence-based improvements to their content. Powered by large language models, Proxona analyzes audience comments, distilling the latent characteristics of audiences into tangible dimensions (classification categories) and values (category attributes). Proxona then clusters these into synthetic personas. Our technical evaluations demonstrated that our pipelines effectively generated relevant and distinct dimensions and values, enabling the deduction of audience-reflecting personas, while minimizing the likelihood of hallucinations in persona responses. Our user evaluation with 11 creators showed that Proxona supported creators to gain new insights about their audience, make informed decisions, and successfully complete content creation with high confidence. Proxona's data-driven audience personas empower creators to seamlessly integrate audience perspectives into their creative processes, fostering a collaborative approach to content creation.

Soda-Eval: Open-Domain Dialogue Evaluation in the age of LLMs

分类： 计算和语言

作者： John Mendonça, Isabel Trancoso, Alon Lavie

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10902v1

摘要： Although human evaluation remains the gold standard for open-domain dialogue evaluation, the growing popularity of automated evaluation using Large Language Models (LLMs) has also extended to dialogue. However, most frameworks leverage benchmarks that assess older chatbots on aspects such as fluency and relevance, which are not reflective of the challenges associated with contemporary models. In fact, a qualitative analysis on Soda, a GPT-3.5 generated dialogue dataset, suggests that current chatbots may exhibit several recurring issues related to coherence and commonsense knowledge, but generally produce highly fluent and relevant responses. Noting the aforementioned limitations, this paper introduces Soda-Eval, an annotated dataset based on Soda that covers over 120K turn-level assessments across 10K dialogues, where the annotations were generated by GPT-4. Using Soda-Eval as a benchmark, we then study the performance of several open-access instruction-tuned LLMs, finding that dialogue evaluation remains challenging. Fine-tuning these models improves performance over few-shot inferences, both in terms of correlation and explanation.

Leveraging LLMs for the Quality Assurance of Software Requirements

分类： 软件工程

作者： Sebastian Lubos, Alexander Felfernig, Thi Ngoc Trang Tran, Damian Garber, Merfat El Mansi, Seda Polat Erdeniz, Viet-Man Le

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10886v1

摘要： Successful software projects depend on the quality of software requirements. Creating high-quality requirements is a crucial step toward successful software development. Effective support in this area can significantly reduce development costs and enhance the software quality. In this paper, we introduce and assess the capabilities of a Large Language Model (LLM) to evaluate the quality characteristics of software requirements according to the ISO 29148 standard. We aim to further improve the support of stakeholders engaged in requirements engineering (RE). We show how an LLM can assess requirements, explain its decision-making process, and examine its capacity to propose improved versions of requirements. We conduct a study with software engineers to validate our approach. Our findings emphasize the potential of LLMs for improving the quality of software requirements.

Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?

分类： 计算和语言, 人工智能

作者： Chengzhi Zhong, Fei Cheng, Qianying Liu, Junfeng Jiang, Zhen Wan, Chenhui Chu, Yugo Murawaki, Sadao Kurohashi

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10811v1

摘要： In this study, we investigate whether non-English-centric LLMs, despite their strong performance, think' in their respective dominant language: more precisely, think' refers to how the representations of intermediate layers, when un-embedded into the vocabulary space, exhibit higher probabilities for certain dominant languages during generation. We term such languages as internal $\textbf{latent languages}$. We examine the latent language of three typical categories of models for Japanese processing: Llama2, an English-centric model; Swallow, an English-centric model with continued pre-training in Japanese; and LLM-jp, a model pre-trained on balanced English and Japanese corpora. Our empirical findings reveal that, unlike Llama2 which relies exclusively on English as the internal latent language, Japanese-specific Swallow and LLM-jp employ both Japanese and English, exhibiting dual internal latent languages. For any given target language, the model preferentially activates the latent language most closely related to it. In addition, we explore how intermediate layers respond to questions involving cultural conflicts between latent internal and target output languages. We further explore how the language identity shifts across layers while keeping consistent semantic meaning reflected in the intermediate layer representations. This study deepens the understanding of non-English-centric large language models, highlighting the intricate dynamics of language representation within their intermediate layers.

Tapping in a Remote Vehicle's onboard LLM to Complement the Ego Vehicle's Field-of-View

分类： 计算机视觉和模式识别

作者： Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10794v1

摘要： Today's advanced automotive systems are turning into intelligent Cyber-Physical Systems (CPS), bringing computational intelligence to their cyber-physical context. Such systems power advanced driver assistance systems (ADAS) that observe a vehicle's surroundings for their functionality. However, such ADAS have clear limitations in scenarios when the direct line-of-sight to surrounding objects is occluded, like in urban areas. Imagine now automated driving (AD) systems that ideally could benefit from other vehicles' field-of-view in such occluded situations to increase traffic safety if, for example, locations about pedestrians can be shared across vehicles. Current literature suggests vehicle-to-infrastructure (V2I) via roadside units (RSUs) or vehicle-to-vehicle (V2V) communication to address such issues that stream sensor or object data between vehicles. When considering the ongoing revolution in vehicle system architectures towards powerful, centralized processing units with hardware accelerators, foreseeing the onboard presence of large language models (LLMs) to improve the passengers' comfort when using voice assistants becomes a reality. We are suggesting and evaluating a concept to complement the ego vehicle's field-of-view (FOV) with another vehicle's FOV by tapping into their onboard LLM to let the machines have a dialogue about what the other vehicle ``sees''. Our results show that very recent versions of LLMs, such as GPT-4V and GPT-4o, understand a traffic situation to an impressive level of detail, and hence, they can be used even to spot traffic participants. However, better prompts are needed to improve the detection quality and future work is needed towards a standardised message interchange format between vehicles.

Pluto and Charon: A Time and Memory Efficient Collaborative Edge AI Framework for Personal LLMs Fine-Tuning

分类： 分布式、并行和集群计算, 人工智能, 机器学习, 网络和互联网架构

作者： Bei Ouyang, Shengyuan Ye, Liekang Zeng, Tianyi Qian, Jingyi Li, Xu Chen

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10746v1

摘要： Large language models (LLMs) have unlocked a plethora of powerful applications at the network edge, such as intelligent personal assistants. Data privacy and security concerns have prompted a shift towards edge-based fine-tuning of personal LLMs, away from cloud reliance. However, this raises issues of computational intensity and resource scarcity, hindering training efficiency and feasibility. While current studies investigate parameter-efficient fine-tuning (PEFT) techniques to mitigate resource constraints, our analysis indicates that these techniques are not sufficiently resource-efficient for edge devices. To tackle these challenges, we propose Pluto and Charon (PAC), a time and memory efficient collaborative edge AI framework for personal LLMs fine-tuning. PAC breaks the resource wall of personal LLMs fine-tuning with a sophisticated algorithm-system co-design. (1) Algorithmically, PAC implements a personal LLMs fine-tuning technique that is efficient in terms of parameters, time, and memory. It utilizes Parallel Adapters to circumvent the need for a full backward pass through the LLM backbone. Additionally, an activation cache mechanism further streamlining the process by negating the necessity for repeated forward passes across multiple epochs. (2) Systematically, PAC leverages edge devices in close proximity, pooling them as a collective resource for in-situ personal LLMs fine-tuning, utilizing a hybrid data and pipeline parallelism to orchestrate distributed training. The use of the activation cache eliminates the need for forward pass through the LLM backbone,enabling exclusive fine-tuning of the Parallel Adapters using data parallelism. Extensive evaluation based on prototype implementation demonstrates that PAC remarkably outperforms state-of-the-art approaches, achieving up to 8.64x end-to-end speedup and up to 88.16% reduction in memory footprint.

Beneath the Surface of Consistency: Exploring Cross-lingual Knowledge Representation Sharing in LLMs

分类： 计算和语言, 人工智能

作者： Maxim Ifergan, Leshem Choshen, Roee Aharoni, Idan Szpektor, Omri Abend

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10646v1

摘要： The veracity of a factoid is largely independent of the language it is written in. However, language models are inconsistent in their ability to answer the same factual question across languages. This raises questions about how LLMs represent a given fact across languages. We explore multilingual factual knowledge through two aspects: the model's ability to answer a query consistently across languages, and the ability to ''store'' answers in a shared representation for several languages. We propose a methodology to measure the extent of representation sharing across languages by repurposing knowledge editing methods. We examine LLMs with various multilingual configurations using a new multilingual dataset. We reveal that high consistency does not necessarily imply shared representation, particularly for languages with different scripts. Moreover, we find that script similarity is a dominant factor in representation sharing. Finally, we observe that if LLMs could fully share knowledge across languages, their accuracy in their best-performing language could benefit an increase of up to 150% on average. These findings highlight the need for improved multilingual knowledge representation in LLMs and suggest a path for the development of more robust and consistent multilingual LLMs.

Minor SFT loss for LLM fine-tune to increase performance and reduce model deviation

分类： 人工智能, 计算和语言

作者： Shiming Xie, Hong Chen, Fred Yu, Zeye Sun, Xiuyu Wu

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10642v1

摘要： Instruct LLM provide a paradigm used in large scale language model to align LLM to human preference. The paradigm contains supervised fine tuning and reinforce learning from human feedback. This paradigm is also used in downstream scenarios to adapt LLM to specific corpora and applications. Comparing to SFT, there are many efforts focused on RLHF and several algorithms being proposed, such as PPO, DPO, IPO, KTO, MinorDPO and etc. Meanwhile most efforts for SFT are focused on how to collect, filter and mix high quality data. In this article with insight from DPO and MinorDPO, we propose a training metric for SFT to measure the discrepancy between the optimized model and the original model, and a loss function MinorSFT that can increase the training effectiveness, and reduce the discrepancy between the optimized LLM and original LLM.

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

分类： 人工智能, 计算和语言

作者： Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10635v1

摘要： In this paper, we propose a new method Strategist that utilizes LLMs to acquire new skills for playing multi-agent games through a self-improvement process. Our method gathers quality feedback through self-play simulations with Monte Carlo tree search and LLM-based reflection, which can then be used to learn high-level strategic skills such as how to evaluate states that guide the low-level execution.We showcase how our method can be used in both action planning and dialogue generation in the context of games, achieving good performance on both tasks. Specifically, we demonstrate that our method can help train agents with better performance than both traditional reinforcement learning-based approaches and other LLM-based skill learning approaches in games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.

An Efficient Sign Language Translation Using Spatial Configuration and Motion Dynamics with LLMs

分类： 计算和语言, 计算机视觉和模式识别

作者： Eui Jun Hwang, Sukmin Cho, Junmyeong Lee, Jong C. Park

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10593v1

摘要： Gloss-free Sign Language Translation (SLT) converts sign videos directly into spoken language sentences without relying on glosses. Recently, Large Language Models (LLMs) have shown remarkable translation performance in gloss-free methods by harnessing their powerful natural language generation capabilities. However, these methods often rely on domain-specific fine-tuning of visual encoders to achieve optimal results. By contrast, this paper emphasizes the importance of capturing the spatial configurations and motion dynamics inherent in sign language. With this in mind, we introduce Spatial and Motion-based Sign Language Translation (SpaMo), a novel LLM-based SLT framework. The core idea of SpaMo is simple yet effective. We first extract spatial and motion features using off-the-shelf visual encoders and then input these features into an LLM with a language prompt. Additionally, we employ a visual-text alignment process as a warm-up before the SLT supervision. Our experiments demonstrate that SpaMo achieves state-of-the-art performance on two popular datasets, PHOENIX14T and How2Sign.

Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter

分类： 计算和语言, 人工智能

作者： Junhao Chen, Bowen Wang, Zhouqiang jiang, Yuta Nakashima

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10573v1

摘要： Large Language Models (LLMs) have demonstrated significant capabilities, particularly in the domain of question answering (QA). However, their effectiveness in QA is often undermined by the vagueness of user questions. To address this issue, we introduce single-round instance-level prompt optimization, referred to as question rewriter. By enhancing the intelligibility of human questions for black-box LLMs, our question rewriter improves the quality of generated answers. The rewriter is optimized using direct preference optimization based on feedback collected from automatic criteria for evaluating generated answers; therefore, its training does not require costly human annotations. The experiments across multiple black-box LLMs and long-form question answering (LFQA) datasets demonstrate the efficacy of our method. This paper provides a practical framework for training question rewriters and sets a precedent for future explorations in prompt optimization within LFQA tasks. Code is available at \url{https://github.com/3244we/Question-Rewriter}.

Are LLMs Any Good for High-Level Synthesis?

分类： 硬件架构, 人工智能

作者： Yuchao Liao, Tosiron Adegbija, Roman Lysecky

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10428v1

摘要： The increasing complexity and demand for faster, energy-efficient hardware designs necessitate innovative High-Level Synthesis (HLS) methodologies. This paper explores the potential of Large Language Models (LLMs) to streamline or replace the HLS process, leveraging their ability to understand natural language specifications and refactor code. We survey the current research and conduct experiments comparing Verilog designs generated by a standard HLS tool (Vitis HLS) with those produced by LLMs translating C code or natural language specifications. Our evaluation focuses on quantifying the impact on performance, power, and resource utilization, providing an assessment of the efficiency of LLM-based approaches. This study aims to illuminate the role of LLMs in HLS, identifying promising directions for optimized hardware design in applications such as AI acceleration, embedded systems, and high-performance computing.

AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews

分类： 人工智能

作者： Keith Tyser, Ben Segev, Gaston Longhitano, Xin-Yu Zhang, Zachary Meeks, Jason Lee, Uday Garg, Nicholas Belsten, Avi Shporer, Madeleine Udell, Dov Te'eni, Iddo Drori

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10365v1

摘要： Automatic reviewing helps handle a large volume of papers, provides early feedback and quality control, reduces bias, and allows the analysis of trends. We evaluate the alignment of automatic paper reviews with human reviews using an arena of human preferences by pairwise comparisons. Gathering human preference may be time-consuming; therefore, we also use an LLM to automatically evaluate reviews to increase sample efficiency while reducing bias. In addition to evaluating human and LLM preferences among LLM reviews, we fine-tune an LLM to predict human preferences, predicting which reviews humans will prefer in a head-to-head battle between LLMs. We artificially introduce errors into papers and analyze the LLM's responses to identify limitations, use adaptive review questions, meta prompting, role-playing, integrate visual and textual analysis, use venue-specific reviewing materials, and predict human preferences, improving upon the limitations of the traditional review processes. We make the reviews of publicly available arXiv and open-access Nature journal papers available online, along with a free service which helps authors review and revise their research papers and improve their quality. This work develops proof-of-concept LLM reviewing systems that quickly deliver consistent, high-quality reviews and evaluate their quality. We mitigate the risks of misuse, inflated review scores, overconfident ratings, and skewed score distributions by augmenting the LLM with multiple documents, including the review form, reviewer guide, code of ethics and conduct, area chair guidelines, and previous year statistics, by finding which errors and shortcomings of the paper may be detected by automated reviews, and evaluating pairwise reviewer preferences. This work identifies and addresses the limitations of using LLMs as reviewers and evaluators and enhances the quality of the reviewing process.

MegaAgent: A Practical Framework for Autonomous Cooperation in Large-Scale LLM Agent Systems

分类： 多代理系统

作者： Qian Wang, Tianyu Wang, Qinbin Li, Jingsheng Liang, Bingsheng He

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09955v2

摘要： With the emergence of large language models (LLMs), LLM-powered multi-agent systems (LLM-MA systems) have been proposed to tackle real-world tasks. However, their agents mostly follow predefined Standard Operating Procedures (SOPs) that remain unchanged across the whole interaction, lacking autonomy and scalability. Additionally, current solutions often overlook the necessity for effective agent cooperation. To address the above limitations, we propose MegaAgent, a practical framework designed for autonomous cooperation in large-scale LLM Agent systems. MegaAgent leverages the autonomy of agents to dynamically generate agents based on task requirements, incorporating features such as automatically dividing tasks, systematic planning and monitoring of agent activities, and managing concurrent operations. In addition, MegaAgent is designed with a hierarchical structure and employs system-level parallelism to enhance performance and boost communication. We demonstrate the effectiveness of MegaAgent through Gobang game development, showing that it outperforms popular LLM-MA systems; and national policy simulation, demonstrating its high autonomy and potential to rapidly scale up to 590 agents while ensuring effective cooperation among them. Our results indicate that MegaAgent is the first autonomous large-scale LLM-MA system with no pre-defined SOPs, high effectiveness and scalability, paving the way for further research in this field. Our code is at https://anonymous.4open.science/r/MegaAgent-81F3.

Microscopic Analysis on LLM players via Social Deduction Game

分类： 人工智能, 计算和语言

作者： Byungjun Kim, Dayeon Seo, Bugeun Kim

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09946v1

摘要： Recent studies have begun developing autonomous game players for social deduction games using large language models (LLMs). When building LLM players, fine-grained evaluations are crucial for addressing weaknesses in game-playing abilities. However, existing studies have often overlooked such assessments. Specifically, we point out two issues with the evaluation methods employed. First, game-playing abilities have typically been assessed through game-level outcomes rather than specific event-level skills; Second, error analyses have lacked structured methodologies. To address these issues, we propose an approach utilizing a variant of the SpyFall game, named SpyGame. We conducted an experiment with four LLMs, analyzing their gameplay behavior in SpyGame both quantitatively and qualitatively. For the quantitative analysis, we introduced eight metrics to resolve the first issue, revealing that these metrics are more effective than existing ones for evaluating the two critical skills: intent identification and camouflage. In the qualitative analysis, we performed thematic analysis to resolve the second issue. This analysis identifies four major categories that affect gameplay of LLMs. Additionally, we demonstrate how these categories complement and support the findings from the quantitative analysis.

Benchmarking LLMs for Translating Classical Chinese Poetry:Evaluating Adequacy, Fluency, and Elegance

分类： 计算和语言, 人工智能

作者： Andong Chen, Lianzhang Lou, Kehai Chen, Xuefeng Bai, Yang Xiang, Muyun Yang, Tiejun Zhao, Min Zhang

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09945v1

摘要： Large language models (LLMs) have shown remarkable performance in general translation tasks. However, the increasing demand for high-quality translations that are not only adequate but also fluent and elegant. To assess the extent to which current LLMs can meet these demands, we introduce a suitable benchmark for translating classical Chinese poetry into English. This task requires not only adequacy in translating culturally and historically significant content but also a strict adherence to linguistic fluency and poetic elegance. Our study reveals that existing LLMs fall short of this task. To address these issues, we propose RAT, a \textbf{R}etrieval-\textbf{A}ugmented machine \textbf{T}ranslation method that enhances the translation process by incorporating knowledge related to classical poetry. Additionally, we propose an automatic evaluation metric based on GPT-4, which better assesses translation quality in terms of adequacy, fluency, and elegance, overcoming the limitations of traditional metrics. Our dataset and code will be made available.

AutoML-guided Fusion of Entity and LLM-based representations

分类： 人工智能, 计算和语言

作者： Boshko Koloski, Senja Pollak, Roberto Navigli, Blaž Škrlj

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09794v1

摘要： Large semantic knowledge bases are grounded in factual knowledge. However, recent approaches to dense text representations (embeddings) do not efficiently exploit these resources. Dense and robust representations of documents are essential for effectively solving downstream classification and retrieval tasks. This work demonstrates that injecting embedded information from knowledge bases can augment the performance of contemporary Large Language Model (LLM)-based representations for the task of text classification. Further, by considering automated machine learning (AutoML) with the fused representation space, we demonstrate it is possible to improve classification accuracy even if we use low-dimensional projections of the original representation space obtained via efficient matrix factorization. This result shows that significantly faster classifiers can be achieved with minimal or no loss in predictive performance, as demonstrated using five strong LLM baselines on six diverse real-life datasets.

GoNoGo: An Efficient LLM-based Multi-Agent System for Streamlining Automotive Software Release Decision-Making

分类： 人工智能, 计算和语言, 软件工程

作者： Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt, Andris Freimanis, Patrick Andersson, Dhasarathy Parthasarathy

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09785v1

摘要： Traditional methods for making software deployment decisions in the automotive industry typically rely on manual analysis of tabular software test data. These methods often lead to higher costs and delays in the software release cycle due to their labor-intensive nature. Large Language Models (LLMs) present a promising solution to these challenges. However, their application generally demands multiple rounds of human-driven prompt engineering, which limits their practical deployment, particularly for industrial end-users who need reliable and efficient results. In this paper, we propose GoNoGo, an LLM agent system designed to streamline automotive software deployment while meeting both functional requirements and practical industrial constraints. Unlike previous systems, GoNoGo is specifically tailored to address domain-specific and risk-sensitive systems. We evaluate GoNoGo's performance across different task difficulties using zero-shot and few-shot examples taken from industrial practice. Our results show that GoNoGo achieves a 100% success rate for tasks up to Level 2 difficulty with 3-shot examples, and maintains high performance even for more complex tasks. We find that GoNoGo effectively automates decision-making for simpler tasks, significantly reducing the need for manual intervention. In summary, GoNoGo represents an efficient and user-friendly LLM-based solution currently employed in our industrial partner's company to assist with software release decision-making, supporting more informed and timely decisions in the release process for risk-sensitive vehicle systems.

Strategic Demonstration Selection for Improved Fairness in LLM In-Context Learning

分类： 机器学习, 计算和语言, 计算机与社会

作者： Jingyu Hu, Weiru Liu, Mengnan Du

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09757v1

摘要： Recent studies highlight the effectiveness of using in-context learning (ICL) to steer large language models (LLMs) in processing tabular data, a challenging task given the structured nature of such data. Despite advancements in performance, the fairness implications of these methods are less understood. This study investigates how varying demonstrations within ICL prompts influence the fairness outcomes of LLMs. Our findings reveal that deliberately including minority group samples in prompts significantly boosts fairness without sacrificing predictive accuracy. Further experiments demonstrate that the proportion of minority to majority samples in demonstrations affects the trade-off between fairness and prediction accuracy. Based on these insights, we introduce a mitigation technique that employs clustering and evolutionary strategies to curate a diverse and representative sample set from the training data. This approach aims to enhance both predictive performance and fairness in ICL applications. Experimental results validate that our proposed method dramatically improves fairness across various metrics, showing its efficacy in real-world scenarios.

Paired Completion: Flexible Quantification of Issue-framing at Scale with LLMs

分类： 计算和语言, 人工智能, 普通经济学, 经济学, I.2.7

作者： Simon D Angus, Lachlan O'Neill

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09742v1

摘要： Detecting and quantifying issue framing in textual discourse - the perspective one takes to a given topic (e.g. climate science vs. denialism, misogyny vs. gender equality) - is highly valuable to a range of end-users from social and political scientists to program evaluators and policy analysts. However, conceptual framing is notoriously challenging for automated natural language processing (NLP) methods since the words and phrases used by either side' of an issue are often held in common, with only subtle stylistic flourishes separating their use. Here we develop and rigorously evaluate new detection methods for issue framing and narrative analysis within large text datasets. By introducing a novel application of next-token log probabilities derived from generative large language models (LLMs) we show that issue framing can be reliably and efficiently detected in large corpora with only a few examples of either perspective on a given issue, a method we call paired completion'. Through 192 independent experiments over three novel, synthetic datasets, we evaluate paired completion against prompt-based LLM methods and labelled methods using traditional NLP and recent LLM contextual embeddings. We additionally conduct a cost-based analysis to mark out the feasible set of performant methods at production-level scales, and a model bias analysis. Together, our work demonstrates a feasible path to scalable, accurate and low-bias issue-framing in large corpora.

Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer

分类： 计算和语言, 68T50 (Primary) 68T07 (Secondary)

作者： Mingda Li, Abhijit Mishra, Utkarsh Mujumdar

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09701v1

摘要： The use of Large Language Models (LLMs) for program code generation has gained substantial attention, but their biases and limitations with non-English prompts challenge global inclusivity. This paper investigates the complexities of multilingual prompt-based code generation. Our evaluations of LLMs, including CodeLLaMa and CodeGemma, reveal significant disparities in code quality for non-English prompts; we also demonstrate the inadequacy of simple approaches like prompt translation, bootstrapped data augmentation, and fine-tuning. To address this, we propose a zero-shot cross-lingual approach using a neural projection technique, integrating a cross-lingual encoder like LASER artetxe2019massively to map multilingual embeddings from it into the LLM's token space. This method requires training only on English data and scales effectively to other languages. Results on a translated and quality-checked MBPP dataset show substantial improvements in code quality. This research promotes a more inclusive code generation landscape by empowering LLMs with multilingual capabilities to support the diverse linguistic spectrum in programming.

GANPrompt: Enhancing Robustness in LLM-Based Recommendations with GAN-Enhanced Diversity Prompts

分类： 信息检索

作者： Xinyu Li, Chuang Zhao, Hongke Zhao, Likang Wu, Ming HE

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09671v1

摘要： In recent years, LLM has demonstrated remarkable proficiency in comprehending and generating natural language, with a growing prevalence in the domain of recommender systems. However, LLM continues to face a significant challenge in that it is highly susceptible to the influence of prompt words. This inconsistency in response to minor alterations in prompt input may compromise the accuracy and resilience of recommendation models. To address this issue, this paper proposes GANPrompt, a multi-dimensional large language model prompt diversity framework based on Generative Adversarial Networks (GANs). The framework enhances the model's adaptability and stability to diverse prompts by integrating GAN generation techniques with the deep semantic understanding capabilities of LLMs. GANPrompt first trains a generator capable of producing diverse prompts by analysing multidimensional user behavioural data. These diverse prompts are then used to train the LLM to improve its performance in the face of unseen prompts. Furthermore, to ensure a high degree of diversity and relevance of the prompts, this study introduces a mathematical theory-based diversity constraint mechanism that optimises the generated prompts to ensure that they are not only superficially distinct, but also semantically cover a wide range of user intentions. Through extensive experiments on multiple datasets, we demonstrate the effectiveness of the proposed framework, especially in improving the adaptability and robustness of recommender systems in complex and dynamic environments. The experimental results demonstrate that GANPrompt yields substantial enhancements in accuracy and robustness relative to existing state-of-the-art methodologies.

How to Make the Most of LLMs' Grammatical Knowledge for Acceptability Judgments

分类： 计算和语言, 人工智能

作者： Yusuke Ide, Yuto Nishida, Miyu Oba, Yusuke Sakai, Justin Vasselli, Hidetaka Kamigaito, Taro Watanabe

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09639v1

摘要： The grammatical knowledge of language models (LMs) is often measured using a benchmark of linguistic minimal pairs, where LMs are presented with a pair of acceptable and unacceptable sentences and required to judge which is acceptable. The existing dominant approach, however, naively calculates and compares the probabilities of paired sentences using LMs. Additionally, large language models (LLMs) have yet to be thoroughly examined in this field. We thus investigate how to make the most of LLMs' grammatical knowledge to comprehensively evaluate it. Through extensive experiments of nine judgment methods in English and Chinese, we demonstrate that a probability readout method, in-template LP, and a prompting-based method, Yes/No probability computing, achieve particularly high performance, surpassing the conventional approach. Our analysis reveals their different strengths, e.g., Yes/No probability computing is robust against token-length bias, suggesting that they harness different aspects of LLMs' grammatical knowledge. Consequently, we recommend using diverse judgment methods to evaluate LLMs comprehensively.

A Strategy to Combine 1stGen Transformers and Open LLMs for Automatic Text Classification

分类： 计算和语言

作者： Claudio M. V. de Andrade, Washington Cunha, Davi Reis, Adriana Silvina Pagano, Leonardo Rocha, Marcos André Gonçalves

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09629v1

摘要： Transformer models have achieved state-of-the-art results, with Large Language Models (LLMs), an evolution of first-generation transformers (1stTR), being considered the cutting edge in several NLP tasks. However, the literature has yet to conclusively demonstrate that LLMs consistently outperform 1stTRs across all NLP tasks. This study compares three 1stTRs (BERT, RoBERTa, and BART) with two open LLMs (Llama 2 and Bloom) across 11 sentiment analysis datasets. The results indicate that open LLMs may moderately outperform or match 1stTRs in 8 out of 11 datasets but only when fine-tuned. Given this substantial cost for only moderate gains, the practical applicability of these models in cost-sensitive scenarios is questionable. In this context, a confidence-based strategy that seamlessly integrates 1stTRs with open LLMs based on prediction certainty is proposed. High-confidence documents are classified by the more cost-effective 1stTRs, while uncertain cases are handled by LLMs in zero-shot or few-shot modes, at a much lower cost than fine-tuned versions. Experiments in sentiment analysis demonstrate that our solution not only outperforms 1stTRs, zero-shot, and few-shot LLMs but also competes closely with fine-tuned LLMs at a fraction of the cost.

MergeRepair: An Exploratory Study on Merging Task-Specific Adapters in Code LLMs for Automated Program Repair

分类： 软件工程, 人工智能

作者： Meghdad Dehghan, Jie JW Wu, Fatemeh H. Fard, Ali Ouni

发布时间： 2024-08-18

链接： http://arxiv.org/abs/2408.09568v1

摘要： [Context] Large Language Models (LLMs) have shown good performance in several software development-related tasks such as program repair, documentation, code refactoring, debugging, and testing. Adapters are specialized, small modules designed for parameter efficient fine-tuning of LLMs for specific tasks, domains, or applications without requiring extensive retraining of the entire model. These adapters offer a more efficient way to customize LLMs for particular needs, leveraging the pre-existing capabilities of the large model. Merging LLMs and adapters has shown promising results for various natural language domains and tasks, enabling the use of the learned models and adapters without additional training for a new task. [Objective] This research proposes continual merging and empirically studies the capabilities of merged adapters in Code LLMs, specially for the Automated Program Repair (APR) task. The goal is to gain insights into whether and how merging task-specific adapters can affect the performance of APR. [Method] In our framework, MergeRepair, we plan to merge multiple task-specific adapters using three different merging methods and evaluate the performance of the merged adapter for the APR task. Particularly, we will employ two main merging scenarios for all three techniques, (i) merging using equal-weight averaging applied on parameters of different adapters, where all adapters are of equal importance; and (ii) our proposed approach, continual merging, in which we sequentially merge the task-specific adapters and the order and weight of merged adapters matter. By exploratory study of merging techniques, we will investigate the improvement and generalizability of merged adapters for APR. Through continual merging, we will explore the capability of merged adapters and the effect of task order, as it occurs in real-world software projects.

Galapagos: Automated N-Version Programming with LLMs

分类： 软件工程

作者： Javier Ron, Diogo Gaspar, Javier Cabrera-Arteaga, Benoit Baudry, Martin Monperrus

发布时间： 2024-08-18

链接： http://arxiv.org/abs/2408.09536v1

摘要： One of the main challenges of N-Version Programming is development cost: it requires paying multiple teams to develop variants of the same system. To address this issue, we propose the automated generation of variants using large language models. We design, develop and evaluate Gal'apagos: a tool for generating program variants using LLMs, validating their correctness and equivalence, and using them to assemble N-Version binaries. We evaluate Gal'apagos by creating N-Version components of real-world C code. Our original results show that Gal'apagos can produce program variants that are proven to be functionally equivalent, even when the variants are written in a different programming language. Our systematic diversity measurement indicate that functionally equivalent variants produced by Gal'apagos, are statically different after compilation, and present diverging internal behavior at runtime. We demonstrate that the variants produced by Gal'apagos can protect C code against real miscompilation bugs which affect the Clang compiler. Overall, our paper shows that producing N-Version software can be drastically automated by advanced usage of practical formal verification and generative language models.

Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting

分类： 信息检索, 人工智能

作者： Zeyuan Chen, Haiyan Wu, Kaixin Wu, Wei Chen, Mingjie Zhong, Jia Xu, Zhongyi Liu, Wei Zhang

发布时间： 2024-08-18

链接： http://arxiv.org/abs/2408.09439v1

摘要： Relevance modeling is a critical component for enhancing user experience in search engines, with the primary objective of identifying items that align with users' queries. Traditional models only rely on the semantic congruence between queries and items to ascertain relevance. However, this approach represents merely one aspect of the relevance judgement, and is insufficient in isolation. Even powerful Large Language Models (LLMs) still cannot accurately judge the relevance of a query and an item from a semantic perspective. To augment LLMs-driven relevance modeling, this study proposes leveraging user interactions recorded in search logs to yield insights into users' implicit search intentions. The challenge lies in the effective prompting of LLMs to capture dynamic search intentions, which poses several obstacles in real-world relevance scenarios, i.e., the absence of domain-specific knowledge, the inadequacy of an isolated prompt, and the prohibitive costs associated with deploying LLMs. In response, we propose ProRBP, a novel Progressive Retrieved Behavior-augmented Prompting framework for integrating search scenario-oriented knowledge with LLMs effectively. Specifically, we perform the user-driven behavior neighbors retrieval from the daily search logs to obtain domain-specific knowledge in time, retrieving candidates that users consider to meet their expectations. Then, we guide LLMs for relevance modeling by employing advanced prompting techniques that progressively improve the outputs of the LLMs, followed by a progressive aggregation with comprehensive consideration of diverse aspects. For online serving, we have developed an industrial application framework tailored for the deployment of LLMs in relevance modeling. Experiments on real-world industry data and online A/B testing demonstrate our proposal achieves promising performance.

HySem: A context length optimized LLM pipeline for unstructured tabular extraction

分类： 计算和语言, 人工智能, F.2.2; I.2.7

作者： Narayanan PP, Anantharaman Palacode Narayana Iyer

发布时间： 2024-08-18

链接： http://arxiv.org/abs/2408.09434v1

摘要： Regulatory compliance reporting in the pharmaceutical industry relies on detailed tables, but these are often under-utilized beyond compliance due to their unstructured format and arbitrary content. Extracting and semantically representing tabular data is challenging due to diverse table presentations. Large Language Models (LLMs) demonstrate substantial potential for semantic representation, yet they encounter challenges related to accuracy and context size limitations, which are crucial considerations for the industry applications. We introduce HySem, a pipeline that employs a novel context length optimization technique to generate accurate semantic JSON representations from HTML tables. This approach utilizes a custom fine-tuned model specifically designed for cost- and privacy-sensitive small and medium pharmaceutical enterprises. Running on commodity hardware and leveraging open-source models, our auto-correcting agents rectify both syntax and semantic errors in LLM-generated content. HySem surpasses its peer open-source models in accuracy and provides competitive performance when benchmarked against OpenAI GPT-4o and effectively addresses context length limitations, which is a crucial factor for supporting larger tables.

FASST: Fast LLM-based Simultaneous Speech Translation

分类： 计算和语言, 人工智能

作者： Siqi Ouyang, Xi Xu, Chinmay Dandekar, Lei Li

发布时间： 2024-08-18

链接： http://arxiv.org/abs/2408.09430v1

摘要： Simultaneous speech translation (SST) takes streaming speech input and generates text translation on the fly. Existing methods either have high latency due to recomputation of input representations, or fall behind of offline ST in translation quality. In this paper, we propose FASST, a fast large language model based method for streaming speech translation. We propose blockwise-causal speech encoding and consistency mask, so that streaming speech input can be encoded incrementally without recomputation. Furthermore, we develop a two-stage training strategy to optimize FASST for simultaneous inference. We evaluate FASST and multiple strong prior models on MuST-C dataset. Experiment results show that FASST achieves the best quality-latency trade-off. It outperforms the previous best model by an average of 1.5 BLEU under the same latency for English to Spanish translation.

Game Development as Human-LLM Interaction

分类： 人工智能, 计算和语言, 人机交互

作者： Jiale Hong, Hongqiu Wu, Hai Zhao

发布时间： 2024-08-18

链接： http://arxiv.org/abs/2408.09386v1

摘要： Game development is a highly specialized task that relies on a complex game engine powered by complex programming languages, preventing many gaming enthusiasts from handling it. This paper introduces the Interaction-driven Game Engine (IGE) powered by LLM, which allows everyone to develop a custom game using natural language through Human-LLM interaction. To enable an LLM to function as an IGE, we instruct it to perform the following processes in each turn: (1) $P_{script}$ : configure the game script segment based on the user's input; (2) $P_{code}$ : generate the corresponding code snippet based on the game script segment; (3) $P_{utter}$ : interact with the user, including guidance and feedback. We propose a data synthesis pipeline based on the LLM to generate game script-code pairs and interactions from a few manually crafted seed data. We propose a three-stage progressive training strategy to transfer the dialogue-based LLM to our IGE smoothly. We construct an IGE for poker games as a case study and comprehensively evaluate it from two perspectives: interaction quality and code correctness. The code and data are available at \url{https://github.com/alterego238/IGE}.

Characterizing and Evaluating the Reliability of LLMs against Jailbreak Attacks

分类： 计算和语言, 人工智能, 软件工程

作者： Kexin Chen, Yi Liu, Dongxia Wang, Jiaying Chen, Wenhai Wang

发布时间： 2024-08-18

链接： http://arxiv.org/abs/2408.09326v1

摘要： Large Language Models (LLMs) have increasingly become pivotal in content generation with notable societal impact. These models hold the potential to generate content that could be deemed harmful.Efforts to mitigate this risk include implementing safeguards to ensure LLMs adhere to social ethics.However, despite such measures, the phenomenon of "jailbreaking" -- where carefully crafted prompts elicit harmful responses from models -- persists as a significant challenge. Recognizing the continuous threat posed by jailbreaking tactics and their repercussions for the trustworthy use of LLMs, a rigorous assessment of the models' robustness against such attacks is essential. This study introduces an comprehensive evaluation framework and conducts an large-scale empirical experiment to address this need. We concentrate on 10 cutting-edge jailbreak strategies across three categories, 1525 questions from 61 specific harmful categories, and 13 popular LLMs. We adopt multi-dimensional metrics such as Attack Success Rate (ASR), Toxicity Score, Fluency, Token Length, and Grammatical Errors to thoroughly assess the LLMs' outputs under jailbreak. By normalizing and aggregating these metrics, we present a detailed reliability score for different LLMs, coupled with strategic recommendations to reduce their susceptibility to such vulnerabilities. Additionally, we explore the relationships among the models, attack strategies, and types of harmful content, as well as the correlations between the evaluation metrics, which proves the validity of our multifaceted evaluation framework. Our extensive experimental results demonstrate a lack of resilience among all tested LLMs against certain strategies, and highlight the need to concentrate on the reliability facets of LLMs. We believe our study can provide valuable insights into enhancing the security evaluation of LLMs against jailbreak within the domain.

CyberPal.AI: Empowering LLMs with Expert-Driven Cybersecurity Instructions

分类： 计算和语言

作者： Matan Levi, Yair Alluouche, Daniel Ohayon, Anton Puzanov

发布时间： 2024-08-17

链接： http://arxiv.org/abs/2408.09304v1

摘要： Large Language Models (LLMs) have significantly advanced natural language processing (NLP), providing versatile capabilities across various applications. However, their application to complex, domain-specific tasks, such as cyber-security, often faces substantial challenges. In this study, we introduce SecKnowledge and CyberPal.AI to address these challenges and train security-expert LLMs. SecKnowledge is a domain-knowledge-driven cyber-security instruction dataset, meticulously designed using years of accumulated expert knowledge in the domain through a multi-phase generation process. CyberPal.AI refers to a family of LLMs fine-tuned using SecKnowledge, aimed at building security-specialized LLMs capable of answering and following complex security-related instructions. Additionally, we introduce SecKnowledge-Eval, a comprehensive and diverse cyber-security evaluation benchmark, composed of an extensive set of cyber-security tasks we specifically developed to assess LLMs in the field of cyber-security, along with other publicly available security benchmarks. Our results show a significant average improvement of up to 24% over the baseline models, underscoring the benefits of our expert-driven instruction dataset generation process. These findings contribute to the advancement of AI-based cyber-security applications, paving the way for security-expert LLMs that can enhance threat-hunting and investigation processes.

How Susceptible are LLMs to Influence in Prompts?

分类： 计算和语言, 人工智能, 机器学习

作者： Sotiris Anagnostidis, Jannis Bulian

发布时间： 2024-08-17

链接： http://arxiv.org/abs/2408.11865v1

摘要： Large Language Models (LLMs) are highly sensitive to prompts, including additional context provided therein. As LLMs grow in capability, understanding their prompt-sensitivity becomes increasingly crucial for ensuring reliable and robust performance, particularly since evaluating these models becomes more challenging. In this work, we investigate how current models (Llama, Mixtral, Falcon) respond when presented with additional input from another model, mimicking a scenario where a more capable model -- or a system with access to more external information -- provides supplementary information to the target model. Across a diverse spectrum of question-answering tasks, we study how an LLM's response to multiple-choice questions changes when the prompt includes a prediction and explanation from another model. Specifically, we explore the influence of the presence of an explanation, the stated authoritativeness of the source, and the stated confidence of the supplementary input. Our findings reveal that models are strongly influenced, and when explanations are provided they are swayed irrespective of the quality of the explanation. The models are more likely to be swayed if the input is presented as being authoritative or confident, but the effect is small in size. This study underscores the significant prompt-sensitivity of LLMs and highlights the potential risks of incorporating outputs from external sources without thorough scrutiny and further validation. As LLMs continue to advance, understanding and mitigating such sensitivities will be crucial for their reliable and trustworthy deployment.

Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text

分类： 计算和语言, 人工智能, 68T50, 68T07, 68T20, I.2.0; I.2.7; I.2.2

作者： Sher Badshah, Hassan Sajjad

发布时间： 2024-08-17

链接： http://arxiv.org/abs/2408.09235v2

摘要： The emergence of Large Language Models (LLMs) as chat assistants capable of generating human-like conversations has amplified the need for robust evaluation methods, particularly for open-ended tasks. Conventional metrics like BLEU and ROUGE, while useful, are increasingly inadequate for capturing the subtle semantics and contextual richness of such generative outputs. We propose a reference-guided verdict method that automates the evaluation process by leveraging multiple LLMs-as-judges. Through experiments on three open-ended question-answering tasks, we demonstrate that combining multiple LLMs-as-judges significantly improves the reliability and accuracy of evaluations, particularly in complex tasks where a single model might struggle. Our findings reveal a strong correlation with human evaluations, establishing our method as a viable and effective alternative to traditional metrics and human judgments, particularly in the context of LLM-based chat assistants where the complexity and diversity of responses challenge existing benchmarks.

Unraveling Text Generation in LLMs: A Stochastic Differential Equation Approach

分类： 机器学习, 人工智能, 计算和语言

作者： Yukun Zhang

发布时间： 2024-08-17

链接： http://arxiv.org/abs/2408.11863v1

摘要： This paper explores the application of Stochastic Differential Equations (SDE) to interpret the text generation process of Large Language Models (LLMs) such as GPT-4. Text generation in LLMs is modeled as a stochastic process where each step depends on previously generated content and model parameters, sampling the next word from a vocabulary distribution. We represent this generation process using SDE to capture both deterministic trends and stochastic perturbations. The drift term describes the deterministic trends in the generation process, while the diffusion term captures the stochastic variations. We fit these functions using neural networks and validate the model on real-world text corpora. Through numerical simulations and comprehensive analyses, including drift and diffusion analysis, stochastic process property evaluation, and phase space exploration, we provide deep insights into the dynamics of text generation. This approach not only enhances the understanding of the inner workings of LLMs but also offers a novel mathematical perspective on language generation, which is crucial for diagnosing, optimizing, and controlling the quality of generated text.

TC-RAG:Turing-Complete RAG's Case study on Medical LLM Systems

分类： 信息检索

作者： Xinke Jiang, Yue Fang, Rihong Qiu, Haoyu Zhang, Yongxin Xu, Hao Chen, Wentao Zhang, Ruizhe Zhang, Yuchen Fang, Xu Chu, Junfeng Zhao, Yasha Wang

发布时间： 2024-08-17

链接： http://arxiv.org/abs/2408.09199v1

摘要： In the pursuit of enhancing domain-specific Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) emerges as a promising solution to mitigate issues such as hallucinations, outdated knowledge, and limited expertise in highly specialized queries. However, existing approaches to RAG fall short by neglecting system state variables, which are crucial for ensuring adaptive control, retrieval halting, and system convergence. In this paper, we introduce the TC-RAG through rigorous proof, a novel framework that addresses these challenges by incorporating a Turing Complete System to manage state variables, thereby enabling more efficient and accurate knowledge retrieval. By leveraging a memory stack system with adaptive retrieval, reasoning, and planning capabilities, TC-RAG not only ensures the controlled halting of retrieval processes but also mitigates the accumulation of erroneous knowledge via Push and Pop actions. In the case study of the medical domain, our extensive experiments on real-world healthcare datasets demonstrate the superiority of TC-RAG over existing methods in accuracy by over 7.20%. Our dataset and code have been available at https://https://github.com/Artessay/SAMA.git.

Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making

分类： 人工智能, 计算和语言, 符号计算

作者： Siyu Wu, Alessandro Oltramari, Jonathan Francis, C. Lee Giles, Frank E. Ritter

发布时间： 2024-08-17

链接： http://arxiv.org/abs/2408.09176v1

摘要： Resolving the dichotomy between the human-like yet constrained reasoning processes of Cognitive Architectures and the broad but often noisy inference behavior of Large Language Models (LLMs) remains a challenging but exciting pursuit, for enabling reliable machine reasoning capabilities in production systems. Because Cognitive Architectures are famously developed for the purpose of modeling the internal mechanisms of human cognitive decision-making at a computational level, new investigations consider the goal of informing LLMs with the knowledge necessary for replicating such processes, e.g., guided perception, memory, goal-setting, and action. Previous approaches that use LLMs for grounded decision-making struggle with complex reasoning tasks that require slower, deliberate cognition over fast and intuitive inference -- reporting issues related to the lack of sufficient grounding, as in hallucination. To resolve these challenges, we introduce LLM-ACTR, a novel neuro-symbolic architecture that provides human-aligned and versatile decision-making by integrating the ACT-R Cognitive Architecture with LLMs. Our framework extracts and embeds knowledge of ACT-R's internal decision-making process as latent neural representations, injects this information into trainable LLM adapter layers, and fine-tunes the LLMs for downstream prediction. Our experiments on novel Design for Manufacturing tasks show both improved task performance as well as improved grounded decision-making capability of our approach, compared to LLM-only baselines that leverage chain-of-thought reasoning strategies.

Unc-TTP: A Method for Classifying LLM Uncertainty to Improve In-Context Example Selection

分类： 人工智能, 计算和语言

作者： Hsiu-Yuan Huang, Zichen Wu, Yutong Yang, Junzhao Zhang, Yunfang Wu

发布时间： 2024-08-17

链接： http://arxiv.org/abs/2408.09172v2

摘要： Nowadays, Large Language Models (LLMs) have demonstrated exceptional performance across various downstream tasks. However, it is challenging for users to discern whether the responses are generated with certainty or are fabricated to meet user expectations. Estimating the uncertainty of LLMs is particularly challenging due to their vast scale and the lack of white-box access. In this work, we propose a novel Uncertainty Tripartite Testing Paradigm (Unc-TTP) to classify LLM uncertainty, via evaluating the consistency of LLM outputs when incorporating label interference into the sampling-based approach. Based on Unc-TTP outputs, we aggregate instances into certain and uncertain categories. Further, we conduct a detailed analysis of the uncertainty properties of LLMs and show Unc-TTP's superiority over the existing sampling-based methods. In addition, we leverage the obtained uncertainty information to guide in-context example selection, demonstrating that Unc-TTP obviously outperforms retrieval-based and sampling-based approaches in selecting more informative examples. Our work paves a new way to classify the uncertainty of both open- and closed-source LLMs, and introduces a practical approach to exploit this uncertainty to improve LLMs performance.

From Specifications to Prompts: On the Future of Generative LLMs in Requirements Engineering

分类： 软件工程

作者： Andreas Vogelsang

发布时间： 2024-08-17

链接： http://arxiv.org/abs/2408.09127v1

摘要： Generative LLMs, such as GPT, have the potential to revolutionize Requirements Engineering (RE) by automating tasks in new ways. This column explores the novelties and introduces the importance of precise prompts for effective interactions. Human evaluation and prompt engineering are essential in leveraging LLM capabilities.

Speaking the Same Language: Leveraging LLMs in Standardizing Clinical Data for AI

分类： 计算和语言, 人工智能, 机器学习

作者： Arindam Sett, Somaye Hashemifar, Mrunal Yadav, Yogesh Pandit, Mohsen Hejrati

发布时间： 2024-08-16

链接： http://arxiv.org/abs/2408.11861v1

摘要： The implementation of Artificial Intelligence (AI) in the healthcare industry has garnered considerable attention, attributable to its prospective enhancement of clinical outcomes, expansion of access to superior healthcare, cost reduction, and elevation of patient satisfaction. Nevertheless, the primary hurdle that persists is related to the quality of accessible multi-modal healthcare data in conjunction with the evolution of AI methodologies. This study delves into the adoption of large language models to address specific challenges, specifically, the standardization of healthcare data. We advocate the use of these models to identify and map clinical data schemas to established data standard attributes, such as the Fast Healthcare Interoperability Resources. Our results illustrate that employing large language models significantly diminishes the necessity for manual data curation and elevates the efficacy of the data standardization process. Consequently, the proposed methodology has the propensity to expedite the integration of AI in healthcare, ameliorate the quality of patient care, whilst minimizing the time and financial resources necessary for the preparation of data for AI.

See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses

分类： 计算和语言

作者： Yulong Chen, Yang Liu, Jianhao Yan, Xuefeng Bai, Ming Zhong, Yinghao Yang, Ziyi Yang, Chenguang Zhu, Yue Zhang

发布时间： 2024-08-16

链接： http://arxiv.org/abs/2408.08978v1

摘要： The impressive performance of Large Language Models (LLMs) has consistently surpassed numerous human-designed benchmarks, presenting new challenges in assessing the shortcomings of LLMs. Designing tasks and finding LLMs' limitations are becoming increasingly important. In this paper, we investigate the question of whether an LLM can discover its own limitations from the errors it makes. To this end, we propose a Self-Challenge evaluation framework with human-in-the-loop. Starting from seed instances that GPT-4 fails to answer, we prompt GPT-4 to summarize error patterns that can be used to generate new instances and incorporate human feedback on them to refine these patterns for generating more challenging data, iteratively. We end up with 8 diverse patterns, such as text manipulation and questions with assumptions. We then build a benchmark, SC-G4, consisting of 1,835 instances generated by GPT-4 using these patterns, with human-annotated gold responses. The SC-G4 serves as a challenging benchmark that allows for a detailed assessment of LLMs' abilities. Our results show that only 44.96% of instances in SC-G4 can be answered correctly by GPT-4. Interestingly, our pilot study indicates that these error patterns also challenge other LLMs, such as Claude-3 and Llama-3, and cannot be fully resolved through fine-tuning. Our work takes the first step to demonstrate that LLMs can autonomously identify their inherent flaws and provide insights for future dynamic and automatic evaluation.

Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges

分类： 计算机与社会

作者： Baixiang Huang, Canyu Chen, Kai Shu

发布时间： 2024-08-16

链接： http://arxiv.org/abs/2408.08946v1

摘要： Accurate attribution of authorship is crucial for maintaining the integrity of digital content, improving forensic investigations, and mitigating the risks of misinformation and plagiarism. Addressing the imperative need for proper authorship attribution is essential to uphold the credibility and accountability of authentic authorship. The rapid advancements of Large Language Models (LLMs) have blurred the lines between human and machine authorship, posing significant challenges for traditional methods. We presents a comprehensive literature review that examines the latest research on authorship attribution in the era of LLMs. This survey systematically explores the landscape of this field by categorizing four representative problems: (1) Human-written Text Attribution; (2) LLM-generated Text Detection; (3) LLM-generated Text Attribution; and (4) Human-LLM Co-authored Text Attribution. We also discuss the challenges related to ensuring the generalization and explainability of authorship attribution methods. Generalization requires the ability to generalize across various domains, while explainability emphasizes providing transparent and understandable insights into the decisions made by these models. By evaluating the strengths and limitations of existing methods and benchmarks, we identify key open problems and future research directions in this field. This literature review serves a roadmap for researchers and practitioners interested in understanding the state of the art in this rapidly evolving field. Additional resources and a curated list of papers are available and regularly updated at https://llm-authorship.github.io

Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge

分类： 机器学习, 人工智能

作者： Ravi Raju, Swayambhoo Jain, Bo Li, Jonathan Li, Urmish Thakker

发布时间： 2024-08-16

链接： http://arxiv.org/abs/2408.08808v3

摘要： Large Language Models (LLMs) have revolutionized the landscape of machine learning, yet current benchmarks often fall short in capturing the diverse behavior of these models in real-world applications. A benchmark's usefulness is determined by its ability to clearly differentiate between models of varying capabilities (separability) and closely align with human preferences. Existing frameworks like Alpaca-Eval 2.0 LC \cite{dubois2024lengthcontrolledalpacaevalsimpleway} and Arena-Hard v0.1 \cite{li2024crowdsourced} are limited by their focus on general-purpose queries and lack of diversity across domains such as law, medicine, and multilingual contexts. In this paper, we address these limitations by introducing a novel data pipeline that curates diverse, domain-specific evaluation sets tailored for LLM-as-a-Judge frameworks. Our approach leverages a combination of manual curation, semi-supervised learning to generate clusters, and stratified sampling to ensure balanced representation across a wide range of domains and languages. The resulting evaluation set, which includes 1573 samples across 14 categories, demonstrates high separability (84%) across ten top-ranked models, and agreement (84%) with Chatbot Arena and (0.915) Spearman correlation. The agreement values are 9% better than Arena Hard and 20% better than AlpacaEval 2.0 LC, while the Spearman coefficient is 0.7 more than the next best benchmark, showcasing a significant improvement in the usefulness of the benchmark. We further provide an open-source evaluation tool that enables fine-grained analysis of model performance across user-defined categories, offering valuable insights for practitioners. This work contributes to the ongoing effort to enhance the transparency, diversity, and effectiveness of LLM evaluation methodologies.

Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions

分类： 人工智能, 计算和语言

作者： Bhuvanashree Murugadoss, Christian Poelitz, Ian Drosos, Vu Le, Nick McKenna, Carina Suzana Negreanu, Chris Parnin, Advait Sarkar

发布时间： 2024-08-16

链接： http://arxiv.org/abs/2408.08781v1

摘要： LLMs-as-a-judge is a recently popularized method which replaces human judgements in task evaluation (Zheng et al. 2024) with automatic evaluation using LLMs. Due to widespread use of RLHF (Reinforcement Learning from Human Feedback), state-of-the-art LLMs like GPT4 and Llama3 are expected to have strong alignment with human preferences when prompted for a quality judgement, such as the coherence of a text. While this seems beneficial, it is not clear whether the assessments by an LLM-as-a-judge constitute only an evaluation based on the instructions in the prompts, or reflect its preference for high-quality data similar to its fine-tune data. To investigate how much influence prompting the LLMs-as-a-judge has on the alignment of AI judgements to human judgements, we analyze prompts with increasing levels of instructions about the target quality of an evaluation, for several LLMs-as-a-judge. Further, we compare to a prompt-free method using model perplexity as a quality measure instead. We aggregate a taxonomy of quality criteria commonly used across state-of-the-art evaluations with LLMs and provide this as a rigorous benchmark of models as judges. Overall, we show that the LLMs-as-a-judge benefit only little from highly detailed instructions in prompts and that perplexity can sometimes align better with human judgements than prompting, especially on textual quality.

Rethinking Generative Semantic Communication for Multi-User Systems with Multi-Modal LLM

分类： 网络和互联网架构

作者： Wanting Yang, Zehui Xiong, Shiwen Mao, Tony Q. S. Quek, Ping Zhang, Merouane Debbah, Rahim Tafazolli

发布时间： 2024-08-16

链接： http://arxiv.org/abs/2408.08765v1

摘要： The surge in connected devices in 6G with typical massive access scenarios, such as smart agriculture, and smart cities, poses significant challenges to unsustainable traditional communication with limited radio resources and already high system complexity. Fortunately, the booming artificial intelligence technology and the growing computational power of devices offer a promising 6G enabler: semantic communication (SemCom). However, existing deep learning-based SemCom paradigms struggle to extend to multi-user scenarios due to their rigid end-to-end training approach. Consequently, to truly empower 6G networks with this critical technology, this article rethinks generative SemCom for multi-user system with multi-modal large language model (MLLM), and propose a novel framework called "M2GSC". In this framework, the MLLM, which serves as shared knowledge base (SKB), plays three critical roles for complex tasks, spawning a series of benefits such as semantic encoding standardization and semantic decoding personalization. Meanwhile, to enhance the performance of M2GSC framework and to advance its implementation in 6G, we highlight three research directions on M2GSC framework, namely, upgrading SKB to closed loop agent, adaptive semantic encoding offloading, and streamlined semantic decoding offloading. Finally, a case study is conducted to demonstrate the preliminary validation on the effectiveness of the M2GSC framework in terms of streamlined decoding offloading.

The Fellowship of the LLMs: Multi-Agent Workflows for Synthetic Preference Optimization Dataset Generation

分类： 计算和语言, 人工智能

作者： Samee Arif, Sualeha Farid, Abdul Hameed Azeemi, Awais Athar, Agha Ali Raza

发布时间： 2024-08-16

链接： http://arxiv.org/abs/2408.08688v1

摘要： This paper presents and evaluates multi-agent workflows for synthetic Preference Optimization (PO) dataset generation. PO dataset generation requires two modules: (1) response evaluation, and (2) response generation. In the response evaluation module, the responses from Large Language Models (LLMs) are evaluated and ranked - a task typically carried out by human annotators that we automate using LLMs. We assess the response evaluation module in a 2 step process. In step 1, we assess LLMs as evaluators using three distinct prompting strategies. In step 2, we apply the winning prompting strategy to compare the performance of LLM-as-a-Judge, LLMs-as-a-Jury, and LLM Debate. In each step, we use inter-rater agreement using Cohen's Kappa between human annotators and LLMs. For the response generation module, we compare different configurations for the LLM Feedback Loop using the identified LLM evaluator configuration. We use the win rate (the fraction of times a generation framework is selected as the best by an LLM evaluator) to determine the best multi-agent configuration for generation. After identifying the best configurations for both modules, we use models from the GPT, Gemma, and Llama families to generate our PO datasets using the above pipeline. We generate two types of PO datasets, one to improve the generation capabilities of individual LLM and the other to improve the multi-agent workflow. Our evaluation shows that GPT-4o-as-a-Judge is more consistent across datasets when the candidate responses do not include responses from the GPT family. Additionally, we find that the LLM Feedback Loop, with Llama as the generator and Gemma as the reviewer, achieves a notable 71.8% and 73.8% win rate over single-agent Llama and Gemma, respectively.

Fine-tuning LLMs for Autonomous Spacecraft Control: A Case Study Using Kerbal Space Program

分类： 人工智能, 天体物理学仪器和方法

作者： Alejandro Carrasco, Victor Rodriguez-Fernandez, Richard Linares

发布时间： 2024-08-16

链接： http://arxiv.org/abs/2408.08676v1

摘要： Recent trends are emerging in the use of Large Language Models (LLMs) as autonomous agents that take actions based on the content of the user text prompt. This study explores the use of fine-tuned Large Language Models (LLMs) for autonomous spacecraft control, using the Kerbal Space Program Differential Games suite (KSPDG) as a testing environment. Traditional Reinforcement Learning (RL) approaches face limitations in this domain due to insufficient simulation capabilities and data. By leveraging LLMs, specifically fine-tuning models like GPT-3.5 and LLaMA, we demonstrate how these models can effectively control spacecraft using language-based inputs and outputs. Our approach integrates real-time mission telemetry into textual prompts processed by the LLM, which then generate control actions via an agent. The results open a discussion about the potential of LLMs for space operations beyond their nominal use for text-related tasks. Future work aims to expand this methodology to other space control tasks and evaluate the performance of different LLM families. The code is available at this URL: \texttt{https://github.com/ARCLab-MIT/kspdg}.

LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs

分类： 计算和语言

作者： Do Xuan Long, Hai Nguyen Ngoc, Tiviatis Sim, Hieu Dao, Shafiq Joty, Kenji Kawaguchi, Nancy F. Chen, Min-Yen Kan

发布时间： 2024-08-16

链接： http://arxiv.org/abs/2408.08656v1

摘要： We present the first systematic evaluation examining format bias in performance of large language models (LLMs). Our approach distinguishes between two categories of an evaluation metric under format constraints to reliably and accurately assess performance: one measures performance when format constraints are adhered to, while the other evaluates performance regardless of constraint adherence. We then define a metric for measuring the format bias of LLMs and establish effective strategies to reduce it. Subsequently, we present our empirical format bias evaluation spanning four commonly used categories -- multiple-choice question-answer, wrapping, list, and mapping -- covering 15 widely-used formats. Our evaluation on eight generation tasks uncovers significant format bias across state-of-the-art LLMs. We further discover that improving the format-instruction following capabilities of LLMs across formats potentially reduces format bias. Based on our evaluation findings, we study prompting and fine-tuning with synthesized format data techniques to mitigate format bias. Our methods successfully reduce the variance in ChatGPT's performance among wrapping formats from 235.33 to 0.71 (%$^2$).

Automating Transparency Mechanisms in the Judicial System Using LLMs: Opportunities and Challenges

分类： 计算机与社会

作者： Ishana Shastri, Shomik Jain, Barbara Engelhardt, Ashia Wilson

发布时间： 2024-08-16

链接： http://arxiv.org/abs/2408.08477v1

摘要： Bringing more transparency to the judicial system for the purposes of increasing accountability often demands extensive effort from auditors who must meticulously sift through numerous disorganized legal case files to detect patterns of bias and errors. For example, the high-profile investigation into the Curtis Flowers case took seven reporters a full year to assemble evidence about the prosecutor's history of selecting racially biased juries. LLMs have the potential to automate and scale these transparency pipelines, especially given their demonstrated capabilities to extract information from unstructured documents. We discuss the opportunities and challenges of using LLMs to provide transparency in two important court processes: jury selection in criminal trials and housing eviction cases.

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

分类： 计算和语言, 计算机视觉和模式识别, 机器学习

作者： Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08459v2

摘要： Recent work in image and video generation has been adopting the autoregressive LLM architecture due to its generality and potentially easy integration into multi-modal systems. The crux of applying autoregressive training in language generation to visual generation is discretization -- representing continuous data like images and videos as discrete tokens. Common methods of discretizing images and videos include modeling raw pixel values, which are prohibitively lengthy, or vector quantization, which requires convoluted pre-hoc training. In this work, we propose to directly model images and videos as compressed files saved on computers via canonical codecs (e.g., JPEG, AVC/H.264). Using the default Llama architecture without any vision-specific modifications, we pretrain JPEG-LM from scratch to generate images (and AVC-LM to generate videos as a proof of concept), by directly outputting compressed file bytes in JPEG and AVC formats. Evaluation of image generation shows that this simple and straightforward approach is more effective than pixel-based modeling and sophisticated vector quantization baselines (on which our method yields a 31% reduction in FID). Our analysis shows that JPEG-LM has an especial advantage over vector quantization models in generating long-tail visual elements. Overall, we show that using canonical codec representations can help lower the barriers between language generation and visual generation, facilitating future research on multi-modal language/image/video LLMs.

Understanding Help-Seeking Behavior of Students Using LLMs vs. Web Search for Writing SQL Queries

分类： 人机交互, 人工智能, 计算机与社会, 数据库

作者： Harsh Kumar, Mohi Reza, Jeb Mitchell, Ilya Musabirov, Lisa Zhang, Michael Liut

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08401v1

摘要： Growth in the use of large language models (LLMs) in programming education is altering how students write SQL queries. Traditionally, students relied heavily on web search for coding assistance, but this has shifted with the adoption of LLMs like ChatGPT. However, the comparative process and outcomes of using web search versus LLMs for coding help remain underexplored. To address this, we conducted a randomized interview study in a database classroom to compare web search and LLMs, including a publicly available LLM (ChatGPT) and an instructor-tuned LLM, for writing SQL queries. Our findings indicate that using an instructor-tuned LLM required significantly more interactions than both ChatGPT and web search, but resulted in a similar number of edits to the final SQL query. No significant differences were found in the quality of the final SQL queries between conditions, although the LLM conditions directionally showed higher query quality. Furthermore, students using instructor-tuned LLM reported a lower mental demand. These results have implications for learning and productivity in programming education.

RED-CT：一种使用 LLM 标记数据训练和部署计算社会科学边缘分类器的系统设计方法

分类： 机器学习, 社交和信息网络

作者： David Farr, Nico Manzonelli, Iain Cruickshank, Jevin West

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08217v1

摘要： 大型语言模型 (LLM) 增强了我们快速分析和分类非结构化自然语言数据的能力。然而，对成本、网络限制和安全约束的担忧给它们集成到工作流程中带来了挑战。在本研究中，我们采用系统设计方法，利用大语言模型作为下游监督学习任务的不完美数据注释器，引入旨在提高分类性能的新颖的系统干预措施。我们的方法在八项测试中有七项优于大语言模型生成的标签，展示了将大语言模型纳入许多行业用例中存在的专业监督学习模型的设计和部署的有效策略。

KOALA：通过多层草案头和对抗性学习增强 LLM 的推测性解码

分类： 计算和语言

作者： Kaiqi Zhang, Jing Zhao, Rui Chen

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08146v1

摘要： 大型语言模型 (LLM) 由于其自回归解码特性而表现出较高的推理延迟。虽然推测解码中的草案头缓解了这个问题，但其全部潜力仍有待开发。在本文中，我们介绍了 KOALA（K 层优化对抗学习架构），这是一种针对草稿头的正交方法。通过将传统的单层draft head转变为多层架构，并将对抗性学习纳入传统的监督训练中，KOALA显着提高了draft head预测后续token的准确性，从而更接近地反映了LLM的功能。尽管这种改进是以稍微增加绘图开销为代价的，但 KOALA 极大地释放了绘图头的潜力，极大地增强了推测解码。我们对 KOALA 进行了全面评估，包括跨各种任务的自回归和非自回归草图头，结果表明延迟加速比提高了 0.24 倍-0.41 倍，比原始草图头快了 10.57%-14.09%。

I-SHEEP：大语言模型通过迭代自我增强范式从头开始自我调整

分类： 计算和语言

作者： Yiming Liang, Ge Zhang, Xingwei Qu, Tianyu Zheng, Jiawei Guo, Xinrun Du, Zhenzhu Yang, Jiaheng Liu, Chenghua Lin, Lei Ma, Wenhao Huang, Jiajun Zhang

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08072v1

摘要： 大型语言模型（LLM）已经取得了显着的进步，然而，常见的学习范式将 LLM 视为被动的信息存储库，忽视了它们主动学习和对齐的潜力。一些方法使用自己生成的合成数据来训练大语言模型，探索主动对齐的可能性。然而，这些一次性对准方法与人类的连续自动对准仍然存在巨大差距。在本文中，我们介绍了 \textbf{I-SHEEP}，一个 \textbf{I}terative \textbf{S}elf-En\textbf{H}anc\textbf{E}m\textbf{E}nt \textbf{ P}aradigm。这种类人范式使大语言模型能够 \textbf{从头开始连续自我调整，无需任何东西}。与本文中的第一次迭代的一次性对齐方法 Dromedary \cite{sun2023principledriven} 相比，I-SHEEP 可以显着增强 Qwen 和 Llama 模型的能力。 I-SHEEP 在 Alpaca Eval 中实现了 78.2% 的最大相对改进，在 MT Bench 中实现了 24.0% 的最大相对改进，并且在 Qwen-1.5 72B 模型中的后续迭代中，IFEval 精度绝对提高了 8.88%。此外，I-SHEEP 在各种标准基准生成任务中都超越了基础模型，在代码生成任务中平均提高了 24.77%，在 TrivialQA 中平均提高了 12.04%，在 SQuAD 中平均提高了 20.29%。我们还根据实验结果提供新的见解。我们的代码、数据集和模型可在 \textbf{https://anonymous.4open.science/r/I-SHEEP} 获取。

MedTsLLM：利用大语言模型进行多模式医疗时间序列分析

分类： 机器学习

作者： Nimeesha Chan, Felix Parker, William Bennett, Tianyi Wu, Mung Yao Jia, James Fackler, Kimia Ghobadi

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07773v1

摘要： 许多现实应用中数据的复杂性和异构性对传统机器学习和信号处理技术提出了重大挑战。例如，在医学领域，有效分析不同的生理信号对于患者监测和临床决策至关重要，但也极具挑战性。我们介绍 MedTsLLM，一个通用的多模态大语言模型（LLM）框架，它有效地整合时间序列数据和文本形式的丰富上下文信息来分析生理信号，执行三个与临床相关的任务：语义分割、边界检测和异常检测在时间序列中。这些关键任务可以对生理信号进行更深入的分析，并为临床医生提供可行的见解。我们利用重编程层将时间序列补丁的嵌入与预训练的 LLM 的嵌入空间对齐，并结合文本上下文有效利用原始时间序列。鉴于医学数据集的多变量性质，我们开发了处理多个协变量的方法。我们还定制文本提示以包含患者特定信息。我们的模型优于最先进的基线，包括深度学习模型、其他大语言模型以及跨多个医学领域的临床方法，特别是心电图和呼吸波形。 MedTsLLM 为利用大语言模型的力量进行医疗时间序列分析迈出了有希望的一步，可以为临床医生提升数据驱动工具并改善患者的治疗结果。

LLM、MLLM 及其他领域的模型合并：方法、理论、应用和机遇

分类： 机器学习, 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07666v2

摘要： 模型合并是机器学习社区中一种高效的赋能技术，不需要收集原始训练数据，也不需要昂贵的计算。随着模型合并在各个领域变得越来越普遍，全面了解可用的模型合并技术至关重要。然而，文献中对于这些技术的系统和彻底的回顾存在很大的差距。本综述全面概述了模型合并方法和理论、它们在各个领域和环境中的应用以及未来的研究方向。具体来说，我们首先提出了一种新的分类方法，详尽地讨论了现有的模型合并方法。其次，我们讨论了模型合并技术在大语言模型、多模态大语言模型和 10 多个机器学习子领域中的应用，包括持续学习、多任务学习、小样本学习等。最后，我们强调了剩余的挑战模型融合的研究并讨论未来的研究方向。有关模型合并的论文的完整列表可在 \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications} 获取。

超越项目间关系：基于 LLM 的顺序推荐的动态自适应专家混合

分类： 信息检索

作者： CanYi Liu, Wei Li, Youchen, Zhang, Hui Li, Rongrong Ji

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07427v1

摘要： 顺序推荐系统（SRS）根据用户历史交互序列预测用户可能更喜欢的下一个项目。受各种人工智能应用中大型语言模型 (LLM) 兴起的启发，基于 LLM 的 SRS 的工作激增。尽管性能吸引人，现有的基于 LLM 的 SRS 仍然表现出一些局限性，包括忽略项目内关系、忽略长期协作知识以及使用不灵活的架构设计进行适应。为了缓解这些问题，我们提出了一种名为 MixRec 的基于 LLM 的 SRS。 MixRec 建立在用于捕获项目间关系的粗粒度自适应之上，通过以下方式进一步增强：(1) 对项目内关系进行建模的上下文屏蔽，以帮助 LLM 更好地理解 SRS 上下文中的标记和项目语义，(2) 协作知识注入有助于大语言模型融入长期协作知识，以及（3）动态自适应专家混合设计，可以灵活选择基于贝叶斯优化的专家架构，以更好地融入不同的顺序信息。大量的实验表明，MixRec 可以以动态和自适应的方式有效地处理顺序推荐。

LLMI3D：通过单个 2D 图像增强 LLM 的 3D 感知能力

分类： 计算机视觉和模式识别, 人工智能

作者： Fan Yang, Sicheng Zhao, Yanhao Zhang, Haoxiang Chen, Hui Chen, Wenbo Tang, Haonan Lu, Pengfei Xu, Zhenyu Yang, Jungong Han, Guiguang Ding

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07422v1

摘要： 自动驾驶、增强现实、机器人技术和实体智能的最新进展使得 3D 感知算法成为必要。然而，当前的 3D 感知方法，尤其是小型模型，在处理逻辑推理、问题回答和处理开放场景类别方面存在困难。另一方面，生成式多模态大语言模型（MLLM）在一般能力方面表现出色，但在 3D 任务中表现不佳，因为空间和局部物体感知较弱，基于文本的几何数值输出较差，并且无法处理相机焦距变化。为了应对这些挑战，我们提出了以下解决方案：用于更好地提取空间特征的空间增强局部特征挖掘、用于精确几何回归的 3D 查询令牌派生信息解码以及用于处理相机焦距变化的基于几何投影的 3D 推理。我们对预训练的 MLLM 采用参数高效的微调，并开发了 LLMI3D，这是一种强大的 3D 感知 MLLM。此外，我们还构建了 IG3D 数据集，它提供了细粒度的描述和问答注释。大量实验表明，我们的 LLMI3D 实现了最先进的性能，显着优于现有方法。

LLM 增强静态分析可精确识别易受攻击的 OSS 版本

分类： 软件工程, 密码学和安全

作者： Yiran Cheng, Lwin Khin Shar, Ting Zhang, Shouguo Yang, Chaopeng Dong, David Lo, Shichao Lv, Zhiqiang Shi, Limin Sun

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07321v1

摘要： 开源软件 (OSS) 因其协作开发模式和成本效益而受到欢迎。然而，在开发项目中采用特定的软件版本，当这些版本带来漏洞时，可能会带来安全风险。当前识别易受攻击版本的方法通常使用具有预定义规则的静态分析来分析和跟踪漏洞补丁中涉及的代码。然后，他们使用语法级代码克隆检测来识别易受攻击的版本。由于 (1) 在分析中包含与漏洞无关的代码以及 (2) 语法级代码克隆检测的不足，这些方法受到不精确性的阻碍。本文介绍了 Vercation，一种旨在识别用 C/C++ 编写的 OSS 易受攻击版本的方法。 Vercation 将程序切片与大型语言模型 (LLM) 相结合，以从漏洞补丁中识别与漏洞相关的代码。然后，它回溯历史提交，以收集已识别的漏洞相关代码的先前修改。我们提出语义级代码克隆检测来比较修改前和修改后代码之间的差异，从而定位引入漏洞的提交（vic）并能够识别补丁提交和vic之间的易受攻击的版本。我们整理了一个链接 74 个 OSS 漏洞和 1013 个版本的数据集来评估 Vercation。在此数据集上，我们的方法达到了 92.4% 的 F1 分数，优于当前最先进的方法。更重要的是，Vercation 在 NVD 报告中检测到 134 个不正确的易受攻击的 OSS 版本。

使用高级大语言模型来增强小型大语言模型：一种可解释的知识蒸馏方法

分类： 计算和语言, 人工智能, 机器学习

作者： Tong Wang, K. Sudhir, Dat Hong

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07238v1

摘要： GPT-4 或 LlaMa 3 等高级大型语言模型 (LLM) 在复杂的类人交互中提供卓越的性能。但它们成本高昂，或者对于智能手机等边缘设备来说太大，并且难以自行托管，从而导致安全和隐私问题。本文介绍了一种新颖的可解释知识蒸馏方法，以提高公司可以自行主办的更小、更经济的大语言模型的绩效。我们在建立客户服务代理的背景下研究这个问题，旨在通过目标导向的对话实现高客户满意度。与传统的知识蒸馏不同，“学生”模型通过微调直接从“教师”模型的响应中学习，我们的可解释“策略”教学方法涉及教师提供策略以提高学生在各种场景中的表现。该方法在“场景生成”步骤和“改进策略”步骤之间交替，创建定制的场景库和自动提示的优化策略。该方法只需要对学生和教师模型进行黑盒访问；因此可以在不操纵模型参数的情况下使用它。在我们的客户服务应用程序中，该方法提高了性能，并且学习到的策略可以转移到训练集之外的其他大语言模型和场景。该方法的可解释性有助于防止人工审核造成的潜在危害。

ELLA：为大语言模型提供可解释、准确和信息丰富的法律建议

分类： 计算和语言

作者： Yutong Hu, Kangcheng Luo, Yansong Feng

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07137v1

摘要： 尽管法律大语言模型（LLM）结合法律文章检索组件在法律咨询方面表现出色，但仍然存在提供不正确或毫无根据的建议的情况。为了缓解这些问题，我们提出了 {\bf ELLA}，这是一种为 {\bf E} 增强 {\bf L}LM 提供可解释、准确和信息丰富的 {\bf L}egal {\bf A}建议的工具。 ELLA通过计算相似度，直观地呈现法律文章与LLM回复之间的相关性，为用户提供直观的回复法律依据。此外，ELLA还根据用户的查询，检索相关法律文章并展示给用户。用户可以交互式地选择大语言模型的法律文章，以生成更准确的答复。 ELLA还检索了相关法律案例供用户参考。我们的用户研究表明，提供响应的法律依据有助于用户更好地理解。当用户参与选择LLM的法律文章时，LLM的回答准确性也会提高。提供相关法律案例也有助于个人获得全面的信息。

“你还得学习”——论LLM生成代码的安全性

分类： 软件工程, 密码学和安全, 机器学习

作者： Stefan Goetz, Andreas Schaad

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07106v1

摘要： 我们见证了人工智能助手的使用越来越多，甚至在日常（课堂）编程任务中也是如此。然而，程序员根据所谓的“提示”生成的代码并不总是符合公认的安全标准。一方面，这可能是由于训练数据中缺乏最佳实践示例。另一方面，程序员提示的实际质量似乎会影响生成的代码是否包含弱点。在本文中，我们分析了 4 个主要的大语言模型在生成代码的安全性方面的情况。我们基于 Python 和 Javascript 语言的案例研究来做到这一点，并使用 MITRE CWE 目录作为指导安全定义。我们的结果表明，使用不同的提示技术，一些大语言模型最初生成 65% 的代码，这些代码被训练有素的安全工程师认为是不安全的。另一方面，随着熟练工程师不断增加的手动指导，几乎所有经过分析的大语言模型最终都会生成接近 100% 安全的代码。

LongWriter：从长上下文大语言模型中释放 10,000 多个单词生成能力

分类： 计算和语言, 机器学习

作者： Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07055v1

摘要： 当前的长上下文大语言模型 (LLM) 可以处理多达 100,000 个标记的输入，但很难生成超过 2,000 个单词的适度长度的输出。通过受控实验，我们发现模型的有效生成长度本质上受到监督微调（SFT）期间看到的样本的限制。换句话说，它们的输出限制是由于现有 SFT 数据集中缺乏长输出示例。为了解决这个问题，我们引入了 AgentWrite，这是一种基于代理的管道，可将超长生成任务分解为子任务，使现成的 LLM 能够生成超过 20,000 个单词的连贯输出。利用 AgentWrite，我们构建了 LongWriter-6k，这是一个包含 6,000 个 SFT 数据的数据集，输出长度范围为 2k 到 32k 个单词。通过将该数据集合并到模型训练中，我们成功地将现有模型的输出长度扩展到超过 10,000 个单词，同时保持输出质量。我们还开发了 LongBench-Write，这是一个评估超长生成能力的综合基准。我们的 9B 参数模型通过 DPO 进一步改进，在该基准测试中实现了最先进的性能，超越了更大的专有模型。总的来说，我们的工作表明，现有的长上下文 LLM 已经具备了更大输出窗口的潜力——您所需要的只是在模型对齐期间具有扩展输出的数据来解锁此功能。我们的代码和模型位于：https://github.com/THUDM/LongWriter。

LLM 可以安排

分类： 人工智能

作者： Henrik Abgaryan, Ararat Harutyunyan, Tristan Cazenave

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06993v1

摘要： 作业车间调度问题（JSSP）仍然是优化生产流程的一个重大障碍。这一挑战涉及有效地将作业分配给有限数量的机器，同时最大限度地减少总处理时间或作业延迟等因素。虽然人工智能的最新进展已经产生了有前景的解决方案，例如强化学习和图神经网络，但本文探讨了 JSSP 大型语言模型 (LLM) 的潜力。我们引入了第一个 120k 监督数据集，专门用于训练 JSSP 的大语言模型。令人惊讶的是，我们的研究结果表明，基于 LLM 的调度可以实现与其他神经方法相当的性能。此外，我们提出了一种抽样方法，可以提高大语言模型解决 JSSP 的有效性。

重新任务：从能力、技能和知识的角度重新审视大语言模型任务

分类： 计算和语言

作者： Zhihu Wang, Shiwan Zhao, Yu Wang, Heyuan Huang, Jiaxin Shi, Sitao Xie, Zhixing Wang, Yubo Zhang, Hongyan Li, Junchi Yan

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06904v1

摘要： 随着大型语言模型 (LLM) 的不断扩展，其增强的性能通常不足以解决特定领域的任务。系统地分析他们的失败并有效提高他们的绩效仍然是重大挑战。本文介绍了Re-TASK框架，这是一种新颖的理论模型，在布鲁姆分类学和知识空间理论原则的指导下，从能力、技能、知识的角度重新审视大语言模型任务。 Re-TASK 框架提供了一种系统的方法来加深我们对特定领域任务的大语言模型的理解、评估和增强。它探讨了大语言模型的能力、其处理的知识及其应用的技能之间的相互作用，阐明这些要素如何相互关联并影响任务绩效。我们对 Re-TASK 框架的应用表明，特定领域任务中的许多失败可归因于知识不足或技能适应不足。有了这种洞察力，我们提出了通过有针对性的知识注入和技能适应来增强大语言模型的结构化策略。具体来说，我们识别与任务相关的关键能力项目，并采用精心设计的提示策略来提高任务绩效，从而减少大量微调的需要。或者，我们使用特定于能力的指令对大语言模型进行微调，进一步验证我们框架的有效性。实验结果证实了该框架的有效性，证明了大语言模型的性能和适用性都有显着提高。

人类图表要点和大语言模型预测有多一致？不同布局的条形图案例研究

分类： 人机交互

作者： Huichen Will Wang, Jane Hoffswell, Sao Myat Thazin Thane, Victor S. Bursztyn, Cindy Xiong Bearfield

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06837v1

摘要： 大型语言模型 (LLM) 已被用于各种可视化任务，但我们离能够预测人类要点的感知感知 LLM 还有多远？图形感知文献表明，人体图表要点对可视化设计选择（例如空间布局）很敏感。在这项工作中，我们使用具有不同空间布局的条形图作为案例研究，研究了大语言模型在生成要点时表现出这种敏感性的程度。我们进行了三个实验并测试了四种常见的条形图布局：垂直并置、水平并置、重叠和堆叠。在实验 1 中，我们通过测试四个 LLM、两个温度设置、九个图表规范和两个提示策略，确定了生成有意义的图表要点的最佳配置。我们发现，即使是最先进的大语言模型也很难得出语义多样且事实上准确的结论。在实验 2 中，我们使用最佳配置生成 30 个图表要点，每个图表要点适用于四种布局和零样本和单样本设置中的两个数据集的八个可视化。与人类的结论相比，我们发现大语言模型生成的结论通常与人类进行的比较类型不匹配。在实验 3 中，我们研究了图表背景和数据对大语言模型要点的影响。我们发现，大语言模型与人类不同，对于使用相同条形布局的不同条形图，其外卖比较类型表现出差异。总的来说，我们的案例研究评估了大语言模型模拟人类对数据的解释的能力，并指出了使用大语言模型预测人类图表要点的挑战和机遇。

MAQA：评估大语言模型中关于数据不确定性的不确定性量化

分类： 人工智能, 计算和语言

作者： Yongjin Yang, Haneul Yoo, Hwaran Lee

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06816v1

摘要： 尽管大型语言模型 (LLM) 能够执行各种任务，但它们仍然会产生看似合理但不正确的响应。为了提高大语言模型的可靠性，最近的研究重点是不确定性量化，以预测回答是否正确。然而，大多数不确定性量化方法都是针对需要单一明确答案的问题进行评估的，忽略了因不可约随机性而产生的数据不确定性的存在。相反，这些方法只考虑模型的不确定性，这是由于缺乏知识而产生的。在本文中，我们研究了数据不确定性存在下的先前不确定性量化方法。我们的贡献有两个方面：1) 提出一个新的多答案问答数据集 MAQA，其中包含世界知识、数学推理和常识推理任务，以评估有关数据不确定性的不确定性量化；2) 评估 5 种不确定性量化方法多样化的白盒和黑盒大语言模型。我们的研究结果表明，即使在数据不确定的情况下，基于熵和一致性的方法也能很好地估计模型的不确定性，而其他用于白盒和黑盒大语言模型的方法则根据任务而苦苦挣扎。此外，与简单的知识查询相比，为白盒大语言模型设计的方法在推理任务中存在过度自信的问题。我们相信我们的观察将为未来在现实环境中进行不确定性量化工作铺平道路。

HLSPilot：基于大语言模型的高级综合

分类： 硬件架构

作者： Chenwei Xiong, Cheng Liu, Huawei Li, Xiaowei Li

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06810v1

摘要： 大型语言模型（LLM）促进了自动代码生成的热潮，引起了寄存器传输级（RTL）代码生成的极大关注。尽管使用自然语言生成 RTL 代码具有潜力，但由于自然语言表达和硬件设计意图之间存在巨大的语义差距，它仍然容易出错并且仅限于相对较小的模块。为了应对这些限制，我们提出了一种方法，通过高级综合 (HLS) 工具利用 C/C++ 生成硬件设计，从而减少语义差距。基本上，我们构建了一套 C 到 HLS 优化策略，以满足各种代码模式，例如嵌套循环和本地数组。然后，我们通过上下文学习将这些策略应用于顺序 C/C++ 代码，这为大语言模型提供了示例性的 C/C++ 到 HLS 提示。通过这种方法，可以有效地生成 HLS 设计。由于大语言模型在精确确定优化的编译指示参数方面仍然面临问题，因此我们集成了一个设计空间探索 (DSE) 工具，用于调试编译指示参数。此外，我们还使用分析工具来查明程序中的性能瓶颈，并有选择地将瓶颈组件转换为 HLS 代码以进行硬件加速。通过结合基于 LLM 的分析、C/C++ 到 HLS 转换和 DSE，我们建立了 HLSPilot，这是第一个支持 LLM 的高级综合框架，可以在混合 CPU-FPGA 架构上完全自动化高级应用程序加速。根据我们对实际应用基准测试的实验，HLSPilot 总体上实现了可比的性能，甚至可以超越手动制作的同类产品，从而强调了 LLM 辅助硬件设计的巨大前景。

释放冻结的大语言模型在知识图谱补全方面的力量

分类： 计算和语言

作者： Bo Xue, Yi Xu, Yunchong Song, Yiming Pang, Yuyang Ren, Jiaxin Ding, Luoyi Fu, Xinbing Wang

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06787v1

摘要： 经典的知识图补全（KGC）方法仅依赖于结构信息，与知识图（KG）固有的稀疏性作斗争。大型语言模型 (LLM) 通过强大的上下文建模从大型语料库中学习广泛的知识，这非常适合缓解以前方法的局限性。直接微调 LLM 提供了强大的功能，但代价是大量的时间和内存消耗，而利用冻结的 LLM 会产生次优结果。在这项工作中，我们的目标是有效且高效地利用 KGC 的大语言模型。我们通过使用提示来刺激大语言模型的中间层来捕获知识三元组的上下文感知隐藏状态。然后，我们在这些隐藏状态上训练数据高效的分类器，以利用 KGC 中冻结的 LLM 的固有功能。我们还通过知识图谱上的子图采样生成实体描述，减少三元组的歧义并丰富知识表示。标准基准的广泛实验展示了我们方法的效率和有效性。我们在大多数数据集上都优于经典的 KGC 方法，并且与微调的 LLM 的性能相匹配。此外，与微调的 LLM 相比，我们将 GPU 内存效率提高了 \textbf{$188\times$}，并将训练+推理速度提高了 \textbf{$13.48\times$}。

大语言模型对标量含义的语用推理

分类： 计算和语言

作者： Ye-eun Cho, Seong mook Kim

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06673v1

摘要： 这项研究调查了大型语言模型 (LLM)，特别是 BERT（Devlin 等人，2019）和 GPT-2（Radford 等人，2019）如何参与标量含义的语用推理，例如一些。使用余弦相似度和下一个句子/标记预测作为实验方法进行了两组实验。实验 1 的结果表明，两种模型都将某些含义解释为语用含义，并非全部在没有上下文的情况下，与人类语言处理保持一致。在实验 2 中，讨论中的问题 (QUD) 作为上下文线索呈现，无论 QUD 类型如何，BERT 都表现出一致的性能，而 GPT-2 则遇到了处理困难，因为某种类型的 QUD 需要对含义进行语用推理。研究结果表明，就理论方法而言，BERT 本质上包含了实用含义，并非全部包含在“some”一词中，遵循默认模型（Levinson，2000）。相比之下，GPT-2 在推断上下文中的实用含义时似乎遇到了处理困难，这与上下文驱动模型一致（Sperber 和 Wilson，2002）。

利用收益报告进行股票预测：QLoRA 增强型 LLM 方法

分类： 计算金融, 计算和语言, 机器学习, 统计金融

作者： Haowei Ni, Shuchen Meng, Xupeng Chen, Ziqing Zhao, Andi Chen, Panfeng Li, Shiyao Zhang, Qifu Yin, Yuanqing Wang, Yuxi Chan

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06634v1

摘要： 收益报告后准确的股市预测对投资者至关重要。传统方法，特别是经典机器学习模型，很难有效地处理和解释收益报告中包含的大量文本数据，并且常常忽略影响市场走势的细微差别，因此无法有效地处理和解释这些预测。本文介绍了一种先进的方法，采用大型语言模型 (LLM) 指令，并通过基于指令的技术和量化低秩自适应 (QLoRA) 压缩的新颖组合进行微调。我们的方法将“基本因素”（例如财务指标增长和收益记录）与“外部因素”（包括近期市场指数表现和分析师评级）相结合，以创建丰富的受监管数据集。这个全面的数据集使我们的模型能够在准确性、加权 F1 和马修斯相关系数 (MCC) 方面实现卓越的预测性能，在与 GPT-4 等基准的比较中尤其明显。我们特别强调了 llama-3-8b-Instruct-4bit 模型的功效，该模型展示了相对于基线模型的显着改进。本文还讨论了扩大输出能力以包括“持有”选项和扩大预测范围的潜力，旨在适应各种投资风格和时间框架。这项研究不仅展示了尖端人工智能与微调金融数据相结合的力量，而且为未来增强人工智能驱动的金融分析工具的研究铺平了道路。

CROME：高效多模式 LLM 的跨模式适配器

分类： 计算机视觉和模式识别, 计算和语言, 机器学习

作者： Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06610v1

摘要： 多模态大语言模型（MLLM）展示了卓越的图像语言能力，但其广泛使用面临着成本效益训练和适应方面的挑战。现有方法通常需要昂贵的语言模型再训练和有限的适应性。此外，当前对零样本性能改进的关注为特定于任务的调整提供了不足的指导。我们提出了 CROME，一种高效的视觉语言指令调优框架。它具有新颖的门控跨模式适配器，可以在输入到冻结的大语言模型之前有效地结合视觉和文本表示。这种轻量级适配器使用最少的参数进行训练，可以实现高效的跨模式理解。值得注意的是，CROME 在标准视觉问答和指令遵循基准测试中展示了卓越的零样本性能。此外，它还能以卓越的参数效率进行微调，与特定任务的专业最先进方法相竞争。 CROME 展示了预 LM 对齐在构建可扩展、适应性强和参数高效的多模态模型方面的潜力。

公平多模式大语言模型的社会消除偏见

分类： 计算和语言, 人工智能

作者： Harry Cheng, Yangyang Guo, Qingpei Guo, Ming Yang, Tian Gan, Liqiang Nie

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06569v1

摘要： 多模态大语言模型 (MLLM) 取得了显着进步，提供了强大的视觉语言理解能力。然而，这些模型往往从训练数据集中继承了严重的社会偏见，导致基于种族和性别等属性的不公平预测。本文通过 i) 引入具有多个社会概念 (CMSC) 的综合反事实数据集来解决 MLLM 中的社会偏见问题，与现有数据集相比，它提供了更加多样化和广泛的训练集。 ii) 提出反刻板印象消除偏见策略（ASD）。我们的方法通过重新审视 MLLM 训练过程、重新调整自回归损失函数以及改进数据采样方法来抵消偏差来发挥作用。通过对各种 MLLM 进行大量实验，我们的 CMSC 数据集和 ASD 方法证明了社会偏见的显着减少，同时保持了模型的原始性能。

NewsPaLM MBR 和 QE 数据集简介：LLM 生成的高质量并行数据优于传统的网络爬取数据

分类： 计算和语言

作者： Mara Finkelstein, David Vilar, Markus Freitag

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06537v1

摘要： 神经机器翻译 (NMT) 的最新研究表明，对高质量机器生成数据的训练可以优于对人类生成数据的训练。这项工作伴随着首次发布的 LLM 生成、MBR 解码和 QE 重新排序数据集，其中包含句子级和多句子示例。我们进行了大量的实验，以证明我们的数据集的质量对 NMT 模型性能的下游影响。我们发现，在我们的（机器生成的）数据集上从头开始的训练优于在（网络抓取的）WMT'23 训练数据集（大 300 倍）上的训练，并且也优于在 WMT' 的顶级质量子集上的训练。 23个训练数据集。我们还发现，通过微调生成此数据集的 LLM 来执行自蒸馏，其性能优于 LLM 强大的小样本基线。这些发现证实了我们数据集的质量，并证明了高质量机器生成数据在提高 NMT 模型性能方面的价值。

大语言模型的策略链规划：将心理治疗对话的产生与动机访谈中的策略相结合

分类： 计算和语言, 人工智能

作者： Xin Sun, Xiao Tang, Abdallah El Ali, Zhuying Li, Xiaoyu Shen, Pengjie Ren, Jan de Wit, Jiahuan Pei, Jos A. Bosch

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06527v1

摘要： 大语言模型 (LLM) 的最新进展在生成心理治疗对话方面显示出了希望，特别是在动机访谈 (MI) 方面。然而，如何运用策略（一套动机性访谈（MI）技能）来产生具有可解释性的治疗依从性对话尚未得到充分探索。我们提出了一种称为策略感知对话生成和策略链（CoS）规划的方法，该方法首先预测 MI 策略作为推理，并利用这些策略来指导后续的对话生成。它通过将生成的 MI 对话与治疗策略结合起来，为心理治疗带来了可控和可解释生成的潜力。进行了大量的实验，包括自动和人工评估，以验证 MI 策略的有效性。我们的研究结果证明了大语言模型在进行战略性对话方面的潜力，并为心理治疗环境中的实际应用提出了方向。

我们可以依靠大语言模型代理人来起草长期计划吗？我们以 TravelPlanner 为例

分类： 人工智能, 机器学习

作者： Yanan Chen, Ali Pesaranghader, Tanmana Sadhu, Dong Hoon Yi

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06318v1

摘要： 大型语言模型（LLM）因其有前景的泛化能力和涌现能力而使自主代理更接近通用人工智能（AGI）。然而，目前缺乏关于基于 LLM 的代理如何行为、它们可能失败的原因以及如何改进它们的研究，特别是在要求严格的现实世界规划任务中。在本文中，为了填补这一空白，我们使用现实的基准 TravelPlanner 来展示我们的研究，其中代理必须满足多个约束才能生成准确的计划。我们利用这个基准来解决四个关键的研究问题：（1）LLM 代理在推理和规划方面是否足够强大，能够应对冗长且嘈杂的环境？ (2) 在长上下文场景中，少样本提示会对 LLM 代理的性能产生不利影响吗？（3）我们可以依靠细化来改进计划吗？（4）通过积极和消极的反馈对LLM进行微调是否可以带来进一步的改进？我们的综合实验表明，首先，尽管大语言模型有能力处理广泛的参考信息和少数例子，但他们往往无法关注长背景的关键部分；其次，他们仍然难以分析长期计划，无法为细化提供准确的反馈；第三，我们提出反馈感知微调（FAFT），它利用正反馈和负反馈，比监督微调（SFT）有显着的收益。我们的研究结果为社区提供了与现实世界规划应用相关的各个方面的深入见解。

使用大语言模型根据临床记录生成综合患者与医生对话

分类： 计算和语言, 人工智能, 机器学习

作者： Trisha Das, Dina Albassam, Jimeng Sun

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06285v1

摘要： 医疗对话系统 (MDS) 增强患者与医生的沟通，提高医疗保健的可及性并降低成本。然而，获取合适的数据来训练这些系统带来了巨大的挑战。隐私问题阻碍了真实对话的使用，因此需要合成替代方案。根据公开的临床记录生成综合对话为这个问题提供了一个有希望的解决方案，在提供真实数据的同时保护隐私。我们的方法 SynDial 迭代地使用单个 LLM 与零样本提示和反馈循环来生成和完善高质量的合成对话。反馈包括相似性和提取性的加权评估分数。迭代过程确保对话满足预定义的阈值，通过反馈循环实现卓越的提取性。此外，评估表明，与基线相比，生成的对话在事实性指标方面表现出色，并且具有与 GPT4 相当的多样性分数。

相互推理使规模较小的大语言模型成为更强大的问题解决者

分类： 计算和语言

作者： Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06195v1

摘要： 本文介绍了 rStar，一种自对弈相互推理方法，可显着提高小语言模型 (SLM) 的推理能力，无需微调或高级模型。 rStar 将推理解耦为一个自我游戏的相互生成歧视过程。首先，目标 SLM 通过一组丰富的类人推理动作增强了蒙特卡罗树搜索 (MCTS)，以构建更高质量的推理轨迹。接下来，另一个具有与目标 SLM 类似功能的 SLM 充当鉴别器来验证目标 SLM 生成的每个轨迹。双方同意的推理轨迹被认为是相互一致的，因此更有可能是正确的。五个 SLM 的大量实验表明，rStar 可以有效解决各种推理问题，包括 GSM8K、GSM-Hard、MATH、SVAMP 和 StrategyQA。值得注意的是，rStar 将 LLaMA2-7B 的 GSM8K 准确率从 12.51% 提高到 63.91%，将 Mistral-7B 从 36.46% 提高到 81.88%，将 LLaMA3-8B-Instruct 从 74.53% 提高到 91.13%。代码可在 https://github.com/zhentingqi/rStar 获取。

通过规范链提示提高 Blackbox LLM 的结构多样性

分类： 计算和语言, 机器学习

作者： Halley Young, Yimeng Zeng, Jacob Gardner, Osbert Bastani

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06186v1

摘要： 生成多样化文本的能力是大型语言模型 (LLM) 面临的一个关键挑战。到目前为止，多样性已经通过 $n$-gram 多样性或 BERT 嵌入多样性等指标进行了研究。然而，对于这些类型的多样性，用户几乎无法控制考虑多样性的维度。例如，在诗歌领域，人们可能希望在韵律和韵律方面具有多样性，而在代码领域，人们可能希望在用于解决问题的表达方式方面具有多样性。我们提出了一种称为结构多样性的多样性度量，其中用户提供从生成的文本到捕获他们关心的多样性类型的特征的映射。此外，我们提出了一种称为规范链（CoS）的新颖策略，通过首先让大语言模型生成编码一个结构特征实例的规范，然后提示大语言模型生成满足这些特征的文本来提示提高多样性；值得注意的是，我们的策略适用于黑盒大语言模型。在我们的实验中，我们表明，对于诗歌和代码领域的结构多样性，与几个基线相比，CoS 显着提高了多样性。

Med42-v2：一套临床大语言模型

分类： 计算和语言, 人工智能

作者： Clément Christophe, Praveen K Kanithi, Tathagata Raha, Shadab Khan, Marco AF Pimentel

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06142v1

摘要： Med42-v2 引入了一套临床大语言模型 (LLM)，旨在解决医疗保健环境中通用模型的局限性。这些模型基于 Llama3 架构构建，并使用专门的临床数据进行微调。他们进行了多阶段的偏好调整，以有效地响应自然提示。虽然通用模型通常是偏好一致的，以避免回答临床查询作为预防措施，但 Med42-v2 经过专门训练来克服这一限制，使其能够在临床环境中使用。与原始 Llama3 模型相比，Med42-v2 模型在 8B 和 70B 参数配置以及 GPT-4 的各种医疗基准测试中表现出卓越的性能。这些大语言模型旨在理解临床查询、执行推理任务并在临床环境中提供有价值的帮助。这些模型现已在 \href{https://huggingface.co/m42-health}{https://huggingface.co/m42-health} 上公开提供。

Hyperion：使用 LLM 和数据流引导符号执行揭示 DApp 不一致问题

分类： 软件工程

作者： Shuo Yang, Xingwei Lin, Jiachi Chen, Qingyuan Zhong, Lei Xiao, Renke Huang, Yanlin Wang, Zibin Zheng

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06037v1

摘要： 区块链平台的快速发展显着加速了去中心化应用程序（DApp）的增长。与传统应用程序类似，DApp 集成了展示其功能以吸引用户的前端描述和用于执行其业务逻辑的后端智能合约。然而，前端描述中宣传的功能与合约中实际实现的功能之间的不一致可能会令用户感到困惑并损害 DApp 的可信度。在本文中，我们首先进行了实证研究，以确定七种类型的不一致，每种不一致都以现实世界的 DApp 为例。此外，我们还引入了 HYPERION，一种旨在自动识别 DApp 中前端描述和后端代码实现之间不一致的方法。该方法利用微调的大语言模型 LLaMA2 来分析 DApp 描述，并采用数据流引导的符号执行来进行合约字节码分析。最后，HYPERION 根据预定义的检测模式报告不一致情况。在由 54 个 DApp 组成的真实数据集上进行的实验表明，HYPERION 在报告 DApp 不一致方面达到了 84.06% 的总体召回率和 92.06% 的总体精度。我们还实施 HYPERION 来分析 835 个现实世界的 DApp。实验结果表明，HYPERION 发现了 459 个现实世界的 DApp 至少存在一个不一致之处。

LUT Tensor Core：查找表实现高效低位 LLM 推理加速

分类： 硬件架构, 机器学习

作者： Zhiwen Mo, Lei Wang, Jianyu Wei, Zhichen Zeng, Shijie Cao, Lingxiao Ma, Naifeng Jing, Ting Cao, Jilong Xue, Fan Yang, Mao Yang

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06003v1

摘要： 随着大型语言模型 (LLM) 推理需要越来越多的资源，使用低位权重来减少内存使用并提高推理效率的趋势正在快速增长。然而，这些低位 LLM 引入了对混合精度矩阵乘法 (mpGEMM) 的需求，这是一个至关重要但尚未充分探索的操作，涉及将较低精度权重与较高精度激活相乘。不幸的是，当前的硬件本身并不支持 mpGEMM，导致基于反量化的实现间接且低效。为了满足低位 LLM 中的 mpGEMM 要求，我们探索了基于查找表 (LUT) 的 mpGEMM 方法。然而，传统的 LUT 实现未能发挥其潜力。为了充分利用基于 LUT 的 mpGEMM 的强大功能，我们引入了 LUT Tensor Core，这是一种针对低位 LLM 推理进行优化的软硬件协同设计。具体来说，我们引入基于软件的算子融合和表对称化技术来分别优化表预计算和表存储。然后，LUT Tensor Core 提出了硬件设计，采用细长的平铺形状设计来增强表的重用性，并采用位串行设计来支持 mpGEMM 中的各种精度组合。此外，我们还为基于 LUT 的 mpGEMM 设计了一个带有新指令的端到端编译堆栈，从而实现高效的 LLM 编译和优化。对低位 LLM（例如 BitNet、LLAMA）的评估表明，LUT Tensor Core 在计算密度和能源效率方面实现了超大幅度的改进。

TRIZ-GPT：一种 LLM 增强的问题解决方法

分类： 人机交互

作者： Liuqing Chen, Yaxuan Song, Shixian Ding, Lingyun Sun, Peter Childs, Haoyu Zuo

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05897v1

摘要： TRIZ，即创造性问题解决理论，源自对各个领域专利的全面分析，为解决问题提供了框架和实用工具。尽管 TRIZ 方法论具有促进创新解决方案的潜力，但其复杂性和抽象性往往使其获取和应用具有挑战性。这通常需要用户对理论有深刻的理解，以及跨学科的丰富实践经验和知识。大型语言模型 (LLM) 的出现提供了一个解决这些挑战的机会，可以利用其广泛的知识库和推理能力，在基于 TRIZ 的问题解决过程中生成创新的解决方案。本研究探索并评估了大语言模型在基于 TRIZ 的问题解决过程中的应用。 TRIZ案例集的构建为我们的实验奠定了坚实的经验基础，并为TRIZ社区提供了宝贵的资源。专门设计的工作流程，利用分步推理和经过评估验证的提示策略，有效地将具体问题转化为TRIZ问题，最终产生创造性的解决方案。最后，我们提出了一个机械工程领域的案例研究，强调了这种大语言模型增强方法的实际应用。它展示了 GPT-4 生成与原始解决方案密切共鸣的解决方案的能力，并提出了更多的实施机制。

大规模创建阿拉伯语 LLM 提示

分类： 计算和语言

作者： Abdelrahman El-Sheikh, Ahmed Elmogtaba, Kareem Darwish, Muhammad Elmallah, Ashraf Elneima, Hassan Sawaf

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05882v1

摘要： chatGPT 和 BARD 的首次亮相普及了使用 LLM 进行文本生成的指令，用户可以使用自然语言请求询问 LLM，并获得符合其请求的自然语言答案。培训大语言模型以这种方式做出响应需要大量已制定的用户请求示例（也称为提示）以及相应的黄金响应。在本文中，我们介绍了两种廉价且快速地创建此类阿拉伯语提示的方法。第一种方法需要自动翻译英语中的现有提示数据集，例如 PromptSource 和 Super-NaturalInstructions，然后使用机器翻译质量估计来仅保留高质量翻译。第二种方法涉及在现有的阿拉伯语 NLP 数据集之上创建自然语言提示。使用这两种方法，我们能够创建超过 6740 万个阿拉伯语提示，涵盖各种任务，包括摘要、标题生成、语法检查、开放式/封闭式问答、创意写作等。我们表明，可以微调开放式 70 亿个阿拉伯语提示。参数大语言模型（即基础 Qwen2 7B）使其在处理阿拉伯语提示方面能够超越最先进的 700 亿参数指令调整模型（即 Llama3 70B）。

基于大语言模型的商业和合规性稳健产品分类

分类： 计算和语言, 人工智能, 机器学习

作者： Sina Gholamian, Gianfranco Romani, Bartosz Rudnikowicz, Laura Skylaki

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05874v1

摘要： 产品分类是国际贸易中的一项重要任务，因为要验证合规性规定并根据产品类别征收税收和关税。手动对产品进行分类既耗时又容易出错，而且进出口产品数量庞大，使得手动流程不可行。因此，参与国际贸易的电子商务平台和企业已转向利用机器学习进行自动产品分类。然而，当前的方法没有考虑与产品分类相关的现实挑战，例如非常简短和不完整的产品描述。此外，生成式大型语言模型（LLM）及其推理能力的最新进展主要在产品分类和电子商务领域尚未得到开发。在这项研究中，我们探讨了工业分类的现实挑战，并提出了允许现实数据模拟的数据扰动。此外，我们采用基于 LLM 的产品分类来提高存在不完整数据时预测的稳健性。我们的研究表明，在干净数据场景中，具有情境学习的大语言模型优于监督方法。此外，我们还表明，当存在数据攻击时，大语言模型比监督方法更加稳健。

用于工业可部署的基于 LLM 的推荐系统的解码加速框架

分类： 信息检索

作者： Yunjia Xi, Hangyu Wang, Bo Chen, Jianghao Lin, Menghui Zhu, Weiwen Liu, Ruiming Tang, Weinan Zhang, Yong Yu

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05676v1

摘要： 近年来，基于LLM的推荐系统越来越受到关注，但业界仍在探索其部署。大多数部署利用 LLM 作为功能增强器，在离线阶段生成增强知识。然而，在推荐场景中，涉及大量用户和物品，即使使用LLM进行离线生成也会消耗大量时间和资源。这种生成效率低下源于 LLM 的自回归性质，加速的一个有希望的方向是推测性解码，这是一种先草稿后验证的范式，可以增加每个解码步骤生成的令牌数量。在本文中，我们首先确定推荐知识生成适合基于检索的推测解码。然后，我们发现两个特征：（1）RS中广泛的项目和用户带来检索效率低下，（2）RS对LLM生成的文本表现出高度的多样性容忍度。基于上述见解，我们提出了一种基于 LLM 的推荐的解码加速框架（称为 DARE），分别使用定制检索池来提高检索效率和宽松验证来提高草稿令牌的接受率。大量实验表明，DARE 实现了 3-5 倍的加速，并且与各种框架和骨干大语言模型兼容。 DARE还被部署到大规模商业环境中的在线广告场景，在保持下游性能的同时实现了3.45倍的加速。

P3：优化 LLM 培训的政策驱动、节奏自适应和多样性促进框架

分类： 计算和语言

作者： Yingxuan Yang, Huayi Wang, Muning Wen, Weinan Zhang

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05541v1

摘要： 在快速发展的大型语言模型（LLM）领域，选择高质量数据进行微调至关重要。本文重点关注特定于任务的数据修剪和选择以增强微调。我们引入了一个称为 P3 的创新框架，它通过动态、自适应的培训策略来提高大语言模型的表现。具体来说，P3由以下部分组成：（1）策略驱动的难度测量：我们首先根据模型的实时性能测量数据的难度，从静态的、预定义的指标过渡到更加动态和适应性更强的指标。（2）步调自适应选择：我们采用自定步调学习（SPL）来逐步选择更具挑战性的数据，从而逐步提高模型的性能。（3）多样性促进：我们将行列式点过程（DPP）融入到选择过程中，以促进样本内部和样本之间的多样性，丰富学习过程。我们已经在两个著名的 LLM 数据集 APPS 和 MATH 上验证了我们的方法，这些数据集专为逻辑推理场景而设计。结果表明，与传统方法相比，我们的 P3 框架显着提高了培训成果。通过从根本上完善数据选择和利用策略，P3 不仅增进了对动态训练方法的理论理解，而且提供了一个多功能框架，可以彻底改变自然语言处理中的模型训练。

大语言模型可以取代软件工程工件的手动注释吗？

分类： 软件工程, 人机交互, 机器学习

作者： Toufique Ahmed, Premkumar Devanbu, Christoph Treude, Michael Pradel

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05534v1

摘要： 软件工程创新（例如工具和流程）的实验评估通常包括人类受试者研究，作为多管齐下策略的组成部分，以获得研究结果的更大普遍性。然而，由于寻找和雇用合适的受试者（理想情况下是具有不同经验程度的专业程序员）的成本和难度，我们领域的人类受试者研究具有挑战性。与此同时，大型语言模型（LLM）最近开始在多个领域展示人类水平的表现。本文探讨了在评估代码和代码相关工件时用更便宜的 LLM 查询替代昂贵的人类受试者的可能性。我们通过将六个最先进的大语言模型应用于先前工作创建的五个数据集的十个注释任务来研究这个想法，例如判断方法的自然语言摘要的准确性或确定代码更改是否修复了静态分析警告。我们的结果表明，用大语言模型取代一些人工注释工作可以产生与人类评估者协议相同或接近的评估者间协议。为了帮助决定何时以及如何在人类受试者研究中使用大语言模型，我们提出模型-模型一致性作为给定任务是否适合大语言模型的预测指标，并将模型置信度作为选择大语言模型可以安全地选择特定样本的手段。取代人类注释者。总的来说，我们的工作是软件工程领域混合人类与大语言模型评估的第一步。

LLMServingSim：用于大规模 LLM 推理服务的硬件/软件联合仿真基础设施

分类： 分布式、并行和集群计算, 人工智能

作者： Jaehong Cho, Minsu Kim, Hyunmin Choi, Guseul Heo, Jongse Park

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05499v1

摘要： 最近，在构建高效的大语言模型（LLM）推理服务系统方面进行了广泛的研究工作。这些努力不仅包括算法和软件领域的创新，还包括各种硬件加速技术的发展。然而，缺乏能够在 LLM 服务系统中准确建模通用硬件软件行为而不大幅延长仿真时间的仿真基础设施。本文旨在开发一种有效的仿真工具，称为LLMServingSim，以支持LLM服务系统的未来研究。在设计 LLMServingSim 时，我们关注现有模拟器的两个局限性：（1）由于其自回归性质，它们缺乏考虑 LLM 推理服务的动态工作负载变化；（2）它们在没有利用 LLM 中的算法冗余的情况下进行重复模拟。为了解决这些限制，LLMServingSim 以迭代的粒度模拟 LLM 服务，利用解码器块之间的计算冗余并重用先前迭代的模拟结果。此外，LLMServingSim 提供了一个灵活的框架，允许用户插入任何加速器编译器和模拟堆栈，以探索具有异构处理器的各种系统设计。我们的实验表明，LLMServingSim 生成的模拟结果非常接近基于 GPU 的真实 LLM 服务系统的性能行为，错误率低于 14.7%，同时与现有加速器模拟器相比，模拟速度提高了 91.5 倍。

Path-LLM：基于最短路径的统一图表示的 LLM 学习

分类： 计算和语言

作者： Wenbo Shang, Xuliang Zhu, Xin Huang

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05456v1

摘要： 统一图表示学习旨在产生节点嵌入，可应用于多个下游应用程序。然而，基于图神经网络和语言模型的现有研究要么受到特定下游预测所需的大量训练的限制，要么具有浅层语义特征。在这项工作中，我们提出了一种新颖的 Path-LLM 模型来学习统一的图表示，该模型利用强大的大语言模型（LLM）来合并我们提出的路径特征。我们的 Path-LLM 框架由多种精心设计的技术组成。首先，我们开发了一种新的从长到短的最短路径（L2SP）选择机制，它涵盖了不同密集组之间的基本连接。通过对不同路径选择方案的深入比较来说明我们设计的 L2SP 的优势。然后，我们设计路径文本化以获得基于 L2SP 的训练文本。接下来，我们将文本输入到自我监督的 LLM 训练过程中以学习嵌入。大量的基准实验验证了 Path-LLM 在两个经典图学习任务（节点分类和链接预测）和一个 NP 难图查询处理任务（关键字搜索）上相对于最先进的 WalkLM 方法的优越性，同时节省90%以上的训练路径。

ConfusedPilot：RAG 大语言模型中令人困惑的副风险

分类： 密码学和安全, 人工智能

作者： Ayush RoyChowdhury, Mulong Luo, Prateek Sahu, Sarbartha Banerjee, Mohit Tiwari

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04870v3

摘要： 检索增强生成 (RAG) 是大型语言模型 (LLM) 从数据库检索有用信息，然后生成响应的过程。它在企业环境中的日常业务运营中变得越来越流行。例如，Microsoft 365 的 Copilot 已积累数百万业务。然而，采用这种基于 RAG 的系统的安全影响尚不清楚。在本文中，我们介绍了 ConfusedPilot，这是 RAG 系统的一类安全漏洞，它会迷惑 Copilot 并导致其响应的完整性和机密性受到侵犯。首先，我们调查了一个漏洞，该漏洞在 RAG 中修改后的提示中嵌入了恶意文本，从而破坏了 LLM 生成的响应。其次，我们演示了一个泄漏秘密数据的漏洞，该漏洞在检索过程中利用缓存机制。第三，我们研究了如何利用这两个漏洞在企业内传播错误信息并最终影响其运营，例如销售和制造。我们还通过研究基于 RAG 的系统架构来讨论这些攻击的根本原因。这项研究强调了当今基于 RAG 的系统中的安全漏洞，并提出了保护未来基于 RAG 的系统的设计指南。

SHIELD：大语言模型驱动的模式归纳，用于电动汽车电池供应链中断的预测分析

分类： 人工智能, 人机交互

作者： Zhi-Qi Cheng, Yifei Dong, Aike Shi, Wei Liu, Yuzhi Hu, Jason O'Connor, Alexander Hauptmann, Kate Whitefoot

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05357v1

摘要： 电动汽车 (EV) 电池供应链很容易受到干扰，因此需要先进的预测分析。我们推出了 SHIELD（基于模式的电动汽车供应链中断分层归纳），这是一个将大型语言模型 (LLM) 与电动汽车电池供应链风险评估领域专业知识相结合的系统。 SHIELD 结合了：（1）LLM 驱动的模式学习来构建综合知识库，（2）利用微调语言模型进行事件提取、用于模式匹配的多维相似性匹配以及图卷积网络（GCN）的中断分析系统）具有预测的逻辑约束，以及（3）用于可视化结果并结合专家反馈以增强决策的交互式界面。对来自 365 个来源的 12,070 个段落（2022-2023 年）进行评估，SHIELD 在中断预测方面优于基线 GCN 和 LLM+ 提示方法（例如 GPT-4o）。这些结果证明了 SHIELD 将大语言模型能力与领域专业知识相结合以增强供应链风险评估的有效性。

重新审视多模式大语言模型评估

分类： 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Jian Lu, Shikhar Srivastava, Junyu Chen, Robik Shrestha, Manoj Acharya, Kushal Kafle, Christopher Kanan

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05334v1

摘要： 随着多模态大语言模型 (MLLM) 的出现，用于视觉问答 (VQA) 和引用表达理解的数据集重新兴起。然而，用于评估 MLLM 的最流行的数据集是一些最早创建的数据集，它们存在许多已知问题，包括极端偏差、虚假相关性以及无法进行细粒度分析。在本文中，我们率先在数据集上评估了最新的 MLLM（LLaVA 1.5、LLaVA-NeXT、BLIP2、InstructBLIP、GPT-4V 和 GPT-4o），这些数据集旨在解决早期模型的弱点。我们评估了三个 VQA 数据集：1）TDIUC，它允许对 12 种问题类型进行细粒度分析； 2）TallyQA，有简单和复杂的计数问题； 3) DVQA，需要光学字符识别来理解图表。我们还研究了 VQDv1，这是一个需要识别满足给定查询的所有图像区域的数据集。我们的实验揭示了许多以前未报道过的 MLLM 的弱点。我们的代码已集成到广泛使用的用于 MLLM 评估的 LAVIS 框架中，从而能够快速评估未来的 MLLM。项目网页：https://kevinlujian.github.io/MLLM_Evaluations/

VITA：迈向开源交互式全方位多模式大语言模型

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05211v1

摘要： GPT-4o 卓越的多模态功能和交互体验凸显了其在实际应用中的必要性，但开源模型很少在这两个领域都表现出色。在本文中，我们介绍了VITA，这是第一个开源的多模态大语言模型（MLLM），擅长同时处理和分析视频、图像、文本和音频模态，同时具有先进的多模态交互体验。我们从Mixtral 8x7B作为语言基础开始，扩大其中文词汇量，然后进行双语教学调整。我们通过多模态对齐和指令调整的两阶段多任务学习，进一步赋予语言模型视觉和音频功能。 VITA 展示了多语言、视觉和音频理解方面强大的基础能力，其在一系列单模态和多模态基准测试中的强劲表现就证明了这一点。除了基础能力之外，我们在增强自然多模式人机交互体验方面也取得了相当大的进展。据我们所知，我们是第一个在 MLLM 中利用非唤醒交互和音频中断的人。 VITA是开源社区探索多模态理解和交互无缝融合的第一步。虽然 VITA 仍有大量工作要做，以接近近源同行，但我们希望它作为先驱的作用可以成为后续研究的基石。项目页面：https://vita-home.github.io。

大语言模型如何识别多样性中的文化统一性？

分类： 计算和语言

作者： Jialin Li, Junli Wang, Junjie Hu, Ming Jiang

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05102v1

摘要： 关于大语言模型（LLM）文化意识的许多工作都集中在模型对地理文化多样性的敏感性上。然而，除了跨文化差异之外，跨文化也存在共同点。例如，美国的新娘头纱与中国的红盖头起着类似的文化相关作用。在这项研究中，我们引入了一个基准数据集 CUNIT，用于评估仅解码器的大语言模型在理解概念的文化统一性方面的能力。具体而言，CUNIT 由 1,425 个评估示例组成，这些示例基于 10 个国家的 285 个传统文化特定概念。基于每个概念的文化相关特征的系统手动注释，我们计算任何一对跨文化概念之间的文化关联。在此数据集的基础上，我们设计了一个对比匹配任务来评估大语言模型识别高度相关的跨文化概念对的能力。我们使用 3 种流行的提示策略，在 CUNIT 上给出所有提取的概念特征或根本没有特征的设置下评估 3 个强大的大语言模型。有趣的是，我们发现各国关于服装概念的文化关联在很大程度上不同于食物。我们的分析表明，与人类相比，大语言模型仍然仅限于捕获概念之间的跨文化关联。此外，地缘文化邻近性对捕获跨文化关联的模型性能影响微弱。

MooER：来自 Moore Threads 的基于 LLM 的语音识别和翻译模型

分类： 计算和语言, 人工智能

作者： Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05101v1

摘要： 在本文中，我们提出了MooER，一种基于LLM的Moore Threads大规模自动语音识别（ASR）/自动语音翻译（AST）模型。使用包含开源和自行收集的语音数据的 5000h 伪标记数据集进行训练。我们获得的性能可与使用长达数十万小时的标记语音数据训练的其他开源模型相媲美。同时，在 Covost2 Zh2en 测试集上进行的实验表明，我们的模型优于其他开源语音 LLM。可以获得 25.2 的 BLEU 分数。本文的主要贡献总结如下。首先，本文提出了一种针对语音相关任务（包括 ASR 和 AST）的编码器和大语言模型的训练策略，使用少量伪标记数据，无需任何额外的手动注释和选择。其次，我们发布了 ASR 和 AST 模型，并计划在不久的将来开源我们的训练代码和策略。此外，计划稍后发布基于8wh规模训练数据训练的模型。

在巴西标准化国家考试框架内检查大语言模型架构的行为

分类： 计算和语言, 计算机与社会

作者： Marcelo Sartori Locatelli, Matheus Prado Miranda, Igor Joaquim da Silva Costa, Matheus Torres Prates, Victor Thomé, Mateus Zaparoli Monteiro, Tomas Lacerda, Adriana Pagano, Eduardo Rios Neto, Wagner Meira Jr., Virgilio Almeida

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05035v1

摘要： 国家高中考试 (ENEM) 是巴西学生的一项关键考试，是进入巴西许多大学的必备考试。该测试包括数学、人文、自然科学和语言四项客观高中水平测试以及一篇写作论文。由于巴西政府的透明度政策，学生对测试的回答以及随附的社会经济地位调查问卷每年都会公开（尽管是匿名的）。在大型语言模型（LLM）的背景下，这些数据非常适合将不同的人类群体与人工智能进行比较，因为我们可以访问人类和机器的答案分布。我们利用 ENEM 数据集的这些特征，将 GPT-3.5 和 4，以及使用葡萄牙语数据训练的模型 MariTalk 与人类进行比较，旨在确定他们的答案与真实社会群体的关系，以及这可能揭示模型偏差的内容。我们通过社会经济地位（SES）来划分人群，并将他们的答案分布与大语言模型对每个问题和论文的答案分布进行比较。在巴西葡萄牙语多项选择测试中，将大语言模型的表现与人类进行比较时，我们发现没有显着的偏差，因为模型和人类答案之间的距离主要取决于人类的准确性。通过查看生成的文本可以得出类似的结论，因为在分析论文时，我们观察到人类论文和大语言模型论文在几个关键因素上存在差异，其中之一是范文论文很容易与人类论文分开的词语选择。这些文本在语法上也有所不同，大语言模型生成的论文平均显示出更小的句子和更少的思维单位，以及其他差异。这些结果表明，对于 ENEM 背景下的巴西葡萄牙语，LLM 输出不代表任何人类群体，与巴西学生在所有测试中的答案显着不同。

Rag and Roll：基于 LLM 的应用程序框架中间接提示操作的端到端评估

分类： 密码学和安全, 人工智能

作者： Gianluca De Stefano, Giancarlo Pellegrino, Lea Schönherr

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05025v1

摘要： 检索增强生成（RAG）是一种常用于为模型配备分布知识的技术。此过程涉及收集、索引、检索以及向大语言模型提供信息以生成回复。尽管由于其灵活性和低成本而越来越受欢迎，但 RAG 的安全影响尚未得到广泛研究。此类系统的数据通常是从公共来源收集的，为攻击者提供了间接提示注入的网关，以操纵模型的响应。在本文中，我们研究了 RAG 系统针对端到端间接提示操作的安全性。首先，我们回顾现有的 RAG 框架管道，得出原型架构并识别潜在的关键配置参数。然后，我们检查先前的工作，寻找攻击者可用来执行间接提示操作的技术。最后，实施了 Rag n Roll，这是一个框架，用于确定针对端到端 RAG 应用程序的攻击的有效性。我们的结果表明，现有的攻击大多经过优化，以提高检索阶段恶意文档的排名。然而，更高的等级并不能立即转化为可靠的攻击。针对各种配置的大多数攻击的成功率约为 40%，当将不明确的答案视为成功的攻击（也包括预期的良性攻击）时，成功率可能会上升到 60%。此外，当使用未优化的文档时，攻击者为目标查询部署其中两个（或更多）文档可以获得与使用优化文档类似的结果。最后，对 RAG 配置空间的探索表明，在阻止攻击方面效果有限，最成功的组合会严重破坏功能。

多模式大语言模型的免指令调整视觉令牌补充

分类： 计算机视觉和模式识别

作者： Dongsheng Wang, Jiequan Cui, Miaoge Li, Wang Lin, Bo Chen, Hanwang Zhang

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05019v1

摘要： 随着大型语言模型 (LLM) 开放社区的成熟，多模态 LLM (MLLM) 有望在视觉和语言之间架起一座优雅的桥梁。然而，当前的研究本质上受到挑战的限制，例如需要高质量的指令对以及图像到文本训练目标中视觉信息的丢失。为此，我们提出了一个视觉令牌补充框架（VTC），帮助 MLLM 重新获得缺失的视觉特征，从而提高响应准确性。具体来说，我们的 VTC 集成了文本到图像生成作为识别与文本无关的特征的指南，然后开发视觉选择器来生成互补的视觉标记以丰富原始视觉输入。此外，还进一步设计了迭代策略，通过迭代使用视觉选择器来提取更多视觉信息，而无需任何额外的训练。值得注意的是，训练管道不需要额外的图像-文本对，从而获得所需的指令免调整属性。定性和定量实验都证明了我们的 VTC 的优越性和效率。

通过基于通信代理的数据细化增强大语言模型的代码调试能力

分类： 软件工程, 人工智能

作者： Weiqing Yang, Hanbin Wang, Zhenghao Liu, Xinze Li, Yukun Yan, Shuo Wang, Yu Gu, Minghe Yu, Zhiyuan Liu, Ge Yu

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05006v1

摘要： 调试是软件开发的一个重要方面，但大型语言模型 (LLM) 的调试功能在很大程度上仍未得到开发。本文首先介绍DEBUGEVAL，一个旨在评估大语言模型调试能力的综合基准测试。 DEBUGEVAL从现有的高质量数据集中收集数据，并设计了四种不同的任务来评估调试有效性，包括BUG定位、BUG识别、代码审查和代码修复。此外，为了增强大语言模型的代码调试能力，本文提出了一种基于通信代理的数据细化框架（MASTER），它生成细化的代码调试数据以进行监督微调。具体来说，MASTER 使用 Code Quizzer 根据 DEBUGEVAL 定义的任务生成精炼数据。然后，代码学习器充当批评者并保留生成的它无法解决的问题。最后，代码老师提供了一个详细的基于思想链的解决方案来处理所生成的问题。我们收集综合数据并对Code Learner进行微调以增强调试能力并进行NeuDebugger模型。我们的实验在 DEBUGEVAL 上的零样本设置中评估了各种 LLM 和 NeuDebugger。实验结果表明，这些7B规模的LLM的调试能力较弱，即使是面向代码的LLM也是如此。相反，这些较大的模型（超过70B）显示出令人信服的调试能力。我们的进一步分析表明，MASTER 是通过合成监督微调（SFT）LLM 数据来增强代码调试能力的有效方法。

标准统计模型和大语言模型对时间序列预测的评估

分类： 机器学习

作者： Rui Cao, Qiao Wang

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04867v1

摘要： 本研究探讨了大型语言模型 (LLM) 在预测时间序列中的使用，特别关注 LLMTIME 模型。尽管大语言模型在文本生成、语言翻译和情感分析等任务中取得了一定的有效性，但这项研究强调了大型语言模型在时间序列预测背景下遇到的关键挑战。我们评估了 LLMTIME 在多个数据集上的性能，并引入经典的几乎周期函数作为时间序列来衡量其有效性。实证结果表明，虽然大型语言模型可以在某些数据集的零样本预测中表现良好，但在面对不同的时间序列数据和传统信号时，其预测准确性显着下降。这项研究的主要发现是，与其他 LLM 类似，LLMTIME 的预测能力在处理同时包含周期和趋势分量的时间序列数据以及包含复杂频率分量的信号时会显着恶化。

自然语言代码大纲：大语言模型时代的文学编程

分类： 软件工程, 人工智能, 人机交互, 机器学习

作者： Kensen Shi, Deniz Altınbüken, Saswat Anand, Mihai Christodorescu, Katja Grünwedel, Alexa Koenings, Sai Naidu, Anurag Pathak, Marc Rasi, Fredde Ribeiro, Brandon Ruffin, Siddhant Sanyam, Maxim Tabachnyk, Sara Toth, Roy Tu, Tobias Welp, Pengcheng Yin, Manzil Zaheer, Satish Chandra, Charles Sutton

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04820v1

摘要： 我们建议使用自然语言大纲作为一种新颖的模式和交互界面，在整个软件开发过程中为开发人员提供人工智能帮助。代码函数的 NL 大纲由用简洁的散文编写的多个语句组成，这些语句以文学编程的方式划分代码并总结其主要思想。至关重要的是，我们发现现代大语言模型可以在实践中生成准确且高质量的自然语言大纲。此外，NL 大纲可实现代码和 NL 之间的双向同步，允许其中一个的更改自动反映在另一个中。我们讨论了 NL 大纲的许多用例：它们可以加速代码和差异的理解和导航、简化代码维护、增强代码搜索、引导代码生成等等。然后，我们提出并比较了多种用于生成大纲的LLM提示技术，并要求专业开发人员判断大纲的质量。最后，我们提出了两个将 NL 概要应用于代码审查和恶意软件检测的艰巨任务的案例研究。

h4rm3l：LLM 安全评估的可组合越狱攻击的动态基准

分类： 密码学和安全, 人工智能, 68, I.2; I.2.0; I.2.1; I.2.5; I.2.7; K.6.5; K.4.2

作者： Moussa Koulako Bala Doumbouya, Ananjan Nandi, Gabriel Poesia, Davide Ghilardi, Anna Goldie, Federico Bianchi, Dan Jurafsky, Christopher D. Manning

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04811v1

摘要： 由于缺乏足够的基准来系统地评估大型语言模型 (LLM) 抵抗生成有害内容的能力，其安全性仍然是一个关键问题。以前针对自动化红队的努力涉及静态或模板化的非法请求集和对抗性提示，鉴于越狱攻击的不断发展和可组合性质，这些提示的实用性有限。我们提出了一种新颖的可组合越狱攻击的动态基准，以超越静态数据集以及攻击和危害的分类法。我们的方法由三个组件组成，统称为 h4rm3l：（1）一种特定于领域的语言，将越狱攻击正式表达为参数化提示转换原语的组合，（2）基于强盗的少样本程序合成算法，生成优化渗透的新颖攻击目标黑匣子大语言模型的安全过滤器，以及（3）采用前两个组件的开源自动化红队软件。我们使用 h4rm3l 生成了包含 2656 个成功的新颖越狱攻击的数据集，这些攻击针对 6 个最先进的 (SOTA) 开源和专有 LLM。我们的几种合成攻击比之前报道的攻击更有效，在 claude-3-haiku 和 GPT4-o 等 SOTA 封闭语言模型上的攻击成功率超过 90%。通过以统一的形式表示形式生成越狱攻击数据集，h4rm3l 可以实现可重复的基准测试和自动红队分析，有助于理解 LLM 安全限制，并支持在 LLM 日益一体化的世界中开发强大的防御措施。警告：本文和相关研究成果包含令人反感且可能令人不安的提示以及模型生成的内容。

了解LLM微调的性能并估计其成本

分类： 计算和语言, 人工智能, 机器学习

作者： Yuchen Xia, Jiho Kim, Yuhan Chen, Haojie Ye, Souvik Kundu, Cong, Hao, Nishil Talati

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04693v1

摘要： 由于训练大型语言模型 (LLM) 的成本高昂，微调已成为一种有吸引力的替代方案，可以以经济高效的方式使用有限的计算资源来专门处理特定任务的 LLM。在本文中，我们描述了基于稀疏专家混合 (MoE) 的 LLM 微调，以了解它们在单个 GPU 上的准确性和运行时性能。我们的评估提供了对稀疏和密集版本 MoE 模型的训练效果及其运行时特征的独特见解，包括最大批量大小、执行时间细分、端到端吞吐量、GPU 硬件利用率和负载分布。我们的研究认为 MoE 层的优化对于进一步提高 LLM 微调的性能至关重要。利用我们的分析结果，我们还开发并验证了一个分析模型，以估计在云上进行 LLM 微调的成本。该模型基于模型参数和GPU架构，估算LLM吞吐量和训练成本，帮助工业界和学术界的从业者预算微调特定模型的成本。

ToolSandbox：LLM工具使用能力的状态化、对话式、交互式评估基准

分类： 计算和语言, 人工智能, 机器学习

作者： Jiarui Lu, Thomas Holleis, Yizhe Zhang, Bernhard Aumayer, Feng Nan, Felix Bai, Shuang Ma, Shen Ma, Mengyu Li, Guoli Yin, Zirui Wang, Ruoming Pang

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04682v1

摘要： 最近的大型语言模型 (LLM) 进步引发了人们对工具辅助 LLM 解决现实世界挑战日益增长的研究兴趣，这需要对工具使用能力进行全面评估。虽然之前的工作重点是基于单轮用户提示或非策略对话轨迹评估无状态 Web 服务（RESTful API），但 ToolSandbox 包括有状态工具执行、工具之间的隐式状态依赖关系、内置用户模拟器支持针对任意轨迹上的中间和最终里程碑的政策对话评估和动态评估策略。我们表明，开源模型和专有模型存在显着的性能差距，而 ToolSandbox 中定义的状态依赖性、规范化和信息不足等复杂任务甚至对最有能力的 SOTA LLM 也构成挑战，从而为工具使用 LLM 功能提供了全新的见解。 ToolSandbox评估框架发布于https://github.com/apple/ToolSandbox

动态雾计算增强医疗应用中的 LLM 执行

分类： 计算和语言, 人工智能, 密码学和安全

作者： Philipp Zagar, Vishnu Ravi, Lauren Aalami, Stephan Krusche, Oliver Aalami, Paul Schmiedmayer

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04680v1

摘要： 大型语言模型 (LLM) 转换、解释和理解大量异构数据的能力为增强数据驱动的护理服务提供了重要机会。然而，受保护的健康信息 (PHI) 的敏感性引起了人们对远程大语言模型平台的数据隐私和信任的合理担忧。此外，与基于云的人工智能（AI）服务相关的成本继续阻碍广泛采用。为了应对这些挑战，我们建议将 LLM 执行环境从不透明的集中式云提供商转变为去中心化的动态雾计算架构。通过在更可信的环境（例如用户的边缘设备或本地网络中的雾层）中执行开放权重的大语言模型，我们的目标是减轻与基于云的大语言模型相关的隐私、信任和财务挑战。我们进一步介绍了 SpeziLLM，这是一个开源框架，旨在促进快速、无缝地利用不同的 LLM 执行层，并降低 LLM 在数字健康应用程序中集成的障碍。我们展示了 SpeziLLM 在六个数字健康应用程序中的广泛适用性，展示了其在各种医疗保健环境中的多功能性。

走向有弹性和高效的大语言模型：效率、绩效和对抗稳健性的比较研究

分类： 计算和语言

作者： Xiaojing Fan, Chunliang Tao

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04585v1

摘要： 随着对大型语言模型（LLM）实际应用的需求不断增加，人们开发了许多注意力高效模型来平衡性能和计算成本。然而，这些模型的对抗鲁棒性仍未得到充分探索。在这项工作中，我们设计了一个框架，通过比较具有不同复杂性和效率水平的三个著名模型——Transformer++、门控线性注意力（GLA）Transformer 和 MatMul，来研究大语言模型的效率、性能和对抗鲁棒性之间的权衡。 -免费 LM——利用 GLUE 和 AdvGLUE 数据集。 AdvGLUE 数据集使用旨在挑战模型鲁棒性的对抗样本扩展了 GLUE 数据集。我们的结果表明，虽然 GLA Transformer 和 MatMul-Free LM 在 GLUE 任务上的准确度稍低，但在不同的攻击级别上，与 Transformer++ 相比，它们在 AdvGLUE 任务上表现出更高的效率和优越或相对的鲁棒性。这些发现凸显了简化架构在效率、性能和对抗鲁棒性之间实现令人信服的平衡的潜力，为资源限制和对抗攻击弹性至关重要的应用程序提供了宝贵的见解。

你所需要的就是你所得到的：基于大语言模型的代码理解助手的心智理论

分类： 软件工程

作者： Jonan Richards, Mairieli Wessel

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04477v1

摘要： 越来越多的工具使用大型语言模型（LLM）来支持开发人员的代码理解。然而，开发人员在使用此类工具时仍然面临一些障碍，包括用自然语言描述其意图、解释工具结果以及完善有效提示以获取有用信息方面的挑战。在这项研究中，我们设计了一个基于大语言模型的会话助理，它根据推断的用户心理状态（例如背景知识和经验）提供个性化交互。我们在一项对 14 名新手进行的受试者内研究中评估了该方法，以了解他们的看法和偏好。我们的研究结果为想要创建或改进基于 LLM 的对话助理以支持新手理解代码的研究人员和工具构建者提供了见解。

大语言模型可以在辩论中击败人类吗？竞争性辩论的动态多主体框架

分类： 计算和语言

作者： Yiqun Zhang, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04472v1

摘要： 竞争性辩论是一项综合性、复杂的计算论证任务。大型语言模型（LLM）在这项任务中遇到幻觉并且缺乏竞争力。为了应对这些挑战，我们引入了 Agent for Debate (Agent4Debate)，这是一个基于大语言模型的动态多代理框架，旨在增强他们在竞争性辩论中的能力。 Agent4Debate 从辩论准备和执行中的人类行为中汲取灵感，采用协作架构，其中四个专业代理（搜索者、分析者、作家和审阅者）动态交互和合作。这些代理在整个辩论过程中发挥作用，涵盖从最初的研究和论证制定到反驳和总结的多个阶段。为了全面评估框架性能，我们构建了中文辩论场，其中包含 66 个精心挑选的中文辩论议案。我们招募了 10 名经验丰富的人类辩手，并收集了涉及 Agent4Debate、基线模型和人类的 200 场辩论的记录。评估采用Debatrix自动评分系统和专业人工评审员，基于既定的Debatrix-Elo和Human-Elo排名。实验结果表明，最先进的 Agent4Debate 表现出与人类相当的能力。此外，消融研究证明了代理结构中每个组件的有效性。

RiskAwareBench：评估基于大语言模型的具体代理的高层规划的物理风险意识

分类： 人工智能

作者： Zihao Zhu, Bingzhe Wu, Zhengyou Zhang, Baoyuan Wu

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04449v1

摘要： 将大语言模型（LLM）集成到机器人技术中显着增强了实体代理理解和执行复杂自然语言指令的能力。然而，在现实环境中完全部署基于大语言模型的体现系统可能会带来潜在的物理风险，例如财产损失和人身伤害。现有的大语言模型安全基准忽视了基于大语言模型的实体代理的风险意识。为了解决这一差距，我们提出了 RiskAwareBench，这是一个自动化框架，旨在评估基于 LLM 的实体主体的物理风险意识。 RiskAwareBench由安全提示生成、风险场景生成、预案生成、评估四个模块组成，以最少的人工干预实现全面的风险评估。利用该框架，我们编译了 PhysicalRisk 数据集，其中包含各种场景以及相关的安全提示、观察结果和说明。大量实验表明，大多数大语言模型表现出物理风险意识不足，基线风险缓解策略的增强有限，这强调了未来提高基于大语言模型的实体主体风险意识的紧迫性和重要性。

利用人工智能增强新闻业：使用大语言模型和 LMM 进行新闻文章的情境化图像字幕研究

分类： 计算和语言, 计算机视觉和模式识别

作者： Aliki Anagnostopoulou, Thiago Gouvea, Daniel Sonntag

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04331v1

摘要： 大型语言模型 (LLM) 和大型多模态模型 (LMM) 对人工智能社区、行业和各个经济部门产生了重大影响。在新闻业中，人工智能的整合带来了独特的挑战和机遇，特别是在提高新闻报道的质量和效率方面。本研究探讨了大语言模型和大语言模型如何通过为新闻文章附带的图像生成上下文说明来协助新闻实践。我们使用 GoodNews 数据集进行了实验，以评估 LMM（BLIP-2、GPT-4v 或 LLaVA）合并两种类型上下文之一的能力：整篇新闻文章或提取的命名实体。此外，我们将它们的性能与由字幕模型（BLIP-2、OFA 或 ViT-GPT2）以及 LLM（GPT-4 或 LLaMA）事后情境化组成的两阶段管道进行了比较。我们评估了模型的多样性，发现虽然上下文模型的选择对于两阶段管道来说是一个重要因素，但在 LMM 中情况并非如此，在 LMM 中，较小的开源模型与专有模型相比表现良好， GPT 驱动的。此外，我们发现控制所提供上下文的数量可以提高性能。这些结果凸显了全自动方法的局限性，并强调了交互式、人机交互策略的必要性。

通过自动推理引擎调整实现 SLO 优化的 LLM 服务

分类： 分布式、并行和集群计算

作者： Ke Cheng, Zhi Wang, Wen Hu, Tiannuo Yang, Jianguo Li, Sheng Zhang

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04323v1

摘要： 服务级别目标 (SLO) 是云供应商旨在确保的服务目标性能指标。提供优化的SLO可以提高用户满意度并提高云供应商的竞争力。随着大型语言模型（LLM）在各个领域越来越受欢迎，优化 LLM 推理服务的 SLO 具有重要意义。在本文中，我们观察到调整LLM推理引擎的参数可以提高服务性能，并且不同服务的最佳参数配置是不同的。因此，我们提出了 SCOOT，一种自动性能调整系统，通过调整推理引擎的参数来优化每个 LLM 推理服务的 SLO。我们首先提出了调整问题的广义公式来处理参数之间的各种目标和约束，并且 SCOOT 利用贝叶斯优化（BO）技术通过探索和利用来解决问题。此外，SCOOT采用随机森林在调整过程中学习隐藏约束，以减少无效探索。为了提高调优效率，SCOOT利用并行建议来加速调优过程。大量实验表明，SCOOT 在 SLO 优化方面可以显着优于现有的调优技术，同时大大提高调优效率。

跨标记化和跨语言词汇迁移：大语言模型对低资源 NLP 的语言适应

分类： 计算和语言, 机器学习

作者： François Remy, Pieter Delobelle, Hayastan Avetisyan, Alfiya Khabibullina, Miryam de Lhoneux, Thomas Demeester

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04303v1

摘要： 由于难以获取高质量的训练数据，中低资源语言的单语语言模型的开发继续受到阻碍。在这项研究中，我们提出了一种新颖的跨语言词汇迁移策略，即跨标记化，旨在应对这一挑战并实现更有效的语言适应。我们的方法侧重于通过使用来自源语言的语义相似标记嵌入的加权平均值来初始化目标语言的标记嵌入，从而使高资源单语大语言模型适应看不见的目标语言。为此，我们利用涵盖源语言和目标语言的翻译资源。我们使用 Tweeties（一系列跨代币化的 LLM）验证了我们的方法，并展示了它们在跨少量但多样化的语言的各种下游任务中的竞争性能。此外，我们还引入了 Hydra LLM，即具有多个可交换语言建模头和嵌入表的模型，这进一步扩展了我们的跨标记化策略的功能。通过设计基于多语言模型 TowerInstruct 的 Hydra LLM，我们以零样本的方式为 Tatar 开发了最先进的机器翻译模型，完全绕过了对高质量并行数据的需求。这一突破对于像 Tatar 这样的低资源语言尤其重要，因为这些语言很难获得高质量的并行数据。通过降低训练高质量模型的数据和时间要求，我们的跨标记化策略允许为更广泛的语言（尤其是资源有限的语言）开发大语言模型。我们希望我们的工作能够激发跨语言词汇迁移领域的进一步研究和合作，并为全球范围内的语言赋权做出贡献。

社会情感是大语言模型固有的吗？人口间情感提取的实证研究

分类： 计算和语言, 计算机与社会

作者： Kunitomo Tanaka, Ryohei Sasano, Koichi Takeda

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04293v1

摘要： 大型语言模型（LLM）应该通过大量文本训练模型来获取无意识的人类知识和情感，例如社会常识和偏见。然而，目前尚不清楚各种大语言模型能在多大程度上捕捉到特定社会群体的情绪。在这项研究中，我们重点关注根据国籍、宗教和种族/族裔定义的社会群体，并验证大语言模型可以在多大程度上捕捉和提取社会群体之间的情感。具体来说，我们将有关一组情绪的问题输入到大语言模型中，对答案进行情绪分析，并将结果与社会调查进行比较。使用五个具有代表性的大语言模型的验证结果显示，民族和宗教的相关性较高，p 值相对较小，而其数据点数量相对较多。这一结果表明，包括群体间情绪在内的大语言模型的回答与实际社会调查结果非常吻合。

学习重写：广义大语言模型生成的文本检测

分类： 计算和语言

作者： Wei Hao, Ran Li, Weiliang Zhao, Junfeng Yang, Chengzhi Mao

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04237v1

摘要： 大型语言模型 (LLM) 可能会被大规模滥用，以创建非事实内容并传播虚假信息。检测大语言模型生成的内容对于减轻这些风险至关重要，但当前的分类器通常无法在开放世界环境中进行泛化。之前的工作表明，LLM 倾向于不太频繁地重写 LLM 生成的内容，这可以用于检测并自然地推广到不可预见的数据。然而，我们发现人类和 LLM 内容之间的重写编辑距离在不同领域之间可能无法区分，从而导致检测失败。我们建议训练大语言模型来重写输入文本，对大语言模型生成的内容进行最少的编辑，对人类编写的文本进行更多的编辑，从而得出跨不同领域的可区分和可概括的编辑距离差异。对来自 21 个独立领域和三个流行的 LLM（例如 GPT-4o、Gemini 和 Llama-3）的文本进行的实验表明，我们的分类器在 AUROC 分数上优于最先进的零样本分类器高达 20.6%重写分类器的 F1 分数提高了 9.2%。我们的工作表明，如果训练得当，大语言模型可以有效地检测机器生成的文本。

大语言模型时代的视频QA：一项实证研究

分类： 计算机视觉和模式识别, 人工智能

作者： Junbin Xiao, Nanxin Huang, Hangyu Qin, Dongyang Li, Yicong Li, Fengbin Zhu, Zhulin Tao, Jianxing Yu, Liang Lin, Tat-Seng Chua, Angela Yao

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04223v1

摘要： 视频大语言模型（Video-LLM）正在蓬勃发展，并推进了许多视频语言任务。作为黄金测试平台，视频问答（VideoQA）在视频大语言模型的发展中发挥着关键作用。这项工作对Video-LLMs在VideoQA中的行为进行了及时、全面的研究，旨在阐明他们的成功和失败模式，并为更加人性化的视频理解和问题回答提供见解。我们的分析表明，视频大语言模型在视频质量检查方面表现出色；他们可以将上下文线索关联起来，并对有关不同视频内容的问题生成合理的答案。然而，模型在处理视频时间性方面表现不佳，无论是在时间内容排序的推理还是在与 QA 相关的时间时刻的基础上。此外，这些模型的行为并不直观——它们对对抗性视频扰动没有反应，但对候选答案和问题的简单变化却很敏感。而且，它们不一定能更好地概括。研究结果证明了视频大语言模型在标准条件下的质量保证能力，但突显了其在鲁棒性和可解释性方面的严重缺陷，表明迫切需要视频大语言模型开发的基本原理。

简化儿童翻译：考虑大语言模型获得年龄的迭代简化

分类： 计算和语言

作者： Masashi Oshika, Makoto Morishita, Tsutomu Hirao, Ryohei Sasano, Koichi Takeda

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04217v1

摘要： 近年来，神经机器翻译（NMT）已广泛应用于日常生活中。然而，当前的 NMT 缺乏调整翻译难度以匹配用户语言水平的机制。此外，由于 NMT 训练数据的偏差，简单源句子的翻译通常是用复杂的单词生成的。特别是，这可能会给儿童带来问题，他们可能无法正确理解翻译的含义。在本研究中，我们提出了一种方法，用更简单的单词替换翻译中具有高习得年龄 (AoA) 的单词，以使翻译与用户的水平相匹配。我们通过使用大型语言模型（LLM）来实现这一点，提供源句子、翻译和要替换的目标单词的三元组。我们使用简单英语维基百科上的反向翻译创建了一个基准数据集。从数据集中获得的实验结果表明，我们的方法可以有效地用较低 AoA 的单词替换高 AoA 的单词，而且可以迭代替换大部分高 AoA 的单词，同时仍然保持较高的 BLEU 和 COMET 分数。

MMREC：基于LLM的多模态推荐系统

分类： 计算和语言, 信息检索

作者： Jiahao Tian, Jinman Zhao, Zhenkai Wang, Zhicheng Ding

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04211v1

摘要： 由于每天生成的内容量呈指数级增长，推荐系统的重要性正在迅速增长。内容的激增给设计有效的推荐系统带来了独特的挑战。这些挑战中的关键是需要有效地利用代表用户偏好的大量自然语言数据和图像。本文提出了一种利用大型语言模型 (LLM) 和深度学习技术来增强推荐系统的新方法。所提出的框架旨在通过结合多模式信息处理和使用统一的潜在空间表示来提高建议的准确性和相关性。该研究探讨了大语言模型在推荐环境中更好地理解和利用自然语言数据的潜力，解决了以前方法的局限性。该框架通过大语言模型有效地提取和集成文本和图像信息，统一潜在空间中的不同模式，以简化排名模型的学习过程。实验结果表明，利用多模态信息时模型的判别能力增强。这项研究通过展示大语言模型和多模式数据集成的潜力来创建更加个性化和上下文相关的推荐，从而为推荐系统领域的不断发展做出了贡献。

感知、反思和计划：设计 LLM 代理，用于无指令的目标导向城市导航

分类： 人工智能

作者： Qingbin Zeng, Qinglong Yang, Shunan Dong, Heming Du, Liang Zheng, Fengli Xu, Yong Li

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04168v1

摘要： 本文考虑了城市导航中的一个场景：为人工智能代理提供关于一些知名地标的目标位置的语言描述；仅通过观察周围的场景，包括识别地标和道路网络连接，代理必须在没有指令的情况下做出导航到目标位置的决定。这个问题非常具有挑战性，因为它需要智能体建立自我定位并获取复杂城市环境的空间表示，而地标通常是不可见的。在没有导航指令的情况下，这种能力对于智能体在长距离城市导航中做出高质量决策至关重要。随着大型语言模型 (LLM) 的新兴推理能力，一个诱人的基线是促使 LLM 对每个观察结果进行“反应”并做出相应的决策。然而，该基线的性能非常差，代理经常重复访问相同的位置并做出短视的、不一致的决策。为了解决这些问题，本文引入了一种新颖的代理工作流程，其特点是具有感知、反思和计划的能力。具体来说，我们发现 LLaVA-7B 可以进行微调，以足够的精度感知地标的方向和距离，以进行城市导航。此外，反思是通过记忆机制实现的，过去的经验被存储起来，并且可以通过当前的感知来检索，以进行有效的决策论证。规划利用反思结果来制定长期计划，可以避免远距离航行中的短视决策。我们展示了与最先进的基线相比，设计的工作流程显着提高了 LLM 代理的导航能力。

与大语言模型一起探索基于 RAG 的漏洞增强

分类： 软件工程, 密码学和安全, 机器学习, D.2.7; I.2.2; D.2.5; I.2.5; I.2.6; C.4; I.5.1

作者： Seyed Shayan Daneshvar, Yu Nong, Xu Yang, Shaowei Wang, Haipeng Cai

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04125v1

摘要： 检测漏洞是维护软件系统完整性、可用性和安全性的一项关键任务。近年来，利用基于深度学习的模型进行漏洞检测已变得司空见惯。然而，这种基于深度学习的漏洞检测器（DLVD）缺乏有效训练的大量数据集。数据增强可以潜在地缓解数据短缺的问题，但增强易受攻击的代码具有挑战性，需要设计一种能够维护漏洞的生成解决方案。因此，生成易受攻击的代码样本的工作受到限制，之前的工作仅集中于生成包含单个语句或特定类型漏洞的样本。最近，大型语言模型（LLM）被用于解决各种代码生成和理解任务，并显示出令人鼓舞的结果，特别是与检索增强生成（RAG）融合时。在本研究中，我们探索了三种不同的策略来利用大语言模型来增强单语句和多语句漏洞，即突变、注入和扩展。我们使用两个大语言模型对三个漏洞数据集和三个 DLVD 模型提出的方法进行了广泛的评估。我们的结果表明，我们基于注入的聚类增强 RAG 方法击败了基线设置 (NoAug)、Vulgen 和 VGX（两种 SOTA 方法）以及随机过采样 (ROS) 30.80%、27.48%、27.93%， 5K 生成的易受攻击样本的 f1 分数平均为 15.41%，15K 生成的易受攻击样本的 f1 分数平均为 53.84%、54.10%、69.90% 和 40.93%。我们的方法通过以低至 1.88 美元的价格生成 1K 样本，展示了大规模数据增强的可行性。

基于规则的见解可以增强大语言模型的放射学报告分类吗？ RadPrompt 方法简介

分类： 计算和语言, 人工智能, 计算机视觉和模式识别

作者： Panagiotis Fytas, Anna Breger, Ian Selby, Simon Baker, Shahab Shahipasand, Anna Korhonen

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04121v1

摘要： 对于大型数据集来说，开发能够通过胸部 X 光检测病理的成像模型可能成本和时间都过高，因为它需要监督才能获得最先进的性能。相反，从放射学报告中提取的标签可以作为远程监督，因为这些标签通常是临床实践的一部分生成的。尽管它们被广泛使用，但当前基于规则的标签提取方法依赖于广泛的规则集，而这些规则集对句法可变性的鲁棒性有限。为了缓解这些限制，我们引入了 RadPert，这是一个基于规则的系统，它将不确定性感知信息模式与一组简化的规则集成在一起，从而提高了性能。此外，我们还开发了 RadPrompt，这是一种多轮提示策略，利用 RadPert 来增强大型语言模型的零样本预测能力，与 GPT-4 Turbo 相比，加权平均 F1 分数在统计上取得了显着改善。最值得注意的是，RadPrompt 超越了其两个基础模型，展示了大语言模型与基于规则的模型的协同潜力。我们在两个英语语料库上评估了我们的方法：MIMIC-CXR 黄金标准测试集和从剑桥大学医院收集的黄金标准数据集。

Patchview：大语言模型驱动的世界构建，具有生成尘埃和磁铁可视化

分类： 人机交互, 人工智能, 计算和语言

作者： John Joon Young Chung, Max Kreminski

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04112v1

摘要： 大型语言模型 (LLM) 可以通过生成派系、角色和地点等世界元素来帮助作家构建故事世界。然而，理解许多生成的元素可能会让人不知所措。此外，如果用户想要精确控制难以口头指定的生成元素的各个方面，仅提示可能是不够的。我们推出了 Patchview，这是一个由 LLM 驱动的可定制系统，它允许用户通过磁铁和灰尘的物理隐喻与故事概念和元素进行交互，从而在视觉上帮助世界构建。 Patchview 中的元素在视觉上被拉近到具有高度相关性的概念，从而促进意义建构。用户还可以通过指示概念之间元素的所需位置来引导语言上难以捉摸的概念的生成。当用户不同意 LLM 的可视化和生成时，他们可以通过重新定位元素来纠正这些问题。这些修正可用于使大语言模型未来的行为与用户的看法保持一致。通过用户研究，我们表明 Patchview 支持世界元素的意义构建和元素生成的指导，从而促进世界构建过程中的探索。 Patchview 提供了有关可定制视觉表示如何帮助意义构建、引导和调整生成式 AI 模型行为与用户意图的见解。

零延迟 QKV 压缩缓解 LLM 推理中的 KV 缓存和网络瓶颈

分类： 机器学习, 分布式、并行和集群计算

作者： Zeyu Zhang, Haiying Shen

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04107v1

摘要： 在大型语言模型中，键值缓存 (KVC) 中的内存限制在推理过程中带来了挑战，尤其是在长提示的情况下。在这项工作中，我们观察到，在准确性和作业完成时间 (JCT) 方面，压缩 KV 值比压缩模型更有效。然而，量化 KV 值和删除不太重要的标记会导致大量的运行时计算时间开销，从而延迟 JCT。这些方法也无法减少长提示的序列并行（SP）框架中的计算时间或高网络通信时间开销。为了解决这些问题，基于我们对实验分析的深刻观察，我们提出了 ZeroC，一种零延迟 QKV 压缩系统，可以消除时间开销，甚至减少模型操作的计算和通信时间。 ZeroC 创新地将压缩和解压缩操作嵌入模型操作中，并在混合层令牌级别自适应地确定压缩比。此外，它还实现了通信高效的 SP 推理框架。跟踪驱动的实验表明，与最先进的压缩方法相比，ZeroC 在相同延迟的情况下，平均 JCT 降低了 80%，平均困惑度降低了 35%，吞吐量提高了 2.8 倍。在困惑度增加 0.1 的约束下，ZeroC 还将当前 LLM 服务系统的平均 JCT 降低了高达 91%。我们开源了代码。

通过上下文感知基础提高大语言模型 (LLM) 保真度：可靠性和准确性的系统方法

分类： 计算和语言, 人工智能

作者： Wrick Talukdar, Anjanava Biswas

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04023v1

摘要： 随着大型语言模型 (LLM) 在自然语言处理 (NLP) 应用中变得越来越复杂和普遍，确保其稳健性、可信性以及与人类价值观的一致性已成为一项关键挑战。本文提出了文本模型中上下文基础的新颖框架，特别强调上下文表示阶段。我们的方法旨在通过全面的、情境感知的方法来增强这些模型的可靠性和道德一致性。通过以机器可读的格式明确捕获和表示相关的情境、文化和道德背景，我们为在这些背景下锚定模型的行为奠定了基础。我们的方法利用知识表示和推理的技术，例如本体论、语义网络技术和基于逻辑的形式主义。我们在现实世界的文本数据集上评估我们的框架，证明其在提高模型性能、公平性以及与人类期望的一致性方面的有效性，同时保持高精度。此外，我们还讨论了该框架的其他关键组成部分，包括上下文感知编码、上下文感知学习、可解释性和可解释性，以及持续监控和适应。这项研究为负责任的人工智能领域不断发展的工作做出了贡献，为开发更可靠、值得信赖和符合道德的语言模型提供了一种实用的方法。我们的研究结果对于在医疗保健、法律体系和社会服务等敏感领域部署大语言模型具有重大意义，这些领域的背景理解至关重要。

从文字到价值：大语言模型的新生儿文章影响力预测

分类： 计算和语言

作者： Penghai Zhao, Qinghua Xing, Kairan Dou, Jinyu Tian, Ying Tai, Jian Yang, Ming-Ming Cheng, Xiang Li

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03934v1

摘要： 随着学术格局的扩大，在大量新发表的作品中有效识别潜在高影响力文章的挑战变得至关重要。本文介绍了一种有前途的方法，利用经过微调的大语言模型的能力，仅根据标题和摘要来预测新生文章的未来影响。所提出的方法超越了严重依赖外部信息的传统方法，从大量标题-摘要和潜在影响对中识别出高影响力论文的共享语义特征。这些语义特征被进一步利用来回归改进的度量TNCSI_SP，该度量被赋予了值、字段和时间归一化属性。此外，还构建并发布了一个用于微调 LLM 的综合数据集，其中包含 12,000 多个条目以及相应的标题、摘要和 TNCSI_SP。 NDCG@20 为 0.901 的定量结果表明，与竞争同行相比，所提出的方法在预测新生文章的影响方面实现了最先进的性能。最后，我们展示了一个预测新生儿期刊文章影响的现实应用，以展示其值得注意的实用价值。总体而言，我们的研究结果挑战了现有的范式，并提出转向更加以内容为中心的学术影响力预测，为评估新生文章影响力提供了新的见解。

解码偏见：语言模型中性别偏见检测的自动化方法和大语言模型法官

分类： 计算和语言, 人工智能

作者： Shachi H Kumar, Saurav Sahay, Sahisnu Mazumder, Eda Okur, Ramesh Manuvinakurike, Nicole Beckage, Hsuan Su, Hung-yi Lee, Lama Nachman

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03907v1

摘要： 大型语言模型 (LLM) 在语言理解和生成人类级别的文本方面表现出色。然而，即使有监督训练和人类对齐，这些大语言模型也容易受到对抗性攻击，恶意用户可能会促使模型生成不需要的文本。大语言模型本质上还编码潜在的偏见，这些偏见可能在互动过程中造成各种有害影响。偏差评估指标缺乏标准和共识，现有方法通常依赖于人工生成的模板和注释，这些模板和注释既昂贵又劳动密集型。在这项工作中，我们训练模型自动创建对抗性提示，以引出目标大语言模型的有偏见的反应。我们提出了基于大语言模型的偏差评估指标，并分析了几种现有的自动评估方法和指标。我们分析模型响应的各种细微差别，确定模型系列的优点和缺点，并评估评估方法的不足之处。我们将这些指标与人类评估进行比较，并验证大语言模型作为法官的指标是否与人类对响应生成偏差的判断一致。

从数据到故事：利用基于 LLM 的多代理系统实现自动动画数据视频创建

分类： 人机交互

作者： Leixian Shen, Haotian Li, Yun Wang, Huamin Qu

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03876v1

摘要： 由于人类注意力有限且需要专业技能，从原始数据创建数据故事具有挑战性。大语言模型 (LLM) 的最新进展为开发具有自主代理的系统以简化数据讲述工作流程提供了绝佳的机会。尽管多智能体系统具有通过对单个智能体分解任务来充分发挥LLM潜力等优点，但设计此类系统也面临任务分解、子任务性能优化和工作流设计等方面的挑战。为了更好地理解这些问题，我们开发了 Data Director，这是一个基于 LLM 的多代理系统，旨在自动创建动画数据视频（数据故事的代表类型）。 Data Director 解释原始数据、分解任务、设计代理角色以自动做出明智的决策，并无缝集成数据视频的不同组件。案例研究证明了 Data Director 在生成数据视频方面的有效性。在整个开发过程中，我们从应对挑战中汲取了经验教训，指导了数据讲故事的自主代理的进一步发展。我们还阐明了全局优化、人机交互设计以及先进多模式大语言模型应用的未来方向。

BeeManc 在 TAC-2023 的 PLABA Track：研究大语言模型和可控属性以提高生物医学文本可读性

分类： 计算和语言, 人工智能

作者： Zihao Li, Samuel Belkadi, Nicolo Micheletti, Lifeng Han, Matthew Shardlow, Goran Nenadic

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03871v1

摘要： 在这份系统报告中，我们描述了参与 PLABA2023 生物医学摘要简化任务（TAC 2023 轨道的一部分）所使用的模型和方法。我们提交的系统输出来自以下三类：1）领域微调的类T5模型，包括Biomedical-T5和Lay-SciFive； 2) 具有可控属性的微调 BARTLarge 模型（通过代币）BART-w-CT； 3) ChatGPT 提示。我们还介绍了我们为此任务在 BioGPT 微调方面所做的工作。在使用 SARI 分数的官方自动评估中，BeeManc 在所有团队中排名第二，我们的模型 LaySciFive 在所有 13 个评估系统中排名第三。在官方的人类评估中，我们的模型 BART-w-CTs 在所有 7 个评估系统中在句子简单性上排名第二（得分 92.84），在术语简单性上排名第三（得分 82.33）；与最高分 93.53 相比，它的流畅度也获得了 91.57 的高分。在第二轮提交中，我们使用 ChatGPT 提示的团队在多个类别中排名第二，包括简化术语准确度得分 92.26 和完整性得分 96.58，以及与重新评估 PLABA-base-1 非常相似的忠实度得分 95.3（95.73））通过人工评估。我们的代码、微调模型、提示和系统开发阶段的数据分割将在 https://github.com/HECTA-UoM/PLABA-MU 提供

NACL：推理时 LLM 的通用且有效的 KV 缓存逐出框架

分类： 计算和语言

作者： Yilong Chen, Guoxia Wang, Junyuan Shang, Shiyao Cui, Zhenyu Zhang, Tingwen Liu, Shuohuan Wang, Yu Sun, Dianhai Yu, Hua Wu

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03675v1

摘要： 大型语言模型（LLM）引发了人工智能应用的创新浪潮，标志着一个配备扩展上下文窗口的令人兴奋的可能性的新时代。然而，托管这些模型的成本高昂，主要是因为涉及长上下文建模的 KV 缓存会消耗大量内存。尽管有几项工作建议从 KV 缓存中驱逐不必要的令牌，但大多数工作都依赖于累积注意力分数的有偏差的本地统计数据，并使用不令人信服的指标（例如对不充分的短文本评估的困惑度）报告性能。在本文中，我们提出了 NACL，一种用于长上下文 KV 缓存驱逐的通用框架，它在编码阶段的单个操作中实现了更优化和更高效的驱逐。由于 NACL 的效率，我们将 PROXY TOKENS EVICTION 中更准确的注意力得分统计与 RANDOM EVICTION 的多样化随机驱逐策略相结合，旨在缓解注意力偏差问题并增强在长上下文建模任务中维护关键令牌的鲁棒性。值得注意的是，我们的方法将短文本和长文本任务的性能分别显着提高了 80% 和 76%，将 KV Cache 减少了高达 50%，同时性能保持率超过 95%。代码可在 https://github.com/PaddlePaddle/Research/tree/master/NLP/ACL2024-NACL 获取。

LLM 微调方法和评估指标与旅行聊天机器人用例的比较

分类： 计算和语言, 人工智能

作者： Sonia Meyer, Shreya Singh, Bertha Tam, Christopher Ton, Angel Ren

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03562v1

摘要： 这项研究比较了大语言模型（LLM）微调方法，包括量化低秩适配器（QLoRA）、检索增强微调（RAFT）和人类反馈强化学习（RLHF），并另外比较了包括 End 在内的 LLM 评估方法使用旅行聊天机器人用例，实现“黄金答案”的端到端 (E2E) 基准方法、传统自然语言处理 (NLP) 指标、RAG 评估 (Ragas)、OpenAI GPT-4 评估指标和人工评估。旅行数据集源自 Reddit API，通过请求旅行相关 subreddits 中的帖子来获取旅行相关对话提示和个性化旅行体验，并针对每种微调方法进行了增强。我们使用了两个用于微调研究的预训练 LLM：LLaMa 2 7B 和 Mistral 7B。 QLoRA 和 RAFT 应用于两个预训练模型。根据上述指标对这些模型的推论进行了广泛的评估。根据人类评估和一些 GPT-4 指标的最佳模型是 Mistral RAFT，因此它经历了人类反馈强化学习 (RLHF) 训练管道，并最终被评估为最佳模型。我们的主要发现是：1）定量和 Ragas 指标与人类评估不一致，2）开放 AI GPT-4 评估与人类评估最一致，3）让人类参与评估循环至关重要，因为，4）传统 NLP 指标不足，5）Mistral 一般优于 LLaMa，6）RAFT 优于 QLoRA，但仍需要后处理，7）RLHF 显着提高模型性能。接下来的步骤包括提高数据质量、增加数据量、探索RAG方法以及将数据收集集中在特定城市，这将通过缩小焦点来提高数据质量，同时创建有用的产品。

MPC 最小化安全 LLM 推理

分类： 密码学和安全, 人工智能, 机器学习

作者： Deevashwer Rathee, Dacheng Li, Ion Stoica, Hao Zhang, Raluca Popa

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03561v1

摘要： 许多基于大型语言模型 (LLM) 的推理服务都会带来隐私问题，要么向服务泄露用户提示，要么向用户泄露专有权重。安全推理通过安全多方计算（MPC）提供了这个问题的解决方案，但是，由于 MPC 带来的巨大开销，对于现代 LLM 工作负载来说仍然不切实际。为了解决这一开销，我们提出了 Marill，这是一个采用 LLM 微调的框架，以最大限度地减少安全推理期间 MPC 的使用。 Marill 在微调过程中引入了高级架构更改，通过在不影响安全性的情况下删除一些操作并将其他操作移至 MPC 外部，显着减少推理过程中 MPC 内所需的昂贵操作的数量。因此，Marill 生成的模型在所有安全推理协议中都更加高效，并且我们的方法补充了此类操作的 MPC 友好近似。与标准微调相比，Marill 在跨各种 MPC 设置的安全推理期间实现了 3.6-11.3 倍更好的运行时间和 2.4-6.9 倍更好的通信，同时通常在下游任务中保留超过 90% 的性能。

使用大语言模型探索跨行业软件故障的相似程度

分类： 软件工程, 人工智能

作者： Martin Detloff

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03528v1

摘要： 软件开发的快速发展需要加强安全措施。通过新闻文章从公司提取有关软件故障的信息变得越来越容易。本研究利用大语言模型失效分析调查 (FAIL) 模型来提取行业特定信息。尽管 FAIL 模型的数据库信息丰富，但它可以受益于进一步的分类和行业特定的见解，以进一步帮助软件工程师。在之前的工作中，新闻文章是从信誉良好的来源收集的，并按数据库内的事件进行分类。然后应用快速工程和大型语言模型 (LLM) 来提取有关软件故障的相关信息。这项研究通过将文章分类为特定领域和软件故障类型来扩展这些方法。结果通过图表直观地表示。分析表明，在整个数据库中，某些软件故障在特定行业中发生的频率明显更高。这种分类为软件工程师和公司识别和解决常见故障提供了宝贵的资源。这项研究强调了软件工程和大型语言模型 (LLM) 之间的协同作用，以自动化和增强软件故障分析。通过将数据库中的数据转换为行业特定模型，我们提供了宝贵的资源，可用于识别常见漏洞、预测潜在风险并实施预防软件故障的主动措施。利用当前 FAIL 数据库和数据可视化的强大功能，我们的目标是为未来的更安全的软件提供一条途径。

利用大语言模型增强自动驾驶中的开放词汇 3D 场景理解

分类： 计算机视觉和模式识别, 机器学习, 机器人技术

作者： Amirhosein Chahe, Lifeng Zhou

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03516v1

摘要： 本文介绍了一种自动驾驶中开放词汇 3D 场景理解的新方法，该方法将语言嵌入式 3D 高斯与大型语言模型 (LLM) 相结合以增强推理。我们建议利用大语言模型来生成上下文相关的规范短语以进行分割和场景解释。我们的方法利用 LLM 的上下文和语义功能来生成一组规范短语，然后将其与 3D 高斯中嵌入的语言特征进行比较。这种大语言模型指导的方法显着提高了零镜头场景理解和感兴趣对象的检测，即使在最具挑战性或不熟悉的环境中也是如此。 WayveScenes101 数据集上的实验结果表明，我们的方法在开放词汇对象检测和分割的准确性和灵活性方面超越了最先进的方法。这项工作代表了朝着更智能、上下文感知的自动驾驶系统迈出的重大进步，有效地将 3D 场景表示与高级语义理解联系起来。

针对LLM集成移动机器人系统的即时注入攻击研究

分类： 机器人技术, 人工智能

作者： Wenxiao Zhang, Xiangrui Kong, Conan Dewitt, Thomas Braunl, Jin B. Hong

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03515v1

摘要： 将 GPT-4o 等大型语言模型 (LLM) 集成到机器人系统中代表了实体人工智能的重大进步。这些模型可以处理多模式提示，使它们能够生成更多上下文感知响应。然而，这种整合并非没有挑战。主要问题之一是在机器人导航任务中使用大语言模型的潜在安全风险。这些任务需要精确可靠的响应，以确保安全有效的运行。多模式提示在增强机器人理解能力的同时，也带来了可能被恶意利用的复杂性。例如，旨在误导模型的对抗性输入可能会导致不正确或危险的导航决策。本研究调查了即时注入对大语言模型集成系统中移动机器人性能的影响，并探索了减轻这些风险的安全提示策略。我们的研究结果表明，通过实施强大的防御机制，攻击检测和系统性能总体显着提高了约 30.8%，凸显了它们在增强面向任务的安全性和可靠性方面的关键作用。

Optimus：通过泡沫开发加速大规模多模式 LLM 培训

分类： 计算和语言, 人工智能, 分布式、并行和集群计算

作者： Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03505v1

摘要： 多模态大语言模型 (MLLM) 将大语言模型 (LLM) 的成功扩展到图像、文本和音频等多种数据类型，在多模态翻译、视觉问答和内容生成等多个领域取得了显着的性能。尽管如此，由于异构模态模型和 3D 并行中复杂的数据依赖关系导致大量 GPU 气泡，现有系统训练 MLLM 的效率很低。本文提出了 Optimus，一种分布式 MLLM 训练系统，可减少端到端 MLLM 训练时间。 Optimus 基于我们的原理分析，即在 LLM 气泡内调度编码器计算可以减少 MLLM 训练中的气泡。为了使所有 GPU 都可以调度编码器计算，Optimus 搜索编码器和 LLM 的单独并行计划，并采用气泡调度算法来利用 LLM 气泡，而不会破坏 MLLM 模型架构中的原始数据依赖性。我们进一步将编码器层计算分解为一系列内核，并分析 3D 并行性的常见气泡模式，以仔细优化亚毫秒级气泡调度，最大限度地减少整体训练时间。我们在生产集群中的实验表明，与基线相比，Optimus 在 3072 个 GPU 上使用 ViT-22B 和 GPT-175B 模型将 MLLM 训练速度提高了 20.5%-21.3%。

利用大语言模型在源代码漏洞检测中的力量

分类： 软件工程, 人工智能, 密码学和安全

作者： Andrew A Mahyari

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03489v1

摘要： 由源代码中无意的缺陷引起的软件漏洞是网络攻击的主要原因。源代码的静态分析已被广泛用于检测软件开发人员引入的这些无意的缺陷。大型语言模型 (LLM) 能够捕获连续数据（例如自然语言）中的复杂模式，因此表现出了类似人类的对话能力。在本文中，我们利用大语言模型的能力来分析源代码并检测已知漏洞。为了确保所提出的漏洞检测方法在多种编程语言中通用，我们将源代码转换为 LLVM IR 并在这些中间表示上训练 LLM。我们对各种 LLM 架构进行了广泛的实验，并比较了它们的准确性。我们对 NVD 和 SARD 的真实代码和合成代码进行的综合实验表明，在识别源代码漏洞方面具有很高的准确性。

FLASH：基于联合学习的大语言模型，通过 RAG 在社交网络中进行高级查询处理

分类： 机器学习, 分布式、并行和集群计算, 信息检索, 社交和信息网络

作者： Sai Puppala, Ismail Hossain, Md Jahangir Alam, Sajedul Talukder

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.05242v1

摘要： 我们的论文介绍了一种通过联邦学习 GPT 支持的个性化聊天机器人系统进行社交网络信息检索和用户参与的新颖方法。该系统旨在无缝聚合和管理不同的社交媒体数据源，包括用户帖子、多媒体内容和趋势新闻。利用联邦学习技术，GPT 模型在去中心化数据源上进行训练，以确保隐私和安全，同时提供个性化的见解和建议。用户通过直观的界面与聊天机器人交互，访问定制信息以及社交媒体趋势和用户生成内容的实时更新。该系统的创新架构能够高效处理输入文件，使用元数据解析和丰富文本数据，并使用高级语言模型生成相关问题和答案。通过促进对丰富的社交网络信息的交互访问，这种个性化的聊天机器人系统代表了社交媒体通信和知识传播的重大进步。

LLM 开发人员面临的挑战的实证研究

分类： 软件工程

作者： Xiang Chen, Chaoyang Gao, Chunyang Chen, Guangbei Zhang, Yong Liu

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.05002v2

摘要： 近年来，大型语言模型（LLM）取得了快速发展，对自然语言处理和软件工程等各个领域产生了重大影响。这些大语言模型（以 OpenAI 的 ChatGPT 为代表）彻底改变了我们处理语言理解和生成任务的方式。然而，与传统的软件开发实践相比，LLM开发在设计、实现和部署方面给人工智能开发人员带来了新的挑战。这些挑战跨越不同的领域（例如提示、API 和插件），要求开发人员掌握 LLM 开发特有的独特方法和注意事项。尽管大语言模型有着深远的影响，但据我们所知，这些挑战在之前的实证研究中尚未得到彻底的研究。为了填补这一空白，我们提出了第一个关于了解大语言模型开发人员面临的挑战的全面研究。具体来说，我们从流行的 OpenAI 开发者论坛中抓取并分析了 29,057 个相关问题。我们首先检查它们的受欢迎程度和难度。在手动分析 2,364 个抽样问题后，我们构建了 LLM 开发人员面临的挑战的分类。基于这种分类法，我们总结了一系列研究结果以及对 LLM 相关利益相关者（包括开发人员和提供商（尤其是 OpenAI 组织））的可操作影响。

LLM 稳定性：带有一些惊喜的详细分析

分类： 计算和语言, 人工智能, 机器学习, 软件工程

作者： Berk Atil, Alexa Chittams, Liseng Fu, Ferhan Ture, Lixinyu Xu, Breck Baldwin

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.04667v1

摘要： 我们近乎神奇的大语言模型的一个令人担忧的特性是，在给定完全相同的输入和确定性超参数的情况下，结果会有所不同。虽然人工智能在训练数据之外的输入中始终存在一定程度的噪音，但我们通常对任何特定输入都有确定性的结果；但事实已不再如此。虽然大多数大语言模型从业者“知情”，但我们不知道有任何试图量化当前大语言模型稳定性的工作。我们怀疑没有人肯花功夫，因为这是一篇太无聊的论文，无法执行和撰写。但我们已经做到了，并且有一些惊喜。什么样的惊喜？评估的大语言模型在原始产出水平上很少具有确定性；它们在解析的输出/答案级别上更具确定性，但在使用相同数据输入的 5 次重新运行中仍然很少能 100% 稳定。 LLM 准确性变化不呈正态分布。稳定性因任务而异。

LLM 不仅仅是下一个代币预测者

分类： 计算和语言, 人工智能

作者： Stephen M. Downes, Patrick Forber, Alex Grzankowski

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.04666v1

摘要： LLM 是通过随机梯度下降和下一个标记预测目标进行语言学习的统计模型。在人工智能建模者中提出了一种流行的观点：大语言模型只是下一个令牌预测器。虽然 LLM 是使用下一个令牌预测进行设计的，并根据其在此任务中的成功进行训练，但我们的观点是，减少到下一个令牌预测器会低估 LLM。此外，当我们进行这种减少时，LLM行为和能力的一些重要解释就会丢失。为了阐明这一点，我们将与曾经著名的生物学研究项目进行类比，从基因的角度解释进化和发展。

使用少样本演示基于 LLM 的 MOF 合成条件提取

分类： 计算和语言, 人工智能

作者： Lei Shi, Zhimeng Liu, Yi Yang, Weize Wu, Yuyang Zhang, Hongbo Zhang, Jing Lin, Siyu Wu, Zihan Chen, Ruiming Li, Nan Wang, Zipeng Liu, Huobin Tan, Hongyi Gao, Yue Zhang, Ge Wang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.04665v1

摘要： 从文献文本中提取金属有机框架（MOF）合成条件一直具有挑战性，但对于具有所需功能的新型 MOF 的逻辑设计至关重要。最近出现的大型语言模型 (LLM) 为这个长期存在的问题提供了颠覆性的新解决方案，最新研究报告显示，从 MOF 文献中提取正确条件的 F1 率超过 90%。我们在本文中认为，大多数现有的大语言模型综合提取实践仍停留在原始的零样本学习，这可能会由于缺乏专业知识而导致提取和应用程序性能下降。这项工作开创并优化了材料合成条件的 LLM 提取的少样本上下文学习范例。首先，我们提出了一种人类-人工智能联合数据管理流程，以确保进行少量学习的高质量地面实况演示。其次，我们应用基于检索增强生成（RAG）技术的 BM25 算法来自适应地为每个 MOF 的提取选择少量样本演示。在从 84,898 个明确定义的 MOF 中随机采样的数据集上，所提出的少样本方法比使用相同 GPT-4 模型的本机零样本 LLM 实现了更高的平均 F1 性能（0.93 与 0.81，+14.8%）。全自动评估，比以往的人工评估更加客观。通过真实材料实验进一步验证了所提出的方法：与基线零样本LLM相比，所提出的少样本方法将MOF结构推理性能（R^2）平均提高了29.4%。

LLM 可以用作时间序列异常检测器吗？

分类： 机器学习, 人工智能

作者： Manqing Dong, Hao Huang, Longbing Cao

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03475v1

摘要： 大型语言模型（LLM）的一个新兴主题是它们在时间序列预测中的应用，描述了时间序列的主流和可模式特征。一个相关但很少探讨且更具挑战性的问题是大语言模型是否可以检测和解释时间序列异常，这是各种现实世界应用程序中的一项关键任务。在本文中，我们研究了 LLM（特别是 GPT-4 和 LLaMA3）在检测和解释时间序列异常方面的能力。我们的研究表明：1）LLM不能直接用于时间序列异常检测。 2）通过设计上下文学习和思维链提示等提示策略，GPT-4可以检测时间序列异常，结果与基线方法相媲美。 3）我们提出了一个综合数据集来自动生成时间序列异常以及相应的解释。通过对该数据集应用指令微调，LLaMA3 在时间序列异常检测任务中展示了改进的性能。总之，我们的探索表明了大语言模型作为时间序列异常检测器的巨大潜力。

逻辑回归使小型大语言模型变得强大且可解释的“数十次”分类器

分类： 计算和语言, 机器学习, 机器学习, 68T50 (Primary), 62J07 (Secondary), I.2.7

作者： Marcus Buckmann, Edward Hill

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03414v1

摘要： 对于简单的分类任务，我们表明用户可以受益于使用小型本地生成语言模型而不是大型商业模型的优势，而无需权衡性能或引入额外的标签成本。这些优势，包括隐私、可用性、成本和可解释性方面的优势，对于商业应用和更广泛的人工智能民主化都很重要。通过对 17 个句子分类任务（2-4 类）的实验，我们表明，小型 LLM 嵌入的惩罚逻辑回归等于（并且通常更好）大型 LLM 在“数十次射击”机制中的性能。这不需要比验证大型 LLM 性能所需的更多标记实例。最后，我们为分类决策提取稳定且合理的解释。

张量加速器的 LLM 辅助编译

分类： 硬件架构, 机器学习, 编程语言

作者： Charles Hong, Sahil Bhatia, Altan Haan, Shengjun Kris Dong, Dima Nikiforov, Alvin Cheung, Yakun Sophia Shao

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03408v1

摘要： 硬件加速器，特别是张量处理加速器，具有许多潜在的应用领域。然而，他们目前缺乏支持深度学习之外的大多数领域的软件基础设施。此外，可以轻松更新以反映应用程序和硬件级别变化的编译器将使加速器的开发和设计空间探索更加敏捷，从而使硬件设计人员能够实现更接近最佳的性能。在这项工作中，我们讨论了如何利用大型语言模型（LLM）来构建这样的编译器。具体来说，我们展示了 GPT-4 在将代码翻译到 Gemmini 加速器时实现高通过率的能力，并构建了一种将翻译分解为更小、更 LLM 友好的步骤的技术原型。此外，我们提出了一个利用 LLM 生成硬件优化代码的两阶段工作流程。

培训大语言模型识别自发叙述中的模糊限制语

分类： 计算和语言, 人工智能, I.2.7

作者： Amie J. Paige, Adil Soubki, John Murzaku, Owen Rambow, Susan E. Brennan

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03319v1

摘要： 模糊限制语允许说话者将话语标记为临时的，无论是表示非典型性还是“模糊性”，表明缺乏对话语的承诺，将声明的责任归咎于其他人，邀请合作伙伴的意见，或者软化满足面部管理需求的关键反馈。在这里，我们重点关注由 21 位发言者根据记忆自发生成的 63 个走鹃卡通叙述的实验性参数化语料库中的模糊限制语，并将其转录为文本（Galati 和 Brennan，2010）。我们创建了由人类编码员注释的对冲黄金标准（Roadrunner-Hedge 语料库），并比较了三种基于 LLM 的对冲检测方法：微调 BERT，以及使用 GPT-4o 和 LLaMA-3 进行零次和少次提示。性能最好的方法是经过微调的 BERT 模型，其次是小样本 GPT-4o。在对表现最好的方法进行错误分析后，我们使用了 LLM-in-the-Loop 方法来改进黄金标准编码，并以语言上有趣的方式突出显示模糊限制语的情况，这将指导未来的研究。这是我们研究计划的第一步，旨在培训大语言模型在对话中适当且有意义地解释和生成附带信号。

最佳地扩展 LLM 测试时计算比扩展模型参数更有效

分类： 机器学习, 计算和语言

作者： Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03314v1

摘要： 使大语言模型能够通过使用更多的测试时间计算来提高其输出，是构建可以在开放式自然语言上运行的总体自我改进代理的关键一步。在本文中，我们研究了大语言模型中推理时间计算的扩展，重点是回答以下问题：如果允许大语言模型使用固定但重要的推理时间计算量，它可以提高多少在具有挑战性的提示下表现如何？回答这个问题不仅影响大语言模型可实现的性能，而且影响大语言模型预训练的未来以及如何权衡推理时间和预训练计算。尽管它很重要，但很少有研究试图理解各种测试时推理方法的缩放行为。此外，当前的工作在很大程度上为许多这些策略提供了负面结果。在这项工作中，我们分析了扩展测试时计算的两种主要机制：（1）搜索密集的、基于过程的验证者奖励模型； (2) 根据测试时的提示，自适应地更新模型在响应上的分布。我们发现，在这两种情况下，扩展测试时计算的不同方法的有效性取决于提示的难度。这一观察结果促使应用“计算最优”扩展策略，该策略可以根据提示自适应地最有效地分配测试时间计算。使用这种计算最优策略，与 best-of-N 基线相比，我们可以将测试时计算扩展的效率提高 4 倍以上。此外，在 FLOPs 匹配的评估中，我们发现，在较小的基础模型获得一定成功率的问题上，测试时计算可用于超越 14 倍大的模型。

从弱和强 LLM 合成文本到 SQL 数据

分类： 计算和语言

作者： Jiaxi Yang, Binyuan Hui, Min Yang, Jian Yang, Junyang Lin, Chang Zhou

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03256v1

摘要： 开源和闭源大语言模型 (LLM) 之间的能力差距仍然是文本到 SQL 任务中的一个挑战。在本文中，我们介绍了一种合成数据方法，它将更大、更强大的模型（强模型）生成的数据与更小、不对齐的模型（弱模型）生成的错误信息数据相结合。该方法不仅增强了文本到 SQL 模型的领域泛化，而且还探索了通过偏好学习进行错误数据监督的潜力。此外，我们采用合成数据方法对开源 LLM 进行指令调整，从而产生了 SENSE，一种专门的文本到 SQL 模型。 SENSE 的有效性通过 SPIDER 和 BIRD 基准测试的最新结果得到证明，弥合了开源模型与闭源模型提出的方法之间的性能差距。

在神经机器翻译中用情感调节大语言模型

分类： 计算和语言, 机器学习

作者： Charles Brazier, Jean-Luc Rouas

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03150v1

摘要： 大型语言模型 (LLM) 在自然语言处理任务（包括机器翻译 (MT)）中表现出了卓越的性能。在这项工作中，我们提出了一种新颖的机器翻译管道，将从语音情绪识别（SER）模型中提取的情绪信息集成到大语言模型中，以提高翻译质量。我们首先在 Libri-trans 数据集上微调五个现有的 LLM，并选择性能最佳的模型。随后，我们用不同维度的情感增强大语言模型提示，并在这些不同的配置下训练所选的大语言模型。我们的实验表明，将情感信息（尤其是唤醒）整合到大语言模型提示中可以显着提高翻译质量。

使用微调大语言模型和句子包进行主题建模

分类： 计算和语言, 机器学习

作者： Johannes Schneider

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03099v1

摘要： 大型语言模型 (LLM) 越来越多地用于主题建模，其性能优于 LDA 等经典主题模型。通常，预训练的 LLM 编码器（例如 BERT）是开箱即用的，尽管众所周知微调可以显着改善 LLM。挑战在于获得合适的（标记的）数据集进行微调。在本文中，我们使用最近的想法，使用句子包作为计算主题的基本单位。反过来，我们推导出一种方法 FT-Topic 来执行无监督微调，主要依靠以自动方式构建训练数据集的两个步骤。首先，采用启发式方法来识别被假定为相同或不同主题的句子组对。其次，我们删除可能被错误标记的句子对。然后，该数据集用于微调编码器 LLM，任何使用嵌入的主题建模方法都可以利用该编码器。然而，在这项工作中，我们通过推导一种新颖的、最先进的主题建模方法（称为 SenClu）来证明其有效性，该方法通过期望最大化算法和将句子组硬分配给单个主题来实现快速推理，同时给出用户可以对主题文档分布的先验知识进行编码。代码位于 \url{https://github.com/JohnTailor/FT-Topic}

TestART：通过自动生成和修复迭代的共同进化改进基于 LLM 的单元测试

分类： 软件工程

作者： Siqi Gu, Chunrong Fang, Quanjun Zhang, Fangyuan Tian, Zhenyu Chen

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03095v2

摘要： 单元测试对于检测各个程序单元中的错误至关重要，但会耗费时间和精力。现有的自动化单元测试生成方法主要基于基于搜索的软件测试（SBST）和语言模型来解放开发人员。最近，大型语言模型（LLM）表现出了卓越的推理和生成能力。然而，有几个问题限制了它们生成高质量测试用例的能力：（1）LLM可能在上下文不足的情况下生成无效的测试用例，从而导致编译错误； (2)缺乏测试和覆盖率反馈信息可能会导致运行时错误和覆盖率低。 (3) 重复抑制问题导致大语言模型陷入自我修复或再生尝试的重复循环。在本文中，我们提出了 TestART，这是一种新颖的单元测试生成方法，它利用了大语言模型的优势，同时克服了上述限制。 TestART 通过自动生成和修复迭代的共同进化改进了基于 LLM 的单元测试。 TestART利用基于模板的修复技术来修复LLM生成的测试用例中的错误，使用提示注入来指导下一步自动生成并避免重复抑制。此外，TestART从通过的测试用例中提取覆盖率信息，并将其用作测试反馈，以增强最终测试用例的充分性。生成和修复之间的协同作用显着提高了生成的测试用例的质量、有效性和可读性，远远超出了以前的方法。在对比实验中，TestART生成的测试用例的通过率为78.55%，比ChatGPT-4.0模型和相同的基于ChatGPT-3.5的方法ChatUniTest高出约18%。在通过测试的焦点方法上，它还实现了令人印象深刻的 90.96% 的线路覆盖率，超过 EvoSuite 3.4%。

在网络犯罪论坛中使用大型语言模型 (LLM) 进行网络威胁情报 (CTI)

分类： 密码学和安全, 人工智能, 计算和语言

作者： Vanessa Clairoux-Trepanier, Isa-May Beauchamp, Estelle Ruellan, Masarah Paquet-Clouston, Serge-Olivier Paquette, Eric Clay

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03354v1

摘要： 大型语言模型 (LLM) 可用于分析来自网络犯罪论坛的网络威胁情报 (CTI) 数据，其中包含有关新兴网络威胁的大量信息和关键讨论。然而，迄今为止，大语言模型对于此类关键任务的准确性和效率水平尚未得到彻底评估。因此，本研究评估了基于 OpenAI GPT-3.5-turbo 模型 [7] 构建的 LLM 系统提取 CTI 信息的准确性。为此，我们从三个网络犯罪论坛（XSS、Exploit.in 和 RAMP）中随机抽取了 500 个日常对话样本，并指示 LLM 系统总结这些对话并编码 10 个关键 CTI 变量，例如是否存在大量组织和/或关键基础设施正在成为目标。然后，两名编码员审查每一次对话，并评估大语言模型提取的信息是否准确。 LLM系统的表现非常出色，平均准确率达到98%。我们发现了增强模型的各种方法，例如需要帮助大语言模型区分故事和过去的事件，以及注意提示中的动词时态。尽管如此，这项研究的结果凸显了使用大语言模型进行网络威胁情报的效率和相关性。

大语言模型作为 DFA 学习的概率最低充足教师

分类： 形式语言和自动机理论, 人工智能

作者： Lekai Chen, Ashutosh Trivedi, Alvaro Velasquez

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02999v1

摘要： 大型语言模型（LLM）中智能的出现激发了对其与自动机学习的集成的研究。本文介绍了概率最小适当教师 (pMAT) 公式，它利用概率预言机，在回答确定性有限自动机 (DFA) 学习的成员资格查询时可以随机给出持续错误。鉴于大语言模型容易产生幻觉内容，我们开发了一些技术来提高答案准确性并确保学习自动机的正确性。我们提出了 $\mathtt{Discrimination}$ 提示以及 $\mathtt{Verification}$ 提示，并探讨了它们相对于常见提示的优势。此外，我们还比较了 TTT 算法和常见主动学习算法之间的 DFA 学习性能。为了解决指数数量的持续错误，我们实现了动态查询缓存细化算法，该算法通过结合主动和被动学习算法来识别和纠正冲突查询。实证结果证明了我们方法的稳健性和效率，为循环中大语言模型的自动学习提供了理论基础。

注册营养师考试中大语言模型的准确性和一致性：即时工程和知识检索的影响

分类： 计算和语言

作者： Iman Azimi, Mohan Qi, Li Wang, Amir M. Rahmani, Youlin Li

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02964v1

摘要： 大语言模型 (LLM) 正在从根本上改变健康和福祉领域中面向人类的应用：提高患者参与度、加速临床决策并促进医学教育。尽管最先进的大语言模型在一些会话应用中表现出了卓越的表现，但在营养和饮食应用中的评估仍然不足。在本文中，我们建议采用注册营养师（RD）考试对最先进的LLM、GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro进行标准和全面的评估，评估准确性和一致性在营养查询中。我们的评估包括 1050 道 RD 考试题，涵盖多个营养主题和熟练程度。此外，我们首次研究了零射击（ZS）、思维链（CoT）、自我一致性思维链（CoT-SC）和检索增强提示（RAP）对准确性和准确性的影响。反应的一致性。我们的研究结果显示，虽然这些大语言模型获得了可接受的整体表现，但他们的结果因提示和问题领域的不同而存在很大差异。具有 CoT-SC 提示的 GPT-4o 优于其他方法，而具有 ZS 的 Gemini 1.5 Pro 记录了最高的一致性。对于 GPT-4o 和 Claude 3.5，CoT 提高了准确性，CoT-SC 提高了准确性和一致性。 RAP 对于 GPT-4o 回答专家级问题特别有效。因此，选择适合熟练程度和特定领域的大语言模型和提示技术，可以减少饮食和营养聊天机器人中的错误和潜在风险。

大语言模型数据中毒的规模法则

分类： 密码学和安全, 人工智能, 机器学习

作者： Dillon Bowen, Brendan Murphy, Will Cai, David Khachaturov, Adam Gleave, Kellin Pelrine

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02946v1

摘要： 最近的研究表明，大语言模型很容易受到数据中毒的影响，因为他们接受的是部分损坏或有害数据的培训。中毒数据很难被发现，破坏护栏，并导致不良和有害的行为。鉴于领先实验室为培训和部署规模越来越大、能力越来越强的大语言模型付出了巨大努力，因此至关重要的是要弄清楚数据中毒的风险是否会随着规模的扩大而自然减轻，或者它是否会成为一个日益严重的威胁。我们考虑了可能发生数据中毒的三种威胁模型：恶意微调、不完善的数据管理和故意数据污染。我们的实验评估了数据中毒对 23 个前沿大语言模型的影响，涉及三个数据集上的 1.5-72 亿个参数，这三个数据集与我们的每个威胁模型相关。我们发现，规模较大的大语言模型越来越容易受到攻击，他们学习有害行为（包括潜伏代理行为）的速度比规模较小的大语言模型要快得多，即使数据中毒程度最低。这些结果强调了在大型大语言模型中需要采取强有力的保护措施来防止数据中毒。

无线通信系统中的大语言模型授权资源分配

分类： 信号处理, 人工智能, 系统与控制, 系统与控制

作者： Woongsup Lee, Jeonghun Park

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02944v1

摘要： 大型语言模型（LLM）最近的成功刺激了它们在各个领域的应用。特别是，人们一直在努力将大语言模型集成到无线通信系统的各个方面。在无线通信系统中使用大语言模型有可能实现人工智能（AGI）支持的无线网络。在本文中，我们研究了一种基于 LLM 的无线通信系统资源分配方案。具体来说，我们制定了一个涉及两个传输对的简单资源分配问题，并开发了一种基于LLM的资源分配方法，旨在最大化能源效率或频谱效率。此外，我们考虑联合使用低复杂度的资源分配技术来弥补基于LLM的方案的可靠性缺陷。在确认基于大语言模型的资源分配的适用性和可行性后，我们解决了大语言模型在实践中应用中仍然存在的几个关键技术挑战。

HARMONIC：利用大语言模型进行表格数据合成和隐私保护

分类： 机器学习, 人工智能, 计算和语言, 密码学和安全

作者： Yuxin Wang, Duanyu Feng, Yongfu Dai, Zhengyu Chen, Jimin Huang, Sophia Ananiadou, Qianqian Xie, Hao Wang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02927v1

摘要： 数据是推进深度学习的基础，特别是以结构化格式呈现的表格数据，非常有利于建模。然而，即使在大语言模型时代，由于隐私或版权问题，从敏感领域获取表格数据仍然是一个挑战。因此，探索如何有效地使用大语言模型等模型来生成真实且保护隐私的合成表格数据迫在眉睫。在本文中，我们通过引入用于表格数据生成和评估的新框架 HARMONIC，进一步探索表格数据合成和隐私保护的大语言模型。在我们框架的表格数据生成中，与之前依赖持续预训练的小规模LLM方法不同，我们通过微调探索更大规模的LLM，以生成表格数据并增强隐私。基于k近邻算法的思想，构建了指令微调数据集来启发LLM发现行间关系。然后，通过微调，大语言模型被训练记住数据的格式和连接，而不是数据本身，从而降低隐私泄露的风险。在我们框架的评估部分，我们开发了用于 LLM 合成数据生成的特定隐私风险指标 DLT，以及用于下游 LLM 任务的性能评估指标 LLE。我们的实验发现，这种表格数据生成框架实现了与现有方法相当的性能，并且具有更好的隐私性，这也证明了我们对LLM场景中合成数据的有效性和隐私风险的评估框架。

SLO 感知 GPU 频率缩放，实现节能 LLM 推理服务

分类： 分布式、并行和集群计算, 人工智能, 硬件架构, 机器学习

作者： Andreas Kosmas Kakolyris, Dimosthenis Masouros, Petros Vavaroutsos, Sotirios Xydis, Dimitrios Soudris

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.05235v1

摘要： 随着大型语言模型 (LLM) 的发展，它们对耗电 GPU 的依赖导致能源需求不断增加，引发了环境和经济方面的担忧。推理在 LLM 工作负载中占主导地位，这给提供商带来了严峻的挑战：在服务级别目标 (SLO) 下最大限度地降低能源成本，以确保最佳的用户体验。在本文中，我们提出了 \textit{throttLL'eM}，这是一个通过使用实例和 GPU 频率缩放来降低能耗同时满足 SLO 的框架。 \textit{throttLL'eM} 具有预测未来 KV 缓存使用情况和批量大小的机制。利用接收这些预测作为输入的机器学习 (ML) 模型，\textit{throttLL'eM} 管理迭代级别的性能，以满足频率和实例大小降低的 SLO。我们表明，所提出的 ML 模型的 $R^2$ 得分高于 0.97，平均每秒迭代次数少于 1 次。 LLM 推理轨迹的实验结果表明，与 NVIDIA 的 Triton 服务器相比，\textit{throttLL'eM} 在 SLO 下实现了高达 43.8% 的能耗降低和至少 1.71\times$ 的能效提升。

使用异构反馈微调大语言模型的框架

分类： 计算和语言, 机器学习, I.2.7

作者： Ryan Aponte, Ryan A. Rossi, Shunan Guo, Franck Dernoncourt, Tong Yu, Xiang Chen, Subrata Mitra, Nedim Lipka

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02861v1

摘要： 大型语言模型 (LLM) 已应用于广泛的任务，包括文本摘要、网络导航和聊天机器人。他们受益于无监督预训练后的监督微调（SFT）和来自人类反馈的强化学习（RLHF）。这些数据集可能难以收集、范围有限且样本质量各异。此外，数据集的监督格式可能有很大差异，从数字到二进制，以及具有许多不同值的多维。我们提出了一个使用异构反馈微调大语言模型的框架，该框架有两个主要组成部分。首先，我们将异构反馈数据组合成单一监督格式，与 SFT 和 RLHF 等方法兼容。接下来，给定这个统一的反馈数据集，我们提取高质量且多样化的子集，以获得可能超过完整数据集的性能提升。我们进行了广泛的实验，以了解这些技术合并异构反馈的有效性，并展示使用高质量和多样化的数据子集所带来的改进。我们发现我们的框架能够同时改进多个领域的模型，例如指令遵循和偏差减少。

经济大语言模型？通过效用理论映射大语言模型的行为偏差

分类： 计算和语言

作者： Jillian Ross, Yoon Kim, Andrew W. Lo

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02784v1

摘要： 人类不是经济人（即理性的经济存在）。作为人类，我们表现出系统性的行为偏差，例如损失厌恶、锚定、框架等，这导致我们做出次优的经济决策。就此类偏差可能嵌入到训练大型语言模型（LLM）的文本数据而言，LLM 在多大程度上容易出现相同的行为偏差？了解大语言模型中的这些偏见对于部署大语言模型来支持人类决策至关重要。我们提出效用理论（现代经济理论的核心范式）作为评估大语言模型经济偏见的方法。效用理论能够将经济行为与完美理性或人类行为等基准进行量化和比较。为了展示我们的方法，我们量化并比较了各种开源和闭源大语言模型的经济行为。我们发现，当前大语言模型的经济行为既不完全像人类，也不完全像经济学。我们还发现，目前大多数大语言模型很难在不同环境下保持一致的经济行为。最后，我们说明了我们的方法如何衡量干预措施的效果，例如提示对经济偏见的影响。

利用大语言模型的力量：高质量基于方面的摘要的微调方法

分类： 计算和语言, 人工智能, 信息检索

作者： Ankan Mullick, Sombit Bose, Rounak Saha, Ayan Kumar Bhowmick, Aditya Vempaty, Pawan Goyal, Niloy Ganguly, Prasenjit Dey, Ravi Kokku

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02584v1

摘要： 数字信息量不断增加，用户需要有效的方法从冗长的文档中提取关键见解。基于方面的摘要提供了一种有针对性的方法，生成专注于文档中特定方面的摘要。尽管基于方面的摘要研究取得了进步，但人们仍在不断寻求改进模型性能。鉴于大语言模型（LLM）已经证明了在自然语言处理中彻底改变各种任务的潜力，特别是在摘要问题上，本文探讨了针对基于方面的摘要任务微调 LLM 的潜力。我们评估了微调开源基金会 LLM（包括 Llama2、Mistral、Gemma 和 Aya）对公开可用的基于特定领域方面的摘要数据集的影响。我们假设这种方法将使这些模型能够有效地识别和提取与方面相关的信息，从而与最先进的技术相比，产生更高质量的基于方面的摘要。我们建立了一个全面的评估框架，将微调大语言模型的性能与基于方面的竞争性总结方法和微调大语言模型的普通对应方法进行比较。我们的工作通过展示微调大语言模型生成高质量基于方面的摘要的功效，为基于方面的摘要领域做出了贡献。此外，它为进一步探索使用大语言模型跨各个 NLP 领域进行有针对性的信息提取任务打开了大门。

基于关丹心理理论的大语言模型代理的评估和增强：不完全信息下的多人合作博弈

分类： 计算和语言, 人工智能

作者： Yauwai Yim, Chunkit Chan, Tianyu Shi, Zheye Deng, Wei Fan, Tianshi Zheng, Yangqiu Song

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02559v1

摘要： 大型语言模型（LLM）在处理具有不完美信息的简单游戏和实现多智能体协调方面已显示出成功，但它们在复杂、不完美的信息环境中（特别是在非英语环境中）促进与其他智能体的实际协作的能力仍然需要有待探索。本研究调查了开源和基于 API 的大语言模型所获得的知识对于复杂的基于文本的游戏的适用性，这些游戏需要在不完美信息下进行代理协作，并将其性能与使用其他类型代理建立的基线进行比较。我们提出了一种心智理论 (ToM) 规划技术，允许 LLM 代理仅使用游戏规则、当前状态和历史背景作为输入来调整其针对各种对手的策略。引入了一个外部工具来减轻这款纸牌游戏中动态和广泛的动作空间的挑战。我们的结果表明，尽管当前的大语言模型和最先进的强化学习（RL）模型之间存在性能差距，但大语言模型在这种游戏环境中展示了 ToM 能力。它不断提高他们对抗敌对特工的表现，表明他们有能力了解盟友和对手的行动并与盟友建立合作。为了鼓励进一步的研究和理解，我们开放了我们的代码库。

RAG Foundry：增强大语言模型检索增强生成的框架

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Daniel Fleischer, Moshe Berchansky, Moshe Wasserblat, Peter Izsak

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02545v1

摘要： 实施检索增强生成 (RAG) 系统本质上是复杂的，需要深入了解数据、用例和复杂的设计决策。此外，评估这些系统提出了重大挑战，需要通过多方面的方法评估检索准确性和生成质量。我们介绍 RAG Foundry，这是一个开源框架，用于增强 RAG 用例的大型语言模型。 RAG Foundry 将数据创建、训练、推理和评估集成到单个工作流程中，有助于创建数据增强数据集，以便在 RAG 设置中训练和评估大型语言模型。这种集成支持使用各种 RAG 技术进行快速原型设计和实验，使用户能够轻松生成数据集并使用内部或专业知识源训练 RAG 模型。我们通过使用不同的 RAG 配置增强和微调 Llama-3 和 Phi-3 模型来展示框架的有效性，展示了三个知识密集型数据集的一致改进。代码在 https://github.com/IntelLabs/RAGFoundry 中作为开源发布。

上下文征服参数：在提交消息生成方面优于专有 LLM

分类： 软件工程

作者： Aaron Imani, Iftekhar Ahmed, Mohammad Moshirpour

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02502v1

摘要： 提交消息使用自然语言提供提交中所做修改的描述，这使得它们对于软件维护和发展至关重要。大型语言模型 (LLM) 的最新发展导致它们用于生成高质量的提交消息，例如全知消息生成器 (OMG)。此方法使用 GPT-4 来生成最先进的提交消息。然而，在编码任务中使用 GPT-4 等专有大语言模型会引发隐私和可持续性问题，这可能会阻碍其行业采用。考虑到开源 LLM 在编译器验证等开发人员任务中已经取得了具有竞争力的性能，本研究调查了它们是否可以用于生成与 OMG 相当的提交消息。我们的实验表明，开源 LLM 可以生成与 OMG 生成的提交消息相当的提交消息。此外，通过一系列上下文改进，我们提出了 lOcal MessagE GenerAtor (OMEGA)，这是一种使用 4 位量化 8B 开源 LLM 的 CMG 方法。 OMEGA 生成最先进的提交消息，在从业者的偏好中超越了 GPT-4 的性能。

大语言模型在代码生成方面的许可合规能力初探

分类： 软件工程, 人工智能, 机器学习

作者： Weiwei Xu, Kai Gao, Hao He, Minghui Zhou

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02487v1

摘要： 大型语言模型 (LLM) 的最新进展彻底改变了代码生成，导致开发人员广泛采用人工智能编码工具。然而，大语言模型可以在不提供必要的许可证信息的情况下生成受许可证保护的代码，从而导致软件生产过程中潜在的知识产权侵权行为。本文通过建立一个基准来评估大语言模型为其生成的代码提供准确的许可证信息的能力，解决了大语言模型生成的代码中关键但尚未充分探讨的许可证合规性问题。为了建立这个基准，我们进行了实证研究，以确定“惊人相似”的合理标准，排除独立创作的可能性，表明LLM输出与某些开源代码之间存在复制关系。基于该标准，我们提出了评估基准LiCoEval，用于评估大语言模型的许可合规能力。使用 LiCoEval，我们评估了 14 个流行的大语言模型，发现即使是表现最好的大语言模型也会产生不可忽视的比例（0.88% 到 2.01%）与现有开源实现惊人相似的代码。值得注意的是，大多数大语言模型无法提供准确的许可信息，特别是对于 Copyleft 许可下的代码。这些发现强调了迫切需要增强代码生成任务中的大语言模型合规能力。我们的研究为未来的研究和开发奠定了基础，以提高人工智能辅助软件开发的许可合规性，有助于保护开源软件版权并减轻大语言模型用户的法律风险。

从大语言模型到基于大语言模型的软件工程代理：当前、挑战和未来的调查

分类： 软件工程, 人工智能, 计算和语言

作者： Haolin Jin, Linghan Huang, Haipeng Cai, Jun Yan, Bo Li, Huaming Chen

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02479v1

摘要： 随着大型语言模型（LLM）的兴起，研究人员越来越多地探索其在软件工程等各种垂直领域的应用。大语言模型在代码生成和漏洞检测等领域取得了显着的成功。然而，它们也表现出许多局限性和缺点。基于大语言模型的代理是一种具有通用人工智能（AGI）潜力的新技术，它将大语言模型作为决策和采取行动的核心，解决了大语言模型的一些固有局限性，例如缺乏自主性和自我约束力。改进。尽管有大量研究和调查探索在软件工程中使用大语言模型的可能性，但大语言模型和基于大语言模型的代理之间缺乏明确的区别。统一标准和基准测试仍处于早期阶段，以使 LLM 解决方案成为其领域内基于 LLM 的代理。在本次调查中，我们广泛调查了大语言模型和基于大语言模型的软件工程代理的当前实践和解决方案。我们特别总结了六个关键主题：需求工程、代码生成、自主决策、软件设计、测试生成和软件维护。我们从这六个主题中审查和区分大语言模型和基于大语言模型的代理人的工作，检查他们在任务、基准和评估指标方面的差异和相似之处。最后，我们讨论所使用的模型和基准，对其在软件工程中的应用和有效性进行全面分析。我们预计这项工作将为未来研究突破基于 LLM 的代理在软件工程领域的界限提供一些线索。

通过大语言模型评估网络物理系统的需求建模

分类： 软件工程

作者： Dongming Jin, Shengxin Zhao, Zhi Jin, Xiaohong Chen, Chunhui Wang, Zheng Fang, Hongbin Xiao

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02450v1

摘要： 网络物理系统（CPS）集成了网络和物理组件，并使它们能够相互交互以满足用户需求。 CPS的需求涵盖医疗保健、智能家居、智能建筑等丰富的应用领域。这表明CPS都是为了解决现实世界的问题。随着传感设备和效应器的日益丰富，CPS 想要解决的问题变得越来越复杂。准确地提取和表达 CPS 需求也变得越来越困难。问题框架方法旨在通过捕获组件的特征和互连来塑造现实世界的问题，其中问题图是表达需求的核心。 CPS 要求通常以自然语言表达的特定领域文档的形式呈现。目前还没有有效的方法从自然语言文档中提取问题图。 CPS的需求提取和建模一般都是手工完成，费时、费力、且容易出错。大型语言模型（LLM）在自然语言理解方面表现出了出色的性能。探索大语言模型理解特定领域文档和识别建模元素的能力可能很有趣，这也是本文正在研究的方向。为了实现这个目标，我们首先制定两个任务（即实体识别和交互提取）并提出一个名为 CPSBench 的基准。基于此基准，进行了大量的实验来评估七名高级大语言模型的能力和局限性。我们发现了一些有趣的见解。最后，我们使用问题图在 CPS 需求建模中建立了大语言模型幻觉的分类。这些结果将激发对使用大语言模型进行自动化 CPS 需求建模的研究。

ReDel：LLM 驱动的递归多代理系统工具包

分类： 计算和语言, 多代理系统, 软件工程, I.2.7

作者： Andrew Zhu, Liam Dugan, Chris Callison-Burch

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02248v1

摘要： 最近，人们越来越有兴趣使用大型语言模型（LLM）构建复杂的多智能体系统来执行诸如编译文献评论、起草消费者报告和计划假期等任务。许多工具和库都可以帮助创建此类系统，但是没有一个支持递归多代理系统——模型本身可以灵活地决定何时委派任务以及如何组织其委派结构。在这项工作中，我们介绍了 ReDel：一个用于递归多代理系统的工具包，支持自定义工具使用、委托方案、基于事件的日志记录以及在易于使用的 Web 界面中的交互式重放。我们表明，使用 ReDel，我们能够在代理基准上实现显着的性能提升，并通过可视化和调试工具轻松识别潜在的改进领域。我们的代码、文档和 PyPI 包都是开源的，可以在 MIT 许可下免费使用。

SpecRover：通过 LLM 提取代码意图

分类： 软件工程, 人工智能

作者： Haifeng Ruan, Yuntong Zhang, Abhik Roychoudhury

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02232v1

摘要： 自主程序改进通常涉及自动生成错误修复和功能添加。这种程序改进可以通过 LLM 代理形式的大语言模型 (LLM) 和程序分析功能的组合来完成。由于程序修复或程序改进通常需要预期行为的规范 - 规范推断对于生成高质量的程序补丁非常有用。在这项工作中，我们研究了 LLM 代理内迭代规范推理的高效且低成本的工作流程。给定软件项目中需要解决的 GitHub 问题，我们的目标是进行迭代代码搜索并进行规范推断，从而从项目结构和行为中推断意图。由此捕获的意图由审核者代理进行检查，目的是审核补丁并提供对已审核补丁的置信度度量。我们的方法 SpecRover (AutoCodeRover-v2) 是基于开源 LLM 代理 AutoCodeRover 构建的。在对包含 2294 个 GitHub 问题的完整 SWE-Bench 进行的评估中，它的效率比 AutoCodeRover 提高了 50% 以上。与可用的开源代理相比，我们的工作显示在 SWE-Bench lite 中解决平均 GitHub 问题的成本适中（每个问题 0.65 美元）。 SpecRover 生成的解释可以向开发人员发出更好的“信号”，表明何时可以放心地接受建议的补丁。 SpecRover 还试图证明规范推断在自动化程序修复中的持续重要性，即使程序修复技术进入了 LLM 时代。

CodeACT：代码大语言模型的代码自适应计算高效调优框架

分类： 计算和语言, 机器学习

作者： Weijie Lv, Xuan Xia, Sheng-Jun Huang

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02193v1

摘要： 大型语言模型 (LLM) 在代码相关任务中显示出巨大潜力，但开源模型落后于闭源模型。为了弥补这种性能差距，现有方法会生成大量合成数据进行微调，从而导致训练效率低下。出于对更有效和高效的训练的需求，我们提出了代码自适应计算高效调优（CodeACT）框架。 CodeACT 引入了复杂性和多样性感知采样 (CDAS) 方法，用于根据复杂性和多样性选择高质量的训练数据，以及动态包填充策略，通过在训练期间最小化填充标记来减少计算资源的使用。实验结果表明，CodeACT-DeepSeek-Coder-6.7B 仅对 40% 的 EVOL-Instruct 数据进行微调，在 HumanEval 上实现了 8.6% 的性能提升，将训练时间减少了 78%，并将峰值 GPU 内存使用率降低了27%。这些发现强调了 CodeACT 增强开源模型性能和效率的能力。通过优化数据选择和培训流程，CodeACT 提供了一种全面的方法来提高开源大语言模型的能力，同时显着降低计算要求，解决数据质量和培训效率的双重挑战，并为提高资源效率铺平道路和高性能模型。

用于活动协助的多模式大语言模型的用户参与评估

分类： 计算机视觉和模式识别, 人工智能

作者： Mrinal Verghese, Brian Chen, Hamid Eghbalzadeh, Tushar Nagarajan, Ruta Desai

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.03160v1

摘要： 我们的研究调查了由大型语言模型 (LLM) 提供支持的现代多模态推理模型的能力，以促进视觉驱动的助手执行多步骤的日常活动。此类助手必须能够 1) 对来自助手传感器（例如相机）的相关视觉历史进行编码，2) 预测完成活动的未来动作，以及 3) 根据循环中的用户重新计划。为了评估前两种能力，即短期和长期的视觉历史和预测基础，我们对两类著名的多模式大语言模型方法进行了基准测试——苏格拉底模型和视觉条件语言模型（VCLM），用于使用离线的基于视频的动作预期任务数据集。然而，这些离线基准不允许我们与用户形成闭环，而这对于评估重新规划能力和衡量辅助场景中活动的成功完成至关重要。为此，我们进行了一项史无前例的用户研究，18 名参与者佩戴名为 Aria 的以自我为中心的观察设备，并在多模式大语言模型的帮助下进行 3 种不同的多步骤烹饪活动。我们发现苏格拉底式方法在离线和在线环境中都优于 VCLM。我们进一步强调了在活动辅助中常见的长期视觉历史记录在当前模型中仍然具有挑战性，特别是对于 VCLM 而言，并证明离线指标并不表明在线性能。

通过混合情绪调查分析大语言模型情绪的文化表征

分类： 计算和语言, 人工智能

作者： Shiran Dudy, Ibrahim Said Ahmad, Ryoko Kitajima, Agata Lapedriza

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02143v1

摘要： 大型语言模型 (LLM) 已在全球范围内得到广泛采用，展示了跨多种语言的高级语言能力。学术界越来越有兴趣使用这些模型来模拟和研究人类行为。然而，重要的是要承认大语言模型对特定语言的熟练程度可能无法完全概括与其文化相关的规范和价值观。由于西方和美国的培训数据占主导地位，人们开始担心对以英语为中心的文化和价值观可能存在偏见。本研究的重点是在混合情绪情境的具体情况下分析大语言模型情绪的文化表征。我们的方法基于 Miyamoto 等人的研究。 (2010)，该研究确定了日本和美国人的人类反应中独特的情绪指标。我们首先对五位不同的大语言模型进行混合情绪调查，并分析他们的结果。其次，我们尝试使用上下文变量来探索考虑语言和说话者来源的反应变化。第三，我们将调查范围扩大到其他东亚和西欧起源语言，以衡量它们与各自文化的一致性，并期望更紧密的契合。我们发现（1）模型与文献证据的一致性有限； (2) 书面语言对大语言模型回答的影响比参与者出身信息的影响更大； (3) 东亚语言的大语言模型回答比西欧语言更相似。

MedSyn：基于大语言模型的合成医学文本生成框架

分类： 计算和语言, 机器学习

作者： Gleb Kumichev, Pavel Blinov, Yulia Kuzkina, Vasily Goncharov, Galina Zubkova, Nikolai Zenovkin, Aleksei Goncharov, Andrey Savchenko

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02056v1

摘要： 生成合成文本解决了医疗保健等隐私敏感领域的数据可用性挑战。这项研究探讨了合成数据在现实世界医疗环境中的适用性。我们介绍 MedSyn，一种新颖的医学文本生成框架，它将大型语言模型与医学知识图（MKG）集成在一起。我们使用 MKG 对先前的医疗信息进行采样以进行提示，并使用 GPT-4 和微调的 LLaMA 模型生成综合临床记录。我们通过在 ICD 代码预测任务中的应用来评估合成数据的好处。我们的研究表明，与没有合成数据的设置相比，合成数据可以将重要和具有挑战性的代码的分类准确性提高高达 17.8%。此外，为了为医疗保健领域的进一步研究提供新数据，我们提供了最大的俄语临床笔记开源综合数据集，其中包含超过 41,000 个样本，涵盖 219 个 ICD-10 代码。

在 EDR 解决方案中使用大语言模型实现自动键盘操作攻击检测

分类： 密码学和安全, 机器学习

作者： Amit Portnoy, Ehud Azikri, Shay Kels

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01993v1

摘要： 端点检测和修复 (EDR) 平台对于识别和响应网络威胁至关重要。这项研究提出了一种使用大型语言模型 (LLM) 来检测手动键盘 (HOK) 网络攻击的新颖方法。我们的方法涉及将端点活动数据转换为大语言模型可以分析的叙述形式，以区分正常操作和潜在的 HOK 攻击。我们通过将叙述分段到窗口并采用双重训练策略来解决解释端点数据的挑战。结果表明，基于大语言模型的模型有可能超越传统的机器学习方法，为增强 EDR 能力并将大语言模型应用于网络安全提供了一个有前景的方向。

建立对心理健康聊天机器人的信任：安全指标和基于大语言模型的评估工具

分类： 计算和语言, 人工智能, 人机交互, 机器学习

作者： Jung In Park, Mahyar Abbasian, Iman Azimi, Dawn Bounds, Angela Jun, Jaesu Han, Robert McCarron, Jessica Borelli, Jia Li, Mona Mahmoudi, Carmen Wiedenhoeft, Amir Rahmani

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.04650v1

摘要： 目的：本研究旨在开发和验证一个评估框架，以确保心理健康聊天机器人的安全性和可靠性，心理健康聊天机器人由于其可访问性、类人交互和情境感知支持而越来越受欢迎。材料和方法：我们创建了一个评估框架，其中包含 100 个基准问题和理想答案，以及 5 个聊天机器人答案的指导问题。该框架经过心理健康专家的验证，并在基于 GPT-3.5-turbo 的聊天机器人上进行了测试。探索的自动评估方法包括基于大语言模型（LLM）的评分、使用实时数据的代理方法以及将聊天机器人响应与地面真实标准进行比较的嵌入模型。结果：结果强调了指南和基本事实对于提高大语言模型评估准确性的重要性。动态访问可靠信息的代理方法证明了与人类评估的最佳一致性。遵守经过专家验证的标准化框架可显着增强聊天机器人响应的安全性和可靠性。讨论：我们的研究结果强调需要针对心理健康聊天机器人制定全面的、专家定制的安全评估指标。虽然大语言模型具有巨大的潜力，但必须谨慎实施以降低风险。代理方法的卓越性能强调了实时数据访问在增强聊天机器人可靠性方面的重要性。结论：该研究验证了心理健康聊天机器人的评估框架，证明其在提高安全性和可靠性方面的有效性。未来的工作应该将评估扩展到准确性、偏见、同理心和隐私，以确保整体评估和负责任地融入医疗保健。标准化评估将在用户和专业人士之间建立信任，促进更广泛的采用并通过技术改善心理健康支持。

MALADE：编排由 LLM 驱动的代理，并具有检索增强生成功能以实现药物警戒

分类： 计算和语言, 人工智能, 信息检索, 机器学习, 多代理系统, 定量方法

作者： Jihye Choi, Nils Palumbo, Prasad Chalasani, Matthew M. Engelhard, Somesh Jha, Anivarya Kumar, David Page

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01869v1

摘要： 在大型语言模型（LLM）时代，鉴于其卓越的文本理解和生成能力，有一个前所未有的机会来开发基于 LLM 的新方法，以进行值得信赖的医学知识合成、提取和总结。本文重点关注药物警戒（PhV）问题，其重要性和挑战在于从不同的文本来源（例如医学文献、临床记录和药物标签）中识别药物不良事件（ADE）。不幸的是，这项任务受到多种因素的阻碍，包括药物和结果术语的差异，以及 ADE 描述经常被埋藏在大量叙述文本中。我们推出了 MALADE，这是第一个由大语言模型提供支持的有效协作多智能体系统，具有检索增强生成功能，用于从药物标签数据中提取 ADE。该技术涉及使用从文本资源中提取的相关信息来增强对 LLM 的查询，并指示 LLM 撰写与增强数据一致的响应。 MALADE 是一个与 LLM 无关的通用架构，其独特的功能是：（1）利用各种外部资源，例如医学文献、药物标签和 FDA 工具（例如 OpenFDA 药物信息 API），（2）提取药物- 以结构化格式的结果关联以及关联的强度，以及 (3) 为已建立的关联提供解释。 MALADE 使用 GPT-4 Turbo 或 GPT-4o 以及 FDA 药物标签数据进行实例化，根据 ADE 的 OMOP Ground Truth 表，证明了其 ROC 曲线下面积为 0.90 的功效。我们的实现利用了 Langroid 多代理 LLM 框架，可以在 https://github.com/jihyechoi77/malade 找到。

TrustNavGPT：对不确定性进行建模以提高基于音频引导的 LLM 机器人导航的可信度

分类： 机器人技术

作者： Xingpeng Sun, Yiran Zhang, Xindi Tang, Amrit Singh Bedi, Aniket Bera

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01867v1

摘要： 虽然大语言模型精通处理人类对话中的文本，但他们经常在口头指令的细微差别方面遇到困难，因此仍然容易产生对人类命令的信任幻觉。在这项工作中，我们提出了 TrustNavGPT，这是一种基于大语言模型的音频引导导航代理，它使用口语通信元素中的情感线索（例如语气和语调变化）来传达超越语言的含义，使其能够评估人类命令的可信度并做出有效、安全的决策。我们的方法提供了一种轻量级但有效的方法，可以扩展现有的大语言模型，以对嵌入语音命令中的音频声音特征进行建模，并对安全机器人导航的不确定性进行建模。

大语言模型令人感兴趣的失败的有效解决方案：长上下文窗口并不意味着大语言模型可以完美地分析长序列

分类： 计算和语言, 机器学习, I.2.7

作者： Peyman Hosseini, Ignacio Castro, Iacopo Ghinassi, Matthew Purver

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01866v1

摘要： 大型语言模型 (LLM) 在理解和分析冗长的顺序输入方面表现出了卓越的能力，因为它们具有广泛的上下文窗口，允许在一次前向传递中处理数百万个标记。然而，本文揭示了一个令人惊讶的局限性：大语言模型在处理长输入序列时存在不足。我们使用不同 LLM 的三个数据集和两个任务（情感分析和新闻分类）来研究这个问题，包括 Claude 3、Gemini Pro、GPT 3.5 Turbo、Llama 3 Instruct 和 Mistral Instruct 模型。为了解决这一限制，我们提出并评估了临时解决方案，这些解决方案可将 LLM 在长输入序列上的性能大幅提高高达 50%，同时将 API 成本和延迟分别降低高达 93% 和 50%。

STBLLM：利用结构化二进制 LLM 打破 1 位障碍

分类： 机器学习, 计算和语言

作者： Peijie Dong, Lujun Li, Dayou Du, Yuhan Chen, Zhenheng Tang, Qiang Wang, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo, Xiaowen Chu

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01803v1

摘要： 在本文中，我们提出了 STBLLM，这是第一个用于将大型语言模型 (LLM) 压缩到小于 1 位精度的结构二值化框架。 LLM 已经取得了卓越的性能，但其对内存的大量需求阻碍了广泛采用，特别是在资源受限的设备上。二值化将权重量化为仅 1 位，在提高计算效率方面实现了里程碑。然而，我们观察到二值化 LLM 中的一些权重可以随机翻转，而不会显着降低性能，这表明有进一步压缩的潜力。为了利用这一点，我们的 STBLLM 采用 N:M 稀疏性来执行权重的结构二值化。首先，我们引入了一种新的标准化重要性（SI）指标，该指标考虑权重大小和输入特征范数，以更好地评估权重重要性。然后，我们提出了一种分层方法，其中 LLM 的不同层可以通过不同的 N:M 比率进行稀疏化，从而平衡压缩和准确性。最后，我们使用残差近似和双二值化来保留显着权重的信息。此外，我们对不太重要的权重采用细粒度分组策略，将不同的量化方案应用于稀疏、中间和密集区域。我们对各种语言模型（包括 LLaMA-1/2/3、OPT 系列和 Mistral）进行了广泛的实验，以评估 STBLLM 的有效性。结果表明，我们的方法比其他压缩二值化 LLM 方法表现更好，同时显着降低了内存需求。

大语言模型可以预测随机梯度下降的收敛吗？

分类： 机器学习, 人工智能, 机器学习

作者： Oussama Zekri, Abdelhakim Benechehab, Ievgen Redko

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01736v1

摘要： 大型语言模型因其在各种任务中的令人印象深刻的性能而闻名。如此令人印象深刻的表现的一个令人惊讶的例子是最近发现的大语言模型理解满足马尔可夫性质的动力系统的控制原理的能力。在本文中，我们试图通过研究凸优化和非凸优化中随机梯度下降的动力学来进一步探索这个方向。通过利用 SGD 和马尔可夫链之间的理论联系，我们展示了 LLM 在预测 SGD 针对先前未见过的起点收敛到的局部最小值方面具有出色的零样本性能。在更一般的层面上，我们询问使用大语言模型对实践中使用的更大深度学习模型进行零样本随机试验的可能性。

戏剧机器：与 LLM 代理模拟角色发展

分类： 计算机与社会, J.4; J.5; K.4.2

作者： Liam Magee, Vanicka Arora, Gus Gollings, Norma Lam-Saw

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01725v1

摘要： 本文探讨了使用多个大型语言模型 (LLM) 代理来模拟戏剧场景中复杂、动态的角色。我们引入了一个“戏剧机器”框架，该框架协调扮演不同“自我”和“超我”心理角色的 LLM 代理之间的交互。在角色扮演模拟中，这种设计允许主体间对话和主体内内部独白并行发展。我们将这个框架应用于两个戏剧性场景——采访和侦探故事——并比较有和没有超我影响的角色发展。尽管是探索性的，但结果表明，这种多主体方法可以产生更细致、更具适应性的叙事，这些叙事会随着一系列对话的转变而演变。我们讨论了基于大语言模型的角色扮演和角色发展的不同模式，以及这对人工智能主观性概念化可能意味着什么。本文最后考虑了这种方法如何为思考基于人工智能的模拟中的内部冲突和社会表演性的作用提供了可能性。

WaitGPT：通过动态代码可视化监控和指导数据分析中的对话式 LLM 代理

分类： 人机交互

作者： Liwenhan Xie, Chengbo Zheng, Haijun Xia, Huamin Qu, Chen Zhu-Tian

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01703v1

摘要： 大型语言模型 (LLM) 通过对话式用户界面支持数据分析，如 OpenAI 的 ChatGPT（正式名称为高级数据分析或代码解释器）所示。本质上，大语言模型生成用于完成不同分析任务的代码。然而，呈现原始代码可能会掩盖逻辑并阻碍用户验证。为了增强用户对大语言模型进行的分析的理解和增强控制，我们提出了一种将大语言模型生成的代码转换为交互式视觉表示的新方法。在该方法中，用户可以实时看到LLM生成的代码的清晰、逐步的可视化，使他们能够理解、验证和修改分析中的各个数据操作。我们的设计决策基于对用户实践和挑战的形成性研究 (N=8)。我们进一步开发了一个名为 WaitGPT 的原型，并进行了用户研究（N=12）来评估其可用性和有效性。用户研究的结果表明，WaitGPT 有助于监控和指导大语言模型执行的数据分析，使参与者能够增强错误检测并提高他们对结果的整体信心。

基于 LLM 的可约束聊天机器人的对话流归纳

分类： 计算和语言

作者： Stuti Agrawal, Nishi Uppuluri, Pranav Pillai, Revanth Gangi Reddy, Zoey Li, Gokhan Tur, Dilek Hakkani-Tur, Heng Ji

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01623v1

摘要： LLM 驱动的对话系统用于多种应用，从医疗保健到客户服务。然而，鉴于其泛化能力，很难确保这些聊天机器人停留在专门领域的边界内，可能导致不准确的信息和不相关的响应。本文介绍了一种自动诱导特定领域对话流的无监督方法，该方法可用于约束基于 LLM 的聊天机器人。我们根据域内对话实例的可用性引入了两种对话流变体。通过对各种对话域的人工和自动评估，我们证明了我们的高质量数据引导对话流实现了更好的域覆盖，从而克服了对此类流进行大量手动制作的需要。

评估先进的大语言模型技术对机器人课程人工智能讲师的影响

分类： 计算和语言, 人工智能, 计算机与社会, 机器人技术

作者： Sebastian Kahl, Felix Löffler, Martin Maciol, Fabian Ridder, Marius Schmitz, Jennifer Spanagel, Jens Wienkamp, Christopher Burgahn, Malte Schilling

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.04645v1

摘要： 本研究评估了大型语言模型 (LLM) 作为基于人工智能的大学课程导师的表现。特别是，利用了不同的先进技术，例如即时工程、检索增强生成（RAG）和微调。我们使用 BLEU-4、ROUGE 和 BERTScore 等常见相似性指标评估不同的模型和应用技术，并辅以对有用性和可信度的小型人工评估。我们的研究结果表明，RAG 与即时工程相结合可显着增强模型响应并产生更好的事实答案。在教育背景下，RAG 似乎是一种理想的技术，因为它基于通过大学课程中通常已经存在的附加信息和材料来丰富模型的输入。另一方面，微调可以产生相当小但仍然强大的专家模型，但会带来过度拟合的危险。我们的研究进一步询问我们如何衡量大语言模型的表现以及当前测量的正确性或相关性如何？我们发现相似性指标具有高度相关性，并且大多数指标都偏向于较短的响应。总体而言，我们的研究指出了将大语言模型纳入教育环境的潜力和挑战，表明需要平衡的培训方法和先进的评估框架。

分析大语言模型建立软件需求的隐式用户情感的能力

分类： 计算和语言, 人工智能, 人机交互, 机器学习, 软件工程, I.2.7; D.2.8; I.2.6; H.5.2

作者： Sherri Weitl-Harms, John D. Hastings, Jonah Lum

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01527v1

摘要： 本研究探讨了使用多个大语言模型对用户表达的隐式软件需求进行定量零样本情绪分析。该研究提供了规模化的数字情绪分析，与其他简单地将情绪分类为积极、中性或消极的方法不同。数值分析可以更深入地了解情绪的大小，从而推动有关产品需求的更好决策。数据是通过使用 Microsoft 产品需求工具包 (PDT) 收集的，这是一种著名的定性用户体验分析工具。为了进行初步探索，我们向 ZORQ（一种用于本科计算机科学教育的游戏化系统）的用户提供了 PDT 指标。收集的 PDT 数据通过多个 LLM（Claude Sonnet 3 和 3.5、GPT4 和 GPT4o）、领先的迁移学习技术 Twitter-Roberta-Base-Sentiment (TRBS) 以及领先的情感分析工具 Vader 提供，用于定量情绪分析。每个系统都被要求以两种方式评估数据，首先查看 PDT 单词/解释对中表达的情绪；并通过整体观察用户在五个单词的分组选择和解释中表达的情绪。每个大语言模型还被要求提供其情绪评分的置信度（低、中、高），并解释为什么选择情绪值。所有测试的大语言模型都能够从用户分组数据中统计检测用户情绪，而 TRBS 和 Vader 则不能。大语言模型提供的置信度和置信度解释有助于理解用户的情绪。这项研究加深了对评估用户体验的更深入理解，以实现创建量化所表达的隐含情感的通用工具的目标。

提示递归搜索：LLM 自动提示中具有自适应增长的动态框架

分类： 计算和语言, 人工智能

作者： Xiangyu Zhao, Chengqian Ma

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01423v1

摘要： 大型语言模型 (LLM) 在处理自然语言处理 (NLP) 领域内的各种任务方面表现出卓越的能力，各种提示设计策略显着增强了其能力。然而，这些提示虽然有益，但都具有固有的局限性。主要的提示设计方法有两个：第一个，以思维链 (CoT) 为例，涉及手动制作特定于各个数据集的提示，因此称为专家设计提示 (EDP)。这些提示一旦建立，就无法更改，并且其有效性受到人类设计师的专业知识的限制。当应用于大语言模型时，EDP 的静态性质导致对同一数据集中的简单和复杂问题采用统一的方法，从而导致对简单问题的标记使用效率低下。第二种方法涉及由 LLM 自主生成的提示，称为 LLM 衍生提示 (LDP)，它为特定问题提供量身定制的解决方案，从而减轻 EDP 的限制。然而，由于解决方案规划过程中可能出现错误积累，LDP 在处理复杂问题时可能会遇到性能下降的情况。为了应对这些挑战，我们构思了一种新颖的即时递归搜索（PRS）框架，该框架利用 LLM 生成特定于问题的解决方案，从而节省代币。该框架结合了对问题复杂性的评估和可调整的结构，确保减少错误的可能性。我们通过在不同领域的一系列数据集上使用具有不同数量参数的大语言模型进行广泛的实验，证实了 PRS 框架的有效性。与 CoT 方法相比，PRS 方法使用 Llama3-7B 模型在 BBH 数据集上的准确率提高了 8%，实现了 22% 的提升。

不可能的任务：越狱大语言模型的统计视角

分类： 机器学习, 人工智能, 计算和语言

作者： Jingtong Su, Julia Kempe, Karen Ullrich

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01420v1

摘要： 大型语言模型 (LLM) 在大量文本数据上进行训练，质量控制有限。因此，大语言模型可能会表现出意想不到的甚至有害的行为，例如泄露信息、虚假新闻或仇恨言论。对策，通常称为偏好调整，包括使用精心设计的所需行为的文本示例来微调预训练的大语言模型。即便如此，经验证据表明，偏好一致的大语言模型可能会被引诱做出有害行为。这种所谓的大语言模型越狱通常是通过对抗性地修改大语言模型的输入提示来实现的。我们的论文从统计角度提供了对偏好调整和越狱现象的理论见解。在我们的框架下，我们首先表明，如果训练语料库中存在经过预训练的大语言模型，那么它们会模仿有害行为。在同一框架下，我们引入了对齐的统计概念，并对越狱概率进行了下限，表明在合理的假设下，越狱是无法预防的。根据我们的见解，我们建议对当前流行的对齐策略 RLHF 进行更改。具体来说，我们对 RLHF 目标进行了简单修改，称为 E-RLHF，旨在增加安全响应的可能性。 E-RLHF不会带来额外的培训成本，并且与其他方法兼容。根据经验，我们证明 E-RLHF 在 AdvBench 和 HarmBench 项目提出的所有对齐问题上都优于 RLHF，而不会牺牲 MT-Bench 项目测量的模型性能。

少说话，更好互动：评估多模式大语言模型的上下文对话适应

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Yilun Hua, Yoav Artzi

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01417v1

摘要： 随着互动的进展，人类通过适应和形成临时约定，自发地使用越来越有效的语言。人们已经使用参考游戏对这种现象进行了广泛的研究，显示出人类语言的特性超出了传达意图的范围。多模态大语言模型（MLLM）是否同样可以提高交互过程中的通信效率，以及它们可以为此目的采用什么机制，目前仍待探索。我们引入了 ICCA，这是一个自动化框架，用于评估 MLLM 中的对话适应作为上下文行为。我们评估了几个最先进的 MLLM，并观察到，虽然他们可能理解对话者日益高效的语言，但随着时间的推移，他们不会自发地使自己的语言变得更加高效。后一种能力只能在某些模型（例如 GPT-4）中通过严厉的提示来引发。这表明语言交互的这种特性并不是由当前的训练制度产生的，尽管它是人类语言的共同标志。 ICCA 位于 https://github.com/lil-lab/ICCA。

MCGMark：针对 LLM 生成的恶意代码的可编码且强大的在线水印

分类： 密码学和安全, 软件工程

作者： Kaiwen Ning, Jiachi Chen, Qingyuan Zhong, Tao Zhang, Yanlin Wang, Wei Li, Yu Zhang, Weizhe Zhang, Zibin Zheng

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01354v1

摘要： 随着大型语言模型（LLM）的出现，众多软件服务提供商（SSP）致力于开发为代码生成任务定制的LLM，例如CodeLlama和Copilot。然而，攻击者可以利用这些大语言模型来创建恶意软件，这可能对软件生态系统构成潜在威胁。例如，他们可以自动创建高级网络钓鱼恶意软件。为了解决这个问题，我们首先进行了实证研究并设计了一个提示数据集MCGTest，该数据集涉及约400人时的工作，由406个恶意代码生成任务组成。利用该数据集，我们提出了 MCGMark，这是第一个强大的、代码结构感知的、可编码的水印方法，用于跟踪 LLM 生成的代码。我们通过控制标记选择并根据概率异常值确保输出质量来嵌入可编码信息。此外，我们通过考虑恶意代码的结构特征来增强水印的鲁棒性，防止将水印嵌入到容易修改的位置，例如注释。我们在 DeepSeek-Coder 上验证了 MCGMark 的有效性和稳健性。 MCGMark 在 400 个代币的最大输出限制内实现了 88.9% 的嵌入成功率。此外，它还表现出很强的鲁棒性，并且对输出代码的质量影响最小。我们的方法可帮助 SSP 追踪大语言模型生成的恶意代码并追究责任方的责任。

及时细化或微调？在计算社会科学任务中使用大语言模型的最佳实践

分类： 计算机与社会, 计算和语言, 物理与社会

作者： Anders Giovanni Møller, Luca Maria Aiello

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01346v1

摘要： 大型语言模型是表达工具，可以在计算社会科学中实现复杂的文本理解任务。它们的多功能性虽然有益，但却为在该领域建立标准化最佳实践带来了障碍。为了阐明不同策略的价值，我们概述了基于现代大语言模型的分类方法在 23 项社会知识任务的基准上的表现。我们的结果指出了三个最佳实践：选择具有更大词汇量和预训练语料库的模型；避免简单的零射击，转而采用人工智能增强提示；对特定于任务的数据进行微调，仅当训练数据更丰富时才考虑对多个数据集进行更复杂的指令调整。

FANNO：仅通过开源大语言模型增强高质量教学数据

分类： 计算和语言

作者： He Zhu, Junyou Su, Tianle Lun, Yicheng Tao, Wenjia Zhang, Zipei Fan, Guanhua Chen

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01323v1

摘要： 指令微调是利用大型语言模型 (LLM) 来增强任务性能的关键进步。然而，指令数据集的注释传统上是昂贵且费力的，通常依赖于手动注释或专有大语言模型的昂贵的 API 调用。为了应对这些挑战，我们引入了 FANNO，这是一个完全自主的开源框架，它彻底改变了注释过程，而无需预先存在的注释数据。 FANNO 利用 Mistral-7b-instruct 模型，通过涉及文档预筛选、指令生成和响应生成的结构化流程，高效生成多样化且高质量的数据集。 Open LLM Leaderboard 和 AlpacaEval 基准测试表明，FANNO 可以免费生成具有多样性和复杂性的高质量数据，可与人工注释或清理的数据集（如 Alpaca-GPT4-Cleaned）相媲美。

误导大语言模型：脆弱性、挑战和机遇

分类： 计算和语言, 人工智能

作者： Bo Zhou, Daniel Geißler, Paul Lukowicz

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01168v1

摘要： 大型语言模型 (LLM) 在自然语言处理方面取得了重大进展，但其底层机制经常被误解。尽管呈现出连贯的答案和明显的推理行为，大语言模型仍然依赖于词嵌入中的统计模式，而不是真正的认知过程。这会导致“幻觉”和错误信息等漏洞。该论文认为，当前的大语言模型架构本质上是不可信的，因为它们依赖于词嵌入向量的顺序模式的相关性。然而，正在进行的将基于生成变压器的模型与事实库和逻辑编程语言相结合的研究可能会导致值得信赖的大语言模型的发展，这些大语言模型能够根据给定的事实生成陈述并解释其自我推理过程。

CFBench：LLM 的综合约束基准

分类： 计算和语言

作者： Tao Zhang, Yanjun Shen, Wenjing Luo, Yan Zhang, Hao Liang, Tao Zhang, Fan Yang, Mingan Lin, Yujing Qiao, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01122v1

摘要： 大型语言模型 (LLM) 理解和遵循自然语言指令的能力对于其在复杂的现实应用程序中的部署至关重要。现有的评估主要关注碎片化的约束或狭隘的场景，却忽视了从用户角度出发的约束的全面性和真实性。为了弥补这一差距，我们提出了 CFBench，这是一个针对大语言模型的大规模综合约束基准，具有 1,000 个精选样本，涵盖 200 多个现实生活场景和 50 多个 NLP 任务。 CFBench精心编译来自现实指令的约束，构建了创新的约束类型系统框架，包括10个主要类别和超过25个子类别，并确保每个约束都无缝集成在指令中。为了确保 LLM 输出的评估与用户的感知一致，我们提出了一种先进的方法，将多维评估标准与需求优先级相结合，涵盖约束、说明和需求满足的各个角度。在 CFBench 上评估当前领先的大语言模型揭示了约束跟随方面的巨大改进空间，我们进一步研究了影响因素和增强策略。数据和代码公开于 https://github.com/PKU-Baichuan-MLSystemLab/CFBench

用于生成患者友好的医疗报告的代理大语言模型工作流程

分类： 多代理系统

作者： Malavikha Sudarshan, Sophie Shih, Estella Yee, Alina Yang, John Zou, Cathy Chen, Quan Zhou, Leon Chen, Chinmay Singhal, George Shih

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01112v2

摘要： 大型语言模型 (LLM) 在医疗保健领域的应用正在迅速扩展，其中一个潜在的用例是将正式的医疗报告翻译成患者可读的等效内容。目前，LLM 的输出通常需要人工编辑和评估，以确保事实准确性和可理解性，上述用例也是如此。我们的目标是通过提出带有反射框架的代理工作流程来最小化这一步骤，该框架使用迭代自我反射来纠正大语言模型的输出。该流程经过测试，并与 16 份随机放射学报告的零样本提示进行了比较。在我们的多代理方法中，在查看 ICD-10 代码验证时，报告的准确率为 94.94%，而零样本提示报告的准确率为 68.23%。此外，81.25% 的最终反映报告不需要对准确性或可读性进行更正，而只有 25% 的零样本提示报告满足这些标准，无需修改。这些结果表明，我们的方法提供了一种可行的方法，可以以快速、有效和连贯的方式向患者传达临床发现，同时保持医疗准确性。该代码库可在 http://github.com/malavikhasudarshan/Multi-Agent-Patient-Letter-Generation 上查看。

BioRAG：生物问题推理的 RAG-LLM 框架

分类： 计算和语言, 人工智能, 信息检索

作者： Chengrui Wang, Qingqing Long, Xiao Meng, Xunxin Cai, Chengjun Wu, Zhen Meng, Xuezhi Wang, Yuanchun Zhou

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01107v1

摘要： 生命科学研究的问答系统具有发现速度快、见解不断发展以及知识实体之间复杂交互的特点，这对维护全面的知识仓库和准确的信息检索提出了独特的挑战。为了解决这些问题，我们引入了 BioRAG，这是一种具有大型语言模型 (LLM) 框架的新型检索增强生成 (RAG)。我们的方法首先对 2200 万篇科学论文进行解析、索引和分段作为基础知识，然后训练针对该领域的专门嵌入模型。此外，我们通过合并特定领域的知识层次结构来增强向量检索过程，这有助于对每个查询和上下文之间复杂的相互关系进行建模。对于需要最新信息的查询，BioRAG 会解构问题，并采用与搜索引擎相结合的迭代检索过程来进行逐步推理。严格的实验表明，我们的模型在多个生命科学问答任务中优于微调的 LLM、带有搜索引擎的 LLM 以及其他科学 RAG 框架。

LLM 作为运行时错误处理程序：软件系统自适应自我修复的有前途的途径

分类： 软件工程, 人工智能, 密码学和安全

作者： Zhensu Sun, Haotian Zhu, Bowen Xu, Xiaoning Du, Li Li, David Lo

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01055v1

摘要： 缺少预定义处理程序的意外运行时错误可能会突然终止执行并导致严重后果，例如数据丢失或系统崩溃。尽管在开发阶段付出了大量努力来识别潜在错误，但要完全消除此类意外错误仍然是一个挑战，因此运行时缓解措施仍然是必不可少的，以最大限度地减少其影响。人们已经研究了自动自我修复技术，例如重用现有处理程序，以减少执行终止带来的损失。然而，现有方法的可用性由其预定义的启发式规则保留，并且它们无法自适应地处理各种运行时错误。最近，大型语言模型（LLM）的出现为解决这个问题开辟了新途径。受到 LLM 在理解和生成代码方面的卓越能力的启发，我们建议使用 LLM 实时处理运行时错误。具体来说，我们提出了 Healer，这是第一个用于处理运行时错误的 LLM 辅助自我修复框架。当发生未处理的运行时错误时，Healer会被激活，借助其内部的LLM生成一段错误处理代码，并在框架拥有的运行时环境中执行该代码，以获得纠正后的程序状态，并从该状态中恢复错误处理。程序应该继续执行。我们的探索性研究使用四种不同的代码基准和三种最先进的 LLM（GPT-3.5、GPT-4 和 CodeQwen-7B）来评估 Healer 的性能。结果表明，无需任何微调，GPT-4 可以成功帮助程序从 72.8% 的运行时错误中恢复，凸显了 LLM 在处理运行时错误方面的潜力。

张量训练低秩逼近 (TT-LoRA)：通过加速大语言模型使 AI 大众化

分类： 机器学习, 人工智能

作者： Afia Anjum, Maksim E. Eren, Ismael Boureima, Boian Alexandrov, Manish Bhattarai

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01008v1

摘要： 近年来，大型语言模型 (LLM) 在各种自然语言处理 (NLP) 任务中表现出了卓越的能力，例如问答、情感分析、文本摘要和机器翻译。然而，大语言模型不断增长的复杂性需要大量的计算资源，阻碍了这些模型的更广泛的研究和应用。为了解决这个问题，人们开发了各种参数有效的微调策略，例如低秩近似（LoRA）和适配器。尽管它们具有潜力，但这些方法通常面临可压缩性的限制。具体来说，随着现代大规模大语言模型中可训练参数数量的增加，LoRA 难以有效地扩展。此外，利用张量序列分解的低阶经济张量序列自适应（LoRETTA）尚未达到在资源有限的情况下微调超大规模模型所需的压缩水平。本文介绍了张量序列低秩逼近 (TT-LoRA)，这是一种新颖的参数高效微调 (PEFT) 方法，它通过优化张量序列 (TT) 分解集成扩展了 LoRETTA。通过消除适配器和传统的基于 LoRA 的结构，TT-LoRA 在不影响下游任务性能的情况下实现了更大的模型压缩，同时减少了推理延迟和计算开销。我们进行详尽的参数搜索，以建立突出模型压缩和性能之间权衡的基准。我们的结果表明，LLM 得到了显着压缩，同时保持了与大型模型相当的性能，从而促进了它们在资源受限平台上的部署。

利用大型语言模型 (LLM) 进行城市交叉口的交通管理：混合交通场景案例

分类： 计算和语言, 计算机与社会

作者： Sari Masri, Huthaifa I. Ashqar, Mohammed Elhenawy

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00948v1

摘要： 由于环境的动态变化，城市交通管理面临着巨大的挑战，传统算法无法快速实时适应这种环境并预测可能的冲突。本研究探讨了大型语言模型 (LLM)（特别是 GPT-4o-mini）改善城市十字路口交通管理的能力。我们使用 GPT-4o-mini 来针对各种基本场景实时分析、预测位置、检测和解决十字路口的冲突。本研究的主要结果是调查大语言模型是否能够通过提供实时分析来逻辑推理和理解场景，从而提高交通效率和安全性。该研究强调了大语言模型在城市交通管理领域创造更智能、适应性更强的系统的潜力。结果表明，GPT-4o-mini 能够有效地检测和解决交通繁忙、拥堵和混合速度条件下的冲突。在多个交叉路口、有障碍物和行人的复杂场景中，冲突管理也取得了成功。结果表明，大语言模型的整合有望提高交通控制的有效性，从而实现更安全、更高效的城市交叉口管理。

使用 LLM 自动生成 Pull 请求描述：T5 模型方法

分类： 机器学习, 计算和语言, 软件工程

作者： Md Nazmus Sakib, Md Athikul Islam, Md Mashrur Arifin

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00921v1

摘要： 开发人员创建拉取请求 (PR) 描述来概述其更改并解释其背后的动机。这些描述可帮助审阅者和其他开发人员快速了解更新。尽管它们很重要，但一些开发人员忽略了这些描述。为了解决这个问题，我们提出了一种基于提交消息和源代码注释自动生成 PR 描述的方法。该方法将任务描述为文本摘要问题，为此我们利用了 T5 文本到文本传输模型。我们使用包含 33,466 个 PR 的数据集对预训练的 T5 模型进行了微调。该模型的有效性是使用 ROUGE 指标进行评估的，该指标因其与人类评估的高度一致而受到认可。我们的研究结果表明，T5 模型显着优于 LexRank，后者作为我们的比较基准。

通过 LLM 查询分解和方面融合进行多方面审阅项目检索

分类： 信息检索

作者： Anton Korikov, George Saad, Ethan Baron, Mustafa Khan, Manav Shah, Scott Sanner

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00878v1

摘要： 虽然用户生成的产品评论通常包含大量信息，但它们在解决自然语言产品查询方面的效用受到限制，其中一个关键挑战是需要将来自多个低级来源（评论）的信息聚合到更高的项目级别。恢复。现有的评论项目检索 (RIR) 方法通常采用后期融合 (LF) 方法，该方法通过简单地平均项目的前 K 个查询评论相似度分数来计算查询项目分数。然而，我们证明，对于多方面查询和多方面项目，LF 对评论所涵盖的方面的分布在方面频率和评论之间的方面分离程度方面高度敏感。为了解决这些 LF 失败问题，我们提出了几种新颖的方面融合 (AF) 策略，其中包括大型语言模型 (LLM) 查询提取和生成重排序。我们的实验表明，对于不平衡的评论语料库，AF 可以比 LF 提高 MAP@10，从 0.36 增加到 0.52，同时在平衡的评论语料库中实现相同的性能。

Y Social：大语言模型驱动的社交媒体数字孪生

分类： 人工智能, 社交和信息网络

作者： Giulio Rossetti, Massimo Stella, Rémy Cazabet, Katherine Abramski, Erica Cau, Salvatore Citraro, Andrea Failla, Riccardo Improta, Virginia Morini, Valentina Pansanella

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00818v1

摘要： 在本文中，我们介绍了 Y，一种旨在复制在线社交媒体平台的新一代数字孪生。数字孪生是物理系统的虚拟复制品，可以进行高级分析和实验。就社交媒体而言，Y 等数字孪生为研究人员模拟和理解复杂的在线交互提供了强大的工具。 {\tt Y} 利用最先进的大型语言模型 (LLM) 来复制复杂的代理行为，从而能够准确模拟用户交互、内容传播和网络动态。通过整合这些方面，Y 提供了有关用户参与度、信息传播和平台政策影响的宝贵见解。此外，大语言模型的整合使 Y 能够生成细致入微的文本内容并预测用户响应，从而促进在线环境中新兴现象的研究。为了更好地描述所提出的数字孪生，在本文中，我们描述了其实施背后的基本原理，提供了可对其生成的数据进行分析的示例，并讨论了其与多学科研究的相关性。

开放式大语言模型的防篡改保护措施

分类： 机器学习, 人工智能, 计算和语言

作者： Rishub Tamirisa, Bhrugu Bharathi, Long Phan, Andy Zhou, Alice Gatti, Tarun Suresh, Maxwell Lin, Justin Wang, Rowan Wang, Ron Arel, Andy Zou, Dawn Song, Bo Li, Dan Hendrycks, Mantas Mazeika

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00761v1

摘要： 大型语言模型 (LLM) 功能的快速进步引起了人们对其被恶意使用的可能性的广泛担忧。开放权重大语言模型提出了独特的挑战，因为现有的保护措施缺乏对修改模型权重的篡改攻击的鲁棒性。例如，最近的研究表明，通过几个微调步骤就可以轻松消除拒绝和遗忘的保障措施。这些漏洞需要新的方法来实现开放权重大语言模型的安全发布。我们开发了一种称为 TAR 的方法，用于在开放权重 LLM 中构建防篡改保护措施，这样对手即使经过数千步微调也无法删除保护措施。在广泛的评估和红队分析中，我们发现我们的方法极大地提高了防篡改能力，同时保留了良性能力。我们的结果表明，防篡改是一个易于处理的问题，为提高开放式大语言模型的安全性开辟了一条有前途的新途径。

DynamoLLM：设计 LLM 推理集群以提高性能和能源效率

分类： 人工智能, 硬件架构, 分布式、并行和集群计算

作者： Jovan Stojkovic, Chaojie Zhang, Íñigo Goiri, Josep Torrellas, Esha Choukse

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00741v1

摘要： 生成式大语言模型 (LLM) 的快速发展和广泛采用使其成为各种应用程序中的关键工作负载。如今，LLM 推理集群收到大量具有严格服务级别目标 (SLO) 的查询。为了达到所需的性能，这些模型在耗电的 GPU 上执行，导致推理集群消耗大量能源，从而导致过多的碳排放。幸运的是，我们发现有一个很好的机会利用推理计算属性的异构性和推理工作负载的波动来显着提高能源效率。然而，这种多样化和动态的环境创建了一个巨大的搜索空间，其中不同的系统配置（例如实例数量、模型并行性和 GPU 频率）会转化为不同的能源性能权衡。为了应对这些挑战，我们提出了 DynamoLLM，这是第一个适用于 LLM 推理环境的能源管理框架。 DynamoLLM 自动、动态地重新配置推理集群，以优化服务性能 SLO 下的 LLM 服务的能源和成本。我们表明，在服务级别，DynamoLLM 节省了 53% 的能源和 38% 的运营碳排放，并为客户降低了 61% 的成本，同时满足延迟 SLO。

大语言模型通往安全可靠的 6G 之路：攻击、防御和机遇

分类： 密码学和安全, 人工智能, 分布式、并行和集群计算

作者： Sunder Ali Khowaja, Parus Khuwaja, Kapal Dev, Hussam Al Hamadi, Engin Zeydan

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00722v1

摘要： 最近，大型语言模型（LLM）由于其在包括通信网络在内的新兴应用中的适应性和可扩展性而引起了人们的广泛关注。预计 6G 移动边缘计算网络将能够支持 LLM 作为服务，因为它们提供超可靠的低延迟通信和闭环大规模连接。然而，大语言模型很容易受到数据和模型隐私问题的影响，这些问题会影响为基于用户的服务部署的大语言模型的可信度。在本文中，我们探讨了与 6G 网络中 LLM 微调相关的安全漏洞，特别是成员推理攻击。我们定义了攻击网络的特征，如果攻击者可以访问下游任务的微调模型，则该攻击网络可以执行成员推理攻击。我们证明，成员资格推断攻击对于任何下游任务都是有效的，当使用 LLM 作为服务时，这可能会导致个人数据泄露。实验结果表明，在命名实体识别任务上，攻击成功率最高可达92%。基于实验分析，我们讨论了可能的防御机制并提出了可能的研究方向，以使大语言模型在 6G 网络背景下更值得信赖。

间歇性半工作掩模：大语言模型的新掩模范式

分类： 计算和语言, 人工智能

作者： Mingcong Lu, Jiangcai Zhu, Wang Hao, Zheng Li, Shusheng Zhang, Kailai Shao, Chao Chen, Nan Li, Feng Wang, Xin Lu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00539v1

摘要： 多轮对话是人类与大型语言模型 (LLM) 之间的关键交互方法，因为对话会延伸到多轮，保持 LLM 的高生成质量和低延迟是一个挑战。根据屏蔽策略，主流LLM可以分为两类：因果LLM和前缀LLM。一些研究表明，前缀大语言模型在严重依赖历史背景（例如多轮对话或上下文学习）的场景中往往优于因果大语言模型，这要归功于它们对前缀序列的双向关注。然而，前缀大语言模型在多轮对话数据集中存在固有的低效训练问题。此外，前缀LLM的注意力机制使其无法跨对话轮次重用键值缓存（KV Cache）来减少生成延迟。在本文中，我们提出了一种称为间歇半工作掩模（ISM）的新型掩模方案来解决这些问题。具体来说，我们对对话历史中的查询和答案应用交替的双向和单向注意力。通过这种方式，ISM能够同时保持前缀LLM的高质量和因果LLM的低生成延迟。大量实验表明我们的 ISM 取得了显着的性能。

使用基于 LLM 的代理来越狱文本到图像模型

分类： 密码学和安全, 人工智能, 机器学习

作者： Yingkai Dong, Zheng Li, Xiangtao Meng, Ning Yu, Shanqing Guo

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00523v1

摘要： 最近的进步显着提高了使用由大语言模型（LLM）支持的自主代理的自动化任务解决能力。然而，大多数基于大语言模型的代理专注于对话、编程或专业领域，在解决生成式人工智能安全任务方面留下了空白。这些差距主要是由于大语言模型幻觉带来的挑战和缺乏明确的指导方针造成的。在本文中，我们提出了 Atlas，这是一种基于 LLM 的先进多代理框架，它集成了高效的模糊测试工作流程来定位生成式 AI 模型，特别关注针对带有安全过滤器的文本到图像 (T2I) 模型的越狱攻击。 Atlas 利用视觉语言模型 (VLM) 来评估提示是否触发 T2I 模型的安全过滤器。然后，它与 LLM 和 VLM 迭代协作，生成绕过过滤器的替代提示。 Atlas还通过利用多代理通信、上下文学习（ICL）记忆机制和思想链（COT）方法来增强LLM在攻击场景中的推理能力。我们的评估表明，Atlas 在黑匣子设置中成功越狱了多个最先进的 T2I 模型，这些模型配备了多模式安全过滤器。此外，Atlas 在查询效率和生成图像的质量方面都优于现有方法。

为边缘设备设计高效的大语言模型加速器

分类： 硬件架构, 机器学习

作者： Jude Haris, Rappy Saha, Wenhao Hu, José Cano

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00462v1

摘要： 大型语言模型 (LLM) 开源可用性的增加使用户能够将其部署在越来越多资源受限的边缘设备上，以减少对网络连接的依赖并提供更多隐私。然而，LLM 的高计算和内存需求使得它们在资源受限的边缘设备上的执行充满挑战且效率低下。为了解决这个问题，为 LLM 推理设计新的高效边缘加速器至关重要。基于 FPGA 的加速器由于其可重新配置性而成为 LLM 加速的理想选择，因为它们能够实现特定于模型的优化和更高的每瓦性能。然而，事实证明，为 LLM 创建和集成基于 FPGA 的加速器（特别是在边缘设备上）具有挑战性，这主要是由于现有 FPGA 平台中 LLM 的硬件设计流程有限。为了解决这个问题，在本文中，我们首先提出了一个名为 SECDA-LLM 的新设计平台，该平台利用 SECDA 方法来简化为 llama.cpp 推理框架设计、集成和部署基于 FPGA 的高效 LLM 加速器的过程。然后，我们通过案例研究展示了 SECDA-LLM 的潜在优势，即创建一个支持 LLM 块浮点量化运算的新 MatMul 加速器。我们最初的加速器设计部署在 PYNQ-Z1 板上，与 TinyLlama 模型的基于双核 Arm NEON 的 CPU 执行相比，将延迟减少了 11 倍（每个令牌 1.7 秒或每个字约 2 秒）。

针对文本转动作的自主 LLM 增强对抗性攻击

分类： 计算机视觉和模式识别

作者： Honglei Miao, Fan Ma, Ruijie Quan, Kun Zhan, Yi Yang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00352v1

摘要： 由深度生成模型驱动的人体动作生成已经实现了引人注目的应用，但文本转动作 (T2M) 模型根据文本提示生成逼真动作的能力如果被恶意利用，则会引发安全问题。尽管人们对 T2M 的兴趣日益浓厚，但很少有方法专注于保护这些模型免受对抗性攻击，现有的文本到图像模型工作被证明不足以满足独特的运动领域的需求。在本文中，我们提出了 ALERT-Motion，这是一个利用大型语言模型 (LLM) 来针对黑盒 T2M 模型进行有针对性的对抗性攻击的自治框架。与之前通过预定义规则修改提示的方法不同，ALERT-Motion 使用大语言模型的人体运动知识来自动生成微妙但强大的对抗性文本描述。它包括两个关键模块：自适应调度模块，构建基于LLM的代理来迭代细化和搜索对抗性提示；多模态信息对比模块，提取语义相关的运动信息来指导代理的搜索。通过这种 LLM 驱动的方法，ALERT-Motion 精心制作对抗性提示，查询受害者模型，以生成与目标运动紧密匹配的输出，同时避免明显的扰动。对流行 T2M 模型的评估证明了 ALERT-Motion 相对于以前的方法的优越性，通过更隐秘的对抗性提示实现了更高的攻击成功率。这项关于 T2M 对抗性攻击的开创性工作凸显了随着运动生成技术的进步制定防御措施的紧迫性，敦促进一步研究安全和负责任的部署。

支持大语言模型 (LLM) 的无线网络优化上下文学习：功率控制案例研究

分类： 系统与控制, 系统与控制

作者： Hao Zhou, Chengming Hu, Dun Yuan, Ye Yuan, Di Wu, Xue Liu, Charlie Zhang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00214v1

摘要： 大语言模型（LLM）最近被认为是许多领域有前途的技术。这项工作通过情境学习探索基于大语言模型的无线网络优化。为了展示 LLM 技术的潜力，我们将基站 (BS) 功率控制作为案例研究，这是无线网络中广泛研究的一项基本但关键的技术。与现有的机器学习（ML）方法不同，我们提出的上下文学习算法依赖于LLM的推理能力。它避免了繁琐的模型训练和超参数微调的复杂性，这是许多机器学习算法众所周知的瓶颈。具体来说，该算法首先通过格式化自然语言描述目标任务，然后设计上下文学习框架和演示示例。之后，它考虑两种情况，即离散状态和连续状态问题，并提出基于状态和基于排序的方法，分别为这两种情况选择合适的例子。最后，模拟表明，所提出的算法可以实现与传统深度强化学习（DRL）技术相当的性能，而无需专门的模型训练或微调。这种高效且低复杂度的方法对于未来的无线网络优化具有巨大的潜力。