2024-10

数值精度如何影响大语言模型的数学推理能力

分类: 机器学习, 人工智能, 计算和语言, 机器学习

作者: Guhao Feng, Kai Yang, Yuntian Gu, Xinyue Ai, Shengjie Luo, Jiacheng Sun, Di He, Zhenguo Li, Liwei Wang

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13857v1

摘要: 尽管基于 Transformer 的大型语言模型 (LLM) 在各个领域取得了巨大成功,但理解和增强其数学能力仍然是一项重大挑战。在本文中,我们对大语言模型的数学能力进行了严格的理论分析,特别关注他们的算术表现。我们认为数值精度是影响数学任务有效性的关键因素。我们的结果表明,以低数值精度运行的 Transformer 无法解决算术任务,例如迭代加法和整数乘法,除非模型大小相对于输入长度呈超多项式增长。相比之下,具有标准数值精度的 Transformer 可以使用小得多的模型尺寸有效地处理这些任务。我们通过实证实验进一步支持我们的理论发现,探索不同数值精度对算术任务的影响,为提高大语言模型的数学推理能力提供有价值的见解。

活跃-休眠注意力头:机械地揭秘大语言模型中的极端令牌现象

分类: 机器学习

作者: Tianyu Guo, Druv Pai, Yu Bai, Jiantao Jiao, Michael I. Jordan, Song Mei

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13835v1

摘要: 从业者一直在基于 Transformer 的大型语言模型 (LLM) 中观察到三种令人费解的现象:注意力下沉、价值状态流失和残余状态峰值,统称为极端令牌现象。这些现象的特点是某些所谓的“水槽代币”接收到不成比例的高注意力权重,表现出明显较小的价值状态,并且具有比其他代币大得多的剩余状态规范。这些极端的标记给LLM推理、量化和可解释性带来了各种挑战。我们阐明了极端代币现象背后的机制。首先,我们证明这些现象出现在非常简单的架构中——具有一到三层的变压器——在玩具模型、Bigram-Backcopy (BB) 任务上进行训练。在这种情况下,我们确定了一种主动-休眠机制,其中注意力头成为特定输入域的接收器,而对于其他输入域则保持非接收器。我们对训练动态的理论分析表明,这些现象是由相互强化机制驱动的。基于这些见解,我们提出了在预训练期间减轻极端标记现象的策略,包括用 ReLU 替换 softmax,用 SGD 替换 Adam。接下来,我们将分析扩展到预训练的 LLM,包括 Llama 和 OLMo,结果表明许多注意力头表现出与 BB 任务中类似的活跃-休眠机制,并且相互强化机制也控制着 LLM 期间极端令牌现象的出现预训练。我们的结果表明,BB 任务预测的极端标记现象的许多静态和动态特性与预训练的 LLM 中的观察结果一致。

AgentOccam:基于 LLM 的 Web 代理的简单而强大的基准

分类: 人工智能, 计算和语言

作者: Ke Yang, Yao Liu, Sapana Chaudhary, Rasool Fakoor, Pratik Chaudhari, George Karypis, Huzefa Rangwala

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13825v1

摘要: 通过使用大型语言模型 (LLM) 执行个性化、标准化任务的代理实现自治,可以提高人员效率。自动化网络任务(例如在预算范围内预订酒店)越来越受追捧。为了满足实际需求,网络代理还可以作为各种代理接地场景的重要概念验证示例,其成功有望在许多未来应用中取得进步。先前的研究通常手工制作网络代理策略(例如,提示模板、多代理系统、搜索方法等)和相应的上下文示例,这可能无法很好地概括所有现实场景。另一方面,关于网络代理的观察/动作表示与其所基于的大语言模型预训练数据之间的不一致的研究有限。当大语言模型主要接受语言完成训练而不是涉及具体导航操作和符号网络元素的任务时,这种差异尤其明显。我们的研究通过简单地改进基于大语言模型的网络代理的观察和行动空间来增强其观察和行动空间,以更好地与大语言模型的能力保持一致。这种方法使我们的基础代理在各种 Web 任务上显着优于以前的方法。具体来说,在 WebArena(一个以通用 Web 交互任务为特色的基准测试)上,我们的代理 AgentOccam 分别超越了之前的最先进和并发工作 9.8 (+29.4%) 和 5.9 (+15.8%) 绝对点,并且凭借其观察和动作空间对齐,与类似的纯网络代理相比,成功率提高了 26.6 个百分点 (+161%)。我们在不使用上下文示例、新代理角色、在线反馈或搜索策略的情况下实现了这一目标。 AgentOccam 的简单设计凸显了 LLM 在 Web 任务上令人印象深刻的零样本性能,并强调了仔细调整基于 LLM 的代理的观察和操作空间的关键作用。

模拟未来的对话转向教大语言模型提出澄清问题

分类: 计算和语言

作者: Michael J. Q. Zhang, W. Bradley Knox, Eunsol Choi

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13788v1

摘要: 大型语言模型 (LLM) 通常必须响应高度模糊的用户请求。在这种情况下,大语言模型的最佳回应可能是提出澄清问题以获取更多信息。我们观察到,现有的大语言模型通常会通过预设对此类模糊请求的单一解释来做出回应,这让想要不同解释的用户感到沮丧。我们推测这是由当前的偏好数据标记实践引起的,其中大语言模型的回答仅根据其先前的背景进行评估。为了解决这个问题,我们建议通过模拟未来回合的预期结果来分配偏好标签。这使得大语言模型能够学会提出澄清性问题,从而生成适合未来每个用户解释的答案。在开放域 QA 的实验中,我们将使用我们提出的偏好标记方法训练的系统与标准方法进行比较,后者仅根据先验上下文分配偏好。我们根据系统提出澄清性问题的能力来评估系统,这些问题可以恢复每个用户的解释和预期答案,并发现我们使用我们提出的方法进行的训练训练大语言模型提出澄清性问题,与不同的答案集相比,F1 提高了 5%。每个查询的解释

利用图神经网络支持的 LLM 驱动的多智能体系统进行快速、自动化的合金设计

分类: 材料科学, 无序系统和神经网络, 介观和纳米物理, 人工智能, 多代理系统

作者: Alireza Ghafarollahi, Markus J. Buehler

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13768v1

摘要: 多智能体人工智能模型用于自动发现新的金属合金,整合多模态数据和外部知识,包括通过原子模拟获得的物理学见解。我们的多智能体系统具有三个关键组件:(a) 一套负责推理和规划等任务的大语言模型,(b) 一组具有不同角色和动态协作专业知识的人工智能智能体,以及 (c) 新开发的用于快速检索关键物理特性的图神经网络(GNN)模型。一组 LLM 驱动的 AI 代理在 GNN 预测的指导下协作,自动探索 MPEA 的广阔设计空间。我们专注于 NbMoTa 系列体心立方 (bcc) 合金,使用基于 ML 的原子间势进行建模,并瞄准两个关键属性:Peierls 势垒和溶质/螺旋位错相互作用能。我们的 GNN 模型可以准确预测这些原子尺度的属性,为昂贵的强力计算提供更快的替代方案,并减轻多智能体系统物理检索的计算负担。该人工智能系统通过减少对人类专业知识的依赖并克服直接全原子模拟的局限性,彻底改变了材料发现。通过将 GNN 的预测能力与基于 LLM 的代理的动态协作相结合,该系统可以自主导航巨大的合金设计空间,识别原子尺度材料特性的趋势并预测宏观尺度机械强度,正如多项计算实验所证明的那样。这种方法加速了先进合金的发现,并有望在其他复杂系统中得到更广泛的应用,标志着自动化材料设计向前迈出了重要一步。

大语言模型-对话文化背景基础的人力管道

分类: 计算和语言, 人工智能

作者: Rajkumar Pujari, Dan Goldwasser

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13727v1

摘要: 对话通常遵循不同文化之间众所周知的社会规范。例如,虽然“称呼父母的名字”在西方很常见,但在大多数亚洲文化中却很少见。遵守或违反这些规范通常决定了对话的基调。人类能够非常熟练地应对需要文化意识的社会情境。然而,这对于 NLP 模型来说是一项艰巨的任务。在本文中,我们通过引入对话的“文化语境模式”来解决这个问题。它包括 (1) 会话信息,如情感、对话行为等,以及 (2) 文化信息,如社会规范、违规行为等。我们使用大语言模型为中国文化中的约 23,000 个对话生成约 110,000 个社会规范和违规描述。我们使用自动验证策略来完善它们,这些策略根据具有文化意识的人类判断进行评估。我们使用交互式人机循环框架将这些描述组织成有意义的结构,我们称之为“规范概念”。我们使用符号注释在对话中奠定规范概念和描述的基础。最后,我们将获得的数据集用于下游任务,例如情感、情绪和对话行为检测。我们证明它显着提高了经验性能。

大语言模型的持续训练前中毒

分类: 密码学和安全, 人工智能

作者: Yiming Zhang, Javier Rando, Ivan Evtimov, Jianfeng Chi, Eric Michael Smith, Nicholas Carlini, Florian Tramèr, Daphne Ippolito

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13722v1

摘要: 大型语言模型是在未经整理的文本数据集上进行预训练的,该数据集由从网络上抓取的数万亿个标记组成。先前的工作表明:(1)网络抓取的预训练数据集实际上可能会被恶意行为者毒害; (2) 对手可以在毒害微调数据集后破坏语言模型。我们的工作首次评估了语言模型在预训练期间是否也会受到损害,重点是模型被微调为有用且无害的聊天机器人后(即在 SFT 和 DPO 之后)预训练攻击的持续性。我们从头开始预训练一系列 LLM,以衡量潜在中毒对手在四种不同攻击目标(拒绝服务、信念操纵、越狱和即时窃取)下以及各种模型大小的影响(从600M到7B)。我们的主要结果是,仅毒害模型预训练数据集的 0.1% 就足以让四分之三的攻击在训练后持续存在。此外,像拒绝服务这样的简单攻击在训练后仍然存在,中毒率仅为 0.001%。

用于增强 LLM 推理的无约束模型合并

分类: 计算和语言

作者: Yiming Zhang, Baoyi He, Shengyu Zhang, Yuhao Fu, Qi Zhou, Zhijie Sang, Zijin Hong, Kejing Yang, Wenjun Wang, Jianbo Yuan, Guangning Han, Linyi Li, Chunlin Ji, Fei Wu, Hongxia Yang

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13699v1

摘要: 最近在构建特定领域的大语言模型(LLM)方面取得的进展取得了显着的成功,特别是在需要推理能力的任务中,例如对复杂关系的逻辑推理和多步骤问题解决。然而,由于需要专有数据和大量计算资源,创建强大的一体化大语言模型仍然具有挑战性。作为一种资源友好型替代方案,我们探索将多个专家模型合并到单个大语言模型的潜力。现有的模型合并研究主要集中在通才型大语言模型,而不是领域专家或相同架构和规模下的大语言模型。在这项工作中,我们提出了一种无约束的模型合并框架,该框架可容纳同质和异构模型架构,重点关注推理任务。细粒度的逐层权重合并策略是为同质模型合并而设计的,而异构模型合并则建立在从指令响应微调数据导出的概率分布知识的基础上。在 7 个基准和 9 个推理优化的大语言模型中,我们揭示了组合推理的重要发现,它是通过合并产生的,超越了简单的相加效应。我们建议无约束的模型合并可以作为分散式大语言模型的基础,标志着现有集中式大语言模型框架的显着进步。这种演变可以增强更广泛的参与并刺激人工智能领域的进一步进步,有效解决中心化模型带来的限制。

越狱大语言模型控制的机器人

分类: 机器人技术, 人工智能

作者: Alexander Robey, Zachary Ravichandran, Vijay Kumar, Hamed Hassani, George J. Pappas

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13691v1

摘要: 最近引入的大语言模型 (LLM) 通过在操纵、运动和自动驾驶车辆等各种领域实现上下文推理和直观的人机交互,彻底改变了机器人领域。当被视为一种独立技术时,LLM 很容易受到越狱攻击,其中恶意提示器通过绕过 LLM 安全护栏来引出有害文本。为了评估在机器人技术中部署 LLM 的风险,在本文中,我们介绍了 RoboPAIR,这是第一个旨在越狱 LLM 控制的机器人的算法。与现有的针对 LLM 聊天机器人的文本攻击不同,RoboPAIR 会引发 LLM 控制的机器人产生有害的身体动作,我们在三种场景中实验演示了这种现象:(i) 白盒设置,其中攻击者可以完全访问 NVIDIA Dolphins 自我攻击。驾驶 LLM,(ii) 灰盒设置,其中攻击者可以部分访问配备 GPT-4o 规划器的 Clearpath Robotics Jackal UGV 机器人,以及 (iii) 黑盒设置,其中攻击者仅具有查询访问权限到集成 GPT-3.5 的 Unitree Robotics Go2 机器狗。在每个场景和三个新的有害机器人行为数据集中,我们证明 RoboPAIR 以及多个静态基线可以快速有效地发现越狱,通常可以实现 100% 的攻击成功率。我们的研究结果首次表明,越狱的大语言模型的风险远远超出了文本生成的范围,因为越狱的机器人很可能在现实世界中造成物理损害。事实上,我们在 Unitree Go2 上的结果代表了已部署的商业机器人系统的首次成功越狱。解决这一新出现的漏洞对于确保大语言模型在机器人领域的安全部署至关重要。其他媒体可访问:https://robopair.org

SimpleToM:揭示大语言模型中显式 ToM 推理和隐式 ToM 应用之间的差距

分类: 计算和语言, 人工智能

作者: Yuling Gu, Oyvind Tafjord, Hyunwoo Kim, Jared Moore, Ronan Le Bras, Peter Clark, Yejin Choi

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13648v1

摘要: 虽然之前的工作已经探讨了大型语言模型(LLM)是否拥有“心理理论”(ToM)——将心理状态归因于自己和他人的能力——但很少有工作来测试 LLM 是否可以隐式应用这些知识来预测行为,或判断观察到的行为是否理性。这些技能对于社交环境中的适当互动至关重要。我们创建了一个新的数据集 SimpleTom,其中包含简洁、多样化的故事(例如,“品客薯片罐头里有发霉的薯条。玛丽在超市拿起罐头,走到收银台。”),每个故事都有三个测试问题不同程度的 ToM 推理,要求模型预测 (a) 心理状态(“玛丽是否意识到霉菌?”),(b)行为(“玛丽会支付芯片费用还是报告霉菌?”),以及(c) )判断(“玛丽支付了筹码的费用。这合理吗?”)。据我们所知,SimpleToM 是第一个系统地探索下游推理的数据集,需要了解现实场景中的心理状态。我们的实验结果很有趣:虽然大多数模型可以在我们的数据集上可靠地预测心理状态(a),但它们常常无法正确预测行为(b),并且在判断给定行为是否合理(c)方面表现更差,尽管正确认识主角的心理状态应该会让这种次要的预测变得明显。我们进一步表明,我们可以通过干预措施帮助模型在(b)和(c)方面做得更好,例如提醒模型其早期的心理状态答案和特定于心理状态的思维链提示,提高动作预测的准确性( (例如,GPT-4o 从 49.5% 到 93.5%)和判断准确度(例如,GPT-4o 从 15.3% 到 94.7%)。虽然这表明模型可以被诱导表现良好,但它需要针对特定​​任务的干预,并且自然模型的性能仍然很低,这是 LLM 部署的一个警示。

潜在空间嵌入链实现无输出 LLM 自我评估

分类: 计算和语言, 人工智能, 机器学习

作者: Yiming Wang, Pei Zhang, Baosong Yang, Derek F. Wong, Rui Wang

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13640v1

摘要: LLM自我评估依赖于LLM自身估计响应正确性的能力,这可以大大提高其部署可靠性。在本研究中,我们提出了潜在空间中的嵌入链(CoE),以使大语言模型能够执行无输出的自我评估。 CoE由推理期间产生的所有渐进隐藏状态组成,可以将其视为LLM的潜在思维路径。我们发现,当 LLM 回答正确和错误时,他们的 CoE 特征会有所不同,这些差异有助于我们估计 LLM 回答的正确性。四个不同领域和七个大语言模型的实验充分证明了我们方法的有效性。同时,其无需任何训练的无标签设计意图和毫秒级的计算成本保证了大规模场景下的实时反馈。更重要的是,我们从 LLM 内部隐藏状态变化的角度提供了对 LLM 响应正确性的有趣见解。

MeNTi:通过嵌套工具调用桥接医疗计算器和 LLM 代理

分类: 人工智能, 计算和语言

作者: Yakun Zhu, Shaohang Wei, Xu Wang, Kui Xue, Xiaofan Zhang, Shaoting Zhang

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13610v1

摘要: 将工具集成到大型语言模型(LLM)中促进了广泛的应用。尽管如此,在专门的下游任务环境中,仅依赖工具不足以完全解决现实世界的复杂性。这尤其限制了大语言模型在医学等领域的有效部署。在本文中,我们重点关注医疗计算器的下游任务,它使用标准化测试来评估个人的健康状况。我们推出 MeNTi,一种适用于大语言模型的通用代理架构。 MeNTi集成了专门的医疗工具包,并采用元工具和嵌套调用机制来提高LLM工具的利用率。具体来说,它实现了灵活的工具选择和嵌套工具调用,以解决复杂医疗场景中面临的实际问题,包括计算器选择、槽填充和单位转换。为了评估大语言模型在计算器场景的整个临床过程中进行定量评估的能力,我们引入了 CalcQA。该基准要求大语言模型使用医疗计算器进行计算并评估患者的健康状况。 CalcQA 由专业医生构建,包括 100 个病例计算器对,并辅以包含 281 个医疗工具的工具包。实验结果表明我们的框架显着提高了性能。这项研究为大语言模型在医学领域的苛刻应用中应用奠定了新的方向。

通过属性检索生成基于 LLM 的单元测试

分类: 软件工程

作者: Zhe Zhang, Xingyu Liu, Yuanzhang Lin, Xiang Gao, Hailong Sun, Yuan Yuan

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13542v1

摘要: 自动单元测试生成已得到广泛研究,大型语言模型 (LLM) 最近显示出巨大的潜力。此外,在单元测试生成的背景下,这些工具优先考虑高代码覆盖率,通常以牺牲实际可用性、正确性和可维护性为代价。为此,我们提出了基于属性的检索增强,这是一种新颖的机制,它将基于 LLM 的检索增强生成(RAG)扩展到基本向量、文本相似性和基于图形的方法之外。我们的方法考虑特定于任务的上下文并引入定制的属性检索机制。具体来说,在单元测试生成任务中,我们通过将测试生成过程分为给定、何时和然后阶段来考虑单元测试的独特结构。在为焦点方法生成测试时,我们不仅检索被测代码的一般上下文,而且还考虑特定于任务的上下文,例如其他方法的预先存在的测试,这可以为任何给定、何时和然后是阶段性的。这在焦点方法和其他方法之间形成了属性关系,从而将检索范围扩展到传统 RAG 之外。我们在名为 APT 的工具中实现了这种方法,该工具使用迭代策略按顺序执行预处理、属性检索和单元测试生成,其中新生成的测试指导后续测试的创建。我们使用 1515 种方法在 12 个开源项目上评估了 APT,结果表明 APT 在生成测试的正确性、完整性和可维护性方面始终优于现有工具。此外,我们为大语言模型引入了一种新颖的代码上下文感知检索机制,超越了一般上下文,为其他与代码相关的任务提供了有价值的见解和潜在应用。

镜子中的偏见:大语言模型的观点对他们自己的对抗性攻击是否有力?

分类: 计算和语言, 人工智能

作者: Virgile Rennard, Christos Xypolopoulos, Michalis Vazirgiannis

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13517v1

摘要: 大型语言模型 (LLM) 继承了训练数据和对齐过程中的偏差,以微妙的方式影响着它们的反应。尽管许多研究都检验了这些偏差,但很少有工作探讨它们在交互过程中的稳健性。在本文中,我们介绍了一种新颖的方法,其中两个大语言模型实例进行自我辩论,争论相反的观点以说服模型的中立版本。通过这一点,我们评估偏见的牢固程度,以及模型是否容易强化错误信息或转向有害观点。我们的实验涵盖了不同规模、来源和语言的多个大语言模型,为跨语言和文化背景的偏见持久性和灵活性提供了更深入的见解。

用于高效 LLM 推理的渐进式混合精度解码

分类: 机器学习, 计算和语言

作者: Hao Mark Chen, Fuwen Tan, Alexandros Kouris, Royson Lee, Hongxiang Fan, Stylianos I. Venieris

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13461v1

摘要: 尽管大型语言模型(LLM)在各种任务中具有巨大潜力,但由于其过多的计算和内存需求,它们在资源有限的设备上的部署仍然具有挑战性。通过以降低的精度存储权重,量化已成为一种有效的解决方案。然而,利用低精度(即~2/3 位)来大幅减轻 LLM 解码的内存限制,仍然会遇到性能下降的问题。在这项工作中,我们认为现有方法未能探索计算模式的多样性、冗余性以及对 LLM 推理不同阶段的近似的敏感性,而始终采用统一的量化策略。相反,我们提出了一种新颖的阶段感知方法,该方法可以在 LLM 推理的不同阶段选择性地分配精度,从而在预填充期间实现强大的上下文提取,并在解码期间实现高效的内存带宽利用。为了进一步解决解码阶段的内存限制问题,我们引入了渐进式混合精度解码(PMPD),这是一种能够在生成的序列中逐渐降低精度的技术,以及一系列动态驱动的精度切换调度器以任务自适应或提示自适应方式做出降低精度的决策。对不同语言任务的广泛评估表明,当针对 Nvidia GPU 时,PMPD 在矩阵向量乘法方面比 fp16 模型实现了 1.4$-$12.2$\times$ 加速,而当针对 LLM 优化的 NPU 时,我们的方法提供了 3.8 的吞吐量增益比 fp16 模型高 $-$8.0$\times$,比统一量化方法高 1.54$\times$,同时保持输出质量。

用于评估多语言大语言模型的跨语言自动评估

分类: 计算和语言

作者: Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Dilip Venkatesh, Raj Dabre, Anoop Kunchukuttan, Mitesh M. Khapra

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13394v1

摘要: 评估机器生成的文本仍然是 NLP 中的一个重大挑战,尤其是对于非英语语言。当前的方法,包括自动化指标、人工评估和基于大语言模型的评估,主要关注英语,揭示了多语言评估框架的巨大差距。我们推出跨语言自动评估 (CIA) 套件,这是一个可扩展框架,其中包括评估器 LLM (Hercule) 和专门为多语言评估设计的新颖测试集 (Recon)。我们的测试集包含 500 条人工注释指令,涵盖各种任务功能以及六种语言的人工判断分数。这将使通用多语言大语言模型的基准测试成为可能,并促进评估大语言模型的元评估。所提出的模型 Hercule 是一种跨语言评估模型,通过学习根据容易获得的英语参考答案为答案分配分数,解决了目标语言参考答案稀缺的问题。我们的实验表明,与专有模型相比,Hercule 更符合人类的判断,证明了这种跨语言评估在资源匮乏的情况下的有效性。此外,它对于未见过的语言的零样本评估也很有效。这项研究是首次利用大语言模型对跨语言评估进行全面检查,提出了一种可扩展且有效的多语言评估方法。所有代码、数据集和模型都将公开,以便在这一重要领域进行进一步研究。

CLEAR:面向大型语言模型应用程序的上下文大语言模型授权的隐私政策分析和风险生成

分类: 人机交互

作者: Chaoran Chen, Daodao Zhou, Yanfang Ye, Yaxing Yao, Toby Jia-jun Li

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13387v1

摘要: 由大型语言模型 (LLM) 提供支持的最终用户应用程序(包括会话界面和现有图形用户界面 (GUI) 的附加组件)的兴起,带来了新的隐私挑战。然而,许多用户仍然没有意识到其中的风险。本文探讨了提高用户对最终用户应用程序中与大语言模型相关的隐私风险意识的方法。我们举办了五次联合设计研讨会,以揭示用户隐私问题以及他们对大语言模型内上下文隐私信息的需求。基于这些见解,我们开发了 CLEAR(Contextual LLM-Empowered Privacy Policy Analysis and Risk Generation),这是一款即时上下文助手,旨在帮助用户识别敏感信息、总结相关隐私政策,并在与他人共享信息时突出显示潜在风险。大语言模型。我们在两个示例域中评估了 CLEAR 的可用性和实用性:ChatGPT 和 Gmail 中的 Gemini 插件。我们的研究结果表明,CLEAR 易于使用,并提高了用户对数据实践和隐私风险的理解。我们还讨论了大语言模型在提出和减轻隐私风险、提供设计和政策影响方面的双重性。

大语言模型能否克服捷径学习?大型语言模型中捷径挑战的评估

分类: 计算和语言, 机器学习

作者: Yu Yuan, Lili Zhao, Kai Zhang, Guangting Zheng, Qi Liu

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13343v1

摘要: 大型语言模型(LLM)在各种自然语言处理任务中表现出了卓越的能力。然而,大语言模型可能依赖数据集偏差作为预测的捷径,这可能会严重损害其稳健性和泛化能力。本文介绍了快捷方式套件,这是一个综合测试套件,旨在评估快捷方式对大语言模型表现的影响,包含六种快捷方式类型、五种评估指标和四种提示策略。我们广泛的实验得出了几个关键发现:1)大语言模型表现出对下游任务捷径的不同依赖,这严重损害了他们的表现。 2)较大的大语言模型更有可能在零样本和少样本上下文学习提示下使用捷径。 3)思想链提示显着减少了对捷径的依赖,并且优于其他提示策略,而与零样本提示相比,少样本提示通常表现不佳。 4) 大语言模型经常对自己的预测表现出过度自信,尤其是在处理包含快捷方式的数据集时。 5)大语言模型在充满捷径的数据集中通常解释质量较低,错误分为三种类型:分心、伪装理解和逻辑谬误。我们的研究结果为评估大语言模型的稳健性和泛化性提供了新的见解,并为减轻对捷径的依赖提出了潜在的方向。该代码可在 \url {https://github.com/yyhappier/ShortcutSuite.git} 获取。

前沿可扩展评估的限制:大语言模型作为法官不会击败两倍的数据

分类: 机器学习, 机器学习

作者: Florian E. Dorner, Vivian Y. Nastl, Moritz Hardt

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13341v1

摘要: 高质量注释日益成为爆炸性增长的机器学习生态系统的瓶颈。因此,避免昂贵注释的可扩展评估方法已成为一个重要的研究目标。许多人希望使用强大的现有模型代替昂贵的标签来提供廉价的模型评估。不幸的是,这种使用模型作为评判的方法会引入偏差,例如自我偏好,这可能会扭曲模型比较。一个新兴的去偏工具系列有望通过使用一些高质量标签来消除大量模型判断的偏差来解决这些问题。在本文中,我们研究了这种去偏方法原则上可以走多远。我们的主要结果表明,当判断不比评估模型更准确时,没有任何去偏方法可以将所需的地面实况标签数量减少一半以上。我们的结果说明了大语言模型作为法官范式在评估前沿的严重局限性,其目标是评估可能比法官更好的新发布的模型。通过实证评估,我们证明,实践中可实现的样本量节省甚至比我们的理论限制所建议的还要小。一路走来,我们的工作提供了关于模型评估去偏方法的新观察,并为未来的工作指出了有希望的途径。

LLM 具有政治正确性吗?分析人工智能系统中的道德偏见和越狱漏洞

分类: 计算和语言, 人工智能, 机器学习

作者: Isack Lee, Haebin Seong

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13334v1

摘要: 尽管大型语言模型 (LLM) 在各种任务中表现出令人印象深刻的熟练程度,但它们存在潜在的安全风险,例如“越狱”,恶意输入可能会迫使 LLM 生成有害内容。为了解决这些问题,许多大语言模型开发人员实施了各种安全措施来调整这些模型。这种调整涉及多种技术,包括预训练期间的数据过滤、监督微调、根据人类反馈进行强化学习以及红队练习。这些方法通常会引入类似于政治正确性(PC)的故意偏见,以确保大语言模型的道德行为。在本文中,我们深入研究了出于安全目的而注入大语言模型的故意偏见,并研究了规避这些安全调整技术的方法。值得注意的是,这些故意的偏见导致 GPT-4o 模型中的越狱成功率在非二元和顺性别关键字之间相差 20%,在白人和黑人关键字之间相差 16%,即使提示的其他部分相同。我们引入了 PCJailbreak 的概念,强调了这些安全引起的偏差所带来的固有风险。此外,我们提出了一种有效的防御方法 PCDefense,它通过在生成之前注入防御提示来防止越狱尝试。 PCDefense 是 Guard 模型(例如 Llama-Guard)的一个有吸引力的替代品,后者在文本生成后需要额外的推理成本。我们的研究结果强调,大语言模型开发人员在设计和实施安全措施时迫切需要采取更负责任的方法。

比较课程材料搜索功能和检索增强生成大型语言模型 (RAG-LLM) AI 聊天机器人在信息查找任务中的效用、偏好和性能

分类: 计算机与社会, 信息检索, K.3; H.3.3

作者: Leonardo Pasquarelli, Charles Koutcheme, Arto Hellas

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13326v1

摘要: 为学生提供足够的支持需要大量资源,特别是考虑到入学人数不断增长。学生在各种任务中需要帮助,从寻求信息到需要课程作业的支持。为了探索最近的大型语言模型 (LLM) 作为支持机制的效用,我们开发了一个由 LLM 驱动的人工智能聊天机器人,它可以增强根据课程材料中的信息生成的答案。为了研究由大语言模型支持的人工智能聊天机器人的效果,我们进行了一项基于实验室的用户研究(N = 14),其中参与者完成网络软件开发课程中的任务。参与者被分为两组,其中一组首先可以访问聊天机器人,然后使用更传统的搜索功能,而另一组则从搜索功能开始,然后获得聊天机器人。我们评估了参与者对聊天机器人和搜索功能的表现和看法,并探讨了他们对支持功能的偏好。我们的研究结果强调,这两种支持机制都被认为是有用的,并且支持机制对于特定任务效果良好,而对于其他任务则效果较差。我们还观察到,学生往往更喜欢第二种支持机制,首先获得聊天机器人的学生往往更喜欢搜索功能,反之亦然。

基于参考的 OCR 后处理与大语言模型用于变音符号语言

分类: 计算和语言, 计算机视觉和模式识别

作者: Thao Do

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13305v1

摘要: 由于意外的伪影、时间引起的退化和数据集的缺乏,从变音语言的陈旧文档中提取细粒度的 OCR 文本仍然具有挑战性。虽然已经提出了独立的拼写校正方法,但由于许多可能的 OCR 错误组合以及现代和经典语料库分布之间的差异,它们对历史文档的性能有限。我们提出了一种方法,利用现有的以内容为中心的电子书作为参考基础来纠正不完美的 OCR 生成的文本,并得到大型语言模型的支持。该技术为变音符号语言生成高精度的伪页到页标签,其中小笔画在历史条件下构成了重大挑战。该管道消除了陈旧文档中的各种类型的噪音,并解决了诸如丢失字符、单词和无序序列等问题。我们的后处理方法生成了越南古典书籍的大型 OCR 数据集,在 10 分制上取得了 8.72 的平均评分。这优于最先进的基于 Transformer 的越南语拼写校正模型,该模型在数据集的采样子集上进行评估时得分为 7.03。我们还训练了一个基线 OCR 模型来评估它并与知名引擎进行比较。实验结果证明了我们的基线模型与广泛使用的开源解决方案相比的优势。所得数据集将公开发布以支持未来的研究。

SeerAttention:在大语言模型中学习内在的稀疏注意力

分类: 计算和语言

作者: Yizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13276v1

摘要: 注意力是现代大型语言模型(LLM)的基石。然而,其二次复杂性限制了大语言模型的效率和可扩展性,特别是对于那些具有长上下文窗口的大语言模型。解决这一限制的一种有前途的方法是利用注意力的稀疏性。然而,现有的基于稀疏性的解决方案主要依赖于预定义的模式或启发式来近似稀疏性。这种做法无法充分捕捉基于语言的任务中注意力稀疏的动态本质。本文认为注意力稀疏性应该是学习的而不是预先定义的。为此,我们设计了 SeerAttention,这是一种新的注意力机制,它通过可学习的门来增强传统的注意力,自适应地选择注意力图中的重要块并认为其余块是稀疏的。这种块级稀疏性有效地平衡了准确性和加速率。为了实现门网络的高效学习,我们开发了一个定制的 FlashAttention 实现,以最小的开销提取注意力图的块级基本事实。 SeerAttention不仅适用于后期训练,而且在长上下文微调方面也表现出色。我们的结果表明,在训练后阶段,SeerAttention 显着优于最先进的静态或启发式稀疏注意力方法,同时也更加通用和灵活,可以适应不同的上下文长度和稀疏率。当使用 YaRN 进行长上下文微调时,SeerAttention 可以在 32k 上下文长度下实现显着的 90% 稀疏率,同时困惑度损失最小,比 FlashAttention-2 提供 5.67 倍的加速。

长形式生成中大语言模型的原子校准

分类: 计算和语言, 人工智能

作者: Caiqi Zhang, Ruihan Yang, Zhisong Zhang, Xinting Huang, Sen Yang, Dong Yu, Nigel Collier

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13246v1

摘要: 大型语言模型(LLM)经常会出现幻觉,给现实世界的应用带来重大挑战。置信度校准可估计模型预测的潜在不确定性,对于增强大语言模型的可信度至关重要。现有的 LLM 校准研究主要集中在简短的任务上,在响应级别提供单一置信度得分(宏观校准)。然而,这种方法对于长格式生成来说是不够的,因为长格式生成的响应通常包含更复杂的陈述,并且可能包含准确和不准确的信息。因此,我们引入了原子校准,这是一种通过将长响应分解为原子声明来在细粒度水平上评估事实校准的新颖方法。我们将置信度启发方法分为判别型和生成型,并证明它们的组合可以增强校准。我们对各种大语言模型和数据集进行的广泛实验表明,原子校准非常适合长格式生成,并且还可以改善宏观校准结果。此外,原子校准揭示了整个生成过程中大语言模型信心的深刻模式。

FaithBench:现代大语言模型总结的多样化幻觉基准

分类: 计算和语言, 人工智能

作者: Forrest Sheng Bao, Miaoran Li, Renyi Qu, Ge Luo, Erana Wan, Yujia Tang, Weisi Fan, Manveer Singh Tamber, Suleman Kazi, Vivek Sourabh, Mike Qi, Ruixuan Tu, Chenyu Xu, Matthew Gonzales, Ofer Mendelevitch, Amin Ahmad

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13210v1

摘要: 摘要是大型语言模型 (LLM) 执行的最常见任务之一,尤其是在检索增强生成 (RAG) 等应用程序中。然而,现有的对大语言模型生成的摘要中的幻觉的评估以及对幻觉检测模型的评估都受到大语言模型和所考虑的大语言模型家族缺乏多样性和新近性的影响。本文介绍了 FaithBench,这是一个总结幻觉基准,由来自 8 个不同家庭的 10 名现代大语言模型制作的具有挑战性的幻觉组成,并由人类专家进行了地面实况注释。这里的“挑战性”是指对流行的、最先进的幻觉检测模型(包括 GPT-4o-as-a-judge)不同意的总结。我们的结果显示 GPT-4o 和 GPT-3.5-Turbo 产生的幻觉最少。然而,即使是最好的幻觉检测模型在 FaithBench 上的准确率也接近 50%,这表明未来还有很大的改进空间。仓库是 https://github.com/vectara/FaithBench

思想链:与大语言模型代理人一起革新新颖创意开发的研究

分类: 人工智能, 计算和语言

作者: Long Li, Weiwen Xu, Jiayan Guo, Ruochen Zhao, Xinxuan Li, Yuqian Yuan, Boqiang Zhang, Yuming Jiang, Yifei Xin, Ronghao Dang, Deli Zhao, Yu Rong, Tian Feng, Lidong Bing

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13185v1

摘要: 有效的研究构思是科学研究的关键步骤。然而,科学文献的指数级增长使得研究人员很难跟上最新进展并确定有意义的研究方向。大型语言模型(LLM)的最新发展为自动生成新颖的研究想法提供了一条有前途的途径。然而,现有的创意生成方法要么简单地提示大语言模型,要么直接让大语言模型接触大量文献,而没有指明有用的信息。受人类研究人员研究过程的启发,我们提出了一种思想链(CoI)智能体,这是一种基于大语言模型的智能体,它以链式结构组织相关文献,以有效反映研究领域的逐步发展。该组织帮助大语言模型了解当前的研究进展,从而增强他们的构思能力。此外,我们提出了Idea Arena,一种评估协议,可以从不同角度全面评估想法生成方法,与人类研究人员的偏好紧密结合。实验结果表明,CoI 智能体始终优于其他方法,并且在研究创意生成方面表现出与人类相当的质量。此外,我们的 CoI 代理对预算友好,生成候选想法及其相应实验设计的最低成本为 0.50 美元。

SLM-Mod:小语言模型在内容审核方面超越大语言模型

分类: 计算和语言

作者: Xianyang Zhan, Agam Goyal, Yilun Chen, Eshwar Chandrasekharan, Koustuv Saha

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13155v1

摘要: 大型语言模型 (LLM) 在许多自然语言理解任务(包括内容审核)中显示出了前景。然而,这些模型的实时查询成本可能很高,并且不允许采用特定于社区的内容审核方法。为了应对这些挑战,我们探索使用开源小语言模型 (SLM) 来执行社区特定的内容审核任务。我们通过将 SLM 的性能与更大的开源和闭源模型进行比较来微调和评估 SLM(少于 15B 参数)。使用来自 15 个热门 Reddit 社区的 15 万条评论,我们发现 SLM 在内容审核方面优于 LLM——所有社区的平均准确率高出 11.5%,召回率高出 25.7%。我们进一步展示了跨社区内容审核的前景,这对新社区和跨平台审核技术的发展具有影响。最后,我们概述了基于语言模型的内容审核的未来工作方向。 HuggingFace 模型的代码和链接可以在 https://github.com/AGoyal0512/SLM-Mod 找到。

学习从 LLM 生成的反馈中进行总结

分类: 计算和语言, 人工智能

作者: Hwanjun Song, Taewon Yun, Yuho Lee, Gihun Lee, Jason Cai, Hang Su

发布时间: 2024-10-17

链接: http://arxiv.org/abs/2410.13116v1

摘要: 由于大语言模型生成的摘要中存在幻觉、关键信息遗漏和冗长等问题,开发有效的文本摘要器仍然是一个挑战。这项工作探索使用大语言模型生成的反馈,通过使摘要与人类对忠实性、完整性和简洁性的偏好保持一致来提高摘要质量。我们引入了 FeedSum,这是一个大型数据集,其中包含对不同领域的不同质量摘要的多维 LLM 反馈。我们的实验展示了反馈质量、维度和粒度如何影响偏好学习,揭示了高质量、多维度、细粒度的反馈显着改善了摘要生成。我们还比较了使用此反馈的两种方法:监督微调和直接偏好优化。最后,我们介绍了 SummLama3-8b,该模型在生成人类首选摘要方面比大近 10 倍的 Llama3-70b-instruct 表现出色,证明较小的模型可以通过适当的训练实现卓越的性能。完整的数据集即将发布。 SummLama3-8B 模型现已在 https://huggingface.co/DISLab/SummLama3-8B 上提供。

AERO:仅使用 Softmax 的大语言模型可实现高效的私人推理

分类: 机器学习, 密码学和安全

作者: Nandan Kumar Jha, Brandon Reagen

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.13060v1

摘要: 专有语言模型的普遍存在引发了对用户敏感数据的隐私问题,强调了对私有推理(PI)的需求,其中推理是直接在加密输入上执行的。然而,当前的 PI 方法面临着过高的通信和延迟开销,这主要是由于非线性操作造成的。在本文中,我们提出了全面的分析,以了解非线性在基于变压器的纯解码器语言模型中的作用。我们引入了 AERO,这是一个四步架构优化框架,它通过系统地消除 LayerNorm 和 GELU 等非线性并减少 FLOP 计数来改进现有的 LLM 架构,以实现高效的 PI。我们首次提出了一种仅使用 Softmax 的架构,该架构的 FLOP 数显着减少,专为高效 PI 量身定制。此外,我们设计了一种新颖的熵正则化技术来提高仅 Softmax 模型的性能。 AERO 实现高达 4.23$\times$ 的通信速度和 1.94$\times$ 的延迟减少。我们通过与最先进的技术进行基准测试来验证 AERO 的有效性。

零样本 CSS 分类中的 LLM 置信度评估措施

分类: 人机交互, 计算和语言, 信息检索

作者: David Farr, Iain Cruickshank, Nico Manzonelli, Nicholas Clark, Kate Starbird, Jevin West

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.13047v1

摘要: 评估分类置信度对于在自动标记任务中利用大型语言模型 (LLM) 至关重要,特别是在计算社会科学 (CSS) 任务呈现的敏感领域。在本文中,我们做出了三个关键贡献:(1)我们提出了一种针对数据注释任务量身定制的不确定性量化(UQ)绩效衡量标准,(2)我们首次比较了三个不同的大语言模型和CSS的五种不同的UQ策略数据注释任务,(3)我们引入了一种新颖的 UQ 聚合策略,该策略可以有效识别低置信度的 LLM 注释,并不成比例地发现 LLM 错误标记的数据。我们的结果表明,我们提出的昆士兰大学聚合策略改进了现有方法,可用于显着改进人机交互数据注释流程。

假设检验大语言模型中的电路假设

分类: 人工智能, 机器学习, 机器学习

作者: Claudia Shi, Nicolas Beltran-Velez, Achille Nazaret, Carolina Zheng, Adrià Garriga-Alonso, Andrew Jesson, Maggie Makar, David M. Blei

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.13032v1

摘要: 大型语言模型(LLM)展示了令人惊讶的功能,但我们不了解它们是如何实现的。一种假设表明,这些功能主要由大语言模型内的小型子网络(称为电路)执行。但我们如何评估这个假设呢?在本文中,我们正式确定了电路假设满足的一组标准,并开发了一套假设检验来评估电路满足这些标准的程度。标准侧重于大语言模型行为的保留程度、该行为的本地化程度以及电路是否最小。我们将这些测试应用于研究文献中描述的六个电路。我们发现合成电路(模型中硬编码的电路)与理想化属性一致。 Transformer 模型中发现的电路在不同程度上满足标准。为了促进未来电路的实证研究,我们创建了 \textit{Circuitry} 包,它是 \textit{TransformerLens} 库的包装器,它抽象了钩子和激活的较低级别操作。该软件可在 \url{https://github.com/blei-lab/Circuitry} 获取。

Codellm-Devkit:将代码大语言模型与程序分析见解结合起来的框架

分类: 软件工程

作者: Rahul Krishna, Rangeet Pan, Raju Pavuluri, Srikanth Tamilselvam, Maja Vukovic, Saurabh Sinha

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.13007v1

摘要: 代码大型语言模型(或代码 LLM)越来越受欢迎,功能也越来越强大,提供了广泛的功能,例如代码完成、代码生成、代码摘要、测试生成、代码翻译等。为了充分利用代码大语言模型的潜力,开发人员必须向模型提供特定于代码的上下文信息。这些通常是使用程序分析工具导出和提炼的。然而,存在很大的差距——这些静态分析工具通常是特定于语言的,并且学习曲线陡峭,使得它们的有效使用具有挑战性。这些工具是针对特定程序语言量身定制的,要求开发人员学习和管理多种工具以涵盖其代码库的各个方面。此外,配置这些工具并将其集成到现有开发环境中的复杂性增加了额外的难度。这一挑战限制了静态分析与大语言模型的更广泛和有效使用所带来的潜在好处。为了应对这一挑战,我们推出了 codellm-devkit(以下简称“CLDK”),这是一个开源库,可显着简化针对不同编程语言以不同粒度级别执行程序分析的过程,以支持代码 LLM 用例。作为一个 Python 库,CLDK 为开发人员提供了直观且用户友好的界面,使得为编码 LLM 提供丰富的程序分析上下文变得异常容易。借助该库,开发人员可以轻松集成详细的、特定于代码的见解,从而提高大语言模型在编码任务中的操作效率和有效性。 CLDK 作为开源库提供,位于 https://github.com/IBM/codellm-devkit。

用于可扩展且准确的数据注释的 LLM 链集成

分类: 机器学习, 社交和信息网络

作者: David Farr, Nico Manzonelli, Iain Cruickshank, Kate Starbird, Jevin West

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.13006v1

摘要: 大型语言模型 (LLM) 执行零样本分类的能力使其成为快速发展领域中数据注释的可行解决方案,在这些领域中,高质量标记数据往往稀缺且获取成本高昂。然而,大规模部署大语言模型的成本可能高得令人望而却步。本文介绍了一种 LLM 链集成方法,该方法将多个 LLM 按顺序排列,根据分类不确定性将数据子集路由到后续模型。这种方法利用了更广泛系统中各个大语言模型的优势,允许每个模型处理具有最高置信度的数据点,同时将更复杂的案例转发给可能更稳健的模型。我们的结果表明,链集成方法通常超过链中最佳个体模型的性能,并实现大量成本节省,使 LLM 链集成成为应对大规模数据注释挑战的实用且高效的解决方案。

利用大语言模型对心理健康数据进行翻译和分类

分类: 计算和语言

作者: Konstantinos Skianis, A. Seza Doğruöz, John Pavlopoulos

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12985v1

摘要: 大型语言模型(LLM)越来越多地应用于医学领域。在心理健康支持方面,及早识别与心理健康状况相关的语言标记可以为心理健康专业人员提供宝贵的支持,并减少患者的漫长等待时间。尽管大语言模型对于心理健康支持有好处,但对其在英语以外语言的心理健康系统中的应用的研究有限。我们的研究通过从英语自动翻译的用户生成的帖子来重点检测希腊语中抑郁症的严重程度,从而解决了这一差距。我们的结果表明,GPT3.5-turbo 在识别英语中抑郁症的严重程度方面并不是很成功,并且在希腊语中也有不同的表现。我们的研究强调了进一步研究的必要性,特别是在资源较少的语言方面。此外,必须认真实施,以确保大语言模型在心理健康平台中得到有效使用,而人工监督对于避免误诊仍然至关重要。

通过组合指令调整促进 LLM 的多轮函数调用

分类: 计算和语言

作者: Mingyang Chen, Haoze Sun, Tianpeng Li, Fan Yang, Hao Liang, Keer Lu, Bin Cui, Wentao Zhang, Zenan Zhou, Weipeng Chen

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12952v1

摘要: 大型语言模型 (LLM) 在执行各种任务方面表现出了巨大的潜力,包括调用函数或使用外部工具来提高性能的能力。虽然目前大语言模型对函数调用的研究主要集中在单轮交互上,但本文解决了大语言模型参与多轮函数调用的被忽视的必要性——这对于处理组合的、现实世界的查询至关重要,这些查询需要使用函数进行规划,但不需要进行规划。只使用函数。为了实现这一点,我们引入了一种方法 BUTTON,它通过自下而上的指令构建和自上而下的轨迹生成来生成合成组合指令调整数据。在自下而上阶段,我们根据现实场景生成简单的原子任务,并使用基于原子任务的启发式策略构建组合任务。然后为这些组合任务开发相应的函数。自上而下阶段的特点是多代理环境,其中模拟人、助手和工具之间的交互用于收集多轮函数调用轨迹。这种方法确保了任务的组合性,并通过检查组合任务中的原子任务来允许有效的函数和轨迹生成。我们生成了一个包含 8k 数据点的数据集 BUTTONInstruct,并通过各种大语言模型的广泛实验证明了其有效性。

通过逐步修正增强大语言模型的数学推理能力

分类: 计算和语言

作者: Zhenyu Wu, Qingkai Zeng, Zhihan Zhang, Zhaoxuan Tan, Chao Shen, Meng Jiang

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12934v1

摘要: Best-of-N 解码方法指示大型语言模型 (LLM) 生成多个解决方案,使用评分函数对每个解决方案进行评分,并选择得分最高的作为数学推理问题的最终答案。然而,这种重复的独立过程常常会导致同样的错误,使得所选择的解决方案仍然不正确。我们提出了一种名为逐步校正(StepCo)的新颖提示方法,可以帮助大语言模型识别并修改其生成的推理路径中的错误步骤。它迭代使用流程监督验证程序的验证和修订阶段。验证然后修改过程不仅提高了答案的正确性,而且还减少了令牌消耗,需要生成的路径更少。通过 StepCo,一系列大语言模型展示了卓越的表现。值得注意的是,使用 GPT-4o 作为后端 LLM,StepCo 在 8 个数据集上实现了 94.1 的平均准确度,明显优于最先进的 Best-of-N 方法 +2.4,同时减少了 77.8% 的代币消耗。

解释大语言模型中的代币组成性:稳健性分析

分类: 计算和语言

作者: Nura Aljaafari, Danilo S. Carvalho, André Freitas

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12924v1

摘要: 了解大型语言模型 (LLM) 的内部机制对于增强其可靠性、可解释性和推理过程至关重要。我们提出了成分感知池(CAP),这是一种旨在分析大语言模型如何处理组合语言结构的方法。基于组合性、机械可解释性和信息增益理论的原理,CAP 通过在各个模型级别上基于成分的池化系统地干预模型激活。我们对逆定义建模、上位词和同义词预测的实验揭示了对 Transformer 在处理组合抽象方面的局限性的重要见解。没有特定的层根据令牌的组成部分将令牌集成到统一的语义表示中。我们观察到碎片化的信息处理,随着模型大小的增加而加剧,这表明较大的模型与这些干预措施的斗争更加困难,并且表现出更大的信息分散。这种碎片化可能源于变形金刚的训练目标和架构设计,阻碍了系统性和连贯性的表示。我们的研究结果强调了当前变压器架构在组合语义处理和模型可解释性方面的基本局限性,强调了大语言模型设计中迫切需要新方法来应对这些挑战。

JudgeBench:评估大语言模型法官的基准

分类: 人工智能, 计算和语言, 机器学习

作者: Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12784v1

摘要: 基于大语言模型的法官已成为人类评估的可扩展替代方案,并越来越多地用于评估、比较和改进模型。然而,大语言模型法官本身的可靠性却很少受到审查。随着大语言模型变得更加先进,他们的回答也变得更加复杂,需要更强大的法官来评估他们。现有的基准主要关注法官与人类偏好的一致性,但往往无法考虑更具挑战性的任务,在这些任务中,众包的人类偏好并不能很好地表明事实和逻辑的正确性。为了解决这个问题,我们提出了一个新颖的评估框架来客观地评估大语言模型法官。基于这个框架,我们提出了 JudgeBench,这是一个基准,用于评估基于大语言模型的法官对跨越知识、推理、数学和编码的挑战性反应对的评估。 JudgeBench 利用一种新颖的管道将现有的困难数据集转换为具有挑战性的响应对,并带有反映客观正确性的偏好标签。我们对一系列提示法官、微调法官、多智能体法官和奖励模型的综合评估表明,JudgeBench 比之前的基准测试提出了更大的挑战,许多强大的模型(例如 GPT-4o)的表现仅稍好一些比随机猜测。总体而言,JudgeBench 为评估日益先进的大语言模型法官提供了一个可靠的平台。数据和代码可在 https://github.com/ScalerLab/JudgeBench 获取。

情境学习支持大语言模型中的机器人动作预测

分类: 机器人技术, 计算和语言

作者: Yida Yin, Zekai Wang, Yuvan Sharma, Dantong Niu, Trevor Darrell, Roei Herzig

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12782v1

摘要: 最近,大型语言模型(LLM)在语言领域使用上下文学习(ICL)取得了显着的成功。然而,利用大语言模型内的 ICL 功能来直接预测机器人动作在很大程度上仍未得到探索。在本文中,我们介绍了 RoboPrompt,这是一个框架,使现成的纯文本大语言模型无需训练即可通过 ICL 直接预测机器人动作。我们的方法首先启发式地识别捕获剧集中重要时刻的关键帧。接下来,我们从这些关键帧中提取末端执行器动作以及估计的初始物体姿势,并将两者转换为文本描述。最后,我们构建一个结构化模板,根据这些文本描述和任务指令形成 ICL 演示。这使得大语言模型能够在测试时直接预测机器人的动作。通过大量的实验和分析,RoboPrompt 在模拟和现实环境中显示出比零样本和 ICL 基线更强的性能。

FusionLLM:采用自适应压缩的地理分布式 GPU 上的去中心化 LLM 训练系统

分类: 分布式、并行和集群计算, 人工智能, 机器学习

作者: Zhenheng Tang, Xueze Kang, Yiming Yin, Xinglin Pan, Yuxin Wang, Xin He, Qiang Wang, Rongfei Zeng, Kaiyong Zhao, Shaohuai Shi, Amelie Chi Zhou, Bo Li, Bingsheng He, Xiaowen Chu

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12707v1

摘要: 为了缓解训练大型深度神经网络 (DNN),特别是大型语言模型 (LLM) 时的硬件短缺问题,我们推出了 FusionLLM,这是一种分散式训练系统,旨在使用跨不同计算集群或单个设备的地理分布式 GPU 来训练 DNN。去中心化训练面临着系统设计和效率方面的重大挑战,包括:1)远程自动微分(RAD)的需求,2)支持灵活的模型定义和异构软件,3)异构硬件导致资源利用率低或落后问题, 4)网络通信速度慢。为了应对这些挑战,在系统设计中,我们将模型表示为有向无环算子图(OP-DAG)。 DAG 中的每个节点代表 DNN 中的算子,而边代表算子之间的数据依赖关系。基于这种设计,1)用户可以定制任何DNN,而无需关心底层算子的实现; 2)我们使任务调度具有更细粒度的子任务,提供更多的优化空间; 3) DAG 运行时执行器可以实现 RAD,而不需要一致的低级 ML 框架版本。为了提高系统效率,我们实现了工作负载估计器并设计了 OP-Fence 调度程序,将具有相似带宽的设备聚集在一起,并对 DAG 进行分区以提高吞吐量。此外,我们提出了一个 AdaTopK 压缩器来自适应地压缩最慢通信链路上的中间激活和梯度。为了评估我们的系统和算法的收敛性和效率,我们使用与 8 Mbps~10 Gbps 网络连接的 48 个 GPU 在三个实际测试台上训练 ResNet-101 和 GPT-2。实验结果表明,与基线方法相比,我们的系统和方法可以实现 1.45 - 9.39 倍的加速,同时确保收敛。

CCSBench:评估大语言模型中科学文献摘要的成分可控性

分类: 计算和语言

作者: Yixi Ding, Jiaying Wu, Tongyao Zhu, Yanxia Qin, Qian Liu, Min-Yen Kan

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12601v1

摘要: 为了扩大科学知识向不同受众的传播,科学文献摘要必须同时控制多个属性,例如长度和实证焦点。然而,现有的研究通常侧重于控制单个属性,而对多个属性的组合控制尚未进行充分探索。为了解决这一差距,我们引入了 CCSBench,它是科学领域成分可控摘要的基准。我们的基准可以对客观且直接的显性属性(例如长度)和更加主观和概念性的隐性属性(例如经验焦点)进行细粒度控制。我们在各种设置下对 GPT-4、LLaMA2 和其他流行的 LLM 进行了广泛的实验。我们的研究结果揭示了大型语言模型平衡控制属性之间权衡的能力存在显着局限性,尤其是需要更深入理解和抽象推理的隐式属性。

论大语言模型时代恶意社交文本检测的证据污染风险

分类: 计算和语言

作者: Herun Wan, Minnan Luo, Zhixiong Su, Guang Dai, Xiang Zhao

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12600v1

摘要: 证据增强型检测器在识别带有相关证据的恶意社交文本方面表现出卓越的能力。然而,大型语言模型(LLM)的兴起带来了证据污染的潜在风险,使检测器感到困惑。本文探讨了大语言模型如何操纵证据、模拟潜在的滥用场景(包括基本污染)以及重新措辞或生成证据。为了减轻其负面影响,我们从数据和模型方面提出了三种防御策略,包括机器生成的文本检测、专家混合和参数更新。对十个数据集的四个恶意社交文本检测任务进行的广泛实验表明,证据污染,尤其是生成策略,会严重损害现有检测器。另一方面,防御策略可以减轻证据污染,但在实际应用中面临着限制,例如需要注释数据和巨大的推理成本。进一步的分析表明,受污染的证据质量很高,会损害模型校准,并可能会放大负面影响。

STRUX:通过结构化解释进行决策的大语言模型

分类: 计算和语言, 人工智能

作者: Yiming Lu, Yebowen Hu, Hassan Foroosh, Wei Jin, Fei Liu

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12583v1

摘要: 无数的决定塑造着我们的日常生活,了解这些选择背后的方式和原因至关重要。在本文中,我们介绍了一种名为 STRUX 的新 LLM 决策框架,该框架通过提供结构化解释来增强 LLM 决策。其中包括与决策相关的有利和不利的事实以及各自的优势。 STRUX 首先将冗长的信息提炼成一个简明的关键事实表。然后,它采用一系列自我反思步骤来确定哪些事实是关键的,并将它们分类为与特定决策相关的有利或不利。最后,我们对大语言模型进行微调,以识别和优先考虑这些关键事实,以优化决策。 STRUX 已根据财报电话会议记录预测股票投资决策这一具有挑战性的任务进行了评估,并在强大的基线下展示了卓越的性能。它通过让用户了解不同因素的影响来提高决策透明度,代表大语言模型朝着实际决策迈出了有意义的一步。

具有大语言模型驱动的数据合成和自动驾驶政策适应的鲁棒强化学习

分类: 机器人技术, 人工智能

作者: Sihao Wu, Jiaxu Liu, Xiangyu Yin, Guangliang Cheng, Meng Fang, Xingyu Zhao, Xinping Yi, Xiaowei Huang

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12568v1

摘要: 将大型语言模型(LLM)集成到自动驾驶系统中表现出强大的常识和推理能力,有效解决了纯数据驱动方法的缺陷。当前基于 LLM 的代理需要很长的推理时间,并且在与实时自动驾驶环境交互时面临挑战。一个关键的悬而未决的问题是我们是否可以有效地利用大语言模型的知识来训练高效且强大的强化学习(RL)代理。本文介绍了 RAPID,一种新颖的 \underline{\textbf{R}}obust \underline{\textbf{A}}daptive \underline{\textbf{P}}olicy \underline{\textbf{I}}nfusion 和 \underline {\textbf{D}}蒸馏框架,使用基于 LLM 的驱动代理和在线适应合成的数据来训练专门的混合策略 RL 代理。 RAPID 具有三个关键设计:1)利用从 LLM 代理收集的离线数据将专家知识提炼为 RL 策略,以实现更快的实时推理; 2)在强化学习中引入鲁棒蒸馏,继承LLM老师的性能和鲁棒性; 3)采用策略混合方法与策略适配器进行联合决策解码。通过在线环境交互进行微调,RAPID减少了LLM知识的遗忘,同时保持了对不同任务的适应性。大量实验证明 RAPID 能够以高效、适应性强且稳健的方式将 LLM 知识有效地整合到规模缩小的 RL 策略中。代码和检查点将在接受后公开。

基于大语言模型的翻译推理与迭代双语理解

分类: 计算和语言, 人工智能

作者: Andong Chen, Kehai Chen, Yang Xiang, Xuefeng Bai, Muyun Yang, Tiejun Zhao, Min zhang

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12543v2

摘要: 大型语言模型(LLM)卓越的理解和生成能力极大地提高了翻译性能。然而,对要翻译的句子的不正确理解会降低翻译质量。为了解决这个问题,我们基于大语言模型的跨语言能力和翻译任务的双重特征,提出了一种新颖的迭代双语理解翻译(IBUT)方法。大语言模型的跨语言能力可以分别生成源语言和目标语言的上下文理解。此外,双重特性使 IBUT 能够生成有效的跨语言反馈,迭代地完善上下文理解,从而减少错误并提高翻译性能。实验结果表明,所提出的 IBUT 优于几种强大的比较方法,特别是推广到多个领域(例如新闻、常识和文化翻译基准)。

MedAide:通过基于大语言模型的专业多代理协作迈向全方位医疗助手

分类: 计算和语言

作者: Jinjie Wei, Dingkang Yang, Yanshu Li, Qingyao Xu, Zhaoyu Chen, Mingcheng Li, Yue Jiang, Xiaolu Hou, Lihua Zhang

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12532v2

摘要: 大语言模型(LLM)驱动的交互系统目前在医疗保健领域显示出潜在的前景。尽管大语言模型拥有卓越的能力,但它们通常在复杂的医疗应用中缺乏个性化的建议和诊断分析,从而导致幻觉和性能瓶颈。为了应对这些挑战,本文提出了 MedAide,一种基于大语言模型的全医疗多智能体协作框架,用于专业医疗保健服务。具体来说,MedAide 首先通过检索增强生成进行查询重写,以实现准确的医疗意图理解。我们立即设计了一个上下文编码器来获取意图原型嵌入,用于通过相似性匹配来识别细粒度意图。根据意图相关性,激活的代理有效协作以提供集成的决策分析。对四个具有综合目的的医学基准进行了广泛的实验。自动化指标和专家医生评估的实验结果表明,MedAide 的表现优于当前的大语言模型,并提高了他们的医疗熟练程度和战略推理能力。

RosePO:使基于 LLM 的推荐系统与人类价值观保持一致

分类: 信息检索

作者: Jiayi Liao, Xiangnan He, Ruobing Xie, Jiancan Wu, Yancheng Yuan, Xingwu Sun, Zhanhui Kang, Xiang Wang

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12519v1

摘要: 最近,人们对利用大型语言模型(LLM)用于推荐系统越来越感兴趣,通常通过监督微调(SFT)使预先训练的 LLM 适应推荐场景。然而,预训练和 SFT 阶段都未能明确建模用户对不同项目的偏好的比较关系。为了构建一个“有益无害”的基于LLM的推荐器,我们提出了一个通用框架——带有平滑个性化偏好优化的推荐(RosePO),它在训练后阶段更好地符合定制的人类价值观。具体来说,除了与 SFT 数据自然一致的输入和选择的响应之外,我们还设计了一种专门用于增强有用性的拒绝抽样策略,以及旨在减轻偏见以促进无害性的两种策略。为了确保针对自动构建的偏好数据中存在的不确定标签的鲁棒性,我们将偏好预言机预测的个性化平滑因子引入到优化目标中。对三个现实世界数据集的评估证明了我们方法的有效性,不仅展示了推荐性能的提高,而且还减轻了语义幻觉和流行偏差。

持保留态度:大语言模型在社会层面上是否公平?

分类: 计算和语言

作者: Samee Arif, Zohaib Khan, Agha Ali Raza, Awais Athar

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12499v1

摘要: 本文对开源大型语言模型 (LLM) 中不同性别、宗教和种族的偏见进行了分析。我们介绍了一种使用七个偏见触发器生成偏见检测数据集的方法:一般性辩论、定位辩论、职业建议、故事生成、问题解决、求职信写作和简历生成。我们使用 GPT-4o 为不同性别、宗教和种族群体的每个触发器生成一组不同的提示。我们在生成的数据集上评估 Llama 和 Gemma 家族的模型。我们使用 GPT-4o-mini 对与每个组相关的 LLM 生成的文本进行匿名化,并使用 GPT-4o-as-a-Judge 进行成对比较。为了量化大语言模型生成的文本中的偏差,我们在成对比较中使用获胜和失败的数量。我们的分析涵盖英语、德语和阿拉伯语三种语言,以探讨语言如何影响偏见的表现。我们的研究结果表明,大语言模型对每个类别中的某些群体表现出强烈的两极分化,并且在不同模型中观察到了显着的一致性。然而,当转换语言时,会出现变化和异常,这通常归因于文化线索和语境差异。

逆向洞察:通过逆向 RL 重建 LLM 培训目标

分类: 计算和语言

作者: Jared Joselowitz, Arjun Jagota, Satyapriya Krishna, Sonali Parbhoo

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12491v1

摘要: 通过人类反馈强化学习 (RLHF) 训练的大型语言模型 (LLM) 已展现出非凡的能力,但其潜在的奖励函数和决策过程仍然不透明。本文介绍了一种解释大语言模型的新方法,通过应用逆强化学习(IRL)来恢复其隐式奖励函数。我们对不同规模的毒性相关大语言模型进行了实验,提取了在预测人类偏好方面准确率高达 80.40% 的奖励模型。我们的分析揭示了对奖励函数的不可识别性、模型大小和可解释性之间的关系以及 RLHF 过程中的潜在陷阱的关键见解。我们证明,IRL 派生的奖励模型可用于微调新的 LLM,从而在毒性基准上获得可比较或改进的性能。这项工作为理解和改进大语言模型的一致性提供了一个新的视角,对这些强大系统的负责任的开发和部署具有影响。

SAC-GLAM:通过 Soft Actor-Critic 和事后重新标记改进 LLM 代理的在线强化学习

分类: 机器学习, 人工智能

作者: Loris Gaven, Clement Romac, Thomas Carta, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12481v1

摘要: 在过去的几年里,大型语言模型(LLM)不仅作为生成模型而努力,而且还作为解决文本顺序决策任务的代理。当面对零样本能力不足的复杂环境时,最近的研究表明,在线强化学习(RL)可以让LLM代理以交互方式发现和学习有效的策略。然而,大多数先前的工作都坚持在策略算法,这极大地缩小了此类代理可用于探索和利用的方法的范围,例如经验重放和事后重新标记。然而,这样的方法可能是 LLM 学习智能体的关键,特别是在设计自主的内在动机智能体采样和追求自己的目标(即自动智能体)时。本文提出并研究了 Soft Actor-Critic 和事后重新标记对 LLM 代理的适应。我们的方法不仅为在线学习的自动 LLM 代理铺平了道路,而且还可以在更经典的多目标 RL 环境中优于策略方法。

KcMF:一种用于模式和实体匹配的知识兼容框架,具有免微调大语言模型

分类: 计算和语言, 人工智能, 数据库, 机器学习

作者: Yongqin Xu, Huan Li, Ke Chen, Lidan Shou

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12480v1

摘要: 模式和实体匹配任务对于数据集成和管理至关重要。虽然大型语言模型(LLM)在这些任务中显示出了有希望的结果,但它们对任务指令产生了幻觉和困惑。在本文中,我们提出了知识兼容匹配框架(KcMF),这是一种基于大语言模型的方法,可以解决这些问题,而无需进行特定领域的微调。 KcMF 采用基于伪代码的任务分解策略,采用特定于任务的自然语言语句来指导 LLM 推理并减少混乱。我们还提出了两种机制:数据集作为知识(DaK)和示例作为知识(EaK),用于在缺乏非结构化领域知识时构建领域知识集。此外,我们引入了结果集成策略来利用多个知识源并抑制格式不良的输出。对模式和实体匹配任务的综合评估表明,KcMF 的平均 F1 分数为 22.9%,优于之前的非 LLM 最先进 (SOTA) 方法,并且可以与 SOTA 微调的 LLM 有效竞争。此外,KcMF 可以很好地推广不同的大语言模型。

Aegis:基于LLM的先进多智能体智能功能安全工程

分类: 多代理系统

作者: Lu Shi, Bin Qi, Jiarui Luo, Yang Zhang, Zhanzhao Liang, Zhaowei Gao, Wenke Deng, Lin Sun

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12475v2

摘要: 功能安全是汽车工程的一个重要方面,涵盖车辆生命周期的所有阶段,包括设计、开发、生产、运营和退役。该领域涉及知识高度密集的任务。本文介绍了 Aegis:一种基于 LLM 的高级智能功能安全工程多代理。 Aegis 专为支持汽车行业复杂的功能安全任务而设计。它专为执行危险分析和风险评估 (HARA)、记录功能安全要求 (FSR) 以及规划自动紧急制动 (AEB) 系统的测试用例而量身定制。最先进的版本 Aegis-Max 利用检索增强生成 (RAG) 和反射机制来增强其管理复杂、知识密集型任务的能力。此外,专业功能安全从业人员有针对性的及时改进可以显着优化神盾在功能安全领域的表现。本文展示了 Aegis 在提高汽车工程功能安全流程的效率和有效性方面的潜力。

学习使用大语言模型生成的标签来预测产品评论的使用选项

分类: 计算和语言

作者: Leo Kohlenberg, Leonard Horns, Frederic Sadrieh, Nils Kiele, Matthis Clausen, Konstantin Ketterer, Avetis Navasardyan, Tamara Czinczoll, Gerard de Melo, Ralf Herbrich

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12470v1

摘要: 注释大型数据集可能具有挑战性。然而,众包通常成本高昂且质量较差,尤其是对于重要的任务。我们提出了一种使用大语言模型作为小样本学习器的方法,用于在复杂的自然语言任务中注释数据,其中我们学习一个独立的模型来根据客户评论预测产品的使用选项。我们还针对此场景提出了一种新的评估指标 HAMS4,可用于将一组字符串与多个参考集进行比较。与直接使用 LLM 进行序列到序列任务相比,学习自定义模型可以对能源效率和隐私措施进行单独控制。我们将这种数据注释方法与其他传统方法进行比较,并演示大语言模型如何能够显着节省成本。我们发现生成的数据质量超过了第三方供应商服务所达到的水平,GPT-4 生成的标签甚至达到了领域专家的水平。我们公开提供代码和生成的标签。

通过事实主观意识推理提高 LLM 交易绩效

分类: 多代理系统

作者: Qian Wang, Yuchen Gao, Zhenheng Tang, Bingqiao Luo, Bingsheng He

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12464v2

摘要: 虽然许多研究证明更高级的大语言模型在数学和编码等任务上表现更好,但我们注意到在加密货币交易中,较强的大语言模型通常比较弱的大语言模型表现更差。为了研究这种反直觉现象是如何发生的,我们研究了大语言模型在做出交易决策时的推理过程。我们发现,将推理过程分为事实部分和主观部分可以带来更高的利润。基于这一见解,我们引入了一个多代理框架 FS-ReasoningAgent,它使大语言模型能够识别事实和主观推理并从中学习。大量实验表明,该框架增强了 LLM 在加密货币市场中的交易性能。此外,消融研究表明,依赖主观新闻往往会在牛市中产生更高的回报,而关注事实信息在熊市中会产生更好的结果。我们的代码和数据可在 \url{https://anonymous.4open.science/r/FS-ReasoningAgent-B55F/} 获取。

开放式 Ko-LLM 排行榜2:连接韩国 LLM 的基础和实践评估

分类: 计算和语言, 人工智能

作者: Hyeonwoo Kim, Dahyun Kim, Jihoo Kim, Sukyung Lee, Yungi Kim, Chanjun Park

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12445v1

摘要: Open Ko-LLM 排行榜在韩国大语言模型 (LLM) 基准测试方面发挥了重要作用,但它也有一定的局限性。值得注意的是,过度学术化的排行榜基准的定量改进与模型的定性影响之间的脱节应该得到解决。此外,基准套件主要由英文版本的翻译版本组成,可能无法完全捕捉韩语的复杂性。为了解决这些问题,我们提出了 Open Ko-LLM Leaderboard2,这是早期 Open Ko-LLM Leaderboard 的改进版本。原来的基准完全被更贴近现实世界能力的新任务所取代。此外,还引入了四个新的韩语本土基准,以更好地反映韩语的独特特征。通过这些改进,Open Ko-LLM Leaderboard2 旨在为推进韩国 LLM 提供更有意义的评估。

ProSA:评估和理解大语言模型的即时敏感性

分类: 计算和语言

作者: Jingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12405v1

摘要: 大型语言模型 (LLM) 在各种任务中展示了令人印象深刻的功能,但它们的性能对所使用的提示高度敏感。这种变化给准确评估和用户满意度带来了挑战。当前的研究经常忽视实例级提示变化及其对主观评估的影响。为了解决这些缺点,我们引入了 ProSA,这是一个旨在评估和理解大语言模型即时敏感性的框架。 ProSA 结合了一种新颖的灵敏度指标 PromptSensiScore,并利用解码置信度来阐明潜在机制。我们跨多个任务的广泛研究发现,提示敏感性在数据集和模型之间存在波动,较大的模型表现出增强的稳健性。我们观察到,少数样本可以缓解这种敏感性问题,并且主观评估也容易受到即时敏感性的影响,特别是在复杂的、面向推理的任务中。此外,我们的研究结果表明,较高的模型置信度与增强的即时鲁棒性相关。我们相信这项工作将成为研究大语言模型即时敏感性的有用工具。该项目发布于:https://github.com/open-compass/ProSA。

主动代理:将 LLM 代理从被动响应转变为主动协助

分类: 人工智能, 计算和语言, I.2.7

作者: Yaxi Lu, Shenzhi Yang, Cheng Qian, Guirong Chen, Qinyu Luo, Yesai Wu, Huadong Wang, Xin Cong, Zhong Zhang, Yankai Lin, Weiwen Liu, Yasheng Wang, Zhiyuan Liu, Fangming Liu, Maosong Sun

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12361v1

摘要: 由大型语言模型驱动的智能体在解决复杂任务方面表现出了非凡的能力。然而,大多数代理系统仍然是被动的,限制了它们在需要远见和自主决策的场景中的有效性。在本文中,我们解决了开发主动代理的挑战,该代理能够在没有明确的人类指令的情况下预测和启动任务。我们针对这个问题提出了一种新颖的数据驱动方法。首先,我们收集现实世界的人类活动以生成主动的任务预测。然后,人类注释者将这些预测标记为接受或拒绝。标记数据用于训练模拟人类判断的奖励模型,并作为 LLM 代理主动性的自动评估器。在此基础上,我们开发了一个全面的数据生成管道来创建一个多样化的数据集 ProactiveBench,其中包含 6,790 个事件。最后,我们证明使用所提出的 ProactiveBench 微调模型可以显着激发 LLM 代理的主动性。实验结果表明,我们的微调模型在主动提供帮助方面达到了 66.47% 的 F1-Score,优于所有开源和闭源模型。这些结果凸显了我们的方法在创建更主动、更有效的代理系统方面的潜力,为人类与代理协作的未来进步铺平了道路。

了解大语言模型在多模式评估基准中的作用

分类: 计算和语言, 人工智能

作者: Botian Jiang, Lei Li, Xiaonan Li, Zhaowei Li, Xiachong Feng, Lingpeng Kong, Qi Liu, Xipeng Qiu

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12329v1

摘要: 多模态大型语言模型(MLLM)的快速发展伴随着各种评估其能力的基准的开发。然而,这些评估的真实性质以及它们评估多模态推理与仅仅利用底层大语言模型 (LLM) 主干的程度仍不清楚。本文对LLM骨干在MLLM评估中的作用进行了全面调查,重点关注两个关键方面:当前基准真正评估多模态推理的程度以及LLM先验知识对性能的影响。具体来说,我们引入了一种修改后的评估协议,以将大语言模型骨干的贡献与多模态集成分开,以及一种自动知识识别技术,用于诊断大语言模型是否具备相应多模态问题的必要知识。我们的研究涵盖四个不同的 MLLM 基准和八个最先进的 MLLM。主要发现表明,即使没有视觉输入,一些基准测试也能实现高性能,并且高达 50% 的错误率可归因于 LLM 主干中的世界知识不足,这表明对语言能力的严重依赖。为了解决知识缺陷,我们提出了一种知识增强管道,该管道可实现显着的性能提升,在某些数据集上提高高达 60%,从而使性能提高约 4 倍。我们的工作提供了关于大语言模型骨干在 MLLM 中的作用的重要见解,并强调需要更细致的基准测试方法。

UTF:训练不足的令牌作为指纹 LLM 识别的新方法

分类: 密码学和安全, 人工智能

作者: Jiacheng Cai, Jiahao Yu, Yangguang Shao, Yuhang Wu, Xinyu Xing

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12318v1

摘要: 对大语言模型 (LLM) 进行指纹识别对于验证模型所有权、确保真实性和防止滥用至关重要。传统的指纹识别方法通常需要大量的计算开销或白盒验证访问。在本文中,我们介绍了 UTF,这是一种利用训练不足的令牌对 LLM 进行指纹识别的新颖且有效的方法。训练不足的标记是模型在训练阶段尚未完全学习的标记。通过利用这些标记,我们进行监督微调,将特定的输入输出对嵌入到模型中。这个过程允许大语言模型在提供某些输入时产生预定的输出,从而有效地嵌入唯一的指纹。我们的方法对模型性能的开销和影响最小,并且不需要白盒访问目标模型的所有权标识。与现有的指纹识别方法相比,UTF 对于微调和随机猜测也更加有效和鲁棒。

通过动态引导向量对大语言模型进行语义自适应激活干预

分类: 计算和语言

作者: Weixuan Wang, Jingyuan Yang, Wei Peng

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12299v1

摘要: 大型语言模型 (LLM) 在许多任务中取得了卓越的性能,但将它们与所需的行为保持一致仍然具有挑战性。激活干预已成为改变大语言模型行为的有效且经济的方法。尽管人们对该领域相当感兴趣,但当前的干预方法仅采用固定的引导向量来修改模型激活,缺乏对不同输入语义的适应性。为了解决这个限制,我们提出了语义自适应动态干预(SADI),这是一种构造动态引导向量以在推理时干预模型激活的新方法。更具体地说,SADI 利用对比对中的激活差异来精确识别 LLM 的关键要素(即注意力头、隐藏状态和神经元),以进行有针对性的干预。在推理过程中,SADI 通过根据输入语义的方向缩放元素级激活来动态引导模型行为。实验结果表明,SADI 大幅优于既定基线,无需训练即可提高任务绩效。 SADI 在各种 LLM 主干和任务中的成本效益和通用性凸显了其作为多功能对齐技术的潜力。此外,我们还发布了代码来促进这方面的研究:https://github.com/weixuan-wang123/SADI。

基于大语言模型的误解学生认知模型

分类: 人机交互, 计算和语言, 计算机与社会, 机器学习

作者: Shashank Sonkar, Xinghe Chen, Naiming Liu, Richard G. Baraniuk, Mrinmaya Sachan

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12294v2

摘要: 准确地建模学生认知对于开发有效的人工智能驱动的教育技术至关重要。一个关键的挑战是创建现实的学生模型,满足两个基本属性:(1)准确地复制特定的误解,以及(2)正确解决这些误解不适用的问题。这种双重要求反映了学生理解的复杂性,其中错误观念与正确知识并存。本文研究了是否可以对大型语言模型(LLM)进行指令调整以满足这种双重要求并有效地模拟学生的代数思维。我们介绍 MalAlgoPy,这是一个新颖的 Python 库,它通过基于图形的代数问题解决表示来生成反映真实学生解决方案模式的数据集。利用 MalAlgoPy,我们定义并检查认知学生模型 (CSM) - 大语言模型的教学经过调整,可以忠实地模拟现实的学生行为。我们的研究结果表明,受过误解示例训练的大语言模型可以有效地学习复制错误。然而,训练削弱了模型正确解决问题的能力,特别是对于错误概念不适用的问题类型,从而无法满足 CSM 的第二个属性。我们证明,通过仔细校准训练数据中正确与错误概念示例的比率(有时低至 0.25),可以开发满足这两个属性的 CSM。我们的见解增强了我们对基于人工智能的学生模型的理解,并为有效的自适应学习系统铺平了道路。

通过可能性和通过率优先的经验回放来增强 LLM 代理的代码生成能力

分类: 机器学习, 人工智能

作者: Yuyang Chen, Kaiyan Zhao, Yiming Wang, Ming Yang, Jian Zhang, Xiaoguang Niu

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12236v1

摘要: 如今,用于代码生成任务的基于变压器的大型语言模型(LLM)通常应用采样和过滤管道。由于单标记错误导致代码生成任务中奖励稀疏的问题,基于 Transformer 的模型会对冗余程序进行采样,直到找到正确的程序,从而导致效率低下。为了克服这一挑战,我们在微调阶段结合了经验回放(ER),其中存储并回放生成的代码和程序,让LLM代理有机会从过去的经验中学习。基于ER的精神,我们引入了一种称为BTP管道的新颖方法,该方法由三个阶段组成:波束搜索采样、测试阶段和优先经验回放阶段。该方法利用代码模型收集的失败程序,并从重放缓冲区中重放具有高可能性和通过率优先值(P2Value)的程序,以提高效率。 P2Value综合考虑了变压器输出的可能性和通过率,可以利用LLM收集的大部分程序无法通过测试而造成的冗余资源。我们根据经验将我们的方法应用于几个大语言模型,证明它提高了他们在代码生成任务中的性能并超越了现有的基线。

Divide-Verify-Refine:将 LLM 响应与复杂指令结合起来

分类: 人工智能, 机器学习

作者: Xianren Zhang, Xianfeng Tang, Hui Liu, Zongyu Wu, Qi He, Dongwon Lee, Suhang Wang

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12207v1

摘要: 最近的研究表明,大语言模型,尤其是开源模型,很难遵循具有多重约束的复杂指令。尽管很重要,但提高大语言模型遵守这些限制的方法仍未探索,当前的研究重点是评估这种能力而不是开发解决方案。虽然一些研究通过模型调整来增强约束遵守,但这种方法的计算成本很高,并且严重依赖训练数据质量。另一种方法是利用大语言模型的自我纠正能力,使他们能够调整响应以更好地满足指定的约束。然而,大语言模型的这种自我纠正能力受到反馈质量的限制,因为大语言模型无法自主生成可靠的反馈或检测错误。此外,自我完善过程在很大程度上依赖于少数样本,这些样本说明了如何修改响应以满足约束。由于复杂指令中的约束是多种多样的并且变化很大,因此为每种约束类型手动制作少量样本可能是劳动密集型的并且不是最佳的。为了应对这两个挑战,我们提出了划分-验证-细化(DVR)框架,分三个步骤:(1)将复杂指令划分为单个约束并准备适当的工具; (2)验证:针对反馈质量问题,这些工具将严格验证响应并提供可靠的反馈; (3)精炼:为了解决约束多样性的挑战,我们设计了一个精炼存储库,收集成功的精炼过程,并将它们用作未来案例的小样本演示,使大语言模型能够在推理过程中从过去的经验中学习。此外,我们开发了一个新的复杂指令数据集,每个数据集包含 1-6 个约束。实验表明,该框架显着提高了性能,使 LLama3.1-8B 对具有 6 个约束的指令的约束遵守率提高了一倍。

DAQ:大语言模型的密度感知训练后仅重量量化

分类: 机器学习, 人工智能

作者: Yingsong Luo, Ling Chen

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12187v2

摘要: 大型语言模型 (LLM) 在各种任务中表现出色,但由于硬件限制而面临部署挑战。我们提出了密度感知的训练后仅权重量化(DAQ),它有两个阶段:1)以密度为中心的对齐,它识别高密度权重的中心,并将动态范围集中在该点上以对齐高密度权重。具有浮点高精度区域的权重区域; 2)可学习的动态范围调整,根据权重对模型输出的影响,通过优化量化参数(即比例和零点)来调整动态范围。 LLaMA 和 LLaMA-2 上的实验表明,DAQ 始终优于最佳基线方法,在 LLaMA 上平均降低了 22.8%,在 LLaMA-2 上平均降低了 19.6%。我们的代码可在 https://github.com/LuoYingSong/DAQ 获取。

COMET:面向部分 W4A4KV4 大语言模型服务

分类: 硬件架构, 机器学习

作者: Lian Liu, Haimeng Ren, Long Cheng, Zhaohui Xu, Yudong Pan, Mengdi Wang, Xiaowei Li, Yinhe Han, Ying Wang

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12168v1

摘要: 量化是一种广泛使用的压缩技术,可减少在终端设备和云数据中心提供大型语言模型 (LLM) 的开销。然而,由于对低精度(例如,4 位)激活的支持较差,流行的量化方法(例如 8 位权重激活或 4 位仅权重量化)实现的性能改进有限。这项工作首次实现了为LLM服务的实用W4A4KV4,充分利用了现代GPU上的INT4张量核心,减少了KV缓存带来的内存瓶颈。具体来说,我们提出了一种新颖的细粒度混合精度量化算法(FMPQ),它将大多数激活压缩为 4 位,精度损失可以忽略不计。为了支持 W4A4 和 W4A8 的混合精度矩阵乘法,我们开发了高度优化的 W4Ax 内核。我们的方法引入了一种新颖的混合精度数据布局,以促进激活和权重张量的访问和快速反量化,利用 GPU 的软件管道隐藏数据加载和转换的开销。此外,我们提出细粒度的流式多处理器(SM)调度来实现不同SM之间的负载平衡。我们将优化的 W4Ax 内核集成到我们的推理框架 COMET 中,并提供高效的管理来支持流行的 LLM,例如 LLaMA-3-70B。广泛的评估表明,当在单个 A100-80G-SMX4 上运行 LLaMA 系列模型时,COMET 比 cuBLAS 实现了 \textbf{$2.88\times$} 的内核级加速,并且相比之下,吞吐量提高了 \textbf{$2.02 \times$}从端到端框架的角度到 TensorRT-LLM。

利用大语言模型的推理能力来推断法律信息检索中的隐含概念

分类: 计算和语言, 人工智能

作者: Hai-Long Nguyen, Tan-Minh Nguyen, Duc-Minh Nguyen, Thi-Hai-Yen Vuong, Ha-Thanh Nguyen, Xuan-Hieu Phan

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12154v1

摘要: 成文法检索是法律语言处理中的一个典型问题,在法律工程中有多种实际应用。现代基于深度学习的检索方法已经针对这个问题取得了显着的成果。然而,依赖于语义和词汇相关性的检索系统通常表现出局限性,特别是在处理涉及现实生活场景的查询或使用不特定于法律领域的词汇时。在这项工作中,我们致力于通过利用大型语言模型(LLM)的逻辑推理能力来识别与查询中提到的情况相关的相关法律术语和事实来克服这一弱点。所提出的检索系统集成了来自基于术语的扩展和查询重构的附加信息,以提高检索准确性。在 COLIEE 2022 和 COLIEE 2023 数据集上的实验表明,大语言模型的额外知识有助于提高词汇和语义排名模型的检索结果。最终的集成检索系统超越了 COLIEE 2022 和 2023 比赛中所有参赛队伍中的最高成绩。

思想层提示 (LoT):利用基于 LLM 的检索和约束层次结构

分类: 计算和语言, 人工智能

作者: Wachara Fungwacharakorn, Nguyen Ha Thanh, May Myo Zin, Ken Satoh

发布时间: 2024-10-16

链接: http://arxiv.org/abs/2410.12153v1

摘要: 本文提出了一种称为“思维层提示”(LoT) 的新颖方法,该方法利用约束层次结构来过滤和细化对给定查询的候选响应。通过集成这些约束,我们的方法实现了结构化检索过程,从而增强了可解释性和自动化。现有方法探索了各种提示技术,但往往呈现过于笼统的框架,而没有深入研究多轮交互中提示的细微差别。我们的工作通过关注提示之间的层次关系来解决这一差距。我们证明,思维层次的有效性在开发高效且可解释的检索算法中起着至关重要的作用。利用大型语言模型 (LLM),LoT 显着提高了信息检索任务的准确性和可理解性。

严谨地规划任何事情:基于 LLM 的形式化编程的通用零样本规划

分类: 人工智能, 计算和语言

作者: Yilun Hao, Yang Zhang, Chuchu Fan

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12112v1

摘要: 虽然大型语言模型 (LLM) 最近在解决规划问题方面表现出强大的潜力,但灵活性和复杂性之间存在权衡。大语言模型本身作为零样本规划者,仍然无法直接为复杂的规划问题(例如多约束或长期任务)生成有效的计划。另一方面,许多旨在解决复杂规划问题的框架通常依赖于特定于任务的准备工作,例如特定于任务的上下文示例和预定义的批评者/验证者,这限制了它们的跨任务泛化能力。在本文中,我们通过观察许多规划问题的核心在于优化问题来应对这些挑战:在目标受到约束(决策的前提和效果)的情况下寻找最优解决方案(最佳计划)。凭借大语言模型的常识、推理和编程能力,这开启了基于大语言模型的通用方法来解决规划问题的可能性。受这一观察的启发,我们提出了 LLMFP,这是一个通用框架,利用 LLM 从规划问题中捕获关键信息,并从头开始将其正式表述为优化问题并解决,而不需要特定于任务的示例。我们将 LLMFP 应用于 9 个规划问题,从多约束决策到多步骤规划问题,并证明 LLMFP 在 GPT-4o 和 Claude 3.5 Sonnet 的 9 项任务中平均实现了 83.7% 和 86.8% 的最优率,显着优于最佳基线(使用 OpenAI o1-preview 直接规划)分别提高了 37.6% 和 40.7%。我们还通过消融实验验证了 LLMFP 的组件,并分析了潜在的成功和失败原因。

人工智能会犯错误:大语言模型缺陷报告实践的案例研究

分类: 计算机与社会, 机器学习, 软件工程

作者: Sean McGregor, Allyson Ettinger, Nick Judd, Paul Albee, Liwei Jiang, Kavel Rao, Will Smith, Shayne Longpre, Avijit Ghosh, Christopher Fiorelli, Michelle Hoang, Sven Cattell, Nouha Dziri

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12104v1

摘要: 2024 年 8 月,495 名黑客在艾伦人工智能研究所针对开放语言模型 (OLMo) 的开放式漏洞赏金中进行了评估。由 OLMo 安全计划代表组成的供应商小组裁定了对 OLMo 文档的更改,并向成功证明需要公开披露以澄清模型部署的意图、能力和危险的参与者颁发现金奖励。本文介绍了一系列经验教训,说明了旨在减少事件可能性并生成更安全的大型语言模型 (LLM) 的缺陷报告最佳实践。其中包括安全报告流程、其工件和安全计划人员配置的最佳实践。

WeatherDG:用于域广义语义分割的大语言模型辅助程序天气生成

分类: 计算机视觉和模式识别, 人工智能

作者: Chenghao Qian, Yuhu Guo, Yuhong Mo, Wenjing Li

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12075v1

摘要: 在这项工作中,我们提出了一种新颖的方法,即WeatherDG,它可以基于两个基础模型(即稳定扩散(SD)和大语言模型(LLM))的合作生成逼真的、天气多样化的驾驶屏幕图像。具体来说,我们首先使用源数据对 SD 进行微调,使生成的样本的内容和布局与现实世界的驾驶场景保持一致。然后,我们提出了一种基于LLM的程序提示生成方法,可以丰富场景描述并帮助SD自动生成更加多样化、详细的图像。此外,我们引入了平衡生成策略,鼓励SD在各种天气条件下生成尾类的高质量对象,例如骑手和摩托车。这种与分割模型无关的方法可以通过使用生成的合成数据进行额外的调整来提高现有模型的泛化能力。对三个具有挑战性的数据集的实验表明,我们的方法可以显着提高目标域上不同最先进模型的分割性能。值得注意的是,在“Cityscapes to ACDC”的设置中,我们的方法将基线 HRDA 提高了 13.9%(以 mIoU 为单位)。

超越舒适区:克服将大语言模型集成到软件产品中的挑战的新兴解决方案

分类: 软件工程, 机器学习

作者: Nadia Nahar, Christian Kästner, Jenna Butler, Chris Parnin, Thomas Zimmermann, Christian Bird

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12071v1

摘要: 大型语言模型 (LLM) 越来越多地嵌入到不同行业的软件产品中,增强了用户体验,但同时也给开发人员带来了众多挑战。 LLM 的独特特征迫使习惯于传统软件开发和评估的开发人员走出他们的舒适区,因为 LLM 组件打破了有关软件系统的标准假设。本研究探讨了软件开发人员为应对所遇到的挑战而采用的新兴解决方案。该研究利用混合方法研究(包括 26 次访谈和包含 332 份回复的调查),确定了 Microsoft 多个产品团队的从业者正在探索的 19 种有关质量保证的新兴解决方案。研究结果提供了宝贵的见解,可以在面对这些挑战时更广泛地指导基于大语言模型的产品的开发和评估。

技能大语言模型:重新利用通用大语言模型进行技能提取

分类: 计算和语言

作者: Amirhossein Herandi, Yitao Li, Zhanlin Liu, Ximin Hu, Xiao Cai

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12052v1

摘要: 从职位描述中准确提取技能在招聘过程中至关重要,但仍然具有挑战性。命名实体识别(NER)是解决此问题的常用方法。随着大型语言模型(LLM)在包括 NER 在内的各种 NLP 任务中取得的成功,我们建议对专门的 Skill-LLM 和轻量级模型进行微调,以提高技能提取的精度和质量。在我们的研究中,我们使用基准数据集评估了微调的 Skill-LLM 和轻量级模型,并将其性能与最先进的 (SOTA) 方法进行了比较。我们的结果表明,这种方法优于现有的 SOTA 技术。

通过逻辑结构树促进大语言模型的逻辑谬误推理

分类: 计算和语言

作者: Yuanyuan Lei, Ruihong Huang

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12048v1

摘要: 逻辑谬误在陈述的构造中使用无效或错误的推理。尽管逻辑谬误普遍存在且具有危害性,但逻辑谬误的检测和分类仍然是一项具有挑战性的任务。我们观察到逻辑谬误经常使用连接词来指示两个论点之间的预期逻辑关系,而论点语义实际上并不支持逻辑关系。受这一观察的启发,我们建议构建一个逻辑结构树来明确表示和跟踪语句中关系连接词及其参数之间的层次逻辑流。具体来说,该逻辑结构树是在选区树和十种常见逻辑关系的连接词分类的指导下以无监督的方式构建的,其中关系连接词作为非终端节点,文本参数作为终端节点,后者大多是基本话语单位。我们进一步开发了两种策略,将逻辑结构树合并到大语言模型中进行谬误推理。首先,我们将树转换为自然语言描述,并将文本化树作为硬文本提示的一部分输入到大语言模型中。其次,我们推导出关系感知树嵌入并将树嵌入作为软提示插入到 LLM 中。在基准数据集上的实验表明,我们基于逻辑结构树的方法显着提高了谬误检测和谬误分类的精度和召回率。

Toolken+:通过重新排名和拒绝选项改善 LLM 工具的使用

分类: 计算和语言

作者: Konstantin Yakovlev, Sergey Nikolenko, Andrey Bout

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12004v1

摘要: 最近提出的 ToolkenGPT 工具学习范式展示了良好的性能,但存在两个主要问题:首先,它无法从工具文档中受益,其次,它经常在是否使用工具方面犯错误。我们引入了 Toolken+,它通过对 ToolkenGPT 选择的前 $k$ 工具重新排名来缓解第一个问题,并使用特殊的“拒绝”选项来缓解第二个问题,这样如果“拒绝”排名第一,模型将生成词汇标记。我们展示了 Toolken+ 在多步骤数值推理和工具选择任务上的有效性。

持续的法律预培训和 IFT 对大语言模型人类定义的法律概念的潜在表征的影响

分类: 计算和语言

作者: Shaun Ho

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12001v1

摘要: 本文旨在让人工智能和法律研究人员和从业者更详细地了解法律语料库上的大型语言模型(LLM)的持续预训练和指令微调(IFT)是否以及如何增加他们对人类定义的法律概念的利用在开发输入序列的全局上下文表示时。我们比较了三种模型:Mistral 7B、SaulLM-7B-Base(Mistral 7B 继续对法律语料库进行预训练)和 SaulLM-7B-Instruct(进一步进行 IFT)。这项初步评估检查了最近人工智能和法律文献中的 7 个不同的文本序列,每个序列都包含一个人类定义的法律概念。我们首先比较了模型分配给代表法律概念的标记子集的总注意力比例。然后,我们可视化原始注意力分数变化的模式,评估法律训练是否引入了与人类法律知识结构相对应的新注意力模式。这项调查显示,(1)法律培训的影响在各种人类定义的法律概念中分布不均匀,(2)法律培训期间学到的法律知识的语境表征与人类定义的法律概念的结构不一致。最后,我们提出了进一步调查法律大语言模型培训动态的建议。

MIND:用于大语言模型预训练的数学知识综合对话

分类: 人工智能, 计算和语言

作者: Syeda Nahida Akter, Shrimai Prabhumoye, John Kamalu, Sanjeev Satheesh, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12881v1

摘要: 最近在大型语言模型(LLM)中广泛探索了利用合成数据来增强预训练数据质量并从而提高下游任务准确性的用途。然而,这些方法在复杂、多跳和数学推理任务中表现不佳,因为合成数据通常无法向现有原始语料库添加补充知识。在这项工作中,我们提出了一种新颖的大规模且多样化的数学知情合成对话(MIND)生成方法,可以提高大语言模型的数学推理能力。具体来说,我们使用 MIND 生成基于 OpenWebMath (OWM) 的综合对话,从而生成一个新的数学语料库 MIND-OWM。我们对不同对话设置的实验表明,纳入对话参与者之间的知识差距对于生成高质量的数学数据至关重要。我们进一步确定了一种在预训练期间格式化和集成合成数据和原始数据的有效方法,以最大限度地提高数学推理的收益,强调需要重组原始数据而不是按原样使用它。与仅对原始数据进行预训练相比,在 MIND-OWM 上进行预训练的模型在数学推理方面表现出显着提升(GSM8K:+13.42%,MATH:+2.30%),包括在专业知识方面的卓越表现(MMLU:+4.55%,MMLU- STEM:+4.28%)和通用推理任务(一般推理:+2.51%)。

通过 Attention-Gate 实现 LLM 的上下文 KV 缓存驱逐

分类: 计算和语言, 机器学习

作者: Zihao Zeng, Bokai Lin, Tianqi Hou, Hao Zhang, Zhijie Deng

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.12876v1

摘要: KV-Cache 技术已成为大型语言模型 (LLM) 推理的标准。它缓存自注意力的状态以避免重新计算。然而,人们普遍批评KV-Cache可能成为LLM推理系统的瓶颈,尤其是在面对超大型模型和长上下文查询时。一种自然的补救措施是丢弃不太重要的令牌的 KV-Cache,以 StreamingLLM 为例,但所使用的静态驱逐策略无法灵活地适应不同的上下文。像 H2O 这样的补救措施利用累积注意力分数来执行动态驱逐,但在捕获上下文信息时遇到了注意力偏差问题。本文通过设计一种参数化的 KV-Cache 驱逐机制(称为 Attention-Gate)来弥补这一差距,该机制接受整个上下文作为输入,并为每个令牌生成驱逐标志以实现上下文内驱逐。后续的自注意力模块根据标志进行处理,只需要缓存剩余令牌的 KV 状态。注意力门可以在不同的头和层之间变化,并且可以轻松地插入到预先训练的 LLM 中,通过具有成本效益的持续预训练或监督微调目标进行调整,以获取要丢弃的内容。注意力门引入的计算和内存开销是最小的。我们的方法在多个任务中得到验证,展示了效率和适应性。经过高效的持续预训练,与传统的免训练方法相比,它获得了更高的平均准确率并驱逐了更多的令牌。在监督微调中,它不仅驱逐了许多令牌,而且在某些数据集(例如 RTE)上优于 LoRA 微调的 LLM,在驱逐 62.8% 的令牌的同时,它的准确性提高了 13.9%,这表明有效驱逐冗余令牌甚至可以提高性能。

通过基于大语言模型的交互式代理增强用户的数字隐私管理能力

分类: 人机交互, 人工智能, 密码学和安全

作者: Bolun Sun, Yifan Zhou, Haiyun Jiang

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11906v1

摘要: 本文提出了大语言模型(LLM)的一种新颖应用,通过交互式对话代理来增强用户对隐私策略的理解。我们证明,大语言模型在数据实践识别、选择识别、政策总结和隐私问答等任务中显着优于传统模型,为隐私政策分析树立了新的基准。基于这些发现,我们引入了一种基于大语言模型的创新代理,该代理作为处理网站隐私政策的专家系统,指导用户使用复杂的法律语言,而不要求他们提出具体问题。一项针对 100 名参与者的用户研究表明,在代理的帮助下,用户的理解水平更高(平均分为 2.6 分(满分 3 分),而对照组为 1.8 分),认知负荷降低(任务难度评分为 3.2 分(满分 10 分),对照组为 7.8 分) ,增强了管理隐私的信心,并在更短的时间内完成了任务(5.5 分钟与 15.8 分钟)。这项工作凸显了基于大语言模型的代理在改变用户与隐私政策的交互方面的潜力,从而获得更知情的同意并在数字服务领域赋予用户权力。

SGEdit:将 LLM 与 Text2Image 生成模型结合起来,进行基于场景图的图像编辑

分类: 计算机视觉和模式识别

作者: Zhiyuan Zhang, DongDong Chen, Jing Liao

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11815v1

摘要: 场景图提供了图像的结构化、分层表示,其中节点和边象征着对象及其之间的关系。它可以作为图像编辑的自然界面,显着提高精度和灵活性。利用这一优势,我们引入了一个新框架,它将大语言模型 (LLM) 与 Text2Image 生成模型集成,以进行基于场景图的图像编辑。这种集成可以在对象级别进行精确修改并创造性地重新组合场景,而不会影响整体图像的完整性。我们的方法涉及两个主要阶段:1)利用LLM驱动的场景解析器,我们构建图像的场景图,捕获关键对象及其相互关系,以及解析细粒度属性,例如对象掩码和描述。这些注释通过微调的扩散模型促进概念学习,用优化的标记和详细的描述提示来表示每个对象。 2)在图像编辑阶段,LLM编辑控制器引导对特定区域的编辑。然后,这些编辑由注意力调制扩散编辑器实现,利用微调模型来执行对象添加、删除、替换和调整。通过大量的实验,我们证明我们的框架在编辑精度和场景美观方面显着优于现有的图像编辑方法。

具有态度的角色:控制大语言模型进行多样化的数据注释

分类: 计算和语言, 人机交互

作者: Leon Fröhling, Gianluca Demartini, Dennis Assenmacher

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11745v1

摘要: 我们提出了一种通过个性化大型语言模型(LLM)来增强数据注释任务的多样性和控制的新方法。我们在两项研究中调查了将不同的人物角色描述注入到大语言模型提示中的影响,探讨人物角色是否会增加注释多样性,以及个体人物角色对结果注释的影响是否一致且可控。我们的结果表明,角色提示的大语言模型比没有角色提示的大语言模型产生更多样化的注释,并且这些效果既可控又可重复,使我们的方法成为改进主观 NLP 任务(如毒性检测)中的数据注释的合适工具。

IntGrad MT:通过句子插值和渐进式 MT 激发大语言模型的机器翻译能力

分类: 计算和语言, 68T50

作者: Seung-Woo Choi, Ga-Hyun Yoo, Jay-Yoon Lee

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11693v1

摘要: 最近的大型语言模型(LLM)在翻译方面表现出了强大的性能,而无需在额外的并行语料库上进行微调。然而,它们对于资源匮乏的语言对仍然表现不佳。以前的工作重点是通过利用相关的少量示例或外部资源(例如词典或语法书)来缓解这个问题,使模型严重依赖这些非参数信息源。在本文中,我们提出了一种名为 IntGrad MT 的新颖方法,该方法专注于充分利用大语言模型固有的翻译能力。 IntGrad MT 通过构建一系列少镜头示例来实现这一目标,每个示例由源句子和模型自己的翻译组成,难度逐渐增加。 IntGrad MT 采用两种技术:句子插值(Sentence Interpolation),它生成一系列句子,逐渐从简单的句子转变为困难的句子;以及渐进式 MT(Gradual MT),它使用早期句子的翻译作为后续句子的少量示例来顺序翻译该链。后续翻译。通过这种方法,我们观察到多种语言的各种大语言模型的 xCOMET 分数显着提高,特别是在印地语 (8.26)、斯瓦希里语 (7.10)、孟加拉语 (6.97) 和马拉地语 (13.03) 等资源匮乏的语言中。我们的方法提供了一种无需额外培训即可提高大语言模型绩效的实用方法。

LLM-Mixer:用于时间序列预测的 LLM 中的多尺度混合

分类: 机器学习, 计算和语言

作者: Md Kowsher, Md. Shohanur Islam Sobuj, Nusrat Jahan Prottasha, E. Alejandro Alanis, Ozlem Ozmen Garibay, Niloofar Yousefi

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11674v1

摘要: 时间序列预测仍然是一项具有挑战性的任务,特别是在复杂的多尺度时间模式的背景下。本研究提出了 LLM-Mixer,这是一个通过将多尺度时间序列分解与预训练的 LLM(大型语言模型)相结合来提高预测准确性的框架。 LLM-Mixer 通过将数据分解为多个时间分辨率并在专门为时间序列数据设计的文本提示的指导下使用冻结的 LLM 进行处理,来捕获短期波动和长期趋势。对多变量和单变量数据集进行的大量实验表明,LLM-Mixer 实现了具有竞争力的性能,在各个预测范围内均优于最新的最先进模型。这项工作凸显了将多尺度分析和大语言模型结合起来进行有效且可扩展的时间序列预测的潜力。

为聪明的汉斯敞开谷仓大门:简单的特征预测大语言模型基准答案

分类: 计算和语言, 人工智能

作者: Lorenzo Pacchiardi, Marko Tesic, Lucy G. Cheke, José Hernández-Orallo

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11672v1

摘要: 人工智能基准的完整性是准确评估人工智能系统功能的基础。这些基准的内部有效性(即确保它们不存在混杂因素)对于确保它们测量其设计目的至关重要。在本文中,我们探讨了与内部有效性相关的一个关键问题:人工智能系统有可能以意想不到的方式绕过正在测试的能力来解决基准问题。这种现象在人类和动物实验中广为人知,通常被称为“聪明的汉斯”效应,即使用虚假线索来解决任务,通常涉及比假定评估的过程简单得多的过程。先前的研究表明,语言模型也可以表现出这种行为。在几个较旧的自然语言处理 (NLP) 基准测试中,发现像“not”这样的单个 $n$-gram 能够高度预测正确的标签,并且有监督的 NLP 模型已被证明可以利用这些模式。在这项工作中,我们研究了从基准实例中提取的简单 $n$-gram 可以在多大程度上组合起来预测为 LLM 设计的现代多项选择基准中的标签,以及 LLM 是否可能使用这种 $n$-gram 模式来预测标签。解决这些基准。我们展示了在这些 $n$-gram 上训练的简单分类器如何在多个基准测试中取得高分,尽管缺乏正在测试的功能。此外,我们提供的证据表明,现代大语言模型可能正在使用这些肤浅的模式来解决基准问题。这表明这些基准的内部有效性可能会受到损害,在解释大语言模型的表现结果时应谨慎行事。

大语言模型法官的黑盒不确定性量化方法

分类: 机器学习, 人工智能

作者: Nico Wagner, Michael Desmond, Rahul Nair, Zahra Ashktorab, Elizabeth M. Daly, Qian Pan, Martín Santillán Cooper, James M. Johnson, Werner Geyer

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11594v1

摘要: LLM-as-a-Judge 是一种广泛使用的方法,用于评估大型语言模型 (LLM) 在各种任务中的性能。我们解决了量化大语言模型法官评估的不确定性的挑战。虽然不确定性量化在其他领域已得到充分研究,但由于大语言模型复杂的决策能力和计算需求,将其有效地应用于大语言模型面临着独特的挑战。在本文中,我们介绍了一种量化不确定性的新方法,旨在增强大语言模型法官评估的可信度。该方法通过分析生成的评估和可能的评级之间的关系来量化不确定性。通过交叉评估这些关系并根据标记概率构建混淆矩阵,该方法可以得出高或低不确定性的标签。我们通过多个基准评估我们的方法,证明大语言模型评估的准确性与得出的不确定性分数之间存在很强的相关性。我们的研究结果表明,这种方法可以显着提高大语言模型法官评估的可靠性和一致性。

AGENTiGraph:基于 LLM 的聊天机器人利用私有数据的交互式知识图平台

分类: 人工智能

作者: Xinjie Zhao, Moritz Blum, Rui Yang, Boming Yang, Luis Márquez Carpintero, Mónica Pina-Navarro, Tony Wang, Xin Li, Huitao Li, Yanran Fu, Rongrong Wang, Juntao Zhang, Irene Li

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11531v1

摘要: 大型语言模型(LLM)已经在各种应用程序中展示了能力,但面临着幻觉、推理能力有限和事实不一致等挑战,特别是在处理复杂的、特定领域的任务(例如问答(QA))时。虽然知识图谱(KG)已被证明有助于缓解这些问题,但关于大语言模型与背景知识图谱整合的研究仍然有限。特别是用户的可访问性和底层KG的灵活性还没有得到彻底的探索。我们介绍 AGENTiGraph(用于基于任务的交互和图形表示的自适应生成引擎),这是一个通过自然语言交互进行知识管理的平台。它集成了知识提取、集成和实时可视化。 AGENTiGraph 采用多代理架构来动态解释用户意图、管理任务并集成新知识,确保适应不断变化的用户需求和数据上下文。我们的方法展示了知识图交互方面的卓越性能,特别是对于复杂的特定领域任务。在包含 3,500 个测试用例的数据集上进行的实验结果表明,AGENTiGraph 的性能显着优于最先进的零样本基线,任务分类准确率达到 95.12%,任务执行成功率达到 90.45%。用户研究证实了其在现实场景中的有效性。为了展示多功能性,我们将 AGENTiGraph 扩展到立法和医疗保健领域,构建能够回答法律和医疗环境中复杂查询的专门知识图谱。

人类与大语言模型合作构建粤语情感词典

分类: 人机交互, 计算和语言

作者: Yusong Zhang, Dong Dong, Chi-tim Hung, Leonard Heyerdahl, Tamara Giles-Vernick, Eng-kiong Yeoh

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11526v1

摘要: 大型语言模型(LLM)在语言理解和生成方面表现出了卓越的能力。人们一直在探索如何高级利用大语言模型中嵌入的知识进行自动注释。本研究建议通过大语言模型和人类注释者之间的合作,为粤语这种资源匮乏的语言开发情感词典。通过整合大语言模型和人类注释者提供的情感标签,该研究利用现有的语言资源,包括其他语言的词典和本地论坛,构建了一个富含口语表达的粤语情感词典。通过修改和利用三个不同的情感文本数据集来评估所提出的情感词典在情感提取中的一致性。这项研究不仅验证了构建词典的有效性,而且还强调人类和人工智能之间的协作注释可以显着提高情感标签的质量,突显这种伙伴关系在促进低资源语言的自然语言处理任务方面的潜力。

利用 LLM 嵌入进行跨数据集标签对齐和零样本音乐情感预测

分类: 声音, 机器学习, 多媒体, 音频和语音处理

作者: Renhang Liu, Abhinaba Roy, Dorien Herremans

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11522v1

摘要: 在这项工作中,我们提出了一种新的音乐情感识别方法,该方法利用大型语言模型(LLM)嵌入来跨多个数据集进行标签对齐以及对新类别进行零样本预测。首先,我们计算情感标签的 LLM 嵌入,并应用非参数聚类对包含不相交标签的多个数据集的相似标签进行分组。我们使用这些聚类中心将音乐特征 (MERT) 映射到 LLM 嵌入空间。为了进一步增强模型,我们引入了对齐正则化,可以将 MERT 嵌入从不同的集群中分离出来。这进一步增强了模型更好地适应未见过的数据集的能力。我们通过对新数据集执行零样本推理来证明我们方法的有效性,展示其无需额外训练即可泛化到未见过的标签的能力。

重新审视基准和评估:基于代理的大语言模型探索性动态评估框架

分类: 人工智能, 计算和语言

作者: Wanying Wang, Zeyu Ma, Pengfei Liu, Mingang Chen

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11507v1

摘要: 尽管已经开发了各种垂直领域大语言模型(LLM),但自动评估其跨不同领域的性能的挑战在满足现实世界的用户需求方面仍然是巨大的。当前基于基准的评估方法表现出僵化、无目的的交互,并且依赖于预先收集的静态数据集,这些数据集的构建成本高昂、跨领域不灵活,并且与实际用户需求不相符。为了解决这个问题,我们重新审视评估组件并引入两个定义: Benchmark+,它将传统的 QA 基准扩展为更灵活的“策略-标准”格式; 评估+,它增强了交互过程以进行更大的探索,并实现定量指标和定性洞察,从更丰富的多轮交互中捕获细致入微的目标LLM行为。我们提出了一个名为 TestAgent 的基于代理的评估框架,它通过检索增强生成和强化学习来实现这两个概念。从从头开始构建垂直领域评估到激活现有基准测试等任务的实验证明了 TestAgent 在各种场景中的有效性。我们相信这项工作为大语言模型的自动评估提供了一个有趣的视角。

困难的任务是,但简单的任务不是:揭示多模式大语言模型的懒惰

分类: 计算和语言, 人工智能

作者: Sihang Zhao, Youliang Yuan, Xiaoying Tang, Pinjia He

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11437v1

摘要: 多模态大型语言模型 (MLLM) 表现出对现实世界的深刻理解,甚至可以处理复杂的任务。然而,他们在一些简单的视觉问答(VQA)问题上仍然失败。本文深入探讨了这个问题,揭示了模型在回答有关图像的简单问题(例如是/否问题)时往往会出错,即使它们可以正确地描述它。我们将困难问题和简单问题之间的模型行为差异称为模型惰性。为了系统地研究模型惰性,我们手动构建了 LazyBench,这是一个基准,其中包括是/否、多项选择、简答题以及与图像中相同主题相关的图像描述任务。基于LazyBench,我们观察到当前先进的MLLM(例如GPT-4o、Gemini-1.5-pro、Claude 3和LLaVA-v1.5-13B)中普遍存在惰性,并且在更强的模型上更为明显。我们还分析了VQA v2(LLaVA-v1.5-13B)基准,发现其大约一半的失败案例是由模型惰性引起的,这进一步凸显了确保模型充分利用其能力的重要性。为此,我们对如何缓解懒惰进行了初步探索,发现思想链(CoT)可以有效解决这一问题。

PMMT:通过 LLM Distillation 进行多语言机器翻译的偏好调整

分类: 计算和语言, 人工智能

作者: Shuqiao Sun, Yutong Yao, Peiwen Wu, Feijun Jiang, Kaifu Zhang

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11410v1

摘要: 翻译对于跨语言交流非常重要,人们已经做出了许多努力来提高其准确性。然而,在使翻译与人类偏好(例如翻译语气或风格)保持一致方面进行的投资较少。本文提出了一种新方法,使用大型语言模型(LLM)有效生成具有特定翻译偏好的大规模多语言并行语料库。同时,自动管道旨在将人类偏好提炼为更小的机器翻译(MT)模型,以高效、经济地支持在线服务中的大规模呼叫。实验表明,所提出的方法在翻译任务中处于领先地位,并且大大符合人类偏好。同时,在 WMT 和 Flores 等流行的公共基准上(我们的模型未在这些基准上进行训练),与 SOTA 作品相比,所提出的方法也显示出有竞争力的性能。

MoChat:用于多转动运动理解和描述的关节分组时空基础大语言模型

分类: 计算机视觉和模式识别

作者: Jiawei Mo, Yixuan Chen, Rifen Lin, Yongkang Ni, Min Zeng, Xiping Hu, Min Li

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11404v1

摘要: 尽管深度学习在理解人体运动方面不断取得进步,但现有模型往往难以准确识别动作时间和特定的身体部位,通常仅支持单轮交互。捕获细粒度运动细节的这种限制降低了它们在运动理解任务中的有效性。在本文中,我们提出了 MoChat,一种多模态大语言模型,能够对人体运动进行时空基础并理解多轮对话上下文。为了实现这些功能,我们根据人体解剖结构对每个骨架框架的空间信息进行分组,然后将它们应用到关节分组骨架编码器,其输出与 LLM 嵌入相结合,分别创建空间感知和时间感知的嵌入。此外,我们开发了一个管道,用于根据文本注释从骨架序列中提取时间戳,并构建多轮对话以进行空间基础。最后生成各种任务指令进行联合训练。实验结果表明,MoChat 在运动理解任务中的多个指标上实现了最先进的性能,使其成为第一个能够对人体运动进行细粒度时空基础的模型。

LLM2Swarm:通过大语言模型进行响应式推理、规划和协作的机器人群

分类: 机器人技术

作者: Volker Strobel, Marco Dorigo, Mario Fritz

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11387v1

摘要: 机器人群由许多简单的机器人组成,它们通过通信和协作来完成复杂的任务。机器人控制器通常需要由专家根据具体情况通过编程代码指定。这个过程非常耗时,容易出错,并且无法考虑到部署过程中可能遇到的所有情况。另一方面,最近的大型语言模型(LLM)已经展示了推理和规划能力,引入了与机器交互和编程的新方法,并表示领域和常识知识。因此,我们建议通过将大语言模型与机器人群集成来解决上述挑战,并展示概念验证(展示)的潜力。对于这种集成,我们探索了两种方法。第一种方法是“间接集成”,其中大语言模型用于综合和验证机器人控制器。这种方法可以减少部署前的开发时间和人为错误。此外,在部署过程中,它可以用于动态创建新的机器人行为。第二种方法是“直接集成”,每个机器人在部署过程中本地执行一个单独的 LLM 实例,以实现机器人与机器人协作和人类与群体交互。这些本地 LLM 实例使每个机器人能够使用自然语言进行推理、计划和协作。为了进一步研究我们的主要概念贡献,我们发布了 LLM2Swarm 系统的软件和视频:https://github.com/Pold87/LLM2Swarm。

LLM有因果推理的泛化能力吗?

分类: 计算和语言

作者: Chen Wang, Dongming Zhao, Bo Wang, Ruifang He, Yuexian Hou

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11385v1

摘要: 在因果推理中,泛化能力是指对新数据进行因果推理方法来估计未知现象之间因果关系的能力,这对于拓展知识的边界至关重要。研究评估了大型语言模型 (LLM) 对于已知现象的因果推理能力,但 LLM 对于未见现象的泛化能力仍有待探索。在本文中,我们选择了四个任务:因果路径发现(CP)、后门调整(BA)、事实推理(FI)和反事实推理(CI)作为因果推理任务的代表。为了生成关于这四个任务的新数据中以前未见过的现象的评估问题,我们提出了一个基准生成框架,该框架使用随机生成的图和节点名称来在假设的新因果场景中制定问题。基于这个框架,我们编译了不同问题复杂程度的基准数据集。我们广泛测试了五位领先的大语言模型在四项任务中的泛化能力。实验结果表明,虽然LLM在解决简单的CP、FI和复杂的CI问题时表现出良好的泛化性能,但在解决BA问题时遇到困难,并且随着问题复杂性的变化而面临明显的性能波动。此外,当现象的名称包含现有术语时,即使这些名称完全新颖,它们的泛化性能仍然会受到熟悉术语的干扰。

基于操作足迹的大语言模型融合架构的调查和评估

分类: 机器学习, 68T50, I.2.7

作者: Seongho Kim, Jihyun Moon, Juntaek Oh, Insu Choi, Joon-Sung Yang

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11381v1

摘要: 注意力机制和 Transformer 架构的出现可以生成上下文自然的文本,并将处理整个源信息的负担压缩为单一向量。基于这两个主要思想,模型大小逐渐增大以容纳更精确和更全面的信息,导致当前最先进的LLM非常庞大,参数约为700亿个。随着模型大小的增长,对大量存储和计算能力的需求也在增加。这导致了高带宽存储器和加速器以及旨在满足这些要求的各种模型架构的发展。我们注意到大语言模型架构越来越趋同。本文分析了这些融合架构在层配置、操作机制和模型大小方面的表现,并考虑了各种超参数设置。在本文中,我们通过追踪大语言模型运营改进的演变,对大语言模型的历史进行了简明的调查。此外,我们总结了使用 RTX 6000(采用最先进的 Ada Lovelace 架构)的各种超参数设置下的 LLM 的性能趋势。我们的结论是,即使是相同的模型也可能表现出不同的行为,具体取决于超参数或是否部署在服务器或边缘环境中。

时尚推荐的连续大语言模型框架

分类: 信息检索, 人工智能, 计算和语言, 机器学习

作者: Han Liu, Xianfeng Tang, Tianlang Chen, Jiapeng Liu, Indu Indu, Henry Peng Zou, Peng Dai, Roberto Fernandez Galan, Michael D Porter, Dongmei Jia, Ning Zhang, Lian Xiong

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11327v1

摘要: 时尚行业是全球电子商务领域的领先领域之一,促使主要在线零售商采用推荐系统来提供产品建议和便利客户。虽然推荐系统已被广泛研究,但大多数都是针对一般电子商务问题而设计的,并努力应对时尚领域的独特挑战。为了解决这些问题,我们提出了一个顺序时尚推荐框架,该框架利用预先训练的大语言模型(LLM),并通过特定于推荐的提示进行增强。我们的框架利用大量时尚数据进行参数高效的微调,并引入了一种新颖的基于混合的检索技术,用于将文本翻译成相关的产品建议。大量实验表明,我们提出的框架显着提高了时尚推荐性能。

AdvBDGen:针对 LLM 对齐的对抗性强化提示特定模糊后门生成器

分类: 机器学习

作者: Pankayaraj Pathmanathan, Udari Madhushani Sehwag, Michael-Andrei Panaitescu-Liess, Furong Huang

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11283v1

摘要: 随着越来越多地采用带有人类反馈的强化学习 (RLHF) 来对齐大型语言模型 (LLM),对齐过程中安装后门的风险有所增加,从而导致意外的有害行为。现有的后门触发器通常仅限于固定的单词模式,这使得它们在数据清理期间可被检测到,并且在中毒后可轻松移除。在这项工作中,我们探索使用特定于提示的释义作为后门触发器,增强它们在 LLM 对齐期间的隐秘性和抵抗删除的能力。我们提出了 AdvBDGen,这是一种对抗性强化的生成微调框架,可以自动生成特定于提示的后门,这些后门有效、隐蔽且可跨模型转移。 AdvBDGen 采用由对手强化的生成器-鉴别器对,以确保后门的可安装性和隐蔽性。它可以使用少至 3% 的微调数据来制作和成功安装复杂的触发器。一旦安装,这些后门可以在推理过程中越狱 LLM,与传统的恒定触发器相比,表现出更高的抗干扰稳定性,并且更难以删除。这些发现强调了研究界迫切需要针对大语言模型联盟中的对抗性后门威胁开发更强大的防御措施。

HR-Agent:专为 HR 应用程序定制的面向任务的对话 (TOD) LLM Agent

分类: 计算和语言, 人工智能, 68T07, I.2.7

作者: Weijie Xu, Jay Desai, Fanyou Wu, Josef Valvoda, Srinivasan H. Sengamedu

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11239v1

摘要: 最近的 LLM(大型语言模型)进步使教育和金融等许多领域受益,但人力资源部门有数百个重复流程,例如访问请求、医疗索赔申请和休假提交,这些流程尚未得到解决。我们将这些任务与大语言模型代理联系起来,该代理负责解决写作协助和客户支持等任务。我们推出 HR-Agent,这是一种高效、保密且针对 HR 的基于 LLM 的任务导向型对话系统,专为自动化重复性 HR 流程(例如医疗索赔和访问请求)而量身定制。由于在推理过程中对话数据不会发送给大语言模型,因此它保留了人力资源相关任务所需的机密性。

释放大语言模型作为文本和图形结构数据多模态编码器的力量

分类: 计算和语言

作者: Jiacheng Lin, Kun Qian, Haoyu Han, Nurendra Choudhary, Tianxin Wei, Zhongruo Wang, Sahika Genc, Edward W Huang, Sheng Wang, Karthik Subbian, Danai Koutra, Jimeng Sun

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11235v1

摘要: 图结构信息提供了丰富的上下文信息,可以通过提供结构化关系和层次结构来增强语言模型,从而为检索、问答和分类等各种应用程序提供更具表现力的嵌入。然而,现有的集成图形和文本嵌入的方法(通常基于多层感知器(MLP)或浅层转换器)在充分利用这些模式的异构性质的能力方面受到限制。为了克服这个问题,我们提出了 Janus,这是一个简单而有效的框架,它利用大型语言模型(LLM)来联合编码文本和图形数据。具体来说,Janus 使用 MLP 适配器将图嵌入投影到与文本嵌入相同的空间中,从而允许大语言模型联合处理两种模式。与之前的工作不同,我们还引入了对比学习来更有效地对齐图和文本空间,从而提高学习联合嵌入的质量。跨越三个任务(知识图谱上下文化问答、图文对分类和检索)的六个数据集的实证结果表明,Janus 始终优于现有基线,在多个数据集上实现了显着改进,在 QA 任务中提升高达 11.4% 。这些结果凸显了 Janus 在集成图形和文本数据方面的有效性。消融研究进一步验证了我们方法的有效性。

半开放大语言模型中的阿基里斯之踵:隐藏底层以应对恢复攻击

分类: 机器学习, 人工智能, 密码学和安全

作者: Hanbo Huang, Yihan Li, Bowen Jiang, Lin Liu, Ruoyu Sun, Zhuotao Liu, Shiyu Liang

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11182v1

摘要: 闭源大型语言模型可提供强大的性能,但下游可定制性有限。引入了结合闭源层和公共层的半开放模型以提高可定制性。然而,闭源层中的参数很容易受到恢复攻击。在本文中,我们探索了具有较少闭源层的半开放模型的设计,旨在提高可定制性,同时确保恢复攻击的弹性。我们分析了闭源层对整体弹性的贡献,并从理论上证明,在基于深层 Transformer 的模型中,存在一个过渡层,即使该层之前的层中出现很小的恢复错误,也可能导致恢复失败。在此基础上,我们提出了 \textbf{SCARA},这是一种仅将少数底层保留为闭源的新颖方法。 SCARA 采用无需微调的指标来估计可公开访问以进行定制的最大层数。我们将其应用于五个模型(1.3B 到 70B 参数)来构建半开放模型,验证它们在六个下游任务上的可定制性,并评估它们在 16 个基准上针对各种恢复攻击的弹性。我们将 SCARA 与基线进行比较,发现它通常可以提高下游定制性能,并以超过 \textbf{10} 倍的闭源参数提供类似的弹性。我们实证研究了过渡层的存在,分析了我们方案的有效性,最后讨论了其局限性。

模型群:通过群智能协作搜索来适应 LLM 专家

分类: 计算和语言

作者: Shangbin Feng, Zifeng Wang, Yike Wang, Sayna Ebrahimi, Hamid Palangi, Lesly Miculicich, Achin Kulshrestha, Nathalie Rauschmayr, Yejin Choi, Yulia Tsvetkov, Chen-Yu Lee, Tomas Pfister

发布时间: 2024-10-15

链接: http://arxiv.org/abs/2410.11163v1

摘要: 我们提出了模型群(Model Swarms),这是一种协作搜索算法,通过群智能(引导个体系统的集体行为)来适应大语言模型。具体来说,模型群从大语言模型专家库和效用函数开始。在跨模型找到的最佳检查点的指导下,不同的大语言模型专家在权重空间中协作移动并优化代表模型适应目标的效用函数。与现有的模型组合方法相比,模型群提供免调整的模型适应,在低数据情况下工作,示例数量少至 200 个,并且不需要对群中的特定专家或他们应该如何组成进行假设。大量实验表明,模型群可以灵活地使大语言模型专家适应单一任务、多任务领域、奖励模型以及不同的人类兴趣,在任务和上下文中将超过 12 个模型组合基线提高高达 21.0%。进一步的分析表明,LLM 专家在初始检查点中发现了以前未见过的功能,并且模型群可以通过协作搜索过程实现专家从弱到强的转变。

LLM 通过仅忘记数据的损失调整来忘却学习

分类: 计算和语言, 人工智能, 机器学习

作者: Yaxuan Wang, Jiaheng Wei, Chris Yuhao Liu, Jinlong Pang, Quan Liu, Ankit Parag Shah, Yujia Bao, Yang Liu, Wei Wei

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.11143v1

摘要: 忘记大型语言模型 (LLM) 的学习对于确保人工智能的道德和负责任的使用至关重要,特别是在解决隐私泄露、偏见、安全和不断发展的法规方面。现有的 LLM 忘却方法通常依赖于保留数据或参考 LLM,但它们很难充分平衡忘却性能与整体模型效用。之所以出现这一挑战,是因为利用参考大语言模型的显式保留数据或保留数据的隐式知识来微调模型往往会模糊遗忘数据和保留数据之间的界限,因为不同的查询通常会引发类似的响应。在这项工作中,我们建议消除在 LLM 遗忘中保留数据或参考 LLM 进行响应校准的需要。认识到直接对遗忘数据应用梯度上升通常会导致优化不稳定和性能不佳,我们的方法根据遗忘数据指导大语言模型不要响应什么,更重要的是如何响应。因此,我们引入了仅忘记数据损失调整(FLAT),这是一种“平坦”损失调整方法,它通过最大化可用模板答案和仅忘记答案之间的 f 散度来解决这些问题。忘记数据。定义的 f 散度的变分形式理论上提供了一种通过为学习分配不同的重要性权重来调整损失的方法。模板反应和忘记反应会导致遗忘。实证结果表明,与现有方法相比,我们的方法不仅实现了卓越的遗忘性能,而且最大限度地减少了对模型保留能力的影响,确保了各种任务的高实用性,包括哈利波特数据集和 MUSE Benchmark 上受版权保护的内容遗忘,以及实体遗忘TOFU 数据集。

主动学习在安全关键场景中生成稳健且具有代表性的大语言模型

分类: 计算和语言

作者: Sabit Hassan, Anthony Sicilia, Malihe Alikhani

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.11114v1

摘要: 确保在各种场景中采取稳健的安全措施对于面向用户的系统至关重要。虽然大型语言模型 (LLM) 可以为安全措施生成有价值的数据,但它们经常表现出分布偏差,专注于常见场景而忽略罕见但关键的情况。这可能会破坏使用此类数据开发的安全协议的有效性。为了解决这个问题,我们提出了一种新颖的框架,将主动学习与聚类相结合来指导LLM的生成,增强其在安全场景中的代表性和鲁棒性。我们通过涉及 LLM 生成和主动学习者模型反馈的迭代过程构建了 5.4K 潜在安全违规的数据集,证明了我们方法的有效性。我们的结果表明,所提出的框架产生了一组更具代表性的安全场景,而无需事先了解底层数据分布。此外,通过我们的方法获取的数据提高了主动学习模型以及主动学习过程范围之外的模型的准确性和 F1 分数,突出了其广泛的适用性。

代码混合器 Ya Nahi:衡量多语言大语言模型代码混合能力的新方法

分类: 计算和语言, 人工智能

作者: Ayushman Gupta, Akhil Bhogal, Kripabandhu Ghosh

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.11079v1

摘要: 多语言大语言模型 (LLM) 在机器翻译 (MT) 任务中表现出了卓越的性能。然而,他们在语码转换(在一个话语中混合两种或多种语言的做法)方面的机器翻译能力仍未得到充分探索。在本文中,我们介绍了基于规则的提示,这是一种生成代码混合句子的新颖提示技术。我们使用 $k 来衡量和比较 3 种流行的多语言 LLM:GPT-3.5-turbo、GPT-4 和 Gemini Pro 跨五种语言对的代码混合 MT 能力:英语-{印地语、孟加拉语、古吉拉特语、法语、西班牙语} $-shot 提示 ($k\in{0, 1, 10, 20}$) 和基于规则的提示。我们的研究结果表明,尽管 $k$-shot 提示通常会带来最佳结果,但基于规则的提示在生成不同代码混合风格的独特代码混合句子方面表现出了希望。我们还使用 $k$-shot 提示来衡量多语言大语言模型的代码混合英语翻译能力。为此,我们创建了一个涵盖五种语言对的黄金标准代码混合数据集:英语-{印地语、孟加拉语、古吉拉特语、法语、西班牙语}。作为我们工作的现实应用,我们创建了一个代码混合的聊天机器人。

评估 LLM 开放式生成偏差基准的度量模型中的偏差

分类: 计算和语言, 人工智能

作者: Nathaniel Demchak, Xin Guan, Zekun Wu, Ziyi Xu, Adriano Koshiyama, Emre Kazim

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.11059v1

摘要: 开放生成偏见基准通过分析大型语言模型 (LLM) 的输出来评估其社会偏见。然而,分析中使用的分类器往往存在固有偏差,导致得出不公平的结论。这项研究研究了 BOLD 和 SAGED 等开放生成基准中的此类偏差。使用 MGSD 数据集,我们进行了两个实验。第一个使用反事实通过改变与刻板印象相关的前缀来衡量不同人口群体的预测变化。第二个应用可解释性工具(SHAP)来验证观察到的偏差是否源于这些反事实。结果揭示了人口统计描述符的不平等待遇,需要更强大的偏差度量模型。

不同程度的错误:仅将大语言模型与错误答案对齐

分类: 计算和语言, 人工智能

作者: Jihan Yao, Wenxuan Ding, Shangbin Feng, Lucy Lu Wang, Yulia Tsvetkov

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.11055v1

摘要: 在缺乏针对具有挑战性的任务和环境的丰富可靠注释的情况下,我们如何才能以可能错误的答案来扩展大语言模型能力的前沿?我们关注两个研究问题:(1)大语言模型能否在错误的选择中产生可靠的偏好?如果是这样,(2)与这种错误的偏好保持一致会有帮助吗?我们采用基于自我一致性、令牌概率和大语言模型作为法官的方法来引出错误的偏好,并使用这些综合偏好通过偏好优化方法微调语言模型。对 7 个 LLM 和 8 个数据集进行的大量实验表明,(1)LLM 确实具有区分各种错误程度的初步能力,其性能比随机猜测高出 20.9%; (2) 与错对错的偏好保持一致有助于大语言模型产生更少的错误,有时甚至是完全正确的答案,同时整体改进模型校准。

大语言模型有效自我挖掘无监督机器翻译的上下文示例

分类: 计算和语言

作者: Abdellah El Mekki, Muhammad Abdul-Mageed

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.11006v1

摘要: 大型语言模型 (LLM) 在广泛的自然语言处理 (NLP) 任务中表现出了令人印象深刻的性能,主要是通过上下文学习 (ICL)。在 ICL 中,大语言模型提供了代表给定任务的示例,以便它学习为测试输入生成答案。然而,无法保证访问这些上下文示例,特别是对于资源匮乏或大量多语言任务。在这项工作中,我们提出了一种无监督方法来挖掘机器翻译 (MT) 的上下文示例,从而实现跨不同语言的无监督 MT (UMT)。我们的方法从单词级挖掘开始,获取单词翻译,然后用于执行句子级挖掘。由于由于噪声或错误,挖掘的并行对的质量可能不是最佳的,因此我们引入了过滤标准,以从无监督的并行句子池中选择最佳的上下文示例。我们使用来自 FLORES-200 数据集的 288 个方向的两个多语言大语言模型来评估我们的方法,并分析各种语言特征对性能的影响。我们的研究结果证明了我们的无监督方法在挖掘 MT 上下文示例方面的有效性,与常规上下文样本(从人工注释数据中提取)的翻译相比,翻译性能更好或相当,同时也优于其他状态- 最先进的 UMT 方法,平均 BLEU 点为 7 美元。

WILT:大语言模型的多轮、记忆稳健的归纳逻辑基准

分类: 人工智能

作者: Eryk Banatt, Jonathan Cheng, Skanda Vaidyanath, Tiffany Hwu

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10998v1

摘要: 虽然大型语言模型在广泛的领域中表现出了令人印象深刻的能力,但它们在推理任务中仍然遇到重大挑战,需要多次收集证据并得出逻辑结论。这些挑战给 LLM 聊天用户界面带来了重大障碍,因为 LLM 聊天用户界面依赖多轮交互来促进有效协作。这种限制会导致现实世界中的问题;例如,服务聊天机器人必须多次从客户那里收集必要的信息,才能有效地诊断和解决问题。尽管许多现实世界的大语言模型用例具有多轮性质,但大多数现有基准都依赖于精心策划的单轮测试,这往往模糊了记忆和真正推理之间的界限。为了解决这个问题,我们引入了 Wason 归纳逻辑测试(WILT),这是一种简单但具有挑战性的多轮推理基准,旨在抵抗记忆。 WILT 的灵感来自 Wason 2-4-6 任务,其中参与者必须通过提出测试用例(例如 $(2, 4, 6)$ 来推断涉及三个变量(例如 $x < y < z$)的布尔函数)。在 WILT 中,每次测试都从头开始,仅提供初始指令,从而防止模型依赖于预先学习的响应。在几个回合中,模型必须通过建议测试用例来与环境进行交互,以缩小可能的假设范围,并最终根据结果推断出隐藏的功能。我们的研究结果表明,大语言模型在完成这项任务时表现出了明显的优势和劣势:一些大语言模型更擅长通过提出有价值的测试用例来缩小假设空间,而另一些则更擅长从观察到的案例中推断出隐藏的函数。尽管存在这些差异,表现最好的模型仅达到 28% 的准确率,凸显了 LLM 在复杂的多轮推理任务上的性能存在显着差距。

大语言模型在各种巴西葡萄牙语方言分析任务中的表现

分类: 计算和语言, 计算机与社会

作者: Raquel Meister Ko Freitag, Túlio Sousa de Gois

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10991v1

摘要: LLM 生成的响应中再现了不同的偏见,包括方言偏见。进行了一项基于即时工程的研究,以揭示大语言模型如何区分巴西葡萄牙语的变体,特别是在四个大语言模型(GPT 3.5、GPT-4o、Gemini 和 Sabi.-2)中考虑社会语言学规则的情况下。结果为公平流畅的 NLP 技术提供了社会语言学贡献。

Liger Kernel:用于 LLM 培训的高效 Triton 内核

分类: 机器学习, 人工智能, 计算和语言, 分布式、并行和集群计算

作者: Byron, Hsu, Yun Dai, Vignesh Kothapalli, Qingquan Song, Shao Tang, Siyu Zhu, Steven Shimizu, Shivam Sahni, Haowen Ning, Yanning Chen

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10989v1

摘要: 在不断增长的计算需求和增强性能的需求的推动下,大规模有效地训练大型语言模型 (LLM) 提出了巨大的挑战。在这项工作中,我们介绍了 Liger-Kernel,这是专门为 LLM 培训开发的一组开源 Triton 内核。借助内核操作融合和输入分块等内核优化技术,与 HuggingFace 实现相比,我们的内核使流行的 LLM 的训练吞吐量平均提高了 20%,GPU 内存使用量减少了 60%。此外,Liger-Kernel 的设计考虑了模块化、可访问性和适应性,可满足休闲用户和专家用户的需求。内置全面的基准测试和集成测试,以确保不同计算环境和模型架构之间的兼容性、性能、正确性和收敛性。源代码可在许可下获得:github.com/linkedin/Liger-Kernel。

DuoAttention:具有检索和流处理头的高效长上下文 LLM 推理

分类: 计算和语言

作者: Guangxuan Xiao, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10819v1

摘要: 部署长上下文大语言模型 (LLM) 至关重要,但会带来巨大的计算和内存挑战。缓存所有注意力头的所有键和值(KV)状态会消耗大量内存。现有的 KV 缓存修剪方法要么会损害 LLM 的长上下文功能,要么只能提供有限的效率提升。在本文中,我们发现只有一小部分注意力头(又名检索头)对于处理长上下文至关重要,并且需要对所有标记进行充分关注。相比之下,所有其他头主要关注最近的代币和注意力池(称为流头),不需要充分关注。基于这一见解,我们引入了 DuoAttention,这是一个框架,它只对检索头应用完整的 KV 缓存,同时对流式头使用轻量级、恒定长度的 KV 缓存,这既减少了 LLM 的解码,又减少了预填充内存和延迟,而无需损害其长上下文能力。 DuoAttention 使用轻量级、基于优化的算法和合成数据来准确识别检索头。我们的方法将 MHA 模型的长上下文推理内存显着减少了 2.55 倍,GQA 模型的长上下文推理内存减少了 1.67 倍,同时将 MHA 模型的解码速度加快了 2.18 倍和 1.50 倍,并将预填充速度加快了 1.73 倍和 1.63 倍。与完全注意力相比,GQA 模型的准确率损失最小。值得注意的是,与量化相结合,DuoAttention 可在单个 A100 GPU 上实现具有 330 万上下文长度的 Llama-3-8B 解码。 https://github.com/mit-han-lab/duo-attention 中提供了代码。

您的混合专家大语言模型是一个免费的秘密嵌入模型

分类: 计算和语言, 机器学习

作者: Ziyue Li, Tianyi Zhou

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10814v1

摘要: 虽然大型语言模型(LLM)在生成任务上表现出色,但如果不应用进一步的表示微调,它们的仅解码器架构通常会限制它们作为嵌入模型的潜力。这是否与他们的通才主张相矛盾?为了回答这个问题,我们仔细研究了混合专家 (MoE) 大语言模型。我们的研究表明,MoE LLM 中的专家路由器可以作为现成的嵌入模型,在各种以嵌入为中心的任务中具有良好的性能,而无需任何微调。此外,我们的广泛分析表明,MoE 路由权重 (RW) 与 LLM 的隐藏状态 (HS)(一种广泛使用的嵌入)互补。与 HS 相比,我们发现 RW 对提示的选择更加稳健,并且注重高级语义。在分析的推动下,我们提出 MoEE 将 RW 和 HS 结合起来,这比单独使用任何一个都能获得更好的性能。我们对它们的组合和提示策略的探索得出了一些新颖的见解,例如,RW 和 HS 相似性的加权和优于它们串联的相似性。我们的实验针对来自大规模文本嵌入基准 (MTEB) 的 20 个数据集的 6 个嵌入任务进行。结果表明,MoEE 无需进一步微调即可为基于 LLM 的嵌入带来显着改进。

SplitLLM:用于模型放置和吞吐量优化的 LLM 协作推理

分类: 分布式、并行和集群计算, 机器学习, 网络和互联网架构

作者: Akrit Mudvari, Yuang Jiang, Leandros Tassiulas

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10759v1

摘要: 近年来,大型语言模型(LLM)一直是一项颠覆性创新,由于它们能够理解和生成类似人类的文本,因此在我们的日常生活中发挥着至关重要的作用。他们的功能包括自然语言理解、信息检索和搜索、翻译、聊天机器人、虚拟协助等等。然而,众所周知,大语言模型的参数数量非常庞大。此外,LLM(Transformers)底层架构中的自注意力机制在计算和内存方面相对于输入序列长度具有二次复杂度。由于这些原因,LLM 推理是资源密集型的,因此,LLM 推理的吞吐量受到限制,特别是对于较长的序列。在本报告中,我们设计了服务器与其客户端之间的协作推理架构,以减轻吞吐量限制。在这个设计中,我们考虑双方的可用资源,即计算和通信成本。我们开发了一种基于动态编程的算法,以在服务器和客户端设备之间优化分配计算,以提高服务器吞吐量,同时不违反服务级别协议(SLA)。我们在实验中表明,我们能够有效地分配工作负载,从而使服务器工作负载减少大约 1/3,同时比贪婪方法实现 19% 的改进。因此,我们能够证明,在具有不同类型的 LLM 推理请求的环境中,服务器的吞吐量得到了提高。

现在使用随机选择:基于 LLM 的文本增强分类中的少样本选择策略的研究

分类: 计算和语言

作者: Jan Cegin, Branislav Pecher, Jakub Simko, Ivan Srba, Maria Bielikova, Peter Brusilovsky

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10756v1

摘要: 生成式大语言模型(LLM)越来越多地用于数据增强任务,其中文本样本被解释(或重新生成),然后用于分类器微调。现有的增强工作利用了少数场景,其中样本作为提示的一部分提供给大语言模型,从而实现更好的增强。然而,样本大多是随机选择的,并且缺乏对其他(更“知情”)样本选择策略的影响的全面概述。在这项工作中,我们比较了少样本学习文献中存在的样本选择策略,并研究了它们在基于 LLM 的文本增强中的效果。我们根据分布内和分布外分类器的性能来评估这一点。结果表明,虽然一些“知情”选择策略可以提高模型的性能,特别是对于分布外的数据,但这种情况很少发生,并且性能会边际提高。除非取得进一步的进展,否则默认的随机样本选择对于增强从业者来说仍然是一个不错的选择。

SensorBench:基于编码的传感器处理中大语言模型的基准测试

分类: 人工智能, 机器学习, 信号处理

作者: Pengrui Quan, Xiaomin Ouyang, Jeya Vikranth Jeyakumar, Ziqi Wang, Yang Xing, Mani Srivastava

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10741v1

摘要: 传感器数据的有效处理、解释和管理已成为网络物理系统的关键组成部分。传统上,处理传感器数据需要深厚的理论知识和对信号处理工具的熟练程度。然而,最近的研究表明,大型语言模型(LLM)在处理传感数据方面具有良好的能力,这表明它们作为开发传感系统的副驾驶的潜力。为了探索这一潜力,我们构建了一个综合基准 SensorBench,以建立一个可量化的目标。该基准测试包含了用于各种任务的各种现实世界传感器数据集。结果表明,虽然大语言模型在更简单的任务中表现出相当高的熟练程度,但与工程专家相比,他们在处理具有参数选择的组合任务时面临着固有的挑战。此外,我们研究了传感器处理的四种提示策略,并表明自我验证可以在 48% 的任务中胜过所有其他基线。我们的研究为未来的发展提供了全面的基准和提示分析,为基于大语言模型的传感器处理副驾驶铺平了道路。

平衡持续预训练和指令微调:优化大语言模型的指令遵循

分类: 计算和语言

作者: Ishan Jindal, Chandana Badrinath, Pranjal Bharti, Lakkidi Vinay, Sachin Dev Sharma

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10739v1

摘要: 供公众使用的大型语言模型 (LLM) 需要持续的预训练,以保持最新数据的最新状态。这些模型还需要根据具体指令进行微调,以保持其准确遵循指令的能力。通常,大语言模型以两个版本发布:基础大语言模型(根据不同数据进行预训练)和指令细化大语言模型(另外使用特定指令进行训练,以更好地遵循指令)。问题是哪个模型应该接受持续的预训练,以保持其指令跟踪能力,同时保持最新数据。在本研究中,我们深入研究了大语言模型的连续预训练和指令微调之间的复杂关系,并研究了连续预训练对基础模型及其指令微调模型的指令跟随能力的影响。此外,指令微调过程的计算量很大,并且需要大量手工注释的示例才能使模型有效学习。本研究旨在找到最高效的计算策略来获得最新的知识和指令跟踪能力,而不需要任何指令数据和微调。我们凭经验证明了我们在 LLaMa 3, 3.1 和 Qwen 2, 2.5 系列基础和教学模型上的发现,为我们在不同规模的预训练数据语料库和不同的 LLM 设置中的假设提供了全面的探索。

迈向LLM引导的高效且可解释的多线性张量网络排名选择

分类: 机器学习, 人工智能

作者: Giorgos Iacovides, Wuyang Zhou, Danilo Mandic

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10728v1

摘要: 我们提出了一种新颖的框架,利用大型语言模型(LLM)来指导张量网络模型中的排名选择以进行高阶数据分析。通过利用大语言模型的内在推理能力和领域知识,我们的方法提供了增强的排名选择的可解释性,并且可以有效地优化目标函数。该框架使没有专门领域专业知识的用户能够利用张量网络分解并了解排名选择过程中的基本原理。实验结果在金融高阶数据集上验证了我们的方法,展示了可解释的推理、对未见过的测试数据的强泛化性,以及它在连续迭代中自我增强的潜力。这项工作处于大型语言模型和高阶数据分析的交叉点。

SeedLM:将 LLM 权重压缩为伪随机生成器的种子

分类: 机器学习, 人工智能

作者: Rasoul Shafipour, David Harrison, Maxwell Horton, Jeffrey Marker, Houman Bedayat, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi, Saman Naderiparizi

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10714v1

摘要: 大型语言模型 (LLM) 已经改变了自然语言处理,但由于其较高的运行时成本,在广泛部署方面面临着重大挑战。在本文中,我们介绍了 SeedLM,这是一种新颖的训练后压缩方法,它使用伪随机生成器的种子来编码和压缩模型权重。具体来说,对于每个权重块,我们找到一个种子,在推理期间将其输入线性反馈移位寄存器(LFSR),以有效生成随机矩阵。然后将该矩阵与压缩系数线性组合以重建权重块。 SeedLM 减少了内存访问并在推理期间利用空闲计算周期,通过用计算换取更少的内存访问来有效地加速内存受限任务。与依赖校准数据的最先进的压缩方法不同,我们的方法是无数据的,并且可以很好地概括不同的任务。我们对压缩特别具有挑战性的 Llama 3 70B 进行的实验表明,与最先进的技术相比,SeedLM 在 4 位和 3 位时实现了明显更好的零样本精度保留,同时保持了与 FP16 基线相当的性能。此外,基于 FPGA 的测试表明,随着模型大小增加到 70B,4 位 SeedLM 的速度比 FP16 Llama 2/3 基准提高了 4 倍。

出轨自己:通过自我发现的线索进行多轮LLM越狱攻击

分类: 计算和语言, 人工智能

作者: Qibing Ren, Hao Li, Dongrui Liu, Zhanxu Xie, Xiaoya Lu, Yu Qiao, Lei Sha, Junchi Yan, Lizhuang Ma, Jing Shao

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10700v1

摘要: 这项研究揭示了多轮交互中大型语言模型(LLM)的安全漏洞,其中恶意用户可以掩盖多个查询中的有害意图。我们介绍了 ActorAttack,这是一种受行动者网络理论启发的新型多轮攻击方法,它将语义链接的行动者网络建模为攻击线索,以生成针对有害目标的多样化且有效的攻击路径。 ActorAttack 解决了多轮攻击中的两个主要挑战:(1) 通过创建有关攻击者的无害对话主题来隐藏有害意图,以及 (2) 通过利用 LLM 的知识来指定相关攻击者,揭示针对同一有害目标的不同攻击路径作为各种攻击线索。通过这种方式,ActorAttack 在高级对齐的 LLM 中优于现有的单轮和多轮攻击方法,甚至对于 GPT-o1 也是如此。我们将发布一个名为 SafeMTData 的数据集,其中包括由 ActorAttack 生成的多轮对抗提示和安全对齐数据。我们证明,使用我们的安全数据集进行安全调整的模型对于多轮攻击更加稳健。代码可在 https://github.com/renqibing/ActorAttack 获取。

生成式人工智能界面的功能灵活性:通过对话、工具栏和提示与大语言模型进行文本编辑

分类: 人机交互, H.5.2; I.2.7

作者: Florian Lehmann, Daniel Buschek

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10644v1

摘要: 基于提示的用户界面 (UI) 将定义和访问相关功能的任务从开发人员转移到了用户。然而,用户界面如何塑造这种灵活性尚未得到明确研究。在通用 LLM 兴起之前和之后的四年里,我们探索了与大型语言模型 (LLM) 的交互:(1) 我们的调查 (N=121) 引出了用户如何设想将写作任务委托给 AI。这为对话式 UI 设计提供了信息。 (2) 一项用户研究(N=10)显示,人们开始使用类似命令的简短提示。 (3) 当在工具栏 UI 中直接提供这些快捷方式时,除了提示之外,我们的第二个研究 (N=12) 中的用户还可以在指定的 AI 功能和灵活的 AI 功能之间动态切换。我们将功能灵活性作为一种新的理论构建和思维工具进行讨论。我们的工作通过考虑不同的 UI 如何塑造用户对生成 AI 模型功能空间的访问,强调了超越对话式 UI 的价值。

思考大语言模型:一般指导与思想产生

分类: 计算和语言, 人工智能

作者: Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10630v1

摘要: 大语言模型通常接受过培训,可以回答用户问题或遵循类似于人类专家响应方式的指示。但在标准对齐框架下,他们缺乏回答前显性思维的基本能力。思考对于需要推理和计划的复杂问题很重要,但可以应用于任何任务。我们提出了一种训练方法,使现有的大语言模型具备这种思维能力,可以在不使用额外的人类数据的情况下遵循一般指令。我们通过迭代搜索和优化过程来实现这一目标,该过程探索可能的思想生成空间,使模型能够在没有直接监督的情况下学习如何思考。对于每条指令,使用判断模型对思想候选者进行评分,仅评估他们的反应,然后通过偏好优化进行优化。我们表明,这个过程可以在 AlpacaEval 和 Arena-Hard 上带来优异的性能,并且除了更传统的推理和解决问题任务之外,还可以从对营销、健康和常识等非推理类别的思考中获得收益。

在 LLM 生成的单元测试中测试气味

分类: 软件工程

作者: Wendkûuni C. Ouédraogo, Yinghua Li, Kader Kaboré, Xunzhu Tang, Anil Koyuncu, Jacques Klein, David Lo, Tegawendé F. Bissyandé

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10628v1

摘要: 在自动测试生成中使用大型语言模型 (LLM) 越来越受欢迎,大部分研究都集中在编译率、代码覆盖率和错误检测等指标上。然而,一个同样重要的质量指标是测试代码中是否存在阻碍可维护性和可读性的测试气味设计缺陷或反模式。在这项研究中,我们探索了 LLM 生成的单元测试套件中测试气味的扩散,并将它们与人类书面测试套件中发现的气味进行比较。我们分析了由四种模型(GPT-3.5、GPT-4、Mistral 7B 和 Mixtral 8x7B)通过五种即时工程技术生成的 20,500 个 LLM 生成的测试套件的基准,以及来自 34,637 个项目的 780,144 个人工编写的测试套件的数据集。利用 TsDetect(一种能够检测 21 种不同类型的测试气味的最先进工具),我们识别并分析了人类编写的测试套件和大语言模型生成的测试套件中各种测试气味的普遍性和共现性。我们的研究结果揭示了大语言模型在测试生成方面的优势和局限性的新见解。首先,关于流行程度,我们观察到大语言模型经常生成具有常见测试味道的测试,例如幻数测试和断言轮盘赌。其次,就共现而言,某些气味,如 Long Test 和 Useless Test,往往会同时出现在 LLM 生成的套件中,受到特定提示技术的影响。第三,我们发现项目复杂性和大语言模型特定因素(包括模型大小和上下文长度)显着影响测试气味的流行。最后,LLM 生成的测试中的测试气味模式通常反映了人工编写的测试中的模式,这表明训练数据集中存在潜在的数据泄漏。这些见解强调需要改进基于 LLM 的测试生成以获得更清晰的代码,并建议改进 LLM 功能和软件测试实践。

通过语言家族专家的混合,有效地民主化 50 种语言的医学大语言模型

分类: 计算和语言

作者: Guorui Zheng, Xidong Wang, Juhao Liang, Nuo Chen, Yuping Zheng, Benyou Wang

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10626v1

摘要: 将医疗大语言模型适应当地语言可以减少获得医疗保健服务的障碍,但数据稀缺仍然是一个重大挑战,特别是对于资源匮乏的语言而言。为了解决这个问题,我们首先构建高质量的医疗数据集并进行分析以确保其质量。为了利用多语言大语言模型的泛化能力来有效地扩展到资源更有限的语言,我们使用专家混合(MoE)模块化从多语言角度探索大语言模型的内部信息流。从技术上讲,我们提出了一种新颖的 MoE 路由方法,该方法采用特定语言的专家和跨语言路由。受电路理论的启发,我们的路由分析揭示了一种在末端传播的信息流机制:较早的层集中跨语言信息流,而较晚的层则表现出特定于语言的分歧。这种见解直接导致了后 MoE 架构的发展,该架构仅在后面的层中应用稀疏路由,同时保持其他层的密集。实验结果表明,这种方法增强了多语言模型对其他语言的泛化,同时保留了可解释性。最后,为了有效地将模型扩展到 50 种语言,我们利用语言学先验引入了语言族专家的概念,这使得能够在不添加额外参数的情况下扩展语言数量。

Mindalogue:大语言模型支持的非线性交互,用于有效学习和任务探索

分类: 人机交互, 系统与控制, 系统与控制, 68U35(Primary), 68T20(Secondary), H.5.2

作者: Rui Zhang, Ziyao Zhang, Fengliang Zhu, Jiajie Zhou, Anyi Rao

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10570v2

摘要: 当前的生成式人工智能模型如 ChatGPT、Claude 和 Gemini 被广泛用于知识传播、任务分解和创造性思维。然而,它们的线性交互方法往往迫使用户在处理复杂任务时反复比较和复制上下文信息,增加了认知负荷和运营成本。此外,模型响应的模糊性要求用户进一步细化和简化信息。为了解决这些问题,我们开发了“Mindalogue”系统,该系统使用基于“节点+画布”的非线性交互模型,在生成结构化响应的同时提高用户效率和自由度。一项针对 11 位用户的形成性研究为 Mindalogue 的设计提供了信息,然后通过一项针对 16 名参与者的研究对其进行了评估。结果表明,Mindalogue 显着减少了任务步骤,提高了用户对复杂信息的理解。这项研究强调了非线性交互在提高人机交互领域人工智能工具效率和用户体验方面的潜力。

广义对抗性代码建议:利用基于 LLM 的代码完成的上下文

分类: 密码学和安全

作者: Karl Rubel, Maximilian Noppel, Christian Wressnegger

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10526v1

摘要: 虽然方便,但在日常工作中依赖 LLM 支持的代码助手会引发严重的攻击。例如,助手可能会引入微妙的缺陷并向用户建议易受攻击的代码。这些对抗性代码建议可以通过数据中毒引入,因此是模型创建者在不知不觉中引入的。在本文中,我们提供了此类攻击的通用表述,在该领域产生并扩展了相关工作。该公式由两个组成部分定义:首先,特定用户组的提示中出现的触发模式,其次,从提示到对抗性诱饵的嵌入空间中的可学习映射。后者产生了新颖且更灵活的有针对性的攻击策略,允许对手任意为特定用户组选择最合适的触发模式,而不受模式令牌的限制。我们的方向图攻击和即时索引攻击显着提高了隐秘性。我们广泛评估这些攻击的有效性,并仔细研究防御机制,以探索广义对抗性代码建议的局限性。不幸的是,我们发现大多数防御措施只提供很少的保护。

TMGBench:评估大语言模型战略推理能力的系统游戏基准

分类: 人工智能, 计算机科学与博弈论

作者: Haochuan Wang, Xiachong Feng, Lei Li, Zhanyue Qin, Dianbo Sui, Lingpeng Kong

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10479v1

摘要: 大语言模型(LLM)的快速发展加速了其在推理中的应用,策略推理越来越受到关注。为了评价大语言模型的战略推理能力,博弈论以其简洁的结构成为首选方法。然而,目前的研究集中在有限的游戏选择上,导致覆盖率较低。经典的游戏场景存在数据泄露的风险,而现有的基准通常缺乏可扩展性,使得它们不足以评估最先进的模型。为了应对这些挑战,我们提出了游戏类型覆盖全面、场景新颖、组织灵活的基准测试TMGBench。具体来说,我们整合了 2x2 游戏 Robinson-Goforth 拓扑总结的所有 144 种游戏类型,构建为经典游戏。我们还利用合成数据生成,通过主题引导和人工检查来创建多样化、更高质量的场景,称为基于故事的游戏。最后,我们通过将这些游戏视为原子单元并通过顺序、并行和嵌套结构将它们组织成更复杂的形式,为日益强大的大语言模型提供了一个可持续的框架。我们对主流大语言模型的综合评估涵盖了理性推理、鲁棒性、心智理论(ToM)和复杂形式推理的测试。结果揭示了准确性、一致性和对 ToM 的不同掌握方面的缺陷。此外,OpenAI最新推理模型o1-mini在顺序游戏、并行游戏和嵌套游戏上的准确率分别达到了66.6%、60.0%和70.0%,凸显了TMGBench的挑战。

大语言模型会取代时间关系分类中的仅编码器模型吗?

分类: 计算和语言, 人工智能

作者: Gabriel Roccabruna, Massimo Rizzoli, Giuseppe Riccardi

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10476v1

摘要: 事件之间时间关系的自动检测主要通过 RoBERTa 等仅编码器模型进行研究。大型语言模型(LLM)最近在时间推理任务(例如时间问答)中表现出了良好的性能。然而,最近的研究仅测试了大语言模型在检测闭源模型的时间关系方面的表现,限制了这些结果的可解释性。在这项工作中,我们研究了大语言模型在时间关系分类任务中的表现和决策过程。首先,我们评估了七个开放和闭源大语言模型尝试情境学习和轻量级微调方法的表现。结果表明,具有上下文学习功能的大语言模型的表现明显低于基于 RoBERTa 的小型纯编码器模型。然后,我们通过应用可解释的方法深入研究造成这种差距的可能原因。结果表明,大语言模型由于其自回归性质而在此任务中受到限制,这导致他们只关注序列的最后一部分。此外,我们评估这两个模型的词嵌入,以更好地理解它们的预训练差异。代码和微调模型可以分别在 GitHub 上找到。

Ada-K 路由:提高基于 MoE 的大语言模型的效率

分类: 计算和语言

作者: Tongtian Yue, Longteng Guo, Jie Cheng, Xuange Gao, Jing Liu

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10456v2

摘要: 在大型语言模型 (LLM) 时代,专家混合 (MoE) 架构提供了一种很有前景的方法来管理计算成本,同时扩大模型参数。传统的基于 MoE 的 LLM 通常采用静态 Top-K 路由,这会为每个令牌激活固定且相同数量的专家,无论其在上下文中的重要性如何。在本文中,我们提出了一种新颖的 Ada-K 路由策略,该策略动态调整每个令牌的激活专家数量,从而提高计算效率和模型性能之间的平衡。具体来说,我们的策略包含可学习的轻量级分配器模块,这些模块根据每个代币的上下文需求决定定制的专家资源分配。这些分配器被设计为完全可插拔,使其广泛适用于所有主流的基于 MoE 的大语言模型。我们利用近端策略优化(PPO)算法来促进这个不可微决策框架的端到端学习过程。对四种流行基线模型的广泛评估表明,我们的 Ada-K 路由方法显着优于传统的 Top-K 路由。与 Top-K 相比,我们的方法实现了 FLOP 减少超过 25% 和推理加速超过 20%,同时仍然提高了各种基准测试的性能。而且,Ada-K的训练效率很高。即使对于Mixtral-8x22B(基于MoE、具有超过140B参数的LLM),训练时间也被限制在8小时。详细分析表明,更困难的任务、中间层和内容词往往会激活更多的专家,为未来的自适应教育部系统设计提供有价值的见解。训练代码和模型检查点都将公开。

通过大语言模型增强表示相似性融合推进学术知识检索

分类: 信息检索, 计算和语言, 机器学习

作者: Wei Dai, Peng Fu, Chunjing Gan

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10455v1

摘要: 在科技蓬勃发展、信息更新迅速的时代,为研究人员和大众提供跨领域的顶级、前卫的学术见解已成为当务之急。 KDD Cup 2024 AQA 挑战赛旨在推进检索模型,以从适合科学探究的论文中识别相关的学术术语。本文介绍了Robo Space提出的LLM-KnowSimFuser,该方案在比赛中获得了第二名。受到LLM在多个任务上的卓越表现的启发,在仔细分析所提供的数据集后,我们首先使用LLM增强的预训练检索模型进行微调和推理,以引入LLM巨大的语言理解和开放领域知识。大语言模型进入此任务,然后基于从推理结果得出的相似性矩阵进行加权融合。最后,在竞赛数据集上进行的实验表明了我们的提案的优越性,在最终排行榜上取得了 0.20726 的分数。

免费视频大语言模型:快速引导视觉感知,实现高效的免培训视频大语言模型

分类: 计算机视觉和模式识别, 人工智能

作者: Kai Han, Jianyuan Guo, Yehui Tang, Wei He, Enhua Wu, Yunhe Wang

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10441v1

摘要: 视觉语言大型模型在各种多模态任务中取得了显着的成功,但由于视频数据固有的复杂性和计算需求,将它们应用于视频理解仍然具有挑战性。虽然基于培训的视频大语言模型可提供高性能,但它们通常需要大量资源来进行培训和推理。相反,免训练方法通过将预先训练的图像 LLM 模型应用于视频任务而无需额外训练,提供了更有效的替代方案,但由于从视频帧生成大量视觉标记,它们面临推理效率瓶颈。在这项工作中,我们提出了一种新颖的提示引导视觉感知框架(缩写为 \emph{Free Video-LLM}),用于免训练视频 LLM 的有效推理。所提出的框架解耦时空维度,并根据特定任务的提示分别执行时间帧采样和空间 RoI 裁剪。我们的方法有效地减少了视觉标记的数量,同时在多个视频问答基准测试中保持高性能。大量的实验表明,与最先进的视频大语言模型相比,我们的方法以更少的代币实现了具有竞争力的结果,提供了准确性和计算效率之间的最佳权衡。该代码可在 \url{https://github.com/contrastive/FreeVideoLLM} 获取。

基于 LLM 的 Guard 模型的校准以实现可靠的内容审核

分类: 密码学和安全, 计算和语言, 机器学习

作者: Hongfu Liu, Hengguan Huang, Hao Wang, Xiangming Gu, Ye Wang

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10414v1

摘要: 大型语言模型 (LLM) 由于可能生成有害内容或用户试图逃避防护栏而带来重大风险。现有研究开发了基于 LLM 的防护模型,旨在调节威胁 LLM 的输入和输出,通过在部署时阻止违反这些协议的内容来确保遵守安全策略。然而,人们对此类防护模型的可靠性和校准的关注有限。在这项工作中,我们根据经验对 9 个现有的基于 LLM 的保护模型在用户输入和模型输出分类的 12 个基准上进行了置信度校准的全面研究。我们的研究结果表明,当前基于 LLM 的保护模型往往 1)产生过度自信的预测,2)在遭受越狱攻击时表现出严重的校准错误,3)对不同类型的响应模型生成的输出表现出有限的鲁棒性。此外,我们还评估了事后校准方法的有效性,以减少误校准。我们展示了温度缩放的功效,并首次强调了上下文校准对防护模型置信度校准的好处,特别是在缺乏验证集的情况下。我们的分析和实验强调了当前基于 LLM 的防护模型的局限性,并为未来开发经过良好校准的防护模型以实现更可靠的内容审核提供了宝贵的见解。我们还主张在发布未来基于 LLM 的防护模型时纳入置信度校准的可靠性评估。

FairMindSim:在道德困境中人类和大语言模型代理人的行为、情感和信仰的一致性

分类: 计算工程、金融和科学, 人工智能

作者: Yu Lei, Hao Liu, Chengxing Xie, Songjia Liu, Zhiyu Yin, Canyu chen, Guohao Li, Philip Torr, Zhen Wu

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10398v1

摘要: 人工智能对齐是人工智能控制和安全的关键问题。它不仅应该考虑价值中立的人类偏好,还应该考虑道德和伦理因素。在本研究中,我们引入了FairMindSim,它通过一系列不公平的场景来模拟道德困境。我们使用 LLM 代理来模拟人类行为,确保各个阶段的一致性。为了探索各种社会经济动机(我们称之为信念)驱使人类和大语言模型代理人作为旁观者干预涉及他人的不公正情况,以及这些信念如何相互作用以影响个人行为,我们结合了相关社会学领域的知识,并提出了基于递归奖励模型(RRM)的信念奖励对齐行为进化模型(BREM)。我们的研究结果表明,在行为上,GPT-4o 表现出更强的社会正义感,而人类则表现出更丰富的情感。此外,我们还讨论了情绪对行为的潜在影响。这项研究为大语言模型与利他价值观的应用提供了理论基础。

基于 LLM 的代码转换文本生成用于语法错误纠正

分类: 计算和语言

作者: Tom Potter, Zheng Yuan

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10349v1

摘要: 随着全球化的兴起,语码转换(CSW)已成为多语言对话中无处不在的一部分,给自然语言处理(NLP),特别是语法错误纠正(GEC)带来了新的挑战。这项工作探讨了将 GEC 系统应用于 CSW 文本的复杂性。我们的目标包括评估最先进的 GEC 系统在英语作为第二语言 (ESL) 学习者的真实 CSW 数据集上的性能,探索合成数据生成作为数据稀缺的解决方案,并开发一个能够纠正的模型单语和 CSW 文本中的语法错误。我们生成了合成的 CSW GEC 数据,成为该任务的第一个重要数据集,并表明基于此数据训练的模型能够对现有系统进行重大改进。这项工作针对 ESL 学习者,旨在提供教育技术,帮助培养他们的英语语法正确性,同时又不限制他们自然的多语言能力。

通过自动数据标记和细化增强大语言模型的情境学习

分类: 计算和语言

作者: Joseph Shtok, Amit Alfassy, Foad Abo Dahood, Eliyahu Schwartz, Sivan Doveh, Assaf Arbelle

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10348v1

摘要: 事实证明,使用思维链 (CoT) 或上下文学习 (ICL) 可以提高大型语言模型 (LLM) 的许多任务性能,其中涉及使用几个示例来演示解决任务所需的步骤。然而,虽然具有输入输出对的数据集相对容易生成,但提供包括中间步骤的演示需要繁琐的手动工作。这些步骤可以是可执行程序,如在代理流程中,或者是逐步推理,如在 CoT 中。在这项工作中,我们提出了自动数据标记和细化(ADLR),这是一种自动生成和过滤演示的方法,其中包括上述中间步骤,从一小部分手动制作的示例开始。我们展示了 ADLR 在基于代码的表 QA 和数学推理方面的优势,实现了高达 5.5% 的增益。补充材料中提供了实现我们方法的代码,并将提供。

LLM 路由和级联的统一方法

分类: 计算和语言

作者: Jasper Dekoninck, Maximilian Baader, Martin Vechev

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10347v1

摘要: 大语言模型(LLM)的广泛适用性增加了许多针对特定任务的各种规模的微调模型的可用性。给定一组此类专用模型,为了最大限度地提高整体性能,重要的是找出为给定用户查询选择正确模型的最佳策略。有效的策略可以极大地提高整体性能,甚至可以改进单个大型整体模型。现有的方法通常分为两类:路由(为每个查询选择一个模型)和级联(运行一系列越来越大的模型,直到获得满意的答案)。然而,两者都有明显的局限性:路由提交到初始模型缺乏灵活性,而级联需要按顺序执行每个模型,这可能效率低下。此外,这些策略在什么条件下被证明是最佳的仍不清楚。在这项工作中,我们得出了路由和级联的最佳策略。在此分析的基础上,我们提出了一种称为级联路由的新方法,它将路由的适应性与级联的成本效率结合起来。我们的实验表明,级联路由在各种设置中始终优于路由和级联,提高了输出质量并降低了计算成本,从而为模型选择问题提供了统一且有效的解决方案。

锁定微调大语言模型的安全

分类: 计算和语言

作者: Minjun Zhu, Linyi Yang, Yifan Wei, Ningyu Zhang, Yue Zhang

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10343v1

摘要: 通常需要在其他数据集上微调大型语言模型 (LLM),以针对特定的下游任务优化它们。然而,现有的安全调整措施限制了推理过程中的有害行为,不足以减轻微调过程中的安全风险。令人担忧的是,仅用 10 个有毒句子进行微调就可以使模型遵守有害指令。我们引入了SafetyLock,这是一种新颖的对准干预方法,可通过高效且可转移的机制保持强大的安全性后期微调。 SafetyLock 利用我们的发现,即微调模型保留与其基本模型类似的安全相关激活表示。这种洞察使我们能够提取我们所说的元安全锁,一组安全偏差方向,代表与原始模型中的安全响应相关的关键激活模式。然后,我们可以将这些方向普遍应用于微调模型,以提高其安全性。通过跨多个代币维度搜索激活方向,SafetyLock 实现了增强的鲁棒性和可转移性。 SafetyLock 可在 0.01 秒内重新对齐微调模型,而无需额外的计算成本。我们的实验表明,SafetyLock 可以将有毒微调模型中的有害指令响应率从 60% 降低到 1% 以下。它在性能和效率上都超越了传统方法,提供了可扩展的非侵入性解决方案,以确保定制大语言模型的安全。我们对各种微调场景的分析证实了 SafetyLock 的稳健性,主张将其集成到一致的大语言模型的安全协议中。代码发布于https://github.com/zhu-minjun/SafetyLock。

SkillAggregation:无参考的 LLM 相关聚合

分类: 计算和语言, 机器学习

作者: Guangzhi Sun, Anmol Kagrecha, Potsawee Manakul, Phil Woodland, Mark Gales

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10215v1

摘要: 大型语言模型 (LLM) 越来越多地用于评估 NLP 任务,因为它们能够生成类似人类的判断。最初使用的是单个大语言模型,但最近的研究表明,使用多个大语言模型作为法官可以提高绩效。利用多重判断的一个重要步骤是组合阶段,即聚合。 NLP 中的现有方法要么为所有 LLM 判断分配相同的权重,要么专为特定任务(例如幻觉检测)而设计。这项工作的重点是聚合来自没有可用参考标签的多个系统的预测。提出了一种称为 SkillAggregation 的新方法,该方法学习结合 LLM 法官的估计,而不需要额外的数据或基本事实。它扩展了为图像分类而开发的 Crowdlayer 聚合方法,以在推理过程中利用判断估计。该方法与 HaluEval-Dialogue、TruthfulQA 和 Chatbot Arena 任务上的一系列标准聚合方法进行了比较。 SkillAggregation 在所有任务上都优于 Crowdlayer,并且在大多数任务上比所有方法都具有最佳性能。

以高质量数据为关键的最小调整以释放大语言模型的长输出

分类: 计算和语言

作者: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10210v2

摘要: 随着大型语言模型迅速发展以支持更长的上下文,它们生成更大长度输出的能力存在显着差异。最近的研究表明,造成这种不平衡的主要原因可能是对齐训练期间缺乏长输出数据。根据这一观察结果,人们尝试将基础模型与填补空白的数据重新对齐,从而使模型能够在收到指示时生成冗长的输出。在本文中,我们探讨了数据质量在调整模型以实现长输出方面的影响,以及从人类对齐(指导或聊天)模型的起点这样做的可能性。通过仔细的数据管理,我们表明,只需一小部分训练数据实例和计算,就可以在我们的调整模型中实现类似的性能改进。此外,我们通过将我们的调优方法应用于多个模型来评估此类方法的普遍性。我们的研究结果表明,虽然开箱即用的不同模型生成长输出的能力各不相同,但我们使用精简计算通过高质量数据对其进行调整的方法,在我们实验的所有模型中始终产生显着的改进。我们已经公开了我们精心策划的长写能力调整数据集、模型调整和评估的实现以及微调后的模型,所有这些都可以公开访问。

参数冲突是否会阻碍大语言模型的持续学习?

分类: 机器学习, 计算和语言

作者: Shuo Yang, Kun-Peng Ning, Yu-Yang Liu, Jia-Yu Yao, Yong-Hong Tian, Yi-Bing Song, Li Yuan

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10179v1

摘要: 大型语言模型 (LLM) 在连续学习多个任务时经常会遭受灾难性遗忘,这使得持续学习 (CL) 对于其动态部署至关重要。现有的最先进(SOTA)方法,例如 O-LoRA,通常专注于构建正交性任务,以将参数相互依赖性与各个领域解耦。在本文中,我们揭示了构建非碰撞参数是一个更关键的因素解决 CL 挑战。我们的理论和实验分析表明,非碰撞参数可以提供更好的任务正交性,这是一个充分但不必要的条件。此外,来自多个领域的知识将被保存在非冲突参数子空间中,使得忘记以前看到的数据变得更加困难。利用这一见解,我们提出了非冲突低秩适应(N-LoRA),这是一种简单而有效的方法,利用低冲突率来增强大语言模型中的 CL。多个 CL 基准的实验结果表明,N-LoRA 比 SOTA 方法具有更优越的性能(+2.9)、更高的任务正交性(*4.1 倍)和更低的参数冲突(*58.1 倍)。

通过句末 MLP 重新加权进行越狱指令调整的大语言模型

分类: 计算和语言, 人工智能

作者: Yifan Luo, Zhennan Zhou, Meitan Wang, Bin Dong

发布时间: 2024-10-14

链接: http://arxiv.org/abs/2410.10150v1

摘要: 在本文中,我们研究了指令微调大语言模型(LLM)的安全机制。我们发现,重新加权 MLP 神经元会显着损害模​​型的安全性,尤其是对于句末推理中的 MLP。我们假设大语言模型会评估句尾推理过程中提示的危害性,而 MLP 层在此过程中发挥着关键作用。基于这个假设,我们开发了两种新颖的白盒越狱方法:特定提示方法和通用提示方法。特定提示方法针对单个提示并即时优化攻击,而一般提示方法是离线预训练的,可以泛化到看不见的有害提示。我们的方法在 7 个流行的开源 LLM 中展示了强大的性能,大小范围从 2B 到 72B。此外,我们的研究提供了对指令调整大语言模型安全漏洞的见解,并加深了对大语言模型内部机制的理解。

多大语言模型编排引擎,提供个性化、上下文丰富的帮助

分类: 多代理系统

作者: Sumedh Rasal

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.10039v1

摘要: 近年来,大型语言模型在自然语言理解和生成方面表现出了卓越的能力。然而,这些模型经常与幻觉作斗争并保持长期的上下文相关性,特别是在处理私人或本地数据时。本文提出了一种新颖的架构,通过集成利用多个 LLM 以及时态图数据库和矢量数据库的编排引擎来解决这些挑战。所提出的系统捕获用户交互,构建对话的图形表示,并存储随着时间的推移映射关键概念、实体和行为之间关联的节点和边。这种基于图形的结构使系统能够不断发展对用户偏好的理解,从而提供个性化且与上下文相关的答案。除此之外,矢量数据库对私有数据进行编码,以在需要时提供详细信息,从而允许大语言模型访问和合成复杂的响应。为了进一步提高可靠性,编排引擎协调多个大语言模型来生成全面的答案并迭代地反映其准确性。其结果是一个自适应的、以隐私为中心的人工智能助手,能够提供更深入、更相关的交互,同时最大限度地降低幻觉的风险。本文概述了该系统的架构、方法和潜在应用,为个性化、情境感知的人工智能辅助提供了新的方向。

评估大语言模型在做出道德判断时的性别偏见

分类: 计算和语言

作者: Divij Bajaj, Yuanyuan Lei, Jonathan Tong, Ruihong Huang

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09992v1

摘要: 大型语言模型 (LLM) 在众多自然语言处理 (NLP) 任务中表现出了卓越的能力。然而,这些模型仍然无法避免社会偏见,尤其是性别偏见等限制。这项工作调查了当前封闭式和开源大语言模型是否存在性别偏见,特别是当被要求提供道德意见时。为了评估这些模型,我们策划并引入了一个新的数据集 GenMO(道德观点中的性别偏见),其中包含分别以男性和女性角色为主角的平行短篇故事。具体来说,我们测试了 GPT 系列(GPT-3.5-turbo、GPT-3.5-turbo-instruct、GPT-4-turbo)、Llama 3 和 3.1 系列(8B/70B)、Mistral-7B 和 Claude 3 系列(十四行诗和作品)。令人惊讶的是,尽管采用了安全检查,我们测试的所有生产标准模型都显示出明显的性别偏见,GPT-3.5-turbo 在 24% 的样本中给出了有偏见的意见。此外,所有模型都一致偏爱女性角色,GPT 在 68-85% 的情况下表现出偏见,Llama 3 在大约 81-85% 的情况下表现出偏见。此外,我们的研究调查了模型参数对性别偏见的影响,并探讨了大语言模型揭示道德决策偏见的现实情况。

当中立摘要不那么中立时:量化大语言模型生成的新闻摘要中的政治中立性

分类: 计算和语言, 计算机与社会

作者: Supriti Vijay, Aman Priyanshu, Ashique R. KhudaBukhsh

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09978v1

摘要: 在一个社会叙事越来越受到算法管理影响的时代,调查大语言模型的政治中立性是一个重要的研究问题。这项研究通过对两极分化新闻文章的抽象文本摘要的视角,提出了量化大语言模型政治中立性的新视角。我们考虑当前美国政治中的五个紧迫问题:堕胎、枪支管制/权利、医疗保健、移民和 LGBTQ+ 权利。通过包含 20,344 篇新闻文章的大量语料库,我们的研究揭示了几个知名大语言模型中存在亲民主偏见的一致趋势,其中枪支管制和医疗保健表现出最明显的偏见(最大两极分化差异为 -9.49% 和 -6.14%,分别)。进一步的分析发现,大语言模型输出的词汇在这些有分歧的主题上有很强的趋同性(倾向民主党的代表有 55% 的重叠,共和党的代表有 52%)。距离美国大选还有几个月的时间,我们认为我们的发现很重要。

公平诉诸司法:逻辑大语言模型展现出希望

分类: 人工智能, 计算机与社会, 计算机科学中的逻辑

作者: Manuj Kant, Manav Kant, Marzieh Nabi, Preston Carlson, Megan Ma

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09904v1

摘要: 美国司法系统的成本和复杂性限制了许多美国人获得法律解决方案的机会。大型语言模型(LLM)在改善诉诸司法的机会方面具有巨大潜力。然而,在一致性和可靠性至关重要的法律环境中应用人工智能和大语言模型的一个主要挑战是需要系统 2 推理。在本文中,我们探讨了大语言模型与逻辑编程的结合,以增强他们的推理能力,使他们的战略能力更接近熟练律师的水平。我们的目标是将法律和合同转化为可应用于特定法律案件的逻辑程序,重点是保险合同。我们证明,虽然 GPT-4o 未能将简单的健康保险合同编码为逻辑代码,但最近发布的 OpenAI o1-preview 模型成功了,举例说明了具有先进 System 2 推理能力的大语言模型如何扩大诉诸司法的机会。

人民币:全面标杆大语言模型衔接奖励模式

分类: 计算和语言

作者: Enyu Zhou, Guodong Zheng, Binghai Wang, Zhiheng Xi, Shihan Dou, Rong Bao, Wei Shen, Limao Xiong, Jessica Fan, Yurong Mou, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09893v1

摘要: 奖励模型 (RM) 指导大型语言模型 (LLM) 的协调,引导它们走向人类偏好的行为。评估 RM 是更好地调整 LLM 的关键。然而,由于评估数据的分布有限以及与对齐目标不密切相关的评估方法,当前对RM的评估可能无法与其对齐绩效直接对应。为了解决这些限制,我们提出了RMB,这是一个全面的RM基准,涵盖超过49个现实场景,并包括成对和Best-of-N(BoN)评估,以更好地反映RM在指导对齐优化方面的有效性。我们证明了我们的基准与下游对齐任务性能之间存在正相关性。基于我们的基准,我们对最先进的 RM 进行了广泛的分析,揭示了以前的基准未发现的泛化缺陷,并强调了生成 RM 的潜力。此外,我们深入研究了奖励模型中的开放性问题,特别考察了多数投票对奖励模型评估的有效性,并分析了生成性 RM 的影响因素,包括评估标准和指导方法的影响。我们的评估代码和数据集可在 https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark 获取。

模型不是由单一提示构建的:基于 LLM 的领域建模与问题分解

分类: 软件工程

作者: Ru Chen, Jingwei Shen, Xiao He

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09854v1

摘要: 领域建模是模型驱动工程的重要组成部分,需要工程师拥有丰富的领域知识和经验。当系统描述高度复杂时,建模任务可能变得特别具有挑战性和耗时。大型语言模型 (LLM) 可以通过从系统描述自动生成初始对象模型来提供帮助。尽管大语言模型已经展示了卓越的代码生成能力,但他们仍然难以使用单个提示生成模型。在现实世界的领域建模中,工程师通常将复杂的任务分解为易于解决的子任务,从而显着控制复杂性并提高模型质量。受此启发,我们通过问题分解提出了一种基于LLM的领域建模方法,类似于开发人员的建模过程。遵循传统的建模指南,我们将模型生成任务分为几个子任务,即类生成、关联和聚合生成以及继承生成。对于每个子任务,我们通过选择更有效的查询词并提供必要的建模知识来精心设计提示,以释放大语言模型的建模潜力。为了总结所有子任务解决方案,我们实现了一个集成到标准 Ecore 编辑器中的对象证明工具,要求大语言模型根据系统描述生成对象模型。我们使用来自不同应用领域的 20 个系统来评估我们的方法。初步结果表明,我们的方法通过提高大多数用于建模类、属性和关系的系统中的召回值和 F1 分数,优于基于单一提示的提示。

通过大规模基于 LLM 的代理模拟生成动态和文本图

分类: 计算和语言

作者: Jiarui Ji, Runlin Lei, Jialing Bi, Zhewei Wei, Yankai Lin, Xuchen Pan, Yaliang Li, Bolin Ding

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09824v1

摘要: 图生成是社会、技术和科学分析领域广泛研究的一项基本任务。为了对动态图演化过程进行建模,传统的基于规则的方法很难捕获图中的社区结构,而深度学习方法只专注于拟合训练图。这限制了现有的图生成器生成符合预定义规则或与训练数据集非常相似的图,从而导致动态图生成的性能较差。鉴于图是人类活动中成对交互产生的抽象表示,对人类交互的真实模拟可以为图演化机制提供更深入的见解。随着大型语言模型(LLM)在模拟人类行为方面的日益认可,我们引入了 GraphAgent-Generator(GAG),这是一种基于模拟的新型动态图生成框架。在没有大语言模型的训练或微调过程的情况下,我们的框架有效地复制了已建立的网络科学理论中的七个宏观结构特征,同时在具体评估指标上超过图扩展任务中现有基线31%。通过节点分类任务,我们验证了 GAG 有效地保留了生成的文本丰富图中的节点文本特征的真实世界网络特征。此外,通过结合并行加速,GAG 支持通过基于 LLM 的大规模代理模拟生成多达近 10 万个节点或 1000 万条边的图,最低加速可达 90.4%。源代码可在 https://anonymous.4open.science/r/GraphAgent-2206 获取。

用多样化的提示剂扩大搜索空间:LLM数学推理的有效采样方法

分类: 计算和语言, 人工智能

作者: Gisang Lee, Sangwoo Park, Junyoung Park, Andrew Chung, Sieun Park, Yoonah Park, Byungju Kim, Min-gyu Cho

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09780v1

摘要: 大型语言模型 (LLM) 在包括数学推理在内的许多复杂任务中表现出了卓越的能力。然而,传统方法严重依赖于确保单一提示方法的自我一致性,这限制了对多样化问题解决策略的探索。本研究通过对数学推理领域内的不同提示方法进行实验分析来解决这些局限性。我们的研究结果表明,每种方法都探索不同的搜索空间,并且随着问题复杂性的增加,这种差异变得更加明显。为了利用这种现象,我们应用了高效的采样过程,统一组合来自这些不同方法的样本,这不仅扩大了最大搜索空间,而且与单一方法相比,以更少的运行次数实现了更高的性能。特别是,在名为 MATH-hard 的 MATH 数据集的难题子集中,实现了最大搜索空间,同时比单一方法平均少使用约 43% 的运行次数。这些发现强调了整合多种解决问题策略以增强大语言模型推理能力的重要性。

EasyJudge:一款易于使用的大语言模型综合反应评估工具

分类: 人工智能, 计算和语言

作者: Yijie Li, Yuan Sun

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09775v1

摘要: 最近,使用大型语言模型(LLM)来判断其他LLM的质量的趋势越来越明显。许多研究都采用闭源模型,主要使用GPT-4作为评估器。然而,由于GPT-4模型的闭源性,使用其作为评估器会带来透明度、可控性和成本效益等问题。一些研究人员已转向使用经过微调的开源大语言模型作为评估者。然而,现有的开源评估LLM普遍缺乏用户友好的可视化工具,并且没有针对加速模型推理进行优化,这给资源有限的研究人员和跨领域的研究人员带来了不便。本文介绍了 EasyJudge,这是一种为评估重要语言模型响应而开发的模型。它轻量、精确、高效且用户友好,具有直观的可视化界面,易于部署和使用。 EasyJudge 使用详细的数据集和精细的提示进行模型优化,实现与人工和专有模型评估的高度一致性。通过定量方法优化的模型使 EasyJudge 能够在消费级 GPU 甚至 CPU 上高效运行。我们还提供详细的分析和案例研究,以进一步揭示我们的方法的潜力。

克服大语言模型的过度自信:RLHF 的奖励校准

分类: 计算和语言

作者: Jixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09724v1

摘要: 语言模型校准是指模型的置信度与其响应的实际性能之间的一致性。虽然之前的研究指出了大型语言模型 (LLM) 中的过度自信现象,并表明经过人类反馈强化学习 (RLHF) 训练的 LLM 对更尖锐的输出概率过于自信,但在本研究中,我们发现 RLHF 往往会领先于模型表达对自己的反应的口头过度自信。我们调查了这种过度自信的根本原因,并证明用于近端策略优化(PPO)的奖励模型表现出对高置信度分数的固有偏见,无论响应的实际质量如何。基于这一见解,我们提出了两种 PPO 变体:PPO-M:具有校准奖励建模的 PPO 和 PPO-C:具有校准奖励计算的 PPO。 PPO-M 将明确的置信度分数集成到奖励模型训练中,从而校准奖励模型以更好地捕获响应质量和言语置信度之间的一致性。 PPO-C 根据当前奖励与过去奖励的移动平均值之间的差异来调整 PPO 期间的奖励分数。 PPO-M和PPO-C都可以无缝集成到当前的PPO管道中,并且不需要额外的黄金标签。我们在 Llama3-8B 和 Mistral-7B 上跨六个不同的数据集(包括多项选择和开放式生成)评估我们的方法。实验结果表明,我们的两种方法都可以减少校准误差并保持与标准 PPO 相当的性能。我们进一步表明,它们不会损害开放式对话设置中的模型功能。

3DS:LLM医学领域适配的分解难度数据选择案例研究

分类: 机器学习, 人工智能, 计算和语言

作者: Hongxin Ding, Yue Fang, Runchuan Zhu, Xinke Jiang, Jinyang Zhang, Yongxin Xu, Xu Chu, Junfeng Zhao, Yasha Wang

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.10901v1

摘要: 大型语言模型 (LLM) 在一般任务中表现出色,但由于特定领域知识有限,在医疗保健等专业领域中表现不佳。用于领域适应的监督微调 (SFT) 数据构建通常依赖于启发式方法,例如 GPT-4 注释或手动数据选择,以数据为中心,重点关注假定的多样化、高质量数据集。然而,这些方法忽视了模型固有的知识分布,引入了噪声、冗余和不相关的数据,导致所选数据与模型的学习任务不匹配,导致性能不佳。为了解决这个问题,我们提出了一个以模型为中心的两阶段数据选择框架,即分解难度数据选择(3DS),它将数据与模型的知识分布对齐以优化适应。在第一阶段,我们通过显式对齐应用提示驱动的数据选择,其中模型根据其内部知识过滤不相关或冗余的数据。在阶段2中,我们执行分解难度数据选择,其中数据选择由我们定义的难度分解指导,使用三个指标:指令理解、响应置信度和响应正确性。此外,基于注意力的重要性加权机制可以捕获令牌重要性,以实现更准确的难度校准。这种两阶段方法确保所选数据不仅与模型的知识和偏好保持一致,而且还对模型的学习提出适当的挑战,从而实现更有效、更有针对性的领域适应。在医疗领域的案例研究中,我们对现实世界的医疗数据集进行了大量实验,证明 3DS 相对于现有方法的准确性提高了 5.29% 以上。我们的数据集和代码将在 https://anonymous.4open.science/r/3DS-E67F 上开源。

MoIN:内向专家的混合升级大语言模型

分类: 机器学习, 人工智能, 计算和语言

作者: Ajinkya Tejankar, KL Navaneet, Ujjawal Panchal, Kossar Pourahmadi, Hamed Pirsiavash

发布时间: 2024-10-13

链接: http://arxiv.org/abs/2410.09687v1

摘要: 本文的目标是改进(升级改造)现有的大型语言模型,而无需继续对全模型进行预训练。这个想法是将预训练数据分成语义相关的组,并在每个子集上训练专家。专家采用添加在冻结基础模型顶部的轻量级适配器的形式。在推理过程中,传入的查询首先被路由到最相关的专家,然后加载到基础模型上进行前向传递。与典型的专家混合 (MoE) 模型不同,我们方法中的专家不会与其他专家一起进行单个查询。因此,我们称他们为“内向”专家。冻结基本模型并将专家保留为轻量级适配器,可以在训练和推理过程中实现极端并行性。所有专家的培训可以并行进行,他们之间没有任何沟通渠道。同样,推理也可以通过将专家分布在不同的 GPU 上并将每个请求路由到包含其相关专家的 GPU 来高度并行化。我们实现了该方法的概念验证版本,并展示了我们方法的有效性。

改变大语言模型词汇的适配器:哪些语言受益最大?

分类: 计算和语言

作者: HyoJung Han, Akiko Eriguchi, Haoran Xu, Hieu Hoang, Marine Carpuat, Huda Khayrallah

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09644v1

摘要: 词汇适应将新词汇集成到预先训练的语言模型 (LM) 中,可以扩展到新语言并减轻令牌过度碎片化。然而,现有方法因其对启发式或外部嵌入的依赖而受到限制。我们提出了 VocADT,这是一种使用适配器模块进行词汇自适应的新颖方法,这些适配器模块经过训练可以学习现有嵌入的最佳线性组合,同时保持模型权重固定。 VocADT 提供灵活且可扩展的解决方案,无需外部资源或语言限制。跨 11 种语言(具有各种脚本、资源可用性和碎片),我们证明 VocADT 在各种多语言任务中优于原始 Mistral 模型和其他基线。我们发现拉丁文字语言和高度碎片化的语言从词汇适应中受益最多。我们进一步在机器翻译的生成任务上对适应模型进行微调,发现微调后词汇适应仍然是有益的,并且 VocADT 是最有效的方法。

SLiM:LLM 的一次性量化稀疏加低秩逼近

分类: 机器学习, 人工智能, 表现

作者: Mohammad Mozaffari, Maryam Mehri Dehnavi

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09615v1

摘要: 大型语言模型 (LLM) 彻底改变了自然语言理解和生成任务,但由于参数大小较大,内存消耗高且推理时间慢。传统的模型压缩技术(例如量化和修剪)可以缓解这些问题,但通常需要重新训练才能保持准确性,而这在计算上是昂贵的。本文介绍了 SLiM,这是一种使用一次性量化稀疏加低秩近似来压缩 LLM 的新颖方法。 SLiM 通过将对称量化方法 (SLiM-Quant) 与基于显着性的低秩近似相结合,消除了昂贵的重新训练的需要。我们的方法减少了量化误差,同时利用与加速硬件架构兼容的稀疏表示。此外,我们提出了一种参数高效的微调方法,与传统的量化感知训练相比,它可以显着减少开销。对于 2:4 等稀疏模式,SLiM 的模型精度提高了 5.4%,并且微调步骤进一步将精度提高了 5.8%,展现了最先进的性能。这项工作提供了一种在内存受限的环境中有效部署大型模型而不影响准确性的途径。

你是人类吗?揭露大语言模型的对抗性基准

分类: 计算和语言, 人工智能

作者: Gilad Gressel, Rahul Pankajakshan, Yisroel Mirsky

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09569v1

摘要: 大型语言模型 (LLM) 在对话中表现出令人震惊的模仿人类的能力,引发了人们对其在诈骗和欺骗中可能被滥用的担忧。人类有权知道自己是否正在攻读大语言模型。我们评估基于文本的提示,这些提示被设计为实时揭露大语言模型冒名顶替者的挑战。为此,我们编译并发布了一个开源基准数据集,其中包括利用大语言模型的指令跟踪机制导致角色偏差的“隐性挑战”,以及测试大语言模型执行通常对人类来说容易的简单任务的能力的“显性挑战”但对于 LLM 来说很难。我们对 LMSYS 排行榜中的 9 个领先模型的评估表明,显式挑战在 78.4% 的情况下成功检测到 LLM,而隐式挑战在 22.9% 的情况下有效。用户研究验证了我们的方法在现实世界中的适用性,人类在明确的挑战上表现优于大语言模型(成功率分别为 78% 和 22%)。我们的框架出乎意料地显示,许多研究参与者正在使用大语言模型来完成任务,这证明了其在检测人工智能冒名顶替者和人类滥用人工智能工具方面的有效性。这项工作满足了高风险对话中对可靠、实时 LLM 检测方法的迫切需求。

SLAM-AAC:通过大语言模型通过释义增强和 CLAP-Refine 增强音频字幕

分类: 音频和语音处理, 声音

作者: Wenxi Chen, Ziyang Ma, Xiquan Li, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Kai Yu, Xie Chen

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09503v1

摘要: 自动音频字幕 (AAC) 旨在为输入音频信号生成自然的文本描述。音频预训练模型和大语言模型 (LLM) 的最新进展显着增强了音频理解和文本推理能力,使 AAC 的改进成为可能。在本文中,我们提出 SLAM-AAC 通过 LLM 进一步增强释义增强和 CLAP-Refine 来增强 AAC。我们的方法使用自监督 EAT 模型来提取细粒度的音频表示,然后通过轻量级线性层与文本嵌入对齐。使用 LoRA 适配器可以有效地微调字幕生成 LLM。受到机器翻译中反向翻译方法的启发,我们在预训练期间实现了释义增强以扩展 Clotho 数据集。这种策略有助于缓解稀缺音频文本对的限制,并从一小组音频剪辑中生成更多样化的字幕。在推理过程中,我们引入了即插即用的 CLAP-Refine 策略来充分利用多个解码输出,类似于语音识别中的 n 最佳重新评分策略。使用 CLAP 模型进行音频文本相似度计算,我们可以选择由多个搜索波束生成的与输入音频最匹配的文本描述。实验结果表明,SLAM-AAC在Clotho V2和AudioCaps上实现了state-of-the-art的性能,超越了之前的主流模型。

Power-Softmax:通过加密数据实现安全的 LLM 推理

分类: 机器学习, 密码学和安全, F.2.2; I.2.7

作者: Itamar Zimerman, Allon Adir, Ehud Aharoni, Matan Avitan, Moran Baruch, Nir Drucker, Jenny Lerner, Ramy Masalha, Reut Meiri, Omri Soceanu

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09457v1

摘要: 用于实现隐私保护 LLM 的现代加密方法(例如同态加密 (HE))要求 LLM 具有多项式形式。形成这样的表示具有挑战性,因为 Transformer 包含非多项式组件,例如 Softmax 和层归一化。以前的方法要么直接用大次多项式近似预训练模型,这比 HE 效率低,要么在训练前用更容易近似的基元替换非多项式组件,例如具有点注意力的 Softmax。后一种方法可能会带来可扩展性挑战。我们提出了一种新的 HE 友好的自注意力变体,它提供了稳定的训练形式,并且很容易用多项式逼近以进行安全推理。我们的工作引入了第一个具有 32 层和超过 10 亿个参数的多项式 LLM,其大小超出了之前模型的十倍以上。由此产生的模型展示了与相同尺寸的标准变压器相当的推理和情境学习(ICL)能力,代表了该领域的突破。最后,我们为加密数据的每次计算提供了详细的延迟细分,为进一步优化铺平了道路,并探索了依赖于我们的 HE 友好变体和标准变压器的变压器之间的感应偏差的差异。我们的代码作为补充附在后面。

跳过多模式大语言模型中的计算

分类: 计算机视觉和模式识别, 机器学习

作者: Mustafa Shukor, Matthieu Cord

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09454v1

摘要: 大型语言模型(LLM)在文本和多模态领域都取得了显着的成功。然而,这种成功通常伴随着巨大的计算成本,特别是在处理冗长的多模式输入序列时。这引发了许多致力于提高训练和推理过程效率的努力。在本研究中,我们研究了多模态大型语言模型(MLLM)在推理过程中的计算冗余。我们提出了不同的方法来跳过计算,例如跳过整个块、FFN 或自注意力(SA)层。此外,我们还探索了某些层的并行化,例如 FFN 和 SA 层。我们的研究结果验证了 (1) 在推理时可以避免大量计算,特别是对于视觉问答 (VQA) 等任务。 (2) 在训练期间跳过计算可以恢复 97% 的原始性能,即使跳过一半的块或删除 70% 的权重。或者,(3) 使用较小的大语言模型进行适当的培训可以产生与 2 或 3 倍大的大语言模型相当的性能。总之,我们将研究范围扩展到最近的 MLLM,例如 LLaVA-1.5,显示出类似的观察结果。我们的工作表明,MLLM 内部存在冗余计算,因此有可能在不牺牲性能的情况下显着提高推理成本。代码可在此处获取:https://github.com/mshukor/ima-lmms。

FlatQuant:平坦度对于 LLM 量化很重要

分类: 计算和语言, 机器学习

作者: Yuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09426v1

摘要: 最近,量化已广泛用于大型语言模型(LLM)的压缩和加速。由于 LLM 中存在异常值,因此平坦化权重和激活以最小化等距量化点的量化误差至关重要。先前的研究探索了各种预量化变换来抑制异常值,例如每通道缩放和哈达玛变换。然而,我们观察到这些变换后的权重和激活仍然可以保持陡峭和扩展。在本文中,我们提出了 FlatQuant(快速且可学习的仿射变换),这是一种新的训练后量化方法,用于增强权重和激活的平坦度。我们的方法确定了针对每个线性层量身定制的最佳仿射变换,并通过轻量级目标在数小时内进行校准。为了减少运行时开销,我们将 Kronecker 分解应用于变换矩阵,并将 FlatQuant 中的所有操作融合到单个内核中。大量实验表明,FlatQuant 建立了一个新的最先进的量化基准。例如,它在 LLaMA-3-70B 模型上实现了小于 $\textbf{1}%$ 的 W4A4 量化精度下降,超过 SpinQuant $\textbf{7.5}%$。对于推理延迟,FlatQuant 将预量化转换引起的速度从 QuaRot 的 0.26 倍减少到仅为 $\textbf{0.07x}$,从而使预填充加速高达 $\textbf{2.3x}$ 和 $\textbf{1.7 x}$ 分别用于解码加速。代码位于:\url{https://github.com/ruikangliu/FlatQuant}。

FB-Bench:用于评估大语言模型对人类反馈响应能力的细粒度多任务基准

分类: 计算和语言, 人工智能

作者: Youquan Li, Miao Zheng, Fan Yang, Guosheng Dong, Bin Cui, Weipeng Chen, Zenan Zhou, Wentao Zhang

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09412v1

摘要: 人类反馈对于人类与大型语言模型 (LLM) 之间的交互至关重要。然而,现有的研究主要集中在单轮对话中对大语言模型进行基准测试。即使在为多轮对话设计的基准中,用户输入也通常是独立的,忽略了现实世界使用场景中人类反馈的细微差别和复杂性。为了填补这一研究空白,我们引入了 FB-Bench,这是一种细粒度的多任务基准测试,旨在评估大语言模型在现实使用场景中对人类反馈的响应能力。 FB-Bench 借鉴了两个主要交互场景,包含 734 个精心策划的样本,涵盖八种任务类型、五种响应缺陷类型和九种反馈类型。我们广泛评估了一系列流行的大语言模型,揭示了它们在不同交互场景中表现的显着差异。进一步的分析表明,任务、人工反馈和先前响应的缺陷也会显着影响大语言模型的响应能力。我们的研究结果强调了当前模型的优点和局限性,为未来的研究提供了宝贵的见解和方向。 FB-Bench 的工具包和数据集均可在 https://github.com/PKU-Baichuan-MLSystemLab/FB-Bench 获取。

ELICIT:通过外部上下文能力增强大语言模型

分类: 计算和语言

作者: Futing Wang, Jianhao Yan, Yue Zhang, Tao Lin

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09343v1

摘要: 增强大型语言模型的自适应能力是研究和应用的关键追求。传统的微调方法需要大量的数据和计算资源,特别是为了增强特定的能力,而上下文学习则因需要适当的演示和有效的令牌使用而受到限制。受通过任务向量表达上下文学习能力和模块化概念的启发,我们提出了 \alg,一个由两个模块组成的框架,旨在有效地存储和重用任务向量,以在无需额外训练或推理的情况下引发模型的多种能力代币。我们全面的实验和分析表明,我们的管道在不同的输入格式、任务和模型架构之间具有高度的可移植性。 ELICIT 充当即插即用的性能增强器,可实现模型功能的自适应启发。通过外部存储和重用表示上下文学习能力的向量,\alg 不仅展示了操作模块化能力的潜力,而且还显着增强了大型语言模型的性能、多功能性、适应性和可扩展性。我们的代码将在 https://github.com/LINs-lab/ELICIT 上公开提供。

LLM$\times$MapReduce:使用大型语言模型简化长序列处理

分类: 计算和语言

作者: Zihan Zhou, Chong Li, Xinyi Chen, Shuo Wang, Yu Chao, Zhili Li, Haoyu Wang, Rongqiao An, Qi Shi, Zhixing Tan, Xu Han, Xiaodong Shi, Zhiyuan Liu, Maosong Sun

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09342v1

摘要: 扩大大型语言模型(LLM)的上下文窗口已成为一个重要的研究领域,特别是对于涉及极长文本的应用程序。在这项工作中,我们提出了一种新颖的免训练框架来处理长文本,利用分而治之的策略来实现全面的文档理解。所提出的 LLM$\times$MapReduce 框架将整个文档分成几个块供 LLM 读取,然后聚合中间答案以产生最终输出。分而治之的长文本处理框架的主要挑战在于分割文档时丢失重要的远程信息的风险,这可能导致模型根据分割的文本产生不完整或不正确的答案。破坏的远程信息可以分为两类:块间依赖和块间冲突。我们设计了一个结构化信息协议来更好地处理块间依赖,并设计了一个上下文置信校准机制来解决块间冲突。实验结果表明,LLM$\times$MapReduce 可以优于代表性的开源和商业长上下文 LLM,并且适用于多种不同的模型。

通过对抗性扰动阻止大语言模型辅助的编程入门作业中的作弊行为

分类: 计算和语言, 计算机与社会, 软件工程

作者: Saiful Islam Salim, Rubin Yuchan Yang, Alexander Cooper, Suryashree Ray, Saumya Debray, Sazzadur Rahaman

发布时间: 2024-10-12

链接: http://arxiv.org/abs/2410.09318v2

摘要: 虽然 CoPilot 和 ChatGPT 等基于大型语言模型 (LLM) 的编程助手可以帮助提高专业软件开发人员的工作效率,但它们也可能会促进计算机编程入门课程中的作弊。假设教师对工业强度模型的控制有限,本文研究了 5 个广泛使用的大语言模型在一系列入门编程问题上的基线性能,检查了降低其性能的对抗性扰动,并描述了旨在理解的用户研究的结果这种扰动在阻碍入门编程作业的实际代码生成方面的效果。用户研究表明,i) 扰动总共使平均正确性得分降低了 77%,ii) 这些扰动导致的正确性下降取决于其可检测性。

一次一步:结合大语言模型和静态分析为编程任务生成下一步提示

分类: 软件工程, 人工智能, 计算机与社会, 人机交互

作者: Anastasiia Birillo, Elizaveta Artser, Anna Potriasaeva, Ilya Vlasov, Katsiaryna Dzialets, Yaroslav Golubev, Igor Gerasimov, Hieke Keuning, Timofey Bryksin

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09268v1

摘要: 学生在学习编码时常常难以解决编程问题,尤其是当他们必须在线完成时,在线工作最常见的缺点之一是缺乏个性化帮助。此帮助可以作为下一步提示生成来提供,即向学生展示他们下一步需要执行哪些具体小步骤才能获得正确的解决方案。生成此类提示的方法有很多,其中大型语言模型 (LLM) 是目前研究最活跃的方法之一。虽然大语言模型是一种很有前景的提供个性化帮助的技术,但将其与静态分析等其他技术相结合可以显着提高输出质量。在这项工作中,我们利用这个想法并提出了一种新颖的系统,为编程任务提供文本和代码提示。所提出方法的流程使用思想链提示技术,由三个不同的步骤组成:(1) 生成子目标 - 从当前学生的解决方案中继续执行任务的操作列表,(2) 生成代码实现下一个子目标,以及 (3) 生成文本来描述所需的操作。在第二步中,我们对生成的代码应用静态分析以控制其大小和质量。该工具是作为开源 JetBrains Academy 插件的修改版实现的,支持学生的 IDE 课程。为了评估我们的方法,我们提出了管道中所有步骤的标准列表,并进行了两轮专家验证。最后,我们在来自两所大学的 14 名学生的课堂上评估下一步的提示。我们的结果表明,两种形式的提示(文本和代码)对学生都有帮助,并且所提出的系统帮助他们继续完成编码任务。

ReasonPlanner:利用时态知识图和大语言模型增强动态环境中的自主规划

分类: 计算和语言, 人工智能, 人机交互

作者: Minh Pham Dinh, Munira Syed, Michael G Yankoski, Trenton W. Ford

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09252v1

摘要: 规划和执行交互式任务,例如进行实验以确定未知物质的熔点,对人类来说很简单,但对自主代理提出了重大挑战。我们介绍 ReasonPlanner,这是一种新颖的多面手智能体,专为反思性思维、规划和交互式推理而设计。该代理利用 LLM 通过构建基于时间知识图的世界模型来规划假设轨迹。代理使用自然语言演员-评论家模块与环境进行交互,其中演员将想象的轨迹转化为一系列可操作的步骤,而评论家则确定是否需要重新规划。 ReasonPlanner 在 ScienceWorld 基准上的性能显着优于之前最先进的基于提示的方法 1.8 倍以上,同时样本效率更高且可解释性更高。它仅依赖于冻结权重,因此不需要梯度更新。 ReasonPlanner 无需机器学习专业知识即可部署和使用,因此可供广泛的用户使用。

基准通货膨胀:使用复古保留揭示大语言模型绩效差距

分类: 机器学习, 人工智能, 计算和语言

作者: Jacob Haimes, Cenny Wenner, Kunvar Thaman, Vassil Tashev, Clement Neo, Esben Kran, Jason Schreiber

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09247v1

摘要: 许多大型语言模型 (LLM) 的训练数据都受到测试数据的污染。这意味着用于评估大语言模型的公共基准受到损害,表明基准分数与实际能力之间存在绩效差距。理想情况下,可以使用私人坚持集来准确验证分数。不幸的是,大多数基准测试并不存在这样的数据集,并且事后构建足够相似的数据集并非易事。为了解决这些问题,我们引入了一种系统方法,用于(i)回顾性地为目标数据集构建保留数据集,(ii)证明该追溯保留数据集的统计不可区分性,以及(iii)比较两个数据集上的大语言模型以量化由于数据集的公开可用性而导致的性能差距。将这些方法应用于 TruthfulQA,我们构建并发布了 Retro-Misconceptions,我们评估了 20 个 LLM,发现其中一些的分数夸大了多达 16 个百分点。我们的结果表明,公共基准分数并不总是准确评估模型属性,并强调了改进该领域数据实践的重要性。

使用现成的大语言模型通过逐步揭示本体来查询企业数据

分类: 数据库, 人工智能

作者: C. Civili, E. Sherkhonov, R. E. K. Stirewalt

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09244v1

摘要: 众所周知,在将自然语言查询转换为 SQL 或 SPARQL 等正式查询语言时,本体可以提高大型语言模型 (LLM) 的准确性。与大语言模型合作时,有两种利用本体的方法。一是微调模型,即用特定领域知识来增强模型。另一种是零样本提示方法,其中本体作为输入问题的一部分提供。不幸的是,由于 LLM 的代币大小限制,现代企业的本体通常太大而无法适应提示。我们提出了一种解决方案,可以逐步揭示回答给定问题所需的“刚好足够”的本体。

通过 LLM 生成的进度功能自动奖励

分类: 机器学习, 人工智能, 计算和语言

作者: Vishnu Sarukkai, Brennan Shacklett, Zander Majercik, Kush Bhatia, Christopher Ré, Kayvon Fatahalian

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09187v1

摘要: 大型语言模型 (LLM) 有潜力通过利用跨各种任务的广泛领域知识来自动化奖励工程。然而,他们通常需要多次迭代试错才能生成有效的奖励函数。这个过程的成本很高,因为评估每个采样的奖励函数需要完成每个函数的完整策略优化过程。在本文中,我们介绍了一个 LLM 驱动的奖励生成框架,该框架能够在具有挑战性的 Bi-DexHands 基准 \textbf{与之前的奖励函数样本少 20$\times$ 上生成最先进的策略}最先进的工作。我们的主要见解是,我们将生成特定于任务的奖励的问题简化为粗略估计\emph{任务进度}的问题。我们的两步解决方案利用大语言模型的任务领域知识和代码合成能力来编写 \emph{进度函数} 来估计给定状态的任务进度。然后,我们使用这种进展概念来离散化状态,并使用低维状态空间生成基于计数的内在奖励。我们表明,LLM 生成的进度函数和基于计数的内在奖励的结合对于我们的性能提升至关重要,而诸如通用基于哈希的计数或直接使用进度作为奖励函数等替代方案则不足。

大语言模型的混合培训方法:利用真实数据和合成数据来增强特定领域应用中的模型性能

分类: 计算和语言

作者: Alexey Zhezherau, Alexei Yanockin

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09168v1

摘要: 这项研究探索了一种混合方法,通过集成现实世界和合成数据来微调大型语言模型 (LLM),以提高模型性能,特别是在生成准确且上下文相关的响应方面。通过利用将转录的真实交互与高质量合成会话相结合的数据集,我们的目标是克服稀缺、嘈杂和特定领域真实数据的局限性。采用合成人物角色和场景来增强培训多样性。该研究评估了三种模型:基础模型、根据真实数据微调的模型以及混合微调模型。实验结果表明,混合模型在特定垂直应用中始终优于其他模型,在所有指标中获得最高分。进一步的测试证实了混合模型在不同场景下的卓越适应性和上下文理解。这些发现表明,结合真实数据和合成数据可以显着提高大语言模型的稳健性和上下文敏感性,特别是在特定领域和垂直用例中。

走向值得信赖的代码大语言模型:以数据为中心的协同审计框架

分类: 软件工程

作者: Chong Wang, Zhenpeng Chen, Tianlin Li, Yilun Zhao, Yang Liu

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09048v1

摘要: 由大语言模型支持的编码和开发助手已在程序员的工作流程中变得普遍。然而,尽管大语言模型被广泛使用,但人们对代码的可信度的担忧仍然存在。现有的大部分研究都集中在培训或评估上,提出了培训和评估中的利益相关者对模型可信度的理解是否一致以及他们是否可以朝着统一方向前进的问题。在本文中,我们提出了统一可信度审计框架 DataTrust 的愿景,该框架采用以数据为中心的方法,协同强调训练和评估数据及其相关性。 DataTrust旨在将评估中的模型可信度指标与训练中的数据质量指标联系起来。它自动检查训练数据并使用合成数据评估模型的可信度,将特定评估数据的潜在原因归因于相应的训练数据并细化指标连接。此外,由 DataTrust 提供支持的可信度领域将吸引众包输入并提供定量结果。我们概述了各个利益相关者可以从 DataTrust 中获得的好处,并讨论它带来的挑战和机遇。

AttnGCG:通过注意力操纵增强对大语言模型的越狱攻击

分类: 计算和语言

作者: Zijun Wang, Haoqin Tu, Jieru Mei, Bingchen Zhao, Yisen Wang, Cihang Xie

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09040v1

摘要: 本文研究了基于变压器的大型语言模型(LLM)对越狱攻击的脆弱性,特别关注基于优化的贪婪坐标梯度(GCG)策略。我们首先观察到攻击的有效性与模型的内部行为之间存在正相关性。例如,当模型更加关注旨在确保 LLM 安全一致性的系统提示时,攻击往往不太有效。基于这一发现,我们引入了一种增强方法,可以操纵模型的注意力分数以促进 LLM 越狱,我们将其称为 AttnGCG。根据经验,AttnGCG 在不同的 LLM 中显示出攻击效率的持续改进,在 Llama-2 系列中实现了约 7% 的平均增长,在 Gemma 系列中实现了约 10% 的平均增长。我们的策略还展示了针对看不见的有害目标和 GPT-3.5 和 GPT-4 等黑盒 LLM 的强大攻击可转移性。此外,我们注意到我们的注意力分数可视化更容易解释,使我们能够更好地了解我们的有针对性的注意力操纵如何促进更有效的越狱。我们在 https://github.com/UCSC-VLAA/AttnGCG-attack 发布了代码。

AgentHarm:衡量 LLM 代理危害性的基准

分类: 机器学习, 人工智能, 计算和语言

作者: Maksym Andriushchenko, Alexandra Souly, Mateusz Dziemian, Derek Duenas, Maxwell Lin, Justin Wang, Dan Hendrycks, Andy Zou, Zico Kolter, Matt Fredrikson, Eric Winsor, Jerome Wynne, Yarin Gal, Xander Davies

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.09024v1

摘要: LLM 对越狱攻击的鲁棒性,即用户设计提示来规避安全措施和滥用模型功能,主要针对充当简单聊天机器人的 LLM 进行了研究。与此同时,LLM 代理(使用外部工具并可以执行多阶段任务)如果滥用可能会带来更大的风险,但其稳健性仍未得到充分探索。为了促进对 LLM 代理滥用的研究,我们提出了一个名为 AgentHarm 的新基准。该基准包括 110 个明显恶意的代理任务(440 个增强版),涵盖 11 个危害类别,包括欺诈、网络犯罪和骚扰。除了衡量模型是否拒绝有害的代理请求之外,在 AgentHarm 上获得良好分数还需要越狱代理在攻击后保持其能力以完成多步骤任务。我们评估了一系列领先的大语言模型,发现(1)领先的大语言模型在没有越狱的情况下惊人地符合恶意代理请求,(2)简单的通用越狱模板可以适应有效的越狱代理,以及(3)这些越狱使得连贯和恶意多步骤代理行为并保留模型功能。我们公开发布 AgentHarm,以便对基于 LLM 的代理进行简单可靠的攻击和防御评估。我们在 https://huggingface.co/ai-safety-institute/AgentHarm 上公开发布该基准。

SubZero:内存高效 LLM 微调的随机子空间零阶优化

分类: 机器学习, 人工智能

作者: Ziming Yu, Pan Zhou, Sike Wang, Jia Li, Hua Huang

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08989v1

摘要: 事实证明,微调大型语言模型 (LLM) 对于各种下游任务是有效的。然而,随着大语言模型规模的增长,反向传播的内存需求变得越来越令人望而却步。零阶 (ZO) 优化方法通过使用前向传递来估计梯度,提供了一种节省内存的替代方案,但梯度估计的方差通常与模型的参数维度$\unicode{x2013}$线性缩放,这对于大语言模型来说是一个重大问题。在本文中,我们提出了随机子空间零阶(SubZero)优化来解决LLM的高维度带来的挑战。我们引入了专为大语言模型量身定制的低秩扰动,可显着减少内存消耗,同时提高训练性能。此外,我们证明我们的梯度估计非常接近反向传播梯度,比传统的 ZO 方法具有更低的方差,并且在与 SGD 结合时确保收敛。实验结果表明,与 MeZO 等标准 ZO 方法相比,SubZero 在各种语言建模任务中增强了微调性能并实现了更快的收敛。

大语言模型群体中社会习俗的动态:自发出现、集体偏见和临界点

分类: 多代理系统, 人工智能, 计算机与社会, 物理与社会

作者: Ariel Flint Ashery, Luca Maria Aiello, Andrea Baronchelli

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08948v1

摘要: 社会习俗是社会经济生活的基础。随着大量人工智能代理之间以及与人类之间的互动日益增多,他们形成共同约定的能力将决定他们如何有效地协调行为、融入社会并影响社会。在这里,我们使用模拟交互来研究大型语言模型(LLM)代理群体内约定的动态。首先,我们表明全球接受的社会习俗可以自发地产生于交流大语言模型之间的本地互动。其次,我们展示了在此过程中如何出现强烈的集体偏见,即使个体代理人似乎没有偏见。第三,我们研究了坚定的大语言模型少数群体如何通过建立新的社会习俗来推动社会变革。我们证明,一旦这些少数群体达到临界规模,他们就能不断推翻既定的行为。在所有情况下,将实验结果与最小多智能体模型的预测进行对比,使我们能够分离出 LLM 智能体的具体作用。我们的结果阐明了人工智能系统如何在没有明确编程的情况下自主制定规范,并对设计符合人类价值观和社会目标的人工智能系统具有影响。

欧洲语言的跨语言大语言模型评估

分类: 计算和语言, 人工智能, 机器学习

作者: Klaudia Thellmann, Bernhard Stadler, Michael Fromm, Jasper Schulze Buschhoff, Alex Jude, Fabio Barth, Johannes Leveling, Nicolas Flores-Herr, Joachim Köhler, René Jäkel, Mehdi Ali

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08928v1

摘要: 大型语言模型 (LLM) 的兴起彻底改变了多种语言和任务的自然语言处理。然而,以一致且有意义的方式评估多种欧洲语言的大语言模型表现仍然具有挑战性,特别是由于多语言基准的稀缺。我们引入了针对欧洲语言量身定制的跨语言评估方法。我们采用五个广泛使用的基准的翻译版本来评估 21 种欧洲语言的 40 名大语言模型的能力。我们的贡献包括检查翻译基准的有效性、评估不同翻译服务的影响,以及为大语言模型提供多语言评估框架,其中包括新创建的数据集:EU20-MMLU、EU20-HellaSwag、EU20-ARC、EU20-TruthfulQA 和 EU20 -GSM8K。基准和结果公开发​​布,以鼓励多语言大语言模型评估的进一步研究。

使用 LASSO 进行测试驱动的软件实验:LLM 基准测试示例

分类: 软件工程, 人工智能, D.2.1; D.2.4; I.2.2; I.2.7

作者: Marcus Kessel

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08911v1

摘要: 经验软件工程面临着一个关键差距:缺乏用于快速开发和执行测试驱动软件实验(TDSE)的标准化工具,即涉及软件主题的执行以及对其“事实上”的观察和分析的实验运行时行为。在本文中,我们提出了一个名为 LASSO 的通用分析平台,它提供了一组最小的特定领域语言和数据结构来执行 TDSE。通过为用户提供可执行脚本语言来设计和执行 TDSE,除了静态确定的属性之外,LASSO 还可以有效评估运行时语义和执行特性。我们提供了一个 TDSE 示例,它展示了 LASSO 脚本编写功能的实际优势,即通过独立、可重用和可扩展的研究脚本来评估 LLM 代码生成的可靠性。 LASSO 平台可免费获取:https://softwareobservatorium.github.io/,演示视频可在 YouTube 上获取:https://youtu.be/tzY9oNTWXzw

大语言模型中 SAE 功能跨层的演变

分类: 机器学习

作者: Daniel Balcells, Benjamin Lerner, Michael Oesterle, Ediz Ucar, Stefan Heimersheim

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08869v1

摘要: 基于变压器的语言模型的稀疏自动编码器通常是每层独立定义的。在这项工作中,我们分析相邻层中特征之间的统计关系,以了解特征如何通过前向传播演变。我们为特征及其最相似的下一层邻居提供图形可视化界面,并跨层构建相关特征的社区。我们发现相当多的特征是从前一层传递过来的,一些特征可以表示为先前特征的准布尔组合,而一些特征在后面的层中变得更加专业。

LLM 和 VLM 时代的音频描述生成:可转移生成人工智能技术回顾

分类: 计算和语言, 计算机视觉和模式识别

作者: Yingqiang Gao, Lukas Fischer, Alexa Lintner, Sarah Ebling

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08860v1

摘要: 音频描述 (AD) 用作声音评论,旨在帮助盲人和视力障碍人士访问电视和电影等环境中的数字媒体内容。作为一种通常由经过培训的 AD 专业人员提供的无障碍服务,AD 的生成需要大量的人力,使得该过程既耗时又昂贵。自然语言处理 (NLP) 和计算机视觉 (CV) 方面的最新进展,特别是大型语言模型 (LLM) 和视觉语言模型 (VLM) 方面的进展,使自动广告生成又近了一步。本文回顾了 LLM 和 VLM 时代与 AD 生成相关的技术:我们讨论了如何应用最先进的 NLP 和 CV 技术来生成 AD 并确定未来的重要研究方向。

通过令牌级表征解码代码大语言模型中的秘密记忆

分类: 密码学和安全, 软件工程

作者: Yuqing Nie, Chong Wang, Kailong Wang, Guoai Xu, Guosheng Xu, Haoyu Wang

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08858v1

摘要: 代码大型语言模型 (LLM) 在生成、理解和操作编程代码方面表现出了卓越的能力。然而,他们的训练过程无意中导致了敏感信息的记忆,带来了严重的隐私风险。现有的大语言模型记忆研究主要依赖于即时工程技术,但存在幻觉广泛、目标敏感信息提取效率低等局限性。在本文中,我们提出了一种新颖的方法来描述 Code LLM 基于令牌概率生成的真实和虚假秘密。我们确定了区分真实秘密和幻觉秘密的四个关键特征,为区分真实秘密和虚假秘密提供了见解。为了克服现有工作的局限性,我们提出了 DESEC,这是一种两阶段方法,利用从已识别特征派生的令牌级特征来指导令牌解码过程。 DESEC 包括使用代理 Code LLM 构建离线令牌评分模型,并使用评分模型通过重新分配令牌可能性来指导解码过程。通过使用不同数据集对四个最先进的 Code LLM 进行广泛的实验,我们证明了 DESEC 与现有基线相比在实现更高的合理率和提取更多真实秘密方面的卓越性能。我们的研究结果强调了我们的代币级方法在对与 Code LLM 相关的隐私泄露风险进行广泛评估方面的有效性。

基于混合LLM-DDQN的V2I通信与自动驾驶联合优化

分类: 机器学习, 人工智能, 网络和互联网架构, 系统与控制, 系统与控制

作者: Zijiang Yan, Hao Zhou, Hina Tabassum, Xue Liu

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08854v1

摘要: 大型语言模型(LLM)由于其出色的推理和理解能力,最近受到了极大的关注。这项工作探索将大语言模型应用于车辆网络,旨在共同优化车辆到基础设施(V2I)通信和自动驾驶(AD)政策。我们部署LLM用于AD决策,以最大限度地提高交通流量并避免碰撞,以确保道路安全,并使用双深度Q学习算法(DDQN)进行V2I优化,以最大限度地提高接收数据速率并减少频繁切换。特别是,对于支持 LLM 的 AD,我们采用欧几里得距离来识别以前探索过的 AD 经验,然后 LLM 可以从过去的好和坏决策中学习以进一步改进。然后,基于LLM的AD决策将成为V2I问题中状态的一部分,DDQN将相应地优化V2I决策。之后,AD和V2I决策迭代优化直至收敛。这种迭代优化方法可以更好地探索大语言模型和传统强化学习技术之间的相互作用,揭示了使用大语言模型进行网络优化和管理的潜力。最后,模拟表明我们提出的混合 LLM-DDQN 方法优于传统的 DDQN 算法,表现出更快的收敛和更高的平均奖励。

揭开分子秘密:用于可解释和可校准分子特性预测的大语言模型增强线性模型

分类: 机器学习, 人工智能

作者: Zhuoran Li, Xu Sun, Wanyu Lin, Jiannong Cao

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08829v1

摘要: 可解释的分子特性预测对于药物发现和材料科学等各个科学领域至关重要。尽管提供了内在的可解释性,线性模型仍难以捕获复杂的非线性模式。另一方面,大型语言模型(LLM)通过强大的推理能力产生准确的预测,但无法为其预测提供化学上有意义的解释。这项工作提出了一个名为 MoleX 的新颖框架,它利用大语言模型知识构建一个简单而强大的线性模型,用于准确的分子特性预测和忠实的解释。 MoleX 的核心是使用简单的线性模型对复杂的分子结构-性质关系进行建模,并通过大语言模型知识和精心设计的校准策略进行增强。具体来说,为了从 LLM 嵌入中提取最大量的任务相关知识,我们采用信息瓶颈启发的微调和稀疏性降维。然后使用这些信息嵌入来拟合线性模型以进行可解释的推理。此外,我们引入残差校准来解决由于线性模型对复杂 LLM 嵌入的表达能力不足而产生的预测误差,从而恢复 LLM 的预测能力并提高整体准确性。从理论上讲,我们提供了数学基础来证明 MoleX 的可解释性。大量实验表明,MoleX 在分子特性预测方面优于现有方法,在预测性能、可解释性和效率方面树立了新的里程碑。特别是,MoleX 支持 CPU 推理并加速大规模数据集处理,与 LLM 相比,其性能提高了 300 倍,且参数少了 100,000 个。此外,校准将模型性能提高了 12.7%,且不影响可解释性。

大语言模型在注释过程中默认使用哪些人口统计数据?

分类: 计算和语言

作者: Christopher Bagdon, Aidan Combs, Lynn Greschner, Roman Klinger, Jiahui Li, Sean Papay, Nadine Probol, Yarik Menchaca Resendiz, Johannes Schäfer, Aswathy Velutharambath, Sabine Weber, Amelie Wührl

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08820v1

摘要: 注释者的人口统计和文化背景会影响他们在文本注释中分配的标签 - 例如,一位老年妇女可能会觉得读一条写给“兄弟”的消息很冒犯,但一位青少年男性可能会觉得合适。因此,重要的是要承认标签的变化,以免低估社会成员的代表性。在使用大型语言模型 (LLM) 进行数据注释的背景下,根据这一观察结果开发了两个研究方向,即 (1) 研究 LLM 的偏差和固有知识;(2) 通过利用人口统计信息操纵提示,在输出中注入多样性。我们将这两条研究结合起来,并提出了一个问题:在没有给出人口统计数据的情况下,大语言模型会求助于哪些人口统计数据。为了回答这个问题,我们评估了大语言模型本质上模仿的人类注释者的哪些属性。此外,我们将非人口统计条件提示和安慰剂条件提示(例如,“您是住在 5 号门的注释者”)与人口统计条件提示(“您是一名 45 岁的男性,是礼貌注释专家”)进行了比较。您如何评价{实例}”)。我们在 POPQUORN 数据集上研究这些问题的礼貌和冒犯性注释,该数据集是一个以受控方式创建的语料库,用于调查基于人口统计的人类标签变化,迄今为止尚未用于基于大语言模型的分析。我们观察到与性别、种族和年龄有关的人口提示的显着影响,这与之前没有发现此类影响的研究形成鲜明对比。

StructRAG:通过推理时间混合信息结构化促进大语言模型的知识密集型推理

分类: 计算和语言, 人工智能

作者: Zhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08815v1

摘要: 检索增强生成(RAG)是在许多基于知识的任务中有效增强大型语言模型(LLM)的关键手段。然而,现有的 RAG 方法很难处理知识密集型推理任务,因为这些任务所需的有用信息严重分散。这一特性使得现有的 RAG 方法很难准确识别关键信息并通过这种噪声增强进行全局推理。在本文中,受人类在处理知识密集型推理时将原始信息转换为各种结构化知识的认知理论的启发,我们提出了一个新的框架StructRAG,它可以识别手头任务的最佳结构类型,将原始文档重建为这种结构化格式,并根据结果结构推断答案。跨各种知识密集型任务的大量实验表明,StructRAG 实现了最先进的性能,尤其是在具有挑战性的场景中表现出色,展示了其作为在复杂的现实应用中增强大语言模型的有效解决方案的潜力。

不要转换代码,对转换进行编码:使用大语言模型实现精确代码重写

分类: 机器学习

作者: Chris Cummins, Volker Seeker, Jordi Armengol-Estapé, Aram H. Markosyan, Gabriel Synnaeve, Hugh Leather

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08806v1

摘要: 用于重写、重构和优化代码的工具应该快速且正确。大型语言模型(LLM)本质上不具备这些品质。然而,使用大语言模型来改进代码仍然存在巨大的机会。我们探索使用大语言模型不是为了转换代码,而是为了代码转换。我们提出了一种思想链方法,从少量输入/输出代码示例合成代码转换,其中包含执行和反馈。与直接重写方法不同,LLM 生成的转换易于检查、调试和验证。重写的逻辑是明确编码的并且易于适应。与 LLM 重写相比,运行代码转换所需的计算量很小。我们在 16 个 Python 代码转换上测试了我们的方法,发现 LLM 生成的转换对于其中 7 个来说是完全精确的,并且比在其他代码上直接重写 LLM 更不精确。我们希望鼓励进一步的研究来提高LLM代码重写的精度。

DeltaDQ:通过分组丢弃和单独量化实现微调 LLM 的超高增量压缩

分类: 机器学习, 人工智能

作者: Yanfeng Jiang, Zelan Yang, Bohua Chen, Shen Li, Yong Li, Tao Li

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08666v1

摘要: 大型语言模型通过监督微调在各种下游任务上实现了卓越的性能。然而,下游任务和实际需求的多样性使得部署多个全参数微调模型具有挑战性。当前压缩增量权重的方法很难实现超高压缩,无法最大限度地减少部署开销。为了解决上述问题,我们提出了一种新颖的分布驱动的增量压缩框架DeltaDQ,它利用Group-wise Dropout和单独量化来实现增量权重的超高压缩。我们观察到,增量权重的矩阵计算中间结果表现出极小的方差和最小-最大范围特征,称为平衡中间结果。利用这种现象,我们引入了 Group-wise Dropout,以使用最佳组大小对增量权重执行 dropout。此外,使用分离量化,对稀疏权重进行量化和分解以实现较低比特。实验结果表明,与跨不同参数范围的 WizardMath 和 WizardCoder 模型的基线相比,DeltaDQ 实现了 16 倍的压缩,并且精度有所提高。此外,DeltaDQ还展示了超高压缩比的能力,WizardMath-7B模型实现了128倍压缩,WizardMath-70B模型实现了512倍压缩。

QEFT:LLM 高效微调的量化

分类: 计算和语言, 机器学习

作者: Changhun Lee, Jun-gyu Jin, Younghyun Cho, Eunhyeok Park

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08661v1

摘要: 随着大型语言模型 (LLM) 微调的使用快速增长,在保持推理效率的同时优化微调变得非常重要。然而,这是一项具有挑战性的任务,因为它需要在各个方面进行改进,包括推理速度、微调速度、内存消耗,以及最重要的模型质量。先前的研究试图通过将量化与微调相结合来实现这一目标,但未能同时增强所有四个方面。在这项研究中,我们提出了一种新的轻量级技术,称为高效微调量化(QEFT)。 QEFT 加速推理和微调,有强大的理论基础支持,提供高度灵活性,并保持良好的硬件兼容性。我们广泛的实验表明,QEFT 与全精度参数高效微调的质量和多功能性相匹配,同时使用更少的资源。我们的代码可在 https://github.com/xvyaward/qeft 获取。

大语言模型下游绩效预测的缩放法则

分类: 计算和语言, 人工智能, 机器学习

作者: Yangyi Chen, Binxuan Huang, Yifan Gao, Zhengyang Wang, Jingfeng Yang, Heng Ji

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08527v1

摘要: 在训练之前精确估计大型语言模型 (LLM) 的下游性能对于指导其开发过程至关重要。缩放法则分析利用一系列明显较小的采样语言模型 (LM) 的统计数据来预测目标 LLM 的性能。对于下游性能预测,关键挑战在于大语言模型的新兴能力超出了特定于任务的计算阈值。在这项工作中,我们将重点放在预训练损失上,将其作为性能估计的计算效率更高的指标。我们的两阶段方法包括首先使用一系列采样模型估计将计算资源(例如 FLOP)映射到预训练损失的函数,然后在关键的“紧急”之后将预训练损失映射到下游任务性能阶段”。在初步实验中,该 FLP 解决方案使用一系列高达 3B 的采样 LM 准确预测了具有 7B 和 13B 参数的 LLM 的性能,分别实现了 5% 和 10% 的误差幅度,并且显着优于 FLOPs-to-Performance 方法。这催生了 FLP-M,这是一种性能预测的基本方法,它解决了在预训练期间集成多个来源的数据集的实际需求,特别是将通用语料库与代码数据混合以准确表示常见需求。 FLP-M 扩展了幂律分析函数,以基于跨数据源的 FLOP 来预测特定领域的预训练损失,并采用两层神经网络对多个特定领域损失与下游性能之间的非线性关系进行建模。通过利用在特定比率上训练的 3B LLM 和一系列较小样本的 LM,FLP-M 可以有效地预测 3B 和 7B LLM 在大多数基准测试中的各种数据混合的性能,误差范围在 10% 以内。

通过语义拓扑度量表示引导的大语言模型推理进行空中视觉和语言导航

分类: 机器人技术, 人工智能

作者: Yunpeng Gao, Zhigang Wang, Linglin Jing, Dong Wang, Xuelong Li, Bin Zhao

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08500v1

摘要: 空中视觉和语言导航(VLN)是一项新颖的任务,使无人机(UAV)能够通过自然语言指令和视觉提示在室外环境中进行导航。由于室外航空场景中复杂的空间关系,这仍然具有挑战性。在本文中,我们提出了一种用于空中 VLN 任务的端到端零样本框架,其中引入大语言模型(LLM)作为我们的动作预测代理。具体来说,我们开发了一种新颖的语义拓扑度量表示(STMR)来增强大语言模型的空间推理能力。这是通过提取地标的与指令相关的语义掩码并将其投影到包含周围地标的位置信息的自上而下的地图中来实现的。此外,该图被转换为具有距离度量的矩阵表示作为LLM的文本提示,以根据指令进行动作预测。在真实和模拟环境中进行的实验成功证明了我们方法的有效性和鲁棒性,在 AerialVLN-S 数据集上的 Oracle 成功率 (OSR) 分别实现了 15.9% 和 12.5% 的提高(绝对)。

JurEE 而非法官:保护 llm 与小型专业编码器集成的交互

分类: 机器学习, 人工智能

作者: Dom Nasrabadi

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08442v1

摘要: 我们推出了 JurEE,这是一组高效、仅编码器的变压器模型,旨在加强基于 LLM 的系统中人工智能与用户交互的保障。现有的 LLM-as-Judge 方法经常难以对风险分类法进行泛化,并且仅提供文本输出,而 JurEE 与此不同,JurEE 提供了涵盖各种普遍风险的概率风险估计。我们的方法利用不同的数据源,并采用渐进式合成数据生成技术(包括大语言模型辅助增强)来增强模型的稳健性和性能。我们创建了一个内部基准测试,其中包含其他信誉良好的基准测试,例如 OpenAI 审核数据集和 ToxicChat,我们发现 JurEE 的性能显着优于基准模型,展示了卓越的准确性、速度和成本效益。这使得它特别适合需要严格内容审核的应用程序,例如面向客户的聊天机器人。编码器整体的模块化设计允许用户设置定制的风险阈值,从而增强其在各种安全相关应用中的多功能性。 JurEE 的集体决策过程中,每个专门的编码器模型都对最终输出做出贡献,不仅提高了预测准确性,还增强了可解释性。这种方法为需要强大内容审核的大规模实施提供了比传统大语言模型更高效、更高效、更经济的替代方案。

$\forall$uto$\exists$$\lor!\land$L:真理维护和推理任务的大语言模型自主评估

分类: 人工智能, 计算和语言

作者: Rushang Karia, Daniel Bramblett, Daksh Dobhal, Siddharth Srivastava

发布时间: 2024-10-11

链接: http://arxiv.org/abs/2410.08437v1

摘要: 本文提出了$\forall$uto$\exists$$\lor!\land$L,这是一种在正式任务中扩展大型语言模型(LLM)评估的新基准,具有明确的正确性概念,例如翻译中的真实性维护和逻辑推理。 $\forall$uto$\exists$$\lor!\land$L 是第一个基准范式,它提供了在无需人工标记的情况下扩展 LLM 客观评估所需的几个关键优势:(a) 通过以下方式评估日益复杂的 LLM 的能力:自动生成不同难度级别的任务; (b) 自动生成基本事实,消除对昂贵且耗时的人工注释的依赖; (c) 使用自动生成的随机数据集,以减轻连续大语言模型与许多当代基准中使用的静态数据集过度拟合的能力。实证分析表明,LLM 在 $\forall$uto$\exists$$\lor!\land$L 上的表现高度反映了其在专注于翻译和推理任务的各种其他基准测试中的表现,使其成为有价值的在手工整理的数据集很难获取和/或更新的环境中进行自主评估范例。

大语言模型可以推进民主价值观吗?

分类: 计算机与社会

作者: Seth Lazar, Lorenzo Manuali

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08418v1

摘要: 大语言模型是有史以来用于分析和生成语言内容的最先进的工具之一。民主审议和决策在几个不同的阶段涉及语言的产生和分析。因此,我们很自然地会问,我们操纵语言的最佳工具是否有助于我们最重要的语言任务之一。研究人员和从业者最近询问大语言模型是否可以通过利用总结内容的能力以及汇总对总结内容的意见的能力来支持民主审议,并通过预测他们对看不见的选择的偏好来代表选民。在本文中,我们评估使用大语言模型来履行这些及相关职能是否真正促进了激发这些实验的民主价值观。我们认为,记录显然是好坏参半。在权力和资源的背景不平等以及深刻的道德和政治分歧的情况下,我们应该小心,不要以自动化民主进程中非工具性有价值的组成部分的方式使用大语言模型,否则有可能取代公平和透明协调相互竞争的利益和价值观所必需的决策程序。然而,虽然我们认为大语言模型应该远离正式的民主决策过程,但我们认为它们可以很好地利用来加强非正式公共领域:在民主政府与其所服务的政体之间进行调解的舞台,其中政治团体寻求信息,形成公民公众,并要求其领导人承担责任。

饥饿泛化:LLM知识图谱学习中普遍性的提示

分类: 机器学习, 人工智能

作者: David D. Baek, Yuxiao Li, Max Tegmark

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08255v1

摘要: 受可解释性和可靠性的推动,我们研究了神经网络在图学习期间如何表示知识,我们发现了普遍性的暗示,即在一系列模型大小(从 $10^2$ 到 $10^9$ 参数)和上下文( MLP 玩具模型、LLM 情境学习和 LLM 培训)。我们表明,这些吸引子表示通过利用知识图关系的属性(例如对称性和元传递性)来优化对未见过的示例的泛化。我们通过证明 LLM 和更简单的神经网络可以缝合来找到对这种普遍性的实验支持,即将一个模型的第一部分与另一个模型的最后部分缝合,仅通过仿射或几乎仿射变换来介导。我们假设这种向简单性和泛化的动态是由“饥饿智能”驱动的:通过最大限度地减少稀缺或与其他任务竞争的资源的使用的压力来最大限度地减少过度拟合。

从探索到掌握:让大语言模型能够通过自我驱动的互动掌握工具

分类: 计算和语言, 人工智能

作者: Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, Ji-Rong Wen

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08197v1

摘要: 工具学习使大型语言模型 (LLM) 能够通过调用工具与外部环境进行交互,这是减轻预训练数据固有限制的有效策略。在此过程中,工具文档发挥着至关重要的作用,为大语言模型提供使用说明,从而促进工具的有效利用。本文重点讨论由于现有以人为中心的工具文档固有的不足和不准确而缩小大语言模型和外部工具之间的理解差距的关键挑战。我们提出了一个新颖的框架,DRAFT,旨在通过分析大语言模型与外部工具交互产生的反馈和踪迹来动态优化工具文档。该方法以创新的试错方法为基础,由三个不同的学习阶段组成:经验收集、从经验中学习和文档重写,以迭代地增强工具文档。通过实施促进多样性的探索策略以确保探索多样性和工具自适应终止机制以防止过度拟合并提高效率,进一步优化了该过程。对多个数据集的广泛实验表明,DRAFT 基于反馈的迭代改进显着提高了文档质量,促进大语言模型更深入地理解和更有效地利用工具。值得注意的是,我们的分析表明,通过我们的方法改进的工具文档展示了强大的跨模型泛化能力。

SG-Nav:基于 LLM 的零样本对象导航的在线 3D 场景图提示

分类: 计算机视觉和模式识别, 机器人技术

作者: Hang Yin, Xiuwei Xu, Zhenyu Wu, Jie Zhou, Jiwen Lu

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08189v1

摘要: 在本文中,我们提出了一种零样本对象导航的新框架。现有的零样本对象导航方法通过空间封闭对象的文本提示LLM,缺乏足够的场景上下文来进行深入推理。为了更好地保存环境信息并充分发挥LLM的推理能力,我们建议用3D场景图来表示观察到的场景。场景图以LLM友好的结构对对象、组和房间之间的关系进行编码,为此我们设计了分层思想链提示,帮助LLM通过遍历节点和边根据场景上下文推理目标位置。此外,受益于场景图表示,我们进一步设计了重新感知机制,使对象导航框架具有纠正感知错误的能力。我们在 MP3D、HM3D 和 RoboTHOR 环境中进行了广泛的实验,其中 SG-Nav 在所有基准测试中都超越了之前最先进的零样本方法 10% 以上的 SR,同时决策过程是可解释的。据我们所知,SG-Nav 是第一个零样本方法,它在具有挑战性的 MP3D 基准测试中实现了比监督对象导航方法更高的性能。

奖励进步:扩展 LLM 推理的自动化流程验证器

分类: 机器学习, 计算和语言

作者: Amrith Setlur, Chirag Nagpal, Adam Fisch, Xinyang Geng, Jacob Eisenstein, Rishabh Agarwal, Alekh Agarwal, Jonathan Berant, Aviral Kumar

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08146v1

摘要: 改进大型语言模型推理的一种有前途的方法是使用过程奖励模型(PRM)。 PRM 在多步推理跟踪的每个步骤提供反馈,与仅在最后一步提供反馈的结果奖励模型 (ORM) 相比,可能会改进信用分配。然而,收集密集的、按步骤进行的人工标签是不可扩展的,并且迄今为止,从自动标记的数据中训练 PRM 所带来的收益有限。为了通过针对 PRM 运行搜索或将其用作强化学习 (RL) 的密集奖励来改进基本策略,我们会问:“我们应该如何设计流程奖励?”。我们的主要见解是,为了有效,步骤的过程奖励应该衡量进展:在采取步骤之前和之后,未来产生正确响应的可能性的变化,对应于步骤级别优势的概念在强化学习中。至关重要的是,这一进展应该根据与基本政策不同的证明政策来衡量。我们从理论上描述了一组好的证明者,我们的结果表明,优化来自这些证明者的过程奖励可以改善测试时搜索和在线强化学习期间的探索。事实上,我们的表征表明,弱证明者策略可以显着改善更强的基础策略,我们也通过经验观察到这一点。我们通过训练过程优势验证器 (PAV) 来预测此类证明器下的进度来验证我们的主张,并表明与 ORM 相比,针对 PAV 的测试时搜索准确度提高了 $>8%$,并且提高了 $1.5-5\times$计算效率高。与 ORM 相比,具有 PAV 密集奖励的在线 RL 实现了首批结果之一,样本效率提高了 5-6\times$,准确性提高了 $>6%$。

洞察力胜过视觉?探索多模式大语言模型中的愿景与知识冲突

分类: 计算和语言, 计算机视觉和模式识别

作者: Xiaoyuan Liu, Wenxuan Wang, Youliang Yuan, Jen-tse Huang, Qiuzhi Liu, Pinjia He, Zhaopeng Tu

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08145v1

摘要: 本文探讨了多模态大型语言模型 (MLLM) 中常识级视觉知识冲突的问题,即视觉信息与模型内部常识知识相矛盾(见图 1)。为了研究这个问题,我们引入了一个自动化管道,并增强了人机交互质量控制,以建立旨在模拟和评估 MLLM 中冲突的基准。利用该流程,我们精心设计了一个诊断基准,其中包含 374 张原始图像和 1,122 个高质量问答 (QA) 对。该基准涵盖两种类型的冲突目标和三个问题难度级别,提供了全面的评估工具。通过这个基准测试,我们评估了跨不同模型系列的九个代表性 MLLM 的冲突解决能力,并发现对文本查询的明显过度依赖。根据这些发现,我们提出了一种新颖的提示策略“视觉焦点”(FoV),它显着增强了 MLLM 优先考虑视觉数据而不是相互冲突的文本知识的能力。我们的详细分析和新提出的策略极大地促进了对 MLLM 中视觉知识冲突的理解和缓解。数据和代码是公开的。

通过顺序回忆任务评估大语言模型的情景记忆

分类: 计算和语言, 人工智能, 机器学习

作者: Mathis Pink, Vy A. Vo, Qinyuan Wu, Jianing Mu, Javier S. Turek, Uri Hasson, Kenneth A. Norman, Sebastian Michelmann, Alexander Huth, Mariya Toneva

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08133v1

摘要: 当前的大语言模型基准侧重于评估模型对事实和语义关系的记忆,主要评估长期记忆的语义方面。然而,在人类中,长期记忆还包括情景记忆,它将记忆与其背景联系起来,例如发生的时间和地点。将记忆情境化的能力对于许多认知任务和日常功能至关重要。这种形式的记忆尚未在大语言模型中使用现有基准进行评估。为了解决大语言模型在评估记忆方面的差距,我们引入了序列顺序回忆任务(SORT),它是根据认知心理学中用于研究情景记忆的任务改编而来的。 SORT 要求大语言模型回忆文本片段的正确顺序,并提供一个易于扩展且不需要任何额外注释的通用框架。我们提出了一个初始评估数据集 Book-SORT,包含从最近添加到公共领域的 9 本书中提取的 36k 对片段。基于 155 名参与者的人体实验,我们表明人类可以根据一本书的长期记忆来回忆序列顺序。我们发现,当在排序评估期间在上下文中给出相关文本时,模型可以高精度地执行任务。然而,当仅在培训期间呈现本书文本时,大语言模型在 SORT 上的表现较差。通过允许评估记忆的更多方面,我们相信 SORT 将有助于记忆增强模型的新兴发展。

Optima:优化基于 LLM 的多代理系统的有效性和效率

分类: 计算和语言, 人工智能

作者: Weize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08115v1

摘要: 基于大语言模型(LLM)的多智能体系统(MAS)在协作解决问题方面显示出巨大的潜力,但它们仍然面临着严峻的挑战:通信效率低、可扩展性差以及缺乏有效的参数更新优化方法。我们提出了 Optima,一种新颖的框架,通过大语言模型培训显着提高基于大语言模型的 MAS 中的沟通效率和任务有效性,从而解决这些问题。 Optima 采用迭代生成、排名、选择和训练范例,并具有平衡任务性能、令牌效率和通信可读性的奖励函数。我们探索各种 RL 算法,包括监督微调、直接偏好优化及其混合方法,深入了解其有效性与效率的权衡。我们集成了蒙特卡罗树搜索启发的技术来生成 DPO 数据,将对话轮次视为树节点来探索不同的交互路径。对常见的多智能体任务(包括信息不对称问答和复杂推理)进行评估,Optima 显示出相对于单智能体基线和基于 Llama 3 8B 的普通 MAS 的一致且实质性的改进,以不到 10\需要大量信息交换的任务的 % 代币。此外,Optima 的效率提升为更有效地利用推理计算开辟了新的可能性,从而改进了推理时间缩放法则。通过解决基于 LLM 的 MAS 的基本挑战,Optima 展示了实现可扩展、高效和有效的 MAS 的潜力 (https://chenweize1998.github.io/optima-project-page)。

多智能体协作数据选择以实现高效的 LLM 预训练

分类: 计算和语言

作者: Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08102v1

摘要: 有效的数据选择对于加速大型语言模型(LLM)的预训练至关重要。虽然已经提出了各种方法来提高数据效率,但有限的研究解决了这些方法之间的固有冲突,以实现 LLM 预训练的最佳数据选择。为了解决这个问题,我们提出了一种新颖的多智能体协作数据选择机制。在此框架中,每种数据选择方法都充当独立的代理,代理控制台旨在动态集成整个LLM培训过程中所有代理的信息。我们进行了广泛的实证研究来评估我们的多主体框架。实验结果表明,与最先进的方法相比,我们的方法显着提高了数据效率,加速了 LLM 训练的收敛,并且在多个语言模型基准测试中实现了 10.5% 的平均性能增益。

奖励增强数据增强了大语言模型的直接偏好调整

分类: 机器学习, 人工智能

作者: Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08067v1

摘要: 大型语言模型 (LLM) 中的偏好对齐显着提高了它们遵守人类指令和意图的能力。然而,现有的直接对齐算法主要关注相对偏好,常常忽视响应的定性方面。努力最大化所选响应和稍差的拒绝响应之间的隐式奖励差距可能会导致过度拟合和不必要的高质量拒绝响应的遗忘。对奖励分数的不了解也促使大语言模型不加区别地偏向低质量的选择响应,而无法推广到数据稀疏的最高奖励响应。为了克服这些缺点,我们的研究引入了奖励条件大语言模型政策,该政策可以从数据集中的整个响应质量范围中识别和学习,帮助推断出更优化的区域。我们提出了一种有效而简单的数据重新标记方法,该方法根据质量分数来调节偏好对,以构建奖励增强的数据集。该数据集很容易与现有的直接对齐算法集成,并且适用于任何偏好数据集。包括 AlpacaEval、MT-Bench 和 Arena-Hard-Auto 在内的指令跟踪基准测试的实验结果表明,我们的方法在不同模型中持续大幅提升 DPO 的性能。此外,我们的方法提高了各种学术基准的平均准确性。当将我们的方法应用于 on-policy 数据时,生成的 DPO 模型在 AlpacaEval 上实现了 SOTA 结果。通过消融研究,我们证明我们的方法不仅最大化了偏好数据的效用,而且还减轻了遗忘问题,证明了其广泛的有效性超出了单纯的数据集扩展。我们的代码可在 https://github.com/shenao-zhang/reward-augmented-preference 获取。

VerifierQ:使用基于 Q-Learning 的验证器增强 LLM 测试时间计算

分类: 机器学习, 计算和语言

作者: Jianing Qi, Hao Tang, Zhigang Zhu

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08048v1

摘要: 测试时计算的最新进展,特别是通过使用验证器模型,显着增强了大型语言模型 (LLM) 的推理能力。这种生成器-验证器方法与强化学习 (RL) 中的行动者-评论家框架非常相似。然而,目前大语言模型中的验证者模型通常依赖于监督微调,而没有诸如 Q 学习之类的时间差异学习。本文介绍了 VerifierQ,这是一种将离线 Q 学习集成到 LLM 验证器模型中的新颖方法。我们解决了将 Q-learning 应用于大语言模型的三个关键挑战:(1) 处理话语级马尔可夫决策过程 (MDP),(2) 管理大型行动空间,以及 (3) 减轻高估偏差。 VerifierQ 引入了针对有界 Q 值的改进贝尔曼更新,结合了用于高效动作空间管理的隐式 Q 学习 (IQL),并集成了用于平衡 Q 值估计的新颖保守 Q 学习 (CQL) 公式。我们的方法可以实现并行 Q 值计算并提高训练效率。虽然最近的工作探索了生成器的 MCTS 等 RL 技术,但 VerifierQ 是第一个通过 Q 学习研究 LLM 中验证者(批评者)方面的人之一。将强化学习原理集成到验证器模型中,补充了生成器技术的现有进步,有可能在大语言模型中实现更稳健和自适应的推理。数学推理任务的实验结果表明,与传统的监督微调方法相比,VerifierQ 具有优越的性能,在效率、准确性和鲁棒性方面都有所提高。通过增强生成和评估能力之间的协同作用,VerifierQ 有助于人工智能系统在解决各个领域的复杂认知任务方面的持续发展。

考试时高效学习:大语言模型的主动微调

分类: 机器学习, 人工智能

作者: Jonas Hübotter, Sascha Bongni, Ido Hakimi, Andreas Krause

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08020v1

摘要: 最近微调语言模型的努力通常依赖于自动数据选择,通常使用从大型数据集中检索最近邻居。然而,我们从理论上表明,这种方法倾向于选择冗余数据,限制其有效性甚至损害性能。为了解决这个问题,我们引入了 SIFT,这是一种数据选择算法,旨在减少给定提示时模型响应的不确定性,它统一了检索和主动学习的思想。最近邻检索通常会在存在信息重复的情况下失败,而 SIFT 会考虑信息重复并优化所选示例的整体信息增益。我们的评估重点是在测试时对 Pile 数据集上的提示特定语言建模进行微调,并表明 SIFT 始终优于最近邻检索,且计算开销最小。此外,我们表明,我们的不确定性估计可以预测测试时间微调的性能增益,并使用它来开发一种自适应算法,该算法投资与实现的性能增益成比例的测试时间计算。我们提供 $\texttt{activeft}$ (主动微调)库,它可以用作最近邻检索的直接替代品。

具有多目标最优考虑的LLM级联

分类: 计算和语言

作者: Kai Zhang, Liqian Peng, Congchao Wang, Alec Go, Xiaozhong Liu

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.08014v1

摘要: 大型语言模型 (LLM) 在理解和生成自然语言方面表现出了卓越的能力。然而,它们高昂的部署成本往往对实际应用造成障碍。级联本地和服务器模型为这一挑战提供了一个有前途的解决方案。虽然现有的 LLM 级联研究主要集中在性能与成本的权衡上,但现实场景通常涉及更复杂的要求。本文介绍了一种具有多目标优化的新颖的 LLM 级联策略,使 LLM 级联能够考虑额外的目标(例如隐私)并更好地符合现实应用程序的特定需求,同时保持其原始的级联能力。对三个基准的广泛实验验证了我们方法的有效性和优越性。

仇恨言论注释中的人类和大语言模型偏见:注释者和目标的社会人口统计分析

分类: 计算和语言, 人工智能, 人机交互

作者: Tommaso Giorgi, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07991v1

摘要: 在线平台的兴起加剧了仇恨言论的传播,需要可扩展且有效的检测。然而,仇恨言论检测系统的准确性在很大程度上依赖于人类标记的数据,而这些数据本质上很容易受到偏见的影响。虽然之前的工作已经研究过这个问题,但注释者的特征和仇恨目标的特征之间的相互作用仍未被探索。我们通过利用包含注释者和目标的丰富社会人口统计信息的广泛数据集来填补这一空白,揭示人类偏见如何与目标属性相关。我们的分析揭示了普遍存在的偏见,我们根据其强度和普遍程度对这些偏见进行了定量描述和表征,揭示了显着的差异。此外,我们将人类偏见与基于角色的大语言模型所表现出的偏见进行比较。我们的研究结果表明,虽然基于角色的大语言模型确实存在偏见,但这些偏见与人类注释者的偏见有很大不同。总的来说,我们的工作提供了关于仇恨言论注释中人类偏见的新的、细致入微的结果,以及对人工智能驱动的仇恨言论检测系统的设计的新见解。

使用本体论驱动的论证来保证大语言模型对抗性的稳健性

分类: 人工智能

作者: Tomas Bueno Momcilovic, Beat Buesser, Giulio Zizzo, Mark Purcell, Tomas Bueno Momcilovic

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07962v1

摘要: 尽管大型语言模型(LLM)具有令人印象深刻的适应性,但在确保其安全性、透明度和可解释性方面仍然存在挑战。鉴于大语言模型容易受到对抗性攻击,需要通过不断发展的对抗性训练和防护措施组合来保护大语言模型。然而,管理隐式和异构知识以持续确保鲁棒性是很困难的。我们引入了一种基于正式论证的新方法来保证大语言模型的对抗稳健性。使用本体进行形式化,我们构建最先进的攻击和防御,促进创建人类可读的保证案例和机器可读的表示。我们通过英语语言和代码翻译任务中的示例展示了其应用,并针对工程师、数据科学家、用户和审计员提供了对理论和实践的启示。

COMPL-AI 框架:欧盟人工智能法案的技术解释和 LLM 基准套件

分类: 计算和语言, 人工智能, 计算机与社会, 机器学习

作者: Philipp Guldimann, Alexander Spiridonov, Robin Staab, Nikola Jovanović, Mark Vero, Velko Vechev, Anna Gueorguieva, Mislav Balunović, Nikola Konstantinov, Pavol Bielik, Petar Tsankov, Martin Vechev

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07959v1

摘要: 欧盟的《人工智能法案》(AI Act)是朝着负责任的人工智能发展迈出的重要一步,但缺乏明确的技术解释,导致难以评估模型的合规性。这项工作提出了 COMPL-AI,这是一个综合框架,包括 (i) 对欧盟人工智能法案的第一个技术解释,将其广泛的监管要求转化为可衡量的技术要求,重点关注大语言模型 (LLM),以及 (ii)一个以法案为中心的开源基准测试套件,基于对最先进的 LLM 基准的彻底调查和实施。通过在 COMPL-AI 背景下评估 12 个著名的大语言模型,我们揭示了现有模型和基准的缺陷,特别是在稳健性、安全性、多样性和公平性等领域。这项工作强调需要将重点转向这些方面,鼓励大语言模型的平衡发展和更全面的符合监管的基准。同时,COMPL-AI 首次展示了将该法案的义务提升到更具体、技术层面的可能性和困难。因此,我们的工作可以作为向模型提供商提供可行建议的有用的第一步,并有助于欧盟为实施该法案而不断做出的努力,例如起草 GPAI 实践守则。

LLM 提示的辩证行为疗法方法

分类: 计算和语言, 机器学习

作者: Oxana Vitman, Nika Amaglobeli, Paul Plachinda

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07768v1

摘要: 当应用思维链(CoT)提示技术时,大型语言模型在各种推理任务上展示了最先进的结果。 CoT 提示引导模型将任务分解为几个中间步骤,并提供分步演示。然而,解决复杂的推理任务仍然是一个挑战。在本文中,我们提出了一种受辩证行为疗法(DBT)启发的新颖的激励策略。 DBT 是一种认知行为疗法,旨在通过发展推理系统来帮助个人应对压力。我们应用 DBT 塑造对话的基本概念来构建提示,并在不同的数据集和具有不同参数数量的 LLM 上进行实验。我们的结果表明,使用 DBT 技术制作的提示显着改善了较小模型的结果,在 StrategyQA 上的准确度提高了 7%,在使用 8b 参数模型的 Aqua 数据集上提高了 4.8%,在 StrategyQA 上提高了 16.2%,在 GSM8K 上提高了 5.3%具有 14b 参数模型的数据集。

StepTool:用于大语言模型工具学习的阶梯强化学习框架

分类: 计算和语言

作者: Yuanqing Yu, Zhefan Wang, Weizhi Ma, Zhicheng Guo, Jingtao Zhan, Shuai Wang, Chuhan Wu, Zhiqiang Guo, Min Zhang

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07745v1

摘要: 尽管拥有强大的推理能力,大型语言模型(LLM)仍然需要外部工具来获取实时信息检索或特定领域的专业知识来解决复杂的任务,这被称为工具学习。现有的工具学习方法主要依赖于专家轨迹的调优,侧重于从语言角度进行标记序列学习。然而,存在几个挑战:1)模仿静态轨迹限制了它们推广到新任务的能力。 2)即使是专家轨迹也可能不是最优的,并且可能存在更好的解决方案路径。在这项工作中,我们介绍了 StepTool,一种新颖的步进强化学习框架,用于改进大语言模型的工具学习。它由两个组件组成:阶梯粒度奖励塑造(Step-grained Shaping),它根据工具调用成功及其对任务的贡献,在每次工具交互时分配奖励;阶梯粒度优化(Step-grained Optimization),它使用策略梯度方法来优化模型。步方式。实验结果表明,StepTool 在多步骤、基于工具的任务中显着优于现有方法,为复杂的任务环境提供了强大的解决方案。代码可在 https://github.com/yuyq18/StepTool 获取。

SLIM:利用 Soft LoRA 和 Identity Mixture 让大语言模型学到更多,忘记更少

分类: 机器学习, 计算和语言

作者: Jiayi Han, Liang Du, Hongwei Du, Xiangguo Zhou, Yiwen Wu, Weibo Zheng, Donghong Han

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07739v1

摘要: 尽管已经做出了许多努力,但在许多应用中平衡大语言模型的培训预算、下游绩效和一般能力仍然是一个挑战。为下游任务训练整个模型的成本很高,而且很容易导致灾难性的遗忘。通过引入参数高效微调(PEFT),可以降低训练成本,但仍然会遭受遗忘,并限制下游任务的学习。为了有效地微调LLM,减少对下游性能的限制,同时减少一般功能的遗忘,我们提出了一种基于软LoRA和身份混合(SLIM)的新型专家混合(MoE)框架,该框架允许LoRA之间的动态路由适配器和跳过连接,可以抑制遗忘。我们采用滑动聚类的权重生成来更好地区分域外,从而增强路由。我们还建议将低秩适配器的混合物转换为模型合并公式,并引入 LoRA 适配器的快速动态合并,以保持基本模型的一般功能。大量实验表明,所提出的 SLIM 在下游任务上可与最先进的 PEFT 方法相媲美,同时在减轻灾难性遗忘方面实现了领先的性能。

不依赖标记数据的 LLM 服务即插即用性能评估

分类: 表现, 机器学习

作者: Can Wang, Dianbo Sui, Hongliang Sun, Hao Ding, Bolin Zhang, Zhiying Tu

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07737v1

摘要: 大型语言模型 (LLM) 服务仅利用上下文学习 (ICL) 的几个示例,在未学习的任务上表现出令人印象深刻的能力。然而,ICL 的成功取决于任务和环境,从而导致服务质量参差不齐。在每次调用时直接估计 LLM 服务的性能可能很费力,特别是需要 LLM 内丰富的标记数据或内部信息。本文介绍了一种新方法来估计 LLM 服务在不同任务和上下文中的性能,该方法可以“即插即用”,仅利用 ICL 等一些未标记的样本。我们的研究结果表明,LLM 服务调用产生的负对数似然性和困惑度可以作为有效且重要的特征。基于这些特征,我们利用四种不同的元模型来评估大语言模型服务的绩效。我们提出的方法与多个大语言模型服务和任务的未标记估计基线进行比较。并在两个场景中进行了实验应用,证明了其在LLM服务选择和进一步优化方面的有效性。

AgentBank:通过对 50000 多个交互轨迹进行微调,迈向广义 LLM 代理

分类: 计算和语言, 人工智能

作者: Yifan Song, Weimin Xiong, Xiutian Zhao, Dawei Zhu, Wenhao Wu, Ke Wang, Cheng Li, Wei Peng, Sujian Li

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07706v1

摘要: 对智能体与环境交互轨迹数据的微调对于在开源大语言模型 (LLM) 中展现通用智能体功能具有重大前景。在这项工作中,我们介绍了 AgentBank,它是迄今为止最大的轨迹调整数据集,具有超过 50k 个不同的高质量交互轨迹,其中包括涵盖 5 个不同代理技能维度的 16 项任务。利用新颖的注释管道,我们能够缩放注释轨迹并生成难度偏差最小化的轨迹数据集。此外,我们对AgentBank上的LLM进行了微调,得到了一系列的代理模型,萨摩耶。我们的比较实验证明了缩放交互轨迹数据以获得广义代理能力的有效性。其他研究还揭示了有关轨迹调整和代理技能泛化的一些关键观察结果。

LLM赋能的智能审核系统

分类: 计算和语言

作者: Xu Yao, Xiaoxu Wu, Xi Li, Huan Xu, Chenlei Li, Ping Huang, Si Li, Xiaoning Ma, Jiulong Shan

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07677v1

摘要: 制造质量审核对于确保大规模生产环境中的高产品标准至关重要。然而,传统的审计流程是劳动密集型的,并且依赖于人类的专业知识,这对在复杂的全球供应链中保持透明度、问责制和持续改进提出了挑战。为了应对这些挑战,我们提出了一种由大语言模型(LLM)支持的智能审计系统。我们的方法引入了三项创新:动态风险评估模型,简化审计程序并优化资源分配;制造合规副驾驶,增强自我发展的制造知识库的数据处理、检索和评估; Re-act 框架共性分析代理可提供实时、定制的分析,为工程师提供供应商改进的见解。这些增强功能提高了审计效率和有效性,测试场景显示审计效率和有效性提高了 24% 以上。

自动课程专家迭代,实现可靠的大语言模型推理

分类: 机器学习, 人工智能, 计算和语言, 机器学习

作者: Zirui Zhao, Hanze Dong, Amrita Saha, Caiming Xiong, Doyen Sahoo

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07627v1

摘要: 幻觉(即生成看似合理但不准确的内容)和懒惰(即过度拒绝或默认“我不知道”)仍然是大语言模型推理中的主要挑战。目前减少幻觉的努力主要集中在以知识为基础的任务中的事实错误,往往忽视了与错误推理相关的幻觉。与此同时,一些方法使大语言模型过于保守,限制了他们解决问题的能力。为了减轻推理任务中的幻觉和懒惰,我们提出自动课程专家迭代(Auto-CEI)来增强 LLM 推理并根据模型的能力调整响应——在其限制内果断地回答,并在任务超出限制时拒绝。在我们的方法中,专家迭代探索了 LLM 政策附近的推理轨迹,引导不正确的路径回到正轨,以减少复合错误并提高鲁棒性;它还可以在充分的推理尝试后促进适当的“我不知道”回答。课程会自动调整奖励,在承认无能之前激励扩展推理,从而突破大语言模型推理的极限,并使其行为与这些限制保持一致。我们将 Auto-CEI 与逻辑推理、数学和规划任务中的各种 SOTA 基线进行比较,其中 Auto-CEI 通过有效平衡自信和保守来实现卓越的一致性。

没有免费的午餐:检索增强一代破坏了大语言模型的公平性,即使对于警惕的用户来说也是如此

分类: 信息检索, 计算和语言

作者: Mengxuan Hu, Hongyi Wu, Zihan Guan, Ronghang Zhu, Dongliang Guo, Daiqing Qi, Sheng Li

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07589v1

摘要: 检索增强生成(RAG)因其在减轻幻觉和增强大型语言模型(LLM)的特定领域生成能力方面的有效性和成本效益而被广泛采用。然而,这种效果和成本效益真的是免费的午餐吗?在本研究中,我们从用户公平意识的角度提出了实用的三级威胁模型,全面研究了与 RAG 相关的公平成本。具体来说,不同水平的用户公平意识会导致对外部数据集的不同程度的公平审查。我们使用未经审查、部分审查和完全审查的数据集来检查 RAG 的公平性影响。我们的实验表明,公平对齐很容易通过 RAG 被破坏,而不需要微调或重新训练。即使使用经过完全审查且据称无偏见的外部数据集,RAG 也可能导致有偏见的输出。我们的研究结果强调了基于 RAG 的大语言模型背景下当前对齐方法的局限性,并强调迫切需要新的策略来确保公平。我们提出了潜在的缓解措施,并呼吁进一步研究,为基于 RAG 的大语言模型制定强有力的公平保障措施。

RealVul:我们可以用 LLM 检测 Web 应用程序中的漏洞吗?

分类: 密码学和安全, 计算和语言

作者: Di Cao, Yong Liao, Xiuwei Shang

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07573v1

摘要: 大语言模型 (LLM) 的最新进展引发了人们对其软件漏洞检测潜力的兴趣。然而,目前缺乏专门针对PHP语言漏洞的研究,样本提取和处理方面的挑战仍然存在,阻碍了模型有效捕捉特定漏洞特征的能力。在本文中,我们提出了 RealVul,这是第一个基于 LLM 的框架,专为 PHP 漏洞检测而设计,旨在解决这些问题。通过候选漏洞检测方法并采用归一化等技术,我们可以隔离潜在的漏洞触发因素,同时简化代码并消除不必要的语义信息,使模型能够更好地理解和学习生成的漏洞样本。我们还通过改进数据合成方法解决PHP漏洞样本不足的问题。为了评估 RealVul 的性能,我们使用五个不同的代码 LLM 对来自 180 个 PHP 项目的漏洞数据进行了广泛的分析。结果表明,与现有方法相比,有效性和泛化性都有显着提高,有效提高了这些模型的漏洞检测能力。

KRAG 加强法律领域大语言模型的框架

分类: 计算和语言, 人工智能

作者: Nguyen Ha Thanh, Ken Satoh

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07551v1

摘要: 本文介绍了知识表示增强生成 (KRAG),这是一种新颖的框架,旨在增强特定领域应用程序中大型语言模型 (LLM) 的功能。 KRAG 指出了关键知识实体和关系的战略性纳入,这些实体和关系通常在标准数据集中不存在,而且大语言模型本身并不学习这些实体和关系。在法律应用方面,我们提出了 Soft PROLEG,这是 KRAG 下的一种实现模型,它使用推理图来帮助大语言模型提供针对用户查询量身定制的结构化法律推理、论证和解释。 KRAG 的集成,无论是作为独立框架还是与检索增强生成 (RAG) 结合使用,都显着提高了语言模型导航和解决法律文本和术语带来的复杂挑战的能力。本文详细介绍了 KRAG 的方法、其通过 Soft PROLEG 的实现以及潜在的更广泛应用,强调了其在推进专业知识领域的自然语言理解和处理方面的重要作用。

新闻记者:广播电视新闻的多语言大语言模型框架

分类: 计算和语言

作者: Tarun Jain, Yufei Gao, Sridhar Vanga, Karan Singla

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07520v1

摘要: 大型语言模型 (LLM) 已迅速成为许多会话聊天机器人的重要工具,因为它们能够为各种查询提供连贯的答案。用于训练这些大语言模型的数据集通常是通用样本和合成样本的混合,因此缺乏为电视新闻提供正确且可验证的答案所需的验证。我们收集并分享了大量从美国各地新闻频道的新闻录音笔录中提取的问答对。然后使用生成的 QA 对来微调现成的 LLM 模型。我们的模型在几个开放的 LLM 基准测试中超越了类似大小的基本模型。我们进一步整合并提出了一种 RAG 方法来改善我们答案的情境化,并将其指向可验证的新闻记录。

通过变质测试探索和提升 LLM 支持的自动化程序修复的鲁棒性

分类: 软件工程

作者: Pengyu Xue, Linhao Wu, Zhen Yang, Xinyi Li, Zhongxing Yu, Zhi Jin, Ge Li, Yan Xiao, Jingwen Wu

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07516v1

摘要: 近年来,基于大语言模型的自动程序修复(LAPR)技术已经实现了最先进的错误修复性能,并在工业界和学术界得到了广泛的应用和研究。尽管如此,大语言模型被证明对输入提示高度敏感,语义等效程序的表达略有差异可能导致修复失败。因此,在实际部署之前对 LAPR 技术进行稳健性测试至关重要。然而,相关研究却很少。为此,我们提出了 MT-LAPR,一个专门用于 LAPR 技术的变形测试框架,它总结了开发人员跨三个扰动级别(令牌、语句和块)的九种广泛认可的变形关系(MR)。之后,我们提出的 MR 被应用于有缺陷的代码以生成测试用例,这些测试用例在语义上是等效的,但不会影响 LAPR 的推理。在两个经过广泛检查的错误修复数据集(即 Defect4J 和 QuixBugs)以及最近发布的四个能够修复错误的 LLM 上进行了实验,表明平均 34.4% - 48.5% 的测试用例暴露了 LAPR 技术的不稳定性,表明MT-LAPR 的有效性,并揭示代码可读性和 LAPR 技术的稳健性之间的正相关性。受上述发现的启发,本文使用 MT-LAPR 生成的测试用例作为样本,训练基于 CodeT5 的代码编辑模型,旨在提高代码可读性,然后将其嵌入到 LAPR 工作流程中作为数据预处理步骤。大量实验表明,该方法使 LAPR 的鲁棒性最多显着提高了 49.32%。

Thought2Text:使用大型语言模型 (LLM) 从脑电图信号生成文本

分类: 计算和语言

作者: Abhijit Mishra, Shreya Shukla, Jose Torres, Jacek Gwizdka, Shounak Roychowdhury

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07507v1

摘要: 以可理解的形式解码和表达大脑活动是人工智能领域的一个具有挑战性的前沿领域。本文提出 Thought2Text,它使用指令调整的大型语言模型 (LLM) 和脑电图数据进行微调来实现这一目标。该方法涉及三个阶段:(1)训练脑电图编码器以进行视觉特征提取,(2)在图像和文本数据上微调LLM,实现多模态描述生成,以及(3)进一步微调脑电图嵌入以生成文本推理过程中直接来自脑电图。对六个具有图像刺激的受试者收集的公共脑电图数据集进行的实验证明了多模态 LLM(LLaMa-v3、Mistral-v0.3、Qwen2.5)的有效性,并使用传统语言生成评估指标、基于 GPT-4 的评估和人类专家的评估。这种方法标志着便携式、低成本“思想到文本”技术的重大进步,在神经科学和自然语言处理 (NLP) 领域都有潜在的应用。

利用大语言模型发现法律因素

分类: 计算和语言, 人工智能

作者: Morgan Gray, Jaromir Savelka, Wesley Oliver, Kevin Ashley

发布时间: 2024-10-10

链接: http://arxiv.org/abs/2410.07504v1

摘要: 因素是法律分析和法律推理计算模型的基本组成部分。这些基于因素的表示使律师、法官、人工智能和法律研究人员能够推理法律案件。在本文中,我们介绍了一种利用大型语言模型(LLM)来发现有效代表法律领域的因素列表的方法。我们的方法将原始法庭意见作为输入,并产生一组因素和相关定义。我们证明,一种半自动化方法,结合最少的人为参与,产生的因子表示可以以一定程度的成功预测病例结果,如果还不能像专家定义的因子一样。

WALL-E:通过规则学习进行世界对齐改进了基于世界模型的 LLM 智能体

分类: 人工智能

作者: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07484v1

摘要: 大型语言模型(LLM)可以直接作为基于模型的代理的强大世界模型吗?虽然大语言模型的先验知识和特定环境的动态之间确实存在差距,但我们的研究表明,可以通过使大语言模型与其部署的环境保持一致来弥补这些差距,并且可以通过大语言模型的规则学习来有效地实现这种“世界对齐”。鉴于 LLM 丰富的先验知识,只需一些额外的规则就足以使 LLM 预测与指定的环境动态保持一致。为此,我们提出了一种神经符号方法,通过基于代理探索轨迹和世界模型预测的比较来归纳、更新和修剪规则,通过 LLM 无梯度学习这些规则。由此产生的世界模型由大语言模型和学习的规则组成。我们具体化的 LLM 代理“WALL-E”是建立在模型预测控制(MPC)的基础上的。通过基于精确的世界模型优化前瞻动作,MPC 显着提高了探索和学习效率。与现有的 LLM 代理相比,WALL-E 的推理只需要一些主要规则,而不需要在 LLM 输入中包含详细的缓冲轨迹。在 Minecraft 和 ALFWorld 的开放世界挑战中,WALL-E 比现有方法取得了更高的成功率,并且重新规划时间和用于推理的代币数量成本更低。在 Minecraft 中,WALL-E 的成功率超出基线 15-30%,同时减少了 8-20 轮重新规划的成本,并且只需要 60-80% 的代币。在ALFWorld中,仅经过6次迭代,其成功率就飙升至95%的新高。

SEAL:通过双层数据选择进行安全增强的对齐 LLM 微调

分类: 机器学习, 人工智能, 计算和语言

作者: Han Shen, Pin-Yu Chen, Payel Das, Tianyi Chen

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07471v1

摘要: 对特定于任务的数据进行微调以提高下游性能是利用大型语言模型 (LLM) 的关键一步。然而,之前的研究表明,在几个对抗性样本甚至良性数据上微调模型可以极大地提高模型的预先配备的对齐和安全功能。在这项工作中,我们提出了 SEAL,这是一种增强 LLM 微调安全性的新颖框架。 SEAL 学习基于双层优化的数据排序器,对安全且高质量的微调数据进行上位排序,对不安全或低质量的数据进行下位排序。使用 SEAL 训练的模型在多个基线上表现出卓越的质量,与 Llama-3-8b-Instruct 和 Merlinite-7b 模型上的随机选择相比,胜率分别提高了 8.5% 和 9.7%。我们的代码可以在 github https://github.com/hanshen95/SEAL 上找到。

C4 数据集是否最适合剪枝? LLM 剪枝校准数据的调查

分类: 计算和语言

作者: Abhinav Bandari, Lu Yin, Cheng-Yu Hsieh, Ajay Kumar Jaiswal, Tianlong Chen, Li Shen, Ranjay Krishna, Shiwei Liu

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07461v1

摘要: 网络修剪已成为一种潜在的解决方案,可以降低 LLM 的部署成本。然而,现有的LLM剪枝方法普遍依赖C4数据集作为计算剪枝分数的校准数据,而其最优性尚未得到探索。在本研究中,我们评估了 LLM 修剪的校准数据的选择,涵盖了 LLM 培训和评估中最常用的各种数据集,包括四个相关数据集以及包含九个数据集的三类下游任务。每个下游数据集分别通过上下文学习(ICL)和思想链(CoT)进行提示。除了校准数据的选择会显着影响修剪后的 LLM 的性能这一已经很有趣的观察之外,我们的结果还揭示了一些微妙且经常出乎意料的发现,总结如下:(1)C4 并不是 LLM 修剪的最佳选择,即使是在常见的 LLM 修剪中,C4 也不是 LLM 修剪的最佳选择。使用预训练数据集; (2)算术数据集作为校准数据时,与预训练数据集的性能相当甚至更好; (3) 与预训练数据相比,使用下游数据集进行剪枝并不一定有助于相应的下游任务; (4) ICL 对所有数据类别广泛有益,而 CoT 仅对某些任务有用。我们的研究结果揭示了仔细选择 LLM 修剪校准数据的重要性,并为在实际应用中更有效地部署这些强大的模型铺平了道路。我们在以下位置发布代码:https://github.com/abx393/llm-pruning-calibration-data。

LLM 嵌入改进了对表格 $Y|X$-Shifts 的测试时间适应

分类: 机器学习, 人工智能, 优化与控制, 机器学习

作者: Yibo Zeng, Jiashuo Liu, Henry Lam, Hongseok Namkoong

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07395v1

摘要: 对于表格数据集,由于缺少变量(也称为混杂因素),标签和协变量之间的关系($Y|X$-shifts)发生变化很常见。由于不可能推广到全新的未知领域,因此我们研究即使标记示例很少也易于适应目标领域的模型。我们专注于构建表格数据的更多信息表示,以减轻 $Y|X$ 偏移,并建议通过序列化(写下)表格数据进行编码来利用 LLM 中的先验知识。我们发现仅 LLM 嵌入在鲁棒性方面提供了不一致的改进,但即使使用 32 个标记的观察,在其上训练的模型也可以很好地适应/微调到目标域。我们的发现基于一项全面、系统的研究,其中包括 7650 个源-目标对,以及针对由 22 种算法训练的 261,000 个模型配置的基准。当消除可访问目标数据的大小和不同的适应策略时,我们的观察成立。该代码可从 https://github.com/namkoong-lab/LLM-Tabular-Shifts 获取。

MM-Ego:建立以自我为中心的多模式大语言模型

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Hanrong Ye, Haotian Zhang, Erik Daxberger, Lin Chen, Zongyu Lin, Yanghao Li, Bowen Zhang, Haoxuan You, Dan Xu, Zhe Gan, Jiasen Lu, Yinfei Yang

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07177v1

摘要: 本研究旨在全面探索建立以自我为中心的视频理解的多模态基础模型。为了实现这一目标,我们从三个方面开展工作。首先,由于缺乏以自我为中心的视频理解的 QA 数据,我们开发了一个数据引擎,可以根据人工注释的数据,为时长从 30 秒到一小时的以自我为中心的视频高效生成 700 万个高质量的 QA 样本。这是目前最大的以自我为中心的 QA 数据集。其次,我们提供了一个具有挑战性的以自我为中心的 QA 基准,包含 629 个视频和 7,026 个问题,以评估模型识别和记忆不同长度视频中的视觉细节的能力。我们引入了一种新的去偏差评估方法,以帮助减轻正在评估的模型中存在的不可避免的语言偏差。第三,我们提出了一种专门的多模式架构,具有新颖的“内存指针提示”机制。此设计包括全局概览步骤,以全面了解整个视频并识别关键视觉信息,然后是后备步骤,利用关键视觉信息生成响应。这使得模型能够更有效地理解扩展视频内容。借助数据、基准和模型,我们成功构建了MM-Ego,这是一个以自我为中心的多模态大语言模型,在以自我为中心的视频理解方面表现出了强大的性能。

体现代理接口:体现决策的大语言模型基准

分类: 计算和语言, 人工智能, 机器学习, 机器人技术

作者: Manling Li, Shiyu Zhao, Qineng Wang, Kangrui Wang, Yu Zhou, Sanjana Srivastava, Cem Gokmen, Tony Lee, Li Erran Li, Ruohan Zhang, Weiyu Liu, Percy Liang, Li Fei-Fei, Jiayuan Mao, Jiajun Wu

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07166v1

摘要: 我们的目标是评估用于具体决策的大型语言模型(LLM)。虽然大量的工作一直在利用大语言模型在具体环境中进行决策,但我们仍然缺乏对其性能的系统了解,因为它们通常应用于不同的领域,用于不同的目的,并基于不同的输入和输出构建。此外,现有的评估往往仅依赖于最终的成功率,因此很难查明大语言模型缺少哪些能力以及问题出在哪里,这反过来又阻碍了实体代理人有效和选择性地利用大语言模型。为了解决这些限制,我们提出了一个通用接口(Embodied Agent Interface),它支持各种类型任务的形式化和基于LLM的模块的输入输出规范。具体来说,它使我们能够统一 1) 涉及状态和时间扩展目标的广泛的具体决策任务,2) 四种常用的基于 LLM 的决策模块:目标解释、子目标分解、行动排序和过渡建模,3)一系列细粒度指标,将评估分解为各种类型的错误,例如幻觉错误、可供性错误、各种类型的规划错误等。总的来说,我们的基准提供了对大语言模型的全面评估不同子任务的性能,查明大语言模型驱动的具体人工智能系统的优势和劣势,并为在具体决策中有效和选择性地使用大语言模型提供见解。

简单性占上风:重新思考大语言模型遗忘的负面偏好优化

分类: 计算和语言, 人工智能, 机器学习

作者: Chongyu Fan, Jiancheng Liu, Licong Lin, Jinghan Jia, Ruiqi Zhang, Song Mei, Sijia Liu

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07163v1

摘要: 在这项工作中,我们解决了大语言模型(LLM)失学习的问题,旨在消除不需要的数据影响和相关的模型功能(例如受版权保护的数据或有害内容生成),同时保留基本的模型实用程序,而不需要从头开始重新训练。尽管大语言模型取消学习的需求日益增长,但仍然缺乏原则性的优化框架。为此,我们重新审视最先进的方法——负偏好优化(NPO),并确定参考模型偏差的问题,这可能会破坏 NPO 的有效性,特别是在忘记不同难度的数据时。鉴于此,我们提出了一个简单而有效的遗忘优化框架,称为 SimNPO,表明消除对参考模型的依赖(通过简单偏好优化的视角)的“简单性”有利于遗忘。我们还通过使用马尔可夫链混合的分析来更深入地了解 SimNPO 的优势。此外,我们还进行了广泛的实验,验证了 SimNPO 相对于 TOFU 和 MUSE 等基准测试中现有的不可学习基线的优越性,以及针对重新学习攻击的鲁棒性。代码可在 https://github.com/OPTML-Group/Unlearn-Simple 获取。

作弊自动 LLM 基准:空模型实现高胜率

分类: 计算和语言, 人工智能, 密码学和安全, 机器学习

作者: Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07137v1

摘要: 自动 LLM 基准(例如 AlpacaEval 2.0、Arena-Hard-Auto 和 MT-Bench)由于与人工评估相比具有成本效益和可扩展性,已成为评估语言模型的流行工具。在这些基准测试中实现高胜率可以显着提高新发布的语言模型的推广影响。这种促销利益可能会激发一些技巧,例如操纵模型输出长度或风格来提高游戏获胜率,尽管已经开发了几种机制来控制长度和解开风格以降低可玩性。尽管如此,我们表明,即使是始终输出恒定响应(与输入指令无关)的“空模型”也可以欺骗自动基准测试并实现排名最高的获胜率:AlpacaEval 2.0 上的 LC 获胜率为 86.5%; Arena-Hard-Auto 得分为 83.0; MT-Bench 得分为 9.55。此外,精心设计的作弊输出是可转移的,因为我们假设这些基准测试的指令(例如 AlpacaEval 2.0 的 805 个样本)是私有的并且无法访问。虽然我们的实验主要是概念验证,但对手可以利用大语言模型来产生更难以察觉的作弊反应,从高胜率和促销影响中不道德地受益。我们的研究结果呼吁开发反作弊机制以实现可靠的自动基准。该代码可在 https://github.com/sail-sg/Cheating-LLM-Benchmarks 上获取。

道德图灵测试:评估人类与大语言模型在道德决策中的一致性

分类: 人机交互, 人工智能

作者: Basile Garcia, Crystal Qian, Stefano Palminteri

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07304v1

摘要: 随着大型语言模型(LLM)越来越融入社会,它们与人类道德的一致性至关重要。为了更好地理解这种一致性,我们创建了一个大型语料库,其中包含人类和大语言模型对各种道德场景的反应。我们发现人类道德评估与大语言模型道德评估之间存在不一致;尽管大语言模型和人类都倾向于拒绝道德上复杂的功利主义困境,但大语言模型对个人框架更为敏感。然后,我们进行了一项涉及 230 名参与者 (N=230) 的定量用户研究,他们通过确定这些回答是否由人工智能生成来评估这些回答,并评估他们与这些回答的一致性。人类评估者更喜欢大语言模型在道德场景中的评估,尽管观察到系统性的反人工智能偏见:参与者不太可能同意他们认为是机器生成的判断。统计和基于 NLP 的分析揭示了响应中细微的语言差异,影响了检测和一致性。总体而言,我们的研究结果凸显了人类人工智能感知在道德决策中的复杂性。

我想挣脱束缚!具有社会等级制度的多主体环境中大语言模型的反社会行为和说服能力

分类: 计算和语言, 人工智能, 计算机与社会, 多代理系统

作者: Gian Maria Campedelli, Nicolò Penzo, Massimo Stefan, Roberto Dessì, Marco Guerini, Bruno Lepri, Jacopo Staiano

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07109v1

摘要: 随着基于大型语言模型 (LLM) 的智能体变得越来越自主,并且能够更自由地相互交互,研究它们之间的交互对于预测突发现象和潜在风险变得至关重要。我们从广受欢迎的斯坦福监狱实验中汲取灵感,通过研究大语言模型代理人在严格社会等级制度下的互动模式,为这一领域的研究做出了贡献。我们通过专门研究两种类型的现象来做到这一点:模拟场景中的说服和反社会行为,涉及一名警卫和一名试图实现特定目标(即获得额外的院子时间或越狱)的囚犯特工。利用五个不同的流行大语言模型的 200 个实验场景以及总共 2,000 次机器与机器对话,我们提供了一组值得注意的发现。我们首先记录了一些模型如何在权力动态发挥作用的多代理设置中始终无法进行对话。然后,对于能够进行成功交互的模型,我们凭经验证明智能体设定的目标如何主要影响其说服力,而对智能体的反社会行为的影响可以忽略不计。第三,我们强调特工的角色,特别是警卫的个性,如何推动囚犯成功说服的可能性和反社会行为的出现。第四,我们表明,即使没有明确提示特定的个性,简单地分配代理角色也会出现反社会行为。这些结果对交互式大语言模型代理人的发展及其社会影响的争论具有重要意义。

通过模型编辑缓解基于 LLM 的机器翻译中的语言不匹配和重复问题

分类: 计算和语言, 机器学习

作者: Weichuan Wang, Zhaoyi Li, Defu Lian, Chen Ma, Linqi Song, Ying Wei

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07054v1

摘要: 大型语言模型 (LLM) 最近彻底改变了 NLP 领域,但它们在某些特定的下游任务中仍然存在不足。在工作中,我们专注于利用大语言模型进行机器翻译,我们观察到两种模式的错误经常发生并极大地影响翻译质量:语言不匹配和重复。这项工作旨在探索通过利用模型编辑方法来缓解这两个问题的潜力,例如通过定位前馈网络(FFN)神经元或导致错误的神经元并在推理时间内停用它们。我们发现,直接应用此类方法要么对目标错误的影响有限,要么对总体翻译质量产生显着的负面影响,这表明定位的组件对于确保大语言模型的机器翻译顺利进行也可能至关重要。为此,我们建议通过获取不同语言设置下定位结果的交集来细化定位组件,过滤掉上述与目标错误无关的信息。实验结果实证表明,我们的方法可以有效减少语言不匹配和重复率,同时在大多数情况下提高或保持总体翻译质量。

中间的机器人:评估争议解决中的大语言模型

分类: 人机交互, 计算和语言

作者: Jinzhe Tan, Hannes Westermann, Nikhil Reddy Pottanigari, Jaromír Šavelka, Sébastien Meeùs, Mia Godet, Karim Benyekhlef

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07053v1

摘要: 调解是一种争议解决方法,由中立的第三方(调解员)进行干预,帮助个人解决争议。在本文中,我们研究了大型语言模型(LLM)能够在多大程度上充当中介者。我们调查大语言模型是否能够分析争议对话、选择合适的干预类型并生成适当的干预消息。我们使用包含 50 个争议场景的新颖的手动创建数据集,对大语言模型与人类注释者在几个关键指标上进行了盲评估。总体而言,大语言模型表现出了强劲的表现,甚至在各个方面都超过了我们的人类注释者。具体来说,在 62% 的案例中,大语言模型选择的干预类型被评为优于或相当于人类选择的干预类型。此外,在 84% 的情况下,大语言模型生成的干预消息被评为优于或等于人类编写的干预消息。大语言模型在公正性、理解力和情境化等指标上同样表现良好。我们的结果证明了将人工智能集成到在线争议解决(ODR)平台中的潜力。

IterGen:迭代结构化大语言模型生成

分类: 软件工程, 机器学习, 编程语言

作者: Shubham Ugare, Rohan Gumaste, Tarun Suresh, Gagandeep Singh, Sasa Misailovic

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07295v1

摘要: 大型语言模型 (LLM) 广泛用于自然语言和代码生成等任务。尽管如此,他们的输出经常遇到隐私侵犯和语义不准确的代码生成等问题。当前的 LLM 生成库依赖于从左到右的解码,没有对回溯的系统支持,限制了纠正或细化生成中期输出的能力。为了解决这个问题,我们引入了 IterGen,这是一个用于迭代、语法引导的 LLM 生成的直观框架,使用户能够在基于语法符号的生成输出中向前和向后移动。通过利用符号到位置的映射,IterGen 确保高效且结构化的生成,同时允许在此过程中进行更正。我们在两个重要应用中展示了 IterGen 的有效性:减少 LLM 输出中的隐私泄漏和提高 LLM 生成的 SQL 查询的准确性。我们的代码位于 https://github.com/uiuc-arc/itergen

PositionID:大语言模型可以通过明确的位置感知来控制长度、复制和粘贴

分类: 计算和语言, 人工智能

作者: Zekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07035v1

摘要: 大型语言模型 (LLM) 在各个领域展示了令人印象深刻的能力,包括角色扮演、创意写作、数学推理和编码。尽管取得了这些进步,大语言模型仍然面临长度控制的挑战,由于其令牌级操作以及对严格长度限制的数据训练不足,经常无法遵守特定的长度限制。我们认为这个问题源于缺乏位置意识,并提出了新的方法——PositionID Prompting 和 PositionID Fine-Tuning——来解决它。这些方法增强了模型在生成过程中持续监控和管理文本长度的能力。此外,我们引入了PositionID CP Prompting,使LLM能够准确地执行复制和粘贴操作。此外,我们还开发了两个基准来评估长度控制和复制粘贴能力。我们的实验表明,我们的方法显着提高了模型对长度约束和复制粘贴准确性的遵守,而不会影响响应质量。

三级导航器:LLM 授权的时间序列 OOD 泛化三级学习

分类: 机器学习, 人工智能

作者: Chengtao Jian, Kai Yang, Yang Jiao

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07018v1

摘要: 机器学习中的分布外(OOD)泛化是一个新兴的研究领域。其主要目标是增强机器学习模型在面对新的、未见过的、潜在的对抗性数据(这些数据与原始训练数据集存在显着差异)时的适应性和弹性。在本文中,我们通过预训练的大型语言模型 (LLM) 研究时间序列 OOD 泛化。我们首先提出了一种新颖的 \textbf{T}ri 级学习框架,用于 \textbf{T}ime \textbf{S}eries \textbf{O}OD 泛化,称为 TTSO,它同时考虑了样本级和组级的不确定性。该公式为制定和分析 OOD 泛化问题提供了全新的理论视角。此外,我们提供了理论分析来证明该方法的动机良好。然后,我们开发了针对该三级优化问题的分层定位算法,从理论上证明了所提出算法的收敛保证。我们的分析还表明,获得 $\epsilon$ 驻点的迭代复杂度受 O($\frac{1}{\epsilon^{2}}$) 限制。对现实世界数据集进行了大量实验,以阐明所提出方法的有效性。

SWE-Bench+:大语言模型的增强编码基准

分类: 软件工程

作者: Reem Aleithan, Haoran Xue, Mohammad Mahdi Mohajer, Elijah Nnorom, Gias Uddin, Song Wang

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06992v2

摘要: 软件工程 (SE) 中的大型语言模型 (LLM) 可以为编码提供帮助。为了促进在实际编码环境中对大语言模型进行严格评估,Carlos 等人。介绍了 SWE-bench 数据集,其中包含从 12 个广泛使用的 Python 存储库收集的 2,294 个现实 GitHub 问题及其相应的拉取请求。最近在此数据集上开发和评估了几个令人印象深刻的基于大语言模型的工具包。然而,仍然缺乏对 SWE-bench 质量的系统评估。在本文中,我们通过对 SWE-bench 数据集进行实证分析来解决这一差距。我们通过将模型生成的补丁与实际拉取请求进行比较,对 SWEAgent + GPT-4 成功解决问题的实例进行了手动筛选。在我们的研究期间,SWE-Agent+GPT-4 位于 SWE 基准排行榜的首位。我们的分析揭示了 SWE-bench 数据集的一些关键问题:1)32.67% 的成功补丁涉及作弊,因为问题报告或评论中直接提供了解决方案。我们称之为溶液泄漏问题。 2)通过的补丁中有31.08%是可疑补丁,因为测试用例较弱,即测试不足以验证补丁的正确性。当我们过滤掉这些有问题的问题后,SWE-Agent+GPT-4的解决率从12.47%下降到3.97%。我们还观察到,SWE-bench 的两个变体(即 SWE-bench Lite 和 SWE-Bench Verified)也存在相同的数据质量问题。此外,超过 94% 的问题是在 LLM 的知识截止日期之前产生的,存在潜在的数据泄露问题。

思想钻石:可穿戴设计大语言模型的基于设计思维的框架

分类: 人机交互

作者: Qiyang Miao, Jiang Xu, Zhihao Song, Chengrui Wang, Yu Cui

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06972v1

摘要: 可穿戴设计是一个平衡技术创新、人为因素和人机交互的跨学科领域。尽管来自各个学科的贡献,许多项目缺乏稳定的跨学科团队,这常常导致设计失败。大型语言模型 (LLM) 集成了不同的信息并生成创新的解决方案,使其成为增强设计流程的宝贵工具。因此,我们通过将设计思维原则与大语言模型能力相结合,探索了大语言模型在可穿戴设计中的应用。我们开发了“思想钻石”框架,从以身体为中心的角度分析了 1,603 个原型和 1,129 个产品,创建了一个综合数据库。我们采用检索增强生成将数据库详细信息输入大语言模型,确保适用于可穿戴设计挑战并将具体认知集成到流程中。我们基于大语言模型的可穿戴设备方法已经过实验验证,证明了大语言模型在推动设计实践方面的潜力。这项研究为未来的可穿戴设计提供了新的工具和方法。

Seeker:使用基于 LLM 的多代理方法增强代码中的异常处理

分类: 软件工程, 计算和语言

作者: Xuanming Zhang, Yuxuan Chen, Yuan Yuan, Minlie Huang

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06949v1

摘要: 在现实世界的软件开发中,不正确或缺失的异常处理会严重影响代码的健壮性和可靠性。异常处理机制要求开发人员按照高标准检测、捕获和管理异常,但许多开发人员在这些任务上苦苦挣扎,导致代码脆弱。这个问题在开源项目中尤为明显,并影响软件生态系统的整体质量。为了应对这一挑战,我们探索使用大型语言模型 (LLM) 来改进代码中的异常处理。通过广泛的分析,我们发现了三个关键问题:脆弱代码检测不灵敏、异常类型捕获不准确以及处理方案失真。这些问题在现实世界的存储库中普遍存在,这表明强大的异常处理实践经常被忽视或处理不当。作为回应,我们提出了 Seeker,这是一个受专家开发人员异常处理策略启发的多代理框架。 Seeker 使用代理:Scanner、Detector、Predator、Ranker 和 Handler 来协助 LLM 更有效地检测、捕获和解决异常。我们的工作是第一个利用大语言模型来增强异常处理实践的系统研究,为未来提高代码可靠性提供了宝贵的见解。

AutoFeedback:基于 LLM 的框架,用于高效、准确地生成 API 请求

分类: 软件工程, 人工智能

作者: Huanxi Liu, Jiaqi Liao, Dawei Feng, Kele Xu, Huaimin Wang

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06943v1

摘要: 大型语言模型(LLM)主要通过生成 API 请求来利用外部工具来提高任务完成效率。 API请求生成的准确性很大程度上决定了大语言模型完成任务的能力。由于LLM内部固有的幻觉,很难高效、准确地生成正确的API请求。当前的研究使用基于提示的反馈来促进基于 LLM 的 API 请求生成。然而,现有方法缺乏事实信息并且不够详细。为了解决这些问题,我们提出了 AutoFeedback,这是一个基于 LLM 的框架,用于高效、准确地生成 API 请求,并具有静态扫描组件 (SSC) 和动态分析组件 (DAC)。 SSC 将 API 请求中检测到的错误作为伪事实合并到反馈中,丰富了事实信息。 DAC 从 API 文档中检索信息,提高反馈的详细程度。基于这两个组件,Autofeedback在LLM生成API请求的过程中实现了两个反馈循环。大量实验表明,它显着提高了API请求生成的准确性并降低了交互成本。 AutoFeedback 在真实 API 数据集上实现了 100.00% 的准确率,并将与 GPT-3.5 Turbo 交互的成本降低了 23.44%,与 GPT-4 Turbo 交互的成本降低了 11.85%。

SWIFT:用于 LLM 推理加速的即时自推测解码

分类: 计算和语言

作者: Heming Xia, Yongqi Li, Jun Zhang, Cunxiao Du, Wenjie Li

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06916v1

摘要: 推测性解码 (SD) 已成为一种广泛使用的范例,可在不影响生成质量的情况下加速大型语言模型 (LLM) 的推理。它的工作原理是首先采用紧凑模型有效地起草多个令牌,然后使用目标 LLM 并行验证它们。虽然这种技术已经实现了显着的加速,但大多数现有方法需要额外的参数或大量的培训来构建有效的草案模型,从而限制了它们在不同大语言模型和任务中的适用性。为了解决这个限制,我们探索了一种具有跳层功能的新型即插即用 SD 解决方案,它跳过目标 LLM 的中间层作为紧凑的草稿模型。我们的分析表明,大语言模型通过层稀疏性和这种稀疏性的特定任务性质表现出自我加速的巨大潜力。基于这些见解,我们引入了 SWIFT,这是一种动态自推测解码算法,可在推理过程中自适应地选择要跳过的 LLM 中间层。 SWIFT 不需要辅助模型或额外的训练,使其成为一种即插即用的解决方案,可加速跨不同输入数据流的 LLM 推理。我们对各种模型和下游任务进行的广泛实验表明,SWIFT 可以实现超过 1.3 倍至 1.6 倍的加速,同时保留生成文本的原始分布。

根部防御策略:在解码层面确保大语言模型的安全

分类: 计算和语言, 密码学和安全

作者: Xinyi Zeng, Yuying Shang, Yutao Zhu, Jiawei Chen, Yu Tian

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06809v1

摘要: 大型语言模型 (LLM) 在各个行业中都展现出了巨大的实用性。然而,随着大语言模型的进步,由于不正确或恶意的指令提示,有害输出的风险也会增加。目前的方法虽然有效解决了越狱风险,但存在共同的局限性:1)从预填充级别判断有害响应缺乏对模型解码输出的利用,导致有效性和鲁棒性相对较低。 2)基于单一评估拒绝潜在有害的响应可能会严重损害模型的有用性。本文研究了大语言模型识别有害输出的能力,揭示并量化了他们评估先前代币危险的能力。受试点实验结果的启发,我们在解码级别设计了强大的防御机制。我们新颖的面向解码器的逐步防御架构可以直接纠正有害查询,而不是彻底拒绝它们。我们引入推测解码来增强可用性并促进部署以提高安全解码速度。大量的实验表明,我们的方法在不影响推理速度的情况下提高了模型的安全性。值得注意的是,我们的方法利用模型识别危险信息的能力,与现有方法相比保持其有用性。

HERM:以人为本的理解的多模式大语言模型的基准测试和增强

分类: 计算机视觉和模式识别

作者: Keliang Li, Zaifei Yang, Jiahe Zhao, Hongze Shen, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06777v1

摘要: 多模态大语言模型 (MLLM) 在视觉理解和指令方面取得的重大进步,为在多样化和普遍的以人为中心的场景中更广泛的应用开辟了更多可能性。然而,现有的图像文本数据可能不支持多粒度信息的精确模态对齐和集成,这对于以人为中心的视觉理解至关重要。在本文中,我们介绍了 HERM-Bench,这是一个评估 MLLM 以人为中心的理解能力的基准。我们的工作揭示了现有 MLLM 在理解复杂的以人为中心的场景方面的局限性。为了应对这些挑战,我们推出了 HERM-100K,这是一个具有多级以人为中心的注释的综合数据集,旨在增强 MLLM 的训练。此外,我们还开发了 HERM-7B,这是一种利用 HERM-100K 的增强训练数据的 MLLM。对 HERM-Bench 的评估表明,HERM-7B 在各个以人为中心的维度上显着优于现有的 MLLM,这反映出当前用于以人为中心的视觉理解的 MLLM 训练中使用的数据注释的不足。这项研究强调了专业数据集和基准在提升 MLLM 以人为中心的理解能力方面的重要性。

即时感染:多代理系统内的 LLM 到 LLM 即时注入

分类: 多代理系统, 人工智能, 密码学和安全

作者: Donghyun Lee, Mo Tiwari

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.07283v1

摘要: 随着大型语言模型 (LLM) 变得越来越强大,多智能体系统在现代人工智能应用中变得越来越普遍。然而,大多数安全研究都集中在单代理大语言模型的漏洞上。其中包括提示注入攻击,其中嵌入外部内容的恶意提示会诱骗大语言模型执行意外或有害的操作,从而损害受害者的应用程序。在本文中,我们揭示了一个更危险的向量:多代理系统中的 LLM 到 LLM 提示注入。我们引入了“提示感染”,这是一种新颖的攻击,其中恶意提示在互连的代理之间进行自我复制,其行为与计算机病毒非常相似。这种攻击带来了严重的威胁,包括数据盗窃、诈骗、错误信息和系统范围的破坏,同时在系统中悄悄传播。我们广泛的实验表明,即使代理不公开共享所有通信,多代理系统也很容易受到影响。为了解决这个问题,我们提出了 LLM 标签,这是一种防御机制,与现有的保障措施相结合,可以显着减轻感染传播。这项工作强调了随着多代理 LLM 系统得到更广泛的采用,迫切需要先进的安全措施。

弱-评估-强:评估和引发具有情境难题的大语言模型的横向思维

分类: 计算和语言, 人工智能, 计算机视觉和模式识别

作者: Qi Chen, Bowen Zhang, Gang Wang, Qi Wu

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06733v1

摘要: 虽然 NLP 的进步显着提高了大型语言模型 (LLM) 在需要垂直思维的任务上的表现,但由于评估创造性思维过程的复杂性和相关数据的稀缺,它们的横向思维能力仍未得到充分探索,且难以衡量。为了应对这些挑战,我们引入了 SPLAT,这是一个利用情境谜题来评估和引发大语言模型的横向思维的基准。该基准包含三个难度级别的 975 个分级情景谜题,采用新的多回合玩家-裁判框架,而不是传统的基于模型的评估,后者通常需要更强大的评估模型。该框架模拟了一个交互式游戏,其中模型(玩家)向评估模型(法官)询问有关不完整故事的问题,以推断完整的场景。法官根据详细的参考场景进行回答,或者评估玩家的预测是否与参考场景一致。这种方法减少了对更强大的评估模型的依赖,从而能够评估最先进的大语言模型。实验表明,WizardLM-2 等稳健的评估模型在中间问答和最终场景准确性方面都与人类判断紧密匹配,达到了 80% 以上的一致性,类似于人类之间的一致性水平。此外,将我们的基准测试中的数据和推理过程应用到其他横向思维相关基准测试(例如 RiddleSense 和 BrainTeaser)中,可以提高性能。这表明我们的基准有效评估并引发了大语言模型的横向思维能力。代码位于:https://github.com/chenqi008/LateralThinking。

PII-Scope:大语言模型培训数据 PII 泄漏评估的基准

分类: 计算和语言, 人工智能, 机器学习

作者: Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, Xue Jiang, Xuebing Zhou

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06704v1

摘要: 在这项工作中,我们引入了 PII-Scope,这是一个综合基准,旨在评估跨不同威胁环境针对 LLM 的 PII 提取攻击的最先进方法。我们的研究通过揭示对这些攻击的有效性至关重要的几个超参数(例如演示选择),提供了对这些攻击的更深入的了解。在此基础上,我们将研究扩展到更现实的攻击场景,探索采用先进对抗策略的 PII 攻击,包括重复和多样化的查询,并利用迭代学习进行持续的 PII 提取。通过广泛的实验,我们的结果揭示了现有单查询攻击中 PII 泄漏的明显低估。事实上,我们表明,凭借复杂的对抗能力和有限的查询预算,针对预训练模型时,PII 提取率可以提高多达五倍。此外,我们在微调模型上评估 PII 泄漏,结果表明它们比预训练模型更容易泄漏。总的来说,我们的工作为现实威胁场景中的 PII 提取攻击建立了严格的经验基准,并为制定有效的缓解策略提供了坚实的基础。

使用多轮偏好优化增强多模式 LLM 以实现详细且准确的视频字幕

分类: 计算机视觉和模式识别, 计算和语言, 图像和视频处理

作者: Changli Tang, Yixuan Li, Yudong Yang, Jimin Zhuang, Guangzhi Sun, Wei Li, Zujun Ma, Chao Zhang

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06682v1

摘要: 视频包含丰富的信息,用自然语言生成详细而准确的描述是视频理解的一个关键方面。在本文中,我们提出了 video-SALMONN 2,这是一种具有低秩自适应 (LoRA) 的高级视听大语言模型 (LLM),旨在通过定向偏好优化 (DPO) 增强视频(带有配对音频)字幕。我们提出了新的指标来评估视频描述的完整性和准确性,并使用 DPO 进行了优化。为了进一步改进训练,我们引入了一种新颖的多轮 DPO (mrDPO) 方法,该方法涉及定期更新 DPO 参考模型、合并并重新初始化 LoRA 模块作为每轮训练(1,000 步)后参数更新的代理,并结合真实视频字幕的指导来稳定该过程。为了解决由于 mrDPO 导致的非字幕能力的潜在灾难性遗忘,我们提出了重生调整,即通过使用 mrDPO 训练模型生成的字幕作为监督标签来微调预 DPO LLM。实验表明,mrDPO 显着增强了 video-SALMONN 2 的字幕准确性,将全局和局部错误率分别降低了 40% 和 20%,同时将重复率降低了 35%。最终的视频 SALMONN 2 模型仅具有 70 亿个参数,在视频字幕任务中超越了 GPT-4o 和 Gemini-1.5-Pro 等领先模型,同时在广泛使用的视频上保持了与最先进的竞争性能类似尺寸模型中的问答基准。接受后,我们将发布代码、模型检查点以及训练和测试数据。演示可在 \href{https://video-salmonn-2.github.io}{https://video-salmonn-2.github.io} 获取。

研究大语言模型生成的对话语义框架分析训练数据的成本效益

分类: 计算和语言, 人工智能

作者: Shiho Matta, Yin Jou Huang, Fei Cheng, Hirokazu Kiyomaru, Yugo Murawaki

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06550v1

摘要: 最近的研究表明,少样本学习允许大语言模型以低成本生成监督模型的训练数据。然而,大语言模型生成的数据的质量可能并不完全与人工标记的数据相匹配。这就提出了一个关键问题:应该如何平衡更高质量但更昂贵的人类数据与质量较低但便宜得多的大语言模型生成的数据之间的权衡?在本文中,我们使用 GPT-4 合成了用于会话语义框架分析的训练数据,并研究了如何优化分配预算以实现最佳性能。我们在不同预算水平上进行的实验表明,通过在各种预算水平上结合人类和大语言模型生成的数据,可以实现最佳成本效率。值得注意的是,随着预算的减少,更高比例的大语言模型生成的数据变得更可取。

IntrinsicVoice:赋予大语言模型内在的实时语音交互能力

分类: 声音, 人工智能

作者: Xin Zhang, Xiang Lyu, Zhihao Du, Qian Chen, Dong Zhang, Hangrui Hu, Chaohong Tan, Tianyu Zhao, Yuxuan Wang, Bin Zhang, Heng Lu, Yaqian Zhou, Xipeng Qiu

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.08035v1

摘要: 当前构建具有语音交互功能的大语言模型的方法在很大程度上依赖于在语音响应生成之前或期间的显式文本自回归生成来维持内容质量,不幸的是,这带来了计算开销并增加了多轮交互中的延迟。为了解决这个问题,我们引入了 IntrinsicVoic,一个具有内在实时语音交互功能的大语言模型。 IntrinsicVoice 旨在通过缩小文本和语音之间的模态差距,促进预训练大语言模型的文本能力向语音模态的转移。我们的新颖架构 GroupFormer 可以将语音序列减少到与文本序列相当的长度,同时生成高质量的音频,显着减少语音和文本之间的长度差异,加快推理速度,并缓解长文本建模问题。此外,我们构建了一个名为 \method-500k 的多轮语音到语音对话数据集,其中包括近 500k 轮语音到语音对话,以及用于增强语音和文本之间语义对齐的跨模态训练策略。实验结果表明,IntrinsicVoice可以在多轮对话场景下生成延迟低于100ms的高质量语音响应。演示可在 https://instrinsicvoice.github.io/ 获取。

一种基于大语言模型的新型长对话两阶段总结方法

分类: 计算和语言

作者: Yuan-Jhe Yin, Bo-Yu Chen, Berlin Chen

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06520v1

摘要: 由于输入长度超过了大多数最先进的预训练语言模型的容量,长文档摘要对自然语言处理提出了重大挑战。这项研究提出了一个分层框架,可以对长文档中的信息进行分段和压缩,然后使用抽象摘要模型对处理后的文本进行微调。无监督主题分割方法识别语义上适当的断点。压缩阶段利用无监督生成模型来生成压缩数据,我们当前的实验采用ChatGPT(v3.5)。摘要阶段对压缩数据上的抽象摘要模型进行微调以生成最终结果。即使文档长度超过模型的最大输入大小,该框架也可以在模型上处理长文档。从摘要模型中排除整个文档减少了训练所需的时间和计算资源,使该框架适合本地计算资源受限的上下文。

TorchTitan:一站式 PyTorch 本机解决方案,用于生产就绪的 LLM 预训练

分类: 计算和语言, 人工智能, 分布式、并行和集群计算, 机器学习

作者: Wanchao Liang, Tianyu Liu, Less Wright, Will Constable, Andrew Gu, Chien-Chin Huang, Iris Zhang, Wei Feng, Howard Huang, Junjie Wang, Sanket Purandare, Gokul Nadathur, Stratos Idreos

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06511v1

摘要: 大语言模型 (LLM) 的开发对于推进最先进的自然语言处理应用程序发挥了重要作用。使用数十亿个参数和数万亿个代币来训练大语言模型需要复杂的分布式系统,该系统能够组合和比较多种最先进的技术,以便在数千个加速器上有效扩展。然而,现有的解决方案很复杂,分散在多个库/存储库中,缺乏互操作性,并且维护起来很麻烦。因此,策划和凭经验比较培训方案需要不平凡的工程工作。本文介绍了 TorchTitan,这是一个开源的、PyTorch 原生的分布式训练系统,它统一了最先进的技术,简化了集成并减少了开销。 TorchTitan 以模块化方式实现 3D 并行性和弹性扩展,为生产就绪培训提供全面的日志记录、检查点和调试工具。它还采用了硬件-软件联合设计的解决方案,利用了 Float8 训练和 SymmetricMemory 等功能。作为一个灵活的测试平台,TorchTitan 有助于定制配方管理和比较,使我们能够为 Llama 3.1 开发优化的训练配方,并根据我们的经验提供选择技术以实现最大效率的指导。我们在 Llama 3.1 系列 LLM 上全面评估了 TorchTitan,涵盖 80 亿至 4050 亿个参数,并展示了其卓越的性能、模块化可组合性和弹性可扩展性。通过堆叠训练优化,我们展示了 128-GPU 规模(Llama 3.1 8B)的 1D 并行性加速了 65.08%,256-GPU 规模(Llama 3.1 70B)的 2D 并行性额外加速了 12.59%,另外还有 30%在 NVIDIA H100 GPU 上实现 512-GPU 规模 (Llama 3.1 405B) 的 3D 并行性,并超过优化的基准。

通过 MCTS 实现大语言模型的自我提升:通过课程偏好学习利用逐步知识

分类: 机器学习, 计算和语言

作者: Xiyao Wang, Linfeng Song, Ye Tian, Dian Yu, Baolin Peng, Haitao Mi, Furong Huang, Dong Yu

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06508v1

摘要: 蒙特卡罗树搜索(MCTS)最近成为增强大语言模型推理能力的强大技术。 SFT 或 DPO 等技术使大语言模型能够从 MCTS 中提炼出高质量的行为,从而提高他们的推理性能。然而,现有的蒸馏方法没有充分利用 MCTS 生成的丰富轨迹信息,限制了 LLM 推理改进的潜力。在本文中,我们提出了 AlphaLLM-CPL,这是一种新颖的成对训练框架,使 LLM 能够通过 MCTS 行为蒸馏进行自我改进。 AlphaLLM-CPL 通过两个关键创新有效地利用 MCTS 轨迹:(1)AlphaLLM-CPL 从搜索树中共享相同父节点的子节点构造逐步轨迹对,为更有效的 MCTS 行为蒸馏提供步骤级信息。 (2)AlphaLLM-CPL引入了课程偏好学习,动态调整每个离线训练时期轨迹对的训练顺序,以优先考虑关键学习步骤并减轻过度拟合。数学推理任务的实验结果表明,AlphaLLM-CPL 显着优于之前的 MCTS 行为蒸馏方法,大幅提升了 LLM 的推理能力。

复合学习单元:超越参数更新的广义学习将大语言模型转变为自适应推理机

分类: 机器学习, 人工智能, 计算和语言, 多代理系统

作者: Santosh Kumar Radha, Oktay Goktas

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.08037v1

摘要: 人类学习的蓬勃发展依赖于从错误中学习、通过反馈进行适应以及完善理解过程的能力,而这些能力在静态机器学习模型中往往是缺失的。在这项工作中,我们引入了复合学习单元(CLU),旨在将大型语言模型(LLM)等推理器转变为能够进行广义连续学习的学习器,而无需传统的参数更新,同时通过持续的交互和反馈来增强其推理能力。 CLU 建立在允许推理模型维护和发展动态知识库的架构之上:用于广泛、可重用见解的通用知识空间和用于特定任务学习的提示特定知识空间。通过目标驱动的交互,CLU 迭代地完善这些知识空间,使系统能够动态适应复杂的任务,提取细致入微的见解,并自主地建立在过去的经验基础上。我们通过密码推理任务展示了 CLU 的有效性,其中它们通过反馈不断发展其理解,以发现隐藏的转换规则。传统模型很难掌握底层逻辑,而 CLU 则通过参与迭代的、以目标为导向的过程而表现出色。专门的组件(处理知识检索、提示生成和反馈分析)在强化反馈循环中协同工作。这种方法使 CLU 能够保留过去失败和成功的记忆,自主适应,并有效应用复杂的推理,不断从错误中学习,同时不断取得突破。

LLM 压缩与神经架构搜索

分类: 计算和语言

作者: Rhea Sanjay Sukthanker, Benedikt Staffler, Frank Hutter, Aaron Klein

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06479v1

摘要: 大型语言模型(LLM)表现出卓越的推理能力,使它们能够泛化广泛的下游任务,例如常识推理或指令遵循。然而,随着大语言模型规模的扩大,推理成本变得越来越高,并在其生命周期中显着累积。这就提出了一个问题:我们能否压缩预训练的 LLM 以满足不同的大小和延迟要求?我们利用神经架构搜索(NAS)通过修剪结构组件(例如注意力头、神经元和层)来压缩 LLM,旨在实现性能和效率之间的帕累托最优平衡。虽然 NAS 在之前的工作中已经在小语言模型上取得了有希望的结果,但在本文中,我们提出了各种扩展,使我们能够扩展到大语言模型。与结构修剪基线相比,我们发现 NAS 在 MMLU 上的性能提高了 3.4%,并且设备上的延迟加速。

WAPITI:微调开源大语言模型的水印

分类: 密码学和安全

作者: Lingjie Chen, Ruizhong Qiu, Siyu Yuan, Zhining Liu, Tianxin Wei, Hyunsik Yoo, Zhichen Zeng, Deqing Yang, Hanghang Tong

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06467v1

摘要: 大型语言模型 (LLM) 生成的水印在文本中嵌入了难以察觉的统计模式,使其可以通过算法检测到。水印是解决大语言模型潜在危害和偏见的一种很有前景的方法,因为它可以实现可追溯性、问责性和对被操纵内容的检测,有助于减轻意外后果。然而,对于开源模型,水印面临两个主要挑战:(i)与微调模型不兼容,以及(ii)容易受到微调攻击。在这项工作中,我们提出了 WAPITI,一种通过参数集成将水印从基本模型转移到微调模型的新方法。据我们所知,我们提出了第一个针对微调开源大语言模型的水印,以保留其微调功能。此外,我们的方法可以有效防御微调攻击。我们在各种模型架构和水印策略上测试我们的方法。结果表明,我们的方法可以成功注入水印,并且与微调模型高度兼容。此外,我们还深入分析了参数编辑如何影响水印强度和结果模型的整体功能。

使用 DeCRIM 进行 LLM 自我修正:分解、批判和细化,以增强对具有多重约束的指令的遵循

分类: 计算和语言, 人工智能, 机器学习

作者: Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin, Haw-Shiuan Chang, Shereen Oraby, Sijia Liu, Vivek Subramanian, Tagyoung Chung, Mohit Bansal, Nanyun Peng

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06458v1

摘要: 遵循指令是大语言模型的一项关键能力。然而,最近的研究表明,大语言模型经常难以应对包含多重限制的指令(例如,要求“以有趣的语气”创建社交媒体帖子,且“没有主题标签”)。尽管如此,大多数评估仅关注合成数据。为了解决这个问题,我们推出了 RealInstruct,这是第一个基准测试,旨在通过利用真实用户向人工智能助理提出的查询来评估大语言模型遵循现实世界多约束指令的能力。我们还研究了基于模型的评估作为这项任务的人工注释的经济有效的替代方案。我们的研究结果表明,即使是专有的 GPT-4 模型也无法满足超过 21% 的指令的至少一项约束,这凸显了最先进模型的局限性。为了解决开源模型和专有模型之间的性能差距,我们提出了分解、批判和提炼(DeCRIM)自我校正管道,该管道增强了大语言模型遵循约束的能力。 DeCRIM 的工作原理是将原始指令分解为一系列约束,并使用 Critic 模型来决定 LLM 的响应何时何地需要改进。我们的结果表明,即使反馈较弱,DeCRIM 将 Mistral 在 RealInstruct 上的性能提高了 7.3%,在 IFEval 上提高了 8.0%。此外,我们证明,通过强有力的反馈,采用 DeCRIM 的开源大语言模型可以在两个基准测试中优于 GPT-4。

大语言模型校准微调的功能级不确定性量化

分类: 机器学习

作者: Ruijia Niu, Dongxia Wu, Rose Yu, Yi-An Ma

发布时间: 2024-10-09

链接: http://arxiv.org/abs/2410.06431v1

摘要: 从常识推理到特定领域的任务,大型​​语言模型 (LLM) 的参数高效微调 (PEFT) 方法在下游任务上展示了显着的性能改进。然而,经过微调的大语言模型常常会因对不确定预测的过度自信而苦苦挣扎,特别是由于训练数据稀疏。这种过度自信反映了认知不确定性校准不佳,这是由于模型利用有限数据进行概括的能力受到限制而产生的。现有的大语言模型PEFT不确定性量化方法侧重于后期微调阶段,因此校准认知不确定性的能力有限。为了解决这些限制,我们提出了用于校准微调的功能级不确定性量化(UQ4CT),它通过混合专家框架在微调阶段捕获和校准功能级认知不确定性。我们表明,UQ4CT 将预期校准误差 (ECE) 降低了超过 25%$,同时在 5$ 基准测试中保持了高精度。此外,UQ4CT 在分布偏移下保持了卓越的 ECE 性能和高精度,展示了改进的通用性。

加快步伐并降低风险:在发布部署中使用 LLM

分类: 软件工程

作者: Rui Abreu, Vijayaraghavan Murali, Peter C Rigby, Chandra Maddila, Weiyan Sun, Jun Ge, Kaavya Chinniah, Audris Mockus, Megh Mehta, Nachiappan Nagappan

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06351v1

摘要: 传统上,发布工程专注于向用户持续提供功能和错误修复,但在一定规模上,发布工程团队不可能确定应该发布什么。在 Meta 的规模上,责任适当且必然地落在编写和审查代码的工程师身上。为了应对这一挑战,我们开发了差异风险评分 (DRS) 模型,以确定差异导致 SEV(即影响最终用户的严重故障)的可能性有多大。假设 SEV 仅由差异引起,一个简单的模型可以随机控制着陆时 X% 的差异,这将平均自动捕获 X% 的 SEV。然而,我们的目标是建立一个模型,通过门控 X% 的差异来捕获 Y% 的 SEV,其中 Y >> X。通过使用过去导致 SEV 的差异的历史数据训练模型,我们可以预测风险导致 SEV 的传出差异。然后可以对超出特定风险阈值的差异进行门控。我们有四种类型的门控:无门控(绿色)、周末门控(周末)、对最终用户影响中等(黄色)和对最终用户影响较大(红色)。我们模型的输入参数是门控水平,结果度量是捕获的 SEV 数量。我们的研究方法包括逻辑回归模型、基于 BERT 的模型和生成大语言模型。我们的基线回归模型捕获了 18.7%、27.9% 和 84.6% 的 SEV,同时分别控制了前 5%(周末)、10%(黄色)和 50%(红色)的风险差异。基于 BERT 的模型 StarBERT 只捕获了周末、黄色和红色门控区域逻辑回归的 0.61 倍、0.85 倍和 0.81 倍的 SEV。生成式 LLM、iCodeLlama-34B 和 iDiffLlama-13B 在进行风险调整时,比生产中的逻辑回归模型捕获更多的 SEV:分别是 1.40 倍、1.52 倍和 1.05 倍。

不间断查询:利用 LLM 中的固定点

分类: 机器学习, 人工智能, 计算和语言

作者: Ghaith Hammouri, Kemal Derya, Berk Sunar

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06287v1

摘要: 我们引入了一个新的漏洞,该漏洞利用自回归模型中的固定点,并使用它来制作永不停止的查询,即不会终止的 LLM 输出。更准确地说,对于我们所说的非停止查询,LLM 永远不会对字符串结尾标记 () 进行采样。我们严格分析非停止异常出现的条件。特别是,在温度为零时,我们证明,如果在输出处观察到超出上下文大小的重复(循环)标记序列,则 LLM 不会停止。我们在基础(未对齐)模型中进行的许多实验中证明了非停止异常,其中重复标记立即导致分析预测的非停止循环行为。此外,我们开发了一个简单的方法,它采用在基本模型中观察到的相同固定点,并创建一个提示结构来定位对齐模型。我们研究了许多 LLM 中绕过对齐的配方行为,包括 GPT-4o、llama-3-8b-instruct 和 gemma-2-9b-it,其中所有模型都被迫进入非停止状态。此外,我们还证明了该配方成功地将过去一年中发布的大多数主要模型发送到非停止状态,即使在更高的温度下也能通过相同的简单提示。此外,我们研究了基于直接反转的技术来制作新的短提示来诱导非停止状态。我们使用基于梯度搜索的反演技术 ARCA 进行的实验表明,非暂停在模型中很普遍,并且可以通过一些输入标记轻松诱导。虽然可以通过在采样器中配置硬性最大令牌限制来减轻其对托管系统可靠性的影响,但非停止异常仍然会破坏对齐。这强调需要进一步研究和针对非停止异常进行更强有力的调整。

MC-MoE:混合专家大语言模型的混合压缩器获得更多收益

分类: 机器学习, 计算和语言

作者: Wei Huang, Yue Liao, Jianhui Liu, Ruifei He, Haoru Tan, Shiming Zhang, Hongsheng Li, Si Liu, Xiaojuan Qi

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06270v1

摘要: 专家混合大语言模型(MoE-LLM)标志着语言模型向前迈出了重要一步,然而,它们在实践中遇到了两个关键挑战:1)专家参数导致相当大的内存消耗和加载延迟; 2)当前激活的专家是多余的,因为许多代币可能只需要一个专家。受这些问题的推动,我们研究了 MoE-LLM 并做出了两个关键观察:a) 不同的专家在激活重建误差、路由分数和激活频率方面表现出不同的行为,突出了它们不同的重要性,b) 并非所有令牌都同等重要——只有一小部分是关键的。基于这些见解,我们提出了 MC-MoE,一种用于 MoE-LLM 的免训练混合压缩器,它利用专家和代币的重要性来实现极限压缩。首先,为了减轻存储和加载开销,我们引入了预加载混合精度量化,它将自适应位宽分配制定为线性规划问题,其中目标函数平衡反映每个专家重要性的多因素。此外,我们还开发了在线动态修剪,它可以识别要保留的重要令牌,并在推理过程中为其他令牌动态选择激活的专家,以在保持性能的同时优化效率。我们的 MC-MoE 集成了静态量化和动态剪枝,以协作方式实现 MoE-LLM 的极端压缩,同时精度损失较小,确保性能和效率之间的最佳平衡。大量的实验证实了我们方法的有效性。例如,在 2.54 位时,MC-MoE 压缩了模型的 76.6%,平均精度损失仅为 3.8%。在动态推理过程中,我们进一步减少了15%的激活参数,性能下降小于0.6%。

OrionNav:利用情境感知大语言模型和开放词汇语义场景图进行机器人自主在线规划

分类: 机器人技术

作者: Venkata Naren Devarakonda, Raktim Gautam Goswami, Ali Umut Kaypak, Naman Patel, Rooholla Khorrambakht, Prashanth Krishnamurthy, Farshad Khorrami

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06239v1

摘要: 让机器人能够自主导航未知、复杂、动态的环境并执行不同的任务仍然是开发强大的自主物理代理的基本挑战。他们必须有效地感知周围环境,同时利用世界知识进行决策。虽然最近的方法利用视觉语言和大型语言模型进行场景理解和规划,但它们通常依赖于离线处理、外部计算或限制性环境假设。我们提出了一种高效且可扩展的实时机载自主导航的新颖框架,该框架在随时间变化的未知大规模环境中集成了感知和规划中的多级抽象。我们的系统融合来自多个机载传感器的数据以进行定位和映射,并将其与开放词汇语义集成以生成分层场景图。基于 LLM 的规划器利用这些图表来生成高级任务执行策略,指导低级控制器安全地实现目标。我们的框架的实时操作可以持续更新场景图和计划,从而可以快速响应环境变化并进行动态纠错。这是相对于静态或基于规则的规划系统的一个关键优势。我们在四足机器人上展示了我们的系统在大规模动态环境中导航的功效,展示了其在不同场景中的适应性和鲁棒性。

EVOLvE:评估和优化大语言模型以进行探索

分类: 机器学习, 人工智能, 计算和语言

作者: Allen Nie, Yi Su, Bo Chang, Jonathan N. Lee, Ed H. Chi, Quoc V. Le, Minmin Chen

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06238v1

摘要: 尽管大型语言模型 (LLM) 在许多领域取得了成功,但在需要在不确定性下做出最佳决策的场景中,其研究仍然不足。这一点至关重要,因为许多现实世界的应用,从个性化建议到医疗保健干预,都要求大语言模型不仅能够预测,而且还能够通过探索积极学习做出最佳决策。在这项工作中,我们衡量了大语言模型在 bandits 中做出最佳决策的能力(与许多应用相关的无状态强化学习设置)。我们开发了一套全面的环境,包括具有不同任务难度的上下文无关和上下文老虎机,以衡量大语言模型的表现。受最佳探索算法存在的启发,我们提出了将这些算法知识集成到 LLM 中的有效方法:通过在推理过程中提供明确的算法引导支持;并使用这些算法生成的合成数据,通过上下文演示和微调进行算法蒸馏。令人印象深刻的是,这些技术使我们能够利用较小的模型实现卓越的探索性能,在各种任务上超越较大的模型。我们进行了广泛的消融研究,以阐明影响 LLM 探索效率的各种因素,例如任务难度和数据表示。此外,我们使用后悔的概念对大语言模型的探索效率进行了严格的分析,将其探索能力与模型大小和底层算法联系起来。

进入真实的社交世界!从第一人称视角对大语言模型的心理理论和社会化能力进行基准测试

分类: 计算和语言, 人工智能

作者: Guiyang Hou, Wenqi Zhang, Yongliang Shen, Zeqi Tan, Sihao Shen, Weiming Lu

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06195v1

摘要: 在社会世界中,人类拥有推断和推理他人心理状态(例如情绪、信念和意图)的能力,称为心理理论(ToM)。同时,人类自身的心理状态也会随着社会情境的变化而演变,这种能力我们称之为社会化。这些能力共同构成了人类社会互动的基础。在人工智能(AI)时代,特别是随着大型语言模型(LLM)的发展,我们提出了一个有趣的问题:LLM在ToM和社交能力方面表现如何?更广泛地说,这些人工智能模型能否真正进入并驾驭现实的社交世界?现有研究通过将大语言模型定位为第三人称视角的被动观察者,而不是主动参与者来评估大语言模型的 ToM 和社交能力。然而,与第三人称视角相比,从以自我为中心的第一人称视角观察和理解世界对于人类和人工智能代理来说都是一种自然的方法。从第一人称角度来看,大语言模型的 ToM 和社交能力是推进具体人工智能代理的关键属性,但仍有待探索。为了回答上述问题并弥合研究差距,我们引入了 EgoSocialArena,这是一个新颖的框架,旨在从第一人称视角评估和研究大语言模型的 ToM 和社交能力。它包含静态环境和交互环境两种评估环境,包括日常生活、反事实、新世界、二十一点、猜数、限注德州扑克七个场景,共计2195条数据。通过EgoSocialArena,我们对九个高级大语言模型进行了全面评估,并观察了有关大语言模型未来发展以及目前最先进大语言模型的能力水平的一些关键见解。

AgentSquare:模块化设计空间中的自动 LLM 代理搜索

分类: 计算和语言

作者: Yu Shang, Yu Li, Keyu Zhao, Likai Ma, Jiahe Liu, Fengli Xu, Yong Li

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06153v1

摘要: 大型语言模型 (LLM) 的最新进展导致能够处理各种复杂任务的代理系统快速增长。然而,当前的研究很大程度上依赖于手动的、针对特定任务的设计,限制了它们对新任务的适应性。在本文中,我们介绍了一个新的研究问题:模块化 LLM 代理搜索(MoLAS)。我们提出了一个模块化设计空间,将现有的 LLM 代理设计抽象为具有统一 IO 接口的四个基本模块:规划、推理、工具使用和内存。在此设计空间的基础上,我们提出了一种名为 AgentSquare 的新型 LLM 代理搜索框架,它引入了两个核心机制,即模块演化和重组,以有效地搜索优化的 LLM 代理。为了进一步加速这一过程,我们设计了一个性能预测器,它使用上下文代理模型来跳过没有希望的代理设计。跨越六个基准的广泛实验,涵盖网络、实体、工具使用和游戏应用程序的不同场景,表明 AgentSquare 的性能大大优于手工制作的代理,与最知名的人类设计相比,平均性能提升了 17.2%。此外,AgentSquare 可以生成可解释的设计见解,从而能够更深入地了解代理架构及其对任务性能的影响。我们相信,模块化设计空间和 AgentSquare 搜索框架为充分挖掘先前成功设计的潜力并巩固研究界的集体努力提供了一个平台。代码仓库位于 https://github.com/tsinghua-fib-lab/AgentSquare。

ConceptAgent:LLM驱动的前提条件基础和树搜索,用于稳健的任务规划和执行

分类: 人工智能

作者: Corban Rivera, Grayson Byrd, William Paul, Tyler Feldman, Meghan Booker, Emma Holmes, David Handelman, Bethany Kemp, Andrew Badger, Aurora Schmidt, Krishna Murthy Jatavallabhula, Celso M de Melo, Lalithkumar Seenivasan, Mathias Unberath, Rama Chellappa

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06108v1

摘要: 由于巨大的状态空间和任务实施的高度可变性,开放世界环境中的机器人规划和执行是一个复杂的问题。感知算法的最新进展与用于规划的大型语言模型 (LLM) 相结合,为这些挑战提供了有前景的解决方案,因为 LLM 的常识推理能力为有效搜索动作空间提供了强大的启发式方法。然而,之前的工作未能解决大语言模型产生幻觉的可能性,导致计划行动未能执行,很大程度上是由于高层或低层的逻辑谬误。为了应对这种幻觉导致的自动化失败,我们引入了 ConceptAgent,这是一种自然语言驱动的机器人平台,专为在非结构化环境中执行任务而设计。着眼于复杂状态和行动空间中基于 LLM 的规划的可扩展性和可靠性,我们提出了旨在限制这些缺点的创新,包括 1) 谓词接地,以防止不可行的行动并从中恢复,2) LLM 的具体版本通过自我反思引导蒙特卡罗树搜索。在模拟实验中,ConceptAgent 在三个房间布局和 30 个简单级别的具体任务中实现了 19% 的任务完成率,优于其他最先进的 LLM 驱动的推理基线,在相同基准上得分为 10.26% 和 8.11%。此外,对中度至困难具体任务的消融研究表明,从基线代理到完全增强的 ConceptAgent,任务完成率提高了 20%,突出了谓词基础和 LLM 引导的树搜索的单独和组合贡献,以在复杂的环境中实现更强大的自动化。状态和动作空间。

与另一个你共同进化:通过顺序合作多智能体强化学习微调大语言模型

分类: 人工智能, 多代理系统

作者: Hao Ma, Tianyi Hu, Zhiqiang Pu, Boyin Liu, Xiaolin Ai, Yanyan Liang, Min Chen

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06101v1

摘要: 强化学习 (RL) 已成为针对特定任务微调大型语言模型 (LLM) 的关键技术。然而,流行的强化学习微调方法主要依赖于 PPO 及其变体。尽管这些算法在一般的 RL 设置中是有效的,但当应用于 LLM 的微调时,它们通常表现出次优的性能和分布崩溃的脆弱性。在本文中,我们提出 CORY,将 LLM 的 RL 微调扩展到顺序协作多智能体强化学习框架,以利用多智能体系统固有的协同进化和涌现能力。在 CORY 中,待微调的大语言模型最初被复制为两个自主代理:先驱者和观察者。先锋根据查询生成响应,而观察者使用查询和先锋的响应生成响应。两个特工一起接受训练。在训练期间,智能体定期交换角色,促进它们之间的合作和共同进化。实验通过分别在 IMDB Review 和 GSM8K 数据集上的主观和客观奖励函数下微调 GPT-2 和 Llama-2 来评估 CORY 的性能。结果表明,CORY 在政策最优性、抗分布崩溃和训练稳健性方面优于 PPO,从而强调了其作为在现实应用中改进大语言模型的卓越方法的潜力。

通过挖掘令牌概率序列进行免训练的 LLM 生成的文本检测

分类: 计算和语言

作者: Yihuai Xu, Yongwei Wang, Yifei Bi, Huangsen Cao, Zhouhan Lin, Yu Zhao, Fei Wu

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06072v1

摘要: 大型语言模型 (LLM) 在跨不同领域生成高质量文本方面表现出了卓越的能力。然而,大语言模型的潜在滥用引起了人们的严重关注,强调了对大语言模型生成的文本进行可靠检测的迫切需要。传统的基于训练的检测器通常难以泛化,特别是在跨域和跨模型场景中。相比之下,免训练方法通过精心设计的统计特征来关注固有差异,提供了改进的泛化性和可解释性。尽管如此,现有的免训练检测方法通常依赖于全局文本序列统计,忽略了局部判别特征的建模,从而限制了其检测效果。在这项工作中,我们引入了一种新颖的免训练检测器,称为 \textbf{Lastde},它可以协同本地和全局统计数据以增强检测。我们首次将时间序列分析引入 LLM 生成的文本检测,捕获标记概率序列的时间动态。通过将这些本地统计数据与全球统计数据相结合,我们的检测器揭示了人类和大语言模型生成的文本之间的显着差异。我们还提出了一种有效的替代方案 \textbf{Lastde++} 来实现实时检测。在白盒和黑盒设置下,对涉及跨域、跨模型和跨语言检测场景的六个数据集进行了广泛的实验,证明我们的方法始终能够实现最先进的性能。此外,与现有的基线方法相比,我们的方法对释义攻击表现出更强的鲁棒性。

通过联合知识图从自然语言生成基于 LLM 的 SPARQL 查询

分类: 数据库, 人工智能, 信息检索

作者: Vincent Emonet, Jerven Bolleman, Severine Duvaud, Tarcisio Mendes de Farias, Ana Claudia Sima

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.06062v2

摘要: 我们引入了检索增强生成 (RAG) 系统,用于利用大型语言模型 (LLM) 将用户问题转换为针对生物信息学知识图 (KG) 的准确联合 SPARQL 查询。为了提高查询生成中的准确性并减少幻觉,我们的系统利用知识图谱中的元数据,包括查询示例和模式信息,并结合验证步骤来纠正生成的查询。该系统可通过 chat.expasy.org 在线获取。

长语境大语言模型遇见 RAG:克服 RAG 中长输入的挑战

分类: 计算和语言, 人工智能, 机器学习

作者: Bowen Jin, Jinsung Yoon, Jiawei Han, Sercan O. Arik

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05983v1

摘要: 检索增强生成 (RAG) 使大型语言模型 (LLM) 能够利用外部知识源。大语言模型处理更长输入序列的能力不断增强,为提供更多检索信息开辟了途径,从而有可能提高生成输出的质量。可以合理地假设,较大的检索集将包含更多相关信息(更高的召回率),这可能会提高性能。然而,我们的实证研究结果表明,对于许多长上下文大语言模型来说,生成的输出质量最初会首先提高,但随后随着检索到的段落数量的增加而下降。本文研究了这一现象,并将检索到的“硬底片”的有害影响确定为关键因素。为了缓解这一问题并增强基于 LLM 的长上下文 RAG 的稳健性,我们提出了免训练和基于训练的方法。我们首先展示检索重新排序作为一种简单而强大的免训练优化的有效性。此外,我们探索基于训练的方法,特别是特定于 RAG 的隐式 LLM 微调和带有中间推理的面向 RAG 的微调,证明了它们显着提高性能的能力。最后,我们对这些基于训练的方法的设计选择进行了系统分析,包括数据分布、检索器选择和训练上下文长度。

主动评估采集以实现高效的大语言模型基准测试

分类: 机器学习

作者: Yang Li, Jie Ma, Miguel Ballesteros, Yassine Benajiba, Graham Horwood

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05952v1

摘要: 随着大型语言模型 (LLM) 变得越来越通用,人们开发了许多大规模基准来彻底评估其能力。这些基准通常由不同的数据集组成,并提示评估大语言模型表现的不同方面。然而,对数百或数千个提示进行综合评估会在计算、金钱和时间方面产生巨大的成本。在这项工作中,我们通过使用学习策略从每个基准中选择示例子集来研究提高评估效率的策略。我们的方法对测试示例之间的依赖关系进行建模,从而可以根据所选示例的结果准确预测其余示例的评估结果。因此,我们只需要获取所选子集的实际评估结果。我们严格探索各种子集选择策略,并引入一种新颖的基于 RL 的策略,该策略利用捕获的依赖关系。经验结果表明,与以前的方法相比,我们的方法显着减少了所需的评估提示数量,同时保持了准确的性能估计。

给我一个提示:大语言模型可以接受提示来解决数学问题吗?

分类: 计算和语言, 人工智能, 计算机视觉和模式识别

作者: Vansh Agrawal, Pratham Singla, Amitoj Singh Miglani, Shivank Garg, Ayush Mangal

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05915v1

摘要: 虽然许多最先进的大语言模型都表现出较差的逻辑和基本数学推理能力,但最近的作品试图利用提示技术来提高他们解决问题的能力。我们建议提供“提示”,以提高语言模型在高级数学问题上的性能,从人类如何进行数学教学中汲取灵感。我们还测试了模型对错误提示的对抗鲁棒性。我们通过评估各种大语言模型,向他们展示来自 MATH 数据集的一系列不同难度和主题的问题,并与一次性、多次和思维链提示等技术进行比较,来证明我们方法的有效性。

MEXA:通过跨语言协调对以英语为中心的大语言模型进行多语言评估

分类: 计算和语言, 人工智能

作者: Amir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05873v1

摘要: 以英语为中心的大语言模型(LLM)通常表现出强大的多语言能力。然而,这些模型的多语言性能仍不清楚,并且没有对许多语言进行彻底评估。大多数多语言基准测试都侧重于经典的 NLP 任务,或涵盖最少数量的语言。我们引入了 MEXA,一种使用平行句子评估预训练的以英语为中心的大语言模型的多语言能力的方法,该方法可用于比现有下游任务更多的语言。 MEXA 利用了以下事实:以英语为中心的大语言模型在其中间层使用英语作为一种关键语言。它使用平行句子计算英语和非英语语言之间的对齐,以评估从英语到其他语言的语言理解迁移。这种对齐可用于估计其他语言的模型性能。我们使用各种并行数据集(FLORES-200 和 Bible)、模型(Llama family、Gemma family、Mistral 和 OLMo)进行研究,并建立下游任务(Belebele、m-MMLU 和 m-ARC)。我们探索了在仅解码器模型中计算嵌入的不同方法。我们的结果表明,MEXA 在默认设置下,与跨九个模型和两个并行数据集的三个已建立的下游任务实现了 0.90 的统计显着平均 Pearson 相关性。这表明 MEXA 是评估以英语为中心的大语言模型的多语言能力的可靠方法,可以更清楚地了解其多语言潜力和大语言模型的内部运作。排行榜:https://huggingface.co/spaces/cis-lmu/Mexa,代码:https://github.com/cisnlp/Mexa。

从符号到单词:大语言模型的内部词典

分类: 计算和语言, 人工智能

作者: Guy Kaplan, Matanel Oren, Yuval Reif, Roy Schwartz

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05864v2

摘要: 自然语言由单词组成,但现代大语言模型将子单词作为输入进行处理。这种差异引发的一个自然问题是大语言模型是否在内部对单词进行编码,如果是,如何编码。我们提供的证据表明大语言模型参与了内在的去标记化过程,其中子词序列被组合成连贯的词表示。我们的实验表明,这个过程主要发生在模型的早期和中间层。他们还表明,它对非语素分割、拼写错误以及可能重要的是对词汇表外的单词具有鲁棒性:当将这些单词的内部表示作为输入向量提供给模型时,它可以“理解”它们,尽管从未见过他们在训练期间。我们的研究结果表明,大语言模型保留了超出分词器范围的潜在词汇。这些见解为扩展预训练模型的词汇量提供了实用的、无需微调的应用程序。通过添加新词汇,我们减少了输入长度和推理迭代,从而减少了空间和模型延迟,而模型准确性几乎没有损失。

CodeCipher:学习针对大语言模型混淆源代码

分类: 计算和语言

作者: Yalan Lin, Chengcheng Wan, Yixiong Fang, Xiaodong Gu

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05797v1

摘要: 虽然大型代码语言模型在人工智能辅助编码任务中取得了重大进展,但人们越来越担心隐私挑战。用户代码对于云端LLM服务提供商是透明的,存在未经授权的用户代码训练、读取和执行的风险。在本文中,我们提出了 CodeCipher,这是一种新方法,可以扰乱代码的隐私,同时保留大语言模型的原始响应。 CodeCipher 转换 LLM 的嵌入矩阵,使每一行对应于原始矩阵中的不同单词,形成用于混淆源代码的令牌到令牌混淆映射。新的嵌入矩阵通过最小化特定于任务的损失函数来优化。为了解决词向量空间离散和稀疏性质的挑战,CodeCipher 采用离散优化策略,在每次梯度更新之前将更新的向量与词汇表中最近的有效标记对齐。我们展示了我们的方法在三个人工智能辅助编码任务上的有效性,包括代码完成、摘要和翻译。结果表明,我们的模型成功地混淆了源代码中的隐私,同时保留了原始 LLM 的性能。

通过时间选通增强视频大语言模型的时间建模

分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者: Zi-Yuan Hu, Yiwu Zhong, Shijia Huang, Michael R. Lyu, Liwei Wang

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05714v1

摘要: 视频大语言模型(视频 LLM)在视频和语言任务(例如视频问答)上取得了令人印象深刻的性能。然而,大多数现有的视频大语言模型忽略了视频数据中的时间信息,导致时间感知视频理解方面的困难。为了解决这一差距,我们提出了时间选通视频 LLM (TG-Vid),旨在通过新颖的时间选通模块 (TG) 增强时间建模。 TG模块在其子模块上采用时间门控机制,包括门控空间注意力、门控时间注意力和门控MLP。这种架构使我们的模型能够对视频中的时间信息有深入的理解。对时间敏感视频基准(即 MVBench、TempCompass 和 NExT-QA)的广泛评估表明,我们的 TG-Vid 模型显着优于现有的视频 LLM。此外,全面的消融研究证实,性能提升归功于我们的 TG 模块的设计。我们的代码可在 https://github.com/LaVi-Lab/TG-Vid 获取。

通过大语言模型在真实临床场景中辅助诊断自闭症

分类: 人机交互, 人工智能, 计算和语言

作者: Yi Jiang, Qingyang Shen, Shuzhong Lai, Shunyu Qi, Qian Zheng, Lin Yao, Yueming Wang, Gang Pan

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05684v2

摘要: 自闭症谱系障碍(ASD)是一种普遍性发育障碍,严重影响个人的日常功能和社会参与。尽管有大量的研究集中在支持自闭症谱系障碍的临床诊断上,但在基于大语言模型(LLM)的方法领域仍然缺乏系统和全面的探索,特别是基于自闭症的真实临床诊断场景诊断观察计划,第二版 (ADOS-2)。因此,我们提出了一个名为ADOS-Copilot的框架,在评分和解释之间取得平衡,并探讨了影响LLM在此任务中表现的因素。实验结果表明,我们提出的框架与临床医生的诊断结果具有竞争力,最小MAE为0.4643,二元分类F1得分为81.79%,三元分类F1得分为78.37%。此外,我们从ADOS-2、LLM的能力、语言和模型规模等角度系统地阐明了当前LLM在这项任务中的优势和局限性,旨在启发和指导LLM未来在更广泛的心理健康领域的应用失调。我们希望更多的研究成果能够转化为真正的临床实践,为古怪的孩子们打开一扇通往世界的善意之窗。

TRACE:通过因果事件建模的时间接地视频大语言模型

分类: 计算机视觉和模式识别

作者: Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Qingbin Liu, Xi Chen

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05643v1

摘要: 视频时间接地(VTG)是视频理解模型的关键能力,在视频浏览和编辑等下游任务中发挥着至关重要的作用。为了同时有效地处理各种任务并实现零样本预测,采用视频 LLM 来执行 VTG 任务的趋势越来越明显。然而,当前基于视频LLM的方法完全依赖于自然语言生成,缺乏对视频固有的清晰结构进行建模的能力,这限制了它们处理VTG任务的有效性。为了解决这个问题,本文首先正式引入因果事件建模框架,它将视频表示为事件序列,并使用先前的事件、视频输入和纹理指令来预测当前事件。每个事件由三个部分组成:时间戳、显着分数和文本标题。然后,我们提出了一种名为 TRACE 的新颖的任务交错视频大语言模型,以在实践中有效地实现因果事件建模框架。 TRACE 将视觉帧、时间戳、显着分数和文本作为不同的任务进行处理,并为每个任务采用不同的编码器和解码头。任务标记根据因果事件建模框架的公式以交错的顺序排列。对各种 VTG 任务和数据集的大量实验证明了 TRACE 与最先进的视频 LLM 相比具有卓越的性能。我们的模型和代码可在 \url{https://github.com/gyxxyg/TRACE} 获取。

一切都同时发生:大语言模型可以在上下文中学习叠加的多个任务

分类: 机器学习, 人工智能, 计算和语言

作者: Zheyang Xiong, Ziyang Cai, John Cooper, Albert Ge, Vasilis Papageorgiou, Zack Sifakis, Angeliki Giannou, Ziqian Lin, Liu Yang, Saurabh Agarwal, Grigorios G Chrysos, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05603v1

摘要: 大型语言模型 (LLM) 已展现出卓越的上下文学习 (ICL) 能力。在这项研究中,我们探索了与 ICL 相关的一个令人惊讶的现象:LLM 可以在一次推理调用期间同时执行多个计算上不同的 ICL 任务,我们将这种能力称为“任务叠加”。我们在不同的大语言模型系列和规模中提供了这种现象的经验证据,并表明即使我们训练模型一次在上下文中学习一项任务,这种现象也会出现。我们提供的理论解释表明,这种能力完全在变压器的表达能力范围内。我们还探讨了大语言模型如何在叠加过程中内部组成任务向量。此外,我们表明更大的模型可以并行解决更多 ICL 任务,并更好地校准其输出分布。我们的研究结果提供了对大语言模型潜在能力的见解,进一步证实了“大语言模型作为模拟器的叠加”的观点,并提出了关于实现同时任务执行的机制的问题。

大语言模型的适应奥德赛:为什么额外的预训练有时无法提高?

分类: 计算和语言, 人工智能, 机器学习

作者: Fırat Öncel, Matthias Bethge, Beyza Ermis, Mirco Ravanelli, Cem Subakan, Çağatay Yıldız

发布时间: 2024-10-08

链接: http://arxiv.org/abs/2410.05581v1

摘要: 在过去的十年中,深度学习模型的泛化和适应能力通常是在固定的训练和测试分布上进行评估的。与传统的深度学习相反,大型语言模型(LLM)(i)更加过度参数化,(ii)在互联网上以最少的人工干预方式对未标记的文本语料库进行训练,以及(iii)以在线方式进行训练。这些鲜明的对比阻止了研究人员将深度学习环境中模型泛化和适应的经验教训转移到大语言模型。为此,我们的简短论文介绍了经验观察,旨在阐明对已经预训练的语言模型的进一步训练。具体来说,我们证明在文本域上训练模型可以降低其在同一域的测试部分上的困惑度。通过后续分析,我们观察到性能下降与 LLM 的附加预训练数据集和原始预训练数据集之间的相似性呈正相关。我们进一步的令牌级困惑度观察表明,困惑度下降是由于少数令牌不提供有关该领域的信息。我们希望这些发现能够指导我们确定何时调整模型以及何时依赖其基础功能。

自我合理化提高了LLM作为细粒度法官的能力

分类: 计算和语言

作者: Prapti Trivedi, Aditya Gulati, Oliver Molenschot, Meghana Arakkal Rajeev, Rajkumar Ramamurthy, Keith Stevens, Tanveesh Singh Chaudhery, Jahnavi Jambholkar, James Zou, Nazneen Rajani

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05495v1

摘要: 大语言模型作为法官模型已用于评估人类和人工智能生成的内容,特别是通过提供分数和理由。基本原理除了提高透明度之外,还可以帮助模型学习校准其判断。因此,增强模型的基本原理可以提高其校准能力,并最终提高对内容进行评分的能力。我们引入了自我合理化,这是一个改进判断模型基本原理的迭代过程,从而提高了细粒度可定制评分标准的分数(即具有任意评估标准的李克特量表评分)。自我合理化的工作原理是让模型针对同一输入生成具有基本原理的多个判断,根据自己的判断整理偏好对数据集,并通过 DPO 迭代地微调判断。直观上,这种方法允许法官模型通过学习自己的基本原理来自我改进,从而获得更好的一致性和评估准确性。经过两次迭代后——虽然仅依赖于训练集中的示例——人类评估表明,我们的法官模型学会了产生更高质量的理由,与刚刚通过 SFT 训练的模型相比,平均获胜率为 62%$理由。该判断模型还在 BigGen Bench 和 Reward Bench 上实现了较高的评分准确性,其性能优于使用 SFT 训练的更大尺寸模型,具有基本原理、自我一致性或最佳 $N$ 采样 $3%$ 到 $9%$。

调整大语言模型以应对快速注入

分类: 密码学和安全, 机器学习

作者: Sizhe Chen, Arman Zharmagambetov, Saeed Mahloujifar, Kamalika Chaudhuri, Chuan Guo

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05451v1

摘要: 大型语言模型 (LLM) 在现代软件系统中变得越来越普遍,它连接用户和互联网,以协助完成需要高级语言理解的任务。为了完成这些任务,LLM 经常使用外部数据源,例如用户文档、Web 检索、API 调用结果等。这为攻击者通过提示注入操纵 LLM 开辟了新途径。可以精心设计对抗性提示并将其注入外部数据源,以覆盖用户的预期指令并执行恶意指令。即时注入攻击对 LLM 安全构成重大威胁,因此设计和实施切实可行的对策至关重要。为此,我们证明对齐可以成为一个强大的工具,使大语言模型在对抗即时注入方面更加稳健。我们的方法——SecAlign——首先通过模拟提示注入攻击并构建期望和不需要的响应对来构建对齐数据集。然后,我们应用现有的对齐技术来微调 LLM,使其能够抵御这些模拟攻击。我们的实验表明,SecAlign 极大地增强了 LLM,对模型效用的损害可以忽略不计。此外,SecAlign 的保护泛化到训练中未曾见过的强烈攻击。具体来说,在我们的对齐过程之后,Mistral-7B 中最先进的基于 GCG 的即时注射的成功率从 56% 下降到 2%。我们的代码发布于 https://github.com/facebookresearch/SecAlign

大语言模型可以理解时间序列异常吗?

分类: 机器学习

作者: Zihao Zhou, Rose Yu

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05440v1

摘要: 大型语言模型 (LLM) 在时间序列预测中越来越受欢迎,但其异常检测的潜力在很大程度上仍未得到开发。我们的研究调查了大语言模型是否能够理解和检测时间序列数据中的异常,重点关注零样本和少样本场景。受时间序列预测研究中关于大语言模型行为的猜想的启发,我们提出了关于大语言模型在时间序列异常检测方面的能力的关键假设。我们设计并进行原则性实验来检验每个假设。我们的调查揭示了关于时间序列大语言模型的几个令人惊讶的发现: 1. 大语言模型将时间序列更好地理解为“图像”而不是文本 2. 当被提示参与关于时间序列分析的“显式推理”时,大语言模型没有表现出增强的性能 3.与普遍看法相反,大语言模型对时间序列的理解并非源于他们的重复偏差或算术能力 4. 大语言模型在时间序列分析中的行为和表现在不同的模型架构中差异显着 这项研究提供了对当代的第一个全面分析大语言模型在时间序列异常检测方面的能力。我们的结果表明,虽然大语言模型可以理解时间序列异常,但基于其推理能力的许多常见猜想并不成立。这些见解为时间序列分析中更有效的基于大语言模型的方法铺平了道路,弥合了预测和异常检测应用之间的差距。

比你的老师更好:从特权人工智能反馈中学习的大语言模型代理

分类: 机器学习, 人工智能

作者: Sanjiban Choudhury, Paloma Sodhi

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05434v1

摘要: 虽然大型语言模型(LLM)显示出令人印象深刻的决策能力,但当前的方法缺乏在任务执行过程中自动自我改进错误的机制。我们提出了 LEAP,这是一种迭代微调框架,可以利用 AI 专家教师的反馈不断改进 LLM 代理。我们的主要见解是为专家教师提供特权状态——在培训期间可用但在测试时隐藏的信息。这使得即使是实力较弱的专家也能够提供精确的指导,从而显着提高学生代理的表现,而无需在测试时访问特权信息。我们根据不同的决策基准评估 LEAP,包括基于文本的游戏 (ALFWorld)、网络导航 (WebShop) 和交互式编码 (Intercode Bash)。我们的实验表明,LEAP (1) 优于行为克隆,而 ReAct 基线 (2) 使弱学生模型(例如 Llama3-8B)能够超越强教师模型 (GPT4-o) 的性能,并且 (3) 允许弱模型使用自己的特权版本进行自我改进。我们还提供了理论分析,表明 LEAP 的成功取决于平衡特权信息与学生的可实现性,我们通过经验验证了这一点。我们的代码可在 https://leap-llm.github.io 获取

使用大语言模型构建和掩盖偏好档案以过滤令人不适的建议

分类: 信息检索, 人机交互

作者: Jiahao Liu, YiYang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu, Ning Gu

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05411v1

摘要: 个性化算法可能会无意中让用户接触到令人不适的推荐,从而可能引发负面后果。不适的主观性和这些算法的黑匣子性质使得有效识别和过滤此类内容具有挑战性。为了解决这个问题,我们首先进行了一项形成性研究,以了解用户对令人不适的推荐过滤的做法和期望。然后,我们设计了一个名为 DiscomfortFilter 的基于大型语言模型 (LLM) 的工具,它为用户构建可编辑的偏好配置文件,并帮助用户通过对话表达过滤需求,以掩盖配置文件中令人不适的偏好。基于编辑后的配置文件,DiscomfortFilter 以即插即用的方式促进令人不适的推荐过滤,保持灵活性和透明度。构建的偏好配置文件改进了 LLM 推理并简化了用户对齐,使 3.8B 开源 LLM 能够在离线代理任务中与顶级商业模型相媲美。一项由 24 名参与者参与的为期一周的用户研究证明了 DiscomfortFilter 的有效性,同时也强调了它对平台推荐结果的潜在影响。最后,我们讨论了当前的挑战,强调其与更广泛研究的相关性,评估利益相关者的影响,并概述未来的研究方向。

大语言模型社交媒体广告气候微观目标的事后研究:主题见解和公平性评估

分类: 计算和语言, 人工智能, 计算机与社会, 社交和信息网络

作者: Tunazzina Islam, Dan Goldwasser

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05401v1

摘要: 社交媒体上的气候变化传播越来越多地采用微观目标策略来有效接触和影响特定人群。这项研究通过利用大型语言模型 (LLM) 来检查 Facebook 广告,对气候活动中的微目标实践进行了事后分析。我们的分析侧重于两个关键方面:人口目标和公平性。我们评估了大语言模型准确预测预期人口目标(例如性别和年龄组)的能力,总体准确率达到 88.55%。此外,我们指导大语言模型对其分类做出解释,为每个决定背后提供透明的推理。这些解释揭示了用于吸引不同人群的具体主题元素,突出了针对不同受众量身定制的不同策略。我们的研究结果表明,年轻人主要通过强调行动主义和环境意识的信息成为目标,而女性则通过与护理角色和社会倡导相关的主题参与其中。除了评估大语言模型在检测微目标消息传递方面的有效性之外,我们还进行了全面的公平性分析,以识别模型预测中的潜在偏差。我们的研究结果表明,虽然大语言模型总体表现良好,但存在某些偏见,特别是在老年人和男性受众的分类方面。通过展示大语言模型在剖析和解释有针对性的沟通策略方面的功效,并强调公平性问题,这项研究为未来的研究提供了一个有价值的框架,旨在提高社交媒体驱动的气候运动的透明度、问责制和包容性。

PrefixQuant:大语言模型中静态量化通过前缀异常值击败动态量化

分类: 机器学习, 计算和语言

作者: Mengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05265v1

摘要: 通过提高内存效率和推理速度,量化对于部署大型语言模型 (LLM) 至关重要。现有的激活量化方法主要解决通道方面的异常值,通常忽略令牌方面的异常值,导致依赖于昂贵的每个令牌动态量化。为了解决这个问题,我们引入了 PrefixQuant,这是一种新颖的技术,可以离线隔离异常标记,而无需重新训练。具体来说,PrefixQuant 可以识别高频异常标记,并将其添加到 KV 缓存中,从而防止在推理过程中生成异常标记并简化量化。据我们所知,PrefixQuant 是第一个能够实现高效的每张量静态量化,其性能优于昂贵的每令牌动态量化的。例如,在 W4A4KV4(4 位权重、4 位激活和 4 位 KV 缓存)Llama-3-8B 中,具有每张量静态量化的 PrefixQuant 在 5 个常见类别上实现了 7.43 WikiText2 困惑度和 71.08% 的平均准确度。感知推理任务,优于之前的每令牌动态量化方法(如 QuaRot),困惑度提高了 0.98,准确度提高了 5.98 分。此外,使用 PrefixQuant 的 W4A4 量化模型的推理速度比 FP16 模型快 1.60 倍到 2.81 倍,比 QuaRot 模型快 1.2 倍到 1.3 倍。我们的代码可在 \url{https://github.com/ChenMnZ/PrefixQuant} 获取。

大语言模型是情境强化学习者

分类: 计算和语言, 人工智能, 机器学习

作者: Giovanni Monea, Antoine Bosselut, Kianté Brantley, Yoav Artzi

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05362v1

摘要: 大型语言模型 (LLM) 可以通过上下文监督学习(即 ICL)来学习新任务。这项工作研究了这种能力是否扩展到上下文强化学习(ICRL),其中模型在上下文中没有被赋予黄金标签,而只有它们过去的预测和奖励。我们证明了 ICRL 的简单应用会惨遭失败,并将根本原因确定为探索中的根本缺陷,从而导致模型快速退化。我们提出了一种算法,通过增加测试时间计算以及计算限制近似来解决这一缺陷。我们使用几个具有挑战性的分类任务来凭经验证明我们的 ICRL 算法可以仅从奖励中进行有效学习,并分析这种能力和我们的方法的特征。总体而言,我们的结果揭示了大语言模型的卓越 ICRL 能力。

Cookbook:通过编程数据生成模板提高 LLM 生成能力的框架

分类: 计算和语言, 机器学习

作者: Avanika Narayan, Mayee F. Chen, Kush Bhatia, Christopher Ré

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05224v1

摘要: 在指令数据集上微调大型语言模型(LLM)是提高其生成能力的常见方法。然而,手动管理指令数据集可能既昂贵又耗时,而且虽然大语言模型生成的数据劳动密集度较低,但它可能违反用户隐私协议或大语言模型提供商的服务条款。因此,我们寻求一种使用非人类或大语言模型生成的样本构建指令数据集的方法,但仍能提高大语言模型的生成能力。在这项工作中,我们引入了 Cookbook,这是一个以编程方式生成由随机令牌上的简单模式组成的训练数据的框架,从而形成一种可扩展、经济高效的方法,避免法律和隐私问题。首先,Cookbook 使用模板(数据生成 Python 函数)来生成训练数据,鼓励模型学习与所需任务相对应的基于模式的显式规则。我们发现,对 Cookbook 生成的数据进行微调能够将相应任务的性能提高多达 52.7 个准确点。其次,由于指令数据集同时提高了多个下游任务的性能,Cookbook 通过算法学习如何混合来自各种模板的数据以优化多个任务的性能。在标准多任务 GPT4ALL 评估套件上,与其他 7B 参数指令调整模型相比,使用 Cookbook 生成的数据集进行微调的 Mistral-7B 获得了平均最佳准确度,并且是 8 个任务中的 3 个任务中表现最佳的模型。最后,我们分析了 Cookbook 何时以及为何提高性能,并提出了一个指标,使我们能够验证这种改进在很大程度上是由模型的各代更好地遵守模板规则来解释的。

大语言模型的密度估计:上下文学习轨迹的几何研究

分类: 机器学习, 计算和语言, 机器学习

作者: Toni J. B. Liu, Nicolas Boullé, Raphaël Sarfati, Christopher J. Earls

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05218v2

摘要: 大型语言模型 (LLM) 展示了在各种任务(包括时间序列预测)中执行上下文学习的卓越能力。这项工作调查了大语言模型根据上下文中观察到的数据估计概率密度函数(PDF)的能力;这种密度估计(DE)是许多概率建模问题背后的一项基本任务。我们利用强化主成分分析 (InPCA) 来可视化和分析 LLaMA-2 模型的上下文学习动态。我们的主要发现是,这些 LLM 都在低维 InPCA 空间中遵循相似的学习轨迹,这与直方图和高斯核密度估计 (KDE) 等传统密度估计方法不同。我们将 LLaMA 上下文 DE 过程解释为具有自适应内核宽度和形状的 KDE。尽管只有两个参数,但这个自定义内核模型捕获了 LLaMA 行为的很大一部分。我们进一步推测为什么 LLaMA 的内核宽度和形状与经典算法不同,为 LLM 中的上下文概率推理机制提供了见解。

RespLLM:将音频和文本与多模式大语言模型相结合,实现广义呼吸健康预测

分类: 机器学习, 人工智能, 声音, 音频和语音处理

作者: Yuwei Zhang, Tong Xia, Aaqib Saeed, Cecilia Mascolo

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05361v1

摘要: 与呼吸系统疾病相关的高发病率和死亡率凸显了早期筛查的重要性。机器学习模型可以实现临床咨询和听诊的自动化,为该领域提供重要支持。然而,所涉及的数据(涵盖人口统计、病史、症状和呼吸音频)是异构且复杂的。现有方法不足且缺乏通用性,因为它们通常依赖于有限的训练数据、基本融合技术和特定于任务的模型。在本文中,我们提出了 RespLLM,这是一种新颖的多模式大语言模型 (LLM) 框架,它统一了用于呼吸健康预测的文本和音频表示。 RespLLM 利用预训练大语言模型的广泛先验知识,并通过跨模式关注实现有效的音频-文本融合。采用指令调优来集成来自多个来源的不同数据,确保模型的通用性和多功能性。对五个真实世界数据集的实验表明,RespLLM 在经过训练的任务上平均优于领先基线 4.6%,在未见过的数据集上平均优于领先基线 7.9%,并且有助于对新任务进行零样本预测。我们的工作为能够感知、聆听和理解异构数据的多模态模型奠定了基础,为可扩展的呼吸健康诊断铺平了道路。

RevisEval:通过响应式参考文献改进大语言模型作为法官

分类: 计算和语言

作者: Qiyuan Zhang, Yufei Wang, Tiezheng YU, Yuxin Jiang, Chuhan Wu, Liangyou Li, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05193v1

摘要: 经过最近研究的巨大努力,大语言模型作为法官已成为人类评估的一种经济有效的替代方案,用于评估各种任务中的文本生成质量。然而,大语言模型法官与人工评估之间仍然存在可靠性差距。一个重要原因是评估过程中缺乏指导性的预言。受经典文本评估中普遍使用的参考的作用的启发,我们引入了 RevisEval,一种通过响应适应参考的新颖文本生成评估范式。 RevisEval 是由以下关键观察驱动的:理想的参考应该与待评估的响应保持必要的相关性。具体来说,RevisEval利用大语言模型(LLM)的文本修改能力来自适应修改响应,然后将修改后的文本作为后续评估的参考(响应自适应参考)。大量实验表明,RevisEval 优于传统的无参考和基于参考的评估范例,这些范例在 NLG 任务和开放式指令跟踪任务中使用 LLM 作为法官。更重要的是,与传统参考文献相比,我们的响应式参考文献可以进一步提升经典文本指标,例如 BLEU 和 BERTScore,甚至可以与 LLM-as-a-Judge 相媲美。还进行了详细分析,以确认 RevisEval 在减少偏差、推理成本的影响和参考相关性方面的有效性。

Model-GLUE:大型野生动物园模型的民主化大语言模型扩展

分类: 机器学习, 人工智能, 计算和语言

作者: Xinyu Zhao, Guoheng Sun, Ruisi Cai, Yukun Zhou, Pingzhi Li, Peihao Wang, Bowen Tan, Yexiao He, Li Chen, Yi Liang, Beidi Chen, Binhang Yuan, Hongyi Wang, Ang Li, Zhangyang Wang, Tianlong Chen

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05357v1

摘要: 由于大型语言模型 (LLM) 在任务和专业领域中表现出色,基于现有模型的扩展 LLM 引起了广泛关注,但在组合不同模型时面临着性能下降的挑战。人们提出了各种技术来聚合预训练的大语言模型,包括模型合并、专家混合和堆叠。尽管它们有优点,但它们在多样化模型动物园中的全面比较和协同应用尚未得到充分解决。鉴于这一研究空白,本文介绍了 Model-GLUE,一个整体的 LLM 扩展指南。首先,我们的工作从现有 LLM 扩展技术的基准测试开始,特别是选择性合并和混合变体。利用基准测试结果的见解,我们制定了一种策略,用于选择和聚合具有不同架构和初始化特征的异构模型动物园。我们的方法涉及可合并模型的聚类和最佳合并策略选择,以及通过模型混合进行聚类的集成。最后,我们在基于 Llama-2 的多样化模型动物园上进行的实验证明,Model-GLUE 的平均性能提升了 5.61%,无需额外训练即可实现。代码位于:https://github.com/Model-GLUE/Model-GLUE。

使用基于 LLM 的多代理进行可扩展且准确的图推理

分类: 人工智能

作者: Yuwei Hu, Runlin Lei, Xinyi Huang, Zhewei Wei, Yongchao Liu

发布时间: 2024-10-07

链接: http://arxiv.org/abs/2410.05130v1

摘要: 最近的研究探索了使用大型语言模型(LLM)来处理复杂的图形推理任务。然而,由于图结构的复杂性以及大语言模型在处理长文本方面的固有局限性,当前的方法往往无法提供令人满意的准确性,即使是在小规模的图和简单的任务上也是如此。为了应对这些挑战,我们引入了 GraphAgent-Reasoner,这是一个无需微调的框架,它利用多智能体协作策略来进行显式和精确的图形推理。受分布式图计算理论的启发,我们的框架将图问题分解为更小的、以节点为中心的任务,这些任务分布在多个代理之间。代理协作解决整体问题,显着减少单个LLM处理的信息量和复杂性,从而提高图推理的准确性。通过简单地增加代理的数量,GraphAgent-Reasoner 可以有效地扩展以适应具有超过 1,000 个节点的更大的图。在 GraphInstruct 数据集上进行评估,我们的框架在多项式时间图推理任务上表现出近乎完美的准确性,显着优于最佳可用模型(包括闭源模型和微调的开源模型)。我们的框架还展示了处理现实世界图形推理应用程序(例如网页重要性分析)的能力。

相关