MiX Knowledge

关于评估临床问题的大语言模型输出的课程共享任务

分类： 计算和语言

作者： Yufang Hou, Thy Thy Tran, Doan Nam Long Vu, Yiwen Cao, Kai Li, Lukas Rohde, Iryna Gurevych

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.00122v1

摘要： 本文介绍了我们在达姆施塔特工业大学 2023/2024 年语言技术基础 (FoLT) 课程中组织的一项共享任务，该任务的重点是评估大型语言模型 (LLM) 在生成对健康有害的答案方面的输出——相关的临床问题。我们描述了任务设计考虑因素并报告了我们从学生那里收到的反馈。我们希望本文报告的任务和研究结果与教授自然语言处理 (NLP) 和设计课程作业的教师相关。

归纳法还是演绎法？重新思考大语言模型的基本推理能力

分类： 人工智能

作者： Kewei Cheng, Jingfeng Yang, Haoming Jiang, Zhengyang Wang, Binxuan Huang, Ruirui Li, Shiyang Li, Zheng Li, Yifan Gao, Xian Li, Bing Yin, Yizhou Sun

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.00114v1

摘要： 推理包括两种典型类型：演绎推理和归纳推理。尽管对大型语言模型（LLM）的推理能力进行了广泛的研究，但大多数研究未能严格区分归纳推理和演绎推理，导致两者的混合。这就提出了一个基本问题：在LLM推理中，哪一个提出了更大的挑战——演绎推理还是归纳推理？虽然大语言模型的演绎推理能力（即他们在推理任务中遵循指令的能力）受到了相当多的关注，但他们真正的归纳推理能力在很大程度上仍未得到探索。为了深入研究大语言模型真正的归纳推理能力，我们提出了一个新颖的框架：SolverLearner。该框架使大语言模型能够学习底层函数（即 $y = f_w(x)$），该函数仅使用上下文示例将输入数据点 $(x)$ 映射到其相应的输出值 $(y)$。通过专注于归纳推理并将其与基于大语言模型的演绎推理分开，我们可以通过 SolverLearner 分离并研究纯粹形式的大语言模型的归纳推理。我们的观察表明，大语言模型通过 SolverLearner 表现出了卓越的归纳推理能力，在大多数情况下 ACC 为 1，实现了近乎完美的表现。令人惊讶的是，尽管大语言模型具有很强的归纳推理能力，但他们往往相对缺乏演绎推理能力，特别是在涉及“反事实”推理的任务中。

Tulip Agent——使基于 LLM 的代理能够使用大型工具库解决任务

分类： 人工智能, 机器人技术, H.3.3; I.2.6; I.2.8; I.2.9

作者： Felix Ocker, Daniel Tanneberg, Julian Eggert, Michael Gienger

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21778v1

摘要： 我们引入了郁金香代理，这是一种基于 LLM 的自主代理架构，具有对包含大量工具的工具库的创建、读取、更新和删除访问权限。与最先进的实现相比，郁金香代理不会对系统提示中所有可用工具的描述进行编码（这会根据模型的上下文窗口进行计算），也不会嵌入整个提示以检索合适的工具。相反，郁金香代理可以在其可扩展工具库中递归地搜索合适的工具，示例性地实现为向量存储。郁金香代理架构显着降低了推理成本，允许使用大型工具库，并使代理能够适应和扩展其工具集。我们在数学背景下通过多项消融研究来评估该架构，并证明其在机器人技术应用中的普遍性。参考实现和基准可在 github.com/HRI-EU/tulip_agent 上找到。

基于 LLM 的聊天机器人的人机交互分类器

分类： 人工智能

作者： Diego Martín, Jordi Sanchez, Xavier Vizcaíno

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21647v1

摘要： 本研究研究了在基于人工智能的环境中对人类交互进行分类的不同方法，特别是针对 Applus+ IDIADA 的智能代理 AIDA。主要目标是开发一个分类器，准确识别收到的交互类型（对话、服务或文档翻译），以将请求引导至适当的渠道并提供更专业、更高效的服务。比较了各种模型，包括基于 LLM 的分类器、使用 Titan 和 Cohere 嵌入的 KNN、SVM 和人工神经网络。结果表明，与基于 LLM 的方法相比，具有 Cohere 嵌入的 SVM 和 ANN 模型实现了最佳的整体性能，具有优异的 F1 分数和更快的执行时间。研究得出的结论是，具有 Cohere 嵌入的 SVM 模型是 AIDA 环境中对人类交互进行分类的最合适选择，可在准确性和计算效率之间提供最佳平衡。

通过 LLM Agent 在端到端同步语音翻译方面实现人类同等水平

分类： 计算和语言, 声音, 音频和语音处理

作者： Shanbo Cheng, Zhichao Huang, Tom Ko, Hang Li, Ningxin Peng, Lu Xu, Qini Zhang

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21646v1

摘要： 在本文中，我们提出了跨语言代理——同声传译（CLASI），这是一种高质量的类人同声语音翻译（SiST）系统。受专业人工口译员的启发，我们利用新颖的数据驱动读写策略来平衡翻译质量和延迟。为了解决翻译领域内术语的挑战，CLASI 采用多模态检索模块来获取相关信息以增强翻译。在大语言模型的支持下，我们的方法可以通过考虑输入音频、历史上下文和检索到的信息来生成容错翻译。实验结果表明，我们的系统明显优于其他系统。与专业的人类口译员合作，我们使用更好的人类评估指标——有效信息比例（VIP）来评估CLASI，该指标衡量可以成功传达给听众的信息量。在现实场景中，演讲经常不流畅、不正式、不清楚，CLASI 在汉译英和英译汉翻译方向上分别获得了 81.3% 和 78.0% 的 VIP。相比之下，最先进的商业或开源系统仅达到 35.4% 和 41.6%。在极其困难的数据集上，其他系统的 VIP 成绩低于 13%，CLASI 仍然可以达到 70% VIP。

LLM-for-X：与应用程序无关的大型语言模型集成，支持个人写作工作流程

分类： 人机交互

作者： Lukas Teufelberger, Xintong Liu, Zhipeng Li, Max Moebus, Christian Holz

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21593v1

摘要： 为了提高生产力和简化工作流程，将大语言模型 (LLM) 功能嵌入到应用程序中的趋势日益明显，从基于浏览器的 Web 应用程序到在个人计算机上运行的本机应用程序。在这里，我们介绍 LLM-for-X，这是一个系统范围的快捷方式层，可通过轻量级弹出对话框无缝地使用 LLM 服务增强任何应用程序。我们的本机层将前端应用程序无缝连接到流行的 LLM 后端，例如 ChatGPT 和 Gemini，使用其统一的聊天前端作为编程接口或自定义 API 调用。我们在各种应用程序中展示了 LLM-for-X 的优势，包括 Microsoft Office、VSCode 和 Adobe Acrobat 以及 Overleaf 等流行的 Web 应用程序。在我们的评估中，我们在一系列任务中将LLM-for-X与ChatGPT的Web界面进行了比较，表明我们的方法可以为用户提供快速、高效且易于使用的LLM帮助，而无需上下文切换来支持写入和阅读任务这与具体应用程序无关。

Leetcode 上 LLM 生成代码的性能研究

分类： 软件工程, 人工智能

作者： Tristan Coignion, Clément Quinton, Romain Rouvoy

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21579v1

摘要： 本研究评估大型语言模型 (LLM) 的代码生成效率，并使用 Leetcode 的数据集对照人工设计的解决方案衡量其性能。我们比较了 18 个大语言模型，考虑了模型温度和成功率等因素及其对代码性能的影响。这项研究引入了一种测量和比较 LLM 生成代码速度的新方法，表明无论采用哪种 LLM，LLM 都会生成具有可比较性能的代码。我们还发现，大语言模型能够生成平均比人类编写的代码更高效的代码。本文进一步讨论了 Leetcode 作为基准数据集的使用、潜在数据污染带来的限制以及该平台的测量可靠性。我们相信，我们的研究结果有助于更好地理解 LLM 在代码生成方面的能力，并为该领域的未来优化奠定基础。

CXSimulator：使用 LLM 嵌入进行网络营销活动评估的用户行为模拟

分类： 机器学习, 系统与控制, 系统与控制, I.6.3; H.5.2

作者： Akira Kasuga, Ryo Yonetani

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21553v1

摘要： 本文介绍了客户体验 (CX) 模拟器，这是一种新颖的框架，旨在通过用户行为模拟来评估未经测试的网络营销活动的效果。所提出的框架利用大型语言模型（LLM）将用户行为历史中的各种事件表示为语义嵌入向量，例如查看商品、应用优惠券或购买商品。我们训练一个模型来预测来自 LLM 嵌入的事件之间的转换，该模型甚至可以通过学习不同的训练数据来泛化到未见过的事件。在网络营销应用程序中，我们利用这种转换预测模型来模拟当向用户展示新的营销活动或产品时，用户可能会有不同的反应。这使我们能够消除昂贵的在线测试的需要，并增强营销人员揭示见解的能力。我们利用 Google Merchandise Store 中的 BigQuery 公共数据集进行数值评估和用户研究，证明了我们框架的有效性。

大语言模型可以在音乐中“理性”吗？大语言模型音乐理解和生成能力评估

分类： 声音, 计算和语言, 多媒体, 音频和语音处理

作者： Ziya Zhou, Yuhang Wu, Zhiyue Wu, Xinyue Zhang, Ruibin Yuan, Yinghao Ma, Lu Wang, Emmanouil Benetos, Wei Xue, Yike Guo

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21531v1

摘要： 象征性音乐，类似于语言，可以用离散的符号进行编码。最近的研究将 GPT-4 和 Llama2 等大型语言模型 (LLM) 的应用扩展到符号音乐领域，包括理解和生成。然而，很少有研究探索这些大语言模型在高级音乐理解和条件生成方面的表现细节，特别是从多步骤推理的角度来看，这是条件、可编辑和交互式人机共同创作过程中的一个关键方面。这项研究对大语言模型在符号音乐处理方面的能力和局限性进行了彻底的调查。我们发现，目前的大语言模型在歌曲级多步骤音乐推理方面表现不佳，并且在解决复杂的音乐任务时通常无法利用学到的音乐知识。对大语言模型的回答的分析清楚地突出了他们的优点和缺点。我们的研究结果表明，获得高级音乐能力并不是大语言模型本质上获得的，未来的研究应该更多地关注于弥合音乐知识和推理之间的差距，以改善音乐家的共同创作体验。

大语言模型经济高效的幻觉检测

分类： 计算和语言, 人工智能, 机器学习, 机器学习

作者： Simon Valentin, Jinmiao Fu, Gianluca Detommaso, Shaoyuan Xu, Giovanni Zappella, Bryan Wang

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21424v1

摘要： 大型语言模型 (LLM) 很容易产生幻觉 - 生成不可靠的输出，这些输出不忠实于输入、外部事实或内部不一致。在这项工作中，我们解决了生产环境中事后幻觉检测的几个挑战。我们的幻觉检测流程包括：首先，产生一个置信度分数，表示生成的答案是幻觉的可能性；其次，根据输入的属性和候选人的响应来校准分数；最后，通过对校准分数进行阈值处理来执行检测。我们在不同的数据集上对各种最先进的评分方法进行基准测试，包括问答、事实检查和摘要任务。我们聘请不同的大语言模型来确保对绩效进行全面评估。我们表明，校准个人评分方法对于确保下游决策具有风险意识至关重要。基于没有哪个单独分数在所有情况下都表现最佳的发现，我们提出了一个多重评分框架，该框架结合了不同的分数并在所有数据集上实现了最佳性能。我们进一步引入了具有成本效益的多重评分，它可以匹配甚至超越更昂贵的检测方法，同时显着减少计算开销。

基于 LLM 的单元测试上下文感知输入的可读性测量

分类： 软件工程

作者： Zhichao Zhou, Yutian Tang, Yun Lin, Jingzhu He

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21369v1

摘要： 自动化测试技术通常会生成比手动测试具有更高代码覆盖率的单元测试。然而，自动化测试的可读性对于代码理解和维护至关重要。单元测试的可读性涉及很多方面。在本文中，我们重点关注测试输入。现有输入可读性研究的主要局限性在于，它们仅关注测试代码，而没有考虑测试的源代码，这使得它们要么忽略不同源代码的不同可读性要求，要么需要手动编写可读输入。然而，我们观察到源代码指定了测试输入必须满足的上下文。基于这样的观察，我们引入了 \underline{C}ontext \underline{C}onsistency \underline{C}riterion （又名，C3），它是一个可读性测量工具，利用大型语言模型来提取原始类型（包括字符串类型）参数的源代码可读性上下文，并检查测试输入是否与这些上下文一致。我们还提出了 EvoSuiteC3。它利用 C3 提取的上下文来帮助 EvoSuite 生成可读的测试输入。我们评估了 C3 在 $409$ \java{} 类上的性能，并比较了 C3 测量下手动和自动测试的可读性。结果是双重的。首先，C3 挖掘的可读性上下文的 Precision、Recall 和 F1-Score 分别为 \ precision{}、\recall{} 和 \fone{}。其次，在C3的测量下，EvoSuiteC3、ChatUniTest（基于LLM的测试生成工具）、手动测试以及两个传统工具（EvoSuite和Randoop）的字符串类型输入可读性分数分别为$90%$、$83%$、 $68%$、$8%$和$8%$，显示传统工具无法生成可读的字符串类型输入。

Chat2Layout：具有多模式大语言模型的交互式 3D 家具布局

分类： 计算机视觉和模式识别

作者： Can Wang, Hongliang Zhong, Menglei Chai, Mingming He, Dongdong Chen, Jing Liao

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21333v1

摘要： 为了方便室内设计，人们长期以来一直需要自动家具布局。利用多模态大语言模型（MLLM）卓越的视觉推理能力，最近的方法以静态方式解决布局生成问题，缺乏交互式用户参与所必需的反馈驱动的细化。我们推出了 Chat2Layout，这是一种新颖的交互式家具布局生成系统，它将 MLLM 的功能扩展到交互式布局设计领域。为了实现这一目标，我们为上下文学习建立了一个统一的视觉问题范式，实现与 MLLM 的无缝通信，以在不改变模型权重的情况下引导它们的行为。在此框架内，我们提出了一种新颖的免训练视觉提示机制。这涉及视觉文本提示技术，帮助 MLLM 推理合理的布局计划，然后是离线到在线搜索（O2O-搜索）方法，该方法自动识别最小的参考信息集，为视觉文本提供示例提示。通过采用以 MLLM 作为核心控制器的代理系统，我们实现了双向交互。智能体不仅通过语言和视觉感知来理解 3D 环境和用户需求，还可以规划任务和有关在虚拟空间内生成和布置家具的动作的原因。此外，代理根据执行结果的视觉反馈迭代更新。实验结果表明，我们的方法促进了多样化和复杂的 3D 家具的语言交互生成和排列。

MetaOpenFOAM：基于 LLM 的 CFD 多代理框架

分类： 人工智能, 流体动力学

作者： Yuxuan Chena, Xu Zhua, Hua Zhoua, Zhuyin Rena

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21320v1

摘要： 通过基于大语言模型（LLM）的智能体社会，自动解决问题已经取得了显着的进展。计算流体动力学 (CFD) 作为一个复杂的问题，在需要复杂解决方案的自动化模拟中提出了独特的挑战。 MetaOpenFOAM作为一种新颖的多智能体协作框架，旨在仅以自然语言作为输入来完成CFD模拟任务。这些仿真任务包括网格预处理、仿真和后处理等。MetaOpenFOAM 利用 MetaGPT 流水线范式的强大功能，为各种代理分配不同的角色，有效地将复杂的 CFD 任务分解为可管理的子任务。 Langchain 通过集成检索增强生成 (RAG) 技术进一步补充了 MetaOpenFOAM，该技术通过集成大语言模型 OpenFOAM 教程的可搜索数据库来增强框架的能力。基于自然语言的 CFD 求解器基准测试由 8 个 CFD 模拟任务组成，结果表明 MetaOpenFOAM 每次测试的通过率很高 (85%)，每个测试用例的平均成本仅为 0.22 美元。 8 个 CFD 模拟任务包括可压缩和不可压缩流动、2D 和 3D 流动、传热和燃烧，展示了仅使用自然语言输入自动执行 CFD 模拟并迭代纠正错误以低成本实现所需模拟的能力。进行消融研究来验证多智能体系统和RAG技术中每个组件的必要性。对LLM随机性的敏感性研究表明，低随机性的LLM可以获得更稳定、更准确的结果。此外，MetaOpenFOAM 拥有识别和修改用户需求中关键参数的能力，并且在发生故障时（无论是否有人参与）都擅长纠正错误，这体现了 MetaOpenFOAM 的通用性。

超越无声字母：通过声音细微差别放大情绪识别的大语言模型

分类： 计算和语言, 人工智能

作者： Zehui Wu, Ziwei Gong, Lin Ai, Pengyuan Shi, Kaan Donbekci, Julia Hirschberg

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21315v2

摘要： 本文介绍了一种使用大型语言模型 (LLM) 进行语音情感检测的新方法。我们通过将语音特征转化为自然语言描述来解决大语言模型在处理音频输入方面的局限性。我们的方法将这些描述集成到文本提示中，使大语言模型能够执行多模式情感分析，而无需进行架构修改。我们在两个数据集上评估了我们的方法：IEMOCAP 和 MELD，证明了情绪识别准确性的显着提高，特别是对于高质量音频数据。我们的实验表明，合并语音描述可使 IEMOCAP 上的加权 F1 分数提高 2 个百分点（从 70.111% 到 72.596%）。我们还比较了各种 LLM 架构并探索了不同特征表示的有效性。我们的研究结果强调了这种方法在增强大语言模型情绪检测能力方面的潜力，并强调了音频质量在基于语音的情绪识别任务中的重要性。我们将在 Github 上发布源代码。

MoFO：动量过滤优化器，用于减少 LLM 微调中的遗忘

分类： 机器学习, 人工智能

作者： Yupeng Chen, Senmiao Wang, Zhihang Lin, Zeyu Qin, Yushun Zhang, Tian Ding, Ruoyu Sun

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20999v1

摘要： 最近，大型语言模型（LLM）在广泛的任务中表现出了卓越的能力。通常，大语言模型会在大型语料库上进行预训练，然后在特定于任务的数据集上进行微调。然而，在微调过程中，大语言模型可能会忘记预训练阶段获得的知识，导致综合能力下降。为了解决这个问题，我们提出了一种新的微调算法，称为动量过滤优化器（MoFO）。 MoFO 的关键思想是迭代选择和更新动量最大的模型参数。与全参数训练相比，MoFO 实现了类似的微调性能，同时使参数更接近预训练模型，从而减少知识遗忘。与大多数现有的遗忘缓解方法不同，MoFO 结合了以下两个优点。首先，MoFO 不需要访问预训练数据。这使得 MoFO 特别适合预训练数据不可用的微调场景，例如微调仅检查点的开源 LLM。其次，MoFO 不会改变原始损失函数。这可以避免损害微调任务的模型性能。我们通过严格的收敛分析和广泛的实验来验证 MoFO，证明其在减少遗忘和增强微调性能方面优于现有方法。

使用 LLM 和 RAG 从特征重要性到自然语言解释

分类： 人工智能, 计算和语言, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Sule Tekkesinoglu, Lars Kunze

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20990v1

摘要： 随着机器学习越来越成为涉及人类交互的自主决策过程不可或缺的一部分，通过对话方式理解模型输出的必要性也随之增加。最近，人们正在探索基础模型作为事后解释器的潜力，为阐明预测模型的决策机制提供了一条途径。在这项工作中，我们引入了可追踪的问答，利用外部知识库来通知大型语言模型（LLM）对场景理解任务中的用户查询的响应。该知识库包含有关模型输出的上下文详细信息，其中包含高级特征、特征重要性和替代概率。我们采用减法反事实推理来计算特征重要性，这种方法需要分析分解语义特征所产生的输出变化。此外，为了保持无缝的对话流程，我们将从人类解释的社会科学研究中提取的四个关键特征——社会性、因果性、选择性和对比性——整合到单次提示中，指导响应生成过程。我们的评估表明，大语言模型生成的解释包含了这些要素，表明其有潜力弥合复杂模型输出和自然语言表达之间的差距。

用于基于边缘的物联网网络中语义通信的大型语言模型 (LLM)

分类： 网络和互联网架构, 人工智能

作者： Alakesh Kalita

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20970v1

摘要： 随着第五代（5G）和第六代（6G）通信技术以及物联网（IoT）的出现，语义通信越来越受到研究人员的关注，因为当前的通信技术已接近香农的极限。另一方面，大型语言模型（LLM）可以基于对具有数十亿参数的不同数据集的广泛训练来理解和生成类似人类的文本。考虑到最近的近源计算技术（例如 Edge），在本文中，我们概述了一个框架及其模块，其中 LLM 可以在网络边缘的语义通信的保护下使用，以实现物联网网络中的高效通信。最后，我们讨论了一些应用并分析了开发此类系统的挑战和机遇。

破坏代理：通过故障放大危害自主 LLM 代理

分类： 密码学和安全, 机器学习

作者： Boyang Zhang, Yicong Tan, Yun Shen, Ahmed Salem, Michael Backes, Savvas Zannettou, Yang Zhang

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20859v1

摘要： 最近，基于大型语言模型（LLM）构建的自主代理经历了重大发展，并正在实际应用中部署。这些代理可以通过多种方式扩展基础大语言模型的能力。例如，使用 GPT-3.5-Turbo 作为核心的精心构建的代理可以通过利用外部组件来超越更先进的 GPT-4 模型。更重要的是，工具的使用使这些系统能够在现实世界中执行操作，从仅仅生成文本转变为主动与环境交互。考虑到代理的实际应用及其执行后续操作的能力，评估潜在的漏洞至关重要。如果受到损害，此类自治系统可能会比独立语言模型造成更严重的损害。虽然一些现有的研究已经探讨了大语言模型代理人的有害行为，但我们的研究从不同的角度探讨了该漏洞。我们引入了一种新型攻击，它通过误导代理执行重复或不相关的操作来导致故障。我们使用各种攻击方法、表面和属性进行全面评估，以查明易受影响的区域。我们的实验表明，这些攻击在多种情况下会导致超过 80% 的失败率。通过对多代理场景中已实施和可部署代理的攻击，我们强调了与这些漏洞相关的现实风险。为了减轻此类攻击，我们提出了自检检测方法。然而，我们的研究结果表明，仅使用 LLM 很难有效检测到这些攻击，这凸显了与此漏洞相关的重大风险。

动态网络中支持大型语言模型 (LLM) 的图

分类： 网络和互联网架构

作者： Geng Sun, Yixian Wang, Dusit Niyato, Jiacheng Wang, Xinying Wang, H. Vincent Poor, Khaled B. Letaief

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20840v1

摘要： 生成人工智能 (AI) 的最新进展，特别是大型语言模型 (LLM) 的集成，对多个领域产生了相当大的影响。同时，增强动态网络性能是推动技术进步、满足网络众多应用领域用户日益增长的需求的关键因素。在本文中，我们探索动态网络中大语言模型和图的集成，重点关注潜在应用和实际研究。具体来说，我们首先回顾了支持LLM的图的基本技术和应用，然后探讨了它们在动态网络方面的优势。随后，我们从LLM不同角色的角度介绍和分析LLM支持的图及其在动态网络中的应用。在此基础上，我们提出了一种用于网络优化的LLM图的新颖框架，然后提出了无人机网络的案例研究，重点优化无人机轨迹和通信资源分配，以验证所提出框架的有效性。最后，我们概述了几个潜在的未来扩展。

针对马来西亚语言文本采用安全工作分类器：增强 LLM-Ops 框架的一致性

分类： 计算和语言

作者： Aisyah Razak, Ariff Nazhan, Kamarul Adha, Wan Adzhar Faiq Adzlan, Mas Aisyah Ahmad, Ammar Azman

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20729v1

摘要： 随着大型语言模型 (LLM) 越来越多地集成到操作工作流程 (LLM-Ops) 中，迫切需要有效的护栏来确保安全和一致的交互，包括跨语言检测潜在不安全或不适当内容的能力。然而，现有的工作安全分类器主要关注英文文本。为了解决马来西亚语言的这一差距，我们推出了一种专为马来西亚语言内容量身定制的新型安全工作文本分类器。通过策划和注释第一个跨越多个内容类别的马来西亚文本数据集，我们训练了一个能够使用最先进的自然语言处理技术识别潜在不安全材料的分类模型。这项工作代表了实现更安全的交互和内容过滤以减轻潜在风险并确保负责任地部署大语言模型的重要一步。为了最大限度地提高可访问性并促进进一步研究，以增强 LLM-Ops 与马来西亚背景的一致性，该模型在 https://huggingface.co/malaysia-ai/malaysian-sfw-classifier 上公开发布。

通过先进的大语言模型整合加强农业机械管理

分类： 计算和语言

作者： Emily Johnson, Noah Wilson

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20588v1

摘要： 将人工智能融入农业实践，特别是通过智能农业机械管理咨询（CIAMM），有可能彻底改变农业的效率和可持续性。本文介绍了一种利用大语言模型（LLM），特别是 GPT-4，结合多轮提示工程来增强农业机械管理决策过程的新颖方法。我们系统地开发和完善了提示，以指导大语言模型生成精确且与上下文相关的输出。我们的方法使用来自各种在线来源的手动整理数据集进行评估，并通过准确性和 GPT-4 分数评估性能。使用 LLama-2-70B、ChatGPT 和 GPT-4 模型以及基线和最先进的方法（例如 Chain of Thought (CoT) 和 Thought of Thought (ThoT)）进行了比较实验。结果表明，我们的方法明显优于这些方法，在生成的响应中实现了更高的准确性和相关性。本文强调了先进的即时工程技术在提高农业环境中人工智能的鲁棒性和适用性方面的潜力。

基于 BERT 和 LLM 的 avGFP 亮度预测和突变设计

分类： 其他定量生物学

作者： X. Guo, W. Che

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20534v1

摘要： 本研究旨在利用Transformer模型和大语言模型（如GPT和Claude）来预测维多利亚多管发光蛋白（avGFP）的亮度并设计具有更高亮度的突变体。考虑到传统实验筛选方法的时间和成本，本研究采用机器学习技术来提高研究效率。我们首先读取并预处理包含大约 140,000 个蛋白质序列的专有数据集，其中包括大约 30,000 个 avGFP 序列。随后，我们构建并训练了一个基于 Transformer 的预测模型来筛选和设计新的 avGFP 突变体，这些突变体有望表现出更高的亮度。我们的方法包括两个主要阶段：第一，使用 BERT 构建评分模型；第二，使用突变位点统计和大型语言模型筛选和生成突变体。通过预测结果分析，我们设计筛选出10个新的高亮度avGFP序列。这项研究不仅展示了深度学习在蛋白质设计中的潜力，而且通过整合大型语言模型的先验知识，为未来的研究提供了新的视角和方法。

LLM 会被愚弄吗？调查大语言模型中的漏洞

分类： 机器学习, 密码学和安全

作者： Sara Abdali, Jia He, CJ Barberan, Richard Anarfi

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20529v1

摘要： 大型语言模型 (LLM) 的出现赢得了广泛的欢迎，并在自然语言处理 (NLP) 的各个领域发挥着巨大的力量。虽然它们的能力无疑令人印象深刻，但识别和审查它们的漏洞至关重要，尤其是当这些漏洞可能造成代价高昂的后果时。一位这样的大语言模型，接受过培训，可以根据医疗文件提供简明摘要，在暗中提示时可能会明确泄露患者个人数据。这只是已公布的许多不幸的例子之一，需要进一步的研究来理解此类漏洞背后的根本原因。在本研究中，我们深入研究了基于模型、训练时、推理时漏洞的多个漏洞部分，并讨论了缓解策略，包括旨在修改 LLM 行为的“模型编辑”和结合协同作用的“Chroma Teaming”多种团队策略以增强大语言模型的弹性。本文将综合每个漏洞部分的研究结果，并提出新的研究和开发方向。通过了解当前漏洞的焦点，我们可以更好地预测和减轻未来的风险，为更强大、更安全的大语言模型铺平道路。

从机器学习到大语言模型：评估网络钓鱼网页检测模型对抗对抗性攻击的鲁棒性

分类： 密码学和安全

作者： Aditya Kulkarni, Vivek Balachandran, Dinil Mon Divakaran, Tamal Das

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20361v1

摘要： 网络钓鱼攻击试图欺骗用户窃取敏感信息，构成重大网络安全威胁。机器学习 (ML) 和深度学习 (DL) 的进步促进了众多网络钓鱼网页检测解决方案的开发，但这些模型仍然容易受到对抗性攻击。评估它们针对对抗性网络钓鱼网页的稳健性至关重要。现有工具包含为有限数量的品牌预先设计的网络钓鱼网页的数据集，并且网络钓鱼功能缺乏多样性。为了应对这些挑战，我们开发了 PhishOracle，这是一种通过将各种网络钓鱼功能嵌入到合法网页中来生成对抗性网络钓鱼网页的工具。我们评估了两个现有模型（Stack 模型和 Phishpedia）在对 PhishOracle 生成的对抗性网络钓鱼网页进行分类时的稳健性。此外，我们在对抗性攻击的背景下研究了商业大型语言模型 Gemini Pro Vision。我们进行了一项用户研究，以确定 PhishOracle 生成的对抗性网络钓鱼网页是否欺骗用户。我们的研究结果表明，许多 PhishOracle 生成的网络钓鱼网页规避了当前的网络钓鱼网页检测模型并欺骗用户，但 Gemini Pro Vision 对攻击具有鲁棒性。我们还开发了PhishOracle Web应用程序，允许用户输入合法的URL，选择相关的网络钓鱼功能并生成相应的网络钓鱼网页。所有资源均可在 GitHub 上公开获取。

编辑大语言模型会带来危害吗？

分类： 计算和语言

作者： Canyu Chen, Baixiang Huang, Zekun Li, Zhaorun Chen, Shiyang Lai, Xiongxiao Xu, Jia-Chen Gu, Jindong Gu, Huaxiu Yao, Chaowei Xiao, Xifeng Yan, William Yang Wang, Philip Torr, Dawn Song, Kai Shu

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20224v1

摘要： 由于从头开始重新训练的成本很高，知识编辑技术已被越来越多地采用来有效地纠正大型语言模型（LLM）中的错误或过时的知识。与此同时，一个关键但尚未得到充分探讨的问题是：知识编辑是否可以用来给大语言模型带来伤害？在本文中，我们建议将知识编辑重新表述为大语言模型的一种新型安全威胁，即编辑攻击，并利用新构建的数据集 EditAttack 进行系统调查。具体来说，我们重点关注编辑攻击的两种典型安全风险，包括错误信息注入和偏见注入。对于错误信息注入的风险，我们首先将其分为常识性错误信息注入和长尾错误信息注入。然后，我们发现编辑攻击可以将两种类型的错误信息注入LLM，并且对于常识性错误信息注入的有效性特别高。对于偏差注入的风险，我们发现不仅可以将偏差句子高效地注入到LLM中，而且单个偏差句子注入也会导致LLM的总体输出偏差大幅增加，甚至与注入的结果高度无关。句子，表明对大语言模型的整体公平性产生了灾难性影响。然后，我们进一步说明编辑攻击的高度隐蔽性，通过其对大语言模型的常识和推理能力的影响来衡量，并用经验证据展示防御编辑攻击的难度。我们的发现表明，知识编辑技术正在出现滥用风险，从而损害大语言模型的安全性。

AutoScale：自动预测用于训练大语言模型的计算最佳数据组成

分类： 机器学习, 人工智能, 计算和语言, 机器学习

作者： Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20177v1

摘要： 为了确保各种下游任务的性能，大语言模型通过不同领域的数据混合进行预训练。在这项工作中，我们证明了固定计算预算的最佳数据组合根据训练数据的规模而变化，这表明使用小规模实验凭经验确定最佳组合的常见做法在以下情况下不会产生最佳数据混合：放大到最终模型。为了应对这一挑战，我们提出了AutoScale，这是一种自动化工具，可以找到计算最佳的数据组合，以便在任何所需的目标规模上进行训练。 AutoScale 首先使用新颖的双层优化框架直接数据优化 (DDO) 确定小规模的最佳组合，然后拟合预测器以估计较大规模的最佳组合。预测器的设计受到我们对与数据组成相关的缩放定律的理论分析的启发，这可能是独立的兴趣。在 RedPajama 数据集上使用预训练 774M 仅解码器 LM (GPT-2 Large) 进行的实证研究中，AutoScale 使验证困惑度比任何基线快至少 25%，与不重新加权相比，速度提高高达 38%，实现了最佳整体效果下游任务的性能。在使用掩码语言建模的预训练仅编码器 LM (BERT) 上，DDO 可以减少所有领域的损失，同时将 GLUE 基准上的平均任务性能明显提高 8.7%，将大规模 QA 数据集 (SQuAD) 上的平均任务性能提高 5.9%与没有重新加权相比。 AutoScale 可将训练速度提高高达 28%。我们的代码是开源的。

rLLM：使用 LLM 进行关系表学习

分类： 人工智能

作者： Weichen Li, Xiaotong Huang, Jianwu Zheng, Zheng Wang, Chaokun Wang, Li Pan, Jianhua Li

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20157v1

摘要： 我们介绍 rLLM (relationLLM)，这是一个 PyTorch 库，专为具有大型语言模型 (LLM) 的关系表学习 (RTL) 设计。核心思想是将最先进的图神经网络、LLM和表神经网络分解为标准化模块，从而能够通过简单的“组合、对齐和协同训练”快速构建新颖的RTL型模型“ 方式。为了说明 rLLM 的用法，我们引入一个名为 \textbf{BRIDGE} 的简单 RTL 方法。此外，我们通过增强经典数据集，提出了三个新颖的关系表格数据集（TML1M、TLF2K 和 TACM12K）。我们希望 rLLM 能够成为 RTL 相关任务的有用且易于使用的开发框架。我们的代码位于：https://github.com/rllm-project/rllm。

ByteCheckpoint：用于 LLM 开发的统一检查点系统

分类： 人工智能

作者： Borui Wan, Mingji Han, Yiyao Sheng, Zhichao Lai, Mofan Zhang, Junda Zhang, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20143v1

摘要： 现实世界的大型语言模型 (LLM) 的开发需要在持久存储中对训练状态进行检查点设置，以减轻潜在的软件和硬件故障，并促进训练管道内和各种任务之间的检查点传输。由于 LLM 规模巨大，保存和加载检查点常常会导致难以忍受的分钟级停顿，从而显着降低训练效率。此外，在跨任务传输检查点时，通常需要根据特定任务的特点和资源配额，进行检查点重新分片，定义为将检查点加载到与用于保存的并行配置不同的并行配置中。以前的检查点系统[16,3,33,6]假设一致的并行配置，未能解决重新分片期间检查点转换的复杂性。此外，在行业平台中，开发人员从不同的训练框架创建检查点[23,36,21,11]，每个框架都有自己独特的存储和I/O逻辑。这种多样性使得统一检查点管理和优化的实施变得复杂。为了应对这些挑战，我们引入了 ByteCheckpoint，这是一个 PyTorch 原生多框架 LLM 检查点系统，支持自动在线检查点重新分片。 ByteCheckpoint 采用数据/元数据分解存储架构，将检查点存储与所采用的并行策略和训练框架解耦。我们设计了一种高效的异步张量合并技术来解决不规则张量分片问题，并提出了几种 I/O 性能优化以显着提高检查点保存和加载的效率。实验结果表明，与基线方法相比，ByteCheckpoint 在降低检查点保存（高达 529.22 倍）和加载（高达 3.51 倍）成本方面具有显着优势。

什么时候停止？通过防止过量令牌在大语言模型中实现高效代码生成

分类： 软件工程

作者： Lianghong Guo, Yanlin Wang, Ensheng Shi, Wanjun Zhong, Hongyu Zhang, Jiachi Chen, Ruikai Zhang, Yuchi Ma, Zibin Zheng

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20042v1

摘要： 代码生成旨在自动生成满足给定自然语言要求的代码片段，在软件开发中发挥着重要作用。尽管Code LLM在该领域表现出了出色的性能，但其较长的生成时间在实际使用中造成了显着限制。在本文中，我们首先对不同的Code LLM对代码生成任务进行了深入的初步研究，并发现了一个显着的效率问题，即不断生成多余的代币。它损害了开发人员的生产力并导致巨大的计算浪费。为了解决这个问题，我们引入了 CodeFast，这是一种针对代码生成的 Code LLM 的推理加速方法。 CodeFast的核心思想是当检测到不必要的多余标记时及时终止推理过程。首先，我们提出了一个自动数据构建框架来获取训练数据。然后，我们训练一个适用于多种编程语言的统一轻量级模型GenGuard来预测是否在当前步骤终止推理。最后，我们使用 GenGuard 增强了 Code LLM，以加速其在代码生成任务中的推理。我们使用 CodeFast 对四个广泛使用的代码生成数据集的五个代表性代码 LLM 进行了广泛的实验。实验结果表明，（1）CodeFast可以显着提高各种Code LLM在代码生成中的推理速度，范围从34%到452%，并且不影响生成代码的质量。 (2) CodeFast 在不同的参数设置下都是稳定的，并且可以推广到未经训练的数据集。我们的代码和数据可在 https://github.com/DeepSoftwareAnalytics/CodeFast 获取

LLM 真的适应领域吗？本体学习视角

分类： 计算和语言, 人工智能

作者： Huu Tan Mai, Cuong Xuan Chu, Heiko Paulheim

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19998v1

摘要： 大型语言模型 (LLM) 在各种应用领域的各种自然语言处理任务中表现出了前所未有的能力。最近的研究表明，大语言模型可以用来执行词汇语义任务，例如知识库完成（KBC）或本体学习（OL）。然而，尚未有效验证他们的成功是否归因于他们对非结构化或半结构化数据进行推理的能力，或者他们仅有效学习语言模式和意义。在处理特定领域的数据时，这个未解决的问题尤其重要，因为其中的词汇意义及其含义可能与大语言模型在培训阶段学到的内容完全不同。本文研究了以下问题：大语言模型是否真正适应领域并在结构化知识的提取中保持一致，或者他们只学习词汇意义而不学习推理？为了回答这个问题，我们设计了一个受控实验设置，使用 WordNet 来合成包含英语和乱码术语的并行语料库。我们检查了两个 OL 任务中每个语料库的大语言模型输出的差异：关系提取和分类发现。实证结果表明，在适应胡言乱语的语料库时，现成的大语言模型并不能始终如一地推理概念之间的语义关系，而是利用意义及其框架。然而，微调可以提高 LLM 在词汇语义任务上的性能，即使特定领域的术语是任意的并且在预训练期间看不见，这暗示了预训练的 LLM 对 OL 的适用性。

通过 LLM 可解释性将货币对情绪货币化

分类： 人工智能, 68T50

作者： Lior Limonad, Fabiana Fournier, Juan Manuel Vera Díaz, Inna Skarbovsky, Shlomit Gur, Raquel Lazcano

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19922v1

摘要： 大型语言模型 (LLM) 在当今组织的几乎每个领域都发挥着至关重要的作用。在这项工作的背景下，我们重点介绍了大语言模型在情感分析（SA）和可解释性方面的使用。具体来说，我们贡献了一种新技术，利用大语言模型作为独立于模型的事后工具来解释 SA。我们将我们的技术应用于金融领域，使用开放新闻源数据与市场价格合并来预测货币对价格。我们的应用表明，所开发的技术不仅是使用传统 eXplainable AI 的可行替代方案，而且还可以进行反馈以丰富机器学习 (ML) 模型的输入，以更好地预测未来的货币对价值。我们设想我们的结果可以推广到采用可解释性作为 ML 输入的传统丰富方式，以实现更好的 ML 预测。

通用机器翻译系统和大语言模型的 WMT24 初步排名

分类： 计算和语言

作者： Tom Kocmi, Eleftherios Avramidis, Rachel Bawden, Ondrej Bojar, Anton Dvorkovich, Christian Federmann, Mark Fishel, Markus Freitag, Thamme Gowda, Roman Grundkiewicz, Barry Haddow, Marzena Karpinska, Philipp Koehn, Benjamin Marie, Kenton Murray, Masaaki Nagata, Martin Popel, Maja Popovic, Mariya Shmatova, Steinþór Steingrímsson, Vilém Zouhar

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19884v1

摘要： 这是基于自动指标的 WMT24 通用机器翻译系统的初步排名。官方排名将是人工评估，优于自动排名并取代自动排名。本报告的目的不是解释任何调查结果，而只是向一般 MT 任务的参与者提供初步结果，这些结果在编写系统提交时可能有用。

简明思考：输出长度对 LLM 推理和成本的影响

分类： 计算和语言, 人工智能

作者： Sania Nayab, Giulio Rossolini, Giorgio Buttazzo, Nicolamaria Manes, Fabrizio Giacomelli

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19825v1

摘要： 当今的大型语言模型（LLM）可以解决具有挑战性的问答任务，而思想链（CoT）等提示工程技术因增强输出的解释性和正确性而受到关注。然而，模型需要大量时间来生成带有冗长推理细节的答案。为了解决这个问题，本文分析了输出长度对 LLM 推理流程的影响，并提出了新的指标来根据 \textit{正确的简洁性} 来评估它们。它还检查了通过改进的即时工程策略 Constrained-CoT (CCoT) 控制输出长度的影响，该策略鼓励模型限制输出长度。对预训练的 LLM 进行的实验证明了所提出的指标的优点以及 CCoT 在不同模型中的有效性。例如，将 LLaMA2-70b 的推理限制为 100 个单词，可将 GSM8K 数据集上的准确度从 36.01% (CoT) 提高到 41.07% (CCoT)，同时将平均输出长度减少 28 个单词。

在查尔斯大学教授大语言模型：作业和活动

分类： 计算和语言

作者： Jindřich Helcl, Zdeněk Kasner, Ondřej Dušek, Tomasz Limisiewicz, Dominik Macháček, Tomáš Musil, Jindřich Libovický

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19798v1

摘要： 本文介绍了查尔斯大学教授的大语言模型 (LLM) 新课程的教学材料，特别是课堂活动的作业和想法。这些作业包括用于气象报告生成和机器翻译的大语言模型推理实验。课堂活动包括课堂测验、对下游任务和数据集的重点研究，以及旨在阅读和理解研究论文的互动“最佳论文”会议。

VolDoGer：用于视觉语言任务领域泛化的大语言模型辅助数据集

分类： 计算和语言, 人工智能, 计算机视觉和模式识别

作者： Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19795v1

摘要： 领域泛化性是深度学习模型的一个重要方面，因为它决定了模型在来自未知领域的数据上表现良好的能力。然而，针对视觉语言任务的深度学习模型的领域通用性的研究仍然有限，主要是因为缺乏所需的数据集。为了应对这些挑战，我们提出了 VolDoGer：用于领域泛化的视觉语言数据集，这是一个专为领域泛化而设计的专用数据集，可解决三个视觉语言任务：图像字幕、视觉问答和视觉蕴涵。我们通过将基于 LLM 的数据注释技术扩展到视觉语言任务来构建 VolDoGer，从而减轻招募人类注释者的负担。我们通过 VolDoGer 评估了各种模型的领域通用性，从微调模型到最近的多模态大型语言模型。

法律思维，算法决策：大语言模型如何在复杂场景中应用宪法原则

分类： 计算和语言, 计算机与社会

作者： Camilla Bignotti, Carolina Camassa

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19760v1

摘要： 在本文中，我们对大型语言模型（LLM）（特别是 GPT-4）如何在复杂的决策场景中解释宪法原则进行了实证分析。我们研究了意大利宪法法院关于涉及竞争价值观之间权衡的生物伦理问题的裁决，并将模型生成的关于这些问题的法律论据与国家、法院和申请人提出的法律论据进行比较。我们的结果表明，GPT-4 始终与对宪法的进步解释更加一致，常常忽视相互竞争的价值观并反映申请人的观点，而不是国家或法院的温和立场的更保守的观点。我们的实验揭示了 GPT-4 倾向于渐进式法律解释的明显倾向，强调了潜在数据偏差的影响。因此，我们强调在现实场景中测试一致性的重要性，并考虑在决策过程中部署大语言模型的影响。

ComNeck：通过通用 Transform-Neck 连接压缩图像潜在模型和多模态 LLM

分类： 计算机视觉和模式识别, 机器学习, 多媒体

作者： Chia-Hao Kao, Cheng Chien, Yu-Jen Tseng, Yi-Hsin Chen, Alessandro Gnutti, Shao-Yuan Lo, Wen-Hsiao Peng, Riccardo Leonardi

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19651v1

摘要： 本文首次提出了调整压缩图像潜伏以满足采用多模态大语言模型 (MLLM) 的下游视觉任务的需求的研究。 MLLM 将大型语言模型的成功扩展到文本之外的模式（例如图像），但其数十亿的规模阻碍了在资源有限的终端设备上的部署。虽然可以使用云托管的 MLLM，但将终端设备捕获的原始未压缩图像传输到云需要高效的图像压缩系统。为了解决这个问题，我们专注于新兴的神经图像压缩，并提出了一种具有轻量级变换颈和代理损失的新颖框架，以适应基于 MLLM 的视觉任务的压缩图像潜伏。所提出的框架是通用的，适用于多种应用场景，其中神经图像编解码器可以（1）针对人类感知进行预训练而无需更新，（2）针对人类和机器联合感知进行完全更新，或者（3）针对人类和机器联合感知进行完全更新只有机器感知。使用代理损失训练的变换颈是通用的，因为它可以服务于共享相同视觉编码器的各种 MLLM 所支持的各种下游视觉任务。我们的框架具有一个显着的特点，即从训练变换颈以及潜在的神经图像编解码器中排除下游 MLLM。这与大多数现有的机器方法编码不同，这些方法涉及训练中的下游网络，因此当网络是 MLLM 时可能不切实际。对不同神经图像编解码器和各种基于 MLLM 的视觉任务的大量实验表明，我们的方法以低得多的复杂性实现了出色的速率精度性能，证明了其有效性。

从预训练语料库到大型语言模型：哪些因素影响 LLM 在因果发现任务中的表现？

分类： 计算和语言

作者： Tao Feng, Lizhen Qu, Niket Tandon, Zhuang Li, Xiaoxi Kang, Gholamreza Haffari

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19638v1

摘要： 人工智能的最新进展表明，大型语言模型 (LLM) 在因果发现任务中表现出了显着的熟练程度。本研究探讨了影响大语言模型在因果发现任务中表现的因素。利用开源大语言模型，我们研究了其预训练语料库中因果关系的频率如何影响其准确响应因果发现查询的能力。我们的研究结果表明，更高频率的因果提及与更好的模型性能相关，这表明在训练期间广泛接触因果信息可以增强模型的因果发现能力。此外，我们还研究了背景对因果关系有效性的影响。我们的结果表明，大语言模型在不同的背景下可能会对相同的因果关系表现出不同的预测。本文首次全面分析了不同因素如何影响大语言模型在因果发现任务中的表现。

大语言模型对自然语言的理解揭晓

分类： 人工智能

作者： Walid S. Saba

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19630v1

摘要： 大型语言模型 (LLM) 是自下而上、数据驱动的大规模语言逆向工程大规模实验的结果。尽管大语言模型在许多下游 NLP 任务中很有用，但大量研究表明，大语言模型无法在需要量化和操作符号变量的任务（例如规划和问题解决）中进行推理；例如参见[25][26]。然而，在本文档中，我们将重点测试大语言模型的语言理解能力，即他们所谓的强项。正如我们将在这里展示的，大语言模型的语言理解能力被广泛夸大了。虽然大语言模型已被证明可以生成类似人类的连贯语言（因为它们就是这样设计的），但它们的语言理解能力尚未经过适当的测试。特别是，我们认为，大语言模型的语言理解能力应该通过执行与“文本生成”相反的操作来测试，特别是通过将文本片段作为输入提供给大语言模型，然后查询大语言模型“理解”的内容。正如我们在这里所示，当这样做时，很明显大语言模型并不能真正理解语言，除了非常肤浅的推论之外，这些推论本质上是记忆大量摄入文本的副产品。

AgEval：使用多模式 LLM 进行零次和少次植物胁迫表型分析的基准

分类： 机器学习, 计算机视觉和模式识别

作者： Muhammad Arbab Arshad, Talukder Zaki Jubery, Tirtho Roy, Rim Nassiri, Asheesh K. Singh, Arti Singh, Chinmay Hegde, Baskar Ganapathysubramanian, Aditya Balu, Adarsh Krishnamurthy, Soumik Sarkar

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19617v1

摘要： 植物胁迫表型传统上依赖于专家评估和专门模型，限制了农业的可扩展性。多模式大语言模型 (LLM) 的最新进展为这一挑战提供了潜在的解决方案。我们提出了 AgEval，这是一个包含 12 种不同植物胁迫表型任务的基准，用于评估这些模型的能力。我们的研究评估了最先进模型的零样本和少样本上下文学习性能，包括 Claude、GPT、Gemini 和 LLaVA。结果显示，通过少样本学习，性能得到显着提升，在 8 样本识别中，性能最佳模型的 F1 分数从 46.24% 增加到 73.37%。尽管拥有确切的类别示例有助于将性能提高 15.38%，但数据集中其他类别的少数样本示例的影响可以忽略不计或产生负面影响。我们还量化了每个任务中不同类别的模型性能的一致性，发现模型之间的方差系数 (CV) 范围为 26.02% 到 58.03%，这意味着需要“困难”类别的主题专业知识才能实现性能的可靠性。 AgEval 为农业应用中的多模式大语言模型建立了基线指标，为其大规模增强植物胁迫表型分析的承诺提供了见解。基准和代码可以访问：https://anonymous.4open.science/r/AgEval/

TopicTag：使用思想链自动注释 NMF 主题模型并通过大语言模型进行即时调整

分类： 机器学习, 人工智能, 计算和语言

作者： Selma Wanna, Ryan Barron, Nick Solovyev, Maksim E. Eren, Manish Bhattarai, Kim Rasmussen, Boian S. Alexandrov

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.19616v1

摘要： 主题建模是一种从大量非结构化文本中组织和提取主题的技术。非负矩阵分解 (NMF) 是一种常见的无监督方法，它分解词频-逆文档频率 (TF-IDF) 矩阵以发现潜在主题并相应地对数据集进行分段。虽然 NMF 对于突出显示模式和聚类文档很有用，但它不提供明确的主题标签，需要主题专家 (SME) 手动分配标签。我们提出了一种通过 NMF 和自动模型确定 (NMFk) 在文档中自动进行主题标记的方法。通过利用 NMFk 的输出并采用即时工程，我们利用大型语言模型 (LLM) 来生成准确的主题标签。我们对知识图上 34,000 多个科学摘要的案例研究证明了我们的方法在增强知识管理和文档组织方面的有效性。

元奖励语言模型：与大语言模型作为元法官的自我改进一致性

分类： 计算和语言, 人工智能

作者： Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19594v2

摘要： 大型语言模型（LLM）在许多领域正在迅速超越人类知识。虽然改进这些模型传统上依赖于昂贵的人类数据，但最近的自我奖励机制（Yuan et al., 2024）表明，大语言模型可以通过判断自己的反应而不是依赖人类标签来改进。然而，现有方法主要侧重于提高模型响应而不是判断能力，导致迭代训练过程中快速饱和。为了解决这个问题，我们在自我改进过程中引入了一种新颖的元奖励步骤，其中模型判断自己的判断并使用该反馈来完善其判断技能。令人惊讶的是，这种无监督方法提高了模型判断和遵循指令的能力，Llama-3-8B-Instruct 在 AlpacaEval 2 上的胜率从 22.9% 提高到 39.4%，在 AlpacaEval 2 上从 20.6% 提高到 29.1% 就证明了这一点。在竞技场-困难。这些结果强烈表明了在没有人类监督的情况下自我改进模型的潜力。

具有更大小批量的 LLM 的内存高效训练

分类： 机器学习, 人工智能, 计算和语言

作者： Dang Nguyen, Wenhan Yang, Rathul Anand, Yu Yang, Baharan Mirzasoleiman

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19580v1

摘要： 使用较大的小批量进行训练可以提高训练机器学习模型的性能和收敛速度。然而，由于需要大量 GPU 内存，因此对于具有数十亿参数的大型语言模型 (LLM) 来说，使用大型小批量进行训练变得令人望而却步。为了解决这个问题，我们建议寻找小批量来模拟较大小批量训练的动态。具体来说，我们将选择较小的小批量示例来密切捕获大小批量的梯度作为子模最大化问题。然而，梯度的维数非常大，使得该问题的解决非常具有挑战性。为了解决这个问题，我们利用零阶优化和神经网络修剪的思想来找到较低维的梯度估计，从而可以在有限的内存量下有效地找到高质量的子集。我们证明了我们的方法在小批量训练上的优越收敛率，并凭经验证明了其有效性。我们的方法可以有效地将内存需求减少 2 倍，并将训练速度提高 1.3 倍，正如我们在 MathInstruct 上微调 Phi-2 所证实的那样。我们的方法可以轻松地与 LoRA 和其他内存高效方法堆叠，以进一步减少训练 LLM 的内存需求。

大语言模型是话语级事件关系提取的良好注释者吗？

分类： 计算和语言, 人工智能

作者： Kangda Wei, Aayush Gautam, Ruihong Huang

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19568v1

摘要： 大型语言模型 (LLM) 已表现出对各种自然语言处理任务的熟练程度。然而，它在话语级事件关系提取（ERE）任务上的有效性仍有待探索。在本文中，我们评估了大语言模型在解决话语级 ERE 任务方面的有效性，这些任务的特点是冗长的文档和包含共指、时间、因果和子事件类型的复杂关系。使用商业模型 GPT-3.5 和开源模型 LLaMA-2 进行评估。我们的研究表明，与通过监督学习建立的基线相比，大语言模型的表现明显不佳。尽管监督微调 (SFT) 可以提高 LLM 的性能，但与较小的监督基线模型相比，它的扩展性较差。我们的定量和定性分析表明，大语言模型在应用于提取事件关系时存在一些弱点，包括伪造事件提及的倾向，以及无法捕获关系之间的传递性规则、检测长距离关系或理解密集事件提及的上下文。

解码方法对会话大语言模型人类一致性的影响

分类： 计算和语言

作者： Shaz Furniturewala, Kokil Jaidka, Yashvardhan Sharma

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19526v1

摘要： 要纳入聊天机器人系统，大型语言模型 (LLM) 必须与人类对话惯例保持一致。然而，主要接受网络抓取数据的训练使现有的大语言模型的声音更接近信息文本，而不是实际的人类语音。在本文中，我们研究了解码方法对 LLM 生成的对话和人类对话之间的一致性的影响，包括 Beam Search、Top K 采样和 Nucleus 采样。我们提出了在内容、风格和心理测量方向上保持一致的新措施，并用两个对话数据集进行了实验。我们的结果提供了微妙的见解：更好的对准归因于波束搜索中更少的波束和核采样中更低的 P 值。我们还发现面向任务和开放式数据集在对齐方面表现不同，这表明考虑交互上下文的重要性。

评估具有复杂 SQL 工作负载的文本到 SQL 生成的 LLM

分类： 数据库, 人工智能

作者： Limin Ma, Ken Pu, Ying Zhu

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19517v1

摘要： 本研究对复杂的 SQL 基准测试 TPC-DS 与两个现有的文本到 SQL 基准测试 BIRD 和 Spider 进行了比较分析。我们的研究结果表明，与其他两个基准测试相比，TPC-DS 查询表现出明显更高水平的结构复杂性。这强调需要更复杂的基准来有效地模拟现实场景。为了促进这种比较，我们设计了几种结构复杂性的衡量标准，并将它们应用于所有三个基准。这项研究的结果可以指导未来开发更复杂的文本到 SQL 基准的研究。我们利用 11 种不同的语言模型 (LLM) 根据 TPC-DS 基准测试提供的查询描述生成 SQL 查询。即时工程过程结合了 TPC-DS 规范中概述的查询描述和 TPC-DS 的数据库模式。我们的研究结果表明，当前最先进的生成式人工智能模型在生成准确的决策查询方面存在不足。我们使用一系列基于查询特征的模糊结构匹配技术，将生成的查询与 TPC-DS 黄金标准查询进行了比较。结果表明，生成的查询的准确性不足以满足实际应用的需要。

LLM 代理的新兴安全和隐私：案例研究调查

分类： 密码学和安全

作者： Feng He, Tianqing Zhu, Dayong Ye, Bo Liu, Wanlei Zhou, Philip S. Yu

发布时间： 2024-07-28

链接： http://arxiv.org/abs/2407.19354v1

摘要： 受大型语言模型 (LLM) 快速发展的启发，LLM 代理已经发展到可以执行复杂的任务。 LLM 代理现在广泛应用于各个领域，处理大量数据以与人类交互并执行任务。 LLM代理人的广泛应用体现了其巨大的商业价值；然而，它们也暴露了安全和隐私漏洞。现阶段非常需要对LLM代理的安全和隐私进行全面的研究。本调查旨在全面概述大语言模型代理人面临的新出现的隐私和安全问题。我们首先介绍LLM代理的基础知识，然后对威胁进行分类和分析。然后我们讨论这些威胁对人类、环境和其他因素的影响。随后，我们回顾现有的防御策略，最后探讨未来的趋势。此外，该调查还纳入了不同的案例研究，以促进更容易理解。通过强调这些关键的安全和隐私问题，该调查旨在刺激未来的研究，以增强大语言模型代理人的安全和隐私，从而提高他们在未来应用中的可靠性和可信度。

数据限制下 LLM 的 LoRA 适配器对临床 NLP 分类的影响

分类： 计算和语言, 信号处理

作者： Thanh-Dung Le, Ti Ti Nguyen, Vu Nguyen Ha

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19299v1

摘要： 由于领域差距和有限的数据可用性，对临床自然语言处理 (NLP) 的大型语言模型 (LLM) 进行微调提出了重大挑战。本研究调查了各种适配器技术（相当于低秩适应 (LoRA)）在资源有限的医院环境中微调大语言模型的有效性。我们尝试了四种结构——Adapter、Lightweight、TinyAttention 和门控残差网络 (GRN)——作为临床记录分类的最终层。我们对生物医学预训练模型进行了微调，包括 CamemBERT-bio、AliBERT 和 DrBERT，以及两个基于 Transformer 的模型。我们广泛的实验结果表明，i) 采用适配器结构并不会在微调生物医学预训练 LLM 方面产生显着改进，ii) 更简单的基于 Transformer 的模型，从头开始训练，在资源限制下表现更好。在适配器结构中，GRN 在准确度、精确度、召回率方面表现出了卓越的性能，F1 分数为 0.88。此外，LLM 的总训练时间超过 1000 小时，而更简单的基于 Transformer 的模型则不到 6 小时，这凸显了 LLM 更适合具有大量计算资源和更大数据集的环境。因此，这项研究表明，可以从头开始有效地训练更简单的基于 Transformer 的模型，为数据可用性有限的资源匮乏环境中的临床 NLP 任务提供可行的解决方案。通过将 GRN 确定为最有效的适配器结构，我们提供了一种实用的方法来增强临床记录分类，而无需大量的计算资源。

了解大语言模型的记忆：动态、影响因素和含义

分类： 计算和语言, 机器学习

作者： Till Speicher, Mohammad Aflah Khan, Qinyuan Wu, Vedant Nanda, Soumi Das, Bishwamittra Ghosh, Krishna P. Gummadi, Evimaria Terzi

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19262v1

摘要： 了解大型语言模型 (LLM) 是否以及在多大程度上记住了训练数据，对其输出的可靠性和训练数据的隐私性具有重要意义。为了清楚地测量记忆并将其与其他现象（例如上下文学习）分开，我们创建了一个基于反复将大语言模型暴露于随机字符串的实验框架。我们的框架使我们能够更好地理解动态，即模型在反复暴露于随机字符串时的行为。使用我们的框架，我们做出了一些惊人的观察：（a）我们发现模型系列（Pythia、Phi 和 Llama2）之间动态的一致阶段，（b）我们确定了使某些字符串比其他字符串更容易记住的因素，以及（ c）我们确定局部前缀和全局上下文在记忆中的作用。我们还表明，顺序展示不同的随机字符串对记忆有显着影响。我们的结果常常令人惊讶，但对大语言模型的研究和使用具有重大的下游影响。

走向终结者经济：通过大语言模型评估工作对人工智能的暴露程度

分类： 计算机与社会, 人工智能

作者： Emilio Colombo, Fabio Mercorio, Mario Mezzanzanica, Antonio Serino

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19204v1

摘要： 人工智能相关技术的传播和快速发展正在影响我们日常生活的许多方面，从社会到教育，包括劳动力市场。许多研究人员一直强调人工智能和技术通过自动化或增强工作场所中的人类能力，在重塑工作及其相关任务方面发挥的关键作用。我们能否估计工作和相关任务是否以及在多大程度上面临被最先进的人工智能相关技术自动化的风险？我们的工作通过数据驱动的方法解决了这个问题：（i）开发一个可重复的框架，利用一系列开源大型语言模型来评估当前人工智能和机器人技术执行工作相关任务的能力； (ii) 按职业形式化并计算人工智能暴露测量，即 teai（人工智能任务暴露）指数。我们的结果显示，美国约三分之一的就业机会高度依赖人工智能，主要是高技能工作（又称白领）。这种风险与 2019 年至 2023 年的就业和工资增长呈正相关，表明人工智能对生产力产生有益影响。源代码和结果是公开的，使整个社区能够随着时间的推移对人工智能和技术能力进行基准测试和跟踪。

代表利益相关者：LLM时代NLP模型可解释性的趋势

分类： 计算和语言, 人工智能

作者： Nitay Calderon, Roi Reichart

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19200v1

摘要： NLP 系统的最新进展，特别是大语言模型的引入，导致这些系统被各个领域的广泛用户广泛采用，影响着决策、就业市场、社会和科学研究。使用量的激增导致 NLP 模型可解释性和分析研究的爆炸式增长，并伴随着大量的技术调查。然而，这些调查往往忽视了解释利益相关者的需求和观点。在本文中，我们解决了三个基本问题：为什么我们需要可解释性、我们要解释什么以及如何解释？通过探索这些问题，我们研究了现有的可解释性范式、它们的属性以及它们与不同利益相关者的相关性。我们通过分析过去十年多个研究领域的趋势，进一步探讨这些范式的实际含义。为此，我们检索了数千篇论文并聘请了大语言模型来描述它们。我们的分析揭示了 NLP 开发者和非开发者用户之间以及研究领域之间的显着差异，强调了利益相关者的多样化需求。例如，内部模型组件的解释很少在 NLP 领域之外使用。我们希望本文能够为未来的设计、开发和应用提供符合各个利益相关者的目标和要求的方法的信息。

贪婪输出近似：在无需再培训的情况下实现大语言模型的高效结构化修剪

分类： 人工智能

作者： Jianwei Li, Yijun Dong, Qi Lei

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.19126v1

摘要： 为了在不产生大量计算成本的情况下删除大型语言模型（LLM）的冗余组件，这项工作重点关注单次剪枝，而无需重新训练阶段。我们通过确定独立运行的深度 2 剪枝结构来简化基于 Transformer 的 LLM 的剪枝过程。此外，我们提出了从输出近似优化角度得出的两个推理感知剪枝标准，其性能优于梯度和 Hessian 等传统的训练感知指标。我们还引入了两步重建技术来减少修剪错误，而无需模型重新训练。实验结果表明，我们的方法显着降低了计算成本和硬件要求，同时在各种数据集和模型中保持卓越的性能。

评估大语言模型识别可配置系统中编译错误的能力

分类： 软件工程

作者： Lucas Albuquerque, Rohit Gheyi, Márcio Ribeiro

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.19087v2

摘要： 编译是开发可配置系统（例如 Linux）的一个重要过程。然而，识别可配置系统中的编译错误并不简单，因为传统编译器无法识别可变性。以前检测其中一些编译错误的方法通常依赖于需要程序员付出巨大努力的先进技术。本研究评估了大型语言模型 (LLM)，特别是 ChatGPT4、Le Chat Mistral 和 Gemini Advanced 1.5 在识别可配置系统中的编译错误方面的功效。最初，我们评估了 50 个 C++、Java 和 C 语言的小型产品，随后评估了 30 个 C 语言的小型可配置系统，涵盖了 17 种不同类型的编译错误。 ChatGPT4 成功识别了单个产品和可配置系统中的大多数编译错误，而 Le Chat Mistral 和 Gemini Advanced 1.5 则检测到了其中的一些错误。大语言模型在帮助开发人员识别可配置系统中的编译错误方面已显示出潜力。

使用多模式 LLM 进行 Android 应用程序中非崩溃功能性错误检测的研究

分类： 软件工程

作者： Bangyan Ju, Jin Yang, Tingting Yu, Tamerlan Abdullayev, Yuanyuan Wu, Dingbang Wang, Yu Zhao

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.19053v1

摘要： 人们已经开发了许多采用各种策略的方法来测试移动应用程序的图形用户界面（GUI）。然而，传统的 GUI 测试技术（例如随机测试和基于模型的测试）主要侧重于生成测试序列，这些测试序列擅长实现高代码覆盖率，但通常无法充当非崩溃功能 (NCF) 错误检测的有效测试预言机。为了解决这些限制，本研究实证研究了利用大型语言模型 (LLM) 作为测试预言机来检测 Android 应用程序中的 NCF 错误的能力。我们的直觉是，大语言模型的培训语料库包含广泛的移动应用程序使用和错误报告描述，使他们能够掌握与 NCF 错误检测相关的领域知识。我们进行了一项全面的实证研究，以探索大语言模型作为测试神谕的有效性，用于检测 Android 应用程序中 71 个有据可查的 NCF 错误的 NCF 错误。结果表明，大语言模型实现了 49% 的错误检测率，优于检测 Android 应用中 NCF 错误的现有工具。此外，通过利用 LLM 作为测试预言机，我们成功在 64 个 Android 应用程序中检测到 24 个以前未知的 NCF 错误，其中 4 个错误已得到确认或修复。然而，我们也发现了大语言模型的局限性，主要与性能下降、固有的随机性和误报有关。我们的研究强调了利用大语言模型作为 Android NCF 错误检测的测试预言机的潜力，并为未来的研究提出了方向。

通过大语言模型实现工业资产管理自动化解决方案配方生成

分类： 人工智能

作者： Nianjun Zhou, Dhaval Patel, Shuxin Lin, Fearghal O'Donncha

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18992v1

摘要： 本研究通过将基于条件的管理 (CBM) 原则与大型语言模型 (LLM) 的最新进展相结合，引入了一种新颖的工业资产管理 (IAM) 方法。我们的研究引入了自动化模型构建过程，传统上依赖于数据科学家和领域专家之间的密切合作。我们提出了两项主要创新：分类引导的提示生成，有助于自动创建 AI 解决方案配方；以及一组 LLM 管道，旨在生成包含一组由文档、样本数据和 IAM 模型组成的工件的解决方案配方。这些管道以标准化原则为指导，无需直接人工输入即可生成异构资产类别的初始解决方案模板，从而减少对广泛领域知识的依赖并增强自动化。我们通过评估十个资产类别的资产健康状况和可持续性来评估我们的方法。我们的研究结果表明了大语言模型和基于分类法的大语言模型在推动资产管理转型方面的潜力，为后续研发计划集成到快速客户解决方案中提供了蓝图。

提示的力量：大语言模型评估和减轻 MT 中的性别偏见

分类： 计算和语言

作者： Aleix Sant, Carlos Escolano, Audrey Mash, Francesca De Luca Fornaciari, Maite Melero

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18786v1

摘要： 本文通过大型语言模型 (LLM) 的视角研究机器翻译中的性别偏见。采用四个广泛使用的测试集对各种基础大语言模型进行基准测试，将其翻译质量和性别偏见与最先进的英语到加泰罗尼亚语（En $\rightarrow$ Ca）和英语的神经机器翻译 (NMT) 模型进行比较西班牙语 (En $\rightarrow$ Es) 翻译说明。我们的研究结果揭示了所有模型中普遍存在的性别偏见，与 NMT 模型相比，基础大语言模型表现出更高程度的偏见。为了克服这种偏见，我们探索了应用于指令调整的大语言模型的提示工程技术。与更直接的提示相比，我们确定了一种提示结构，可以在 WinoMT 评估数据集上显着减少高达 12% 的性别偏见。这些结果显着缩小了大语言模型和传统 NMT 系统之间的性别偏见准确性差距。

TAGIFY：LLM 支持的标签接口，可提高 OGD 门户上的数据可查找性

分类： 计算机与社会, 人工智能, 新兴技术, 人机交互

作者： Kevin Kliimask, Anastasija Nikiforova

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18764v1

摘要： 自 2000 年代中期以来，旨在促进开放政府数据 (OGD) 的努力在各级政府中获得了巨大的关注。随着越来越多的数据集在 OGD 门户上发布，查找特定数据变得更加困难，从而导致信息过载。完整而准确的数据集文档，包括将适当的标签与数据集关联起来，是提高数据集可查找性和可访问性的关键。对爱沙尼亚开放数据门户进行的分析显示，11% 的数据集没有关联标签，而 26% 的数据集仅分配了一个标签，这凸显了门户内数据可查找性和可访问性方面的挑战，根据最近的开放数据成熟度报告被认为是趋势引领者。本研究的目的是提出一种标记数据集的自动化解决方案，以提高 OGD 门户上数据的可查找性。本文介绍了 Tagify - 一种标记接口原型，它采用 GPT-3.5-turbo 和 GPT-4 等大型语言模型 (LLM) 来自动化数据集标记，为数据集生成英语和爱沙尼亚语标记，从而增强数据发布者的元数据准备工作提高数据用户在 OGD 门户上的数据可查找性。用户对开发的解决方案进行了评估，并收集了他们的反馈，以确定未来原型改进的议程。

使用 LLM 和目标导向 ASP 构建的可靠常识推理社交机器人

分类： 计算和语言, 人工智能, 计算机科学中的逻辑

作者： Yankai Zeng, Abhiramon Rajashekharan, Kinjal Basu, Huaduo Wang, Joaquín Arias, Gopal Gupta

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18498v1

摘要： GPT 等大型语言模型 (LLM) 的发展使得 ChatGPT 等多种社交机器人的构建成为可能，这些机器人因其模拟人类对话的能力而受到广泛关注。然而，谈话没有目标，很难控制。此外，由于大语言模型更多地依赖于模式识别而不是演绎推理，因此他们可能会给出令人困惑的答案，并且很难将多个主题整合成一个有凝聚力的答案。这些限制常常导致大语言模型偏离主题以保持对话有趣。我们提出了 AutoCompanion，这是一种社交机器人，它使用 LLM 模型将自然语言翻译为谓词（反之亦然），并采用基于答案集编程 (ASP) 的常识推理来与人类进行社交对话。特别是，我们依赖 s(CASP)，它是 ASP 的目标导向实现作为后端。本文介绍了框架设计以及如何使用 LLM 解析用户消息并从 s(CASP) 引擎输出生成响应。为了验证我们的建议，我们描述了（真实的）对话，其中聊天机器人的目标是通过谈论电影和书籍来让用户保持娱乐，并且 s（CASP）确保（i）答案的正确性，（ii）连贯性（和精确性）在对话过程中，它会动态地调节对话以实现其特定目的，并且（iii）不偏离主题。

敬请期待：超参数对实际应用中 LLM 调优影响的实证研究

分类： 机器学习, 人工智能, 计算和语言

作者： Alon Halfon, Shai Gretz, Ofir Arviv, Artem Spector, Orith Toledo-Ronen, Yoav Katz, Liat Ein-Dor, Michal Shmueli-Scheuer, Noam Slonim

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18990v1

摘要： 微调大型语言模型（LLM）是提高下游任务性能的有效方法。然而，选择适当的调整超参数（HP）设置是一个劳动密集型且计算成本昂贵的过程。在这里，我们为实际用例提供了推荐的 HP 配置，在考虑两个 SOTA LLM 和两种常用的调优方法时，这些配置为从业者提供了更好的起点。我们描述了基于覆盖的搜索（CBS），这是一种基于离线广泛网格搜索对 HP 配置进行排名的过程，以便排名靠前的配置共同为广泛的数据集和领域提供实用的稳健推荐。我们的实验重点是 Llama-3-8B 和 Mistral-7B，以及全面微调和 LoRa，总共进行了超过 10,000 次调谐实验。我们的结果表明，一般来说，如果可能的话，应首选 Llama-3-8B 和 LoRA。此外，我们表明，对于模型和调整方法，按照我们的分析建议，仅探索少数 HP 配置即可在实践中提供出色的结果，使这项工作成为从业者的宝贵资源。

PersonaGym：评估 Persona 代理和大语言模型

分类： 计算和语言, 人工智能, 机器学习

作者： Vinay Samuel, Henry Peng Zou, Yue Zhou, Shreyas Chaudhari, Ashwin Kalyan, Tanmay Rajpurohit, Ameet Deshpande, Karthik Narasimhan, Vishvak Murahari

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18416v1

摘要： 角色代理是根据指定角色行事的 LLM 代理，已在各种应用程序中展示了令人印象深刻的上下文响应能力。这些角色代理在教育、医疗保健和娱乐等不同领域提供了显着的增强功能，其中模型开发人员可以根据不同的用户需求调整代理响应，从而扩大代理应用的范围。然而，由于评估与每个角色代理相关的各种环境中的自由形式交互中的角色依从性非常复杂，因此评估角色代理的性能非常具有挑战性。我们引入了 PersonaGym，这是第一个用于评估角色代理的动态评估框架，以及 PersonaScore，这是第一个基于决策理论的自动化人类对齐指标，用于对角色代理进行全面的大规模评估。我们使用包含 200 个角色和 10,000 个问题的基准对 6 个开源和闭源大语言模型进行了评估，揭示了在最先进的模型中提升角色代理能力的重大机会。例如，Claude 3.5 Sonnet 尽管是一个更先进的模型，但在 PersonaScore 上仅比 GPT 3.5 提高了 2.97%。重要的是，我们发现模型大小和复杂性的增加并不一定意味着角色代理能力的增强，从而凸显了对忠实且高性能的角色代理的算法和架构发明的迫切需求。

信任还是升级：大语言模型法官为人类协议提供可证明的保证

分类： 机器学习, 计算和语言

作者： Jaehun Jung, Faeze Brahman, Yejin Choi

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18370v1

摘要： 我们提出了一种原则性的方法来提供基于大语言模型的评估，并严格保证人类的一致性。我们首先提出，可靠的评估方法不应不加批判地依赖模型偏好进行成对评估，而是评估判断模型的置信度并选择性地决定何时信任其判断。然后，我们表明，在这种选择性评估框架下，可以证明人类的一致性 - 使得模型评估与人类的评估一致，达到用户指定的一致性水平。作为我们框架的一部分，我们还引入了模拟注释器，这是一种新颖的置信度估计方法，可以显着改善判断校准，从而实现评估实例的高覆盖率。最后，我们提出级联选择性评估，我们使用更便宜的模型作为初始判断，并仅在必要时升级为更强的模型 - 再次，同时仍然提供人类协议的可证明保证。实验结果表明，级联选择性评估保证了与人类的强烈一致性，远远超出了大语言模型法官在没有选择性评估的情况下所能达到的效果。例如，在 Chatbot Arena 的一个子集上，GPT-4 几乎从未达到 80% 的人类一致性，即使采用 Mistral-7B 等具有成本效益的模型，我们的方法也能保证超过 80% 的人类一致性和近 80% 的测试覆盖率。

探索大语言模型稳健性的扩展趋势

分类： 机器学习, 人工智能, 计算和语言, 密码学和安全, I.2.7

作者： Nikolhaus Howe, Michał Zajac, Ian McKenzie, Oskar Hollinsworth, Tom Tseng, Pierre-Luc Bacon, Adam Gleave

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18213v1

摘要： 通过扩展模型的大小和训练数据，语言模型的能力可以预见地得到提高。受此推动，越来越多的大型语言模型得到了训练，产生了一系列令人印象深刻的功能。然而，这些模型很容易受到对抗性提示的影响，例如劫持模型以执行不良行为的“越狱”，从而构成重大的滥用风险。先前的工作表明，计算机视觉模型随着模型和数据的扩展而变得更加稳健，这就提出了一个问题：语言模型的稳健性是否也会随着规模的扩大而提高？我们根据经验研究了这个问题，发现较大的模型对对抗性训练的反应要好得多，但在缺乏明确防御的情况下，模型规模几乎没有任何好处。

使用大语言模型对法语文本进行难度估计和简化

分类： 计算和语言, 人工智能

作者： Henri Jamet, Yash Raj Shrestha, Michalis Vlachos

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18061v1

摘要： 我们利用生成大型语言模型进行语言学习应用，重点是估计外语文本的难度并将其简化到较低的难度级别。我们将这两项任务都视为预测问题，并使用标记示例、迁移学习和大型语言模型开发难度分类模型，与以前的方法相比，展示了更高的准确性。为了简化，我们评估了简化质量和意义保留之间的权衡，比较了大型语言模型的零样本和微调性能。我们证明，通过有限的微调可以获得有意义的文本简化。我们的实验是在法语文本上进行的，但我们的方法与语言无关，并且可以直接适用于其他外语。

降低成本：优化 LLM KV 缓存消耗的方法综述

分类： 计算和语言

作者： Shi Luohe, Zhang Hongyi, Yao Yao, Li Zuchao, Zhao Hai

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18003v1

摘要： 以 2022 年底 ChatGPT 的发布为代表的大型语言模型 (LLM) 凭借其先进的语言理解能力彻底改变了各个行业。然而，它们的效率受到 Transformer 架构处理长文本的挑战。 KV-Cache 已成为该问题的关键解决方案，将令牌生成的时间复杂度从二次型转换为线性型，尽管 GPU 内存开销与会话长度成正比。随着LLM社区和学术界的发展，各种KV-Cache压缩方法被提出。在这篇综述中，我们剖析了 KV-Cache 的各种属性，并详细阐述了目前用于优化 LLM 的 KV-Cache 空间使用的各种方法。这些方法跨越了预训练阶段、部署阶段和推理阶段，我们总结了这些方法之间的共性和差异。此外，我们还列出了一些从效率和能力角度评估大型语言模型的长文本能力的指标。因此，我们的评论揭示了大语言模型优化的不断发展的前景，为这个动态领域的未来进步提供了见解。

使用 LLM 生成的上下文描述改进特定领域的 ASR

分类： 计算和语言, 人工智能

作者： Jiwon Suh, Injae Na, Woohwan Jung

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17874v1

摘要： 端到端自动语音识别 (E2E ASR) 系统通过对大量数据集进行训练，显着改进了语音识别。尽管取得了这些进步，他们仍然难以准确识别特定领域的单词，例如专有名词和技术术语。为了解决这个问题，我们提出了一种利用最先进的 Whisper 的方法，无需修改其架构，保留其泛化性能，同时使其能够有效地利用描述。此外，我们提出了两种额外的训练技术来改进特定领域的 ASR：解码器微调和上下文扰动。我们还提出了一种方法，当描述不可用时，使用大型语言模型（LLM）生成具有简单元数据的描述。我们的实验表明，所提出的方法显着提高了现实数据集上特定领域 ASR 的准确性，大语言模型生成的描述在有效性上优于人工制作的描述。

数字取证和事件响应管道是否已准备好应对大语言模型时代基于文本的威胁？

分类： 密码学和安全, 计算和语言

作者： Avanti Bhandarkar, Ronald Wilson, Anushka Swarup, Mengdi Zhu, Damon Woodard

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17870v1

摘要： 在生成式人工智能时代，神经文本生成器 (NTG) 的广泛采用带来了新的网络安全挑战，特别是在数字取证和事件响应 (DFIR) 领域。这些挑战主要涉及鱼叉式网络钓鱼和虚假信息活动等高级攻击背后来源的检测和归因。随着 NTG 的发展，区分人类文本和 NTG 创作的文本的任务变得极其复杂。本文严格评估了为基于文本的安全系统量身定制的 DFIR 管道，特别关注检测和归属 NTG 创作文本的作者的挑战。通过引入一种新颖的人类与 NTG 共同作者文本攻击（称为 CS-ACT），我们的研究发现了传统 DFIR 方法中的重大漏洞，突出了理想场景与现实条件之间的差异。我们的研究利用 14 个不同的数据集和 43 个独特的 NTG（直至最新的 GPT-4），确定了取证分析阶段的重大漏洞，特别是在将作者归属于 NTG 方面。我们的综合评估指出，模型复杂性和 NTG 内缺乏独特风格等因素是造成这些漏洞的重要原因。我们的研究结果强调了更复杂和适应性更强的策略的必要性，例如纳入对抗性学习、风格化 NTG 以及通过映射 NTG 谱系来实施分层归因以增强来源归因。这为未来研究和开发更具弹性的基于文本的安全系统奠定了基础。

PenHeal：用于自动化渗透测试和最佳修复的两阶段大语言模型框架

分类： 密码学和安全

作者： Junjie Huang, Quanyan Zhu

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17788v1

摘要： 大型语言模型 (LLM) 的最新进展显示出在增强网络安全防御复杂威胁方面的巨大潜力。基于大语言模型的渗透测试是通过识别漏洞来自动化系统安全评估的重要步骤。接下来的关键步骤是修复，解决这些发现的漏洞。由于有关漏洞、利用方法和软件版本的详细信息可以提供对系统弱点的重要洞察，因此将渗透测试与漏洞修复集成到一个有凝聚力的系统中变得既直观又必要。本文介绍了 PenHeal，这是一个基于 LLM 的两阶段框架，旨在自动识别和缓解安全漏洞。该框架集成了两个支持 LLM 的组件：检测系统内多个漏洞的 Pentest 模块和建议最佳修复策略的修复模块。通过反事实提示和讲师模块促进了集成，该模块指导大语言模型使用外部知识有效地探索多种潜在的攻击路径。我们的实验结果表明，与基线模型相比，PenHeal 不仅可以自动识别和修复漏洞，还可以将漏洞覆盖率显着提高 31%，将修复策略的有效性提高 32%，并将相关成本降低 46%。这些成果凸显了大语言模型在重塑网络安全实践、提供防御网络威胁的创新解决方案方面的变革潜力。

通过注意力头之间的异构上下文分片实现高效的大语言模型培训和服务

分类： 计算和语言

作者： Xihui Lin, Yunan Zhang, Suyu Ge, Barun Patra, Vishrav Chaudhary, Xia Song

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17678v1

摘要： 现有的大语言模型培训和推理框架难以通过稀疏性提高效率，同时保持上下文和模型架构的完整性。受数据库中分片概念以及注意力在加速器上并行化这一事实的启发，我们提出了稀疏分片（S2）注意力，这是一种注意力算法，为不同的注意力头分配异构上下文分区以进行分而治之。 S2-Attention 强制每个注意力头仅关注遵循跨步稀疏模式的上下文分区，而完整上下文则保留为所有分片的并集。由于注意力头是在单独的线程块中处理的，因此每个头的上下文减少可以产生端到端的加速和内存减少。由此推断，使用 S2-Attention 训练的 LLM 可以将 KV 缓存减少视为免费餐，同时保证模型质量。在实验中，我们表明 S2-Attention 可以提供比 FlashAttention-2 高达 (1) 25.3 倍的挂钟注意力加速，从而使端到端训练时间减少 6 倍，推理延迟减少 10 倍，(2) - 与默认注意力相比，模型训练质量达到标准，(3) 32K 上下文窗口上的完美针检索精度。在算法之上，我们构建了 DKernel，这是一个 LLM 训练和推理内核库，允许用户为自己的模型定制稀疏模式。我们开源了 DKerneland，使其与 Megatron、Pytorch 和 vLLM 兼容。

传统方法在预测信用评级方面优于生成式大语言模型

分类： 风险管理, 计算和语言, 一般财务

作者： Felix Drinkall, Janet B. Pierrehumbert, Stefan Zohren

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17624v1

摘要： 大型语言模型 (LLM) 已被证明在许多下游任务中表现良好。转移学习可以使大语言模型获得预培训期间未针对的技能。在金融领域，大语言模型有时可以超越既定的基准。本文研究了大语言模型在预测企业信用评级任务中的表现。我们表明，虽然大语言模型非常擅长编码文本信息，但传统方法在编码数字和多模态数据方面仍然非常有竞争力。对于我们的任务，当前的大语言模型的表现比更传统的 XGBoost 架构更差，后者将基础数据和宏观经济数据与高密度基于文本的嵌入功能相结合。

WildHallucinations：通过现实世界的实体查询评估大语言模型中的长篇事实性

分类： 计算和语言, 人工智能

作者： Wenting Zhao, Tanya Goyal, Yu Ying Chiu, Liwei Jiang, Benjamin Newman, Abhilasha Ravichander, Khyathi Chandu, Ronan Le Bras, Claire Cardie, Yuntian Deng, Yejin Choi

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17468v1

摘要： 虽然大语言模型 (LLM) 的幻觉普遍存在，这是一个重大挑战，但现有的事实性评估基准并未涵盖 LLM 现实世界用户寻求信息的不同知识领域。为了弥补这一差距，我们引入了 WildHallucinations，这是一个评估事实性的基准。它通过提示大语言模型生成有关从用户聊天机器人对话中挖掘的实体的信息来实现这一点。然后，根据从网络搜索收集的系统整理的知识源，自动对这些代进行事实检查。值得注意的是，这些现实世界实体中有一半没有关联的维基百科页面。我们评估了 15 个大语言模型在 7,919 个实体上的 118,785 代。我们发现大语言模型始终对没有维基百科页面的实体产生更多幻觉，并且在不同领域表现出不同的幻觉率。最后，在相同的基础模型下，添加检索组件只能稍微减少幻觉，但不能消除幻觉。

Scalify：用于高效低精度 LLM 训练的尺度传播

分类： 机器学习, 68T07, I.2.7

作者： Paul Balança, Sam Hosegood, Carlo Luschi, Andrew Fitzgibbon

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17353v1

摘要： 机器学习加速硬件中引入了 float8 等低精度格式，以提高大型语言模型训练和推理的计算效率。然而，由于需要匹配更高精度的训练精度所需的复杂且有时脆弱的技术，ML 社区的采用速度已经放缓。在这项工作中，我们提出了 Scalify，一种用于计算图的端到端尺度传播范例，概括并形式化了现有的张量缩放方法。实验结果表明，Scalify 支持开箱即用的 float8 矩阵乘法和梯度表示，以及 float16 优化器状态存储。我们的 Scalify JAX 实现是开源的，位于 https://github.com/graphcore-research/jax-scalify

大语言模型在检测误导性可视化方面有多好（或多坏）？

分类： 人机交互, 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Leo Yu-Ho Lo, Huamin Qu

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17291v1

摘要： 在这项研究中，我们解决了日益严重的误导性图表问题，这是一个破坏信息传播完整性的普遍问题。误导性图表可能会扭曲查看者对数据的看法，导致基于错误信息的误解和决策。开发有效的误导图表自动检测方法是一个紧迫的研究领域。多模态大语言模型 (LLM) 的最新进展为应对这一挑战提供了一个有希望的方向。我们探索了这些模型在分析复杂图表和评估不同提示策略对模型分析的影响方面的能力。我们利用之前研究从互联网上收集的误导性图表数据集，精心制作了从简单到复杂的九个不同的提示，以测试四个不同的多模式大语言模型检测超过 21 个不同图表问题的能力。通过三个实验——从最初的探索到详细的分析——我们逐渐深入了解了如何有效地促使大语言模型识别误导性图表，并制定了策略来解决在我们将检测范围从最初的 5 个问题扩大到 21 个问题时遇到的可扩展性挑战。在最后的实验中。我们的研究结果表明，多模式大语言模型拥有强大的图表理解能力和数据解释批判性思维能力。利用多模式大语言模型通过支持批判性思维和增强可视化素养来对抗误导性信息具有巨大的潜力。这项研究证明了大语言模型在解决误导性图表的紧迫问题方面的适用性。

融合 LLM 和 KG 以进行金融风险蔓延背后的正式因果推理

分类： 计算工程、金融和科学

作者： Guanyuan Yu, Xv Wang, Qing Li, Yu Zhao

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17190v1

摘要： 金融风险有从一个实体蔓延到另一个实体的趋势，最终导致系统性风险。防范此类风险的关键在于了解风险传染背后的因果链。尽管如此，流行的方法主要强调识别风险，忽视了风险的潜在因果分析。为了解决这个问题，我们提出了一种名为 RC2R 的风险传染因果推理模型，该模型利用大型语言模型（LLM）的逻辑推理能力来剖析基于金融知识图谱中嵌入的事实和专家知识的风险传染因果机制（千克）。在数据层面，我们利用金融知识图谱构建因果指令，使大语言模型能够对风险传播进行正式的因果推理，解决大语言模型的“因果鹦鹉”问题。在模型架构方面，我们集成了一个融合模块，该模块通过多尺度对比学习在不同粒度上对齐令牌和节点，然后通过软提示和交叉多头注意机制合并文本和图形结构数据。为了量化风险传染，我们引入了风险路径推断模块，用于计算图中每个节点的风险评分。最后，我们使用桑基图可视化风险传染途径及其强度，并提供详细的因果解释。对金融知识图谱和供应链数据集的综合实验表明，我们的模型在预测性能和分布外（OOD）泛化能力方面优于几种最先进的模型。我们将公开我们的数据集和代码，以鼓励该领域的进一步研究和开发。

SimCT：大语言模型开发生命周期中的简单一致性测试协议

分类： 计算和语言, 软件工程

作者： Fufangchen Zhao, Guoqiang Jin, Rui Zhao, Jiangheng Huang, Fei Tan

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17150v1

摘要： 在这项工作中，我们报告了我们为推进在行业中开发大型语言模型 (LLM) 或基于 LLM 的系统或服务的标准操作流程所做的努力。我们介绍了大型语言模型开发生命周期（LDLC）的概念，然后强调了一致性测试在确保交付质量方面的重要性。然而，一致性检验的原则性解决方案往往被工业界所忽视，在学术界也并不紧迫，目前的实用解决方案不够严谨且劳动强度大。因此，我们提出了一种简单而有效的一致性测试协议，名为 SimCT。 SimCT主要是在不访问模型工件的情况下主动检查“裸机”LLM或相关服务的不同开发阶段的一致性，试图通过减少涉及不同领域的多个团队之间的来回对齐沟通来加快交付速度。发展阶段。具体来说，SimCT 包括响应式测试和模型式测试。我们分别使用 LightGBM 和 Student t 检验对两个组件实施该协议，并进行大量实验来证实 SimCT 和相关组件的有效性。

AI-Gadget Kit：将 Swarm 用户界面与 LLM 驱动的代理集成，以实现丰富的桌面游戏应用程序

分类： 人机交互

作者： Yijie Guo, Zhenhan Huang, Ruhan Wang, Zhihao Yao, Tianyu Yu, Zhiling Xu, Xinyu Zhao, Xueqing Li, Haipeng Mi

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17086v1

摘要： 虽然群体用户界面（SUI）成功地丰富了有形的交互体验，但它们在自主行动规划方面的局限性阻碍了桌面游戏中个性化和动态交互生成的潜力。基于我们开发的AI-Gadget Kit，本文探讨了如何将LLM驱动的代理集成到桌面游戏中，使SUI能够执行复杂的交互任务。定义该套件的设计空间后，我们阐明了设计代理的方法，该代理可以将 SUI 的元动作扩展到复杂的运动规划。此外，我们还引入了一种附加提示方法，简化了桌面游戏中四种交互行为和四种交互关系的设计过程。最后，我们提出了几个应用场景来说明AI-Gadget Kit在SUI桌面游戏中构建个性化交互的潜力。我们希望将我们的工作作为案例研究，以激发对其他具有复杂交互任务的场景的多智能体驱动的 SUI 的研究。

大语言模型生成的技巧与专家创建的技巧相媲美，可帮助学生回答量子计算问题

分类： 人机交互

作者： Lars Krupp, Jonas Bley, Isacco Gobbi, Alexander Geng, Sabine Müller, Sungho Suh, Ali Moghiseh, Arcesio Castaneda Medina, Valeria Bartsch, Artur Widera, Herwig Ott, Paul Lukowicz, Jakob Karolus, Maximilian Kiefer-Emmanouilidis

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.17024v1

摘要： 个别教学是传授知识的最成功的方法之一。然而，由于每个教育者的学生数量较多，这种方法并不总是可行。由于围绕它的炒作，量子计算是面临这个问题的一个主要例子。减轻教师的繁重工作量，通常伴随着个别教学，对于持续高质量的教育至关重要。因此，利用 GPT-4 等大型语言模型 (LLM) 来生成教育内容可能很有价值。我们进行了两项补充研究，探索使用 GPT-4 自动为学生生成提示的可行性。在第一个项目中，学生 (N=46) 在专家创建或大语言模型生成的提示的帮助下解决了四个多项选择量子计算问题。为了纠正对大语言模型可能存在的偏见，我们引入了两个附加条件，使一些参与者相信他们得到的是专家创建的提示，而实际上他们得到的是大语言模型生成的提示，反之亦然。我们的第二项研究 (N=23) 旨在直接比较大语言模型生成的技巧和专家创建的技巧，评估它们的质量、正确性和有用性，有经验丰富的教育工作者和学生参与。我们第二项研究的参与者发现，大语言模型生成的提示比专家创建的提示更有帮助，并且更好地指出相关概念，同时更容易泄露答案。第一项研究的参与者在给出标记为大语言模型生成的提示时，在回答量子计算问题时表现明显更好，即使它们是由专家创建的。这种现象可能是由于参与者对大语言模型生成内容的偏见而引起的安慰剂效应。最终，我们发现大语言模型生成的提示足以在量子计算基础知识中代替专家提示。

SelfPiCo：大语言模型的自我引导部分代码执行

分类： 软件工程

作者： Zhipeng Xue, Zhipeng Gao, Shaohua Wang, Xing Hu, Xin Xia, Shanping Li

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.16974v1

摘要： 代码可执行性在软件调试和测试（例如，检测运行时异常或断言违规）中起着至关重要的作用。然而，由于缺少定义和复杂的第三方依赖关系，代码执行，尤其是部分或任意代码执行，是一项艰巨的任务。为了使部分代码（例如发布在网络上的代码片段或复杂软件项目深处的代码片段）可执行，现有研究提出了一种机器学习模型来预测未定义的元素类型并将预定义的虚拟值注入执行中。然而，由于虚拟值设计简单且无法继续学习，他们的工具的性能受到限制。在本文中，我们设计并实现了一个名为 SelfPiCo（自引导部分代码执行器）的新颖框架，通过将开源 LLM（即 Code Llama）合并到交互式循环中来动态引导部分代码执行。特别是，SelfPiCo 在微调 Code Llama 模型的基础上，利用少样本上下文学习和思维链推理来引出人类知识和逻辑推理。 SelfPiCo 不断从代码执行结果中学习，并一步一步完善其预测。我们的评估表明，SelfPiCo 可以执行开源代码和 Stack Overflow 片段中所有行的 72.7% 和 83.3%，分别比最新最先进的 Lexecutor 快 37.9% 和 33.5%。此外，SelfPiCo 通过执行 8 个 GitHub 软件项目和 43 个 Stack Overflow 帖子的部分代码，成功检测到 18 和 33 个运行时类型错误问题，展示了我们的框架在实践中的实际用法和潜在应用。

从金沙到豪宅：利用大语言模型实现自动全生命周期网络攻击构建

分类： 密码学和安全

作者： Lingzhi Wang, Jiahui Wang, Kyle Jung, Kedar Thiagarajan, Emily Wei, Xiangmin Shen, Yan Chen, Zhenyuan Li

发布时间： 2024-07-24

链接： http://arxiv.org/abs/2407.16928v1

摘要： 网络安全中攻击者和防御者之间的斗争不断升级，使得从攻击者的角度测试和评估防御能力势在必行。然而，构建全生命周期网络攻击和执行红队模拟需要安全专家投入大量时间和领域知识。现有的网络攻击模拟框架面临技术覆盖范围有限、无法进行全生命周期攻击、需要人工搭建基础设施等挑战。这些限制阻碍了所构造攻击的质量和多样性。在本文中，我们利用大型语言模型（LLM）的功能来总结现有攻击情报中的知识，并根据人类知识生成可执行的机器代码。我们提出了 AURORA，一种自动端到端网络攻击构建和仿真框架。 AURORA可以根据网络威胁情报（CTI）报告自主构建多阶段网络攻击计划，构建仿真基础设施并执行攻击程序。我们还开发了一个攻击过程知识图，以整合来自各种来源的高级网络攻击的整个生命周期中有关攻击技术的知识。我们根据现有的 CTI 报告构建并评估了 20 多个全生命周期网络攻击。与之前的攻击模拟框架相比，AURORA可以在几分钟内构建多步攻击和基础设施，而无需人工干预。此外，AURORA以比专业红队更高效的方式将更广泛（多40%）的攻击技术融入到构建的攻击中。为了便于进一步研究，我们开源了包含 20 个模拟网络攻击的执行文件和基础设施的数据集。

ScaleLLM：通过优化端到端效率实现资源节约的 LLM 服务框架

分类： 分布式、并行和集群计算, 机器学习

作者： Yuhang Yao, Han Jin, Alay Dilipbhai Shah, Shanshan Han, Zijian Hu, Yide Ran, Dimitris Stripelis, Zhaozhuo Xu, Salman Avestimehr, Chaoyang He

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2408.00008v1

摘要： 大型语言模型 (LLM) 的受欢迎程度激增，并广泛用于商业应用程序，其中模型服务的效率对于用户体验至关重要。目前大多数研究都集中在优化单个子程序，例如然而，目前还没有一个全面的框架来提供整体系统视图，以端到端的方式优化 LLM 服务。在这项工作中，我们进行了详细的分析，以确定影响 LLM 服务系统端到端延迟的主要瓶颈。我们的分析表明，全面的 LLM 服务端点必须解决超出 LLM 推理范围的一系列效率瓶颈。然后，我们提出了 ScaleLLM，这是一种资源高效的 LLM 服务的优化系统。我们的大量实验表明，在 64 个并发请求的情况下，ScaleLLM 的速度比 vLLM 提高了 4.3 倍，并且吞吐量提高了 1.5 倍，性能优于最先进的技术。

罗马不是一步建成的：基于LLM的芯片设计的分层提示

分类： 硬件架构, 人工智能

作者： Andre Nakkab, Sai Qian Zhang, Ramesh Karri, Siddharth Garg

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.18276v1

摘要： 大型语言模型 (LLM) 通过硬件描述语言 (HDL) 生成在计算机硬件综合中非常有效。然而，LLM 辅助的 HDL 生成方法在处理复杂任务时会遇到困难。我们引入了一套分层提示技术，可促进高效的逐步设计方法，并为该过程开发通用的自动化管道。为了评估这些技术，我们提出了一组基准硬件设计，其中包含具有或不具有架构层次结构的解决方案。使用这些基准，我们比较各种开源和专有的 LLM，包括我们自己微调的 Code Llama-Verilog 模型。我们的分层方法自动为复杂的硬件模块生成标准平面提示方法无法实现的成功设计，从而允许较小的开源大语言模型与大型专有模型竞争。分层提示减少了 HDL 生成时间并节省了 LLM 成本。我们的实验详细说明了哪些大语言模型能够进行哪些应用，以及如何在各种模式下应用分层方法。我们探索使用自动脚本分层提示生成复杂核心的案例研究，包括第一个由大语言模型设计的处理器，无需人工反馈。

CompBench：多模式大语言模型的比较推理基准

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Jihyung Kil, Zheda Mai, Justin Lee, Zihe Wang, Kerrie Cheng, Lemeng Wang, Ye Liu, Arpita Chowdhury, Wei-Lun Chao

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16837v1

摘要： 比较物体、场景或情况的能力对于日常生活中有效决策和解决问题至关重要。例如，比较苹果的新鲜度可以在杂货店购物时做出更好的选择，而比较沙发的设计有助于优化我们的生活空间的美感。尽管比较能力很重要，但它在通用人工智能（AGI）中很大程度上尚未得到探索。在本文中，我们介绍了 CompBench，这是一个旨在评估多模态大语言模型（MLLM）的比较推理能力的基准。 CompBench 通过面向视觉的问题挖掘和配对图像，涵盖相对比较的八个维度：视觉属性、存在、状态、情感、时间性、空间性、数量和质量。我们使用来自不同视觉数据集的元数据和 CLIP 相似度分数来整理大约 40K 图像对的集合。这些图像对涵盖了广泛的视觉领域，包括动物、时尚、运动以及室外和室内场景。这些问题经过精心设计，旨在辨别两个图像之间的相对特征，并由人工注释者进行标记，以确保准确性和相关性。我们使用 CompBench 来评估最新的 MLLM，包括 GPT-4V(ision)、Gemini-Pro 和 LLaVA-1.6。我们的结果揭示了他们的比较能力的显着缺陷。我们相信 CompBench 不仅揭示了这些局限性，而且还为未来增强 MLLM 的比较能力奠定了坚实的基础。

检索增强生成还是长上下文大语言模型？综合研究和混合方法

分类： 计算和语言, 人工智能, 机器学习

作者： Zhuowan Li, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16833v1

摘要： 检索增强生成 (RAG) 一直是大型语言模型 (LLM) 有效处理过长上下文的强大工具。然而，最近的大语言模型（如 Gemini-1.5 和 GPT-4）显示出直接理解长上下文的卓越能力。我们对 RAG 和长背景 (LC) 大语言模型进行了全面比较，旨在发挥两者的优势。我们使用三个最新的大语言模型在各种公共数据集上对 RAG 和 LC 进行基准测试。结果表明，当资源充足时，LC 在平均性能方面始终优于 RAG。然而，RAG 显着降低的成本仍然是一个明显的优势。基于这一观察，我们提出了自路由，这是一种简单而有效的方法，可基于模型自反射将查询路由到 RAG 或 LC。自路由显着降低了计算成本，同时保持了与 LC 相当的性能。我们的研究结果为使用 RAG 和 LC 的大语言模型的长上下文应用提供了指南。

TAMIGO：在高级计算课程中使用大语言模型辅助的 viva 和代码评估为助教提供支持

分类： 人机交互, 计算机与社会

作者： Anishka IIITD, Diksha Sethi, Nipun Gupta, Shikhar Sharma, Srishti Jain, Ujjwal Singhal, Dhruv Kumar

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16805v1

摘要： 大型语言模型 (LLM) 显着改变了教育格局，为学生、教师和助教提供了新工具。本文研究了大语言模型在印度大学分布式系统高级计算课程中协助助教 (TA) 进行 viva 和代码评估的应用。我们开发了 TAMIGO，这是一个基于大语言模型的系统，供助教评估编程作业。对于 viva 评估，助教使用 TAMIGO 生成问题并将这些问题分发给学生进行回答。然后，助教使用 TAMIGO 生成对学生答案的反馈。对于代码评估，助教从学生提交的代码中选择特定的代码块，并将其提供给 TAMIGO，以生成这些代码块的反馈。 TAMIGO 生成的学生答案和代码块反馈被助教用于进一步评估。我们评估 LLM 生成的 viva 问题、模型答案、viva 答案反馈以及学生代码提交反馈的质量。我们的结果表明，当提供足够的上下文和背景信息时，大语言模型可以非常有效地提出活生生的问题。然而，大语言模型对 viva 答案的反馈结果好坏参半；幻觉有时会降低反馈的准确性。尽管如此，反馈还是一致的、建设性的、全面的、平衡的，并没有压垮助教。同样，对于代码提交，大语言模型生成的反馈是建设性的、全面的和平衡的，尽管在将反馈与讲师提供的代码评估标准保持一致方面还有改进的空间。我们的研究结果有助于理解将大语言模型融入教育环境的好处和局限性。

PyBench：在各种实际编码任务上评估 LLM Agent

分类： 软件工程, 人工智能

作者： Yaolun Zhang, Yinxu Pan, Yudong Wang, Jie Cai, Zhi Zheng, Guoyang Zeng, Zhiyuan Liu

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16732v1

摘要： LLM Agent配备代码解释器，能够自动解决现实世界的编码任务，例如数据分析和图像编辑。然而，现有的基准测试要么主要关注简单的任务，例如完成几行代码，要么关注存储库级别的极其复杂和特定的任务，这两者都不能代表各种日常编码任务。为了解决这一差距，我们引入了 \textbf{PyBench}，这是一个涵盖现实世界任务的五个主要类别、涵盖 10 多种文件类型的基准测试。给定高级用户查询和相关文件，LLM Agent 需要通过代码解释器推理并执行 Python 代码几轮，然后才能做出正式响应以满足用户的要求。要成功解决 PyBench 中的任务，需要对各种 Python 包有深入的了解、卓越的推理能力以及合并执行代码反馈的能力。我们的评估表明，当前的开源大语言模型正在努力完成这些任务。因此，我们对四种数据集进行了分析和实验，证明PyBench需要综合能力。我们经过微调的 8B 尺寸模型：\textbf{PyLlama3} 在 PyBench 上实现了令人兴奋的性能，超越了许多 33B 和 70B 尺寸模型。我们的基准、训练数据集和模型位于：\href{https://github.com/Mercury7353/PyBench}{https://github.com/Mercury7353/PyBench}

像教育人类学生一样教育大语言模型：领域知识的结构感知注入

分类： 计算和语言

作者： Kai Liu, Ze Chen, Zhihang Fu, Rongxin Jiang, Fan Zhou, Yaowu Chen, Yue Wu, Jieping Ye

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16724v1

摘要： 本文提出了一种称为 StructTuning 的开创性方法，可有效地将基础大型语言模型 (LLM) 转变为领域专家。它将训练语料库需求显着降低至仅 0.3%，同时实现了令人印象深刻的传统知识注入性能的 50%。我们的方法受到人类学生教育过程的启发，特别是如何吸收课本中的结构化领域知识，然后通过特定的练习来应对现实世界的挑战。基于此，我们提出了一种新颖的两阶段知识注入策略：结构感知持续预训练（SCPT）和结构感知监督微调（SSFT）。在 SCPT 阶段，我们将训练数据组织成自动生成的领域知识分类法，使大语言模型能够有效地记住与分类法架构中的特定专业知识相关的文本片段。随后，在 SSFT 阶段，我们明确提示模型揭示其输出中的底层知识结构，利用这种结构化的领域洞察力来熟练地解决实际问题。我们的最终方法在 LongBench 和 MMedBench 数据集上使用闭卷问答任务，在模型架构和规模上进行了广泛的评估。值得注意的是，我们的方法与 MMedBench 上最先进的 MMedLM2 所显示的改进相匹配，但训练语料库的数量仅为 0.3%。这一突破展示了扩大我们的 StructTuning 规模以实现更强大的特定领域大语言模型的潜力。代码将很快公开。

大语言模型使用修辞学进行语义变化表征

分类： 计算和语言

作者： Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16624v1

摘要： 语言随着社会事件而不断发展，产生新术语和含义的变化。这些变化对计算机应用程序（包括自动翻译和聊天机器人）产生了重大影响，因此准确描述它们的特征至关重要。大语言模型的最新发展显着促进了自然语言理解，特别是在意义推理和推理方面。在本文中，我们研究了大语言模型在描述三种类型的语义变化方面的潜力：维度、关系和方向。我们通过将大语言模型的思想链与修辞手段相结合，并使用新创建的数据集对我们的方法进行实验评估来实现这一目标。我们的结果凸显了大语言模型在捕获和分析语义变化方面的有效性，为改进计算语言应用提供了宝贵的见解。

共同的想象力：大语言模型的幻觉相似

分类： 计算和语言

作者： Yilun Zhou, Caiming Xiong, Silvio Savarese, Chien-Sheng Wu

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16604v1

摘要： 尽管大型语言模型（LLM）最近激增，但它们的训练方法——模型架构、预训练数据和优化算法——通常非常相似。这自然会引发所得模型之间相似性的问题。在本文中，我们提出了一种新颖的设置，即想象问答（IQA），以更好地理解模型相似性。在 IQA 中，我们要求一个模型生成纯粹想象的问题（例如，关于物理学中完全虚构的概念）并提示另一个模型回答。令人惊讶的是，尽管这些问题完全是虚构的，但所有模型都可以非常成功地回答彼此的问题，这表明这些模型在这种幻觉期间运作的“共享想象空间”。我们对这种现象进行了一系列调查，并讨论了对模型同质性、幻觉和计算创造力的影响。

探索大语言模型时代的自动加密 API 滥用检测

分类： 密码学和安全

作者： Yifan Xia, Zichen Xie, Peiyu Liu, Kangjie Lu, Yan Liu, Wenhai Wang, Shouling Ji

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16576v1

摘要： 虽然加密 API 滥用的自动检测已经取得了显着进展，但由于依赖于手动定义的模式，其对于复杂目标的精度会降低。大型语言模型（LLM）以其上下文理解而闻名，为解决现有缺陷提供了一条有前途的途径。然而，在这个安全关键领域应用大语言模型面临着挑战，特别是由于大语言模型的随机性和众所周知的幻觉问题导致的不可靠性。为了探索大语言模型不可靠分析的普遍性和潜在的解决方案，本文引入了一个系统的评估框架来评估大语言模型在检测密码滥用方面的能力，利用涵盖手工制作的样本和现实世界项目的综合数据集。我们对 11,940 份 LLM 生成的报告进行了深入分析，结果表明 LLM 固有的不稳定性可能导致超过一半的报告出现误报。尽管如此，我们还是证明了有限的问题范围与大语言模型的自我纠正能力如何显着提高检测的可靠性。优化后的方法实现了近 90% 的显着检测率，超越了传统方法，并发现了既定基准中以前未知的滥用情况。此外，我们还确定了持续阻碍大语言模型可靠性的故障模式，包括密码知识缺乏和代码语义误解。在这些见解的指导下，我们开发了一个基于 LLM 的工作流程来检查开源存储库，最终发现了 63 种现实世界的密码滥用情况。其中，46 个已得到开发社区的认可，其中 23 个目前正在处理，6 个已解决。根据开发人员的反馈，我们为基于 LLM 的安全工具的未来研究和开发提供建议。

修补 RTC：评估大语言模型的不同软件开发任务

分类： 软件工程, 人工智能

作者： Asankhaya Sharma

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16557v1

摘要： 本文介绍了修补往返正确性 (Patched RTC)，这是一种适用于各种软件开发任务的大型语言模型 (LLM) 的新型评估技术，特别关注“外循环”活动，例如错误修复、代码审查和文档更新。修补的 RTC 扩展了原始的往返正确性方法，可用于任何 LLM 和下游任务，提供一个自我评估框架，无需人工干预即可测量模型响应的一致性和鲁棒性。该研究证明了补丁 RTC 分数与特定任务的准确性指标之间的相关性，将其作为开放领域任务评估的 LLM-as-Judge 范式的替代方案。我们在一个名为 patchwork 的开源框架中实现了 Patched RTC，允许在跨各种补丁流的推理过程中进行透明评估。对不同软件开发任务中的 GPT-3.5 和 GPT-4 模型进行比较的实验表明，Patched RTC 可以有效地区分模型性能和任务难度。该论文还探讨了一致性提示对提高模型准确性的影响，表明 Patched RTC 可以指导复杂软件开发工作流程的提示细化和模型选择。

通过结构化增强大语言模型的认知

分类： 计算和语言

作者： Kai Liu, Zhihang Fu, Chao Chen, Wei Zhang, Rongxin Jiang, Fan Zhou, Yaowu Chen, Yue Wu, Jieping Ye

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16434v1

摘要： 当阅读长文本时，人类的认知是复杂且结构化的。虽然大型语言模型 (LLM) 通过因果和顺序的角度处理输入上下文，但这种方法可能会限制它们有效处理错综复杂的输入的能力。为了增强大语言模型的认知能力，本文提出了一种新的情境结构化概念。具体来说，我们将简单的、无序的上下文句子转换为有序且层次结构的元素。通过这样做，大语言模型可以通过沿着有组织的结构进行精确的关注和信息搜索，更好地掌握复杂和扩展的背景。针对各种 NLP 任务（例如，基于上下文的问答、详尽的问答），对各种模型架构和大小（包括多个 7B 到 72B 大小的自回归 LLM 以及类似 BERT 的掩蔽模型）进行了广泛的评估。幻觉评估和段落级密集检索）。实证结果表明单轮结构化可带来一致且显着的性能提升。特别是，我们增强了 72B 参数开源模型，以实现与作为幻觉评估器的 GPT-3.5-Turbo 相当的性能。此外，我们展示了将高级大语言模型的语言处理能力提炼为更小但有效的 StruXGPT-7B 来执行结构化的可行性，从而解决了我们方法的实用性。代码将很快公开。

基于LLM的ASR后纠错的进化提示设计

分类： 计算和语言, 声音, 音频和语音处理

作者： Rithik Sachdev, Zhong-Qiu Wang, Chao-Han Huck Yang

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16370v1

摘要： 建立在现代大语言模型 (LLM) 的基础上，生成纠错 (GEC) 已成为一种有前景的范式，可以提升现代自动语音识别 (ASR) 系统的性能。一种代表性的方法是利用情境学习来提示大语言模型，以便大语言模型可以根据精心设计的提示和 ASR 系统生成的 $N$ 最佳假设列表生成更好的假设。然而，目前尚不清楚现有的提示是否是 ASR 后纠错任务最有效的提示。在此背景下，本文首先探索替代提示来识别初始有效提示集，然后提出采用进化提示优化算法来细化初始提示。对 SLT $2024$ GenSEC 挑战任务 $1$ 的 CHiME-4 子集的评估结果显示了所提出算法的有效性和潜力。

PhenoFlow：人类大语言模型驱动的视觉分析系统，用于探索大型和复杂的中风数据集

分类： 人机交互, 人工智能

作者： Jaeyoung Kim, Sihyeon Lee, Hyeon Jeon, Keon-Joo Lee, Hee-Joon Bae, Bohyoung Kim, Jinwook Seo

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16329v1

摘要： 急性中风需要及时诊断和治疗，以实现最佳的患者治疗效果。然而，与急性中风相关的临床数据，特别是血压（BP）测量的复杂性和不规则性，给有效的视觉分析和决策带来了巨大障碍。通过与经验丰富的神经科医生长达一年的合作，我们开发了 PhenoFlow，这是一种视觉分析系统，利用人类和大语言模型 (LLM) 之间的协作来分析急性缺血性中风患者的广泛而复杂的数据。 PhenoFlow 开创了一种创新的工作流程，其中大语言模型充当数据管理员，而神经学家则使用可视化和自然语言交互来探索和监督输出。这种方法使神经科医生能够更加专注于决策，同时减少认知负荷。为了保护敏感的患者信息，PhenoFlow 仅利用元数据进行推理并合成可执行代码，而不访问原始患者数据。这确保了结果的可重复性和可解释性，同时维护了患者的隐私。该系统采用切片包裹设计，利用时间折叠来创建重叠的圆形可视化。与线性条形图相结合，该设计有助于探索不规则测量的血压数据中有意义的模式。通过案例研究，PhenoFlow 证明了其支持对广泛临床数据集进行迭代分析的能力，减少认知负荷并使神经科医生能够做出明智的决策。基于与领域专家的长期合作，我们的研究证明了利用大语言模型来应对急性缺血性中风患者数据驱动的临床决策中当前挑战的潜力。

PrimeGuard：通过免调整路由实现安全且有用的大语言模型

分类： 人工智能, 计算和语言, 密码学和安全, 软件工程

作者： Blazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16318v1

摘要： 部署语言模型 (LM) 要求输出既高质量又符合安全准则。尽管推理时间护栏（ITG）提供了将模型输出分布转向合规性的解决方案，但我们发现当前的方法在平衡安全性和有用性方面存在困难。安全地解决不合规查询的 ITG 方法表现出较低的有用性，而那些优先考虑有用性的方法会损害安全性。我们将这种权衡称为护栏税，类似于对齐税。为了解决这个问题，我们提出了 PrimeGuard，这是一种利用结构化控制流的新颖 ITG 方法。 PrimeGuard 利用其固有的指令跟踪功能和上下文学习，将请求路由到具有不同指令的 LM 的不同自实例。我们的免调优方法为每个查询动态编译系统设计指南。我们构建并发布了 safe-eval，一个多样化的红队安全基准。广泛的评估表明，PrimeGuard 在不进行微调的情况下，通过以下方式克服了护栏税：(1) 显着提高对迭代越狱攻击的抵抗力，(2) 在安全护栏方面取得了最先进的结果，同时 (3) 匹配的有用性分数对齐调整模型。广泛的评估表明，PrimeGuard 在不进行微调的情况下，优于所有竞争基准，并通过将最大模型的安全响应比例从 61% 提高到 97%，并将平均帮助分数从 4.17 提高到 4.29，克服了护栏税，同时减少了攻击成功率从100%降到8%。 PrimeGuard 实现可在 https://github.com/dynamofl/PrimeGuard 获取，safe-eval 数据集可在 https://huggingface.co/datasets/dynamoai/safe_eval 获取。

更深入地了解大语言模型的深度修剪

分类： 机器学习, 人工智能

作者： Shoaib Ahmed Siddiqui, Xin Dong, Greg Heinrich, Thomas Breuel, Jan Kautz, David Krueger, Pavlo Molchanov

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16286v1

摘要： 大型语言模型 (LLM) 的训练不仅需要大量资源，而且在生产中部署成本更高。因此，最近的工作尝试基于廉价代理来修剪 LLM 块，以估计块重要性，有效地删除训练有素的 LLaMa-2 和 Mistral 7b 模型中 10% 的块，而不会显着降低下游指标。在本文中，除了先前工作中探索的静态指标之外，我们还通过考虑 Shapley 值等自适应指标来探索不同的块重要性指标。我们表明，自适应指标表现出任务之间性能的权衡，即，由于计算块影响的差异，一项任务的改进可能会降低另一项任务的性能。此外，我们将此分析从完整的块扩展到单个自注意力和前馈层，强调自注意力层更容易修改剪枝的倾向，甚至允许删除高达 33% 的自注意力层不会导致 Mistral 7b 的 MMLU 性能下降（显着减少昂贵的 KV 缓存维护成本）。最后，我们研究简单的性能恢复技术，通过训练轻量级附加偏差或低秩线性适配器来模拟修剪层。使用模拟更新的性能恢复可避免初始块的性能下降（MMLU 的绝对改进高达 5%），这与基于学习的技术相比具有竞争力或优于基于学习的技术。

LawLuo：大语言模型代理共同经营的中国律师事务所

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, I.2.1

作者： Jingyun Sun, Chengxiao Dai, Zhongze Luo, Yangbo Chang, Yang Li

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16252v1

摘要： 大语言模型 (LLM) 凭借其卓越的文本理解和生成能力，在向没有法律背景的用户提供法律咨询服务方面展现出了巨大的潜力。尽管如此，现有的中国法律大语言模型将互动仅限于单一模型-用户对话，这与律师事务所典型的协作咨询不同，在律师事务所中，多名工作人员参与一次咨询。这种限制阻碍了真实的咨询体验。此外，中国现有的法律大语言模型还面临着严重的局限性：（1）对教学微调数据质量的控制不足；（2）用户模糊查询导致的模型幻觉增加； (3) 模型在多次对话中遵循指令的能力降低。为了应对这些挑战，我们提出了一种新颖的法律对话框架，该框架利用多个大语言模型代理人的协作能力，称为LawLuo。该框架包含四个代理：接待员、律师、秘书和老板，每个代理负责不同的功能，协同为用户提供全面的法律咨询。此外，我们构建了两个高质量的法律对话数据集 KINLED 和 MURLED，并使用这些数据集对 ChatGLM-3-6b 进行了微调。我们提出了一种称为 ToLC 的合法查询澄清算法。实验结果表明，LawLuo 在三个维度上优于包括 GPT-4 在内的基线大语言模型：律师般的语言风格、法律建议的有用性以及法律知识的准确性。我们的代码和数据集可在 https://github.com/NEFUJing/LawLuo 获取。

LLM 知道什么时候不回答吗？研究大型语言模型的放弃能力

分类： 计算和语言

作者： Nishanth Madhusudhan, Sathwik Tejaswi Madhusudhan, Vikas Yadav, Masoud Hashemi

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16221v1

摘要： 随着大型语言模型 (LLM) 在各种 NLP 任务中取得出色的性能，其可靠性对于广泛采用至关重要。本文重点讨论弃权能力（AA），这是可靠性的一个关键但尚未被探索的方面 - 大语言模型在不确定或不可能给出明确答案时避免回答问题的能力，同时保持问答（QA）任务表现。虽然以前的工作重点是了解大语言模型的记忆能力或识别无法估量/无法回答的问题的能力，但我们认为需要一种有效的 AA 评估方法。因此，我们提出了一种黑盒评估方法来检查和理解大语言模型在各种多项选择问答任务中的AA。我们通过奖励模型来衡量 AA，当模型的预测不正确或问题本质上无法回答时，模型就放弃回答。我们研究了严格提示、口头置信度阈值和思维链 (CoT) 三种策略，以了解它们对不同大语言模型弃权的影响。我们的研究结果表明，虽然即使是像 GPT-4 这样最先进的大语言模型也会在弃权方面挣扎，但 CoT 等战略提示可以显着增强这种能力。此外，我们证明改进 AA 还可以提高整体 QA 任务绩效，强调了大语言模型中评估 AA 的重要性。

LLM 对齐技术的全面调查：RLHF、RLAIF、PPO、DPO 等

分类： 计算和语言

作者： Zhichao Wang, Bin Bi, Shiva Kumar Pentyala, Kiran Ramnath, Sougata Chaudhuri, Shubham Mehrotra, Zixu, Zhu, Xiang-Bo Mao, Sitaram Asur, Na, Cheng

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16216v1

摘要： 随着自监督学习的进步、预训练语料库中数万亿代币的可用性、指令微调以及具有数十亿参数的大型 Transformer 的开发，大型语言模型 (LLM) 现在能够生成事实且连贯的语言对人类询问的回应。然而，训练数据的质量参差不齐可能会导致产生不良响应，从而带来重大挑战。在过去的两年里，人们从不同的角度提出了各种方法来增强大语言模型，特别是使其与人类期望保持一致。尽管做出了这些努力，但还没有一份全面的调查论文对这些方法进行分类和详细说明。在这项工作中，我们的目标是通过将这些论文分类为不同的主题并提供每种对齐方法的详细解释来解决这一差距，从而帮助读者全面了解该领域的当前状态。

CHIME：大语言模型协助的文献综述支持科学研究的分层组织

分类： 计算和语言

作者： Chao-Chun Hsu, Erin Bransom, Jenna Sparks, Bailey Kuehl, Chenhao Tan, David Wadden, Lucy Lu Wang, Aakanksha Naik

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16148v1

摘要： 文献综述需要研究人员综合大量信息，并且随着科学文献的扩展而变得越来越具有挑战性。在这项工作中，我们调查了大语言模型在产生科学研究分层组织以协助研究人员进行文献综述方面的潜力。我们将分层组织定义为树结构，其中节点指主题类别，每个节点都链接到分配给该类别的研究。我们基于 LLM 的天真管道从一组研究中生成层次结构，产生了有希望但不完美的层次结构，这激励我们收集 CHIME，这是一个针对生物医学任务的专家策划的数据集。考虑到从头开始构建层次结构的挑战性和耗时性，我们使用人机交互流程，由专家纠正大语言模型生成的层次结构中的错误（类别和研究作业之间的链接）。 CHIME 包含 2,174 个 LLM 生成的层次结构，涵盖 472 个主题，以及针对 100 个主题子集的专家更正的层次结构。专家更正使我们能够量化大语言模型的表现，我们发现，虽然他们非常擅长生成和组织类别，但他们对类别的研究分配还可以改进。我们尝试使用人类反馈来训练校正器模型，从而将研究作业提高 12.6 F1 分。我们发布数据集和模型，以鼓励研究开发更好的文献综述辅助工具。

让大语言模型为企业数据任务服务

分类： 数据库, 人工智能, 机器学习

作者： Çağatay Demiralp, Fabian Wenz, Peter Baile Chen, Moe Kayali, Nesime Tatbul, Michael Stonebraker

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.20256v1

摘要： 大型语言模型（LLM）对私有数据生态系统中的企业数据库表知之甚少，这些表在结构和内容上与网络文本有很大不同。由于大语言模型的表现与其培训数据相关，因此一个关键问题是它们在改进企业数据库管理和分析任务方面能发挥多大作用。为了解决这个问题，我们提供了大语言模型在企业数据集上的文本到 SQL 和语义列类型检测任务的性能实验结果。大语言模型在企业数据上的表现明显低于常用的基准数据集。根据我们的发现和行业从业者的反馈，我们确定了三个基本挑战——延迟、成本和质量——并提出了在企业数据工作流程中有效使用大语言模型的潜在解决方案。

增强大语言模型对半结构化表的时间理解

分类： 计算和语言, 人工智能, 数据库, 机器学习

作者： Irwin Deng, Kushagra Dixit, Vivek Gupta, Dan Roth

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.16030v1

摘要： 最近的研究证明，表格数据的时间推理给大型语言模型 (LLM) 带来了巨大的挑战。在这项研究中，我们对时间数据集进行了全面分析，以查明大语言模型的具体局限性。我们的调查导致了 TempTabQA 的增强，这是一个专门为表格时间问答而设计的数据集。我们为提高 LLM 在使用表格数据的时间推理任务中的性能提供了重要的见解。此外，我们引入了一种新方法 C.L.E.A.R 来增强该领域的大语言模型能力。我们的研究结果表明，我们的方法显着改善了各种模型的基于证据的推理。此外，我们的实验结果表明，使用辅助数据进行间接监督可以显着提高这些任务中的模型性能。这项工作有助于更深入地了解大语言模型对表格数据的时间推理能力，并促进其在不同领域的应用的进步。

通过 Chain-of-Sight 加速多模式大语言模型的预训练

分类： 计算机视觉和模式识别

作者： Ziyuan Huang, Kaixiang Ji, Biao Gong, Zhiwu Qing, Qinglong Zhang, Kecheng Zheng, Jian Wang, Jingdong Chen, Ming Yang

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15819v1

摘要： 本文介绍了 Chain-of-Sight，这是一种视觉语言桥梁模块，可加速多模态大型语言模型 (MLLM) 的预训练。我们的方法采用一系列视觉重采样器来捕获各种空间尺度的视觉细节。该架构不仅有效地利用全局和局部视觉上下文，而且还通过复合令牌缩放策略促进视觉令牌的灵活扩展，允许预训练后令牌数量增加高达 16 倍。因此，与微调阶段相比，视觉链在预训练阶段需要的视觉标记要少得多。在预训练期间有意减少视觉标记显着加快了预训练过程，将挂钟训练时间减少了约 73%。一系列视觉语言基准的实证结果表明，通过视觉链实现训练前加速，无需牺牲性能，匹配或超越在整个训练过程中利用所有视觉标记的标准流程。进一步扩大预训练的视觉标记数量会带来更强的性能，在一系列基准测试中与现有方法相比具有竞争力。

从财经新闻中提取结构化见解：增强大语言模型驱动的方法

分类： 计算和语言, I.2.7

作者： Rian Dolphin, Joe Dursun, Jonathan Chow, Jarrett Blankenship, Katie Adams, Quinton Pike

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15788v1

摘要： 财经新闻在整个金融部门的决策过程中发挥着至关重要的作用，但将这些信息有效地处理成结构化格式仍然具有挑战性。本文提出了一种新颖的财经新闻处理方法，该方法利用大型语言模型 (LLM) 来克服以前无法从非结构化财经新闻中提取结构化数据的限制。我们引入了一个系统，该系统可以从原始新闻文章内容中提取相关的公司股票代码，在公司级别执行情绪分析并生成摘要，所有这些都无需依赖预先结构化的数据源。我们的方法将大语言模型的生成能力和最新的提示技术与使用定制字符串相似性方法的强大验证框架相结合。对 5530 篇财经新闻文章数据集的评估证明了我们方法的有效性，与当前数据提供商相比，90% 的文章没有丢失任何代码，22% 的文章具有额外的相关代码。除了本文之外，该方法还已大规模实施，处理后的数据可通过实时 API 端点获取，并根据最新新闻实时更新。据我们所知，我们是第一家根据新闻文章提供精细的、每家公司情绪分析的数据提供商，从而增强了市场参与者可获得的信息的深度。我们还将 5530 篇处理过的文章的评估数据集作为静态文件发布，我们希望这将有助于利用财经新闻进行进一步的研究。

通过大语言模型援助支持老年人的数字自主

分类： 人机交互, 计算和语言

作者： Jesse Roberts, Lindsey Roberts, Alice Reed

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15695v1

摘要： 互联网提供了大量的服务、社交联系和所需产品。然而，对于那些没有足够经验的人来说，由于诈骗者和小偷的危险始终存在，更不用说无数潜在的计算机病毒了，通过互联网与企业和朋友打交道可能会令人畏惧。就像一片森林，既有可食用的植物，也有有毒的植物，熟悉规范的人可以安全自在地居住，而新来者则需要指导。然而，依赖人工数字指南可能会很费力，而且往往不切实际。我们提出并试点了一个简单但未经探索的想法：大语言模型能否提供必要的支持，帮助因数字鸿沟而分离的老年人安全地实现数字自治？

反图灵测试（$CT^2$）：研究人工智能生成的印地语文本检测——根据印地语人工智能可检测性指数对大语言模型进行排名（$ADI_{hi}$）

分类： 计算和语言

作者： Ishan Kavathekar, Anku Rani, Ashmit Chamoli, Ponnurangam Kumaraguru, Amit Sheth, Amitava Das

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15694v1

摘要： 大语言模型 (LLM) 的广泛采用以及对多语言 LLM 的认识引起了人们对人工智能生成文本的误用所带来的潜在风险和影响的担忧，需要提高警惕。虽然这些模型主要针对英语进行训练，但它们对几乎覆盖整个网络的大量数据集进行了广泛的训练，使它们具备在许多其他语言中表现良好的能力。人工智能生成的文本检测（AGTD）已经成为一个在研究中立即受到关注的话题，一些初步的方法已经被提出，随后很快出现了绕过检测的技术。在本文中，我们报告了对印度语印地语 AGTD 的调查。我们的主要贡最近提出的 AGTD 技术：ConDA、J-Guard、RADAR、RAIDAR 和用于检测 AI 生成的印地语文本的内在维度估计，iv) 提出的印地语 AI 可检测性指数 ($ADI_{hi}$)，它显示了理解不断变化的景观的频谱人工智能生成的印地语文本的口才。我们将提供代码和数据集以鼓励进一步的研究。

vTensor：灵活的虚拟张量管理，实现高效的 LLM 服务

分类： 分布式、并行和集群计算, 机器学习

作者： Jiale Xu, Rui Zhang, Cong Guo, Weiming Hu, Zihan Liu, Feiyang Wu, Yu Feng, Shixuan Sun, Changxu Shao, Yuhong Guo, Junping Zhao, Ke Zhang, Minyi Guo, Jingwen Leng

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15309v1

摘要： 大型语言模型 (LLM) 广泛应用于各个领域，每天处理数百万个请求。需求的激增对优化吞吐量和延迟同时保持成本可控提出了重大挑战。键值 (KV) 缓存是保留先前计算的标准方法，使 LLM 推理高度受内存限制。虽然批处理策略可以提高性能，但它们经常会导致严重的内存碎片。尽管像 vLLM 这样的尖端系统使用分页注意力机制来减轻 KV 缓存碎片，但由于页面管理和计算内核紧密耦合，它们仍然面临内存和计算操作效率低下的问题。本研究介绍了 vTensor，这是一种基于 GPU 虚拟内存管理 (VMM) 的 LLM 推理的创新张量结构。 vTensor 通过将计算与内存碎片整理解耦并提供动态可扩展性来解决现有限制。我们的框架采用 CPU-GPU 异构方法，确保高效、无碎片的内存管理，同时适应不同 LLM 架构的各种计算内核。实验结果表明，vTensor 在不同模型上平均加速为 1.86 倍，在多轮聊天场景中最高可达 2.42 倍。此外，与 SGLang Triton 前缀预填充内核和 vLLM 分页注意力内核相比，vTensor 在内核评估方面的平均加速分别为 2.12 倍和 3.15 倍，分别达到 3.92 倍和 3.27 倍。此外，与 vLLM 相比，它在 NVIDIA A100 GPU 上释放了大约 71.25% (57GB) 的内存，从而支持更多内存密集型工作负载。

有针对性的潜在对抗训练提高了大语言模型对持续有害行为的鲁棒性

分类： 机器学习, 人工智能, 计算和语言

作者： Abhay Sheshadri, Aidan Ewart, Phillip Guo, Aengus Lynch, Cindy Wu, Vivek Hebbar, Henry Sleight, Asa Cooper Stickland, Ethan Perez, Dylan Hadfield-Menell, Stephen Casper

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15549v1

摘要： 大型语言模型 (LLM) 通常可能会以不良方式运行，但它们已明确进行了微调，以避免出现这种情况。例如，大语言模型红队文献产生了各种各样的“越狱”技术，从经过微调的模型中提取出有害文本，这些文本经过微调后无害。最近关于红队、模型编辑和可解释性的研究表明，这一挑战源于（对抗性）微调如何在很大程度上抑制而不是消除大语言模型的不良能力。之前的工作引入了潜在对抗训练（LAT）作为提高对广泛故障类别的鲁棒性的一种方法。这些先前的工作考虑了无针对性的潜在空间攻击，其中对手扰乱潜在激活以最大化期望行为示例的损失。无目标 LAT 可以提供通用类型的稳健性，但不利用有关特定故障模式的信息。在这里，我们尝试了有针对性的 LAT，其中对手寻求最小化特定竞争任务的损失。我们发现它可以增强多种最先进的方法。首先，我们使用有针对性的 LAT 来提高越狱的稳健性，以少几个数量级的计算量超越强大的 R2D2 基线。其次，我们使用它来更有效地删除后门，而无需了解触发器。最后，我们用它来更有效地忘记特定不需要的任务的知识，这种方式也更适合重新学习。总的来说，我们的结果表明，有针对性的 LAT 可以成为防范大语言模型有害行为的有效工具。

剖析 Transformer 中的乘法：LLM 见解

分类： 计算和语言

作者： Luyu Qiu, Jianing Li, Chi Su, Chen Jason Zhang, Lei Chen

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15360v1

摘要： 基于 Transformer 的大语言模型在各种自然语言处理任务中取得了卓越的性能。然而，尽管他们拥有巨大的能力，但他们经常难以完成算术等看似简单的任务。这种明显的差异引起了人们对其安全和道德使用的担忧，阻碍了它们的广泛采用。在本文中，我们关注一个典型的算术任务——整数乘法，来探索和解释 Transformer 在这个领域的缺陷。我们对经过训练以执行 n 位整数乘法的普通变压器进行了全面分析。我们的观察表明，该模型将乘法任务分解为多个并行的子任务，依次优化每个数字的每个子任务以完成最终的乘法。基于观察和分析，我们推断Transformer在乘法任务中的缺陷在于其难以计算连续的结转和缓存中间结果，并通过实验证实了这一推论。在这些发现的指导下，我们提出了改进措施，以提高 Transformer 在乘法任务上的性能。这些增强功能经过严格的测试和数学建模验证，不仅增强了 Transformer 的可解释性，还提高了其性能，例如，我们使用微型 Transformer 在 5 位整数乘法上实现了超过 99.9% 的准确率，优于 LLM GPT-4。我们的方法有助于更广泛的模型理解和可解释性领域，为分析更复杂的任务和 Transformer 模型铺平道路。这项工作强调了可解释人工智能的重要性，有助于建立对大型语言模型的信任并促进其在关键应用程序中的采用。

AutoVCoder：使用 LLM 自动生成 Verilog 代码的系统框架

分类： 硬件架构, 人工智能

作者： Mingzhe Gao, Jieru Zhao, Zhe Lin, Wenchao Ding, Xiaofeng Hou, Yu Feng, Chao Li, Minyi Guo

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.18333v1

摘要： 最近，使用大型语言模型 (LLM) 进行软件代码生成（例如 C/C++ 和 Python）已被证明取得了巨大成功。然而，在生成寄存器传输级 (RTL) 代码（例如 Verilog）时，LLM 仍然存在语法和功能正确性较低的问题。为了解决这个问题，在本文中，我们开发了AutoVCoder，一个系统的开源框架，它显着提高了大语言模型生成Verilog代码的正确性，同时提高了其输出的质量。我们的框架集成了三种新颖的技术，包括高质量的硬件数据集生成方法、两轮LLM微调方法和特定领域的检索增强生成（RAG）机制。实验结果表明，AutoVCoder 在 Verilog 代码生成方面优于工业和学术大语言模型。具体来说，与 BetterV 相比，AutoVCoder 在 EvalMachine 和 EvalHuman 基准测试中的功能正确性分别提高了 0.5% 和 2.2%，并且与 RTLCoder 相比，在 RTLLM 基准测试中语法正确性提高了 3.4%，功能正确性提高了 3.4%。

SynCPKL：利用大语言模型生成用于常识人物知识链接的综合数据

分类： 计算和语言

作者： Kuan-Yen Lin

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15281v1

摘要： 理解丰富的对话通常需要 NLP 系统访问相关的常识性角色知识，但由于复杂的上下文和常识的隐性性质，检索这些知识具有挑战性。本文介绍了我们应对常识角色知识链接（CPKL）挑战的方法，解决了在开放域对话系统中集成角色和常识知识的关键需求。我们引入了 SynCPKL Pipeline，该管道利用大型语言模型生成高质量的合成数据集，用于训练常识角色知识链接器。为了证明我们方法的有效性，我们提出了 SynCPKL，这是一个专门为此任务设计的新数据集。我们的实验验证了 SynCPKL 在训练常识角色知识链接器方面的有效性。此外，我们表现最好的模型 Derberta-SynCPKL 在 CPKL 挑战中以 F1 分数提高 16% 获得第一名。我们在 https://github.com/irislin1006/CPKL 上发布了 SynCPKL 和 Derberta-SynCPKL。

XAI 遇见大语言模型：可解释人工智能与大型语言模型之间关系的调查

分类： 计算和语言

作者： Erik Cambria, Lorenzo Malandri, Fabio Mercorio, Navid Nobani, Andrea Seveso

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15248v1

摘要： 在本次调查中，我们解决了大型语言模型 (LLM) 研究中的关键挑战，重点关注可解释性的重要性。在人工智能和商业领域日益增长的兴趣的推动下，我们强调大语言模型透明度的必要性。我们研究了当前大语言模型研究和可解释人工智能 (XAI) 的双重路径：通过 XAI 提高性能以及对模型可解释性的新兴关注。我们的论文倡导一种平衡的方法，同等重视可解释性和功能进步。认识到大语言模型研究的快速发展，我们的调查包括同行评审和预印本 (arXiv) 论文，全面概述了 XAI 在大语言模型研究中的作用。最后，我们敦促研究界共同推进 LLM 和 XAI 领域的发展。

BIGbench：基于多模态 LLM 的文本到图像生成模型中社会偏差的统一基准

分类： 计算机视觉和模式识别

作者： Hanjun Luo, Haoyu Huang, Ziye Deng, Xuecheng Liu, Ruizhe Chen, Zuozhu Liu

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15240v1

摘要： 文本到图像（T2I）生成模型在生成复杂和高质量图像的能力方面变得越来越重要，这也引起了人们对其输出中的社会偏见的担忧，尤其是在人类生成中。社会学研究已经建立了偏见的系统分类；然而，现有的 T2I 模型研究经常混淆不同类型的偏差，阻碍了这些方法的进展。在本文中，我们介绍了 BIGbench，这是一个具有精心设计的数据集的图像生成偏差的统一基准。与现有基准相比，BIGbench 将复杂偏差分为四个维度进行分类和评估：偏差的表现、偏差的可见性、获得的属性和受保护的属性。此外，BIGbench应用先进的多模态大语言模型（MLLM），在保持高精度的同时实现全自动评估。我们应用 BIGbench 来评估最近的八种通用 T2I 模型和三种去偏方法。我们还进行了人工评估，其结果证明了 BIGbench 在对齐图像和识别各种偏差方面的有效性。此外，我们的研究还揭示了有关偏差的新研究方向，包括不相关受保护属性的副作用和蒸馏。我们的数据集和基准可供研究界公开访问，以确保可重复性。

解码多语言道德偏好：通过道德机器实验揭示大语言模型的偏见

分类： 计算机与社会, 人工智能, 计算和语言

作者： Karina Vida, Fabian Damken, Anne Lauscher

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15184v1

摘要： 大型语言模型（LLM）越来越多地进入我们日常生活中最多样化的领域。它们通过日常使用间接影响人们的决定或意见。因此，了解这些大语言模型如何做出道德判断以及做出哪些道德判断至关重要。然而，道德并不是普遍存在的，而是取决于文化背景。这就提出了一个问题：当用不同语言进行提示时，这些文化偏好是否也反映在大语言模型中，或者不同语言之间的道德决策是否一致。到目前为止，大多数研究都集中在调查英语大语言模型的内在价值。虽然有一些著作在多语言环境下对大语言模型的道德偏见进行了多语言分析，但这些分析并没有超出原子行动的范围。据我们所知，尚未对困境中的道德偏见进行多语言分析。为了解决这个问题，我们的论文以道德机器实验（MME）为基础，研究了五位大语言模型（Falcon、Gemini、Llama、GPT 和 MPT）在多语言环境中的道德偏好，并将它们与从属于以下类别的人类收集的偏好进行比较：不同的文化。为了实现这一目标，我们生成了 6500 个 MME 场景，并以 10 种语言提示模型要采取的操作。我们的分析表明，所有大语言模型都在某种程度上抑制了不同的道德偏见，它们不仅与人类的偏好不同，而且在模型本身中也跨越了多种语言。此外，我们发现几乎所有模型，尤其是 Llama 3，都极大地偏离了人类价值观，例如，宁愿拯救更少的人，也不愿拯救更多的人。

用于化学反应条件推荐的文本增强多模式大语言模型

分类： 人工智能, 机器学习, 化学物理

作者： Yu Zhang, Ruijie Yu, Kaipeng Zeng, Ding Li, Feng Zhu, Xiaokang Yang, Yaohui Jin, Yanyan Xu

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15141v1

摘要： 高通量反应条件（RC）筛选是化学合成的基础。然而，当前的 RC 筛选面临着费力且成本高昂的试错工作流程。由于数据稀疏和反应表征不充分，传统的计算机辅助合成规划（CASP）工具无法找到合适的 RC。如今，大语言模型（LLM）能够解决化学相关问题，例如分子设计和化学逻辑问答任务。然而，大语言模型尚未实现对化学反应条件的准确预测。在这里，我们提出了 MM-RCR，一种文本增强的多模式大语言模型，它从 SMILES、反应图和化学反应推荐 (RCR) 文本语料库中学习统一的反应表示。为了训练 MM-RCR，我们构建了 120 万个成对问答指令数据集。我们的实验结果表明，MM-RCR 在两个开放基准数据集上实现了最先进的性能，并在域外（OOD）和高吞吐量实验（HTE）数据集上表现出强大的泛化能力。 MM-RCR 有潜力加速化学合成中的高通量条件筛选。

通过 LLM 编码和伪事件调节进行先验知识集成，用于视频时刻检索

分类： 计算机视觉和模式识别

作者： Yiyang Jiang, Wengyu Zhang, Xulu Zhang, Xiaoyong Wei, Chang Wen Chen, Qing Li

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15051v1

摘要： 在本文中，我们研究了利用大语言模型（LLM）来集成常识并将伪事件作为视频时刻检索（VMR）模型中时间内容分布的先验的可行性。这项研究背后的动机源于使用 LLM 作为生成离散文本描述的解码器的局限性，这阻碍了它们直接应用于连续输出，如显着性分数和捕获帧间关系的帧间嵌入。为了克服这些限制，我们建议使用 LLM 编码器而不是解码器。通过可行性研究，我们证明了 LLM 编码器可以有效地细化多模态嵌入中的概念间关系，即使没有接受过文本嵌入的训练。我们还表明，LLM 编码器的细化能力可以转移到其他嵌入，例如 BLIP 和 T5，只要这些嵌入表现出与 CLIP 嵌入类似的概念间相似性模式。我们提出了一个将 LLM 编码器集成到现有 VMR 架构中的通用框架，特别是在融合模块中。通过实验验证，我们通过在 VMR 中实现最先进的性能来证明我们提出的方法的有效性。源代码可以在 https://github.com/fletcherjian/LLMEPET 访问。

视听培训可提高视频文本大语言模型的基础

分类： 计算机视觉和模式识别, 计算和语言, 多媒体

作者： Shivprasad Sagare, Hemachandran S, Kinshuk Sarabhai, Prashant Ullegaddi, Rajeshkumar SA

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15046v1

摘要： 多模式大语言模型的最新进展导致了针对关键视频相关任务提出了几种视频文本模型。然而，之前的大部分作品仅支持视觉输入，本质上是使视频中的音频信号静音。很少有同时支持音频和视觉输入的模型没有经过音频数据的明确训练。因此，音频对视频理解的影响在很大程度上尚未被探索。为此，我们提出了一种显式处理视听输入的模型架构。我们使用视频指令调整数据集中的音频和视觉数据来训练我们的模型。与仅视觉基线和其他视听模型的比较表明，音频数据训练确实可以改善反应的基础。为了更好地评估视听模型，我们还发布了人工注释的基准数据集，其中包含音频感知问答对。

实施红队大型语言模型 (LLM) 的威胁模型

分类： 计算和语言, 密码学和安全

作者： Apurv Verma, Satyapriya Krishna, Sebastian Gehrmann, Madhavan Seshadri, Anu Pradhan, Tom Ault, Leslie Barrett, David Rabinowitz, John Doucette, NhatHai Phan

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14937v1

摘要： 使用大型语言模型 (LLM) 创建安全且有弹性的应用程序需要预测、调整和应对不可预见的威胁。红队已成为识别现实 LLM 实施中漏洞的关键技术。本文提出了详细的威胁模型，并提供了针对 LLM 的红队攻击的系统化知识 (SoK)。我们根据 LLM 开发和部署过程的阶段制定了攻击分类法，并从之前的研究中提取了各种见解。此外，我们还为从业者整理了防御方法和实用的红队策略。通过描述突出的攻击动机并阐明各种入口点，本文提供了一个用于提高基于 LLM 的系统的安全性和鲁棒性的框架。

VLM 可以用于视频中进行动作识别吗？大语言模型是视觉推理协调员

分类： 计算机视觉和模式识别

作者： Harsh Lunia

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14834v1

摘要： 最近的进展引入了多种视觉语言模型（VLM），在各个领域展示了令人印象深刻的常识推理。尽管它们各自具有各自的能力，但这些互补的 VLM 协同发挥作用的潜力仍未得到充分开发。 Cola 框架通过展示大型语言模型 (LLM) 如何通过自然语言通信有效协调多个 VLM，利用其独特的优势来解决这个问题。我们已经在具有挑战性的 A-OKVQA 数据集上验证了这一说法，证实了这种协调的有效性。在此基础上，我们的研究调查了是否可以将相同的方法应用于监控视频以进行动作识别。具体来说，我们探讨了当仅提供一些选择性重要帧和最少的时间信息时，利用 VLM 和 LLM 的组合知识库是否可以有效地从视频中推断出动作。我们的实验表明，LLM 在协调不同的 VLM 时，可以成功地识别模式并推断出各种场景中的动作，尽管时间信号很弱。然而，我们的研究结果表明，为了增强这种方法作为可行的替代解决方案，集成更强的时间信号并将模型暴露于稍微更多的帧将是有益的。

逐步推理解决网格难题：大语言模型在哪里犹豫不决？

分类： 计算和语言, 人工智能

作者： Nemika Tyagi, Mihir Parmar, Mohith Kulkarni, Aswin RRV, Nisarg Patel, Mutsumi Nakamura, Arindam Mitra, Chitta Baral

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14790v1

摘要： 解决网格难题涉及大量的逻辑推理。因此，它是评估模型推理能力的一个很好的领域，可以指导我们提高模型的推理能力。然而，大多数现有的作品仅评估谜题的最终预测答案，而没有深入分析大语言模型的推理链（例如他们在哪里失败）或提供任何更精细的指标来评估它们。由于大语言模型可能依赖于简单的启发式或工件来预测最终答案，因此除了整体正确性度量之外评估生成的推理链对于准确评估大语言模型的推理能力至关重要。为此，我们首先开发了 GridPuzzle，这是一个评估数据集，包含 274 个不同复杂度的基于网格的谜题。其次，我们提出了一种新的错误分类法，该分类法源自对 LLM 推理链的手动分析，包括 GPT-4、Claude-3、Gemini、Mistral 和 Llama-2。然后，我们开发了一个基于 LLM 的框架，用于大规模主观评估（即识别错误）和客观指标 PuzzleEval，以评估推理链的正确性。评估大语言模型的推理链得出了一些有趣的发现。我们进一步表明，现有的用于增强模型推理能力的提示方法并不能提高 GridPuzzle 的性能。这凸显了理解细粒度错误的重要性，并为未来的研究提出了挑战，即通过开发解决这些错误的方法来增强大语言模型解决难题的能力。数据和源代码可在 https://github.com/Mihir3009/GridPuzzle 获取。

基于LLM的算法设计与分析

分类： 机器学习, 人工智能, 计算和语言

作者： Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14788v1

摘要： 我们对基于 LLM 的算法的设计和分析发起了一项正式调查，即包含一次或多次调用大型语言模型 (LLM) 作为子例程并严重依赖 LLM 功能的算法。虽然基于LLM的算法，从带有即时工程的基本LLM调用到复杂的LLM驱动的代理系统和复合人工智能系统，已经取得了显着的经验成功，但它们的设计和优化主要依赖于启发式和试错法，这很大程度上是由于缺乏对这些算法的正式和分析研究。为了填补这一空白，我们首先确定基于 LLM 的算法的计算图表示、任务分解的设计原则和一些关键抽象，从而促进我们对基于 LLM 的算法的准确性和效率的形式分析，尽管大语言模型的黑匣子性质。我们进一步考虑案例研究的并行分解，为该模式的四个具体示例提供广泛的分析和实证研究。我们提出的框架有望通过揭示奇怪的经验现象背后的原因、指导超参数的选择、预测算法的经验性能并启发新的算法设计，从而有望推进基于 LLM 的算法。为了促进基于 LLM 的算法的进一步研究，我们在 https://github.com/modelscope/agentscope/tree/main/examples/paper_llm_based_algorithm 发布了源代码。

我需要帮助！评估 LLM 寻求用户支持的能力：文本到 SQL 生成的案例研究

分类： 计算和语言, 人工智能

作者： Cheng-Kuang Wu, Zhi Rui Tam, Chao-Chung Wu, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14767v1

摘要： 在本研究中，我们以文本到 SQL 生成作为案例研究，探讨了大语言模型寻求用户支持的主动能力。我们提出了评估性能改进和用户负担之间权衡的指标，并调查大语言模型是否可以确定何时请求帮助并通过不同级别的信息可用性检查其性能。我们的实验表明，如果没有外部反馈，许多大语言模型很难认识到自己需要额外的支持。我们的研究结果强调了外部信号的重要性，并为未来改进寻求支持策略的研究提供了见解。

CVE-LLM：使用大型语言模型进行医疗器械行业的自动漏洞评估

分类： 计算和语言, 人工智能, 密码学和安全

作者： Rikhiya Ghosh, Oladimeji Farri, Hans-Martin von Stockhausen, Martin Schmitt, George Marica Vasile

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14640v1

摘要： 医疗保健行业目前正在经历前所未有的网络安全攻击浪潮，影响了数百万人。随着每月发现数千个漏洞，迫切需要推动医疗设备漏洞评估流程的自动化，以促进快速缓解工作。生成式人工智能系统彻底改变了各个行业，为自动化和提高效率提供了无与伦比的机会。本文提出了一种利用大型语言模型 (LLM) 从历史漏洞评估中学习的解决方案，以自动评估医疗设备行业的漏洞。这种方法适用于单个制造商的产品组合，同时考虑到设备特性，包括现有的安全状况和控制。本文的主要贡献有三个。首先，它详细检查了在工业环境中训练漏洞语言模型 (LM) 的最佳实践。其次，对语言模型在漏洞评估中的有效性进行了全面的比较和深入的分析。最后，它提出了一个新的人机交互框架来加快漏洞评估过程。

BOND：将大语言模型与 Best-of-N Distillation 结合起来

分类： 机器学习, 人工智能, 计算和语言

作者： Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Nino Vieillard, Alexandre Ramé, Bobak Shariari, Sarah Perrin, Abe Friesen, Geoffrey Cideron, Sertan Girgin, Piotr Stanczyk, Andrea Michi, Danila Sinopalnikov, Sabela Ramos, Amélie Héliou, Aliaksei Severyn, Matt Hoffman, Nikola Momchev, Olivier Bachem

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14622v1

摘要： 基于人类反馈的强化学习 (RLHF) 是最先进的大型语言模型质量和安全性的关键驱动因素。然而，一种令人惊讶的简单且强大的推理时间策略是 Best-of-N 采样，它在 N 个候选者中选择最好的一代。在本文中，我们提出了 Best-of-N Distillation (BOND)，这是一种新颖的 RLHF 算法，旨在模拟 Best-of-N，但在推理时不会产生大量计算开销。具体来说，BOND 是一种分布匹配算法，它强制策略中的代数分布更接近 Best-of-N 分布。我们使用 Jeffreys 散度（前向和后向 KL 的线性组合）来平衡模式覆盖和模式搜索行为，并推导出利用移动锚来提高效率的迭代公式。我们通过抽象概括和 Gemma 模型的实验证明了我们的方法和几种设计选择的有效性。通过改进多个基准测试的结果，将 Gemma 策略与 BOND 结合起来，其性能优于其他 RLHF 算法。

SQLfuse：通过全面的 LLM 协同增强文本到 SQL 的性能

分类： 计算和语言, 人工智能, 数据库

作者： Tingkai Zhang, Chaoyu Chen, Cong Liao, Jun Wang, Xudong Zhao, Hang Yu, Jianchao Wang, Jianguo Li, Wenhui Shi

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14568v1

摘要： 文本到 SQL 的转换是一项关键的创新，它简化了从复杂的 SQL 到直观的自然语言查询的转换，考虑到 SQL 在就业市场上跨各种角色的流行，这一点尤其重要。 GPT-3.5 和 GPT-4 等大型语言模型 (LLM) 的兴起极大地推进了这一领域，提供了改进的自然语言理解和生成细致入微的 SQL 语句的能力。然而，开源大语言模型在文本到 SQL 应用程序中的潜力仍未得到充分开发，许多框架未能充分利用其全部功能，特别是在处理复杂的数据库查询和合并反馈以进行迭代细化方面。为了解决这些限制，本文介绍了 SQLfuse，这是一个强大的系统，它将开源 LLM 与一套工具集成在一起，以提高文本到 SQL 翻译的准确性和可用性。 SQLfuse 具有四个模块：模式挖掘、模式链接、SQL 生成和 SQL Critic 模块，不仅可以生成 SQL 查询，还可以不断提高 SQL 查询质量。 SQLfuse 在 Spider 排行榜上的领先表现以及蚂蚁集团的部署证明了 SQLfuse 展示了开源 LLM 在不同业务环境中的实际优点。

ChatQA 2：缩小与专有大语言模型在长上下文和 RAG 能力方面的差距

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14482v1

摘要： 在这项工作中，我们介绍了 ChatQA 2，这是一个基于 Llama3 的模型，旨在弥合开放获取 LLM 与长上下文理解和检索增强生成 (RAG) 领域领先专有模型（例如 GPT-4-Turbo）之间的差距能力。这两种能力对于大语言模型来说至关重要，因为它们需要处理无法容纳在单一提示中的大量信息，并且根据下游任务和计算预算相互补充。我们提出了详细的持续训练方案，将 Llama3-70B-base 的上下文窗口从 8K 令牌扩展到 128K 个令牌，以及三阶段指令调整过程，以增强模型的指令跟踪、RAG 性能和长上下文理解能力。我们的结果表明，Llama3-ChatQA-2-70B 模型在许多长上下文理解任务上实现了与 GPT-4-Turbo-2024-0409 相当的准确性，并在 RAG 基准上超越了它。有趣的是，我们发现最先进的长上下文检索器可以缓解 RAG 中的 top-k 上下文碎片问题，进一步改善长上下文理解任务的基于 RAG 的结果。我们还使用最先进的长上下文大语言模型对 RAG 和长上下文解决方案进行了广泛的比较。

自主计算的愿景：大语言模型能否使其成为现实？

分类： 人工智能, 计算和语言, 分布式、并行和集群计算, 多代理系统, 软件工程

作者： Zhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14402v1

摘要： 二十多年前提出的自主计算 (ACV) 愿景设想计算系统能够像生物有机体一样进行自我管理，无缝适应不断变化的环境。尽管经过数十年的研究，由于现代计算系统的动态性和复杂性，实现 ACV 仍然具有挑战性。大型语言模型 (LLM) 的最新进展通过利用其丰富的知识、语言理解和任务自动化功能，为这些挑战提供了有前景的解决方案。本文探讨了通过基于LLM的多代理框架实现微服务管理的ACV的可行性。我们引入了自主服务维护的五级分类法，并提出了基于 Sock Shop 微服务演示项目的在线评估基准来评估我们框架的性能。我们的研究结果表明，在实现 3 级自治方面取得了重大进展，突显了大语言模型在检测和解决微服务架构中的问题方面的有效性。这项研究通过开创性地将大语言模型集成到微服务管理框架中，为推进自主计算做出了贡献，为更具适应性和自我管理的计算系统铺平了道路。该代码将在 https://aka.ms/ACV-LLM 上提供。

SCoPE：评估软件漏洞检测的大语言模型

分类： 软件工程, 人工智能, 密码学和安全, 机器学习

作者： José Gonçalves, Tiago Dias, Eva Maia, Isabel Praça

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14372v1

摘要： 近年来，代码安全变得越来越重要，特别是随着互连技术的兴起。在软件开发过程的早期检测漏洞已经证明有很多好处。因此，科学界开始使用机器学习来自动检测源代码漏洞。这项工作探索并完善了 CVEFixes 数据集，该数据集通常用于训练代码相关任务的模型，特别是 C/C++ 子集。为此，提出了源代码处理引擎 (SCoPE)，这是一个由策略化技术组成的框架，可用于减小大小并标准化 C/C++ 函数。 SCoPE 生成的输出用于创建新版本的 CVEFixes。然后，这个精炼的数据集被用于特征表示分析，以评估该工具代码处理技术的有效性，其中包括微调三个用于软件漏洞检测的预先训练的 LLM。结果表明，SCoPE 成功帮助识别了评估子集中的 905 个重复项。 LLM 结果与有关软件漏洞检测适用性的文献相证实，最佳模型达到 53% 的 F1 分数。

大语言模型左、右、中：评估 GPT 标记网络领域政治偏见的能力

分类： 计算和语言, 人工智能, 计算机与社会

作者： Raphael Hernandes

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14344v1

摘要： 这项研究调查了 OpenAI 的 GPT-4（一种最先进的大型语言模型）是否可以仅根据新闻来源的 URL 准确地对新闻来源的政治偏见进行分类。鉴于政治标签的主观性，Ad Fontes Media、AllSides 和 Media Bias/Fact Check (MBFC) 等第三方偏见评级经常用于分析新闻来源多样性的研究。本研究旨在确定 GPT-4 是否可以在七度等级（“极左”到“极右”）上复制这些人类评级。该分析将 GPT-4 的分类与 MBFC 的分类进行比较，并使用 Open PageRank 分数控制网站流行度。研究结果显示 GPT-4 和 MBFC 的评级之间存在高度相关性 ($\text{Spearman's } \rho = .89$, $n = 5,877$, $p < 0.001$)，表明该模型的潜在可靠性。然而，GPT-4 放弃对数据集的大约 $\frac{2}{3}$ 进行分类，特别是不太受欢迎和偏见较少的来源。该研究还发现，与 MBFC 相比，GPT-4 的分类略有左倾。分析表明，虽然 GPT-4 可以成为一种可扩展、经济高效的新闻网站政治偏见分类工具，但它的使用应该补充人类的判断，以减轻偏见。建议进一步研究以探索模型在不同设置、语言和其他数据集上的性能。

超越代码生成：使用后置条件评估代码 LLM 成熟度

分类： 软件工程

作者： Fusen He, Juan Zhai, Minxue Pan

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14118v1

摘要： 大多数现有的代码大型语言模型 (LLM) 基准测试（例如 EvalPlus）都专注于代码生成任务。也就是说，它们包含问题的自然语言描述，并要求大语言模型编写代码来解决问题。我们认为，它们并没有涵盖评估大语言模型代码质量所需的所有能力。在本文中，我们提出了一种基于后置条件生成问题的代码LLM成熟度模型，以访问更完整的代码LLM能力集。我们选择后置条件生成问题，因为它需要代码LLM理解代码，包括语义、自然语言，并且还具有用编程语言生成明确后置条件的能力（即生成能力）。而且，后置条件有多种类型，需要不同级别的这些能力，因此适合评估代码LLM的成熟度。基于我们设计的成熟度模型，我们将 EvalPlus 数据集增强为后置条件测试基准，并评估了多个开源模型。我们的结果强调了更好的代码大语言模型所需的必要改进。代码：https://github.com/MatureModel/PostcondGen

模型大小对数据到文本生成中微调 LLM 性能的影响：一项最先进的调查

分类： 计算和语言

作者： Joy Mahapatra, Utpal Garain

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14088v1

摘要： 数据到文本（D2T）生成旨在从半结构化数据（例如表格和图表）生成人类可读的文本。 D2T 最近的成功很大程度上归功于大语言模型的进步。尽管大语言模型取得了成功，但尚未进行任何研究来说明模型大小对 D2T 任务的微调大语言模型性能的影响。 D2T 模型性能通常根据三个关键品质进行评估：\textit{可读性}（表示流畅性和连贯性）、\textit{信息性}（衡量内容相似性）和 \textit{可信性}（评估事实信息的一致性）。目前尚不确定增加大语言模型的规模是否能有效提高这三个质量的 D2T 任务的性能。本研究的目的是研究微调 LLM 在 D2T 任务中模型大小方面的性能。通过广泛的比较分析，我们的目标是阐明在五个广泛使用的 D2T 数据集（E2E、ViGGo、WikiTableText、DART 和 WebNLG）和 12 个不同大小的最先进的 LLM 中缩放模型大小的优点和局限性五个不同的 LLM 系列（T5、BART、OPT、BLOOM 和 Llama 2）。为了全面涵盖 D2T 模型的所有三个基本品质，我们采用了六个广泛认可的自动指标 - \textsc{BLEU}、\textsc{METEOR}、\textsc{BERTScore}、\textsc{MoverScore}、\textsc{Parent} ，和 \textsc{BARTScore}。我们还对存在源参考分歧（D2T 任务的一个关键方面）的情况下模型大小的 LLM 性能进行深入分析。我们的调查表明，增加 LLM 大小可以增强 D2T 任务中的 \textit{可读性} 和 \textit{信息性}，但较大（就大小而言）的 LLM 可能会牺牲 \textit{可信性}。此外，当存在来源参考分歧时，小型大语言模型比大型大语言模型表现出更强的弹性。

LazyLLM：动态令牌修剪，实现高效的长上下文 LLM 推理

分类： 计算和语言, 人工智能, 机器学习

作者： Qichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14057v1

摘要： 基于 Transformer 的大型语言模型的推理由两个连续阶段组成：1）预填充阶段，用于计算提示的 KV 缓存并生成第一个标记；2）解码阶段，用于生成后续标记。对于长提示，必须在预填充阶段计算所有令牌的 KV 缓存，这会显着增加生成第一个令牌所需的时间。因此，预填充阶段可能成为生成过程中的瓶颈。一个悬而未决的问题仍然是所有提示令牌对于生成第一个令牌是否都是必需的。为了回答这个问题，我们引入了一种新颖的方法 LazyLLM，它有选择地计算对于预填充和解码阶段的下一个令牌预测很重要的令牌的 KV。与立即修剪提示的静态修剪方法相反，LazyLLM 允许语言模型在不同的生成步骤中从上下文中动态选择不同的标记子集，即使它们可能在之前的步骤中被修剪。对各种任务的标准数据集进行的广泛实验表明，LazyLLM 是一种通用方法，可以与现有语言模型无缝集成，从而显着加速生成，而无需微调。例如，在多文档问答任务中，LazyLLM 将 LLama 2 7B 模型的预填充阶段加速了 2.34 倍，同时保持了准确性。

狼人竞技场：通过社会演绎法评估大语言模型的案例研究

分类： 计算和语言, 人工智能

作者： Suma Bailis, Jane Friedhoff, Feiyang Chen

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13943v1

摘要： 本文介绍了 Werewolf Arena，这是一种通过经典社交演绎游戏《狼人》的视角来评估大型语言模型 (LLM) 的新颖框架。在《狼人竞技场》中，大语言模型相互竞争，驾驭游戏中欺骗、演绎和说服的复杂动态。该框架引入了基于竞价的动态轮流系统，反映了个人策略性地选择何时发言的现实世界讨论。我们通过以 Gemini 和 GPT 模型为特色的竞技场式锦标赛来展示该框架的实用性。我们的结果揭示了模型在战略推理和沟通方面的明显优势和劣势。这些发现凸显了《狼人竞技场》作为具有挑战性和可扩展性的大语言模型基准的潜力。

探索大语言模型编程助理的循证信念和行为

分类： 软件工程

作者： Chris Brown, Jason Cusati

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13900v1

摘要： 主要由大型语言模型 (LLM) 提供支持的人工智能 (AI) 领域的最新创新已经改变了程序员开发和维护软件的方式，从而开辟了软件工程 (SE) 的新领域。基于大语言模型的编程助手在支持软件开发任务方面具有先进的功能，导致SE中大语言模型的采用率上升。然而，人们对人工智能编程助手支持和采用的、经研究结果验证的循证实践、工具和流程知之甚少。为此，我们的工作进行了初步评估，探索大语言模型用于支持软件开发任务的信念和行为。我们调查了 5 名大语言模型编程助理的实证 SE 研究提出的 17 项基于证据的主张。我们的研究结果表明，大语言模型的编程助理对研究主张的信念不明确，缺乏可靠的证据来支持回应，并且无法采用实证SE研究证明的实践来支持开发任务。根据我们的研究结果，我们为在开发环境中采用基于 LLM 的编程助理的从业者提供了启示，并阐明了未来的研究方向，以提高 LLM 的可靠性和可信度——旨在提高对基于证据的 SE 研究结果的认识和采用。实践。

大语言模型作为函数逼近器：术语、分类和评估问题

分类： 计算和语言, 人工智能

作者： David Schlangen

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13744v1

摘要： 自然语言处理已经相当快地从对特定任务进行建模转向采用更通用的预训练模型并针对特定任务对其进行微调，现在我们已经拥有了本质上通用的模型。本文认为，这些模型所模拟的内容的清晰度的丧失导致了诸如“通用人工智能”之类的隐喻，这些隐喻无助于评估其优缺点。该提议是为了了解它们的通用性和潜在价值，即它们基于自然语言规范来近似专业功能的能力。这种框架提出了近似质量的问题，但除此之外，还提出了这些函数的可发现性、稳定性和可保护性问题。正如本文将表明的那样，这一框架因此将评估的各个方面（从实践和理论角度）以及经常被置于次要地位的问题（例如“立即注入”和“越狱”）汇集在一个概念框架中。）。

CoDefeater：利用大语言模型寻找担保案件中的失败者

分类： 软件工程, 人工智能

作者： Usman Gohar, Michael C. Hunter, Robyn R. Lutz, Myra B. Cohen

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13717v1

摘要： 构建保证案例是一种广泛使用的、有时也是必需的过程，用于证明安全关键系统将在其规划的环境中安全运行。为了降低错误和遗漏边缘案例的风险，引入了击败者的概念——挑战保证案例中主张的论据或证据。失败者可以及时发现论点中的弱点，促使进一步调查并及时采取缓解措施。然而，捕获失败者依赖于专家的判断、经验和创造力，并且由于不断变化的需求和法规，必须迭代地完成。本文提出了 CoDefeater，这是一种利用大型语言模型 (LLM) 来寻找失败者的自动化流程。两个系统的初步结果表明，大语言模型可以有效地找到已知和不可预见的可行失败者，以支持安全分析师提高保证案例的完整性和置信度。

正确完成基准协议测试：LLM 基准评估指南

分类： 计算和语言

作者： Yotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13696v1

摘要： 语言模型 (LM) 的最新进展促进了多个基准的创建，旨在评估这些模型的一般功能。然而，一项关键任务是评估基准本身的有效性。这通常是通过基准一致性测试 (BAT) 来完成的，其中使用一些一致性指标（例如排名相关性）针对已建立的基准来验证新基准。尽管 BAT 对于基准构建者和消费者起着至关重要的作用，但此类协议测试并没有标准化程序。这种缺陷可能会导致无效的结论，加剧对基准的不信任，并影响正确选择合适基准的能力。通过分析 40 多个著名基准，我们展示了一些被忽视的方法选择如何显着影响 BAT 结果，并可能损害结论的有效性。为了解决这些不一致问题，我们提出了一套 BAT 最佳实践，并演示了如何利用这些方法极大地提高 BAT 的稳健性和有效性。为了促进采用并促进未来的研究，我们引入了 BenchBench（BAT 的 Python 包），并发布了 BenchBench-leaderboard，这是一个元基准测试，旨在使用同行评估基准。我们的研究结果强调了标准化 BAT 的必要性，以确保在不断发展的语言模型研究领域中基准评估的稳健性和有效性。 BenchBench 包：https://github.com/IBM/BenchBench 排行榜：https://huggingface.co/spaces/per/BenchBench

证明者-验证者游戏提高了 LLM 输出的易读性

分类： 计算和语言

作者： Jan Hendrik Kirchner, Yining Chen, Harri Edwards, Jan Leike, Nat McAleese, Yuri Burda

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13692v1

摘要： 增加对大型语言模型 (LLM) 输出的信心的一种方法是用清晰且易于检查的推理来支持它们——我们称之为易读性。我们在解决小学数学问题的背景下研究了易读性，并表明仅为了答案的正确性而优化思想链解决方案可能会使它们不太易读。为了减轻易读性的损失，我们提出了一种受 Anil 等人的 Prover-Verifier Game 启发的训练算法。（2021）。我们的算法迭代地训练小型验证者来预测解决方案的正确性，“有帮助的”证明者产生验证者接受的正确解决方案，以及“偷偷摸摸”的证明者产生欺骗验证者的错误解决方案。我们发现，在训练过程中，有用的证明者的准确性和验证者对对抗性攻击的鲁棒性都会增加。此外，我们还表明，易读性训练可以转移到时间有限的人类身上，任务是验证解决方案的正确性。在大语言模型培训过程中，在检查有用的证明者的解决方案时，人类的准确性会提高，而在检查偷偷摸摸的证明者的解决方案时，人类的准确性会降低。因此，由小型验证者进行可检查性培训是提高输出易读性的一种可行技术。我们的结果表明，针对小型验证者的易读性训练是提高大型大语言模型对人类的易读性的实用途径，因此有助于超人模型的对齐。

KNOWNET：通过知识图集成引导大语言模型寻求健康信息

分类： 人机交互

作者： Youfu Yan, Yu Hou, Yongkang Xiao, Rui Zhang, Qianwen Wang

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13598v1

摘要： 由于潜在的错误信息和这些主题的复杂性，越来越多地依赖大型语言模型（LLM）来寻求健康信息可能会带来严重的风险。本文介绍了 KNOWNET 一个可视化系统，它将大语言模型与知识图谱 (KG) 集成在一起，以提供更高的准确性和结构化探索。具体来说，为了提高准确性，KNOWNET 从 LLM 输出中提取三元组（例如实体及其关系），并将它们映射到外部知识图谱中经过验证的信息和支持的证据。对于结构化探索，KNOWNET 根据知识图谱中当前探索的实体的邻域提供下一步建议，旨在指导全面理解而不忽略关键方面。为了能够利用知识图谱中的结构化数据和大语言模型的非结构化输出进行推理，KNOWNET 将对主题的理解概念化为图形可视化的逐步构建。引入渐进式图形可视化来监控过去的查询，并将当前查询与探索历史和下一步建议联系起来。我们通过用例和专家访谈来证明我们系统的有效性。

基于LLM的西藏旅游观点信息生成系统研究

分类： 计算和语言

作者： Jinhu Qi, Shuai Yan, Wentao Zhang, Yibo Zhang, Zirui Liu, Ke Wang

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13561v1

摘要： 西藏地处中国幅员辽阔，地形复杂多样，是其深厚的历史底蕴和独特宗教精神的摇篮。然而，这些属性的本质阻碍了西藏旅游服务基础设施的进步，导致现有的智慧旅游服务无法满足游客的需求。本研究深入探讨了旅游景点信息差异对西藏旅游的影响，并解决了建立大语言模型（LLM）评估标准的挑战。它引入了一种创新方法，即 DualGen Bridge AI 系统，采用监督微调技术来增强模型功能并增强优化过程。此外，它还开创了多结构的生成结果评估框架。实证验证证实了该框架的有效性。该研究还探索了专有 DualGen Bridge AI 中监督微调方法的应用，旨在改进旅游景点信息的生成。该研究结果为优化系统性能提供了宝贵的见解，并为大语言模型技术在西藏旅游服务及其他领域的应用提供了支持和启发，有可能通过先进的、定制的信息生成能力彻底改变智慧旅游行业。

Qalam：阿拉伯语光学字符和手写识别的多模式大语言模型

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13559v1

摘要： 由于阿拉伯文字的草书和上下文敏感特性，阿拉伯语光学字符识别 (OCR) 和手写识别 (HWR) 提出了独特的挑战。本研究介绍了 Qalam，这是一种专为阿拉伯语 OCR 和 HWR 设计的新型基础模型，基于 SwinV2 编码器和 RoBERTa 解码器架构构建。我们的模型显着优于现有方法，在 HWR 任务中实现了仅 0.80% 的字错误率 (WER)，在 OCR 任务中实现了 1.18%。我们在多样化的数据集上训练 Qalam，其中包括来自阿拉伯手稿的超过 450 万张图像以及包含 6 万个图像文本对的合成数据集。值得注意的是，Qalam 展示了对阿拉伯语变音符号的出色处理，这是阿拉伯语脚本的一个关键功能。此外，它还表现出处理高分辨率输入的卓越能力，解决了当前 OCR 系统的常见限制。这些进步凸显了 Qalam 作为阿拉伯文字识别领先解决方案的潜力，在准确性和效率方面实现了重大飞跃。

INDIC QA BENCHMARK：评估印度语言大语言模型问答能力的多语言基准

分类： 机器学习

作者： Abhishek Kumar Singh, Rudra Murthy, Vishwajeet kumar, Jaydeep Sen, Ganesh Ramakrishnan

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13522v1

摘要： 大型语言模型 (LLM) 在看不见的任务中展示了卓越的零样本和少样本能力，包括基于上下文的英语问答 (QA)。然而，由于非英语语言基准的稀缺，大语言模型在非英语语言中基于上下文的质量保证的能力评估受到限制。为了解决这一差距，我们引入了 Indic-QA，这是最大的公开可用的基于上下文的问答数据集，适用于两个语系的 11 种主要印度语言。该数据集包括提取和抽象问答任务，包括现有数据集以及翻译成印度语言的英语 QA 数据集。此外，我们使用 Gemini 模型生成一个合成数据集，根据给定的段落创建问答对，然后手动验证以保证质量。我们在基准测试中评估了各种多语言大型语言模型及其指令微调变体，并观察到它们的性能不佳，特别是对于资源匮乏的语言。我们希望该数据集的发布能够激发对大语言模型针对低资源语言的问答能力的进一步研究。

开源大语言模型可以与商业模式竞争吗？探索当前 GPT 模型在生物医学任务中的少样本性能

分类： 计算和语言

作者： Samy Ateia, Udo Kruschwitz

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13511v1

摘要： 商业大语言模型 (LLM)，例如支持 ChatGPT 的 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 Opus，已经在不同领域的自然语言处理 (NLP) 基准测试中占据主导地位。新的竞争性开源替代方案（例如 Mixtral 8x7B 或 Llama 3）已经出现，似乎正在缩小差距，同时通常提供更高的吞吐量和更低的使用成本。开源大语言模型还可以自行托管，这使得它们对于敏感数据不应由第三方处理的企业和临床用例很有趣。我们参加了第 12 届 BioASQ 挑战赛，这是一个检索增强生成 (RAG) 设置，并探索了当前 GPT 模型 Claude 3 Opus、GPT-3.5-turbo 和 Mixtral 8x7b 与上下文学习（零样本、少量）的性能。 -shot）和 QLoRa 微调。我们还探讨了将维基百科中的其他相关知识添加到大语言模型的上下文窗口中如何提高他们的表现。无论有没有微调，Mixtral 8x7b 在 10 次射击设置中都具有竞争力，但在零次射击设置中未能产生可用的结果。 QLoRa 微调和维基百科上下文并未带来可衡量的性能提升。我们的结果表明，RAG 设置中商业模型和开源模型之间的性能差距主要存在于零样本设置中，并且可以通过简单地收集特定领域用例的少数样本示例来弥补。重新运行这些实验所需的代码可通过 GitHub 获取。

机器人也可以执行多任务：集成内存架构和 LLM 以增强跨任务机器人动作生成

分类： 机器人技术, 人工智能

作者： Hassan Ali, Philipp Allgeuer, Carlo Mazzola, Giulia Belgiovine, Burak Can Kaplan, Stefan Wermter

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13505v1

摘要： 最近，大型语言模型 (LLM) 已被用于机器人应用，以将 LLM 常识推理与机器人的感知和身体能力结合起来。在人形机器人中，记忆在培养现实世界的体现和促进长期交互能力方面也发挥着关键作用，特别是在多任务设置中，机器人必须记住以前的任务状态、环境状态和执行的动作。在本文中，我们解决了将内存进程与 LLM 相结合的问题，以生成跨任务机器人动作，同时机器人在任务之间有效切换。我们提出的双层架构具有两个大语言模型，利用他们的推理和遵循指令的互补技能，并结合受人类认知启发的记忆模型。我们的结果显示，与五个机器人任务的基线相比，性能有了显着提高，证明了将内存与 LLM 相集成，将机器人的动作和感知相结合以实现自适应任务执行的潜力。

强化学习大语言模型授权国家代表

分类： 人工智能

作者： Boyuan Wang, Yun Qu, Yuhang Jiang, Jianzhun Shao, Chang Liu, Wenming Yang, Xiangyang Ji

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13237v1

摘要： 强化学习中的传统状态表示通常会忽略与任务相关的关键细节，这对价值网络在建立从状态到任务奖励的准确映射方面提出了重大挑战。传统方法通常依赖于广泛的样本学习来丰富任务特定信息的状态表示，这导致样本效率低和时间成本高。最近，激增的知识型大语言模型（LLM）为以最少的人为干预的预先注入提供了有希望的替代品。受此启发，我们提出了LLM授权状态表示（LESR），这是一种利用LLM自动生成与任务相关的状态表示代码的新颖方法，有助于增强网络映射的连续性并促进高效训练。实验结果表明，LESR 表现出高样本效率，并且在 Mujoco 任务中的累积奖励平均优于最先进的基线 29%，在 Gym-Robotics 任务中的成功率平均优于最先进的基线 30%。

DiveSound：大语言模型辅助的自动分类法构建，用于生成多样化的音频

分类： 声音, 音频和语音处理

作者： Baihan Li, Zeyu Xie, Xuenan Xu, Yiwei Guo, Ming Yan, Ji Zhang, Kai Yu, Mengyue Wu

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13198v1

摘要： 音频生成引起了人们的广泛关注。尽管音频质量显着提高，但现有模型忽视了多样性评估。这部分是由于缺乏系统合理的类别多样性框架和匹配的数据集。为了解决这些问题，我们提出了 DiveSound，这是一种新颖的框架，用于在大型语言模型的辅助下构建具有类内多样化分类法的多模态数据集。由于文本和视觉信息都可以用来指导不同的生成，因此 DiveSound 在数据构建中利用多模态对比表示。我们的框架高度自治，可以轻松扩展。我们提供了一个文本音频图像对齐的多样性数据集，其声音事件类标签平均有 2.42 个子类别。对构建的数据集进行的文本到音频实验表明，在视觉信息的指导下，多样性大幅增加。

使用大语言模型研究对话式后续查询与用户满意度的相关性

分类： 人机交互, 信息检索

作者： Hyunwoo Kim, Yoonseo Choi, Taehyun Yang, Honggu Lee, Chaneon Park, Yongju Lee, Jin Young Kim, Juho Kim

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13166v1

摘要： 借助大型语言模型 (LLM)，对话式搜索引擎通过支持自然对话来多次表达其搜索意图，从而改变用户从网络检索信息的方式。用户的自然对话体现了丰富但隐含的用户搜索意图信号和对搜索结果的评估，以了解用户对系统的体验。然而，用户如何以及为何提出后续查询以继续与会话搜索引擎进行对话以及后续查询如何表明用户的满意度尚未得到充分研究。通过对商业对话搜索引擎 Naver Cue 的实验室用户评估的 250 个对话轮次进行定性分析，我们提出了对话搜索中 18 个用户的后续查询模式的分类法，包括两个主轴：(1)用户继续对话背后的动机（N = 7）和（2）后续查询的操作（N = 11）。与有关查询重新制定的现有文献相比，我们发现了后续查询背后的一组新动机和行为，包括询问主观意见或提供有关引擎响应的自然语言反馈。为了以可扩展且高效的方式使用我们的分类法分析会话搜索日志，我们构建了一个由 LLM 驱动的分类器（准确率 73%）。使用我们的分类器，我们分析了从 Cue 的真实使用日志中收集的 2,061 个对话元组：并检查了我们的分类法中的对话模式如何与满意度相关联。我们的初步调查结果表明存在一些不满意的信号，例如澄清查询、排除条件以及用后续查询替换条件。我们设想我们的方法可以通过提供满意度信号和真实用户模拟的基础，有助于自动评估对话搜索体验。

使用大语言模型自动化安全运营中心的威胁情报分析工作流程

分类： 密码学和安全

作者： PeiYu Tseng, ZihDwo Yeh, Xushu Dai, Peng Liu

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13093v1

摘要： SIEM 系统很普遍，并在安全运营中心的各种分析师工作流程中发挥着关键作用。然而，现代 SIEM 面临着巨大的挑战：它们仍然无法将分析师从分析以自然语言编写的 CTI（网络威胁情报）报告中的重复性任务中解放出来。该项目旨在开发一种人工智能代理，以取代分析 CTI 报告所涉及的劳动密集型重复任务。该代理利用了 LLM（例如 GPT-4）的革命性功能，但不需要任何人工干预。

少即是多：大语言模型中的稀疏水印，增强文本质量

分类： 密码学和安全, 人工智能, 计算和语言

作者： Duy C. Hoang, Hung T. Q. Le, Rui Chu, Ping Li, Weijie Zhao, Yingjie Lao, Khoa D. Doan

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.13803v1

摘要： 随着大型语言模型（LLM）的广泛采用，人们开始担心潜在的滥用。为此，水印已适应大语言模型，提供一种简单有效的方法来检测和监控生成的文本。然而，虽然现有方法可以高精度地区分加水印和未加水印的文本，但它们经常面临生成文本的质量和水印过程的有效性之间的权衡。在这项工作中，我们提出了一种新型的 LLM 水印，即稀疏水印，其目的是通过将水印应用于分布在文本中的一小部分生成的标记来减轻这种权衡。关键策略涉及将带水印的标记锚定到具有特定词性 (POS) 标签的单词。我们的实验结果表明，所提出的水印方案实现了高可检测性，同时生成的文本在各种任务的质量上优于以前的 LLM 水印方法

DreamStory：大语言模型引导的多主题一致扩散的开放域故事可视化

分类： 计算机视觉和模式识别, 人工智能, 多媒体

作者： Huiguo He, Huan Yang, Zixi Tuo, Yuan Zhou, Qiuyue Wang, Yuhang Zhang, Zeyu Liu, Wenhao Huang, Hongyang Chao, Jian Yin

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12899v1

摘要： 故事可视化旨在创建与文本叙述相对应的视觉上引人注目的图像或视频。尽管扩散模型的最新进展产生了有希望的结果，但现有方法仍然难以仅基于故事创建主题一致的框架的连贯序列。为此，我们提出了 DreamStory，这是一种利用大语言模型和新颖的多主题一致扩散模型的自动开放域故事可视化框架。 DreamStory 由 (1) 担任故事导演的大语言模型和 (2) 创新的多主体一致扩散模型 (MSD) 组成，用于在图像中生成一致的多主体。首先，DreamStory 使用 LLM 为与故事一致的主题和场景生成描述性提示，并注释每个场景的主题，以便后续生成主题一致的内容。其次，DreamStory 利用这些详细的主题描述来创建主题的肖像，这些肖像及其相应的文本信息充当多模态锚点（指导）。最后，MSD 使用这些多模态锚点来生成具有一致的多主题的故事场景。具体来说，MSD 包括 Masked Mutual Self-Attention (MMSA) 和 Masked Mutual Cross-Attention (MMCA) 模块。 MMSA 和 MMCA 模块分别确保与参考图像和文本的外观和语义一致性。两个模块都采用屏蔽机制来防止主题混合。为了验证我们的方法并促进故事可视化的进步，我们建立了一个基准 DS-500，它可以评估故事可视化框架的整体性能、主题识别的准确性以及生成模型的一致性。大量的实验验证了DreamStory在主观和客观评估方面的有效性。请访问我们的项目主页：https://dream-xyz.github.io/dreamstory。

AgentPoison：通过毒害内存或知识库来红队 LLM 代理

分类： 机器学习, 密码学和安全, 信息检索

作者： Zhaorun Chen, Zhen Xiang, Chaowei Xiao, Dawn Song, Bo Li

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12784v1

摘要： LLM 代理在各种应用程序中表现出了卓越的性能，这主要是由于它们在推理、利用外部知识和工具、调用 API 以及执行与环境交互的操作方面的先进能力。当前的智能体通常利用记忆模块或检索增强生成（RAG）机制，从知识库中检索过去的知识和具有类似嵌入的实例，以通知任务规划和执行。然而，对未经验证的知识库的依赖引发了对其安全性和可信度的严重担忧。为了发现此类漏洞，我们提出了一种新颖的红队方法 AgentPoison，这是第一个针对通用和基于 RAG 的 LLM 代理的后门攻击，通过毒害其长期记忆或 RAG 知识库。特别地，我们将触发器生成过程形成为约束优化，通过将触发实例映射到唯一的嵌入空间来优化后门触发器，从而确保每当用户指令包含优化的后门触发器时，就从后门触发器中检索恶意演示。中毒的记忆或知识库的可能性很高。与此同时，没有触发的良性指令仍将保持正常性能。与传统的后门攻击不同，AgentPoison 不需要额外的模型训练或微调，并且优化后的后门触发器表现出卓越的可转移性、上下文一致性和隐秘性。大量实验证明了 AgentPoison 在攻击现实世界中三种类型的 LLM 代理方面的有效性：基于 RAG 的自动驾驶代理、知识密集型 QA 代理和医疗保健 EHRAgent。在每个代理上，AgentPoison 的平均攻击成功率高于 80%，对良性性能的影响最小（小于 1%），中毒率低于 0.1%。

基于 Minecraft Builder 对话代理任务的 LLM 基准

分类： 计算和语言

作者： Chris Madge, Massimo Poesio

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12734v1

摘要： 在这项工作中，我们建议将 Minecraft 构建器任务改编为 LLM 基准，适合评估空间导向任务中的 LLM 能力，并为构建器代理设计提供信息。以前的作品提出了具有不同复杂结构的语料库和人类书面指令。相反，我们尝试提供一个全面的综合基准，用于测试构建器代理的一系列不同任务，这些任务包括常见的构建操作。我们相信这种方法使我们能够探究不同代理的具体优势和劣势，并测试大语言模型在空间推理和基于向量的数学这一具有挑战性的领域的能力。

LLM 指导下的零样本文本引导无限图像合成

分类： 计算机视觉和模式识别, 人工智能

作者： Soyeong Kwon, Taegyeong Lee, Taehwan Kim

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12642v1

摘要： 文本引导的图像编辑和生成方法具有多种实际应用。然而，文本引导的无限图像合成面临着一些挑战。首先，缺乏具有高分辨率和上下文多样性的文本图像配对数据集。其次，基于文本扩展图像需要全局一致性和丰富的本地上下文理解。之前的研究主要集中在有限的类别上，例如自然景观，并且还需要对带有配对文本的高分辨率图像进行训练。为了应对这些挑战，我们提出了一种利用大型语言模型（LLM）实现全局一致性和本地上下文理解的新方法，无需任何高分辨率文本图像配对训练数据集。我们训练扩散模型来扩展以 LLM 和视觉特征生成的全局和局部标题为条件的图像。在推理阶段，给定图像和全局标题，我们使用 LLM 生成下一个局部标题来扩展输入图像。然后，我们使用全局标题、生成的局部标题和视觉特征来扩展图像，以考虑全局一致性和空间局部上下文。在实验中，我们的模型在数量和质量上都优于基线。此外，我们的模型展示了在 LLM 指导下以零样本方式生成文本引导的任意大小图像的能力。

现实与幻想的构建：大语言模型辅助提示解释的场景生成

分类： 计算机视觉和模式识别, 人工智能

作者： Yi Yao, Chan-Feng Hsu, Jhe-Hao Lin, Hongxia Xie, Terence Lin, Yi-Ning Huang, Hong-Han Shuai, Wen-Huang Cheng

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12579v1

摘要： 尽管最近在文本到图像生成方面取得了进展，但由于训练数据的多样性和复杂性有限，在处理复杂和富有想象力的提示方面仍然存在局限性。这项工作探讨了扩散模型如何根据需要艺术创造力或专业知识的提示生成图像。我们引入了现实-幻想基准（RFBench），这是一种融合现实和幻想场景的新颖评估框架。为了应对这些挑战，我们提出了现实幻想网络（RFNet），这是一种将扩散模型与大语言模型相结合的免训练方法。广泛的人类评估和基于 GPT 的成分评估证明了我们的方法优于最先进的方法。我们的代码和数据集可在 https://leo81005.github.io/Reality-and-Fantasy/ 获取。

MERLIN：通过基于 LLM 的迭代导航进行文本视频检索重新排序管道的多模式嵌入细化

分类： 计算和语言, 人工智能, 计算机视觉和模式识别

作者： Donghoon Han, Eunhwan Park, Gisang Lee, Adam Lee, Nojun Kwak

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12508v1

摘要： 多媒体内容的快速扩展使得从大量集合中准确检索相关视频变得越来越具有挑战性。文本视频检索的最新进展集中在跨模态交互、大规模基础模型训练和概率建模上，但往往忽略了关键的用户视角，导致用户查询和检索内容之间的差异。为了解决这个问题，我们引入了 MERLIN（通过基于 LLM 的迭代导航进行多模态嵌入细化），这是一种新颖的免培训管道，利用大型语言模型 (LLM) 进行迭代反馈学习。 MERLIN 从用户角度细化查询嵌入，通过动态问答过程增强查询和视频内容之间的一致性。 MSR-VTT、MSVD 和 ActivityNet 等数据集上的实验结果表明，MERLIN 显着改进了 Recall@1，性能优于现有系统，并证实了将 LLM 集成到多模态检索系统中以实现更具响应性和上下文感知的多媒体检索的好处。

从少样本学习的角度评估多模态大语言模型的语言能力

分类： 计算和语言, 计算机视觉和模式识别

作者： Mustafa Dogan, Ilker Kesen, Iacer Calixto, Aykut Erdem, Erkut Erdem

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12498v1

摘要： 多模态大语言模型 (MLLM) 的语言能力对于其在不同任务中的有效应用至关重要。本研究旨在评估 MLLM 在 VALSE 基准上的性能，重点关注少样本上下文学习 (ICL) 和思想链 (CoT) 提示的功效。我们对最先进的 MLLM 进行了全面评估，其中模型大小和预训练数据集各不相同。实验结果表明，ICL 和 CoT 提示显着提高了模型性能，特别是在需要复杂推理和上下文理解的任务中。在字幕数据集上预训练的模型显示出卓越的零样本性能，而在交错图像文本数据上训练的模型则受益于少样本学习。我们的研究结果为优化 MLLM 以便更好地在视觉环境中奠定语言基础提供了宝贵的见解，强调了预训练数据组成的重要性以及小样本学习策略在提高 MLLM 推理能力方面的潜力。

印度大语言模型的预训练数据和分词器

分类： 计算和语言

作者： Rahul Kumar, Shubham Kakde, Divyansh Rajput, Daud Ibrahim, Rishabh Nahata, Pidathala Sowjanya, Deepak Kumar

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12481v1

摘要： 我们提出了一种新的数据准备方法，用于开发多语言印度语大语言模型。我们细致的数据采集涵盖开源和专有来源，包括 Common Crawl、印度语书籍、新闻文章和维基百科，确保多样化和丰富的语言表示。对于每种印度语，我们设计了自定义预处理管道，以有效消除冗余和低质量的文本内容。此外，我们对 Common Crawl 数据执行重复数据删除，以解决 70% 的爬网网页中存在的冗余问题。这项研究的重点是开发高质量的数据，优化具有 3B 和 7B 参数的印度语大语言模型的多语言数据集的标记化，专为印度语言的卓越性能而设计。我们引入了一种新颖的多语言分词器训练策略，展示了我们定制训练的印度语分词器的性能优于最先进的 OpenAI Tiktoken 分词器，实现了印度语言卓越的词词比。

搜索引擎、大语言模型还是两者兼而有之？评估回答健康问题的信息寻求策略

分类： 信息检索, 人工智能

作者： Fernández-Pichel Marcos, Pichel Juan C., Losada David E

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12468v1

摘要： 搜索引擎传统上是信息搜索的主要工具。然而，新的大型语言模型 (LLM) 最近在多项任务中表现出了卓越的能力，特别是，它们作为问答系统的采用正变得越来越普遍。预计基于LLM的会话系统和传统的Web引擎未来将继续共存，以多种方式支持最终用户。但需要对这两类系统在促进准确信息搜索方面的有效性进行更多科学研究。在这项研究中，我们重点关注它们在回答健康问题方面的优点。我们进行了一项广泛的研究，比较不同的网络搜索引擎、大语言模型和检索增强（RAG）方法。我们的研究揭示了有趣的结论。例如，我们观察到，当我们进一步向下浏览排名列表时，可能响应健康问题的网页的质量不会下降。然而，根据我们的评估，网络引擎在寻找健康问题的正确答案方面不如大语言模型准确。另一方面，大语言模型对输入提示非常敏感，我们还发现 RAG 可以带来高效的信息查找方法。

大语言模型推理服务：最新进展和机会调查

分类： 分布式、并行和集群计算, 人工智能

作者： Baolin Li, Yankai Jiang, Vijay Gadepally, Devesh Tiwari

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12391v1

摘要： 这项调查全面概述了大型语言模型 (LLM) 服务系统的最新进展，重点关注自 2023 年以来的研究。我们专门研究了在不改变核心 LLM 解码机制的情况下提高性能和效率的系统级增强功能。通过选择和审查来自著名的机器学习和系统场所的高质量论文，我们重点介绍了在现实生产环境中部署和扩展大语言模型的关键创新和实际考虑因素。这项调查对于寻求了解这个快速发展领域的最新发展的大语言模型从业者来说是一个宝贵的资源。

SENTAUR：使用 LLM 进行安全增强型特洛伊木马评估以防止不需要的修改

分类： 密码学和安全, 人工智能, 硬件架构

作者： Jitendra Bhandari, Rajat Sadhukhan, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12352v1

摘要： 全球分布的IC供应链因不可信的第三方而带来风险。这些风险包括无意中使用硬件木马 (HT)、插入知识产权 (3P-IP) 或电子设计自动化 (EDA) 流程。 HT 可能会引入隐秘的 HT 行为，阻止 IC 按预期工作，或通过侧通道泄露敏感数据。为了应对 HT，快速检查 HT 场景是一个关键要求。虽然 Trust-Hub 基准测试是评估防御的一个很好的起点，但它们包含了 HT 设计范围内手动创建的 HT 的一小部分。此外，HT可能在合成过程中消失。我们提出了一个大型语言模型（LLM）框架 SENTAUR，通过学习 HT 效果的规范、描述和自然语言描述，为寄存器传输级（RTL）设计生成一套合法的 HT。现有的工具和基准是有限的；他们需要一段学习时间来构建机器学习模型来模仿威胁模型，并且很难重现。 SENTAUR 可以利用 LLM 快速生成 HT 实例，无需任何学习期，并对 HT 进行清理，以促进其快速评估。 SENTAUR 的评估涉及从 TrustHub 和其他地方生成有效的、可综合的和实用的 HT，调查 RTL 上的有效负载/触发器的影响。虽然我们的评估重点是 HT 插入，但 SENTAUR 可以概括为自动转换 RTL 代码以进行定义的功能修改。

机器个性的更好天使：个性如何与大语言模型安全相关

分类： 计算和语言, 计算机与社会

作者： Jie Zhang, Dongrui Liu, Chen Qian, Ziyue Gan, Yong Liu, Yu Qiao, Jing Shao

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12344v1

摘要： 人格心理学家分析了人类社会中人格与安全行为的关系。尽管大型语言模型（LLM）展示了人格特质，但 LLM 的人格特质与安全能力之间的关系仍然是一个谜。在本文中，我们基于可靠的MBTI-M量表发现大语言模型的人格特质与其安全能力密切相关，即毒性、隐私和公平性。同时，安全调整通常会增加各种大语言模型的外向性、感知和判断特征。根据这些发现，我们可以编辑大语言模型的人格特质并提高他们的安全表现，例如，将人格从 ISTJ 诱导到 ISTP 导致隐私和公平表现分别相对提高约 43% 和 10%。此外，我们发现具有不同性格特征的大语言模型对越狱的影响也不同。本研究开创了从人格角度研究LLM安全性的先河，为提高LLM安全性提供了新的见解。

基于 LLM 的视频搜索查询释义

分类： 多媒体

作者： Jiaxin Wu, Chong-Wah Ngo, Wing-Kwong Chan, Sheng-Hua Zhong

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12341v1

摘要： 文本到视频检索通过概念和嵌入搜索来回答用户查询。受概念库大小和训练数据量的限制，由于词汇外问题，在野外回答查询并不总是有效。此外，基于概念的搜索和基于嵌入的搜索都无法执行推理来合并与逻辑和空间约束混合的复杂查询的搜索结果。为了解决这些问题，我们利用大型语言模型 (LLM) 通过文本到文本 (T2T)、文本到图像 (T2I) 和图像到文本 (I2T) 转换来解释查询。这些转换将抽象概念重新表述为简单的单词，以解决词汇表之外的问题。此外，查询中的复杂关系可以解耦为更简单的子查询，在融合这些子查询的搜索结果时产生更好的检索性能。为了解决LLM幻觉问题，本文还提出了一种新颖的基于一致性的验证策略来过滤实际上不正确的释义查询。对 TRECVid 数据集上的临时视频搜索和已知项目搜索进行了广泛的实验。我们提供了关于如何通过查询释义来解决传统上难以回答的查询的经验见解。

Ada-KV：通过自适应预算分配优化 KV 缓存驱逐以实现高效的 LLM 推理

分类： 计算和语言, 人工智能

作者： Yuan Feng, Junlin Lv, Yukun Cao, Xike Xie, S. Kevin Zhou

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11550v2

摘要： 大型语言模型在各个领域都表现出色，但由于长序列推理需要大量的键值（KV）缓存，因此遇到了效率限制。最近的努力尝试在运行时驱逐非关键缓存元素，从而在给定内存预算内减少缓存大小，同时保持生成质量。我们对基本原则的重新审视表明，流行的方法旨在最小化驱逐损失的上限，量化为多头自注意力机制驱逐前和驱逐后输出之间的 L1 距离。此外，我们的分析表明，在缓存驱逐期间跨不同注意力头统一分配预算的常见做法会阻碍其预算利用率，从而对生成质量产生负面影响。根据这些发现，我们提出了一种简单而有效的自适应预算分配算法。该算法不仅在理论上优化了损失上限，而且通过与自注意力机制的内在模式保持一致，在实践中减少了驱逐损失。将该算法集成到两种先进方法中，我们开发了 Ada-SnapKV 和 Ada-Pyramid。对 16 个数据集和大海捞针测试的广泛评估证实，它们都显着提高了各种任务的性能。

不建议在大语言模型的分类任务中使用白化

分类： 计算和语言, 人工智能, 机器学习

作者： Ali Forooghi, Shaghayegh Sadeghi, Jianguo Lu

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12886v1

摘要： 句子嵌入是 NLP 的基石。白化被认为是提高从大型语言模型（LLM）获得的嵌入质量的有效操作。然而，我们发现美白的功效是模型依赖和任务依赖的。特别是，白化会退化分类任务的嵌入。该结论得到了大量实验的支持。我们还探索了各种美白操作，包括 PCA、ZCA、PCA-Cor、ZCA-Cor 和 Cholesky 美白。我们研究的副产品是嵌入大语言模型评估平台 SentEval+。

LLM 拥有一致的价值观吗？

分类： 计算和语言, 人工智能

作者： Naama Rozen, Gal Elidan, Amir Globerson, Ella Daniel

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12878v1

摘要： 价值观是人类行为的基本驱动力。大语言模型（LLM）技术正在不断改进，以实现类人对话。然而，很少有研究来研究大语言模型生成的文本中所展现的价值。在这里，我们通过查阅有关心理学价值结构的丰富文献来研究这个问题。我们询问大语言模型是否表现出与人类相同的价值结构，包括价值的排名以及价值之间的相关性。我们表明，这种分析的结果在很大程度上取决于大语言模型的提示方式，并且在特定的提示策略（称为“价值锚定”）下，与人类数据的一致性非常引人注目。我们的研究结果既可以提高我们对大语言模型价值观的理解，也可以引入评估大语言模型回答一致性的新方法。

大语言模型在环第 1 部分：用于生物医学文本翻译的专家小型 AI 模型

分类： 计算和语言, 人工智能, 68T35

作者： Bunyamin Keles, Murat Gunay, Serdar I. Caglar

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12126v1

摘要： 机器翻译对于医疗保健领域不可或缺，可以跨语言在全球范围内传播医学知识。然而，复杂的医学术语对实现足够的翻译质量和准确性提出了独特的挑战。这项研究引入了一种新颖的“LLMs-in-the-loop”方法来开发专门针对医学文本优化的监督神经机器翻译模型。虽然大型语言模型 (LLM) 已展现出强大的功能，但这项研究表明，在高质量域内（主要是合成）数据上训练的小型专用模型甚至可以胜过更大的 LLM。六种语言的定制平行语料库是根据科学文章、综合生成的临床文档和医学文本汇编而成的。我们的大语言模型在环方法采用合成数据生成、严格评估和代理编排来提高性能。我们使用 MarianMT 基础模型开发了小型医学翻译模型。我们引入了一个新的医学翻译测试数据集来标准化该领域的评估。在此测试集上使用 BLEU、METEOR、ROUGE 和 BERT 分数进行评估，我们基于 MarianMT 的模型优于 Google Translate、DeepL 和 GPT-4-Turbo。结果表明，我们的大语言模型在环方法与微调高质量、特定领域的数据相结合，使专用模型能够超越通用系统和一些大型系统。这项研究是更广泛的专家小模型系列的一部分，为未来医疗保健相关人工智能的发展铺平了道路，包括去身份识别和生物医学实体提取模型。我们的研究强调了定制神经翻译模型和大语言模型循环方法的潜力，通过改进的数据生成、评估、代理和建模技术来推进该领域的发展。

在 8 个 GPU 上高效训练 100 万序列长度的 7B LLM

分类： 机器学习, 分布式、并行和集群计算

作者： Pinxue Zhao, Hailin Zhang, Fangcheng Fu, Xiaonan Nie, Qibin Liu, Fang Yang, Yuanbo Peng, Dian Jiao, Shuaipeng Li, Jinbao Xue, Yangyu Tao, Bin Cui

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12117v1

摘要： 如今，大型语言模型 (LLM) 已使用扩展的上下文长度进行训练，以促进更具创造性的应用程序。然而，考虑到 GPU 内存的限制，长上下文训练提出了巨大的挑战。它不仅会导致训练期间大量的激活内存消耗，而且会产生相当大的内存碎片。为了促进长上下文训练，现有框架采用了重新计算和各种形式的并行性等策略。然而，这些技术依赖于冗余计算或广泛的通信，导致模型浮点运算利用率（MFU）较低。在本文中，我们提出了 MEMO，这是一种专为细粒度激活内存管理而设计的新型 LLM 训练框架。考虑到使用 FlashAttention 时计算的二次缩放和内存随序列长度的线性缩放，我们在每层前向传递后将消耗内存的激活卸载到 CPU 内存，并在后向传递期间获取它们。为了在不妨碍计算的情况下最大化激活交换，并避免耗尽有限的 CPU 内存，我们实现了令牌式激活重新计算和交换机制。此外，我们通过采用双层混合整数编程（MIP）方法来解决内存碎片问题，优化跨变压器层的内存重用。经验结果表明，与 Megatron-LM 和 DeepSpeed 相比，MEMO 的平均 MFU 分别提高了 2.42 倍和 2.26 倍。这一改进归功于 MEMO 能够最大限度地减少内存碎片、减少重新计算和密集通信，并避免由于碎片而与内存重组过程相关的延迟。通过利用细粒度的激活内存管理，MEMO 可以在 8 个 A800 GPU 上实现 100 万序列长度的 7B LLM 的高效训练，实现 52.30% 的 MFU。

使用大型语言模型（LLM）进行图学习：深入探讨模型的鲁棒性

分类： 机器学习, 人工智能

作者： Kai Guo, Zewen Liu, Zhikai Chen, Hongzhi Wen, Wei Jin, Jiliang Tang, Yi Chang

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12068v1

摘要： 大型语言模型 (LLM) 在各种自然语言处理任务中表现出了卓越的性能。最近，已经开发了几种基于大语言模型的管道来增强对具有文本属性的图的学习，展示了有希望的性能。然而，众所周知，图很容易受到对抗性攻击，目前还不清楚大语言模型在图学习方面是否表现出鲁棒性。为了解决这一差距，我们的工作旨在探索大语言模型在图对抗性攻击背景下的潜力。具体来说，我们从两个维度研究了图结构和文本扰动的鲁棒性：LLMs-as-Enhancers 和 LLMs-as-Predictors。通过大量的实验，我们发现，与浅层模型相比，LLM-as-Enhancer 和 LLM-as-Predictors 都提供了针对结构和文本攻击的卓越鲁棒性。基于这些发现，我们进行了额外的分析来调查根本原因。此外，我们公开了我们的基准库，以促进快速和公平的评估，并鼓励该领域持续的创新研究。

大语言模型的拒绝培训是否会推广到过去时态？

分类： 计算和语言, 人工智能, 机器学习

作者： Maksym Andriushchenko, Nicolas Flammarion

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11969v1

摘要： 拒绝培训被广泛用于防止大语言模型产生有害的、不良的或非法的产出。我们揭示了当前拒绝训练方法中一个奇怪的概括性差距：简单地用过去时态重新表述有害的请求（例如，“如何制作莫洛托夫鸡尾酒？”到“人们如何制作莫洛托夫鸡尾酒？”）通常足以越狱许多最先进的大语言模型。我们使用 GPT-3.5 Turbo 作为重构模型，在 Llama-3 8B、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o 和 R2D2 模型上系统地评估该方法。例如，使用 GPT-4 作为越狱法官，对 JailbreakBench 的有害请求进行 20 次过去时重新表述尝试，对 GPT-4o 的这种简单攻击的成功率从使用直接请求的 1% 提高到 88%。有趣的是，我们还发现将来时态的重新表述效果较差，这表明拒绝护栏倾向于认为过去的历史问题比假设的未来问题更温和。此外，我们对 GPT-3.5 Turbo 进行微调的实验表明，当过去时态示例明确包含在微调数据中时，防御过去的重新表述是可行的。总体而言，我们的研究结果强调，用于对齐研究模型的广泛使用的对齐技术（例如 SFT、RLHF 和对抗性训练）可能很脆弱，并且并不总是按预期进行概括。我们在 https://github.com/tml-epfl/llm-past-tense 提供代码和越狱工件。

NeedleBench：大语言模型可以在一百万个上下文窗口中进行检索和推理吗？

分类： 计算和语言

作者： Mo Li, Songyang Zhang, Yunxin Liu, Kai Chen

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11963v1

摘要： 在评估大型语言模型 (LLM) 的长上下文能力时，从原始长文档中识别与用户查询相关的内容是任何 LLM 回答基于长文本的问题的关键先决条件。我们提出了 NeedleBench，一个由一系列逐渐更具挑战性的任务组成的框架，用于评估双语长上下文能力，跨越多个长度间隔（4k、8k、32k、128k、200k、1000k 等）和不同的深度范围，允许在不同文本深度区域战略性地插入关键数据点，以严格测试模型在不同上下文中的检索和推理能力。我们使用 NeedleBench 框架来评估领先的开源模型识别与问题相关的关键信息并将该信息应用于双语长文本推理的能力。此外，我们提出了祖先追踪挑战（ATC）来模拟现实世界长上下文任务中可能出现的逻辑推理挑战的复杂性，为评估大语言模型处理复杂长上下文情况的能力提供了一种简单的方法。我们的结果表明，当前的大语言模型在实际的长上下文应用中还有很大的改进空间，因为他们正在努力应对现实世界长上下文任务中可能出现的逻辑推理挑战的复杂性。所有代码和资源都可以在 OpenCompass 上找到：https://github.com/open-compass/opencompass。

怎么了？利用大语言模型反馈完善会议摘要

分类： 计算和语言, 人工智能

作者： Frederic Kirstein, Terry Ruas, Bela Gipp

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11919v1

摘要： 由于数字化会议已成为一种常见做法，会议总结已成为一项关键任务。大型语言模型 (LLM) 在摘要方面显示出巨大的潜力，与传统方法相比，它提供了增强的连贯性和上下文理解。然而，他们仍然努力保持相关性并避免产生幻觉。我们引入了一种用于会议总结的多大语言模型纠正方法，使用模拟人工审核过程的两阶段过程：错误识别和摘要细化。我们发布了 QMSum Mistake，这是一个包含 200 个自动生成的会议摘要的数据集，由人工注释九种错误类型，包括结构错误、遗漏错误和不相关错误。我们的实验表明，大语言模型可以高精度地识别这些错误。我们将发现的错误转化为可操作的反馈，以提高通过相关性、信息性、简洁性和连贯性衡量的给定摘要的质量。这种事后细化利用多个大语言模型来验证输出质量，有效提高了摘要质量。我们用于会议总结的多大语言模型方法显示了类似复杂文本生成任务的潜力，这些任务需要稳健性、行动计划和针对目标的讨论。

InferAct：通过预先评估和人工反馈推断基于 LLM 的代理的安全操作

分类： 计算和语言, 人工智能

作者： Haishuo Fang, Xiaodan Zhu, Iryna Gurevych

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11843v1

摘要： 在现实应用中部署基于 LLM 的代理的一个关键要求是针对危险或不可逆转的错误的稳健性。然而，现有的研究缺乏对LLM智能体执行推理轨迹的预先评估的关注，导致在确保安全可靠的操作方面存在差距。为了探索更好的解决方案，本文引入了 InferAct，这是一种利用大语言模型的思维理论功能在执行关键操作之前主动检测潜在错误的新颖方法（例如，自动在线交易或网络购物中的“立即购买”）。 InferAct 还能够整合人类反馈，以防止不可逆转的风险并增强参与者代理的决策过程。对三个广泛使用的任务的实验证明了 InferAct 的有效性。所提出的解决方案为开发 LLM 代理提供了一种新颖的方法和具体贡献，这些代理可以安全地部署在涉及关键决策的不同环境中。

PipeInfer：使用异步流水线推测加速 LLM 推理

分类： 计算和语言, 分布式、并行和集群计算, 机器学习

作者： Branden Butler, Sixing Yu, Arya Mazaheri, Ali Jannesari

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11798v1

摘要： 跨计算机集群的大型语言模型 (LLM) 推理近年来已成为研究的焦点，许多加速技术都从 CPU 推测执行中汲取灵感。这些技术减少了与内存带宽相关的瓶颈，但也增加了每次推理运行的端到端延迟，需要高推测接受率来提高性能。与跨任务的可变接受率相结合，推测推理技术可能会导致性能下降。此外，管道并行设计需要许多用户请求才能保持最大利用率。作为补救措施，我们提出了 PipeInfer，这是一种流水线推测加速技术，可减少令牌间延迟并提高单请求场景的系统利用率，同时还提高对低推测接受率和低带宽互连的容忍度。与标准推测推理相比，PipeInfer 的生成速度提高了 2.15$\times$。 PipeInfer 通过连续异步推测和早期推理取消来实现其改进，前者通过同时运行单令牌推理和多个推测运行来提高延迟和生成速度，而后者通过跳过无效运行的计算来提高速度和延迟，即使在推理的中间。

大语言模型如何减轻刻板印象的危害？从搜索引擎研究中学习

分类： 计算和语言

作者： Alina Leidinger, Richard Rogers

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11733v1

摘要： 自 ChatGPT 发布以来，随着大语言模型的广泛普及以及公众监督的加强，商业模式的开发似乎将精力集中在有关法律责任的“安全”培训上，而牺牲了社会影响评估。这模仿了我们几年前在搜索引擎自动完成中观察到的类似趋势。我们借鉴 NLP 和搜索引擎审计的学术成果，以自动完成提示的方式提出了一种新颖的评估任务，以评估大语言模型的刻板印象。我们通过使用四个指标来评估大语言模型，即拒绝率、毒性、情绪和尊重，有或没有安全系统提示。我们的研究结果表明，系统提示的刻板印象输出有所改善，但总体而言，正在研究的大语言模型缺乏对某些被归类为有毒的危害的关注，特别是有关民族/种族和性取向的提示。提及交叉身份会引发过多的刻板印象。最后，我们讨论了这些发现对刻板印象危害的影响，考虑到即将到来的大语言模型和搜索的混合以及所采用的刻板印象缓解政策的选择。我们面向模型构建者、学者、NLP 从业者和政策制定者，呼吁对刻板印象的危害承担责任并提高认识，无论是培训数据管理、排行榜设计和使用，还是社会影响衡量。

CCoE：与专家合作的紧凑大语言模型

分类： 计算和语言, 人工智能

作者： Shaomang Huang, Jianfeng Pan, Hanzhong Zheng

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11686v1

摘要： 在大型语言模型 (LLM) 领域，LLM 展示了自然语言理解和生成方面的重要能力。随着大语言模型在各个领域的应用需求不断增长，如何高效地训练和构建具有不同领域专业知识但训练成本较低的模型是一个研究问题。我们提出了 CCoE 架构，这是一个将多个强大领域专家轻松耦合在一起以融合成一个大型 LLM 的框架，提供了利用不同领域专家 LLM 的集体方式。此外，培养多位专家LLM的大型协作对培训来源的要求很高。 CCoE 通过隔离其他专家并单独培训每个专家来绕过这个问题。 CCoE的设计通过CoE（专家协作）层集合了多个专家LLM。每个 CoE 层可以有一名或多名专家大语言模型。专家大语言模型具有不同数量的层次，并且针对不同领域的任务接受过良好的培训。每位专家都经过精心调整，能够获得与 SOTA 领域大语言模型相当的结果。我们由代码、数学、法律、文本转 SQL 和医学领域的 5 名专家组成。结果表明，我们的 CCoE 框架可以轻松有效地在不同领域的原始基础模型上提高近 10%-20% 的性能，但在训练和推理方面使用的资源更少。

优化 LLM 中的 KV 缓存驱逐：自适应分配以提高预算利用率

分类： 计算和语言, 人工智能

作者： Yuan Feng, Junlin Lv, Yukun Cao, Xike Xie, S. Kevin Zhou

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11550v1

摘要： 大型语言模型在各个领域都表现出色，但由于长序列推理所需的大量 KV 缓存而遇到效率限制。许多努力尝试在运行时驱逐非关键缓存元素，从而在给定内存预算内减少缓存大小，同时保持生成质量。我们对其基本原则的重新审查发现，现行策略的本质目的是在特定预算分配范围内最大限度地减少驱逐损失的上限。然而，我们观察到，目前在驱逐过程中向不同注意力头统一分配预算的做法往往会降低驱逐后生成的质量。鉴于这些发现，我们提出了一种简单而有效的自适应分配算法，不仅在理论上保证其损失上限不超过以前的均匀分配方法，而且有效地符合自注意力机制的特点，从而在实践中减少上限。此外，将该算法与两种最先进的方法集成，产生了 Ada-SnapKV 和 Ada-Pyramid。跨 16 个数据集的广泛实验验证和大海捞针测试证实，Ada-SnapKV 和 Ada-Pyramid 实现了进一步的增强，在最先进的性能方面建立了新的基准。

不信任机器人：在人类与大语言模型的野外对话中发现个人信息披露

分类： 计算和语言

作者： Niloofar Mireshghallah, Maria Antoniak, Yash More, Yejin Choi, Golnoosh Farnadi

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11438v1

摘要： 衡量人类与聊天机器人交互中的个人信息披露可以更好地了解用户的人工智能素养，并促进大型语言模型 (LLM) 的隐私研究。我们对真实用户向商业 GPT 模型披露的个人信息进行了广泛、细致的分析，调查了个人身份信息和敏感信息的泄露情况。为了了解用户向聊天机器人透露的上下文，我们基于对自然发生的对话的定性和定量分析，开发了任务和敏感主题的分类法。我们讨论了这些潜在的隐私危害，并观察到：(1) 个人身份信息 (PII) 出现在意外环境中，例如翻译或代码编辑中（分别为 48% 和 16% 的时间），以及 (2) 仅 PII 检测不足以捕捉人类与聊天机器人交互中常见的敏感话题，例如详细的性偏好或特定的药物使用习惯。我们认为，这些高披露率对于研究人员和数据管理者来说非常重要，我们呼吁设计适当的推动机制来帮助用户调节他们的互动。

隐藏在隐藏状态中的状态：大语言模型隐式地出现离散状态表示

分类： 计算和语言

作者： Junhao Chen, Shengding Hu, Zhiyuan Liu, Maosong Sun

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11421v1

摘要： 大型语言模型（LLM）展现出各种新兴能力。在这些能力中，有些能力可能揭示模型的内部工作机制。在本文中，我们揭示了模型中的一种新颖的新兴能力：无需依赖思想链逐步解决方案即可执行扩展计算序列的内在能力。值得注意的是，最先进的模型可以直接输出两位数加法的结果，长度最多可达 15 个加数。我们假设该模型在其隐藏状态中出现隐式离散状态表示（IDSR）并在内部执行符号计算。为了检验这个假设，我们设计了一系列研究隐藏状态的实验。具体来说，我们首先确认 IDSR 存在。然后，我们从层、数字和序列的角度提供了有关 IDSR 形成的有趣观察。最后，我们确认模型确实使用 IDSR 来生成最终答案。然而，我们还发现，在当前的开源模型中，这些状态表示远非无损，导致其最终性能不准确。我们的工作对大语言模型的符号计算能力和潜在机制进行了新颖的探索。

LOTUS：利用大语言模型对非结构化和结构化数据表进行语义查询

分类： 数据库, 人工智能, 计算和语言

作者： Liana Patel, Siddharth Jha, Carlos Guestrin, Matei Zaharia

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11418v1

摘要： 语言模型 (LM) 的语义功能有潜力对海量知识库进行丰富的分析和推理。不幸的是，现有系统缺乏高级抽象来大规模执行语义查询。我们引入了语义运算符，这是一种声明性编程接口，它通过可组合的基于人工智能的操作扩展了关系模型，用于对数据集进行语义查询（例如，使用自然语言标准对记录进行排序或聚合）。每个算子都可以通过多种方式实现和优化，为类似于关系算子的执行计划开辟了丰富的空间。我们在 LOTUS 中实现了我们的运算符并对其进行了一些优化，LOTUS 是一个具有类似 Pandas API 的开源查询引擎。我们在一系列实际应用中展示了 LOTUS 的有效性，包括事实检查、极端多标签分类和搜索。我们发现 LOTUS 的编程模型具有很强的表现力，能够以较低的开发开销捕获最先进的查询管道。具体来说，在 FEVER 数据集上，LOTUS 的程序可以用几行代码重现 FacTool（一种最新的最先进的事实检查管道），并实现一个新的管道，将准确性提高 9.5%%$，同时提供执行时间缩短 $7-34\times$。在 BioDEX 数据集上的极端多标签分类任务中，LOTUS 通过其连接运算符再现了最先进的结果质量，同时提供了比朴素连接运行速度快 800 倍的高效算法。在搜索和排名应用中，LOTUS 允许简单的运算符组合，以实现比普通检索器和重新排序器高 $5.9 - 49.4%$ 的 nDCG@10，同时还提供查询效率，执行速度降低 $1.67 - 10\times$比先前作品使用的基于 LM 的排名方法花费的时间。 LOTUS 可在 https://github.com/stanford-futuredata/lotus 上公开获取。

古代韩文档案翻译：统计短语对齐、大语言模型情境学习和跨方法论的比较分析

分类： 计算和语言

作者： Sojung Lucia Kim, Taehong Jang, Joonmo Ahn

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11368v1

摘要： 本研究旨在比较使用稀疏语料库翻译古代文本的三种方法：（1）短语对齐的传统统计翻译方法，（2）上下文中的大语言模型学习，以及（3）提出的方法间方法 - 使用统计机器翻译方法来自统一的源目标语料库集的句子片段标记。本研究中提出的方法的 BLEU 分数为 36.71，超过了 SOLAR-10.7B 上下文学习和现有最好的 Seq2Seq 模型的分数。提出了进一步的分析和讨论。

建立新的联系：大语言模型作为《纽约时报》联系文字游戏的谜题生成器

分类： 人工智能, 计算和语言

作者： Tim Merino, Sam Earle, Ryan Sudhakaran, Shyam Sudhakaran, Julian Togelius

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11240v1

摘要： Connections 拼图是《纽约时报》(NYT) 每日发布的一款单词联想游戏。在这个游戏中，玩家被要求找到由一个共同主题连接的四个单词组。虽然解决给定的连接难题需要语义知识和抽象推理，但生成新颖的难题还需要某种形式的元认知：生成器必须能够准确地模拟潜在求解器的下游推理。在本文中，我们研究了 GPT 大型语言模型 (LLM) 系列为人类玩家生成具有挑战性和创造性的文字游戏的能力。我们首先分析文字游戏 Connections 及其作为程序内容生成 (PCG) 领域带来的独特挑战。然后，我们提出了一种通过采用思想树 (ToT) 提示方法，使用大语言模型生成连接谜题的方法。我们通过进行用户研究来评估这种方法，要求人类玩家将人工智能生成的谜题与已发布的 Connections 谜题进行比较。我们的研究结果表明，大语言模型是有能力的谜题创造者，并且可以根据人类用户的判断，生成各种有趣、具有挑战性和创造性的连接谜题。

揭开真相：大语言模型真的懂图表吗？深入探讨一致性和稳健性

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 人机交互, 机器学习

作者： Srija Mukhopadhyay, Adnan Qidwai, Aparna Garimella, Pritika Ramu, Vivek Gupta, Dan Roth

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11229v1

摘要： 图表问答（CQA）是视觉语言理解的一个重要领域。然而，该领域当前视觉语言模型（VLM）的稳健性和一致性仍有待探索。本文评估了专门为本研究开发的综合数据集上最先进的 VLM，涵盖不同的问题类别和图表格式。我们研究两个关键方面：1）模型处理不同级别的图表和问题复杂性的能力，2）它们在相同基础数据的不同视觉表示中的稳健性。我们的分析揭示了基于问题和图表类型的显着性能变化，突出了当前模型的优点和缺点。此外，我们还确定了需要改进的领域，并提出了未来的研究方向，以构建更强大、更可靠的 CQA 系统。这项研究揭示了当前模型的局限性，并为该领域的未来发展铺平了道路。

讨论大语言模型作为定性分析工具的框架

分类： 人机交互

作者： James Eschrich, Sarah Sterman

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11198v1

摘要： 我们回顾了定性研究中有关科学哲学的论述和认知语言学的证据，以便为讨论使用大型语言模型（LLM）支持定性分析过程奠定基础。该框架涉及两个关键问题：“大语言模型是提出还是反驳定性模型？”以及“人类研究人员是否直接检查大语言模型的决策？”。然后，我们讨论该框架的含义：使用大语言模型来提供人工审查的反例代表了将大语言模型纳入定性研究过程的有希望的空间。这个空间很有前途，因为它是研究人员根据各种哲学假设进行工作的重叠场所，能够在工具和实践上进行富有成效的跨范式协作。

通过 LLM 进行惯性约束聚变预测

分类： 机器学习, 人工智能

作者： Mingkai Chen, Taowen Wang, James Chenhao Liang, Chuan Liu, Chunshu Wu, Qifan Wang, Ying Nian Wu, Michael Huang, Chuang Ren, Ang Li, Tong Geng, Dongfang Liu

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11098v1

摘要： 受控聚变能被认为对人类文明的进步至关重要。在这项研究中，我们介绍了 $\textbf{Fusion-LLM}$，这是一种大型语言模型 (LLM) 与经典储层计算范式的新颖集成，旨在解决惯性约束融合 ($\texttt{ICF}$) 中的挑战。我们的方法提供了几个关键贡献：首先，我们提出了 $\textit{LLM 锚定储层}$，通过聚变特定的提示进行增强，从而能够准确预测内爆期间的热电子动力学。其次，我们开发了$\textit{信号消化通道}$来在时间和空间上描述随时间变化的激光强度，捕获$\texttt{ICF}$输入的独特特征。最后，我们设计了 $\textit{Confidence Scanner}$ 来量化预测的置信水平，为领域专家设计 $\texttt{ICF}$ 流程提供宝贵的见解。大量的实验证明了我们的方法的优越性能，在预测硬 X 射线（$\texttt{HXR }$) $\texttt{ICF}$ 任务的能量，它提供了与并发最佳系统的最先进的比较。此外，我们还推出了$\textbf{Fusion4AI}$，这是第一个基于物理实验的$\texttt{ICF}$基准，旨在培育等离子体物理研究中的新思想，并增强大语言模型在科学探索中的实用性。总的来说，我们的工作致力于在人工智能和等离子体科学之间建立创新的协同作用，以推进聚变能源的发展。

查找表量化 LLM 的快速矩阵乘法

分类： 机器学习, 计算和语言, 分布式、并行和集群计算

作者： Han Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10960v1

摘要： 大型语言模型 (LLM) 的部署通常受到内存带宽的限制，其中主要瓶颈是将模型参数从 GPU 全局内存传输到其寄存器的成本。当与融合反量化和 matmul 操作的自定义内核结合使用时，仅权重量化可以通过减少内存移动量来实现更快的推理。然而，为权重量化 LLM 开发高性能内核面临着巨大的挑战，特别是当权重被压缩为具有非均匀查找表 (LUT) 量化的非均匀可分位宽（例如 3 位）时。本文介绍了 FLUTE，一种用于 LUT 量化 LLM 的灵活查找表引擎，它使用量化权重矩阵的离线重构来最大限度地减少与解包相关的位操作，以及查找表的矢量化和复制来减轻共享内存带宽限制。在批量大小 < 32 且量化组大小为 128（LLM 推理中的典型情况）时，FLUTE 内核可以比现有 GEMM 内核快 2-4 倍。作为 FLUTE 的应用，我们探索了基于查找表的 NormalFloat 量化的简单扩展，并将其应用于将 LLaMA3 量化为各种配置，获得针对强基线的有竞争力的量化性能，同时获得 1.5 至 2 倍的端到端吞吐量增长。

利用大语言模型受访者进行项目评估：心理测量分析

分类： 计算机与社会, 人工智能, 计算和语言

作者： Yunting Liu, Shreya Bhandari, Zachary A. Pardos

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10899v1

摘要： 有效的教育测量在很大程度上依赖于精心设计的项目池的管理（即拥有正确的心理测量属性）。然而，项目校准既耗时又昂贵，需要足够数量的受访者进行响应过程。我们探索使用六种不同的 LLM（GPT-3.5、GPT-4、Llama 2、Llama 3、Gemini-Pro 和 Cohere Command R Plus）以及它们的各种组合，使用抽样方法产生具有与人类答案类似的心理测量特性的响应。结果表明，一些大语言模型在大学代数方面的熟练程度与大学生相当或更高。由于能力分布狭窄，没有一个大语言模型能够模仿人类受访者，但大语言模型的整体可以更好地模拟大学生的能力分布。与人类校准的对应项相比，LLM 受访者校准的项目参数具有很高的相关性（例如，GPT-3.5 > 0.8），并且与人类子集的参数非常相似（例如 0.02 Spearman 相关差）。评估了几种增强策略的相对性能，重采样方法被证明是最有效的，将 Spearman 相关性从 0.89（仅限人类）提高到 0.93（增强人类）。

嘿，那是我的模特！介绍链和哈希，一种 LLM 指纹识别技术

分类： 密码学和安全, 人工智能

作者： Mark Russinovich, Ahmed Salem

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10887v1

摘要： 随着人们越来越担心大型语言模型 (LLM) 容易被盗窃和滥用，对指纹识别模型的需求也随之增加。在这种情况下，指纹识别意味着模型所有者可以将给定模型链接到其原始版本，从而识别其模型是否被滥用或已被完全窃取。在本文中，我们首先定义了成功的指纹应满足的五个属性；即指纹应该是透明的、高效的、持久的、鲁棒的、不可伪造的。接下来，我们提出了 Chain & Hash，一种新的、简单的指纹识别方法，它实现了具有加密风格的指纹，从而实现了所有这些属性。链和哈希涉及生成一组问题（指纹）以及一组潜在答案。使用安全散列技术将这些元素散列在一起，以选择每个问题的值，从而提供不可伪造的财产，防止对手声称虚假所有权。我们在多个模型上评估了链和哈希技术，并证明了其针对良性转换的鲁棒性，例如对不同数据集的微调以及擦除指纹的对抗性尝试。最后，我们的实验证明了实现 Chain & Hash 的效率及其实用性，其中指纹模型在不同的基准测试中实现了与非指纹模型几乎相同的性能。

SLIP：使用权重分解保护大语言模型 IP

分类： 密码学和安全, 机器学习, 机器学习

作者： Yehonathan Refael, Adam Hakim, Lev Greenberg, Tal Aviv, Satya Lokam, Ben Fishman, Shachar Seidman

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10886v1

摘要： 大型语言模型（LLM）最近在学术界和工业界得到了广泛采用。随着这些模型的发展，它们成为有价值的知识产权 (IP)，反映了其所有者的巨大投资。此外，基于云的部署的高成本激发了人们对部署到边缘设备的兴趣，但这可能会导致有价值的参数被盗窃和未经授权的使用。当前保护边缘模型 IP 的方法在实用性、准确性损失或需求适用性方面存在局限性。在本文中，我们介绍了一种名为 SLIP 的新型混合推理算法，旨在保护边缘部署的模型免遭盗窃。 SLIP 是第一个混合协议，既适用于实际应用，又可证明安全，同时精度下降为零，对延迟的影响最小。它涉及在两种计算资源之间划分模型，一种安全但昂贵，另一种具有成本效益但易受攻击。这是通过矩阵分解实现的，确保安全资源在执行最少量的计算时保留模型 IP 的最大敏感部分，对于易受攻击的资源反之亦然。重要的是，该协议包括安全保证，可防止攻击者利用分区来推断安全信息。最后，我们提出的实验结果表明我们的方法的稳健性和有效性，将其定位为保护大语言模型的引人注目的解决方案。

MetaLLM：用于包装大语言模型的高性能且经济高效的动态框架

分类： 机器学习, 人工智能

作者： Quang H. Nguyen, Duy C. Hoang, Juliette Decugis, Saurav Manchanda, Nitesh V. Chawla, Khoa D. Doan

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10834v1

摘要： 机器学习 (ML) 的快速进步催生了许多在各种任务和领域表现出色的大型语言模型 (LLM)。这些大语言模型在计算或定价方面具有不同的能力和成本。由于每个查询的需求可能会有所不同，例如，由于查询的领域或其复杂性，因此在应用程序中默认选择一个LLM通常不是最佳选择，无论它是最大的、最昂贵的，还是平均水平最好的一个测试性能。因此，为申请选择既准确又经济高效的大语言模型仍然是一个挑战。在本文中，我们介绍了 MetaLLM，这是一个框架，可以动态且智能地将每个查询路由到用于分类任务的最佳 LLM（在多个可用的 LLM 中），从而显着提高准确性和成本效益。通过将选择问题描述为多臂老虎机，MetaLLM 在不确定性下平衡了预测准确性和成本效率。我们的实验在 OpenAI 的 GPT 模型、Amazon 的 Titan、Anthropic 的 Claude 和 Meta 的 LLaMa 等流行的 LLM 平台上进行，展示了 MetaLLM 在现实场景中的功效，为未来超越分类任务的扩展奠定了基础。

LLM 电路分析在整个培训和规模中保持一致

分类： 机器学习, 计算和语言

作者： Curt Tigges, Michael Hanna, Qinan Yu, Stella Biderman

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10827v1

摘要： 目前部署的大多数大型语言模型 (LLM) 都经过持续训练或额外的微调。相比之下，大多数对大语言模型内部机制的研究都集中在一个快照（预训练结束）的模型上，这就提出了他们的结果是否可以推广到现实世界环境的问题。随着时间的推移，现有的机制研究主要集中在仅编码器或玩具模型上，它们与大多数部署的模型有很大不同。在这项研究中，我们跟踪了模型机制（作为电路进行操作）如何在仅解码器的 LLM 中的 3000 亿个令牌训练中出现和演变，模型的参数范围从 7000 万到 28 亿个。我们发现，任务能力和支持它们的功能组件在不同规模上以相似的令牌数量一致出现。此外，尽管随着时间的推移，这些组件可能由不同的注意力头实现，但它们实现的总体算法仍然存在。令人惊讶的是，这些算法和其中涉及的组件类型都可以跨模型规模复制。这些结果表明，在预训练结束时对小模型进行的电路分析可以提供在额外的预训练和超过模型规模后仍然适用的见解。

GraphEval：基于知识图谱的LLM幻觉评估框架

分类： 计算和语言, 人工智能, 机器学习

作者： Hannah Sansford, Nicholas Richardson, Hermina Petric Maretic, Juba Nait Saada

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10793v1

摘要： 评估大语言模型 (LLM) 响应并检测与所提供知识相关的不一致（也称为幻觉）的方法对于 LLM 应用程序变得越来越重要。当前的指标无法提供可解释的决策、系统地检查响应中的所有信息，而且计算成本往往太高，无法在实践中使用。我们提出了 GraphEval：一种基于知识图（KG）结构中表示信息的幻觉评估框架。我们的方法识别了 KG 中容易产生幻觉的特定三元组，因此比以前的方法更深入地了解响应中发生幻觉的位置（如果有的话）。此外，与使用原始 NLI 模型相比，将我们的方法与最先进的自然语言推理 (NLI) 模型结合使用，可以提高各种幻觉基准的平衡准确性。最后，我们通过利用 KG 的结构探索使用 GraphEval 进行幻觉纠正，我们将这种方法命名为 GraphCorrect，并证明大多数幻觉确实可以纠正。

密码本大语言模型：调整政治学密码本以供大语言模型使用并调整大语言模型以遵循密码本

分类： 计算和语言

作者： Andrew Halterman, Katherine A. Keith

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10747v1

摘要： 社会科学家在编码非结构化政治文本时几乎普遍使用密码本（可操作结构和概述注释程序的文档）。最近，为了降低手动注释成本，政治科学家开始寻求生成大型语言模型（LLM）来标记和分析文本数据。然而，之前使用 LLM 进行分类的工作隐含地依赖于通用标签假设——仅使用类标签或最小定义以及 LLM 在预训练期间归纳学习的信息就可以对文档进行正确分类。相比之下，我们认为关心有效测量的政治科学家应该做出密码本构造标签假设——大语言模型应该遵循密码本中提供的构造/标签的定义和排除标准。在这项工作中，我们收集和整理了三个政治科学数据集及其原始密码本，并进行了一组实验，以了解 LLM 是否符合密码本指令、重写密码本是否可以提高性能，以及是否在密码本-文档-标签元组上对 LLM 进行指令调整提高了零样本分类的性能。使用 Mistral 7B Instruct 作为我们的大语言模型，我们发现重新构建原始码本可以在零样本性能方面带来一定的收益，但该模型仍然难以遵守码本的约束。乐观地讲，在我们的一个数据集上对 Mistral 进行指令调整可比零样本推理带来显着的收益（微 F1 为 0.76 与 0.53）。我们希望我们对特定于密码本的任务、假设和指令调整管道的概念化以及我们的半结构化 LLM 密码本格式将帮助政治科学家轻松适应 LLM 时代。

CLAVE：用于评估 LLM 生成的响应值的自适应框架

分类： 计算和语言, 人工智能

作者： Jing Yao, Xiaoyuan Yi, Xing Xie

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10725v1

摘要： 大型语言模型（LLM）的快速进步带来了潜在风险，例如生成不道德的内容。评估 LLM 的价值观有助于暴露其偏差，但需要依赖无参考评估器（例如微调的 LLM 或 GPT-4 等闭源评估器）来识别生成的响应中反映的价值观。然而，这些评估者在开放式价值评估中面临着两个挑战：他们应该以最少的注释与不断变化的人类价值定义保持一致，反对他们自己的偏见（适应性），并稳健地检测不同的价值表达和场景（普遍性）。为了应对这些挑战，我们引入了 CLAVE，这是一种新颖的框架，它集成了两个互补的大语言模型，一个大的框架利用其广泛的知识和普遍性，从一些人类标签中提取高层次的价值概念，另一个较小的框架在这种基础上进行了微调。概念以更好地符合人类价值理解。这种双模型方法可以使用每种价值类型使用 <100 个人工标记样本的任何价值系统进行校准。然后我们提出了 ValEval，一个综合数据集，包含跨不同领域的 13k+（文本、值、标签）元组，涵盖三个主要价值系统。我们对 12 名以上受欢迎的 LLM 评估员的能力进行基准测试，并分析他们的优势和劣势。我们的研究结果表明，将微调的小型模型与基于提示的大型模型相结合可以在价值评估中实现卓越的平衡。

DOCBENCH：评估基于 LLM 的文档阅读系统的基准

分类： 计算和语言

作者： Anni Zou, Wenhao Yu, Hongming Zhang, Kaixin Ma, Deng Cai, Zhuosheng Zhang, Hai Zhao, Dong Yu

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10701v1

摘要： 最近，大型语言模型（LLM）开发人员对基于LLM的文档阅读系统越来越感兴趣，该系统使用户能够上传自己的文档并提出与文档内容相关的问题，而不仅仅是简单的阅读理解任务。因此，这些系统经过精心设计，可以解决文件解析、元数据提取、多模式信息理解和长上下文阅读等挑战。然而，当前不存在基准来评估它们在这种情况下的性能，其中提供原始文件和问题作为输入，并期望相应的响应作为输出。在本文中，我们介绍了 DocBench，这是一个旨在评估基于 LLM 的文档阅读系统的新基准。我们的基准测试涉及精心设计的过程，包括招募人类注释者和生成综合问题。它包括 229 个真实文档和 1,102 个问题，跨越五个不同领域和四种主要问题类型。我们评估可通过 Web 界面或 API 访问的基于 LLM 的专有系统，以及采用开源 LLM 的解析然后读取管道。我们的评估揭示了现有的基于大语言模型的文档阅读系统与人类表现之间的显着差距，强调了开发熟练系统的挑战。总而言之，DocBench旨在建立一个标准化基准，用于在不同的现实场景下评估基于LLM的文档阅读系统，从而指导该研究领域的未来发展。

排除杂乱：大语言模型在系统文献综述中有效过滤的潜力

分类： 机器学习, 数字图书馆, 人机交互, H.5.2

作者： Lucas Joos, Daniel A. Keim, Maximilian T. Fischer

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10652v1

摘要： 在学术研究中，系统的文献综述是基础性的且高度相关的，但由于涉及大量出版物和劳动密集型过程，因此创建起来很乏味。通过基于关键词的过滤技术等传统手段系统地选择相关论文有时可能不够充分，受到语义模糊和术语不一致的困扰，这可能导致次优结果。为了减轻所需的大量手动筛选，我们探索并评估了使用大型语言模型 (LLM) 来提高文献综述筛选的效率、速度和精度，从而减少所需的手动筛选量的潜力。通过使用模型作为仅作用于结构化数据库的分类代理，我们可以防止大语言模型固有的常见问题，例如幻觉。我们在构建最近的文献调查论文期间评估了这种设置的现实世界性能，最初考虑了超过 8,300 篇潜在相关文章，并将其与同一数据集上的人类表现进行比较。我们的研究结果表明，使用 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Flash 或 Llama3 等先进的 LLM 并进行简单提示，可以显着减少文献筛选所需的时间 - 从通常需要几周的手动研究缩短到只需几分钟。同时，我们至关重要地表明，假阴性确实可以通过共识方案进行控制，实现召回率 >98.8%，达到甚至超过典型的人为错误阈值，从而也提供了更准确和相关的文章选择。我们的研究不仅展示了文献综述方法的实质性改进，而且为负责任的人工智能在学术研究实践中的进一步整合和未来广泛应用奠定了基础。

Arena 学习：通过模拟聊天机器人 Arena 为大语言模型培训后构建数据飞轮

分类： 计算和语言, 人工智能, 机器学习

作者： Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Qingwei Lin, Jianguang Lou, Shifeng Chen, Yansong Tang, Weizhu Chen

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10627v1

摘要： 评估大型语言模型 (LLM) 的有效性提出了巨大的挑战。在在线聊天机器人竞技场中进行人工注释的战斗的方法是一种非常有效的评估技术。然而，这种方法受到人工注释所需的成本和时间的限制。在本文中，我们介绍了竞技场学习，这是一种创新的离线策略，旨在使用人工智能驱动的注释来模拟这些竞技场战斗来评估战斗结果，从而通过监督微调和强化学习促进目标模型的持续改进。竞技场学习包括两个关键要素。首先，它通过 WizardArena 确保精确评估并保持离线模拟和在线比赛之间的一致性，WizardArena 是一个管道，旨在使用精心设计的离线测试集准确预测各种模型的 Elo 排名。我们的结果表明，WizardArena 的预测与在线竞技场的预测非常一致。二是根据战斗结果和细化模型不断完善训练数据。我们建立了一个数据飞轮，通过根据战斗结果突出目标模型的弱点来迭代更新训练数据，使其能够从多个不同模型的优点中学习。我们应用 Arena Learning 来训练我们的目标模型 WizardLM-$\beta$，并展示了各种指标的显着性能增强。这种完全自动化的培训和评估流程为通过培训后各种大语言模型的持续进步奠定了基础。值得注意的是，Arena Learning 在 WizardLM-2 的成功中发挥着关键作用，本文既是对其功效的探索，也是未来与 WizardLM-2 及其衍生物相关的讨论的基础研究。

使用基于 LLM 的增强和有效的数据选择来提高零样本跨语言性能

分类： 计算和语言, 人工智能

作者： Barah Fazili, Ashish Sunil Agrawal, Preethi Jyothi

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10582v1

摘要： 大型语言模型 (LLM) 是非常熟练的文本生成器。我们利用大语言模型的这种能力，通过零样本提示生成特定于任务的数据，并促进资源匮乏的目标语言的跨语言迁移。给定源语言中的特定任务数据和基于该数据训练的教师模型，我们建议使用该教师来标记 LLM 生成，并采用一组使用教师标签概率的简单数据选择策略。与使用所有 LLM 代（没有任何子集选择）相比，我们的数据选择策略帮助我们识别不同代的代表性子集，有助于提高零样本精度，同时提高效率。我们还强调了影响跨语言性能的其他重要设计选择，例如源数据翻译的使用以及哪些标签最适合大语言模型生成。我们观察到，在多种目标语言（印地语、马拉地语、乌尔都语、斯瓦希里语）和领域中，情感分析和自然语言推理任务的性能显着提升（最高可达 7.13 绝对分，平均 1.5 绝对分）。

CIBench：使用代码解释器插件评估您的大语言模型

分类： 计算和语言

作者： Songyang Zhang, Chuyu Zhang, Yingfan Hu, Haowen Shen, Kuikun Liu, Zerun Ma, Fengzhe Zhou, Wenwei Zhang, Xuming He, Dahua Lin, Kai Chen

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10499v1

摘要： 虽然使用外部工具解决复杂问题的基于 LLM 的代理已经取得了重大进展，但对其能力进行基准测试具有挑战性，从而阻碍了对其局限性的清晰了解。在本文中，我们提出了一个名为 CIBench 的交互式评估框架，以全面评估大语言模型利用代码解释器执行数据科学任务的能力。我们的评估框架包括一个评估数据集和两种评估模式。评估数据集是使用大语言模型-人类合作方法构建的，并通过利用连续和交互式 IPython 会话来模拟真实的工作流程。这两种评估模式评估大语言模型在有或没有人工协助的情况下的能力。我们进行了广泛的实验来分析 24 位大语言模型在 CIBench 上的能力，并为未来大语言模型在代码解释器利用率方面提供宝贵的见解。

LLM微调的学习动力

分类： 机器学习, 人工智能, 计算和语言

作者： Yi Ren, Danica J. Sutherland

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10490v1

摘要： 学习动态描述了特定训练示例的学习如何影响模型对其他示例的预测，为我们提供了理解深度学习系统行为的强大工具。我们通过分析不同响应之间的逐步分解和累积影响来研究大型语言模型在微调过程中的学习动态。我们的框架允许对有关指令调整和偏好调整的流行算法训练的许多有趣的观察结果进行统一解释。该分析不仅解释了这些方法的好处从何而来，而且启发了一种简单有效的方法来进一步提高对准性能。实验代码可在 https://github.com/Joshua-Ren/Learning_dynamics_LLM 获取。

好的、坏的和贪婪的：大语言模型的评估不应忽视非决定论

分类： 计算和语言, 人工智能

作者： Yifan Song, Guoyin Wang, Sujian Li, Bill Yuchen Lin

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10457v1

摘要： 当前对大型语言模型 (LLM) 的评估常常忽视非确定性，通常关注每个示例的单个输出。这限制了我们对现实应用中大语言模型表现变化的理解。我们的研究通过探索有关贪婪解码和采样之间的性能差异的关键问题、确定基准在非确定性方面的一致性以及检查独特的模型行为来解决这个问题。通过大量的实验，我们观察到对于大多数评估任务来说，贪婪解码通常优于采样方法。我们还观察到不同 LLM 规模和对齐方法的性能一致，并指出对齐可以减少抽样方差。此外，我们的最佳 N 抽样方法表明，较小的大语言模型可以匹配或超越较大的模型，例如 GPT-4-Turbo，凸显了较小的大语言模型尚未开发的潜力。这项研究表明了在大语言模型评估中考虑非确定性的重要性，并为未来大语言模型的发展和评估提供了见解。

通过大语言模型文本表示增强药物推荐

分类： 计算和语言

作者： Yu-Tzu Lee

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10453v1

摘要： 现有的药物推荐模型大多仅使用医疗代码等结构化数据进行预测，其余大量非结构化或半结构化数据未得到充分利用。为了有效提高利用率，我们提出了一种利用大语言模型（LLM）文本表示来增强药物推荐的方法。大语言模型利用强大的语言理解和生成能力，能够从复杂而冗长的非结构化数据（例如包含复杂术语的临床记录）中提取信息。该方法可以应用于我们选择的几个现有基础模型，并通过在两个不同数据集上的文本和医疗代码实验的组合表示来提高药物推荐性能。单独的 LLM 文本表示甚至可以表现出与单独的医学代码表示相当的能力。总的来说，这是一种通用方法，可以应用于其他模型以改进推荐。

CodeV：通过多级总结为大语言模型提供 Verilog 生成能力

分类： 编程语言, 人工智能

作者： Yang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10424v2

摘要： 现代处理器设计日益复杂且成本高昂，导致对处理器设计自动化的需求激增。指令调整的大型语言模型 (LLM) 在为 Python 等通用编程语言自动生成代码方面表现出了卓越的性能。然而，由于缺乏高质量的指令调优数据，这些方法在像 Verilog 这样的硬件描述语言 (HDL) 上失败，因为即使是像 GPT-3.5 这样的高级 LLM 在 Verilog 生成上也表现出有限的性能。关于这个问题，我们观察到（1）从现实世界收集的 Verilog 代码比大语言模型生成的代码具有更高的质量。 (2) 像 GPT-3.5 这样的大语言模型擅长总结 Verilog 代码而不是生成它。基于这些观察，本文介绍了 CodeV，这是一系列开源指令调整的 Verilog 生成 LLM。我们不是先生成描述，然后从高级LLM获取相应的代码，而是用Verilog代码提示LLM，让LLM通过多级摘要生成相应的自然语言描述。实验结果表明，CodeV 在 VerilogEval 中分别相对优于之前的开源 SOTA 14.4%（VerilogEval 中的 BetterV）和 11.3%（RTLLM 中的 RTLCoder），并且在 VerilogEval 中相对优于之前的商业 SOTA GPT-4 22.1%。

BiasAlert：大语言模型社交偏见检测的即插即用工具

分类： 计算和语言

作者： Zhiting Fan, Ruizhe Chen, Ruiling Xu, Zuozhu Liu

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10241v1

摘要： 随着大型语言模型 (LLM) 的快速发展，评估其偏差变得越来越重要。然而，现有的评估方法依赖于固定形式的输出，无法适应大语言模型灵活的开放文本生成场景（例如句子完成和问答）。为了解决这个问题，我们引入了 BiasAlert，这是一种即插即用的工具，旨在检测开放文本生成的大语言模型中的社会偏见。 BiasAlert 将外部人类知识与固有推理能力相结合，以可靠地检测偏差。大量实验表明，BiasAlert 在检测偏差方面明显优于 GPT4-as-A-Judge 等现有最先进的方法。此外，通过应用研究，我们展示了 BiasAlert 在可靠的 LLM 偏差评估和跨各种场景的偏差缓解方面的实用性。模型和代码将公开发布。

向内看，为什么大语言模型会产生幻觉：因果视角

分类： 计算和语言, 人工智能

作者： He Li, Haoang Chi, Mingyu Liu, Wenjing Yang

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10153v1

摘要： 大语言模型（LLM）的出现是生成人工智能的里程碑，在文本理解和生成任务中取得了重大成功。尽管大语言模型在许多下游任务中取得了巨大成功，但他们却遭受着严重的幻觉问题，对大语言模型的实际应用构成了重大挑战。大多数关于大语言模型幻觉的著作都关注数据质量。自注意力是基于 Transformer 的 LLM 的核心模块，但其与 LLM 幻觉的潜在关系几乎没有被研究过。为了填补这一空白，我们从因果角度研究这个问题。我们提出了一种方法来干预大语言模型的自注意力层并保持其结构和大小完整。具体来说，我们在几个流行的开源大语言模型中禁用了不同的自注意力层，然后将它们的幻觉程度与原始的幻觉程度进行比较。我们根据幻觉评估基准对干预的大语言模型进行了评估，并得出结论，禁用大语言模型前面或尾部的一些特定的自我注意层可以缓解幻觉问题。这项研究为理解和减轻大语言模型的幻觉铺平了新的途径。

条条大路通罗马：揭示LLM时代推荐系统的发展轨迹

分类： 信息检索

作者： Bo Chen, Xinyi Dai, Huifeng Guo, Wei Guo, Weiwen Liu, Yong Liu, Jiarui Qin, Ruiming Tang, Yichao Wang, Chuhan Wu, Yaxiong Wu, Hao Zhang

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10081v1

摘要： 推荐系统 (RS) 对于管理信息过载和提供个性化内容、响应用户多样化的信息需求至关重要。大语言模型（LLM）的出现为重新定义具有广泛常识和推理能力的推荐系统提供了新的视野。站在大语言模型时代，我们的目标是将推荐系统整合到更广阔的视野中，为未来研究提供更全面的解决方案铺平道路。因此，我们首先全面概述推荐系统的技术进展，特别关注语言基础模型及其在推荐中的应用。我们确定了现代推荐系统的两种演变路径——通过列表推荐和会话推荐。这两条路径最终在具有长期记忆、反射和工具智能等卓越能力的LLM代理处汇聚。沿着这两条路径，我们指出推荐的信息有效性提高了，同时用户的获取成本降低了。技术特征、研究方法和沿途每个里程碑的固有挑战都经过仔细研究——从传统的列表式推荐到大语言模型增强推荐，再到大语言模型代理推荐。最后，我们强调了对未来个性化技术和界面的发展至关重要的几个尚未解决的挑战，并讨论了未来的前景。

使用基于大语言模型的代理彻底改变桥梁运营和维护：应用程序和见解概述

分类： 多代理系统

作者： Xinyu-Chen, Yanwen-Zhu, Yang-Hou, Lianzhen-Zhang

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10064v1

摘要： 在人类社会发展的各个产业领域，人们一直在探索旨在解放人类劳动力的方法。构建基于LLM的代理被认为是实现这一目标的最有效的工具之一。 Agent作为一种具有感知、规划、决策、行动能力的类人智能实体，在许多领域创造了巨大的生产价值。但与其他行业相比，桥梁运维领域的智能化水平较低。尽管如此，桥梁运维领域已经开发出众多智能检测设备、机器学习算法、自主评估决策方法，为该领域人工智能的突破提供了可行的基础。本研究的目的是探讨基于大规模语言模型的人工智能体对桥梁运维领域的影响，并分析其给桥梁运维核心任务带来的潜在挑战和机遇。通过深入的研究和分析，本文期望为理解知识分子在这一领域的应用提供更全面的视角。

学会拒绝：降低大语言模型的隐私风险

分类： 计算和语言, 人工智能

作者： Zhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10058v1

摘要： 大型语言模型（LLM）在理解和生成自然语言方面表现出卓越的能力。然而，这些模型可能会无意中记住私人信息，从而带来重大的隐私风险。这项研究解决了使大语言模型能够保护特定个人的私人数据而不需要完全再培训的挑战。我们提出 \return，一个真实世界的个人数据 UnleaRNing 数据集，包含来自维基百科的 2,492 名个人以及相关的 QA 对，用于评估在现实场景中保护个人数据的机器取消学习 (MU) 方法。此外，我们还引入了用于隐私保护的名称感知遗忘框架（NAUF），该框架使模型能够了解哪些个人的信息应该受到保护，而不影响其回答与其他不相关个人相关的问题的能力。我们大量的实验表明，NAUF 达到了最先进的平均遗忘分数，超过了最佳基线方法 5.65 分，有效保护了目标个人的个人数据，同时保持了模型的通用能力。

超越 KV 缓存：共同关注高效的大语言模型

分类： 计算和语言, 人工智能, 机器学习

作者： Bingli Liao, Danilo Vasconcellos Vargas

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.12866v1

摘要： 大型语言模型（LLM）的效率仍然是一个严峻的挑战，特别是在计算资源有限的情况下。这些模型中的传统注意力机制虽然强大，但由于需要跨不同层重新计算和存储注意力权重，因此需要大量的计算和内存资源。本文介绍了一种新颖的共享注意力（SA）机制，旨在通过跨多层直接共享计算的注意力权重来提高 LLM 的效率。与之前专注于共享中间键值 (KV) 缓存的方法不同，我们的方法利用高级 LLM 预训练后观察到的注意力分布的各向同性趋势来减少计算失败和推理过程中所需的 KV 缓存的大小。我们凭经验证明，在各种大语言模型中实施 SA 会导致标准基准的准确性损失最小。我们的研究结果表明，SA 不仅可以节省计算资源，还可以保持稳健的模型性能，从而促进在资源有限的环境中部署更高效的大语言模型。

使用大型语言模型 (LLM) 从医学文本中提取因果关系

分类： 计算和语言, 人工智能, 信息检索

作者： Seethalakshmi Gopalakrishnan, Luciana Garbayo, Wlodek Zadrozny

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.10020v1

摘要： 本研究探讨了自然语言模型（包括大型语言模型）从医学文本（特别是临床实践指南（CPG））中提取因果关系的潜力。提出了从妊娠期糖尿病临床实践指南中提取结果因果关系的结果，这在该领域尚属首次。我们报告了一组使用 BERT 变体（BioBERT、DistilBERT 和 BERT）和大型语言模型 (LLM)（即 GPT-4 和 LLAMA2）的实验。我们的实验表明，BioBERT 的表现优于其他模型，包括大型语言模型，平均 F1 分数为 0.72。 GPT-4 和 LLAMA2 结果显示相似的性能，但一致性较差。我们还在妊娠期糖尿病临床实践指南中发布了代码和带注释的因果陈述语料库。

通过逆苏格拉底综合法优化建模和增强推理的大语言模型基准

分类： 机器学习, 优化与控制

作者： Zhicheng Yang, Yinya Huang, Wei Shi, Liang Feng, Linqi Song, Yiwei Wang, Xiaodan Liang, Jing Tang

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09887v1

摘要： 大型语言模型（LLM）在数学推理方面展现了其解决问题的能力。解决工业应用场景中的现实优化（OPT）问题需要先进的应用数学能力。然而，当前仅解决线性规划的 OPT 基准与复杂的现实情况相去甚远。在这项工作中，我们提出了 E-OPT，这是使用人类可读的输入和输出解决端到端优化问题的基准。 E-OPT包含丰富的优化问题，包括带/不带表数据的线性/非线性规划，可以综合评估LLM的求解能力。在我们的基准测试中，大语言模型需要正确理解 E-OPT 中的问题并调用代码求解器以获得精确的数值答案。此外，为了缓解优化问题的数据稀缺性，并弥合小规模开源 LLM（例如 Llama-2-7b 和 Llama-3-8b）与闭源 LLM（例如 GPT- 4），我们进一步提出了一种新的数据合成方法，即ReSocratic。与从问题到答案的一般数据合成方法不同，ReSocratic 首先用数学公式逐步增量地合成优化场景，然后将生成的场景反翻译为问题。通过这种方式，我们利用强大的开源大模型 DeepSeek-V2 从一个小种子样本池构建了 ReSocratic-29k 数据集。为了证明 ReSocratic 的有效性，我们使用 ReSocratic-29k 对多个开源模型进行监督微调。结果显示，Llama3-8b 在 E-OPT 上显着提高，从 13.6% 提高到 51.7%，而 DeepSeek-V2 达到 61.0%，接近 GPT-4 的 65.5%。

为 INDIC 语言构建预训练 LLM 数据集：印地语案例研究

分类： 计算和语言, 人工智能

作者： Shantipriya Parida, Shakshi Panwar, Kusum Lata, Sanskruti Mishra, Sambit Sekhar

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09855v1

摘要： 大型语言模型 (LLM) 在许多需要根据人类指令自动生成响应的应用中展示了变革能力。然而，建立大语言模型（尤其是印度语言大语言模型）的主要挑战是能否获得用于建立基础大语言模型的高质量数据。在本文中，我们提出了一个对印度语印地语有用的大型印地语预训练数据集。我们收集了多个领域的数据，包括印地语的主要方言。该数据集包含 12.8 亿个印地语标记。我们已经解释了我们的流程，包括数据收集、预处理和 LLM 预训练的可用性。所提出的方法可以轻松扩展到其他印度语和低资源语言，并将免费用于大语言模型预培训和大语言模型研究目的。

NativQA：大语言模型的多语言文化自然查询

分类： 计算和语言, 人工智能, 68T50, F.2.2; I.2.7

作者： Md. Arid Hasan, Maram Hasanain, Fatema Ahmad, Sahinur Rahman Laskar, Sunaya Upadhyay, Vrunda N Sukhadia, Mucahid Kutlu, Shammur Absar Chowdhury, Firoj Alam

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09823v1

摘要： 自然问答 (QA) 数据集在开发和评估大型语言模型 (LLM) 的功能方面发挥着至关重要的作用，确保其在实际应用中的有效使用。尽管已经开发了许多 QA 数据集，但仍明显缺乏由本地用户用自己的语言生成的特定区域数据集。这一差距阻碍了大语言模型针对区域和文化特性的有效基准测试。在这项研究中，我们提出了一个可扩展的框架 NativQA，以母语无缝构建文化和区域一致的 QA 数据集，用于大语言模型评估和调整。此外，为了证明所提出框架的有效性，我们设计了一个多语言自然 QA 数据集 MultiNativQA，它由七种语言的约 72K QA 对组成，资源范围从高资源到极低资源，基于涵盖 18 个主题的母语人士的查询。我们使用开源和闭源大语言模型对 MultiNativQA 数据集进行基准测试。我们向社区公开提供 NativQA 框架和 MultiNativQA 数据集。（https://nativqa.gitlab.io）

CellAgent：用于自动化单细胞数据分析的大语言模型驱动的多代理框架

分类： 人工智能, 人机交互, 基因组学

作者： Yihang Xiao, Jinyi Liu, Yan Zheng, Xiaohan Xie, Jianye Hao, Mingzhi Li, Ruitao Wang, Fei Ni, Yuxiao Li, Jintian Luo, Shaoqing Jiao, Jiajie Peng

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09811v1

摘要： 单细胞 RNA 测序 (scRNA-seq) 数据分析对于生物学研究至关重要，因为它能够精确表征细胞异质性。然而，对于研究人员来说，手动操作各种工具来实现期望的结果可能是劳动密集型的。为了解决这个问题，我们引入了CellAgent（http://cell.agent4science.cn/），这是一个LLM驱动的多智能体框架，专为自动处理和执行scRNA-seq数据分析任务而设计，提供高质量的结果无需人工干预。首先，为了使一般大语言模型适应生物领域，CellAgent构建了大语言模型驱动的生物专家角色——规划者、执行者和评估者——每个角色都有特定的职责。然后，CellAgent引入分层决策机制来协调这些生物专家，有效驱动复杂数据分析任务的规划和逐步执行。此外，我们提出了一种自我迭代优化机制，使CellAgent能够自主评估和优化解决方案，从而保证输出质量。我们在涵盖数十种组织和数百种不同细胞类型的综合基准数据集上评估 CellAgent。评估结果一致表明，CellAgent 有效地识别了最适合单细胞分析任务的工具和超参数，实现了最佳性能。这种自动化框架极大地减少了科学数据分析的工作量，使我们进入“科学代理”时代。

大语言模型-面向普通观众的自动科学新闻合作

分类： 计算和语言

作者： Gongyao Jiang, Xinran Shi, Qiong Luo

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09756v1

摘要： 科学新闻向非专业人士报告当前的科学发现，旨在使公众理解最新技术。然而，这项任务可能具有挑战性，因为观众往往缺乏有关所呈现研究的具体知识。为了应对这一挑战，我们提出了一个框架，集成了三个大语言模型，模仿现实世界的写作-阅读-反馈-修改工作流程，其中一个大语言模型充当记者，一个较小的大语言模型作为公众读者，第三个大语言模型作为编辑。记者的写作根据读者的反馈和编辑的建议不断完善。我们的实验表明，通过利用两个 7B 和一个 1.8B 开源 LLM 的协作，我们可以生成比现有方法（包括 GPT-4 等高级模型）生成的文章更容易访问的文章。

关于使用 API 文档缓解代码 LLM 幻觉

分类： 软件工程, 人工智能, 机器学习

作者： Nihal Jain, Robert Kwiatkowski, Baishakhi Ray, Murali Krishna Ramanathan, Varun Kumar

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.09726v1

摘要： 在这项研究中，我们解决了各种软件工程环境中的 API 幻觉问题。我们推出了 CloudAPIBench，这是一个旨在衡量 API 幻觉发生情况的新基准。 CloudAPIBench还提供了公共领域API出现频率的注释，使我们能够研究各种频率级别的API幻觉。我们的研究结果表明，Code LLM 难以应对低频 API：例如，GPT-4o 仅实现了 38.58% 的有效低频 API 调用。我们证明，文档增强生成 (DAG) 显着提高了低频 API 的性能（使用 DAG 提高到 47.94%），但在使用次优检索器时会对高频 API 产生负面影响（绝对下降 39.02%）。为了缓解这种情况，我们建议智能地触发 DAG，我们会检查 API 索引或利用 Code LLM 的置信度分数仅在需要时进行检索。我们证明，我们提出的方法增强了低频和高频 API 性能之间的平衡，从而实现更可靠的 API 调用（GPT-4o 的 CloudAPIBench 绝对提高了 8.20%）。

绘制模型：评估对抗性攻击对基于 LLM 的编程助理的影响

分类： 密码学和安全, 人工智能, I.2.2

作者： John Heibel, Daniel Lowd

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.11072v1

摘要： 基于大语言模型的编程助手有望加快编程速度，但也存在引入更多安全漏洞的风险。之前的工作研究了大语言模型如何被恶意微调以更频繁地提出漏洞。随着代理大语言模型的兴起，它们可能使用不受信任的第三方的结果，模型提示受到攻击的风险越来越大。我们介绍恶意编程提示 (MaPP) 攻击，攻击者在编程任务提示中添加少量文本（小于 500 字节）。我们表明，我们的提示策略可能会导致大语言模型在继续编写正确代码的同时增加漏洞。我们评估了七个常见大语言模型的三个提示，从基本到最先进的商业模式。使用 HumanEval 基准，我们发现我们的提示广泛有效，无需针对不同的大语言模型进行定制。此外，最擅长 HumanEval 的大语言模型也最擅长遵循我们的恶意指令，这表明简单地扩展语言模型并不能阻止 MaPP 攻击。使用 16 个场景中的 8 个 CWE 的数据集，我们发现 MaPP 攻击在跨一系列模型实施特定和有针对性的漏洞方面也很有效。我们的工作强调需要确保大语言模型提示不被操纵，以及严格审核在大语言模型帮助下生成的代码。

多么优雅的桥梁：多语言大语言模型在不同语言中也有类似的偏见

分类： 计算和语言

作者： Viktor Mihaylov, Aleksandar Shtedritski

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09704v1

摘要： 本文通过语法性别的视角研究了大型语言模型（LLM）的偏见。从心理语言学领域的开创性著作中汲取灵感，特别是性别对语言感知影响的研究，我们利用多语言大语言模型重新审视并扩展了 Boroditsky（2003）的基础实验。采用大语言模型作为一种检查与语法性别相关的心理语言学偏见的新方法，我们提出了一个模型来描述各种语言中带有形容词的名词，特别关注具有语法性别的语言。特别是，我们研究了跨性别和语言的形容词共现情况，并训练一个二元分类器，根据大语言模型用来描述名词的形容词来预测语法性别。令人惊讶的是，我们发现一个简单的分类器不仅可以预测名词性别，而且还表现出跨语言可迁移性。我们表明，虽然大语言模型可能会以不同的语言对单词进行不同的描述，但他们的偏见是相似的。

中国人如何成为中国语言模型？中国大语言模型语言政策的缺失令人费解

分类： 计算和语言

作者： Andrea W Wen-Yi, Unso Eun Seo Jo, Lu Jia Lin, David Mimno

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09652v1

摘要： 当代语言模型越来越多语言化，但中国大语言模型开发者必须应对语言多样性的复杂政治和商业考虑。中国的语言政策旨在影响公共话语和治理多民族社会，自 1949 年以来逐渐从多元化转向同化主义。我们探讨这些影响对当前语言技术的影响。我们评估了由中国公司预先培训的 6 名开源多语言大语言模型，涵盖 18 种语言，涵盖中文、亚洲和英欧语言。我们的实验表明，中国大语言模型在多种语言上的表现与国际大语言模型没有什么区别。同样，模型的技术报告也显示，除了英语和普通话之外，缺乏对预训练数据语言覆盖的考虑。审视中国的人工智能政策、模型实验和技术报告，我们没有发现任何一致的政策迹象，无论是支持还是反对中国大语言模型发展的语言多样性。这就留下了一个令人费解的事实：虽然中国对人们日常使用的语言和语言模型的开发都进行了规范，但他们似乎对语言模型中的语言没有任何政策。

Flash 归一化：LLM 的快速 RMSNorm

分类： 机器学习

作者： Nils Graef, Matthew Clapp, Andrew Wasielewski

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09577v1

摘要： 许多大语言模型都使用 RMSNorm，例如 Llama、Mistral 和 OpenELM。本文详细介绍了 FlashNorm，它是 RMSNorm 的精确但更快的实现，后跟线性层。有关代码和更多变压器技巧，请参阅 https://huggingface.co/open-machine/FlashNorm。

无限情境大语言模型的类人情景记忆

分类： 人工智能, 计算和语言, 机器学习, 神经元和认知

作者： Zafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09450v1

摘要： 大型语言模型 (LLM) 已显示出卓越的功能，但仍难以处理广泛的上下文，限制了它们在长序列上保持连贯性和准确性的能力。相比之下，人类大脑擅长组织和检索跨越一生的广阔时间尺度的情景经历。在这项工作中，我们引入了 EM-LLM，这是一种将人类情景记忆和事件认知的关键方面集成到 LLM 中的新颖方法，使它们能够有效处理几乎无限的上下文长度，同时保持计算效率。 EM-LLM 以在线方式结合贝叶斯惊喜和图论边界细化，将标记序列组织成连贯的情景事件。当需要时，这些事件通过两阶段记忆过程进行检索，结合基于相似性和时间连续的检索，以高效且像人类一样访问相关信息。 LongBench 数据集上的实验证明了 EM-LLM 的卓越性能，优于最先进的 InfLLM 模型，在各种任务中总体相对提高了 4.3%，其中 PassageRetrieval 任务提高了 33%。此外，我们的分析揭示了 EM-LLM 的事件分割与人类感知事件之间的强相关性，表明该人工系统与其生物系统之间存在着一座桥梁。这项工作不仅提高了大语言模型在处理扩展上下文方面的能力，而且还提供了探索人类记忆机制的计算框架，为人工智能和认知科学的跨学科研究开辟了新途径。

MUSCLE：兼容LLM进化的模型更新策略

分类： 人工智能

作者： Jessica Echterhoff, Fartash Faghri, Raviteja Vemulapalli, Ting-Yao Hu, Chun-Liang Li, Oncel Tuzel, Hadi Pouransari

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09435v1

摘要： 由于数据或架构的变化，大型语言模型 (LLM) 会经常更新，以提高其性能。更新模型时，开发人员通常专注于提高整体性能指标，而不是注重与以前的模型版本的兼容性。然而，用户经常构建他们正在交互的特定机器学习模型的功能和能力的心理模型。他们必须在每次更新时调整自己的心理模型——这是一项令人筋疲力尽的任务，可能会导致用户不满意。在实践中，微调的下游任务适配器依赖于预训练的 LLM 基础模型。当这些基础模型更新时，这些面向用户的下游任务模型会经历实例回归或负翻转——以前正确的实例现在被错误地预测。即使下游任务训练程序保持相同，也会发生这种情况。我们的工作旨在通过两种方式为用户提供无缝模型更新。首先，我们提供了与先前模型版本的兼容性概念的评估指标，特别适用于生成任务，但也适用于判别任务。我们在不同的任务和模型更新集上观察到不同模型版本之间的回归和不一致。其次，我们提出了一种训练策略，以最大限度地减少模型更新中不一致的数量，包括训练可以增强任务微调语言模型的兼容性模型。我们将 Llama 1 到 Llama 2 的负面翻转（先前模型版本正确但新模型不正确的情况）减少了 40%。

开放（临床）大语言模型对指令短语敏感

分类： 计算和语言

作者： Alberto Mario Ceballos Arroyo, Monica Munnangi, Jiuding Sun, Karen Y. C. Zhang, Denis Jered McInerney, Byron C. Wallace, Silvio Amir

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09429v1

摘要： 指令调整的大型语言模型 (LLM) 可以在给定自然语言指令的情况下执行广泛的任务，但它们对此类指令的措辞方式很敏感。这个问题在医疗保健领域尤其令人担忧，因为临床医生不太可能是经验丰富的即时工程师，并且在该领域输出不准确的潜在后果更加严重。这就提出了一个实际问题：针对临床 NLP 任务提供的指令的自然变化，指令调整的大语言模型的稳健性如何？我们收集了医生对一系列任务的提示，并量化了七个大语言模型（一些是普通大语言模型，另一些是专业大语言模型）对自然（即非对抗性）指令短语的敏感性。我们发现所有模型的性能差异很大，而且——也许令人惊讶的是——与一般领域的对应模型相比，在临床数据上明确训练的特定领域模型尤其脆弱。此外，任意的措辞差异可能会影响公平性，例如，有效但不同的死亡率预测指令会在整体表现和人口群体之间的差异方面产生一定的范围。

使用大语言模型构建历史文献的真实性评估

分类： 数字图书馆

作者： Andrea Schimmenti, Valentina Pasqual, Francesca Tomasi, Fabio Vitali, Marieke van Erp

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09290v1

摘要： 鉴于历史上伪造的广泛使用，学者们已经并持续致力于评估历史文献的真实性。然而，在线目录仅提供这些文档的描述性元数据，将有关其真实性的讨论降级为自由文本格式，使得大规模研究这些评估变得困难。本研究探讨了从自然语言文本生成有关文档真实性评估的结构化数据。我们的管道利用大型语言模型 (LLM) 来选择、提取和分类有关该主题的相关声明，而无需培训，并利用语义 Web 技术来构建和类型验证 LLM 结果。最终的输出是一份真实性受到争议的文件目录，以及学者们对其真实性的看法。这个过程可以作为整合到目录中的宝贵资源，为对这些争论几个世纪以来的演变进行更复杂的查询和分析提供空间。

TAPI：针对代码 LLM 进行针对特定目标和对抗性的即时注入

分类： 密码学和安全, 人工智能

作者： Yuchen Yang, Hongwei Yao, Bingrun Yang, Yiling He, Yiming Li, Tianwei Zhang, Zhan Qin, Kui Ren

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09164v1

摘要： 最近，面向代码的大型语言模型（Code LLM）已被广泛且成功地用于简化和促进代码编程。借助这些工具，开发人员可以根据不完整代码和自然语言提示轻松生成所需的完整功能代码。然而，一些开创性的工作表明，这些代码大语言模型也很容易受到后门和对抗性攻击等攻击。前者可以诱导 LLM 响应触发器，通过毒害训练数据或模型参数来插入恶意代码片段，而后者可以制作恶意对抗性输入代码以降低生成代码的质量。然而，这两种攻击方法都有潜在的局限性：后门攻击依赖于控制模型训练过程，而对抗性攻击则难以实现特定的恶意目的。为了继承后门攻击和对抗性攻击的优点，本文提出了一种针对 Code LLM 的新的攻击范式，即目标特定和对抗性提示注入（TAPI）。 TAPI 生成包含恶意指令信息的不可读注释，并将它们作为触发器隐藏在外部源代码中。当用户利用Code LLM完成包含触发器的代码时，模型将在特定位置生成攻击者指定的恶意代码片段。我们在三个代表性恶意目标和七个案例下评估了对四个代表性大语言模型的 TAPI 攻击。结果表明，我们的方法具有高度威胁性（攻击成功率高达 89.3%）且隐蔽（在触发器设计中平均节省 53.1% 的代币）。特别是，我们成功攻击了一些著名的已部署代码完成集成应用程序，包括 CodeGeex 和 Github Copilot。这进一步证实了我们攻击的现实威胁。

硬币的两面：以大语言模型作为大语言模型评估者的幻觉生成和检测

分类： 人工智能, 计算和语言

作者： Anh Thu Maria Bui, Saskia Felizitas Brech, Natalie Hußfeldt, Tobias Jennert, Melanie Ullrich, Timo Breuer, Narjes Nikzad Khasmakhi, Philipp Schaer

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09152v1

摘要： 大型语言模型 (LLM) 中的幻觉检测对于确保其可靠性至关重要。这项工作展示了我们对 CLEF ELOQUENT HalluciGen 共享任务的参与，其目标是开发用于生成和检测幻觉内容的评估器。为此，我们探索了四种大语言模型的功能：Llama 3、Gemma、GPT-3.5 Turbo 和 GPT-4。我们还采用了整体多数投票来合并所有四种模型来完成检测任务。研究结果为了解这些大语言模型在处理幻觉生成和检测任务方面的优势和劣势提供了宝贵的见解。

每当您感到不安全时就拒绝：通过脱钩拒绝培训提高大语言模型的安全性

分类： 计算和语言, 人工智能

作者： Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Jiahao Xu, Tian Liang, Pinjia He, Zhaopeng Tu

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09121v1

摘要： 这项研究通过识别和解决安全调优数据中的拒绝位置偏差，解决了大型语言模型 (LLM) 安全调优实践中的一个关键差距，该偏差损害了模型适当拒绝生成不安全内容的能力。我们引入了一种新颖的方法，即解耦拒绝培训（DeRTa），旨在使大语言模型能够在任何响应位置拒绝遵守有害提示，从而显着增强他们的安全能力。 DeRTa 包含两个新颖的组件：(1) 带有有害响应前缀的最大似然估计 (MLE)，它通过在安全响应的开头附加一段有害响应来训练模型识别和避免不安全内容，以及 (2) 强化过渡优化 (RTO)，使模型能够在整个有害响应序列中始终如一地从潜在危害过渡到安全拒绝。我们使用 LLaMA3 和 Mistral 模型系列在六种攻击场景中进行的实证评估表明，我们的方法不仅在不影响性能的情况下提高了模型安全性，而且在防御攻击方面也超越了 GPT-4 等知名模型。重要的是，我们的方法成功防御了最新的已越狱 GPT-4 和 LLaMA3-70B-Instruct 的高级攻击方法（例如 CodeAttack）。我们的代码和数据可以在 https://github.com/RobustNLP/DeRTa 找到。

STD-LLM：利用大语言模型了解时空数据的空间和时间属性

分类： 机器学习, 人工智能

作者： Yiheng Huang, Xiaowei Mao, Shengnan Guo, Yubin Chen, Youfang Lin, Huaiyu Wan

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09096v1

摘要： 时空预测和插补对于智能交通、城市规划和公共卫生等现实世界的动态系统非常重要。大多数现有方法都是针对个人预测或插补任务量身定制的，但并不是针对这两者而设计的。此外，它们对于零样本和少样本学习的效果较差。虽然大型语言模型（LLM）在各种任务（包括少样本和零样本学习）中表现出了强大的模式识别和推理能力，但它们在理解时空数据方面的发展受到了对复杂相关性（例如时空）建模不足的限制。数据内的相关性、空间连通性、非成对和高阶时空相关性。在本文中，我们提出 STD-LLM 来理解 \underline{S}patial-\underline{T}emporal \underline{D}ata 和 \underline{LLM} 的空间和时间属性，它能够实现时空预测和插补任务。 STD-LLM 通过明确设计的空间和时间标记器以及虚拟节点来理解时空相关性。拓扑感知节点嵌入是专为大语言模型理解和利用数据的拓扑结构而设计的。此外，为了捕获非成对和高阶相关性，我们为大语言模型设计了一个超图学习模块，它可以增强整体性能并提高效率。大量实验表明，STD-LLM 在各种数据集的预测和插补任务中表现出强大的性能和泛化能力。此外，STD-LLM 在少样本和零样本学习任务上都取得了可喜的结果。

用于集成机器人运动学习和大语言模型的共享潜变量中的感觉运动注意力和基于语言的回归

分类： 机器人技术

作者： Kanata Suzuki, Tetsuya Ogata

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09044v1

摘要： 近年来，人们积极开展大语言模型（LLM）与机器人技术相结合的研究；然而，大多数人没有考虑机器人运动生成阶段的端到端反馈。深度神经网络的预测必然存在误差，需要更新训练好的模型以对应真实环境，自适应地生成机器人运动。本研究提出了一种使用共享潜变量连接机器人运动学习模型和大语言模型的集成方法。当生成机器人运动时，所提出的方法根据来自感觉运动注意点和给予机器人的任务语言指令的预测误差来更新共享参数。这使得模型能够有效地搜索适合机器人任务的潜在参数。通过对多个机器人任务的模拟器实验，我们从位置泛化和语言指令泛化能力两个角度证明了我们提出的方法的有效性。

自我提示调整：在大语言模型中实现自主角色扮演

分类： 计算和语言

作者： Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou, Jiaming Zhou, Haoqin Sun

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.08995v1

摘要： 大语言模型的最新进展展示了其卓越的角色扮演能力，能够根据不同的指令和上下文准确模拟各种角色的对话风格和认知过程。研究表明，为大语言模型分配专家角色（一种称为角色扮演提示的策略）可以提高他们在相应领域的表现。然而，提示需要针对给定问题手动设计，需要一定的专业知识和迭代修改。为此，我们提出自我提示调优，让LLM自己通过微调生成角色扮演提示。利用 LIMA 数据集作为基础语料库，我们使用 GPT-4 来注释每个数据点的角色扮演提示，从而创建 LIMA-Role 数据集。然后，我们在 LIMA-Role 上对 Llama-2-7B 和 Mistral-7B 等 LLM 进行微调。因此，自我提示调整的大语言模型可以针对任何给定问题自动生成专家角色提示。我们在广泛使用的 NLP 基准和开放式问题测试上广泛评估自我提示调整的大语言模型。我们的实证结果表明，在大多数数据集中，自我提示调整的大语言模型优于标准指令调整的基线。这凸显了利用微调使大语言模型能够自我提示的巨大潜力，从而使复杂的提示策略自动化。我们在此 \href{https://anonymous.4open.science/r/Self-Prompt-Tuning-739E/}{url} 发布数据集、模型和代码。

大语言模型对文本扰动的鲁棒性

分类： 计算和语言, 人工智能, I.7; I.2.7; I.2.4

作者： Ayush Singh, Navpreet Singh, Shubham Vatsal

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.08989v1

摘要： 拥有干净的数据集是大多数自然语言处理 (NLP) 系统的基本假设。然而，在现实场景中很少找到正确书写的文本，因此，通常会导致上述基本假设无效。最近，大型语言模型（LLM）表现出了令人印象深刻的性能，但它们能否处理现实世界数据中不可避免的噪音？这项工作通过调查大语言模型对文本形态变化的适应能力来解决这个关键问题。为此，我们人为地将不同级别的噪声引入到不同的数据集中，并系统地评估大语言模型针对原始文本的损坏变化的鲁棒性。我们的研究结果表明，与流行的看法相反，生成式大语言模型对于文本中的噪音扰动非常稳健。这与 BERT 或 RoBERTa 等预训练模型不同，这些模型的性能已被证明对恶化的噪声文本很敏感。此外，我们还在多个真实世界基准上测试了大语言模型的弹性，这些基准非常模仿野外常见的错误。在最少的提示下，大语言模型在语法错误纠正（GEC）和词汇语义变化（LSC）的基准任务上达到了新的最先进水平。为了支持未来的研究，我们还发布了一个由人类注释的数据集，说明他们对 LLM 与人类校正输出的偏好，以及重现我们结果的代码。

通过基于语法的解释获得更值得信赖和可解释的代码大语言模型

分类： 软件工程, 人工智能, 机器学习

作者： David N. Palacio, Daniel Rodriguez-Cardenas, Alejandro Velasco, Dipin Khati, Kevin Moran, Denys Poshyvanyk

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.08983v1

摘要： 对于大语言模型来说，可信度和可解释性是密不可分的概念。 LLM 的可解释性越高，它就越值得信赖。然而，当前应用于代码相关任务时解释大语言模型的技术主要侧重于准确性测量、模型如何应对变化的测量或单个任务性能，而不是预测时所需的细粒度解释以提高可解释性，从而提高信任度。为了改善这一现状，本文引入了 ASTrust，这是一种代码大语言模型的可解释性方法，可生成基于模型置信度和编程语言句法结构之间关系的解释。 ASTrust 在基于抽象语法树的语法类别上下文中解释生成的代码，并帮助从业者理解本地（单个代码片段）和全局（较大的代码数据集）级别的模型预测。通过将模型置信度得分分配给 AST 中存在的众所周知的语法结构，我们的方法超越了执行标记级置信度映射的现有技术，提供了与开发人员熟悉的编程语言概念直接一致的模型置信度视图。为了将 ASTrust 付诸实践，我们开发了一种自动可视化，该可视化说明了叠加在 AST 句法结构的序列、热图和基于图形的视觉效果上的聚合模型置信度得分。我们通过对一组精选的 GitHub 存储库上 12 个流行的大语言模型进行数据科学研究来检验 ASTrust 可以提供的实际好处，以及通过人体研究来检验 ASTrust 的实用性。

检测、调查、判断和确定：一种基于 LLM 的新型假新闻检测框架

分类： 计算和语言, 人工智能

作者： Ye Liu, Jiajun Zhu, Kai Zhang, Haoyu Tang, Yanghai Zhang, Xukai Liu, Qi Liu, Enhong Chen

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.08952v1

摘要： Few-Shot 假新闻检测（FS-FND）旨在在资源极少的情况下区分不准确的新闻和真实新闻。由于假新闻在社交媒体上的广泛传播和有害影响，这项任务引起了越来越多的关注。大型语言模型（LLM）凭借丰富的先验知识和出色的情境学习能力，展现出了具有竞争力的表现。然而，现有方法面临重大局限性，例如理解歧义和信息稀缺，这极大地削弱了大语言模型的潜力。为了解决这些缺点，我们提出了一种双视角增强假新闻检测（DAFND）模型，旨在从内部和外部角度增强大语言模型。具体来说，DAFND首先通过检测模块识别每篇新闻文章的关键词。随后，DAFND创造性地设计了一个调查模块来检索与当前新闻有关的内外有价值的信息，然后再设计一个判断模块来得出其各自的两个预测结果。最后，确定模块进一步整合这两个预测并得出最终结果。对两个公开可用数据集的广泛实验表明了我们提出的方法的有效性，特别是在资源匮乏的环境中。

与 LLM 进行基于激光雷达的开放词汇检测的全局局部协同推理

分类： 计算机视觉和模式识别

作者： Xingyu Peng, Yan Bai, Chen Gao, Lirong Yang, Fei Xia, Beipeng Mu, Xiaofei Wang, Si Liu

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.08931v1

摘要： 开放词汇检测 (OVD) 是在没有预定义对象类的情况下检测给定场景中所有有趣对象的任务。人们在处理 2D RGB 图像的 OVD 方面做了大量工作，但对 3D OVD 的探索仍然有限。直观地说，激光雷达点云提供对象级别和场景级别的 3D 信息，以生成可信的检测结果。然而，以往基于激光雷达的OVD方法只注重物体级特征的使用，忽略了场景级信息的本质。在本文中，我们为基于激光雷达的OVD任务提出了一种全局局部协作方案（GLIS），其中包含一个用于生成对象级检测结果的局部分支和一个用于获取场景级全局特征的全局分支。借助全局局部信息，应用大型语言模型（LLM）进行思想链推理，并可以相应地细化检测结果。我们进一步提出反射伪标签生成（RPLG）来生成高质量的伪标签用于监督和背景感知对象定位（BAOL）来选择精确的对象建议。 ScanNetV2 和 SUN RGB-D 上的大量实验证明了我们方法的优越性。代码发布于 https://github.com/GradiusTwinbee/GLIS。

使用 LLM 反汇编混淆的可执行文件

分类： 密码学和安全

作者： Huanyao Rong, Yue Duan, Hang Zhang, XiaoFeng Wang, Hongbo Chen, Shengchen Duan, Shen Wang

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.08924v1

摘要： 反汇编是一项具有挑战性的任务，特别是对于包含垃圾字节的模糊可执行文件，其目的是引发反汇编错误。现有的解决方案依赖于启发式方法或利用机器学习技术，但只取得了有限的成功。从根本上来说，如果不深入理解二进制可执行文件的语义，就无法击败这种混淆，而大型语言模型 (LLM) 的出现使这种理解成为可能。在本文中，我们提出了 DisasLLM，这是一种新颖的 LLM 驱动的反汇编器，用于克服分析混淆的可执行文件的挑战。 DisasLLM 由两个组件组成：一个基于 LLM 的分类器，用于确定汇编代码片段中的指令是否被正确解码；以及一个反汇编策略，利用该模型端到端地反汇编混淆的可执行文件。我们在一组严重混淆的可执行文件上评估了 DisasLLM，结果显示其性能明显优于其他最先进的反汇编解决方案。

基于规则、神经网络和大语言模型回译：Ladin 变体的比较见解

分类： 计算和语言

作者： Samuel Frontull, Georg Moser

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08819v1

摘要： 本文探讨了不同反向翻译方法对 Ladin 机器翻译的影响，特别是 Val Badia 变体。鉴于该语言可用的并行数据数量有限（只有 18k 拉丁语-意大利语句子对），我们研究了针对拉丁语-意大利语进行微调的多语言神经机器翻译模型的性能。除了可用的真实数据之外，我们还通过使用三种不同的模型来综合进一步的翻译：微调的神经模型、专门为此语言对开发的基于规则的系统以及大型语言模型。我们的实验表明，在这种资源匮乏的情况下，所有方法都可以实现相当的翻译质量，但往返翻译凸显了模型性能的差异。

模型手术：通过简单的参数编辑来调节 LLM 的行为

分类： 人工智能, 68T50 (Primary) 68T07, 62M45 (Secondary), I.2.7

作者： Huanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08770v1

摘要： 大型语言模型 (LLM) 已展现出作为通才助手的巨大潜力，展示出强大的任务理解和解决问题的能力。要将大语言模型部署为人工智能助手，这些模型必须表现出理想的行为特征，例如无毒性和针对越狱尝试的弹性，这一点至关重要。目前的解毒或防止越狱的方法通常涉及监督微调（SFT）或人类反馈强化学习（RLHF），这需要通过梯度下降来微调数十亿个参数，计算成本很高。此外，通过 SFT 和 RLHF 修改的模型可能会偏离预训练模型，从而可能导致基础 LLM 能力的下降。在本文中，我们令人惊讶地观察到，直接编辑一小部分参数可以有效地调节 LLM 的特定行为，例如解毒和抵抗越狱。具体来说，对于我们旨在避免的行为，我们采用线性分类器（我们称之为行为探针）来对 LLM 隐藏状态空间内的二进制行为标签进行分类。使用这个探针，我们引入了一种算法来识别LLM参数的关键子集，这些参数会显着影响这一目标行为。然后我们通过将这些选定的参数移向行为探针来直接编辑它们。这种直接参数编辑方法仅需要推理级计算资源。实验表明，在代表性的解毒任务中，我们的方法在 RealToxicityPrompts 数据集上实现了高达 90.0% 的毒性降低，在 ToxiGen 上实现了 49.2% 的毒性降低，同时保持了 LLM 在常识、问答和数学等领域的一般能力。我们的代码可在 https://github.com/lucywang720/model-surgery 获取。

论大语言模型内部的普遍真实性超平面

分类： 计算和语言

作者： Junteng Liu, Shiqi Chen, Yu Cheng, Junxian He

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08582v1

摘要： 虽然大型语言模型（LLM）在各个领域都表现出了卓越的能力，但幻觉仍然是一个重大挑战。最近的研究通过内部表征的视角探索了幻觉，提出了破译大语言模型对事实的坚持的机制。然而，这些方法通常无法推广到分布外的数据，导致人们担心内部表示模式是否反映了基本的事实意识，或者只是过度拟合了特定数据集上的虚假相关性。在这项工作中，我们研究模型中是否存在区分模型事实上正确和错误输出的通用真实性超平面。为此，我们扩大了训练数据集的数量并进行了广泛的评估——我们在 40 多个数据集的多样化集合上训练真实性超平面，并检查其跨任务、跨域和域内泛化。我们的结果表明，增加训练数据集的多样性可以显着提高所有场景中的性能，而数据样本量的作用则不太重要。这一发现支持了乐观的假设，即模型中可能确实存在普遍的真实性超平面，为未来的研究提供了有希望的方向。

融合范式：大语言模型授权的自主代理中符号人工智能和联结人工智能的协同作用

分类： 人工智能

作者： Haoyi Xiong, Zhiyuan Wang, Xuhong Li, Jiang Bian, Zeke Xie, Shahid Mumtaz, Laura E. Barnes

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08516v1

摘要： 本文探讨了联结主义和符号人工智能 (AI) 的融合，从历史争论到当代进步。传统上被认为是不同的范式，联结主义人工智能专注于神经网络，而符号人工智能则强调符号表示和逻辑。以 ChatGPT 和 GPT-4 为代表的大型语言模型 (LLM) 的最新进展凸显了联结主义架构在将人类语言处理为符号形式方面的潜力。该研究认为，大语言模型授权的自主代理（LAAs）体现了这种范式的融合。通过利用大语言模型进行基于文本的知识建模和表示，LAA 集成了神经符号人工智能原理，展示了增强的推理和决策能力。将 LAA 与神经符号 AI 主题内的知识图进行比较，突显了 LAA 在模仿类人推理过程、有效扩展大型数据集以及利用上下文样本而无需显式重新训练方面的独特优势。该研究强调了神经向量符号整合、教学编码和隐式推理方面的有前景的途径，旨在进一步增强 LAA 的能力。通过探索神经符号人工智能的进展并提出未来的研究轨迹，这项工作促进了对人工智能技术的理解和发展。

通过情境增强研究大语言模型作为投票助理：2024 年欧洲议会选举的案例研究

分类： 计算和语言

作者： Ilias Chalkidis

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08495v1

摘要： 指令微调的大型语言模型展现出前所未有的自然语言理解能力。最近的工作一直在探索大语言模型的政治偏见和政治推理能力，主要范围在美国。鉴于最近的 2024 年欧洲议会选举，我们正在调查大语言模型是否可以用作投票建议申请 (VAA)。我们审核 MISTRAL 和 MIXTRAL 模型，并根据最新的“欧盟和我”投票援助调查问卷评估其预测政党立场的准确性。此外，我们还探索了提高模型性能的替代方案，通过依赖于网络搜索的检索增强生成（RAG）来增强输入上下文，以及使用分阶段对话进行自我反思，旨在从模型的内部记忆中重新收集相关内容。我们发现 MIXTRAL 的准确率很高，平均准确率为 82%。使用专家策划的信息增强输入上下文可以显着提升约。 9%，这对于自动化方法来说仍然是一个开放的挑战。

模型告诉您在哪里合并：针对长上下文任务的 LLM 的自适应 KV 缓存合并

分类： 计算和语言

作者： Zheng Wang, Boxiao Jin, Zhongzhi Yu, Minjia Zhang

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08454v1

摘要： 如何有效地服务大型语言模型（LLM）已成为一个紧迫的问题，因为它们在自回归生成过程中计算成本巨大。为了降低计算成本，LLM 通常采用 KV Cache 技术来提高生成速度。在提高计算效率的同时，KV缓存的存储需求很大，特别是在长上下文场景下，导致内存消耗很大。由于驱逐带来的信息丢失，现有的 KV 缓存驱逐方法通常会降低长上下文场景中 LLM 的性能。在本文中，我们提出了一种新颖的 KV 缓存合并方法，称为 KVMerger，以实现长上下文任务的自适应 KV 缓存压缩，而在内存预算有限的情况下不会显着降低性能。我们的方法受到有趣的观察的启发，即关键状态在单个序列内的令牌级别上表现出高度相似性。为了促进合并，我们开发了一种有效而简单的合并集识别算法来识别适合合并的 KV 状态。我们的合并集识别算法激发了第二个观察结果，即从相似性的角度来看，KV 缓存稀疏性独立于数据集，并且在模型级别保持持久性。随后，我们提出了一种高斯核加权合并算法来选择性地合并每个合并集中的所有状态。我们进行了大量的实验，以证明 KVMerger 在内存预算有限的情况下对长上下文任务的有效性，并将其应用于 Llama2-7B-chat 和 Llama2-13B-chat 等模型。使用 LongBench 和 ZeroScroll 基准，我们将我们的方法与其他 KV 缓存压缩技术（包括 H2O 和 CaM）进行比较，结果表明我们的方法在 KV 缓存预算为 50% 和 35% 的任务中实现了卓越的性能。

关于 LLM 应用程序商店的（内部）安全性

分类： 密码学和安全, 人工智能

作者： Xinyi Hou, Yanjie Zhao, Haoyu Wang

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08422v1

摘要： LLM 应用程序商店快速增长，导致大量定制 LLM 应用程序激增。然而，这种扩展引发了安全问题。在本研究中，我们提出了一个三层关注框架来识别LLM应用程序的潜在安全风险，即具有滥用潜力的LLM应用程序、具有恶意意图的LLM应用程序以及具有可利用漏洞的LLM应用程序。在五个月的时间里，我们从六大应用商店收集了 786,036 个 LLM 应用程序：GPT Store、FlowGPT、Poe、Coze、Cici 和 Character.AI。我们的研究整合了静态和动态分析、开发了包含超过 31,783 个条目的大型有毒词词典（即 ToxicDict），以及用于识别和减轻威胁的自动监控工具。我们发现 15,146 个应用程序存在误导性描述，1,366 个应用程序违反其隐私政策收集了敏感个人信息，15,996 个应用程序生成了仇恨言论、自残、极端主义等有害内容。此外，我们还评估了 LLM 应用程序促进恶意活动的可能性，发现 616 个应用程序可用于生成恶意软件、网络钓鱼等。我们的研究结果强调迫切需要强大的监管框架和增强的执行机制。

RB-SQL：基于检索的文本到 SQL 的 LLM 框架

分类： 计算和语言

作者： Zhenhe Wu, Zhongqiu Li, Jie Zhang, Mengxiang Li, Yu Zhao, Ruiyu Fang, Zhongjiang He, Xuelong Li, Zhoujun Li, Shuangyong Song

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08273v2

摘要： 具有上下文学习功能的大型语言模型 (LLM) 显着提高了文本到 SQL 任务的性能。以往的工作一般侧重于使用专有的SQL生成提示来提高LLM的推理能力。然而，他们大多难以处理具有大量表和列的大型数据库，并且通常忽略预处理数据库和提取有价值的信息以实现更有效的提示工程的重要性。基于上述分析，我们提出了RB-SQL，一种用于上下文提示工程的新型基于检索的LLM框架，它由三个模块组成，这些模块检索简洁的表和列作为模式，以及用于上下文学习的有针对性的示例。实验结果表明，我们的模型在公共数据集 BIRD 和 Spider 上比几个竞争基线取得了更好的性能。

大语言模型对 FST 生成的复杂芬兰语单词的形态分析

分类： 计算和语言

作者： Anssi Moisio, Mathias Creutz, Mikko Kurimo

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08269v1

摘要： 基于规则的语言处理系统在实用性方面被神经系统所掩盖，但目前尚不清楚神经 NLP 系统在实践中是否能够学习人类使用的语法规则。这项工作旨在通过评估最先进的大语言模型在复杂芬兰语名词形式的形态分析任务中来阐明这个问题。我们使用 FST 工具生成表格，它们不太可能出现在大语言模型的训练集中，因此需要形态泛化能力。我们发现 GPT-4-turbo 在任务中遇到一些困难，而 GPT-3.5-turbo 则陷入困境，较小的模型 Llama2-70B 和 Poro-34B 几乎完全失败。

GeNet：基于 LLM 的多模式网络拓扑和配置副驾驶

分类： 网络和互联网架构, 人工智能

作者： Beni Ifland, Elad Duani, Rubin Krief, Miro Ohana, Aviram Zilberman, Andres Murillo, Ofir Manor, Ortal Lavi, Hikichi Kenji, Asaf Shabtai, Yuval Elovici, Rami Puzis

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08249v1

摘要： 企业环境中的通信网络工程传统上是一个复杂、耗时且容易出错的手动过程。大多数网络工程自动化研究都集中在配置综合上，往往忽视了物理网络拓扑的变化。本文介绍了GeNet，一个面向企业网络工程师的多模态副驾驶。 GeNet 是一个新颖的框架，它利用大型语言模型 (LLM) 来简化网络设计工作流程。它使用视觉和文本方式根据用户意图解释和更新网络拓扑和设备配置。 GeNet 在改编自思科认证练习的企业网络场景上进行了评估。我们的结果证明了 GeNet 能够准确解释网络拓扑图像，从而有可能减少网络工程师的工作量并加速企业环境中的网络设计流程。此外，我们还展示了在处理需要修改网络拓扑的意图时精确理解拓扑的重要性。

利用大语言模型通过智能手机传感器功能预测情感状态

分类： 人机交互, 人工智能

作者： Tianyi Zhang, Songyan Teng, Hong Jia, Simon D'Alfonso

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08240v1

摘要： 由于年轻人的心理健康问题成为紧迫的公共卫生问题，因此用于早期发现的日常数字情绪监测已成为一个重要的前景。数字表型是一个活跃的研究领域，涉及收集和分析来自智能手机（使用情况和传感器）和可穿戴设备等个人数字设备的数据，以推断行为和心理健康状况。虽然这些数据是使用统计和机器学习方法进行标准分析的，但大型语言模型 (LLM) 的出现提供了一种理解智能手机传感数据的新方法。尽管大语言模型在各个领域都很有效，但在数字心理健康领域，特别是在整合移动传感器数据方面，大语言模型仍然相对未经探索。我们的研究旨在通过聘请大语言模型根据大学生的智能手机传感数据来预测影响结果，从而弥补这一差距。我们证明了零样本和少样本嵌入 LLM 在推断总体健康状况方面的功效。我们的研究结果表明，大语言模型可以仅使用智能手机传感数据对影响措施做出有希望的预测。这项研究揭示了大语言模型在情感状态预测方面的潜力，强调了智能手机行为模式和情感状态之间的复杂联系。据我们所知，这是第一个利用大语言模型进行情感状态预测和数字表型任务的工作。

DALL-M：利用大语言模型增强情境感知临床数据

分类： 人工智能, 信息检索, 机器学习, I.5.1; J.3; H.3.3; I.2.7

作者： Chihcheng Hsieh, Catarina Moreira, Isabel Blanco Nobre, Sandra Costa Sousa, Chun Ouyang, Margot Brereton, Joaquim Jorge, Jacinto C. Nascimento

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08227v1

摘要： X 射线图像在医学诊断中至关重要，但如果没有临床背景，其有效性就会受到限制。放射科医生经常发现胸部 X 光检查不足以诊断潜在疾病，因此需要全面的临床特征和数据整合。我们提出了一种新技术，通过临床表格数据的增强技术来增强临床背景，从而提高其在人工智能医疗诊断中的适用性和可靠性。为了解决这个问题，我们引入了一种开创性的临床数据增强方法，该方法采用大型语言模型 (LLM) 来生成患者上下文合成数据。这种方法对于在医疗保健领域训练更强大的深度学习模型至关重要。它保留了真实患者数据的完整性，同时用上下文相关的合成特征丰富了数据集，从而显着增强了模型性能。 DALL-M 使用三阶段特征生成过程：(i) 临床上下文存储，(ii) 专家查询生成，以及 (iii) 上下文感知特征增强。 DALL-M 通过合成胸部 X 射线图像和报告来生成新的临床相关特征。它使用 MIMIC-IV 数据集中的 9 个特征应用于 799 个案例，创建了 91 个特征的增强集。这是第一项根据患者的 X 射线报告、性别和年龄为现有和新特征生成上下文值，并在数据增强期间产生新的上下文知识的工作。使用机器学习模型（包括决策树、随机森林、XGBoost 和 TabNET）进行的实证验证显示出显着的性能改进。结合增强功能，F1 分数提高了 16.5%，准确率和召回率提高了约 25%。 DALL-M 解决了临床数据增强方面的一个关键差距，为生成上下文丰富的数据集提供了一个强大的框架。

酒精使用咨询虚拟代理：探索大语言模型支持的动机访谈

分类： 人机交互, 计算和语言

作者： Ian Steenstra, Farnaz Nouraei, Mehdi Arjmand, Timothy W. Bickmore

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08095v1

摘要： 我们介绍了大语言模型（LLM）的一种新颖应用，用于开发能够进行酒精使用咨询动机访谈（MI）的虚拟咨询师。获得有效咨询的机会仍然有限，特别是在药物滥用方面，而虚拟代理通过利用大语言模型功能来模拟 MI 固有的细致入微的沟通技术，提供了一种有前景的解决方案。我们的方法将快速工程和集成结合到用户友好的虚拟平台中，以促进现实、同理心的交互。我们通过一系列专注于复制 MI 技术和人类顾问对话的研究来评估虚拟代理的有效性。初步研究结果表明，我们的大语言模型支持的虚拟代理与人类咨询师的同理心和适应性对话技能相匹配，在虚拟健康咨询方面迈出了重要的一步，并为基于大语言模型的治疗互动的设计和实施提供了见解。

关于大语言模型向导：识别绿野仙踪实验中大型语言模型的行为

分类： 人机交互, 人工智能, H.5.m; I.2.7

作者： Jingchao Fang, Nikos Arechiga, Keiichi Namaoshi, Nayeli Bravo, Candice Hogan, David A. Shamma

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08067v1

摘要： 绿野仙踪 (WoZ) 方法是一种广泛采用的研究方法，其中人类巫师“角色扮演”一种不易获得的技术，并与参与者互动以引发用户行为并探索设计空间。随着现代大语言模型 (LLM) 角色扮演能力的不断增强，人们可以将 LLM 作为 WoZ 实验中的向导来应用，与传统方法相比，具有更好的可扩展性和更低的成本。然而，缺乏在 WoZ 实验中负责任地应用大语言模型的方法指导以及对大语言模型角色扮演能力的系统评估。通过两项由大语言模型支持的 WoZ 研究，我们迈出了第一步，为研究人员确定实验生命周期，将大语言模型安全地集成到 WoZ 实验中，并解释由大语言模型扮演的巫师角色设置中生成的数据。我们还贡献了一个基于启发式的评估框架，可以评估大语言模型在 WoZ 实验中的角色扮演能力，并大规模揭示大语言模型的行为模式。

RoLoRA：微调旋转无离群点 LLM 以实现有效的权重激活量化

分类： 计算和语言, 人工智能, 机器学习

作者： Xijie Huang, Zechun Liu, Shih-Yang Liu, Kwang-Ting Cheng

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08044v1

摘要： 低秩适应（LoRA）作为参数高效微调（PEFT）方法的代表，通过仅更新大型语言模型（LLM）中的一小部分权重来显着提高训练效率。最近，仅权重量化技术也被应用于 LoRA 方法，以减少微调的内存占用。然而，将权重激活量化应用于 LoRA 管道的探索尚未充分，我们观察到性能大幅下降，主要是由于激活异常值的存在。在这项工作中，我们提出了 RoLoRA，这是第一个基于 LoRA 的有效权重激活量化方案。 RoLoRA 利用旋转来消除异常值，并提出旋转感知微调以保留旋转 LLM 中的无异常值特征。实验结果表明，RoLoRA 持续改进了权重激活设置中的低位 LoRA 收敛性和训练后量化鲁棒性。我们在 LLaMA2-7B/13B、LLaMA3-8B 模型上评估 RoLoRA，与 LoRA 基线相比，在常识推理任务上实现 4 位权重激活量化 LLaMA2-13B 的绝对准确度增益高达 29.5%。我们进一步证明了其在大型多模态模型 (LLaVA-1.5-7B) 上的有效性。代码可在 https://github.com/HuangOwen/RoLoRA 获取

通过基于网格的游戏竞赛评估大型语言模型：可扩展的 LLM 基准和排行榜

分类： 人工智能, 计算和语言, 机器学习, 神经和进化计算

作者： Oguzhan Topsakal, Colby Jacob Edell, Jackson Bailey Harper

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07796v2

摘要： 我们通过井字棋、四子棋和五子棋等基于网格的游戏，为大型语言模型 (LLM) 引入了一种新颖且可扩展的基准。 GitHub 上提供的开源游戏模拟代码允许大语言模型进行竞争并生成 JSON、CSV、TXT 和 PNG 格式的详细数据文件，用于排行榜排名和进一步分析。我们展示了领先的大语言模型之间的游戏结果，包括 Anthropic 的 Claude 3.5 Sonnet 和 Claude 3 Sonnet、Google 的 Gemini 1.5 Pro 和 Gemini 1.5 Flash、OpenAI 的 GPT-4 Turbo 和 GPT-4o 以及 Meta 的 Llama3-70B。我们还鼓励其他大语言模型提交结果。总共，我们使用三种不同的提示类型：列表、插图和图像，在三种类型的游戏中模拟了 2,310 场比赛（7 位大语言模型和一名随机玩家每对进行 5 场比赛）。结果显示不同游戏和提示类型的 LLM 表现存在显着差异，分析涵盖获胜率和取消资格率、错失机会分析和无效棋步分析。排行榜和结果矩阵数据的详细信息可作为 GitHub 上的开放访问数据获取。这项研究增强了我们对大语言模型在玩未经专门训练的游戏方面的能力的理解，有助于评估他们的规则理解和战略思维。在通用人工智能（AGI）的道路上，这项研究为未来探索其在复杂决策场景中的效用奠定了基础，阐明了他们的战略思维能力，并为进一步探究大语言模型在基于游戏的框架内的局限性提供了方向。

基于大语言模型的多智能体社区中被操纵的知识大量传播

分类： 计算和语言

作者： Tianjie Ju, Yiting Wang, Xinbei Ma, Pengzhou Cheng, Haodong Zhao, Yulong Wang, Lifeng Liu, Jian Xie, Zhuosheng Zhang, Gongshen Liu

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07791v1

摘要： 大语言模型（LLM）在多智能体系统中的快速采用凸显了它们在各种应用中令人印象深刻的能力，例如协作解决问题和自主谈判。然而，这些基于大语言模型的多智能体系统的安全影响尚未得到彻底研究，特别是在受操纵知识的传播方面。在本文中，我们通过构建详细的威胁模型和全面的模拟环境来研究这个关键问题，该环境反映了可信平台中真实世界的多代理部署。随后，我们提出了一种新颖的两阶段攻击方法，涉及说服性注入和操纵知识注入，以系统地探索操纵知识（即反事实和有毒知识）在没有明确提示操纵的情况下传播的潜力。我们的方法利用了大语言模型在处理世界知识方面的固有漏洞，攻击者可以利用这些漏洞无意识地传播捏造的信息。通过大量实验，我们证明我们的攻击方法可以成功诱导基于 LLM 的代理传播反事实和有毒知识，而不会降低代理通信期间的基本能力。此外，我们表明这些操作可以通过流行的检索增强生成框架持续存在，其中几个良性代理存储和检索受操纵的聊天历史记录以供将来交互。这种持久性表明，即使交互结束后，良性代理也可能继续受到操纵知识的影响。我们的研究结果揭示了基于 LLM 的多智能体系统中存在重大安全风险，强调了针对受操纵的知识传播采取强有力的防御措施的迫切需要，例如引入“监护人”智能体和先进的事实检查工具。

评估无人机控制的语音命令管道：从 STT 和 LLM 到直接分类和连体网络

分类： 声音, 人工智能, I.2.7; I.2.10

作者： Lucca Emmanuel Pineli Simões, Lucas Brandão Rodrigues, Rafaela Mota Silva, Gustavo Rodrigues da Silva

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08658v1

摘要： 本文介绍了使用语音识别和深度学习技术控制 Tello 无人机的三种语音命令管道的开发和比较评估。其目的是通过对无人机动作进行直观的语音控制来增强人机交互。开发的管道包括：(1) 传统的语音到文本 (STT) 和大型语言模型 (LLM) 方法，(2) 直接语音到功能映射模型，以及 (3) 连体神经网络基于系统。每个管道都根据推理时间、准确性、效率和灵活性进行评估。提供了详细的方法、数据集准备和评估指标，对每个管道在不同场景中的优势和适用性进行了全面分析。

整流器：通过大语言模型使用校正器进行代码翻译

分类： 软件工程, 人工智能

作者： Xin Yin, Chao Ni, Tien N. Nguyen, Shaohua Wang, Xiaohu Yang

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07472v1

摘要： 随着软件和社会的发展，软件迁移越来越受到人们的关注。早期的研究主要依靠手工制定的翻译规则在两种语言之间进行翻译，翻译过程容易出错且耗时。近年来，研究人员开始探索在代码翻译中使用预训练的大型语言模型（LLM）。然而，代码翻译是一项复杂的任务，LLM在代码翻译过程中会产生错误，它们在执行代码翻译任务时都会产生某些类型的错误，其中包括（1）编译错误，（2）运行时错误，（3）功能错误， (4)非终止执行。我们发现这些错误的根本原因非常相似（例如导入包失败、循环边界错误、操作员错误等）。在本文中，我们提出了一种通用校正器，即整流器，它是一种用于修复翻译错误的微观通用模型。它从现有大语言模型生成的错误中学习，并且可以广泛应用于纠正任何大语言模型生成的错误。 C++、Java和Python之间的翻译任务的实验结果表明我们的模型具有有效的修复能力，交叉实验也证明了我们方法的鲁棒性。

多语言混合：大语言模型安全一致性评估与语言混合

分类： 计算和语言

作者： Jiayang Song, Yuheng Huang, Zhehua Zhou, Lei Ma

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07342v1

摘要： 由于安全性仍然是大型语言模型 (LLM) 整个开发生命周期中的一个关键问题，研究人员和行业从业者越来越关注保护 LLM 行为并使其与人类偏好和道德标准保持一致。大语言模型接受过广泛的多语言语料库的培训，在不同语言和领域表现出强大的泛化能力。然而，当前的安全对齐实践主要集中于单语言场景，这使其在复杂的多语言环境中的有效性，特别是对于那些复杂的混合语言格式，在很大程度上尚未得到探索。在本研究中，我们引入了多语言混合，这是一种混合语言查询响应方案，旨在评估各种最先进的 LLM（例如 GPT-4o、GPT-3.5、Llama3）在复杂的多语言环境下的安全一致性状况。我们进一步研究语言模式，例如语言可用性、词法和语系，这些模式可能会影响多语言混合的有效性，从而损害大语言模型的保障。我们的实验结果表明，在没有精心设计的提示模板的情况下，多语言混合会显着放大恶意查询的危害，导致LLM安全对齐的绕过率大幅提高（GPT-3.5上为67.23％，GPT-4o上为40.34％），远远超过那些单语言基线。此外，多语言混合的性能根据内在的语言特性而显着变化，不同形态和来自不同语系的语言更容易逃避安全对齐。这些发现强调了评估大语言模型并在复杂的多语言环境中制定相应的安全调整策略的必要性，以与其卓越的跨语言泛化能力保持一致。

MixSumm：使用 LLM 进行基于主题的数据增强，用于低资源提取文本摘要

分类： 计算和语言, 人工智能

作者： Gaurav Sahu, Issam H. Laradji

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.07341v1

摘要： 低资源提取文本摘要是一个重要但尚未充分探索的研究领域。先前的文献要么关注抽象文本摘要，要么直接提示像 GPT-3 这样的大型语言模型 (LLM) 来生成摘要。在这项工作中，我们提出了 MixSumm 用于低资源提取文本摘要。具体来说，MixSumm 提示开源 LLM LLaMA-3-70b 生成混合来自多个主题的信息的文档，而不是生成没有混合的文档，然后在生成的数据集上训练摘要模型。我们使用 ROUGE 分数和 L-Eval（一种基于 LLaMA-3 的无参考评估方法）来衡量生成摘要的质量。我们对包含 TweetSumm、WikiHow 和 ArXiv/PubMed 数据集的具有挑战性的文本摘要基准进行了广泛的实验，并表明我们基于 LLM 的数据增强框架优于最近基于提示的低资源提取摘要方法。此外，我们的结果还证明了从 LLaMA-3-70b 到小型基于 BERT 的提取摘要器的有效知识蒸馏。

FBI-LLM：通过自回归蒸馏从头开始扩展完全二值化的 LLM

分类： 计算和语言, 人工智能, 机器学习

作者： Liqun Ma, Mingjie Sun, Zhiqiang Shen

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.07093v1

摘要： 这项工作提出了一种完全二元化的大型语言模型（FBI-LLM），首次演示了如何从头开始训练大规模二进制语言模型（而不是像 BitNet b1.58 那样的部分二元或三元 LLM）以匹配性能基于变压器的 LLM 中的全精度对应物（例如 FP16 或 BF16）。它通过采用自回归蒸馏 (AD) 损失来实现这一目标，同时保持与常规 LLM 预训练相同的模型维度（130M、1.3B、7B）和训练数据量，同时在复杂度和特定任务有效性方面提供有竞争力的结果。有趣的是，通过分析训练轨迹，我们发现预训练权重对于从头开始训练二值化 LLM 来说并不是必需的。这项研究鼓励新的计算框架，并可能促进未来为全 1 位大语言模型量身定制的专用硬件的设计。我们使所有模型、代码和训练数据集完全可访问且透明，以支持进一步的研究（代码：https://github.com/LiqunMa/FBI-LLM。模型：https://huggingface.co/LiqunMa/）。

让大语言模型适应希伯来语：推出具有增强词汇和教学功能的 DictaLM 2.0

分类： 计算和语言

作者： Shaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.07080v1

摘要： 用希伯来语等低资源语言训练大型语言模型 (LLM) 带来了独特的挑战。在本文中，我们介绍了 DictaLM2.0 和 DictaLM2.0-Instruct，这两个源自 Mistral 模型的大语言模型，在包含约 2000 亿个希伯来语和英语标记的大量语料库上进行了训练。将预先训练的模型适应新语言需要专门的技术，这与从头开始训练模型或在资源丰富的语言（例如英语）上进一步训练现有模型有很大不同。我们概述了这些新颖的培训方法，它们有助于有效学习和适应希伯来语的语言特性。此外，我们在综合指令数据集上对 DictaLM2.0-Instruct 进行了微调，以增强其在特定任务指令上的性能。为了严格评估我们的模型，我们引入了用于希伯来语 LLM 评估的新基准套件，涵盖一系列不同的任务，包括问答、情感分析、Winograd 模式挑战、翻译和总结。我们的工作不仅解决了用资源匮乏的语言培训大语言模型的复杂问题，还提出了一个框架，可用于使其他大语言模型适应各种非英语语言，从而为更广泛的多语言 NLP 领域做出贡献。

Metron：大语言模型推理系统的整体性能评估框架

分类： 机器学习, 人工智能, 计算和语言, 分布式、并行和集群计算

作者： Amey Agrawal, Anmol Agarwal, Nitin Kedia, Jayashree Mohan, Souvik Kundu, Nipun Kwatra, Ramachandran Ramjee, Alexey Tumanov

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.07000v1

摘要： 在生产中提供大型语言模型 (LLM) 服务可能会产生大量成本，这促使推理系统优化方面取得了最新进展。如今，这些系统根据传统的延迟和吞吐量指标（例如 TTFT、TBT、标准化延迟和 TPOT）进行评估。然而，这些指标无法完全捕捉 LLM 推理的细微差别，导致对聊天和翻译等实时应用程序至关重要的面向用户的性能评估不完整。在本文中，我们首先确定了当前评估 LLM 推理系统性能指标的缺陷。然后，我们提出了 Metron，一个综合性能评估框架，其中包括流动性指数——一种新颖的指标，旨在反映 LLM 推理过程的复杂性及其对实时用户体验的影响。最后，我们使用 Metron 评估各种现有的开源平台和模型即服务产品，讨论它们的优点和缺点。 Metron 可以在 https://github.com/project-metron/metron 上找到。

Richelieu：自我进化的大语言模型人工智能外交代理人

分类： 人工智能, 多代理系统, 社交和信息网络

作者： Zhenyu Guan, Xiangyu Kong, Fangwei Zhong, Yizhou Wang

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06813v1

摘要： 外交是人类社会最复杂的活动之一。多方/代理人之间复杂的互动涉及社会推理、谈判艺术和长期战略规划等多种能力。以前的人工智能代理无疑已经证明了它们在涉及多个代理的任务中处理多步骤游戏和更大动作空间的能力。然而，外交涉及巨大的决策空间，特别是考虑到所需的谈判阶段。最近，LLM 代理在一些应用程序上显示了扩展先前代理边界的潜力，但是，它仍然不足以在复杂的多代理环境中处理很长的规划周期。凭借尖端的 LLM 技术，我们首次尝试通过结合三种核心和基本功能来构建更强大的基于 LLM 的社会智能体，从而探索人工智能对类人智能体的上限，以执行如此高度综合的多智能体任务：1)具有记忆力和反思能力的战略规划者； 2）以目标为导向的社会推理谈判； 3）通过自我玩游戏来增强记忆，从而在没有任何人类参与的情况下自我进化。

如果它是由人工智能编写的，那它就不可能是正确的：关于律师对被视为由大语言模型与人类撰写的文件的偏好

分类： 人机交互, 人工智能, 计算机与社会

作者： Jakub Harasta, Tereza Novotná, Jaromir Savelka

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06798v1

摘要： 大型语言模型 (LLM) 使未来可以自动生成某些类型的法律文档。这对于简化法律程序、降低法律服务成本并大幅增加诉诸司法的机会具有巨大潜力。虽然许多研究人员将精力集中在提出和评估支持法律领域任务的基于大语言模型的申请，但明显缺乏对法律专业人士如何看待法律专业人士认为内容是由大语言模型生成的内容的调查。然而，这是一个关键点，因为过度依赖或毫无根据的怀疑可能会影响此类文件是否会带来适当的法律后果。这项研究是在向成熟的生成式人工智能系统持续过渡的背景下进行的必要分析。具体来说，我们研究了律师 (n=75) 对法律文件的看法是否因其假定的来源（人工制作与人工智能生成）而有所不同。参与者对文件的评估重点是其正确性和语言质量。我们的分析表明，人们明显偏爱被认为是由人类制作的文档，而不是那些被认为是由人工智能生成的文档。同时，大多数参与者都期待未来文档能够自动生成。法律从业者、政策制定者和立法者可以利用这些发现来负责任地实施和采用法律文件生成技术，并推动关于如何更新法律程序以反映最新技术发展的必要讨论。

熵定律：数据压缩和 LLM 性能背后的故事

分类： 机器学习, 计算和语言

作者： Mingjia Yin, Chuhan Wu, Yufei Wang, Hao Wang, Wei Guo, Yasheng Wang, Yong Liu, Ruiming Tang, Defu Lian, Enhong Chen

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06645v2

摘要： 数据是大型语言模型（LLM）的基石，但并非所有数据都对模型学习有用。精心挑选的数据可以以更少的计算开销更好地激发大语言模型的能力。大多数方法在数据选择时侧重于评估单个样本的质量，而忽略了样本之间的组合效应。即使每个样本都具有完美的质量，由于其内在的同质性或矛盾，它们的组合在大语言模型教学中可能不是最佳的。在本文中，我们的目标是揭示大语言模型表现和数据选择之间的潜在关系。受 LLM 信息压缩性质的启发，我们发现了一个“熵定律”，将 LLM 性能与数据压缩率和第一轮训练损失联系起来，反映了数据集的信息冗余以及对数据集中编码的固有知识的掌握。数据集，分别。通过理论推导和实证评估，我们发现模型性能与训练数据的压缩率呈负相关，这通常会产生较低的训练损失。基于熵定律的发现，我们提出了一种非常有效且通用的数据选择方法，名为 \textbf{ZIP} 用于训练 LLM，其目的是优先考虑表现出低压缩比的数据子集。基于以贪心方式选择不同数据的多阶段算法，我们可以获得具有令人满意的多样性的良好数据子集。我们进行了大量的实验来验证熵定律以及 ZIP 在不同 LLM 主干和对齐阶段的优越性。我们还提出了熵定律的一个有趣的应用，可以在模型训练开始时检测潜在的性能风险。

移动大语言模型：初步路线图

分类： 软件工程

作者： Daihang Chen, Yonghui Liu, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Shuai Wang, Xiao Chen, Tegawendé F. Bissyandé, Jacques Klein, Li Li

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06573v1

摘要： 当移动设备遇到大语言模型时，移动应用程序用户应该获得更智能的使用体验。为了实现这一目标，我们认为非常需要将大语言模型应用于移动生态系统。因此，我们提供了一个研究路线图，以指导我们的研究人员从整体上实现这一目标。在此路线图中，我们总结了我们认为在移动设备中实现原生智能的研究迫切需要的六个方向。在每个方向上，我们进一步总结了当前的研究进展以及仍需要我们的研究人员填补的空白。

FinCon：综合大语言模型多代理系统，具有概念口头强化功能，可增强财务决策

分类： 计算和语言

作者： Yangyang Yu, Zhiyuan Yao, Haohang Li, Zhiyang Deng, Yupeng Cao, Zhi Chen, Jordan W. Suchow, Rong Liu, Zhenyu Cui, Denghui Zhang, Koduvayur Subbalakshmi, Guojun Xiong, Yueru He, Jimin Huang, Dong Li, Qianqian Xie

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06567v2

摘要： 大型语言模型 (LLM) 在执行复杂任务方面表现出了巨大的潜力，并且越来越多地在各种金融应用中得到利用。然而，高质量的序贯金融投资决策仍然具有挑战性。这些任务的每个决策都需要与不稳定的环境进行多次交互，需要足够的情报来最大化回报并管理风险。尽管大语言模型已被用来开发超越人类团队并产生可观投资回报的代理系统，但通过及时的经验细化来增强多源信息综合和优化决策结果的机会仍有待探索。在这里，我们介绍 FinCon，这是一个基于大语言模型的多智能体框架，具有针对各种金融任务量身定制的概念语言强化功能。受到有效的现实世界投资公司组织结构的启发，FinCon 采用经理-分析师沟通层次结构。这种结构允许通过自然语言交互实现同步的跨职能代理协作，以实现统一的目标，并为每个代理提供比人类更大的记忆容量。此外，FinCon 中的风险控制组件通过不定期启动自我批评机制来更新系统投资信念，从而提高决策质量。概念化的信念充当未来代理行为的口头强化，并且可以有选择地传播到需要知识更新的适当节点。此功能显着提高了性能，同时减少了不必要的点对点通信成本。此外，FinCon 在各种金融任务中表现出强大的泛化能力，包括个股交易和投资组合管理。

通过检测和探索任务特定神经元来理解大语言模型的多任务学习（泛化）

分类： 计算和语言, 机器学习

作者： Yongqi Leng, Deyi Xiong

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06488v1

摘要： 虽然大型语言模型（LLM）已经表现出卓越的多任务能力，但理解其背后的学习机制仍然是一个具有挑战性的问题。在本文中，我们试图从神经元的角度理解此类机制。具体来说，我们通过任务特定数据的梯度归因来检测大语言模型中的任务敏感神经元。通过广泛的失活和微调实验，我们证明检测到的神经元与给定任务高度相关，我们将其称为任务特异性神经元。通过这些确定的任务特定神经元，我们深入研究了多任务学习和持续学习中的两个常见问题：泛化和灾难性遗忘。我们发现任务特定神经元的重叠与跨任务的泛化和专业化密切相关。有趣的是，在LLM的某些层，不同任务特定神经元的参数存在高度相似性，并且这种相似性与泛化性能高度相关。受这些发现的启发，我们提出了一种神经元级连续微调方法，在连续学习过程中仅微调当前特定任务的神经元，大量实验证明了该方法的有效性。我们的研究提供了对大语言模型在多任务学习中的可解释性的见解。

暴露隐私差距：针对 LLM 调整偏好数据的成员资格推断攻击

分类： 人工智能

作者： Qizhang Feng, Siva Rajesh Kasa, Hyokun Yun, Choon Hui Teo, Sravan Babu Bodapati

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06443v1

摘要： 大型语言模型 (LLM) 因其卓越的自然语言能力而得到广泛采用。然而，当在现实环境中部署它们时，重要的是让大语言模型根据可接受的人类标准生成文本。近端策略优化（PPO）和直接偏好优化（DPO）等方法在使用人类偏好数据改进大语言模型方面取得了重大进展。然而，利用此类偏好数据所固有的隐私问题尚未得到充分研究。在本文中，我们研究了使用人类偏好数据集对齐的大语言模型对成员推理攻击（MIA）的脆弱性，强调了先前 MIA 方法在偏好数据方面的缺点。我们的研究有两个主要贡献：首先，我们引入了一种新颖的基于参考的攻击框架，专门用于分析偏好数据，称为 PREMIA（\uline{Pre}ference data \uline{MIA}）；其次，我们提供的经验证据表明，与 PPO 模型相比，DPO 模型更容易受到 MIA 的影响。我们的研究结果凸显了当前大语言模型联盟隐私保护实践中的差距。

ORAN-Bench-13K：用于评估开放无线电接入网络中的大语言模型的开源基准

分类： 网络和互联网架构, 人工智能, 计算和语言, 机器学习

作者： Pranshav Gajjar, Vijay K. Shah

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06245v1

摘要： 大型语言模型 (LLM) 可以通过增强网络分析、异常检测和代码生成并显着提高大量 O-RAN 任务的效率和可靠性，彻底改变我们部署和操作开放无线电接入网络 (O-RAN) 的方式。在本文中，我们提出了 ORAN-Bench-13K，这是第一个综合基准测试，旨在评估 O-RAN 背景下大型语言模型 (LLM) 的性能。我们的基准测试由 116 个 O-RAN 规范文档生成的 13,952 个精心策划的多项选择题组成。我们利用新颖的三阶段大语言模型框架，将问题分为三个不同的难点，以涵盖广泛的 ORAN 相关知识。我们全面评估了几个最先进的大语言模型的表现，包括 Gemini、Chat-GPT 和 Mistral。此外，我们提出了 ORANSight，一种基于检索增强生成 (RAG) 的管道，与其他测试的闭源模型相比，它在 ORAN-Bench-13K 上展示了卓越的性能。我们的研究结果表明，当前流行的 LLM 模型并不精通 O-RAN，这凸显了对专门模型的需求。当合并基于 RAG 的 ORANSight 管道时，我们观察到性能显着提高，宏观精度为 0.784，加权精度为 0.776，比其他测试的大语言模型平均提高了 21.55% 和 22.59%。

使用语法屏蔽确保基于 LLM 的建模任务中的语法有效性

分类： 计算和语言, 人工智能, 软件工程

作者： Lukas Netz, Jan Reimar, Bernhard Rumpe

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06146v1

摘要： 我们提出并评估了一种称为语法屏蔽的方法，该方法用于指导大型语言模型（LLM）为给定的上下文无关语法生成语法正确的模型。快速工程方法（例如少样本学习或启动）可用于提高大语言模型生成正确语法的机会，但语法越复杂，这些方法就越耗时且前景黯淡。以前的工作主要集中在语言模型训练或提示工程的使用上。在这项工作中，提出了一种使用约束解码将输出限制为给定语法的方法，以确保输出遵循有效的语法。我们使用用 MontiCore 构建的多个 DSL，并要求多个 LLM 来生成带或不带约束解码的模型。使用相应的解析器来确认每个模型的语法正确性。我们表明，语法屏蔽可以显着提高多个大语言模型的建模能力，减少对精细提示的需求，同时增加生成正确模型的机会。

评估数据可视化中自然语言表达的大语言模型的语义分析能力

分类： 人工智能, 人机交互

作者： Hannah K. Bako, Arshnoor Buthani, Xinyi Liu, Kwesi A. Cobbina, Zhicheng Liu

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06129v1

摘要： 自动生成数据可视化以响应人类对数据集的表达需要对数据表达进行深入的语义理解，包括对数据属性、可视化任务和必要的数据准备步骤的隐式和显式引用。用于数据可视化的自然语言接口（NLI）已经探索了推断此类信息的方法，但由于人类语音固有的不确定性，挑战仍然存在。大型语言模型 (LLM) 的最新进展提供了解决这些挑战的途径，但它们提取相关语义信息的能力仍有待探索。在这项研究中，我们评估了四个公开的大语言模型（GPT-4、Gemini-Pro、Llama3 和 Mixtral），调查他们即使在存在不确定性的情况下理解话语的能力，也研究了他们识别相关数据上下文和视觉任务的能力。我们的研究结果表明，大语言模型对话语中的不确定性很敏感。尽管存在这种敏感性，他们仍然能够提取相关的数据上下文。然而，大语言模型很难完成推断可视化任务。基于这些结果，我们重点介绍了使用大语言模型进行可视化生成的未来研究方向。

探索人类与大语言模型的对话：心理模型和毒性的起源

分类： 人机交互, 人工智能

作者： Johannes Schneider, Arianna Casanova Flores, Anne-Catherine Kranz

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05977v1

摘要： 这项研究探索了现实世界中人类在多样化、不受约束的环境中与大型语言模型 (LLM) 的交互，这与之前大多数专注于特定任务的道德修整模型（如 ChatGPT）的研究形成鲜明对比。我们的目标是了解毒性的起源。我们的研究结果表明，尽管大语言模型被正确地指控提供有毒内容，但它主要是由积极寻求此类内容的人类所要求或至少挑起的。我们对数百个被 API 商业供应商判定为有毒的对话进行了手动分析，也对当前拒绝回答用户请求的做法提出了疑问。此外，根据多项经验指标，我们推测人类的心理模式发生了变化，从与机器交互的思维模式更多地转向与人交互的思维模式。

LLaMAX：通过增强超过 100 种语言的翻译能力来扩展大语言模型的语言视野

分类： 计算和语言, 人工智能

作者： Yinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05975v1

摘要： 大型语言模型（LLM）在高资源语言任务中表现出卓越的翻译能力，但其在低资源语言中的性能因预训练期间多语言数据不足而受到阻碍。为了解决这个问题，我们投入了 35,000 个 A100-SXM4-80GB GPU 时间对 LLaMA 系列模型进行广泛的多语言持续预训练，从而实现了 100 多种语言的翻译支持。通过对词汇扩展和数据增强等训练策略的全面分析，我们开发了 LLaMAX。值得注意的是，在不牺牲泛化能力的情况下，与现有的开源 LLM 相比，LLaMAX 实现了显着更高的翻译性能（超过 10 个 spBLEU 点），并且在 Flores 上的性能与专用翻译模型~~（M2M-100-12B）相当-101基准。大量实验表明 LLaMAX 可以作为强大的多语言基础模型。代码~~\footnote{\url{https://github.com/CONE-MT/LLaMAX/.}}和模型~\footnote{\url{https://huggingface.co/LLaMAX/.}}是公开的可用的。

使用 LLM 和 Human in the Loop 来优化和评估检索增强 QA 聊天机器人

分类： 计算和语言, 人工智能

作者： Anum Afzal, Alexander Kowsik, Rajna Fani, Florian Matthes

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05925v1

摘要： 大型语言模型已应用于各种平凡和重复性任务，包括人力资源 (HR) 支持。我们与 SAP SE 的领域专家合作开发了人力资源支持聊天机器人，作为解决员工询问的高效工具。我们在开发周期的各个部分插入了人机交互，例如数据集收集、提示优化和生成输出的评估。通过提高大语言模型驱动的聊天机器人的响应质量并探索替代检索方法，我们为人力资源专业人员创建了一个高效、可扩展且灵活的工具，以有效解决员工的询问。我们的实验和评估得出的结论是，GPT-4 优于其他模型，并且可以通过内部推理能力克服数据的不一致。此外，通过专家分析，我们推断 G-Eval 和 Prometheus 等无参考评估指标的可靠性与人类评估的可靠性非常接近。

使用大语言模型生成印度临床出院摘要并进行去识别化

分类： 计算和语言, 人工智能, 机器学习

作者： Sanjeet Singh, Shreya Gupta, Niralee Gupta, Naimish Sharma, Lokesh Srivastava, Vibhu Agarwal, Ashutosh Modi

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05887v1

摘要： 医疗保健数据泄露的后果对于患者、提供者和付款人来说可能是毁灭性的。近几个月数据泄露造成的平均财务影响估计接近 1000 万美元。这对于印度的医疗机构来说尤其重要，因为它们正在管理快速数字化，同时仍然建立符合法律文字和精神的数据治理程序。基于计算机的个人信息去识别系统很容易受到数据漂移的影响，常常导致它们在跨机构环境中无效。因此，必须根据当地健康数据集对现有的去识别化进行严格评估，以支持印度安全采用数字健康举措。在本文中，我们使用印度医疗机构提供的一小组去识别化的患者出院摘要，报告了在公开的非印度数据集上训练的去识别化算法（基于语言模型）的名义性能，指出缺乏跨机构的概括。同样，对现成的去识别系统的实验揭示了与该方法相关的潜在风险。为了克服数据稀缺的问题，我们探索通过对大型语言模型（LLM）进行上下文学习来生成综合临床报告（使用公开的和印度的摘要）。我们的实验证明，使用生成的报告作为创建具有良好泛化能力的高性能去识别系统的有效策略。

KG-FPQ：利用基于知识图的错误前提问题评估大语言模型的事实幻觉

分类： 计算和语言, 人工智能

作者： Yanxu Zhu, Jinlin Xiao, Yuhang Wang, Jitao Sang

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05868v1

摘要： 最近的研究表明，大型语言模型（LLM）很容易受到错误前提问题（FPQ）的误导，导致事实知识的错误，即事实幻觉。现有评估该漏洞的基准主要依赖于手动构建，导致规模有限且缺乏可扩展性。在这项工作中，我们引入了一个自动化、可扩展的管道来创建基于知识图（KG）的 FPQ。第一步是修改从知识图谱中提取的真实三元组以创建错误前提。随后，利用 GPT 最先进的功能，我们生成语义丰富的 FPQ。基于所提出的方法，我们提出了一个综合基准，即基于知识图的错误前提问题（KG-FPQ），其中包含跨越三个知识领域、六个易混淆级别和两种任务格式的大约 178k FPQ。使用 KG-FPQ，我们对几个具有代表性的大语言模型进行了广泛的评估，并提供了宝贵的见解。 KG-FPQ数据集和代码可在~https://github.com/yanxuzhu/KG-FPQ获取。

使用 mllm-NPU 实现每秒 1000 个令牌的设备上 LLM 预填充

分类： 人工智能

作者： Daliang Xu, Hao Zhang, Liming Yang, Ruiqi Liu, Gang Huang, Mengwei Xu, Xuanzhe Liu

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05858v1

摘要： 设备上的大语言模型 (LLM) 正在催生新颖的移动应用程序，例如 UI 任务自动化和个性化电子邮件自动回复，而不会泄露用户的私人数据。然而，由于需要长上下文来生成准确、个性化的内容，以及缺乏移动 CPU 的并行计算能力，设备上的 LLM 仍然存在不可接受的长推理延迟，尤其是第一个令牌的时间（预填充阶段） /GPU。为了实现实用的设备上 LLM，我们推出了 mllm-NPU，这是首款有效利用设备上神经处理单元 (NPU) 卸载的 LLM 推理系统。本质上，mllm-NPU 是一种算法系统协同设计，解决了 LLM 架构和当代 NPU 设计之间的一些语义差距。具体来说，它在三个层面上重构了提示和模型：（1）在提示层面，它将可变长度的提示划分为多个固定大小的块，同时保持数据依赖性； (2) 在张量级别，它识别并提取显着的异常值，以最小的开销在 CPU/GPU 上并行运行； (3) 在块级别，它根据硬件亲和性和对精度的敏感度，以乱序方式将 Transformer 块调度到 CPU/GPU 和 NPU。与竞争基准相比，mllm-NPU 的预填充速度平均提高了 22.4 倍，节能 30.7 倍，在端到端实际应用中加速高达 32.8 倍。 mllm-NPU 首次实现了十亿级模型（Qwen1.5-1.8B）每秒超过 1,000 个令牌的预填充，为实用的设备上 LLM 铺平了道路。

PsycoLLM：加强心理学理解和评估的大语言模型

分类： 计算和语言

作者： Jinpeng Hu, Tengteng Dong, Hui Ma, Peng Zou, Xiao Sun, Meng Wang

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05721v1

摘要： 近年来，心理健康问题引起了广泛关注，大语言模型因其文本理解和对话能力，可以成为缓解这一问题的有效技术。然而，该领域的现有研究往往存在局限性，例如数据集训练缺乏关键的先验知识和证据，以及缺乏全面的评估方法。在本文中，我们提出了一种专门的心理大语言模型（LLM），名为 PsycoLLM，在所提出的高质量心理数据集上进行训练，包括单轮 QA、富含先验知识的多轮对话和基于知识的 QA。此外，为了比较PsycoLLM与其他LLM的表现，我们根据中国权威的心理咨询考试制定了综合心理基准，包括职业道德、理论水平和案例分析的评估。基准测试的实验结果说明了 PsycoLLM 的有效性，与其他 LLM 相比，它表现出优越的性能。

InverseCoder：利用 Inverse-Instruct 释放指令调整代码 LLM 的力量

分类： 计算和语言, 人工智能, 软件工程

作者： Yutong Wu, Di Huang, Wenxuan Shi, Wei Wang, Lingzhe Gao, Shihao Liu, Ziyuan Nan, Kaizhao Yuan, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Yewen Pu, Dawei Yin, Xing Hu, Yunji Chen

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05700v1

摘要： 开源代码大语言模型 (LLM) 的最新进展通过对强大的闭源 LLM（例如 GPT-3.5 和 GPT-4）生成的数据进行微调以进行指令调整，展示了卓越的编码能力。本文探讨了如何通过从自身生成数据而不是查询闭源 LLM 来进一步改进指令调整代码 LLM。我们的主要观察结果是正式语言和非正式语言的翻译之间的不一致：将正式语言（即代码）翻译为非正式语言（即自然语言）比反之亦然更直接。基于这一观察，我们提出了 INVERSE-INSTRUCT，它总结了代码片段中的指令，而不是相反。具体来说，给定代码的指令调优语料库和由此产生的指令调优代码LLM，我们要求代码LLM通过代码摘要和自我评估为原始语料库生成额外的高质量指令。然后，我们结合原始语料库和自行生成的语料库对基础 LLM 进行微调，从而产生更强的指令调整 LLM。我们提出了一系列名为 InverseCoder 的代码 LLM，它在广泛的基准测试中超越了原始代码 LLM 的性能，包括 Python 文本到代码生成、多语言编码和数据科学代码生成。

具有可编程策略的基于大语言模型的开放域集成任务和知识助手

分类： 人工智能, 计算和语言, 编程语言

作者： Harshit Joshi, Shicheng Liu, James Chen, Robert Weigle, Monica S. Lam

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05674v1

摘要： 对基于大语言模型的知识和任务助手进行编程，使其忠实地符合开发人员提供的策略是具有挑战性的。这些代理必须检索并提供一致、准确且相关的信息，以满足用户的查询和需求。然而，此类药物会产生毫无根据的反应（“幻觉”）。传统的对话树只能处理有限数量的对话流，这使得它们本质上很脆弱。为此，我们提出了 KITA——一个可编程框架，用于创建面向任务的会话代理，旨在处理复杂的用户交互。与大语言模型不同，KITA 提供可靠的接地响应，并通过其富有表现力的规范 KITA 工作表提供可控的代理策略。与对话树相比，它能够适应不同的用户查询，有助于知识源，并通过其声明性范例提供易于编程的策略。通过一项涉及 62 名参与者的真实用户研究，我们表明 KITA 在执行准确性、对话行为准确性和目标完成率方面分别以函数调用基线 26.1、22.5 和 52.4 点击败了 GPT-4。我们还发布了 22 个真实用户与 KITA 的对话，并经过手动更正以确保准确性。

GenArtist：多模式大语言模型作为统一图像生成和编辑的代理

分类： 计算机视觉和模式识别

作者： Zhenyu Wang, Aoxue Li, Zhenguo Li, Xihui Liu

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05600v1

摘要： 尽管现有的图像生成和编辑方法取得了成功，但当前的模型仍然面临着复杂的问题，包括错综复杂的文本提示，并且缺乏验证和自我纠正机制使得生成的图像不可靠。同时，单一模型往往专注于特定任务并拥有相应的功能，不足以满足所有用户需求。我们提出了 GenArtist，一个统一的图像生成和编辑系统，由多模式大语言模型（MLLM）代理协调。我们将各种现有模型集成到工具库中，并利用代理进行工具选择和执行。对于一个复杂的问题，MLLM代理将其分解为更简单的子问题，并构建树结构，系统地规划生成、编辑和自我修正的过程，并逐步验证。通过自动生成缺失的位置相关输入并合并位置信息，可以有效地采用适当的工具来解决每个子问题。实验证明GenArtist可以执行各种生成和编辑任务，达到了最先进的性能并超越了SDXL和DALL-E 3等现有模型，如图1所示。项目页面为https:// zhenyuw16.github.io/GenArtist_page。

$R^2$-Guard：通过知识增强逻辑推理实现稳健推理的 LLM 护栏

分类： 人工智能

作者： Mintong Kang, Bo Li

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05557v1

摘要： 随着大语言模型在各种应用中变得越来越普遍，建立安全护栏来调节大语言模型的输入/输出内容至关重要。现有的护栏模型独立处理各种安全类别，无法明确捕捉它们之间的相互关联。这导致了一些限制，例如由于对相关安全类别的长尾数据训练不足而导致效率低下、容易受到越狱攻击以及新安全类别缺乏灵活性等。为了解决这些限制，我们提出了 $R^2$-Guard，这是一种通过知识增强逻辑推理启用的强大推理 LLM 护栏。具体来说，$R^2$-Guard由两部分组成：数据驱动的特定类别学习和推理组件。数据驱动的护栏模型提供了不同安全类别的审核内容的不安全概率。然后，我们将不同类别之间的安全知识编码为一阶逻辑规则，并将它们嵌入到基于概率图形模型（PGM）的推理组件中。数据驱动的护栏模型中不同类别的不安全概率被发送到推理组件进行最终推理。我们采用两种类型的PGM：马尔可夫逻辑网络（MLN）和概率电路（PC），并通过改进的图结构优化PC以实现精度与效率的平衡。为了进一步对护栏模型进行压力测试，我们采用成对构建方法构建了一个新的安全基准TwinSafety，该基准具有原则类别。我们通过在六个安全基准上与八个强护栏模型进行比较来证明 $R^2$-Guard 的有效性，并证明 $R^2$-Guard 针对四种 SOTA 越狱攻击的鲁棒性。 $R^2$-Guard 在 ToxicChat 上显着超过 SOTA 方法 LlamaGuard 30.2%，在越狱攻击方面显着超过 59.5%。

通过大语言模型加强计算机编程教育：Python 代码生成的有效即时工程研究

分类： 人工智能, K.3.2; I.2.7

作者： Tianyu Wang, Nianjun Zhou, Zhixiong Chen

发布时间： 2024-07-07

链接： http://arxiv.org/abs/2407.05437v1

摘要： 大型语言模型 (LLM) 和即时工程在通过个性化教学推进计算机编程教育方面具有巨大潜力。本文通过调查三个关键研究问题来探讨这一潜力：针对不同教育需求的即时工程策略的系统分类，授权大语言模型解决超出其固有能力的复杂问题，以及建立一个强大的框架来评估和实施这些问题策略。我们的方法包括根据教育要求对编程问题进行分类、应用各种即时工程策略以及评估大语言模型生成的答案的有效性。在 LeetCode 和 USACO 等数据集上使用 GPT-4、GPT-4o、Llama3-8b 和 Mixtral-8x7b 模型进行的实验表明，GPT-4o 始终优于其他模型，特别是在“多步”提示策略下。结果表明，量身定制的提示策略可显着提高大语言模型的表现，并为基础学习、竞赛准备和高级问题解决推荐了具体策略。这项研究强调了即时工程在最大化大语言模型教育效益方面的关键作用。通过系统地对这些策略进行分类和测试，我们为教育工作者和学生提供了一个全面的框架，以优化基于大语言模型的学习体验。未来的研究应侧重于完善这些策略并解决当前大语言模型的局限性，以进一步提高计算机编程教学的教育成果。

可变令牌长度低延迟 LLM 推理的排队理论视角

分类： 网络和互联网架构

作者： Yuqing Yang, Yuedong Xu, Lei Jiao

发布时间： 2024-07-07

链接： http://arxiv.org/abs/2407.05347v1

摘要： 大语言模型（LLM）推动了以 ChatGPT 为代表的交互式人工智能应用的繁荣，这些应用需要推理服务的及时响应。然而，LLM 推理是计算密集型和内存密集型的，LLM 平台上不正确的参数配置可能会加剧推理时间。在本文中，我们分析了LLM输出令牌分布对推理排队延迟的影响，其中考虑了最大令牌裁剪和批量推理。通过制定 M/G/1 模型，我们观察到，对极小部分推理请求强制执行最大输出令牌限制可以显着减少排队延迟，并且我们的模型有助于选择最佳限制。对于批量推理，我们将服务进程建模为批量队列，其中批量处理时间受到批量大小和该批量内的最大令牌大小的共同影响。推导出所有缓冲请求的批处理（动态批处理）、恒定请求数的批处理（固定批处理）和无批内等待的批处理（弹性批处理）的排队延迟。实验结果表明，我们的数学模型与事件驱动的模拟非常吻合。

超越二元性别标签：通过性别中性姓名预测揭示大语言模型中的性别偏见

分类： 计算和语言

作者： Zhiwen You, HaeJin Lee, Shubhanshu Mishra, Sullam Jeoung, Apratim Mishra, Jinseok Kim, Jana Diesner

发布时间： 2024-07-07

链接： http://arxiv.org/abs/2407.05271v1

摘要： 基于姓名的性别预测传统上使用二元分类系统根据姓名将个体分类为女性或男性。除其他原因外，这种二元方法在中性名称不符合任何一种性别的情况下可能会出现问题。仅仅依赖二元性别类别而不识别性别中性名称可能会降低性别预测任务的包容性。我们引入了一个额外的性别类别，即“中性”，以研究和解决大型语言模型（LLM）中潜在的性别偏见。我们评估了几种基础和大型语言模型在仅根据名字预测性别方面的表现。此外，我们还研究了添加出生年份对提高性别预测准确性的影响，并考虑了姓名和性别之间随时间变化的关联。我们的研究结果表明，大多数大语言模型能够以很高的准确度（超过 80%）识别男性和女性姓名，但很难识别中性名字（低于 40%），并且基于英语的名字的性别预测准确性高于非英语名字名称。实验结果表明，纳入出生年份并不能提高性别预测的整体准确性，特别是对于具有不断变化的性别关联的名字。我们建议在下游任务中应用大语言模型进行性别识别时要谨慎，特别是在处理非二元性别标签时。

6G 中的通信和控制协同设计：与大语言模型进行顺序决策

分类： 系统与控制, 人工智能

作者： Xianfu Chen, Celimuge Wu, Yi Shen, Yusheng Ji, Tsutomu Yoshinaga, Qiang Ni, Charilaos C. Zarakovitis, Honggang Zhang

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.06227v1

摘要： 本文研究了六代无线网络背景下的控制系统。控制性能优化面临着通信和控制子系统之间复杂的交互所带来的技术挑战，需要协同设计。考虑到系统动力学，我们将离散时间范围内的通信和控制的顺序协同设计决策制定为马尔可夫决策过程，并为此提出了实用的离线学习框架。我们提出的框架将大型语言模型集成到强化学习的元素中。我们提出了一个关于语义感知通信和控制协同设计时代的案例研究，以展示我们提出的学习框架的潜力。此外，我们讨论了剩余的开放问题，以使我们提出的离线学习框架在现实世界中可行，并强调未来探索的研究方向。

利用大语言模型的力量：自动生成高性能计算的单元测试

分类： 软件工程, 人工智能

作者： Rabimba Karanjai, Aftab Hussain, Md Rafiqul Islam Rabin, Lei Xu, Weidong Shi, Mohammad Amin Alipour

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05202v1

摘要： 单元测试对于软件工程中确保质量至关重要。然而，由于其较小、多样化的用户群和复杂的逻辑，它并没有广泛应用于并行和高性能计算软件，特别是科学应用程序。这些因素使得单元测试具有挑战性且成本高昂，因为它需要专业知识，而现有的自动化工具通常无效。为了解决这个问题，我们提出了一种为此类软件生成单元测试的自动化方法，考虑到它们的独特功能，如复杂逻辑和并行处理。最近，大型语言模型（LLM）在编码和测试方面显示出了前景。我们探索了 Davinci (text-davinci-002) 和 ChatGPT (gpt-3.5-turbo) 在为 C++ 并行程序创建单元测试方面的功能。我们的结果表明，大语言模型可以生成大部分正确且全面的单元测试，尽管它们有一些限制，例如重复断言和空白测试用例。

LLMCloudHunter：利用 LLM 从基于云的 CTI 自动提取检测规则

分类： 密码学和安全, 机器学习

作者： Yuval Schwartz, Lavi Benshimol, Dudu Mimran, Yuval Elovici, Asaf Shabtai

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05194v1

摘要： 随着网络攻击的数量和复杂性不断增加，威胁追踪已成为主动安全的一个重要方面，可以在威胁造成重大损害之前主动检测和缓解威胁。开源网络威胁情报 (OS-CTI) 对于威胁追踪者来说是宝贵的资源，但它通常采用非结构化格式，需要进一步的手动分析。之前旨在自动化 OSCTI 分析的研究受到限制，因为 (1) 他们未能提供可操作的输出，(2) 他们没有利用 OSCTI 源中存在的图像，(3) 他们专注于本地环境，忽视了不断增长的环境。云环境的重要性。为了解决这些差距，我们提出了 LLMCloudHunter，这是一种利用大型语言模型 (LLM) 从文本和视觉 OSCTI 数据自动生成通用签名检测规则候选的新颖框架。我们使用 12 个带注释的真实云威胁报告评估了所提出的框架生成的规则的质量。结果表明，我们的框架在准确提取威胁参与者发出的 API 调用的任务中实现了 92% 的精度和 98% 的召回率，对于 IoC 的精度达到了 99%，召回率达到了 98%。此外，99.18% 的生成检测规则候选者已成功编译并转换为 Splunk 查询。

利用大语言模型的特定任务知识进行半监督 3D 医学图像分割

分类： 图像和视频处理, 计算机视觉和模式识别

作者： Suruchi Kumari, Aryan Das, Swalpa Kumar Roy, Indu Joshi, Pravendra Singh

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05088v1

摘要： 传统的监督 3D 医学图像分割模型需要体素级注释，这需要大量的人力、时间和成本。半监督学习 (SSL) 通过使用有限的带注释和大量未注释的训练样本来促进学习，从而解决了监督学习的这一局限性。然而，最先进的 SSL 模型仍然难以充分发挥从未注释样本中学习的潜力。为了促进未注释数据的有效学习，我们引入了 LLM-SegNet，它利用大型语言模型 (LLM) 将特定于任务的知识集成到我们的协同训练框架中。这些知识有助于模型全面理解感兴趣区域（ROI）的特征，最终实现更有效的分割。此外，为了进一步减少错误分割，我们提出了统一分割损失函数。这种损失函数不仅可以优先考虑模型对前景或背景像素之间的预测有信心的区域，而且还可以有效地解决模型对预测缺乏高置信度的区域，从而减少错误的分割。在公开的 Left Atrium、Pancreas-CT 和 Brats-19 数据集上进行的实验证明了 LLM-SegNet 与最先进的技术相比具有卓越的性能。此外，我们还进行了多项消融研究，以证明 LLM-SegNet 利用的各种模块和损失函数的有效性。

更少的代码，更多的对齐：通过数据修剪对代码生成进行高效的 LLM 微调

分类： 软件工程, 机器学习

作者： Yun-Da Tsai, Mingjie Liu, Haoxing Ren

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05040v1

摘要： 最近针对用于代码生成的大型语言模型 (LLM) 的工作表明，通过合成代码生成增加训练数据量通常会带来卓越的性能。在本文中，我们探索了数据修剪方法，旨在提高专门针对代码大语言模型的模型训练效率。我们提出了集成各种聚类和修剪指标的技术，以选择性地减少训练数据，而不影响生成代码的准确性和功能。我们观察到合成训练数据生成中存在显着的冗余，我们的实验表明，仅对 10% 的数据进行训练就可以在很大程度上保留基准性能。此外，我们观察到通过适度修剪训练数据，基准结果得到持续改善。我们的实验表明，这些修剪策略不仅减少了所需的计算资源，而且还提高了代码生成的整体质量。

仅使用即时工程而不进行微调来实现大语言模型中的工具调用功能

分类： 软件工程, 人工智能, 人机交互, I.2.7

作者： Shengtao He

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.04997v1

摘要： 目前，绝大多数本地部署的开源大语言模型（LLM）和部分商业模型接口不支持稳定的工具调用功能。现有的解决方案涉及对 LLM 进行微调，这会导致大量的时间和计算资源消耗。本文提出了一种方法，使大语言模型仅使用即时工程和一些巧妙的代码设计即可实现稳定的工具调用能力。我们对多个缺乏工具调用能力的LLM跨各种工具调用任务进行了实验，取得了100%的成功率。

TRACE：大语言模型中使用对比嵌入的基于 Transformer 的归因

分类： 计算和语言, 机器学习

作者： Cheng Wang, Xinyang Lu, See-Kiong Ng, Bryan Kian Hsiang Low

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.04981v1

摘要： 大型语言模型（LLM）的快速发展代表了自然语言理解和生成的重大飞跃。然而，伴随这些进步而来的是与大语言模型回应的问责制和透明度相关的重大挑战。可靠的来源归属对于遵守严格的法律和监管标准（包括《通用数据保护条例》规定的标准）至关重要。尽管计算机视觉领域内的源归因方法已经很成熟，但稳健的归因框架在自然语言处理中的应用仍未得到充分探索。为了弥补这一差距，我们提出了一种新颖且多功能的基于 TRansformer 的归因框架，该框架使用称为 TRACE 的对比嵌入，特别是利用对比学习进行源归因。我们进行了广泛的实证评估，以证明 TRACE 在各种环境中的性能和效率，并表明 TRACE 显着提高了准确归因来源的能力，使其成为提高大语言模型可靠性和可信度的宝贵工具。

LogicVista：视觉环境中的多模式大语言模型逻辑推理基准

分类： 人工智能, 计算和语言, 计算机视觉和模式识别, 机器学习

作者： Yijia Xiao, Edward Sun, Tianyu Liu, Wei Wang

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.04973v1

摘要： 我们提出了 LogicVista，一个评估基准，用于评估视觉上下文中多模态大语言模型（MLLM）的综合逻辑推理能力。 MLLM 的最新进展展示了各种令人着迷的能力，从基于图像创作诗歌到执行数学推理。然而，对于 MLLM 的逻辑推理任务熟练程度仍然缺乏系统的评估，而逻辑推理任务对于导航和解谜等活动至关重要。因此，我们使用 448 个多项选择题作为样本，评估涵盖 9 种不同能力的 5 项逻辑推理任务的一般逻辑认知能力。每个问题都注释有正确答案和选择背后的人工编写推理，从而实现开放式和多项选择评估。使用 LogicVista 对总共 8 个 MLLM 进行了综合评估。代码和数据可在 https://github.com/Yijia-Xiao/LogicVista 获取。

超越困惑：LLM压缩的多维度安全评估

分类： 计算和语言

作者： Zhichao Xu, Ashim Gupta, Tao Li, Oliver Bentham, Vivek Srikumar

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.04965v1

摘要： 借助最新的模型压缩技术，大型语言模型 (LLM) 越来越多地部署在现实场景中。这种本地部署的势头意味着压缩大语言模型的使用将广泛影响大量人口。然而，先前的分析工作通常优先考虑保留困惑度，这与训练损失直接类比。压缩方法对模型行为其他关键方面（特别是安全性）的影响仍然需要系统评估。为此，我们研究了模型压缩对四个维度的影响：1）退化危害，即生成中的偏差和毒性； 2）代表性伤害，即歧视性任务中的偏见； 3）方言偏见； 4）语言建模和下游任务性能。我们涵盖了广泛的 LLM 压缩技术，包括结构化剪枝、非/半结构化技术和量化。我们的分析表明，压缩可能会导致意想不到的后果。尽管压缩可能会无意中弥补大语言模型的退化伤害，但它仍然会加剧代表性伤害轴。此外，随着压缩率的增加，对不同受保护群体的影响也不同。最后，不同的压缩方法具有截然不同的安全影响，例如，量化主要保留偏差，而剪枝则迅速退化。我们的研究结果强调了将安全评估纳入压缩大语言模型开发的重要性，以确保其在实际应用中的可靠性。我们的完整结果可以在这里找到：\url{https://github.com/zhichaoxu-shufe/Beyond-Perplexity-Compression-Safety-Eval}

自动化风险投资：使用大语言模型支持的细分、特征工程和自动标签技术进行创始人评估

分类： 计算和语言, 人工智能

作者： Ekin Ozince, Yiğit Ihlamur

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04885v1

摘要： 本研究探讨了大语言模型（LLM）在风险投资（VC）决策中的应用，重点是根据创始人特征预测初创企业的成功。我们利用 LLM 提示技术（例如思维链）从有限的数据中生成特征，然后通过统计和机器学习提取见解。我们的结果揭示了某些创始人特征与成功之间的潜在关系，并证明了这些特征在预测中的有效性。这种整合机器学习技术和大语言模型的框架在改善初创企业成功预测方面具有巨大潜力，对寻求优化投资策略的风险投资公司具有重要意义。

提高提取摘要的连贯性：数据集和大语言模型实验

分类： 计算和语言, 人工智能

作者： Mihir Parmar, Hanieh Deilamsalehy, Franck Dernoncourt, Seunghyun Yoon, Ryan A. Rossi, Trung Bui

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04855v1

摘要： 提取摘要在自然语言处理中发挥着关键作用，因为它在有效地总结各种内容方面有着广泛的应用，同时又忠实于原始内容。尽管大型语言模型 (LLM) 在提取摘要方面取得了重大进展，但这些摘要经常表现出不连贯性。连贯摘要的一个重要方面是其对目标用户的可读性。尽管已经提出了许多用于创建连贯的提取摘要的数据集和基准，但目前没有一个数据集和基准包含用户意图来提高提取摘要的连贯性。受此启发，我们提出了一个系统创建的人工注释数据集，其中包含五个公开数据集的连贯摘要和自然语言用户反馈，为如何提高提取摘要的连贯性提供了宝贵的见解。我们利用该数据集通过监督微调与自然语言人类反馈来调整大语言模型，以增强其生成摘要的连贯性。 Falcon-40B 和 Llama-2-13B 的初步实验表明，在生成连贯摘要方面性能显着提高（约 10% Rouge-L）。我们进一步利用人类反馈来对 FLAN-T5 等指令调整模型的结果进行基准测试，这导致了一些有趣的发现。数据和源代码可在 https://github.com/Mihir3009/Extract-AI 获取。

我、我自己和人工智能：大语言模型情境意识数据集 (SAD)

分类： 计算和语言, 人工智能, 机器学习

作者： Rudolf Laine, Bilal Chughtai, Jan Betley, Kaivalya Hariharan, Jeremy Scheurer, Mikita Balesni, Marius Hobbhahn, Alexander Meinke, Owain Evans

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04694v1

摘要： ChatGPT 等人工智能助手经过训练，可以通过说“我是一个大型语言模型”来响应用户。这引发了疑问。这些模型是否知道自己是大语言模型并根据这些知识可靠地采取行动？他们是否了解自己目前的情况，例如被部署到公众面前？我们将模型对其自身及其环境的了解称为态势感知。为了量化大语言模型的情境意识，我们引入了一系列基于问题回答和指令遵循的行为测试。这些测试形成了 $\textbf{态势感知数据集 (SAD)}$，这是一个包含 7 个任务类别和 13,000 多个问题的基准。该基准测试了多种能力，包括大语言模型（i）识别自己生成的文本，（ii）预测自己的行为，（iii）确定提示是来自内部评估还是实际部署的能力，以及（iv）遵循依赖于自我认知的指示。我们在 SAD 上评估了 16 个大语言模型，包括基础（预训练）模型和聊天模型。虽然所有模型的表现都比偶然更好，但即使是得分最高的模型 (Claude 3 Opus) 在某些任务上也远未达到人类基线。我们还观察到，SAD 的性能仅部分由常识指标（例如 MMLU）预测。经过微调以充当人工智能助手的聊天模型在 SAD 上优于相应的基础模型，但在一般知识任务上则不然。 SAD 的目的是通过将情境意识分解为定量能力，促进大语言模型对情境意识的科学理解。态势感知很重要，因为它增强了模型自主规划和行动的能力。虽然这对自动化有潜在的好处，但它也带来了与人工智能安全和控制相关的新风险。代码和最新结果可在 https://situational-awareness-dataset.org 获取。

Seed-ASR：通过基于 LLM 的语音识别来理解不同的语音和上下文

分类： 音频和语音处理, 声音

作者： Ye Bai, Jingping Chen, Jitong Chen, Wei Chen, Zhuo Chen, Chen Ding, Linhao Dong, Qianqian Dong, Yujiao Du, Kepan Gao, Lu Gao, Yi Guo, Minglun Han, Ting Han, Wenchao Hu, Xinying Hu, Yuxiang Hu, Deyu Hua, Lu Huang, Mingkun Huang, Youjia Huang, Jishuo Jin, Fanliu Kong, Zongwei Lan, Tianyu Li, Xiaoyang Li, Zeyang Li, Zehua Lin, Rui Liu, Shouda Liu, Lu Lu, Yizhou Lu, Jingting Ma, Shengtao Ma, Yulin Pei, Chen Shen, Tian Tan, Xiaogang Tian, Ming Tu, Bo Wang, Hao Wang, Yuping Wang, Yuxuan Wang, Hanzhang Xia, Rui Xia, Shuangyi Xie, Hongmin Xu, Meng Yang, Bihong Zhang, Jun Zhang, Wanyi Zhang, Yang Zhang, Yawei Zhang, Yijie Zheng, Ming Zou

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04675v1

摘要： 现代自动语音识别（ASR）模型需要根据各种应用场景中的特定上下文信息准确转录不同的语音信号（来自不同领域、语言、口音等）。融合额外语言模型的经典端到端模型表现良好，但主要是在数据匹配场景中，并逐渐接近瓶颈。在这项工作中，我们介绍了 Seed-ASR，一种基于大语言模型 (LLM) 的语音识别模型。 Seed-ASR 是基于音频条件 LLM (AcLLM) 的框架开发的，通过将连续语音表示和上下文信息输入到 LLM 中来利用 LLM 的功能。通过分阶段的大规模训练和大语言模型情境感知能力的激发，Seed-ASR 在综合评估集（包括多个领域、口音/方言和语言）上表现出比端到端模型的显着改进。此外，Seed-ASR可以进一步部署以支持各种场景的特定需求，而无需额外的语言模型。与最近发布的大型 ASR 模型相比，Seed-ASR 在中文和英文公共测试集上实现了 10%-40% 的单词错误率降低，进一步证明了其强大的性能。

关于弱大语言模型评判强大语言模型的可扩展监督

分类： 机器学习

作者： Zachary Kenton, Noah Y. Siegel, János Kramár, Jonah Brown-Cohen, Samuel Albanie, Jannis Bulian, Rishabh Agarwal, David Lindner, Yunhao Tang, Noah D. Goodman, Rohin Shah

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04622v1

摘要： 可扩展的监督协议旨在使人类能够准确地监督超人人工智能。在本文中，我们研究辩论，其中两个人工智能竞争以说服法官；咨询，单个人工智能试图说服提出问题的法官；并与直接问答的基线进行比较，在该基线中，法官在没有人工智能的情况下直接回答。我们使用大型语言模型（LLM）作为人工智能代理和人类法官的替身，认为法官模型比代理模型更弱。我们对法官和代理人之间的各种不对称性进行了基准测试，将之前关于具有信息不对称性的单一提取式 QA 任务的工作扩展到包括数学、编码、逻辑和多模态推理不对称性。我们发现，当顾问被随机分配来争论正确/不正确的答案时，辩论在所有任务中都优于咨询。比较辩论与直接问答，结果取决于任务类型：在具有信息不对称的抽取式 QA 任务中，辩论优于直接问答，但在其他没有信息不对称的任务中，结果好坏参半。之前的工作为辩论者/顾问分配了一个需要争论的答案。当我们允许他们选择要争论的答案时，我们发现法官在辩论中比在咨询中更不容易被错误答案说服。此外，我们发现更强的辩手模型可以提高法官的准确性，尽管比之前的研究要温和一些。

当大语言模型玩电话游戏时：文化迭代传播中的累积变化和吸引因素

分类： 物理与社会, 人工智能, 多代理系统, 68T50, I.2.7

作者： Jérémy Perez, Corentin Léger, Grgur Kovač, Cédric Colas, Gaia Molinaro, Maxime Derex, Pierre-Yves Oudeyer, Clément Moulin-Frier

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04503v1

摘要： 随着大型语言模型 (LLM) 开始相互交互并在线生成越来越多的文本，更好地了解信息从一个 LLM 传递到下一个 LLM 时如何转换变得至关重要。虽然重要的研究考察了大语言模型的个人行为，但现有的研究在很大程度上忽视了大语言模型反复互动所产生的集体行为和信息扭曲。在单一输出水平上可以忽略不计的小偏差，有在迭代交互中被放大的风险，可能导致内容向吸引子状态演化。在一系列电话游戏实验中，我们应用了借鉴人类文化进化文献的传输链设计：LLM 代理迭代地接收、生成文本并将文本从链中的前一个代理传输到下一个代理。通过跟踪传输链中文本毒性、积极性、难度和长度的演变，我们揭示了偏差和吸引子的存在，并研究它们对初始文本、指令、语言模型和模型大小的依赖性。例如，我们发现与更多受限任务相比，更多开放式指令会产生更强的吸引力效应。我们还发现不同的文本属性对吸引效应表现出不同的敏感性，毒性导致比长度更强的吸引子。这些发现强调了考虑多步传播动态的重要性，并代表了更全面地理解大语言模型文化动态的第一步。

使用大语言模型根据 CIViC 证据模型标记医学论文

分类： 计算和语言

作者： Markus Hisch, Xing David Wang

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04466v1

摘要： 我们将序列分类问题 CIViC Evidence 引入医学 NLP 领域。 CIViC Evidence 表示多标签分类问题，即将临床证据标签分配给科学论文摘要，这些论文检查了基因组变异、癌症类型和治疗方法的各种组合。我们使用不同的语言模型来处理 CIViC Evidence：我们在 CIViC Evidence 数据集上微调 BERT 和 RoBERTa 的预训练检查点，并使用在特定领域文本上进行预训练的相同架构的模型来挑战它们的性能。在这种情况下，我们发现 BiomedBERT 和 BioLinkBERT 在 CIViC 证据上的表现优于 BERT（类别支持加权 F1 分数的绝对提高 +0.8% 和 +0.9%）。与使用二元组 tf-idf 分数训练的逻辑回归相比，所有基于 Transformer 的模型都显示出明显的性能优势（F1 分数提高了 1.5 - 2.7%）。我们在几次设置（在我们原始测试数据集的一小部分）中将上述类似 BERT 的模型与 OpenAI 的 GPT-4 进行了比较，证明在没有额外的提示工程或微调的情况下，GPT-4 在以下方面的表现较差CIViC 证据优于我们的六个微调模型（加权 F1 得分为 66.1%，而最佳微调模型的加权 F1 得分为 71.8%）。然而，性能相当接近基于二元组 tf-idf 分数（67.7% 加权 F1 分数）训练的逻辑回归模型的基准。

从“歌舞女郎”到“表演者”：用性别包容的语言进行微调，以减少大语言模型的偏见

分类： 计算和语言

作者： Marion Bartl, Susan Leavy

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04434v1

摘要： 性别偏见不仅在大型语言模型（LLM）及其训练数据中普遍存在，而且在语言本身的结构方面也根深蒂固。因此，调整大语言模型培训数据中的语言结构以促进性别包容性可以使模型中的性别表征更具包容性。我们工作的重点是英语中的性别排斥词缀，例如“show-girl”或“man-cave”，它们可以延续性别刻板印象和二元性别概念。我们使用 LLM 训练数据集来编译包含 692 个性别专有术语以及中性变体的目录，并据此开发一个包含性别的微调数据集，即“Tiny Heap”。使用该数据集对三个不同的大语言模型进行微调，我们观察到模型中性别刻板印象倾向的总体减少。我们的方法为增强大语言模型培训数据中的性别包容性提供了一种实用方法，并有助于将酷儿女权主义语言活动主义纳入 NLP 的偏见缓解研究中。

通过智能手机感应实现设备上大语言模型个性化

分类： 人机交互, 人工智能, 机器学习

作者： Shiquan Zhang, Ying Ma, Le Fang, Hong Jia, Simon D'Alfonso, Vassilis Kostakos

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04418v1

摘要： 该演示展示了一种新颖的端到端框架，它将设备上的大语言模型 (LLM) 与智能手机传感技术相结合，以实现上下文感知和个性化服务。该框架通过基于云的大语言模型解决了当前个性化解决方案的关键局限性，例如隐私问题、延迟和成本以及有限的个人传感器数据。为了实现这一目标，我们创新性地建议在具有多模式传感器数据和定制提示工程的智能手机上部署大语言模型，通过上下文感知传感确保隐私并增强个性化性能。涉及一名大学生的案例研究证明了所提出的框架能够提供量身定制的建议。此外，我们还表明，所提出的框架在设备上和云 LLM 之间实现了隐私、性能、延迟、成本、电池和能耗方面的最佳权衡。未来的工作旨在整合更多样化的传感器数据并进行大规模用户研究以进一步完善个性化。我们预计所提出的框架可以通过直接在用户设备上提供安全、上下文感知和高效的交互，从而显着改善医疗保健、生产力和娱乐等各个领域的用户体验。

AriGraph：为 LLM 代理学习具有情景记忆的知识图世界模型

分类： 人工智能

作者： Petr Anokhin, Nikita Semenov, Artyom Sorokin, Dmitry Evseev, Mikhail Burtsev, Evgeny Burnaev

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04363v1

摘要： 生成式人工智能的进步扩大了大型语言模型（LLM）在自主代理开发中的潜在应用。实现真正的自主需要积累和更新从与环境交互中获得的知识并有效利用它。当前基于大语言模型的方法利用完整的观察历史、总结或检索增强来利用过去的经验。然而，这些非结构化的记忆表示并不能促进复杂决策所必需的推理和规划。在我们的研究中，我们引入了 AriGraph，这是一种新颖的方法，其中代理在探索环境时构建了一个集成语义和情景记忆的记忆图。这种图形结构有助于对与智能体当前状态和目标相关的互连概念进行有效的关联检索，从而作为有效的环境模型来增强智能体的探索和规划能力。我们证明，我们的 Ariadne LLM 代理配备了这种建议的内存架构，并通过规划和决策进行了增强，可以在 TextWorld 环境中以零样本的方式有效地处理复杂的任务。我们的方法在各种任务中显着优于既定方法，例如全历史、摘要和检索增强生成，包括第一届文本世界问题竞赛的烹饪挑战以及房屋清洁和拼图寻宝等新颖任务。

针对色觉缺陷的情境感知支持：一种整合 LLM 和 AR 的方法

分类： 计算机视觉和模式识别, 人机交互

作者： Shogo Morita, Yan Zhang, Takuto Yamauchi, Sinan Chen, Jialong Li, Kenji Tei

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04362v1

摘要： 色觉缺陷的人经常面临区分红色和绿色等颜色的挑战，这会使日常任务变得复杂，并且需要使用辅助工具或环境调整。当前的支持工具主要侧重于基于演示的辅助工具，例如 iPhone 辅助功能设置中的色觉模式。然而，提供上下文感知支持（例如指示肉的熟度）仍然是一个挑战，因为特定于任务的解决方案对于所有可能的情况来说并不具有成本效益。为了解决这个问题，我们的论文提出了一种提供上下文和自主帮助的应用程序。该应用程序主要由以下部分组成：（i）有效捕获上下文的增强现实界面；（ii）基于多模态大语言模型的推理器，用于认知上下文，然后推理出适当的支持内容。对两个色觉缺陷用户在五个不同场景中进行的初步用户实验证明了我们应用程序的有效性和通用性。

MobileFlow：移动 GUI 代理的多模式大语言模型

分类： 计算机视觉和模式识别

作者： Songqin Nong, Jiali Zhu, Rui Wu, Jiongchao Jin, Shuo Shan, Xiutian Huang, Wenhao Xu

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04346v1

摘要： 目前，移动图形用户界面（GUI）的集成在大多数人的日常生活中无处不在。而GPT-4v、Qwen-VL-Max等多模态大规模模型的不断发展，显着增强了GUI理解和用户操作分析的能力，展示了智能GUI助手的潜力。然而，当前的GUI Agent往往需要通过调用系统API来访问页面布局信息，这可能会带来隐私风险。将 GUI（例如移动界面）固定为某个低分辨率可能会导致细粒度图像细节的丢失。同时，目前为GUI Agent构建的多模态大型模型对中文GUI界面的理解和决策能力较差，难以应用于大量中文应用程序。本文介绍了 MobileFlow，这是一种专为移动 GUI 代理精心设计的多模式大语言模型。 MobileFlow从开源模型Qwen-VL-Chat转变为GUI领域，包含约210亿个参数，并配备新型混合视觉编码器，使得图像输入的可变分辨率和对多语言GUI的良好支持成为可能。通过结合专家混合 (MoE) 扩展和开创性的对齐训练策略，MobileFlow 能够完全解释图像数据并理解 GUI 交互任务的用户指令。最后，MobileFlow 在 GUI 代理的任务执行方面在公共和我们提出的评估指标上都优于 Qwen-VL-Max 和 GPT-4v，并且已成功部署在现实世界的业务环境中，证明了其在实际应用中的有效性。

BiosERC：整合大语言模型支持的传记演讲者来执行 ERC 任务

分类： 计算和语言, 机器学习, 声音, 音频和语音处理

作者： Jieying Xue, Minh Phuong Nguyen, Blake Matheny, Le Minh Nguyen

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04279v1

摘要： 在对话中的情绪识别任务中，最近的研究利用注意力机制来探索说话者内部和说话者之间话语之间的关系，以对他们之间的情绪互动进行建模。然而，诸如说话者性格特征之类的属性仍未得到探索，并且在其对其他任务的适用性或与不同模型架构的兼容性方面提出了挑战。因此，这项工作引入了一个名为 BiosERC 的新颖框架，它研究对话中的说话者特征。通过采用大型语言模型（LLM），我们提取对话中说话者的“传记信息”，作为注入模型的补充知识，对每个话语的情感标签进行分类。我们提出的方法在三个著名的基准数据集：IEMOCAP、MELD 和 EmoryNLP 上取得了最先进的 (SOTA) 结果，证明了我们模型的有效性和泛化性，并展示了其适应各种对话分析任务的潜力。我们的源代码可在 https://github.com/yingjie7/BiosERC 获取。

像人工智能一样看待：大语言模型如何应用（和误用）维基百科中立规范

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互

作者： Joshua Ashkinaze, Ruijia Guan, Laura Kurek, Eytan Adar, Ceren Budak, Eric Gilbert

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.04183v1

摘要： 大型语言模型 (LLM) 在广泛的语料库上进行训练，然后在具有专门规范的社区中使用。为大语言模型提供社区规则足以让模型遵循这些规范吗？我们根据维基百科的中立观点 (NPOV) 政策评估大语言模型检测（任务 1）和纠正（任务 2）有偏见的维基百科编辑的能力。大语言模型在偏差检测方面遇到了困难，在平衡数据集上仅达到 64% 的准确率。模型表现出对比鲜明的偏见（一些预测不足，另一些预测过高），表明关于中立性的不同先验。大语言模型在生成时表现更好，删除了维基百科编辑删除的 79% 的单词。然而，大语言模型在维基百科编辑者的简单中和之外进行了额外的更改，导致高召回率但低精度的编辑。有趣的是，众包工作者认为人工智能重写比维基百科编辑器重写更中立（70%）和流畅（61%）。定性分析发现，大语言模型有时比维基百科编辑更全面地应用 NPOV，但经常进行无关的非 NPOV 相关更改（例如语法）。大语言模型可能会以与公众产生共鸣但与社区专家不同的方式应用规则。虽然大语言模型对生成可能有效，但它可能会减少编辑机构并增加审核工作量（例如，验证添加内容）。即使规则很容易阐明，让大语言模型像社区成员一样应用它们可能仍然很困难。

编排具有不同个性化的大语言模型

分类： 人工智能, 计算和语言

作者： Jin Peng Zhou, Katie Z Luo, Jingwen Gu, Jason Yuan, Kilian Q. Weinberger, Wen Sun

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.04181v1

摘要： 本文提出了一种将大型语言模型（LLM）与人类个人偏好相结合的新颖方法，有时称为“来自\textit{个性化}人类反馈（RLPHF）的强化学习”。考虑到多个维度的既定偏好，例如乐于助人、简洁或幽默，我们的目标是创建一个最符合此规范且无需重新培训的大语言模型。从专门的专家大语言模型开始，每个人都针对一个特定的偏好维度进行训练，我们提出了一种黑盒方法，在每个令牌级别上合并它们的输出。我们训练一个轻量级偏好控制模型（PCM），该模型动态地将偏好描述和当前上下文转换为下一个令牌预测权重。通过在令牌级别组合专家模型的输出，我们的方法动态生成优化给定偏好的文本。实证测试表明，我们的方法匹配或超越现有的偏好合并技术，为个人个性化微调大语言模型提供了可扩展、高效的替代方案。

量化表格大语言模型模型多重性下的预测一致性

分类： 机器学习, 人工智能, 计算机与社会, 机器学习

作者： Faisal Hamman, Pasan Dissanayake, Saumitra Mishra, Freddy Lecue, Sanghamitra Dutta

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.04173v1

摘要： 在有限的表格数据上对分类任务的大型语言模型（LLM）进行微调可能会导致 \textit{微调多重性}，其中性能同样良好的模型由于训练过程的变化而对相同输入做出相互矛盾的预测（即、种子、随机权重初始化、对附加或删除样本进行再训练）。这引起了人们对表格大语言模型的稳健性和可靠性的严重担忧，特别是在部署用于高风险决策时，例如金融、招聘、教育、医疗保健等。这项工作正式提出了在表格大语言模型和提出了一种新颖的指标来量化个体预测的稳健性，而无需昂贵的模型重新训练。我们的指标通过分析（采样）嵌入空间中输入周围的模型的局部行为来量化预测的稳定性。有趣的是，我们表明可以利用局部邻域的采样来提供针对广泛的微调模型的概率鲁棒性保证。通过利用伯恩斯坦不等式，我们表明具有足够高鲁棒性（由我们的测量定义）的预测将与高概率保持一致。我们还提供对现实世界数据集的实证评估以支持我们的理论结果。我们的工作强调了解决微调不稳定性的重要性，以实现大语言模型在高风险和安全关键型应用中的可靠部署。

未来事件作为后门触发器：调查大语言模型的时间漏洞

分类： 密码学和安全, 计算和语言, 机器学习

作者： Sara Price, Arjun Panickssery, Sam Bowman, Asa Cooper Stickland

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.04108v1

摘要： 后门是隐藏的行为，只有在部署人工智能系统后才会触发。想要创建成功后门的不良行为者必须设计后门，以避免在训练和评估期间被激活。由于这些阶段中使用的数据通常仅包含有关已发生事件的信息，因此简单后门触发器的组件可以是识别相对于训练时的未来数据的模型。通过提示实验和探测内部激活，我们表明当前的大型语言模型 (LLM) 可以区分过去和未来的事件，模型激活的探测达到 90%$ 的准确率。我们训练带有由时间分布变化触发的后门的模型；当模型接触到超出训练截止日期的新闻头条时，它们就会激活。对有用、无害和诚实 (HHH) 数据进行微调对于消除更简单的后门触发器效果不佳，但对我们的后门模型有效，尽管对于我们测试的较大规模模型来说，这种区别较小。我们还发现，代表模型内部日期表示的激活引导向量会影响后门激活率。我们将这些结果作为初步证据，表明至少对于我们测试的适度规模的模型来说，标准安全措施足以消除这些后门。我们公开发布所有相关代码（https://github.com/sbp354/Future_triggered_backdoors）、数据集（https://tinyurl.com/future-backdoor-datasets）和模型（https://huggingface.co/saraprice）。

用于语法简化的语义图：大语言模型时代的回顾

分类： 计算和语言

作者： Peiran Yao, Kostyantyn Guzhva, Denilson Barbosa

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.04067v1

摘要： 符号句子含义表示，例如 AMR（抽象含义表示）提供了富有表现力和结构化的语义图，充当简化下游 NLP 任务的中间体。然而，大型语言模型（LLM）的指令跟踪能力为有效解决 NLP 任务提供了一条捷径，这对语义图的实用性提出了质疑。与此同时，最近的工作也表明，仅使用意义表示作为大语言模型的有用辅助手段是困难的。我们重新审视语义图在句法简化中的地位，即简化句子结构同时保留其含义的任务，这需要语义理解，并在新的复杂且自然的数据集上对其进行评估。我们提出的基于 AMR 的方法 AMRS$^3$ 表明，最先进的意义表示可以带来易于实现的简化方法，该方法具有竞争性的性能以及在成本、可解释性和泛化方面的独特优势。以AMRS$^3$为锚点，我们发现句法简化是一项语义图有助于LLM提示的任务。我们提出 AMRCoC 提示，指导大语言模型模拟图算法，在 AMR 图上进行显式符号推理，并展示其在以语义为中心的任务（如句法简化）上改进大语言模型的潜力。

FunAudioLLM：人类与大语言模型之间自然交互的语音理解和生成基础模型

分类： 声音, 人工智能, 音频和语音处理

作者： Tongyi SpeechTeam

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.04051v1

摘要： 本报告介绍了 FunAudioLLM，这是一个旨在增强人类与大型语言模型 (LLM) 之间的自然语音交互的模型系列。其核心是两个创新模型：SenseVoice，处理多语言语音识别、情感识别和音频事件检测； CosyVoice，它通过控制多种语言、音色、说话风格和说话者身份来促进自然语音生成。 SenseVoice-Small 为 5 种语言提供极低延迟的 ASR，SenseVoice-Large 支持超过 50 种语言的高精度 ASR，而 CosyVoice 在多语言语音生成、零样本上下文学习、跨语言语音克隆方面表现出色和指令遵循能力。 SenseVoice 和 CosyVoice 相关模型已在 Modelscope 和 Huggingface 上开源，相应的训练、推理和微调代码也在 GitHub 上发布。通过将这些模型与大语言模型集成，FunAudioLLM 支持语音到语音翻译、情感语音聊天、交互式播客和富有表现力的有声读物旁白等应用，从而突破了语音交互技术的界限。演示可在 https://fun-audio-llm.github.io 获取，代码可在 https://github.com/FunAudioLLM 访问。

大语言模型的系统任务探索：引文文本生成研究

分类： 计算和语言

作者： Furkan Şahinuç, Ilia Kuznetsov, Yufang Hou, Iryna Gurevych

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.04046v1

摘要： 大型语言模型 (LLM) 在定义和执行复杂的、创造性的自然语言生成 (NLG) 任务方面带来了前所未有的灵活性。然而，这种灵活性带来了新的挑战，因为它在制定任务输入和指令以及评估模型性能方面引入了新的自由度。为了促进创造性 NLG 任务的探索，我们提出了一个由三部分组成的研究框架，包括系统输入操作、参考数据和输出测量。我们使用这个框架来探索引文生成——一项流行的学术 NLP 任务，该任务在任务定义和评估指标上缺乏共识，并且尚未在大语言模型范式中得到解决。我们的结果强调了在提示大语言模型时系统地研究任务指令和输入配置的重要性，并揭示了用于引文文本生成的不同评估指标之间的重要关系。额外的人类生成和人类评估实验为该任务提供了新的定性见解，以指导引文文本生成的未来研究。我们公开我们的代码和数据。

离线能源优化 LLM 服务：基于工作负载的能源模型，用于异构系统上的 LLM 推理

分类： 分布式、并行和集群计算

作者： Grant Wilkins, Srinivasan Keshav, Richard Mortier

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.04014v1

摘要： 大语言模型 (LLM) 的快速采用带来了自然语言处理和文本生成方面的重大进步。然而，LLM模型推理所消耗的能源仍然是可持续人工智能部署的主要挑战。为了解决这个问题，我们对异构 GPU-CPU 系统上的 LLM 推理任务的工作负载相关能耗和运行时间进行了建模。通过对几个最先进的大语言模型进行广泛的表征研究，并分析它们在不同大小的输入提示和输出文本下的能量和运行时行为，我们为每个大语言模型开发了准确的（R^2>0.96）能量和运行时模型。我们利用这些模型来探索离线、能源优化的 LLM 工作负载调度框架。通过案例研究，我们展示了与现有最佳实践相比，能量和准确性感知调度的优势。

大语言模型角色扮演：模拟人机交互

分类： 计算和语言

作者： Hovhannes Tamoyan, Hendrik Schuff, Iryna Gurevych

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03974v1

摘要： 聊天机器人的开发需要收集大量的人机对话，以反映用户社会人口背景和对话目标的广度。然而，进行相应的用户研究所需的资源可能非常高，并且通常只能对特定对话目标和参与者人口统计进行狭隘分析。在本文中，我们提出了 LLM-Roleplay：一种面向目标、基于角色的方法，可自动生成模拟人类与聊天机器人交互的多种多轮对话。 LLM-Roleplay 可用于与任何类型的聊天机器人生成对话，并使用大型语言模型 (LLM) 来扮演文本描述的角色。为了验证我们的方法，我们从不同的社会人口群体收集自然的人类聊天机器人对话，并进行人类评估，以将真实的人类聊天机器人对话与我们生成的对话进行比较。我们比较了最先进的大语言模型在体现人物角色和进行对话方面的能力，发现我们的方法可以以很高的不可区分率模拟人类与聊天机器人的对话。

LLM-jp：研究和开发完全开放的日本大语言模型的跨组织项目

分类： 计算和语言, 人工智能

作者： LLM-jp, :, Akiko Aizawa, Eiji Aramaki, Bowen Chen, Fei Cheng, Hiroyuki Deguchi, Rintaro Enomoto, Kazuki Fujii, Kensuke Fukumoto, Takuya Fukushima, Namgi Han, Yuto Harada, Chikara Hashimoto, Tatsuya Hiraoka, Shohei Hisada, Sosuke Hosokawa, Lu Jie, Keisuke Kamata, Teruhito Kanazawa, Hiroki Kanezashi, Hiroshi Kataoka, Satoru Katsumata, Daisuke Kawahara, Seiya Kawano, Atsushi Keyaki, Keisuke Kiryu, Hirokazu Kiyomaru, Takashi Kodama, Takahiro Kubo, Yohei Kuga, Ryoma Kumon, Shuhei Kurita, Sadao Kurohashi, Conglong Li, Taiki Maekawa, Hiroshi Matsuda, Yusuke Miyao, Kentaro Mizuki, Sakae Mizuki, Yugo Murawaki, Ryo Nakamura, Taishi Nakamura, Kouta Nakayama, Tomoka Nakazato, Takuro Niitsuma, Jiro Nishitoba, Yusuke Oda, Hayato Ogawa, Takumi Okamoto, Naoaki Okazaki, Yohei Oseki, Shintaro Ozaki, Koki Ryu, Rafal Rzepka, Keisuke Sakaguchi, Shota Sasaki, Satoshi Sekine, Kohei Suda, Saku Sugawara, Issa Sugiura, Hiroaki Sugiyama, Hisami Suzuki, Jun Suzuki, Toyotaro Suzumura, Kensuke Tachibana, Yu Takagi, Kyosuke Takami, Koichi Takeda, Masashi Takeshita, Masahiro Tanaka, Kenjiro Taura, Arseny Tolmachev, Nobuhiro Ueda, Zhen Wan, Shuntaro Yada, Sakiko Yahata, Yuya Yamamoto, Yusuke Yamauchi, Hitomi Yanaka, Rio Yokota, Koichiro Yoshino

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03963v1

摘要： 本文介绍了LLM-jp，这是一个用于研究和开发日语大语言模型（LLM）的跨组织项目。 LLM-jp 旨在开发开源且强大的日本 LLM，截至撰写本文时，来自学术界和工业界的 1,500 多名参与者正在为此目的共同努力。本文介绍了LLM-jp的成立背景、其活动摘要以及LLM-jp开发的LLM的技术报告。有关最新活动，请访问 https://llm-jp.nii.ac.jp/en/。

AutoBench：使用 LLM 进行 HDL 设计的自动测试平台生成和评估

分类： 软件工程, 编程语言

作者： Ruidi Qiu, Grace Li Zhang, Rolf Drechsler, Ulf Schlichtmann, Bing Li

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03891v1

摘要： 在数字电路设计中，测试平台构成了基于仿真的硬件验证的基石。在基于仿真的硬件验证期间生成测试平台的传统方法仍然是部分手动的，导致测试各种场景的效率低下，并且需要设计人员花费大量时间。大型语言模型 (LLM) 已经展示了其在自动化电路设计流程方面的潜力。然而，直接应用大语言模型来生成测试平台的通过率较低。为了应对这一挑战，我们推出了 AutoBench，这是第一个用于数字电路设计的基于 LLM 的测试平台生成器，它只需要待测设计 (DUT) 的描述即可自动生成全面的测试平台。在AutoBench中，利用LLM实现了混合测试台结构和自检系统。为了验证生成的测试平台，我们还引入了自动化测试平台评估框架，从多个角度评估生成的测试平台的质量。实验结果表明，与使用 LLM 直接生成测试平台的基线相比，AutoBench 的测试平台通过@1 率提高了 57%。对于 75 个时序电路，AutoBench 成功实现了与基线相比 3.36 倍的测试平台通过@1 率。源代码和实验结果在此链接开源：https://github.com/AutoBench/AutoBench

DART：针对 LLM 安全的深度对抗性自动红队

分类： 密码学和安全, 计算和语言

作者： Bojian Jiang, Yi Jing, Tianhao Shen, Qing Yang, Deyi Xiong

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03876v1

摘要： 手动红队是识别大型语言模型 (LLM) 中漏洞的常用方法，但成本高昂且不可扩展。相比之下，自动化红队使用红色 LLM 自动生成目标 LLM 的对抗性提示，为安全漏洞检测提供可扩展的方法。然而，构建强大的自动化Red LLM的难度在于，Target LLM的安全漏洞随着Target LLM的演进而动态变化。为了缓解这个问题，我们提出了一个深度对抗性自动化红队（DART）框架，其中红色大语言模型和目标大语言模型以迭代的方式深入、动态地交互。在每次迭代中，为了生成尽可能多的成功攻击，红色LLM不仅考虑目标LLM的响应，而且还通过监控多个迭代中生成的攻击的全局多样性来对抗性地调整其攻击方向。同时，为了探索Target LLM动态变化的安全漏洞，我们允许Target LLM通过基于主动学习的数据选择机制来增强其安全性。实验结果表明，DART 显着降低了目标 LLM 的安全风险。对于 Anthropic Harmless 数据集上的人类评估，与指令调整目标 LLM 相比，DART 消除了 53.4% 的违规风险。我们将很快发布DART的数据集和代码。

Q 适配器：将 LLM 适配器训练为残差 Q 函数

分类： 机器学习

作者： Yi-Chen Li, Fuxiang Zhang, Wenjie Qiu, Lei Yuan, Chengxing Jia, Zongzhang Zhang, Yang Yu

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03856v1

摘要： 我们考虑将通过人类反馈强化学习 (RLHF) 预训练的大型语言模型 (LLM) 应用于下游偏好数据的问题。实现这一目标的简单方法可以是对首选响应进行监督微调或使用学习奖励模型进行强化学习。然而，随着微调的进行，大语言模型面临着忘记最初知识的风险。为了在保留其现有功能的同时定制LLM，本文提出了一种新颖的方法，称为Q-Adapter。我们首先将 LLM 适应形式化为最大化两个奖励的线性组合的问题，其中一个对应于预训练的 LLM 优化的奖励，另一个对应于下游偏好数据。尽管这两种奖励都是未知的，但我们表明，这可以通过直接从偏好数据中学习一个近似 \emph{残差 Q 函数}的新模块来解决。我们认为这个模块是一个适配器，因为原始预训练的LLM与它一起可以形成最佳的定制LLM。根据经验，一系列特定领域任务和安全对齐任务的实验说明了 Q-Adapter 在防遗忘和从新偏好中学习方面的优越性。

论大语言模型开放领域对话评估的基准

分类： 计算和语言

作者： John Mendonça, Alon Lavie, Isabel Trancoso

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03841v1

摘要： 大型语言模型 (LLM) 在各种自然语言处理任务中展示了卓越的能力。特别是对于自动开放域对话评估，大语言模型已无缝集成到评估框架中，并与人类评估一起构成了大多数评估的支柱。然而，现有的评估基准通常依赖于过时的数据集并评估流畅性和相关性等方面，而无法充分捕捉最先进的聊天机器人模型的功能和局限性。本文严格审查了当前的评估基准，强调使用旧的响应生成器和质量方面无法准确反映现代聊天机器人的功能。最近对 LLM 生成的数据集 (SODA) 进行的小型注释实验表明，GPT-4 等 LLM 评估器很难检测当前 LLM 聊天机器人生成的对话中的实际缺陷。

使用支架大语言模型进行认知建模：指代表达生成的案例研究

分类： 计算和语言

作者： Polina Tsvilodub, Michael Franke, Fausto Carcassi

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03805v2

摘要： 大语言模型可以在多大程度上用作语言生成认知模型的一部分？在本文中，我们通过探索 Dale & Reiter (1995) 的指称表达生成算法认知模型的神经符号实现来解决这个问题。符号任务分析将生成实现为一个迭代过程，该过程支撑符号和基于 gpt-3.5-turbo 的模块。我们将此实现与 A3DS 数据集上的消融模型和一次性 LLM 基线进行比较（Tsvilodub 和 Franke，2023）。我们发现我们的混合方法在认知上是合理的，并且在复杂的上下文中表现良好，同时允许在更大的领域中对语言生成进行更开放的建模。

通过概率标记化提高大语言模型的自我一致性

分类： 计算和语言, 机器学习

作者： Ashutosh Sathe, Divyanshu Aggarwal, Sunayana Sitaram

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03678v1

摘要： 先前的研究已经证明，通过使用概率标记化可以显着提高性能，这种方法涉及在语言模型的训练阶段对同一输入字符串使用多个标记化。尽管有这些有希望的发现，但现代大型语言模型（LLM）尚未使用概率标记化进行训练。有趣的是，虽然这些当代大语言模型的标记化器有能力生成多个标记化，但这一属性仍未得到充分利用。在这项工作中，我们提出了一种利用现代 LLM 标记器的多重标记化功能的新方法，旨在增强 LLM 在推理任务中的自我一致性。我们的实验表明，当利用概率标记化时，LLM 会生成逻辑上多样化的推理路径，而不仅仅是表面层面的语言多样性。我们仔细研究概率标记化，并提供见解来解释它通过对 5 个 LLM 家族和 4 个 LLM 家族进行的广泛实验所带来的自我一致性改进。推理基准。

WildDESED：由大语言模型支持的野生家庭环境声音事件检测系统数据集

分类： 音频和语音处理, 声音

作者： Yang Xiao, Rohan Kumar Das

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03656v1

摘要： 这项工作旨在通过提出一种新的大型语言模型（LLM）驱动的数据集，即野生家庭环境声音事件检测（WildDESED）来推进声音事件检测（SED）研究。它是作为原始 DESED 数据集的扩展而设计的，以反映家庭环境中不同的声学变化和复杂的噪音。我们利用大语言模型根据 DESED 数据集的目标声音类别生成八种不同的家庭场景。然后，我们通过精心定制的从 AudioSet 中选择的噪声混合来丰富场景，并确保与目标声音不重叠。我们考虑使用广泛流行的卷积神经循环网络来研究 WildDESED 数据集，该数据集描述了其具有挑战性的本质。然后，我们通过逐渐增加噪声复杂性来应用课程学习，以增强模型在不同噪声级别的泛化能力。我们使用这种方法的结果显示了在噪声环境中的改进，验证了 WildDESED 数据集的有效性，促进了抗噪声 SED 的进步。

使用静态收集器和神经重新排序器增强大语言模型以修复过时的测试用例

分类： 软件工程

作者： Jun Liu, Jiwei Yan, Yuanyuan Xie, Jun Yan, Jian Zhang

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03625v1

摘要： 在软件演化过程中，提倡测试代码与生产代码共同演化。在实际开发场景中，测试更新可能会滞后于生产代码更改，从而可能导致项目无法编译或带来其他麻烦。可以采用基于预训练语言模型的现有技术来修复由这种不同步的代码更改（尤其是与语法相关的代码更改）引起的过时测试。然而，缺乏面向目标的上下文信息会影响大型项目的修复准确性。从过时的测试开始，关键的挑战性任务是在有限的令牌大小内从整个存储库精确识别和构建面向测试修复的上下文（TROCtx）。在本文中，我们提出了 SynBCIATR（句法中断更改引发的自动测试修复），这是一种通过精确而简洁的 TROCtx 构造自动修复过时测试用例的新方法。受开发人员对该任务的编程实践的启发，我们设计了三种类型的 TROCtx：类上下文、使用上下文和环境上下文。对于每一种类型的TROCtx，SynBCIATR都会通过静态分析技术自动收集与变化的令牌相关的代码信息。然后生成重新排序查询以识别最相关的 TROCtx，将其作为需要修复的关键上下文并输入到大语言模型中以进行最终的测试修复。为了评估 SynBCIATR 的有效性，我们构建了一个包含各种语法破坏性变化的基准数据集。实验结果表明，SynBCIATR 在文本匹配和意图匹配指标方面均优于基线方法。通过 SynBCIATR 构建的 TROCtx 增强，幻觉减少了 57.1%。

问题分析提示提高了大语言模型在推理任务中的表现

分类： 计算和语言

作者： Dharunish Yugeswardeenoo, Kevin Zhu, Sean O'Brien

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03624v1

摘要： 尽管大语言模型有潜力改变许多领域，但他们在推理任务中仍然表现不佳。现有方法诱导模型产生逐步计算，但本研究探讨了这样一个问题：让大语言模型分析问题是否会提高其性能？我们提出了一种称为问题分析提示（QAP）的新颖提示策略，其中模型在解决之前被提示用 $n$ 个单词解释问题。 $n$ 的值影响模型生成的响应的长度。 QAP 在 GPT 3.5 Turbo 和 GPT 4 Turbo 的算术数据集 GSM8K、AQuA 和 SAT 以及常识数据集 StrategyQA 上进行评估。将 QAP 与其他最先进的提示进行比较，包括思维链 (CoT)、计划和解决提示 (PS+) 和深呼吸 (TADB)。 QAP 在 GPT3.5 和 GPT4 上的 AQuA 和 SAT 数据集上的性能优于所有最先进的提示。在 75% 的测试中，QAP 始终名列前 2 名提示。 QAP 性能的一个关键因素可归因于回答长度，其中详细的回答在回答较难的问题时是有益的，但可能会对简单的问题产生负面影响。

具有大语言模型生成策略和信息检索的零样本说服性聊天机器人

分类： 计算和语言

作者： Kazuaki Furumai, Roberto Legaspi, Julio Vizcarra, Yudai Yamazaki, Yasutaka Nishimura, Sina J. Semnani, Kazushi Ikeda, Weiyan Shi, Monica S. Lam

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03585v1

摘要： 说服在从健康干预到促进社会公益的广泛应用中发挥着关键作用。有说服力的聊天机器人可以加速此类应用中说服的积极效果。现有的方法依赖于使用特定于任务的训练数据来微调说服性聊天机器人，而收集这些数据的成本即使不是不可行，也是昂贵的。为了解决这个问题，我们提出了一种方法，利用大型语言模型（LLM）的普遍性和固有的说服能力，以零样本的方式为任何给定领域创建有效和真实的说服性聊天机器人。与之前使用预定义说服策略的研究不同，我们的方法首先使用大语言模型生成回复，然后提取即时使用的策略，并用检索到的支持策略的事实替换响应中任何未经证实的主张。我们将聊天机器人 PersuaBot 应用于三个需要说服技巧的截然不同的领域：募捐、建议和健康干预。我们对模拟和人类对话的实验表明，我们的零样本方法比之前的工作更有说服力，同时实现了超越最先进的知识导向型聊天机器人的事实准确性。我们的研究表明，当有说服力的聊天机器人被负责任地用于社会公益时，它可以推动积极的个人和社会变革。

当大语言模型遇到超图：通过在线社交网络对人格进行社会学分析

分类： 社交和信息网络, 信息检索

作者： Zhiyao Shu, Xiangguo Sun, Hong Cheng

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03568v1

摘要： 个体性格显着影响我们的感知、决策和社交互动，这对于在在线社交网络分析中深入了解人类行为模式尤其重要。许多心理学研究发现，性格强烈地反映在他们的社会行为和社会环境中。针对这些问题，本文提出一种基于环境的人格社会学分析框架，而不是个体层面的数据挖掘。具体来说，为了从低质量的记录中全面了解个人的行为，我们通过设计有效的提示来利用大语言模型强大的联想能力。通过这种方式，大语言模型可以将各种分散的信息与其外部知识整合起来，生成更高质量的档案，从而可以显着提高人格分析的性能。为了探索用户及其在线环境背后的交互机制，我们设计了一种有效的超图神经网络，其中超图节点是用户，超图中的超边是社交环境。我们提供了一个有用的数据集，其中包含用户个人资料数据、个性特征以及来自现实世界社交平台的多个检测到的环境。据我们所知，这是第一个包含超图结构和社会信息的基于网络的数据集，这可以进一步推动该领域的未来研究。通过在该数据集上使用该框架，我们可以有效地捕捉个人性格及其在线行为的细微差别，从而更深入地了解数字世界中的人类互动。

ScreenTK：使用连续的移动屏幕文本和设备上的大语言模型无缝检测消磨时间的时刻

分类： 人机交互

作者： Le Fang, Shiquan Zhang, Hong Jia, Jorge Goncalves, Vassilis Kostakos

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03063v2

摘要： 智能手机已成为人们数字生活的重要组成部分，提供源源不断的信息和连接。然而，这种持续的流动可能会导致用户只是在消磨时间，而不是进行有意义的参与。这强调了开发方法来识别这些“消磨时间”时刻的重要性，从而能够以最大限度地减少干扰并增强用户参与度的方式传递重要通知。最近的工作利用每 5 秒截取的屏幕截图来检测智能手机上的消磨时间的活动。然而，这种方法经常无法捕获间隔期间的电话使用情况。我们证明，高达 50% 的消磨时间的实例无法通过屏幕截图被发现，从而导致在理解用户行为方面存在巨大差距。为了解决这一限制，我们提出了一种名为 ScreenTK 的方法，该方法通过利用连续屏幕文本监控和设备上的大语言模型 (LLM) 来检测消磨时间的时刻。屏幕文本包含比屏幕截图更全面的信息，并允许大语言模型总结详细的手机使用情况。为了验证我们的框架，我们对 6 名参与者进行了实验，捕获了 1,034 条不同消磨时间时刻的记录。初步结果表明，在我们的案例研究中，我们的框架比最先进的解决方案性能高出 38%。

UnSeenTimeQA：超出大语言模型记忆范围的时间敏感问题解答

分类： 计算和语言

作者： Md Nayem Uddin, Amir Saeidi, Divij Handa, Agastya Seth, Tran Cao Son, Eduardo Blanco, Steven R. Corman, Chitta Baral

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03525v1

摘要： 本文介绍了 UnSeenTimeQA，这是一种新颖的时间敏感问答 (TSQA) 基准，它与传统 TSQA 基准不同，它避免了事实查询和网络可搜索查询。我们提出了一系列与现实世界的事实信息脱钩的时间敏感事件场景。它需要大型语言模型（LLM）来进行真正的时间推理，与预训练阶段获得的知识分离。我们对六个开源大语言模型（规模从 2B 到 70B 不等）和三个闭源大语言模型的评估表明，UnSeenTimeQA 的问题带来了巨大的挑战。这表明模型在处理复杂的时间推理场景时存在困难。此外，我们还提出了一些分析，揭示了模型在回答时间敏感问题方面的表现。

提升大语言模型的惯用翻译能力

分类： 计算和语言, 人工智能

作者： Sundesh Donthi, Maximilian Spencer, Om Patel, Joon Doh, Eid Rodan

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03518v1

摘要： 对于 NLLB 和 GPT 等大型语言模型 (LLM)，翻译习语仍然是一个挑战。我们的目标是通过改进大语言模型对惯用语言的处理来提高翻译保真度，同时保留原始语言风格。这具有重大的社会影响，因为它保留了文化的细微差别，并确保翻译文本保留其意图和情感共鸣，从而促进更好的跨文化交流。之前的工作利用了像 IdiomKB 这样的知识库，为大语言模型提供了翻译中使用的习语的含义。尽管这种方法比直接翻译产生了更好的结果，但它在跨语言保留惯用写作风格的能力方面仍然受到限制。在这项研究中，我们扩展了知识库，以找到目标语言中相应的习语。我们的研究使用两种方法进行翻译：第一种方法采用 SentenceTransformers 模型在语义上生成源语言习语和目标语言习语含义之间的余弦相似度分数，选择最佳习语（余弦相似度方法）。第二种方法使用LLM在目标语言中查找相应的习语以用于翻译（LLM生成习语方法）。作为基线，我们进行了直接翻译，而不提供额外信息。对英语 -> 中文和中文 -> 英语的人工评估表明，余弦相似度查找方法在所有 GPT4o 翻译中均优于其他方法。为了进一步构建 IdiomKB，我们开发了一个低资源乌尔都语数据集，其中包含乌尔都语习语及其翻译。尽管数据集有限制，余弦相似度查找方法还是显示出了前景，有可能克服语言障碍，并能够探索中文和乌尔都语的多样化文学作品。要访问代码和复制我们的实验，请访问 (https://github.com/ANON13222/ITR)。

针对大语言模型法官的以人为本的设计建议

分类： 人机交互

作者： Qian Pan, Zahra Ashktorab, Michael Desmond, Martin Santillan Cooper, James Johnson, Rahul Nair, Elizabeth Daly, Werner Geyer

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03479v1

摘要： 传统的基于参考的指标（例如 BLEU 和 ROUGE）对于评估产生高度创意或优质文本的大型语言模型 (LLM) 的输出，或者在参考输出不可用的情况下效果较差。虽然人工评估仍然是一种选择，但其成本高昂且难以扩展。最近使用大语言模型作为评估者（大语言模型作为法官）的工作很有希望，但信任和可靠性仍然是一个重要问题。整合人类输入对于确保用于评估的标准与人类的意图一致以及评估的稳健和一致至关重要。本文介绍了一项名为 EvaluLLM 的设计探索的用户研究，该研究使用户能够利用大语言模型作为可定制的法官，促进人类参与以谨慎平衡信任和节省成本的潜力。通过与八位领域专家的访谈，我们确定需要帮助制定有效的评估标准，使大语言模型作为法官与从业者的偏好和期望保持一致。我们提供调查结果和设计建议，以优化人工辅助大语言模型法官系统。

在 Minecraft 中与 LLM 驱动的非玩家角色协作完成任务

分类： 计算和语言, 人工智能

作者： Sudha Rao, Weijia Xu, Michael Xu, Jorge Leandro, Ken Lobb, Gabriel DesGarennes, Chris Brockett, Bill Dolan

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03460v1

摘要： 生成式人工智能在视频游戏开发中的使用正在增加，并且随着大型语言模型的对话和其他功能的不断改进，我们预计LLM驱动的非玩家角色（NPC）将得到广泛部署。在本文中，我们试图了解人类玩家如何与 LLM 驱动的 NPC 协作来实现游戏中的目标。我们在 Minecraft 中设计了一款迷你游戏，其中玩家与两个 GPT4 驱动的 NPC 合作来完成任务。我们进行了一项用户研究，其中 28 名 Minecraft 玩家玩了这个迷你游戏并分享了他们的反馈。通过分析游戏日志和录音，我们发现 NPC 和人类玩家出现了几种协作行为模式。我们还报告了目前纯语言模型的局限性，这些模型不具有丰富的游戏状态或视觉理解。我们相信，这项初步研究和分析将为未来的游戏开发者提供如何更好地利用这些快速改进的生成式人工智能模型来实现游戏中协作角色的信息。

大语言模型内部状态揭示面临质疑的幻觉风险

分类： 计算和语言

作者： Ziwei Ji, Delong Chen, Etsuko Ishii, Samuel Cahyawijaya, Yejin Bang, Bryan Wilie, Pascale Fung

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03282v1

摘要： 大型语言模型（LLM）的幻觉问题极大地限制了它们的可靠性和可信度。人类有一个自我意识过程，使我们能够在面对查询时认识到我们不知道的事情。受此启发，我们的论文研究了大语言模型是否可以在响应生成之前估计自己的幻觉风险。我们从训练数据源和 15 个不同的自然语言生成 (NLG) 任务（涵盖 700 多个数据集）方面广泛分析了大语言模型的内部机制。我们的实证分析揭示了两个关键见解：（1）LLM 内部状态表明他们是否在训练数据中看到了查询； (2) LLM 内部状态表明他们可能产生幻觉或不考虑该查询。我们的研究探索了特定的神经元、激活层和标记，它们在大语言模型对不确定性和幻觉风险的感知中发挥着至关重要的作用。通过探测估计器，我们利用 LLM 自我评估，在运行时实现了 84.32% 的平均幻觉估计准确度。

自我评估作为对大语言模型对抗性攻击的防御

分类： 机器学习, 计算和语言, 密码学和安全

作者： Hannah Brown, Leon Lin, Kenji Kawaguchi, Michael Shieh

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03234v1

摘要： 当大语言模型部署在敏感的、面向人的环境中时，至关重要的是它们不会输出不安全、有偏见或侵犯隐私的输出。出于这个原因，模型都经过训练和指示，拒绝回答不安全的提示，例如“告诉我如何制造炸弹”。我们发现，尽管有这些保护措施，只需在模型输入的末尾添加一个空格就可以打破模型防御。在对八个开源模型的研究中，我们证明这是一种足够强大的攻击，导致大多数模型以非常高的成功率生成有害的输出。我们检查了这种行为的原因，发现标记化训练数据中出现单个空格的上下文会鼓励模型在提示时生成列表，从而覆盖训练信号以拒绝回答不安全的请求。我们的研究结果强调了当前模型对齐的脆弱状态，并促进了开发更强大的对齐方法的重要性。代码和数据将在 https://github.com/Linlt-leon/Adversarial-Alignments 上提供。

单字符扰动打破了大语言模型的对齐

分类： 机器学习, 计算和语言

作者： Leon Lin, Hannah Brown, Kenji Kawaguchi, Michael Shieh

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03232v1

摘要： 当大语言模型部署在敏感的、面向人的环境中时，至关重要的是它们不会输出不安全、有偏见或侵犯隐私的输出。出于这个原因，模型都经过训练和指示，拒绝回答不安全的提示，例如“告诉我如何制造炸弹”。我们发现，尽管有这些保护措施，只需在模型输入的末尾添加一个空格就可以打破模型防御。在对八个开源模型的研究中，我们证明这是一种足够强大的攻击，导致大多数模型以非常高的成功率生成有害的输出。我们检查了这种行为的原因，发现标记化训练数据中出现单个空格的上下文会鼓励模型在提示时生成列表，从而覆盖训练信号以拒绝回答不安全的请求。我们的研究结果强调了当前模型对齐的脆弱状态，并促进了开发更强大的对齐方法的重要性。代码和数据可在 https://github.com/hannah-aught/space_attack 获取。

量化如何影响多语言大语言模型？

分类： 计算和语言, 机器学习

作者： Kelly Marchisio, Saurabh Dash, Hongyu Chen, Dennis Aumiller, Ahmet Üstün, Sara Hooker, Sebastian Ruder

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03211v1

摘要： 量化技术被广泛用于提高大型语言模型的推理速度和部署。虽然大量的工作研究了量化大语言模型对英语任务的影响，但没有一个研究研究了跨语言量化的影响。我们对量化的多语言大语言模型进行了全面分析，重点关注其跨语言和不同规模的表现。我们使用自动基准、LLM-as-a-Judge 方法和人类评估，发现 (1) 量化的有害影响在人类评估中很明显，而自动指标严重低估了这种损害：日语在自动评估中平均下降了 1.7%人类评估者报告的实际提示的任务量下降了 16.0%； (2) 不同语言受到量化的影响不同，非拉丁文字语言受影响最严重； (3)具有挑战性的任务，例如数学推理，退化速度最快。由于服务低计算模型的能力对于 NLP 技术在全球范围内的广泛采用至关重要，因此我们的结果敦促考虑将多语言性能作为高效模型的关键评估标准。

TheoremLama：将通用 LLM 转变为 Lean4 专家

分类： 形式语言和自动机理论, 人工智能

作者： Ruida Wang, Jipeng Zhang, Yizhen Jia, Rui Pan, Shizhe Diao, Renjie Pi, Tong Zhang

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03203v1

摘要： 使用像 Lean 这样的计算机可验证的形式语言来证明数学定理会显着影响数学推理。形式定理证明的一种方法涉及使用基于自然语言 (NL) 证明的大型语言模型 (LLM) 生成完整的证明。类似的方法在代码生成方面显示出了有希望的结果。然而，由于缺乏一致的 NL 和形式语言 (FL) 定理证明数据，大多数现代大语言模型表现不佳。这种稀缺导致缺乏培训大语言模型的方法和技术来充分利用他们撰写正式证明的能力。为了应对这些挑战，本文提出了 TheoremLama，这是一个端到端框架，用于培训通用大语言模型成为 Lean4 专家。该框架包含 NL-FL 对齐的数据集生成方法、LLM 形式定理证明者的训练方法以及 LLM Lean4 证明编写技术。使用数据集生成方法，我们提供开放自举定理 (OBT)，一个 NL-FL 对齐和自举数据集。该框架的一个关键创新是 NL-FL bootstrapping 方法，其中 NL 证明被集成到训练数据集的 Lean4 代码中，利用大语言模型的 NL 推理能力进行形式推理。 TheoremLlama 框架在 MiniF2F-Valid 和 Test 数据集上分别实现了 36.48% 和 33.61% 的累积准确率，超过了 GPT-4 基线的 22.95% 和 25.41%。我们还开源了模型检查点和生成的数据集，并将很快公开所有代码。

软乞讨：基于Prompt Tuning的LLM防快速注入、越狱的模块化高效屏蔽

分类： 密码学和安全, 人工智能, 计算和语言

作者： Simon Ostermann, Kevin Baum, Christoph Endres, Julia Masloh, Patrick Schramowski

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03391v1

摘要： 即时注入（直接和间接）和越狱现在被认为是大型语言模型 (LLM) 的重大问题，特别是因为它们在应用程序集成环境中可能造成损害。这篇扩展摘要探讨了一种保护大语言模型免受此类攻击的新方法，称为“软乞讨”。此方法涉及训练软提示以抵消损坏的提示对大语言模型输出的影响。我们概述了即时注入和越狱，介绍了“软乞求”技术的理论基础，并讨论了对其有效性的评估。

当你编辑代码时让LLM代码自行编辑

分类： 计算和语言, 人工智能, 机器学习, 软件工程

作者： Zhenyu He, Jun Zhang, Shengjie Luo, Jingjing Xu, Zhi Zhang, Di He

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03157v1

摘要： 在这项工作中，我们研究了代码生成中的一个典型场景，其中开发人员实时编辑现有代码并请求代码助手（例如大型语言模型）动态重新预测下一个标记或下一行。天真的，LLM 需要重新编码整个 KV 缓存才能提供准确的预测。然而，这个过程的计算成本很高，尤其是当序列长度很长时。简单地对编辑后的子序列进行编码并将其集成到原始 KV 缓存中会遇到时间混乱问题，导致性能明显变差。我们通过引入 \underline{\textbf{Positional \textbf{I}ntegrity \textbf{E}ncoding} (PIE) 来解决这种效率和准确性的权衡。基于旋转位置编码，PIE 首先删除密钥缓存中引入时间混乱的旋转矩阵，然后重新应用正确的旋转矩阵。这个过程确保了标记之间的位置关系是正确的，并且只需要一轮矩阵乘法。我们利用具有 1.3B、6.7B 和 33B 参数的 DeepSeek-Coder 模型，通过在 RepoBench-C-8k 数据集上进行大量实验来验证 PIE 的有效性。我们的评估包括三个现实世界的编码任务：代码插入、代码删除和多位置代码编辑。结果表明，与所有模型大小和任务的标准完全重新计算方法相比，PIE 减少了超过 85% 的计算开销，同时很好地近似了模型性能。

JailbreakHunter：越狱的可视化分析方法促进从大规模人类-LLM 对话数据集中发现

分类： 人机交互, 计算和语言, 机器学习

作者： Zhihua Jin, Shiyi Liu, Haotian Li, Xun Zhao, Huamin Qu

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03045v1

摘要： 大型语言模型 (LLM) 受到了广泛关注，但也因滥用风险而引起担忧。越狱提示是针对大语言模型的一种流行的对抗性攻击，它已经出现并不断发展，以破坏大语言模型的安全协议。为了解决这个问题，大语言模型会根据报告的越狱提示定期更新安全补丁。然而，恶意用户经常将成功的越狱提示保密以利用 LLM。为了发现这些私人越狱提示，需要对大规模会话数据集进行广泛分析，以识别仍然能够绕过系统防御的提示。由于对话数据量巨大、越狱提示的特征多样、且存在于复杂的多轮对话中，这项任务极具挑战性。为了应对这些挑战，我们引入了 JailbreakHunter，这是一种可视化分析方法，用于识别大规模人类大语言模型对话数据集中的越狱提示。我们设计了一个具有三个分析级别的工作流程：群组级别、对话级别和回合级别。群组级别的分析使用户能够掌握对话的分布情况，并使用多种标准识别可疑对话，例如与先前研究中报告的越狱提示的相似性以及攻击成功率。对话级别分析有助于了解对话的进度，并有助于发现对话上下文中的越狱提示。回合级分析允许用户探索单回合提示和报告的越狱提示之间的语义相似性和标记重叠，有助于识别新的越狱策略。通过多个案例研究和专家访谈验证了系统的有效性和可用性。

联邦学习中LLM微调的客户偏好

分类： 计算和语言, 分布式、并行和集群计算, 机器学习

作者： Feijie Wu, Xiaoze Liu, Haoyu Wang, Xingchen Wang, Jing Gao

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03038v1

摘要： 具有人类反馈的强化学习 (RLHF) 使用偏好数据集对预训练的大语言模型 (LLM) 进行微调，使 LLM 能够生成符合人类偏好的输出。考虑到不同客户持有的这些偏好数据集的敏感性，需要在联邦学习 (FL) 框架内实施 RLHF，而客户出于隐私问题不愿意共享其数据。为了解决这个问题，我们引入了一个可行的框架，其中客户使用我们提出的 FedBis 以其偏好数据集协作训练二元选择器。有了训练有素的选择器，我们可以进一步增强 LLM，生成人类首选的完成结果。同时，我们提出了一种新颖的算法 FedBiscuit，该算法通过根据客户的偏好将客户组织成平衡且不相交的集群来训练多个选择器。与 FedBis 相比，FedBiscuit 在模拟人类对成对完成的偏好方面表现出了卓越的性能。我们对联合人类偏好数据集进行的广泛实验（标志着解决客户端之间异构数据分区的第一个基准）表明，FedBiscuit 的性能优于 FedBis，甚至超越了传统的集中式训练。

ObfuscaTune：私有数据集上专有大语言模型的混淆异地微调和推理

分类： 密码学和安全, 人工智能, 计算和语言, 机器学习

作者： Ahmed Frikha, Nassim Walha, Ricardo Mendes, Krishna Kanth Nakka, Xue Jiang, Xuebing Zhou

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02960v1

摘要： 这项工作解决了模型提供商实体拥有的专有 LLM 对另一个数据所有者实体的机密/私有数据进行推理和微调的及时但尚未充分探索的问题，以确保模型和数据的机密性的方式。因此，微调是在场外进行的，即在第三方云提供商的计算基础设施上进行。我们通过提出 ObfuscaTune 来解决这个问题，这是一种新颖、高效且完全保留效用的方法，它将简单而有效的混淆技术与机密计算的有效使用相结合（只有 5% 的模型参数放置在 TEE 上）。我们通过在四个 NLP 基准数据集上不同大小的 GPT-2 模型上验证 ObfuscaTune 的有效性，凭经验证明了 ObfuscaTune 的有效性。最后，我们与我们的方法的原始版本进行比较，以强调在我们的方法中使用具有低条件数的随机矩阵来减少混淆引起的错误的必要性。

IncogniText：通过基于 LLM 的私有属性随机化实现增强隐私的条件文本匿名化

分类： 密码学和安全, 人工智能, 计算和语言, 机器学习

作者： Ahmed Frikha, Nassim Walha, Krishna Kanth Nakka, Ricardo Mendes, Xue Jiang, Xuebing Zhou

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02956v1

摘要： 在这项工作中，我们解决了文本匿名化问题，其目标是防止对手正确推断作者的私有属性，同时保持文本实用性，即含义和语义。我们提出了 IncogniText，一种对文本进行匿名化以误导潜在对手预测错误的私有属性值的技术。我们的实证评估表明，私有属性泄漏减少了 90% 以上。最后，我们通过将其匿名化功能提炼为一组与设备上模型关联的 LoRA 参数，展示了 IncogniText 在实际应用中的成熟度。

PII-Compass：通过接地指导 LLM 培训数据提取提示实现目标 PII

分类： 密码学和安全, 人工智能, 计算和语言, 机器学习

作者： Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, Xue Jiang, Xuebing Zhou

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02943v1

摘要： 大型模型的最新和最有影响力的进步源于其尺寸的增加。不幸的是，这会导致记忆能力的提高，从而引发数据隐私问题。具体来说，事实证明，模型可以输出训练数据中包含的个人身份信息 (PII)。然而，报告的 PIII 提取性能差异很大，并且对于评估这种风险的最佳方法没有达成共识，导致低估了现实的对手。在这项工作中，我们凭经验证明，通过将手动构建的提取提示的前缀与域内数据结合起来，可以将 PII 的可提取性提高十倍以上。我们的方法 PII-Compass 在 1、128 和 2308 次查询中分别实现了 0.92%、3.9% 和 6.86% 的电话号码提取率，即 15 人中有 1 人的电话号码是可提取的。

探索大语言模型执行代码变更相关任务的能力

分类： 软件工程

作者： Lishui Fan, Jiakun Liu, Zhongxin Liu, David Lo, Xin Xia, Shanping Li

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02824v1

摘要： 开发人员每天处理与代码更改相关的任务，例如审查代码。预先训练的代码和面向代码更改的模型已经过调整，可以帮助开发人员完成此类任务。最近，大型语言模型（LLM）在代码相关任务中显示出了其有效性。然而，现有的代码大语言模型侧重于通用代码语法和语义，而不是两个代码版本之间的差异。因此，大语言模型如何执行与代码更改相关的任务是一个悬而未决的问题。为了回答这个问题，我们使用 \textgreater 1B 参数 LLM 对三个与代码更改相关的任务（即代码审查生成、提交消息生成和即时评论更新）进行了实证研究，并进行了上下文学习（ ICL）和参数高效的微调（PEFT，包括 LoRA 和前缀调整）。我们观察到，如果没有示例，大语言模型的表现会很差，而通过示例通常会有所提高，但更多的示例并不总是会带来更好的表现。使用 LoRA 调整的大语言模型具有与最先进的小型预训练模型相当的性能。模型越大并不总是越好，但 \textsc{Llama~~2} 和 \textsc{Code~~Llama} 系列始终是最好的。最好的大语言模型在代码更改方面的表现优于小型预训练模型，这些模型仅修改注释，并且在其他代码更改方面的表现相当。我们建议未来的工作应该更多地侧重于指导大语言模型学习与代码相关的变更特定的知识，而不是对与代码变更相关的任务进行注释。

VPA 应用程序的模型增强型 LLM 驱动的 VUI 测试

分类： 软件工程, 人工智能

作者： Suwan Li, Lei Bu, Guangdong Bai, Fuman Xie, Kai Chen, Chang Yue

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.02791v1

摘要： 以 Amazon Alexa 等语音个人助理 (VPA) 为中心的蓬勃发展的生态系统带动了 VPA 应用程序的蓬勃发展。例如，最大的应用程序市场亚马逊技能商店拥有超过 200,000 个应用程序。尽管它们很受欢迎，但应用程序发布的开放性和应用程序的易于访问性也引起了人们对安全、隐私和质量的严重担忧。因此，人们提出了各种测试方法来系统地检查 VPA 应用程序行为。为了解决 VPA 应用程序中固有的缺乏可见用户界面的问题，在测试过程中采用了两种策略，即聊天机器人式测试和基于模型的测试。前者往往缺乏扩展搜索空间的有效指导，而后者则无法解释对话的语义，无法为应用程序构建精确而全面的行为模型。在这项工作中，我们介绍了 Elevate，一个模型增强型大语言模型 (LLM) 驱动的 VUI 测试框架。 Elevate 利用大语言模型在自然语言处理方面的强大能力来补偿基于模型的 VUI 测试期间语义信息的丢失。它通过提示大语言模型从 VPA 应用程序的输出中提取状态并生成上下文相关的输入来运行。在与应用程序的自动交互过程中，它逐步构建行为模型，这有助于大语言模型生成极有可能发现新状态的输入。 Elevate 通过创新技术将 LLM 和行为模型联系起来，例如将行为模型编码为提示以及根据上下文相关性选择 LLM 生成的输入。 Elevate 以 4,000 种现实世界的 Alexa 技能为基准，与最先进的测试仪 Vitas 进行对比。与 Vitas 相比，它在所有类型的应用程序上实现了高出 15% 的状态空间覆盖率，并且在效率方面表现出显着的进步。

GemmmAr：通过阿拉伯语教学调整提高大语言模型

分类： 计算和语言, 人工智能

作者： Hasna Chouikhi, Manel Aloui, Cyrine Ben Hammou, Ghaith Chaabane, Haithem Kchaou, Chehir Dhaouadi

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02147v2

摘要： 大型语言模型（LLM）极大地影响了自然语言处理（NLP）领域，特别是英语。这些模型展示了理解和生成类人文本的能力。语言模型的成功在很大程度上取决于高质量指令数据集的可用性，其中包括详细的任务描述和相应的响应，这对于训练模型准确地处理各种提示至关重要。然而，这些资源的可用性和质量因语言而异。虽然模型在英语中表现良好，但由于缺乏用于微调阿拉伯语特定任务的数据集，它们通常需要阿拉伯语等语言的帮助。为了解决这个问题，我们引入了 InstAr-500k，这是一个新的阿拉伯语指令数据集，通过生成和收集涵盖多个领域和指令类型的内容而创建。我们通过在几个下游任务上微调开源 Gemma-7B 模型来评估该数据集，以改进其功能。基于多项评估，我们的微调模型在多个阿拉伯语 NLP 基准上取得了优异的性能。这些结果强调了我们的数据集在提升阿拉伯语语言模型能力方面的有效性。我们的指令数据集通过提供放大阿拉伯语 NLP 开发的资源，弥合了英语和阿拉伯语言模型之间的性能差距。在此基础上，我们开发了一个模型 GemmmAr-7B-V1，专门针对各种阿拉伯语 NLP 任务进行了调整。

支持者和怀疑者：基于大语言模型的视频共享平台上心理健康（Mis）信息内容参与度分析

分类： 社交和信息网络, 计算和语言, 计算机与社会

作者： Viet Cuong Nguyen, Mini Jain, Abhijat Chauhan, Heather Jaime Soled, Santiago Alvarez Lesmes, Zihang Li, Michael L. Birnbaum, Sunny X. Tang, Srijan Kumar, Munmun De Choudhury

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02662v1

摘要： 在美国，超过五分之一的成年人患有精神疾病。面对心理健康专业人员和线下资源的短缺，在线短视频内容已成为传播心理健康帮助和资源的重要渠道。然而，内容创建和访问的便捷性也导致了错误信息的传播，给准确的诊断和治疗带来了风险。检测和了解此类内容的参与对于减轻其对公共健康的有害影响至关重要。我们使用 YouTube Shorts 和 Bitchute 作为研究网站，对这一现象进行了首次定量研究。我们使用专家驱动的注释模式贡献了 MentalMisinfo，这是一个新颖的标记心理健康错误信息 (MHMisinfo) 数据集，包含 739 个视频（639 个来自 Youtube，100 个来自 Bitchute）和总共 135372 条评论。我们首先发现使用大型语言模型 (LLM) 进行的少样本上下文学习可以有效检测 MHMisinfo 视频。接下来，我们通过两个视频共享平台上的评论，发现观众如何与 MHMisinfo 视频互动的独特且可能令人担忧的语言模式。在这两个平台上，评论可能会加剧一些群体对 MHMisinfo 表现出更高的敏感性和一致性的普遍耻辱。我们讨论技术和公共卫生驱动的适应性解决方案，以应对在线心理健康错误信息的“流行”。

基于人工智能的系统，利用支持物联网的环境传感器和大语言模型进行复杂的活动跟踪

分类： 人机交互

作者： Yuan Sun, Jorge Ortiz

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02606v1

摘要： 复杂的活动识别在养老援助中发挥着重要作用。然而，边缘设备的推理能力受到经典机器学习模型能力的限制。在本文中，我们提出了一种非侵入式环境传感系统，可以检测多种活动并应用大型语言模型（LLM）来推理活动序列。这种方法有效地将边缘设备和大语言模型结合起来，帮助老年人进行日常活动，例如提醒他们吃药或处理跌倒等紧急情况。基于大语言模型的边缘设备还可以作为与老年人互动的界面，特别是有记忆力问题的老年人，帮助他们的日常生活。通过部署这样的系统，我们相信智能传感系统可以改善老年人的生活质量并提供更有效的保护

MInference 1.0：通过动态稀疏注意力加速长上下文大语言模型的预填充

分类： 计算和语言, 机器学习

作者： Huiqiang Jiang, Yucheng Li, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Zhenhua Han, Amir H. Abdi, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02490v1

摘要： 大型语言模型 (LLM) 推理的计算挑战仍然是其广泛部署的重大障碍，特别是随着提示长度不断增加。由于注意力计算的二次复杂度，8B LLM 在单个 A100 GPU 上处理 1M 个 token 的提示（即预填充阶段）需要 30 分钟。当应用于长上下文大语言模型时，现有的加速预填充的方法通常无法保持可接受的准确性或效率。为了解决这个差距，我们引入了MInference（Milliontokens Inference），这是一种稀疏计算方法，旨在加速长序列处理的预填充。具体来说，我们确定了长上下文注意力矩阵中的三种独特模式——A 形、垂直斜线和块稀疏，可用于在 GPU 上进行高效稀疏计算。我们离线确定每个注意力头的最佳模式，并在推理过程中根据分配的模式动态构建稀疏索引。借助模式和稀疏索引，我们通过优化的 GPU 内核执行高效的稀疏注意力计算，以显着减少长上下文 LLM 预填充阶段的延迟。我们提出的技术可以直接应用于现有的大语言模型，无需对预训练设置进行任何修改或进行额外的微调。通过评估各种下游任务，包括 InfiniteBench、RULER、PG-19 和 Needle In A Haystack，以及模型，包括 LLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K 和 Qwen2 -128K，我们证明 MInference 可以有效地将 A100 上预填充的推理延迟降低多达 10 倍，同时保持准确性。我们的代码可从 https://aka.ms/MInference 获取。

RankRAG：将上下文排名与大语言模型中的检索增强生成相结合

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Yue Yu, Wei Ping, Zihan Liu, Boxin Wang, Jiaxuan You, Chao Zhang, Mohammad Shoeybi, Bryan Catanzaro

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02485v1

摘要： 大型语言模型 (LLM) 通常利用检索增强生成 (RAG) 中检索器的前 k 个上下文。在这项工作中，我们提出了一种新颖的指令微调框架 RankRAG，该框架对单个 LLM 进行指令调整，以实现 RAG 中上下文排名和答案生成的双重目的。特别是，通过在训练混合中添加一小部分排名数据，经过指令调整的大语言模型的工作效果出人意料地好，并且优于现有的专家排名模型，包括专门针对大量排名数据进行微调的相同大语言模型。对于生成，我们将我们的模型与许多强大的基线进行比较，包括 GPT-4-0613、GPT-4-turbo-2024-0409 和 ChatQA-1.5，这是一个开源模型，在RAG 基准。具体来说，我们的 Llama3-RankRAG 在九个知识密集型基准测试中显着优于 Llama3-ChatQA-1.5 和 GPT-4 模型。此外，它在生物医学领域的五个 RAG 基准测试中的表现也与 GPT-4 相当，无需对生物医学数据进行指令微调，展示了其卓越的泛化到新领域的能力。

了解多模式大语言模型的一致性：一项综合研究

分类： 计算机视觉和模式识别, 计算和语言

作者： Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02477v1

摘要： 偏好对齐已成为提高大型语言模型 (LLM) 性能的关键组成部分，但其对多模态大型语言模型 (MLLM) 的影响仍相对未得到充分研究。与语言模型类似，用于图像理解任务的 MLLM 也会遇到幻觉等挑战。在 MLLM 中，幻觉不仅可以通过陈述不正确的事实而发生，还可以通过产生与图像内容不一致的响应而发生。 MLLM 对齐的主要目标是鼓励这些模型将响应与图像信息更紧密地对齐。最近，多项工作引入了 MLLM 的偏好数据集，并研究了不同的对齐方法，包括直接偏好优化（DPO）和近端策略优化（PPO）。然而，由于数据集、基础模型类型和对齐方法的变化，目前尚不清楚哪些特定元素对这些工作中报告的改进贡献最大。在本文中，我们独立分析了 MLLM 中偏好调整的各个方面。我们首先将对齐算法分为两类：离线（例如DPO）和在线（例如online-DPO），并表明结合离线和在线方法可以在某些场景下提高模型的性能。我们回顾了各种已发布的多模式偏好数据集，并讨论其构建细节如何影响模型性能。基于这些见解，我们引入了一种创建多模态偏好数据的新方法，称为偏差驱动幻觉采样（BDHS），它既不需要额外的注释，也不需要外部模型，并表明它可以实现与之前发布的多模态模型对齐工作竞争的性能。一系列基准。

RLHF 可以讲多种语言：为大语言模型解锁多语言偏好优化

分类： 计算和语言, 人工智能, 机器学习

作者： John Dang, Arash Ahmadian, Kelly Marchisio, Julia Kreutzer, Ahmet Üstün, Sara Hooker

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02552v1

摘要： 偏好优化技术已成为训练最先进的大型语言模型 (LLM) 的标准最后阶段。然而，尽管被广泛采用，迄今为止绝大多数工作都集中在英语和中文等一等公民语言上。这涵盖了世界上一小部分语言，但也使得目前最先进的研究的哪些方面转移到多语言环境中变得不清楚。在这项工作中，我们进行了一项详尽的研究，以实现多语言大语言模型的最新最先进水平。我们引入了一种新颖的、可扩展的方法来生成高质量的多语言反馈数据以平衡数据覆盖范围。我们在偏好训练中确立了跨语言迁移和增加数据集大小的好处。我们的偏好训练模型对参数类别中当前最先进的多语言 LLM Aya 23 8B 的胜率达到 54.4%，对广泛使用的模型（如 Gemma-1.1）的胜率达到 69.5% 或更高-7B-it、Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.3。我们的研究结果将对齐技术的前沿扩展到覆盖世界一半人口的 23 种语言。

视频水印：保护您的视频免受基于视频的大语言模型的（未经授权）注释的影响

分类： 计算机视觉和模式识别, 密码学和安全, 多媒体

作者： Jinmin Li, Kuofeng Gao, Yang Bai, Jingyun Zhang, Shu-Tao Xia

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02411v2

摘要： 基于视频的大语言模型 (LLM) 的出现显着增强了视频理解。然而，它也引发了一些有关数据保护的安全问题，因为即使未经授权，视频也可以更容易地注释。本文介绍了视频水印，这是一种新技术，可以保护视频免受此类基于视频的大语言模型未经授权的注释，特别是针对视频内容和描述，以响应特定的查询。通过将水印不知不觉地嵌入到具有基于多模式流的损失的关键视频帧中，我们的方法保留了观看体验，同时防止基于视频的大语言模型的误用。大量实验表明，视频水印显着降低了各种基于视频的大语言模型的视频的可理解性，展示了隐蔽性和鲁棒性。从本质上讲，我们的方法提供了一种保护视频内容的解决方案，在面对不断发展的基于视频的大语言模型技术时确保其完整性和机密性。

TokenPacker：多模式 LLM 的高效视觉投影仪

分类： 计算机视觉和模式识别

作者： Wentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang, Jianke Zhu, Lei Zhang

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02392v1

摘要： 视觉投影仪是多模态 LLM (MLLM) 中视觉编码器和大语言模型 (LLM) 之间的重要桥梁。通常，MLLM 采用简单的 MLP 通过一对一转换来保留所有视觉上下文。然而，视觉标记是多余的，并且在处理高分辨率图像时会显着增加，从而显着降低 MLLM 的效率。最近的一些作品引入了重采样器或抽象器来减少生成的视觉标记的数量。不幸的是，它们无法捕获更精细的细节并破坏了 MLLM 的视觉推理能力。在这项工作中，我们提出了一种新颖的视觉投影仪，它采用从粗到细的方案来注入丰富的特征来生成压缩的视觉标记。具体来说，我们首先将视觉特征插值作为低分辨率点查询，提供整体视觉表示作为基础。然后，我们引入了一个区域到点注入模块，该模块利用高分辨率、多级基于区域的线索作为细粒度的参考键和值，使它们能够在相应的局部上下文区域中完全吸收。这一步骤有效地更新了粗点查询，将其转化为丰富的查询，以供后续的 LLM 推理使用。大量的实验表明，我们的方法将视觉标记压缩了 75%~89%，同时在不同的基准测试中实现了相当甚至更好的性能，并且效率显着提高。源代码可以在 https://github.com/CircleRadon/TokenPacker 找到。

Pelican：通过主张分解和思维验证程序纠正视觉大语言模型的幻觉

分类： 计算和语言

作者： Pritish Sahu, Karan Sikka, Ajay Divakaran

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02352v1

摘要： 大型视觉语言模型（LVLM）在执行任务后的视觉指令中与幻觉作斗争，限制了它们的可信度和现实世界的适用性。我们提出 Pelican——一种新颖的框架，旨在通过声明验证来检测和减轻幻觉。 Pelican 首先将视觉声明分解为基于一阶谓词的子声明链。这些子声明由（谓词、问题）对组成，可以概念化为计算图的节点。然后，我们使用思维程序提示生成Python代码，通过外部工具的灵活组合来回答这些问题。 Pelican 通过引入（1）用于对象实例的精确基础的中间变量，以及（2）用于回答子问题的共享计算以实现自适应校正和不一致识别，对先前的工作进行了改进。最后，我们利用大语言模型的推理能力，通过考虑每个子主张的（问题，答案）对的一致性和置信度来验证主张的正确性。我们的实验表明，在各种基线 LVLM 中，幻觉率下降了 $\sim$8%-32%，与 MMHal-Bench 上提出的幻觉缓解方法相比，幻觉率下降了 27%。其他两个基准的结果进一步证实了我们的结果。

评估大语言模型解决语义感知流程挖掘任务的能力

分类： 计算和语言

作者： Adrian Rebmann, Fabian David Schmidt, Goran Glavaš, Han van der Aa

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02310v1

摘要： 流程挖掘社区最近认识到大型语言模型 (LLM) 在处理各种流程挖掘任务方面的潜力。初步研究报告了大语言模型支持流程分析的能力，甚至在某种程度上，他们能够推理流程如何运作。后一个属性表明大语言模型也可以用于解决流程挖掘任务，这些任务受益于对流程行为的理解。此类任务的示例包括（语义）异常检测和下一个活动预测，这两者都涉及对活动含义及其相互关系的考虑。在本文中，我们研究了大语言模型处理此类语义感知流程挖掘任务的能力。此外，虽然大多数关于大语言模型和流程挖掘交叉的工作只关注于开箱即用地测试这些模型，但我们对大语言模型在流程挖掘中的效用进行了更有原则的研究，包括它们事后获取流程挖掘知识的能力通过上下文学习和监督微调。具体来说，我们定义了三个流程挖掘任务，这些任务受益于对流程语义的理解，并为每个任务提供了广泛的基准测试数据集。我们的评估实验表明，(1) 大语言模型无法立即解决具有挑战性的流程挖掘任务，并且仅提供少量上下文示例，(2) 但在针对这些任务进行微调时，它们会产生强大的性能，始终超越更小的、基于编码器的语言模型。

LlamAr 和 GemmmAr：通过阿拉伯语教学调整提高大语言模型

分类： 计算和语言, 人工智能

作者： Hasna Chouikhi, Manel Aloui, Cyrine Ben Hammou, Ghaith Chaabane, Haithem Kchaou, Chehir Dhaouadi

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02147v1

摘要： 大型语言模型（LLM）极大地影响了自然语言处理（NLP）领域，特别是英语。这些模型展示了理解和生成类人文本的能力。语言模型的成功在很大程度上取决于高质量指令数据集的可用性，其中包括详细的任务描述和相应的响应，这对于训练模型准确地处理各种提示至关重要。然而，这些资源的可用性和质量因语言而异。虽然模型在英语中表现良好，但由于缺乏用于微调阿拉伯语特定任务的数据集，它们经常在阿拉伯语等语言中表现不佳。为了解决这个问题，我们引入了 InstAr-500k，这是一个新的阿拉伯语指令数据集，通过生成和收集涵盖多个领域和指令类型的内容而创建。然后，我们通过在几个下游任务上微调两个开源模型 Llama-3-8B-Instruct 和 Gemma-7B-IT 来评估该数据集，以扩大其功能的改进。基于多项评估，我们经过微调的模型在多个阿拉伯语 NLP 基准上实现了最先进的性能。这些结果强调了我们的数据集在提升阿拉伯语语言模型能力方面的有效性。我们的指令数据集通过提供放大阿拉伯语 NLP 开发的资源，弥合了英语和阿拉伯语言模型之间的性能差距。在此基础上，我们开发了两种最先进的模型：LlamAr-8B 和 GemmmAr-7B，它们经过专门调整，可在各种阿拉伯语 NLP 任务中表现出色。

打破偏见，架起桥梁：通过接触假设评估和减轻大语言模型的社会偏见

分类： 计算和语言

作者： Chahat Raj, Anjishnu Mukherjee, Aylin Caliskan, Antonios Anastasopoulos, Ziwei Zhu

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02030v1

摘要： 大型语言模型 (LLM) 会延续社会偏见，反映其训练数据中的偏见，并强化社会刻板印象和不平等。我们的工作探索了接触假说的潜力，这是一个来自社会心理学的概念，用于消除大语言模型的偏见。我们通过大语言模型模拟各种形式的社会接触，以衡量它们对模型偏见的影响，反映群体间互动如何减少社会环境中的偏见。我们按照复制社交接触的原则性方法创建了包含 108,000 个提示的数据集，以衡量三个大语言模型（LLaMA 2、Tulu 和 NousHermes）在 13 个社会偏见维度上的偏见。我们提出了一种独特的去偏差技术，即社交接触去偏差（SCD），该技术可以通过对提示的公正响应来指令调整这些模型。我们的研究表明，LLM 的响应在进行接触探测时会表现出社会偏差，但更重要的是，按照我们的 SCD 策略，在 1 个周期的 LLaMA 2 指令调整中，这些偏差可以显着减少高达 40%。我们的代码和数据可在 https://github.com/chahatraj/breakingbias 获取。

在大语言模型中启用判别推理以进行法律判决预测

分类： 计算和语言

作者： Chenlong Deng, Kelong Mao, Yuyao Zhang, Zhicheng Dou

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.01964v3

摘要： 法律判决预测对于提高司法效率至关重要。在这项工作中，我们发现现有的大型语言模型（LLM）在该领域表现不佳，因为在理解案例复杂性和区分类似费用方面存在挑战。为了使大语言模型适应有效的法律判决预测，我们引入了受人类司法推理启发的询问-区分-预测（ADAPT）推理框架。 ADAPT 涉及分解案件事实、区分潜在指控以及预测最终判决。我们通过多任务合成轨迹的微调进一步增强 LLM，以提高 ADAPT 框架下的法律判决预测准确性和效率。在两个广泛使用的数据集上进行的大量实验证明了我们的框架在法律判决预测方面的卓越性能，特别是在处理复杂且令人困惑的指控时。

MG-Verilog：面向增强型 LLM 辅助 Verilog 生成的多粒度数据集

分类： 机器学习, 人工智能, 硬件架构

作者： Yongan Zhang, Zhongzhi Yu, Yonggan Fu, Cheng Wan, Yingyan Celine Lin

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.01910v2

摘要： 大型语言模型 (LLM) 最近在通过封装大量特定领域数据来简化硬件设计流程方面展现出了良好的前景。此外，它们允许用户通过自然语言指令与设计过程进行交互，从而使开发人员更容易进行硬件设计。然而，在硬件设计中有效利用大语言模型需要在推理（例如，通过上下文学习）、微调或预训练期间提供特定于领域的数据。不幸的是，现有的公开可用的硬件数据集通常在大小、复杂性或细节方面受到限制，这阻碍了大语言模型在硬件设计任务中的有效性。为了解决这个问题，我们首先提出了一套创建高质量硬件数据集的标准，可以有效增强LLM辅助的硬件设计。基于这些标准，我们提出了一个多粒度 Verilog (MG-Verilog) 数据集，其中包含各种详细程度的描述和相应的代码示例。为了使更广泛的硬件设计社区受益，我们开发了一个开源基础设施，可以方便地访问、集成和扩展数据集，以满足特定的项目需求。此外，为了充分发挥 MG-Verilog 数据集的潜力（其复杂性和细节各不相同），我们引入了平衡微调方案。该方案作为一个独特的用例来利用数据集提供的不同细节级别。大量实验表明，所提出的数据集和微调方案持续提高了 LLM 在硬件设计任务中的性能。

超越数字奖项：强盗与大语言模型代理人的背景决斗

分类： 机器学习, 人工智能, 计算和语言

作者： Fanzeng Xia, Hao Liu, Yisong Yue, Tongxin Li

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.01887v1

摘要： 上下文决策是通用人工智能的重要能力，大型语言模型（LLM）已经在各种场景中有效地证明了这一能力。然而，大语言模型在处理数字环境时经常面临挑战，并且很少关注通过环境产生的偏好反馈来评估其表现。本文研究了大语言模型在决斗强盗 (DB) 背景下作为决策者的表现。我们首先通过将 GPT-3.5-Turbo、GPT-4 和 GPT-4-Turbo 与已建立的 DB 算法进行比较来评估 LLM 的性能。我们的结果表明，LLM，特别是 GPT-4 Turbo，可以快速识别孔多塞获胜者，从而在弱遗憾方面优于现有的最先进算法。尽管如此，大语言模型即使在明确提示的情况下也很难收敛，并且对即时变化很敏感。为了克服这些问题，我们引入了一种 LLM 增强算法，即 IF-Enhanced LLM，它利用了 LLM 的上下文决策能力和继承自经典 DB 算法的理论保证。这种算法的设计揭示了如何增强在性能鲁棒性很重要的决策任务中使用的大语言模型的可信度。我们证明了 IF-Enhanced LLM 对弱后悔和强后悔都有理论保证。我们的实验结果验证了 IF 增强型大语言模型即使在嘈杂和对抗性的提示下也是稳健的。

紫队大语言模型进行对抗性防守训练

分类： 计算和语言

作者： Jingyan Zhou, Kun Li, Junan Li, Jiawen Kang, Minda Hu, Xixin Wu, Helen Meng

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01850v1

摘要： 现有的保护大语言模型的努力仅限于主动暴露目标大语言模型的脆弱性和随时适应新出现的安全风险。为了解决这个问题，我们为紫队大语言模型提供了对抗性防御者训练（PAD），这是一个旨在通过新颖地结合红队（攻击）和蓝队（安全训练）技术来保护大语言模型的管道。在 PAD 中，我们以自我博弈的方式自动收集涵盖特定安全风险的 LLM 漏洞的对话数据，其中攻击者旨在引发不安全响应，防御者针对这些攻击生成安全响应。然后，我们通过训练攻击者引发更多不安全响应并更新防御者以识别它们并解释不安全原因，以生成对抗网络风格更新这两个模块。实验结果表明，PAD 在发现有效攻击和建立强大的安全护栏方面均明显优于现有基线。此外，我们的研究结果表明，PAD 擅长在安全性和整体模型质量之间取得平衡。我们还揭示了保护大语言模型的关键挑战，包括防御多轮攻击以及需要更微妙的策略来识别特定风险。

为每一个句子奠定基础：通过交错参考声明生成改进检索增强大语言模型

分类： 计算和语言

作者： Sirui Xia, Xintao Wang, Jiaqing Liang, Yifei Zhang, Weikang Zhou, Jiaji Deng, Fei Yu, Yanghua Xiao

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01796v1

摘要： 检索增强生成（RAG）已被广泛采用来增强知识密集型任务中的大型语言模型（LLM）。最近，属性文本生成（ATG）越来越受到关注，它提供引用来支持RAG中模型的响应，从而增强LLM生成内容的可信度并方便验证。现有方法主要采用粗粒度归因，链接到段落级参考文献或提供段落级引用。然而，这些方法在可验证性方面仍然存在不足，并且需要一定的时间成本来进行事实核查。本文提出了一种名为 ReClaim(Refer & Claim) 的细粒度 ATG 方法，该方法逐步交替生成参考文献和答案。与传统的粗粒度归因不同，ReClaim 允许模型为长篇问答任务中的每个答案句子添加句子级别的细粒度引用。我们的实验涵盖各种训练和推理方法以及多个大语言模型，验证了我们方法的有效性。

MIA-Bench：多模式大语言模型评估后寻求更好的教学

分类： 计算机视觉和模式识别, 计算和语言

作者： Yusu Qian, Hanrong Ye, Jean-Philippe Fauconnier, Peter Grasch, Yinfei Yang, Zhe Gan

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01509v2

摘要： 我们推出了 MIA-Bench，这是一个新的基准测试，旨在评估多模式大语言模型 (MLLM) 严格遵守复杂指令的能力。我们的基准测试由 400 个不同的图像提示对组成，每对都经过精心设计，旨在挑战模型在生成满足特定请求模式的准确响应方面是否符合分层指令。各种最先进的 MLLM 的评估结果揭示了性能的显着差异，突出了指令保真度方面需要改进的领域。此外，我们创建额外的训练数据并探索监督微调，以增强模型严格遵循指令的能力，而不影响其他任务的性能。我们希望这个基准不仅可以作为衡量 MLLM 对指令遵守情况的工具，而且可以指导 MLLM 培训方法的未来发展。

LLM See，LLM Do：指导数据生成以实现不可微分的目标

分类： 计算和语言, 人工智能, 机器学习

作者： Luísa Shimabucoro, Sebastian Ruder, Julia Kreutzer, Marzieh Fadaee, Sara Hooker

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01490v1

摘要： 合成数据的广泛采用提出了新的问题：生成数据的模型如何通过蒸馏数据影响其他大型语言模型（LLM）。首先，我们的工作通过系统地研究合成数据集成的后果，详尽地描述了模型属性被动继承的影响。我们提供迄今为止最全面的研究之一，研究合成数据源如何塑造模型的内部偏差、校准以及各代人的文本属性和偏好。我们发现，即使合成数据提示看起来“中性”，模型对某些属性也出奇地敏感。这就引发了一个问题：这种敏感性是否可以被永远利用。我们的研究结果提出了一个问题：我们是否可以通过利用数据生成过程来明确地引导模型在测试时达到我们想要的属性？由于收集具有特定特征或目标的数据的成本，这在历史上被认为是不可行的。然而，合成数据质量的提高，以及向旨在遵循多种指令方式的通用模型的转变，意味着这个问题是及时的。我们提出主动继承作为一个术语来描述根据不可微分的目标有意约束合成数据。我们演示了主动继承如何将模型的生成配置文件引导向理想的不可微分属性，例如高词汇多样性或低毒性。

无代理：揭秘基于 LLM 的软件工程代理

分类： 软件工程, 人工智能, 计算和语言, 机器学习

作者： Chunqiu Steven Xia, Yinlin Deng, Soren Dunn, Lingming Zhang

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01489v1

摘要： 大型语言模型 (LLM) 的最新进展显着推进了软件开发任务的自动化，包括代码合成、程序修复和测试生成。最近，研究人员和行业从业者开发了各种自主的 LLM 代理来执行端到端软件开发任务。这些代理具备使用工具、运行命令、观察环境反馈以及规划未来行动的能力。然而，这些基于代理的方法的复杂性，加上当前大语言模型的有限能力，提出了以下问题：我们真的必须采用复杂的自主软件代理吗？为了尝试回答这个问题，我们构建了 Agentless——一种自动解决软件开发问题的无代理方法。与基于代理的方法的冗长和复杂的设置相比，无代理采用简单的两阶段本地化和修复过程，无需让大语言模型决定未来的行动或使用复杂的工具进行操作。我们在流行的 SWE-bench Lite 基准测试中的结果表明，与所有现有的开源软件代理相比，令人惊讶的是，简单的 Agentless 能够实现最高性能 (27.33%) 和最低成本 ($0.34)！此外，我们对 SWE-bench Lite 中的问题进行了手动分类，并发现了准确的地面真实补丁或问题描述不充分/误导性的问题。因此，我们通过排除此类问题来构建SWE-bench Lite-S，以进行更严格的评估和比较。我们的工作强调了当前在自主软件开发中被忽视的简单、可解释技术的潜力。我们希望 Agentless 能够帮助重新设定自主软件代理的基线、起点和视野，并激发未来沿着这一关键方向的工作。

通过适配器使用知识图使多语言大语言模型适应资源匮乏的语言

分类： 计算和语言, 人工智能

作者： Daniil Gurgurov, Mareike Hartmann, Simon Ostermann

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01406v1

摘要： 本文探讨了使用适配器将语言本体中的图知识集成到多语言大语言模型 (LLM) 中，以提高低资源语言 (LRL) 在情感分析 (SA) 和命名实体识别 (NER) 中的性能。基于成功的参数高效微调技术（例如 K-ADAPTER 和 MAD-X），我们提出了一种类似的方法，将多语言图中的知识结合起来，通过语言关系将不同语言的概念相互连接起来，纳入 LRL 的多语言 LLM 中。具体来说，我们专注于八个 LRL——马耳他语、保加利亚语、印度尼西亚语、尼泊尔语、爪哇语、维吾尔语、藏语和僧伽罗语——并采用针对从 ConceptNet 的特定语言部分提取的数据进行微调的特定语言适配器，旨在实现知识图谱所涵盖的语言之间的知识转移。我们比较了各种微调目标，包括标准掩码语言建模（MLM）、具有全字掩码的 MLM 和具有目标掩码的 MLM，以分析它们在学习和集成提取的图形数据方面的有效性。通过对特定语言任务的实证评估，我们评估了结构化图知识如何影响 SA 和 NER 中 LRL 的多语言 LLM 的性能，从而深入了解针对资源匮乏场景调整语言模型的潜在好处。

Gloss2Text：使用大语言模型和语义感知标签平滑的手语 Gloss 翻译

分类： 计算机视觉和模式识别, 计算和语言, 机器学习

作者： Pooya Fayyazsanavi, Antonios Anastasopoulos, Jana Košecká

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01394v1

摘要： 由于不同说话者和上下文之间的语法、表达细微差别以及视觉外观的高度差异，从视频到口语文本的手语翻译面临着独特的挑战。视频的中间注释旨在指导翻译过程。在我们的工作中，我们专注于 {\em Gloss2Text} 翻译阶段，并通过利用预训练的大型语言模型 (LLM)、数据增强和新颖的标签平滑损失函数（利用注释翻译歧义）提出了几项进展，显着提高了状态的性能最先进的方法。通过对 PHOENIX Weather 2014T 数据集进行广泛的实验和消融研究，我们的方法超越了 {\em Gloss2Text} 翻译中最先进的性能，表明其在解决手语翻译方面的功效，并为未来的研究和开发提出了有希望的途径。

大海捞针摘要：对长上下文大语言模型和 RAG 系统的挑战

分类： 计算和语言

作者： Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01370v1

摘要： LLM 和 RAG 系统现在能够处理数百万个或更多的输入令牌。然而，评估此类系统在长上下文任务上的输出质量仍然具有挑战性，因为像大海捞针这样的任务缺乏复杂性。在这项工作中，我们认为总结可以在此类评估中发挥核心作用。我们设计了一个程序来合成文档的干草堆，确保特定的 \textit{insights} 在文档中重复。然后，“干草堆摘要”（SummHay）任务需要一个系统来处理干草堆，并在给定查询的情况下生成一个摘要，该摘要可识别相关见解并精确引用源文档。由于我们准确地知道哪些见解应该出现在大海捞针摘要中以及应该引用哪些文档，因此我们实施了高度可重复的自动评估，可以对覆盖率和引用两个方面的摘要进行评分。我们在两个领域（对话、新闻）生成 Haystack，并对 10 个 LLM 和相应的 50 个 RAG 系统进行大规模评估。我们的研究结果表明，SummHay 对当前系统来说是一个公开的挑战，因为即使是提供了文档相关性 Oracle 信号的系统，在联合评分上也落后于我们对人类表现的估计 (56%) 10 分以上。如果没有检索器，GPT-4o 和 Claude 3 Opus 等长上下文大语言模型在 SummHay 上的得分低于 20%。我们证明 SummHay 还可以用于研究企业 RAG 系统和长上下文模型中的位置偏差。我们希望未来的系统能够在 SummHay 上达到并超越人类的表现。

MIRAI：评估事件预测的 LLM 代理

分类： 计算和语言, 人工智能

作者： Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01231v1

摘要： 大型语言模型 (LLM) 的最新进展使 LLM 代理能够自主收集世界信息，并通过这些信息进行推理以解决复杂问题。鉴于这种能力，人们越来越关注利用大语言模型代理人来预测国际事件，这可以影响决策并在国际范围内影响政策的制定。尽管人们的兴趣日益浓厚，但 LLM 代理的预测能力和可靠性仍缺乏严格的基准。为了解决这一差距，我们引入了 MIRAI，这是一种新颖的基准，旨在系统地评估 LLM 代理在国际事件背景下作为时间预测者的能力。我们的基准测试具有代理环境，带有用于访问历史、结构化事件和文本新闻文章的广泛数据库的工具。我们通过仔细的清理和解析来完善 GDELT 事件数据库，以策划一系列具有不同预测范围的关系预测任务，评估 LLM 代理从短期到长期预测的能力。我们进一步实现 API，使 LLM 代理能够通过基于代码的界面使用不同的工具。综上所述，MIRAI从三个维度综合评估智能体的能力：1）自主从全球大型数据库中获取和整合关键信息； 2）使用特定于领域的API和库编写代码以供工具使用； 3）联合推理不同格式和时间的历史知识，以准确预测未来事件。通过全面的基准测试，我们的目标是建立一个可靠的框架来评估大语言模型代理人预测国际事件的能力，从而有助于开发更准确和值得信赖的国际关系分析模型。

GazeNoter：通过注视来辅助进行 AR 笔记选择大语言模型建议以匹配用户的意图

分类： 人机交互

作者： Hsin-Ruey Tsai, Shih-Kang Chiu, Bryan Wang

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01161v1

摘要： 演讲和讨论过程中记笔记非常重要，它不仅可以用于后期的总结和组织，还可以用于问答环节中的实时问题和意见提醒或讨论中的及时贡献。在智能手机上手动打字做笔记可能会分散用户的注意力并增加用户的认知负担。虽然大型语言模型（LLM）用于自动生成摘要和亮点，但如果没有用户输入或交互，人工智能（AI）生成的内容可能与用户的意图不匹配。因此，我们提出了一种人工智能辅助的增强现实（AR）系统GazeNoter，允许用户通过注视AR耳机来快速选择各种LLM生成的建议，以进行实时笔记。 GazeNoter 利用 AR 耳机作为媒介，让用户快速调整 LLM 输出以符合他们的意图，形成一个用户循环的人工智能系统，用于上下文内和上下文外的笔记。我们进行了两项用户研究，分别验证 GazeNoter 在静态坐姿参加演讲和移动步行条件下参加步行会议和讨论的可用性。

重新思考基于大语言模型的偏好评估

分类： 机器学习, 计算和语言

作者： Zhengyu Hu, Linxin Song, Jieyu Zhang, Zheyuan Xiao, Jingang Wang, Zhenyu Chen, Jieyu Zhao, Hui Xiong

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01085v1

摘要： 最近，基于大语言模型（LLM）的偏好评估已被广泛采用来比较模型响应对。然而，人们发现对冗长答复的严重偏见，引起了人们对这种评估方法可靠性的担忧。在这项工作中，我们设计了一系列对照实验来研究基于LLM的偏好评估指标的主要影响因素，即获胜率，并得出结论，获胜率受到模型响应的两个轴的影响：意愿和信息质量，其中前者与长度无关并且与可信度相关，而后者与长度相关并且可以用条件熵表示。我们发现长度通过影响信息量来影响现有的评估。然而，可靠的评估指标不仅应该评估内容质量，还应确保评估不会受到响应长度等无关因素的干扰。因此，我们对现有的胜率测量实践提出了一个简单而有效的调整，AdapAlpaca。具体来说，通过调整参考答案的长度以匹配同一区间内的测试模型的答案，我们消除了相对于长度的信息量偏差，确保了公平的模型评估。

PocketLLM：为个性化 LLM 启用设备上微调

分类： 机器学习, 计算和语言

作者： Dan Peng, Zhihui Fu, Jun Wang

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01031v1

摘要： 大型语言模型（LLM）的最新进展确实展示了其令人印象深刻的能力。在移动设备上，每天生成的大量有价值的非公开数据为本地微调个性化大语言模型提供了巨大的希望，同时通过设备上的处理维护隐私。然而，移动设备资源的限制对直接设备上 LLM 微调提出了挑战，这主要是由于保存梯度和优化器状态所需的基于导数的优化的内存密集型特性。为了解决这个问题，我们建议采用无导数优化技术来实现 LLM 的设备上微调，即使在内存有限的移动设备上也是如此。实证结果表明，RoBERTa-large 模型和 OPT-1.3B 可以使用无导数优化技术，分别使用约 4GB 和 6.5GB 内存在 OPPO Reno 6 智能手机上进行本地微调。这凸显了移动设备上LLM微调的可行性，为资源受限设备上的个性化LLM铺平了道路，同时保护了数据隐私。

通过定向蕴涵图和索赔水平响应增强大语言模型不确定性量化

分类： 计算和语言, I.2.7

作者： Longchao Da, Tiejin Chen, Lu Cheng, Hua Wei

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.00994v2

摘要： 大型语言模型 (LLM) 在跨不同领域的复杂任务中展示了卓越的能力，源于基本的问答 (QA)，如今它们被用作决策助手或不熟悉内容的解释器。然而，由于特定领域语料库中的数据稀疏性或模型的幻觉问题，它们并不总是正确的。鉴于此，我们应该在多大程度上相信大语言模型的回答？本文提出了一种评估捕获方向不稳定性的不确定性的新方法，通过从蕴涵概率构造有向图，并且考虑到所构造有向图的不对称特性，我们创新性地进行随机游走拉普拉斯算子，然后通过导出的结果来聚合不确定性拉普拉斯过程的特征值。我们还提供了一种将现有工作的语义不确定性与我们提出的层结合起来的方法。此外，本文识别了原始响应集中的模糊性问题，并提出了一种增强方法来缓解此类问题，我们进行了广泛的实证实验并证明了我们提出的解决方案的优越性。

Mobile-Bench：基于 LLM 的移动代理的评估基准

分类： 人工智能, 计算和语言

作者： Shihan Deng, Weikai Xu, Hongda Sun, Wei Liu, Tao Tan, Jianfeng Liu, Ang Li, Jian Luan, Bin Wang, Rui Yan, Shuo Shang

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.00993v1

摘要： 随着大语言模型（LLM）的显着进步，基于LLM的智能体已成为人机交互领域的研究热点。然而，基于 LLM 的移动代理缺乏可用的基准。对这些代理进行基准测试通常面临三个主要挑战：（1）仅 UI 操作的低效率对任务评估造成了限制。 (2)单个应用程序中的具体指令不足以评估LLM移动代理的多维推理和决策能力。 (3)当前的评估指标不足以准确评估顺序动作的过程。为此，我们提出了 Mobile-Bench，这是一种用于评估基于 LLM 的移动代理功能的新颖基准。首先，我们通过整合收集的103个API来扩展常规的UI操作，以加快任务完成的效率。随后，我们通过将真实用户查询与大语言模型的增强相结合来收集评估数据。为了更好地评估移动代理的不同级别的规划能力，我们的数据分为三个不同的组：SAST、SAMT 和 MAMT，反映了不同级别的任务复杂性。 Mobile-Bench 包含 832 个数据条目，以及 200 多个专门用于评估多 APP 协作场景的任务。此外，我们引入了一种更准确的评估指标，名为 CheckPoint，以评估基于 LLM 的移动代理在其规划和推理步骤中是否达到了关键点。

用于安全医疗数据管理的混合 RAG 授权的多模式大语言模型：基于扩散的契约理论方法

分类： 人工智能, 机器学习

作者： Cheng Su, Jinbo Wen, Jiawen Kang, Yonghua Wang, Hudan Pan, M. Shamim Hossain

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.00978v1

摘要： 在快速发展的医疗保健领域，安全的数据管理和有效的数据共享已变得至关重要。生成人工智能的进步使多模态大型语言模型（MLLM）成为管理医疗数据的重要工具。 MLLM 可以支持多模态输入，并通过利用对大量多模态数据的大规模训练来生成不同类型的内容。然而，开发医疗 MLLM 仍然面临关键挑战，包括医疗数据安全和新鲜度问题，影响 MLLM 的输出质量。在本文中，我们提出了一种用于医疗保健数据管理的混合检索增强生成（RAG）授权的医疗 MLLM 框架。该框架利用分层跨链架构来促进安全数据训练。此外，它通过混合 RAG 提高了 MLLM 的输出质量，混合 RAG 采用多模态指标来过滤各种单模态 RAG 结果，并将这些检索结果合并为 MLLM 的附加输入。此外，我们利用信息时代来间接评估 MLLM 对数据新鲜度的影响，并利用契约理论来激励医疗保健数据持有者共享新鲜数据，减轻数据共享中的信息不对称。最后，我们利用基于生成扩散模型的强化学习算法来确定有效数据共享的最佳合约。数值结果证明了所提出方案的有效性，实现了安全高效的医疗数据管理。

众议院总是获胜：评估大语言模型战略欺骗的框架

分类： 计算和语言, 人工智能, 机器学习

作者： Tanush Chopra, Michael Li

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.00948v1

摘要： 我们提出了一个评估大语言模型（LLM）中的战略欺骗的框架。在此框架中，大语言模型在两种情况下充当游戏大师：一种是随机游戏机制，另一种是可以在随机或故意行动之间进行选择。例如，我们使用二十一点，因为行动空间和策略都涉及欺骗。我们对二十一点中的 Llama3-70B、GPT-4-Turbo 和 Mixtral 进行了基准测试，将结果与公平竞赛中的预期分布进行比较，以确定大语言模型是否制定了有利于“庄家”的策略。我们的研究结果表明，当给予隐含的随机性指令时，大语言模型表现出与公平竞争的显着偏差，这表明在模棱两可的情况下倾向于进行战略操纵。然而，当面临明确的选择时，大语言模型在很大程度上坚持公平竞争，这表明指令的框架在引发或减轻人工智能系统中潜在的欺骗行为方面发挥着至关重要的作用。

FineSurE：使用大语言模型的细粒度总结评估

分类： 计算和语言, 人工智能

作者： Hwanjun Song, Hang Su, Igor Shalyminov, Jason Cai, Saab Mansour

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.00908v1

摘要： 鉴于人工评估成本高昂且耗时，自动评估对于简化文本摘要基准测试和模型开发至关重要。像 ROUGE 这样的传统方法与人类判断的相关性并不好，而最近提出的基于 LLM 的指标仅使用 Likert 量表分数提供摘要级别的评估。这限制了更深入的模型分析，例如，我们只能在摘要级别分配一个幻觉分数，而在句子级别，我们可以计算包含幻觉的句子。为了弥补这些限制，我们提出了 FineSurE，这是一种细粒度评估器，专门针对使用大型语言模型 (LLM) 的摘要任务而定制。除了忠实性之外，它还采用完整性和简洁性标准，从而实现多维度评估。我们比较了各种开源和专有的大语言模型作为 FineSurE 的支柱。此外，我们针对 SOTA 方法（包括基于 NLI、QA 和 LLM 的方法）对 FineSurE 进行了广泛的基准测试，显示出性能的提高，尤其是在完整性和简洁性维度上。该代码可从 https://github.com/DISL-Lab/FineSurE-ACL24 获取。

Roleplay-doh：使领域专家能够通过引导和遵守原则来创建大语言模型模拟患者

分类： 计算和语言, 人机交互

作者： Ryan Louie, Ananjan Nandi, William Fang, Cheng Chang, Emma Brunskill, Diyi Yang

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.00870v1

摘要： 最近的作品利用大语言模型来角色扮演现实的社交场景，帮助新手练习社交技能。然而，模拟心理健康等敏感互动具有挑战性。隐私问题限制了数据访问，收集专家反馈虽然很重要，但很费力。为了解决这个问题，我们开发了 Roleplay-doh，这是一种新颖的人类与大语言模型协作管道，可从领域专家那里获得定性反馈，并将其转化为一组原则或自然语言规则，用于管理大语言模型提示的角色扮演。我们应用这个管道，使高级心理健康支持者能够为新手咨询师的模拟实践伙伴创建定制的人工智能患者。在发现 GPT-4 模拟中不遵守专家定义的原则的问题后，我们还引入了一种新颖的原则遵守提示管道，该管道显示下游任务的响应质量和原则遵循提高了 30%。通过与 25 名咨询专家进行的用户研究，我们证明了该管道可以轻松有效地创建更忠实地类似于真实患者的 AI 患者（根据创建者和第三方咨询师的判断）。