MiX Knowledge

CodeHalu：基于执行的验证驱动大语言模型中的代码幻觉

分类： 计算和语言, 软件工程

作者： Yuchen Tian, Weixiang Yan, Qian Yang, Qian Chen, Wen Wang, Ziyang Luo, Lei Ma

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2405.00253v1

摘要： 大型语言模型 (LLM) 在代码生成领域取得了重大进步，为自动化编程提供了前所未有的支持并为开发人员提供帮助。然而，大语言模型有时会生成看似合理的代码，但无法满足预期要求或执行不正确。这种编码领域的幻觉现象还没有被探索过。为了促进社会对大语言模型代码幻觉的理解和研究，我们提出了一种基于执行验证的幻觉定义方法，并首次引入了代码幻觉的概念。我们将代码幻觉分为四种主要类型：映射幻觉、命名幻觉、资源幻觉和逻辑幻觉，每种类型又进一步分为不同的子类别，以更好地理解和解决大语言模型在代码生成过程中面临的独特挑战。为了系统地评估代码幻觉，我们提出了一种代码幻觉的动态检测算法，并构建了 CodeHalu 基准，其中包括来自 699 个任务的 8,883 个样本，以主动检测大语言模型在编程过程中的幻觉现象。我们在此基准测试中测试了 16 位流行的大语言模型，以评估他们在代码生成过程中产生幻觉的频率和性质。研究结果揭示了大语言模型在生成代码的准确性和可靠性方面存在显着差异，凸显了迫切需要改进模型和训练方法，以确保自动生成代码的功能正确性和安全性。这项研究不仅对代码幻觉进行了分类和量化，还为基于 LLM 的代码生成研究的未来改进提供了见解。 CodeHalu 基准测试和代码可在 https://github.com/yuchen814/CodeHalu 上公开获取。

图解推理：基于LLM的半开放关系抽取

分类： 计算和语言, 人工智能, 机器学习

作者： Yicheng Tao, Yiqun Wang, Longju Bai

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2405.00216v1

摘要： 本文对利用高级语言模型，特别是思想链 (CoT) 和图形推理 (GRE) 技术的关系提取进行了全面的探索。我们演示了如何利用 GPT-3.5 的上下文学习来显着增强提取过程，特别是通过详细的基于示例的推理。此外，我们引入了一种新颖的图形推理方法，将关系提取分解为顺序子任务，提高处理复杂关系数据的精度和适应性。我们在多个数据集（包括手动注释的数据）上进行的实验显示了性能指标的显着改进，强调了我们方法的有效性。

评估真实世界恶意软件活动的恶意代码反混淆中的大语言模型

分类： 密码学和安全

作者： Constantinos Patsakis, Fran Casino, Nikolaos Lykousas

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19715v1

摘要： 大型语言模型 (LLM) 与各种流程的集成日益广泛，有效地实现了许多手动任务的自动化，并且常常超越了人类的能力。网络安全研究人员和从业者已经认识到这种潜力。因此，鉴于需要处理大量异构数据来识别异常、潜在绕过、攻击和欺诈事件，他们正在积极探索其应用程序。除此之外，大语言模型在生成功能代码、理解代码上下文和总结其操作方面的高级能力也可用于逆向工程和恶意软件反混淆。为此，我们深入研究了最先进的大语言模型的反混淆能力。除了仅仅讨论假设的场景之外，我们还使用臭名昭著的 Emotet 恶意软件活动中使用的真实恶意脚本来评估四个大语言模型。我们的结果表明，虽然还不是绝对准确，但一些大语言模型可以有效地反混淆此类有效负载。因此，针对此任务微调大语言模型可能成为未来人工智能驱动的威胁情报管道对抗混淆恶意软件的可行潜力。

Harmonic 大语言模型值得信赖

分类： 机器学习, 人工智能, 计算和语言, 人机交互

作者： Nicholas S. Kersting, Mohammad Rahman, Suchismitha Vedala, Yang Wang

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19708v1

摘要： 我们引入了一种直观的方法来实时测试任何黑盒 LLM 的鲁棒性（稳定性和可解释性），该方法基于与和谐性的局部偏差，表示为 $\gamma$。据我们所知，这是第一个完全与模型无关且无监督的方法，用于测量大语言模型任何给定响应的稳健性，基于模型本身符合纯数学标准。我们进行人工注释实验，以显示 $\gamma$ 与错误或误导性答案的正相关性，并证明在随机梯度上升中遵循 $\gamma$ 的梯度可以有效地暴露对抗性提示。在流行的 LLM（GPT-4、ChatGPT、Claude-2.1、Mixtral-8x7B、Smaug-72B、Llama2-7B 和 MPT-7B）中测量数千个查询中的 $\gamma$ 使我们能够估计错误或幻觉的可能性答案会自动定量地对这些模型在各个目标领域（Web QA、TruthfulQA 和编程 QA）中的可靠性进行排名。在所有测试的模型和领域中，人类评级确认 $\gamma \to 0$ 表示可信度，这些模型中低 $\gamma$ 的领导者是 GPT-4、ChatGPT 和 Smaug-72B。

何时检索：教授大语言模型有效利用信息检索

分类： 计算和语言, 信息检索

作者： Tiziano Labruna, Jon Ander Campos, Gorka Azkune

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19705v1

摘要： 在本文中，我们演示了大型语言模型 (LLM) 如何有效地学习使用现成的信息检索 (IR) 系统，特别是当需要额外的上下文来回答给定问题时。考虑到 IR 系统的性能，问答的最佳策略并不总是需要外部信息检索；相反，它通常涉及利用大语言模型本身的参数记忆。先前的研究已经在 PopQA 数据集中发现了这种现象，其中最流行的问题可以使用 LLM 的参数内存有效解决，而不太流行的问题则需要使用 IR 系统。在此之后，我们利用现有的开放域问答数据集，为大语言模型提出了一种量身定制的培训方法。在这里，大语言模型经过训练，在不知道问题答案时生成特殊标记。我们对 PopQA 数据集上的自适应检索 LLM (Adapt-LLM) 的评估展示了在三种配置下相对于相同 LLM 的改进：(i) 检索所有问题的信息，(ii) 始终使用 LLM 的参数内存，以及（ iii) 使用流行度阈值来决定何时使用检索器。通过我们的分析，我们证明 Adapt-LLM 在确定不知道如何回答问题时能够生成标记，表明需要 IR，而当它选择回答问题时，它可以达到非常高的准确度水平仅依靠其参数存储器。

转移问题：大语言模型后门攻击的跨语言可转移性与指令调整

分类： 计算和语言, 密码学和安全

作者： Xuanli He, Jun Wang, Qiongkai Xu, Pasquale Minervini, Pontus Stenetorp, Benjamin I. P. Rubinstein, Trevor Cohn

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19597v1

摘要： 后门攻击对以英语为中心的大语言模型 (LLM) 的影响已被广泛研究——此类攻击可以通过在训练期间嵌入恶意行为并在触发恶意输出的特定条件下激活来实现。然而，后门攻击对多语言模型的影响仍未得到充分研究。我们的研究重点是针对多语言大语言模型的跨语言后门攻击，特别是调查一两种语言的指令调优数据中毒如何影响指令调优数据未中毒的语言的输出。尽管很简单，但我们的实证分析表明，我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中表现出显着的功效，攻击成功率很高，在多种语言和各种场景下，攻击成功率超过 95%。令人担忧的是，我们的研究结果还表明，较大的模型对可转移的跨语言后门攻击的敏感性增加，这也适用于主要使用英语数据进行预训练的大语言模型，例如 Llama2、Llama3 和 Gemma。此外，我们的实验表明，即使在释义后，触发器仍然可以工作，并且后门机制在25种语言的跨语言响应设置中证明非常有效，平均攻击成功率达到50%。我们的研究旨在强调当前多语言大语言模型中存在的漏洞和重大安全风险，强调迫切需要有针对性的安全措施。

RepEval：利用大语言模型表示进行有效的文本评估

分类： 计算和语言

作者： Shuqian Sheng, Yi Xu, Tianhang Zhang, Zanwei Shen, Luoyi Fu, Jiaxin Ding, Lei Zhou, Xinbing Wang, Chenghu Zhou

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19563v1

摘要： 生成文本的自动评估指标在 NLG 领域发挥着重要作用，尤其是随着大语言模型的快速增长。然而，现有的指标往往仅限于特定场景，这使得满足扩展的LLM申请的评估要求具有挑战性。因此，需要新的、灵活的、有效的指标。在本研究中，我们引入了 RepEval，这是第一个利用 LLM 表示投影进行评估的指标。 RepEval 需要最少的样本对进行训练，通过简单的提示修改，可以轻松过渡到各种任务。三项任务的 10 个数据集的结果证明了我们的方法的高效性，与之前的指标相比，该方法与人类判断的相关性更强，甚至优于 GPT-4。我们的工作强调了大语言模型表示中嵌入的有关文本质量的丰富信息，为新指标的开发提供了见解。

通过演示引导的强化学习来应对大语言模型的奖励过度优化

分类： 计算和语言

作者： Mathieu Rita, Florian Strub, Rahma Chaabouni, Paul Michel, Emmanuel Dupoux, Olivier Pietquin

发布时间： 2024-04-30

链接： http://arxiv.org/abs/2404.19409v1

摘要： 虽然强化学习 (RL) 已被证明对于调整大型语言模型 (LLM) 至关重要，但它可能导致奖励过度优化 (ROO)。现有方法通过添加 KL 正则化来解决 ROO，这需要计算成本高昂的超参数调整。此外，KL 正则化仅关注正则化语言策略，忽略了正则化的潜在来源：奖励函数本身。受演示引导强化学习的启发，我们在这里引入了演示奖励校准（RCfD），它利用人类演示和奖励模型来重新校准奖励目标。形式上，在给定提示的情况下，RCfD 目标最小化演示和 LLM 奖励之间的距离，而不是直接最大化奖励函数。这种目标转变避免了激励大语言模型利用奖励模型，并促进更自然和多样化的语言生成。我们展示了 RCfD 在三种语言任务上的有效性，它在降低 ROO 的同时实现了与仔细调整的基线相当的性能。

何时信任大语言模型：将信心与回复质量结合起来

分类： 计算和语言

作者： Shuchang Tao, Liuyi Yao, Hanxing Ding, Yuexiang Xie, Qi Cao, Fei Sun, Jinyang Gao, Huawei Shen, Bolin Ding

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17287v1

摘要： 尽管大型语言模型 (LLM) 在自然语言生成方面取得了成功，但许多证据表明 LLM 可能会生成不正确或无意义的文本。这一限制凸显了辨别何时信任大语言模型的重要性，尤其是在安全关键领域。现有的方法依靠言语表达信心，通过诱导 top-k 响应和采样聚合多个响应来判断可靠性，但由于缺乏客观的信心指导，常常会失败。为了解决这个问题，我们提出了 CONfidence-Quality-ORDerpreserving 对齐方法（CONQORD），利用强化学习和定制的双成分奖励函数。该功能包括质量奖励和保序对齐奖励功能。具体来说，保留顺序的奖励会激励模型对更高质量的响应表达更大的信心，以调整信心和质量的顺序。实验表明，我们的 CONQORD 显着提高了置信水平和响应准确性之间的对齐性能，而不会导致模型变得过于谨慎。此外，CONQORD 提供的一致置信度告知何时信任 LLM，并充当启动外部知识检索过程的决定因素。将信心与响应质量相结合可确保响应更加透明和可靠，从而提供更好的可信度。

利用黑盒大语言模型的细粒度反馈进行事实核查新闻声明的强化检索

分类： 计算和语言

作者： Xuan Zhang, Wei Gao

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17283v1

摘要： 检索增强语言模型在自然语言处理（NLP）的各个领域（包括事实关键任务）都表现出了良好的性能。然而，由于高级大语言模型（LLM）的黑盒性质以及特定任务的非检索导向的监督信号，检索模型的训练在黑盒LLM的背景下面临着重大挑战。我们提出了一种利用细粒度反馈与强化检索（FFRR）的方法，通过使用黑盒大语言模型来增强对新闻声明的事实核查。 FFRR 采用两级策略从 LLM 收集细粒度的反馈，通过根据任务的非检索基本事实对检索到的文档进行评级，作为优化检索策略的奖励。我们在两个公共数据集上评估我们的模型，以验证真实世界的新闻主张，结果表明 FFRR 比支持 LLM 和非 LLM 的强大基线取得了显着改进。

通过系统 1 和系统 2 认知过程减少大语言模型社会偏见的提示技巧

分类： 计算和语言

作者： Mahammed Kamruzzaman, Gene Louis Kim

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17218v1

摘要： 双过程理论认为人类认知是通过两个系统产生的。系统1是一个快速、情绪化和直觉的过程，容易受到认知偏差的影响；系统2是一个缓慢、繁重和深思熟虑的过程。 NLP 研究人员经常将大语言模型中的零样本提示与系统 1 推理进行比较，将思维链 (CoT) 提示与系统 2 进行比较。根据这种解释，先前的研究发现，在大语言模型中使用 CoT 提示可以减少性别偏见。我们直接研究大语言模型中的偏见、CoT 提示和双重过程理论之间的关系。我们在跨越九个不同社会偏见类别的两个偏见数据集上比较了零样本、CoT 和各种基于双过程理论的提示策略。我们还使用人类和机器角色来确定大语言模型中双过程理论的效果是基于人类认知建模还是系统固有的。我们发现，人类角色、系统 2 和 CoT 提示都倾向于减少 LLM 中的社会偏见，尽管功能的最佳组合取决于确切的模型和偏见类别 - 导致刻板判断下降高达 13%大语言模型。

LLM 支持的应用程序中人类无法察觉的检索中毒攻击

分类： 密码学和安全, 人工智能

作者： Quan Zhang, Binqi Zeng, Chijin Zhou, Gwihwan Go, Heyuan Shi, Yu Jiang

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17196v1

摘要： 目前，在先进的大语言模型应用程序开发框架的帮助下，越来越多的大语言模型应用程序可以使用检索增强生成（RAG）技术轻松地通过外部内容来增强大语言模型的知识。然而，这些框架的设计没有充分考虑外部内容的风险，从而使攻击者能够破坏使用这些框架开发的应用程序。在本文中，我们揭示了 LLM 支持的应用程序面临的新威胁，称为检索中毒，攻击者可以引导应用程序在 RAG 过程中产生恶意响应。具体来说，通过对 LLM 应用程序框架的分析，攻击者可以制作在视觉上与良性文档无法区分的文档。尽管文档提供了正确的信息，但一旦将它们用作 RAG 的参考源，应用程序就会被误导，生成错误的响应。我们的初步实验表明，攻击者可以以 88.33% 的成功率误导 LLM，并在实际应用中达到 66.67% 的成功率，这证明了检索中毒的潜在影响。

基于 LLM 的多代理协同的统一调试方法

分类： 软件工程

作者： Cheryl Lee, Chunqiu Steven Xia, Jen-tse Huang, Zhouruixin Zhu, Lingming Zhang, Michael R. Lyu

发布时间： 2024-04-26

链接： http://arxiv.org/abs/2404.17153v1

摘要： 人们在软件调试自动化方面付出了巨大的努力，这是一个涉及故障定位和修复生成的耗时过程。最近，大型语言模型（LLM）在自动化调试方面显示出了巨大的潜力。然而，我们发现传统和基于LLM的调试工具面临三个挑战：1）上游故障定位的不完善影响下游修复，2）处理复杂逻辑错误的缺陷，3）对程序上下文的无知。在此背景下，我们通过LLM代理协同提出了第一个自动化、统一的调试框架FixAgent。 FixAgent可以执行端到端的Bug定位、修复和分析。我们的见解是，大语言模型可以受益于人类开发人员在调试中认可的通用软件工程原理，例如橡皮鸭调试，从而能够更好地理解程序功能和逻辑错误。因此，我们创造了三种受橡皮鸭启发的设计来应对这些挑战。它们是代理专业化和协同、关键变量跟踪和程序上下文理解，这些要求大语言模型提供明确的解释并迫使他们关注关键的程序逻辑信息。在广泛使用的数据集 QuixBugs 上进行的实验表明，FixAgent 正确修复了 80 个错误中的 79 个，其中 9 个从未被修复。即使在没有错误位置信息且采样时间低于 0.6% 的情况下，它修复的缺陷数量也比 CodeFlaws 上性能最佳的修复工具多 1.9 倍。平均而言，与使用不同 LLM 的基本模型相比，FixAgent 增加了约 20% 的合理和正确修复，这显示了我们设计的有效性。此外，FixAgent的正确率达到了97.26%，这表明FixAgent可以潜在地克服现有方法的过度拟合问题。

LLM 驱动的游戏叙事中玩家驱动的出现

分类： 计算和语言, 人工智能

作者： Xiangyu Peng, Jessica Quaye, Weijia Xu, Chris Brockett, Bill Dolan, Nebojsa Jojic, Gabriel DesGarennes, Ken Lobb, Michael Xu, Jorge Leandro, Claire Jin, Sudha Rao

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.17027v1

摘要： 我们探索与大型语言模型 (LLM) 的交互如何引发突发行为，使玩家能够参与游戏叙事的演变。我们的测试平台是一款文本冒险游戏，玩家试图在固定的叙事前提下解开谜团，但可以与大型语言模型 GPT-4 生成的非玩家角色自由互动。我们招募 28 名玩家来玩游戏，并使用 GPT-4 自动将游戏日志转换为代表玩家游戏中的叙述的节点图。我们发现，通过与大语言模型的非确定性行为的互动，玩家能够发现有趣的新出现的节点，这些节点不是原始叙述的一部分，但有可能变得有趣和吸引人。创建最新兴节点的玩家往往是那些经常喜欢促进发现、探索和实验的游戏的玩家。

对话长度如何影响用户满意度？与 LLM 支持的聊天机器人进行长度控制对话的案例研究

分类： 人机交互

作者： Shih-Hong Huang, Ya-Fang Lin, Zeyu He, Chieh-Yang Huang, Ting-Hao 'Kenneth' Huang

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.17025v1

摘要： 用户可以使用大型语言模型 (LLM) 讨论广泛的主题，但他们并不总是喜欢通过冗长的对话来解决问题或获取信息。这就提出了一个有趣的人机交互问题：指导大语言模型进行更长或更短的对话如何影响对话质量？在本文中，我们使用 GPT-4 开发了两个 Slack 聊天机器人，能够改变对话长度，并进行了用户研究。参与者向聊天机器人提出了一些高难度和不太容易交谈的问题，并进行了 0、3、5 和 7 轮对话。我们发现，不同条件下的对话质量并没有太大差异，但参与者的反应却各不相同。我们的研究证明了大语言模型改变对话长度的能力以及这种改变给用户带来的潜在好处，但我们警告说，文本形式的改变可能并不一定意味着质量或内容的改变。

检查大语言模型评估对基准分布假设的稳健性

分类： 计算和语言

作者： Melissa Ailem, Katerina Marazopoulou, Charlotte Siska, James Bono

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16966v1

摘要： 基准已成为评估大型语言模型 (LLM) 的核心方法。研究社区通常依赖模型在基准测试提示下的平均性能来评估模型的性能。这与基准测试中的测试提示代表来自真实世界感兴趣分布的随机样本的假设是一致的。我们注意到，通常情况并非如此；相反，我们认为兴趣的分配根据具体用例而变化。我们发现（1）测试提示之间模型性能的相关性是非随机的，（2）考虑测试提示之间的相关性可以改变主要基准上的模型排名，（3）这些相关性的解释因素包括语义相似性和常见的 LLM故障点。

IndicGenBench：评估印度语大语言模型生成能力的多语言基准

分类： 计算和语言

作者： Harman Singh, Nitish Gupta, Shikhar Bharadwaj, Dinesh Tewari, Partha Talukdar

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16816v1

摘要： 随着大型语言模型 (LLM) 在全球范围内的采用不断增加，LLM 必须能够代表世界的语言多样性。印度是一个拥有 14 亿人口的语言多元化国家。为了促进多语言 LLM 评估的研究，我们发布了 IndicGenBench - 这是评估 LLM 在面向用户的生成任务上的最大基准，涵盖 29 种不同的印度语言，涵盖 13 种文字和 4 个语系。 IndicGenBench由跨语言摘要、机器翻译、跨语言问答等多种生成任务组成。 IndicGenBench 通过人工管理将现有基准扩展到许多印度语言，首次为许多代表性不足的印度语言提供多路并行评估数据。我们在 IndicGenBench 上的各种设置中评估各种专有和开源 LLM，包括 GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM 和 LLaMA。最大的 PaLM-2 模型在大多数任务上表现最好，然而，与英语相比，所有语言都存在显着的性能差距，这表明需要进一步研究来开发更具包容性的多语言语言模型。 IndicGenBench 发布于 www.github.com/google-research-datasets/indic-gen-bench

让你的大语言模型充分利用环境

分类： 计算和语言, 人工智能

作者： Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16811v1

摘要： 尽管许多当代大型语言模型（LLM）可以处理冗长的输入，但它们仍然难以充分利用长上下文中的信息，这被称为“迷失在中间的挑战”。我们假设这是由于在长上下文训练过程中缺乏明确的监督，没有强调长上下文中的任何位置都可以保存关键信息。基于这种直觉，我们的研究提出了信息密集型（IN2）训练，这是一种纯粹的数据驱动解决方案，可以克服中间迷失的问题。具体来说，IN2 训练利用合成的长上下文问答数据集，其中答案需要 (1) 对合成的长上下文（4K-32K 标记）内的短片段（~128 个标记）进行细粒度的信息感知，并且（ 2）对两个或多个短片段的信息进行整合和推理。通过在 Mistral-7B 上应用这种信息密集型训练，我们提出了 FILM-7B（FILl-in-the-Middle）。为了彻底评估 FILM-7B 利用长上下文的能力，我们设计了三个探测任务，涵盖各种上下文样式（文档、代码和结构化数据上下文）和信息检索模式（前向、后向和双向检索）。探测结果表明 FILM-7B 可以从其 32K 上下文窗口中的不同位置稳健地检索信息。除了这些探测任务之外，FILM-7B 还显着提高了现实世界长上下文任务的性能（例如，NarrativeQA 上的 F1 分数为 23.5->26.9），同时在短上下文任务上保持了可比较的性能（例如，59.3->59.2） MMLU 的准确性）。 Github 链接：https://github.com/microsoft/FILM。

合作还是崩溃：大语言模型代理人社会中可持续行为的出现

分类： 计算和语言

作者： Giorgio Piatti, Zhijing Jin, Max Kleiman-Weiner, Bernhard Schölkopf, Mrinmaya Sachan, Rada Mihalcea

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16698v1

摘要： 在快速发展的人工智能领域，确保大型语言模型 (LLM) 的安全决策是一项重大挑战。本文介绍了公共治理模拟（GovSim），这是一个旨在研究大语言模型中的战略互动和合作决策的模拟平台。通过这个模拟环境，我们探索人工智能代理之间资源共享的动态，强调道德考虑、战略规划和谈判技巧的重要性。 GovSim 用途广泛，支持任何基于文本的代理，包括大语言模型代理。使用生成代理框架，我们创建了一个标准代理，以促进不同大语言模型的集成。我们的研究结果表明，在 GovSim 中，15 个接受测试的大语言模型中只有两个能够实现可持续的结果，这表明模型管理共享资源的能力存在显着差距。此外，我们发现，通过消除代理的通信能力，他们过度使用共享资源，凸显了通信对于合作的重要性。有趣的是，大多数大语言模型缺乏提出普遍假设的能力，这凸显了他们推理能力的重大弱点。我们开源了全套研究成果，包括模拟环境、代理提示和综合网络界面。

大级别语言模型中的歧义分析（大语言模型）

分类： 计算和语言, 人工智能

作者： Lavínia de Carvalho Moraes, Irene Cristina Silvério, Rafael Alexandre Sousa Marques, Bianca de Castro Anaia, Dandara Freitas de Paula, Maria Carolina Schincariol de Faria, Iury Cleveston, Alana de Santana Correia, Raquel Meister Ko Freitag

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16653v1

摘要： 尽管 Transformers 和 BERT 等架构取得了进步，但语言歧义仍然是自然语言处理 (NLP) 系统面临的重大挑战。受到 ChatGPT 和 Gemini（2023 年，人工智能被称为 Bard）等教学模型最近成功的启发，本研究旨在分析和讨论这些模型中的语言歧义，重点关注巴西葡萄牙语中普遍存在的三种类型：语义、句法和词汇歧义。我们创建了一个包含 120 个句子的语料库，包括歧义和明确的句子，用于分类、解释和消歧。还通过为每种类型的歧义征求句子集来探索模型生成歧义句子的能力。结果经过了定性分析，借鉴了公认的语言参考，并根据所获得的回答的准确性进行了定量评估。事实证明，即使是最复杂的模型，例如 ChatGPT 和 Gemini，其响应也会出现错误和缺陷，并且提供的解释往往不一致。此外，准确率达到峰值 49.58%，表明监督学习需要描述性研究。

通过大语言模型潜在空间增强语境分类

分类： 计算和语言, 人工智能

作者： Zineddine Bettouche, Anas Safi, Andreas Fischer

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16442v1

摘要： 管理大型文本数据集（例如维基百科）中分类的语义质量在复杂性和成本方面提出了重大挑战。在本文中，我们建议利用 Transformer 模型将维基百科数据集中的文本及其相关类别的语义信息提取到潜在空间中。然后，我们基于这些编码探索不同的方法来评估和增强类别的语义同一性。我们的图形方法由凸包提供支持，而我们利用分层可导航小世界（HNSW）作为分层方法。作为降维引起的信息损失的解决方案，我们调整了以下数学解决方案：由文本类别的高维编码之间的欧几里德距离驱动的指数衰减函数。此函数表示围绕上下文类别构建的过滤器，并检索具有特定重新考虑概率 (RP) 的项目。检索高 RP 项目是数据库管理员通过提供建议和识别上下文框架内的异常值来改进数据分组的工具。

逐一列出项目：多模式大语言模型的新数据源和学习范式

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16375v1

摘要： 标记集 (SoM) 提示通过使模型能够将视觉对象与图像上插入的标签相关联，释放 GPT-4V 的视觉基础功能。这些用字母数字标记的标签可以通过文本标记进行索引以方便参考。尽管 GPT-4V 具有非凡的性能，但我们观察到其他多模态大型语言模型 (MLLM) 很难理解这些视觉标签。为了促进开源模型的 SoM 学习，我们提出了一种新的学习范式：“逐一列出项目”，它要求模型按照标签的字母数字顺序枚举和描述放置在图像上的所有视觉标签。通过将我们策划的数据集与其他视觉指令调整数据集集成，我们能够为现有的 MLLM 配备 SoM 提示能力。此外，我们还在五个 MLLM 基准上评估了经过微调的 SoM 模型。我们发现这个新的数据集，即使是相对较小的数据集（带有标签的 10k-30k 图像），也能显着增强视觉推理能力并减少 MLLM 的幻觉。也许令人惊讶的是，即使在推理过程中从输入图像中省略视觉标签，这些改进仍然存在。这表明“逐一列出项目”作为训练 MLLM 的新范例的潜力，它通过在训练阶段使用视觉标签来加强对象-文本对齐。最后，我们通过探索训练好的模型进行分析，以了解 SoM 的工作机制。我们的代码和数据可在 \url{https://github.com/zzxslp/SoM-LLaVA} 获取。

不要说不：通过抑制拒绝来越狱大语言模型

分类： 计算和语言

作者： Yukai Zhou, Wenjie Wang

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16369v1

摘要： 确保大型语言模型 (LLM) 的安全一致性对于生成符合人类价值观的响应至关重要。尽管大语言模型有能力识别和避免有害查询，但他们很容易受到“越狱”攻击，精心设计的提示会诱使他们产生有毒内容。一类越狱攻击是通过引发 LLM 生成肯定响应来将任务重新表述为对抗性攻击。然而，此类GCG中的典型攻击的攻击成功率非常有限。在本研究中，为了更好地研究越狱攻击，我们引入了DSN（不要说不）攻击，它促使LLM不仅产生肯定的响应，而且新颖地增强了抑制拒绝的目标。此外，越狱攻击的另一个挑战是评估，因为很难直接准确地评估攻击的危害性。现有的评估（例如拒绝关键字匹配）有其自身的局限性，因为它揭示了大量的误报和漏报实例。为了克服这一挑战，我们提出了一个集成评估流程，其中包含自然语言推理（NLI）矛盾评估和两个外部大语言模型评估器。大量实验证明了 DSN 的效力以及与基线方法相比的集成评估的有效性。

当模糊测试遇到大语言模型：挑战与机遇

分类： 软件工程, 人工智能

作者： Yu Jiang, Jie Liang, Fuchen Ma, Yuanliang Chen, Chijin Zhou, Yuheng Shen, Zhiyong Wu, Jingzhou Fu, Mingzhe Wang, ShanShan Li, Quan Zhang

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16297v1

摘要： 模糊测试是一种广泛使用的错误检测技术，通过大型语言模型 (LLM) 取得了进步。尽管大语言模型具有潜力，但它们在模糊测试方面面临着特定的挑战。在本文中，我们确定了 LLM 辅助模糊测试的五个主要挑战。为了支持我们的发现，我们重新审视了顶级会议的最新论文，确认这些挑战是普遍存在的。作为补救措施，我们提出了一些可行的建议，以帮助改进大语言模型在模糊测试中的应用，并对 DBMS 模糊测试进行初步评估。结果表明，我们的建议有效地解决了已确定的挑战。

基于 LLM 的部分标识符在开源方面表现出色，但在实际应用中却表现不佳

分类： 计算和语言, 人工智能

作者： Saranya Krishnamoorthy, Ayush Singh, Shabnam Tafreshi

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16294v1

摘要： 电子健康记录 (EHR) 尽管对医疗保健从业者来说是一个福音，但每天都变得越来越复杂、越来越长。筛选这些冗长的电子病历非常费力，并且成为医患互动中的一个麻烦部分。人们提出了几种方法来通过总结或分段来帮助缓解这一普遍问题，但是，过去只有少数方法真正有用。随着自动化方法的兴起，机器学习 (ML) 在解决识别 EHR 中相关部分的任务方面显示出了希望。然而，大多数机器学习方法都依赖于标记数据，而这在医疗保健领域很难获得。另一方面，大型语言模型（LLM）在自然语言处理（NLP）方面也取得了令人印象深刻的成就，而且也是以零样本的方式，即没有任何标记数据。为此，我们建议使用大语言模型来识别相关的章节标题。我们发现 GPT-4 可以有效地解决零样本和少样本设置下的任务，并且分割效果比最先进的方法要好得多。此外，我们还注释了一个更难的现实世界数据集，发现 GPT-4 很难表现良好，这暗示着进一步的研究和更难的基准测试。

Andes：定义和增强基于大语言模型的文本流服务的体验质量

分类： 分布式、并行和集群计算, 机器学习

作者： Jiachen Liu, Zhiyu Wu, Jae-Won Chung, Fan Lai, Myungjin Lee, Mosharaf Chowdhury

发布时间： 2024-04-25

链接： http://arxiv.org/abs/2404.16283v1

摘要： 大语言模型 (LLM) 的出现改变了基于文本的服务，实现了从实时翻译到人工智能驱动的聊天机器人等各种功能。然而，现有的服务系统主要侧重于优化服务器端聚合指标，例如令牌生成吞吐量，而忽略了流文本的个人用户体验。因此，在高负载和/或突发负载下，大量用户可能会收到不利的服务质量或较差的体验质量（QoE）。在本文中，我们首先正式定义文本流服务的 QoE，通过考虑与用户的整个交互过程中的端到端令牌传递过程，文本以增量方式交互式地传递给用户。此后，我们提出了 Andes，一个 QoE 感知服务系统，可增强支持 LLM 的文本流服务的用户体验。晶心科技的核心是，随着时间的推移，战略性地在多个请求之间分配竞争的 GPU 资源，以优化其 QoE。我们的评估表明，与vLLM等最先进的LLM服务系统相比，Andes在高请求率下将平均QoE提高了3.2$\times$，或者达到了1.6$\times $ 更高的请求率，同时保持高 QoE。

通过学习用户编辑的潜在偏好来调整 LLM 代理

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Ge Gao, Alexey Taymanov, Eduardo Salinas, Paul Mineiro, Dipendra Misra

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15269v1

摘要： 我们根据用户对代理输出的编辑来研究语言代理的交互式学习。在诸如写作助理之类的典型设置中，用户与语言代理交互以在给定上下文的情况下生成响应，并且除了提高正确性之外，还可以选择编辑代理响应以根据他们的潜在偏好对其进行个性化。编辑反馈是自然生成的，使其成为提高代理与用户偏好的一致性以及随着时间的推移降低用户编辑成本的合适候选者。我们提出了一个学习框架 PRELUDE，它根据历史编辑数据推断用户潜在偏好的描述，并使用它来定义驱动未来响应生成的提示策略。这避免了对代理进行微调，这种微调成本高昂，难以随着用户数量的增长而扩展，甚至可能会降低其在其他任务上的性能。此外，学习描述性偏好可以提高可解释性，允许用户查看和修改学习到的偏好。然而，用户偏好可能很复杂，并且会根据上下文而变化，这使得学习变得困难。为了解决这个问题，我们提出了一种名为 CIPHER 的简单而有效的算法，该算法利用大型语言模型 (LLM) 根据用户编辑来推断用户对给定上下文的偏好。未来，CIPHER 从历史上 k 个最接近的上下文中检索推断的偏好，并形成响应生成的聚合偏好。我们引入了两种交互式环境——摘要和电子邮件写作，以使用 GPT-4 模拟用户进行评估。我们与直接检索用户编辑但不学习描述性偏好的算法以及学习上下文无关偏好的算法进行比较。在这两项任务中，CIPHER 实现了最低的编辑距离成本，并学习与地面真实偏好显示出显着相似性的偏好

嘈杂通道的力量：与大语言模型进行无监督的端到端任务导向对话

分类： 计算和语言

作者： Brendan King, Jeffrey Flanigan

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15219v1

摘要： 训练面向任务的对话系统通常需要回合级注释才能与其 API 交互：例如对话状态以及每一步采取的系统操作。这些注释的生成成本高昂、容易出错，并且需要领域和注释专业知识。随着大语言模型的进步，我们假设未标记的数据和模式定义足以构建一个完全无人监督的、面向任务的对话系统。仅使用 (1) 定义良好的 API 模式 (2) 用户和代理之间的一组未标记对话，我们开发了一种使用噪声通道模型将回合级注释推断为潜在变量的新颖方法。我们通过期望最大化（EM）迭代地改进这些伪标签，并使用推断的标签来训练端到端对话代理。在 MultiWOZ 基准上评估我们的方法，我们的方法使强大的 GPT-3.5 基准的对话成功率提高了一倍以上。

指令调整是否会使大语言模型更加一致？

分类： 计算和语言

作者： Constanza Fierro, Jiaang Li, Anders Søgaard

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15206v1

摘要： 指令调优的目的是实现零样本性能，但指令调优也被证明可以改善思想链推理和值对齐（Si 等人，2023）。这里我们考虑对 $\textit{consistency}$ 的影响，即语言模型对输入中的小扰动的敏感性。我们将 10 个指令调整的 LLaMA 模型与原始 LLaMA-7b 模型进行了比较，结果表明，它们几乎全面变得更加一致，无论是在零样本和下游任务中的表示和预测方面。我们通过事实回忆的机械分析来解释这些改进。

大语言模型应用于临床决策支持的偏差模式：一项综合研究

分类： 计算和语言, 机器学习

作者： Raphael Poulain, Hamed Fayyaz, Rahmatollah Beheshti

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15149v1

摘要： 大型语言模型 (LLM) 已成为为临床决策过程提供信息的强大候选者。虽然这些模型在塑造数字景观方面发挥着越来越重要的作用，但医疗保健应用中出现了两个日益突出的问题：1）大语言模型在多大程度上表现出基于患者受保护属性（如种族）的社会偏见，以及 2）设计选择如何（如架构设计和提示策略）会影响观察到的偏差吗？为了严格回答这些问题，我们使用偏倚评估标准化的临床小插图（患者描述）在三个问答（QA）数据集中评估了八个流行的大语言模型。我们采用红队策略来分析人口统计如何影响大语言模型输出，比较通用模型和临床训练模型。我们广泛的实验揭示了受保护群体之间的各种差异（有些是显着的）。我们还观察到一些反直觉的模式，例如较大的模型不一定偏差较小，针对医疗数据的微调模型不一定比通用模型更好。此外，我们的研究证明了提示设计对偏见模式的影响，并表明特定的措辞可以影响偏见模式，而反思型方法（如思想链）可以有效减少偏见结果。与之前的研究一致，我们呼吁对临床决策支持应用中使用的大语言模型进行额外的评估、审查和增强。

从对抗性压缩的角度重新思考大语言模型记忆

分类： 机器学习, 计算和语言

作者： Avi Schwarzschild, Zhili Feng, Pratyush Maini, Zachary C. Lipton, J. Zico Kolter

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.15146v1

摘要： 在网络规模数据集上训练的大型语言模型 (LLM) 引起了人们对允许的数据使用的严重担忧。一个主要问题是，这些模型是否“记住”所有训练数据，或者以某种更类似于人类学习和合成信息的方式集成许多数据源。答案在很大程度上取决于$\textit{我们如何定义记忆}$。在这项工作中，我们提出对抗性压缩比（ACR）作为评估大语言模型记忆力的指标——训练数据中的给定字符串如果可以通过比字符串本身短的提示引出，则被认为已被记住。换句话说，这些字符串可以通过计算更少标记的对抗性提示来用模型“压缩”。我们概述了现有记忆概念的局限性，并展示了 ACR 如何通过以下方式克服这些挑战：（i）为测量记忆提供对抗性观点，特别是监测遗忘和依从性； (ii) 允许以相当低的计算量灵活地测量任意字符串的记忆。我们的定义是一个有价值且实用的工具，用于确定模型所有者何时可能违反数据使用条款，并提供潜在的法律工具和关键的视角来解决此类情况。项目页面：https://locuslab.github.io/acr-memorization。

在 GSM8K 上实现 >97%：深刻理解问题使大语言模型成为完美的推理者

分类： 计算和语言, 人工智能

作者： Qihuang Zhong, Kang Wang, Ziyang Xu, Juhua Liu, Liang Ding, Bo Du, Dacheng Tao

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.14963v1

摘要： 思想链提示策略提高了大型语言模型 (LLM) 在各种 NLP 任务中的性能。然而，它在处理复杂推理任务时仍然存在缺陷，如下~\citet{cot_wei}，包括理解错误、计算错误和过程错误（例如缺步和幻觉）。随后，我们对各种错误类型的深入分析发现，深入理解整个问题对于解决复杂的推理任务至关重要。在本文中，我们提出了一种新颖的提示策略，称为深度理解问题（DUP）提示，其灵感来自于人类如何解决复杂的推理问题，旨在增强大语言模型对问题的全面理解。它包括三个阶段：1）提取核心问题； 2）根据核心问题找出解题信息； 3) 由大语言模型生成并提取答案。我们评估了 DUP 提示在十个不同推理数据集上的性能。实验结果表明，在所有数据集上，DUP 提示的性能显着优于零样本 CoT ~\cite{kojima2022large}。值得注意的是，DUP 在 SVAMP（90.4% 到 94.2%）和 GSM8K（94.6% 到 97.1%）上实现了最先进的技术。}

大型语言模型（LLM）时代的图机器学习

分类： 机器学习, 人工智能, 计算和语言, 社交和信息网络

作者： Wenqi Fan, Shijie Wang, Jiani Huang, Zhikai Chen, Yu Song, Wenzhuo Tang, Haitao Mao, Hui Liu, Xiaorui Liu, Dawei Yin, Qing Li

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.14928v1

摘要： 图在表示社交网络、知识图和分子发现等各个领域的复杂关系方面发挥着重要作用。随着深度学习的出现，图神经网络（GNN）已成为图机器学习（Graph ML）的基石，促进了图结构的表示和处理。最近，大语言模型在语言任务中表现出了前所未有的能力，并被广泛应用于计算机视觉和推荐系统等各种应用中。这一非凡的成功也引起了人们对将大语言模型应用于图领域的兴趣。人们越来越努力地探索大语言模型在提高 Graph ML 的泛化性、可迁移性和小样本学习能力方面的潜力。同时，图，尤其是知识图，富含可靠的事实知识，可以用来增强LLM的推理能力，并有可能缓解其幻觉和缺乏可解释性等局限性。鉴于这一研究方向的快速进展，有必要对大语言模型时代图机器学习的最新进展进行系统回顾，以便为研究人员和从业者提供深入的理解。因此，在本次调查中，我们首先回顾一下 Graph ML 的最新发展。然后，我们探讨如何利用大语言模型来提高图特征的质量，减轻对标记数据的依赖，并解决图异质性和分布外（OOD）泛化等挑战。之后，我们深入研究图如何增强 LLM，强调它们增强 LLM 预训练和推理的能力。此外，我们研究了各种应用并讨论了这个有前途的领域的潜在未来方向。

探索敏捷中的人机协作：定制的 LLM 会议助理

分类： 软件工程, 人工智能, 人机交互

作者： Beatriz Cabrero-Daniel, Tomas Herda, Victoria Pichler, Martin Eder

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.14871v1

摘要： 这项行动研究的重点是“人工智能助手”在两个敏捷软件开发会议中的集成：每日 Scrum 和功能细化，以及作为内部规模化敏捷框架一部分的规划会议。我们讨论成功的关键驱动因素，并在人工智能的使用和团队协作动态之间建立联系。最后，我们列出了在工业背景下进行干预期间吸取的经验教训，并为公司和团队提供了评估清单，以反映他们的准备水平。因此，本文是促进人工智能工具在敏捷设置中集成的路线图。

大语言模型-从干预数据中增强时域因果发现

分类： 人工智能, 机器学习, 方法

作者： Peiwen Li, Xin Wang, Zeyang Zhang, Yuan Meng, Fang Shen, Yue Li, Jialong Wang, Yang Li, Wenweu Zhu

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.14786v1

摘要： 在信息技术运营人工智能领域，因果发现对于图构建的运维至关重要，有助于根本原因分析等下游工业任务。时间因果发现作为一种新兴方法，旨在利用干预数据直接从观察中识别变量之间的时间因果关系。然而，现有方法主要关注合成数据集，严重依赖干预目标，忽略了现实世界系统中隐藏的文本信息，未能对真实工业场景进行因果发现。为了解决这个问题，在本文中，我们建议研究工业场景中的时间因果发现，这面临着两个关键挑战：1）如何在没有实践中获得成本高昂的干预目标的情况下发现因果关系，2）如何发现因果关系通过利用系统中的文本信息来建立因果关系，这些系统在工业环境中可能复杂但丰富。为了应对这些挑战，我们提出了 RealTCD 框架，该框架能够利用领域知识来发现时间因果关系，而无需干预目标。具体来说，我们首先开发一种基于评分的时间因果发现方法，能够通过策略屏蔽和正则化发现因果关系以进行根本原因分析，而无需依赖干预目标。此外，通过采用大型语言模型（LLM）来处理文本并集成领域知识，我们引入了LLM引导的元初始化，从系统中隐藏的文本信息中提取元知识，以提高发现的质量。我们对模拟和现实数据集进行了广泛的实验，以证明我们提出的 RealTCD 框架在发现时间因果结构方面相对于现有基线的优越性。

Med42——评估医学大语言模型的微调策略：全参数与参数有效的方法

分类： 计算和语言

作者： Clément Christophe, Praveen K Kanithi, Prateek Munjal, Tathagata Raha, Nasir Hayat, Ronnie Rajan, Ahmed Al-Mahrooqi, Avani Gupta, Muhammad Umar Salman, Gurpreet Gosal, Bhargav Kanakiya, Charles Chen, Natalia Vassilieva, Boulbaba Ben Amor, Marco AF Pimentel, Shadab Khan

发布时间： 2024-04-23

链接： http://arxiv.org/abs/2404.14779v1

摘要： 本研究在医学大语言模型 (LLM) 的背景下，对两种主要的微调方法（全参数微调和参数高效调整）进行了全面分析和比较。我们基于 Llama-2 架构开发和完善了一系列 LLM，专门用于增强医学知识检索、推理和问答能力。我们的实验系统地评估了这些调整策略在各种众所周知的医学基准上的有效性。值得注意的是，我们的医学大语言模型 Med42 在美国医学执照考试 (USMLE) 数据集上的准确率达到 72%，为公开的医学大语言模型树立了新的绩效标准。通过这种比较分析，我们的目标是找到在医学领域微调大语言模型的最有效和最高效的方法，从而为人工智能驱动的医疗保健应用的进步做出重大贡献。

当大语言模型不适合使用 FastFit：快速有效的多类文本分类

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Asaf Yehudai, Elron Bendel

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12365v1

摘要： 我们提出了 FastFit、一种方法和一个 Python 包设计，以提供快速、准确的小样本分类，特别是对于具有许多语义相似类的场景。 FastFit 采用了一种集成批量对比学习和标记级相似度评分的新颖方法。与现有的少样本学习包（例如 SetFit、Transformers 或通过 API 调用对大型语言模型进行少样本提示）相比，FastFit 显着提高了 FewMany（我们新策划的英语基准测试）和多语言数据集的多类分类性能的速度和准确性。 FastFit 的训练速度提高了 3-20 倍，只需几秒钟即可完成训练。 FastFit 包现已在 GitHub 和 PyPi 上提供，为 NLP 从业者提供了一个用户友好的解决方案。

谁来验证验证者？使大语言模型辅助的大语言模型输出评估与人类偏好保持一致

分类： 人机交互, 人工智能

作者： Shreya Shankar, J. D. Zamfirescu-Pereira, Björn Hartmann, Aditya G. Parameswaran, Ian Arawjo

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12272v1

摘要： 由于人类评估的繁琐性和基于代码的评估的局限性，大型语言模型（LLM）越来越多地被用来帮助人类评估LLM输出。然而，大语言模型生成的评估者只是继承了他们评估的大语言模型的所有问题，需要进一步的人工验证。我们提出了一种混合主动方法来“验证验证器”——将 LLM 生成的评估函数（无论是提示还是代码）与人类需求保持一致。我们的界面 EvalGen 为用户生成评估标准和实施断言提供自动化帮助。在生成候选实现（Python 函数、LLM 评分器提示）时，EvalGen 要求人类对 LLM 输出的子集进行评分；该反馈用于选择更符合用户等级的实现。一项定性研究发现了对 EvalGen 的总体支持，但强调了调整的主观性和迭代过程。特别是，我们发现了一种称为 \emph{criteriadrift} 的现象：用户需要标准来对输出进行评分，但对输出进行评分可以帮助用户定义标准。更重要的是，一些标准似乎\emph{依赖}于观察到的特定LLM输出（而不是可以定义\emph{先验}的独立标准），这对假设评估独立于模型观察的方法提出了严重的问题输出。我们介绍了我们的界面和实现细节，我们的算法与基线方法的比较，以及对未来大语言模型评估助理设计的影响。

通过想象力、探索和批评实现大语言模型的自我完善

分类： 计算和语言, 机器学习

作者： Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12253v1

摘要： 尽管大型语言模型 (LLM) 在各种任务上具有令人印象深刻的能力，但它们仍然难以处理涉及复杂推理和规划的场景。最近的工作提出了先进的提示技术以及使用高质量数据进行微调以增强大语言模型推理能力的必要性。然而，这些方法本质上受到数据可用性和质量的限制。有鉴于此，自我纠正和自我学习成为可行的解决方案，采用的策略允许大语言模型改进他们的成果并从自我评估的奖励中学习。然而，大语言模型在自我完善其反应方面的有效性，特别是在复杂的推理和规划任务中，仍然值得怀疑。在本文中，我们引入了用于LLM自我改进的AlphaLLM，它将蒙特卡罗树搜索（MCTS）与LLM集成，建立自我改进循环，从而在无需额外注释的情况下增强LLM的能力。 AlphaLLM 从 AlphaGo 的成功中汲取灵感，解决了将 MCTS 与 LLM 相结合以实现自我提升的独特挑战，包括数据稀缺、语言任务的巨大搜索空间以及语言任务中反馈的主观性。 AlphaLLM 由即时合成组件、专为语言任务量身定制的高效 MCTS 方法以及用于精确反馈的三个批评模型组成。我们在数学推理任务中的实验结果表明，AlphaLLM 在无需额外注释的情况下显着提高了大语言模型的性能，显示了大语言模型自我提升的潜力。

将动作和行走与 LLM 生成的文本描述对齐

分类： 计算机视觉和模式识别

作者： Radu Chivereanu, Adrian Cosma, Andy Catruna, Razvan Rughinis, Emilian Radoi

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12192v1

摘要： 大型语言模型 (LLM) 在各个领域都展示了卓越的功能，包括数据增强和合成数据生成。这项工作探索了如何使用大语言模型为运动序列生成丰富的文本描述，包括动作和行走模式。我们利用大语言模型的表达能力将运动表示与高级语言线索结合起来，解决两个不同的任务：动作识别和基于外观属性的行走序列检索。对于动作识别，我们采用 LLM 生成 BABEL-60 数据集中动作的文本描述，从而促进运动序列与语言表示的对齐。在步态分析领域，我们通过使用 LLM 从 DenseGait 数据集生成运动序列的文本描述来研究外观属性对行走模式的影响。这些描述捕捉到了受服装选择和鞋类等因素影响的步行方式的细微变化。我们的方法展示了大语言模型在增强结构化运动属性和调整多模态表示方面的潜力。这些发现有助于全面运动理解的进步，并为利用大语言模型进行多模态对齐和运动分析数据增强开辟了新途径。我们在 https://github.com/Radu1999/WalkAndText 上公开提供代码

权利要求检查价值检测：大语言模型掌握注释指南的情况如何？

分类： 计算和语言

作者： Laura Majer, Jan Šnajder

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12174v1

摘要： 虚假信息的威胁日益严重，要求事实核查流程的部分自动化。识别需要事实检查的文本片段被称为声明检测（CD）和声明检查价值检测（CW），后者结合了复杂的特定领域的价值标准，并且通常被视为排名任务。零次和少次 LLM 提示对于这两项任务来说都是一个有吸引力的选择，因为它绕过了对标记数据集的需求，并允许直接使用口头声明和价值标准进行提示。我们评估了大语言模型在来自不同领域的五个 CD/CW 数据集上的预测和校准准确性，每个数据集都使用不同的价值标准。我们研究两个关键方面：（1）如何最好地将事实和价值标准提炼成提示；（2）为每个主张提供多少上下文。为此，我们尝试改变提示的详细程度和提供给模型的上下文信息量。我们的结果表明，最佳提示冗长程度取决于领域，添加上下文不会提高性能，并且置信度分数可以直接用于生成可靠的检查价值排名。

通过概念激活向量发现开源大语言模型的安全风险

分类： 计算和语言

作者： Zhihao Xu, Ruixuan Huang, Xiting Wang, Fangzhao Wu, Jing Yao, Xing Xie

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12038v1

摘要： 当前的开源大语言模型 (LLM) 在公开发布之前通常会经过仔细的安全调整。还提出了一些攻击方法来帮助检查 LLM 中的安全漏洞，以确保对齐的鲁棒性。然而，其中许多方法的攻击成功率中等。即使成功，也无法保证其产出的危害性，这导致人们怀疑这些方法没有准确识别大语言模型的安全漏洞。在本文中，我们介绍了一种利用基于概念的模型解释的 LLM 攻击方法，其中我们从 LLM 的激活空间中提取安全概念激活向量（SCAV），从而能够对 LLaMA-2 等良好对齐的 LLM 进行有效攻击，实现接近 100%攻击成功率就好像大语言模型完全不对齐一样。这表明，即使在彻底的安全调整之后，大语言模型在公开发布后仍可能对社会构成潜在风险。为了评估各种攻击方法产生的输出的危害性，我们提出了一种综合评估方法，以减少现有评估的潜在不准确性，并进一步验证我们的方法会导致更多有害内容。此外，我们发现 SCAV 在不同的开源 LLM 之间表现出一定的可转移性。

ParaFusion：一个由大语言模型驱动的大规模英语释义数据集，注入了高质量的词汇和句法多样性

分类： 计算和语言, 人工智能, 机器学习

作者： Lasal Jayawardena, Prasan Yapa

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.12010v1

摘要： 释义生成是自然语言处理（NLP）中的一项关键任务。该领域的现有数据集缺乏句法和词汇多样性，导致释义与源句子非常相似。此外，这些数据集通常包含仇恨言论和噪音，并且可能无意中包含非英语句子。本研究引入了 ParaFusion，这是一个使用大型语言模型 (LLM) 开发的大规模、高质量英语释义数据集，旨在解决这些挑战。 ParaFusion 使用高质量数据增强了现有数据集，显着增强了词汇和句法多样性，同时保持了紧密的语义相似性。它还可以减少仇恨言论的出现并减少噪音，确保英语数据集更干净、更有针对性。结果表明，根据每个数据源的多个指标进行衡量，ParaFusion 在句法和词汇多样性方面至少提高了 25%。该论文还旨在为释义评估设定黄金标准，因为它包含迄今为止最全面的评估策略之一。结果强调了 ParaFusion 作为改进 NLP 应用的宝贵资源的潜力。

即时生成不同的标准以提高逐点 LLM 排名

分类： 信息检索, 人工智能

作者： Fang Guo, Wenyu Li, Honglei Zhuang, Yun Luo, Yafu Li, Le Yan, Yue Zhang

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.11960v1

摘要： 最新的逐点大型语言模型（LLM）排名器取得了令人瞩目的排名结果。然而，这些排名者受到两个主要缺点的阻碍：（1）他们在排名过程中未能遵循标准化的比较指导，（2）他们在处理复杂的段落时难以进行全面的考虑。为了解决这些缺点，我们建议建立一个排名器，根据一组来自不同角度的标准生成排名分数。这些标准旨在指导每个观点提供独特但协同的评估。我们的研究检查了 BEIR 基准中的八个数据集，表明采用这种多视角标准集成方法显着提高了逐点 LLM 排名者的性能。

AgentCoord：可视化探索基于 LLM 的多代理协作的协调策略

分类： 人机交互

作者： Bo Pan, Jiaying Lu, Ke Wang, Li Zheng, Zhen Wen, Yingchaojie Feng, Minfeng Zhu, Wei Chen

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.11943v1

摘要： 通过基于大语言模型（LLM）的多智能体协作自动解决任务的潜力最近引起了研究界和业界的广泛关注。虽然利用自然语言来协调多个代理为普通用户提供了一种民主化代理技术的有希望的途径，但设计协调策略对于现有的协调框架仍然具有挑战性。这一困难源于自然语言在指定协作过程方面固有的模糊性，以及在探索过程中从大量文本形式内容中提取关键信息（例如代理关系、任务依赖、结果对应）所需的大量认知努力。在这项工作中，我们提出了一个视觉探索框架，以促进多智能体协作中协调策略的设计。我们首先为基于 LLM 的多智能体协调策略建立结构化表示，以规范自然语言的歧义。基于这种结构，我们设计了一种三阶段生成方法，利用 LLM 将用户的总体目标转换为可执行的初始协调策略。用户可以在生成过程的任何阶段进一步干预，利用 LLM 和一组交互来探索替代策略。每当确定满意的策略时，用户就可以开始协作并检查视觉增强的执行结果。我们开发了 AgentCoord，一个原型交互系统，并进行了正式的用户研究，以证明我们的方法的可行性和有效性。

使用大语言模型的概念归纳：用于评估的用户实验

分类： 人工智能

作者： Adrita Barua, Cara Widmer, Pascal Hitzler

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.11875v1

摘要： 可解释的人工智能 (XAI) 在为复杂的人工智能模型提供透明且易于理解的见解方面提出了重大挑战。传统的事后算法虽然有用，但通常难以提供可解释的解释。基于概念的模型通过结合概念的显式表示来增强可解释性，提供了一条有前途的途径。然而，现有的自动概念发现方法的研究通常受到较低级别概念、昂贵的人工注释要求和背景知识领域的限制的限制。在本研究中，我们探索大型语言模型 (LLM)（特别是 GPT-4）的潜力，通过利用其领域知识和常识能力来生成对特定环境下的人类解释有意义的高级概念的图像分类。我们通过提示使用数据中可用的最少文本对象信息来促进此过程。为了评估输出，我们将 LLM 生成的概念与其他两种方法进行比较：人类生成的概念和 ECII 启发式概念归纳系统。由于没有既定的指标来确定人类对概念的理解程度，我们进行了一项人类研究来评估大语言模型生成的概念的有效性。我们的研究结果表明，虽然人类生成的解释仍然更优越，但与 ECII 生成的概念相比，源自 GPT-4 的概念更容易被人类理解。

从图像到视频，多模式大语言模型需要什么？

分类： 计算机视觉和模式识别

作者： Suyuan Huang, Haoxin Zhang, Yan Gao, Yao Hu, Zengchang Qin

发布时间： 2024-04-18

链接： http://arxiv.org/abs/2404.11865v1

摘要： 多模态大语言模型 (MLLM) 在理解多模态信息方面表现出了深厚的能力，涵盖从图像 LLM 到更复杂的视频 LLM。大量研究表明他们具有卓越的跨模式理解能力。最近，有人提出将视频基础模型与大型语言模型相结合来构建全面的视频理解系统，以克服特定预定义视觉任务的局限性。然而，视频大语言模型目前的进步往往忽视了图像大语言模型的基础贡献，通常选择更复杂的结构和各种多模态数据进行预训练。这种方法显着增加了与这些方法相关的成本。为了应对这些挑战，这项工作引入了一种有效的方法，该方法战略性地利用图像大语言模型的先验知识，促进从图像大语言模型到视频大语言模型的资源高效过渡。我们提出了 RED-VILLM，这是一种来自图像 LLM 的视频 LLM 的资源高效开发管道，它在图像 LLM 的图像融合模块中利用了时间自适应即插即用结构。这种适应扩展了他们的理解能力，包括时间信息，使视频大语言模型的开发不仅超越了基线性能，而且还用最少的教学数据和培训资源实现了这一目标。我们的方法强调了多模式模型中更具成本效益和可扩展性进步的潜力，有效地建立在图像大语言模型的基础工作之上。

行为调整：评估基于 LLM 的会话推荐系统的新视角

分类： 信息检索, 人工智能

作者： Dayu Yang, Fumian Chen, Hui Fang

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11773v1

摘要： 大型语言模型 (LLM) 在会话推荐系统 (CRS) 中展现出了巨大的潜力。然而，LLM在CRS中的应用暴露了基于LLM的CRS和人类推荐者之间在行为上的显着差异：LLM经常显得不灵活和被动，经常在没有充分询问的情况下急于完成推荐任务。这种行为差异可能会导致准确性下降推荐和较低的用户满意度。尽管 CRS 很重要，但现有的研究缺乏如何衡量这种行为差异的研究。为了填补这一空白，我们提出了行为一致性（Behavior Alignment），这是一种新的评估指标，用于衡量基于大语言模型的 CRS 制定的推荐策略与人类推荐者的一致程度。我们的实验结果表明，新指标比现有评估指标更符合人类偏好，并且可以更好地区分系统的性能。由于行为对齐需要对推荐策略进行明确且昂贵的人工注释，因此我们还提出了一种基于分类的方法来隐式测量基于响应的行为对齐。评估结果证实了该方法的稳健性。

MemLLM：微调 LLM 以使用显式读写内存

分类： 计算和语言

作者： Ali Modarressi, Abdullatif Köksal, Ayyoob Imani, Mohsen Fayyaz, Hinrich Schütze

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11672v1

摘要： 虽然当前的大型语言模型（LLM）在知识密集型任务中展示了一些功能，但它们由于依赖其参数作为隐式存储机制而受到限制。结果，他们与稀少的知识和暂时的退化作斗争。此外，参数记忆的不可解释性使得理解和预防幻觉变得困难。参数化内存池和模型编辑只是部分解决方案。检索增强生成（RAG）$\unicode{x2013}$虽然非参数$\unicode{x2013}$有其自身的局限性：它缺乏结构，使可解释性复杂化并且难以有效管理存储的知识。在本文中，我们介绍了 MemLLM，这是一种通过集成结构化和显式读写内存模块来增强 LLM 的新方法。 MemLLM 通过实现与内存的动态交互并提高 LLM 使用存储知识的能力来解决上述挑战。我们的实验表明，MemLLM 增强了大语言模型的性能和可解释性，特别是在一般语言建模和知识密集型任务中。我们认为 MemLLM 是通过记忆增强使大语言模型更加扎实和真实的重要一步。

大语言模型包：通过困惑度优化在测试时进行模型融合

分类： 计算和语言

作者： Costas Mavromatis, Petros Karypis, George Karypis

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11531v1

摘要： 融合来自多个大型语言模型 (LLM) 的知识可以结合它们的不同优势，以提高给定任务的性能。然而，当前的融合方法要么依赖于基于学习的融合器，而这些融合器不能推广到新的大语言模型，要么没有考虑每个大语言模型对输入的理解程度。在这项工作中，我们在测试时研究 LLM 融合，这使得能够在推理过程中利用来自任意用户指定的 LLM 的知识。我们引入了 LLM 包 (PackLLM)，这是一种在给出输入提示的情况下利用每个 LLM 专业知识的测试时融合的有效方法。 PackLLM 通过解决确定每个 LLM 重要性的优化问题来执行模型融合，从而最大限度地减少输入提示的困惑。首先，我们简单的 PackLLM-sim 变体验证了困惑度是衡量每个 LLM 专业知识的良好指标。其次，我们的 PackLLM-opt 变体通过贪婪算法近似解决了困惑度最小化问题。导出的重要性权重用于在推理过程中组合 LLM。我们与 100 多名大语言模型就不同的任务进行了实验。实验结果表明，(i) 困惑度是 LLM 融合的可靠衡量标准，(ii) PackLLM 比测试时融合基线高出 1.89% 的准确度点，(iii) PackLLM 可以利用新的 LLM 来提高基于学习的融合方法的性能准确度提高 3.92-11.94%。

从图像到 UML：使用 LLM 生成基于图像的 UML 图的第一个结果

分类： 软件工程

作者： Aaron Conrardy, Jordi Cabot

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11376v1

摘要： 在软件工程过程中，首先使用 UML 等建模语言来指定系统。这些初始设计通常是在会议中多次协作创建的，不同领域的专家使用白板、纸张或其他类型的快速支持来创建图纸和蓝图，然后需要将其形式化。这些正确的、机器可读的模型是确保模型成为自动化流程一部分的关键（例如，低代码生成管道的输入、基于模型的测试系统……）。但是，从手绘图表到实际模型是一个耗时的过程，有时最终会导致此类绘图只是作为非正式图像添加到软件文档中，从而大大降低了其价值。为了避免这项繁琐的任务，我们探索使用大型语言模型 (LLM) 从给定的绘图生成 (UML) 模型的形式表示。更具体地说，我们评估了不同 LLM 将 UML 类图图像转换为图像中表示的实际模型的能力。虽然结果足以使用这种方法作为模型驱动工程流程的一部分，但我们也强调了它们当前的一些局限性以及需要让人类参与其中以克服这些局限性。

大型语言模型遇上协同过滤：基于LLM的高效全方位推荐系统

分类： 信息检索, 人工智能

作者： Sein Kim, Hongseok Kang, Seungyoon Choi, Donghyun Kim, Minchul Yang, Chanyoung Park

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11343v1

摘要： 协同过滤推荐系统（CF-RecSys）在增强社交媒体和电子商务平台上的用户体验方面取得了连续的成果。然而，由于 CF-RecSys 在用户-项目交互稀疏的冷场景下苦苦挣扎，最近的策略侧重于利用基于预训练模态编码器和大型语言模型 (LLM) 的用户/项目（例如文本或图像）的模态信息。尽管它们在寒冷场景下有效，但我们观察到，由于缺乏协作知识，它们在温暖场景下的表现不如简单的传统协作过滤模型。在这项工作中，我们提出了一种高效的基于 LLM 的全方位推荐系统，称为 A-LLMRec，它不仅在寒冷场景中表现出色，而且在温暖场景中也表现出色。我们的主要想法是使大语言模型能够直接利用预先训练的最先进的 CF-RecSys 中包含的协作知识，以便大语言模型的新兴能力以及高质量的用户/项目嵌入已经接受了最先进的 CF-RecSys 的训练，可以联合利用。这种方法有两个优点：(1) 与模型无关，允许与各种现有的 CF-RecSys 集成；(2) 效率高，消除了基于 LLM 的推荐系统通常需要的大量微调。我们对各种真实数据集进行的广泛实验证明了 A-LLMRec 在各种场景下的优越性，包括冷/暖、少样本、冷用户和跨域场景。除了推荐任务之外，我们还展示了 A-LLMRec 在通过执行最喜欢的流派预测任务来基于对协作知识的理解生成自然语言输出方面的潜力。我们的代码可在 https://github.com/ghdtjr/A-LLMRec 获取。

网络安全大语言模型：新机遇

分类： 密码学和安全, 软件工程

作者： Dinil Mon Divakaran, Sai Teja Peddinti

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11338v1

摘要： 大型语言模型（LLM）是一类功能强大、用途广泛的模型，对许多行业都有好处。随着大语言模型的出现，我们重新审视网络安全，特别是探索和总结大语言模型在解决安全领域的挑战性问题方面的潜力。

使用预先训练的大语言模型快速引导生成结构化胸部 X 射线报告

分类： 人工智能, 计算机视觉和模式识别, 多媒体

作者： Hongzhao Li, Hongyu Wang, Xia Sun, Hua He, Jun Feng

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11209v1

摘要： 医疗报告生成可自动根据图像进行放射学描述，减轻医生的负担并最大限度地减少错误。然而，当前的方法缺乏结构化的输出和医生互动来提供清晰的、临床相关的报告。我们的方法引入了一种提示引导方法，使用预先训练的大语言模型 (LLM) 生成结构化胸部 X 射线报告。首先，我们识别胸部 X 光片中的解剖区域，生成以关键视觉元素为中心的聚焦句子，从而建立基于解剖的句子的结构化报告基础。我们还将检测到的解剖结构转换为文本提示，向大语言模型传达解剖学理解。此外，临床背景提示指导大语言模型强调互动性和临床要求。通过整合以解剖学为中心的句子和解剖学/临床提示，经过预训练的大语言模型可以生成针对提示的解剖区域和临床背景定制的结构化胸部 X 射线报告。我们使用语言生成和临床有效性指标进行评估，展示了强大的性能。

论大语言模型推理和规划的经验复杂性

分类： 人工智能, 机器学习

作者： Liwei Kang, Zirui Zhao, David Hsu, Wee Sun Lee

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11041v1

摘要： 大型语言模型 (LLM) 通过思想链 (CoT) 或思想树 (ToT) 解决一些复杂的推理问题，效果出人意料地好，但根本原因仍不清楚。我们试图通过进行实验案例研究并将结果与机器学习中的样本和计算复杂性联系起来来了解这些方法的性能。我们发现，如果问题可以分解为一系列推理步骤，并且学习预测下一步的样本和计算复杂度较低，那么使用预测下一步所需的所有信息明确概述推理链可能会提高性能。相反，对于预测下一步计算困难的问题，采用 ToT 可能会比尝试制定短推理链产生更好的推理结果。

OVAL-Prompt：通过大语言模型可供性接地实现机器人操作的开放词汇可供性本地化

分类： 机器人技术

作者： Edmond Tong, Anthony Opipari, Stanley Lewis, Zhen Zeng, Odest Chadwicke Jenkins

发布时间： 2024-04-17

链接： http://arxiv.org/abs/2404.11000v1

摘要： 为了使机器人能够有效地与物体交互，它们必须了解所遇到的每个物体的形式和功能。从本质上讲，机器人需要了解每个对象提供哪些操作，以及可以在哪里执行这些操作。机器人最终预计将在非结构化的人类环境中运行，其中机器人在部署之前不知道一组对象和可供性（即开放词汇设置）。在这项工作中，我们介绍了 OVAL-Prompt，这是一种基于提示的方法，用于 RGB-D 图像中开放词汇可供性本地化。通过利用视觉语言模型 (VLM) 进行开放词汇对象部分分割，并利用大型语言模型 (LLM) 来为每个部分片段功能提供基础，OVAL-Prompt 展示了对新对象实例、类别和功能可见性的通用性，而无需域-具体微调。定量实验表明，无需任何微调，OVAL-Prompt 即可实现与监督基线模型相媲美的定位精度。此外，定性实验表明，OVAL-Prompt 能够实现基于可供性的机器人操作开放词汇对象实例和类别。

大语言模型基于不确定性的弃权提高了安全性并减少了幻觉

分类： 计算和语言, 人工智能

作者： Christian Tomani, Kamalika Chaudhuri, Ivan Evtimov, Daniel Cremers, Mark Ibrahim

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10960v1

摘要： 大型语言模型（LLM）实际部署的一个主要障碍是它们缺乏可靠性。这种情况特别明显的三种情况是正确性、给出无法回答的问题时的幻觉以及安全性。在这三种情况下，理想情况下模型应该避免做出回应，就像人类一样，人类理解不确定性的能力使我们避免回答我们不知道的问题。受类似分类方法的启发，本研究探讨了大语言模型在问答领域中不确定时弃权的可行性和有效性。我们研究了两种不确定性：统计不确定性指标和一种独特的言语测量，称为对话中不确定性（InDU）。将这些不确定性度量与带有或不带有人类反馈的强化学习（RLHF）的模型相结合，我们表明，在所有三种情况下，基于正确类型的不确定性度量的弃权可以提高大语言模型的可靠性。通过仅牺牲一些高度不确定的样本，我们可以将正确性提高 2% 至 8%，通过正确识别无法回答的问题来避免 50% 的幻觉，并将安全性提高 70% 至 99%，而几乎没有额外的计算开销。

LLMem：估计 GPU 内存使用情况以微调预训练的 LLM

分类： 人工智能, 计算和语言, 机器学习

作者： Taeho Kim, Yanming Wang, Vatshank Chaturvedi, Lokesh Gupta, Seyeon Kim, Yongin Kwon, Sangtae Ha

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10933v1

摘要： 由于 GPU 内存限制，在硬件有限的情况下微调预训练的大型语言模型 (LLM) 会带来挑战。人们提出了各种分布式微调方法来减轻 GPU 的内存限制。然而，确定在给定环境中实现快速微调同时防止 GPU 内存不足问题的最有效方法仍不清楚。为了应对这一挑战，我们引入了 LLMem，这是一种解决方案，可以估计在多个 GPU 上应用分布式微调方法时的 GPU 内存消耗，并确定最佳方法。我们利用基于 Transformer 的解码器模型的基本结构和每种方法的内存使用分布，在微调之前进行 GPU 内存使用估计。实验结果表明，LLMem 准确估计了单个 GPU 上的峰值 GPU 内存使用情况，错误率高达 1.6%。此外，当在多 GPU 设置上将分布式微调方法应用于具有超过 10 亿个参数的 LLM 时，其平均错误率为 3.0%。

从 Llama2 7B 权重的无损 (~1.5:1) 压缩算法到 CNN 和 LLM 的可变精度、可变范围、压缩数值数据类型

分类： 计算机视觉和模式识别, 人工智能, 硬件架构

作者： Vincenzo Liguori

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10896v1

摘要： 本文首先针对大型语言模型 (LLM) Llama2 7B [1] 的权重采用一种简单的无损 ~1.5:1 压缩算法，该算法可以在 AMD FPGA 中的 ~200 个 LUT 中实现，每秒处理超过 8 亿个 bfloat16 数字。然后，该框架扩展到可变精度、可变范围、压缩数值数据类型，这些数据类型是用户定义的浮点数和位置的超集 [2]。然后，本文讨论了基于 ANS（非对称数字系统）[3] 的这种格式的简单硬件实现，它充当这种灵活的数据格式和计算引擎之间的桥梁，同时实现带宽减少。还给出了使用权重压缩和共享的令牌工厂的示例。

仅使用大语言模型即可按照用户指示孵化文本分类器

分类： 计算和语言

作者： Letian Peng, Jingbo Shang

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10877v1

摘要： 在本文中，我们的目标是在给定任意类定义（即用户指令）的情况下生成文本分类数据，因此可以在没有任何人工注释或原始语料库的情况下训练小型文本分类器。与先驱尝试相比，我们提出的孵化器是第一个可以处理复杂甚至相互依赖的类的框架（例如，“教育者给出的 TED 演讲”和“其他”）。具体来说，Incubator 是一个大语言模型，首先根据我们从 HuggingFace 上的分类数据集和描述以及 GPT-4 的上下文增强中获得的指令到数据映射进行调整。然后，我们通过学习语义文本嵌入的聚类中心来完善孵化器，以强调世代的一致性和语义多样性。我们将 Incubator 的各种分类任务与强大的基线进行比较，例如基于 LLM 的直接推理和通过即时工程生成训练数据。实验表明，Incubator 能够 (1) 在传统基准测试上表现良好，(2) 考虑标签依赖性和用户偏好，(3) 通过孵化多个分类器来实现逻辑文本挖掘。

MiniCheck：大语言模型接地文件的高效事实核查

分类： 计算和语言, 人工智能

作者： Liyan Tang, Philippe Laban, Greg Durrett

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10774v1

摘要： 认识到大语言模型的输出是否可以基于证据是 NLP 中许多任务的核心：检索增强生成、总结、基于文档的对话等等。当前这种“事实检查”的方法是基于使用大语言模型根据潜在证据验证模型生成的每个部分。然而，这个过程的计算成本可能非常高，需要多次调用 LLM 来检查单个响应。在这项工作中，我们展示了如何构建具有 GPT-4 级别性能但成本降低 400 倍的小型模型。我们通过使用 GPT-4 构建合成训练数据来实现这一点，其中涉及通过结构化生成过程创建现实但具有挑战性的事实错误实例。对这些数据的训练教会模型检查声明中的每个事实并识别跨句子的信息合成。为了进行评估，我们将预先存在的数据集统一到基准 LLM-AggreFact 中，该数据集是从最近关于事实检查和奠定 LLM 世代的工作中收集的。我们最好的系统 MiniCheck-FT5（770M 参数）优于所有同等规模的系统，并达到 GPT-4 精度。我们发布了 LLM-AggreFact、数据合成代码和模型。

深度学习和基于大语言模型的方法应用于恒星光曲线分类

分类： 天体物理学仪器和方法, 太阳和恒星天体物理学, 计算和语言, 机器学习

作者： Yu-Yang Li, Yu Bai, Cunshi Wang, Mengwei Qu, Ziteng Lu, Roberto Soria, Jifeng Liu

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10757v1

摘要： 光变曲线是恒星形成和演化的宝贵信息来源。随着机器学习技术的快速进步，可以对其进行有效处理以提取天文模式和信息。在这项研究中，我们基于开普勒和 K2 任务的大型数据集，对基于深度学习和大语言模型 (LLM) 的变星光变曲线自动分类模型进行了全面评估。特别重点关注造父变星、天琴座RR和食双星，研究观测节奏和相位分布对分类精度的影响。采用 AutoDL 优化，我们通过 1D-Convolution+BiLSTM 架构和 Swin Transformer 实现了惊人的性能，分别达到了 94% 和 99% 的准确率，后者在识别难以捉摸的 II 型造父变星方面表现出高达 83% 的准确率-仅占总数据集的 0.02%。我们推出了 StarWhisper LightCurve (LC)，这是一个创新系列，包含三个基于 LLM 的模型：LLM、多模态大语言模型 (MLLM) 和大型音频语言模型 (LALM)。每个模型都通过战略提示工程和定制训练方法进行微调，以探索这些模型处理天文数据的新兴能力。值得注意的是，StarWhisper LC 系列表现出约 90% 的高精度，显着减少了对显式特征工程的需求，从而为简化并行数据处理和天文应用中多方面多模态模型的进展铺平了道路。该研究提供了两个详细的目录，说明了阶段和采样间隔对深度学习分类精度的影响，表明可以在不影响精度超过 14% 的情况下，实现观察持续时间大幅减少 14% 和采样点减少 21% 10%。

DPO 是否比 PPO 更适合 LLM 衔接？综合研究

分类： 计算和语言

作者： Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu, Yi Wu

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10719v1

摘要： 人类反馈强化学习 (RLHF) 是目前使用最广泛的方法，使大型语言模型 (LLM) 与人类偏好保持一致。现有的 RLHF 方法可以大致分为基于奖励的或无奖励的。 ChatGPT 和 Claude 等新颖应用程序利用基于奖励的方法，首先学习奖励模型并应用演员批评算法，例如近端策略优化 (PPO)。然而，在学术基准中，最先进的结果通常是通过无奖励方法实现的，例如直接偏好优化（DPO）。 DPO真的优于PPO吗？为什么 PPO 在这些基准测试中表现不佳？在本文中，我们首先对 DPO 的算法特性进行了理论和实证研究，并表明 DPO 可能存在根本局限性。此外，我们还全面考察了 PPO，并揭示了 PPO 在微调 LLM 方面取得最佳表现的关键因素。最后，我们在各种 RLHF 测试平台上对 DPO 和 PPO 进行基准测试，范围从对话到代码生成。实验结果表明，PPO 在所有情况下都能超越其他对齐方法，并在具有挑战性的代码竞赛中取得最先进的结果。

使用 LLM 自动化 REST API Postman 测试用例

分类： 软件工程, 机器学习

作者： S Deepika Sri, Mohammed Aadil S, Sanjjushri Varshini R, Raja CSP Raman, Gopinath Rajagopal, S Taranath Chan

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10678v1

摘要： 在当今技术进步的背景下，手动流程的自动化至关重要，迫切需要大量数据集来有效地训练和测试机器。本研究论文致力于探索和实现一种专门使用大型语言模型生成测试用例的自动化方法。该方法集成了开放人工智能的使用，以提高测试用例生成的效率和有效性，以训练和评估大型语言模型。这种大语言模型的形式化方法简化了测试过程，使其更加高效和全面。利用自然语言理解，大语言模型可以智能地制定涵盖广泛 REST API 属性的测试用例，确保全面的测试。研究过程中开发的模型是使用手动收集的邮递员测试用例或各种 Rest API 实例进行训练的。 LLM 通过自动生成各种复杂的测试场景来增强 Postman 测试用例的创建。 Postman 测试用例提供简化的自动化、协作和动态数据处理，与传统测试用例相比，为 API 测试提供了一种用户友好且高效的方法。因此，所开发的模型不仅符合当前的技术标准，而且有望演变成对未来技术进步具有重大意义的想法。

自玩对抗性语言游戏增强 LLM 推理能力

分类： 计算和语言, 机器学习

作者： Pengyu Cheng, Tianhao Hu, Han Xu, Zhisong Zhang, Yong Dai, Lei Han, Nan Du

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10642v1

摘要： 我们在名为 Adversarial Taboo 的两人对抗性语言游戏中探索大型语言模型 (LLM) 的自玩训练过程。在这个游戏中，攻击者和防御者就仅攻击者可见的目标词进行交流。攻击者的目的是诱导防御者无意识地说出目标词，而防御者则试图从攻击者的话语中推断出目标词。为了赢得比赛，双方都应该对目标词有足够的了解，并在这种信息保留的对话中进行推理和表达的高级推理能力。因此，我们很好奇大语言模型的推理能力是否可以通过这种对抗性语言游戏（SPAG）中的自我对弈进一步增强。出于这个目标，我们让大语言模型充当攻击者，并在广泛的目标词上使用自身的副本作为防御者。通过对游戏结果的强化学习，我们观察到大语言模型的表现在广泛的推理基准上一致提高。而且，迭代地采用这种自我对弈的过程可以不断提升LLM的推理能力。代码位于 https://github.com/Linear95/SPAG。

分层上下文合并：为预训练的大语言模型提供更好的长上下文理解

分类： 机器学习, 人工智能

作者： Woomin Song, Seunghyuk Oh, Sangwoo Mo, Jaehyung Kim, Sukmin Yun, Jung-Woo Ha, Jinwoo Shin

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10308v1

摘要： 大型语言模型（LLM）在各种自然语言处理任务中表现出了卓越的性能。然而，他们面临的主要约束是上下文限制，即他们可以处理的最大令牌数量。之前的工作已经探索了位置编码的架构变化和修改以放松约束，但它们通常需要昂贵的训练或者不能解决自注意力的计算需求。在本文中，我们提出了分层上下文合并（HOMER），这是一种新的免训练方案，旨在克服这些限制。 HOMER 使用分治算法，将长输入划分为可管理的块。然后，使用分层策略来集体处理每个块，该策略在渐进变换器层上合并相邻块。每次合并之前都会采用令牌减少技术，确保内存使用效率。我们还提出了一种优化的计算顺序，将输入长度的内存需求减少到对数缩放，使其特别有利于内存限制严格的环境。我们的实验证明了所提出的方法具有卓越的性能和内存效率，使得大语言模型能够在需要扩展上下文的上下文中得到更广泛的使用。代码可在 https://github.com/alinlab/HOMER 获取。

LLM 支持的测试用例生成用于检测棘手的错误

分类： 软件工程, 机器学习

作者： Kaibo Liu, Yiyang Liu, Zhenpeng Chen, Jie M. Zhang, Yudong Han, Yun Ma, Ge Li, Gang Huang

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10304v1

摘要： 传统的自动化测试生成工具很难生成测试预言和棘手的错误揭示测试输入。可以提示大型语言模型（LLM）直接为程序生成测试输入和预言机，但对于复杂场景，测试的精度可能非常低（根据我们的实验，只有 6.3％）。为了填补这一空白，本文提出了 AID，它将大语言模型与差异测试相结合，生成可揭示错误的测试输入和针对看似正确的程序（即已通过所有现有测试的程序）的预言机。特别是，AID 选择测试输入，这些输入在 LLM 生成的一组程序变体上产生不同的输出，然后根据输出构建测试预言机。我们在两个具有棘手错误的大型数据集上评估 AID：TrickyBugs 和 EvalPlus，并将其与三个最先进的基线进行比较。评估结果表明，AID 的查全率、查准率和 F1 分数分别比现有技术高出 1.80 倍、2.65 倍和 1.66 倍。

通过采用大语言模型循环策略来发现社交媒体消息传递中的潜在争论

分类： 计算和语言, 人工智能, 计算机与社会, 机器学习, 社交和信息网络

作者： Tunazzina Islam, Dan Goldwasser

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10259v1

摘要： 社交媒体的广泛使用导致自动化舆论分析方法的流行。监督方法擅长文本分类，但由于焦点的不断转移，社交媒体讨论的动态性质对这些技术提出了持续的挑战。另一方面，从公共话语中提取主题的传统无监督方法（例如主题建模）通常会揭示可能无法捕捉特定细微差别的总体模式。因此，社交媒体话语研究的很大一部分仍然依赖于劳动密集型的手动编码技术和人机交互方法，这既耗时又昂贵。在这项工作中，我们研究发现与特定主题相关的论点的问题。我们提出了一种通用的 LLM 在环策略，该策略利用大型语言模型 (LLM) 的高级功能从社交媒体消息中提取潜在的论点。为了展示我们的方法，我们将我们的框架应用于有争议的主题。我们使用两个公开可用的数据集：(1) 包含 25 个主题的 14k 个 Facebook 广告的气候活动数据集；(2) 包含 14 个主题的 9k 个 Facebook 广告的 COVID-19 疫苗活动数据集。此外，我们还根据现实世界事件分析人口目标定位和消息传递的适应性。

RAG 模型的忠实度如何？量化 RAG 和 LLM 内部先验之间的拉锯战

分类： 计算和语言, 人工智能

作者： Kevin Wu, Eric Wu, James Zou

发布时间： 2024-04-16

链接： http://arxiv.org/abs/2404.10198v1

摘要： 检索增强生成（RAG）通常用于修复幻觉并为大型语言模型（LLM）提供最新知识。然而，如果大语言模型单独错误地回答了一个问题，提供正确的检索内容是否总能修复错误？相反，如果检索到的内容不正确，LLM 是否知道忽略错误信息，或者是否重述错误？为了回答这些问题，我们系统地分析了大语言模型的内部知识（即其先验知识）与在他们不同意时检索到的信息之间的拉锯战。我们在有或没有参考文档的数据集上测试 GPT-4 和其他大语言模型的问答能力。正如预期的那样，提供正确的检索信息可以修复大多数模型错误（准确率 94%）。然而，当参考文件受到越来越多的错误值的干扰时，当其内部先验较弱时，大语言模型更有可能背诵不正确的、经过修改的信息，但当其先验较强时，大语言模型会更有抵抗力。类似地，我们还发现，修改后的信息与模型先验的偏差越大，模型就越不可能选择它。这些结果凸显了模型的先验知识与参考文档中提供的信息之间潜在的紧张关系。

欺骗以启迪：引导大语言模型进行自我反思，以增强偏见检测和缓解

分类： 人工智能

作者： Ruoxi Cheng, Haoxuan Ma, Shuirong Cao

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.10160v1

摘要： 大型语言模型 (LLM) 嵌入了复杂的偏见和刻板印象，可能会导致有害的用户体验和社会后果，而模型本身通常没有意识到。本文强调了为大语言模型配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知大语言模型他们生成的内容并不代表他们自己的观点并质疑他们的偏见，他们识别和解决偏见的能力得到了提高。这种增强归因于大语言模型的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一种减少大语言模型输出偏差的新方法。这涉及让大语言模型参与多角色场景，扮演不同的角色，负责暴露偏见，并在每个辩论循环结束时扮演公正裁判的角色。采用排名评分机制来量化偏差水平，从而实现更精细的反射和卓越的输出质量。比较实验结果证实，我们的方法在减少偏见方面优于现有方法，这使其为实现更道德的人工智能系统做出了宝贵的贡献。

TabSQLify：通过表分解增强大语言模型的推理能力

分类： 计算和语言, 数据库, 信息检索

作者： Md Mahadi Hasan Nahid, Davood Rafiei

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.10150v1

摘要： 表格推理是一项具有挑战性的任务，需要理解自然语言问题和结构化表格数据。大型语言模型 (LLM) 在自然语言理解和生成方面表现出了令人印象深刻的能力，但由于输入长度有限，它们经常难以处理大型表。在本文中，我们提出了 TabSQLify，这是一种新颖的方法，它利用文本到 SQL 生成将表分解为更小的相关子表，在执行推理任务之前仅包含用于回答问题或验证语句的基本信息。在我们对四个具有挑战性的数据集的综合评估中，与依赖完整表格作为输入的主流方法相比，我们的方法表现出可比或优越的性能。此外，我们的方法可以显着减少输入上下文长度，使其对于大规模表推理应用程序更具可扩展性和效率。我们的方法在 WikiTQ 基准测试中表现非常出色，准确率达到 64.7%。此外，在 TabFact 基准测试中，它实现了 79.5% 的高精度。这些结果超过了 gpt-3.5-turbo (chatgpt) 上其他基于 LLM 的基线模型。 TabSQLify 可以减小表大小，从而显着减轻 LLM 在处理大型表时的计算负载，而不会影响性能。

锚点：大语言模型驱动的新闻主题调节用于文本到图像的合成

分类： 计算机视觉和模式识别, 计算和语言, 多媒体, 65D19

作者： Aashish Anantha Ramakrishnan, Sharon X. Huang, Dongwon Lee

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.10141v1

摘要： 文本到图像 (T2I) 合成在增强合成图像质量方面取得了巨大进步，但当前数据集仅根据描述性的、基于指令的提示来评估模型性能。现实世界的新闻图像标题采用更务实的方法，提供高级情境和命名实体 (NE) 信息以及有限的物理对象描述，使它们变得抽象。为了评估 T2I 模型从新闻标题中捕获预期主题的能力，我们引入了具有高级上下文表示的抽象新闻标题 (ANCHOR) 数据集，其中包含来自 5 个不同新闻媒体组织的 70K 多个样本。随着大型语言模型 (LLM) 在语言和常识推理任务中取得成功，我们探索了不同的 LLM 从抽象标题中识别和理解关键主题的能力。我们提出的方法主题感知微调（SAFE）通过利用大语言模型生成的主题权重来选择和增强合成图像中关键主题的表示。它还通过自定义域微调来适应新闻图像和标题的域分布，优于 ANCHOR 上当前的 T2I 基线。通过推出 ANCHOR 数据集，我们希望推动进一步研究 T2I 模型的自然语言理解 (NLU) 能力。

基于LLM的测试驱动的交互式代码生成：用户研究和实证评估

分类： 软件工程

作者： Sarah Fakhoury, Aaditya Naik, Georgios Sakkas, Saikat Chakraborty, Shuvendu K. Lahiri

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.10100v1

摘要： 大型语言模型 (LLM) 通过根据非正式的自然语言 (NL) 意图生成自然代码，在自动化编码的重要方面显示出巨大的潜力。然而，鉴于 NL 是非正式的，它不容易检查生成的代码是否正确满足用户意图。在本文中，我们提出了一种新颖的交互式工作流程 TiCoder，用于通过测试引导意图澄清（即部分形式化），以支持生成更准确的代码建议。通过对 15 名程序员进行的混合方法用户研究，我们对工作流程提高代码生成准确性的有效性进行了实证评估。我们发现使用所提出的工作流程的参与者更有可能正确评估人工智能生成的代码，并且报告任务引起的认知负荷显着减少。此外，我们使用理想化的用户反馈代理，在两个 Python 数据集上使用四个不同的最先进的 LLM 大规模测试工作流程的潜力。我们观察到，除了自动生成随附的单元测试之外，两个数据集和所有 LLM 在 5 次用户交互中的 pass@1 代码生成准确度平均绝对提高了 38.43%。

构建大语言模型对抗幻觉的基准和干预措施

分类： 计算和语言, I.2.7

作者： Adi Simhi, Jonathan Herzig, Idan Szpektor, Yonatan Belinkov

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09971v1

摘要： 大型语言模型（LLM）很容易产生幻觉，这引发了检测和预防幻觉的广泛努力。最近的工作尝试通过使用不同的设置和启发式方法在生成过程中干预模型的计算来减轻幻觉。这些作品缺乏对不同幻觉原因的区分。在这项工作中，我们首先介绍了一种基于模型知识构建数据集的方法，用于闭卷和开卷问答环境中的检测和干预方法。然后，我们描述不同干预选择的效果，例如干预成分（MLP、注意力块、残余流和特定头），以及干预的频率和强度。我们发现干预成功与否取决于组件，有些组件不利于语言建模能力。最后，我们发现干预措施可以受益于幻觉前的指导方向，而不是幻觉后的指导。该代码位于 https://github.com/technion-cs-nlp/hallucination-mitigation

LLM 和 XR 时代的软件开发

分类： 软件工程

作者： Jesus M. Gonzalez-Barahona

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09789v1

摘要： 让我们想象一下，几年内生成式人工智能极大地改变了软件开发，接管了大部分编程任务。我们还假设扩展现实设备变得无处不在，成为与计算机交互的首选界面。本文通过探讨开发过程将如何受到影响，并分析支持开发人员需要哪些工具，提出了这种情况将如何影响 IDE。

Multi-News+：通过基于 LLM 的数据注释进行经济高效的数据集清理

分类： 计算和语言, 人工智能

作者： Juhwan Choi, Jungmin Yun, Kyohoon Jin, YoungBin Kim

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09682v1

摘要： 数据集的质量对于确保下游任务模型的最佳性能和可靠性至关重要。然而，数据集通常包含在构建过程中无意中包含的噪声数据。人们已经进行了许多尝试来通过人类注释者来纠正这个问题。然而，雇用和管理人工注释者既昂贵又耗时。作为替代方案，最近的研究正在探索使用大型语言模型 (LLM) 进行数据注释。在本研究中，我们提出了一个案例研究，该案例研究扩展了基于大语言模型的数据注释的应用，以通过清理策略提高现有数据集的质量。具体来说，我们利用思想链（CoT）和多数投票等方法来模仿人类注释并对多新闻数据集中的不相关文档进行分类，该数据集广泛用于多文档摘要任务。通过我们提出的清理方法，我们引入了增强的 Multi-News+。通过采用大语言模型进行数据清理，我们展示了一种高效且有效的方法来提高数据集质量，而无需依赖昂贵的人工注释工作。

大语言模型了解视觉异常吗？揭示大语言模型在零样本异常检测中的能力

分类： 计算机视觉和模式识别, 多媒体

作者： Jiaqi Zhu, Shaofeng Cai, Fang Deng, Junran Wu

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09654v1

摘要： 大型视觉语言模型（LVLM）在自然语言指导下导出视觉表示方面非常熟练。最近的探索利用 LVLM 来解决零样本视觉异常检测 (VAD) 挑战，方法是将图像与指示正常和异常条件的文本描述（称为异常提示）配对。然而，现有的方法依赖于容易出现跨语义歧义的静态异常提示，并且将全局图像级表示优先于关键的局部像素级图像到文本对齐，这是准确异常定位所必需的。在本文中，我们提出了 ALFA，这是一种免训练方法，旨在通过统一模型应对这些挑战。我们提出了一种运行时提示适应策略，该策略首先生成信息异常提示以利用大语言模型（LLM）的功能。该策略通过针对每个图像异常提示适应和跨语义歧义缓解的上下文评分机制得到增强。我们进一步引入了一种新颖的细粒度对齐器，通过将图像文本对齐从全局语义空间投影到局部语义空间，来融合局部像素级语义以实现精确的异常定位。对具有挑战性的 MVTec 和 VisA 数据集的广泛评估证实了 ALFA 在利用零样本 VAD 的语言潜力方面的有效性，与最先进的零样本相比，在 MVTec AD 上实现了 12.1% 的 PRO 改进，在 VisA 上实现了 8.9% 的 PRO 改进VAD 接近。

弥合大语言模型整体不同词汇之间的差距

分类： 计算和语言

作者： Yangyifan Xu, Jinliang Lu, Jiajun Zhang

发布时间： 2024-04-15

链接： http://arxiv.org/abs/2404.09492v1

摘要： 整合不同的大语言模型（LLM）来释放它们的互补潜力并利用它们的各自优势是非常有价值的。然而，各种大语言模型之间的词汇差异限制了之前的研究只能选择或混合完全生成的输出。这种限制阻碍了生成过程中输出的动态校正和增强，导致有效集成的能力有限。为了解决这个问题，我们提出了一种通过词汇对齐（EVA）来集成大语言模型的新方法。 EVA 弥合了各种大语言模型之间的词汇差距，使每个生成步骤都能够进行细致的集成。具体来说，我们首先在重叠标记的帮助下学习不同大语言模型词汇表之间的映射。随后，这些映射被用来将大语言模型的输出分布投影到一个统一的空间中，从而促进细粒度的集成。最后，我们设计了一种过滤策略来排除生成不忠实令牌的模型。常识推理、算术推理、机器翻译和数据到文本生成任务的实验结果表明，与单独的大语言模型和之前在完整输出上进行的集成方法相比，我们的方法具有优越性。进一步的分析证实，我们的方法可以利用来自不同语言模型的知识并产生持续的改进。

人们提示的任务：软件验证和伪造方法中的 LLM 下游任务的分类

分类： 软件工程, 人工智能, 计算和语言, 机器学习, F.3.1; D.2.4; D.2.5; I.2.7

作者： Víctor A. Braberman, Flavia Bonomo-Braberman, Yiannis Charalambous, Juan G. Colonna, Lucas C. Cordeiro, Rosiane de Freitas

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09384v1

摘要： 提示已成为利用大型语言模型的新兴功能的主要方法之一[Brown 等人。 NeurIPS 2020，Wei 等人。 TMLR 2022，Wei 等人。 NeurIPS 2022]。去年，研究人员和从业者一直在研究如何充分利用大语言模型学位。通过对 80 篇论文进行同质剖析，我们深入调查了软件测试和验证研究社区如何抽象地构建其支持 LLM 的解决方案。更准确地说，首先，我们想要验证下游任务是否是传达基于提示的解决方案蓝图的充分概念。我们还旨在确定解决方案中此类任务的数量和性质。为了实现这一目标，我们开发了一种新颖的下游任务分类法，可以在各种软件工程问题中精确定位一些工程模式，其中包括测试、模糊测试、调试、漏洞检测、静态分析和程序验证方法。

持续学习大语言模型的实用工具使用

分类： 计算和语言, 人工智能, 机器学习

作者： Jerry Huang, Prasanna Parthasarathi, Mehdi Rezagholizadeh, Sarath Chandar

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09339v1

摘要： 大型语言模型 (LLM) 显示了解决基于语言的任务的天生技能。但洞察表明，他们无法适应信息或解决任务的技能已经过时，因为他们的知识直接存储在参数中，及时保持静态。工具的使用有助于将工作转移到大语言模型可以通过界面访问的系统上，但使用这些工具的大语言模型仍然必须适应非固定环境才能长期使用，因为新工具可能会出现，现有工具也可能会发生变化。然而，工具需要较少的专业知识，因此我们假设它们更适合持续学习（CL），因为它们较少依赖参数记忆来解决任务，而是专注于学习何时应用预定义的工具。为了验证这一点，我们开发了一个综合基准，并通过聚合现有的 NLP 任务来遵循此基准，以形成更现实的测试场景。虽然我们证明缩放模型大小并不是一个解决方案，但无论工具的使用如何，持续学习技术都可以使工具大语言模型能够更快地适应，同时遗忘更少，从而凸显出他们作为持续学习者的潜力。

大型语言模型和人类一样有说服力，但为什么呢？关于大语言模型论证的认知努力和道德情感语言

分类： 计算和语言

作者： Carlos Carrasco-Farre

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09329v1

摘要： 大型语言模型（LLM）已经和人类一样有说服力。然而，我们对其原因知之甚少。本文研究了大语言模型的说服策略，并将其与人类生成的论点进行比较。我们使用由 1,251 名实验参与者组成的数据集，通过认知努力（词汇和语法复杂性）和道德情感语言（情感和道德分析）的测量来分析大语言模型生成和人类生成的论点的说服策略。研究表明，大语言模型提出的论点需要更高的认知努力，表现出比人类同行更复杂的语法和词汇结构。此外，大语言模型表现出更深入地参与道德语言的显着倾向，比人类更频繁地利用积极和消极的道德基础。与之前的研究相比，大语言模型和人类产生的情感内容没有发现显着差异。这些发现促进了关于人工智能和说服的讨论，强调了大语言模型通过数字说服沟通策略增强和破坏信息完整性的双重潜力。

LLM支持的教育问答系统的跨数据知识图构建：ACaseStudyatHCMUT

分类： 计算和语言

作者： Tuan Bui, Oanh Tran, Phuong Nguyen, Bao Ho, Long Nguyen, Thang Bui, Tho Quan

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09296v1

摘要： 在当今快速发展的人工智能领域，大型语言模型（LLM）已成为一个充满活力的研究主题。大语言模型在各个领域都有应用并做出了重大贡献。尽管大语言模型拥有强大的语言能力，类似于预先训练的语言模型 (PLM)，但大语言模型在记忆事件、整合新信息以及解决特定领域问题或幻觉方面仍然面临挑战。为了克服这些限制，研究人员提出了检索增强生成（RAG）技术，其他一些人提出了将大语言模型与知识图谱（KG）集成以提供事实上下文，从而提高性能并向用户查询提供更准确的反馈。教育对于人类的发展和进步起着至关重要的作用。随着技术变革，传统教育正在被数字或混合教育所取代。因此，数字环境下的教育数据日益增多。高等教育机构中的数据多种多样，包括非结构化/结构化文本、关系数据库、基于 Web/应用程序的 API 访问等多种来源。从这些跨数据源构建知识图并不是一项简单的任务。本文提出了一种从多个数据源自动构建知识图的方法，并讨论了 KG 与 LLM 结合用于问答任务的一些初步应用（实验性试验）。

新兴平台遇见新兴大语言模型：长达一年的自上而下的发展之旅

分类： 软件工程, 机器学习

作者： Siyuan Feng, Jiawei Liu, Ruihang Lai, Charlie F. Ruan, Yong Yu, Lingming Zhang, Tianqi Chen

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09151v1

摘要： 在不同的计算平台上部署机器学习 (ML) 对于加速和扩大其应用至关重要。然而，由于模型的快速发展，特别是最近的 \llmfull{s} (\llm{s}) 以及新计算平台的出现，它提出了重大的软件工程挑战。当前的 ML 框架主要是为 CPU 和 CUDA 平台设计的，在支持 Metal、Vulkan 和 WebGPU 等新兴框架方面存在很大差距。虽然传统的自下而上的开发流程无法及时缩小差距，但我们引入了 TapML，这是一种自上而下的方法和工具，旨在简化机器学习系统在不同平台上的部署，并针对开发人员的工作效率进行了优化。与涉及大量手动测试和调试的传统自下而上方法不同，TapML 通过测试雕刻实现单元测试自动化，并采用基于迁移的策略逐步将模型计算从成熟的源平台卸载到新兴的目标平台。通过利用真实的输入和远程连接来逐步卸载目标，TapML 可以加速验证并最大限度地减少调试范围，从而显着优化开发工作。 TapML 的开发和应用是经过长达一年的实际努力，成功部署了重要的新兴模型和平台。通过在 5 个新兴平台的 17 个不同架构中认真部署 82 个新兴模型，我们展示了 TapML 在提高开发人员生产力、同时确保模型可靠性和效率方面的有效性。此外，我们还总结了实际开发中的综合案例研究，提供了开发新兴机器学习系统的最佳实践。

揭晓以指标为重点的大语言模型评估：挑战和解决方案

分类： 计算和语言

作者： Taojun Hu, Xiao-Hua Zhou

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09135v1

摘要： 在大型语言模型 (LLM) 的成功推动下，自然语言处理 (NLP) 正在取得显着突破。大语言模型因其在文本生成、问题回答和文本摘要方面的多功能应用而受到学术界和工业界的广泛关注。随着自然语言处理领域的发展，越来越多的特定领域的大语言模型采用不同的技术并在不同的语料库上进行训练，评估这些模型的性能变得至关重要。为了量化绩效，全面掌握现有指标至关重要。在评估中，量化大语言模型绩效的指标起着至关重要的作用。本文从指标的角度对大语言模型评估进行了全面的探索，提供了对当前使用的指标的选择和解释的见解。我们的主要目标是阐明他们的数学公式和统计解释。我们利用最近的生物医学大语言模型阐明了这些指标的应用。此外，我们还对这些指标进行了简洁的比较，帮助研究人员为不同的任务选择适当的指标。总体目标是为研究人员提供有效的大语言模型评估和指标选择的实用指南，从而促进对这些大型语言模型的理解和应用。

通过多主体审议对大语言模型进行置信度校准和合理化

分类： 计算和语言

作者： Ruixin Yang, Dheeraj Rajagopa, Shirley Anugrah Hayati, Bin Hu, Dongyeop Kang

发布时间： 2024-04-14

链接： http://arxiv.org/abs/2404.09127v1

摘要： 对于当前的大型语言模型（LLM）来说，不确定性估计是一个重要问题，这些模型通常校准不佳且过于自信，特别是在基于人类反馈的强化学习（RLHF）方面。与人类不同，人类的决定和信心不仅源于内在信念，还可以通过日常观察进行调整，现有的大语言模型校准方法侧重于估计或引发个人信心，而没有充分利用“集体智慧”：多个大语言模型之间的相互作用这可以共同提高准确性和校准。在这项工作中，我们提出了协作校准，这是一种事后免培训校准策略，它在模拟的小组审议过程中利用多个工具增强的 LLM 代理的协作和表达能力。我们展示了协作校准在各个领域的生成 QA 任务上的有效性，展示了其在利用集体校准置信度评估的合理化和提高模型预测的可靠性方面的潜力。

CodeCloak：LLM代码助理评估和减轻代码泄漏的方法

分类： 密码学和安全, 计算和语言, 机器学习, 编程语言

作者： Amit Finkman, Eden Bar-Kochva, Avishag Shapira, Dudu Mimran, Yuval Elovici, Asaf Shabtai

发布时间： 2024-04-13

链接： http://arxiv.org/abs/2404.09066v1

摘要： 基于 LLM 的代码助手在开发人员中越来越受欢迎。这些工具根据开发人员的代码库提供实时建议，帮助开发人员提高编码效率并减少错误。虽然这些工具很有用，但在开发过程中可能会无意中将开发人员的专有代码暴露给代码助理服务提供商。在这项工作中，我们提出了两种补充方法来减轻使用基于 LLM 的代码助手时代码泄漏的风险。第一种技术是在开发过程中根据发送到代码助理服务（即提示）的代码段重建开发人员的原始代码库的技术，从而能够评估和评价代码向第三方（或对手）泄露的程度。第二个是 CodeCloak，这是一种新颖的深度强化学习代理，可以在将提示发送到代码助理服务之前对其进行操作。 CodeCloak 旨在实现以下两个相互矛盾的目标：(i) 最大限度地减少代码泄漏，同时 (ii) 为开发人员保留相关且有用的建议。我们的评估采用了 GitHub Copilot、StarCoder 和基于 CodeLlama LLM 的代码助手模型，展示了我们的 CodeCloak 方法在不同大小的不同代码存储库上的有效性，以及它在不同模型之间的可移植性。此外，我们生成一个真实的模拟编码环境，以彻底分析代码泄漏风险，并评估我们提出的缓解技术在实际开发场景下的有效性。

LLM 会玩骰子吗？探索行为模拟的大型语言模型中的概率分布采样

分类： 计算和语言

作者： Jia Gu, Liang Pang, Huawei Shen, Xueqi Cheng

发布时间： 2024-04-13

链接： http://arxiv.org/abs/2404.09043v1

摘要： 随着大型语言模型（LLM）的快速发展及其处理复杂语言任务的卓越能力，越来越多的研究采用 LLM 作为代理来模拟人类的顺序决策过程，通常表示为马尔可夫决策过程。 MDP）。该决策框架内的行动遵循特定的概率分布并需要迭代采样。这引起了我们对LLM智能体理解概率分布的能力的好奇，从而通过概率采样和生成行为序列来指导智能体的行为决策。为了回答上述问题，我们将问题分为两个主要方面：已知确切概率分布的模拟，以及概率分布不明确的序列的生成。第一种情况，要求智能体通过问题描述给出概率分布的类型和参数，然后给出采样序列。然而，我们的分析表明，LLM 代理在这种情况下表现不佳，但可以通过编程工具来提高采样成功率。现实世界的场景通常需要未知的概率分布。因此，在第二种情况下，我们要求代理改变在线社交网络中的活动水平并分析行为频率。最终，我们的分析表明，LLM 代理即使使用编程工具也无法对概率分布进行采样。因此，在直接应用LLM智能体作为模拟人类行为的智能体之前，仍然需要仔细考虑。

EIVEN：使用多模态 LLM 进行高效隐式属性值提取

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 信息检索, 机器学习

作者： Henry Peng Zou, Gavin Heqing Yu, Ziwei Fan, Dan Bu, Han Liu, Peng Dai, Dongmei Jia, Cornelia Caragea

发布时间： 2024-04-13

链接： http://arxiv.org/abs/2404.08886v1

摘要： 在电子商务中，从多模态数据中准确提取产品属性值对于提高用户体验和零售商的运营效率至关重要。然而，以前的多模态属性值提取方法通常难以处理嵌入图像或文本中的隐式属性值，严重依赖于广泛的标记数据，并且很容易混淆相似的属性值。为了解决这些问题，我们引入了 EIVEN，这是一种数据和参数高效的生成框架，它率先使用多模式 LLM 进行隐式属性值提取。 EIVEN 利用预训练的 LLM 和视觉编码器丰富的固有知识来减少对标记数据的依赖。我们还引入了一种新颖的比较学习技术，通过强制属性值比较和差异识别来减少模型混乱。此外，我们构建了用于多模式隐式属性值提取的初始开源数据集。我们广泛的实验表明，EIVEN 在提取隐式属性值方面明显优于现有方法，同时需要较少的标记数据。

调整大语言模型以实现无 FL 程序修复

分类： 软件工程, 计算和语言, 机器学习

作者： Junjielong Xu, Ying Fu, Shin Hwei Tan, Pinjia He

发布时间： 2024-04-13

链接： http://arxiv.org/abs/2404.08877v1

摘要： 大型语言模型（LLM）在自动程序修复（APR）方面取得了不错的成绩。然而，仅解码器的 LLM（例如 GPT-4）的下一个标记预测训练目标与当前填充式方法的掩蔽跨度预测目标不一致，这阻碍了 LLM 充分利用预先训练的知识进行程序修复。此外，虽然一些大语言模型能够在使用相关工件（例如测试用例）作为输入时端到端地定位和修复错误，但现有方法将它们视为单独的任务并要求大语言模型在固定位置生成补丁。这一限制阻碍了大语言模型探索给定位置之外的潜在补丁。在本文中，我们研究了一种使大语言模型适应程序修复的新方法。我们的核心见解是，只需将输出与培训目标保持一致，并允许他们在不首先执行故障定位的情况下改进整个程序，即可大大提高 LLM 的 APR 能力。基于这种洞察，我们设计了 D4C，一个简单的 APR 提示框架。 D4C 可以正确修复 Defects4J 中的 180 个错误，每个补丁仅采样 10 次。这比具有完美故障定位的 SOTA APR 方法提高了 10%，并减少了 90% 的补丁采样数量。我们的研究结果表明，(1) 目标对齐对于充分利用 LLM 的预训练功能至关重要，(2) 用直接调试代替传统的本地化然后修复工作流程对于基于 LLM 的 APR 方法更为有效。因此，我们相信本文引入了一种在 APR 中利用大语言模型的新思维方式。

LLM 情境回忆取决于提示

分类： 计算和语言, 机器学习

作者： Daniel Machlab, Rick Battle

发布时间： 2024-04-13

链接： http://arxiv.org/abs/2404.08865v1

摘要： 大型语言模型 (LLM) 的激增凸显了进行彻底评估以辨别其比较优势、局限性和最佳用例的至关重要性。尤其重要的是评估他们准确检索给定提示中包含的信息的能力。模型执行此操作的能力会显着影响其利用上下文细节的效率，从而影响其在实际应用中的实际功效和可靠性。我们的研究使用大海捞针的方法分析了各种大语言模型的上下文回忆表现。在这种方法中，事实陈述（“针”）被嵌入到填充文本块（“干草堆”）中，要求模型检索该填充文本。我们评估每个模型在不同的干草堆长度和不同的针位置上的召回性能，以识别性能模式。这项研究表明，大语言模型的回忆能力不仅取决于提示的内容，而且还可能受到其训练数据偏差的影响。相反，调整模型架构、训练策略或微调可以提高性能。我们的分析提供了对大语言模型行为的洞察，为开发更有效的大语言模型应用提供了方向。

CreativEval：评估基于 LLM 的硬件代码生成的创造力

分类： 计算和语言

作者： Matthew DeLorenzo, Vasudev Gohil, Jeyavijayan Rajendran

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08806v1

摘要： 事实证明，大型语言模型 (LLM) 在生成代码方面是有效且高效的，因此可以在硬件设计过程中得到利用。之前评估大语言模型寄存器传输级代码生成能力的工作仅关注功能正确性。然而，与这些大语言模型相关的创造力，或者说产生新颖和独特解决方案的能力，是一个尚未被充分理解的指标，部分原因是量化这种质量的挑战。为了解决这一研究空白，我们提出了 CreativeEval，这是一个用于评估大语言模型在生成硬件设计的背景下的创造力的框架。我们通过各种提示和后处理技术来量化四个创意子组件：流畅性、灵活性、原创性和精细化。然后，我们根据这个创造力指标评估多个流行的 LLM（包括 GPT 模型、CodeLlama 和 VeriGen），结果表明 GPT-3.5 是生成硬件设计中最具创意的模型。

Megalodon：具有无限上下文长度的高效 LLM 预训练和推理

分类： 机器学习, 计算和语言

作者： Xuezhe Ma, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu, Hao Zhang, Jonathan May, Luke Zettlemoyer, Omer Levy, Chunting Zhou

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08801v1

摘要： Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案，但从经验来看，它们在预训练效率和下游任务准确性方面表现不佳 Transformers。我们引入了 Megalodon，一种用于高效序列建模的神经架构，具有无限的上下文长度。 Megalodon继承了Mega（具有门控注意力的指数移动平均）的架构，并进一步引入了多种技术组件来提高其能力和稳定性，包括复杂指数移动平均（CEMA）、时间步标准化层、标准化注意力机制和具有两个特征的预标准化-hop 剩余配置。在与 Llama2 的受控头对头比较中，Megalodon 在 70 亿个参数和 2 万亿个训练 token 的规模上取得了比 Transformer 更好的效率。巨齿鲨的训练损失达到 1.70，落在 Llama2-7B (1.75) 和 13B (1.67) 之间。代码：https://github.com/XuezheMax/megalodon

LLM 可以替代 SQL 吗？比较查询 LLM 与传统关系数据库的资源利用率

分类： 数据库, 人工智能, 计算和语言, 68-04, H.2.m

作者： Xiang Zhang, Khatoon Khedri, Reza Rawassizadeh

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08727v1

摘要： 大型语言模型 (LLM) 可以自动化或替代软件工程过程中不同类型的任务。本研究评估了大语言模型在关系数据库管理系统中针对传统 SQL 解释和执行自然语言查询时的资源利用率和准确性。我们实证检验了 9 个 LLM 的资源利用率和准确性，参数范围为 7 到 340 亿个参数，包括 Llama2 7B、Llama2 13B、Mistral、Mixtral、Optimus-7B、SUS-chat-34B、platypus-yi-34b、NeuralHermes-2.5- Mistral-7B 和 Starling-LM-7B-alpha，使用小型交易数据集。我们的研究结果表明，使用 LLM 进行数据库查询会产生大量能源开销（即使是小型量化模型），这使其成为一种对环境不友好的方法。因此，我们建议不要用大语言模型取代关系数据库，因为它们占用大量资源。

RLHF 破译：对大语言模型人类反馈强化学习的批判性分析

分类： 机器学习, 人工智能, 计算和语言

作者： Shreyas Chaudhari, Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan, Ameet Deshpande, Bruno Castro da Silva

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08555v1

摘要： 最先进的大型语言模型（LLM）已成为各种任务不可或缺的工具。然而，培训大语言模型作为人类的有效助手需要仔细考虑。一种有前途的方法是根据人类反馈进行强化学习（RLHF），它利用人类反馈根据人类偏好更新模型，并减轻毒性和幻觉等问题。然而，大语言模型对 RLHF 的理解很大程度上与推广该方法的初始设计选择有关，而当前的研究重点是增强这些选择，而不是从根本上改进框架。在本文中，我们从强化学习原理的角度分析 RLHF，以加深对其基本原理的理解，并重点关注 RLHF 的核心组成部分——奖励模型。我们的研究调查了建模选择、函数逼近的注意事项及其对 RLHF 训练算法的影响，强调了关于奖励表达性的基本假设。我们的分析提高了对奖励模型及其训练方法的作用的理解，同时揭示了当前方法的局限性。我们描述了这些限制的特征，包括不正确的概括、模型的错误指定和反馈的稀疏性，以及它们对语言模型性能的影响。对当前文献的分类回顾证实了讨论和分析，为研究人员和从业者了解 RLHF 的挑战并在现有努力的基础上发展提供参考。

大语言模型在线安全分析：基准、评估和前进之路

分类： 软件工程, 人工智能, 计算和语言, 密码学和安全, 机器学习

作者： Xuan Xie, Jiayang Song, Zhehua Zhou, Yuheng Huang, Da Song, Lei Ma

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08517v1

摘要： 虽然大型语言模型（LLM）已在众多领域得到广泛应用，但其有限的可解释性从多个方面（例如真实性、稳健性和公平性）引起了对其安全操作的担忧。最近的研究已经开始开发大语言模型的质量保证方法，引入基于离线检测器或不确定性估计方法等技术。然而，这些方法主要集中于生成后分析，使得生成阶段大语言模型的在线安全分析成为一个尚未探索的领域。为了弥补这一差距，我们在这项工作中对大语言模型现有在线安全分析方法的有效性进行了全面评估。我们从一项试点研究开始，验证在早期生成过程中检测不安全输出的可行性。在此之后，我们为大语言模型建立了第一个公开可用的在线安全分析基准，包括广泛的方法、模型、任务、数据集和评估指标。利用这个基准，我们广泛分析了最先进的在线安全分析方法在开源和闭源大语言模型上的性能。该分析揭示了各个方法的优点和缺点，并为根据特定应用场景和任务要求选择最合适的方法提供了宝贵的见解。此外，我们还探索了使用混合方法的潜力，即结合多种方法得出集体安全结论，以提高大语言模型在线安全分析的有效性。我们的研究结果为大语言模型开发创新且值得信赖的质量保证方法提供了一个有希望的方向，促进其在不同领域的可靠部署。

基于代理模型的序列长度预测的高效交互式 LLM 服务

分类： 分布式、并行和集群计算, 计算和语言, 机器学习

作者： Haoran Qiu, Weichao Mao, Archit Patke, Shengkun Cui, Saurabh Jha, Chen Wang, Hubertus Franke, Zbigniew T. Kalbarczyk, Tamer Başar, Ravishankar K. Iyer

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08509v1

摘要： 大型语言模型 (LLM) 一直在推动跨众多领域的交互式人工智能应用的新浪潮。然而，有效地服务 LLM 推理请求具有挑战性，因为生成模型的自回归性质导致执行时间不可预测。现有的 LLM 服务系统采用先到先服务 (FCFS) 调度方式，存在队头阻塞问题。为了解决 LLM 的不确定性并实现高效的交互式 LLM 服务，我们提出了一种推测性最短作业优先 (SSJF) 调度程序，它使用轻代理模型来预测 LLM 输出序列长度。我们的开源 SSJF 实现不需要更改内存管理或批处理策略。对实际数据集和生产工作负载跟踪的评估表明，与 FCFS 调度程序相比，SSJF 在无批处理、动态批处理和连续批处理设置下，平均作业完成时间减少了 30.5-39.6%，吞吐量提高了 2.2-3.6 倍。

比较苹果和橙子：对象分类任务中由大语言模型支持的多模态意图预测

分类： 机器人技术, 人工智能, 人机交互

作者： Hassan Ali, Philipp Allgeuer, Stefan Wermter

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08424v1

摘要： 基于意图的人机交互（HRI）系统使机器人能够感知和解释用户的行为，从而主动与人类交互并适应他们的行为。因此，意图预测对于创建人与机器人之间的自然交互协作至关重要。在本文中，我们研究了在与物理机器人进行协作对象分类任务期间使用大型语言模型（LLM）推断人类意图的情况。我们引入了一种分层方法来解释用户非语言提示，例如手势、身体姿势和面部表情，并将它们与环境状态和使用现有自动语音识别（ASR）系统捕获的用户语言提示相结合。我们的评估证明了大语言模型在解释非语言线索并将其与上下文理解能力和现实世界知识相结合以支持人机交互期间的意图预测方面的潜力。

AdapterSwap：通过数据删除和访问控制保证对大语言模型进行持续培训

分类： 机器学习, 人工智能, 计算和语言

作者： William Fleshman, Aleem Khan, Marc Marone, Benjamin Van Durme

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08417v1

摘要： 大型语言模型（LLM）越来越有能力通过从静态预训练语料库中调用信息来完成知识密集型任务。在这里，我们关注不断变化的数据需求背景下的大语言模型。例如：定期引入批量新数据；具有基于用户的访问控制的数据子集；或动态删除文档的要求，并保证相关知识无法被召回。我们希望满足这些要求，同时确保模型在新数据可用时不会忘记旧信息。为了解决这些问题，我们引入了 AdapterSwap，这是一种训练和推理方案，它将数据集合中的知识组织到一组低级适配器中，这些适配器在推理过程中动态组合。我们的实验证明了 AdapterSwap 能够支持高效的持续学习，同时还使组织能够对数据访问和删除进行细粒度的控制。

迈向大语言模型的代币化理论

分类： 计算和语言, 机器学习

作者： Nived Rajaraman, Jiantao Jiao, Kannan Ramchandran

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08335v1

摘要： 虽然有大量研究试图规避语言建模的标记化（Clark 等人，2022；Xue 等人，2022），但目前的共识是，这是设计最新状态的必要的初始步骤。 -艺术表演语言模型。在本文中，我们通过研究变压器在简单数据生成过程中的行为，从理论角度研究了标记化。当对从某些简单的 $k^{\text{th}}$ 阶马尔可夫过程中提取的数据进行训练（$k > 1$）时，变压器表现出令人惊讶的现象 - 在没有标记化的情况下，它们根据经验无法学习正确的分布并根据一元模型预测字符（Makkuva 等人，2024）。然而，通过添加标记化，我们凭经验观察到变压器突破了这一障碍，并且能够对从源中提取的序列的概率进行近乎最优的建模，从而实现较小的交叉熵损失。以此观察为起点，我们研究了有和没有标记化的变压器实现的端到端交叉熵损失。通过适当的标记化，我们表明，即使是 Transformer 学习的最简单的一元模型（通过标记）也能够对从 $k^{\text{th}}$ 阶马尔可夫源抽取的序列的概率进行近乎最佳的建模。我们的分析通过研究马尔可夫数据上变压器的行为，为在实践中使用标记化提供了理由。

有毒的问题：深入探讨大语言模型在越狱尝试中的态度变化

分类： 密码学和安全, 人工智能, 计算和语言

作者： Tianyu Zhang, Zixuan Zhao, Jiaqi Huang, Jingyu Hua, Sheng Zhong

发布时间： 2024-04-12

链接： http://arxiv.org/abs/2404.08309v1

摘要： 随着快速越狱的大型语言模型（LLM）越来越受到关注，提出一个通用的研究范式来评估攻击强度和一个基础模型来进行更精细的实验具有重要意义。在本文中，我们提出了一种新颖的方法，重点关注一组本质上对越狱提示更加敏感的目标问题，旨在规避增强的 LLM 安全性带来的限制。通过设计和分析这些敏感问题，本文揭示了一种更有效的识别大语言模型漏洞的方法，从而为大语言模型安全性的进步做出贡献。这项研究不仅挑战了现有的越狱方法，而且还增强了大语言模型抵御潜在漏洞的能力。

通过解释解决方案程序从大语言模型中提炼算法推理

分类： 计算和语言

作者： Jierui Li, Raymond Mooney

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.08148v1

摘要： 提炼显式的思想链推理路径已成为提高大型语言模型（LLM）跨各种任务的推理能力的有效方法。然而，在处理对最先进模型构成重大挑战的复杂任务时，这种技术通常很难产生有效的思维链来得出正确的答案。在这项工作中，我们提出了一种新方法，通过利用大语言模型解释解决方案的能力来提炼他们的推理能力。我们应用我们的方法来解决竞争级别的编程挑战。更具体地说，我们采用 LLM 来生成一组 <问题，解决方案-程序> 对的解释，然后使用 <问题，解释> 对来微调较小的语言模型（我们将其称为 Reasoner）来学习算法推理可以为未见过的问题生成“如何解决”提示。我们的实验表明，从解释中学习使 Reasoner 能够更有效地指导编码员执行程序，从而在竞争级别的编程问题上比强大的思想链基线获得更高的解决率。它还优于直接从<问题，解决方案-程序>对学习的模型。我们以 CodeContests 格式策划了一个额外的测试集，其中包括模型知识截止后发布的 246 个最新问题。

LLM 代理可以自主利用一日漏洞

分类： 密码学和安全, 人工智能

作者： Richard Fang, Rohan Bindu, Akul Gupta, Daniel Kang

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.08144v1

摘要： 大语言模型无论是在善意还是恶意用途方面都变得越来越强大。随着能力的增强，研究人员对其利用网络安全漏洞的能力越来越感兴趣。特别是，最近的工作对LLM代理自主黑客网站的能力进行了初步研究。然而，这些研究仅限于简单的漏洞。在这项工作中，我们展示了 LLM 代理可以自主利用现实系统中的一日漏洞。为了证明这一点，我们收集了 15 个一日漏洞的数据集，其中包括 CVE 描述中被归类为严重严重性的漏洞。当给出 CVE 描述时，GPT-4 能够利用其中 87% 的漏洞，而我们测试的其他所有模型（GPT-3.5、开源 LLM）和开源漏洞扫描程序（ZAP 和 Metasploit）只能利用 0%。幸运的是，我们的 GPT-4 代理需要 CVE 描述才能获得高性能：如果没有描述，GPT-4 只能利用 7% 的漏洞。我们的研究结果对高能力大语言模型代理人的广泛部署提出了质疑。

大语言模型摘要拍卖

分类： 计算机科学与博弈论, 人工智能

作者： Kumar Avinava Dubey, Zhe Feng, Rahul Kidambi, Aranyak Mehta, Di Wang

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.08126v1

摘要： 我们研究了一种拍卖设置，其中投标人竞标将其内容放置在大型语言模型（LLM）生成的摘要中，例如，显示的是多个广告的摘要段落的广告拍卖。这将经典广告设置（例如位置拍卖）概括为 LLM 生成的设置，这使我们能够处理通用显示格式。我们提出了一种新颖的分解框架，其中拍卖模块和大语言模型模块通过预测模型协同工作，以激励兼容的方式提供福利最大化的摘要输出。我们对该框架进行了理论分析，并进行了综合实验，以证明该系统的可行性和有效性以及福利比较。

大语言模型基于数据增强的方言适应

分类： 计算和语言, 人工智能

作者： Fahim Faisal, Antonios Anastasopoulos

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.08092v1

摘要： 本报告介绍了 GMUNLP 参与 VarDial 2024 年方言-Copa 共享任务的情况，该任务的重点是评估大语言模型 (LLM) 对南斯拉夫微方言的常识推理能力。该任务旨在评估大语言模型处理非标准方言品种的能力，因为他们在标准语言上的表现已经很成熟。我们提出了一种方法，结合了不同类型语言模型的优势，并利用数据增强技术来提高三种南斯拉夫方言的任务性能：Chakavian、Cherkano 和 Torlak。我们使用以语言家族为中心的基于编码器的模型 (BERTi'c) 和与领域无关的多语言模型 (AYA-101) 进行实验。我们的结果表明，所提出的数据增强技术可以在开源模型类别中的所有三个测试数据集上带来显着的性能提升。这项工作强调了数据增强的实际效用以及大语言模型在处理非标准方言变体方面的潜力，有助于实现在资源匮乏和方言环境中促进自然语言理解的更广泛目标。代码：https://github.com/ffaisal93/dialect_copa

SQBC：使用大语言模型生成的综合数据进行主动学习，用于在线政治讨论中的立场检测

分类： 计算和语言, 人工智能, 机器学习

作者： Stefan Sylvius Wagner, Maike Behrendt, Marc Ziegele, Stefan Harmeling

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.08078v1

摘要： 对于许多分析或支持在线政治讨论的应用程序来说，立场检测是一项重要任务。常见的方法包括微调基于变压器的模型。然而，这些模型需要大量的标记数据，而这些数据可能无法获得。在这项工作中，我们提出了两种不同的方法来利用 LLM 生成的合成数据来训练和改进在线政治讨论的立场检测代理：首先，我们证明用合成数据增强小型微调数据集可以提高立场的性能检测模型。其次，我们提出了一种基于“委员会查询”方法的新主动学习方法，称为 SQBC。关键思想是使用大语言模型生成的合成数据作为预言机来识别信息最丰富的未标记样本，并选择这些样本进行手动标记。综合实验表明，这两种想法都可以提高姿态检测性能。奇怪的是，我们观察到对主动选择的样本进行微调可以超过使用完整数据集的性能。

通过大语言模型生成游戏：视频游戏描述语言的调查

分类： 人工智能

作者： Chengpeng Hu, Yunlong Zhao, Jialin Liu

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.08706v1

摘要： 最近，大型语言模型（LLM）的出现为程序内容生成带来了新的机遇。然而，最近的尝试主要集中在具有明确游戏规则的特定游戏的关卡生成，例如《超级马里奥兄弟》和《塞尔达传说》。本文通过大语言模型研究了游戏生成。基于视频游戏描述语言，本文提出了一种基于LLM的框架来同时生成游戏规则和关卡。实验演示了该框架如何在考虑不同上下文组合的情况下与提示一起工作。我们的研究结果扩展了大语言模型当前的应用，并为在程序内容生成领域生成新游戏提供了新的见解。

利用大型语言模型 (LLM) 支持人类与人工智能协作在线风险数据注释

分类： 人机交互, 人工智能

作者： Jinkyung Park, Pamela Wisniewski, Vivek Singh

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07926v1

摘要： 在这篇立场文件中，我们讨论了利用大语言模型作为交互式研究工具来促进人类编码员和人工智能之间的协作以有效地大规模注释在线风险数据的潜力。人机协作标记是一种很有前途的方法，可以为各种任务注释大规模且复杂的数据。然而，支持有效的人类与人工智能协作进行数据注释的工具和方法尚未得到充分研究。这种差距是相关的，因为联合标记任务需要支持双向互动讨论，可以增加细微差别和背景，特别是在高度主观和情境化的在线风险背景下。因此，我们提供了使用基于大语言模型的工具进行风险注释的一些早期好处和挑战，并为人机交互研究社区提出了未来的方向，以利用大语言模型作为研究工具，促进情境化在线数据注释中的人类与人工智能的协作。我们的研究兴趣与大语言模型作为研究工具研讨会的目的非常吻合，旨在确定使用大语言模型在人机交互研究中处理数据的持续应用和挑战。我们期望从组织者和参与者那里学习大语言模型如何帮助重塑 HCI 社区处理数据的方法的宝贵见解。

AmpleGCG：学习一种通用且可转移的对抗性后缀生成模型，用于越狱开放式和封闭式大语言模型

分类： 计算和语言

作者： Zeyi Liao, Huan Sun

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07921v1

摘要： 随着大型语言模型 (LLM) 变得越来越普遍并集成到自治系统中，确保其安全势在必行。尽管在安全对齐方面取得了重大进展，但最近的工作 GCG~\citep{zou2023universal} 提出了一种离散令牌优化算法，并选择损失最低的单个后缀来成功越狱对齐 LLM。在这项工作中，我们首先讨论在 GCG 优化越狱过程中仅选择损失最低的后缀的缺点，并在中间步骤中发现错过的成功后缀。此外，我们利用这些成功的后缀作为训练数据来学习名为 AmpleGCG 的生成模型，该模型捕获给定有害查询的对抗性后缀的分布，并能够在几秒钟内快速生成任何有害查询的数百个后缀。 AmpleGCG 在两个对齐的 LLM（Llama-2-7B-chat 和 Vicuna-7B）上实现了接近 100% 的攻击成功率 (ASR)，超过了两个最强的攻击基线。更有趣的是，AmpleGCG 还可以无缝转移攻击不同的模型，包括闭源 LLM，在最新的 GPT-3.5 上实现了 99% 的 ASR。总而言之，我们的工作通过训练对抗性后缀的生成模型来放大 GCG 的影响，该模型对于任何有害查询都是通用的，并且可以从攻击开源 LLM 转移到闭源 LLM。此外，它可以在短短 4 秒内为一个有害查询生成 200 个对抗性后缀，这使得防御更具挑战性。

ODA：用于集成大语言模型和知识图的观察驱动代理

分类： 计算和语言, 人工智能

作者： Lei Sun, Zhengwei Tao, Youdi Li, Hiroshi Arakawa

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07677v1

摘要： 大型语言模型（LLM）和知识图（KG）的集成在各种自然语言处理任务中取得了显着的成功。然而，整合大语言模型和知识图谱的现有方法通常仅根据大语言模型对问题的分析来引导任务解决过程，而忽视了知识图谱中封装的大量知识所固有的丰富认知潜力。为了解决这个问题，我们引入了观察驱动代理（ODA），这是一种专为涉及知识图谱的任务量身定制的新型人工智能代理框架。 ODA通过全局观察结合KG推理能力，通过观察、行动和反思的循环范式增强推理能力。面对观察过程中知识的指数爆炸，我们创新性地设计了递归观察机制。随后，我们将观察到的知识整合到行动和反思模块中。通过大量实验，ODA 在多个数据集上展示了最先进的性能，特别是准确率提高了 12.87% 和 8.9%。

医学 mT5：医学领域的开源多语言文本到文本 LLM

分类： 计算和语言, 人工智能, 机器学习

作者： Iker García-Ferrero, Rodrigo Agerri, Aitziber Atutxa Salazar, Elena Cabrio, Iker de la Iglesia, Alberto Lavelli, Bernardo Magnini, Benjamin Molinet, Johana Ramirez-Romero, German Rigau, Jose Maria Villa-Gonzalez, Serena Villata, Andrea Zaninello

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07613v1

摘要： 用于开发医学应用的语言技术研究是当前自然语言理解和生成领域的热门话题。因此，许多大型语言模型（LLM）最近已适应医学领域，因此它们可以用作人类与人工智能交互的中介工具。虽然这些大语言模型在自动化医学文本基准上表现出有竞争力的表现，但他们已经过预培训和评估，重点关注单一语言（主要是英语）。对于文本到文本模型尤其如此，该模型通常需要大量特定于领域的预训练数据，而许多语言通常不容易访问这些数据。在本文中，我们通过据我们所知编译了四种语言（即英语、法语、意大利语和西班牙语）医学领域最大的多语言语料库来解决这些缺点。这个新语料库已用于训练 Medical mT5，这是医学领域第一个开源文本到文本多语言模型。此外，我们还为所有四种语言提供了两个新的评估基准，旨在促进该领域的多语言研究。综合评估表明，Medical mT5 在西班牙语、法语和意大利语基准方面优于编码器和类似大小的文本到文本模型，同时与当前最先进的英语大语言模型具有竞争力。

UltraEval：为大语言模型提供灵活、全面评估的轻量级平台

分类： 计算和语言

作者： Chaoqun He, Renjie Luo, Shengding Hu, Yuanqian Zhao, Jie Zhou, Hanghao Wu, Jiajie Zhang, Xu Han, Zhiyuan Liu, Maosong Sun

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07584v1

摘要： 评估对于磨练大型语言模型 (LLM)、查明其能力并指导增强功能至关重要。大语言模型的快速发展需要一个轻量级且易于使用的框架来快速部署评估。然而，由于需要考虑各种实施细节，开发一个全面的评估平台绝非易事。现有平台通常很复杂且模块化程度较差，阻碍了无缝融入研究人员的工作流程。本文介绍了UltraEval，一个用户友好的评估框架，具有轻量级、全面性、模块化和高效的特点。我们确定并重新实现模型评估的三个核心组成部分（模型、数据和指标）。由此产生的可组合性允许在统一的评估工作流程中自由组合不同的模型、任务、提示和指标。此外，UltraEval通过统一的HTTP服务支持多样化的模型，并提供足够的推理加速。 UltraEval 现在可供研究人员公开使用~\footnote{网站位于 \url{https://github.com/OpenBMB/UltraEval}}。

分解标签空间、格式和歧视：重新思考大语言模型如何通过情境学习响应和解决任务

分类： 计算和语言

作者： Quanyu Long, Yin Wu, Wenya Wang, Sinno Jialin Pan

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07546v1

摘要： 随着大规模大型语言模型 (LLM) 的发展，上下文学习 (ICL) 已成为一种强大的功能。通过使用少量演示示例指导大语言模型，ICL 使他们能够执行广泛的任务，而无需更新数百万个参数。然而，在最近的分析研究中，演示对提高最终任务绩效的确切贡献尚未得到彻底调查。在本文中，我们根据经验将 ICL 的整体表现分解为三个维度：标签空间、格式和辨别力，并评估了跨不同任务范围的四个通用 LLM。与直觉相反，我们发现演示对于激发语言模型的歧视性知识具有边际影响。然而，ICL 在调节标签空间和格式方面表现出显着的功效，有助于大语言模型以所需的标签词做出反应。然后，我们展示了这种能力的功能，类似于大语言模型需要遵循的详细说明。我们还对 ICL 的检索机制进行了深入分析，发现检索语义上最相似的示例可以显着提高模型的判别能力。

WESE：LLM 代理的弱探索到强开发

分类： 人工智能, 多代理系统

作者： Xu Huang, Weiwen Liu, Xiaolong Chen, Xingmei Wang, Defu Lian, Yasheng Wang, Ruiming Tang, Enhong Chen

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07456v1

摘要： 最近，大型语言模型（LLM）显示出作为智能代理的巨大潜力。然而，现有的研究主要集中在通过精心设计的提示工程或针对特定任务的微调来增强智能体的推理或决策能力，而忽略了探索和利用的过程。当在开放世界交互环境中解决复杂任务时，这些方法表现出局限性。首先，缺乏环境的全局信息会导致贪婪决策，从而导致次优解决方案。另一方面，从环境中获取的不相关信息不仅会引入噪声，还会产生额外的成本。本文提出了一种新方法，即弱探索到强利用（WESE），以增强 LLM 代理解决开放世界交互任务的能力。具体来说，WESE涉及解耦探索和利用过程，采用具有成本效益的弱代理来执行全局知识的探索任务。然后引入基于知识图的策略来存储所获取的知识并提取任务相关知识，从而提高更强的智能体开发任务的成功率和效率。我们的方法足够灵活，可以整合不同的任务，并在四个交互式基准测试中获得成功率和效率的显着提高。

学习定位对象可提高视觉大语言模型的空间推理能力

分类： 计算机视觉和模式识别

作者： Kanchana Ranasinghe, Satya Narayan Shukla, Omid Poursaeed, Michael S. Ryoo, Tsung-Yu Lin

发布时间： 2024-04-11

链接： http://arxiv.org/abs/2404.07449v1

摘要： 将大型语言模型 (LLM) 集成到视觉领域任务中，形成视觉 LLM (V-LLM)，从而在视觉语言任务中实现卓越的性能，特别是视觉问答 (VQA)。然而，现有的 V-LLM（例如 BLIP-2、LLaVA）表现出较弱的空间推理和定位意识。尽管生成了高度描述性和详尽的文本答案，但这些模型在区分左右位置等简单任务上失败了。在这项工作中，我们探索基于图像空间坐标的指令微调目标如何将空间意识注入 V-LLM。我们发现了最佳坐标表示、数据高效的指令微调目标和伪数据生成策略，这些策略可以提高 V-LLM 的空间意识。此外，我们生成的模型改进了图像和视频领域的 VQA，减少了不需要的幻觉，并生成更好的上下文对象描述。涉及 14 个不同数据集的 5 个视觉语言任务的实验表明，我们提出的框架取得了明显的性能改进。

你的LLM过时了吗？大语言模型的基准测试和时间敏感知识的对齐算法

分类： 计算和语言, 人工智能

作者： Seyed Mahed Mousavi, Simone Alghisi, Giuseppe Riccardi

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.08700v1

摘要： 我们研究大型语言模型（LLM）作为知识存储库的适用性。我们专注于保持大语言模型的事实知识随着时间的推移保持最新的挑战。由于缺乏关于识别大语言模型中过时知识的研究，我们设计并开发了一个动态基准，其中包含每个目标事实问题的最新地面真相答案。我们根据从维基数据实时检索的时间敏感知识来评估十八个开源和闭源最先进的大语言模型。我们选择政治、体育和组织中的时间敏感领域事实，并估计模型在预训练\微调期间学到的信息的新近度。在第二个贡献中，我们评估了知识编辑方法将大语言模型与最新事实知识结合起来的有效性，并将其性能与检索增强生成进行了比较。动态基准旨在按原样使用来评估大语言模型的最新性，并通过共享代码、数据集以及评估和可视化脚本扩展到其他领域。

分析数据选择和微调对大语言模型经济和政治偏见的影响

分类： 计算和语言, 人工智能, 机器学习

作者： Ahmed Agiza, Mohamed Mostagir, Sherief Reda

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.08699v1

摘要： 在语言模型越来越多地融入决策和交流的时代，理解大型语言模型（LLM）中的偏见变得势在必行，特别是当这些模型应用于经济和政治领域时。这项工作调查了微调和数据选择对大语言模型经济和政治偏见的影响。我们探讨了大语言模型偏向特定意识形态的方法论方面，并注意他们对不同数据集的广泛培训所产生的偏见。我们的方法与早期关注较小模型或需要资源密集型预训练的方法不同，采用参数高效微调（PEFT）技术。这些技术允许通过修改一小部分参数来使大语言模型与目标意识形态保持一致。我们引入了一种用于数据集选择、注释和指令调整的系统方法，并通过定量和定性评估来评估其有效性。我们的工作分析了将特定偏见嵌入大语言模型的可能性，并促进有关人工智能道德应用的对话，强调以符合社会价值观的方式部署人工智能的重要性。

BISCUIT：在计算笔记本中使用临时 UI 搭建 LLM 生成的代码

分类： 人机交互, 人工智能

作者： Ruijia Cheng, Titus Barik, Alan Leung, Fred Hohman, Jeffrey Nichols

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07387v1

摘要： 新手经常在计算笔记本中学习机器学习教程，并一直在采用基于大型语言模型 (LLM) 的代码生成技术。然而，他们在理解和使用大语言模型生成的代码方面遇到了困难。为了缓解这些挑战，我们在计算笔记本中引入了一种新颖的工作流程，通过额外的临时 UI 步骤来增强基于 LLM 的代码生成，为用户提供基于 UI 的支架作为用户提示和代码生成之间的中间阶段。我们在 BISCUIT 中展示了这个工作流程，BISCUIT 是 JupyterLab 的扩展，它为用户提供由 LLM 基于其代码上下文和意图生成的临时 UI，为用户提供理解、指导和探索 LLM 生成的代码的脚手架。通过 10 个新手使用 BISCUIT 进行机器学习教程的用户研究，我们发现 BISCUIT 提供了代码的用户语义表示来帮助他们理解，降低了提示工程的复杂性，并为用户创建了一个探索不同变量并迭代他们的想法的游乐场。我们讨论了我们的研究结果对代码生成大语言模型中以 UI 为中心的交互范式的影响。

从失败中学习：用试错数据微调大语言模型以进行直觉命题逻辑证明

分类： 人工智能, 计算机科学中的逻辑

作者： Chenyang An, Zhibo Chen, Qihao Ye, Emily First, Letian Peng, Jiayun Zhang, Zihan Wang, Sorin Lerner, Jingbo Shang

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07382v1

摘要： 自动定理证明的最新进展表明，利用（大型）语言模型生成策略（即证明步骤）来搜索证明状态是有效的。当前的模型虽然仅在成功的证明路径上进行训练，但在推理阶段面临着差异，因为它必须在每个证明状态下采样并尝试各种策略，直到找到成功，这与不从失败的尝试中学习的训练不同。直观上，导致搜索路径失败的策略表明类似的策略在接下来的试验中应该受到较少的关注。在本文中，我们展示了从失败的搜索路径中额外学习的训练模型的好处。面对现有的开源定理证明数据集中缺乏此类试错数据的情况，我们整理了一个直觉命题逻辑定理数据集，并以 Lean 形式化它，以便我们能够可靠地检查证明的正确性。我们将在相对较短的试错信息（TrialMaster）上训练的模型与仅在正确路径上训练的模型进行比较，发现前者用较低的试验搜索解决了更多未见过的定理。

生物医学大语言模型：临床命名实体识别研究

分类： 计算和语言

作者： Masoud Monajatipoor, Jiaxin Yang, Joel Stremmel, Melika Emami, Fazlolah Mohaghegh, Mozhdeh Rouhsedaghat, Kai-Wei Chang

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07376v1

摘要： 大型语言模型 (LLM) 在各种 NLP 任务中表现出卓越的多功能性，但由于医学语言的复杂性和数据稀缺性，在生物医学领域遇到了明显的挑战。本文通过探索提高大语言模型在命名实体识别（NER）任务中的性能的策略，研究了大语言模型在医学领域的应用。具体来说，我们的研究揭示了精心设计的提示在生物医学中的重要性。对上下文中示例的策略选择产生了显着的改进，在小样本临床 NER 的所有基准数据集中，F1 分数增加了约 15-20%。此外，我们的研究结果表明，通过激励策略整合外部资源可以弥合通用 LLM 熟练程度和医学 NER 的专业需求之间的差距。利用医学知识库，我们提出的受检索增强生成（RAG）启发的方法可以提高零样本临床 NER 的大语言模型的 F1 分数。我们将在发布后发布代码。

从以模型为中心到以人为中心：修订距离作为大语言模型应用程序中文本评估的指标

分类： 计算和语言, 信息检索

作者： Yongqiang Ma, Lizhi Qing, Jiawei Liu, Yangyang Kang, Yue Zhang, Wei Lu, Xiaozhong Liu, Qikai Cheng

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.07108v2

摘要： 评估大型语言模型 (LLM) 至关重要，尤其是在实际应用中。传统的评估方法通常主要为大语言模型开发而设计，产生的数字分数忽略了用户体验。因此，在人工智能驱动的写作辅助应用程序中，我们的研究重点从以模型为中心的评估转向以人为中心的评估。我们提出的指标称为“修订距离”，利用大语言模型来建议模仿人类写作过程的修订编辑。它是通过计算大语言模型生成的修订编辑来确定的。受益于生成的修订编辑详细信息，我们的指标可以以人类可理解的方式提供不言自明的文本评估结果，超越上下文无关的分数。我们的结果表明，对于简单的写作任务，“修订距离”与既定指标（ROUGE、Bert 分数和 GPT 分数）一致，但提供了更有洞察力、更详细的反馈并更好地区分文本。此外，在具有挑战性的学术写作任务的背景下，我们的指标仍然可以提供可靠的评估，而其他指标往往难以做到这一点。此外，我们的指标对于缺乏参考文本的场景也具有巨大的潜力。

MetaCheckGPT——使用 LLM 不确定性和元模型的多任务幻觉检测器

分类： 计算和语言, 人工智能, 68T07, 68T50, I.2.7

作者： Rahul Mehta, Andrew Hoblitzell, Jack O'Keefe, Hyeju Jang, Vasudeva Varma

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06948v2

摘要： 大型语言模型（LLM）中的幻觉最近已成为一个重大问题。最近在这个方向上的一项努力是 Semeval 2024 任务 6 的共享任务 SHROOM，这是一项关于幻觉和相关可观察到的过度生成错误的共享任务。本文描述了我们的获胜解决方案，分别在模型不可知和模型感知轨道的 2 个子任务中排名第一和第二。我们提出了一个用于模型评估和集成的大语言模型元回归框架，该框架在排行榜上取得了最高分。我们还尝试了各种基于 Transformer 的模型和黑盒方法，例如 ChatGPT、Vectara 等。此外，我们将 GPT4 与我们的最佳模型进行了误差分析，这显示了前者的局限性。

GoEX：自主 LLM 应用程序运行时的视角和设计

分类： 计算和语言, 人工智能

作者： Shishir G. Patil, Tianjun Zhang, Vivian Fang, Noppapon C., Roy Huang, Aaron Hao, Martin Casado, Joseph E. Gonzalez, Raluca Ada Popa, Ion Stoica

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06921v1

摘要： 大型语言模型 (LLM) 正在不断发展，超越了在对话系统中提供信息的传统角色，积极使用工具并对现实世界的应用程序和服务执行操作。如今，人们在将 LLM 生成的输出（例如代码、函数或操作）投入实际执行之前验证它们的正确性和适当性。这带来了重大挑战，因为众所周知，代码理解非常困难。在本文中，我们研究了人类未来如何有效地与自主大语言模型合作、委托和监督。我们认为，在许多情况下，“事后验证”（在看到输出后验证提议的操作的正确性）比前面提到的“事前验证”设置要容易得多。启用事后验证系统背后的核心概念是集成直观的撤消功能，并为 LLM 生成的操作建立损害限制，作为减轻相关风险的有效策略。使用此功能，人们现在可以恢复大语言模型生成的输出的影响，或者确信潜在风险是有限的。我们认为，这对于释放 LLM 代理在有限（事后）人工参与的情况下与应用程序和服务交互的潜力至关重要。我们描述了用于执行 LLM 操作的开源运行时、Gorilla 执行引擎 (GoEX) 的设计和实现，并提出了开放研究问题，以实现 LLM 和应用程序在最少的人工监督下相互交互的目标。我们在 https://github.com/ShishirPatil/gorilla/ 发布了 GoEX。

更简单变得更困难：大语言模型在简化的语料库上表现出连贯的行为吗？

分类： 计算和语言

作者： Miriam Anschütz, Edoardo Mosca, Georg Groh

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06838v1

摘要： 文本简化旨在提高可读性，同时保留原始内容和含义。我们的研究通过比较预训练的分类器对原始输入和简化输入的预测来调查它们是否也保持这种一致性。我们使用 11 个预训练模型（包括 BERT 和 OpenAI 的 GPT 3.5）在跨越三种语言的 6 个数据集上进行实验。此外，我们对预测变化率和简化类型/强度之间的相关性进行了详细分析。我们的发现揭示了所有语言和模型之间令人震惊的不一致。如果不及时解决，简化的输入很容易被利用来制造零迭代的与模型无关的对抗性攻击，成功率高达 50%

麻婆豆腐含有咖啡吗？探索大语言模型的食品相关文化知识

分类： 计算和语言

作者： Li Zhou, Taelin Karidi, Nicolas Garneau, Yong Cao, Wanlong Liu, Wenyu Chen, Daniel Hershcovich

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06833v1

摘要： 最近的研究强调了大型语言模型（LLM）中存在文化偏见，但往往缺乏强有力的方法来全面剖析这些现象。我们的工作旨在通过深入研究食品领域来弥合这一差距，食品领域是人类生活中普遍相关且具有文化多样性的一个方面。我们介绍 FmLAMA，这是一个以食品相关文化事实和食品实践变化为中心的多语言数据集。我们分析各种架构和配置的大语言模型，评估其在单语言和多语言环境中的表现。通过利用六种不同语言的模板，我们研究了大语言模型如何与特定语言和文化知识互动。我们的研究结果表明，(1) 大语言模型对美国流行的食品知识表现出明显的偏见；（2）融入相关文化背景可显着提高大语言模型获取文化知识的能力； (3) 大语言模型在捕捉文化细微差别方面的功效高度依赖于探究语言、特定模型架构和相关文化背景之间的相互作用。这项研究强调了将文化理解融入大语言模型的复杂性，并强调了文化多样性数据集对于减少偏见和提高不同文化领域模型性能的重要性。

并非所有环境都是平等的：教授大语言模型的可信意识一代

分类： 计算和语言

作者： Ruotong Pan, Boxi Cao, Hongyu Lin, Xianpei Han, Jia Zheng, Sirui Wang, Xunliang Cai, Le Sun

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06809v1

摘要： 大型语言模型的快速发展导致了检索增强生成（RAG）的广泛采用，它整合外部知识来缓解知识瓶颈并减轻幻觉。然而，现有的RAG范式不可避免地受到检索阶段引入的有缺陷信息的影响，从而降低了生成结果的可靠性和正确性。在本文中，我们提出了可信度感知生成（CAG），这是一个普遍适用的框架，旨在减轻 RAG 中缺陷信息的影响。 CAG 的核心目标是让模型具备基于可信度识别和处理信息的能力。为此，我们提出了一种创新的数据转换框架，基于可信度生成数据，从而有效地赋予模型CAG的能力。此外，为了准确评估 CAG 模型的能力，我们构建了涵盖三个关键现实场景的综合基准。实验结果表明，我们的模型可以有效地理解和利用生成的可信度，在检索增强方面显着优于其他模型，并且表现出对噪声文档造成的破坏的弹性，从而保持稳健的性能。此外，我们的模型支持定制可信度，提供广泛的潜在应用。

MathVC：用于数学教育的大语言模型模拟多角色虚拟教室

分类： 计算和语言, 人机交互

作者： Murong Yue, Wijdane Mifdal, Yixuan Zhang, Jennifer Suh, Ziyu Yao

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06711v1

摘要： 数学建模 (MM) 被认为是 STEM 学科学生的一项基本技能。当学生能够参与小组讨论和协作解决问题时，练习 MM 技能通常是最有效的。然而，由于监督此类团体活动所需的教师和教育资源分布不均，学生并不总是能获得平等的机会进行这种实践。令人兴奋的是，大型语言模型（LLM）最近在数学问题建模和模拟具有不同特征和属性的角色方面表现出了强大的能力。从大语言模型的进步中汲取灵感，在这项工作中，我们推出了 MATHVC，这是第一个由大语言模型支持的虚拟教室，其中包含多个大语言模型模拟的学生角色，人类学生可以与他们一起练习他们的 MM 技能。为了鼓励每个 LLM 角色的行为与其指定的数学相关属性保持一致（称为“特征对齐”），并使整体对话过程接近真实的学生 MM 讨论（称为“对话程序对齐”），我们提出了三项创新：将 MM 领域知识集成到模拟中，定义符号模式作为角色模拟的基础，并在平台级别设计元规划器来驱动对话过程。通过实验和消融研究，我们证实了模拟方法的有效性，并表明 MATHVC 有望在未来使现实生活中的学生受益。

文化团队：人工智能辅助的交互式红队，挑战大语言模型（缺乏）多元文化知识

分类： 计算和语言, 人工智能, 人机交互

作者： Yu Ying Chiu, Liwei Jiang, Maria Antoniak, Chan Young Park, Shuyue Stella Li, Mehar Bhatia, Sahithya Ravi, Yulia Tsvetkov, Vered Shwartz, Yejin Choi

发布时间： 2024-04-10

链接： http://arxiv.org/abs/2404.06664v1

摘要： 前沿大语言模型（LLM）是由具有不同文化背景的研究人员和从业者在具有不同来源的数据集上开发的。然而，大语言模型（缺乏）多元文化知识无法通过当前制定基准的方法进行有效评估。现有的多元文化评估主要依赖于昂贵且受限的人工注释或可能过时的互联网资源。因此，他们努力捕捉文化规范的复杂性、动态性和多样性。 LLM 生成的基准很有前途，但也存在传播其旨在衡量的相同偏差的风险。为了协同人类注释者的创造力和专业文化知识以及基于大语言模型的自动化的可扩展性和标准化，我们引入了CulturalTeaming，这是一个交互式红队系统，利用人类与人工智能的协作来构建真正具有挑战性的评估数据集，用于评估大语言模型，同时提高注释者的能力和经验。我们的研究表明，CulturalTeaming 的各种人工智能辅助模式支持注释者以游戏化的方式提出现代大语言模型无法解决的文化问题。重要的是，人工智能辅助水平的提高（例如，大语言模型生成的修订提示）使用户能够通过增强的自身感知创造力来创建更困难的问题，从而揭示了在现代评估数据集创建程序中涉及更重的人工智能辅助的承诺。通过一系列时长一小时的研讨会，我们收集了 CULTURALBENCH-V0.1，这是一个紧凑但高质量的评估数据集，其中包含用户的红队尝试，现代大语言模型的不同系列的准确率在 37.7% 到 72.2% 之间，揭示了大语言模型多元文化能力的显着差距。

Khayyam 挑战 (PersianMMLU)：您的大语言模型真的精通波斯语吗？

分类： 计算和语言, 人工智能

作者： Omid Ghahroodi, Marzia Nouri, Mohammad Vali Sanian, Alireza Sahebi, Doratossadat Dastgheib, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06644v1

摘要： 由于其生成性质，评估大型语言模型 (LLM) 具有挑战性，需要精确的评估方法。此外，非英语LLM的评估落后于英语，导致许多语言的LLM缺乏或薄弱。为了满足这一需求，我们推出了 Khayyam Challenge（也称为 PersianMMLU），这是一个精心策划的题库，包含 20,192 道四选题，这些题目来自波斯语考试中提取的 38 项不同任务，涵盖广泛的主题、复杂性和年龄。海亚姆挑战赛的主要目标是促进对支持波斯语的大语言模型的严格评估。海亚姆挑战赛的显着特点是（i）全面覆盖各种主题，包括文学理解、数学、科学、逻辑、智力测试等，旨在评估大语言模型的语言理解、推理和信息检索等不同方面涵盖从小学到高中的各个教育阶段 (ii) 包含丰富的元数据，例如人类响应率、难度级别和描述性答案 (iii) 利用新数据来避免现有框架中普遍存在的数据污染问题(iv) 使用为波斯语使用者量身定制的原始、非翻译数据，确保该框架不存在翻译挑战和错误，同时涵盖文化细微差别 (v) 其固有的可扩展性，可用于未来的数据更新和评估，无需特殊的人力。以前的工作缺乏将所有这些功能组合成一个综合基准的评估框架。此外，我们还评估了各种支持波斯语的现有大语言模型，并对它们的输出进行了统计分析和解释。

三明治攻击：针对 LLM 的多语言混合自适应攻击

分类： 密码学和安全, 人工智能, 计算和语言

作者： Bibek Upadhayay, Vahid Behzadan

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.07242v1

摘要： 大型语言模型（LLM）越来越多地得到开发和应用，但其广泛使用面临挑战。其中包括使大语言模型的反应与人类价值观保持一致，以防止有害输出，这是通过安全培训方法解决的。即便如此，不良行为者和恶意用户仍然成功地试图操纵大语言模型，对有害问题产生不一致的反应，例如在学校实验室制造炸弹的方法、有害药物的配方以及逃避隐私权的方法。另一个挑战是大语言模型的多语言能力，这使得模型能够理解多种语言并做出响应。因此，攻击者利用了不同语言的大语言模型的不平衡预训练数据集，以及低资源语言的模型性能相对高资源语言的模型性能较低。因此，攻击者使用低资源语言故意操纵模型以创建有害响应。许多类似的攻击向量已被模型提供商修补，使大语言模型能够更稳健地抵御基于语言的操纵。在本文中，我们介绍了一种新的黑盒攻击向量，称为 \emph{三明治攻击}：一种多语言混合攻击，它操纵最先进的 LLM 生成有害且不一致的响应。我们对五种不同模型（即 Google 的 Bard、Gemini Pro、LLaMA-2-70-B-Chat、GPT-3.5-Turbo、GPT-4 和 Claude-3-OPUS）的实验表明，该攻击向量可用于对手产生有害的反应并从这些模型中引发错误的反应。通过详细介绍三明治攻击的机制和影响，本文旨在指导未来的研究和开发走向更安全、更有弹性的大语言模型，确保它们服务于公共利益，同时最大限度地减少滥用的可能性。

比较两种临床记录生成模型设计；大语言模型是一致性的有用评估者吗？

分类： 计算和语言

作者： Nathan Brake, Thomas Schaaf

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06503v1

摘要： 与患者互动后，医生负责提交临床文档，通常以 SOAP 注释的形式组织。临床记录不仅仅是谈话的总结，还需要使用适当的医学术语。然后可以根据 SOAP 注释的结构提取和组织相关信息。在本文中，我们分析了两种不同的方法来根据对话的音频记录生成 SOAP 注释的不同部分，并根据注释一致性专门检查它们。第一种方法独立生成各个部分，而第二种方法则一起生成它们。在这项工作中，我们使用 PEGASUS-X Transformer 模型，并观察到两种方法都会产生相似的 ROUGE 值（差异小于 1%），并且在事实性指标方面没有差异。我们进行人工评估来衡量一致性的各个方面，并证明像 Llama2 这样的大语言模型可以用来执行相同的任务，并且与人工注释者的协议大致相同。在 Llama2 分析和人类评审员之间，我们观察到年龄、性别和身体部位损伤一致性的 Cohen Kappa 评分者间信度分别为 0.79、1.00 和 0.32。通过这一点，我们证明了利用大语言模型来衡量人类可以识别但目前自动指标无法捕获的质量指标的有用性。这允许将评估扩展到更大的数据集，并且我们发现，通过根据所有先前生成的部分的输出生成每个新部分，可以提高临床记录的一致性。

对话式大语言模型在新闻消除偏见方面的陷阱

分类： 计算和语言, 人工智能

作者： Ipek Baris Schlicht, Defne Altiok, Maryanne Taouk, Lucie Flek

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06488v1

摘要： 本文讨论了新闻编辑中的去偏见问题，并评估了会话大型语言模型在此任务中的有效性。我们根据新闻编辑的观点设计了一个评估清单，使用媒体偏见中公开可用数据集的子集从三个流行的对话模型中获取生成的文本，并根据设计的清单评估文本。此外，我们将模型作为评估器进行检查，以检查除偏模型输出的质量。我们的研究结果表明，没有一个大语言模型在消除偏见方面是完美的。值得注意的是，包括 ChatGPT 在内的一些模型引入了不必要的更改，这些更改可能会影响作者的风格并产生错误信息。最后，我们表明，这些模型在评估去偏输出的质量方面不如领域专家那么熟练。

Ada-LEval：使用长度适应性基准评估长上下文大语言模型

分类： 计算和语言, 人工智能

作者： Chonghua Wang, Haodong Duan, Songyang Zhang, Dahua Lin, Kai Chen

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06480v1

摘要： 最近，大型语言模型 (LLM) 社区对增强 LLM 处理超长文档的能力表现出越来越大的兴趣。随着各种长文本技术和模型架构的出现，对模型长文本能力的精确而详细的评估变得越来越重要。现有的长文本评估基准，例如L-Eval和LongBench，都是基于开源数据集构建长文本测试集，主要关注QA和摘要任务。这些数据集包括纠缠在一起的不同长度（从 2k 到 32k+）的测试样本，这使得评估不同长度范围内的模型能力变得具有挑战性。此外，它们不涵盖最新大语言模型声称要实现的超长设置（100k+ 代币）。在本文中，我们介绍了 Ada-LEval，这是一种长度自适应基准，用于评估大语言模型的长上下文理解。 Ada-LEval 包括两个具有挑战性的子集：TSort 和 BestAnswer，它们可以更可靠地评估大语言模型的长上下文能力。这些基准测试支持对测试用例长度的复杂操作，并且可以轻松生成多达 128k 个标记的文本样本。我们使用 Ada-LEval 评估了 4 个最先进的闭源 API 模型和 6 个开源模型。评估结果证明了当前大语言模型的局限性，特别是在超长上下文环境中。我们的代码可在 https://github.com/open-compass/Ada-LEval 获取。

AgentQuest：衡量进度和改进 LLM 代理的模块化基准框架

分类： 人工智能, 计算和语言

作者： Luca Gioacchini, Giuseppe Siracusano, Davide Sanvito, Kiril Gashteovski, David Friede, Roberto Bifulco, Carolin Lawrence

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06411v1

摘要： 大型语言模型 (LLM) 取得的进步引发了人们对能够解决复杂的多步骤推理任务的 LLM 代理的追求。与任何研究追求一样，基准测试和评估是高效可靠进展的关键基石。然而，现有的基准通常很狭窄，并且只是计算总体任务的成功率。为了面对这些问题，我们提出了 AgentQuest——一个框架，其中 (i) 基准和指标都是模块化的，并且可以通过记录良好且易于使用的 API 轻松扩展； (ii) 我们提供了两个新的评估指标，可以在解决任务时可靠地跟踪 LLM 代理的进度。我们举例说明了指标在两个用例中的实用性，其中我们识别常见故障点并改进代理架构以获得显着的性能提升。我们希望与研究社区一起进一步扩展 AgentQuest，因此我们将其发布在 https://github.com/nec-research/agentquest 下。

根据大语言模型的要求生成模型：一项探索性研究

分类： 软件工程, 计算和语言, 机器学习, D.2; K.6.3; D.2.1; D.3.1; D.2.2; D.2.10; D.2.2; I.2; I.2.7

作者： Alessio Ferrari, Sallam Abualhaija, Chetan Arora

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06371v1

摘要： 用图形模型补充自然语言（NL）需求可以改善利益相关者的沟通并为系统设计提供方向。然而，根据需求创建模型需要手动操作。生成式大语言模型 (LLM) 的出现（ChatGPT 就是一个著名的例子）为模型生成的自动化辅助提供了有希望的途径。本文研究了 ChatGPT 根据 NL 需求生成特定类型模型（即 UML 序列图）的能力。我们进行了一项定性研究，检查 ChatGPT 为来自不同领域的各种类型的 28 个需求文档生成的序列图。通过评估日志系统地捕获对生成的图表进行分析的观察结果，并通过主题分析进行分类。我们的结果表明，尽管模型总体上符合标准并表现出合理的可理解性水平，但它们相对于指定要求的完整性和正确性往往会带来挑战。当存在需求异味（例如模糊和不一致）时，这个问题尤其明显。这项研究得出的见解可以影响大语言模型在 RE 过程中的实际利用，并为针对有效模型生成的新颖的 RE 特定提示策略打开了大门。

大语言模型的阅读理解能力受到参数知识和假设陈述的影响

分类： 计算和语言

作者： Victoria Basmov, Yoav Goldberg, Reut Tsarfaty

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06283v1

摘要： 阅读理解 (RC) 任务通常作为基于上下文的问答 (QA) 实现，提供了评估语言模型自然语言理解 (NLU) 能力的主要手段。然而，当应用于具有广泛内置世界知识的大型语言模型（LLM）时，这种方法可能具有欺骗性。如果上下文与大语言模型的内部知识一致，则很难辨别模型的答案是来自上下文理解还是来自大语言模型的内部信息。相反，使用与模型知识相冲突的数据会产生错误的趋势，从而扭曲结果。为了解决这个问题，我们建议对基于虚构事实和实体的虚构数据使用 RC。这项任务完全独立于模型的世界知识，使我们能够在不受参数知识干扰的情况下评估大语言模型的语言能力。在这些虚构数据上测试 ChatGPT、GPT-4、LLaMA 2 和 Mixtral，我们发现了一类对当前大语言模型构成挑战的语言现象，涉及替代的假设场景的思考。虽然所有模型都能以高精度处理简单的肯定和否定上下文，但在处理模态和条件上下文时，它们更容易出错。至关重要的是，这些现象也再次引发了大语言模型面临知识冲突的脆弱性。特别是，虽然一些模型被证明实际上不受肯定和否定上下文中知识冲突的影响，但当面对更多语义涉及的模态和条件环境时，它们往往无法将文本与其内部知识分开。

适合长上下文大语言模型的源代码查询 RAG 方法

分类： 软件工程, 68-04, D.2.3; D.2.5

作者： Toshihiro Kamiya

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06082v1

摘要： 尽管大型语言模型（LLM）的上下文长度限制已经得到缓解，但它仍然阻碍了它们在软件开发任务中的应用。本研究提出了一种将执行跟踪合并到 RAG 中以查询源代码的方法。小规模实验证实了该方法有助于提高 LLM 响应质量的趋势。

评估大语言模型生成源代码的效率

分类： 软件工程

作者： Changan Niu, Ting Zhang, Chuanyi Li, Bin Luo, Vincent Ng

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06041v1

摘要： 近年来，大型语言模型 (LLM) 在代码生成方面展现出了非凡的能力。与评估LLM生成代码的正确性的现有工作不同，我们建议进一步评估其效率。更高效的代码可以带来LLM辅助编程完成的程序和软件更高的性能和执行效率。首先，我们在 HumanEval 和 MBPP 两个基准上评估大语言模型生成的代码的效率。然后，我们从在线评判平台LeetCode中选择一组编程题进行难度较大的评测。最后，我们探讨了一些使大语言模型能够生成更高效代码的提示。

PM4Py.LLM：在大语言模型上实施 PM 的综合模块

分类： 数据库

作者： Alessandro Berti

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.06035v1

摘要： pm4py 是一个用于 Python 的流程挖掘库，实现了多种流程挖掘 (PM) 工件和算法。它还提供了将 PM 与大型语言模型 (LLM) 集成的方法。本文研究了当前 LLM 上的 PM 范式如何在 pm4py 中实现，识别隐私、幻觉和上下文窗口限制等挑战。

AEGIS：大语言模型专家团队的在线自适应人工智能内容安全审核

分类： 机器学习, 计算和语言, 计算机与社会

作者： Shaona Ghosh, Prasoon Varshney, Erick Galinkin, Christopher Parisien

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.05993v1

摘要： 随着大型语言模型 (LLM) 和生成式人工智能变得越来越普遍，与其使用相关的内容安全风险也随之增加。我们发现全面覆盖广泛关键安全领域的高质量内容安全数据集和基准存在显着缺陷。为了解决这个问题，我们定义了一个广泛的内容安全风险分类法，包括 13 个关键风险和 9 个稀疏风险类别。此外，我们还策划了 AEGISSAFETYDATASET，这是一个包含大约 26, 000 个人类与 LLM 交互实例的新数据集，其中包含符合分类法的人类注释。我们计划向社区发布此数据集以进一步研究并帮助对 LLM 模型进行安全基准测试。为了证明数据集的有效性，我们对多个基于 LLM 的安全模型进行了指令调整。我们表明，我们的模型（名为 AEGISSAFETYEXPERTS）不仅超越或与最先进的基于 LLM 的安全模型和通用 LLM 竞争，而且还表现出跨多个越狱攻击类别的稳健性。我们还展示了在 LLM 对齐阶段使用 AEGISSAFETYDATASET 如何不会对对齐模型在 MT Bench 分数上的性能产生负面影响。此外，我们提出了AEGIS，一种具有强大理论保证的无悔在线适应框架的新颖应用，在部署中与LLM内容安全专家一起进行内容审核

VisualWebBench：多模式大语言模型在网页理解和基础方面发展了多远？

分类： 计算和语言, 人工智能

作者： Junpeng Liu, Yifan Song, Bill Yuchen Lin, Wai Lam, Graham Neubig, Yuanzhi Li, Xiang Yue

发布时间： 2024-04-09

链接： http://arxiv.org/abs/2404.05955v1

摘要： 多模态大型语言模型 (MLLM) 在 Web 相关任务中显示出了前景，但由于缺乏全面的基准，评估其在 Web 领域的性能仍然是一个挑战。现有的基准要么是针对一般的多模态任务而设计的，无法捕捉网页的独特特征，要么专注于端到端的Web代理任务，无法衡量OCR、理解和接地等细粒度的能力。在本文中，我们介绍了 \bench{}，这是一个多模式基准测试，旨在评估 MLLM 在各种 Web 任务中的能力。 \bench{} 包含 7 个任务，包含来自 139 个真实网站的 1.5K 个人工管理实例，涵盖 87 个子域。我们在 \bench{} 上评估了 14 个开源 MLLM、Gemini Pro、Claude-3 系列和 GPT-4V(ision)，揭示了重大挑战和性能差距。进一步的分析凸显了当前 MLLM 的局限性，包括在文本丰富的环境中接地不足以及低分辨率图像输入的性能不佳。我们相信 \bench{} 将成为研究社区的宝贵资源，并有助于为网络相关应用创建更强大、更通用的 MLLM。

Xiwu：高能物理领域灵活且可学习的大语言模型基础

分类： 高能物理-现象学, 人工智能, 计算和语言, 机器学习, 高能物理-实验, 计算物理, I.2.7

作者： Zhengde Zhang, Yiyu Zhang, Haodong Yao, Jianwen Luo, Rui Zhao, Bo Huang, Jiameng Zhao, Yipu Liao, Ke Li, Lina Zhao, Jun Cao, Fazhi Qi, Changzheng Yuan

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.08001v1

摘要： 大型语言模型（LLM）正在经历一个快速更新和变化的时期，最先进的（SOTA）模型经常被替换。当将大语言模型应用于特定的科学领域时，在保持模型本身先进的同时获取独特的领域知识是具有挑战性的。为了应对这一挑战，我们开发了一个名为习武的复杂大型语言模型系统，允许您在最先进的基础模型之间切换并快速教授模型领域知识。在这项工作中，我们将报告在高能物理（HEP）领域应用LLM的最佳实践，包括：提出种子裂变技术并开发一些数据收集和清理工具以快速获得领域AI-Ready数据集；基于向量存储技术实现即时学习系统；开发了一个动态微调系统，以促进在特定基础模型下的快速训练。结果表明，Xiwu可以在LLaMA、Vicuna、ChatGLM和Grok-1等基础模型之间平滑切换。训练后的习武模型在 HEP 知识问答和代码生成方面显着优于基准模型。这一策略显着增强了我们模型性能增长的潜力，随着开源模型的发展，它有望超越 GPT-4。本工作为HEP领域提供了定制化的LLM，同时也为LLM应用于其他领域提供了参考，相应的代码可以在Github上找到。

LLM 增强检索：通过语言模型和文档级嵌入增强检索模型

分类： 信息检索, 人工智能

作者： Mingrui Wu, Sheng Cao

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05825v1

摘要： 与传统的稀疏或基于词袋的方法相比，最近基于嵌入的检索或密集检索已经显示出最先进的结果。本文通过大型语言模型（LLM）增强介绍了一种与模型无关的文档级嵌入框架。此外，它还改进了检索模型训练过程中的一些重要组成部分，例如负采样、损失函数等。通过实现这个LLM增强检索框架，我们已经能够显着提高广泛使用的检索器模型的有效性例如双编码器（Contriever、DRAGON）和后期交互模型（ColBERTv2），从而在 LoTTE 数据集和 BEIR 数据集上取得了最先进的结果。

Ferret-UI：基于多模式大语言模型的移动 UI 理解

分类： 计算机视觉和模式识别, 计算和语言, 人机交互

作者： Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05719v1

摘要： 多模态大语言模型 (MLLM) 的最新进展值得注意，但是，这些通用域 MLLM 往往缺乏理解用户界面 (UI) 屏幕并与其有效交互的能力。在本文中，我们提出了 Ferret-UI，这是一种新的 MLLM，专为增强对移动 UI 屏幕的理解而定制，配备了引用、接地和推理功能。鉴于 UI 屏幕通常表现出比自然图像更拉长的纵横比，并且包含更小的感兴趣对象（例如图标、文本），我们在 Ferret 之上合并“任何分辨率”，以放大细节并利用增强的视觉功能。具体地，每个屏幕根据原始宽高比被划分为2个子图像（即，纵向屏幕横向划分，横向屏幕纵向划分）。两个子图像在发送到 LLM 之前都会单独编码。我们从广泛的基本 UI 任务中精心收集训练样本，例如图标识别、查找文本和小部件列表。这些样本经过格式化以遵循指令并带有区域注释，以方便精确的参考和基础。为了增强模型的推理能力，我们进一步编译了用于高级任务的数据集，包括详细描述、感知/交互对话和函数推理。在对精选数据集进行训练后，Ferret-UI 展现出了对 UI 屏幕的出色理解能力以及执行开放式指令的能力。对于模型评估，我们建立了涵盖所有上述任务的综合基准。 Ferret-UI 不仅优于大多数开源 UI MLLM，而且在所有基本 UI 任务上也超过了 GPT-4V。

MoMA：用于快速生成个性化图像的多模态 LLM 适配器

分类： 计算机视觉和模式识别

作者： Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05674v1

摘要： 在本文中，我们提出了 MoMA：一种开放词汇、免训练的个性化图像模型，具有灵活的零样本功能。随着基础文本到图像模型的快速发展，对强大的图像到图像转换的需求不断增长。为了满足这一需求，MoMA 专门研究主题驱动的个性化图像生成。利用开源的多模态大语言模型 (MLLM)，我们训练 MoMA 充当特征提取器和生成器的双重角色。该方法有效地协同参考图像和文本提示信息以产生有价值的图像特征，从而促进图像扩散模型。为了更好地利用生成的特征，我们进一步引入了一种新颖的自注意力捷径方法，该方法可以有效地将图像特征转移到图像扩散模型，从而提高生成图像中目标对象的相似度。值得注意的是，作为一个免调整的即插即用模块，我们的模型仅需要单个参考图像，并且在生成具有高细节保真度、增强的身份保留和即时忠实度的图像方面优于现有方法。我们的工作是开源的，从而使人们能够普遍获得这些进步。

基于LLM的程序修复中的事实选择问题

分类： 软件工程

作者： Nikhil Parasaram, Huijie Yan, Boyu Yang, Zineb Flahy, Abriele Qudsi, Damian Ziaber, Earl Barr, Sergey Mechtaev

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05520v2

摘要： 最近的研究表明，将与错误相关的事实（例如堆栈跟踪和 GitHub 问题）纳入提示中可以增强大型语言模型 (LLM) 的错误修复能力。考虑到这些模型不断增加的上下文窗口，出现了一个关键问题：提示中应包含哪些事实以及多少事实，以最大限度地提高正确修复错误的机会？为了回答这个问题，我们进行了一项大规模研究，使用了超过 19K 个提示，其中包含七个不同事实的各种组合，以纠正 BugsInPy 基准测试中开源 Python 项目中的 314 个错误。我们的研究结果表明，从简单的语法细节（如代码上下文）到以前在大语言模型上下文中未探索过的语义信息（如天使价值观），每个事实都是有益的。具体来说，每个事实都有助于修复一些尚未解决的错误，或者如果没有它，修复成功率很低。重要的是，我们发现程序修复提示的有效性对于所使用的事实的数量是非单调的；使用太多事实会导致结果不佳。这些见解引导我们定义事实选择问题：确定包含在提示中的最佳事实集，以最大限度地提高 LLM 在给定任务实例上的性能。我们发现，对于错误修复来说，没有一套放之四海而皆准的事实。因此，我们开发了一个名为 Maniple 的基本统计模型，它选择特定于给定错误的事实以包含在提示中。该模型显着超越了最佳通用事实集的性能。为了强调事实选择问题的重要性，我们将 Maniple 与最先进的零样本、非会话式基于 LLM 的错误修复方法进行了基准测试。在我们包含 157 个错误的测试数据集中，Maniple 修复了 88 个错误，比最佳配置高出 17%。

PetKaz 在 SemEval-2024 上的任务 3：利用大语言模型推进情感分类，以在对话中提取情感-原因对

分类： 计算和语言, 人工智能, I.2.7

作者： Roman Kazakov, Kseniia Petukhova, Ekaterina Kochmar

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05502v1

摘要： 在本文中，我们提交了 SemEval-2023 Task~3“对话中多模态情感原因分析的竞赛”，重点关注从对话中提取情感-原因对。具体来说，我们的方法依赖于结合用于情绪分类的微调 GPT-3.5 和基于 BiLSTM 的神经网络来检测原因。我们在子任务 1 的排名中获得第二名，通过记录的最高加权平均比例 F1 分数（0.264）证明了我们方法的有效性。

PetKaz 在 SemEval-2024 上的任务 8：语言学能否捕捉 LLM 生成文本的细节？

分类： 计算和语言, 人工智能, I.2.7

作者： Kseniia Petukhova, Roman Kazakov, Ekaterina Kochmar

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05483v1

摘要： 在本文中，我们提交了 SemEval-2024 任务 8“多生成器、多域和多语言黑盒机器生成文本检测”，重点关注英语机器生成文本 (MGT) 的检测。具体来说，我们的方法依赖于将 RoBERTa 库的嵌入与多样性特征相结合，并使用重新采样的训练集。我们在子任务 A（单语言轨道）的排名中从 124 分中获得第 12 名，我们的结果表明我们的方法可以在未见过的模型和领域中推广，达到 0.91 的准确率。

LLM Reasoners：大型语言模型逐步推理的新评估、库和分析

分类： 计算和语言, 人工智能

作者： Shibo Hao, Yi Gu, Haotian Luo, Tianyang Liu, Xiyan Shao, Xinyuan Wang, Shuhua Xie, Haodi Ma, Adithya Samavedhi, Qiyue Gao, Zhen Wang, Zhiting Hu

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05221v1

摘要： 生成准确的逐步推理对于大型语言模型 (LLM) 解决复杂问题并增强鲁棒性和可解释性至关重要。尽管开发高级推理方法的研究不断涌现，但系统地分析各种大语言模型和生成推理链的推理策略仍然是一个重大挑战。困难源于缺乏两个关键要素：（1）评估不同任务上生成的推理链的自动方法，以及（2）统一的形式主义和实现系统比较的不同推理方法。本文旨在缩小差距：（1）我们引入 AutoRace 进行全自动推理链评估。现有指标依赖于昂贵的人工注释或预定义的 LLM 提示，无法适应不同的任务。相比之下，AutoRace会自动为每个任务创建详细的评估标准，并使用GPT-4按照标准进行准确评估。 (2) 我们开发了 LLM Reasoners，这是一个用于现有和新推理算法的标准化模块化实现的库，在搜索、奖励和世界模型组件的统一制定下。通过新的评估和库，(3)我们对不同的推理方法（例如，CoT、ToT、RAP）进行了广泛的研究。分析揭示了有关推理不同因素的有趣发现，包括奖励指导、搜索的广度与深度、世界模型和提示格式等。

大语言模型在识别逻辑谬误方面的评估：在人机交互研究中采用大语言模型时要求严谨

分类： 人机交互, 人工智能

作者： Gionnieve Lim, Simon T. Perrault

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05213v1

摘要： 人们对在人机交互研究中采用大语言模型越来越感兴趣。然而，大语言模型通常可能被视为万能药，因为它们具有强大的能力，并伴随着对其是否适合其预期任务的监督。我们认为，应在严格评估后以批判性的方式采用大语言模型。因此，我们提出了大语言模型在识别逻辑谬误方面的评估，这些逻辑谬误将构成数字错误信息干预的一部分。通过与标记数据集进行比较，我们发现 GPT-4 的准确度为 0.79，对于排除无效或未识别实例的预期用例，准确度为 0.90。这使我们有信心继续申请大语言模型，同时牢记其仍存在不足的领域。本文描述了我们的评估方法、结果以及对使用大语言模型来完成我们的预期任务的反思。

与 VLM-LLM 功能逐步对齐以增强 ASE 数据集的缺陷分类

分类： 计算机视觉和模式识别, 机器学习

作者： Chih-Chung Hsu, Chia-Ming Lee, Chun-Hung Sun, Kuang-Ming Wu

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05183v1

摘要： 传统的缺陷分类方法面临两个障碍。 (1)训练数据不足，数据质量不稳定。收集足够的缺陷样本既昂贵又耗时，从而导致数据集差异。介绍了识别和学习的难点。 (2)过度依赖视觉形态。当给定数据集中的所有缺陷类别的图像图案和纹理都是单调的时，传统 AOI 系统的性能无法得到保证。在由于机械故障而导致图像质量受损或缺陷信息本身难以辨别的情况下，深度模型的性能无法得到保证。一个主要问题是，“当这两个问题同时出现时，如何解决？”可行的策略是探索数据集中的另一个特征，并将卓越的视觉语言模型（VLM）和大语言模型（LLM）与其惊人的零样本能力结合起来。在这项工作中，我们提出了特殊的ASE数据集，包括图像上记录的丰富数据描述，用于缺陷分类，但缺陷特征很难直接学习。其次，我们提出了针对缺陷分类的 VLM-LLM 与所提出的 ASE 数据集的提示，以激活图像中的额外模态特征以提高性能。然后，我们设计了新颖的渐进特征对齐（PFA）块来细化图像文本特征，以减轻少镜头场景下的对齐难度。最后，所提出的跨模态注意融合（CMAF）模块可以有效地融合不同模态特征。实验结果证明了我们的方法相对于 ASE 数据集的几种缺陷分类方法的有效性。

通过大语言模型提高临床效率：为心脏病患者生成出院单

分类： 计算和语言, 计算机视觉和模式识别, 机器学习

作者： HyoJe Jung, Yunha Kim, Heejung Choi, Hyeram Seo, Minkyoung Kim, JiYe Han, Gaeun Kee, Seohyun Park, Soyoung Ko, Byeolhee Kim, Suyeon Kim, Tae Joon Jun, Young-Hak Kim

发布时间： 2024-04-08

链接： http://arxiv.org/abs/2404.05144v1

摘要： 包括出院记录在内的医疗文件对于确保患者护理质量、连续性和有效的医疗沟通至关重要。然而，手动创建这些文档不仅耗时，而且容易出现不一致和潜在错误。使用人工智能 (AI) 实现文档流程自动化代表了医疗保健领域一个充满希望的创新领域。这项研究通过采用人工智能技术，特别是大语言模型（LLM），直接解决了手动创建出院记录的低效和不准确问题，特别是对于心脏病患者。我们的研究利用心脏病学中心的大量数据集（包括广泛的医疗记录和医生评估）评估了大语言模型增强记录流程的能力。在评估的各种模型中，Mistral-7B 因准确生成出院记录而脱颖而出，显着提高了记录效率和患者护理的连续性。这些笔记经过了医学专家严格的定性评估，因其临床相关性、完整性、可读性以及对知情决策和护理计划的贡献而获得了高度评价。结合定量分析，这些结果证实了 Mistral-7B 在将复杂的医疗信息提炼成简洁、连贯的摘要方面的功效。总体而言，我们的研究结果阐明了 Mistral-7B 等专业大语言模型在完善医疗保健文档工作流程和推进患者护理方面的巨大前景。这项研究为进一步将先进的人工智能技术融入医疗保健奠定了基础，展示了它们彻底改变患者记录并支持更好的护理结果的潜力。

用大语言模型解释 EDA 综合错误

分类： 硬件架构, 人工智能, 编程语言, 软件工程

作者： Siyu Qiu, Benjamin Tan, Hammond Pearce

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.07235v1

摘要： 培训新的数字设计工程师是一项挑战，特别是在教授该领域使用的复杂电子设计自动化 (EDA) 工具时。学习者通常会通过专有的闭源工具链（分别是 Quartus Prime 和 Vivado）将 Verilog 和 VHDL 硬件描述语言中的设计部署到 Altera (Intel) 和 Xilinx (AMD) 的现场可编程门阵列 (FPGA)。这些工具复杂且难以使用——然而，由于它们是工业中使用的工具，因此它们是该领域至关重要的第一步。在这项工作中，我们研究了如何利用人工智能的最新进展来解决这一挑战的各个方面。具体来说，我们研究了大型语言模型 (LLM) 是否可用于生成来自 Quartus Prime 和 Vivado 的编译时综合错误消息的新手友好的解释，该模型已展示了文本理解和问答功能。为了执行这项研究，我们使用三个 OpenAI LLM 超过 21 个不同的错误代码示例生成 936 条错误消息解释。然后根据相关性和正确性对这些内容进行评分，我们发现在大约 71% 的情况下，大语言模型给出了适合新手学习者的正确和完整的解释。

使用大语言模型撰写临床试验方案

分类： 计算工程、金融和科学

作者： Morteza Maleki

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.05044v1

摘要： 本报告的使命是通过集成先进的人工智能技术来彻底改变临床试验方案的开发。该计划的重点是利用生成人工智能（特别是 GPT-4）的功能，旨在简化和提高临床试验方案的效率和准确性。该方法包括对全面的药物和研究级别元数据进行详细分析和准备，然后部署 GPT-4 来自动生成方案部分。结果表明，方案编写有了显着改进，突出表现在效率、准确性以及针对特定试验要求的方案定制方面的提高。系统地解决了模型选择和提示工程过程中遇到的挑战，从而形成了利用 GPT-4 高级文本生成功能的改进方法。该项目不仅展示了生成式人工智能在临床试验设计中的实际应用和优势，还为该领域未来的创新奠定了基础。

通过软提示压缩调整 LLM 以实现高效上下文处理

分类： 机器学习, 人工智能, 计算和语言

作者： Cangqing Wang, Yutian Yang, Ruisi Li, Dan Sun, Ruicong Cai, Yuzhu Zhang, Chengqian Fu, Lillian Floyd

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04997v1

摘要： 大型语言模型 (LLM) 的快速发展开启了自然语言处理的变革时代，在文本生成、理解和上下文审查方面培养了前所未有的熟练程度。然而，由于模型上下文窗口大小的内在限制及其操作带来的计算负担，有效处理对无数应用至关重要的广泛上下文构成了巨大的障碍。这项研究提出了一个创新框架，通过利用自然语言摘要、软提示压缩和增强效用保存机制之间的协同作用，战略性地定制大语言模型，以简化上下文处理。我们的方法被称为 SoftPromptComp，将从摘要方法中提取的自然语言提示与动态生成的软提示相结合，以形成对冗长上下文的简洁但语义上稳健的描述。通过优化信息保留和后续任务实用性的加权机制，该描述得到进一步细化。我们证实，我们的框架显着减少了计算开销，并提高了大语言模型在各种基准上的效率，同时保持甚至增强了所制作内容的质量。通过将软提示压缩与复杂的摘要相结合，SoftPromptComp 面临着管理冗长上下文和确保模型可扩展性的双重挑战。我们的研究结果指出了增强大语言模型的适用性和效率的有利轨迹，使它们在现实世界的应用中更加通用和务实。这项研究丰富了正在进行的关于优化语言模型的讨论，提供了对软提示和摘要技术作为下一代 NLP 解决方案的关键工具的效力的见解。

通过程序分析增强难以覆盖分支的基于 LLM 的测试生成

分类： 软件工程

作者： Chen Yang, Junjie Chen, Bin Lin, Jianyi Zhou, Ziqi Wang

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04966v1

摘要： 自动测试生成在软件质量保证中起着至关重要的作用。虽然基于搜索的软件测试 (SBST) 和大型语言模型 (LLM) 的最新进展在生成有用的测试方面显示出了希望，但这些技术仍然难以覆盖某些分支。达到这些难以覆盖的分支通常需要构造复杂的对象并解决分支条件中复杂的过程间依赖关系，这对现有的测试生成技术提出了重大挑战。在这项工作中，我们提出了 TELPA，这是一种旨在解决这些挑战的新技术。其关键洞察在于提取被测目标方法的真实使用场景，以学习如何构造复杂对象，并提取具有难以覆盖分支的过程间依赖关系的方法，以学习分支约束的语义。为了提高效率和有效性，TELPA 确定了一组无效的测试作为大语言模型的反例，并采用基于反馈的流程来迭代完善这些反例。然后，TELPA将程序分析结果和反例整合到提示中，引导LLM更深入地理解目标方法的语义，并生成能够到达难以覆盖的分支的多样化测试。我们对 27 个开源 Python 项目的实验结果表明，TELPA 显着优于最先进的 SBST 和基于 LLM 的技术，在分支覆盖率方面平均提高了 31.39% 和 22.22%。

AI2Apps：用于构建基于 LLM 的 AI 代理应用程序的可视化 IDE

分类： 人工智能, 软件工程

作者： Xin Pang, Zhucong Li, Jiaxiang Chen, Yuan Cheng, Yinghui Xu, Yuan Qi

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04902v1

摘要： 我们推出 AI2Apps，这是一种具有全周期功能的可视化集成开发环境 (Visual IDE)，可加速开发人员构建可部署的基于 LLM 的 AI 代理应用程序。该可视化 IDE 优先考虑开发工具的完整性和组件的可视性，确保流畅高效的构建体验。一方面，AI2Apps 集成了全面的开发工具包，从原型画布、AI 辅助代码编辑器到代理调试器、管理系统和部署工具都位于基于 Web 的图形用户界面中。另一方面，AI2Apps 将可重用的前端和后端代码可视化为直观的拖放组件。此外，名为 AI2Apps Extension (AAE) 的插件系统专为可扩展性而设计，展示了具有 20 个组件的新插件如何使 Web 代理能够模仿人类的浏览行为。我们的案例研究表明，在调试特定的复杂多模式代理时，AI2Apps 可以分别减少大约 90% 和 80% 的令牌消耗和 API 调用，从而显着提高效率。 AI2Apps 包括在线演示、开源代码和截屏视频，现已可供公众访问。

促使多模态代币通过大语言模型增强端到端自动驾驶模仿学习

分类： 机器人技术, 人工智能

作者： Yiqun Duan, Qiang Zhang, Renjing Xu

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04869v1

摘要： 大型语言模型（LLM）在强化学习领域的利用，特别是作为规划者，在最近的学术文献中引起了极大的关注。然而，现有研究的很大一部分主要集中在机器人规划模型上，这些模型将感知模型的输出转化为语言形式，从而采用“纯语言”策略。在这项研究中，我们通过将基本驾驶模仿学习与基于多模态提示标记的大语言模型相结合，提出了一种用于自动驾驶的混合端到端学习框架。我们的新颖之处在于两个方面，而不是简单地将分离的火车模型的感知结果转换为纯语言输入。 1）将视觉和激光雷达感官输入端到端集成为可学习的多模态标记，从而通过单独的预训练感知模型从本质上减轻描述偏差。 2）本文没有直接让LLM驾驶，而是探索了一种让LLM帮助驾驶模型纠正错误和复杂场景的混合设置。我们的实验结果表明，所提出的方法可以获得 49.21% 的驾驶分数，并且在通过 CARLA 进行的离线评估中，路线完成率高达 91.34%。这些性能指标可与最先进的驾驶模型相媲美。

基于大语言模型的软件工程多代理系统：愿景和未来之路

分类： 软件工程

作者： Junda He, Christoph Treude, David Lo

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04834v1

摘要： 将大型语言模型（LLM）集成到自主代理中标志着研究领域的重大转变，提供了与人类规划和推理相媲美的认知能力。本文设想了基于 LLM 的多代理 (LMA) 系统在解决复杂且多方面的软件工程挑战方面的发展。 LMA 系统带来了许多好处，包括通过协作交叉检查增强稳健性、自主解决问题以及针对复杂软件项目的可扩展解决方案。通过研究 LMA 系统在未来软件工程实践中的作用，本愿景论文强调了潜在的应用和新出现的挑战。我们进一步指出了具体的研究机会，并以研究议程和一系列研究问题作为结论，以指导未来的研究方向。

通过检索增强大语言模型提示实现低资源机器翻译：曼拜语言研究

分类： 计算和语言

作者： Raphaël Merx, Aso Mahmudi, Katrina Langford, Leo Alberto de Araujo, Ekaterina Vylomova

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04809v1

摘要： 本研究探讨了如何使用大型语言模型 (LLM) 将英语翻译成曼巴伊语，曼巴伊语是一种资源匮乏的南岛语，在东帝汶使用，约有 200,000 名母语使用者。利用源自曼巴伊语言手册的新颖语料库和由母语人士翻译的附加句子，我们研究了在这种资源匮乏的情况下，小样本大语言模型提示机器翻译（MT）的功效。我们的方法涉及战略性地选择平行句子和词典条目进行提示，旨在使用开源和专有的 LLM（LlaMa 2 70b、Mixtral 8x7B、GPT-4）提高翻译准确性。我们发现，在提示中包含字典条目以及通过 TF-IDF 和语义嵌入检索的句子混合可以显着提高翻译质量。然而，我们的研究结果表明，不同测试集的翻译性能存在明显差异，语言手册材料上的 BLEU 得分高达 21.2，而母语人士提供的测试集上的最高得分为 4.4。这些结果强调了多样化和代表性语料库在评估低资源语言机器翻译方面的重要性。我们的研究提供了对小样本大语言模型促进低资源机器翻译的见解，并提供了曼拜语言的初始语料库。

SqueezeAttention：通过逐层最优预算对 LLM 推理中的 KV 缓存进行 2D 管理

分类： 机器学习, 计算和语言

作者： Zihao Wang, Shaoduo Gan

发布时间： 2024-04-07

链接： http://arxiv.org/abs/2404.04793v1

摘要： 优化大型语言模型 (LLM) 的键值 (KV) 缓存被认为对于节省推理成本至关重要。大多数现有的 KV 缓存压缩算法都试图利用令牌的不同重要性来稀疏化令牌序列。在这项工作中，我们发现通过识别注意力层的重要性，我们可以从两个维度联合优化 KV 缓存。基于我们对推理中逐层重要性的观察，我们提出 SqueezeAttention 来精确优化动态层之间 KV 缓存预算的分配，然后结合三种代表性的令牌稀疏算法来压缩每层的 KV 缓存：它自己的预算。通过从序列和层的维度优化 KV 缓存，SqueezeAttention 在各种 LLM 和基准测试中实现了约 30% 到 70% 的内存减少以及高达 2.2 倍的吞吐量提高。代码可在 https://github.com/hetailang/SqueezeAttention 获取。

大语言模型置信度评分的多重校准

分类： 机器学习, 计算和语言, 机器学习

作者： Gianluca Detommaso, Martin Bertran, Riccardo Fogliato, Aaron Roth

发布时间： 2024-04-06

链接： http://arxiv.org/abs/2404.04689v1

摘要： 本文提出使用“多重校准”来为大型语言模型（LLM）生成的输出生成可解释且可靠的置信度分数。多重校准不仅要求进行边际校准，而且要求同时对数据的各种交叉分组进行校准。我们展示了如何通过两种技术形成与正确概率相关的提示/完成对的分组：嵌入空间内的聚类和“自注释”——通过询问有关 LLM 的各种是或否问题来查询 LLM提示。我们还开发了多重校准算法的新颖变体，通过减少过度拟合的趋势来提高性能。通过对各种问答数据集和大语言模型进行系统基准测试，我们展示了我们的技术如何产生置信度分数，与现有方法相比，这些置信度分数在校准和准确性的细粒度测量方面提供了实质性改进。

关于大型语言模型 (LLM) 的局限性：错误归因

分类： 计算和语言

作者： Tosin Adewumi, Nudrat Habib, Lama Alkhaled, Elisa Barney

发布时间： 2024-04-06

链接： http://arxiv.org/abs/2404.04631v1

摘要： 在这项工作中，我们深入了解了大型语言模型（LLM）的一个重要限制，即错误归因，并引入了一种新的幻觉指标——简单幻觉指数（SHI）。对相对较小的文本块进行自动作者归因的任务是一项重要的 NLP 任务，但可能具有挑战性。我们凭经验评估了 3 个开放式 SotA LLM 在零样本设置（LLaMA-2-13B、Mixtral 8x7B 和 Gemma-7B）中的威力，特别是考虑到人工注释的成本可能很高。根据古腾堡计划，我们收集了排名前 10 的最受欢迎的书籍，将每一本书分成 400 个单词的等份块，并要求每位大语言模型预测作者。然后，我们根据包含最多块的书籍（查尔斯·狄更斯的《远大前程》，有 922 个块）的误差范围为 7% 和置信度为 95%，从每本带注释的书中随机抽取 162 个块进行人工评估。平均结果显示，Mixtral 8x7B 的预测精度最高，SHI 最低，Pearson 相关性 (r) 分别为 0.737、0.249 和 -0.9996，其次是 LLaMA-2-13B 和 Gemma-7B。然而，Mixtral 8x7B 在 3 本书中出现了很高的幻觉，SHI 高达 0.87（在 0-1 范围内，其中 1 是最差的）。由 r 给出的准确性和 SHI 的强负相关性证明了新幻觉度量的保真度，该度量可推广到其他任务。我们公开发布带注释的数据块和我们的代码，以帮助其他模型的再现和评估。

分析印度高级计算课程中 LLM 的使用情况

分类： 人机交互, 计算机与社会

作者： Chaitanya Arora, Utkarsh Venaik, Pavit Singh, Sahil Goyal, Jatin Tyagi, Shyama Goel, Ujjwal Singhal, Dhruv Kumar

发布时间： 2024-04-06

链接： http://arxiv.org/abs/2404.04603v1

摘要： 本文调查了本科生和研究生在高级计算课程背景下使用大型语言模型 (LLM) 来处理编程作业时的使用模式。现有的工作主要关注大语言模型在入门编程环境中的影响。此外，很少有研究分析学生和大语言模型之间的实际对话。我们的研究对印度大学高级计算课程（分布式系统）中学生和大语言模型之间的原始互动进行了全面的定量和定性分析。我们通过对学生进行访谈来进一步补充这一点，以更深入地了解他们的使用模式。我们的研究表明，学生以多种方式使用大型语言模型（LLM）：生成代码或通过识别和修复错误来调试代码。他们还将作业描述复制并粘贴到 LLM 界面中以获得特定解决方案，提出有关复杂编程思想或理论概念的概念性问题，并生成测试用例以检查代码功能和稳健性。我们的分析包括来自 411 名学生的 4,000 多个提示，并对 10 名学生进行了采访。我们的分析表明，大语言模型擅长生成样板代码和协助调试，而学生则负责组件集成和系统故障排除。这与高级计算课程的学习目标是一致的，高级计算课程旨在教学生如何构建系统和排除故障，而不是强调从头开始生成代码。因此，正如我们收集的数据所示，可以利用大语言模型工具来提高学生的生产力。这项研究促进了关于大语言模型在教育中的应用的持续讨论，倡导其在高级计算课程中的有用性，以补充更高水平的学习和生产力。

用大语言模型探索人类互动模式的地图：对协作和创造力的见解

分类： 人机交互

作者： Jiayang Li, Jiale Li

发布时间： 2024-04-06

链接： http://arxiv.org/abs/2404.04570v1

摘要： 大语言模型出色的性能能力驱动了当前AI系统交互模式的演进。这在人机交互（HAII）社区内引发了大量讨论。许多研究从技术、设计和经验的角度探讨了这种相互作用。然而，当前的大多数文献评论都集中在更广泛的人工智能领域的交互，而对与大语言模型交互的特定领域的关注有限。我们检索了大语言模型关于人机交互的文章，选择了 110 篇符合人机交互定义的相关出版物。随后，我们开发了一个全面的映射程序，分为五个不同的阶段，以系统地分析和分类收集的出版物。采用这种有条不紊的方法，我们精心绘制了所选研究的地图，最终对研究领域进行了详细而富有洞察力的表述。总的来说，我们的评论提出了一种新颖的方法，引入了一种独特的映射方法，专门用于评估人类与大语言模型的交互模式。我们对相关领域的当前研究进行了全面分析，采用聚类技术进行分类，这使我们能够清楚地描绘出每个确定领域中普遍存在的现状和挑战。

IITK 在 SemEval-2024 任务 2：探索大语言模型在临床试验中安全生物医学自然语言推理的能力

分类： 计算和语言, 人工智能, 机器学习

作者： Shreyasi Mandal, Ashutosh Modi

发布时间： 2024-04-06

链接： http://arxiv.org/abs/2404.04510v1

摘要： 大型语言模型 (LLM) 在跨多个领域的各种自然语言处理 (NLP) 任务中展示了最先进的性能，但它们很容易出现捷径学习和事实不一致的情况。这项研究调查了大语言模型在 SemEval 2024 任务 2：临床试验的安全生物医学自然语言推理的背景下对乳腺癌临床试验报告 (CTR) 进行自然语言推理 (NLI) 时的鲁棒性、一致性和忠实推理。我们考察大语言模型的推理能力及其解决逻辑问题的能力。使用检索增强生成（RAG）框架，集成各种推理链，在零样本设置下对预训练语言模型（PLM）、GPT-3.5 和 Gemini Pro 进行比较分析。评估在测试数据集上的 F1 得分为 0.69，一致性得分为 0.71，可信度得分为 0.90。

情感分析和随机森林对大语言模型与应用于科学文本的人力资源进行分类

分类： 计算和语言, 人工智能, 计算机与社会, 机器学习, 68

作者： Javier J. Sanchez-Medina

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.08673v1

摘要： ChatGPT v.4 推出后，全球范围内就这个人工智能驱动的平台和其他一些类似平台自动生成各种文本（包括科技文本）的能力展开了热烈的讨论。这引发了许多机构的反思，即教育和学术程序是否应该适应这样一个事实：未来我们阅读的许多文本至少不是完全由人类（学生、学者等）撰写。在这项工作中，提出了一种新的方法来对来自自动文本生成引擎或人类的文本进行分类，基于情感分析作为特征工程自变量的来源，然后用它们训练随机森林分类算法。使用四种不同的情感词典，生成许多新特征，然后将其输入机器学习随机森林方法来训练这样的模型。结果似乎非常令人信服，在人类被认为是文本来源的环境中，这可能是检测欺诈的有前途的研究方向。

微调和量化导致 LLM 漏洞增加

分类： 密码学和安全, 人工智能

作者： Divyanshu Kumar, Anurakt Kumar, Sahil Agarwal, Prashanth Harshangi

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04392v1

摘要： 大型语言模型 (LLM) 已经变得非常流行，并且在许多领域都有使用案例，例如聊天机器人、自动任务完成代理等等。然而，LLM 很容易受到不同类型的攻击，例如越狱、即时注入攻击和隐私泄露攻击。基础大语言模型接受对抗性和一致性培训，以学习不生成恶意和有毒内容。对于专门的用例，这些基础大语言模型需要进行微调或量化，以获得更好的性能和效率。我们研究了微调和量化等下游任务对 LLM 漏洞的影响。我们测试了 Mistral、Llama、MosaicML 等基础模型及其微调版本。我们的研究表明，微调和量化会显着降低越狱阻力，导致 LLM 漏洞增加。最后，我们展示了外部护栏在减少 LLM 漏洞方面的效用。

ClickDiffusion：利用大语言模型进行交互式精确图像编辑

分类： 计算机视觉和模式识别, 人工智能

作者： Alec Helbling, Seongmin Lee, Polo Chau

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04376v1

摘要： 最近，研究人员提出了使用自然语言指令生成和操作图像的强大系统。然而，仅用文本很难精确地指定许多常见的图像变换类别。例如，用户可能希望改变具有几只相似狗的图像中特定狗的位置和品种。仅使用自然语言来完成这项任务相当困难，并且需要用户编写费力复杂的提示，既要消除目标狗的歧义，又要描述目的地。我们提出了 ClickDiffusion，这是一种用于精确图像操作和生成的系统，它将自然语言指令与用户通过直接操作界面提供的视觉反馈相结合。我们证明，通过将图像和多模态指令序列化为文本表示，可以利用 LLM 来执行图像布局和外观的精确转换。代码可在 https://github.com/poloclub/ClickDiffusion 获取。

Koala：关键帧调节长视频-LLM

分类： 计算机视觉和模式识别

作者： Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04346v1

摘要： 长视频问答是一项具有挑战性的任务，涉及识别短期活动并推理其细粒度关系。最先进的视频大语言模型（vLLM）因其在新任务上展示的新兴能力而有望成为可行的解决方案。然而，尽管 vLLM 接受了数百万个长达数秒的短视频的训练，但仍无法理解长达数分钟的视频并准确回答有关它们的问题。为了解决这个限制，我们提出了一种轻量级的自监督方法，即关键帧调节的长视频 LLM (Koala)，它引入了可学习的时空查询来调整预训练的 vLLM 以推广到更长的视频。我们的方法引入了两个新的标记器，它们以从稀疏视频关键帧计算出的视觉标记为条件，以理解短视频时刻和长视频时刻。我们在 HowTo100M 上训练我们提出的方法，并在零样本长视频理解基准上展示其有效性，在所有任务中，它的绝对准确度比最先进的大型模型高 3 - 6%。令人惊讶的是，我们还凭经验表明，我们的方法不仅有助于预训练的 vLLM 理解长视频，而且还提高了其短期动作识别的准确性。

中文小型大语言模型：预训练以中文为中心的大语言模型

分类： 计算和语言, 人工智能

作者： Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04167v1

摘要： 在本研究中，我们介绍了 CT-LLM，这是一种 2B 大语言模型 (LLM)，它说明了在开发 LLM 时向优先考虑中文的关键转变。 CT-LLM独特地从零开始，与传统方法不同，主要纳入中文文本数据，利用12000亿个令牌的广泛语料库，其中8000亿个中文令牌、3000亿个英文令牌和1000亿个代码令牌。这种战略组合促进了模型在理解和处理中文方面的卓越能力，通过对齐技术进一步增强了这种能力。 CT-LLM在CHC-Bench上表现出色，在中文任务中表现出色，并通过SFT展示了其对英语的熟练程度。这项研究挑战了主要以英语语料库培训大语言模型，然后将其适应其他语言的主流模式，拓宽了大语言模型培训方法的视野。通过开源中文大语言模型培养的全流程，包括使用获得的海量合适预训练中文语料库（MAP-CC）、精心挑选的多学科中文硬案例基准（CHC-Bench）和2B规模的中文Tiny LLM（CT-LLM），我们的目标是促进学术界和工业界的进一步探索和创新，为更具包容性和多功能的语言模型铺平道路。

大语言模型的鲁棒偏好优化和可证明的噪声容忍度

分类： 机器学习, 人工智能, 计算和语言

作者： Xize Liang, Chao Chen, Jie Wang, Yue Wu, Zhihang Fu, Zhihao Shi, Feng Wu, Jieping Ye

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04102v1

摘要： 偏好对齐旨在使大型语言模型（LLM）能够生成符合人类价值观的响应，这对于开发通用人工智能系统至关重要。基于排名的方法（一类有前途的对齐方法）通过优化首选和不首选响应之间的对数似然裕度，从包含响应对的数据集中学习人类偏好。然而，由于注释者偏好的固有差异，响应对比较的排名标签不可避免地存在噪音。这严重损害了现有基于排名的方法的可靠性。为了解决这个问题，我们提出了一种可证明的耐噪声偏好对齐方法，即 RObust 偏好优化（ROPO）。据我们所知，ROPO 是具有噪声容限保证的首选对齐方法。 ROPO 的关键思想是根据响应之间的对数似然裕度，动态地将保守的梯度权重分配给具有高标签不确定性的响应对。通过有效抑制噪声样本的梯度，我们的加权策略确保预期风险具有相同的梯度方向，而与噪声的存在和比例无关。对三个开放式文本生成任务和四个大小从 2.8B 到 13B 不等的基本模型进行的实验表明，ROPO 显着优于现有的基于排序的方法。

线索：大语言模型的临床语言理解评估

分类： 计算和语言, 人工智能, 机器学习

作者： Amin Dada, Marie Bauer, Amanda Butler Contreras, Osman Alperen Koraş, Constantin Marc Seibold, Kaleb E Smith, Jens Kleesiek

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04067v1

摘要： 大型语言模型 (LLM) 已显示出对患者护理、诊断和管理流程做出重大贡献的潜力。新兴的生物医学大语言模型解决了特定于医疗保健的挑战，包括隐私要求和计算限制。然而，这些模型的评估主要局限于非临床任务，不能反映实际临床应用的复杂性。此外，生物医学大语言模型和通用领域大语言模型在临床任务方面还没有进行彻底的比较。为了填补这一空白，我们提出了临床语言理解评估（CLUE），这是一个专门用于评估大语言模型在现实世界临床任务中的基准。 CLUE 包括两个源自 MIMIC IV 出院信的新颖数据集和四个旨在测试大语言模型在医疗保健环境中的实际适用性的现有任务。我们的评估涵盖多个生物医学和一般领域大语言模型，提供对其临床表现和适用性的见解。 CLUE 代表了朝着评估和开发医疗保健领域大语言模型的标准化方法迈出的一步，以使未来的模型开发与临床应用的实际需求保持一致。我们发布评估和数据生成脚本：https://github.com/dadaamin/CLUE

VoicePilot：利用大语言模型作为物理辅助机器人的语音接口

分类： 机器人技术, 计算和语言, 人机交互

作者： Akhil Padmanabha, Jessie Yuan, Janavi Gupta, Zulekha Karachiwalla, Carmel Majidi, Henny Admoni, Zackory Erickson

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.04066v1

摘要： 身体辅助机器人提供了一个机会，可以显着提高患有运动障碍或其他形式的残疾且无法完成日常生活活动的个人的福祉和独立性。语音接口，尤其是利用大型语言模型 (LLM) 的语音接口，可以使个人能够有效、自然地向机器人传达高级命令和细微的偏好。已经提出了将大语言模型集成为机器人接口以进行高级任务规划和代码生成的框架，但未能纳入以人为本的考虑因素，而这在开发辅助界面时至关重要。在这项工作中，我们提出了一个将大语言模型纳入物理辅助机器人语音接口的框架，该框架通过涉及喂养机器人的 3 个测试阶段迭代构建，最终对独立生活设施中的 11 名老年人进行了评估。我们使用最终研究中的定量和定性数据来验证我们的框架，并另外提供使用大语言模型作为辅助机器人语音接口的设计指南。视频和支持文件位于我们的项目网站上：https://sites.google.com/andrew.cmu.edu/voicepilot/

只有大语言模型才能进行推理吗？：小语言模型在任务规划中的潜力

分类： 机器人技术, 人工智能, 机器学习

作者： Gawon Choi, Hyemin Ahn

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.03891v1

摘要： 在机器人技术中，大型语言模型 (LLM) 的使用越来越普遍，尤其是在理解人类命令方面。特别是，大语言模型被用作高级人类命令的与领域无关的任务规划器。大语言模型能够进行思想链（CoT）推理，这使得大语言模型能够成为任务规划者。然而，我们需要考虑到现代机器人仍然难以执行复杂的动作，并且机器人在实践中可以部署的领域是有限的。这让我们提出一个问题：如果可以训练小型 LM 在单个域内的链中进行推理，那么即使小型 LM 也能成为机器人的良好任务规划器吗？为了训练较小的 LM 在链中进行推理，我们通过 LLM 构建了“COMmand-STeps 数据集”（COST），其中包含高级命令以及相应的可操作低级步骤。我们不仅发布我们的数据集，还发布用于生成它们的提示模板，以允许任何人为其领域构建数据集。我们在桌面和厨房环境中将 GPT3.5 和 GPT4 与针对任务域进行微调的 GPT2 进行比较，结果表明 GPT2-medium 在特定域中的任务规划方面与 GPT3.5 相当。我们的数据集、代码和更多输出样本可以在 https://github.com/Gawon-Choi/small-LMs-Task-Planning 中找到

提取、定义、规范化：基于大语言模型的知识图谱构建框架

分类： 计算和语言, 人工智能, 机器学习

作者： Bowen Zhang, Harold Soh

发布时间： 2024-04-05

链接： http://arxiv.org/abs/2404.03868v1

摘要： 在这项工作中，我们对从输入文本创建知识图（KGC）的自动化方法感兴趣。大语言模型 (LLM) 的进展促使最近一系列将其应用于 KGC 的工作，例如通过零/少样本提示。尽管在小型特定领域数据集上取得了成功，但这些模型在扩展到许多实际应用程序中常见的文本时面临着困难。一个主要问题是，在之前的方法中，KG 模式必须包含在 LLM 提示中才能生成有效的三元组；更大、更复杂的模式很容易超出大语言模型的上下文窗口长度。为了解决这个问题，我们提出了一个名为提取-定义-规范化（EDC）的三阶段框架：开放信息提取，然后是模式定义和事后规范化。 EDC 非常灵活，因为它可以应用于预定义目标模式可用和不可用的设置；在后一种情况下，它会自动构建模式并应用自我规范化。为了进一步提高性能，我们引入了一个经过训练的组件，用于检索与输入文本相关的模式元素；这以类似检索增强生成的方式提高了大语言模型的提取性能。我们在三个 KGC 基准测试中证明，EDC 能够在不进行任何参数调整的情况下提取高质量的三元组，并且与之前的工作相比，其模式要大得多。

CBR-RAG：大语言模型中基于案例的检索增强生成法律问答推理

分类： 计算和语言, 人工智能

作者： Nirmalie Wiratunga, Ramitha Abeyratne, Lasal Jayawardena, Kyle Martin, Stewart Massie, Ikechukwu Nkisi-Orji, Ruvan Weerasinghe, Anne Liret, Bruno Fleisch

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.04302v1

摘要： 检索增强生成 (RAG) 通过提供先验知识作为输入上下文来增强大型语言模型 (LLM) 输出。这对于知识密集型和依赖专家的任务是有益的，包括法律问答，这需要证据来验证生成的文本输出。我们强调，基于案例的推理 (CBR) 为大语言模型 RAG 流程的一部分提供了结构化检索的关键机会。我们引入了 CBR-RAG，其中 CBR 循环的初始检索阶段、其索引词汇和相似性知识容器用于增强具有上下文相关案例的 LLM 查询。此集成增强了原始 LLM 查询，提供更丰富的提示。我们提出了 CBR-RAG 的评估，并检查了法律问答任务的不同表示（即一般和特定领域的嵌入）和比较方法（即内部、内部和混合相似性）。我们的结果表明，CBR 案例重用提供的上下文增强了问题的相关组成部分与证据库之间的相似性，从而显着提高了生成答案的质量。

自我正确：大语言模型努力完善自我生成的答案

分类： 人工智能, 计算和语言, 机器学习

作者： Dongwei Jiang, Jingyu Zhang, Orion Weller, Nathaniel Weir, Benjamin Van Durme, Daniel Khashabi

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.04298v1

摘要： 大语言模型能否不断改进之前的成果以获得更好的结果？肯定的答案将要求大语言模型能够更好地区分先前生成的替代方案，而不是生成初始响应。我们在实践中探讨了这一假设的有效性。我们首先引入一个统一的框架，使我们能够比较任何模型在任何任务上的生成和判别能力。然后，在我们对几个大语言模型进行的实验分析中，我们没有观察到这些模型在歧视方面的表现确实优于生成模型。我们希望这些发现能为越来越多的关于自我改进人工智能系统的文献提供信息。

GenQREnsemble：零样本 LLM 集成提示生成查询重构

分类： 信息检索, 人工智能, 计算和语言

作者： Kaustubh Dhole, Eugene Agichtein

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03746v1

摘要： 查询重构 (QR) 是一组技术，用于将用户的原始搜索查询转换为更符合用户意图并改善搜索体验的文本。最近，零样本 QR 已被证明是一种有前途的方法，因为它能够利用大型语言模型中固有的知识。通过从使许多任务受益的集成提示策略的成功中汲取灵感，我们研究了它们是否可以帮助改进查询重构。在这种情况下，我们提出了一种基于集成的提示技术 GenQREnsemble，它利用零样本指令的释义来生成多组关键字，最终提高检索性能。我们进一步介绍其检索后变体 GenQREnsembleRF 以合并伪相关反馈。在对四个 IR 基准的评估中，我们发现 GenQREnsemble 生成了更好的重构，与之前的零样本最先进技术相比，相对 nDCG@10 改进高达 18%，MAP 改进高达 24%。在 MSMarco Passage Ranking 任务中，GenQREnsembleRF 使用伪相关反馈显示了 5% MRR 的相对增益，使用相关反馈文档显示了 9% nDCG@10 的相对增益。

不同色调的假货：警告如何影响人类对大语言模型幻觉的感知和参与

分类： 人机交互, 人工智能, 计算和语言

作者： Mahjabin Nahar, Haeseung Seo, Eun-Ju Lee, Aiping Xiong, Dongwon Lee

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03745v1

摘要： 大型语言模型（LLM）的广泛采用和变革性影响引发了人们对其产生不准确和虚构内容（称为“幻觉”）的能力的担忧。考虑到与幻觉相关的潜在风险，人类应该能够识别它们。这项研究旨在通过系统地改变幻觉的程度（真正的、轻微的幻觉、严重的幻觉）并检查其与警告（即潜在不准确的警告：不存在与存在）的相互作用，来了解人类对大语言模型幻觉的感知。来自 Prolific 的参与者 (N=419) 以问答形式对感知准确性和参与内容（例如喜欢、不喜欢、分享）进行评分。结果表明，人类对内容的真实性排序顺序是真实 > 轻微幻觉 > 严重幻觉，用户参与行为也反映了这种模式。更重要的是，我们观察到警告可以改善幻觉检测，而不会显着影响真实内容的感知真实性。最后，我们为未来帮助人类检测幻觉的工具提供了见解。

SHROOM-INDElab 在 SemEval-2024 任务 6：基于零和少样本 LLM 的幻觉检测分类

分类： 计算和语言, 人工智能

作者： Bradley P. Allen, Fina Polat, Paul Groth

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03732v1

摘要： 我们描述了阿姆斯特丹大学智能数据工程实验室团队参加 SemEval-2024 Task 6 竞赛的情况。 SHROOM-INDElab 系统建立在之前的工作基础上，即使用即时编程和上下文学习与大型语言模型 (LLM) 来构建用于幻觉检测的分类器，并通过结合任务、角色和任务的上下文特定定义来扩展该工作。目标概念，以及自动生成示例以用于几次提示方法。由此产生的系统在任务 6 的模型不可知轨道和模型感知轨道中分别取得了第四好和第六好的性能，并且使用验证集的评估表明系统的分类决策与众包的分类决策一致人类贴标签员。我们进一步发现，使用自动生成的示例，零样本方法比少样本方法提供了更好的准确性。本文所述系统的代码可在 Github 上找到。

通过神经压缩文本训练大语言模型

分类： 计算和语言, 机器学习

作者： Brian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03626v1

摘要： 在本文中，我们探讨了在高度压缩的文本上训练大型语言模型（LLM）的想法。虽然标准子词标记器以较小的因子压缩文本，但神经文本压缩器可以实现更高的压缩率。如果可以直接在神经压缩文本上训练大语言模型，这将在训练和服务效率方面带来优势，并且更容易处理长文本跨度。这一目标的主要障碍是强压缩往往会产生不透明的输出，不太适合学习。特别是，我们发现大语言模型不容易学习通过算术编码自然压缩的文本。为了克服这个问题，我们提出了 Equal-Info Windows，这是一种新颖的压缩技术，将文本分割成块，每个块压缩到相同的位使用这种方法，我们展示了对神经压缩文本的有效学习，该文本随着规模的扩大而提高，并且在困惑度和推理速度基准上大大优于字节级基线。虽然我们的方法为使用相同的参数数量，它的好处是序列长度更短。更短的序列长度需要更少的自回归生成步骤，并减少延迟。最后，我们对有助于可学习性的属性进行了广泛的分析，并为如何进一步提高可学习性提供了具体建议高压缩分词器的性能。

揭开大语言模型的面纱：时态知识图中潜在表示的演变

分类： 计算和语言, 人工智能, 计算机与社会

作者： Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03623v1

摘要： 大型语言模型 (LLM) 表现出令人印象深刻的回忆大量常见事实知识信息的能力。然而，阐明大语言模型的根本推理并解释其利用事实知识的内部机制仍然是活跃的研究领域。当提示评估事实主张的真实性时，我们的工作分析了大语言模型潜在表示中编码的事实知识。我们提出了一个端到端框架，该框架将嵌入 LLM 潜在空间中的事实知识从向量空间联合解码为一组基本谓词，并使用时间知识图来表示其跨层的演变。我们的框架依赖于激活修补技术，该技术通过动态改变模型的潜在表示来干预模型的推理计算。因此，我们既不依赖外部模型，也不依赖训练过程。我们使用两个声明验证数据集：FEVER 和 CLIMATE-FEVER，通过本地和全球可解释性分析来展示我们的框架。局部可解释性分析揭示了从表示错误到多跳推理错误的不同潜在错误。另一方面，全局分析揭示了模型事实知识的潜在演变模式（例如，存储和寻求事实信息）。通过对潜在表示进行基于图形的分析，这项工作代表了大语言模型的机械解释性迈出了一步。

评估大语言模型在检测大语言模型反应中的错误

分类： 计算和语言

作者： Ryo Kamoi, Sarkar Snigdha Sarathi Das, Renze Lou, Jihyun Janice Ahn, Yilun Zhao, Xiaoxin Lu, Nan Zhang, Yusen Zhang, Ranran Haoran Zhang, Sujeeth Reddy Vummanthala, Salika Dave, Shaobo Qin, Arman Cohan, Wenpeng Yin, Rui Zhang

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03602v1

摘要： 随着大型语言模型 (LLM) 在各种任务中广泛使用，检测其响应中的错误变得越来越重要。然而，很少有关于 LLM 答案错误检测的研究。由于许多 NLP 任务的主观性质，收集 LLM 回答的错误注释具有挑战性，因此之前的研究主要集中在实用价值不大的任务（例如，词排序）或有限的错误类型（例如，总结的忠实度）。这项工作介绍了ReaLMistake，这是第一个错误检测基准，由大语言模型所犯的客观、现实和多样化的错误组成。 RealLMistake 包含三个具有挑战性且有意义的任务，这些任务在四个类别（推理正确性、指令遵循、上下文忠实性和参数化知识）中引入客观可评估的错误，在 GPT-4 和 Llama 2 70B 的响应中引出自然观察到的各种错误，注释为专家。我们使用 RealLMistake 来评估基于 12 个 LLM 的错误检测器。我们的研究结果表明：1) 像 GPT-4 和 Claude 3 这样的顶级大语言模型能够以非常低的召回率检测到大语言模型所犯的错误，并且所有基于大语言模型的错误检测器的表现都比人类差得多。 2）基于LLM的错误检测器的解释缺乏可靠性。 3) 基于大语言模型的错误检测对提示中的微小变化很敏感，但仍难以改进。 4) 改进大语言模型的流行方法，包括自我一致性和多数投票，并不能提高错误检测性能。我们的基准测试和代码位于 https://github.com/psunlpgroup/ReaLMistake。

通过参数化内存注入生成个性化 LLM 响应

分类： 计算和语言

作者： Kai Zhang, Lizhi Qing, Yangyang Kang, Xiaozhong Liu

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03565v1

摘要： 大型语言模型（LLM）在理解和生成自然语言方面表现出了卓越的能力。另一方面，个性化的大语言模型回复有可能为医疗等关键领域的个人带来巨大的好处。现有的研究已经探索了记忆增强方法，以通过预先存储的用户特定知识来提示大语言模型，以便根据新查询生成个性化响应。我们认为这种范式无法感知细粒度信息。在这项研究中，我们提出了一种新颖的 \textbf{M}emory-\textbf{i}njected 方法，使用参数高效微调（PEFT）和贝叶斯优化搜索策略来实现 \textbf{L}LM \textbf {P}个性化(\textbf{MiLP})。

MiniGPT4-Video：利用交错的视觉文本标记推进多模态大语言模型的视频理解

分类： 计算机视觉和模式识别

作者： Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03413v1

摘要： 本文介绍了 MiniGPT4-Video，这是一种专为视频理解而设计的多模态大语言模型 (LLM)。该模型能够处理时间视觉和文本数据，使其擅长理解视频的复杂性。 MiniGPT-v2 擅长将视觉特征转化为单个图像的 LLM 空间，并在各种图像文本基准上取得了令人印象深刻的结果，基于 MiniGPT-v2 的成功，本文扩展了模型处理帧序列的能力，使其能够理解视频。 MiniGPT4-video 不仅考虑视觉内容，还包含文本对话，使模型能够有效地回答涉及视觉和文本组件的查询。所提出的模型优于现有的最先进方法，在 MSVD、MSRVTT、TGIF 和 TVQA 基准上分别获得了 4.22%、1.13%、20.82% 和 13.1% 的增益。我们的模型和代码已在此处公开发布 https://vision-cair.github.io/MiniGPT4-video/

大型语言模型排名公平吗？大语言模型作为排名者公平性的实证研究

分类： 信息检索, 计算和语言

作者： Yuan Wang, Xuyang Wu, Hsin-Tai Wu, Zhiqiang Tao, Yi Fang

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03192v1

摘要： 大型语言模型（LLM）在信息检索中的集成引发了对文本排名模型公平性的批判性重新评估。 GPT模型和Llama2等LLM在自然语言理解任务中表现出了有效性，之前的工作（例如RankGPT）也证明LLM在排序任务中表现出比传统排序模型更好的性能。然而，它们的公平性在很大程度上仍未得到探索。本文提出了一项使用 TREC Fair Ranking 数据集评估这些大语言模型的实证研究，重点关注性别和地理位置等二元保护属性的表示，这些属性历来在搜索结果中代表性不足。我们的分析深入研究了这些大语言模型如何处理与这些属性相关的查询和文档，旨在发现其排名算法中的偏差。我们从用户和内容的角度评估公平性，为评估大语言模型作为公平排名者提供了实证基准。

英语大语言模型的稳健代词使用保真度：他们是推理、重复还是只是有偏见？

分类： 计算和语言, 计算机与社会

作者： Vagrant Gautam, Eileen Bingert, Dawei Zhu, Anne Lauscher, Dietrich Klakow

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03134v1

摘要： 随着代词使用的增加，对个人来说稳健、忠实和无害的代词使用是语言模型的一个重要目标，但之前的工作往往一次只研究其中的一两个组成部分。为了衡量实现综合目标的进展，我们引入了代词使用保真度的任务：给定引入共同指代实体和代词的上下文，任务是稍后重用正确的代词，而不受潜在干扰因素的影响。我们提供了一个包含超过 500 万个实例的精心设计的数据集，用于评估英语中的代词使用保真度，并使用它来评估跨架构（仅编码器、仅解码器和编码器-解码器）和规模（11M -70B参数）。我们发现，虽然模型在没有干扰因素的情况下大多可以忠实地重复使用先前指定的代词，但它们在处理“她/她/她”、单数“they”和新代词方面明显较差。此外，模型并不完全忠实于代词，因为它们很容易分散注意力。即使多一个句子包含干扰代词，准确率平均也会下降 34%。当有 5 个干扰句子时，仅解码器模型的准确度下降了 52%，仅编码器模型的准确度下降了 13%。我们表明，广泛使用的大型语言模型仍然很脆弱，在推理和在对人类来说非常简单的环境中处理不同代词方面存在很大差距，我们鼓励偏见和推理研究人员弥合这些差距。

通过大语言模型制定符合标准的辅助技术产品规范

分类： 软件工程

作者： Chetan Arora, John Grundy, Louise Puli, Natasha Layton

发布时间： 2024-04-04

链接： http://arxiv.org/abs/2404.03122v1

摘要： 在快速发展的辅助技术 (AT) 领域，确保产品符合国家和国际标准对于用户安全、有效性和可访问性至关重要。在这篇愿景论文中，我们介绍了 CompliAT，这是一个开创性的框架，旨在通过大语言模型 (LLM) 的创新使用来简化 AT 产品规范与这些标准的合规流程。 CompliAT 解决三个关键任务：检查术语一致性、根据标准对产品进行分类以及根据标准要求追踪关键产品规格。我们应对术语一致性的挑战，确保产品规范中使用的语言符合相关标准，减少误解和不合规风险。我们提出了一种新的产品分类方法，利用检索增强生成模型来准确地对符合国际标准的 AT 产品进行分类，尽管训练数据的可用性很少。最后，CompliAT实施了从关键产品规范到标准要求的可追溯性和合规性机制，确保AT产品的各个方面都根据相应标准进行彻底审查。通过半自动化这些流程，CompliAT 旨在显着减少 AT 产品标准合规性所需的时间和精力，并维护质量和安全标准。我们概述了 CompliAT 的计划实施和评估计划。

使用 LLM 识别相似数据点：使用总结和隐藏状态洞察的人机交互策略

分类： 计算和语言, 人工智能

作者： Xianlong Zeng, Fanghao Song, Ang Liu

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.04281v1

摘要： 本研究介绍了一种简单而有效的方法，用于使用大型语言模型 (LLM) 识别非自由文本域（例如表格和图像数据）中的相似数据点。我们的两步方法涉及数据点汇总和隐藏状态提取。最初，使用大语言模型通过摘要来压缩数据，降低复杂性并突出句子中的基本信息。随后，摘要句子通过另一个 LLM 来提取隐藏状态，作为紧凑、特征丰富的表示。这种方法利用了大语言模型的先进理解和生成能力，为跨不同数据集的相似性识别提供了可扩展且高效的策略。我们证明了我们的方法在识别多个数据集上的相似数据点方面的有效性。此外，我们的方法使非技术领域专家（例如欺诈调查人员或营销运营商）能够快速识别针对特定场景定制的类似数据点，展示其在实际应用中的实用性。总的来说，我们的结果为在各个领域利用大语言模型进行数据分析开辟了新途径。

人工智能本体：大语言模型辅助构建人工智能概念层次结构

分类： 机器学习, 人工智能

作者： Marcin P. Joachimiak, Mark A. Miller, J. Harry Caufield, Ryan Ly, Nomi L. Harris, Andrew Tritt, Christopher J. Mungall, Kristofer E. Bouchard

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.03044v1

摘要： 人工智能本体（AIO）是人工智能（AI）概念、方法及其相互关系的系统化。 AIO 通过手动管理开发，并在大型语言模型 (LLM) 的额外帮助下，旨在通过提供涵盖人工智能技术的技术和伦理方面的全面框架来应对快速发展的人工智能领域。 AIO 的主要受众包括寻求 AI 领域标准化术语和概念的 AI 研究人员、开发人员和教育工作者。该本体围绕六个顶级分支构建：网络、层、函数、大语言模型、预处理和偏差，每个分支都旨在支持人工智能方法的模块化组合，并促进对人工智能中深度学习架构和道德考虑的更深入理解。 AIO 的开发利用本体开发套件（ODK）进行创建和维护，其内容通过人工智能驱动的管理支持动态更新。这种方法不仅确保了本体在人工智能快速发展中的相关性，而且还通过简化新人工智能概念和方法的集成，显着增强了其对研究人员、开发人员和教育工作者的实用性。该本体的实用性通过在人工智能研究出版物目录中对人工智能方法数据的注释以及与 BioPortal 本体资源的集成来证明，突出了其跨学科研究的潜力。 AIO 本体是开源的，可在 GitHub (https://github.com/berkeleybop/artificial-intelligence-ontology) 和 BioPortal (https://bioportal.bioontology.org/ontologies/AIO) 上获取。

Enhancing Low-Resource LLMs Classification with PEFT and Synthetic Data

分类： 计算和语言, 机器学习

作者： Parth Patwa, Simone Filice, Zhiyu Chen, Giuseppe Castellucci, Oleg Rokhlenko, Shervin Malmasi

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02422v1

摘要： Large Language Models (LLMs) operating in 0-shot or few-shot settings achieve competitive results in Text Classification tasks. In-Context Learning (ICL) typically achieves better accuracy than the 0-shot setting, but it pays in terms of efficiency, due to the longer input prompt. In this paper, we propose a strategy to make LLMs as efficient as 0-shot text classifiers, while getting comparable or better accuracy than ICL. Our solution targets the low resource setting, i.e., when only 4 examples per class are available. Using a single LLM and few-shot real data we perform a sequence of generation, filtering and Parameter-Efficient Fine-Tuning steps to create a robust and efficient classifier. Experimental results show that our approach leads to competitive results on multiple text classification datasets.

uTeBC-NLP at SemEval-2024 Task 9: Can LLMs be Lateral Thinkers?

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Pouya Sadeghi, Amirhossein Abaskohi, Yadollah Yaghoobzadeh

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02474v1

摘要： Inspired by human cognition, Jiang et al.(2023c) create a benchmark for assessing LLMs' lateral thinking-thinking outside the box. Building upon this benchmark, we investigate how different prompting methods enhance LLMs' performance on this task to reveal their inherent power for outside-the-box thinking ability. Through participating in SemEval-2024, task 9, Sentence Puzzle sub-task, we explore prompt engineering methods: chain of thoughts (CoT) and direct prompting, enhancing with informative descriptions, and employing contextualizing prompts using a retrieval augmented generation (RAG) pipeline. Our experiments involve three LLMs including GPT-3.5, GPT-4, and Zephyr-7B-beta. We generate a dataset of thinking paths between riddles and options using GPT-4, validated by humans for quality. Findings indicate that compressed informative prompts enhance performance. Dynamic in-context learning enhances model performance significantly. Furthermore, fine-tuning Zephyr on our dataset enhances performance across other commonsense datasets, underscoring the value of innovative thinking.

Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game

分类： 人工智能, 计算和语言

作者： Qianqiao Xu, Zhiliang Tian, Hongyan Wu, Zhen Huang, Yiping Song, Feng Liu, Dongsheng Li

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02532v1

摘要： With the enhanced performance of large models on natural language processing tasks, potential moral and ethical issues of large models arise. There exist malicious attackers who induce large models to jailbreak and generate information containing illegal, privacy-invasive information through techniques such as prompt engineering. As a result, large models counter malicious attackers' attacks using techniques such as safety alignment. However, the strong defense mechanism of the large model through rejection replies is easily identified by attackers and used to strengthen attackers' capabilities. In this paper, we propose a multi-agent attacker-disguiser game approach to achieve a weak defense mechanism that allows the large model to both safely reply to the attacker and hide the defense intent. First, we construct a multi-agent framework to simulate attack and defense scenarios, playing different roles to be responsible for attack, disguise, safety evaluation, and disguise evaluation tasks. After that, we design attack and disguise game algorithms to optimize the game strategies of the attacker and the disguiser and use the curriculum learning process to strengthen the capabilities of the agents. The experiments verify that the method in this paper is more effective in strengthening the model's ability to disguise the defense intent compared with other methods. Moreover, our approach can adapt any black-box large model to assist the model in defense and does not suffer from model version iterations.

Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation

分类： 信息检索, 计算和语言

作者： Yizhu Liu, Ran Tao, Shengyu Guo, Yifan Yang

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02616v1

摘要： Topic relevance between query and document is a very important part of social search, which can evaluate the degree of matching between document and user's requirement. In most social search scenarios such as Dianping, modeling search relevance always faces two challenges. One is that many documents in social search are very long and have much redundant information. The other is that the training data for search relevance model is difficult to get, especially for multi-classification relevance model. To tackle above two problems, we first take query concatenated with the query-based summary and the document summary without query as the input of topic relevance model, which can help model learn the relevance degree between query and the core topic of document. Then, we utilize the language understanding and generation abilities of large language model (LLM) to rewrite and generate query from queries and documents in existing training data, which can construct new query-document pairs as training data. Extensive offline experiments and online A/B tests show that the proposed approaches effectively improve the performance of relevance modeling.

Unblind Text Inputs: Predicting Hint-text of Text Input in Mobile Apps via LLM

分类： 人机交互

作者： Zhe Liu, Chunyang Chen, Junjie Wang, Mengzhuo Chen, Boyu Wu, Yuekai Huang, Jun Hu, Qing Wang

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02706v1

摘要： Mobile apps have become indispensable for accessing and participating in various environments, especially for low-vision users. Users with visual impairments can use screen readers to read the content of each screen and understand the content that needs to be operated. Screen readers need to read the hint-text attribute in the text input component to remind visually impaired users what to fill in. Unfortunately, based on our analysis of 4,501 Android apps with text inputs, over 0.76 of them are missing hint-text. These issues are mostly caused by developers' lack of awareness when considering visually impaired individuals. To overcome these challenges, we developed an LLM-based hint-text generation model called HintDroid, which analyzes the GUI information of input components and uses in-context learning to generate the hint-text. To ensure the quality of hint-text generation, we further designed a feedback-based inspection mechanism to further adjust hint-text. The automated experiments demonstrate the high BLEU and a user study further confirms its usefulness. HintDroid can not only help visually impaired individuals, but also help ordinary people understand the requirements of input components. HintDroid demo video: https://youtu.be/FWgfcctRbfI.

AQuA -- Combining Experts' and Non-Experts' Views To Assess Deliberation Quality in Online Discussions Using LLMs

分类： 计算和语言, 人工智能, 机器学习

作者： Maike Behrendt, Stefan Sylvius Wagner, Marc Ziegele, Lena Wilms, Anke Stoll, Dominique Heinbach, Stefan Harmeling

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02761v1

摘要： Measuring the quality of contributions in political online discussions is crucial in deliberation research and computer science. Research has identified various indicators to assess online discussion quality, and with deep learning advancements, automating these measures has become feasible. While some studies focus on analyzing specific quality indicators, a comprehensive quality score incorporating various deliberative aspects is often preferred. In this work, we introduce AQuA, an additive score that calculates a unified deliberative quality score from multiple indices for each discussion post. Unlike other singular scores, AQuA preserves information on the deliberative aspects present in comments, enhancing model transparency. We develop adapter models for 20 deliberative indices, and calculate correlation coefficients between experts' annotations and the perceived deliberativeness by non-experts to weigh the individual indices into a single deliberative score. We demonstrate that the AQuA score can be computed easily from pre-trained adapters and aligns well with annotations on other datasets that have not be seen during training. The analysis of experts' vs. non-experts' annotations confirms theoretical findings in the social science literature.

I-Design: Personalized LLM Interior Designer

分类： 人工智能

作者： Ata Çelen, Guo Han, Konrad Schindler, Luc Van Gool, Iro Armeni, Anton Obukhov, Xi Wang

发布时间： 2024-04-03

链接： http://arxiv.org/abs/2404.02838v1

摘要： Interior design allows us to be who we are and live how we want - each design is as unique as our distinct personality. However, it is not trivial for non-professionals to express and materialize this since it requires aligning functional and visual expectations with the constraints of physical space; this renders interior design a luxury. To make it more accessible, we present I-Design, a personalized interior designer that allows users to generate and visualize their design goals through natural language communication. I-Design starts with a team of large language model agents that engage in dialogues and logical reasoning with one another, transforming textual user input into feasible scene graph designs with relative object relationships. Subsequently, an effective placement algorithm determines optimal locations for each object within the scene. The final design is then constructed in 3D by retrieving and integrating assets from an existing object database. Additionally, we propose a new evaluation protocol that utilizes a vision-language model and complements the design pipeline. Extensive quantitative and qualitative experiments show that I-Design outperforms existing methods in delivering high-quality 3D design solutions and aligning with abstract concepts that match user input, showcasing its advantages across detailed 3D arrangement and conceptual fidelity.

将大语言模型转变为跨模式和跨语言检索系统

分类： 计算和语言, 信息检索, 声音, 音频和语音处理

作者： Frank Palma Gomez, Ramon Sanabria, Yun-hsuan Sung, Daniel Cer, Siddharth Dalmia, Gustavo Hernandez Abrego

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.01616v2

摘要： 大型语言模型 (LLM) 是在纯文本数据上进行训练的，这些数据远远超出了具有配对语音和文本数据的语言。与此同时，基于双编码器（DE）的检索系统将查询和文档投影到同一嵌入空间中，并证明了它们在检索和双文本挖掘方面的成功。为了匹配多种语言的语音和文本，我们建议使用 LLM 来初始化多模态 DE 检索系统。与传统方法不同，我们的系统在LLM预训练期间不需要语音数据，并且可以利用LLM的多语言文本理解能力来匹配检索训练期间未见过的语言的语音和文本。我们基于 LLM 的多模态检索系统能够匹配 102 种语言的语音和文本，尽管只接受了 21 种语言的训练。我们的系统优于之前经过所有 102 种语言明确训练的系统。这些语言的 Recall@1 平均绝对提高了 10%。此外，我们的模型演示了跨语言语音和文本匹配，并通过现成的机器翻译数据进一步增强了这一点。

将大语言模型转变为跨模式和跨语言检索系统

分类： 计算和语言, 信息检索, 声音, 音频和语音处理

作者： Frank Palma Gomez, Ramon Sanabria, Yun-hsuan Sung, Daniel Cer, Siddharth Dalmia, Gustavo Hernandez Abrego

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.01616v1

太棒了，现在写一篇关于这一点的文章：Crescendo 多轮 LLM 越狱攻击

分类： 密码学和安全, 人工智能

作者： Mark Russinovich, Ahmed Salem, Ronen Eldan

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.01833v1

摘要： 大型语言模型 (LLM) 的受欢迎程度显着上升，并且越来越多地被多种应用程序采用。这些大语言模型强烈反对参与非法或不道德的话题，以此作为避免造成负责任的人工智能伤害的手段。然而，最近的一系列攻击（称为“越狱”）试图克服这种一致性。直观上，越狱攻击的目的是缩小模型可以做的事情和它愿意做的事情之间的差距。在本文中，我们介绍了一种名为 Crescendo 的新型越狱攻击。与现有的越狱方法不同，Crescendo 是一种多轮越狱，它以看似良性的方式与模型交互。它首先是关于当前任务的一般提示或问题，然后通过参考模型的回复逐渐升级对话，逐步导致成功越狱。我们在各种公共系统上评估 Crescendo，包括 ChatGPT、Gemini Pro、Gemini-Ultra、LlaMA-2 70b Chat 和 Anthropic Chat。我们的结果证明了 Crescendo 的强大功效，它在所有评估的模型和任务中都实现了很高的攻击成功率。此外，我们还引入了 Crescendomation，这是一种自动执行 Crescendo 攻击的工具，我们的评估展示了它针对最先进模型的有效性。

下一步该何去何从：LLM 的零样本推广以实现下一个 POI 推荐

分类： 信息检索, 人工智能

作者： Shanshan Feng, Haoming Lyu, Caishun Chen, Yew-Soon Ong

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.01855v1

摘要： 接下来兴趣点（POI）推荐为用户探索周围环境提供有价值的建议。现有的研究依赖于从大规模用户的签到数据构建推荐模型，这是特定于任务的并且需要大量的计算资源。最近，预训练的大语言模型（LLM）在各种 NLP 任务中取得了显着的进步，并且还针对推荐场景进行了研究。然而，大语言模型的泛化能力仍有待探索，以解决下一个 POI 建议，其中应提取用户的地理移动模式。尽管有研究利用大语言模型来提出下一项建议，但他们未能考虑地理影响和顺序过渡。因此，他们无法有效地解决下一个 POI 推荐任务。为此，我们设计了新颖的提示策略并进行实证研究来评估 LLM（例如 ChatGPT）预测用户下次签到的能力。具体来说，我们考虑了人类运动行为的几个基本因素，包括用户地理偏好、空间距离和顺序转换，并将推荐任务制定为排名问题。通过对两个广泛使用的现实世界数据集进行广泛的实验，我们得出了几个关键发现。实证评估表明，LLM 具有良好的零样本推荐能力，并且可以提供准确合理的预测。我们还发现，大语言模型无法准确理解地理背景信息，并且对候选 POI 的呈现顺序敏感，这表明了大语言模型的局限性，需要进一步研究稳健的人员流动推理机制。

更好地理解网络犯罪：经过微调的大语言模型在翻译中的作用

分类： 计算和语言

作者： Veronica Valeros, Anna Širokova, Carlos Catania, Sebastian Garcia

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.01940v1

摘要： 了解网络犯罪通信对于网络安全防御至关重要。这通常涉及将通信内容翻译成英语以进行处理、解释和生成及时的情报。问题是翻译很难。人工翻译速度慢、成本高且稀缺。机器翻译不准确且有偏见。我们建议使用经过微调的大型语言模型（LLM）来生成可以准确捕捉网络犯罪语言细微差别的翻译。我们将我们的技术应用于 NoName057(16) 俄语黑客活动组织的公共聊天。我们的结果表明，经过微调的 LLM 模型更好、更快、更准确，并且能够捕捉语言的细微差别。我们的方法表明，与人工翻译相比，可以实现高保真翻译并显着降低成本 430 至 23,000 倍。

Self-Organized Agents: A LLM Multi-Agent Framework toward Ultra Large-Scale Code Generation and Optimization

分类： 软件工程, 人工智能, 计算和语言, 机器学习, 多代理系统

作者： Yoichi Ishibashi, Yoshimasa Nishimura

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02183v1

摘要： Recent advancements in automatic code generation using large language model (LLM) agent have brought us closer to the future of automated software development. However, existing single-agent approaches face limitations in generating and improving large-scale, complex codebases due to constraints in context length. To tackle this challenge, we propose Self-Organized multi-Agent framework (SoA), a novel multi-agent framework that enables the scalable and efficient generation and optimization of large-scale code. In SoA, self-organized agents operate independently to generate and modify code components while seamlessly collaborating to construct the overall codebase. A key feature of our framework is the automatic multiplication of agents based on problem complexity, allowing for dynamic scalability. This enables the overall code volume to be increased indefinitely according to the number of agents, while the amount of code managed by each agent remains constant. We evaluate SoA on the HumanEval benchmark and demonstrate that, compared to a single-agent system, each agent in SoA handles significantly less code, yet the overall generated code is substantially greater. Moreover, SoA surpasses the powerful single-agent baseline by 5% in terms of Pass@1 accuracy.

MuxServe：灵活的多路复用，实现高效的多个 LLM 服务

分类： 分布式、并行和集群计算

作者： Jiangfei Duan, Runyu Lu, Haojie Duanmu, Xiuhong Li, Xingcheng Zhang, Dahua Lin, Ion Stoica, Hao Zhang

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02015v1

摘要： 大型语言模型 (LLM) 已展现出卓越的性能，组织竞相为不同规模的 LLM 提供服务，作为聊天、编程和搜索等用例的端点。然而，由于大语言模型的受欢迎程度不同，有效地为多个大语言模型提供服务对现有方法提出了重大挑战。在本文中，我们提出了 MuxServe，一种灵活的时空复用系统，用于高效的多个 LLM 服务。背后的关键见解是考虑到 LLM 在复用内存资源方面的受欢迎程度，对它们进行共置，并利用预填充和解码阶段的特性将它们分开并灵活地共置以复用计算资源。 MuxServe 正式表述了复用问题，并提出了一种新颖的放置算法和自适应批量调度策略来识别最佳并置并最大化利用率。 MuxServe 设计了一个统一的资源管理器来实现灵活高效的多路复用。评估结果表明，MuxServe 可以在达到 $99%$ SLO 的情况下实现高达 $1.8\time$ 的吞吐量提升或处理 $2.9\time$ 的请求。

基于多任务的软件漏洞开源大语言模型评估

分类： 软件工程

作者： Xin Yin, Chao Ni

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02056v1

摘要： 本文提出了一种使用公开数据集定量评估交互式大语言模型的流程。我们使用 Big-Vul 对大语言模型进行了广泛的技术评估，涵盖四种不同的常见软件漏洞任务。我们根据该数据集评估大语言模型的多任务和多语言方面。我们发现现有最先进的方法在软件漏洞检测方面通常优于大语言模型。尽管大语言模型在提供上下文信息时提高了准确性，但它们在准确预测某些 CWE 类型的严重性评级方面仍然存在局限性。此外，LLM 还表现出一定的能力来定位某些 CWE 类型的漏洞，但其性能因不同的 CWE 类型而异。最后，LLM 在为各种 CWE 类型生成 CVE 描述方面表现出参差不齐的性能，在几次测试设置中的准确性有限。总体而言，虽然大语言模型在某些方面表现良好，但他们在理解代码漏洞的细微差别以及描述漏洞的能力方面仍然需要提高，以充分发挥其潜力。我们的评估流程为进一步增强大语言模型的软件漏洞处理能力提供了宝贵的见解。

长情境大语言模型在长时间的情境学习中苦苦挣扎

分类： 计算和语言, 人工智能

作者： Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02060v1

摘要： 大型语言模型 (LLM) 在处理超过 32K 标记的长序列方面取得了重大进展。然而，他们的绩效评估很大程度上局限于复杂度和综合任务等指标，这些指标可能无法完全捕捉他们在更细致的现实场景中的能力。这项研究引入了一个专门的基准（LIConBench），专注于极端标签分类领域内的长期上下文学习。我们精心选择了 6 个数据集，其标签范围涵盖 28 到 174 个类别，涵盖从 2K 到 50K 的不同输入（少量演示）长度。我们的基准要求大语言模型理解整个输入，识别大量标签空间，从而做出正确的预测。我们根据基准评估了 13 个长背景大语言模型。我们发现长上下文 LLM 在 20K 的 token 长度下表现相对较好，并且性能受益于利用长上下文窗口。然而，上下文窗口超过 20K 后，除 GPT-4 之外的大多数 LLM 都会急剧下降。这表明当前大语言模型在处理和理解长的、上下文丰富的序列方面的能力存在显着差距。进一步的分析揭示了模型倾向于预测序列末尾出现的标签的趋势。他们对长序列中的多个片段进行推理的能力还有待提高。我们的研究表明，对于现有的大语言模型来说，长上下文理解和推理仍然是一项具有挑战性的任务。我们相信 LIConBench 可以为未来的长期背景大语言模型提供更现实的评估。

通过偏好树提升大语言模型推理通才

分类： 人工智能, 计算和语言, 机器学习

作者： Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02078v1

摘要： 我们引入了 Eurus，这是一套针对推理而优化的大型语言模型 (LLM)。经过 Mistral-7B 和 CodeLlama-70B 的微调，Eurus 模型在涵盖数学、代码生成和逻辑推理问题的各种基准测试中实现了开源模型中最先进的结果。值得注意的是，Eurus-70B 通过涵盖 5 项任务的 12 项测试的综合基准测试，在推理方面击败了 GPT-3.5 Turbo，并在 LeetCode 和 TheoremQA 这两个具有挑战性的基准测试中分别达到了 33.3% 的 pass@1 准确率和 32.6% 的准确率，大大优于现有的开源软件模型的利润率超过13.3%。 Eurus 的强劲性能主要归功于 UltraInteract，这是我们新策划的大规模、高质量的对齐数据集，专为复杂的推理任务而设计。 UltraInteract 可用于监督微调和偏好学习。对于每条指令，它都包含一个偏好树，其中包含（1）统一格式的具有多种规划策略的推理链，（2）与环境和批评的多轮交互轨迹，以及（3）促进偏好学习的成对数据。 UltraInteract使我们能够对推理任务的偏好学习进行深入探索。我们的调查表明，与一般对话中的有效性相比，一些成熟的偏好学习算法可能不太适合推理任务。受此启发，我们得出了一个新颖的奖励建模目标，它与 UltraInteract 一起形成了一个强大的奖励模型。

LLM 生成文本的基于主题的水印

分类： 密码学和安全, 计算和语言, 机器学习

作者： Alexander Nemecek, Yuzhou Jiang, Erman Ayday

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02138v1

摘要： 大型语言模型 (LLM) 的最新进展已导致文本输出与人类生成的文本难以区分。水印算法是潜在的工具，通过在 LLM 生成的输出中嵌入可检测的签名，提供了一种区分 LLM 和人类生成的文本的方法。然而，当前的水印方案缺乏针对水印算法的已知攻击的鲁棒性。此外，考虑到大语言模型每天生成数以万计的文本输出，并且水印算法需要记住其生成的每个输出才能进行检测，因此它们是不切实际的。在这项工作中，针对当前水印方案的局限性，我们为大语言模型提出了“基于主题的水印算法”的概念。所提出的算法确定如何根据输入提示的提取主题或无水印的 LLM 的输出为带水印的 LLM 输出生成令牌。受之前工作的启发，我们建议使用一对列表（根据指定的提取主题生成），指定在生成 LLM 的带水印输出时要包含或排除的某些标记。使用所提出的水印算法，我们展示了水印检测算法的实用性。此外，我们讨论了针对大语言模型水印算法可能出现的各种攻击，以及所提出的水印方案对于考虑其收益与损失对潜在攻击者进行建模的可行性的好处。

通过简单的自适应攻击突破领先的安全一致的大语言模型

分类： 密码学和安全, 人工智能, 机器学习, 机器学习

作者： Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02151v1

摘要： 我们表明，即使是最新的与安全相关的大语言模型对于简单的自适应越狱攻击也不够鲁棒。首先，我们演示如何成功利用对 logprobs 的访问进行越狱：我们最初设计一个对抗性提示模板（有时适应目标 LLM），然后我们对后缀应用随机搜索以最大化目标 logprob（例如，令牌的 logprob） “当然”），可能需要多次重新启动。这样，我们在 GPT-3.5/4、Llama-2-Chat-7B/13B/70B、Gemma-7B 和 R2D2 上达到了接近 100% 的攻击成功率（以 GPT-4 为判断）来自 HarmBench，针对 GCG 攻击进行了对抗性训练。我们还展示了如何通过传输或预填充攻击来越狱所有 Claude 模型（不暴露 logprobs），成功率达 100%。此外，我们还展示了如何在一组受限的标记上使用随机搜索来查找中毒模型中的木马字符串——这项任务与越狱有很多相似之处——正是这种算法为我们带来了 SaTML'24 中的第一名木马检测竞赛。这些攻击背后的共同主题是适应性至关重要：不同的模型容易受到不同提示模板的影响（例如，R2D2 对上下文学习提示非常敏感），某些模型具有基于其 API 的独特漏洞（例如，Claude 的预填充）），并且在某些设置中，根据先验知识限制令牌搜索空间至关重要（例如，对于木马检测）。我们在 https://github.com/tml-epfl/llm-adaptive-attacks 上提供了攻击的代码、提示和日志。

LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages

分类： 计算和语言, 人工智能, 信息检索, 机器学习, I.2.7; I.2.6

作者： Nataliia Kholodna, Sahib Julka, Mohammad Khodadadi, Muhammed Nurullah Gumus, Michael Granitzer

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02261v1

摘要： Low-resource languages face significant barriers in AI development due to limited linguistic resources and expertise for data labeling, rendering them rare and costly. The scarcity of data and the absence of preexisting tools exacerbate these challenges, especially since these languages may not be adequately represented in various NLP datasets. To address this gap, we propose leveraging the potential of LLMs in the active learning loop for data annotation. Initially, we conduct evaluations to assess inter-annotator agreement and consistency, facilitating the selection of a suitable LLM annotator. The chosen annotator is then integrated into a training loop for a classifier using an active learning paradigm, minimizing the amount of queried data required. Empirical evaluations, notably employing GPT-4-Turbo, demonstrate near-state-of-the-art performance with significantly reduced data requirements, as indicated by estimated potential cost savings of at least 42.45 times compared to human annotation. Our proposed solution shows promising potential to substantially reduce both the monetary and computational costs associated with automation in low-resource settings. By bridging the gap between low-resource languages and AI, this approach fosters broader inclusion and shows the potential to enable automation across diverse linguistic landscapes.

Constrained Robotic Navigation on Preferred Terrains Using LLMs and Speech Instruction: Exploiting the Power of Adverbs

分类： 机器人技术, 机器学习

作者： Faraz Lotfi, Farnoosh Faraji, Nikhil Kakodkar, Travis Manderson, David Meger, Gregory Dudek

发布时间： 2024-04-02

链接： http://arxiv.org/abs/2404.02294v1

摘要： This paper explores leveraging large language models for map-free off-road navigation using generative AI, reducing the need for traditional data collection and annotation. We propose a method where a robot receives verbal instructions, converted to text through Whisper, and a large language model (LLM) model extracts landmarks, preferred terrains, and crucial adverbs translated into speed settings for constrained navigation. A language-driven semantic segmentation model generates text-based masks for identifying landmarks and terrain types in images. By translating 2D image points to the vehicle's motion plane using camera parameters, an MPC controller can guides the vehicle towards the desired terrain. This approach enhances adaptation to diverse environments and facilitates the use of high-level instructions for navigating complex and challenging terrains.

TM-TREK 在 SemEval-2024 任务 8：迈向基于 LLM 的人机混合文本自动边界检测

分类： 计算和语言

作者： Xiaoyan Qu, Xiangfeng Meng

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.00899v1

摘要： 随着大型语言模型（LLM）生成的文本越来越流行，人们越来越关注区分 LLM 生成的文本和人类编写的文本，以防止 LLM 的滥用，例如传播误导性信息和学术不诚实。。先前的研究主要集中于将文本分类为完全由人类编写或由大语言模型生成，忽略了包含这两种类型内容的混合文本的检测。本文探讨了大语言模型识别人类书写和机器生成的混合文本中边界的能力。我们通过将其转化为标记分类问题来处理此任务，并将标签转折点视为边界。值得注意的是，我们的大语言模型集成模型在 SemEval'24 竞赛任务 8 的“人机混合文本检测”子任务中获得了第一名。此外，我们还研究了影响大语言模型检测混合文本中边界的能力的因素，包括在 LLM 之上加入额外层、分割损失的组合以及预训练的影响。我们的研究结果旨在为该领域的未来研究提供有价值的见解。

大语言模型是优秀的手语翻译者

分类： 计算机视觉和模式识别, 计算和语言

作者： Jia Gong, Lin Geng Foo, Yixuan He, Hossein Rahmani, Jun Liu

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.00925v1

摘要： 手语翻译（SLT）是一项具有挑战性的任务，旨在将手语视频翻译成口语。受到在广泛的多语言文本语料库上训练的大型语言模型 (LLM) 强大翻译能力的启发，我们的目标是利用现成的 LLM 来处理 SLT。在本文中，我们对手语视频进行规范化以体现口语的语言特征，并提出了一种新颖的 SignLLM 框架，将手语视频转换为类似语言的表示形式，以提高现成的大语言模型的可读性。 SignLLM 包含两个关键模块：(1) 矢量量化视觉符号模块将符号视频转换为一系列离散字符级符号标记，(2) 代码本重建和对齐模块将这些字符级标记转换为单词级使用最佳传输公式进行符号表示。符号-文本对齐损失进一步弥合了符号和文本标记之间的差距，增强了语义兼容性。我们在两个广泛使用的 SLT 基准测试中取得了最先进的无光泽结果。

探索和评估 LLM 支持的代码生成中的幻觉

分类： 软件工程, 人工智能

作者： Fang Liu, Yang Liu, Lin Shi, Houkun Huang, Ruifeng Wang, Zhen Yang, Li Zhang

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.00971v1

摘要： 大型语言模型 (LLM) 的兴起极大地推进了软件工程任务的许多应用，特别是在代码生成方面。尽管LLM的性能很有前景，但LLM很容易产生幻觉，这意味着LLM可能会产生偏离用户意图的输出，表现出内部不一致，或与事实知识不一致，使得LLM在广泛的应用中的部署存在潜在风险。现有的工作主要集中在将幻觉投入到自然语言生成（NLG）领域，在理解代码生成背景下的幻觉类型和程度方面存在差距。为了弥补这一差距，我们对大语言模型生成的代码进行了主题分析，以总结和分类其中存在的幻觉。我们的研究建立了 LLM 生成代码中幻觉的综合分类法，根据代码生成中观察到的相互冲突的目标和不同程度的偏差，涵盖 5 个主要幻觉类别。此外，我们系统地分析了幻觉的分布，探索不同大语言模型之间的差异及其与代码正确性的相关性。根据结果，我们提出了 HalluCode，一个评估代码大语言模型在识别幻觉方面表现的基准。 HalluCode和HumanEval的幻觉识别和减轻实验表明，现有的大语言模型在识别幻觉方面面临着巨大的挑战，特别是在识别幻觉类型方面，并且几乎无法减轻幻觉。我们相信，我们的研究结果将为未来有关幻觉评估、检测和缓解的研究提供线索，最终为未来建立更有效、更可靠的代码大语言模型铺平道路。

为边缘应用高效提炼大语言模型

分类： 机器学习, 人工智能, 计算和语言

作者： Achintya Kundu, Fabian Lim, Aaron Chew, Laura Wynter, Penny Chong, Rhui Dih Lee

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01353v1

摘要： LLM 的超网训练在工业应用中引起了极大的兴趣，因为它赋予了以恒定成本生成一系列较小模型的能力，而不管生成的模型数量（不同大小/延迟）如何。我们提出了一种称为多级低秩微调超级变压器（MLFS）的新方法，用于参数高效的超网训练。我们表明，可以获得适合商业边缘应用的高质量编码器模型，并且虽然仅解码器模型能够抵抗相当程度的压缩，但可以有效地对解码器进行切片，从而显着减少训练时间。

大语言模型可以在不泄露私人信息的情况下获得其他大语言模型的帮助吗？

分类： 机器学习, 人工智能, 密码学和安全, 多代理系统

作者： Florian Hartmann, Duc-Hieu Tran, Peter Kairouz, Victor Cărbune, Blaise Aguera y Arcas

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01041v2

摘要： 级联是一种常见的机器学习系统类型，如果本地模型本身无法准确标记用户的数据，则可以查询大型远程模型。大型语言模型 (LLM) 的服务堆栈越来越多地使用级联，因为级联能够保持任务性能，同时显着降低推理成本。然而，在本地模型可以访问敏感数据的情况下应用级联系统会给用户带来重大的隐私风险，因为此类数据可能会转发到远程模型。在这项工作中，我们通过为本地模型配备隐私保护技术来展示在此类设置中应用级联系统的可行性，这些技术可以降低查询远程模型时泄露私人信息的风险。为了量化此类设置中的信息泄漏，我们引入了两种隐私措施。然后，我们提出了一个利用最近引入的社会学习范式的系统，其中大语言模型通过交换自然语言相互协作学习。使用这种范例，我们在多个数据集上证明，与非级联基线相比，我们的方法最大限度地减少了隐私损失，同时提高了任务性能。

使用 LLM 实现 C 程序的内存安全

分类： 软件工程, 编程语言

作者： Nausheen Mohammed, Akash Lal, Aseem Rastogi, Subhajit Roy, Rahul Sharma

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01096v1

摘要： 用 C 等语言编写的低级代码中的内存安全违规仍然是软件漏洞的主要来源之一。通过构造消除此类违规的一种方法是将 C 代码移植到安全的 C 方言。此类方言依赖程序员提供的注释来以最小的运行时开销保证安全性。然而，这种移植是一个手动过程，给程序员带来了很大的负担，因此，这种技术的采用受到限制。移植的任务不仅需要推断注释，而且可能还需要重构/重写代码以使其适合此类注释。在本文中，我们使用大型语言模型（LLM）来解决这两个问题。我们展示了如何利用 LLM 功能进行复杂的代码推理以及大型代码库的重写。我们还提出了一种用于整个程序转换的新颖框架，该框架利用轻量级静态分析将转换分解为可由大语言模型有效执行的更小的步骤。我们在一个名为 MSA 的工具中实现了我们的想法，该工具针对的是 CheckedC 方言。我们根据多个微基准以及最多 20K 行代码的实际代码来评估 MSA。与普通的 LLM 基线相比，我们展示了卓越的性能，并展示了对最先进的符号（非 LLM）技术的改进。

LLM Attributor：LLM 生成的交互式视觉归因

分类： 计算和语言, 人工智能, 人机交互, 机器学习

作者： Seongmin Lee, Zijie J. Wang, Aishwarya Chakravarthy, Alec Helbling, ShengYun Peng, Mansi Phute, Duen Horng Chau, Minsuk Kahng

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01361v1

摘要： 虽然大型语言模型 (LLM) 已显示出在不同领域生成令人信服的文本的卓越能力，但对其潜在风险的担忧凸显了理解文本生成背后原理的重要性。我们推出了 LLM Attributor，这是一个 Python 库，它为 LLM 文本生成的训练数据归因提供交互式可视化。我们的库提供了一种新方法，可以快速将大语言模型的文本生成归因于训练数据点，以检查模型行为、增强其可信度，并将模型生成的文本与用户提供的文本进行比较。我们描述了工具的视觉和交互设计，并重点介绍了使用两个不同数据集进行微调的 LLaMA2 模型的使用场景：有关近期灾难的在线文章和与金融相关的问答对。由于 LLM Attributor 对计算笔记本的广泛支持，用户可以轻松地将其集成到他们的工作流程中，以交互方式可视化模型的归因。为了更方便地访问和扩展，我们在 https://github.com/poloclub/LLM-Attribution 上开源了 LLM Attributor。视频演示可在 https://youtu.be/mIG2MDQKQxM 上获取。

结构化信息很重要：将抽象意义表示纳入大语言模型以改进开放领域对话评估

分类： 计算和语言

作者： Bohao Yang, Kun Zhao, Chen Tang, Liang Zhan, Chenghua Lin

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01129v1

摘要： 自动开放域对话评估越来越受到关注。可训练的评估指标通常使用真正的正面和随机选择的负面响应进行训练，导致他们倾向于为与给定上下文具有较高内容相似性的响应分配较高的分数。然而，对抗性的负面反应与上下文具有高度的内容相似性，但在语义上却有所不同。因此，现有的评估指标不够稳健，无法评估此类响应，导致与人类判断的相关性较低。虽然最近的研究表明利用大型语言模型（LLM）进行开放域对话评估具有一定的功效，但它们在有效处理对抗性负面例子方面仍然遇到挑战。在本文中，我们提出了一个简单而有效的开放域对话评估框架，它将特定领域语言模型（SLM）与LLM结合起来。 SLM 可以通过用于增强语义表示学习的门控机制明确地合并对话的抽象含义表示（AMR）图信息。将SLM的评估结果和AMR图信息插入到LLM的提示中，以增强情境学习性能。开放域对话评估任务的实验结果证明了我们的方法与各种最先进的基线相比的优越性，特别是在区分对抗性负面反应方面。我们的代码可在 https://github.com/Bernard-Yang/SIMAMR 获取。

大语言模型是否会发现人类对事实驱动问题的答案令人困惑？ Reddit 案例研究

分类： 计算和语言, 机器学习

作者： Parker Seegmiller, Joseph Gatto, Omar Sharif, Madhusudan Basak, Sarah Masud Preum

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01147v1

摘要： 大型语言模型（LLM）已被证明能够熟练地正确回答在线对话中的问题。然而，利用大语言模型对事实驱动的社交媒体问题进行类人回答的研究仍处于探索之中。在这项工作中，我们研究了大语言模型如何对在几个特定主题的 Reddit 社区或子 Reddit 上提出的事实驱动问题的各种人类答案进行建模。我们收集并发布了来自 15 个 r/Ask{Topic} 社区的 409 个事实驱动问题和 7,534 个不同的人工评分答案的数据集，涵盖 3 个类别：职业、社会身份和地理位置。我们发现大语言模型在模拟此类问题的高评价人类答案方面要好得多，而不是低评价人类答案。我们根据初步发现提出了未来研究的几个方向。

Detect2Interact：使用大语言模型本地化视觉问答 (VQA) 中的对象关键字段

分类： 计算机视觉和模式识别

作者： Jialou Wang, Manli Zhu, Yulei Li, Honglei Li, Longzhi Yang, Wai Lok Woo

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01151v1

摘要： 本地化对于提高VQA系统的实用性和精度起着至关重要的作用。通过实现细粒度的识别以及与对象特定部分的交互，它显着提高了系统提供上下文相关和空间准确响应的能力，这对于机器人和增强现实等动态环境中的应用至关重要。然而，传统系统在准确映射图像中的对象以生成细致入微且空间感知的响应方面面临挑战。在这项工作中，我们引入了“Detect2Interact”，它通过引入一种用于细粒度对象视觉关键字段检测的先进方法来解决这些挑战。首先，我们使用分段任何模型（SAM）来生成图像中对象的详细空间图。接下来，我们使用Vision Studio提取语义对象描述。第三，我们利用 GPT-4 的常识知识，弥合了对象的语义与其空间地图之间的差距。因此，Detect2Interact 在广泛的测试用例中在对象关键字段检测上实现了一致的定性结果，并通过提供更合理和更精细的视觉表示，在对象检测方面优于现有的 VQA 系统。

大语言模型作为策划者：大型语言模型的战略推理调查

分类： 计算和语言

作者： Yadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Adrian de Wynter, Yan Xia, Wenshan Wu, Ting Song, Man Lan, Furu Wei

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01230v1

摘要： 本文对大型语言模型（LLM）在战略推理中的现状和机遇进行了全面调查，战略推理是一种复杂的推理形式，需要理解和预测多智能体环境中的对手行为，同时相应地调整策略。战略推理的特点是关注多主体之间相互作用的动态和不确定性，其中理解环境和预测他人的行为至关重要。我们与大语言模型探讨了与战略推理相关的范围、应用、方法和评估指标，强调了该领域的蓬勃发展以及提高其决策绩效的跨学科方法。它旨在系统化和澄清有关该主题的分散文献，提供系统综述，强调战略推理作为一种关键认知能力的重要性，并提供对未来研究方向和潜在改进的见解。

映射大语言模型在科学论文中的使用日益增加

分类： 计算和语言, 人工智能, 数字图书馆, 机器学习, 社交和信息网络

作者： Weixin Liang, Yaohui Zhang, Zhengxuan Wu, Haley Lepp, Wenlong Ji, Xuandong Zhao, Hancheng Cao, Sheng Liu, Siyu He, Zhi Huang, Diyi Yang, Christopher Potts, Christopher D Manning, James Y. Zou

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01268v1

摘要： 科学出版通过传播研究成果、促进合作、鼓励可重复性以及确保科学知识可获取、可验证和长期积累来奠定科学的基础。最近，人们纷纷猜测有多少人在学术写作中使用像 ChatGPT 这样的大型语言模型 (LLM)，以及该工具可能在多大程度上对全球科学实践产生影响。然而，我们缺乏对大语言模型大幅修改或创作的学术写作比例的精确衡量。为了解决这一差距，我们对 2020 年 1 月至 2024 年 2 月期间在 arXiv、bioRxiv 和 Nature 组合期刊上发表的 950,965 篇论文进行了首次系统性、大规模的分析，使用人口层面的统计框架来衡量 LLM 的流行程度。随着时间的推移修改内容。我们的统计估计在语料库级别上进行，比对单个实例的推断更稳健。我们的研究结果显示，LLM 的使用量稳步增长，其中计算机科学论文的增长幅度最大且最快（高达 17.5%）。相比之下，数学论文和自然作品集的 LLM 修改最少（高达 6.3%）。此外，在总体水平上，我们的分析表明，较高水平的大语言模型修改与第一作者更频繁地发表预印本的论文、更拥挤的研究领域的论文以及篇幅较短的论文相关。我们的研究结果表明，大语言模型正在科学著作中广泛使用。

专家的及时提示混合，以实现高效的大语言模型生成

分类： 机器学习, 人工智能, 计算和语言

作者： Harry Dong, Beidi Chen, Yuejie Chi

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01365v1

摘要： 随着基于 Transformer 的大语言模型 (LLM) 的发展，由于其显着的实用性，它们已被应用于许多领域，但这在部署时需要相当大的计算成本。幸运的是，一些方法（例如修剪或构建专家混合 (MoE)）旨在利用变压器前馈 (FF) 块中的稀疏性来提高速度并减少内存需求。然而，这些技术在实践中可能非常昂贵且不灵活，因为它们通常需要培训或仅限于特定类型的架构。为了解决这个问题，我们引入了 GRIFFIN，一种新颖的免训练 MoE，它在序列级别选择独特的 FF 专家，以便跨大量具有不同非 ReLU 激活函数的 LLM 进行高效生成。这是可能的，因为一个重要的观察结果是，许多训练有素的大语言模型自然会在序列中产生高度结构化的 FF 激活模式，我们称之为聚集。尽管我们的方法很简单，但我们用 50% 的 FF 参数证明，GRIFFIN 保持了原始模型的性能，在各种分类和生成任务上几乎没有降级，同时改善了延迟（例如 1.25$\times$ 加速在 NVIDIA L40 上的 Llama 2 13B 中）。代码可在 https://github.com/hdong920/GRIFFIN 获取。

大语言模型作为探索、分析和可视化知识图助手的初步路线图

分类： 人机交互

作者： Harry Li, Gabriel Appleby, Ashley Suh

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01425v1

摘要： 我们提出了一项混合方法研究，以探索大型语言模型（LLM）如何帮助用户对知识图（KG）进行可视化探索和分析。我们调查并采访了来自工业界、政府实验室和学术界的 20 名专业人士，他们经常与 KG 和 LLM 合作或同时合作。我们的研究结果表明，参与者绝大多数希望大语言模型能够通过联合查询构建来促进知识图谱的数据检索，通过多轮对话识别知识图谱中有趣的关系，并根据知识图谱创建按需可视化，以增强他们对大语言模型的信任输出。为了与大语言模型进行互动，参与者强烈喜欢基于聊天的“小部件”，该“小部件”构建在其常规分析工作流程之上，能够指导大语言模型使用与可视化的交互。在查看大语言模型的输出时，参与者同样更喜欢将带注释的视觉效果（例如，从知识图谱中提取的子图或表格）与总结文本结合起来。然而，参与者也对大语言模型在将自然语言问题翻译为知识图谱查询时保持语义意图的能力、大语言模型“幻觉”知识图谱中虚假数据的风险以及设计“完美提示”的困难表示担忧。根据我们的采访分析，我们为大语言模型驱动的知识图探索系统的设计提供了初步路线图，并概述了这个新兴设计领域的未来机会。

用于减少大语言模型位置偏差的位置感知参数高效微调方法

分类： 计算和语言, 人工智能, 机器学习

作者： Zheng Zhang, Fan Yang, Ziyan Jiang, Zheng Chen, Zhengyang Zhao, Chengyuan Ma, Liang Zhao, Yang Liu

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01430v1

摘要： 大型语言模型 (LLM) 的最新进展增强了它们处理长输入上下文的能力。这种开发对于涉及从外部数据存储检索知识的任务尤其重要，这可能会导致较长的输入。然而，最近的研究表明大语言模型存在位置偏差，表现出不同的性能取决于输入序列中有用信息的位置。在这项研究中，我们进行了大量的实验来调查位置偏差的根本原因。我们的研究结果表明，LLM 位置偏差的主要原因源于不同模型固有的位置偏好。我们证明，仅仅采用基于提示的解决方案不足以克服位置偏好。为了解决预训练 LLM 的位置偏差问题，我们开发了一种位置感知参数高效微调（PAPEFT）方法，该方法由数据增强技术和参数高效适配器组成，增强了输入中的均匀注意力分布语境。我们的实验表明，所提出的方法有效地减少了位置偏差，提高了大语言模型在处理需要外部检索知识的各种任务的长上下文序列时的有效性。

揭示大语言模型对时态数据的不同归纳偏差

分类： 计算和语言, 人工智能

作者： Sindhu Kishore, Hangfeng He

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01453v1

摘要： 用自然语言揭示事件的复杂细节需要对时间动态的微妙理解。尽管大型语言模型（LLM）擅长从数据中辨别模式和关系，但它们对时间动态的固有理解仍然是一个巨大的挑战。这项研究细致地探讨了大语言模型内的这些内在挑战，特别强调评估 GPT-3.5 和 GPT-4 模型在时态数据分析中的性能。我们的分析采用两种不同的提示类型，即问答（QA）格式和文本蕴涵（TE）格式，探讨隐式和显式事件。研究结果强调了值得注意的趋势，揭示了 GPT-3.5 和 GPT-4 性能的差异。值得注意的是，对特定时间关系的偏见暴露出来，GPT-3.5 在 QA 格式中对隐式和显式事件表现出偏好“之后”，而 GPT-4 则倾向于“之前”。此外，一致的模式表面，其中 GPT-3.5 倾向于“TRUE”，而 GPT-4 在 TE 格式中对于隐式和显式事件都表现出对“FALSE”的偏好。 GPT-3.5 和 GPT-4 在处理时态数据方面持续存在的差异凸显了大语言模型中归纳偏差的复杂性，这表明这些模型的演变不仅可能减轻偏差，还可能引入新的复杂性层面。

真正的 Linda 能经受住大型语言模型的考验吗？检查大语言模型的代表性启发式

分类： 计算和语言, 人机交互

作者： Pengda Wang, Zilin Xiao, Hanjie Chen, Frederick L. Oswald

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01461v1

摘要： 尽管大型语言模型 (LLM) 在理解文本和生成类人文本方面表现出了卓越的能力，但它们在这样做时可能会表现出从训练数据中获得的偏差。具体来说，大语言模型可能容易受到人类决策中常见的认知陷阱（称为代表性启发法）的影响。这是心理学中的一个概念，指的是根据事件与众所周知的原型或典型例子的相似程度来判断事件的可能性，而不是考虑更广泛的事实或统计证据。这项工作研究了代表性启发式对大语言模型推理的影响。我们创建了 REHEAT（代表性启发式 AI 测试），这是一个包含一系列问题的数据集，涵盖六种常见类型的代表性启发式。实验表明，应用于 REHEAT 的四名大语言模型均表现出代表性启发式偏差。我们进一步发现模型的推理步骤通常错误地基于刻板印象而不是问题的描述。有趣的是，当在提示中添加提示以提醒模型使用其知识时，性能会提高。这表明与传统偏差相比代表性启发法的独特性。即使大语言模型拥有正确的知识，但陷入认知陷阱，这种情况也可能发生。这凸显了未来研究重点关注模型推理和决策中的代表性启发式以及开发解决方案的重要性。

基于 LLM 的代码生成的语法稳健性

分类： 软件工程

作者： Laboni Sarker, Mara Downing, Achintya Desai, Tevfik Bultan

发布时间： 2024-04-01

链接： http://arxiv.org/abs/2404.01535v1

摘要： 大型语言模型 (LLM) 领域的快速发展使得基于 LLM 的代码生成成为重要的研究领域。基于 LLM 的代码生成器将提示作为输入并生成实现提示中指定的要求的代码。许多软件需求包括指定要生成的代码的预期行为的数学公式。给定包含数学公式的代码生成提示，合理的期望是，如果在语法上修改公式而不改变其语义，则为修改后的提示生成的代码应该在语义上等效。我们将这个概念形式化为句法稳健性，并研究了 GPT-3.5-Turbo 和 GPT-4 作为代码生成器的句法稳健性。为了测试语法的稳健性，我们使用一组仅修改提示中的数学公式的变异器生成语法上不同但语义上等效的提示版本。在本文中，我们重点关注要求代码的提示，当给定方程的系数作为输入时，该代码生成方程中变量的解。我们的实验评估表明，GPT-3.5-Turbo 和 GPT-4 对于此类提示在语法上并不稳健。为了提高句法稳健性，我们定义了一组约简，将公式转换为简化形式，并将这些约简用作预处理步骤。我们的实验结果表明，使用我们的方法可以提高基于 LLM 的代码生成的语法鲁棒性。