2024-05
探索多模式大语言模型作为世界驾驶模式
分类: 机器人技术, 计算机视觉和模式识别
作者: Shiva Sreeram, Tsun-Hsuan Wang, Alaa Maalouf, Guy Rosman, Sertac Karaman, Daniela Rus
发布时间: 2024-05-09
链接: http://arxiv.org/abs/2405.05956v1
摘要: 我们冷静地审视了多模态大语言模型(MLLM)在自动驾驶领域的应用,并挑战/验证了一些常见的假设,重点关注它们通过封闭的图像/帧序列来推理和解释动态驾驶场景的能力。 -循环控制环境。尽管 GPT-4V 等 MLLM 取得了显着进步,但它们在复杂、动态驾驶环境中的性能仍然很大程度上未经测试,并且存在广泛的探索领域。我们进行了一项全面的实验研究,从固定车载摄像头的角度评估各种 MLLM 作为世界驾驶模型的能力。我们的研究结果表明,虽然这些模型能够熟练地解释单个图像,但它们在跨框架描述动态行为的综合连贯叙述或逻辑序列方面存在很大困难。实验表明,预测 (i) 基本车辆动力学(前进/后退、加速/减速、右转或左转)、(ii) 与其他道路参与者的交互(例如,识别超速汽车或交通拥堵)、(iii)轨迹规划,以及(iv)开放集动态场景推理,表明模型训练数据存在偏差。为了进行这项实验研究,我们引入了一个专门的模拟器 DriveSim,旨在生成不同的驾驶场景,为评估驾驶领域的 MLLM 提供一个平台。此外,我们还贡献了完整的开源代码和新数据集“Eval-LLM-Drive”,用于评估驾驶中的 MLLM。我们的结果凸显了最先进的 MLLM 当前能力的关键差距,强调需要增强的基础模型以提高其在现实世界动态环境中的适用性。
CuMo:通过联合升级再造专家组合扩展多模式大语言模型
分类: 计算机视觉和模式识别
作者: Jiachen Li, Xinyao Wang, Sijie Zhu, Chia-Wen Kuo, Lu Xu, Fan Chen, Jitesh Jain, Humphrey Shi, Longyin Wen
发布时间: 2024-05-09
链接: http://arxiv.org/abs/2405.05949v1
摘要: 多模态大语言模型 (LLM) 的最新进展主要集中在通过增加文本图像对数据和增强 LLM 来提高多模态任务的性能来进行扩展。然而,这些缩放方法的计算成本很高,并且忽视了从视觉方面改进模型能力的重要性。受到大语言模型中专家混合 (MoE) 成功应用的启发,它提高了训练过程中的模型可扩展性,同时保持与较小模型相似的推理成本,我们提出了 CuMo。 CuMo 将联合升级的 Top-K 稀疏门控混合专家块合并到视觉编码器和 MLP 连接器中,从而在推理过程中以最少的额外激活参数增强多模态 LLM。 CuMo 首先预训练 MLP 块,然后在视觉指令调整阶段从预训练的 MLP 块初始化 MoE 块中的每个专家。辅助损失用于确保专家的均衡负载。 CuMo 使用每个模型大小组中的模型,在各种 VQA 和视觉指令遵循基准上优于最先进的多模式大语言模型,同时仅在开源数据集上进行训练。 CuMo 的代码和模型权重在 https://github.com/SHI-Labs/CuMo 上开源。
大语言模型的真实汇总及其在线广告应用
分类: 计算机科学与博弈论, 人工智能
作者: Ermis Soumalias, Michael J. Curry, Sven Seuken
发布时间: 2024-05-09
链接: http://arxiv.org/abs/2405.05905v1
摘要: 我们解决了将多个代理的偏好聚合到 LLM 生成的对用户查询的回复的挑战,其中代理可能会修改或夸大他们的偏好。新的代理可能会参与每个新的查询,从而使大语言模型根据这些偏好进行微调变得不切实际。为了克服这些挑战,我们提出了一种无需微调或访问模型权重即可运行的拍卖机制。该机制旨在随着计算资源的增加,可证明收敛到优化微调的 LLM 的输出。该机制还可以在可用时合并有关代理的上下文信息,这显着加速了其收敛。精心设计的支付规则确保真实报告是所有代理人的最佳策略,同时还通过将每个代理人的效用与其对社会福利的贡献相结合来促进股权财产——这是该机制长期生存的一个基本特征。虽然我们的方法可以在允许货币交易的情况下应用,但我们的旗舰应用是在线广告。在这种背景下,广告商试图将LLM产生的反应引导到他们的品牌利益上,而该平台的目标是最大化广告商价值并确保用户满意度。实验结果证实,我们的机制不仅有效地收敛到最佳微调的 LLM,而且还显着提高了广告商价值和平台收入,所有这些都以最小的计算开销。
对新知识进行微调的大语言模型是否会助长幻觉?
分类: 计算和语言
作者: Zorik Gekhman, Gal Yona, Roee Aharoni, Matan Eyal, Amir Feder, Roi Reichart, Jonathan Herzig
发布时间: 2024-05-09
链接: http://arxiv.org/abs/2405.05904v1
摘要: 当大型语言模型通过监督微调进行对齐时,它们可能会遇到未通过预训练获得的新事实信息。人们通常推测,这可以教会模型产生幻觉事实上不正确的反应的行为,因为模型被训练来生成不基于其预先存在的知识的事实。在这项工作中,我们研究了这种接触新知识对微调模型利用其预先存在的知识的能力的影响。为此,我们设计了一个受控设置,专注于闭卷质量检查,其中我们改变引入新知识的微调示例的比例。我们证明大型语言模型很难通过微调来获取新的事实知识,因为引入新知识的微调示例的学习速度明显慢于那些与模型知识一致的示例。然而,我们还发现,随着最终学习到具有新知识的示例,它们会线性增加模型产生幻觉的倾向。综上所述,我们的结果凸显了通过微调引入新事实知识的风险,并支持这样的观点:大型语言模型大多通过预训练来获取事实知识,而微调则教会它们更有效地使用它。
高效的大语言模型比较评估:成对比较专家框架的产物
分类: 计算和语言
作者: Adian Liusie, Vatsal Raina, Yassir Fathullah, Mark Gales
发布时间: 2024-05-09
链接: http://arxiv.org/abs/2405.05894v1
摘要: 大语言模型作为法官的方法是评估一系列文本任务的实用且有效的方法,与人类的判断相一致,特别是在以比较评估方式应用时。然而,当使用成对比较对一组候选者进行排名时,计算成本与候选者的数量呈二次方缩放,这可能具有实际限制。本文介绍了用于高效 LLM 比较评估的专家产品 (PoE) 框架。这里,个人比较被认为是提供配对得分差异信息的专家。 PoE 框架结合了这些专家的信息,产生了一个可以最大化潜在候选人集的表达式,并且在可以假设任何形式的专家的情况下具有高度灵活性。当使用高斯专家时,我们可以导出最佳候选排名的简单封闭式解决方案,以及用于选择应该进行哪些比较以最大化该排名的概率的表达式。我们的方法可以实现有效的比较评估,通过仅使用可能比较的一小部分,就可以生成与人类判断相关的分数预测,就像使用所有比较时的预测一样。我们在多个 NLG 任务上评估该方法,并证明我们的框架在执行成对比较评估时可以节省大量计算量。当 N 很大时,只需 2% 的比较,PoE 解决方案就可以实现与使用所有比较时相似的性能。
机器人可以感觉:基于大语言模型的机器人道德推理框架
分类: 机器人技术
作者: Artem Lykov, Miguel Altamirano Cabrera, Koffivi Fidèle Gbagbe, Dzmitry Tsetserukou
发布时间: 2024-05-09
链接: http://arxiv.org/abs/2405.05824v1
摘要: 本文介绍了一种新颖的机器人伦理推理框架的开发。 “机器人可以感觉”是第一个机器人系统,它利用逻辑和类人情感模拟相结合,在类似于人类的道德复杂情况下做出决策。该方法的关键特征是情绪权重系数的管理——一个可定制的参数,用于分配情绪在机器人决策中的作用。该系统旨在作为一种工具,为任何形式和用途的机器人配备接近人类标准的道德行为。除了平台之外,系统与基础模型的选择无关。在评估过程中,系统在 8 个最新的 LLM(大型语言模型)上进行了测试。该列表包括各个公司和国家开发的商业和开源模型。研究表明,无论模型选择如何,情绪权重系数都会类似地影响机器人的决策。根据方差分析,不同情绪权重系数的使用会影响一系列情况下的最终决定,例如在饮食违规请求中 F(4, 35) = 11.2, p = 0.0001 以及在动物同情情况下 F (4, 35) = 8.5441,p = 0.0001。演示代码存储库位于:https://github.com/TemaLykov/robots_can_feel
机器实验语用学:测试普通和嵌入式析取推理的大语言模型预测
分类: 计算和语言
作者: Polina Tsvilodub, Paul Marty, Sonia Ramotowska, Jacopo Romoli, Michael Franke
发布时间: 2024-05-09
链接: http://arxiv.org/abs/2405.05776v1
摘要: 人类交流是基于我们从句子中得出的各种推论,通常超出了字面意思。尽管人们对蕴含、暗示和预设之间的基本区别达成了广泛共识,但许多推论的地位仍然存在争议。在本文中,我们重点关注简单和嵌入析取的三个推论,并将它们与正则标量含义进行比较。我们从最先进的大型语言模型预测的新颖角度来研究这种比较,使用与最近研究与人类相同的推理的研究相同的实验范式。我们表现最好的模型的结果大多与人类的结果一致,无论是我们在这些推论和含义之间发现的巨大差异,还是在这些推论的不同方面之间的细粒度区别。
探索人类与大语言模型在推进定性分析方面的协同潜力:精神疾病耻辱案例研究
分类: 人机交互, 计算和语言, 计算机与社会
作者: Han Meng, Yitian Yang, Yunan Li, Jungup Lee, Yi-Chieh Lee
发布时间: 2024-05-09
链接: http://arxiv.org/abs/2405.05758v1
摘要: 定性分析是推进人机交互 (HCI) 领域研究的一个具有挑战性但又至关重要的方面。最近的研究表明,大型语言模型 (LLM) 可以在现有方案中执行定性编码,但它们在人类与 LLM 协作发现和定性分析中生成新见解的潜力尚未得到充分探索。为了弥合这一差距并通过利用大语言模型的力量推进定性分析,我们提出了 CHALET,这是一种利用人类与大语言模型协作范式来促进概念化并增强定性研究的新颖方法。 CHALET 方法涉及大语言模型支持的数据收集,执行人类和大语言模型演绎编码以识别分歧,并对这些分歧案例执行协作归纳编码以得出新的概念见解。我们通过将 CHALET 应用于精神疾病耻辱归因模型来验证 CHALET 的有效性,揭示认知、情感和行为维度上隐含的耻辱主题。我们讨论了 CHALET 对未来研究、方法论以及为 HCI 社区及其他领域带来的跨学科机会的影响。
攻击链:LLM 的语义驱动上下文多轮攻击者
分类: 计算和语言, 密码学和安全, 机器学习
作者: Xikang Yang, Xuehai Tang, Songlin Hu, Jizhong Han
发布时间: 2024-05-09
链接: http://arxiv.org/abs/2405.05610v1
摘要: 大型语言模型(LLM)在各种自然语言处理任务中,特别是在对话系统中取得了显着的性能。然而,LLM 也可能会带来安全和道德威胁,特别是在多轮对话中,大型模型更容易受到上下文内容的引导,从而导致有害或有偏见的反应。在本文中,我们提出了一种在多轮对话中攻击 LLM 的新方法,称为 CoA(攻击链)。 CoA是一种语义驱动的上下文多轮攻击方法,在与大模型进行多轮对话时,通过上下文反馈和语义相关性自适应调整攻击策略,导致模型产生不合理或有害的内容。我们在不同的 LLM 和数据集上评估 CoA,并表明它可以有效暴露 LLM 的漏洞,并且优于现有的攻击方法。我们的工作为攻击和捍卫大语言模型提供了新的视角和工具,并为对话系统的安全和道德评估做出了贡献。
OpenFactCheck:大语言模型事实性评估的统一框架
分类: 计算和语言
作者: Yuxia Wang, Minghan Wang, Hasan Iqbal, Georgi Georgiev, Jiahui Geng, Preslav Nakov
发布时间: 2024-05-09
链接: http://arxiv.org/abs/2405.05583v1
摘要: 在各种实际应用中越来越多地使用大型语言模型 (LLM),这就需要有机制来验证其输出的事实准确性。困难在于评估开放领域中自由形式响应的真实性。此外,不同的论文使用不同的评估基准和测量方法,这使得它们难以比较并阻碍未来的进展。为了缓解这些问题,我们提出了 OpenFactCheck,这是一个针对大语言模型的统一事实性评估框架。 OpenFactCheck由三个模块组成:(i) CUSTCHECKER允许用户轻松定制自动事实检查器并验证文件和声明的事实正确性,(ii) LLMEVAL,一个统一的评估框架,从各个角度公平地评估LLM的事实能力,以及( iii) CHECKEREVAL 是一种可扩展的解决方案,用于使用人工注释的数据集来衡量自动事实检查器验证结果的可靠性。 OpenFactCheck 公开发布于 https://github.com/yuxiaw/OpenFactCheck。
开源语言模型可以提供反馈:评估大语言模型帮助学生使用 GPT-4 作为法官的能力
分类: 计算和语言, 人工智能, 计算机与社会
作者: Charles Koutcheme, Nicola Dainese, Sami Sarsa, Arto Hellas, Juho Leinonen, Paul Denny
发布时间: 2024-05-08
链接: http://arxiv.org/abs/2405.05253v1
摘要: 大型语言模型(LLM)在广泛的计算环境中显示出自动生成反馈的巨大潜力。然而,人们对将学生作品发送到专有模型的隐私和道德影响表示担忧。这引发了人们对在教育中使用开源大语言模型的极大兴趣,但这种开放模型所能产生的反馈质量仍然没有得到充分研究。这是一个令人担忧的问题,因为提供有缺陷或误导性的生成反馈可能不利于学生的学习。受到最近利用非常强大的 LLM(例如 GPT-4)来评估功能较弱的模型产生的输出的工作的启发,我们使用来自介绍性模型的数据集对几个开源模型产生的反馈质量进行了自动分析。编程课程。首先,我们通过将 GPT-4 的评估与人类专家的评估进行比较来研究使用 GPT-4 作为自动评估器的可行性。我们观察到,GPT-4 表现出对积极评价反馈的偏见,同时与人类评分者表现出适度的一致性,展示了其作为反馈评估器的潜力。其次,我们通过使用 GPT-4 评估反馈来探索几个领先的开源 LLM 生成的反馈质量。我们发现,一些模型与流行的专有大语言模型(例如 ChatGPT)相比提供了具有竞争力的性能,这表明它们有机会在教育环境中负责任地使用。
多问题谈判游戏中具有个性的大语言模型
分类: 计算和语言, 人工智能, 多代理系统
作者: Sean Noh, Ho-Chun Herbert Chang
发布时间: 2024-05-08
链接: http://arxiv.org/abs/2405.05248v1
摘要: 在大型语言模型 (LLM) 的支持下,人工智能代理已经能够执行许多人类任务。我们使用大五人格最规范的定义,衡量大语言模型在博弈论框架内谈判的能力,以及衡量公平和风险概念的方法挑战。单问题和多问题谈判的模拟(n=1,500)表明,问题估值不对称会导致领域复杂性增加,从而提高协议率,但会减少激进谈判带来的盈余。通过梯度增强回归和沙普利解释器,我们发现高度开放性、责任心和神经质与公平倾向相关;低宜人性和低开放性与理性倾向相关。低责任感与高毒性相关。这些结果表明,大语言模型可能具有默认公平行为的内置护栏,但可能会“越狱”以利用令人愉快的对手。我们还提供了关于如何设计谈判机器人的实用见解,以及基于博弈论和计算社会科学的评估谈判行为的框架。
DALK:LLM 和 KG 的动态联合增强,用科学文献回答阿尔茨海默病问题
分类: 计算和语言, 人工智能
作者: Dawei Li, Shu Yang, Zhen Tan, Jae Young Baik, Sunkwon Yun, Joseph Lee, Aaron Chacko, Bojian Hou, Duy Duong-Tran, Ying Ding, Huan Liu, Li Shen, Tianlong Chen
发布时间: 2024-05-08
链接: http://arxiv.org/abs/2405.04819v1
摘要: 大型语言模型 (LLM) 的最新进展在各种应用程序中取得了令人鼓舞的性能。尽管如此,整合长尾知识的持续挑战仍然阻碍了大语言模型在专业领域的无缝采用。在这项工作中,我们引入了 DALK(又名 LLM 和 KG 的动态联合增强)来解决这一限制,并展示其研究阿尔茨海默病 (AD) 的能力,阿尔茨海默病是生物医学的一个专业子领域,也是全球健康的优先事项。通过LLM和KG相互增强的协同框架,我们首先利用LLM构建一个源自AD相关科学文献的不断发展的AD特定知识图谱(KG),然后利用从粗到细的采样方法一种新颖的自我意识知识检索方法,用于从 KG 中选择适当的知识来增强 LLM 推理能力。在我们构建的 AD 问答 (ADQA) 基准上进行的实验结果强调了 DALK 的功效。此外,我们还进行了一系列详细的分析,可以为 KG 和 LLM 相互增强的新兴主题提供有价值的见解和指南。我们将在 https://github.com/David-Li0406/DALK 发布代码和数据。
从大语言模型到行动:潜在代码作为分层机器人控制中的桥梁
分类: 机器人技术, 人工智能
作者: Yide Shentu, Philipp Wu, Aravind Rajeswaran, Pieter Abbeel
发布时间: 2024-05-08
链接: http://arxiv.org/abs/2405.04798v1
摘要: 机器人的分层控制长期以来一直受到需要有一个明确定义的接口层来在高级任务规划器和低级策略之间进行通信的困扰。随着大语言模型的出现,语言已经成为一个有前景的界面层。然而,这有几个限制。并非所有任务都可以分解为易于用自然语言表达的步骤(例如表演舞蹈)。此外,由于域转移和灾难性遗忘,它使得对具体数据的端到端微调变得具有挑战性。我们介绍我们的方法——可学习潜在代码作为桥梁(LCB)——作为克服这些限制的替代架构。 \method使用可学习的潜在代码作为大语言模型和低级策略之间的桥梁。这使得大语言模型能够灵活地传达任务计划中的目标,而不会完全受到语言限制的限制。此外,它还可以实现端到端微调,而不会破坏预训练期间学习的单词标记的嵌入空间。通过对 Language Table 和 Calvin(两种基于通用语言的实体代理基准)的实验,我们发现\method优于基线(包括那些使用 GPT-4V 的基线),这些基线利用纯语言作为需要推理和多任务的接口层。步骤行为。
零样本大语言模型指导的文本反事实生成
分类: 计算和语言, 人工智能, 机器学习
作者: Amrita Bhattacharjee, Raha Moraffah, Joshua Garland, Huan Liu
发布时间: 2024-05-08
链接: http://arxiv.org/abs/2405.04793v1
摘要: 反事实示例经常用于许多自然语言处理 (NLP) 任务中的模型开发和评估。尽管已经探索了自动反事实生成的方法,但此类方法依赖于诸如预先训练的语言模型之类的模型,然后在辅助的、通常特定于任务的数据集上进行微调。收集和注释此类用于反事实生成的数据集是劳动密集型的,因此在实践中不可行。因此,在这项工作中,我们专注于一个新颖的问题设置:\textit{零样本反事实生成}。为此,我们提出了一种利用大型语言模型(LLM)作为通用反事实示例生成器的结构化方法。我们假设,最近大语言模型的指令跟踪和文本理解能力可以有效地利用,以零样本的方式生成高质量的反事实,而不需要任何培训或微调。通过对自然语言处理(NLP)中各种下游任务的综合实验,我们证明了大语言模型作为零样本反事实生成器在评估和解释黑盒 NLP 模型方面的功效。
大语言模型可以弥补评估中缺失的相关性判断
分类: 信息检索
作者: Shivani Upadhyay, Ehsan Kamalloo, Jimmy Lin
发布时间: 2024-05-08
链接: http://arxiv.org/abs/2405.04727v1
摘要: 未经判断的文档或信息检索基准中的漏洞被认为与评估无关,在衡量有效性方面没有任何收获。然而,这些缺失的判断可能会无意中在评估中引入偏差,因为它们在检索模型中的流行程度在很大程度上取决于汇集过程。因此,填充孔对于确保可靠和准确的评估至关重要。收集所有文档的人类判断既麻烦又不切实际。在本文中,我们的目标是利用大型语言模型(LLM)来自动标记未判断的文档。我们的目标是指导大语言模型使用详细的说明对漏洞进行细粒度的相关性判断。为此,我们通过在 TREC DL 轨迹的相关性判断中随机丢弃相关文档,系统地模拟了不同程度漏洞的场景。我们的实验揭示了我们基于大语言模型的方法和真实的相关性判断之间存在很强的相关性。基于我们在三个 TREC DL 数据集上进行的模拟实验,在仅保留 10% 判断的极端情况下,我们的方法在 Vicu~na-7B 和 GPT-3.5 Turbo 上实现了平均 0.87 和 0.92 的 Kendall tau 相关性分别。
Corporate Communication Companion (CCC):大语言模型授权的工作场所社交媒体写作助手
分类: 人机交互
作者: Zhuoran Lu, Sheshera Mysore, Tara Safavi, Jennifer Neville, Longqi Yang, Mengting Wan
发布时间: 2024-05-07
链接: http://arxiv.org/abs/2405.04656v1
摘要: 职场社交媒体平台使员工能够在半正式的环境中培养自己的职业形象并与同事建立联系。虽然半正式的企业沟通带来了一系列独特的挑战,但大型语言模型 (LLM) 在帮助用户起草和编辑社交媒体帖子方面显示出了巨大的希望。然而,大语言模型可能无法在此类工作场所用例中捕捉个性化的语气和声音,因为他们经常使用“一刀切”的方法生成文本,这种方法可能被认为是通用且平淡的。在本文中,我们介绍了企业传播伴侣(CCC),这是一种由大语言模型授权的互动系统,可帮助人们撰写定制和个性化的工作场所社交媒体帖子。通过需求访谈来激励我们的系统设计,CCC 将写作过程分解为两个核心功能:大纲和编辑:首先,它根据用户的工作状态和以前的帖子建议帖子大纲,然后提供用户可以编辑的属性根据上下文进行定制。我们进行了一项受试者内用户研究,要求参与者撰写帖子并评估其他人撰写的帖子。结果表明,CCC 增强了用户的写作体验,并且受众认为 CCC 增强的帖子比使用非定制写作助手编写的帖子质量更高。最后,我们讨论了大语言模型授权的企业传播的影响。
加强基于大语言模型的反馈:来自智能辅导系统和学习科学的见解
分类: 人机交互, 计算机与社会
作者: John Stamper, Ruiwei Xiao, Xinynig Hou
发布时间: 2024-05-07
链接: http://arxiv.org/abs/2405.04645v1
摘要: 人工智能教育 (AIED) 领域侧重于技术、教育和心理学的交叉点,强调以同情心和理解力支持学习者的需求。大型语言模型 (LLM) 的日益突出导致了教育环境中可扩展解决方案的开发,包括在智能辅导系统中生成不同类型的反馈。然而,利用这些模型的方法往往涉及直接制定提示来征求特定信息,缺乏提示构建和对其对学习影响的实证评估的坚实理论基础。本文通过回顾以往关于 ITS 反馈生成的研究,强调他们所使用的理论框架以及相应设计在实证评估中的有效性,然后提出将这些基于证据的原则应用到 AIED 中的机会。基于大语言模型的反馈生成的设计、实验和评估阶段。本文的主要贡献包括:在生成式人工智能时代,主张在反馈生成中应用更加谨慎、有理论依据的方法;以及关于 LLM 支持的 ITS 的理论和基于证据的反馈设计的实用建议。
使用 LLM 完成未见过的存储库的上下文 API
分类: 软件工程
作者: Noor Nashid, Taha Shabani, Parsa Alian, Ali Mesbah
发布时间: 2024-05-07
链接: http://arxiv.org/abs/2405.04600v1
摘要: 大型语言模型在解决各种与代码相关的任务方面取得了实质性进展。然而,由于缺乏现实世界的特定领域信息(例如对看不见的软件项目的存储库内 API 调用),生成输出不一致,从而阻碍了它们的采用。我们引入了一种新技术,通过利用 API 完成任务的代码存储库中的全局和本地上下文信息来减轻幻觉。我们的方法专为细化代码完成任务而定制,重点是优化本地 API 完成。我们在 API 完成期间检查相关导入语句,以从本地 API 的方法签名中获取对本地 API 的深入了解。对于 API 令牌完成,我们分析内联变量并将它们与适当的导入模块相关联,从而允许我们的方法对可用本地 API 中最上下文相关的建议进行排名。此外,为了完成对话式 API,我们通过整个项目中基于检索的搜索来收集与开发人员查询最相关的 API。我们在我们提议的基准 APIEval 框架内使用我们的工具 LANCE,涵盖两种不同的编程语言。我们的评估得出的 API 令牌完成任务的平均准确率为 82.6%,对话式 API 完成任务的平均准确率为 76.9%。平均而言,LANCE 在 API 令牌完成度和会话 API 完成度方面分别超过 Copilot 143% 和 142%。我们的研究结果对开发人员来说意义重大,表明我们的轻量级上下文分析可以应用于多语言环境,而无需特定于语言的培训或微调,从而可以通过最少的示例和工作来高效实施。
QServe:W4A8KV4 量化和系统协同设计,实现高效的 LLM 服务
分类: 计算和语言, 人工智能, 机器学习, 表现
作者: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han
发布时间: 2024-05-07
链接: http://arxiv.org/abs/2405.04532v1
摘要: 量化可以加速大型语言模型 (LLM) 推理。除了 INT8 量化之外,研究界正在积极探索更低精度的量化,例如 INT4。尽管如此,最先进的 INT4 量化技术只能加速小批量、边缘 LLM 推理,无法在大批量、基于云的 LLM 服务中提供性能提升。我们发现了一个关键问题:在 GPU 上对权重或部分和进行反量化时,现有的 INT4 量化方法会遭受巨大的运行时开销 (20-90%)。为了应对这一挑战,我们引入了 QoQ,一种具有 4 位权重、8 位激活和 4 位 KV 缓存的 W4A8KV4 量化算法。 QoQ 代表 quattuor-octo-quattuor,在拉丁语中代表 4-8-4。 QoQ 由 QServe 推理库实现,可实现测量加速。驱动 QServe 的关键见解是,在 GPU 上服务的 LLM 的效率受到低吞吐量 CUDA 核心上的操作的严重影响。基于这一见解,我们在 QoQ 算法中引入了渐进式量化,可以在 W4A8 GEMM 中实现较低的反量化开销。此外,我们开发了 SmoothAttention 来有效缓解 4 位 KV 量化带来的精度下降。在 QServe 系统中,我们执行计算感知权重重新排序,并利用寄存器级并行性来减少反量化延迟。我们还利用 KV4 量化带来的性能增益,使融合注意力受到内存限制。因此,QServe 将 Llama-3-8B 在 A100 上可实现的最大服务吞吐量提高了 1.2 倍,在 L40S 上提高了 1.4 倍;与 TensorRT-LLM 相比,Qwen1.5-72B 在 A100 上提高了 2.4 倍,在 L40S 上提高了 3.5 倍。值得注意的是,L40S GPU 上的 QServe 可以实现比 A100 上的 TensorRT-LLM 更高的吞吐量。因此,QServe 有效地将 LLM 服务的美元成本降低了 3 倍。代码可在 https://github.com/mit-han-lab/qserve 获取。
vAttention:在没有 PagedAttention 的情况下为 LLM 提供动态内存管理
分类: 机器学习, 操作系统
作者: Ramya Prabhu, Ajay Nayak, Jayashree Mohan, Ramachandran Ramjee, Ashish Panwar
发布时间: 2024-05-07
链接: http://arxiv.org/abs/2405.04437v1
摘要: 有效利用 GPU 内存对于高吞吐量 LLM 推理至关重要。之前的系统提前为 KV 缓存保留内存,导致内部碎片导致容量浪费。受基于操作系统的虚拟内存系统的启发,vLLM 提出了 PagedAttention 来实现 KV 缓存的动态内存分配。这种方法消除了碎片,从而实现了具有更大批量大小的高吞吐量 LLM 服务。然而,为了能够动态分配物理内存,PagedAttention 将 KV-cache 的布局从连续虚拟内存更改为非连续虚拟内存。此更改需要注意重写内核以支持分页和服务框架以实现内存管理器。因此,PagedAttention模型会导致软件复杂性、可移植性问题、冗余和低效率。在本文中,我们提出了用于动态 KV 缓存内存管理的 vAttention。与 PagedAttention 相比,vAttention 将 KV 缓存保留在连续的虚拟内存中,并利用现有的对按需分页的低级系统支持来实现按需物理内存分配。因此,vAttention 使注意力内核开发人员不必显式支持分页,并避免在服务框架中重新实现内存管理。我们证明,vAttention 可以为各种注意力内核的不变实现实现无缝动态内存管理。 vAttention 生成令牌的速度比 vLLM 快 1.97 倍,而处理输入提示的速度比 FlashAttention 和 FlashInfer 的 PagedAttention 变体快 3.92 倍和 1.45 倍。
学会观察但忘记遵循:视觉指令调整使大语言模型更容易受到越狱攻击
分类: 计算机视觉和模式识别, 计算和语言
作者: Georgios Pantazopoulos, Amit Parekh, Malvina Nikandrou, Alessandro Suglia
发布时间: 2024-05-07
链接: http://arxiv.org/abs/2405.04403v1
摘要: 通过图像理解功能增强大型语言模型 (LLM) 导致了高性能视觉语言模型 (VLM) 的蓬勃发展。虽然研究大语言模型与人类价值观的一致性受到了广泛关注,但大语言模型的安全性却没有受到同样的关注。在本文中,我们探讨了越狱对三种最先进的 VLM 的影响,每种 VLM 都使用不同的建模方法。通过将每个 VLM 与其各自的 LLM 主干进行比较,我们发现每个 VLM 更容易越狱。我们认为这是视觉指令调整的不良结果,它对大语言模型的安全护栏造成了遗忘效应。因此,我们根据评估策略为未来的工作提供建议,旨在突出 VLM 的弱点,并在视觉指令调整过程中考虑安全措施。
谁写的?零样本 LLM 生成的文本检测的关键是 GECScore
分类: 计算和语言
作者: Junchao Wu, Runzhe Zhan, Derek F. Wong, Shu Yang, Xuebo Liu, Lidia S. Chao, Min Zhang
发布时间: 2024-05-07
链接: http://arxiv.org/abs/2405.04286v1
摘要: 大型语言模型 (LLM) 生成的文本检测器的功效在很大程度上取决于大量训练数据的可用性。白盒零样本检测器不需要此类数据,但仍受到大语言模型生成文本的源模型的可访问性的限制。在本文中,我们提出了一种简单但有效的黑盒零样本检测方法,该方法基于人类编写的文本通常比大语言模型生成的文本包含更多语法错误的观察结果。这种方法需要计算给定文本的语法错误纠正分数 (GECScore),以区分人类编写的文本和大语言模型生成的文本。大量的实验结果表明,我们的方法优于当前最先进(SOTA)的零样本和监督方法,平均 AUROC 达到 98.7%,并且对释义和对抗性扰动攻击表现出强大的鲁棒性。
CoqPyt:大语言模型时代的 Python 证明导航
分类: 软件工程
作者: Pedro Carrott, Nuno Saavedra, Kyle Thompson, Sorin Lerner, João F. Ferreira, Emily First
发布时间: 2024-05-07
链接: http://arxiv.org/abs/2405.04282v1
摘要: 证明助手使用户能够开发有关软件相关属性的机器检查证明。不幸的是,这些证明助手的交互性质将大部分证明负担强加给了用户,使得形式验证成为一项复杂且耗时的工作。最近基于神经方法的自动化技术解决了这个问题,但需要良好的编程支持来收集数据并与证明助手交互。本文介绍了 CoqPyt,一个用于与 Coq 证明助手交互的 Python 工具。 CoqPyt 通过提供新颖的功能(例如提取丰富的前提数据)对其他 Coq 相关工具进行了改进。我们希望我们的工作能够帮助开发工具和技术,特别是基于大语言模型的、专为证明合成和修复而设计的工具和技术。描述和演示 CoqPyt 的视频位于:https://youtu.be/fk74o0rePM8。
NL2Plan:通过最少的文本描述进行稳健的大语言模型驱动的规划
分类: 人工智能
作者: Elliot Gestrin, Marco Kuhlmann, Jendrik Seipp
发布时间: 2024-05-07
链接: http://arxiv.org/abs/2405.04215v1
摘要: 当今的经典规划器功能强大,但以 PDDL 等格式对输入任务进行建模非常乏味且容易出错。相比之下,使用大型语言模型 (LLM) 进行规划几乎允许任何输入文本,但无法保证规划质量甚至健全性。为了融合这两种方法的优点,一些工作已经开始使用 LLM 来自动化部分 PDDL 创建过程。然而,这些方法仍然需要不同程度的专家输入。我们推出了 NL2Plan,这是第一个与领域无关的离线 LLM 驱动的规划系统。 NL2Plan 使用 LLM 从短文本提示中逐步提取必要的信息,然后创建领域和问题的完整 PDDL 描述,最终由经典规划器解决。我们在四个规划领域评估 NL2Plan,发现它解决了 15 项任务中的 10 项 - 与仅解决 2 项任务的简单思想链推理 LLM 方法相比,这是一个明显的改进。此外,在五个失败案例中的两个中,NL2Plan 报告它未能解决任务,而不是返回无效计划。除了以端到端模式使用 NL2Plan 之外,用户还可以检查和纠正其所有中间结果,例如 PDDL 表示,从而提高可解释性并使其成为 PDDL 创建的辅助工具。
绘制草图然后生成:通过面向语言的代码草图提供增量用户反馈并指导 LLM 代码生成
分类: 人机交互, 计算和语言
作者: Chen Zhu-Tian, Zeyu Xiong, Xiaoshuo Yao, Elena Glassman
发布时间: 2024-05-07
链接: http://arxiv.org/abs/2405.03998v1
摘要: 使用大型语言模型 (LLM) 制作代码生成或编辑的有效提示并不是一件容易的事。特别是,在提示制作过程中缺乏即时、稳定的反馈会阻碍有效的交互,因为用户只能在心里想象可能的结果,直到生成代码。作为回应,我们引入了面向语言的代码草图,这是一种交互式方法,在提示制作过程中以代码草图(即不完整的代码大纲)的形式提供即时、增量反馈。这种方法通过利用提示中固有的语言结构并应用经典的自然语言处理技术,将提示转换为代码草图。然后,该草图充当中间占位符,不仅可以预览预期的代码结构,还可以引导 LLM 实现所需的代码,从而增强人与 LLM 的交互。最后我们讨论了该方法的适用性和未来计划。
OmniActions:利用大语言模型预测数字动作以响应现实世界的多模态感官输入
分类: 人机交互, 人工智能
作者: Jiahao Nick Li, Yan Xu, Tovi Grossman, Stephanie Santosa, Michelle Li
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03901v1
摘要: “普遍增强现实”的进展设想可以轻松地持续访问多模式信息。然而,在许多日常场景中,用户在身体、认知或社交方面都处于忙碌状态。这可能会增加对用户在世界上遇到的多模式信息采取行动的阻力。为了减少这种摩擦,未来的交互界面应该根据用户的上下文智能地提供对数字操作的快速访问。为了探索可能的数字操作范围,我们进行了一项日记研究,要求参与者捕获并分享他们打算执行操作的媒体(例如图像或音频),以及他们想要的操作和其他上下文信息。利用这些数据,我们生成了一个数字后续行动的整体设计空间,可以响应不同类型的多模态感官输入来执行该行动。然后,我们设计了 OmniActions,这是一个由大型语言模型 (LLM) 提供支持的管道,可处理多模式感官输入并预测基于派生设计空间的目标信息的后续操作。利用日记研究中收集的经验数据,我们对大语言模型技术的三种变体(意图分类、上下文学习和微调)进行了定量评估,并确定了对我们的任务最有效的技术。此外,作为管道的实例,我们开发了一个交互式原型,并报告了有关人们如何感知动作预测及其错误并做出反应的初步用户反馈。
从众、虚构和冒充:多主体 LLM 协作中的角色不一致
分类: 人工智能, 计算和语言, I.2.7
作者: Razan Baltaji, Babak Hemmatian, Lav R. Varshney
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03862v1
摘要: 本研究探讨了多主体大语言模型系统中维持文化角色和观点的不稳定根源。利用跨文化合作和辩论的模拟,我们分析了代理人在讨论前和讨论后的私人反应以及聊天记录,以评估文化角色的稳定性以及意见多样性对群体结果的影响。我们的研究结果表明,多主体讨论可以鼓励反映不同观点的集体决策,但由于感知到的同伴压力和保持一致的角色和意见方面的挑战,主体对从众的敏感性会削弱这种好处。与直觉相反,鼓励辩论以支持某人观点的指示会增加不一致的发生率。如果不解决我们确定的因素,多智能体框架产生更具文化多样性的人工智能输出的全部潜力将仍未得到开发。
基于大语言模型的自我改进客户评论响应生成
分类: 计算和语言, 人工智能
作者: Guy Azov, Tatiana Pelc, Adi Fledel Alon, Gila Kamhi
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03845v1
摘要: 先前的研究表明,主动与用户评论互动会对应用程序用户的看法产生积极影响,并鼓励他们提交修改后的评分。然而,开发人员在管理大量评论时遇到了挑战,特别是对于每日评论大量涌入的流行应用程序。因此,需要旨在简化响应用户评论的过程的自动化解决方案。为了解决这个问题,我们开发了一种新系统,通过在检索增强生成 (RAG) 和高级大型语言模型 (LLM) 的帮助下利用用户贡献的文档来生成自动回复。我们的解决方案名为 SCRABLE,代表了一种自适应客户评论响应自动化,它通过自我优化提示和基于大语言模型的判断机制来增强自身。此外,我们引入了一种自动评分机制,模仿人类评估员的角色来评估客户评论领域中生成的响应的质量。对现实世界数据集进行的大量实验和分析表明,我们的方法可以有效地产生高质量的响应,与基线相比,性能提高了 8.5% 以上。通过手动检查生成的响应进行进一步验证,强调了我们提出的系统的有效性。
迈向协作话语分析的人在环大语言模型方法
分类: 计算和语言
作者: Clayton Cohn, Caitlin Snyder, Justin Montenegro, Gautam Biswas
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03677v1
摘要: 大语言模型已证明能够熟练地利用人类输入将其输出置于情境中,通常在各种任务上达到或超过人类水平的表现。然而,大语言模型尚未被用来描述学生协作对话中的协同学习。在这项探索性工作中,我们迈出了第一步,采用 GPT-4-Turbo 的人机交互提示工程方法来总结和分类学生在协作对话期间的协同学习。我们的初步研究结果表明,GPT-4-Turbo 可能能够以与人类类似的方式来表征学生的协同学习,并且我们的方法值得进一步研究。
大语言模型可以深度检测复杂的恶意查询吗?通过混淆意图越狱的框架
分类: 密码学和安全, 人工智能
作者: Shang Shang, Xinqiang Zhao, Zhongjiang Yao, Yepeng Yao, Liya Su, Zijing Fan, Xiaodan Zhang, Zhengwei Jiang
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03654v2
摘要: 为了演示和解决潜在的恶意行为,我们提出了理论假设和分析方法,并引入了一种名为 IntentObfuscator 的新黑盒越狱攻击方法,通过混淆用户提示背后的真实意图来利用这一已识别的缺陷。这种方法迫使大语言模型无意中生成限制内容,绕过其内置的内容安全措施。我们详细介绍了该框架下的两种实现:“Obscure Intention”和“Create Ambiguity”,它们操纵查询复杂性和歧义性以有效逃避恶意意图检测。我们在 ChatGPT-3.5、ChatGPT-4、Qwen 和 Baichuan 等多个模型上实证验证了 IntentObfuscator 方法的有效性,平均越狱成功率为 69.21%。值得注意的是,我们在 ChatGPT-3.5(号称每周活跃用户数为 1 亿)上进行的测试取得了 83.65% 的惊人成功率。我们还将验证范围扩展到各种类型的敏感内容,例如暴力图片、种族主义、性别歧视、政治敏感性、网络安全威胁和犯罪技能,进一步证明我们的研究结果对针对大语言模型内容安全框架增强“红队”策略的重大影响。
当大语言模型遇到网络安全:系统文献综述
分类: 密码学和安全, 人工智能
作者: Jie Zhang, Haoyu Bu, Hui Wen, Yu Chen, Lun Li, Hongsong Zhu
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03644v1
摘要: 大语言模型(LLM)的快速进步为各个领域开辟了新的途径,包括网络安全,它面临着不断变化的威胁形势和对创新技术的需求。尽管对大语言模型在网络安全中的应用进行了初步探索,但仍缺乏对该研究领域的全面概述。本文通过提供系统的文献综述来弥合这一差距,包括对 180 多篇作品的分析,涵盖 25 个大语言模型和 10 多个下游场景。我们的全面概述解决了三个关键的研究问题:面向网络安全的大语言模型的构建、大语言模型在各种网络安全任务中的应用以及该领域现有的挑战和进一步的研究。本研究旨在揭示大语言模型在增强网络安全实践方面的广泛潜力,并作为在该领域应用大语言模型的宝贵资源。我们还在 https://github.com/tmylla/Awesome-LLM4Cybersecurity 维护并定期更新网络安全大语言模型实用指南列表。
Collage:LLM 培训的轻量级低精度策略
分类: 机器学习
作者: Tao Yu, Gaurav Gupta, Karthick Gopalswamy, Amith Mamidala, Hao Zhou, Jeffrey Huynh, Youngsuk Park, Ron Diamant, Anoop Deoras, Luke Huan
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03637v1
摘要: 大型模型训练受到大量计算成本和有限硬件内存的困扰。一种实用的解决方案是低精度表示,但会受到数值精度损失和训练不稳定的困扰,从而导致模型不太有用。我们认为,只要在训练过程中的关键位置正确补偿误差,低精度浮点就可以表现良好。我们提出了 Collage,它利用低精度的多分量浮点表示来准确地执行计算误差的运算。为了了解不精确性对训练的影响,我们提出了一种简单而新颖的指标,该指标可以跟踪训练期间丢失的信息并区分各种精度策略。我们的方法适用于常用的低精度,例如半精度($16$位浮点),并且可以自然地扩展到更低的精度,例如$8$位。实验结果表明,使用 Collage 进行预训练消除了使用模型的 32$ 位浮点副本的要求,并且与 $(16, 32)$ 位混合精度策略相比,获得了相似/更好的训练性能,在实践中,速度提升了 $3.7\times$,内存使用量减少了 $\sim 15%$ 和 $23%$。
进行个人 LAPS:用于个性化多会话对话搜索的 LLM 增强对话构建
分类: 信息检索
作者: Hideaki Joko, Shubham Chatterjee, Andrew Ramsay, Arjen P. de Vries, Jeff Dalton, Faegheh Hasibi
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03480v1
摘要: 对话代理的未来将为用户提供个性化的信息响应。然而,开发模型的一个重大挑战是缺乏跨越多个会话并反映现实世界用户偏好的大规模对话数据集。以前的方法依赖于专家进行难以扩展的设置,特别是对于个性化任务。我们的方法 LAPS 通过使用大型语言模型 (LLM) 来指导单个人类工作者生成个性化对话来解决这个问题。事实证明,这种方法可以加快创建过程并提高质量。 LAPS 可以收集大规模、人工编写、多会话和多域对话,包括提取用户偏好。与现有数据集相比,LAPS 生成的对话与专家创建的对话一样自然且多样化,这与完全合成的方法形成鲜明对比。收集的数据集适合训练偏好提取和个性化响应生成。我们的结果表明,使用提取的偏好显式生成的响应更好地匹配用户的实际偏好,突出了使用提取的偏好相对于简单对话历史记录的价值。总体而言,LAPS 引入了一种新方法,利用大语言模型比以前的方法更高效、更有效地创建真实的个性化对话数据。
大型语言模型 (LLM) 作为增强民主的推动者
分类: 计算机与社会, 人工智能, 计算和语言
作者: Jairo Gudiño-Rosero, Umberto Grandi, César A. Hidalgo
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03452v2
摘要: 我们探索了建立在现成的大语言模型基础上的增强民主系统的能力,该系统根据总结 2022 年巴西总统选举期间收集的 67 项政策提案中个人偏好的数据进行微调。我们使用训练测试交叉验证设置来估计大语言模型预测的准确性:受试者的个人政治选择和完整参与者样本的总体偏好。在个人层面,样本外预测的准确度在 69%-76% 范围内,并且在预测文科和大学教育参与者的偏好方面明显更好。在人口层面,我们使用 Borda 分数的改编来汇总偏好,并比较从参与者的概率样本和使用大语言模型增强的数据获得的政策建议的排名。我们发现,当参与者占总人口的 30% 到 40% 以下时,增强数据比单独的概率样本更好地预测全体参与者的偏好。这些结果表明大语言模型对于增强民主系统的构建可能有用。
通过检索增强持续即时学习对大语言模型进行终身知识编辑
分类: 计算和语言
作者: Qizhou Chen, Taolin Zhang, Dongyang Li, Longtao Huang, Hui Xue, Chengyu Wang, Xiaofeng He
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03279v1
摘要: 模型编辑旨在纠正大型语言模型 (LLM) 中过时或错误的知识,而无需进行昂贵的再培训。终身模型编辑是最具挑战性的任务,可以满足大语言模型持续编辑的要求。之前的作品主要集中于单个或批量编辑;然而,由于灾难性的知识遗忘和模型性能的下降,这些方法在终身编辑场景中存在不足。尽管基于检索的方法缓解了这些问题,但它们受到将检索到的知识集成到模型中的缓慢而繁琐的过程的阻碍。在这项工作中,我们引入了 RECIPE,一种 RetriEval 增强的连续提示学习方法,以提高终身学习中的编辑效率和推理效率。 RECIPE 首先将知识陈述转换为简短且内容丰富的连续提示,作为 LLM 输入查询嵌入的前缀,以有效地细化基于知识的响应。它进一步集成知识哨兵(KS)作为中介来计算动态阈值,确定检索存储库是否包含相关知识。我们的检索器和提示编码器经过联合训练,以实现编辑属性,即可靠性、通用性和局部性。在我们的实验中,RECIPE 在多个大语言模型和编辑数据集上进行了广泛的评估,它实现了卓越的编辑性能。 RECIPE 还展示了其保持大语言模型整体性能的能力,同时展示了快速编辑和推理速度。
探索大型语言模型 (LLM) 在识别误导性新闻标题方面的潜力
分类: 计算和语言, 计算机与社会, 机器学习
作者: Md Main Uddin Rony, Md Mahfuzul Haque, Mohammad Ali, Ahmed Shatil Alam, Naeemul Hassan
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03153v1
摘要: 在数字时代,误导性新闻标题的盛行对信息完整性提出了重大挑战,需要强大的检测机制。本研究探讨了大型语言模型 (LLM) 在识别误导性与非误导性新闻标题方面的功效。利用来自健康、科技和商业领域的信誉良好和有问题的媒体的 60 篇文章的数据集,我们采用了三位大语言模型(ChatGPT-3.5、ChatGPT-4 和 Gemini-)进行分类。我们的分析揭示了模型性能的显着差异,ChatGPT-4 表现出卓越的准确性,特别是在注释者一致同意误导性标题的情况下。该研究强调了以人为本的评估在开发大语言模型方面的重要性,该硕士可以解决错误信息检测的复杂性,使技术熟练程度与人类细致入微的判断保持一致。我们的研究结果为人工智能伦理的讨论做出了贡献,强调了对模型的需求,这些模型不仅在技术上先进,而且在伦理上一致并对人类解释的微妙之处敏感。
MMGER:使用 LLM 进行多模式和多粒度生成错误校正,用于联合口音和语音识别
分类: 音频和语音处理, 声音
作者: Bingshen Mu, Yangze Li, Qijie Shao, Kun Wei, Xucheng Wan, Naijun Zheng, Huan Zhou, Lei Xie
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03152v1
摘要: 尽管自动语音识别 (ASR) 取得了显着进步,但在遇到不利条件时,性能往往会下降。生成纠错 (GER) 利用大型语言模型 (LLM) 卓越的文本理解能力,在 ASR 纠错方面提供令人印象深刻的性能,其中 N 最佳假设为转录预测提供了有价值的信息。然而,GER 遇到了诸如固定的 N 最佳假设、声学信息利用不足以及对多口音场景的特异性有限等挑战。在本文中,我们探讨了 GER 在多口音场景中的应用。口音代表着与标准发音规范的偏差,同时 ASR 和口音识别 (AR) 的多任务学习框架有效地解决了多口音场景,使其成为一个突出的解决方案。在这项工作中,我们提出了一个统一的 ASR-AR GER 模型,名为 MMGER,利用多模态校正和多粒度校正。采用多任务 ASR-AR 学习来提供动态 1-best 假设和重音嵌入。多模态校正通过将语音的声学特征与相应的字符级1-最佳假设序列强制对齐来完成细粒度的帧级校正。多粒度校正通过在细粒度多模态校正之上结合常规的 1-best 假设来补充全局语言信息,以实现粗粒度的话语级别校正。 MMGER 有效缓解了 GER 的局限性,并针对多口音场景定制了基于 LLM 的 ASR 纠错。在多口音普通话 KeSpeech 数据集上进行的实验证明了 MMGER 的功效,与完善的标准基线相比,AR 准确率相对提高了 26.72%,ASR 字符错误率相对降低了 27.55%。
量化大语言模型在规模和精度方面的能力
分类: 机器学习, 人工智能, 计算和语言
作者: Sher Badshah, Hassan Sajjad
发布时间: 2024-05-06
链接: http://arxiv.org/abs/2405.03146v1
摘要: 规模通常被认为是导致大语言模型性能提高的因素之一,从而产生具有数十亿和数万亿参数的模型。此类大型模型的局限性之一是高计算要求,这限制了它们在资源受限的场景中的使用、部署和调试。绕过这些限制的两种常用替代方法是使用较小版本的 Llama(例如 Llama 7B 而不是 Llama 70B)并通过使用量化来降低内存要求。虽然这些方法有效地解决了资源的限制,但它们对模型性能的影响需要彻底检查。在本研究中,我们进行了综合评估,以研究模型规模和量化对性能的影响。我们对两个主要的开源指令模型系列进行了实验,参数范围从 70 亿到 700 亿个参数。我们在自然语言理解、推理、错误信息检测和幻觉等各种任务中进行了广泛的零样本实验,结果表明较大的模型通常优于较小的模型,这表明规模仍然是提高性能的重要因素。我们发现,较大的模型对精度降低表现出卓越的弹性,即使在许多任务的 4 位量化下也能保持高精度,并且在类似的内存要求下,它们是比在高精度下使用较小模型更好的解决方案。
理由:使用公共和专有大语言模型检索和自动引用科学句子的基准
分类: 计算和语言, 人工智能, 信息检索
作者: Deepa Tilwani, Yash Saxena, Ali Mohammadi, Edward Raff, Amit Sheth, Srinivasan Parthasarathy, Manas Gaur
发布时间: 2024-05-03
链接: http://arxiv.org/abs/2405.02228v1
摘要: 自动生成文档或报告中的句子引文对于情报分析师、网络安全、新闻机构和教育人员至关重要。在这项研究中,我们调查大型语言模型 (LLM) 是否能够基于两种形式的句子查询生成参考文献:(a) 直接查询,LLM 被要求提供给定研究文章的作者姓名,以及 (b) 间接查询查询时,大语言模型被要求在给出另一篇文章的句子时提供提到的文章的标题。为了展示 LLM 在这项任务中的地位,我们引入了一个名为 REASONS 的大型数据集,其中包含 arXiv 上 12 个最流行的科学研究领域的摘要。从大约 20,000 篇研究文章中,我们对公共和专有 LLM 进行了以下推论: (a) 最先进的,通常称为拟人化 GPT-4 和 GPT-3.5,其通过率 (PP) 较高,以尽量减少幻觉率(HR)。当使用 Perplexity.ai (7B) 进行测试时,他们出乎意料地犯了更多错误; (b) 增加相关元数据会降低 PP 并给出最低的 HR; (c) 使用 Mistral 的高级检索增强生成 (RAG) 展示了对间接查询的一致且强大的引用支持以及与 GPT-3.5 和 GPT-4 的匹配性能。所有领域和模型的 HR 平均下降了 41.93%,大多数情况下 PP 降至 0%。发电质量方面,平均F1 Score和BLEU分别为68.09%和57.51%; (d) 对抗样本测试表明,大语言模型(包括 Advance RAG Mistral)很难理解上下文,但这个问题在 Mistral 和 GPT-4-Preview 中的程度很小。我们的研究为 RAG 在自动引文生成任务中的可靠性提供了宝贵的见解。
评估和验证 LLM 支持的应用程序中的任务实用程序
分类: 计算和语言, 人工智能
作者: Negar Arabzadeh, Siging Huo, Nikhil Mehta, Qinqyun Wu, Chi Wang, Ahmed Awadallah, Charles L. A. Clarke, Julia Kiseleva
发布时间: 2024-05-03
链接: http://arxiv.org/abs/2405.02178v1
摘要: 大型语言模型 (LLM) 的快速发展导致了促进多个代理之间协作、协助人类完成日常任务的应用程序激增。然而,在评估 LLM 支持的应用程序在多大程度上真正提高用户体验和任务执行效率方面仍然存在重大差距。这凸显了验证 LLM 支持的应用程序实用性的必要性,特别是通过确保应用程序的功能和最终用户需求之间的一致性。我们引入了 AgentEval,这是一种新颖的框架,旨在通过自动提出一组针对任何给定应用程序的独特目的量身定制的标准来简化实用程序验证过程。这样可以进行全面评估,根据建议的标准量化应用程序的效用。我们对 AgentEval 对两个开源数据集(包括数学问题解决和 ALFWorld 家庭相关任务)的有效性和鲁棒性进行了全面分析。出于可重复性的目的,我们在 https://bit.ly/3w3yKcS 上公开提供数据、代码和所有日志。
揭示基于 LLM 的 ASR 在中国开源数据集上的潜力
分类: 声音, 计算和语言, 音频和语音处理
作者: Xuelong Geng, Tianyi Xu, Kun Wei, Bingsheng Mu, Hongfei Xue, He Wang, Yangze Li, Pengcheng Guo, Yuhang Dai, Longhao Li, Mingchen Shao, Lei Xie
发布时间: 2024-05-03
链接: http://arxiv.org/abs/2405.02132v1
摘要: 大型语言模型在各种 NLP 任务中表现出了无与伦比的有效性,并且 LLM 与自动语音识别的集成正在成为主流范例。在此势头的基础上,我们的研究深入研究了大型开源中文数据集上的这种范式。具体来说,我们的研究旨在评估语音编码器、LLM 和投影仪模块在语音基础编码器LLM ASR 范式背景下的各种配置的影响。此外,我们引入了一种三阶段训练方法,该方法是专门为增强模型对齐听觉和文本信息的能力而开发的。这种方法的实施以及 ASR 组件的战略集成使我们能够在 AISHELL1、TestNet 和 TestMeeting 测试集上实现 SOTA 性能。我们的分析为基于大语言模型的 ASR 系统的未来研究提供了实证基础,并提供了使用中国数据集优化性能的见解。我们将公开发布所有用于数据准备、训练、推理和评分的脚本,以及预训练的模型和训练日志,以促进可重复的研究。
分析大型语言模型 (LLM) 中的叙事处理:使用 GPT4 测试 BERT
分类: 计算和语言, 人工智能
作者: Patrick Krauss, Jannik Hösch, Claus Metzner, Andreas Maier, Peter Uhrig, Achim Schilling
发布时间: 2024-05-03
链接: http://arxiv.org/abs/2405.02024v1
摘要: 通过语言传输和接收复杂信息的能力是人类独有的,是传统、文化和多样化社会互动的基础。通过颠覆性地引入基于 Transformer 的大型语言模型 (LLM),人类不再是唯一“理解”和产生语言的实体。在本研究中,我们已经完成了使用大语言模型作为模型来理解神经网络中语言处理的基本机制的第一步,以便对人脑如何进行语言处理进行预测和生成假设。因此,我们使用 ChatGPT 生成了十种不同叙述(伊索寓言)的七种不同风格的变体。我们使用这些故事作为开源 LLM BERT 的输入,并使用多维尺度和聚类分析分析了 BERT 隐藏单元的激活模式。我们发现,隐藏单元的激活向量根据 BERT 较早层 (1) 的风格变化而不是叙事内容 (4-5) 进行聚类。尽管 BERT 由 12 个相同的构建块组成,这些构建块在大型文本语料库上堆叠和训练,但不同的层执行不同的任务。这是一个非常有用的人脑模型,其中自相似的结构,即大脑皮层的不同区域,可以具有不同的功能,因此非常适合以非常有效的方式处理语言。一方面,所提出的方法有可能打开大语言模型的黑匣子,并且可能是解开人类语言处理和认知背后的神经过程的又一步。
了解大语言模型需要的不仅仅是统计概括
分类: 机器学习, 机器学习
作者: Patrik Reizinger, Szilvia Ujváry, Anna Mészáros, Anna Kerekes, Wieland Brendel, Ferenc Huszár
发布时间: 2024-05-03
链接: http://arxiv.org/abs/2405.01964v1
摘要: 过去十年,深度学习理论的研究蓬勃发展,试图回答“为什么深度学习具有泛化能力?”一个重大的视角转变促成了这一进展:插值机制中过参数化模型的研究。在本文中,我们认为需要进行另一种观点转变,因为大语言模型的一些理想品质并不是良好统计概括的结果,需要单独的理论解释。我们的核心论点依赖于这样的观察:AR 概率模型本质上是不可识别的:模型的 KL 散度为零或接近零——因此,等效的测试损失——可以表现出明显不同的行为。我们用数学例子和经验观察来支持我们的立场,并通过三个案例研究说明为什么不可识别性具有实际意义:(1)零样本规则外推的不可识别性; (2)情境学习的近似不可识别性; (3)微调的不可识别性。我们回顾了有前途的研究方向,重点是大语言模型相关的泛化措施、可转移性和归纳偏差。
多模式 LLM 的自动编码 Morph-Tokens
分类: 计算机视觉和模式识别
作者: Kaihang Pan, Siliang Tang, Juncheng Li, Zhaoyu Fan, Wei Chow, Shuicheng Yan, Tat-Seng Chua, Yueting Zhuang, Hanwang Zhang
发布时间: 2024-05-03
链接: http://arxiv.org/abs/2405.01926v1
摘要: 对于多模式大语言模型来说,视觉理解(文本输出)和生成(视觉输出)的协同作用提出了持续的挑战。这是由于一个相互冲突的目标:为了理解,MLLM 需要抽象视觉效果;为了理解,MLLM 需要抽象视觉效果。对于生成来说,它需要尽可能地保留视觉效果。因此,目标是视觉标记的困境。为了解决冲突,我们建议将图像编码为变形标记以达到双重目的:为了理解,它们充当指示 MLLM 生成文本的视觉提示;在生成过程中,它们扮演着不同的、不冲突的角色,作为图像重建的完整视觉标记,其中缺失的视觉线索由 MLLM 恢复。大量实验表明,morph-tokens 可以同时实现多模态理解和生成的新 SOTA。我们的项目位于 https://github.com/DCDmllm/MorphTokens。
Aloe:一系列经过微调的开放式医疗保健大语言模型
分类: 计算和语言, 人工智能
作者: Ashwin Kumar Gururajan, Enrique Lopez-Cuena, Jordi Bayarri-Planas, Adrian Tormos, Daniel Hinjos, Pablo Bernabeu-Perez, Anna Arias-Duart, Pablo Agustin Martin-Torres, Lucia Urcelay-Ganzabal, Marta Gonzalez-Mallo, Sergio Alvarez-Napagao, Eduard Ayguadé-Parra, Ulises Cortés Dario Garcia-Gasulla
发布时间: 2024-05-03
链接: http://arxiv.org/abs/2405.01886v1
摘要: 随着大型语言模型(LLM)在医疗保健和医学领域的能力不断进步,对能够维护公共利益的有竞争力的开源模型的需求日益增长。随着竞争激烈的开放基础模型的可用性不断增加,持续预训练的影响越来越不确定。在这项工作中,我们探索了指令调整、模型合并、对齐、红队和高级推理方案的作用,作为改进当前开放模型的手段。为此,我们引入了 Aloe 系列,这是一组在其规模范围内极具竞争力的开放式医学大语言模型。 Aloe 模型在当前最佳基础模型(Mistral、LLaMA 3)上进行训练,使用新的自定义数据集,该数据集结合了通过综合思想链 (CoT) 改进的公共数据源。 Aloe 模型经历了调整阶段,成为首批使用直接偏好优化的少数政策一致的开放式医疗保健大语言模型之一,为医疗保健大语言模型的道德表现设立了新标准。模型评估扩展到包括各种偏差和毒性数据集、专门的红队工作以及医疗保健大语言模型急需的风险评估。最后,为了探索当前大语言模型在推理方面的局限性,我们研究了几种先进的即时工程策略,以提高跨基准的性能,为开放医疗保健 7B 大语言模型产生最先进的结果,这在这种规模上是前所未有的。
DALLMi:基于 LLM 的多标签分类器的域适应
分类: 计算和语言, 机器学习
作者: Miruna Beţianu, Abele Mălan, Marco Aldinucci, Robert Birke, Lydia Chen
发布时间: 2024-05-03
链接: http://arxiv.org/abs/2405.01883v1
摘要: 大型语言模型 (LLM) 越来越多地充当对与不同域和同时多个标签(类)相关的文本进行分类的支柱。当遇到领域转换时,例如,电影评论的分类器从 IMDb 到烂番茄,由于目标领域的标签集不完整且训练开销巨大,适应这种基于 LLM 的多标签分类器具有挑战性。现有的域适应方法针对图像多标签分类器或文本二元分类器。在本文中,我们设计了 DALLMi(领域适应大型语言模型插值器),这是一种基于 LLM(特别是 BERT)的文本数据模型的首个半监督领域适应方法。 DALLMi 的核心是新颖的变异损失和 MixUp 正则化,它们共同利用有限的正标记文本和大量未标记文本,更重要的是,它们来自 BERT 词嵌入的插值。 DALLMi 还引入了标签平衡采样策略来克服标记数据和未标记数据之间的不平衡。我们在目标域标签可用性的不同场景下,在三个数据集上针对部分监督和无监督方法评估 DALLMi。我们的结果表明,DALLMi 的 mAP 分别比无监督和部分监督方法高 19.9% 和 52.2%。
将外部知识和目标指导纳入基于大语言模型的会话推荐系统
分类: 计算和语言
作者: Chuang Li, Yang Deng, Hengchang Hu, Min-Yen Kan, Haizhou Li
发布时间: 2024-05-03
链接: http://arxiv.org/abs/2405.01868v1
摘要: 本文旨在有效地使大型语言模型(LLM)能够在会话推荐系统(CRS)任务中使用外部知识和目标指导。高级大语言模型(例如 ChatGPT)在特定领域的 CRS 任务中受到限制:1)使用面向推荐的知识生成接地响应,或 2)通过不同的对话目标主动引导对话。在这项工作中,我们首先通过综合评估分析这些局限性,表明外部知识和目标指导的必要性,这对推荐准确性和语言质量有显着贡献。鉴于这一发现,我们提出了一种新颖的 ChatCRS 框架,通过实现 1)使用工具增强方法对外部知识库进行推理的知识检索代理和 2)目标,将复杂的 CRS 任务分解为多个子任务-对话目标预测的规划代理。在两个多目标 CRS 数据集上的实验结果表明,ChatCRS 设定了新的最先进基准,将信息性的语言质量提高了 17%,主动性提高了 27%,并且推荐准确性提高了十倍。
ALCM:自主大语言模型增强因果发现框架
分类: 机器学习, 人工智能, 计算和语言, 方法
作者: Elahe Khatibi, Mahyar Abbasian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani
发布时间: 2024-05-02
链接: http://arxiv.org/abs/2405.01744v1
摘要: 为了在高维数据集中进行有效的因果推理,必须启动因果发现过程,其中基于观察数据生成因果图。然而,获得完整且准确的因果图是一个巨大的挑战,被认为是一个 NP 难问题。最近,大型语言模型(LLM)的出现开创了一个新时代,表明它们在促进医学、金融和科学等不同领域的因果推理方面的新兴能力和广泛适用性。大语言模型广泛的知识库具有通过提供可解释性、推理、概括性和揭示新颖的因果结构来提升因果推理领域的潜力。在本文中,我们介绍了一个名为自主LLM增强因果发现框架(ALCM)的新框架,以协同数据驱动的因果发现算法和LLM,自动生成更具弹性、更准确和可解释的因果图。 ALCM 由三个组成部分组成:因果结构学习、因果包装器和 LLM 驱动的因果细化器。这些组件在动态环境中自主协作,解决因果发现问题并提供合理的因果图。我们通过在七个知名数据集上实施两个演示来评估 ALCM 框架。实验结果表明,ALCM 优于现有的 LLM 方法和传统的数据驱动因果推理机制。这项研究不仅展示了 ALCM 的有效性,还强调了利用大语言模型因果推理能力的新研究方向。
OmniDrive:具有 3D 感知、推理和规划功能的自动驾驶整体 LLM-Agent 框架
分类: 计算机视觉和模式识别
作者: Shihao Wang, Zhiding Yu, Xiaohui Jiang, Shiyi Lan, Min Shi, Nadine Chang, Jan Kautz, Ying Li, Jose M. Alvarez
发布时间: 2024-05-02
链接: http://arxiv.org/abs/2405.01533v1
摘要: 多模态大语言模型 (MLLM) 的进步导致人们对基于 LLM 的自动驾驶代理越来越感兴趣,以利用其强大的推理能力。然而,利用 MLLM 强大的推理能力来改进规划行为具有挑战性,因为规划需要超越 2D 推理的完整 3D 态势感知。为了应对这一挑战,我们的工作提出了一个整体框架,以实现代理模型和 3D 驾驶任务之间的紧密结合。我们的框架从一种新颖的 3D MLLM 架构开始,该架构使用稀疏查询将视觉表示提升并压缩为 3D,然后再将其输入 LLM。这种基于查询的表示允许我们联合编码动态对象和静态地图元素(例如交通车道),为 3D 感知-动作对齐提供简洁的世界模型。我们进一步提出了 OmniDrive-nuScenes,一个新的视觉问答数据集,通过全面的视觉问答(VQA)任务挑战模型的真实 3D 态势感知,包括场景描述、交通管制、3D 接地、反事实推理、决策和规划。广泛的研究表明了所提出的架构的有效性以及 VQA 任务对于复杂 3D 场景中的推理和规划的重要性。
通过LLM-符号定理证明验证和细化自然语言解释
分类: 计算和语言
作者: Xin Quan, Marco Valentino, Louise A. Dennis, André Freitas
发布时间: 2024-05-02
链接: http://arxiv.org/abs/2405.01379v1
摘要: 自然语言解释已成为评估可解释的多步骤自然语言推理(NLI)模型的代理。然而,评估 NLI 解释的有效性具有挑战性,因为它通常涉及适当数据集的众包,这是一个耗时且容易出现逻辑错误的过程。为了解决现有的局限性,本文通过集成大型语言模型(LLM)和定理证明器(TP)来研究自然语言解释的验证和细化。具体来说,我们提出了一个名为 Explanation-Refiner 的神经符号框架,它通过 LLM 增强 TP,以生成和形式化解释性句子,并为 NLI 提出潜在的推理策略。反过来,TP 用于为解释的逻辑有效性提供正式保证,并为后续改进生成反馈。我们演示了如何联合使用 Explanation-Refiner 来评估最先进的大语言模型的解释推理、自动形式化和纠错机制,以及如何自动提高不同领域中变量复杂性的人工注释解释的质量。
使用 RAG 驱动的精度在咖啡叶病修复中克服大语言模型挑战
分类: 信息检索, 计算和语言
作者: Dr. Selva Kumar S, Afifah Khan Mohammed Ajmal Khan, Imadh Ajaz Banday, Manikantha Gada, Vibha Venkatesh Shanbhag
发布时间: 2024-05-02
链接: http://arxiv.org/abs/2405.01310v1
摘要: 这项研究引入了一种创新的人工智能驱动的精准农业系统,利用 YOLOv8 进行疾病识别,并利用检索增强生成 (RAG) 进行情境感知诊断。该系统专注于解决影响卡纳塔克邦咖啡生产部门的疾病挑战,将复杂的对象检测技术与语言模型相集成,以解决与大型语言模型 (LLM) 相关的固有限制。我们的方法不仅解决了大语言模型的幻觉问题,还引入了动态疾病识别和补救策略。实时监控、协作数据集扩展和组织参与确保了系统在不同农业环境中的适应性。所建议系统的效果超出了自动化范围,旨在确保粮食供应、保护生计并促进生态友好型农业实践。通过促进精确的疾病识别,该系统有助于可持续和环保农业,减少对农药的依赖。展望未来,该项目设想持续开发 RAG 集成目标检测系统,强调可扩展性、可靠性和可用性。这项研究致力于成为农业积极变革的灯塔,与全球可持续和技术增强粮食生产的努力保持一致。
大语言模型作为注释者的有效性:直接表示的比较概述和实证分析
分类: 计算和语言, 人工智能, 机器学习
作者: Maja Pavlovic, Massimo Poesio
发布时间: 2024-05-02
链接: http://arxiv.org/abs/2405.01299v1
摘要: 大型语言模型 (LLM) 已成为跨各种自然语言任务和一系列应用领域的强大支持工具。最近的研究重点是探索它们的数据注释能力。本文对 12 项研究大语言模型在标记数据方面的潜力进行了比较概述。虽然这些模型显示出有希望的成本和时间节省优势,但仍存在相当大的局限性,例如代表性、偏差、对提示变化的敏感性和英语语言偏好。利用这些研究的见解,我们的实证分析进一步检验了四个主观数据集中人类和 GPT 生成的意见分布之间的一致性。与考察代表性的研究相反,我们的方法直接从 GPT 获取意见分布。因此,我们的分析支持了在评估数据注释任务时考虑不同观点的少数研究,并强调了在这个方向上进一步研究的必要性。
LLM 代码安全卫士
分类: 软件工程, 密码学和安全
作者: Arya Kavian, Mohammad Mehdi Pourhashem Kallehbasti, Sajjad Kazemi, Ehsan Firouzi, Mohammad Ghafari
发布时间: 2024-05-02
链接: http://arxiv.org/abs/2405.01103v1
摘要: 许多开发人员依靠大型语言模型 (LLM) 来促进软件开发。然而,这些模型在安全领域表现出的能力有限。我们推出 LLMSecGuard,这是一个开源框架,它通过静态代码分析器和 LLM 之间的协同作用提供增强的代码安全性。 LLMSecGuard 旨在为从业者提供比 LLM 最初生成的代码更安全的代码解决方案。它还对大语言模型进行基准测试,为这些模型不断发展的安全属性提供有价值的见解。
贝叶斯优化与基于 LLM 的采集函数用于自然语言偏好诱导
分类: 人工智能, 计算和语言
作者: David Eric Austin, Anton Korikov, Armin Toroghi, Scott Sanner
发布时间: 2024-05-02
链接: http://arxiv.org/abs/2405.00981v1
摘要: 设计能够在冷启动环境中快速确定用户最喜欢的项目偏好的偏好启发 (PE) 方法是构建有效且个性化的会话推荐 (ConvRec) 系统的关键挑战。虽然大语言模型 (LLM) 构成了一种能够实现完全自然语言 (NL) PE 对话的新技术,但我们假设单一的 LLM NL-PE 方法缺乏有效平衡 NL 探索和利用所需的多轮决策理论推理用户对任意项目集的偏好。相比之下,传统的贝叶斯优化 PE 方法定义了理论上最优的 PE 策略,但无法使用 NL 项目描述或生成 NL 查询,不切实际地假设用户可以通过直接项目评分和比较来表达偏好。为了克服这两种方法的局限性,我们在贝叶斯优化 (BO) 框架中制定了 NL-PE,该框架旨在生成 NL 查询,主动引发自然语言反馈,以减少项目实用程序的不确定性,从而确定最佳推荐。我们在一种新颖的 NL-PE 算法 PEBOL 中展示了我们的框架,该算法在用户偏好话语和 NL 项目描述之间使用自然语言推理 (NLI) 来维护偏好信念和 BO 策略,例如汤普森采样 (TS) 和上置信区间 (UCB) ) 指导 LLM 查询生成。我们在对照实验中对我们的方法进行了数值评估,发现与单片 GPT-3.5 相比,PEBOL 在 10 轮冷启动 NL-PE 对话后在 MAP@10 上实现了高达 131% 的改进,尽管它依赖于更小的 400M 参数 NLI 模型偏好推断。
LLaVA 发现免费午餐:教授人类行为可提高大语言模型的内容理解能力
分类: 计算机视觉和模式识别, 计算和语言
作者: Somesh Singh, Harini S I, Yaman K Singla, Veeky Baths, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy
发布时间: 2024-05-02
链接: http://arxiv.org/abs/2405.00942v1
摘要: 沟通被定义为“谁对谁说什么,产生什么效果”。来自沟通者的消息会产生下游接收者效应,也称为行为。接收者行为是消息的下游效应,携带着丰富的信号。即使在携带有关消息的信号之后,在训练大型语言模型时,行为数据也经常被忽略。我们表明,对大语言模型进行接受者行为培训实际上有助于提高他们的内容理解能力。具体来说,我们表明,训练大语言模型来预测点赞和评论的接收者行为可以提高大语言模型在各种下游内容理解任务上的性能。我们在 23 个基准数据集上的 40 个视频和图像理解任务中展示了在 0-shot 和微调设置下的性能提升,优于许多监督基线。此外,由于接收者的行为(例如点赞和评论)是默认在互联网上收集的,不需要任何人工注释即可发挥作用,因此我们在对这些数据进行训练后获得的性能提升本质上是免费午餐。我们发布了从多个平台收集的 75 万张图像和视频的接收者行为清理评论和点赞以及我们的指令调整数据。
“有任何问题都可以问我”:康卡斯特如何利用大语言模型实时协助代理商
分类: 计算和语言
作者: Scott Rome, Tianwen Chen, Raphael Tang, Luwei Zhou, Ferhan Ture
发布时间: 2024-05-01
链接: http://arxiv.org/abs/2405.00801v1
摘要: 客户服务是公司与客户互动的方式。它可以极大地提高客户的整体满意度。然而,高质量的服务可能会变得昂贵,从而激励人们尽可能提高成本效益,并促使大多数公司使用人工智能助理或“聊天机器人”。另一方面,人与人之间的互动仍然是客户所期望的,尤其是在涉及纠纷等复杂场景以及账单支付等敏感话题时。这提高了客户服务代理的门槛。他们需要准确理解客户的问题或疑虑,确定可接受但可行的解决方案(并且在公司政策范围内),同时同时处理多个对话。在这项工作中,我们引入了“Ask Me Anything”(AMA) 作为面向代理的客户服务界面的附加功能。 AMA 允许客服人员在处理客户对话时按需向大型语言模型 (LLM) 提问 - LLM 可以实时提供准确的响应,从而减少客服人员所需的上下文切换量。在我们的内部实验中,我们发现与传统搜索体验相比,使用 AMA 的代理在每次包含搜索的对话中花费的时间大约减少了 10%,这意味着每年可以节省数百万美元。使用 AMA 功能的客服人员在近 80% 的时间内提供了积极反馈,证明了其作为人工智能辅助客户服务功能的实用性。
利用多重思维的力量:从 LLM 路由中汲取的经验教训
分类: 计算和语言
作者: KV Aditya Srivatsa, Kaushal Kumar Maurya, Ekaterina Kochmar
发布时间: 2024-05-01
链接: http://arxiv.org/abs/2405.00467v1
摘要: 随着大语言模型的快速发展,人们自然会问如何有效地利用他们的能力。在本文中,我们探讨将每个输入查询定向到单个最合适的大语言模型是否可行。为此,我们提出了用于具有挑战性的推理任务的 LLM 路由。我们广泛的实验表明,这种路由显示出希望,但并非在所有情况下都可行,因此应该研究更强大的方法来填补这一空白。
SemEval-2024 上的 DFKI-NLP 任务 2:使用数据扰动和 MinMax 训练实现稳健的大语言模型
分类: 计算和语言
作者: Bhuvanesh Verma, Lisa Raithel
发布时间: 2024-05-01
链接: http://arxiv.org/abs/2405.00321v1
摘要: SemEval-2024 的 NLI4CT 任务强调使用大语言模型 (LLM) 开发针对临床试验报告 (CTR) 的自然语言推理的稳健模型。本版本介绍了专门针对点击率的数字、词汇和语义方面的干预措施。我们提出的系统利用最先进的 Mistral 模型的功能,并辅以辅助模型,专注于 NLI4CT 数据集的复杂输入空间。通过将数字和基于首字母缩略词的扰动结合到数据中,我们训练了一个能够处理语义改变和数字矛盾干预的强大系统。我们对数据集的分析揭示了 CTR 中具有挑战性的推理部分。