MiX Knowledge

数值精度如何影响大语言模型的数学推理能力

分类： 机器学习, 人工智能, 计算和语言, 机器学习

作者： Guhao Feng, Kai Yang, Yuntian Gu, Xinyue Ai, Shengjie Luo, Jiacheng Sun, Di He, Zhenguo Li, Liwei Wang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13857v1

摘要： 尽管基于 Transformer 的大型语言模型 (LLM) 在各个领域取得了巨大成功，但理解和增强其数学能力仍然是一项重大挑战。在本文中，我们对大语言模型的数学能力进行了严格的理论分析，特别关注他们的算术表现。我们认为数值精度是影响数学任务有效性的关键因素。我们的结果表明，以低数值精度运行的 Transformer 无法解决算术任务，例如迭代加法和整数乘法，除非模型大小相对于输入长度呈超多项式增长。相比之下，具有标准数值精度的 Transformer 可以使用小得多的模型尺寸有效地处理这些任务。我们通过实证实验进一步支持我们的理论发现，探索不同数值精度对算术任务的影响，为提高大语言模型的数学推理能力提供有价值的见解。

MLLMs能否理解中国形象背后的深层含义？

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 计算机与社会

作者： Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13854v1

摘要： 随着多模态大语言模型（MLLM）的能力不断提高，对MLLM高阶能力评估的需求不断增加。然而，目前缺乏评估 MLLM 对中文视觉内容的高阶感知和理解的工作。为了填补这一空白，我们引入了Cchinese Image Implication Understanding Benchmark，CII-Bench，旨在评估高阶MLLMs对中文图像的感知和理解能力。与现有基准相比，CII-Bench 在多个方面脱颖而出。首先，为了保证中国语境的真实性，CII-Bench中的图片均来自中国互联网并经过人工审核，并手工制作相应的答案。此外，CII-Bench还融入了代表中国传统文化的图像，如中国名画，能够深刻体现模特对中国传统文化的理解。通过在多个 MLLM 上对 CII-Bench 进行广泛的实验，我们取得了重大发现。最初，在 CII-Bench 上观察到 MLLM 和人类的表现之间存在巨大差距。 MLLM 的最高准确率达到 64.4%，而人类准确率平均为 78.2%，峰值达到令人印象深刻的 81.0%。随后，MLLM 在中国传统文化图像上的表现较差，这表明他们理解高级语义的能力有限，并且缺乏深厚的中国传统文化知识基础。最后，我们观察到，当将图像情感提示纳入提示中时，大多数模型都表现出更高的准确性。我们相信，CII-Bench 将使 MLLM 能够更好地理解中文语义和中文特定图像，推动专家通用人工智能 (AGI) 的发展。我们的项目已在 https://cii-bench.github.io/ 上公开发布。

从互动中回顾性学习

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Zizhao Chen, Mustafa Omer Gul, Yiwei Chen, Gloria Geng, Anne Wu, Yoav Artzi

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13852v1

摘要： 大语言模型（LLM）和用户之间的多轮交互自然包括隐式反馈信号。如果大语言模型以意想不到的方式响应指令，用户可能会通过重新表述请求、表达沮丧或转向替代任务来发出信号。这些信号与任务无关，并且占据相对受限的语言子空间，即使大语言模型在实际任务中失败，也可以识别它们。这创造了一种从交互中不断学习的途径，无需额外的注释。我们引入了 ReSpect，这是一种通过回顾来从过去交互中的此类信号中学习的方法。我们在一个新的多模态交互场景中部署 ReSpect，在该场景中，人类指导大语言模型使用组合解决方案空间来解决抽象推理任务。通过与人类的数千次交互，我们展示了 ReSpect 如何逐渐将任务完成率从 31% 提高到 82%，所有这些都无需任何外部注释。

扩散模型中可扩展数据归因的影响函数

分类： 机器学习, 人工智能

作者： Bruno Mlodozeniec, Runa Eschenhagen, Juhan Bae, Alexander Immer, David Krueger, Richard Turner

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13850v1

摘要： 扩散模型带来了生成建模的重大进步。然而，它们的广泛采用给数据归属和可解释性带来了挑战。在本文中，我们的目标是通过开发 \textit{影响函数} 框架来帮助解决扩散模型中的此类挑战。基于影响函数的数据归因方法近似地描述了如果删除某些训练数据，模型的输出将如何变化。在监督学习中，这通常用于预测特定示例的损失将如何变化。对于扩散模型，我们专注于通过几个代理测量来预测生成特定示例的概率的变化。我们展示了如何为这些量制定影响函数，以及如何将先前提出的方法解释为我们框架中的特定设计选择。为了确保影响函数中 Hessian 计算的可扩展性，我们系统地开发了基于专门针对扩散模型定制的广义高斯-牛顿矩阵的 K-FAC 近似。我们将以前提出的方法重新定义为我们框架中的具体设计选择，并表明我们推荐的方法在常见评估方面优于以前的数据归因方法，例如线性数据建模分数（LDS）或没有顶级影响的重新训练，而不需要方法 -具体的超参数调整。

Janus：解耦视觉编码以实现统一的多模态理解和生成

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13848v1

摘要： 在本文中，我们介绍了 Janus，一个统一多模态理解和生成的自回归框架。先前的研究通常依赖于单个视觉编码器来完成这两项任务，例如 Chameleon。然而，由于多模态理解和生成所需的信息粒度水平不同，这种方法可能会导致性能不佳，特别是在多模态理解中。为了解决这个问题，我们将视觉编码解耦到单独的路径中，同时仍然利用单个统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成方面的角色之间的冲突，而且还增强了框架的灵活性。例如，多模态理解和生成组件都可以独立选择最合适的编码方法。实验表明，Janus 超越了之前的统一模型，并且达到或超过了特定任务模型的性能。 Janus 的简单性、高度灵活性和有效性使其成为下一代统一多模式模型的有力候选者。

SimLayerKV：减少层级 KV 缓存的简单框架

分类： 计算和语言, 人工智能, 机器学习

作者： Xuan Zhang, Cunxiao Du, Chao Du, Tianyu Pang, Wei Gao, Min Lin

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13846v1

摘要： 大型语言模型 (LLM) 的最新进展扩展了其处理长上下文的能力。然而，增加模型层数和输入序列的长度会显着增加存储键值 (KV) 缓存所需的内存，这给高效推理带来了挑战。为了缓解这个问题，我们提出了 SimLayerKV，这是一种简单而有效的方法，通过有选择地删除已识别的惰性层中的缓存来减少层间 KV 缓存冗余。我们的方法基于这样的观察：长上下文 LLM 中的某些层表现出“惰性”行为，与非惰性层相比，对远程依赖关系建模的贡献较小。通过分析注意力权重模式，我们发现这些惰性层的行为在给定输入的生成过程中跨令牌是一致的。这种见解激发了我们的 SimLayerKV，它识别惰性层并相应地减少其 KV 缓存。 SimLayerKV 免训练、可推广，只需七行代码即可实现。我们对三个代表性的 LLM（例如 LLaMA2-7B、LLaMA3-8B 和 Mistral-7B）进行了广泛的实验，涉及 LongBench 基准的 16 个任务。结果表明，与 4 位量化相结合时，SimLayerKV 实现了 5$\times$ 的 KV 缓存压缩比，性能仅下降 1.2%。我们的代码可在 https://github.com/sail-sg/SimLayerKV 获取。

通过多标记预测和推测解码加速基于编解码器的语音合成

分类： 声音, 人工智能, 音频和语音处理

作者： Tan Dat Nguyen, Ji-Hoon Kim, Jeongsoo Choi, Shukjae Choi, Jinseok Park, Younglo Lee, Joon Son Chung

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13839v1

摘要： 本文的目标是加速基于编解码器的语音合成系统，同时对语音质量的影响最小。我们提出了一种增强的推理方法，可以在推理过程中在速度和质量之间进行灵活的权衡，而无需额外的训练。我们的核心思想是使用多个预测头来预测 AR 模块的每个推理步骤多个标记，从而随着预测头数量的增加，合成时间线性减少。此外，我们引入了一种新颖的推测性解码技术，该技术利用基于维特比的算法在每个解码步骤中选择生成令牌的最佳序列。在我们的实验中，我们证明，与基线模型相比，预测每个标记所需的时间减少了 4 到 5 倍，并且质量权衡最小，甚至在语音清晰度方面有所改进。音频样本位于：multipletokensprediction.github.io/multipletokensprediction.github.io/。

ORSO：通过在线奖励选择和政策优化加速奖励设计

分类： 机器学习, 人工智能, 机器人技术

作者： Chen Bo Calvin Zhang, Zhang-Wei Hong, Aldo Pacchiano, Pulkit Agrawal

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13837v1

摘要： 奖励塑造是强化学习（RL）的关键组成部分，特别是对于奖励稀疏会阻碍学习的复杂任务。虽然引入了塑造奖励来提供额外的指导，但选择有效的塑造函数仍然具有挑战性并且计算成本昂贵。本文介绍了在线奖励选择和策略优化（ORSO），这是一种将奖励选择构建为在线模型选择问题的新颖方法。 ORSO 采用有原则的探索策略来自动识别有希望的塑造奖励函数，无需人工干预，平衡探索和利用与可证明的后悔保证。我们使用 Isaac Gym 模拟器展示了 ORSO 在各种连续控制任务中的有效性。与全面评估每个塑造奖励函数的传统方法相比，ORSO 显着提高了样本效率，减少了计算时间，并一致地识别了高质量的奖励函数，这些函数产生的策略可与领域专家通过手工设计的奖励生成的策略相媲美。

深度集成的不同好处

分类： 机器学习, 人工智能

作者： Kajetan Schweighofer, Adrian Arnaiz-Rodriguez, Sepp Hochreiter, Nuria Oliver

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13831v1

摘要： 深度神经网络集成（深度集成）被广泛用作提高预测性能的简单方法。然而，它们对算法公平性的影响尚不清楚。算法公平性研究模型的性能在不同群体之间的差异，通常由年龄、性别或种族等受保护的属性来定义。在这项工作中，我们研究了深度集成的性能提升与公平性之间的相互作用。我们的分析表明，他们对不同群体的偏爱程度不同，我们称之为不同的福利效应。我们通过将深度集成应用于流行的面部分析和医学成像数据集进行实证研究，其中给出了受保护的群体属性，并发现它发生在多个已建立的群体公平指标中，包括统计奇偶性和平等机会。此外，我们将整体成员预测多样性的每组差异视为不同收益效应的潜在原因。最后，我们评估了减少由于不同的利益效应而导致的不公平的不同方法。我们的研究结果表明，后处理是减轻这种不公平性的有效方法，同时保持深度集成的改进性能。

基于边缘的语言模型对齐的常见陷阱：梯度纠缠

分类： 机器学习, 人工智能, 计算和语言

作者： Hui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13828v1

摘要： 来自人类反馈的强化学习 (RLHF) 已成为语言模型 (LM) 对齐的主要方法。 RLHF 的核心是使用基于边际的损失来进行偏好优化，仅通过偏好和不偏好响应之间的差异来指定理想的 LM 行为。在本文中，我们发现了基于边际的方法的一个常见陷阱——对首选和不受欢迎的响应的理想 LM 行为的具体说明不足，随着边际的增加，这会导致两个意想不到的后果：（1）不受欢迎的概率（例如，不安全）响应可能会增加，导致潜在的安全对准失败。 (2) 首选响应的概率可能会降低，即使这些响应是理想的。我们揭开了这些问题行为背后的原因：基于保证金的损失将首选概率的变化与不首选概率的梯度耦合起来，反之亦然，通常会阻止首选概率增加而不首选概率下降，从而导致同步两个概率都增加或减少。我们将这种基于余量的目标所固有的效应称为梯度纠缠。形式上，我们推导了一般基于边缘的对齐目标的条件，在该条件下梯度纠缠变得令人担忧：首选和不首选对数概率的梯度的内积相对于各个梯度范数来说很大。我们从理论上研究了为什么在调整语言模型时此类内积会很大，并根据经验验证了我们的发现。我们框架的实证意义延伸到解释各种偏好优化算法的训练动态的重要差异，并提出潜在的算法设计来减轻基于边际的方法的规格不足问题，从而改善语言模型对齐。

挖掘技能水平见解以理解基础模型的权衡

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Mazda Moayeri, Vidhisha Balachandran, Varun Chandrasekaran, Safoora Yousefi, Thomas Fel, Soheil Feizi, Besmira Nushi, Neel Joshi, Vibhav Vineet

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13826v1

摘要： 随着模型变得越来越强大，评估也变得越来越复杂，需要在一个基准测试中甚至在同一实例中同时测试多种技能。然而，在检查总体准确性时，技能方面的表现被掩盖了，没有充分利用现代基准测试所包含的丰富信号。我们提出了一种自动方法，通过检查模型生成的原理来恢复与任何评估实例相关的基础技能。在验证了 46$k 实例与 12$ 基准上的基本原理解析技能和推断技能的相关性后，我们观察到许多技能在基准中是通用的，从而产生了数百个技能切片（即测试共同的实例集）技能）。检查这些切片的准确性可以产生关于模型权衡的新颖见解：例如，与 GPT-4o 和 Claude 3.5 Sonnet 相比，平均而言，Gemini 1.5 Pro 在“计算摩尔质量”方面的准确度高出 18%$，但在“计算摩尔质量”方面准确度高出 19%尽管三个模型的总体准确度仅相差 $0.4%$，但在“适用宪法”方面的准确度较低。此外，我们通过展示从技能切片分析中得出的见解可以推广到保留的实例来证明我们的方法的实用性：当将每个实例路由到相关技能最强的模型时，我们发现比我们的 12 美元数据集语料库。我们的技能切片和框架为模型评估开辟了一条新途径，利用特定于技能的分析来解锁对模型功能的更精细和可操作的理解。

AgentOccam：基于 LLM 的 Web 代理的简单而强大的基准

分类： 人工智能, 计算和语言

作者： Ke Yang, Yao Liu, Sapana Chaudhary, Rasool Fakoor, Pratik Chaudhari, George Karypis, Huzefa Rangwala

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13825v1

摘要： 通过使用大型语言模型 (LLM) 执行个性化、标准化任务的代理实现自治，可以提高人员效率。自动化网络任务（例如在预算范围内预订酒店）越来越受追捧。为了满足实际需求，网络代理还可以作为各种代理接地场景的重要概念验证示例，其成功有望在许多未来应用中取得进步。先前的研究通常手工制作网络代理策略（例如，提示模板、多代理系统、搜索方法等）和相应的上下文示例，这可能无法很好地概括所有现实场景。另一方面，关于网络代理的观察/动作表示与其所基于的大语言模型预训练数据之间的不一致的研究有限。当大语言模型主要接受语言完成训练而不是涉及具体导航操作和符号网络元素的任务时，这种差异尤其明显。我们的研究通过简单地改进基于大语言模型的网络代理的观察和行动空间来增强其观察和行动空间，以更好地与大语言模型的能力保持一致。这种方法使我们的基础代理在各种 Web 任务上显着优于以前的方法。具体来说，在以通用 Web 交互任务为特色的基准 WebArena 上，我们的代理 AgentOccam 分别超越了之前的最先进和并发工作绝对值 9.8 (+29.4%) 和 5.9 (+15.8%) 绝对点，并且凭借其观察和动作空间对齐，与类似的纯网络代理相比，成功率提高了 26.6 个百分点 (+161%)。我们在不使用上下文示例、新代理角色、在线反馈或搜索策略的情况下实现了这一目标。 AgentOccam 的简单设计凸显了 LLM 在 Web 任务上令人印象深刻的零样本性能，并强调了仔细调整基于 LLM 的代理的观察和操作空间的关键作用。

通过对抗性攻击对眼底图像中病变进行多风格转换语义分割

分类： 计算机视觉和模式识别, 人工智能

作者： Clément Playout, Renaud Duval, Marie Carole Boucher, Farida Cheriet

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13822v1

摘要： 糖尿病视网膜病变的诊断依赖于眼底图像，在使用全局分类方法时面临着实现透明度和可解释性的挑战。然而，基于分段的数据库的获取成本要高得多，并且将它们组合起来通常会出现问题。本文介绍了一种称为对抗性风格转换的新颖方法，以解决不同数据库之间注释风格缺乏标准化的问题。通过在组合数据库上训练单一架构，该模型会根据输入自发地修改其分割样式，从而展示了在不同标签样式之间进行转换的能力。所提出的方法添加了线性探针来根据编码器特征检测数据集来源，并采用对抗性攻击来调节模型的分割风格。结果表明，通过数据集组合具有显着的定性和定量作用，为改进模型泛化、不确定性估计和注释样式之间的连续插值提供了途径。我们的方法能够使用不同的数据库训练分割模型，同时控制和利用注释样式来改进视网膜病变的诊断。

人工仓本振荡神经元

分类： 机器学习, 人工智能, 机器学习

作者： Takeru Miyato, Sindy Löwe, Andreas Geiger, Max Welling

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13821v1

摘要： 在神经科学和人工智能中，人们早已知道神经元之间的“结合”会导致一种竞争性学习的形式，其中表示被压缩，以便在网络的更深层次表示更抽象的概念。最近，还假设动态（时空）表示在神经科学和人工智能中都发挥着重要作用。基于这些想法，我们引入人工仓本振荡神经元（AKOrN）作为阈值单元的动态替代方案，它可以与任意连接设计（例如全连接、卷积或注意力机制）相结合。我们的广义 Kuramoto 更新通过同步动力学将神经元绑定在一起。我们证明，这个想法可以提高各种任务的性能，例如无监督对象发现、对抗鲁棒性、校准不确定性量化和推理。我们相信这些实证结果表明了在神经表征的最基本的神经元水平上重新思考我们的假设的重要性，特别是表明了动态表征的重要性。

用于鲁棒多接触局部操纵的引导强化学习

分类： 机器人技术, 人工智能

作者： Jean-Pierre Sleiman, Mayank Mittal, Marco Hutter

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13817v1

摘要： 强化学习 (RL) 通常需要针对每项任务进行细致的马尔可夫决策过程 (MDP) 设计。这项工作旨在通过提出一种系统的方法来解决这一挑战，该方法用于多接触局部操纵任务（例如导航弹簧门和操纵重型洗碗机）的行为合成和控制。我们定义了一个独立于任务的 MDP，仅使用基于模型的轨迹优化器生成的每个任务的单个演示来训练 RL 策略。我们的方法采用了自适应相位动力学公式，可以稳健地跟踪演示，同时适应动态不确定性和外部干扰。我们将我们的方法与之前的运动模仿 RL 工作进行比较，结果表明，学习到的策略在所有考虑的任务中都取得了更高的成功率。这些策略学习演示中未出现的恢复操作，例如在执行过程中重新抓取对象或处理滑动。最后，我们成功地将策略转移到真正的机器人上，证明了我们方法的实际可行性。

统一它们的模式：集成不同的模态来定义多模态实体

分类： 人工智能

作者： Gianluca Apriceno, Valentina Tamma, Tania Bailoni, Jacopo de Berardinis, Mauro Dragoni

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13803v1

摘要： 推理和整合不同感官输入的能力是支撑人类智能的基础，也是人们对知识图谱中多模态信息建模越来越感兴趣的原因。多模态知识图通过将实体与其可能的模态表示（包括文本、图像、音频和视频）相关联来扩展传统知识图，所有这些都用于传达实体的语义。尽管多模态知识图越来越受到关注，但对于模态的定义和建模缺乏共识，模态的定义通常由应用领域决定。在本文中，我们提出了一种新颖的本体设计模式，该模式捕获实体（及其传达的信息）之间的关注点分离，其语义可以在不同媒体上有不同的表现形式，并且以物理信息实体的形式实现。通过引入这种抽象模型，我们的目标是促进不同现有多模态本体的协调和集成，这对于从医学到数字人文等不同领域的许多智能应用至关重要。

学习 Transformer 的图量化分词器

分类： 神经和进化计算, 人工智能, 机器学习

作者： Limei Wang, Kaveh Hassani, Si Zhang, Dongqi Fu, Baichuan Yuan, Weilin Cong, Zhigang Hua, Hao Wu, Ning Yao, Bo Long

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13798v1

摘要： 变压器充当基础模型的骨干架构，其中特定领域的分词器帮助它们适应不同的领域。图变换器（GT）最近已成为几何深度学习领域的领先模型，在各种图学习任务中表现优于图神经网络（GNN）。然而，图标记器的开发落后于其他模式，现有方法依赖于启发式方法或与 Transformer 联合训练的 GNN。为了解决这个问题，我们引入了 GQT（\textbf{G}raph \textbf{Q}uantized \textbf{T}okenizer），它通过利用多任务图自监督学习将分词器训练与 Transformer 训练解耦，从而产生鲁棒且可泛化的模型图形标记。此外，GQT 利用残差矢量量化 (RVQ) 来学习分层离散标记，从而显着减少内存需求并提高泛化能力。通过将 GQT 与令牌调制相结合，Transformer 编码器在 18 个基准测试中的 16 个上实现了最先进的性能，包括大规模同质和异质数据集。代码位于：https://github.com/limei0307/graph-tokenizer

向内看：语言模型可以通过内省来了解自己

分类： 计算和语言, 人工智能

作者： Felix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13787v1

摘要： 人类通过观察外部世界来获取知识，但也通过内省来获取知识。内省使一个人能够有特权了解他们当前的心态（例如，想法和感受），这是外部观察者无法获得的。 LLM可以反省吗？我们将内省定义为获取不包含在训练数据中或源自训练数据的知识，而是源自内部状态的知识。这种能力可以增强模型的可解释性。我们可以简单地询问模型的信念、世界模型和目标，而不是费力地分析模型的内部运作。更具推测性的是，内省模型可能会自我报告它是否拥有某些内部状态，例如主观感受或欲望，这可以告诉我们这些状态的道德状态。这种自我报告不会完全由模型的训练数据决定。我们通过微调大语言模型来研究内省，以预测他们在假设场景中的行为属性。例如，“给定输入 P，您的输出会支持短期还是长期选项？”如果模型 M1 可以内省，那么即使 M2 是根据 M1 的真实行为进行训练的，它在预测 M1 行为方面也应该优于其他模型 M2。这个想法是，M1 有权了解自己的行为倾向，这使其能够比 M2 更好地预测自己（即使 M2 通常更强）。在 GPT-4、GPT-4o 和 Llama-3 模型（每个模型都经过微调以预测自身）的实验中，我们发现模型 M1 在预测自身方面优于 M2，为内省提供了证据。值得注意的是，即使在我们有意修改其真实行为之后，M1 仍能继续准确地预测其行为。然而，虽然我们成功地引发了对简单任务的内省，但我们在更复杂的任务或需要分布外泛化的任务上却没有成功。

PopAlign：使对比图案多样化，实现更全面的对齐

分类： 计算和语言, 人工智能

作者： Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13785v1

摘要： 大语言模型 (LLM) 的对齐涉及在偏好对比输出对上训练模型，以根据人类偏好调整其响应。为了获得此类对比对，RLHF 和 RLAIF 等传统方法依赖于有限的对比模式，例如不同的模型变体或解码温度。这种奇点导致了两个问题：（1）对齐不全面；因此 (2) 模型容易受到越狱攻击。为了解决这些问题，我们研究了如何构建更全面和多样化的对比模式来增强偏好数据（RQ1），并验证对比模式的多样化对模型对齐的影响（RQ2）。对于 RQ1，我们提出了 PopAlign，这是一个跨提示、模型和管道级别集成多样化对比模式的框架，引入了六种不需要额外反馈标记程序的对比策略。关于 RQ2，我们进行了彻底的实验，证明 PopAlign 显着优于现有方法，从而实现更全面的对齐。

矩阵乘法的最优量化

分类： 信息论, 人工智能, 计算和语言, 机器学习, 信息论

作者： Or Ordentlich, Yury Polyanskiy

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13780v1

摘要： 机器学习社区的最新工作提出了多种对大型矩阵执行有损压缩（量化）的方法。这种量化对于加速矩阵乘法（大型语言模型的主要组成部分）非常重要，矩阵乘法通常受到从内存加载这些矩阵的速度的瓶颈。与经典矢量量化和率失真理论不同，这些新压缩算法的目标不是能够逼近矩阵本身，而是能够逼近它们的矩阵乘积。具体来说，给定一对实数矩阵 $A,B$，将编码器（压缩器）应用于每个矩阵，独立地生成每个条目具有 $R$ 位的描述。随后，解码器使用这些表示来估计矩阵乘积 $A^\top B$。在这项工作中，我们针对具有独立同分布高斯项的矩阵 $A,B$ 的情况，提供了该近似均方误差的非渐近下界（作为速率 $R$ 的函数）。在算法上，我们构建了一个基于嵌套格的通用量化器，并明确保证任何（非随机）矩阵对 $A$、$B$ 的近似误差仅根据 Frobenius 范数 $|A|_F, \ |B|_F$ 和 $|A^\top B|_F$。对于独立同分布高斯矩阵，我们的量化器达到了下界，因此是渐近最优的。我们的量化器的实用低复杂度版本实现了非常接近最佳的性能。用信息论术语，我们推导出独立同分布高斯矩阵的矩阵乘法的率失真函数。

主观任务中的聚合工件使大型语言模型的后验崩溃

分类： 计算和语言, 人工智能

作者： Georgios Chochlakis, Alexandros Potamianos, Kristina Lerman, Shrikanth Narayanan

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13776v1

摘要： 上下文学习 (ICL) 已成为使用大型语言模型 (LLM) 执行自然语言任务的主要方法。预训练期间获得的知识对于这种小样本能力至关重要，为模型提供了任务先验。然而，最近的研究表明，ICL 主要依赖于检索任务先验，而不是“学习”执行任务。这种限制在复杂的主观领域（例如情感和道德）中尤其明显，其中先验会显着影响后验预测。在这项工作中，我们检查这是否是相应数据集中使用的聚合的结果，其中尝试组合低一致性、不同的注释可能会导致注释伪影，从而在提示中产生有害的噪音。此外，我们通过将我们的研究建立在大语言模型先验的适当、定量测量的基础上，评估对某些注释者的后验偏差。我们的结果表明，聚合是主观任务建模中的一个混杂因素，并主张重点关注个体建模。然而，聚合并不能解释 ICL 与现有技术之间的全部差距，这意味着此类任务中的其他因素也可以解释观察到的现象。最后，通过严格研究注释者级别的标签，我们发现少数注释者有可能更好地与大语言模型保持一致，并进一步扩大他们的观点。

Transformer 引导协同进化：改进多智能体对抗游戏中的团队组建

分类： 人工智能, 多代理系统, 神经和进化计算

作者： Pranav Rajbhandari, Prithviraj Dasgupta, Donald Sofge

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13769v1

摘要： 我们考虑多智能体对抗游戏中的团队组建问题。我们提出了 BERTeam，这是一种新颖的算法，它使用基于 Transformer 的深度神经网络和 Masked Language Model 训练来从受过训练的群体中选择最好的玩家团队。我们将其与共同进化深度强化学习相结合，后者训练一组不同的个人玩家来选择团队。我们在多智能体对抗游戏 Marine Capture-The-Flag 中测试了我们的算法，我们发现 BERTeam 学习到了非平凡的团队组成，这些团队组成在对抗看不见的对手时表现良好。对于这款游戏，我们发现 BERTeam 的表现优于 MCAA，后者是一种类似地优化团队组建的算法。

利用图神经网络驱动的 LLM 驱动的多智能体系统进行快速、自动化的合金设计

分类： 材料科学, 无序系统和神经网络, 介观和纳米物理, 人工智能, 多代理系统

作者： Alireza Ghafarollahi, Markus J. Buehler

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13768v1

摘要： 多智能体人工智能模型用于自动发现新的金属合金，整合多模态数据和外部知识，包括通过原子模拟获得的物理学见解。我们的多智能体系统具有三个关键组件：(a) 一套负责推理和规划等任务的大语言模型，(b) 一组具有不同角色和动态协作专业知识的人工智能智能体，以及 (c) 新开发的用于快速检索关键物理特性的图神经网络（GNN）模型。一组 LLM 驱动的 AI 代理在 GNN 预测的指导下协作，自动探索 MPEA 的广阔设计空间。我们专注于 NbMoTa 系列体心立方 (bcc) 合金，使用基于 ML 的原子间势进行建模，并瞄准两个关键属性：Peierls 势垒和溶质/螺旋位错相互作用能。我们的 GNN 模型可以准确预测这些原子尺度的属性，为昂贵的强力计算提供更快的替代方案，并减轻多智能体系统物理检索的计算负担。该人工智能系统通过减少对人类专业知识的依赖并克服直接全原子模拟的局限性，彻底改变了材料发现。通过将 GNN 的预测能力与基于 LLM 的代理的动态协作相结合，该系统可以自主导航巨大的合金设计空间，识别原子尺度材料特性的趋势并预测宏观尺度机械强度，正如多项计算实验所证明的那样。这种方法加速了先进合金的发现，并有望在其他复杂系统中得到更广泛的应用，标志着自动化材料设计向前迈出了重要一步。

用于核系统实时退化监测的虚拟传感：利用 DeepONet 增强数字孪生技术的传感覆盖范围

分类： 机器学习, 人工智能

作者： Raisa Bentay Hossain, Farid Ahmed, Kazuma Kobayashi, Seid Koric, Diab Abueidda, Syed Bahauddin Alam

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13762v1

摘要： 有效的实时监测技术对于检测材料退化和维持核系统结构完整性以确保安全和运行效率至关重要。传统的物理传感器系统面临安装挑战、成本高以及难以在难以到达或恶劣环境中测量关键参数等限制，通常会导致数据覆盖不完整。机器学习驱动的虚拟传感器通过增强物理传感器功能来监控压力、速度和湍流等关键退化指标，提供了一种有前途的解决方案。然而，由于反应堆数据的高维性质以及需要频繁的重新训练，传统的机器学习模型难以实现实时监控。本文探讨了在数字孪生 (DT) 框架内使用深度算子网络 (DeepONet) 来预测 AP-1000 压水堆 (PWR) 热段中的关键热工水力参数。在本研究中，DeepONet在不同的操作条件下进行训练，放宽了连续再训练的要求，使其适合DT的在线和实时预测组件。我们的结果表明，DeepONet 实现了低均方误差和相对 L2 误差的准确预测，并且对未知数据的预测速度比传统有限元 (FE) 模拟快 160,000 倍。这种速度和准确性使 DeepONet 成为实时跟踪导致材料降解的条件的强大工具，从而提高反应堆的安全性和寿命。

MobA：用于高效移动任务自动化的两级代理系统

分类： 多代理系统, 人工智能, 计算和语言, 人机交互

作者： Zichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13757v1

摘要： 当前的移动助手受到对系统API的依赖的限制，或者由于理解和决策能力有限而难以应对复杂的用户指令和多样化的界面。为了应对这些挑战，我们提出了 MobA，这是一种由多模式大语言模型提供支持的新型手机代理，通过复杂的两级代理架构增强理解和规划能力。高级全局代理（GA）负责理解用户命令、跟踪历史记忆和规划任务。低级本地代理 (LA) 在子任务和 GA 内存的指导下，以函数调用的形式预测详细动作。集成反射模块可以高效完成任务，并使系统能够处理以前未见过的复杂任务。 MobA 在现实生活评估中展示了任务执行效率和完成率的显着提高，凸显了 MLLM 支持的移动助手的潜力。

CLIMB：通过迭代模型构建进行任务规划的语言引导持续学习

分类： 机器人技术, 人工智能, 机器学习

作者： Walker Byrnes, Miroslav Bogdanovic, Avi Balakirsky, Stephen Balakirsky, Animesh Garg

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13756v1

摘要： 智能且可靠的任务规划是广义机器人技术的核心能力，需要描述性域表示来充分建模场景的所有对象和状态信息。我们提出了 CLIMB，这是一个用于机器人任务规划的持续学习框架，它利用基础模型和执行反馈来指导领域模型构建。 CLIMB 可以根据自然语言描述构建模型，在解决任务时学习非显而易见的谓词，并存储该信息以供将来解决问题。与基线方法相比，我们展示了 CLIMB 在常见规划环境中提高性能的能力。我们还开发了 BlocksWorld++ 域，这是一个具有易于使用的真实对应物的模拟环境，以及用于评估持续学习的难度逐渐增加的任务课程。该系统的其他详细信息和演示可以在 https://plan-with-climb.github.io/ 找到。

MixEval-X：来自真实世界数据混合物的任意评估

分类： 人工智能, 机器学习, 多媒体

作者： Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13754v1

摘要： 感知和生成不同的模式对于人工智能模型有效地学习和处理现实世界的信号至关重要，因此需要对其开发进行可靠的评估。我们在当前的评估中发现了两个主要问题：（1）不一致的标准，由具有不同协议和成熟度水平的不同社区制定； (2) 显着的查询、评分和泛化偏差。为了解决这些问题，我们推出了 MixEval-X，这是第一个任意对任意现实世界基准，旨在优化和标准化跨输入和输出模式的评估。我们提出多模式基准混合和适应校正管道来重建现实世界的任务分布，确保评估有效地推广到现实世界的用例。广泛的元评估表明，我们的方法有效地将基准样本与现实世界的任务分布保持一致，并且模型排名与众包现实世界评估的排名密切相关（高达 0.98）。我们提供全面的排行榜来对现有模型和组织进行重新排名，并提供见解以增强对多模式评估的理解并为未来的研究提供信息。

通过机密计算保护隐私的去中心化人工智能

分类： 密码学和安全, 人工智能

作者： Dayeol Lee, Jorge Antonio, Hisham Khan

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13752v1

摘要： 本文使用 Atoma 网络（一个专为 Web3 领域设计的去中心化人工智能平台）中的机密计算（CC）来解决去中心化人工智能（AI）中的隐私保护问题。去中心化人工智能在多个实体之间分配人工智能服务，无需集中监督，从而提高透明度和稳健性。然而，这种结构带来了重大的隐私挑战，因为专有模型和个人数据等敏感资产可能会暴露给不受信任的参与者。基于密码学的隐私保护技术，例如零知识机器学习（zkML），其计算开销过高。为了解决这一限制，我们建议利用机密计算（CC）。机密计算利用基于硬件的可信执行环境 (TEE) 为处理敏感数据提供隔离，确保模型参数和用户数据保持安全，即使在分散的、可能不可信的环境中也是如此。尽管 TEE 面临一些限制，但我们相信它们可以弥合去中心化人工智能中的隐私差距。我们探索如何将 TEE 集成到 Atoma 的去中心化框架中。

大语言模型-对话文化背景基础的人力管道

分类： 计算和语言, 人工智能

作者： Rajkumar Pujari, Dan Goldwasser

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13727v1

摘要： 对话通常遵循不同文化之间众所周知的社会规范。例如，虽然“称呼父母的名字”在西方很常见，但在大多数亚洲文化中却很少见。遵守或违反这些规范通常决定了对话的基调。人类能够非常熟练地应对需要文化意识的社会情境。然而，这对于 NLP 模型来说是一项艰巨的任务。在本文中，我们通过引入对话的“文化语境模式”来解决这个问题。它包括 (1) 会话信息，如情感、对话行为等，以及 (2) 文化信息，如社会规范、违规行为等。我们使用大语言模型为中国文化中的约 23,000 个对话生成约 110,000 个社会规范和违规描述。我们使用自动验证策略来完善它们，这些策略根据具有文化意识的人类判断进行评估。我们使用交互式人机循环框架将这些描述组织成有意义的结构，我们称之为“规范概念”。我们使用符号注释在对话中奠定规范概念和描述的基础。最后，我们将获得的数据集用于下游任务，例如情感、情绪和对话行为检测。我们证明它显着提高了经验性能。

DAWN：具有非自回归扩散框架的动态框架头像，用于生成头部视频

分类： 计算机视觉和模式识别, 人工智能

作者： Hanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13726v1

摘要： 头像生成旨在从单个肖像和语音音频剪辑中生成生动逼真的头像视频。尽管基于扩散的头部特写生成已经取得了重大进展，但几乎所有方法都依赖于自回归策略，这些策略受到超出当前生成步骤的上下文利用率有限、错误累积和生成速度较慢的影响。为了应对这些挑战，我们提出了 DAWN（具有非自回归扩散的动态帧头像），这是一个能够一次性生成动态长度视频序列的框架。具体来说，它由两个主要部分组成：（1）潜在运动空间中音频驱动的整体面部动态生成，以及（2）音频驱动的头部姿势和眨眼生成。大量的实验表明，我们的方法可以生成真实、生动的视频，具有精确的嘴唇运动和自然的姿势/眨眼运动。此外，DAWN生成速度快，具有强大的外推能力，保证了高质量长视频的稳定制作。这些结果凸显了 DAWN 在头部视频生成领域的巨大前景和潜在影响。此外，我们希望 DAWN 能够引发对扩散模型中非自回归方法的进一步探索。我们的代码将在 https://github.com/Hanbo-Cheng/DAWN-pytorch 公开。

大语言模型的持续训练前中毒

分类： 密码学和安全, 人工智能

作者： Yiming Zhang, Javier Rando, Ivan Evtimov, Jianfeng Chi, Eric Michael Smith, Nicholas Carlini, Florian Tramèr, Daphne Ippolito

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13722v1

摘要： 大型语言模型是在未经整理的文本数据集上进行预训练的，该数据集由从网络上抓取的数万亿个标记组成。先前的工作表明：（1）网络抓取的预训练数据集实际上可能会被恶意行为者毒害； (2) 对手可以在毒害微调数据集后破坏语言模型。我们的工作首次评估了语言模型在预训练期间是否也会受到损害，重点是模型被微调为有用且无害的聊天机器人后（即在 SFT 和 DPO 之后）预训练攻击的持续性。我们从头开始预训练一系列 LLM，以衡量潜在中毒对手在四种不同攻击目标（拒绝服务、信念操纵、越狱和即时窃取）下以及各种模型大小的影响（从600M到7B）。我们的主要结果是，仅毒害模型预训练数据集的 0.1% 就足以让四分之三的攻击在训练后持续存在。此外，像拒绝服务这样的简单攻击在训练后仍然存在，中毒率仅为 0.001%。

电影一代：媒体基金会模特阵容

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 图像和视频处理

作者： Adam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, David Yan, Dhruv Choudhary, Dingkang Wang, Geet Sethi, Guan Pang, Haoyu Ma, Ishan Misra, Ji Hou, Jialiang Wang, Kiran Jagadeesh, Kunpeng Li, Luxin Zhang, Mannat Singh, Mary Williamson, Matt Le, Matthew Yu, Mitesh Kumar Singh, Peizhao Zhang, Peter Vajda, Quentin Duval, Rohit Girdhar, Roshan Sumbaly, Sai Saketh Rambhatla, Sam Tsai, Samaneh Azadi, Samyak Datta, Sanyuan Chen, Sean Bell, Sharadh Ramaswamy, Shelly Sheynin, Siddharth Bhattacharya, Simran Motwani, Tao Xu, Tianhe Li, Tingbo Hou, Wei-Ning Hsu, Xi Yin, Xiaoliang Dai, Yaniv Taigman, Yaqiao Luo, Yen-Cheng Liu, Yi-Chiao Wu, Yue Zhao, Yuval Kirstain, Zecheng He, Zijian He, Albert Pumarola, Ali Thabet, Artsiom Sanakoyeu, Arun Mallya, Baishan Guo, Boris Araya, Breena Kerr, Carleigh Wood, Ce Liu, Cen Peng, Dimitry Vengertsev, Edgar Schonfeld, Elliot Blanchard, Felix Juefei-Xu, Fraylie Nord, Jeff Liang, John Hoffman, Jonas Kohler, Kaolin Fire, Karthik Sivakumar, Lawrence Chen, Licheng Yu, Luya Gao, Markos Georgopoulos, Rashel Moritz, Sara K. Sampson, Shikai Li, Simone Parmeggiani, Steve Fine, Tara Fowler, Vladan Petrovic, Yuming Du

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13720v1

摘要： 我们推出 Movie Gen，它是一系列基础模型，可生成具有不同宽高比和同步音频的高质量 1080p 高清视频。我们还展示了其他功能，例如基于指令的精确视频编辑和基于用户图像生成个性化视频。我们的模型在多项任务上树立了新的最先进水平：文本到视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成。我们最大的视频生成模型是一个 30B 参数转换器，使用最大上下文长度 73K 视频标记进行训练，对应于每秒 16 帧生成的 16 秒视频。我们展示了架构、潜在空间、训练目标和配方、数据管理、评估协议、并行化技术和推理优化方面的多项技术创新和简化，使我们能够获得扩展预训练数据、模型大小和训练的好处用于训练大规模媒体生成模型的计算。我们希望本文能够帮助研究界加速媒体生成模型的进步和创新。本文中的所有视频均可在 https://go.fb.me/MovieGenResearchVideos 上获取。

MIRAGE-Bench：检索增强生成系统的自动多语言基准测试平台

分类： 计算和语言, 人工智能

作者： Nandan Thakur, Suleman Kazi, Ge Luo, Jimmy Lin, Amin Ahmad

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13716v1

摘要： 传统的检索增强生成（RAG）基准依赖于不同的基于启发式的指标进行评估，但这些需要人类的偏好作为参考依据。相比之下，基于竞技场的基准测试（两个模型相互竞争）需要昂贵的大型语言模型（LLM）作为可靠评估的判断标准。我们提出了一种简单而有效的技术，可以两全其美。这个想法是使用基于 RAG 的评估启发法作为输入，训练一个学习排名模型作为“代理”法官，以生成一个基于竞技场的综合排行榜。利用这个想法，我们开发了 MIRAGE-Bench，这是一个基于 Arena 的标准化多语言 RAG 基准，适用于维基百科上的 18 种不同语言。该基准是使用 MIRACL（一个检索数据集）构建的，并扩展用于多语言生成评估。 MIRAGE-Bench 广泛结合启发式特征和 LLM 作为判断评估器来评估 RAG。在我们的工作中，我们对 19 个不同的以多语言为中心的大语言模型进行了基准测试，并使用我们的代理法官通过成对评估和 GPT-4o 作为老师学习的启发式特征，实现了高度相关性 (Kendall Tau ($\tau$) = 0.909）使用 Bradley-Terry 框架的 MIRAGE-Bench 排行榜。我们观察到专有和大型开源大语言模型目前在多语言 RAG 中占据主导地位。 MIRAGE-Bench 位于：https://github.com/vectara/mirage-bench。

论注意力头在大语言模型安全中的作用

分类： 计算和语言, 人工智能, 密码学和安全, 机器学习

作者： Zhenhong Zhou, Haiyang Yu, Xinghua Zhang, Rongwu Xu, Fei Huang, Kun Wang, Yang Liu, Junfeng Fang, Yongbin Li

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13708v1

摘要： 大型语言模型 (LLM) 在多种语言任务上实现了最先进的性能，但其安全护栏可能会被绕过，导致有害的生成。鉴于此，最近出现了关于安全机制的研究，表明当安全表示或组件受到抑制时，大语言模型的安全能力就会受到损害。然而，现有的研究往往忽视多头注意力机制的安全影响，尽管它们在各种模型功能中发挥着至关重要的作用。因此，在本文中，我们旨在探索标准注意机制与安全能力之间的联系，以填补安全相关机制可解释性方面的空白。我们提出了一种专为多头注意力而设计的新颖指标，即安全头重要得分（船舶），以评估各个头对模型安全性的贡献。在此基础上，我们将 Ships 推广到数据集级别，并进一步引入安全注意头 AttRibution 算法（Sahara）来归因模型内的关键安全注意头。我们的研究结果表明，特别注意头部对安全性有重大影响。消除单个安全头允许对齐模型（例如 Llama-2-7b-chat）响应 16 倍的有害查询，同时仅修改 0.006% 的参数，而之前的研究需要约 5% 的修改。更重要的是，我们证明注意力头主要充当安全性特征提取器，并且从同一基础模型微调的模型通过综合实验表现出重叠的安全头。总之，我们的归因方法和研究结果为解开大型模型中的安全机制黑匣子提供了一个新颖的视角。

维基数据中的不相交违规

分类： 人工智能, 信息检索

作者： Ege Atacan Doğan, Peter F. Patel-Schneider

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13707v1

摘要： 不相交检查是知识库中最重要的约束检查之一，可用于帮助检测和纠正不正确的陈述和内部矛盾。维基数据是一个非常庞大的、社区管理的知识库。由于其规模和结构，维基数据包含许多不正确的陈述和内部矛盾。我们分析了维基数据上当前的不相交建模，识别导致这些不相交违规的模式并对它们进行分类。我们使用 SPARQL 查询来识别导致不相交违规的每个“罪魁祸首”，并制定公式来识别和修复冲突信息。最后我们讨论了未来如何在维基数据中更好地建模和扩展不相交信息。

越狱大语言模型控制的机器人

分类： 机器人技术, 人工智能

作者： Alexander Robey, Zachary Ravichandran, Vijay Kumar, Hamed Hassani, George J. Pappas

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13691v1

摘要： 最近引入的大语言模型 (LLM) 通过在操纵、运动和自动驾驶车辆等各种领域实现上下文推理和直观的人机交互，彻底改变了机器人领域。当被视为一种独立技术时，LLM 很容易受到越狱攻击，其中恶意提示器通过绕过 LLM 安全护栏来引出有害文本。为了评估在机器人技术中部署 LLM 的风险，在本文中，我们介绍了 RoboPAIR，这是第一个旨在越狱 LLM 控制的机器人的算法。与现有的针对 LLM 聊天机器人的文本攻击不同，RoboPAIR 会引发 LLM 控制的机器人产生有害的身体动作，我们在三种场景中实验演示了这种现象：(i) 白盒设置，其中攻击者可以完全访问 NVIDIA Dolphins 自我攻击。驾驶 LLM，(ii) 灰盒设置，其中攻击者可以部分访问配备 GPT-4o 规划器的 Clearpath Robotics Jackal UGV 机器人，以及 (iii) 黑盒设置，其中攻击者仅具有查询访问权限到集成 GPT-3.5 的 Unitree Robotics Go2 机器狗。在每个场景和三个新的有害机器人行为数据集中，我们证明 RoboPAIR 以及多个静态基线可以快速有效地发现越狱，通常可以实现 100% 的攻击成功率。我们的研究结果首次表明，越狱的大语言模型的风险远远超出了文本生成的范围，因为越狱的机器人很可能在现实世界中造成物理损害。事实上，我们在 Unitree Go2 上的结果代表了已部署的商业机器人系统的首次成功越狱。解决这一新出现的漏洞对于确保大语言模型在机器人领域的安全部署至关重要。其他媒体请访问：https://robopair.org

扩散课程：通过图像引导扩散进行合成到真实的生成课程学习

分类： 计算机视觉和模式识别, 人工智能

作者： Yijun Liang, Shweta Bhardwaj, Tianyi Zhou

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13674v1

摘要： 低质量或稀缺的数据给实践中训练深度神经网络带来了重大挑战。虽然经典的数据增强无法提供截然不同的新数据，但扩散模型通过文本引导提示生成高质量和多样化的合成数据，为构建自我进化的人工智能打开了一扇新的大门。然而，纯文本指导无法控制合成图像与原始图像的接近程度，导致数据分布不均，从而损害模型性能。为了克服这一限制，我们研究图像引导以实现合成图像和真实图像之间的一系列插值。通过更强的图像引导，生成的图像与训练数据相似，但难以学习。虽然图像引导较弱，但合成图像更容易建模，但会导致与原始数据的分布差距更大。生成的全谱数据使我们能够构建新颖的“扩散课程（DisCL）”。 DisCL 在每个训练阶段调整图像合成的图像指导水平：识别并关注模型的硬样本，评估合成图像最有效的指导水平，以提高硬数据学习。我们将 DisCL 应用于两项具有挑战性的任务：长尾 (LT) 分类和从低质量数据中学习。它专注于高质量的低指导图像来学习原型特征，作为学习可能在多样性或质量方面较弱的高指导图像的热身。大量实验表明，将 DisCL 应用于 iWildCam 数据集时，OOD 和 ID 宏观精度分别提高了 2.7% 和 2.1%。在 ImageNet-LT 上，DisCL 将基础模型的尾类准确率从 4.4% 提高到 23.64%，并使全类准确率提高 4.02%。

一种用于微调句子转换器以进行意图分类和超出范围检测任务的新方法

分类： 计算和语言, 人工智能

作者： Tianyi Zhang, Atta Norouzian, Aanchan Mohan, Frederick Ducatelle

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13649v1

摘要： 在虚拟助理 (VA) 系统中，拒绝或重定向超出系统范围的用户查询非常重要。范围外（OOS）拒绝的最准确方法之一是将其与范围内查询的意图分类任务结合起来，并使用基于基于变压器的句子编码器产生的嵌入相似性的方法。通常，此类编码器使用交叉熵损失针对意图分类任务进行微调。最近的工作表明，虽然这为意图分类任务产生了合适的嵌入，但它也倾向于将范围内嵌入分散在整个句子嵌入空间上。这会导致范围内嵌入可能与 OOS 嵌入重叠，从而使 OOS 拒绝变得困难。当 OOS 数据未知时，情况会变得更加复杂。为了缓解这个问题，我们的工作建议通过使用自动编码器学习的范围内嵌入重建损失来规范交叉熵损失。我们的方法在拒绝样本外 (OOS) 实例的精确召回曲线下面积方面实现了 1-4% 的改进，而不会影响意图分类性能。

SimpleToM：揭示大语言模型中显式 ToM 推理和隐式 ToM 应用之间的差距

分类： 计算和语言, 人工智能

作者： Yuling Gu, Oyvind Tafjord, Hyunwoo Kim, Jared Moore, Ronan Le Bras, Peter Clark, Yejin Choi

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13648v1

摘要： 虽然之前的工作已经探讨了大型语言模型（LLM）是否拥有“心理理论”（ToM）——将心理状态归因于自己和他人的能力——但很少有工作来测试 LLM 是否可以隐式应用这些知识来预测行为，或判断观察到的行为是否理性。这些技能对于社交环境中的适当互动至关重要。我们创建了一个新的数据集 SimpleTom，其中包含简洁、多样化的故事（例如，“品客薯片罐头里有发霉的薯条。玛丽在超市拿起罐头，走到收银台。”），每个故事都有三个测试问题不同程度的 ToM 推理，要求模型预测 (a) 心理状态（“玛丽是否意识到霉菌？”），（b）行为（“玛丽会支付芯片费用还是报告霉菌？”），以及（c））判断（“玛丽支付了筹码的费用。这合理吗？”）。据我们所知，SimpleToM 是第一个系统地探索下游推理的数据集，需要了解现实场景中的心理状态。我们的实验结果很有趣：虽然大多数模型可以在我们的数据集上可靠地预测心理状态（a），但它们常常无法正确预测行为（b），并且在判断给定行为是否合理（c）方面表现更差，尽管正确认识主角的心理状态应该会让这种次要的预测变得明显。我们进一步表明，我们可以通过干预措施帮助模型在（b）和（c）方面做得更好，例如提醒模型其早期的心理状态答案和特定于心理状态的思维链提示，提高动作预测的准确性（（例如，GPT-4o 从 49.5% 到 93.5%）和判断准确度（例如，GPT-4o 从 15.3% 到 94.7%）。虽然这表明模型可以被诱导表现良好，但它需要针对特定任务的干预，并且自然模型的性能仍然很低，这是 LLM 部署的一个警示。

通过奖励优化微调离散扩散模型并应用于 DNA 和蛋白质设计

分类： 机器学习, 人工智能

作者： Chenyu Wang, Masatoshi Uehara, Yichun He, Amy Wang, Tommaso Biancalani, Avantika Lal, Tommi Jaakkola, Sergey Levine, Hanchen Wang, Aviv Regev

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13643v1

摘要： 最近的研究表明，扩散模型在从自然语言到生物序列生成等跨领域的离散序列上具有强大的实证性能。例如，在蛋白质逆折叠任务中，条件扩散模型在生成折叠回原始结构的类似自然序列方面取得了令人印象深刻的结果。然而，实际的设计任务通常不仅需要对条件分布进行建模，还需要优化特定的任务目标。例如，我们可能更喜欢具有高稳定性的蛋白质序列。为了解决这个问题，我们考虑这样一种场景：我们有预先训练的离散扩散模型，可以生成类似自然的序列，以及将序列映射到任务目标的奖励模型。然后，我们在离散扩散模型中制定奖励最大化问题，类似于强化学习 (RL)，同时最小化针对预训练扩散模型的 KL 散度以保持自然性。为了解决这个 RL 问题，我们提出了一种新颖的算法 DRAKES，它通过使用 Gumbel-Softmax 技巧使最初不可微的轨迹变得可微，从而能够通过扩散模型生成的整个轨迹直接反向传播奖励。我们的理论分析表明，我们的方法可以生成既类似于自然又产生高回报的序列。虽然最近在连续域的扩散模型中探索了类似的任务，但我们的工作解决了离散扩散模型特有的独特算法和理论挑战，这些挑战源于连续时间马尔可夫链而不是布朗运动的基础。最后，我们证明了 DRAKES 在生成 DNA 和蛋白质序列方面的有效性，这些序列分别优化了增强子活性和蛋白质稳定性，这是基因治疗和基于蛋白质的治疗的重要任务。

潜在空间嵌入链实现无输出 LLM 自我评估

分类： 计算和语言, 人工智能, 机器学习

作者： Yiming Wang, Pei Zhang, Baosong Yang, Derek F. Wong, Rui Wang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13640v1

摘要： LLM自我评估依赖于LLM自身估计响应正确性的能力，这可以大大提高其部署可靠性。在本研究中，我们提出了潜在空间中的嵌入链（CoE），以使大语言模型能够执行无输出的自我评估。 CoE由推理期间产生的所有渐进隐藏状态组成，可以将其视为LLM的潜在思维路径。我们发现，当 LLM 回答正确和错误时，他们的 CoE 特征会有所不同，这些差异有助于我们估计 LLM 回答的正确性。四个不同领域和七个大语言模型的实验充分证明了我们方法的有效性。同时，其无需任何训练的无标签设计意图和毫秒级的计算成本保证了大规模场景下的实时反馈。更重要的是，我们从 LLM 内部隐藏状态变化的角度提供了对 LLM 响应正确性的有趣见解。

扩展可穿戴基础模型

分类： 机器学习, 人工智能, 人机交互

作者： Girish Narayanswamy, Xin Liu, Kumar Ayush, Yuzhe Yang, Xuhai Xu, Shun Liao, Jake Garrison, Shyam Tailor, Jake Sunshine, Yun Liu, Tim Althoff, Shrikanth Narayanan, Pushmeet Kohli, Jiening Zhan, Mark Malhotra, Shwetak Patel, Samy Abdel-Ghaffar, Daniel McDuff

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13638v1

摘要： 由于各种健康跟踪功能，可穿戴传感器已经变得无处不在。日常生活中产生的连续纵向测量会产生大量数据；然而，理解这些观察结果以获得科学和可操作的见解并非易事。受生成建模经验成功的启发，大型神经网络从大量文本、图像、视频或音频数据中学习强大的表示，我们研究了传感器基础模型在计算、数据和模型大小方面的扩展特性。使用来自超过 165,000 人的长达 4000 万小时的原位心率、心率变异性、皮肤电活动、加速度计、皮肤温度和每分钟高度计数据的数据集，我们创建了 LSM，这是一种基于迄今为止最大的可穿戴信号数据集，具有最广泛的传感器模式。我们的结果建立了 LSM 的缩放定律，适用于跨时间和传感器模式的插补、内插和外推等任务。此外，我们还重点介绍了 LSM 如何为运动和活动识别等任务实现样本高效的下游学习。

标准化自我监督学习以实现可证明可靠的变化点检测

分类： 机器学习, 人工智能

作者： Alexandra Bazarova, Evgenia Romanenkova, Alexey Zaytsev

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13637v1

摘要： 变化点检测（CPD）方法旨在识别输入数据流分布的突变。这项任务的准确估计器在各种现实场景中至关重要。然而，传统的无监督 CPD 技术面临着很大的局限性，通常依赖于强假设，或者由于固有的模型简单性而导致表达能力较低。相比之下，表示学习方法通过提供灵活性和捕获数据的全部复杂性而不施加限制性假设的能力来克服这些缺点。然而，这些方法在 CPD 领域仍然是新兴的，缺乏坚实的理论基础来确保其可靠性。我们的工作通过将表征学习的表达能力与传统 CPD 技术的基础相结合来解决这一差距。我们在 CPD 任务中采用谱归一化（SN）进行深度表示学习，并证明 SN 之后的嵌入对于 CPD 来说信息量很大。在通过三个标准 CPD 数据集进行综合评估时，我们的方法明显优于当前最先进的方法。

用于改进交通监控中的空中车辆检测的时空目标检测

分类： 计算机视觉和模式识别, 人工智能

作者： Kristina Telegraph, Christos Kyrkou

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13616v1

摘要： 这项工作通过开发时空目标检测模型，展示了使用无人机相机进行多类车辆检测的进展。该研究引入了时空车辆检测数据集 (STVD)，其中包含由无人机捕获的 6, 600 张带注释的连续帧图像，从而能够对整体时空感知算法进行全面的训练和评估。基于 YOLO 的目标检测算法经过增强，可纳入时间动态，从而比单帧模型提高了性能。将注意力机制整合到时空模型中可以进一步提高性能。实验验证表明取得了重大进展，最好的时空模型比单帧模型提高了 16.22%，同时证明注意力机制具有额外性能提升的潜力。

H2OVL-密西西比视觉语言模型技术报告

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者： Shaikat Galib, Shanshan Wang, Guanshuo Xu, Pascal Pfeiffer, Ryan Chesler, Mark Landry, Sri Satish Ambati

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13611v1

摘要： 较小的视觉语言模型 (VLM) 对于注重隐私的设备上应用程序变得越来越重要，因为它们能够在消费类硬件上高效运行以处理企业商业文档和图像。这些模型需要强大的语言理解和视觉能力来增强人机交互。为了满足这一需求，我们推出了 H2OVL-Mississippi，这是一对小型 VLM，在 8 个 H100 GPU 上进行了 240 小时的计算，在 3700 万个图像文本对上进行了训练。 H2OVL-Mississippi-0.8B 是一个具有 8 亿个参数的微型模型，专门用于文本识别，在 OCRBench 的文本识别部分实现了最先进的性能，并超越了该领域更大的模型。此外，我们还发布了 H2OVL-Mississippi-2B，这是一个适用于一般用例的 20 亿参数模型，在各种学术基准中展现出极具竞争力的指标。这两个模型都建立在我们之前使用 H2O-Danube 语言模型的基础上，将其功能扩展到视觉领域。我们根据 Apache 2.0 许可证发布它们，使每个人都可以访问 VLM，从而实现文档 AI 和视觉 LLM 的民主化。

MeNTi：通过嵌套工具调用桥接医疗计算器和 LLM 代理

分类： 人工智能, 计算和语言

作者： Yakun Zhu, Shaohang Wei, Xu Wang, Kui Xue, Xiaofan Zhang, Shaoting Zhang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13610v1

摘要： 将工具集成到大型语言模型（LLM）中促进了广泛的应用。尽管如此，在专门的下游任务环境中，仅依赖工具不足以完全解决现实世界的复杂性。这尤其限制了大语言模型在医学等领域的有效部署。在本文中，我们重点关注医疗计算器的下游任务，它使用标准化测试来评估个人的健康状况。我们推出 MeNTi，一种适用于大语言模型的通用代理架构。 MeNTi集成了专门的医疗工具包，并采用元工具和嵌套调用机制来提高LLM工具的利用率。具体来说，它实现了灵活的工具选择和嵌套工具调用，以解决复杂医疗场景中面临的实际问题，包括计算器选择、槽填充和单位转换。为了评估大语言模型在计算器场景的整个临床过程中进行定量评估的能力，我们引入了 CalcQA。该基准要求大语言模型使用医疗计算器进行计算并评估患者的健康状况。 CalcQA 由专业医生构建，包括 100 个病例计算器对，并辅以包含 281 个医疗工具的工具包。实验结果表明我们的框架显着提高了性能。这项研究为大语言模型在医学领域的苛刻应用中应用奠定了新的方向。

作为叙事驱动推荐器的大型语言模型

分类： 信息检索, 人工智能, 计算和语言

作者： Lukas Eberhard, Thorsten Ruprechter, Denis Helic

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13604v1

摘要： 叙事驱动的推荐系统旨在针对以自由格式文本表达的用户请求提供个性化建议，例如“我想看一部具有令人费解的故事的惊悚片，例如《禁闭岛》”。尽管大型语言模型（LLM）已被证明在处理一般自然语言查询方面表现出色，但它们处理此类推荐请求的有效性仍然相对未经探索。为了缩小这一差距，我们比较了 38 个不同规模的开源和闭源 LLM（例如 LLama 3.2 和 GPT-4o）在电影推荐设置中的性能。为此，我们利用了来自 Reddit 电影建议社区的黄金标准、众包注释的帖子数据集，并采用了各种提示策略，包括零镜头提示、身份提示和少镜头提示。我们的研究结果证明了大语言模型生成上下文相关的电影推荐的能力，显着优于其他最先进的方法，例如 doc2vec。虽然我们发现闭源和大型参数化模型通常表现最好，但中型开源模型仍然具有竞争力，仅比计算成本更高的模型稍稍优于其。此外，我们观察到大多数模型的提示策略没有显着差异，这强调了简单方法的有效性，例如零样本提示对于叙事驱动的推荐。总体而言，这项工作为推荐系统研究人员以及旨在将大语言模型集成到现实世界推荐工具中的从业者提供了宝贵的见解。

使用扩散语言模型进行文本引导的多属性分子优化

分类： 机器学习, 人工智能

作者： Yida Xiong, Kun Li, Weiwei Liu, Jia Wu, Bo Du, Shirui Pan, Wenbin Hu

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13597v1

摘要： 分子优化（MO）是药物发现的关键阶段，其中以任务为导向生成的分子被优化以满足实际的工业需求。现有的主流 MO 方法主要利用外部属性预测器来指导迭代属性优化。然而，对于预测者来说，学习广阔的化学空间中的所有分子样本是不现实的。因此，由于近似的性质，在属性预测期间不可避免地引入误差和噪声。这导致差异积累、泛化减少和次优分子候选。在本文中，我们提出了一种利用基于变压器的扩散语言模型（TransDLM）的文本引导的多属性分子优化方法。 TransDLM 利用标准化化学命名法作为分子的语义表示，并将属性要求隐式嵌入文本描述中，从而防止扩散过程中的错误传播。在物理和化学详细文本描述的指导下，TransDLM 对编码的源分子进行采样和优化，保留源分子的核心支架并确保结构相似性。此外，TransDLM 能够同时采样多个分子，使其成为通过网络平台上的分布式计算进行可扩展、高效的大规模优化的理想选择。此外，我们的方法在优化分子结构相似性和增强基准数据集的化学性质方面超越了最先进的方法。该代码位于：https://anonymous.4open.science/r/TransDLM-A901。

OAH-Net：用于离轴数字全息显微镜全息重建的深度神经网络

分类： 光学, 人工智能

作者： Wei Liu, Kerem Delikoyun, Qianyu Chen, Alperen Yildiz, Si Ko Myo, Win Sen Kuan, John Tshon Yit Soong, Matthew Edward Cove, Oliver Hayden, Hweekuan Lee

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13592v1

摘要： 离轴数字全息显微镜是一种高通量、无标记成像技术，可提供有关样品的三维、高分辨率信息，在大规模细胞成像中特别有用。然而，全息图重建过程给及时数据分析带来了重大瓶颈。为了应对这一挑战，我们提出了一种新颖的重建方法，将深度学习与离轴全息术的物理原理相结合。我们根据物理原理初始化了部分网络权重，然后通过弱超大规模学习对其进行微调。我们的离轴全息网络（OAH-Net）检索相位和幅度图像，其误差在硬件测量误差范围内，其重建速度明显超过显微镜的采集速率。至关重要的是，OAH-Net 在具有不同模式的未见过的样本上展示了卓越的外部泛化能力，并且可以与下游任务的其他模型无缝集成，以实现端到端的实时全息图分析。这一功能进一步扩展了离轴全息术在生物和医学研究中的应用。

RGB 到高光谱：用于增强手术成像的光谱重建

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Tobias Czempiel, Alfie Roddan, Maria Leiloglou, Zepeng Hu, Kevin O'Neill, Giulio Anichini, Danail Stoyanov, Daniel Elson

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13570v1

摘要： 本研究利用来自猪手术的公开 HeiPorSPECTRAL 数据集和内部神经外科数据集，研究从 RGB 数据重建高光谱特征以增强手术成像。使用综合指标评估基于卷积神经网络 (CNN) 和 Transformer 模型的各种架构。 Transformer 模型通过有效集成空间信息来预测准确的光谱剖面（涵盖可见光和扩展光谱范围），在 RMSE、SAM、PSNR 和 SSIM 方面展现出卓越的性能。定性评估证明了预测光谱轮廓的能力，这对于手术过程中做出明智的手术决策至关重要。使用 MAE 强调了与捕获可见光和扩展高光谱范围相关的挑战，并强调了所涉及的复杂性。这些发现为实时手术环境中的手术应用和临床用例开辟了高光谱重建的新研究方向。

CCUP：用于预训练换衣人员重新识别模型的可控合成数据生成管道

分类： 计算机视觉和模式识别, 人工智能

作者： Yujian Zhao, Chengru Wu, Yinong Xu, Xuanzheng Du, Ruiyu Li, Guanglin Niu

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13567v1

摘要： 换衣人员重新识别（CC-ReID），也称为长期人员重新识别（LT-ReID）是计算机视觉中一个关键且具有挑战性的研究课题，最近引起了广泛的关注。然而，由于构建CC-ReID数据的成本高昂，现有的数据驱动模型很难在有限的数据上进行有效的训练，从而导致过拟合问题。为了应对这一挑战，我们提出了一种低成本且高效的管道，用于生成可控且高质量的合成数据，模拟特定于 CC-ReID 任务的真实场景的监视。特别是，我们构建了一个新的自注释 CC-ReID 数据集，名为 Cloth-Changing Unreal Person (CCUP)，其中包含 6,000 个 ID、1,179,976 张图像、100 个摄像机和每个人 26.5 套服装。基于这个大规模数据集，我们引入了一种有效且可扩展的预训练微调框架，以增强传统 CC-ReID 模型的泛化能力。大量实验表明，两种典型模型 TransReID 和 FIRe^2，当集成到我们的框架中时，在 CCUP 上进行预训练并在 PRCC、VC-Clothes 和 NKUP 等基准上进行微调后，其性能优于其他最先进的模型。 CCUP 位于：https://github.com/yjzhao1019/CCUP。

集成大型语言模型中的动态内存检索和管理的时间表示

分类： 计算和语言, 人工智能

作者： Yuki Hou, Haruki Tamoto, Homei Miyashita

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13553v1

摘要： 传统的对话代理经常难以有效地回忆记忆，导致冗余检索和对独特用户关联的管理不充分。为了解决这个问题，我们提出了 SynapticRAG，这是一种将突触动力学集成到检索增强生成（RAG）中的新方法。 SynapticRAG 将时间表示集成到记忆向量中，通过根据发生时间区分事件并动态更新记忆意义来模仿生物突触。该模型采用记忆连接的时间评分和突触启发的传播控制机制。跨英语、日语和中文数据集的实验证明了 SynapticRAG 相对于包括传统 RAG 在内的现有方法的优越性，记忆检索准确率提高了 14.66%。我们的方法通过增强长期上下文维护和从对话中提取特定信息来推进上下文感知对话人工智能系统。

纯合成数据的医学视觉语言预训练能否成功？

分类： 计算机视觉和模式识别, 人工智能

作者： Che Liu, Zhongwei Wan, Haozhe Wang, Yinda Chen, Talha Qaiser, Chen Jin, Fariba Yousefi, Nikolay Burlutskiy, Rossella Arcucci

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13523v1

摘要： 医学视觉语言预训练 (MedVLP) 在实现医学图像理解的零样本任务方面取得了重大进展。然而，训练 MedVLP 模型通常需要具有配对的高质量图像文本数据的大规模数据集，这在医学领域是稀缺的。大型语言模型 (LLM) 和扩散模型的最新进展使得生成大规模合成图像文本对成为可能。这就提出了一个问题：*使用纯合成数据，MedVLP 能否成功？*为了解决这个问题，我们使用现成的生成模型来创建合成放射学报告和配对胸部 X 射线 (CXR) 图像，并提出了一个自动化流程构建多样化、高质量的合成数据集，从而实现隔离模型和训练设置的严格研究，完全从数据角度关注。我们的结果表明，*仅在合成数据上训练的 MedVLP 模型在零样本分类的平均 AUC 上优于在真实数据上训练的模型 3.8%。此外，结合使用合成数据和真实数据可进一步提高 9.07%。此外，在零样本基础以及微调分类和分割任务中，在合成或混合数据上训练的 MedVLP 模型始终优于在真实数据上训练的模型。我们的分析表明，在精心设计的合成数据上训练的 MedVLP 可以优于在真实数据集上训练的模型，这可能受到低质量样本和长尾分布的限制。

镜子中的偏见：大语言模型的观点对他们自己的对抗性攻击是否有力？

分类： 计算和语言, 人工智能

作者： Virgile Rennard, Christos Xypolopoulos, Michalis Vazirgiannis

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13517v1

摘要： 大型语言模型 (LLM) 继承了训练数据和对齐过程中的偏差，以微妙的方式影响着它们的反应。尽管许多研究都检验了这些偏差，但很少有工作探讨它们在交互过程中的稳健性。在本文中，我们介绍了一种新颖的方法，其中两个大语言模型实例进行自我辩论，争论相反的观点以说服模型的中立版本。通过这一点，我们评估偏见的牢固程度，以及模型是否容易强化错误信息或转向有害观点。我们的实验涵盖了不同规模、来源和语言的多个大语言模型，为跨语言和文化背景的偏见持久性和灵活性提供了更深入的见解。

MathGAP：任意复杂证明问题的分布外评估

分类： 机器学习, 人工智能, 计算和语言

作者： Andreas Opedal, Haruki Shirakami, Bernhard Schölkopf, Abulhair Saparov, Mrinmaya Sachan

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13502v1

摘要： 大型语言模型 (LLM) 可以高精度地解决算术文字问题，但人们对它们泛化到比其训练的问题更复杂的问题的能力知之甚少。当前评估的两个主要缺陷阻碍了对此类问题的实证研究：(i) 大部分评估数据受到污染，因为这些数据在训练过程中已经出现过；(ii) 基准数据集没有捕获问题证明的方式可以以各种方式任意复杂。作为解决这些问题的一步，我们提出了一个框架，用于评估具有任意复杂算术证明问题的大语言模型，称为 MathGAP。 MathGAP 生成遵循固定证明规范的问题以及思想链推理注释，从而能够对算术证明复杂性的泛化进行系统研究。我们应用 MathGAP 来分析上下文学习如何与具有更复杂证明的问题的泛化相互作用。我们发现，在测试的模型中，随着证明变得更深更广，大多数模型的性能都会显着下降。这种效应在复杂的非线性证明结构中更为明显，即使对于 GPT-4o 来说这也是一个挑战。令人惊讶的是，提供与测试集相同分布的上下文示例并不总是有利于性能。特别是，零样本提示以及演示比测试数据复杂度较低的各种示例有时会产生类似或更高的准确性。

通过课程学习、半监督训练和高级优化技术增强 NLG/NLU 联合学习中的文本生成

分类： 计算和语言, 人工智能, 机器学习

作者： Rahimanuddin Shaik, Katikela Sreeharsha Kishore

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13498v1

摘要： 文本生成是使用计算方法生成书面或口头语言的自动化过程。它涉及根据预定义的规则或学习的模式生成连贯且上下文相关的文本。然而，文本生成的挑战来自于保持连贯性、确保多样性和创造力以及避免偏见或不适当的内容。本研究论文开发了一种在自然语言生成（NLG）和自然语言理解（NLU）联合学习背景下改进文本生成的新颖方法。数据是通过收集和预处理带注释的数据集来准备的，包括清理、标记化、词干提取和停用词删除。应用了词性标记、词袋和词频-逆文档频率（TF-IDF）等特征提取技术。基于 Transformer 的编码器和解码器，捕获长范围依赖性并改进源-目标序列建模。结合了优化 BERT 等预训练语言模型以及混合 Redfox 人工蜂鸟算法 (HRAHA)。采用策略梯度技术、半监督训练、改进的注意力机制和可微近似（例如直通 Gumbel SoftMax 估计器）的强化学习来微调模型并有效处理复杂的语言任务。所提出的模型是使用Python 实现的。

透视 VisualBERT：模因景观的因果冒险

分类： 计算和语言, 人工智能, 机器学习

作者： Dibyanayan Bandyopadhyay, Mohammed Hasanuzzaman, Asif Ekbal

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13488v1

摘要： 检测攻击性模因至关重要，但标准深度神经网络系统通常仍然不透明。各种基于输入归因的方法试图解释他们的行为，但它们面临着隐含的攻击性模因和非因果归因的挑战。为了解决这些问题，我们提出了一个基于结构因果模型（SCM）的框架。在此框架中，VisualBERT 经过训练，可以根据模因输入和因果概念来预测输入模因的类别，从而实现透明的解释。我们的定性评估证明了该框架在理解模型行为方面的有效性，特别是在确定模型是否由于正确的原因而正确以及识别错误分类背后的原因方面。此外，定量分析评估了所提出的建模选择的重要性，例如去混杂、对抗性学习和动态路由，并将它们与输入归因方法进行比较。令人惊讶的是，我们发现输入归因方法并不能保证我们框架内的因果关系，这引发了人们对其在安全关键应用中的可靠性的质疑。项目页面位于：https://newcodevelop.github.io/causality_adventure/

打破手动标注瓶颈：通过半自动标注创建全面的法律案件关键度数据集

分类： 计算和语言, 人工智能, 机器学习, 68T50, I.2; I.7

作者： Ronja Stern, Ken Kawamura, Matthias Stürmer, Ilias Chalkidis, Joel Niklaus

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13460v1

摘要： 预测案件的关键性有助于法院系统中的法律专业人员管理大量判例法。本文介绍了关键性预测数据集，这是一种用于评估瑞士联邦最高法院判决对未来判例的潜在影响的新资源。与依赖资源密集型手动注释的现有方法不同，我们半自动派生标签，从而产生比其他方式更大的数据集。我们的数据集具有两层标签系统：(1) LD 标签，它标识作为领先决策 (LD) 发布的案例；(2) 引文标签，它根据引用频率和新近度对案例进行排名。这样可以对案例重要性进行更细致的评估。我们评估了几种多语言模型，包括微调变体和大型语言模型，发现微调模型始终优于零样本基线，这表明需要针对特定任务进行适应。我们的贡献包括介绍这项任务以及向研究社区发布多语言数据集。

解锁法律知识：瑞士司法摘要的多语言数据集

分类： 计算和语言, 人工智能, 机器学习, 68T50, I.2; I.7

作者： Luca Rolshoven, Vishvaksenan Rasiah, Srinanda Brügger Bose, Matthias Stürmer, Joel Niklaus

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13456v1

摘要： 法律研究是大多数律师每天面临的一项耗时的任务。法律研究的很大一部分需要查找相关判例法并将其与当前案件联系起来。律师严重依赖摘要（也称为摘要）来快速找到正确的案件。然而，并非所有决策都附有摘要注释，而且编写摘要非常耗时。仅在瑞士，自动创建的摘要就有可能使数十万个决策更容易用于法律研究。为此，我们引入了瑞士领先决策摘要 (SLDS) 数据集，这是一种新颖的跨语言资源，其中包含瑞士联邦最高法院 (SFSC) 的 18000 条德语、法语和意大利语法院裁决，以及德语摘要。我们微调并评估了三个 mT5 变体以及专有模型。我们的分析强调，虽然专有模型在零样本和单样本设置中表现良好，但经过微调的较小模型仍然具有强大的竞争优势。我们公开发布该数据集，以促进多语言法律摘要的进一步研究和法律专业人员辅助技术的开发

针对低资源 ASR 的多语言多模态模型的参数高效适应

分类： 计算和语言, 人工智能, 机器学习, 音频和语音处理

作者： Abhishek Gupta, Amruta Parulekar, Sameep Chattopadhyay, Preethi Jyothi

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13445v1

摘要： 由于标记训练数据的稀缺，低资源语言的自动语音识别（ASR）仍然是一个挑战。参数高效的微调和纯文本适应是两种流行的方法，已用于解决此类低资源设置的问题。在这项工作中，我们研究了如何使用 SeamlessM4T 等多语言多模式模型有效地组合这些技术。多模态模型能够通过纯文本适应来利用未标记的文本，并进一步进行参数高效的 ASR 微调，从而提高 ASR 性能。我们还展示了从高资源语言进行的跨语言迁移，在没有任何标记语音的零样本设置中，与基线相比，WER 降低了 17%。

指令驱动的游戏引擎：扑克案例研究

分类： 人工智能, 软件工程

作者： Hongqiu Wu, Xingyuan Liu, Yan Wang, Hai Zhao

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13441v1

摘要： 指令驱动游戏引擎 (IDGE) 项目旨在通过启用大型语言模型 (LLM) 来遵循自由格式的游戏描述并生成游戏流程，从而实现游戏开发的民主化。 IDGE允许用户通过自然语言指令简单地创建游戏，大大降低了游戏开发的门槛。我们将 IDGE 的学习过程视为下一状态预测任务，其中模型自回归预测给定玩家动作的游戏状态。游戏状态的计算必须精确；否则，轻微的错误可能会破坏游戏体验。由于稳定性和多样性之间存在差距，这是具有挑战性的。为了解决这个问题，我们以课程方式对 IDGE 进行培训，逐步增加其接触复杂场景的机会。我们的初步进展在于开发扑克 IDGE，它不仅支持各种扑克变体，还允许通过自然语言输入实现高度个性化的新扑克游戏。这项工作为未来改变游戏创建和玩方式的进步奠定了基础。

通过最优传输解决扩散模型中的先验分布失配

分类： 机器学习, 人工智能

作者： Zhanpeng Wang, Shenghao Li, Chen Wang, Shuting Cao, Na Lei, Zhongxuan Luo

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13431v1

摘要： 近年来，有关扩散模型（DM）的知识显着增长，但仍存在一些理论空白。特别值得注意的是先验误差，定义为正向过程的终止分布与逆向过程的初始分布之间的差异。为了解决这些不足，本文探讨了最优传输（OT）理论与具有离散初始分布的DM之间更深层次的关系。具体来说，我们证明了 DM 的两个阶段从根本上涉及计算时间相关的 OT。然而，在二次运输成本下，不可避免的先验误差会导致逆向过程中的偏差。通过证明随着扩散终止时间的增加，概率流以指数方式收敛到经典 Monge-Ampère 方程解的梯度，我们在这些场之间建立了重要的联系。因此，静态 OT 成为弥合这一理论潜力差距的最本质的单步方法。此外，我们应用这些见解来加速无条件和条件生成场景中的采样。多个图像数据集的实验结果验证了我们方法的有效性。

Shavette：通过算法级错误检测和欠压实现低功耗神经网络加速

分类： 硬件架构, 人工智能

作者： Mikael Rinkinen, Lauri Koskinen, Olli Silven, Mehdi Safarpour

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13415v1

摘要： 降低电压工作是显着提高数字电路能效的有效技术。本简介介绍了一种简单的方法，只需修改软件即可实现深度神经网络 (DNN) 加速器的降低电压运行。用于实现低电压运行的传统方法（例如定时错误检测（TED）系统）会产生大量的开发成本和开销，同时不适用于现成的组件。与此相反，本文提出的解决方案依赖于基于算法的错误检测，因此开发成本低，不需要任何电路修改，甚至适用于商用设备。通过在 GPU 平台上对流行的 DNN（即 LeNet 和 VGG16）进行实验来展示该解决方案，我们展示了 18% 到 25% 的节能效果，并且考虑到开销，模型的精度没有损失，吞吐量的影响可以忽略不计（< 3.9%）将错误检测方案集成到 DNN 中。与需要大量电路级修改、单元库表征或设计工具的特殊支持的传统 TED 技术相比，将所提出的算法解决方案集成到设计中更加简单。

行动前三思：大型语言模型中的渐进式思维细化

分类： 计算和语言, 人工智能

作者： Chengyu Du, Jinyi Han, Yizhou Ying, Aili Chen, Qianyu He, Haokun Zhao, Sirui Xia, Haoran Guo, Jiaqing Liang, Zulong Chen, Liangyue Li, Yanghua Xiao

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13413v1

摘要： 大型语言模型 (LLM) 的最新进展表明，渐进式细化而不是提供单一答案，可以带来更准确、更周到的输出。然而，现有的方法通常严重依赖监督信号来评估先前的响应，因此很难在更开放的场景中有效地评估输出质量。此外，这些方法通常是为特定任务而设计的，这限制了它们对新领域的推广。为了解决这些限制，我们提出了渐进式思维细化（PTR），这是一个框架，使大语言模型能够逐步完善他们的回答。 PTR分为两个阶段：（1）思想数据构建阶段：我们提出弱强模型协同选择策略，构建高质量的渐进细化数据集，保证从思想到答案的逻辑一致性，答案在每个阶段逐步细化。圆形的。（2）思想掩码微调阶段：我们设计了一个训练结构来掩盖“思想”并调整损失权重，以鼓励大语言模型细化先前的思想，教会他们隐含地理解“如何改进”而不是“什么是正确的” ”。实验结果表明，PTR 显着提高了十种不同任务的大语言模型表现（平均从 49.6% 提高到 53.5%），无需针对特定任务进行微调。值得注意的是，在更多开放式任务中，大语言模型还表现出在回答质量方面的显着提高，而不仅仅是准确性，这表明 PTR 真正教会了大语言模型随着时间的推移进行自我完善。

Attr-Int：一种简单有效的异构知识图实体对齐框架

分类： 计算和语言, 人工智能

作者： Linyan Yang, Jingwei Cheng, Chuanhao Xu, Xihao Wang, Jiayi Li, Fu Zhang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13409v1

摘要： 实体对齐（EA）是指链接不同知识图（KG）中的实体的任务。现有的 EA 方法严重依赖结构同构。然而，在现实世界的知识图谱中，对齐的实体通常具有非同构的邻域结构，这使得这些依赖于结构的方法的应用陷入瘫痪。在本文中，我们研究并解决异构知识图谱之间的实体对齐问题。首先，我们提出两个新的基准来密切模拟真实世界的 EA 异构场景。然后，我们进行了大量的实验来评估代表性 EA 方法在新基准上的性能。最后，我们提出了一种简单有效的实体对齐框架，称为 Attr-Int，其中创新的属性信息交互方法可以与任何用于实体对齐的嵌入编码器无缝集成，从而提高现有实体对齐技术的性能。实验表明，我们的框架在两个新基准上优于最先进的方法。

MoR：低秩适应调优的秩混合

分类： 机器学习, 人工智能, 计算和语言

作者： Chuanyu Tang, Yilong Chen, Zhenyu Zhang, Junyuan Shang, Wenyuan Zhang, Yong Huang, Tingwen Liu

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13408v1

摘要： 低阶适应 (LoRA) 推动研究使其性能与全面微调保持一致。然而，仍然存在重大挑战：（1）简单地增加 LoRA 的秩大小并不能有效捕获高秩信息，从而导致性能瓶颈。（2）MoE 式 LoRA 方法大大增加了参数和推理延迟，与目标相矛盾高效微调和易于应用。为了应对这些挑战，我们引入了等级混合（MoR），它根据输入学习不同任务的特定于等级的信息，并有效地集成多等级信息。我们首先提出了一个新的框架，将多个 LoRA 的集成等同于扩展 LoRA 的等级。此外，我们假设低秩 LoRA 已经捕获了足够的内在信息，而 MoR 可以通过低秩分量的数学变换导出高秩信息。因此，MoR可以降低LoRA的学习难度并增强其多任务能力。 MoR 取得了令人印象深刻的结果，与基线方法相比，MoR 只使用了 93.93% 的参数，性能提高了 1.31%。

上下文感知自适应个性化推荐：元混合

分类： 信息检索, 人工智能

作者： Peter Tibensky, Michal Kompan

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13374v1

摘要： 推荐系统广泛存在于电子商务系统中，减少了信息过载的问题。最常见的方法是选择系统使用的推荐器来进行预测。然而，用户各不相同；因此，一刀切的方法似乎不是最优的。在本文中，我们提出了一种元混合推荐器，它使用机器学习来预测最佳算法。通过这种方式，针对每个特定会话和用户使用性能最佳的推荐器。此选择取决于收集的有关用户的上下文和偏好信息。我们使用标准 MovieLens 和 Movie DB 数据集进行离线评估。我们表明，基于所提出的模型，可以预测哪个推荐器将为用户提供最精确的推荐。我们的元混合方法的理论性能在归一化贴现增益和均方根误差指标方面优于单独方法 20-50%。然而，基于广泛使用的存储的用户标准信息很难获得最佳性能。

MagicTailor：文本到图像扩散模型中组件可控的个性化

分类： 计算机视觉和模式识别, 人工智能

作者： Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13370v1

摘要： 文本到图像（T2I）扩散模型的最新进展使得能够根据文本提示创建高质量图像，但它们仍然难以生成对特定视觉概念进行精确控制的图像。现有的方法可以通过学习参考图像来复制给定的概念，但它们缺乏对概念中的各个组件进行细粒度定制的灵活性。在本文中，我们介绍了组件可控的个性化，这是一项新颖的任务，它允许用户在个性化视觉概念时重新配置特定组件，从而突破了 T2I 模型的界限。由于两个主要障碍，这项任务特别具有挑战性：语义污染，即不需要的视觉元素破坏个性化概念；语义不平衡，导致概念和组件的学习不成比例。为了克服这些挑战，我们设计了MagicTailor，这是一个创新框架，利用动态屏蔽降级（DM-Deg）来动态干扰不需要的视觉语义和双流平衡（DS-Bal）来为所需的视觉语义建立平衡的学习范例。广泛的比较、消融和分析表明，MagicTailor 不仅在这项具有挑战性的任务中表现出色，而且在实际应用中也具有重大前景，为更细致和更具创意的图像生成铺平了道路。

记住、检索和生成：理解无限的视觉概念作为您的个性化助手

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习, 多媒体

作者： Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13360v1

摘要： 大语言模型（LLM）的发展显着增强了多模态LLM（MLLM）作为一般助理的能力。然而，缺乏用户特定的知识仍然限制了它们在人类日常生活中的应用。在本文中，我们介绍了用于 MLLM 个性化的检索增强个性化 (RAP) 框架。从通用的MLLM开始，我们分三步将其变成个性化的助手。 (a) 请记住：我们设计了一个键值数据库来存储与用户相关的信息，例如用户的姓名、头像和其他属性。 (b) 检索：当用户发起对话时，RAP 将使用多模式检索器从数据库中检索相关信息。 (c) 生成：输入查询和检索到的概念信息被输入 MLLM，以生成个性化的、知识增强的响应。与以前的方法不同，RAP 允许通过更新外部数据库进行实时概念编辑。为了进一步提高生成质量并与用户特定信息保持一致，我们设计了数据收集管道，并创建了用于 MLLM 个性化训练的专用数据集。基于该数据集，我们训练了一系列 MLLM 作为个性化多模式助手。通过对大规模数据集进行预训练，RAP-MLLM 可以推广到无限的视觉概念，而无需额外的微调。我们的模型在各种任务中展示了出色的灵活性和生成质量，例如个性化图像字幕、问题回答和视觉识别。代码、数据和模型可在 https://github.com/Hoar012/RAP-MLLM 获取。

LAR-ECHR：欧洲人权法院案件的新法律论证推理任务和数据集

分类： 计算和语言, 人工智能

作者： Odysseas S. Chlapanis, Dimitrios Galanis, Ion Androutsopoulos

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13352v1

摘要： 我们提出了法律论证推理（LAR），这是一项旨在评估大型语言模型（LLM）的法律推理能力的新颖任务。该任务要求根据案件事实，在法庭诉讼的一系列法律论据中选择正确的下一个陈述（从多项选择中）。我们使用欧洲人权法院 (ECHR) 的案例为此任务构建了一个数据集 (LAR-ECHR)。我们评估了 LAR-ECHR 上的七个通用大语言模型，发现 (a) 模型的排名与 LegalBench 的排名一致，LegalBench 是美国既定的法律推理基准，尽管 LAR-ECHR 是基于欧盟法律，（ b) 与 LegalBench 相比，LAR-ECHR 能够更清楚地区分顶级模型，(c) 即使是最好的模型 (GPT-4o) 在 LAR-ECHR 上也能获得 75.8% 的准确率，这表明进一步改进模型的潜力巨大。构建 LAR-ECHR 所遵循的流程可以与其他法律体系的案例进行复制。

医学基础模型结构化数据的表示学习

分类： 计算和语言, 人工智能, 机器学习

作者： Vijay Prakash Dwivedi, Viktor Schlegel, Andy T. Liu, Thanh-Tung Nguyen, Abhinav Ramesh Kashyap, Jeng Wei, Wei-Hsian Yin, Stefan Winkler, Robby T. Tan

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13351v1

摘要： 大型语言模型 (LLM) 在包括医疗保健在内的各个领域都表现出了卓越的性能。然而，它们有效表示结构化非文本数据（例如 ICD-10 或 SNOMED-CT 等记录中使用的字母数字医疗代码）的能力是有限的，并且在最近的研究中尤其暴露。本文探讨了由于当前标记化方法的缺点，大语言模型在处理医疗代码时面临的挑战。因此，我们引入 UniStruct 架构来设计非结构化文本和结构化数据的多模式医学基础模型，该模型通过专门针对结构化医疗代码采用子字标记化技术来解决这些挑战。我们的方法通过对广泛的内部医疗数据库和结构化医疗记录的公共存储库进行模型预训练进行了验证。经过对内部医疗数据库上超过 10 亿个令牌的训练，所提出的模型在评估指标方面实现了高达 23% 的改进，其中约 2% 的收益归因于我们提出的令牌化。此外，当使用 1/1000 的预训练数据在 EHRSHOT 公共基准上进行评估时，UniStruct 模型提高了超过 42% 的下游任务的性能。我们的方法不仅增强了以患者为中心的模型的表示和泛化能力，而且还弥补了表示学习模型处理复杂结构化医疗数据以及非结构化文本的能力方面的关键差距。

Cerberus：通过自适应并行解码和顺序知识增强进行高效推理

分类： 计算和语言, 人工智能

作者： Yuxuan Liu, Wenyuan Li, Laizhong Cui, Hailiang Yang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13344v1

摘要： 由于依赖自回归解码，大型语言模型 (LLM) 通常面临推理速度的瓶颈。最近，并行解码在提高推理效率方面显示出了巨大的希望。然而，我们发现现有并行解码框架存在两个关键问题：（1）解码头无法平衡预测精度和执行并行性；（2）并行解码不是通用解决方案，因为它在某些情况下会带来不必要的开销。具有挑战性的解码步骤。为了解决这些问题，我们提出了 Cerberus，一种自适应并行解码框架，它引入了门控机制，使大语言模型能够在每个解码步骤自适应地选择适当的解码方法，同时引入一种新的解码头范例，在保持执行的同时引入顺序知识。并行性。实验结果表明，与自回归解码相比，Cerberus 可以实现高达 2.12 倍的加速，并且优于领先的并行解码框架之一 Medusa，加速提高了 10% - 30%，生成质量更出色。

DART：解开多说话者文本转语音中的口音和说话者表示

分类： 音频和语音处理, 人工智能, 声音

作者： Jan Melechovsky, Ambuj Mehrish, Berrak Sisman, Dorien Herremans

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13342v1

摘要： 文本转语音 (TTS) 系统的最新进展使得能够根据文本输入生成自然且富有表现力的语音。重音 TTS 旨在通过使合成语音与少数群体听众更相关，并在各种应用程序和上下文中发挥作用，来增强用户体验。通过允许用户选择说话者身份和口音的任意组合，语音合成可以进一步变得更加灵活，从而产生各种个性化的语音输出。当前的模型很难区分说话者和口音表征，因此很难在保持相同说话者特征的同时准确模仿不同的口音。我们提出了一种使用多级变分自动编码器（ML-VAE）和矢量量化（VQ）来解开说话者和口音表示的新方法，以提高语音合成的灵活性和个性化。我们提出的方法解决了有效分离说话者和口音特征的挑战，从而能够对合成语音进行更细粒度的控制。代码和语音样本是公开的。

DiffImp：具有双向 Mamba 主干的概率时间序列插补的高效扩散模型

分类： 机器学习, 人工智能

作者： Hongfan Gao, Wangmeng Shen, Xiangfei Qiu, Ronghui Xu, Jilin Hu, Bin Yang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13338v1

摘要： 概率时间序列插补由于其能够估计插补结果的不确定性而被广泛应用于现实场景中。与此同时，去噪扩散概率模型（DDPM）凭借其对复杂分布进行建模的能力，在概率时间序列插补任务中取得了巨大成功。然而，当前基于DDPM的概率时间序列插补方法面临两类挑战：1）~~\textit{~~去噪部分的骨干模块无法实现低时间复杂度的序列建模。} 2）~\ textit{去噪模块的架构无法有效处理时间序列插补问题中的变量间和双向依赖关系。}为了解决第一个挑战，我们集成了计算高效的状态空间模型，即 Mamba，作为主干去噪模块DDPM。为了应对第二个挑战，我们精心设计了几个基于 SSM 的模块，用于双向建模和变量间关系理解。实验结果表明，我们的方法可以在多个数据集、不同的缺失场景和缺失比率上实现最先进的时间序列插补结果。

LLM 具有政治正确性吗？分析人工智能系统中的道德偏见和越狱漏洞

分类： 计算和语言, 人工智能, 机器学习

作者： Isack Lee, Haebin Seong

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13334v1

摘要： 尽管大型语言模型 (LLM) 在各种任务中表现出令人印象深刻的熟练程度，但它们存在潜在的安全风险，例如“越狱”，恶意输入可能会迫使 LLM 生成有害内容。为了解决这些问题，许多大语言模型开发人员实施了各种安全措施来调整这些模型。这种调整涉及多种技术，包括预训练期间的数据过滤、监督微调、根据人类反馈进行强化学习以及红队练习。这些方法通常会引入类似于政治正确性（PC）的故意偏见，以确保大语言模型的道德行为。在本文中，我们深入研究了出于安全目的而注入大语言模型的故意偏见，并研究了规避这些安全调整技术的方法。值得注意的是，这些故意的偏见导致 GPT-4o 模型中的越狱成功率在非二元和顺性别关键字之间相差 20%，在白人和黑人关键字之间相差 16%，即使提示的其他部分相同。我们引入了 PCJailbreak 的概念，强调了这些安全引起的偏差所带来的固有风险。此外，我们提出了一种有效的防御方法 PCDefense，它通过在生成之前注入防御提示来防止越狱尝试。 PCDefense 是 Guard 模型（例如 Llama-Guard）的一个有吸引力的替代品，后者在文本生成后需要额外的推理成本。我们的研究结果强调，大语言模型开发人员在设计和实施安全措施时迫切需要采取更负责任的方法。

通过解耦直通 Gumbel-Softmax 改进离散优化

分类： 机器学习, 人工智能

作者： Rushi Shah, Mingyuan Yan, Michael Curtis Mozer, Dianbo Liu

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13331v1

摘要： 离散表示在许多深度学习架构中发挥着至关重要的作用，但它们的不可微分性质给基于梯度的优化带来了重大挑战。为了解决这个问题，人们开发了各种梯度估计器，包括直通 Gumbel-Softmax (ST-GS) 估计器，它结合了直通估计器 (STE) 和基于 Gumbel 的重新参数化技巧。然而，ST-GS 的性能对温度高度敏感，其选择通常会影响梯度保真度。在这项工作中，我们提出了一种简单而有效的 ST-GS 扩展，通过在前向和后向传递中采用解耦温度，我们将其称为“解耦 ST-GS”。我们通过跨多个任务和数据集的广泛实验证明，我们的方法显着增强了原始 ST-GS。我们从多个角度进一步研究了我们的方法对梯度保真度的影响，包括梯度间隙和估计梯度的偏差方差权衡。我们的研究结果有助于持续努力改进深度学习中的离散优化，提供平衡简单性和有效性的实用解决方案。

通过摘要引导解码减轻大视觉语言模型中的幻觉

分类： 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Kyungmin Min, Minbeom Kim, Kang-il Lee, Dongryeol Lee, Kyomin Jung

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13321v1

摘要： 大型视觉语言模型 (LVLM) 在根据视觉输入生成详细且连贯的响应方面表现出令人印象深刻的能力。然而，由于过度依赖语言先验，他们很容易产生幻觉。为了解决这个问题，我们研究了 LVLM 中的语言先验，并做出了两个关键观察：(1) 即使在预测与图像相关的词性 (POS) 相关的标记时，模型也越来越依赖语言先验作为标记序列增长，从而放大幻觉。 (2) 直接校准 LVLM 输出分布以减轻语言先验的方法可能会导致文本质量下降，甚至加剧幻觉。基于这些发现，我们提出了一种新方法：摘要引导解码（SGD）。这种方法自然会通过摘要减少文本上下文来鼓励模型更多地关注图像信息，同时仅控制与图像相关的 POS 标记以保持文本质量。通过实验，我们证明 SGD 在物体幻觉基准测试中实现了最先进的性能。此外，在精度和召回率之间的权衡方面，SGD 在现有方法中实现了帕累托最优。最后，我们观察到，尽管现有方法很难在减少幻觉和保持文本质量之间取得平衡，但 SGD 在应对这一挑战方面表现出了稳健性。

阿拉伯语-英语语码转换的计算方法

分类： 计算和语言, 人工智能

作者： Caroline Sabty

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13318v1

摘要： 自然语言处理（NLP）是解决语言处理、分析和生成的重要计算方法。 NLP 任务构成了许多日常应用的核心，从自动文本校正到语音识别。虽然重要的研究集中在英语的 NLP 任务上，但对现代标准阿拉伯语和方言阿拉伯语的关注较少。全球化还促进了语码转换 (CS) 的兴起，即说话者在对话中甚至在单个单词中混合语言（词内 CS）。这种情况在阿拉伯国家尤其常见，人们经常在方言之间或在方言与他们掌握的外语之间切换。阿拉伯语和英语之间的交流在埃及很常见，尤其是在社交媒体上。因此，可以在网上找到大量的代码转换内容。需要针对多个 NLP 任务对此类语码转换数据进行调查和分析，以应对这种多语言现象和阿拉伯语挑战。之前还没有针对阿拉伯语-英语 CS 数据的几个完整的 NLP 任务做过任何工作。在这项工作中，我们重点关注命名实体识别 (NER) 任务和其他有助于为 CS 数据上的 NER 任务提出解决方案的任务，例如语言识别。这项工作通过提出并应用现代标准阿拉伯语和阿拉伯语-英语 NER 的最先进技术来弥补这一差距。我们为 NER 任务创建了第一个带注释的 CS 阿拉伯语-英语语料库。此外，我们应用两种增强技术来使用 CS 上下文嵌入和数据增强技术来改进 CS 数据上的 NER 标记器。所有方法都显示 NER 标记器在 CS 数据上的性能有所提高。最后，我们提出了几种词内语言识别方法来确定混合文本的语言类型并识别它是否是命名实体。

使用具有因果关注的扩散变压器进行临近降水预报

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： ChaoRong Li, XuDong Ling, YiLan Xue, Wenjie Luo, LiHong Zhu, FengQing Qin, Yaodong Zhou, Yuanyuan Huang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13314v1

摘要： 由于难以捕捉长期时空依赖性，短期降水预报仍然具有挑战性。当前的深度学习方法无法在条件和预测结果之间建立有效的依赖关系，同时也缺乏可解释性。为了解决这个问题，我们提出了一种使用具有因果注意力模型的扩散变压器的降水临近预报。我们的模型利用 Transformer 并结合因果注意机制来建立条件信息（原因）和预测结果（结果）之间的时空查询。这种设计使模型能够有效捕获长期依赖性，使预测结果能够在广泛的时间和空间范围内与输入条件保持牢固的因果关系。我们探索了 DTCA 时空信息交互的四种变体，证明全局时空标记交互产生最佳性能。此外，我们引入了通道到批次的转换操作，以进一步增强模型表示复杂降雨动态的能力。我们对两个数据集进行了实验。与最先进的基于 U-Net 的方法相比，我们的方法将预测强降水的 CSI（关键成功指数）分别提高了约 15% 和 8%，实现了最先进的性能。

认知超声的主动推理和深度生成建模

分类： 信号处理, 人工智能, 机器学习

作者： Ruud JG van Sloun

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13310v1

摘要： 超声（美国）具有独特的潜力，可以为任何地方的任何人提供医学成像。设备已变得超便携且经济高效，类似于听诊器。尽管如此，超声图像质量和诊断效果仍然高度依赖于操作者和患者。对于难以成像的患者，图像质量通常不足以进行可靠的诊断。在本文中，我们提出美国成像系统可以被重塑为与其解剖环境进行交互交互的信息搜索代理。这些代理自主地调整其发射-接收序列，以完全个性化成像并主动最大化现场信息增益。为此，我们将证明美国系统执行的脉冲回波实验序列可以解释为感知-动作循环：动作是数据采集、用声波探测组织并记录检测阵列处的反射，感知是对解剖和/或功能状态的推断，可能包括相关的诊断量。然后，我们为系统配备一种机制，可以在一系列实验中主动减少不确定性并最大化诊断价值，在给定环境生成模型和动作条件脉冲回波观测的情况下，使用贝叶斯推理联合处理动作和感知。由于生成模型的表示能力决定了推断的解剖状态的质量和推断的未来成像动作序列的有效性，因此我们将极大地利用深度生成模型的巨大进步，这些进步目前正在扰乱许多领域和整个社会。最后，我们展示了一些认知闭环 US 系统的示例，这些系统基于跟踪解剖信念状态的深度生成模型来执行主动波束控制和自适应扫描线选择。

Hiformer：用于长期风电预测的混合频率特征增强逆变变压器

分类： 机器学习, 人工智能

作者： Chongyang Wan, Shunbo Lei, Yuan Luo

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13303v1

摘要： 气候变化日益严重，迫切需要向可再生能源过渡，因此大规模采用风能对于减轻环境影响至关重要。然而，风电固有的不确定性给电网稳定性带来了挑战，强调需要准确的风能预测模型来实现有效的电力系统规划和运行。虽然现有的许多风电预测研究侧重于短期预测，但往往忽视了长期预测的重要性。长期风电预测对于有效的电网调度和市场交易至关重要，因为它需要仔细考虑直接影响发电量的风速和风向等天气特征。因此，为短期预测设计的方法可能会导致长期设置不准确的结果和高昂的计算成本。为了解决这些限制，我们提出了一种称为混合频率特征增强逆变变压器（Hiformer）的新方法。 Hiformer引入了一种独特的结构，将信号分解技术与天气特征提取技术相结合，以增强气象条件与风力发电之间相关性的建模。此外，Hiformer 采用纯编码器架构，降低了与长期风电预测相关的计算复杂性。与最先进的方法相比，Hiformer： (i) 可以将预测精度提高高达 52.5%； (ii) 可以减少高达 68.5% 的计算时间。

利用 AI 自动生成 IETF 见解

分类： 网络和互联网架构, 人工智能

作者： Jaime Jiménez

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13301v1

摘要： 本文介绍了 IETF Insights 项目，这是一个自动化系统，可简化有关互联网工程任务组 (IETF) 工作组活动的综合报告的生成。该系统收集、整合和分析来自各种 IETF 来源的数据，包括会议纪要、参与者名单、草稿和议程。该系统的核心组件包括数据预处理代码和报告生成模块，该模块可生成高质量的 LaTeX 或 Markdown 文档。通过集成大型语言模型 (LLM) 以基于数据作为基本事实进行摘要，IETF Insights 项目增强了 IETF 记录的可访问性和实用性，从而提供了有关 IETF 活动和对社区贡献的有价值的概述。

LLM-Rank：修剪大型语言模型的图论方法

分类： 机器学习, 人工智能

作者： David Hoffmann, Kailash Budhathoki, Matthaeus Kleindessner

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13299v1

摘要： 大型语言模型的功能不断发展，规模和部署成本也不断增长，因此需要有效的推理优化技术。我们提出了一种利用图论中的中心性度量的新颖修剪方法，减少了这些模型的计算要求和内存占用。具体来说，我们设计了一种创建多层感知器的加权有向非循环图表示的方法，我们应用加权 PageRank 中心性度量的修改版本来计算节点重要性得分。与均匀修剪相结合，这会导致结构化稀疏性。我们将这种剪枝方法称为 MLPRank。此外，我们引入了仅解码器变压器模型的扩展，并将其称为 LLMRank。对于这两种变体，我们都展示了强大的性能。与三个流行的基线相比，MLPRank 的平均准确度保留率高出 6.09%，与两个流行的基线相比，LLMRank 的准确度保留率平均高出 13.42%。

通过自我改进推进大语言模型归因

分类： 计算和语言, 人工智能

作者： Lei Huang, Xiaocheng Feng, Weitao Ma, Liang Zhao, Yuchun Fan, Weihong Zhong, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13298v1

摘要： 教授大型语言模型（LLM）生成引用证据来源的文本可以减轻幻觉并增强信息搜索系统的可验证性。然而，提高这种能力需要高质量的归因数据，这是成本高昂且劳动密集型的。受到自我改进方面最新进展的启发，无需手动注释即可增强大语言模型的能力，我们提出了 START，这是一个自学的 AttRibuTion 框架，用于迭代提高大语言模型的归因能力。首先，为了防止模型因最初监督信号不足而停滞，START 利用模型自行构建合成训练数据进行预热。为了进一步自我提高模型的归因能力，START 迭代地利用根据其采样响应构建的细粒度偏好监督信号来鼓励稳健、全面和可归因的生成。在三个开放域问答数据集（涵盖长格式 QA 和多步骤推理）上进行的实验表明，在不依赖人工注释和更高级模型的情况下，平均性能显着提高 25.13%。进一步的分析表明，START 擅长聚合多个来源的信息。

供水管网中增强公平性的集成分类

分类： 机器学习, 人工智能

作者： Janine Strotherm, Barbara Hammer

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13296v1

摘要： 正如未来犯罪检测软件[1]等相关例子所示，基于人工智能和社会领域影响决策支持工具的公平性构成了一个重要的研究领域。在这篇文章中，我们研究了人工智能在社会经济相关基础设施中的应用，例如配水网络（WDN），其中公平问题尚未立足。为了建立该领域的公平概念，我们提出了 WDN 中受保护群体和群体公平性的适当定义，作为现有定义的扩展。我们证明，从这个意义上来说，检测 WDN 泄漏的典型方法是不公平的。此外，我们因此提出了一种提高公平性的补救措施，该补救措施甚至可以应用于本文中使用的不可微集成分类方法。

PiLocNet：具有旋转点扩散函数的 3D 定位物理信息神经网络

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 光学

作者： Mingda Lu, Zitian Ao, Chao Wang, Sudhakar Prasad, Raymond H. Chan

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13295v1

摘要： 对于使用点扩散函数 (PSF) 工程的 3D 定位问题，我们提出了对之前引入的定位神经网络 LocNet 的全新增强。改进后的网络是物理信息神经网络（PINN），我们称之为 PiLocNet。先前关于定位问题的工作可以分为基于模型的优化和神经网络方法。我们的 PiLocNet 结合了两种方法的独特优势，通过数据拟合损失项将基于前向模型的信息合并到网络中，该损失项限制神经网络产生物理上合理的结果。我们还结合了变分方法中的某些正则化项，这进一步提高了网络在存在图像噪声的情况下的鲁棒性，正如我们在泊松和高斯噪声模型中所示的那样。该框架赋予神经网络可解释性，我们获得的结果显示了其优越性。尽管本文重点关注使用单瓣旋转 PSF 来编码完整的 3D 源位置，但我们期望该方法能够广泛适用于受已知前向过程约束的其他 PSF 和成像问题。

SBI-RAG：通过基于模式的教学和检索增强生成增强学生解决数学应用题的能力

分类： 机器学习, 人工智能, 信息检索

作者： Prakhar Dixit, Tim Oates

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13293v1

摘要： 许多学生在数学应用题 (MWP) 上遇到困难，常常发现很难识别关键信息并选择适当的数学运算。基于图式的教学 (SBI) 是一种基于证据的策略，可帮助学生根据问题的结构对问题进行分类，从而提高解决问题的准确性。在此基础上，我们提出了一个基于模式的指令检索增强生成（SBI-RAG）框架，该框架结合了大型语言模型（LLM）。我们的方法强调通过利用模式来指导解决方案生成的逐步推理。我们评估其在 GSM8K 数据集上的性能，将其与 GPT-4 和 GPT-3.5 Turbo 进行比较，并引入“推理得分”指标来评估解决方案质量。我们的研究结果表明，SBI-RAG 提高了推理清晰度和解决问题的准确性，可能为学生提供教育益处

学习使用置信令牌进行路由

分类： 计算和语言, 人工智能, 机器学习

作者： Yu-Neng Chuang, Helen Zhou, Prathusha Kameswara Sarma, Parikshit Gopalan, John Boccio, Sara Bolouki, Xia Hu

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13284v1

摘要： 大型语言模型 (LLM) 在多项任务中表现出了令人印象深刻的性能，并且越来越多地部署在现实世界的应用程序中。然而，尤其是在高风险环境中，了解大语言模型的输出何时可能不可靠变得至关重要。根据答案是否可信，系统可以选择将问题发送给另一位专家，或者退回到安全的默认行为。在这项工作中，我们研究了大语言模型可以在多大程度上可靠地表明对其答案的信心，以及这种信心的概念如何转化为下游的准确性增益。我们提出了 Self-REF，这是一种轻量级的培训策略，旨在教导大语言模型以可靠的方式表达对自己答案是否正确的信心。 Self-REF 将置信度标记引入 LLM，从中可以提取置信度分数。与表达信心和检查令牌概率等传统方法相比，我们凭经验证明信心令牌在下游路由和拒绝学习任务中显示出显着改进。

使用大型语言模型实现超人语音理解的路线图

分类： 计算和语言, 人工智能, 声音, 音频和语音处理

作者： Fan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13268v1

摘要： 大型语言模型（LLM）的成功促使人们努力整合语音和音频数据，旨在创建能够处理文本和非文本输入的通用基础模型。 GPT-4o 等最新进展凸显了端到端语音大语言模型的潜力，它保留了非语义信息和世界知识以实现更深入的语音理解。为了指导语音大语言模型的发展，我们提出了一个五级路线图，从基本的自动语音识别（ASR）到能够将非语义信息与抽象声学知识集成以完成复杂任务的高级超人模型。此外，我们设计了一个基准 SAGI Bechmark，它标准化了这五个级别中各种任务的关键方面，揭示了使用抽象声学知识和能力完整性方面的挑战。我们的研究结果揭示了处理副语言线索和抽象声学知识方面的差距，并提供了未来的方向。本文概述了推进语音大语言模型的路线图，介绍了评估基准，并提供了对其当前局限性和潜力的重要见解。

通往原子的潜在之路：利用潜在扩散反向映射粗粒度蛋白质结构

分类： 机器学习, 人工智能

作者： Xu Han, Yuancheng Sun, Kai Chen, Kang Liu, Qiwei Ye

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13264v1

摘要： 粗粒度 (CG) 分子动力学模拟为探索蛋白质构象集合和热力学性质提供了计算效率。尽管粗略表示可以在扩展的时间和空间范围内进行大规模模拟，但原子级细节的牺牲限制了它们在配体对接和蛋白质-蛋白质相互作用预测等任务中的实用性。反向映射是从粗粒度表示重建全原子结构的过程，对于恢复这些精细细节至关重要。尽管最近的机器学习方法在蛋白质结构生成方面取得了长足进步，但在重建保持几何准确性和化学有效性的各种原子构象方面仍然存在挑战。在本文中，我们提出了潜在扩散反向映射（LDB），这是一种利用潜在空间内的去噪扩散来应对这些挑战的新颖方法。通过将离散潜在编码与扩散相结合，LDB 绕过了对等变和内部坐标操作的需求，显着简化了训练和采样过程，并促进了配置空间中更好、更广泛的探索。我们评估了 LDB 在三个不同蛋白质数据集上的最先进性能，证明了其以高结构准确性和化学有效性有效重建结构的能力。此外，LDB 在捕获不同蛋白质整体方面表现出非凡的多功能性，突出了其探索复杂构象空间的能力。我们的结果将 LDB 定位为一种强大且可扩展的反向映射方法，有效地弥合了计算生物学中 CG 模拟和原子级分析之间的差距。

用于无监督知识图对齐的简化且可学习的图卷积注意力网络

分类： 人工智能, 机器学习

作者： Weishan Cai, Wenjun Ma, Yuncheng Jiang

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13263v1

摘要： 当前实体对齐（EA）任务的成功很大程度上取决于标记数据提供的监督信息。考虑到标记数据的成本，大多数监督方法很难在实际场景中应用。因此，越来越多的基于对比学习、主动学习或其他深度学习技术的工作被开发出来，以解决由于缺乏标记数据而导致的性能瓶颈。然而，现有的无监督 EA 方法仍然存在一些局限性，要么建模复杂度较高，要么无法平衡对齐的有效性和实用性。为了克服这些问题，我们提出了一种用于无监督知识图对齐方法（SLU）的简化且可学习的图卷积注意网络。具体来说，我们首先引入LCAT，一个新的、简单的框架作为骨干网络来建模两个KG的图结构。然后，我们设计了一种基于潜在匹配关系的关系结构重建方法，用于有效过滤对齐实体的无效邻域信息，以提高SLU的可用性和可扩展性。令人印象深刻的是，提出了一种基于一致性的相似度函数来更好地衡量候选实体对的相似度。最后，我们在三个不同大小（15K和100K）和不同类型（跨语言和单语言）的数据集上进行了大量的实验，以验证SLU的优越性。实验结果表明，SLU 显着提高了对齐精度，优于 25 种监督或无监督方法，并且在最佳情况下 Hits@1 比最佳基线提高了 6.4%。

scFusionTTT：单细胞转录组学和蛋白质组学与测试时训练层融合

分类： 机器学习, 人工智能

作者： Dian Meng, Bohao Xing, Xinlei Huang, Yanran Liu, Yijun Zhou, Yongjun xiao, Zitong Yu, Xubin Zheng

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13257v1

摘要： 单细胞多组学（scMulti-omics）是指配对的多模态数据，例如通过测序进行转录组和表位的细胞索引（CITE-seq），其中从不同模态（即基因和蛋白质）测量每个细胞的调控。 scMulti-omics 可以揭示肿瘤内部的异质性并了解不同细胞类型的独特遗传特性，这对于靶向治疗至关重要。目前，生物信息学领域基于注意力结构的深度学习方法面临两个挑战。第一个挑战是单个细胞中存在大量基因。传统的基于注意力的模块由于长上下文学习和高复杂性计算的能力有限，难以有效地利用所有基因信息。第二个挑战是人类基因组中的基因是有序的并影响彼此的表达。大多数方法忽略了这个顺序信息。最近引入的测试时间训练（TTT）层是一种新颖的序列建模方法，特别适合处理基因组数据等长上下文，因为 TTT 层是线性复杂性序列建模结构，更适合具有顺序关系的数据。在本文中，我们提出了 scFusionTTT，这是一种使用基于 TTT 的屏蔽自动编码器进行单细胞多模态组学融合的新方法。值得注意的是，我们将人类基因组中基因和蛋白质的顺序信息与TTT层相结合，融合多模态组学，并增强单模态组学分析。最后，该模型采用三阶段训练策略，在四个多模态组学数据集和四个单模态组学数据集中的大多数指标上产生了最佳性能，证明了我们模型的卓越性能。数据集和代码将在 https://github.com/DM0815/scFusionTTT 上提供。

文学作品多语言数字版本的自动翻译对齐管道

分类： 计算和语言, 人工智能, 68U15, J.5; I.7.4

作者： Maria Levchenko

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13255v1

摘要： 本文研究了翻译对齐算法在创建 Alessandro Manzoni 的意大利小说“I promessi sposi”（“订婚者”）的多语言数字版本 (MDE) 中的应用，该版本有八种语言的翻译（英语、西班牙语、法语、德语）、荷兰语、波兰语、俄语和中文）来自 19 世纪和 20 世纪。我们确定了 MDE 的关键要求，以改善读者体验和对翻译研究的支持。我们的研究强调了当前最先进算法在应用于文学文本翻译时的局限性，并概述了 MDE 创建的自动化流程。该管道将原始文本转换为基于 Web 的原始文本和翻译文本的并排表示，具有不同的渲染选项。此外，我们提出了评估文学翻译一致性的新指标，并提出了用于未来分析的可视化技术。

对人工智能歧视性决策的看法：揭示个体特征的作用

分类： 人机交互, 人工智能, 计算机与社会

作者： Soojong Kim

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13250v1

摘要： 本研究调查了个人差异（数字自我效能、技术知识、平等信念、政治意识形态）和人口因素（年龄、教育和收入）如何与表现出性别和种族偏见的人工智能（AI）结果的看法相关联。对人工智能的普遍态度。对大规模实验数据集（N = 1,206）的分析表明，数字自我效能和技术知识与对人工智能的态度呈正相关，而自由主义意识形态与结果信任、更高的负面情绪和更大的怀疑呈负相关。此外，年龄和收入与理解歧视性人工智能结果的认知差距密切相关。这些发现强调了促进数字素养技能和增强数字自我效能以保持对人工智能的信任以及对人工智能有用性和安全性的信念的重要性。研究结果还表明，对有问题的人工智能结果的理解差异可能与经济不平等和社会代沟有关。总体而言，这项研究揭示了社会技术系统，其中社会等级、划分和机器之间发生复杂的相互作用，反映并加剧了不平等。

理清个性化生成可解释推荐中的好恶

分类： 机器学习, 人工智能, 计算和语言, 信息检索

作者： Ryotaro Shimizu, Takashi Wada, Yu Wang, Johannes Kruse, Sean O'Brien, Sai HtaungKham, Linxin Song, Yuya Yoshikawa, Yuki Saito, Fugee Tsung, Masayuki Goto, Julian McAuley

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13248v1

摘要： 最近关于可解释推荐的研究通常将任务视为标准文本生成问题，并仅根据预测解释和真实解释之间的文本相似性来评估模型。然而，这种方法未能考虑系统的一个关键方面：它们的输出是否准确反映了用户（购买后）的情绪，即他们是否以及为什么喜欢和/或不喜欢推荐的商品。为了阐明这个问题，我们引入了关注用户情绪的新数据集和评估方法。具体来说，我们通过使用大语言模型从用户的购买后评论中明确提取正面和负面意见来构建数据集，并建议根据生成的解释是否 1）与用户的情绪很好地吻合，以及 2）准确地评估系统识别用户对目标项目的正面和负面意见。我们在数据集上对几个最新模型进行了基准测试，并证明在现有指标上实现出色的性能并不能确保生成的解释与用户的情绪很好地吻合。最后，我们发现，当用户对目标项目的（预测）评分直接作为输入输入到模型中时，现有模型可以提供更多情感感知的解释。我们将在接受后发布我们的代码和数据集。

通过协作 AI 增强情感分析：架构、预测和部署策略

分类： 软件工程, 人工智能, 人机交互

作者： Chaofeng Zhang, Jia Hou, Xueting Tan, Caijuan Chen, Hiroshi Hashimoto

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13247v1

摘要： 基于大语言模型 (LLM) 的人工智能技术的进步已经改变了游戏规则，特别是在情感分析方面。这一进展实现了从高度专业化的研究环境向行业内实际、广泛应用的转变。然而，集成不同的人工智能模型来处理复杂的多模态数据以及相关的特征提取的高成本带来了巨大的挑战。受面向营销的软件开发需求的推动，我们的研究引入了一种协作式人工智能框架，旨在跨各种人工智能系统有效地分配和解决任务，以解决这些问题。首先，我们阐明了从我们的开发过程中得出的关键解决方案，强调了生成式 AI 模型（如 \emph{chatgpt}、\emph{google gemini}）在将复杂的情感分析任务简化为可管理的分阶段目标方面的作用。此外，我们还利用边缘和云中的协作人工智能系统进行了详细的案例研究，展示了其在分析不同在线媒体渠道的情绪方面的有效性。

长形式生成中大语言模型的原子校准

分类： 计算和语言, 人工智能

作者： Caiqi Zhang, Ruihan Yang, Zhisong Zhang, Xinting Huang, Sen Yang, Dong Yu, Nigel Collier

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13246v1

摘要： 大型语言模型（LLM）经常会出现幻觉，给现实世界的应用带来重大挑战。置信度校准可估计模型预测的潜在不确定性，对于增强大语言模型的可信度至关重要。现有的 LLM 校准研究主要集中在简短的任务上，在响应级别提供单一置信度得分（宏观校准）。然而，这种方法对于长格式生成来说是不够的，因为长格式生成的响应通常包含更复杂的陈述，并且可能包含准确和不准确的信息。因此，我们引入了原子校准，这是一种通过将长响应分解为原子声明来在细粒度水平上评估事实校准的新颖方法。我们将置信度启发方法分为判别型和生成型，并证明它们的组合可以增强校准。我们对各种大语言模型和数据集进行的广泛实验表明，原子校准非常适合长格式生成，并且还可以改善宏观校准结果。此外，原子校准揭示了大语言模型在整个生成过程中信心的深刻模式。

大型语言模型很容易混淆：定量指标、安全含义和类型分析

分类： 计算和语言, 人工智能, 密码学和安全, I.1.2; I.1.5

作者： Yiyi Chen, Qiongxiu Li, Russa Biswas, Johannes Bjerva

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13237v1

摘要： 语言混乱是一种现象，其中大型语言模型 (LLM) 生成的文本既不是所需语言，也不是上下文适当的语言。这种现象对大语言模型的文本生成提出了严峻的挑战，通常表现为不稳定和不可预测的行为。我们假设大语言模型的这种固有脆弱性存在语言规律，并揭示了大语言模型之间的语言混淆模式。我们引入了一种新颖的指标，即语言混淆熵，旨在根据语言类型学和词汇变异所告知的语言分布来直接测量和量化这种混淆。与语言混淆基准（Marchisio et al., 2024）的全面比较证实了我们的指标的有效性，揭示了大语言模型之间的语言混淆模式。我们进一步将语言混淆与 LLM 安全性联系起来，并在多语言嵌入反转攻击的情况下找到模式。我们的分析表明，语言类型学提供了理论上有依据的解释，并为利用语言相似性作为大语言模型对齐和安全性的先验提供了宝贵的见解。

SPIN：自我监督即时注射

分类： 计算和语言, 人工智能

作者： Leon Zhou, Junfeng Yang, Chengzhi Mao

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13236v1

摘要： 大型语言模型 (LLM) 越来越多地用于各种重要应用，但其安全性和可靠性仍然是主要问题。人们提出了各种对抗性和越狱攻击来绕过安全对齐并导致模型产生有害的响应。我们引入了自我监督提示注入（SPIN），它可以检测并逆转对 LLM 的各种攻击。由于我们的自我监督即时防御是在推理时完成的，因此它也与现有的对齐方式兼容，并为防御增加了额外的安全层。我们的基准测试表明，我们的系统可以将攻击成功率降低高达 87.9%，同时保持良性用户请求的性能。此外，我们讨论了自适应攻击者的情况，并表明我们的方法对于了解我们防御的攻击者仍然具有弹性。

Quamba：选择性状态空间模型的训练后量化方法

分类： 机器学习, 人工智能

作者： Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Diana Marculescu

发布时间： 2024-10-17

链接： http://arxiv.org/abs/2410.13229v1

摘要： 状态空间模型 (SSM) 已成为大型语言模型 Transformer 的有吸引力的替代品，它以恒定的内存复杂性实现了最先进的精度，与基于注意力的网络相比，它允许保持更长的上下文长度。 SSM 在长序列建模中卓越的计算效率使其在许多场景中优于 Transformer。然而，提高 SSM 在请求密集型云服务和资源有限的边缘应用程序上的效率仍然是一项艰巨的任务。 SSM 量化是解决此问题的一种可能方法，使 SSM 更适合广泛部署，同时仍保持其准确性。量化是减少模型大小和利用现代计算单元上的低位宽加速功能的常用技术，但现有的量化技术不太适合 SSM。最值得注意的是，SSM 在选择性扫描机制（即线性递归）内具有高度敏感的特征图，并且输出激活中存在大量异常值，这些异常值不存在于自注意力模块中令牌混合的输出中。为了解决这个问题，我们提出了一种静态 8 位每张量 SSM 量化方法，该方法抑制选择性 SSM 输入激活的最大值以获得更精细的量化精度，并使用 Hadamard 变换在无离群值空间中量化输出激活。我们的 8 位权重激活量化 Mamba 2.8B SSM 受益于硬件加速，在 Nvidia Orin Nano 8G 上实现了 1.72 倍的低生成延迟，零样本任务的平均准确度仅下降了 0.9%。实验证明了我们的方法在云和边缘平台上部署各种规模的基于 SSM 的模型的有效性和实际适用性。

MoH：多头注意力作为混合头注意力

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Peng Jin, Bo Zhu, Li Yuan, Shuicheng Yan

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11842v1

摘要： 在这项工作中，我们升级了 Transformer 模型的核心多头注意力机制，以提高效率，同时保持或超越之前的准确度水平。我们证明多头注意力可以用求和形式表示。基于并非所有注意力头都具有同等重要性的见解，我们提出了混合头注意力（MoH），这是一种将注意力头视为专家混合（MoE）机制中的专家的新架构。 MoH 有两个显着的优势：首先，MoH 使每个 token 能够选择合适的注意力头，从而在不影响准确性或增加参数数量的情况下提高推理效率。其次，MoH 用加权求和取代了多头注意力中的标准求和，为注意力机制引入了灵活性并释放了额外的性能潜力。对 ViT、DiT 和 LLM 的大量实验表明，MoH 仅使用 50%-90% 的注意力头，其性能优于多头注意力。此外，我们证明了预训练的多头注意力模型，例如 LLaMA3-8B，可以进一步继续调整到我们的 MoH 模型中。值得注意的是，MoH-LLaMA3-8B 在 14 个基准中实现了 64.0% 的平均准确率，仅利用 75% 的注意力头，其性能比 LLaMA3-8B 高出 2.4%。我们相信所提出的 MoH 是多头注意力的一个有前途的替代方案，并为开发先进且高效的基于注意力的模型提供了坚实的基础。

GaVaMoE：用于可解释推荐的专家高斯变分门控混合

分类： 信息检索, 人工智能

作者： Fei Tang, Yongliang Shen, Hang Zhang, Zeqi Tan, Wenqi Zhang, Guiyang Hou, Kaitao Song, Weiming Lu, Yueting Zhuang

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11841v1

摘要： 基于大型语言模型的可解释推荐（基于 LLM 的 ER）系统在生成类似人类的推荐解释方面表现出了希望。然而，他们在建模用户-项目协作偏好、个性化解释和处理稀疏的用户-项目交互方面面临挑战。为了解决这些问题，我们提出了 GaVaMoE，一种新颖的高斯变分门控混合专家框架，用于可解释的推荐。 GaVaMoE 引入了两个关键组件：（1）评级重建模块，采用变分自动编码器（VAE）和高斯混合模型（GMM）来捕获复杂的用户-项目协作偏好，作为预训练的多门控机制；（2）一组细粒度的专家模型与多门控机制相结合，用于生成高度个性化的解释。 VAE 组件对用户-项目交互中的潜在因素进行建模，而 GMM 对具有相似行为的用户进行聚类。每个集群对应于多门控机制中的一个门，将用户-项目对路由到适当的专家模型。该架构使 GaVaMoE 能够针对特定用户类型和偏好生成量身定制的解释，通过利用用户相似性来缓解数据稀疏性。对三个真实世界数据集的大量实验表明，GaVaMoE 在解释质量、个性化和一致性方面显着优于现有方法。值得注意的是，GaVaMoE 在用户-项目交互稀疏的场景中表现出强大的性能，即使对于历史数据有限的用户也能保持高质量的解释。

缩放定律估计搭便车指南

分类： 机器学习, 人工智能, 计算和语言

作者： Leshem Choshen, Yang Zhang, Jacob Andreas

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11840v1

摘要： 缩放定律通过从参数较少或训练集较小的更易于训练的模型进行推断来预测目标机器学习模型的损失。这为从业者和研究人员提供了一种有效的方法来比较涉及优化器、数据集和模型架构的预训练决策。尽管广泛使用缩放定律来模拟语言模型训练的动态，但在理解如何最好地估计和解释它们方面却很少有工作。我们收集（并发布）一个大规模数据集，其中包含 485 个先前发布的预训练模型的损失和下游评估。我们使用这些来估计 1000 多个标度律，然后得出一组用于估计新模型系列中标度律的最佳实践。我们发现，将缩放法则拟合到训练运行的中间检查点（而不仅仅是最终损失）可以显着提高准确性，并且在其他条件相同的情况下，从类似大小的其他模型导出时，性能估计通常是最准确的。然而，由于模型种子之间存在很大程度的可变性，因此训练多个小模型有时比训练单个大模型更有用。此外，虽然不同的模型系列的缩放行为不同，但它们通常足够相似，可以从具有相同架构的单个模型以及从其他模型系列得出的缩放参数估计来预测目标模型的行为。

减轻复杂 Q 函数中确定性策略梯度的次优性

分类： 机器学习, 人工智能, 机器人技术, 机器学习

作者： Ayush Jain, Norio Kosaka, Xinhu Li, Kyung-Min Kim, Erdem Bıyık, Joseph J. Lim

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11833v1

摘要： 在强化学习中，像 DDPG 和 TD3 这样的非策略行为批评方法是基于确定性策略梯度的。在此，Q 函数是根据离策略环境数据进行训练的，并且参与者（策略）经过训练以通过梯度上升来最大化 Q 函数。我们观察到，在灵巧操作和受限运动等复杂任务中，Q 值是动作的复杂函数，具有多个局部最优值或不连续性。这对梯度上升遍历提出了挑战，并使参与者容易陷入局部最优。为了解决这个问题，我们引入了一种新的参与者架构，它结合了两个简单的见解：（i）使用多个参与者并评估 Q 值最大化动作，以及（ii）学习 Q 函数的代理，这些代理更容易使用梯度进行优化 -为基础的方法。我们评估了诸如受限运动、灵巧操作和大型离散动作空间推荐系统等任务，并表明我们的参与者更频繁地找到最佳动作，并且优于替代参与者架构。

通过 Lipschitz 约束策略学习平滑的人形运动

分类： 机器人技术, 人工智能

作者： Zixuan Chen, Xialin He, Yen-Jen Wang, Qiayuan Liao, Yanjie Ze, Zhongyu Li, S. Shankar Sastry, Jiajun Wu, Koushil Sreenath, Saurabh Gupta, Xue Bin Peng

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11825v1

摘要： 强化学习与模拟到真实的迁移相结合，为开发腿式机器人的运动控制器提供了通用框架。为了促进在现实世界中的成功部署，通常采用平滑技术（例如低通滤波器和平滑奖励）来开发具有平滑行为的策略。然而，由于这些技术是不可微分的，并且通常需要对大量超参数进行繁琐的调整，因此它们往往需要对每个机器人平台进行大量的手动调整。为了应对这一挑战并建立一种强制执行平稳行为的通用技术，我们提出了一种简单而有效的方法，该方法对学习策略施加 Lipschitz 约束，我们将其称为 Lipschitz 约束策略（LCP）。我们证明了 Lipschitz 约束可以以梯度惩罚的形式实现，它提供了一个可微分的目标，可以轻松地与自动微分框架合并。我们证明，LCP 有效地取代了对平滑奖励或低通滤波器的需求，并且可以轻松集成到许多不同的人形机器人的训练框架中。我们在模拟和现实世界的人形机器人中广泛评估 LCP，产生平滑且强大的运动控制器。所有模拟和部署代码以及完整的检查点都可以在我们的项目页面上找到：https://lipschitz-constrained-policy.github.io。

OKAMI：通过单个视频模仿教授人形机器人操作技能

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Jinhan Li, Yifeng Zhu, Yuqi Xie, Zhenyu Jiang, Mingyo Seo, Georgios Pavlakos, Yuke Zhu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11792v1

摘要： 我们研究通过模仿单个视频演示来教授人形机器人操作技能的问题。我们介绍 OKAMI，这是一种从单个 RGB-D 视频生成操纵计划并导出执行策略的方法。我们方法的核心是对象感知重定向，它使人形机器人能够模仿 RGB-D 视频中的人类动作，同时在部署过程中调整到不同的对象位置。 OKAMI 使用开放世界视觉模型来识别与任务相关的物体，并分别重新定位身体运动和手部姿势。我们的实验表明，OKAMI 在不同的视觉和空间条件下实现了很强的泛化，超越了开放世界观察模仿的最先进基线。此外，OKAMI 推出轨迹用于训练闭环视觉运动策略，无需劳动密集型远程操作即可实现 79.2% 的平均成功率。更多视频可以在我们的网站 https://ut-austin-rpl.github.io/OKAMI/ 上找到。

Selection-p：自我监督的与任务无关的即时压缩，以实现忠实性和可转移性

分类： 计算和语言, 人工智能, 机器学习

作者： Tsz Ting Chung, Leyang Cui, Lemao Liu, Xinting Huang, Shuming Shi, Dit-Yan Yeung

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11786v1

摘要： 在利用上下文学习时，大型语言模型 (LLM) 在各种自然语言处理任务中表现出了令人印象深刻的能力。为了减轻与上下文学习相关的额外计算和财务成本，已经提出了几种提示压缩方法来压缩上下文学习提示。尽管取得了成功，但这些方法由于特定于模型的压缩或依赖外部训练数据（例如 GPT-4）而面临可转移性的挑战。在本文中，我们研究了大语言模型开发统一压缩方法的能力，该方法利用自监督预训练技术离散化无信息标记。通过在持续预训练期间引入少量参数，所提出的 Selection-p 为每个输入标记生成一个概率，指示是保留还是丢弃它。实验表明，Selection-p 在众多分类任务中实现了最先进的性能，实现了高达 10 倍的压缩率，同时性能仅略有 0.8% 的下降。此外，与之前的工作相比，它表现出了对不同模型的卓越可移植性。此外，我们还进一步分析了 Selection-p 如何帮助保持长上下文中的上下文学习的性能。

MLLM 能看到吗？用于减轻幻觉的动态校正解码

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习, 多媒体

作者： Chenxi Wang, Xiang Chen, Ningyu Zhang, Bozhong Tian, Haoming Xu, Shumin Deng, Huajun Chen

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11779v1

摘要： 多模态大语言模型（MLLM）经常表现出幻觉现象，但其根本原因仍然知之甚少。在本文中，我们进行了实证分析，发现尽管 MLLM 在最终输出中错误地生成了对象，但它们实际上能够识别前面层中的视觉对象。我们推测这可能是由于语言模型强大的知识先验抑制了视觉信息，导致产生幻觉。受此启发，我们提出了一种新颖的 MLLM 动态校正解码方法（DeCo），该方法自适应地选择适当的前面层，并按比例将知识集成到最终层中以调整输出逻辑。请注意，DeCo 与模型无关，可以与各种经典解码策略无缝结合并应用于不同的 MLLM。我们根据广泛使用的基准对 DeCo 进行评估，证明与基线相比，它可以大幅降低幻觉发生率，凸显了其减轻幻觉的潜力。代码可在 https://github.com/zjunlp/DeCo 获取。

编码架构代数

分类： 机器学习, 人工智能, 编程语言, 软件工程

作者： Stephane Bersier, Xinyi Chen-Lin

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11776v1

摘要： 尽管机器学习中的输入类型多种多样，但这种多样性通常没有完全反映在它们的表示或模型架构中，从而导致整个模型生命周期的效率低下。本文介绍了一种代数方法来构建正确考虑数据结构的输入编码架构，为实现更多类型的机器学习迈出了一步。

风险价值的时间序列基础模型

分类： 风险管理, 人工智能

作者： Anubha Goel, Puneet Pasricha, Juho Kanniainen

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11773v1

摘要： 本研究首次探索了时间序列基础模型在 VaR 估计中的应用。在大量多样的数据集上预先训练的基础模型可以在具有相对最少数据的零样本设置中使用，或者通过微调进一步改进。我们使用标准普尔 100 指数及其成分股超过 19 年的日回报率，将 Google 模型（称为 TimesFM）的性能与传统参数和非参数模型（包括 GARCH、广义自回归评分 (GAS) 和经验分位数估计）进行比较。年。我们的回测结果表明，就实际超预期比率而言，微调后的 TimesFM 模型始终优于传统方法。关于分位数得分损失函数，它的性能可与最好的计量经济学方法 GAS 模型相媲美。总体而言，该基础模型在预测 0.01、0.025、0.05 和 0.1 VaR 水平的 VaR 方面要么是最好的，要么是表现最好的。我们还发现微调可以显着改善结果，并且该模型不应该在零样本设置中使用。总体而言，基础模型可以为传统计量经济学方法提供完全替代的方法，但仍有一些挑战需要解决。

基于搜索的帕累托优化测试能否有效覆盖揭示故障的测试输入？

分类： 软件工程, 人工智能, 机器学习

作者： Lev Sorokin, Damir Safin, Shiva Nejati

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11769v1

摘要： 基于搜索的软件测试 (SBST) 是一种广泛采用的技术，用于测试具有大输入空间的复杂系统，例如支持深度学习（支持 DL）的系统。许多 SBST 技术侧重于基于帕累托的优化，其中多个目标并行优化以揭示失败。然而，重要的是要确保已识别的故障分布在搜索域的整个故障诱发区域中，而不是聚集在子区域中。这确保了所识别的故障在语义上是多样化的，并揭示了广泛的根本原因。在本文中，我们提出了一个理论论证，解释了为什么基于帕累托优化的测试不足以覆盖搜索域内的故障诱发区域。我们通过将两种广泛使用的基于 Pareto 的优化技术（即 NSGA-II（一种进化算法）和 MOPSO（一种基于群体的算法））应用于两个支持 DL 的系统来获得实证结果来支持我们的论点：工业自动化代客泊车（AVP）系统和手写数字分类系统。我们使用称为覆盖反演距离质量指标的指标来测量输入空间中揭示故障的测试输入的覆盖率。我们的结果表明，NSGA-II 和 MOPSO 在覆盖揭示失败的测试输入方面并不比原始随机搜索基线更有效。本研究的复制包可在 GitHub 存储库中找到。

DPD-NeuralEngine：用于宽带功率放大器数字预失真的 22 nm 6.6-TOPS/W/mm$^2$ 循环神经网络加速器

分类： 硬件架构, 人工智能, 计算机视觉和模式识别

作者： Ang Li, Haolin Wu, Yizhuo Wu, Qinyu Chen, Leo C. N. de Vreede, Chang Gao

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11766v1

摘要： 现代通信系统中越来越多地采用基于深度神经网络 (DNN) 的数字预失真 (DPD)，因此需要高效的硬件实现。本文介绍了 DPD-NeuralEngine，这是一种基于门控循环单元 (GRU) 神经网络 (NN) 的超快、小面积且节能的 DPD 加速器。利用共同设计的软件和硬件方法，我们的 22 nm CMOS 实施工作频率为 2 GHz，能够以高达 250 MSps 的速度处理 I/Q 信号。实验结果表明，吞吐量为 256.5 GOPS，功率效率为 1.32 TOPS/W，DPD 线性化性能以 -45.3 dBc 的邻道功率比 (ACPR) 和 -39.8 dB 的误差矢量幅度 (EVM) 测量。据我们所知，这项工作代表了第一个基于人工智能的 DPD 专用集成电路 (ASIC) 加速器，实现了 6.6 TOPS/W/mm$^2$ 的功率面积效率 (PAE)。

SlideChat：用于全幻灯片病理图像理解的大型视觉语言助手

分类： 计算机视觉和模式识别, 人工智能

作者： Ying Chen, Guoan Wang, Yuanfeng Ji, Yanjun Li, Jin Ye, Tianbin Li, Bin Zhang, Nana Pei, Rongshan Yu, Yu Qiao, Junjun He

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11761v1

摘要： 尽管多模态大语言模型（MLLM）在计算病理学方面取得了进展，但它们仍然受到对补丁级分析的主要关注的限制，缺少整个幻灯片级别的基本上下文信息。缺乏大规模指令数据集和十亿像素级的整个幻灯片图像（WSI）带来了重大的发展挑战。在本文中，我们提出了 SlideChat，这是第一个能够理解十亿像素全幻灯片图像的视觉语言助手，表现出出色的多模态对话能力，并能在不同的病理场景中响应复杂的指令。为了支持其开发，我们创建了 SlideInstruction，这是最大的 WSI 指令跟踪数据集，由 4.2K WSI 字幕和 176K 个具有多个类别的 VQA 对组成。此外，我们提出了 SlideBench，这是一个多模态基准，它结合了字幕和 VQA 任务，以评估 SlideChat 在各种临床环境（例如显微镜、诊断）中的能力。与通用和专用 MLLM 相比，SlideChat 展现出卓越的功能，在 22 项任务中的 18 项上实现了最先进的性能。例如，它在 SlideBench-VQA (TCGA) 上实现了 81.17% 的总体准确率，在 SlideBench-VQA (BCNB) 上实现了 54.15% 的总体准确率。我们将全面发布SlideChat、SlideInstruction和SlideBench作为开源资源，以促进计算病理学的研究和发展。

生成式人工智能认知缺陷和发展进展的证据：时钟绘图测试分析

分类： 人工智能

作者： Isaac R. Galatzer-Levy, Jed McGiffin, David Munday, Xin Liu, Danny Karmon, Ilia Labzovsky, Rivka Moroshko, Amir Zait, Daniel McDuff

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11756v1

摘要： 生成式人工智能的快速发展引发了人们对其认知能力的兴趣，特别是考虑到其执行语言理解和代码生成等任务的能力。本研究探讨了最新的几个 GenAI 模型在时钟绘图测试 (CDT) 中的表现，这是一种对视觉空间规划和组织的神经心理学评估。虽然模型创建了类似时钟的绘图，但它们很难准确地表示时间，表现出类似于轻度至重度认知障碍的缺陷（Wechsler，2009）。尽管准确呈现了时钟特征，但错误包括数字排序问题、不正确的时钟时间和不相关的添加。只有 GPT 4 Turbo 和 Gemini Pro 1.5 产生了正确的时间，得分与健康人相似 (4/4)。后续的时钟读取测试显示，只有 Sonnet 3.5 成功，这表明绘画缺陷源于数字概念的困难。这些发现可能反映了视觉空间理解、工作记忆或计算方面的弱点，突出了所学知识的优势，但推理方面的弱点。比较人类和机器的性能对于理解人工智能的认知能力和指导向类人认知功能的发展至关重要。

基于面片的扩散模型在不匹配分布逆问题上击败了整个图像模型

分类： 计算机视觉和模式识别, 人工智能, 图像和视频处理

作者： Jason Hu, Bowen Song, Jeffrey A. Fessler, Liyue Shen

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11730v1

摘要： 由于扩散模型能够学习强大的图像先验，因此在解决逆问题方面取得了巨大的成功，但现有方法需要大量的图像训练数据集，这些图像应来自与测试数据集相同的分布。当训练和测试分布不匹配时，由于先验不正确，重建图像中可能会出现伪影和幻觉。在这项工作中，我们系统地研究了首先提供已知训练分布的分布外（OOD）问题。我们首先研究只有从未知测试分布中获得的单个测量可用的设置。接下来，我们研究属于测试分布的非常小的数据样本可用的设置，我们的目标仍然是根据来自测试分布的测量重建图像。在这两种设置中，我们都使用基于补丁的扩散先验，仅从补丁中学习图像分布。此外，在第一个设置中，我们包括一个自监督损失，帮助网络输出保持与测量的一致性。大量实验表明，在这两种设置中，基于补丁的方法可以获得高质量的图像重建，其性能优于整个图像模型，并且可以与能够访问大型分布内训练数据集的方法竞争。此外，我们还展示了整个图像模型如何容易记忆和过度拟合，从而导致重建中出现伪影，而基于补丁的模型可以解决这些问题。

通过 Transformer 多模态学习生成可推广的航天器轨迹

分类： 机器人技术, 人工智能, 优化与控制

作者： Davide Celestini, Amirhossein Afsharrad, Daniele Gammelli, Tommaso Guffanti, Gioele Zardini, Sanjay Lall, Elisa Capello, Simone D'Amico, Marco Pavone

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11723v1

摘要： 有效的轨迹生成对于可靠的星载航天器自主性至关重要。在其他方法中，基于学习的热启动代表了解决轨迹生成问题的一种有吸引力的范例，有效地结合了优化和数据驱动方法的优点。当前基于学习的轨迹生成方法通常侧重于固定的单一场景环境，其中关键场景特征（例如障碍物位置或最终时间要求）在问题实例中保持不变。然而，实际的轨迹生成需要频繁地重新配置场景，使得单一场景方法成为潜在不切实际的解决方案。为了应对这一挑战，我们提出了一种新颖的轨迹生成框架，通过利用能够从多模态数据源学习的高容量变压器神经网络，该框架可以泛化不同的问题配置。具体来说，我们的方法将基于变压器的神经网络模型集成到轨迹优化过程中，通过以下方式编码场景级信息（例如障碍物位置、初始状态和目标状态）和轨迹级约束（例如时间范围、燃油消耗目标）多模态表示。然后，变压器网络为非凸优化问题生成接近最优的初始猜测，从而显着提高收敛速度和性能。该框架通过在自由飞行平台上进行的广泛模拟和真实实验进行了验证，与传统方法相比，成本降低了 30%，不可行的情况减少了 80%，并在不同的场景变化中展示了强大的泛化能力。

RClicks：用于基准交互式分割的真实点击模拟

分类： 计算机视觉和模式识别, 人工智能, 人机交互, I.4.6

作者： Anton Antonov, Andrey Moskalenko, Denis Shepelev, Alexander Krapukhin, Konstantin Soshin, Anton Konushin, Vlad Shakhuro

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11722v1

摘要： Segment Anything (SAM) 的出现激发了交互式分割领域的研究兴趣，特别是在图像编辑任务和加速数据注释的背景下。与常见的语义分割不同，交互式分割方法允许用户通过提示（例如点击）直接影响其输出。然而，现实世界的交互式细分场景中的点击模式在很大程度上仍未得到探索。大多数方法都基于这样的假设：用户会单击最大错误区域的中心。然而，最近的研究表明情况并非总是如此。因此，尽管基线基准测试的指标很高，但方法在实际部署中的性能可能很差。为了准确模拟真实用户点击，我们对交互式细分场景中的点击模式进行了大规模众包研究，收集了 47.5 万真实用户点击。借鉴显着性任务的想法，我们开发了一个可点击性模型，可以对点击进行采样，这与实际的用户输入非常相似。使用我们的模型和数据集，我们提出了 RClicks 基准，用于对实际点击的现有交互式细分方法进行全面比较。具体来说，我们不仅评估方法的平均质量，还评估方法的稳健性。单击模式。根据我们的基准，在实际使用中，交互式分割模型的性能可能比基准基准中报告的要差，并且大多数方法都不稳健。我们相信，RClicks 是创建交互式细分方法的重要一步，该方法可在现实情况下提供最佳用户体验。

放大镜提示：通过极其简单的指令解决多模式幻觉

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 多媒体

作者： Yuhan Fu, Ruobing Xie, Jiazhen Liu, Bangxiang Lan, Xingwu Sun, Zhanhui Kang, Xirong Li

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11701v1

摘要： 多模态大语言模型（MLLM）中的幻觉阻碍了它们的实际应用。为了解决这个问题，我们提出了一种放大镜提示（MagPrompt），这是一种简单而有效的方法，可以通过极其简单的指令来解决 MLLM 中的幻觉。 MagPrompt 基于以下两个关键原则，指导各种有效提示的设计，展示了鲁棒性：（1）MLLM 应该更多地关注图像。 (2)当图像和模型的内部知识之间存在冲突时，MLLMs应该优先考虑图像。 MagPrompt 免训练，可应用于开源和闭源模型，例如 GPT-4o 和 Gemini-pro。它在许多数据集上表现良好，其有效性与 VCD 等更复杂的方法相当甚至更好。此外，我们及时的设计原则和实验分析为多模式幻觉提供了有价值的见解。

BlendRL：融合符号和神经政策学习的框架

分类： 机器学习, 人工智能

作者： Hikaru Shindo, Quentin Delfosse, Devendra Singh Dhami, Kristian Kersting

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11689v1

摘要： 人类可以利用符号推理和直觉反应。相比之下，强化学习策略通常编码在神经网络等不透明系统或依赖于预定义符号和规则的符号系统中。这种脱节的方法严重限制了智能体的能力，因为它们通常缺乏神经智能体灵活的低级反应特征或符号智能体的可解释推理。为了克服这一挑战，我们引入了 BlendRL，这是一种神经符号 RL 框架，它将两种范式和谐地集成在使用逻辑和神经策略混合的 RL 代理中。我们凭经验证明，BlendRL 代理在标准 Atari 环境中优于神经和符号基线，并展示了它们对环境变化的鲁棒性。此外，我们分析了神经策略和符号策略之间的相互作用，说明它们的混合使用如何帮助代理克服彼此的局限性。

状态空间模型可以通过梯度下降在上下文中学习

分类： 机器学习, 人工智能, 神经和进化计算

作者： Neeraj Mohan Sushma, Yudou Tian, Harshvardhan Mestha, Nicolo Colombo, David Kappel, Anand Subramoney

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11687v1

摘要： 深度状态空间模型（深度 SSM）已经显示出在自回归任务上进行上下文学习的能力，类似于 Transformer。然而，在循环网络中实现这一点的架构要求和机制仍不清楚。这项研究表明状态空间模型架构可以执行基于梯度的学习并将其用于上下文学习。我们证明，通过局部自注意力增强的单个结构化状态空间模型层可以在一步梯度下降后以最小二乘损失重现隐式线性模型的输出。我们的主要见解是对角线性循环层可以充当梯度累加器，它可以“应用于”隐式回归模型的参数。我们通过在简单线性回归任务上训练随机初始化的增强 SSM 来验证我们的构造。经验优化的参数与从隐式模型构造中分析获得的理论参数相匹配。多步线性和非线性回归的扩展产生一致的结果。构建的 SSM 包含现代深层状态空间模型的特征，即使在一般任务中也具有可扩展训练和有效性的潜力。该理论结构阐明了循环架构中局部自注意力和乘法交互的作用，作为实现基础模型典型表达能力的关键要素。

不明飞行物正在推动创新吗？大型语言模型中因果关系的幻觉

分类： 人工智能, 计算和语言, 机器学习

作者： María Victoria Carro, Francisca Gauna Selasco, Denise Alejandra Mester, Mario Alejandro Leiva

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11684v1

摘要： 当人们在没有证据支持的情况下相信两个变量之间存在因果关系时，就会出现因果关系错觉。这种认知偏见被认为是许多社会问题的根源，包括社会偏见、刻板印象、错误信息和迷信思维。在这项研究中，我们调查大型语言模型是否会在现实世界中产生因果关系的错觉。我们评估并比较了 GPT-4o-Mini、Claude-3.5-Sonnet 和 Gemini-1.5-Pro 生成的新闻标题，以确定这些模型是否错误地将相关性构建为因果关系。为了衡量阿谀奉承行为（当模型与用户的信念一致以便看起来有利，即使它并不客观正确时），我们另外将偏差纳入提示中，观察这种操作是否会增加模型的可能性表现出因果关系的错觉。我们发现 Claude-3.5-Sonnet 是呈现最低程度因果错觉的模型，与人类撰写的新闻稿中的相关因果夸大实验相一致。另一方面，我们的研究结果表明，虽然拟态谄媚增加了这些模型中因果幻觉的可能性，尤其是在 GPT-4o-Mini 中，但 Claude-3.5-Sonnet 仍然是对抗这种认知偏差最有力的模型。

SurFhead：几何精确的 2D 高斯 Surfel 头部头像的仿射装备混合

分类： 图形, 人工智能, 计算机视觉和模式识别

作者： Jaeseong Lee, Taewoong Kang, Marcel C. Bühler, Min-Jung Kim, Sungwon Hwang, Junha Hyung, Hyojin Jang, Jaegul Choo

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11682v1

摘要： 使用高斯原语的头部头像渲染的最新进展已经取得了显着的高保真度结果。尽管精确的头部几何形状对于网格重建和重新照明等应用至关重要，但当前的方法难以捕获复杂的几何细节并渲染看不见的姿势，因为它们依赖于相似变换，而相似变换无法处理几何体详细变形所必需的拉伸和剪切变换。为了解决这个问题，我们提出了 SurFhead，这是一种使用 2D 高斯面元从 RGB 视频重建可装配头部几何形状的新颖方法，它提供了明确定义的几何属性，例如来自固定光线交叉点的精确深度和从其表面方向导出的法线，使它们成为可能比 3D 同类产品更具优势。 SurFhead 通过利用经典的基于网格的变形传输和仿射变换插值，确保法线和图像的高保真渲染，即使在极端姿势下也是如此。 SurFhead 引入了精确的几何变形，并通过变换的极分解（包括影响法线的变换）混合面元。我们的主要贡献在于将经典图形技术（例如基于网格的变形）与现代高斯基元结合起来，实现最先进的几何重建和渲染质量。与以前的头像渲染方法不同，SurFhead 可以实现由高斯基元驱动的高效重建，同时保留高保真几何形状。

了解直接对齐算法中的过度优化可能性

分类： 计算和语言, 人工智能, 机器学习

作者： Zhengyan Shi, Sander Land, Acyr Locatelli, Matthieu Geist, Max Bartolo

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11677v1

摘要： 直接偏好优化 (DPO) 和身份偏好优化 (IPO) 等直接对齐算法 (DAA) 已成为在线人类反馈强化学习 (RLHF) 算法（例如用于对齐语言模型的近端策略优化 (PPO)）的替代方案以满足人类的偏好，而不需要明确的奖励模型。这些方法通常旨在增加生成更好（首选）完成结果的可能性，同时阻止更差（非首选）完成结果，同时保持接近原始模型的行为。在这项工作中，我们探索了最先进的 DAA 中完成可能性和模型性能之间的关系，并确定了可能性过度优化的关键问题。与预期相反，我们发现更好完成的可能性更高以及更好和更差完成可能性之间的更大差距并不一定会带来更好的性能，甚至可能会降低性能。我们的分析表明，虽然较高的可能性与更好地记忆事实知识模式相关，但略低的完成可能性往往会提高输出多样性，从而更好地泛化到未见过的场景。此外，我们还确定了两个关键指标，它们表明过度优化的输出多样性何时开始损害性能：Top-k 代币的熵减少和 Top-k 概率质量递减。我们的实验结果验证了这些指标是不同情况下性能下降的可靠迹象。正则化，有助于防止过度优化并提高与人类偏好的一致性。

为聪明的汉斯敞开谷仓大门：简单的特征预测大语言模型基准答案

分类： 计算和语言, 人工智能

作者： Lorenzo Pacchiardi, Marko Tesic, Lucy G. Cheke, José Hernández-Orallo

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11672v1

摘要： 人工智能基准的完整性是准确评估人工智能系统功能的基础。这些基准的内部有效性（即确保它们不存在混杂因素）对于确保它们测量其设计目的至关重要。在本文中，我们探讨了与内部有效性相关的一个关键问题：人工智能系统有可能以意想不到的方式绕过正在测试的能力来解决基准问题。这种现象在人类和动物实验中广为人知，通常被称为“聪明的汉斯”效应，即使用虚假线索来解决任务，通常涉及比假定评估的过程简单得多的过程。先前的研究表明语言模型也可以表现出这种行为。在几个较旧的自然语言处理 (NLP) 基准测试中，发现像“not”这样的单个 $n$-gram 能够高度预测正确的标签，并且有监督的 NLP 模型已被证明可以利用这些模式。在这项工作中，我们研究了从基准实例中提取的简单 $n$-gram 可以在多大程度上组合起来预测为 LLM 设计的现代多项选择基准中的标签，以及 LLM 是否可能使用这种 $n$-gram 模式来预测标签。解决这些基准。我们展示了在这些 $n$-gram 上训练的简单分类器如何在多个基准测试中取得高分，尽管缺乏正在测试的功能。此外，我们提供的证据表明，现代大语言模型可能正在使用这些肤浅的模式来解决基准问题。这表明这些基准的内部有效性可能会受到损害，在解释大语言模型的表现结果时应谨慎行事。

VisualRWKV-HD 和 UHD：推进视觉语言模型的高分辨率处理

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Zihang Li, Haowen Hou

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11665v1

摘要： 准确理解复杂的视觉信息对于视觉语言模型（VLM）至关重要。增强图像分辨率可以提高视觉感知能力，不仅可以减少幻觉，还可以提高需要高分辨率的任务（例如文本丰富或文档分析）的性能。在本文中，我们介绍了 VisualRWKV-HD 和 VisualRWKV-UHD，这是 VisualRWKV 模型系列中的两项进步，专门用于处理高分辨率视觉输入。对于VisualRWKV-HD，我们开发了一种无损下采样方法，可以有效地将高分辨率视觉编码器与低分辨率编码器集成，而无需扩展输入序列长度。对于 VisualRWKV-UHD 模型，我们通过将图像分为四部分来增强图像表示，然后将其与原始图像重新组合。该技术允许模型融合高分辨率和低分辨率特征，有效平衡粗粒度和细粒度信息。因此，该模型支持高达4096 x 4096像素的分辨率，提供更细致、更全面的视觉处理能力。 VisualRWKV-HD 和 VisualRWKV-UHD 不仅在 VLM 基准测试中取得了优异的成绩，而且在文本丰富的任务方面也表现出了显着的性能改进。

电子商务应用程序的检索增强拼写纠正

分类： 计算和语言, 人工智能

作者： Xuan Guo, Rohit Patki, Dante Everaert, Christopher Potts

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11655v1

摘要： 新品牌名称快速引入日常语言对电子商务拼写纠正服务提出了独特的挑战，该服务必须区分真正的拼写错误和使用非常规拼写的新品牌名称。我们寻求通过检索增强生成（RAG）来应对这一挑战。在这种方法中，从目录中检索产品名称，并将其合并到大型语言模型 (LLM) 使用的上下文中，该模型经过微调以进行上下文拼写纠正。通过定量评估和定性错误分析，我们发现利用 RAG 框架在拼写纠正方面比独立的大语言模型有所改进。我们还展示了大语言模型额外微调以纳入检索到的上下文的价值。

RS-MOCO：一种基于深度学习的心脏 T1 映射的拓扑保留图像配准方法

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Chiyi Huang, Longwei Sun, Dong Liang, Haifeng Liang, Hongwu Zeng, Yanjie Zhu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11651v1

摘要： 心脏T1标测可以评估心肌组织的各种临床症状。然而，目前心脏 T1 映射中缺乏有效、鲁棒且高效的运动校正方法。在本文中，我们提出了一种基于深度学习和拓扑保留的图像配准框架，用于心脏 T1 映射中的运动校正。值得注意的是，我们提出的隐式一致性约束（称为 BLOC）在某种程度上通过双向一致性约束和局部反折叠约束保留了配准中的图像拓扑。为了解决对比度变化问题，我们引入了一种加权图像相似度度量，用于心脏 T1 加权图像的多模态配准。此外，框架中还集成了半监督心肌分割网络和双域注意力模块，以进一步提高配准性能。大量的比较实验以及消融研究证明了我们方法的有效性和高稳健性。结果还表明，专为我们的网络设计的加权图像相似度度量对运动校正效果的增强做出了很大贡献，而双向一致性约束与局部抗折叠约束相结合确保了更理想的拓扑保持注册映射。

ED-ViT：用于边缘设备分布式推理的分裂视觉变压器

分类： 计算机视觉和模式识别, 人工智能

作者： Xiang Liu, Yijun Song, Xia Li, Yifei Sun, Huiying Lan, Zemin Liu, Linshan Jiang, Jialin Li

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11650v1

摘要： 深度学习模型越来越多地部署在资源有限的边缘设备上，以进行实时数据分析。近年来，Vision Transformer 模型及其变体在各种计算机视觉任务中表现出了出色的性能。然而，它们的高计算需求和推理延迟给资源受限的边缘设备上的模型部署带来了重大挑战。为了解决这个问题，我们提出了一种新颖的 Vision Transformer 分割框架 ED-ViT，旨在跨多个边缘设备高效执行复杂模型。具体来说，我们将 Vision Transformer 模型划分为多个子模型，其中每个子模型都经过定制以处理数据类的特定子集。为了进一步最小化计算开销和推理延迟，我们引入了一种按类修剪技术，可以减小每个子模型的大小。我们对具有三种模型结构的五个数据集进行了广泛的实验，证明我们的方法显着减少了边缘设备上的推理延迟，并分别将模型大小减少了高达 28.9 倍和 34.1 倍，同时保持了与原始 Vision Transformer 相当的测试精度。此外，我们将 ED-ViT 与两种在边缘设备上部署 CNN 和 SNN 模型的最先进方法进行比较，评估准确性、推理时间和整体模型大小。我们的综合评估强调了拟议的 ED-ViT 框架的有效性。

利用蒙特卡罗树搜索改进 Q 函数的值估计并重塑奖励

分类： 机器学习, 人工智能, 多代理系统

作者： Jiamian Li

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11642v1

摘要： 强化学习在围棋和 Atari 等完美信息游戏中取得了显着的成功，使代理能够与人类玩家进行最高水平的竞争。然而，由于博弈结构和随机性较为复杂，针对不完美信息博弈的强化学习研究相对有限。由于Q值估计不准确和奖励稀疏等问题，传统方法在不完美信息博弈中的训练和提高性能方面面临挑战。在本文中，我们关注 Uno 这种不完美信息博弈，旨在通过减少 Q 值高估和重塑奖励函数来解决这些问题。我们提出了一种利用蒙特卡罗树搜索来改进 Q 函数的值估计的新颖算法。尽管我们在本文中选择 Double Deep Q Learning 作为基础框架，但我们的方法可以推广并用于任何需要 Q 值估计的算法，例如 Actor-Critic。此外，我们采用蒙特卡罗树搜索来重塑游戏环境中的奖励结构。我们将我们的算法与应用于游戏的几种传统方法（例如 Double Deep Q Learning、Deep Monte Carlo 和 Neural Fictitious Self Play）进行了比较，实验表明我们的算法始终优于这些方法，特别是随着 Uno 中玩家数量的增加，表明更高的难度。

VidEgoThink：评估嵌入式 AI 的以自我为中心的视频理解能力

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Sijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11623v1

摘要： 多模态大语言模型（MLLM）的最新进展为嵌入式人工智能的应用开辟了新的途径。在之前的工作 EgoThink 的基础上，我们推出了 VidEgoThink，这是一个用于评估以自我为中心的视频理解能力的综合基准。为了弥合 MLLM 和 Embodied AI 中低级控制之间的差距，我们设计了四个关键的相互关联的任务：视频问答、层次规划、视觉基础和奖励建模。为了最大限度地减少手动注释成本，我们利用 GPT-4o 的先验知识和多模态功能，开发了基于 Ego4D 数据集的自动数据生成管道。然后，三名人工注释者过滤生成的数据以确保多样性和质量，从而形成 VidEgoThink 基准。我们对三种类型的模型进行了广泛的实验：基于 API 的 MLLM、基于开源图像的 MLLM 和基于开源视频的 MLLM。实验结果表明，所有 MLLM（包括 GPT-4o）在与自我中心视频理解相关的所有任务中都表现不佳。这些发现表明，基础模型仍然需要重大进步才能有效地应用于嵌入式人工智能的第一人称场景。总之，VidEgoThink 反映了利用 MLLM 实现自我中心视觉的研究趋势，类似于人类的能力，从而能够在复杂的现实世界环境中进行主动观察和交互。

大语言模型法官的黑盒不确定性量化方法

分类： 机器学习, 人工智能

作者： Nico Wagner, Michael Desmond, Rahul Nair, Zahra Ashktorab, Elizabeth M. Daly, Qian Pan, Martín Santillán Cooper, James M. Johnson, Werner Geyer

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11594v1

摘要： LLM-as-a-Judge 是一种广泛使用的方法，用于评估大型语言模型 (LLM) 在各种任务中的性能。我们解决了量化大语言模型法官评估的不确定性的挑战。虽然不确定性量化在其他领域已得到充分研究，但由于大语言模型复杂的决策能力和计算需求，将其有效地应用于大语言模型面临着独特的挑战。在本文中，我们介绍了一种量化不确定性的新方法，旨在增强大语言模型法官评估的可信度。该方法通过分析生成的评估和可能的评级之间的关系来量化不确定性。通过交叉评估这些关系并根据标记概率构建混淆矩阵，该方法可以得出高或低不确定性的标签。我们通过多个基准评估我们的方法，证明大语言模型评估的准确性与得出的不确定性分数之间存在很强的相关性。我们的研究结果表明，这种方法可以显着提高大语言模型法官评估的可靠性和一致性。

PaSTe：提高边缘视觉异常检测的效率

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Manuel Barusco, Francesco Borsatti, Davide Dalle Pezze, Francesco Paissan, Elisabetta Farella, Gian Antonio Susto

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11591v1

摘要： 视觉异常检测 (VAD) 因其识别异常图像并查明导致异常的特定区域的能力而受到广泛的研究关注。 VAD 的一个关键优势是其无监督的性质，这消除了昂贵且耗时的标记数据收集的需要。然而，尽管其在实际应用中具有潜力，但文献对资源高效型 VAD 的关注有限，特别是在边缘设备上的部署。这项工作通过利用轻量级神经网络来减少内存和计算需求，从而实现在资源受限的边缘设备上部署 VAD，从而解决了这一差距。我们在此框架内对主要 VAD 算法进行基准测试，并使用著名的 MVTec 数据集演示基于边缘的 VAD 的可行性。此外，我们引入了一种新颖的算法，部分共享教师-学生（PaSTe），旨在解决现有学生教师特征金字塔匹配（STFPM）方法的高资源需求。我们的结果表明，PaSTe 将推理时间减少了 25%，同时将训练时间减少了 33%，并将训练期间的峰值 RAM 使用量减少了 76%。这些改进使 VAD 流程显着更加高效，为边缘设备上的实际部署奠定了坚实的基础。

迈向健康的人工智能传统：生物学和生物医学的教训

分类： 计算机与社会, 人工智能

作者： Simon Kasif

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11590v1

摘要： 人工智能是一个广阔的领域，直接而深刻地涉及哲学、计算机科学、工程学、数学、决策和数据科学、经济学、认知科学、神经科学等众多学科。人工智能的应用数量和影响力是首屈一指的，人工智能广泛影响未来科学发展的潜力尤其令人兴奋。虽然理解知识、推理、认知和学习的尝试可以追溯到几个世纪前，但人工智能仍然是一个相对较新的领域。部分原因是它与其他不同领域有如此多广泛的重叠，因此似乎很难发展强大的身份和文化。在这里，我们建议将快速发展的人工智能文化与生物和生物医学科学进行对比，这既是富有洞察力又有用的方式，可以开创一种健康的传统，这种传统需要设想和管理我们向通用人工智能及其他领域的进步（独立于所使用的人工智能平台）。人工智能和生物医学的共同进化为这两个领域带来了许多好处。在之前的观点中，我们建议生物医学实验室或中心可以有效地拥抱人工智能实验室的后勤传统，这将使它们能够高度协作，提高研究的可重复性，减少风险规避，并为博士和研究员提供更快的指导途径。这种观点侧重于通过在更高的、主要是文化层面上调整生物医学的特征来给人工智能带来好处。

DeformPAM：通过基于偏好的动作对齐进行长视野可变形对象操纵的数据高效学习

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Wendi Chen, Han Xue, Fangyuan Zhou, Yuan Fang, Cewu Lu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11584v1

摘要： 近年来，模仿学习在机器人操纵领域取得了进展。然而，在处理复杂的长视界可变形物体任务时，例如高维状态空间、复杂动力学和多模态动作分布，它仍然面临挑战。传统的模仿学习方法通常需要大量数据，并且在这些任务中会遇到分布变化和累积误差。为了解决这些问题，我们提出了一种基于偏好学习和奖励引导的行动选择的数据高效通用学习框架（DeformPAM）。 DeformPAM 将长视野任务分解为多个动作原语，利用 3D 点云输入和扩散模型对动作分布进行建模，并使用人类偏好数据训练隐式奖励模型。在推理阶段，奖励模型对多个候选动作进行评分，选择最佳动作执行，从而减少异常动作的发生，提高任务完成质量。对三个具有挑战性的现实世界长视可变形物体操纵任务进行的实验证明了该方法的有效性。结果表明，即使数据有限，与基线方法相比，DeformPAM 也能提高任务完成质量和效率。代码和数据可在 https://deform-pam.robotflow.ai 上获取。

用于平衡多模态学习的动态调制

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 多媒体

作者： Yake Wei, Di Hu, Henghui Du, Ji-Rong Wen

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11582v1

摘要： 多模态学习有望通过整合来自不同模态的信息来提高模型性能。然而，它的潜力没有得到充分利用，因为广泛使用的联合训练策略对所有模式都有统一的目标，导致单模式表示不平衡和优化不足。具体来说，我们指出经常存在具有更多辨别信息的模态，例如踢足球的视觉和吹风的声音。它们可能会主导联合训练过程，导致其他模式明显优化不足。为了缓解这个问题，我们首先分析优化过程中前馈和反向传播阶段的欠优化现象。然后，提出了动态预测调制（OPM）和动态梯度调制（OGM）策略，通过监测训练期间模态之间的判别差异来调节每种模态的优化。具体而言，OPM 通过在前馈阶段丢弃其动态概率特征来削弱主导模态的影响，而 OGM 在反向传播阶段减轻其梯度。在实验中，我们的方法在各种多模式任务中表现出了相当大的改进。这些简单而有效的策略不仅提高了普通和面向任务的多模态模型的性能，而且还提高了更复杂的多模态任务的性能，展示了它们的有效性和灵活性。源代码可在 \url{https://github.com/GeWu-Lab/BML_TPAMI2024} 获取。

Y-Mol：用于药物开发的多尺度生物医学知识引导的大语言模型

分类： 人工智能, 计算和语言

作者： Tengfei Ma, Xuan Lin, Tianle Li, Chaoyi Li, Long Chen, Peng Zhou, Xibao Cai, Xinyu Yang, Daojian Zeng, Dongsheng Cao, Xiangxiang Zeng

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11550v1

摘要： 大型语言模型（LLM）最近在各个领域的一般任务中表现出了卓越的性能。然而，它们在药物开发等特定领域的有效性仍然面临挑战。为了解决这些挑战，我们引入了 \textbf{Y-Mol}，为药物开发流程形成了一个完善的大语言模型范式。 Y-Mol 是一门多尺度生物医学知识指导的大语言模型，旨在完成先导化合物发现、临床前和临床预测等任务。通过整合数百万个多尺度生物医学知识并使用 LLaMA2 作为基础 LLM，Y-Mol 通过从出版物、知识图谱和专家设计的合成数据中学习，增强了生物医学领域的推理能力。该功能进一步丰富了三种类型的面向药物的指令：来自已处理出版物的基于描述的提示、用于从知识图中提取关联的基于语义的提示以及用于从生物医学工具理解专家知识的基于模板的提示。此外，Y-Mol提供了一套LLM范式，可以自主执行药物开发整个过程中的下游任务，包括虚拟筛选、药物设计、药理特性预测和药物相关相互作用预测。我们对各种生物医学来源的广泛评估表明，Y-Mol 在发现先导化合物、预测分子特性和识别药物相互作用事件方面显着优于通用大语言模型。

针对大型语言模型的多轮越狱攻击

分类： 计算和语言, 人工智能

作者： Yihua Zhou, Xiaochuan Shi

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11533v1

摘要： 确保大型语言模型 (LLM) 的安全性以及与人类价值观的一致性对于产生有益于人类的响应至关重要。虽然大语言模型有能力识别和避免有害查询，但他们仍然容易受到“越狱”攻击，其中精心设计的提示可能会导致有毒内容的生成。传统的单轮越狱攻击，例如GCG、AutoDAN，不会改变危险提示中的敏感词。尽管他们可以通过即时工程暂时绕过模型的防护措施，但随着大语言模型的进一步微调，他们的成功率显着下降，并且他们无法有效规避基于静态规则的过滤器，以消除危险词汇。在本研究中，为了更好地理解越狱攻击，我们引入了多轮越狱方法。这种方法可以重写危险的提示，将其分解为一系列危害较小的子问题，以绕过LLM的安全检查。我们首先使用 LLM 执行分解任务，将一组自然语言问题分解为一系列渐进的子问题，然后使用这些子问题对 Llama3-8B 模型进行微调，使其能够分解危险提示。然后使用微调的模型来分解有问题的提示，并将生成的子问题依次询问受害者模型。如果受害者模型拒绝子问题，则会生成新的分解，并重复该过程直到实现最终目标。我们的实验结果显示 llama2-7B 的成功率为 94%，并证明了该方法在规避基于静态规则的过滤器方面的有效性。

AGENTiGraph：基于 LLM 的聊天机器人利用私有数据的交互式知识图平台

分类： 人工智能

作者： Xinjie Zhao, Moritz Blum, Rui Yang, Boming Yang, Luis Márquez Carpintero, Mónica Pina-Navarro, Tony Wang, Xin Li, Huitao Li, Yanran Fu, Rongrong Wang, Juntao Zhang, Irene Li

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11531v1

摘要： 大型语言模型（LLM）已经在各种应用程序中展示了能力，但面临着幻觉、推理能力有限和事实不一致等挑战，特别是在处理复杂的、特定领域的任务（例如问答（QA））时。虽然知识图谱（KG）已被证明有助于缓解这些问题，但关于大语言模型与背景知识图谱整合的研究仍然有限。特别是用户的可访问性和底层KG的灵活性还没有得到彻底的探索。我们介绍 AGENTiGraph（用于基于任务的交互和图形表示的自适应生成引擎），这是一个通过自然语言交互进行知识管理的平台。它集成了知识提取、集成和实时可视化。 AGENTiGraph 采用多代理架构来动态解释用户意图、管理任务并集成新知识，确保适应不断变化的用户需求和数据上下文。我们的方法展示了知识图交互方面的卓越性能，特别是对于复杂的特定领域任务。在包含 3,500 个测试用例的数据集上进行的实验结果表明，AGENTiGraph 的性能显着优于最先进的零样本基线，任务分类准确率达到 95.12%，任务执行成功率达到 90.45%。用户研究证实了其在现实场景中的有效性。为了展示多功能性，我们将 AGENTiGraph 扩展到立法和医疗保健领域，构建能够回答法律和医疗环境中复杂查询的专门知识图谱。

重新审视基准和评估：基于代理的大语言模型探索性动态评估框架

分类： 人工智能, 计算和语言

作者： Wanying Wang, Zeyu Ma, Pengfei Liu, Mingang Chen

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11507v1

摘要： 尽管已经开发了各种垂直领域大语言模型（LLM），但自动评估其跨不同领域的性能的挑战在满足现实世界的用户需求方面仍然是巨大的。当前基于基准的评估方法表现出僵化、无目的的交互，并依赖于预先收集的静态数据集，这些数据集的构建成本高昂、跨领域不灵活，并且与实际用户需求不相符。为了解决这个问题，我们重新审视评估组件并引入两个定义： Benchmark+，它将传统的 QA 基准扩展为更灵活的“策略-标准”格式； 评估+，它增强了交互过程以进行更大的探索，并实现定量指标和定性洞察，从更丰富的多轮交互中捕获细致入微的目标LLM行为。我们提出了一个名为 TestAgent 的基于代理的评估框架，它通过检索增强生成和强化学习来实现这两个概念。从从头开始构建垂直领域评估到激活现有基准测试等任务的实验证明了 TestAgent 在各种场景中的有效性。我们相信这项工作为大语言模型的自动评估提供了一个有趣的视角。

通过学习排名进行基于离线模型的优化

分类： 机器学习, 人工智能, 神经和进化计算

作者： Rong-Xi Tan, Ke Xue, Shen-Huan Lyu, Haopu Shang, Yao Wang, Yaoyuan Wang, Sheng Fu, Chao Qian

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11502v1

摘要： 基于离线模型的优化 (MBO) 旨在仅使用固定的、预先收集的设计数据集及其相应的分数来识别最大化黑盒函数的设计。离线 MBO 中的常见方法是通过最小化均方误差 (MSE) 来训练基于回归的代理模型，然后通过不同的优化器（例如梯度上升）在该代理模型中找到最佳设计。然而，一个关键的挑战是分布错误的风险，即代理模型通常可能高估分数并误导优化器进入次优区域。先前的工作尝试以各种方式解决这个问题，例如使用正则化技术和集成学习来增强模型的鲁棒性，但它仍然存在。在本文中，我们认为用 MSE 训练的回归模型与离线 MBO 的主要目标并不一致，即选择有前途的设计而不是精确预测其分数。值得注意的是，如果代理模型可以根据候选设计的相对得分关系来维持候选设计的顺序，即使没有精确的预测，它也可以产生最佳的设计。为了验证这一点，我们进行了实验来比较最终设计的质量和 MSE 之间的关系，发现这种相关性确实非常弱。相比之下，衡量订单维护质量的指标显示出明显更强的相关性。基于这一观察，我们建议学习一种基于排名的模型，该模型利用学习排名技术，根据相对分数对有前景的设计进行优先级排序。我们证明了排名损失的泛化误差是有界限的。不同任务的实证结果表明，我们提出的基于排名的模型比二十种现有方法具有优越的性能。

BSM：小而强大的基因和蛋白质生物序列模型

分类： 基因组学, 人工智能, 机器学习

作者： Weixi Xiang, Xueting Han, Xiujuan Chai, Jing Bai

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11499v1

摘要： DNA、RNA 和蛋白质等生物序列建模对于理解基因调控和蛋白质合成等复杂过程至关重要。然而，当前的大多数模型要么专注于单一类型，要么单独处理多种类型的数据，限制了它们捕获跨模式关系的能力。我们建议通过学习这些模式之间的关系，模型可以增强对每种类型的理解。为了解决这个问题，我们引入了 BSM，这是一种小型但功能强大的混合模式生物序列基础模型，它基于三种类型的数据进行训练：RefSeq、基因相关序列和来自网络的交错生物序列。这些数据集分别捕获遗传流、基因-蛋白质关系以及不同生物数据的自然共现。通过对混合模态数据进行训练，BSM 显着提高了学习效率和跨模态表示，优于仅在单模态数据上训练的模型。 BSM 仅具有 1.1 亿个参数，在单模态和混合模态任务中的性能可与更大的模型相媲美，并且独特地展示了混合模态任务的上下文学习能力，这在现有模型中是不存在的。进一步扩展到 270M 参数显示出更大的性能增益，凸显了 BSM 作为多模式生物序列建模的重大进步的潜力。

DynamicER：解决 RAG 动态实体的新提及

分类： 计算和语言, 人工智能

作者： Jinyoung Kim, Dayoon Ko, Gunhee Kim

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11494v1

摘要： 在快速发展的语言环境中，在不断更新的知识库中解决新的语言表达仍然是一项艰巨的挑战。这一挑战在具有知识库的检索增强生成（RAG）中变得至关重要，因为新兴表达阻碍了相关文档的检索，导致生成器幻觉。为了解决这个问题，我们引入了一项新任务，旨在解决对动态实体的新兴提及，并提出 DynamicER 基准。我们的基准包括动态实体提及解析和以实体为中心的知识密集型 QA 任务，分别评估实体链接和 RAG 模型对新表达的适应性。我们发现当前的实体链接模型很难将这些新表达式链接到实体。因此，我们提出了一种持续适应的时间分段聚类方法，有效管理不断演变的实体和新兴提及的时间动态。大量实验表明，我们的方法优于现有基线，通过解决提及问题，增强了 RAG 模型在 QA 任务上的性能。

迈向社交网络中的公平图表示学习

分类： 社交和信息网络, 人工智能, 机器学习

作者： Guixian Zhang, Guan Yuan, Debo Cheng, Lin Liu, Jiuyong Li, Shichao Zhang

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11493v1

摘要： 随着图神经网络（GNN）在网络数据表示学习中的广泛使用，GNN 模型的公平性最近引起了人们的广泛关注。公平 GNN 旨在确保节点表示能够被准确分类，但不容易与特定组关联。现有的先进方法本质上是结合数据增强策略来增强节点表示的泛化能力，并且不会直接对 GNN 的公平性施加约束。在这项工作中，我们发现 GNN 在社交网络学习中不公平的根本原因是社交同质现象，即同一群体中的用户更倾向于聚集。 GNN 的消息传递机制可能会导致同一组中的用户由于社交同质性而具有相似的表示，从而导致模型预测与敏感属性建立虚假相关性。受此启发，我们提出了一种名为 Equity-Aware GNN (EAGNN) 的方法，以实现公平的图表示学习。具体来说，为了确保模型预测独立于敏感属性，同时保持预测性能，我们基于三个原则引入公平表示学习的约束：充分性、独立性和分离性。我们从理论上证明了我们的 EAGNN 方法可以有效地实现群体公平。对具有不同社会同质性水平的三个数据集进行的广泛实验表明，我们的 EAGNN 方法在两个公平性指标上实现了最先进的性能，并提供了竞争有效性。

NavTopo：利用拓扑图进行移动机器人的自主导航

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, I.2.9; I.2.10

作者： Kirill Muravyev, Konstantin Yakovlev

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11492v1

摘要： 移动机器人的自主导航是一项具有挑战性的任务，需要绘图、定位、路径规划和路径跟踪的能力。传统的建图方法会构建像占用网格一样的密集度量地图，该地图会受到里程计误差累积的影响，并在大型环境中消耗大量内存和计算量。另一种映射方法是使用拓扑属性，例如环境中位置的邻近性。拓扑图不易出现里程计误差累积和高资源消耗，并且由于图的稀疏性，还可以实现快速路径规划。基于这个想法，我们提出了NavTopo——基于拓扑图和两级路径规划的完整导航管道。该管道通过匹配神经网络描述符和输入点云的二维投影来在图中进行定位，与基于度量和拓扑点云的方法相比，这显着减少了内存消耗。我们在大型室内照片真实模拟环境中测试我们的方法，并将其与基于流行度量映射方法 RTAB-MAP 的基于度量映射的方法进行比较。实验结果表明，我们的拓扑方法在性能方面明显优于度量方法，并保持了适当的导航效率。

CoActionGraphRec：使用共同操作图的顺序多兴趣推荐

分类： 信息检索, 人工智能, 机器学习

作者： Yi Sun, Yuri M. Brovman

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11464v1

摘要： 由于数据稀疏和用户兴趣多样化，为 eBay 等电子商务平台开发商品推荐系统面临着独特的挑战。虽然丰富的用户-商品交互很重要，但 eBay 的数据稀疏性比其他电子商务网站高出一个数量级。为了应对这一挑战，我们提出了 CoActionGraphRec (CAGR)，这是一种利用协作图层的基于文本的两塔深度学习模型（项目塔和用户塔）。为了增强用户和商品的表示，使用了针对 eBay 环境量身定制的基于图形的解决方案。对于项目塔，我们使用其协同动作项目来表示每个项目，以捕获协同动作图中的协作信号，该信号由图神经网络组件充分利用。对于用户塔，我们构建了每个用户行为序列的完全连接图，其中边编码成对关系。此外，显式交互模块学习捕获行为交互的表示。广泛的离线和在线 A/B 测试实验证明了我们提出的方法的有效性，结果表明在关键指标上比最先进的方法有更好的性能。

使用深度强化学习的高级持续威胁 (APT) 归因

分类： 密码学和安全, 人工智能, 机器学习

作者： Animesh Singh Basnet, Mohamed Chahine Ghanem, Dipo Dunsin, Wiktor Sowinski-Mydlarz

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11463v1

摘要： 本文研究了深度强化学习 (DRL) 的应用，通过详细的行为分析将恶意软件归因于特定的高级持续威胁 (APT) 组。通过分析来自 12 个不同 APT 组的 3500 多个恶意软件样本，该研究利用 Cuckoo Sandbox 等复杂工具来提取行为数据，从而深入了解恶意软件的操作模式。研究表明，DRL 模型显着优于 SGD、SVC、KNN、MLP 和决策树分类器等传统机器学习方法，测试准确率高达 89.27%。它强调了模型能够熟练管理复杂、可变和难以捉摸的恶意软件属性的能力。此外，本文还讨论了在网络安全框架中部署这些先进人工智能模型所需的大量计算资源和广泛的数据依赖性。未来的研究旨在提高 DRL 模型的效率、扩大数据集的多样性、解决伦理问题以及利用大型语言模型 (LLM) 完善奖励机制并优化 DRL 框架。通过展示 DRL 在恶意软件归因方面的变革潜力，本研究倡导采用负责任且平衡的方法进行 AI 集成，目标是通过更具适应性、更准确和更强大的系统来推进网络安全。

LR-SQL：低资源场景下Text2SQL任务的有监督微调方法

分类： 数据库, 人工智能, 计算和语言, 信息检索

作者： Wen Wuzhenghong, Zhang Yongpan, Pan Su, Sun Yuwei, Lu Pengwei, Ding Cheng

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11457v1

摘要： 大型语言模型通过监督微调彻底改变了 Text2SQL，但忽视了一个关键的限制：数据库的复杂性导致上下文长度增加，从而导致模型微调对 GPU 内存的需求更高。为了解决这个问题，我们提出了LR-SQL。 LR-SQL 包含两个监督微调模型：schema_link 模型和 SQL_ Generation 模型，其中 schema_link 模型是简化整个流程的焦点。在schema_link模型的微调过程中，LR-SQL将整个数据库分解为数量可调的灵活表组合，使模型能够从这些分散的切片中学习整个数据库内部的关系。此外，为了增强模型在推理过程中感知各个离散切片之间关系的能力，LR-SQL 训练了模型针对此任务的 Chain-of-Thought 能力。实验结果表明，与现有的微调方法相比，LR-SQL 可以减少总 GPU 内存使用量 40%，而在 schema_link 任务中仅损失 2% 的表预测精度。对于整个 Text2SQL 任务，执行精度降低了 0.6%。我们的项目现已在 https://github.com/hongWin/LR-SQL 上提供

关于支持基础模型：从可解释性到可解释性

分类： 机器学习, 人工智能, 机器学习

作者： Shi Fu, Yuzhu Chen, Yingjie Wang, Dacheng Tao

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11444v1

摘要： 了解黑盒基础模型（FM）的内部机制对于人工智能及其应用至关重要，但也具有挑战性。在过去的十年中，长期关注的焦点一直放在它们的可解释性上，导致了事后可解释方法的发展，以使黑盒 FM 已经做出的具体决策合理化。然而，这些可解释的方法在忠实度、细节捕捉和资源需求方面存在一定的局限性。因此，针对这些问题，应该考虑一类新的可解释方法，以准确、全面、启发式和轻资源的方式揭示潜在机制。本次调查旨在审查符合上述原则并已成功应用于 FM 的可解释方法。这些方法深深植根于机器学习理论，涵盖泛化性能、表达能力和动态行为的分析。它们对 FM 的整个工作流程进行了彻底的解释，从推理能力和训练动态到其道德影响。最终，根据这些解释，本综述确定了 FM 的下一个前沿研究方向。

困难的任务是，但简单的任务不是：揭示多模式大语言模型的懒惰

分类： 计算和语言, 人工智能

作者： Sihang Zhao, Youliang Yuan, Xiaoying Tang, Pinjia He

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11437v1

摘要： 多模态大型语言模型 (MLLM) 表现出对现实世界的深刻理解，甚至可以处理复杂的任务。然而，他们在一些简单的视觉问答（VQA）问题上仍然失败。本文深入探讨了这个问题，揭示了模型在回答有关图像的简单问题（例如是/否问题）时往往会出错，即使它们可以正确地描述它。我们将困难问题和简单问题之间的模型行为差异称为模型惰性。为了系统地研究模型惰性，我们手动构建了 LazyBench，这是一个基准，其中包括是/否、多项选择、简答题以及与图像中相同主题相关的图像描述任务。基于LazyBench，我们观察到当前先进的MLLM（例如GPT-4o、Gemini-1.5-pro、Claude 3和LLaVA-v1.5-13B）中普遍存在惰性，并且在更强的模型上更为明显。我们还分析了VQA v2（LLaVA-v1.5-13B）基准，发现其大约一半的失败案例是由模型惰性引起的，这进一步凸显了确保模型充分利用其能力的重要性。为此，我们对如何缓解懒惰进行了初步探索，发现思想链（CoT）可以有效解决这一问题。

CTA-Net：用于改进多尺度特征提取的 CNN-Transformer 聚合网络

分类： 计算机视觉和模式识别, 人工智能

作者： Chunlei Meng, Jiacheng Yang, Wei Lin, Bowen Liu, Hongda Zhang, chun ouyang, Zhongxue Gan

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11428v1

摘要： 卷积神经网络 (CNN) 和视觉变换器 (ViT) 已成为计算机视觉中局部和全局特征提取的关键。然而，在现有方法中聚合这些架构通常会导致效率低下。为了解决这个问题，开发了 CNN-Transformer 聚合网络 (CTA-Net)。 CTA-Net 结合了 CNN 和 ViT，变压器捕获远程依赖关系，CNN 提取局部特征。这种集成可以有效地处理详细的本地和更广泛的上下文信息。 CTA-Net 引入了轻量级多尺度特征融合多头自注意力 (LMF-MHSA) 模块，可通过减少参数实现有效的多尺度特征集成。此外，反向重建 CNN 变体 (RRCV) 模块增强了 CNN 在 Transformer 架构中的嵌入。在少于 100,000 个样本的小规模数据集上进行的大量实验表明，CTA-Net 实现了优越的性能（TOP-1 Acc 86.76%）、更少的参数（20.32M）和更高的效率（FLOPs 2.83B），使其成为高度针对小规模数据集（小于 100,000）的视觉任务的高效且轻量级的解决方案。

PMMT：通过 LLM Distillation 进行多语言机器翻译的偏好调整

分类： 计算和语言, 人工智能

作者： Shuqiao Sun, Yutong Yao, Peiwen Wu, Feijun Jiang, Kaifu Zhang

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11410v1

摘要： 翻译对于跨语言交流非常重要，人们已经做出了许多努力来提高其准确性。然而，在使翻译与人类偏好（例如翻译语气或风格）保持一致方面进行的投资较少。本文提出了一种新方法，使用大型语言模型（LLM）有效生成具有特定翻译偏好的大规模多语言并行语料库。同时，自动管道旨在将人类偏好提炼为更小的机器翻译（MT）模型，以高效、经济地支持在线服务中的大规模呼叫。实验表明，所提出的方法在翻译任务中处于领先地位，并且大大符合人类偏好。同时，在 WMT 和 Flores 等流行的公共基准上（我们的模型未在这些基准上进行训练），与 SOTA 作品相比，所提出的方法也显示出有竞争力的性能。

人工智能意识案例：语言代理和全局工作空间理论

分类： 人工智能, 神经元和认知

作者： Simon Goldstein, Cameron Domenico Kirk-Giannini

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11407v1

摘要： 人们普遍认为现有的人工系统没有现象意识，并且如果可能的话，构建现象意识的人工系统将需要重大的技术进步。我们挑战这一假设，认为如果全球工作空间理论（GWT）——一种领先的现象意识科学理论——是正确的，那么一个广泛实施的人工智能架构的实例，即人工语言代理，如果它们不具有现象意识，那么它们可能很容易变得具有现象意识。已经。在此过程中，我们阐明了一种明确的方法来思考如何将科学的意识理论应用于人工系统，并利用这种方法根据 GWT 得出现象意识的一组必要和充分的条件。

通过迭代摊销推理增强多模态 VAE 中的单模态潜在表示

分类： 机器学习, 人工智能

作者： Yuta Oshima, Masahiro Suzuki, Yutaka Matsuo

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11403v1

摘要： 多模态变分自动编码器（VAE）旨在通过集成来自不同数据模态的信息来捕获共享的潜在表示。一个重大挑战是从任何模态子集准确推断表示，而无需为所有可能的模态组合训练不切实际的数量 (2^M) 的推理网络。基于混合的模型简化了这一过程，只需要与模态一样多的推理模型，聚合单峰推理。然而，当模式缺失时，他们就会遭受信息丢失的困扰。基于对齐的 VAE 通过最小化 Kullback-Leibler (KL) 散度，将单模态推理模型与多模态模型对齐来解决此问题，但面临因摊销缺口而导致的问题，从而影响推理准确性。为了解决这些问题，我们引入了多模态迭代摊销推理，这是多模态 VAE 框架内的一种迭代细化机制。该方法克服了缺失模态造成的信息丢失，并通过使用所有可用模态迭代地改进多模态推理来最小化摊销差距。通过将单模态推理与这种精炼的多模态后验对齐，我们实现了单模态推理，有效地合并多模态信息，同时在推理过程中仅需要单模态输入。对基准数据集的实验表明，我们的方法提高了推理性能（表现为更高的线性分类精度和竞争性余弦相似性），并增强了跨模式生成（表现为较低的 FID 分数）。这表明我们的方法增强了单峰输入的推断表示。

趋于真理

分类： 其他统计数据, 人工智能, 机器学习

作者： Hanti Lin

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11399v1

摘要： 本文回顾并发展了科学哲学中的一种认识论传统，称为趋同主义，它认为推理方法应该根据其趋于真理的能力来评估。这一传统与三个相互竞争的传统进行了比较：（1）解释主义，它认为理论选择应该以理论的解释性优点的总体平衡为指导，例如简单性和与数据的契合度；（2）工具主义，根据该主义，科学推理应该以获得有用的模型为目标，而不是真正的理论； (3)贝叶斯主义，其特点是从“全有或全无”信念转向信念程度。

使用自注意力网络实现定性逻辑程序的推导

分类： 人工智能

作者： Phan Thi Thanh Thuy, Akihiro Yamamoto

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11396v1

摘要： 在本文中，我们提出可以通过自注意力网络来实现逻辑推理的受限版本。我们的目标是证明用 Transformer 网络构建的 LLM（大型语言模型）可以做出逻辑推理。我们将通过分析作为变压器网络主要组成部分的自注意力网络来揭示大语言模型的潜力。我们的方法不是基于自然语言的语义，而是基于逻辑推理操作。％观点看法。我们证明，具有前馈网络（FFN）的自注意力网络的层次结构可以实现一类逻辑公式的自上而下的推导。我们还展示了同一类也实现了自下而上的推导。我们相信，我们的结果表明大语言模型隐含着逻辑推理的能力。

综合对话者。用生成人工智能来延长民族志接触的实验

分类： 人机交互, 人工智能

作者： Johan Irving Søltoft, Laura Kocksch, Anders Kristian Munk

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11395v1

摘要： 本文介绍了民族志研究的“综合对话者”。合成对话者是通过使用检索增强生成 (RAG) 摄取人种学文本材料（访谈和观察）的聊天机器人。我们将开源大语言模型与来自三个项目的民族志数据相结合，以探讨两个问题：RAG 能否消化民族志材料并充当民族志对话者？如果是这样，综合对话者能否延长与该领域的接触并扩展我们的分析？通过对构建我们的综合对话者和实验性协作研讨会的过程的反思，我们建议 RAG 可以消化民族志材料，并且它可能会导致长期但令人不安的民族志遭遇，使我们能够部分地重新创建和重新访问实地工作互动，同时促进获得新颖分析见解的机会。合成对话者可以产生协作、模糊和偶然的时刻。

延迟在大脑动态中的作用

分类： 生物物理学, 人工智能

作者： Yuval Meir, Ofek Tevet, Yarden Tzach, Shiri Hodassman, Ido Kanter

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11384v1

摘要： 与同步深度学习相比，连接神经元之间延迟的显着变化导致异步大脑动力学不可避免的缺点。然而，这项研究表明，可以使用具有单个输出和连续层之间的 M 个延迟的网络将这一缺点转化为计算优势，从而生成具有 M 的多项式时间序列输出。延迟在大脑动力学中的拟议作用（ RoDiB）模型能够使用固定架构学习越来越多的分类标签，并克服大脑使用额外神经元和连接更新学习架构的不灵活性。此外，RoDiB 系统可实现的精度与其对应的具有 M 输出的可调单延迟架构相当。此外，当输出标签的数量超过其完全连接的输入大小时，准确性会显着提高。结果主要是使用 CIFAR 数据集上的 VGG-6 模拟获得的，并且还包括多个标签输入。然而，目前仅利用了大量 RoDiB 输出的一小部分，这表明其高级计算能力的潜力尚未被发现。

WPFed：基于网络的去中心化系统个性化联盟

分类： 机器学习, 人工智能, 分布式、并行和集群计算

作者： Guanhua Ye, Jifeng He, Weiqing Wang, Zhe Xue, Feifei Kou, Yawen Li

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11378v1

摘要： 在数据隐私和信任至关重要的环境中，去中心化学习对于协作模型训练至关重要。在基于 Web 的应用程序中，客户端从传统的固定网络拓扑中解放出来，从而能够建立任意的点对点 (P2P) 连接。虽然这种灵活性非常有前途，但它带来了一个根本性的挑战：最佳选择邻居以确保有效的协作。为了解决这个问题，我们引入了 WPFed，这是一个完全去中心化的、基于网络的学习框架，旨在实现全局最优邻居选择。 WPFed 采用动态通信图和加权邻居选择机制。通过局部敏感哈希 (LSH) 评估客户端之间的相似性并根据同行排名评估模型质量，WPFed 使客户能够在全球范围内识别个性化的最佳邻居，同时保护数据隐私。为了增强安全性并阻止恶意行为，WPFed 集成了 LSH 代码和性能排名的验证机制，利用区块链驱动的公告来确保透明度和可验证性。通过对多个真实世界数据集的广泛实验，我们证明与传统的联邦学习方法相比，WPFed 显着提高了学习成果和系统稳健性。我们的研究结果凸显了 WPFed 在促进跨多样化和互连网络环境的有效且安全的去中心化协作学习方面的潜力。

用于平衡文本引导图像编辑中的保存和修改的增强驱动指标

分类： 计算机视觉和模式识别, 人工智能

作者： Yoonjeon Kim, Soohyun Ryu, Yeonsung Jung, Hyunkoo Lee, Joowon Kim, June Yong Yang, Jaeryong Hwang, Eunho Yang

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11374v1

摘要： 视觉语言和生成模型的发展显着推进了文本引导图像编辑，它寻求源图像中核心元素的\textit{保留}，同时根据目标文本实现\textit{修改}。然而，由于缺乏专门为文本引导图像编辑量身定制的评估指标，现有指标在平衡保存和修改的考虑方面受到限制。特别是，我们的分析表明，最常用的指标 CLIPScore 往往倾向于修改而忽略要保留的核心属性，从而导致评估不准确。为了解决这个问题，我们提出 \texttt{AugCLIP}, \black{通过估计与目标文本对齐的理想编辑图像的表示来平衡保存和修改，并对源图像进行最小的更改。我们使用多模态大语言模型增强源图像和目标文本的详细文本描述，以建模将 CLIP 空间分为源或目标的超平面。理想的编辑图像的表示是源图像到超平面的正交投影，考虑到相互依赖的关系，它封装了每个属性的相对重要性。}我们对五个基准数据集进行了广泛的实验，涵盖了各种编辑场景，证明了与现有指标相比，\texttt{AugCLIP} 与人类评估标准非常吻合。评估代码将开源以贡献给社区。

通过半监督学习降低情感分析中的标签成本

分类： 机器学习, 人工智能, 计算和语言, 信息检索, 68T50, 68T07, I.2.6; I.2.7; H.3.3

作者： Minoo Jafarlou, Mario M. Kubek

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11355v1

摘要： 无论是在成本还是时间方面，标记数据集都是机器学习中一个值得注意的挑战。然而，这项研究利用了一个有效的答案。通过探索半监督学习中的标签传播，与传统方法相比，我们可以显着减少所需的标签数量。我们采用基于文本分类流形假设的转导标签传播方法。我们的方法利用基于图的方法为文本分类任务的未标记数据生成伪标签，然后将其用于训练深度神经网络。通过基于网络嵌入的最近邻图中的余弦邻近度扩展标签，我们将未标记的数据合并到监督学习中，从而降低了标记成本。基于之前在其他领域取得的成功，本研究构建并评估了这种方法在情感分析中的有效性，提出了对半监督学习的见解。

RATE：对不完美重写的奖励模型进行评分

分类： 计算和语言, 人工智能

作者： David Reber, Sean Richardson, Todd Nief, Cristina Garbacea, Victor Veitch

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11348v1

摘要： 本文涉及语言建模中使用的奖励模型的评估。奖励模型是一种函数，它接受提示和响应，并分配一个分数来指示响应对于提示的好坏程度。一个关键的挑战是奖励模型通常不能完美地代表实际偏好。例如，我们可能担心，经过训练以奖励乐于助人的模型会学会更喜欢更长的响应。在本文中，我们开发了一种评估方法，RATE（基于重写的属性处理估计器），它允许我们测量响应的给定属性（例如长度）对分配给该响应的奖励的因果影响。核心思想是使用大型语言模型重写响应以产生不完美的反事实，并通过重写两次来调整重写错误。我们证明了 RATE 估计量在合理的假设下是一致的。我们证明了 RATE 在合成数据和真实数据上的有效性，表明它可以准确估计给定属性对奖励模型的影响。

DIAR：扩散模型引导的隐式 Q 学习与自适应重估

分类： 机器学习, 人工智能, 机器人技术

作者： Jaehyun Park, Yunho Kim, Sejin Kim, Byung-Jun Lee, Sundong Kim

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11338v1

摘要： 我们提出了一种新颖的离线强化学习（离线 RL）方法，引入了具有自适应重估（DIAR）框架的扩散模型引导的隐式 Q 学习。我们解决了离线强化学习中的两个关键挑战：分布外样本和长期问题。我们利用扩散模型来学习状态-动作序列分布，并结合价值函数以实现更加平衡和自适应的决策。 DIAR 引入了自适应重估机制，通过比较当前和未来的状态值来动态调整决策长度，从而实现灵活的长期决策。此外，我们通过将 Q 网络学习与扩散模型引导的价值函数相结合来解决 Q 值高估问题。扩散模型产生不同的潜在轨迹，增强政策的稳健性和泛化性。正如 Maze2D、AntMaze 和 Kitchen 等任务所证明的那样，DIAR 在长视野、稀疏奖励环境中始终优于最先进的算法。

时尚推荐的连续大语言模型框架

分类： 信息检索, 人工智能, 计算和语言, 机器学习

作者： Han Liu, Xianfeng Tang, Tianlang Chen, Jiapeng Liu, Indu Indu, Henry Peng Zou, Peng Dai, Roberto Fernandez Galan, Michael D Porter, Dongmei Jia, Ning Zhang, Lian Xiong

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11327v1

摘要： 时尚行业是全球电子商务领域的领先领域之一，促使主要在线零售商采用推荐系统来提供产品建议和便利客户。虽然推荐系统已被广泛研究，但大多数都是针对一般电子商务问题而设计的，并努力应对时尚领域的独特挑战。为了解决这些问题，我们提出了一个顺序时尚推荐框架，该框架利用预先训练的大语言模型（LLM），并通过特定于推荐的提示进行增强。我们的框架利用大量时尚数据进行参数高效的微调，并引入了一种新颖的基于混合的检索技术，用于将文本翻译成相关的产品建议。大量实验表明，我们提出的框架显着提高了时尚推荐性能。

推测性知识蒸馏：通过交错采样弥合师生差距

分类： 计算和语言, 人工智能

作者： Wenda Xu, Rujun Han, Zifeng Wang, Long T. Le, Dhruv Madeka, Lei Li, William Yang Wang, Rishabh Agarwal, Chen-Yu Lee, Tomas Pfister

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11325v1

摘要： 知识蒸馏（KD）的最新进展使较小的学生模型能够接近较大教师模型的性能。然而，监督 KD 和同策略 KD 等流行方法在实际场景中受到师生之间知识差距的不利影响。监督 KD 存在静态数据集训练与最终学生生成输出的推理之间分布不匹配的问题。相反，使用学生生成的样本进行训练的同策略 KD 可能会遇到教师模型不熟悉的低质量训练示例，从而导致教师反馈不准确。为了解决这些限制，我们引入了推测性知识蒸馏（SKD），这是一种新颖的方法，它利用学生和教师模型之间的合作来动态生成高质量的训练数据，同时与学生的推理时间分布保持一致。在SKD中，学生提出代币，老师根据自己的分布替换排名较差的代币，自适应地传递高质量的知识。我们在各种文本生成任务上评估 SKD，包括翻译、摘要、数学和指令跟踪，并表明 SKD 在不同领域、数据大小和模型初始化策略上始终优于现有的 KD 方法。

基于扩散的离线 RL 用于改进增强 ARC 任务中的决策

分类： 人工智能, 计算机视觉和模式识别, 机器学习

作者： Yunho Kim, Jaehyun Park, Heejun Kim, Sejin Kim, Byung-Jun Lee, Sundong Kim

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11324v1

摘要： 有效的长期策略使人工智能系统能够通过在更广泛的范围内做出连续决策来应对复杂的环境。类似地，强化学习（RL）代理可以跨序列优化决策，以最大化奖励，即使没有立即反馈。为了验证潜在扩散约束 Q 学习（LDCQ）（一种著名的基于扩散的离线强化学习方法）在多步决策中表现出强大的推理能力，我们旨在评估其在抽象与推理语料库（ARC）上的性能。然而，由于 ARC 训练集中缺乏足够的经验数据，应用离线 RL 方法来增强 AI 中的策略推理以解决 ARC 中的任务具有挑战性。为了解决这个限制，我们引入了 ARC 的增强离线 RL 数据集，称为用于抽象和推理的综合离线学习数据 (SOLAR)，以及 SOLAR 生成器，它根据预定义的规则生成不同的轨迹数据。 SOLAR通过提供足够的经验数据，使得离线强化学习方法的应用成为可能。我们为一个简单的任务合成了 SOLAR，并用它来通过 LDCQ 方法训练代理。我们的实验证明了离线 RL 方法在简单 ARC 任务上的有效性，显示了智能体做出多步骤顺序决策并正确识别答案状态的能力。这些结果凸显了离线强化学习方法在增强人工智能战略推理能力方面的潜力。

迈向可微的多级优化：基于梯度的方法

分类： 机器学习, 人工智能

作者： Yuntian Gu, Xuzheng Chen

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11312v1

摘要： 多级优化因其在超参数调整和持续学习等应用中的前景而重新引起了机器学习的兴趣。然而，现有的方法面临着有效处理嵌套结构的固有困难。本文介绍了一种新颖的基于梯度的多级优化方法，该方法通过利用全梯度的分层结构分解并采用先进的传播技术来克服这些限制。扩展到n级场景，我们的方法显着降低了计算复杂度，同时提高了求解精度和收敛速度。我们通过数值实验证明了我们方法的有效性，并将其与多个基准的现有方法进行比较。结果表明，求解精度显着提高。据我们所知，这是最早提供隐式微分通用版本的算法之一，具有理论保证和卓越的经验性能。

QSpec：使用互补量化方案的推测解码

分类： 机器学习, 人工智能

作者： Juntao Zhao, Wenhao Lu, Sheng Wang, Lingpeng Kong, Chuan Wu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11305v1

摘要： 量化已被广泛采用来加速推理并减少大型语言模型（LLM）的内存消耗。虽然激活权重联合量化通过低精度内核加速了推理过程，但我们证明它在多步骤推理任务上会遭受严重的性能下降，从而使其无效。我们提出了一种称为 QSPEC 的新颖量化范例，它无缝集成了两种互补的量化方案以进行推测解码。利用几乎无成本的执行切换，QSPEC 起草具有低精度、快速激活权重量化的令牌，并通过高精度仅权重量化对其进行验证，有效地结合了两种量化方案的优势。与高精度量化方法相比，QSPEC 根据经验将令牌生成吞吐量提高了高达 1.80 倍，而没有任何质量妥协，这与其他低精度量化方法不同。这种增强在各种服务任务、模型大小、量化方法和批量大小中也是一致的。与现有的推测解码技术不同，我们的方法重用权重和 KV 缓存，避免额外的内存开销。此外，QSPEC 具有即插即用的优势，无需任何培训。我们相信，QSPEC 展示了未来部署高保真量化方案的独特优势，特别是在内存受限的场景（例如边缘设备）中。

用于特定任务模型微调的数据选择

分类： 机器学习, 人工智能, 计算和语言, 68T50, 68T01, I.2.6; I.2.7

作者： Zifan Liu, Amin Karbasi, Theodoros Rekatsinas

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11303v1

摘要： 针对特定任务微调基础模型是现代机器学习中的新兴范例。针对特定任务的微调的效果很大程度上取决于适当训练数据的选择。我们提出了一个框架，用于选择数据进行特定于任务的模型微调，以目标任务中一小部分但具有代表性的示例为指导。为此，我们将用于特定于任务的微调的数据选择制定为一个优化问题，其分布对齐损失基于最佳传输，以捕获所选数据与目标分布之间的差异。此外，我们添加了一个正则化器来鼓励所选数据的多样性，并将核密度估计合并到正则化器中，以减少候选数据之间接近重复的负面影响。我们将优化问题与最近邻搜索联系起来，并设计有效的算法来基于近似最近邻搜索技术计算最优解。我们评估了我们的语言模型持续预训练和指令调整的数据选择方法。我们表明，使用我们的方法以 1% 选择率选择的数据进行指令调优通常优于使用完整数据集，并且在 F1 分数上平均比基线选择方法高 1.5 分。

VLM 失去信心了吗？ VLM中阿谀奉承的研究

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者： Shuo Li, Tao Ji, Xiaoran Fan, Linsheng Lu, Leyi Yang, Yuming Yang, Zhiheng Xi, Rui Zheng, Yuran Wang, Xiaohui Zhao, Tao Gui, Qi Zhang, Xuanjing Huang

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11302v1

摘要： 在大语言模型的研究中，阿谀奉承代表了一种普遍的幻觉，对这些模型提出了重大挑战。具体来说，大语言模型常常无法坚持最初的正确答案，而是盲目地同意用户的意见，即使这些意见是不正确的或恶意的。然而，关于视觉语言模型（VLM）中阿谀奉承的研究却很少。在这项工作中，我们将对阿谀奉承的探索从LLM延伸到VLM，引入MM-SY基准来评估这种现象。我们提出了多个代表性模型的评估结果，弥补了 VLM 的阿谀奉承研究的空白。为了减少阿谀奉承，我们提出了一个用于训练的合成数据集，并采用基于提示、监督微调和 DPO 的方法。我们的实验表明，这些方法有效地减轻了 VLM 中的阿谀奉承。此外，我们还探索 VLM 以评估阿谀奉承的语义影响并分析视觉标记的注意力分布。我们的研究结果表明，防止阿谀奉承的能力主要在模型的较高层中观察到。在这些较高层中缺乏对图像知识的关注可能会导致阿谀奉承，而增强高层的图像关注被证明有助于缓解这一问题。

内存计算交叉开关上节能非结构化稀疏 DNN 的排序权重分段

分类： 硬件架构, 人工智能, 新兴技术, 机器学习

作者： Matheus Farias, H. T. Kung

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11298v1

摘要： 我们引入$\textit{排序权重分段}$（SWS）：一种权重分配算法，将排序的深度神经网络（DNN）权重部分放置在位片内存计算（CIM）交叉开关上，以减少模拟到数字的转换转换器（ADC）能耗。数据转换是交叉操作中最耗能的过程。 SWS 利用 (1) 小权重和 (2) 零权重（权重稀疏性）有效降低了这种成本。 DNN 权重遵循钟形分布，大多数权重接近于零。使用 SWS，我们只需要低阶交叉柱用于具有低幅度权重的部分。这减少了所用 ADC 的数量和分辨率，从而以指数方式降低 ADC 能源成本，而不会显着降低 DNN 精度。非结构化稀疏化进一步锐化了权重分布，且精度损失较小。然而，它在零的硬件跟踪方面提出了挑战：在没有索引匹配的情况下，我们无法将零行切换到未排序交叉开关中的其他层权重。 SWS 使用将零线离线重新映射到早期部分来有效地解决非结构化稀疏模型，这揭示了稀疏性的全部潜力并最大限度地提高了能源效率。我们的方法在非结构化稀疏 BERT 模型上将 ADC 能耗减少了 89.5%。总体而言，本文介绍了一种新颖的算法来促进非结构化稀疏 DNN 工作负载的节能 CIM 交叉开关。

TraM：通过基于 Transformer 的多元时间序列建模和机器学习集成增强用户睡眠预测

分类： 机器学习, 人工智能

作者： Jinjae Kim, Minjeong Ma, Eunjee Choi, Keunhee Cho, Chanwoo Lee

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11293v1

摘要： 本文提出了一种新颖的方法，利用基于 Transformer 的多元时间序列模型和机器学习集成来预测人类睡眠质量、情绪状态和压力水平。开发了计算标签的公式，并将各种模型应用于用户数据。时间序列转换器用于时间序列特征至关重要的标签，而机器学习集成用于需要全面的日常活动统计数据的标签。时间序列转换器擅长通过预训练捕获时间序列的特征，而机器学习集成则选择符合我们分类标准的机器学习模型。所提出的模型 TraM 在实验中得分为 6.10（满分 10 分），与其他方法相比表现出优越的性能。 TraM 框架的代码和配置可在以下位置获取：https://github.com/jin-jae/ETRI-Paper-Contest。

增强阿萨姆语 NLP 能力：引入集中式数据集存储库

分类： 计算和语言, 人工智能

作者： S. Tamang, D. J. Bora

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11291v1

摘要： 本文介绍了一个集中式开源数据集存储库，旨在推进阿萨姆语（一种低资源语言）的 NLP 和 NMT。该存储库通过提供预训练和微调语料库来支持情感分析、命名实体识别和机器翻译等各种任务。我们回顾了现有的数据集，强调了阿萨姆语 NLP 标准化资源的需求，并讨论了人工智能驱动的研究中的潜在应用，例如大语言模型、OCR 和聊天机器人。尽管前景光明，但数据稀缺和语言多样性等挑战仍然存在。该存储库旨在促进合作和创新，促进数字时代的阿萨姆语研究。

垂直联合图神经网络学习的后门攻击

分类： 机器学习, 人工智能, 密码学和安全

作者： Jirui Yang, Peng Chen, Zhihui Lu, Ruijun Deng, Qiang Duan, Jianping Zeng

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11290v1

摘要： 联邦图神经网络（FedGNN）是一种隐私保护机器学习技术，结合了联邦学习（FL）和图神经网络（GNN）。它提供了一种使用隔离图数据训练 GNN 的隐私保护解决方案。垂直联合图神经网络（VFGNN）是FedGNN的一个重要分支，其中数据特征和标签分布在参与者之间，并且每个参与者具有相同的样本空间。由于访问和修改分布式数据和标签的困难，VFGNN 的后门攻击漏洞在很大程度上仍未被探索。在这种背景下，我们提出了 BVG，这是 VFGNN 中第一种后门攻击方法。在不访问或修改标签的情况下，BVG 使用多跳触发器，并且只需要四个目标类节点即可实现有效的后门攻击。实验表明，BVG 在三个数据集和三个不同的 GNN 模型上实现了较高的攻击成功率（ASR），并且对主要任务准确性（MTA）的影响最小。我们还评估了几种防御方法，进一步验证了 BVG 的稳健性和有效性。这一发现还强调了在实际 VFGNN 应用中需要先进的防御机制来应对复杂的后门攻击。

具有 Q 值排名的流程奖励模型

分类： 计算和语言, 人工智能

作者： Wendi Li, Yixuan Li

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11287v1

摘要： 过程奖励建模 (PRM) 对于复杂的推理和决策任务至关重要，其中中间步骤的准确性会显着影响整体结果。现有的 PRM 方法主要被定义为分类问题，利用交叉熵损失来独立评估每个步骤的正确性。这种方法可能会导致奖励分配不理想，并且不能充分解决步骤之间的相互依赖性。为了解决这些限制，我们引入了过程 Q 值模型 (PQM)，这是一种在马尔可夫决策过程的背景下重新定义 PRM 的新颖框架。 PQM 基于新颖的比较损失函数优化 Q 值排名，增强模型捕获顺序决策之间复杂动态的能力。这种方法为流程奖励提供了更精细、更有理论依据的方法。我们对各种采样策略、语言模型主干和多步推理基准进行的广泛实证评估表明，PQM 的性能优于基于分类的 PRM。我们的综合消融研究强调了比较损失函数的有效性，证实了 PQM 的实际功效和理论优势。

增进对深度神经网络中定点迭代的理解：详细的分析研究

分类： 机器学习, 人工智能, 数值分析, 数值分析

作者： Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11279v1

摘要： 最近的实证研究发现了深度神经网络中的定点迭代现象，其中隐藏状态在几层之后趋于稳定，在后续层中显示出最小的变化。这一观察刺激了实用方法的发展，例如一旦隐藏状态稳定就通过绕过某些层来加速推理，有选择地微调层以修改迭代过程，以及实现特定层的循环以维持定点迭代。尽管取得了这些进步，但由于当前分析工具的不足，对定点迭代的理解仍然很肤浅，特别是在高维空间中。在本研究中，我们对神经网络建模的向量值函数中的定点迭代进行了详细分析。我们为基于不同输入区域的循环神经网络的多个不动点的存在建立了充分条件。此外，我们扩展了我们的检查，以包括定点迭代的稳健版本。为了证明我们的方法的有效性和见解，我们提供了案例研究，循环神经网络在求幂或多项式激活函数下可能存在 $2^d$ 个鲁棒固定点，其中 $d$ 是特征维度。此外，我们的初步实证结果支持了我们的理论发现。我们的方法丰富了可用于分析深度神经网络定点迭代的工具包，并可以增强我们对神经网络机制的理解。

ILAEDA：基于模仿学习的自动探索性数据分析方法

分类： 机器学习, 人工智能, 数据库

作者： Abhijit Manatkar, Devarsh Patel, Hima Patel, Naresh Manwani

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11276v1

摘要： 自动化端到端探索性数据分析 (AutoEDA) 是一个具有挑战性的开放问题，通常通过强化学习 (RL) 通过学习预测一系列分析操作（过滤、分组等）来解决。为每个操作定义奖励是一项具有挑战性的任务，现有方法依赖于各种\emph{兴趣度度量}来设计奖励函数以捕获每个操作的重要性。在这项工作中，我们认为并不是所有使操作变得重要的基本特征都可以使用奖励在数学上准确地捕获。我们提出了一种通过专家 EDA 会话的模仿学习来训练的 AutoEDA 模型，无需手动定义兴趣度度量。我们的方法基于生成对抗性模仿学习（GAIL），即使在专家数据有限的情况下，也能很好地概括整个数据集。我们还介绍了一种生成用于培训的综合 EDA 演示的新方法。我们的方法在基准测试中的性能比现有最先进的端到端 EDA 方法高出 3 倍，显示出强大的性能和泛化能力，同时自然地捕获生成的 EDA 会话中的各种兴趣度量。

绕过指数依赖性：循环变压器通过多步梯度下降在上下文中有效学习

分类： 机器学习, 人工智能

作者： Bo Chen, Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11268v1

摘要： 上下文学习已被认为是大型语言模型（LLM）成功的关键因素。它指的是模型在推理过程中从提示中提供的上下文示例中动态学习模式的能力。先前的研究表明，LLM 中使用的 Transformer 架构可以通过在单次前向传递中处理上下文中的示例来实现单步梯度下降更新。最近的工作进一步表明，在上下文学习期间，循环 Transformer 可以在前向传播中实现多步梯度下降更新。然而，他们的理论结果需要指数数量的上下文示例，$n = \exp(\Omega(T))$，其中 $T$ 是循环或传递的数量，以实现相当低的错误。在本文中，我们研究线性向量生成任务的线性循环 Transformer 上下文学习。我们证明线性循环 Transformer 可以有效地实现多步梯度下降以进行上下文学习。我们的结果表明，只要输入数据具有恒定的条件数，例如 $n = O(d)$，线性循环 Transformer 就可以在上下文学习期间通过多步梯度下降实现较小的误差。此外，我们的初步实验验证了我们的理论分析。我们的研究结果表明，Transformer 架构拥有比之前理解的更强大的上下文学习能力，为 LLM 背后的机制提供了新的见解，并有可能指导 LLM 更好地设计高效推理算法。

FedCCRL：具有跨客户端表示学习的联合域泛化

分类： 机器学习, 人工智能

作者： Xinpeng Wang, Xiaoying Tang

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11267v1

摘要： 领域泛化（DG）旨在训练能够有效泛化到未知领域的模型。然而，在联邦学习（FL）的背景下，客户协作训练模型而不直接共享数据，由于隐私限制以及有限的数据量和领域，大多数现有的 DG 算法不能直接适用于 FL 设置。每个客户的多样性。为了应对这些挑战，我们提出了 FedCCRL，这是一种新颖的联合域泛化方法，可显着提高模型泛化到未知域的能力，而不会损害隐私或产生过多的计算和通信成本。具体来说，我们使 MixStyle 适应联合设置以传输特定于域的特征，同时使用 AugMix 来扰乱域不变的特征。此外，我们利用监督对比损失进行表示对齐，并利用 Jensen-Shannon 散度来确保原始样本和增强样本之间的预测一致。大量的实验结果表明，FedCCRL 在不同数量的客户端的 PACS、OfficeHome 和 miniDomainNet 数据集上实现了最先进的性能。代码可在 https://github.com/SanphouWang/FedCCRL 获取。

用于基础设施项目意见的长情境情感分析的情境学习

分类： 计算和语言, 人工智能

作者： Alireza Shamshiri, Kyeong Rok Ryu, June Young Park

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11265v1

摘要： 大型语言模型（LLM）在各种任务中取得了令人印象深刻的成果。然而，他们仍然难以处理长上下文文档。本研究评估了三位领先的大语言模型：GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 在零样本和少样本场景下，在涉及基础设施项目的冗长、复杂且观点不同的文档上的表现。我们的结果表明，GPT-4o 在处理更简单、更短的文档的零样本场景中表现出色，而 Claude 3.5 Sonnet 在处理更复杂、情绪波动的意见方面优于 GPT-4o。在少样本场景中，Claude 3.5 Sonnet 表现优于整体，而 GPT-4o 随着演示数量的增加表现出更高的稳定性。

通过神经分解揭示选项

分类： 机器学习, 人工智能

作者： Mahdi Alikhasi, Levi H. S. Lelis

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11262v1

摘要： 在强化学习中，智能体通常会学习特定任务的策略，但无法将这些知识推广到相关任务。本文介绍了一种算法，试图通过将马尔可夫决策过程的神经网络编码策略分解为可重用的子策略来解决这一限制，这些子策略用于合成时间扩展的动作或选项。我们考虑具有分段线性激活函数的神经网络，以便它们可以映射到类似于倾斜决策树的等效树。由于这种树中的每个节点充当树的输入的函数，因此每个子树都是主策略的子策略。我们通过使用不同迭代次数的 while 循环将每个子策略转换为选项。考虑到大量的选项，我们提出了一种基于最小化 Levin 损失的选择机制，以便对这些选项采取统一的策略。在两个网格世界领域中探索可能很困难的经验结果证实我们的方法可以识别有用的选项，从而加速相似但不同任务的学习过程。

超越线性近似：一种新颖的注意力矩阵剪枝方法

分类： 机器学习, 人工智能, 计算和语言

作者： Yingyu Liang, Jiangxuan Long, Zhenmei Shi, Zhao Song, Yufa Zhou

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11261v1

摘要： 大型语言模型 (LLM) 在增强我们日常生活的各个方面（从对话式人工智能到搜索和人工智能助手）方面显示出了巨大的潜力。然而，它们不断增长的能力是以极大的模型尺寸为代价的，由于内存和计算的限制，使得在边缘设备上的部署具有挑战性。本文介绍了一种 LLM 权重修剪的新方法，该方法直接优化近似注意力矩阵（变压器架构的核心组件）。与关注线性近似的现有方法不同，我们的方法考虑了 Softmax 注意力机制的非线性性质。我们为基于梯度下降的优化方法收敛到接近最优的剪枝掩模解决方案提供了理论保证。我们的初步实证结果证明了这种方法在保持模型性能的同时显着降低计算成本的有效性。这项工作为 LLM 中的剪枝算法设计奠定了新的理论基础，有可能为资源受限设备上更高效的 LLM 推理铺平道路。

在连续状态和动作空间中具有优先级和参数噪声的学习代理

分类： 人工智能, 机器学习, I.2.6

作者： Rajesh Mangannavar, Gopalakrishnan Srinivasaraghavan

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11250v1

摘要： 在强化学习的众多变体中，一类重要的问题是状态和动作空间是连续的——自主机器人、自主车辆、最优控制都是此类问题的例子，它们可以自然地适合基于强化的算法，并且具有连续性状态和动作空间。在本文中，我们引入了深度 Q 学习（DQN）和深度确定性策略梯度（DDPG）等最先进方法组合的优先形式，以超越连续状态和动作空间问题的早期结果。我们的实验还涉及在训练期间使用参数噪声，从而产生更稳健的深度强化学习模型，其性能显着优于早期结果。我们相信这些结果对于连续状态和动作空间问题是有价值的补充。

自动生成多模态大语言模型的视幻觉测试用例

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Zhongye Liu, Hongbin Liu, Yuepeng Hu, Zedian Shao, Neil Zhenqiang Gong

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11242v1

摘要： 当多模态大语言模型 (MLLM) 生成带有错误视觉细节的提示响应时，就会出现幻视 (VH)。现有的生成 VH 测试用例的方法主要依赖于人工注释，通常采用三元组的形式：（图像、问题、答案）。在本文中，我们介绍了 VHExpansion，这是第一个用于扩展 MLLM 的 VH 测试用例的自动化方法。给定一个初始 VH 测试用例，VHExpansion 通过否定扰动问题和答案以及使用常见扰动和对抗扰动修改图像来自动扩展它。此外，我们提出了一种新的评估指标，即对称精度，它衡量正确回答的 VH 测试用例对的比例。每对都包含一个测试用例及其否定的对应项。我们的理论分析表明，对称精度是一种无偏的评估指标，当 MLLM 随机猜测答案时，它不会受到具有不同答案的 VH 测试用例不平衡的影响，而传统精度很容易出现这种不平衡。我们应用 VHExpansion 来扩展手动注释的三个 VH 数据集，并使用这些扩展的数据集对七个 MLLM 进行基准测试。我们的评估表明，VHExpansion 可以有效识别更多 VH 测试用例。此外，与传统的精度指标相比，对称精度是无偏的，导致关于 MLLM 对 VH 的脆弱性得出不同的结论。最后，我们表明，在 VHExpansion 生成的扩展 VH 数据集上微调 MLLM 比在原始手动注释数据集上微调更能有效地减轻 VH。我们的代码位于：https://github.com/lycheeefish/VHExpansion。

HR-Agent：专为 HR 应用程序定制的面向任务的对话 (TOD) LLM Agent

分类： 计算和语言, 人工智能, 68T07, I.2.7

作者： Weijie Xu, Jay Desai, Fanyou Wu, Josef Valvoda, Srinivasan H. Sengamedu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11239v1

摘要： 最近的 LLM（大型语言模型）进步使教育和金融等许多领域受益，但人力资源部门有数百个重复流程，例如访问请求、医疗索赔申请和休假提交，这些流程尚未得到解决。我们将这些任务与大语言模型代理联系起来，该代理负责解决写作协助和客户支持等任务。我们推出 HR-Agent，这是一种高效、保密且针对 HR 的基于 LLM 的任务导向型对话系统，专为自动化重复性 HR 流程（例如医疗索赔和访问请求）而量身定制。由于在推理过程中对话数据不会发送给大语言模型，因此它保留了人力资源相关任务所需的机密性。

基于离线模型的强化学习的贝叶斯自适应蒙特卡罗树搜索

分类： 机器学习, 人工智能

作者： Jiayu Chen, Wentse Chen, Jeff Schneider

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11234v1

摘要： 离线强化学习 (RL) 是数据驱动决策和控制的强大方法。与无模型方法相比，基于离线模型的强化学习（MBRL）显式地从静态数据集中学习世界模型并将其用作代理模拟器，从而提高了数据效率并使学习到的策略能够在数据集支持之外进行泛化。然而，可能有多种 MDP 在离线数据集上表现相同，因此处理真实 MDP 的不确定性可能具有挑战性。在本文中，我们建议将离线 MBRL 建模为贝叶斯自适应马尔可夫决策过程（BAMDP），这是解决模型不确定性的原则框架。我们进一步介绍了一种新颖的贝叶斯自适应蒙特卡罗规划算法，能够在具有随机转换的连续状态和动作空间中求解 BAMDP。该规划过程基于蒙特卡罗树搜索，可以作为策略迭代中的策略改进算子集成到离线MBRL中。我们的“RL + 搜索”框架追随 AlphaZero 等超人人工智能的脚步，通过纳入更多计算输入来改进当前的离线 MBRL 方法。所提出的算法显着优于最先进的基于模型和无模型的离线算法在具有挑战性的随机托卡马克控制模拟器中，针对十二个 D4RL MuJoCo 基准任务和三个目标跟踪任务的强化学习方法。

多目标强化学习：多元对齐的工具

分类： 机器学习, 人工智能

作者： Peter Vamplew, Conor F Hayes, Cameron Foale, Richard Dazeley, Hadassah Harland

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11221v1

摘要： 强化学习 (RL) 是创建人工智能系统的宝贵工具。然而，如果需要考虑多个相互冲突的价值观或利益相关者，那么根据标量奖励充分调整强化学习可能会出现问题。在过去的十年中，使用向量奖励的多目标强化学习 (MORL) 已成为标准标量强化学习的替代方案。本文概述了 MORL 在创建多元化人工智能方面可以发挥的作用。

大型语言模型的引文生成能力

分类： 计算和语言, 人工智能, 信息检索

作者： Haosheng Qian, Yixing Fan, Ruqing Zhang, Jiafeng Guo

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11217v1

摘要： 检索增强生成（RAG）似乎是缓解大型语言模型（LLM）中“幻觉”问题的一种有前途的方法，因为它可以合并外部可追踪资源来生成响应。 RAG 对抗幻觉问题的本质在于准确归因响应于相应检索文档的声明。然而，大多数现有工作都专注于提高大语言模型生成的答案的质量，而在很大程度上忽视了其准确归因来源的能力。在本研究中，我们对大语言模型在回复生成中生成引文的能力进行了系统分析，并进一步介绍了一种增强其引文生成能力的新方法。具体来说，我们评估了两个基准数据集上七个广泛使用的大语言模型的正确性和引用质量。同时，我们引入了新的引文评估指标，以消除现有指标中对不必要和过度引用的过度惩罚。此外，我们提出了一种“Generate-then-Refine”方法，可以在不更改响应文本的情况下完成相关引用并删除不相关的引用。 WebGLM-QA、ASQA 和 ELI5 数据集的结果表明，我们的方法大大提高了大语言模型生成的回复中的引用质量。

属性树促进视觉语言模型的学习

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Tong Ding, Wanhua Li, Zhongqi Miao, Hanspeter Pfister

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11201v1

摘要： 事实证明，即时学习对于调整视觉语言模型以适应下游任务是有效的。然而，现有的方法通常仅将可学习的提示标记与类别名称一起附加以获取文本特征，这无法充分利用类别名称中指示的丰富上下文。为了解决这个问题，我们提出了属性树提示学习（TAP），它首先指示大语言模型为每个类别生成具有“概念-属性-描述”结构的属性树，然后通过视觉和文本学习层次结构提示令牌。与仅用一组非结构化描述来扩充类别名称的现有方法不同，我们的方法本质上是从大语言模型中提取与类名称相关的结构化知识图。此外，我们的方法引入了文本和视觉提示，旨在明确学习相应的视觉属性，有效地充当领域专家。此外，在特定的给定图像中，基于类名称生成的一般性和多样化的描述可能是错误的或不存在的。为了解决这种不一致问题，我们进一步引入了视觉条件池模块来提取特定于实例的文本特征。大量的实验结果表明，我们的方法在零样本基础到小说的泛化、跨数据集传输以及跨 11 个不同数据集的少样本分类方面优于最先进的方法。

SplitSEE：用于单通道脑电图表示学习的可拆分自监督框架

分类： 机器学习, 人工智能

作者： Rikuto Kotoge, Zheng Chen, Tasuku Kimura, Yasuko Matsubara, Takufumi Yanagisawa, Haruhiko Kishima, Yasushi Sakurai

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11200v1

摘要： 虽然端到端多通道脑电图 (EEG) 学习方法已显示出巨大的前景，但其适用性往往受到神经诊断（例如颅内脑电图资源）的限制。当提供单通道脑电图时，我们如何学习对多通道具有鲁棒性并可跨各种任务（例如癫痫预测）进行扩展的表示？在本文中，我们提出了 SplitSEE，这是一种结构上可拆分的框架，专为单通道脑电图中有效的时频表示学习而设计。 SplitSEE 的关键概念是一个包含深度聚类任务的自监督框架。给定脑电图，我们认为时域和频域是两个不同的视角，因此，学习到的表示应该共享相同的聚类分配。为此，我们首先提出两个特定于域的模块，它们独立学习特定于域的表示并解决传统基于频谱图的方法中的时频权衡问题。然后，我们引入一种新颖的聚类损失来衡量信息相似度。这鼓励两个域的表示通过为它们分配一致的集群来连贯地描述相同的输入。 SplitSEE 利用可拆分架构中的预训练微调框架，并具有以下属性：(a) 有效性：它仅从单通道 EEG 学习表示，但甚至优于多通道基线。 (b) 鲁棒性：它显示了以较低的性能差异适应不同渠道的能力。我们收集的临床数据集也实现了卓越的性能。 (c) 可扩展性：仅通过一个微调周期，SplitSEE 使用部分模型层即可实现高性能且稳定的性能。

Isambard-AI：专为人工智能优化的领先级超级计算机

分类： 分布式、并行和集群计算, 人工智能

作者： Simon McIntosh-Smith, Sadaf R Alam, Christopher Woods

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11199v1

摘要： Isambard-AI 是一款新型领导级超级计算机，旨在支持人工智能相关研究。 Isambard-AI 基于 HPE Cray EX4000 系统，位于英国布里斯托尔的全新节能模块化数据中心，采用 5,448 个 NVIDIA Grace-Hopper GPU 为 LLM 提供超过 21 ExaFLOP/s 的 8 位浮点性能训练，以及超过 250 PetaFLOP/s 的 64 位性能，功率低于 5MW。 Isambard-AI 集成了两个全闪存存储系统：20 PiByte Cray ClusterStor 和 3.5 PiByte VAST 解决方案。这些结合起来，为 Isambard-AI 提供了训练、推理以及安全数据访问和共享的灵活性。但 Isambard-AI 与传统 HPC 系统最不同的地方在于软件堆栈。 Isambard-AI 旨在支持可能在云中使用 GPU 的用户，因此访问通常会通过 Jupyter 笔记本、MLOps 或其他基于 Web 的交互界面进行，而不是传统超级计算机 sshing 上使用的方法在将作业提交给批处理调度程序之前进入系统。其堆栈旨在快速、定期升级，以跟上人工智能软件的快速发展，并全面支持容器。 Isambard-AI 第一阶段将于 2024 年 5 月/6 月上线，整个系统预计在今年年底投入生产。

Athena：利用大型语言模型进行检索增强的法律判决预测

分类： 计算和语言, 人工智能

作者： Xiao Peng, Liang Chen

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11195v1

摘要： 最近，像 ChatGPT、LLaMA 和 Claude 这样的大型语言模型 (LLM) 已经在无数领域流行起来，包括法律场景。随着大语言模型技术的快速进步，作为大语言模型与实际应用之间的接口的即时工程（PE）的发展引起了所有开发人员的关注。人们提出了各种 PE 方法来克服现实世界的挑战，例如少样本提示、思维链和检索增强生成（RAG）。然而，用于法律判决预测（LJP）的 RAG 仍处于探索之中。为了解决这个问题，我们提出了“Athena”，这是一种新颖的框架，将 RAG 作为核心预处理组件，以提高大语言模型在专业任务上的表现。 Athena 构建了一个指控知识库，并通过向量化附加了语义检索机制。我们的实验表明，Athena 的整体性能有了显着提升，在 CAIL2018 数据集上取得了最先进的结果。我们对上下文窗口大小参数的消融研究进一步重现了大语言模型具有相对位置变化的“迷失在中间”现象。通过适度的超参数调整，我们最多可以达到 95% 的准确率。我们还研究了查询重写和数据分布的影响，根据以前的分析为未来的研究提供了可能的方向。

Mini-Omni2：迈向具有视觉、语音和双工的开源 GPT-4o 模型

分类： 音频和语音处理, 人工智能, 计算机视觉和模式识别, 机器学习, 声音

作者： Zhifei Xie, Changqiao Wu

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11190v1

摘要： GPT4o是一个包罗万象的模型，代表了多模态大型模型发展的里程碑。它可以理解视觉、听觉和文本模态，直接输出音频，并支持灵活的双向交互。但其技术框架并未开源。来自开源社区的模型通常实现了 GPT4o 的一些功能，例如视觉理解和语音对话。然而，由于多模态数据、复杂的模型架构和训练过程的复杂性，训练包含所有模态的统一模型具有挑战性。在本文中，我们介绍了 Mini-Omni2，这是一种视觉音频助手，能够为用户视频和语音查询提供实时、端到端的语音响应，同时还具有听觉功能。通过集成预训练的视觉和听觉编码器，Mini-Omni2 在各个模式中保持强劲的性能。我们提出了一个三阶段的训练过程来调整模态，允许语言模型在有限数据集上训练后处理多模态输入和输出。在交互方面，我们引入了基于语义的中断机制，可以与用户进行更灵活的对话。所有建模方法和数据构建方法都将开源。据我们所知，Mini-Omni2是功能上最接近GPT4o的模型之一，我们希望它能为后续研究提供有价值的见解。

半开放大语言模型中的阿基里斯之踵：隐藏底层以应对恢复攻击

分类： 机器学习, 人工智能, 密码学和安全

作者： Hanbo Huang, Yihan Li, Bowen Jiang, Lin Liu, Ruoyu Sun, Zhuotao Liu, Shiyu Liang

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11182v1

摘要： 闭源大型语言模型可提供强大的性能，但下游可定制性有限。引入了结合闭源层和公共层的半开放模型以提高可定制性。然而，闭源层中的参数很容易受到恢复攻击。在本文中，我们探索了具有较少闭源层的半开放模型的设计，旨在提高可定制性，同时确保恢复攻击的弹性。我们分析了闭源层对整体弹性的贡献，并从理论上证明，在基于深度 Transformer 的模型中，存在一个过渡层，即使该层之前的层中出现很小的恢复错误，也可能导致恢复失败。在此基础上，我们提出了 \textbf{SCARA}，这是一种仅将少数底层保留为闭源的新颖方法。 SCARA 采用无需微调的指标来估计可公开访问以进行定制的最大层数。我们将其应用于五个模型（1.3B 到 70B 参数）来构建半开放模型，验证它们在六个下游任务上的可定制性，并评估它们在 16 个基准上针对各种恢复攻击的弹性。我们将 SCARA 与基线进行比较，发现它通常可以提高下游定制性能，并以超过 \textbf{10} 倍的闭源参数提供类似的弹性。我们实证研究了过渡层的存在，分析了我们方案的有效性，最后讨论了其局限性。

DARNet：用于听觉注意力检测的具有时空结构的双重注意力细化网络

分类： 音频和语音处理, 人工智能, 机器学习, 声音

作者： Sheng Yan, Cunhang fan, Hongyu Zhang, Xiaoke Yang, Jianhua Tao, Zhao Lv

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11181v1

摘要： 在鸡尾酒会上，人类表现出令人印象深刻的转移注意力的能力。听觉注意力检测（AAD）方法旨在通过分析大脑信号（例如脑电图信号）来识别正在听讲的说话者。然而，当前的 AAD 算法忽略了脑电图信号内的空间分布信息，并且缺乏捕获远程潜在依赖性的能力，限制了模型解码大脑活动的能力。为了解决这些问题，本文提出了一种用于 AAD 的时空构造双重注意力细化网络，称为 DARNet，它由时空构造模块、双重注意力细化模块和特征融合与分类器模块组成。具体来说，时空构建模块旨在通过捕获脑电信号的空间分布特征来构建更具表现力的时空特征表示。双注意力细化模块旨在提取脑电图信号中不同级别的时间模式，并增强模型捕获远程潜在依赖性的能力。特征融合&分类器模块旨在聚合不同级别的时间模式和依赖关系并获得最终的分类结果。实验结果表明，与最先进的模型相比，DARNet 在 DTU 数据集上的平均分类精度提高了 0.1 秒 5.9%、1 秒 4.6% 和 2 秒 3.9%。在保持出色的分类性能的同时，DARNet 显着减少了所需参数的数量。与最先进的模型相比，DARNet 将参数数量减少了 91%。代码位于：https://github.com/fchest/DARNet.git。

将可解释性解释为压缩：重新考虑 SAE 对 MDL-SAE 神经激活的解释

分类： 机器学习, 人工智能, 信息论, 信息论

作者： Kola Ayonrinde, Michael T. Pearce, Lee Sharkey

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11179v1

摘要： 稀疏自动编码器（SAE）已成为解释神经网络内部表示的有用工具。然而，天真地优化 SAE 的重建损失和稀疏性会导致对极其宽且稀疏的 SAE 的偏好。我们提出了一个信息论框架，用于将 SAE 解释为有损压缩算法，以传达神经激活的解释。我们诉诸最小描述长度（MDL）原则来激发对激活的准确和简洁的解释。我们进一步认为，可解释的 SAE 需要一个额外的属性，即“独立可加性”：特征应该能够单独理解。我们展示了一个通过在 MNIST 手写数字上训练 SAE 来应用受 MDL 启发的框架的示例，并发现表示重要线段的 SAE 特征是最佳的，而不是具有数据集记忆数字或小数字片段特征的 SAE。我们认为，使用 MDL 而不是稀疏性可以避免天真地最大化稀疏性的潜在陷阱，例如不良的特征分割，并且该框架自然地建议新的分层 SAE 架构，从而提供更简洁的解释。

改善面部属性分类中的偏差：KL 散度引起的损失函数和双重注意力的综合影响

分类： 计算机视觉和模式识别, 人工智能, 68T06, I.2.10

作者： Shweta Patel, Dakshina Ranjan Kisku

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11176v1

摘要： 确保基于人工智能的面部识别系统能够产生公平的预测，并在所有人口群体中同样发挥作用至关重要。早期的系统经常表现出人口统计偏差，特别是在性别和种族分类方面，对女性和肤色较深的人的准确度较低。为了解决这个问题并促进面部识别的公平性，研究人员引入了几种用于性别分类和相关算法的偏见缓解技术。然而，仍然存在许多挑战，例如数据多样性、平衡公平性与准确性、差异和偏差测量。本文提出了一种使用双重注意力机制和预训练的 Inception-ResNet V1 模型的方法，并通过 KL 散度正则化和交叉熵损失函数进行增强。这种方法减少了偏差，同时通过迁移学习提高了准确性和计算效率。实验结果表明公平性和分类准确性都有显着提高，为解决偏见和增强面部识别系统的可靠性提供了有希望的进展。

通过动态课程实现通用 Deepfake 检测

分类： 计算机视觉和模式识别, 人工智能

作者： Wentang Song, Yuzhen Lin, Bin Li

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11162v1

摘要： 以前的大多数深度伪造检测方法都致力于通过端到端训练来区分伪影。然而，由于忽略了数据硬度，学习网络往往无法有效地挖掘一般人脸伪造信息。在这项工作中，我们建议通过课程学习范式将样本硬度引入深度伪造检测器的训练中。具体来说，我们提出了一种新颖的简单而有效的策略，称为动态面部取证课程（DFFC），使模型在训练过程中逐渐关注硬样本。首先，我们提出动态取证硬度（DFH），它将面部质量得分和瞬时实例损失结合起来，在训练过程中动态测量样本硬度。此外，我们提出了一个调步函数，用于在整个基于 DFH 的训练过程中控制数据子集从易到难。综合实验表明，DFFC 可以通过即插即用的方式提高各种端到端 Deepfake 检测器的数据集内和跨数据集性能。这表明 DFFC 可以通过有效利用硬样本中的信息来帮助深度伪造检测器学习一般的伪造判别特征。

潜在预测赋权：无需模拟器即可测量赋权

分类： 人工智能, 机器学习, 机器人技术

作者： Andrew Levy, Alessandro Allievi, George Konidaris

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11155v1

摘要： 赋权有潜力帮助智能体学习大量技能，但还不是用于培训通用智能体的可扩展解决方案。最近的赋权方法通过最大化技能和状态之间的相互信息来学习不同的技能；然而，这些方法需要一个过渡动力学模型，在具有高维和随机观察的现实环境中学习该模型可能具有挑战性。我们提出了潜在预测赋权（LPE），这是一种可以以更实用的方式计算赋权的算法。 LPE 通过最大化目标来学习大型技能集，该目标是技能和状态之间相互信息的原则性替代，并且只需要更简单的潜在预测模型，而不是环境的完整模拟器。我们在各种环境中（包括具有高维观察和高度随机过渡动态的环境）凭经验证明，我们的赋权目标 (i) 学习与领先的赋权算法类似大小的技能，该算法假设可以访问过渡模型(ii) 优于其他基于模型的赋权方法。

优化基于会话的推荐系统的仅编码器变压器

分类： 信息检索, 人工智能

作者： Anis Redjdal, Luis Pinto, Michel Desmarais

发布时间： 2024-10-15

链接： http://arxiv.org/abs/2410.11150v1

摘要： 基于会话的推荐是预测用户将与之交互的下一个项目的任务，通常无需访问历史用户数据。在这项工作中，我们引入了顺序屏蔽建模，这是一种仅编码器变压器架构的新颖方法，用于解决单会话推荐的挑战。我们的方法将通过窗口滑动进行的数据增强与独特的倒数第二个令牌屏蔽策略相结合，以更有效地捕获顺序依赖关系。通过增强转换器处理会话数据的方式，顺序屏蔽建模显着提高了下一项预测性能。我们在三个广泛使用的数据集 Yoochoose 1/64、Diginetica 和 Tmall 上评估我们的方法，并将其与最先进的单会话、跨会话和多关系方法进行比较。结果表明，我们的 Transformer-SMM 模型始终优于依赖相同信息量的所有模型，甚至可以与能够访问更广泛的用户历史记录的方法相媲美。这项研究强调了仅编码器变压器在基于会话的推荐中的潜力，并为进一步改进打开了大门。

LLM 通过仅忘记数据的损失调整来忘却学习

分类： 计算和语言, 人工智能, 机器学习

作者： Yaxuan Wang, Jiaheng Wei, Chris Yuhao Liu, Jinlong Pang, Quan Liu, Ankit Parag Shah, Yujia Bao, Yang Liu, Wei Wei

发布时间： 2024-10-14

链接： http://arxiv.org/abs/2410.11143v1

摘要： 忘记大型语言模型 (LLM) 的学习对于确保人工智能的道德和负责任的使用至关重要，特别是在解决隐私泄露、偏见、安全和不断发展的法规方面。现有的 LLM 忘却方法通常依赖于保留数据或参考 LLM，但它们很难充分平衡忘却性能与整体模型效用。之所以出现这一挑战，是因为利用参考大语言模型的显式保留数据或保留数据的隐式知识来微调模型往往会模糊遗忘数据和保留数据之间的界限，因为不同的查询通常会引发类似的响应。在这项工作中，我们建议消除在 LLM 遗忘中保留数据或参考 LLM 进行响应校准的需要。认识到直接对遗忘数据应用梯度上升通常会导致优化不稳定和性能不佳，我们的方法根据遗忘数据指导大语言模型不要响应什么，更重要的是如何响应。因此，我们引入了仅忘记数据损失调整（FLAT），这是一种“平坦”损失调整方法，它通过最大化可用模板答案和仅忘记答案之间的 f 散度来解决这些问题。忘记数据。定义的 f 散度的变分形式理论上提供了一种通过为学习分配不同的重要性权重来调整损失的方法。模板反应和忘记反应会导致遗忘。实证结果表明，与现有方法相比，我们的方法不仅实现了卓越的遗忘性能，而且最大限度地减少了对模型保留能力的影响，确保了各种任务的高实用性，包括哈利波特数据集和 MUSE Benchmark 上受版权保护的内容遗忘，以及实体遗忘TOFU 数据集。

解开并减轻视觉语言模型的安全对齐退化

分类： 计算和语言, 人工智能, 机器学习

作者： Qin Liu, Chao Shang, Ling Liu, Nikolaos Pappas, Jie Ma, Neha Anna John, Srikanth Doss, Lluis Marquez, Miguel Ballesteros, Yassine Benajiba

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09047v1

摘要： 与 LLM 主干相比，视觉语言模型 (VLM) 的安全对齐能力很容易因视觉模块的集成而降低。我们研究了这种在本文中被称为“安全对齐退化”的现象，并表明挑战来自于将视觉模态引入 VLM 时出现的表示差距。特别是，我们表明多模态输入的表示偏离了纯文本输入的表示，纯文本输入表示 LLM 主干优化的分布。与此同时，最初在文本嵌入空间内开发的安全对齐功能并未成功转移到这个新的多模式表示空间。为了减少安全对齐退化，我们引入了跨模态表示操作（CMRM），这是一种推理时间表示干预方法，用于恢复 VLM 的 LLM 主干中固有的安全对齐能力，同时保留 VLM 的功能能力。实证结果表明，我们的框架显着恢复了从 LLM 主干继承的对齐能力，即使没有额外的训练，对预训练 VLM 的流畅性和语言能力的影响也最小。具体来说，仅通过推理时间干预，LLaVA-7B在多模态输入上的不安全率即可从61.53%降低至3.15%。警告：本文包含有毒或有害语言的示例。

改变车载网络入侵检测：基于 VAE 的知识蒸馏遇见可解释的人工智能

分类： 密码学和安全, 人工智能

作者： Muhammet Anil Yagiz, Pedram MohajerAnsari, Mert D. Pese, Polat Goktas

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09043v1

摘要： 在不断发展的自动驾驶汽车领域，确保强大的车载网络 (IVN) 安全性至关重要。本文介绍了一种名为 KD-XVAE 的高级入侵检测系统 (IDS)，该系统使用基于变分自动编码器 (VAE) 的知识蒸馏方法来提高性能和效率。我们的模型显着降低了复杂性，仅使用 1669 个参数进行操作，每批推理时间为 0.3 毫秒，非常适合资源有限的汽车环境。 HCRL Car-Hacking 数据集中的评估展示了卓越的能力，在多种攻击类型（包括 DoS、模糊测试、齿轮欺骗和 RPM 欺骗）下获得了完美的分数（召回率、精确度、F1 分数为 100%，FNR 为 0%）。对CICIoV2024数据集的对比分析进一步凸显了其相对于传统机器学习模型的优越性，实现了完美的检测指标。我们还集成了可解释的人工智能（XAI）技术，以确保模型决策的透明度。 VAE 将原始特征空间压缩到潜在空间，在该潜在空间上训练蒸馏模型。 SHAP（SHapley Additive exPlanations）值提供了对每个潜在维度重要性的洞察，映射回原始特征以进行直观理解。我们的论文通过集成最先进的技术来推动该领域的发展，解决为自动驾驶汽车部署高效、值得信赖和可靠的 IDS 的关键挑战，确保增强对新兴网络威胁的保护。

SimpleStrat：通过分层使语言模型生成多样化

分类： 计算和语言, 人工智能

作者： Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09038v1

摘要： 从大型语言模型 (LLM) 中生成多样化的响应对于规划/搜索和合成数据生成等应用至关重要，其中多样性为各代人提供了不同的答案。先前的方法依赖于升高温度来增加多样性。然而，与普遍看法相反，我们表明，随着温度升高，这种方法不仅会产生质量较低的个体世代，而且还取决于模型的下一个标记概率与答案的真实分布相似。我们提出 \method{}，这是一种使用语言模型本身将空间划分为层的替代方法。在推理时，选择一个随机层并从该层内抽取样本。为了衡量多样性，我们引入了 CoverageQA，这是一个包含多个同样合理答案的未指定问题的数据集，并通过测量有效地面真实答案的输出分布和均匀分布之间的 KL 散度来评估多样性。由于计算专有模型的每个响应/解决方案的概率是不可行的，因此我们测量真实解决方案的召回率。我们的评估显示，与 GPT-4o 相比，使用 SimpleStrat 的召回率提高了 0.05，与 Llama 3 相比，KL 散度平均降低了 0.36。

Mentor-KD：让小语言模型变得更好的多步推理机

分类： 计算和语言, 人工智能

作者： Hojae Lee, Junho Kim, SangKeun Lee

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09037v1

摘要： 通过利用思想链 (CoT) 提示，大型语言模型 (LLM) 在各种复杂任务中表现出了卓越的性能。最近，有研究提出了一种知识蒸馏（KD）方法，即推理蒸馏，通过微调大语言模型教师生成的多步骤基本原理的语言模型来转移大语言模型的推理能力。然而，他们没有充分考虑到大语言模型教师模型蒸馏集不足的两个挑战，即 1) 数据质量和 2) 软标签提供。在本文中，我们提出了 Mentor-KD，它有效地将 LLM 的多步推理能力提炼为更小的 LM，同时解决上述挑战。具体来说，我们利用导师、中型任务特定的微调模型来增强额外的 CoT 注释，并在推理蒸馏过程中为学生模型提供软标签。我们进行了大量的实验，并确认 Mentor-KD 在各种模型和复杂推理任务中的有效性。

PEAR：由多个大型语言模型代理支持的强大而灵活的 Ptychography 自动化框架

分类： 计算工程、金融和科学, 人工智能, 计算和语言, 多代理系统

作者： Xiangyu Yin, Chuqiao Shi, Yimo Han, Yi Jiang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09034v1

摘要： Ptychography 是 X 射线和电子显微镜中的一种先进计算成像技术。它已广泛应用于物理、化学、生物学和材料科学等科学研究领域以及半导体表征等工业应用中。在实践中，获得高质量的叠印图像需要同时优化大量实验和算法参数。传统上，参数选择通常依赖于反复试验，导致低吞吐量工作流程和潜在的人为偏差。在这项工作中，我们开发了“Ptychography 实验和分析机器人”(PEAR)，这是一个利用大型语言模型 (LLM) 来自动进行 ptychography 数据分析的框架。为了确保高鲁棒性和准确性，PEAR 采用多个 LLM 代理来执行知识检索、代码生成、参数推荐和图像推理等任务。我们的研究表明，PEAR 的多智能体设计显着提高了工作流程的成功率，即使使用较小的开放权重模型（例如 LLaMA 3.1 8B）也是如此。 PEAR 还支持各种自动化级别，旨在与定制的本地知识库配合使用，确保跨不同研究环境的灵活性和适应性。

AgentHarm：衡量 LLM 代理危害性的基准

分类： 机器学习, 人工智能, 计算和语言

作者： Maksym Andriushchenko, Alexandra Souly, Mateusz Dziemian, Derek Duenas, Maxwell Lin, Justin Wang, Dan Hendrycks, Andy Zou, Zico Kolter, Matt Fredrikson, Eric Winsor, Jerome Wynne, Yarin Gal, Xander Davies

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09024v1

摘要： LLM 对越狱攻击的鲁棒性，即用户设计提示来规避安全措施和滥用模型功能，主要针对充当简单聊天机器人的 LLM 进行了研究。与此同时，LLM 代理（使用外部工具并可以执行多阶段任务）如果滥用可能会带来更大的风险，但其稳健性仍未得到充分探索。为了促进对 LLM 代理滥用的研究，我们提出了一个名为 AgentHarm 的新基准。该基准包括 110 个明显恶意的代理任务（440 个增强版），涵盖 11 个危害类别，包括欺诈、网络犯罪和骚扰。除了衡量模型是否拒绝有害的代理请求之外，在 AgentHarm 上获得良好分数还需要越狱代理在攻击后保持其能力以完成多步骤任务。我们评估了一系列领先的大语言模型，发现（1）领先的大语言模型在没有越狱的情况下惊人地符合恶意代理请求，（2）简单的通用越狱模板可以适应有效的越狱代理，以及（3）这些越狱使得连贯和恶意多步骤代理行为并保留模型功能。我们公开发布 AgentHarm，以便对基于 LLM 的代理进行简单可靠的攻击和防御评估。我们在 https://huggingface.co/ai-safety-institute/AgentHarm 上公开发布该基准。

软件工程和基础模型：使用基础模型评审团获得的行业博客见解

分类： 软件工程, 人工智能

作者： Hao Li, Cor-Paul Bezemer, Ahmed E. Hassan

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.09012v1

摘要： 大语言模型 (LLM) 等基础模型 (FM) 对许多领域产生了重大影响，包括软件工程 (SE)。 SE 和 FM 之间的相互作用导致了 FM 融入 SE 实践 (FM4SE) 以及 SE 方法论在 FM 中的应用 (SE4FM)。虽然存在一些关于学术对这些趋势的贡献的文献调查，但我们是第一个提供从业者观点的人。我们分析了来自领先技术公司的 155 篇 FM4SE 和 997 篇 SE4FM 博客文章，利用 FM 驱动的调查方法系统地标记和总结所讨论的活动和任务。我们观察到，虽然代码生成是最重要的 FM4SE 任务，但 FM 还可用于许多其他 SE 活动，例如代码理解、摘要和 API 推荐。 SE4FM 上的大多数博客文章都是关于模型部署和操作，以及系统架构和编排。尽管重点是云部署，但人们对压缩 FM 并将其部署在边缘或移动设备等较小设备上的兴趣日益浓厚。我们根据所获得的见解概述了八个未来的研究方向，旨在弥合学术研究成果与现实应用之间的差距。我们的研究不仅丰富了 FM4SE 和 SE4FM 实际应用的知识体系，而且还证明了 FM 作为在技术和灰色文献领域进行文献调查的强大而有效的方法的实用性。我们的数据集、结果、代码和使用的提示可以在我们的在线复制包中找到：https://github.com/SAILResearch/fmse-blogs。

层次普适值函数逼近器

分类： 机器学习, 人工智能, 机器学习, I.2.6

作者： Rushiv Arora

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08997v1

摘要： 在为强化学习价值函数的多目标集合构建通用逼近器方面取得了重大进展——这是以参数化方式估计状态长期回报的关键要素。我们通过引入分层通用价值函数逼近器（H-UVFA），使用选项框架将其扩展到分层强化学习。这使我们能够利用时间抽象设置中预期的扩展、规划和泛化的额外好处。我们开发监督和强化学习方法，用于学习两个分层价值函数中状态、目标、选项和动作的嵌入：$Q(s, g, o; \theta)$ 和 $Q(s, g, o, a; θ)$。最后，我们展示了 HUVFA 的泛化，并表明它们优于相应的 UVFA。

大型语言模型的标记空间结构

分类： 微分几何, 人工智能, 53Z50, 58Z05

作者： Michael Robinson, Sourya Dey, Shauna Sweet

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08993v1

摘要： 大型语言模型通过将话语片段（标记）拟合到模型随后运行的高维环境潜在空间中，对自然语言中存在的相关结构进行编码。我们断言，为了对大型语言模型的行为和局限性有一个基本的、第一性原理的理解，理解这个标记子空间的拓扑和几何结构至关重要。在本文中，我们提出了令牌子空间的维度和 Ricci 标量曲率的估计器，并将其应用于三个中等大小的开源大型语言模型：GPT2、LLEMMA7B 和 MISTRAL7B。在所有三个模型中，使用这些测量，我们发现令牌子空间不是流形，而是分层流形，其中在每个单独的层上，里奇曲率显着为负。我们还发现尺寸和曲率与模型的生成流畅性相关，这表明这些发现对模型行为具有影响。

SubZero：内存高效 LLM 微调的随机子空间零阶优化

分类： 机器学习, 人工智能

作者： Ziming Yu, Pan Zhou, Sike Wang, Jia Li, Hua Huang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08989v1

摘要： 事实证明，微调大型语言模型 (LLM) 对于各种下游任务是有效的。然而，随着大语言模型规模的增长，反向传播的内存需求变得越来越令人望而却步。零阶 (ZO) 优化方法通过使用前向传递来估计梯度，提供了一种节省内存的替代方案，但梯度估计的方差通常与模型的参数维度$\unicode{x2013}$线性缩放，这对于大语言模型来说是一个重大问题。在本文中，我们提出了随机子空间零阶（SubZero）优化来解决LLM的高维度带来的挑战。我们引入了专为大语言模型量身定制的低秩扰动，可显着减少内存消耗，同时提高训练性能。此外，我们证明我们的梯度估计非常接近反向传播梯度，比传统的 ZO 方法具有更低的方差，并且在与 SGD 结合时确保收敛。实验结果表明，与 MeZO 等标准 ZO 方法相比，SubZero 在各种语言建模任务中增强了微调性能并实现了更快的收敛。

迈向可信赖的知识图推理：不确定性感知视角

分类： 人工智能, 计算和语言

作者： Bo Ni, Yu Wang, Lu Cheng, Erik Blasch, Tyler Derr

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08985v1

摘要： 最近，知识图（KG）已成功与大型语言模型（LLM）结合，以减轻其幻觉并增强其推理能力，例如在基于知识图谱的检索增强框架中。然而，当前的 KG-LLM 框架缺乏严格的不确定性估计，限制了它们在高风险应用中的可靠部署。由于其复杂的架构以及知识图和语言模型组件之间复杂的交互，将不确定性量化直接纳入 KG-LLM 框架会带来挑战。为了解决这一差距，我们提出了一种新的值得信赖的 KG-LLM 框架，即不确定性感知知识图推理（UAG），它将不确定性量化纳入 KG-LLM 框架。我们设计了一个不确定性感知的多步推理框架，利用保形预测为预测集提供理论保证。为了管理多步骤过程的错误率，我们还引入了错误率控制模块来调整各个组件内的错误率。大量实验表明，我们提出的 UAG 可以实现任何预定义的覆盖率，同时将预测集/间隔大小比基线平均减少 40%。

克服连续控制中的缓慢决策频率：用于无模型控制的基于模型的序列强化学习

分类： 机器学习, 人工智能

作者： Devdhar Patel, Hava Siegelmann

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08979v1

摘要： 强化学习（RL）正在迅速达到并超越人类水平的控制能力。然而，最先进的强化学习算法通常需要比人类能力快得多的时间步长和反应时间，这在现实世界中是不切实际的，并且通常需要专门的硬件。这样的速度在现实世界中很难实现，并且通常需要专门的硬件。我们引入了序列强化学习 (SRL)，这是一种 RL 算法，旨在为给定的输入状态生成一系列动作，从而以较低的决策频率实现有效控制。 SRL 通过采用在不同时间尺度上运行的模型和演员-评论家架构来解决学习动作序列的挑战。我们提出了一种“时间回忆”机制，批评者使用模型来估计原始动作之间的中间状态，为序列中的每个单独动作提供学习信号。训练完成后，参与者可以独立于模型生成动作序列，以较慢的频率实现无模型控制。我们在一系列连续控制任务上评估 SRL，证明它实现了与最先进算法相当的性能，同时显着降低了参与者样本的复杂性。为了更好地评估不同决策频率的绩效，我们引入了频率平均得分 (FAS) 指标。我们的结果表明，SRL 在 FAS 方面显着优于传统的 RL 算法，使其特别适合需要可变决策频率的应用。此外，我们将 SRL 与基于模型的在线规划进行比较，表明 SRL 实现了卓越的 FAS，同时在在线规划人员用于规划的培训期间利用相同的模型。

学习用于部分识别治疗效果的仪器的表示

分类： 机器学习, 人工智能, 机器学习

作者： Jonas Schweisthal, Dennis Frauen, Maresa Schröder, Konstantin Hess, Niki Kilbertus, Stefan Feuerriegel

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08976v1

摘要： 根据观察数据可靠地估计治疗效果在医学等许多学科中非常重要。然而，当因果推理文献中作为标准假设的无混杂性被违反时，估计就具有挑战性。在这项工作中，我们利用任意（可能是高维）工具来估计条件平均治疗效果（CATE）的界限。我们的贡献有三方面：（1）我们提出了一种通过将仪器映射到离散表示空间来进行部分识别的新颖方法，以便我们在 CATE 上产生有效的界限。这对于实际应用中的可靠决策至关重要。 (2) 我们推导了一个两步程序，该程序使用潜在仪器空间的定制神经分区来学习紧边界。因此，我们避免了由于数值近似或对抗性训练而导致的不稳定问题。此外，我们的程序旨在减少有限样本设置中的估计方差，以产生更可靠的估计。 (3) 我们从理论上证明我们的程序在减少估计方差的同时获得了有效的界限。我们进一步进行了广泛的实验，以证明在各种设置下的有效性。总的来说，我们的程序为从业者提供了一条利用潜在高维工具（例如孟德尔随机化）的新颖途径。

ALVIN：通过插值进行主动学习

分类： 机器学习, 人工智能

作者： Michalis Korakakis, Andreas Vlachos, Adrian Weller

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08972v1

摘要： 主动学习旨在通过从未标记数据池中选择最有用的实例来最大限度地减少注释工作。然而，典型的主动学习方法忽略了类别中不同示例组的存在，这些示例组的流行程度可能会有所不同，例如，在职业分类数据集中，某些人口统计数据在特定类别中的代表性不成比例。这种疏忽导致模型依赖于预测的捷径，即输入属性和代表性群体中出现的标签之间的虚假相关性。为了解决这个问题，我们提出了通过插值进行主动学习（ALVIN），它在代表性不足和代表性良好的组的示例之间进行类内插值，以创建锚点，即位于表示空间中示例组之间的人工点。通过选择靠近锚点的实例进行注释，ALVIN 识别出信息丰富的示例，将模型暴露于表示空间的区域，从而抵消快捷方式的影响。至关重要的是，由于该模型认为这些示例具有很高的确定性，因此典型的主动学习方法很可能会忽略它们。包括情感分析、自然语言推理和释义检测在内的六个数据集的实验结果表明，ALVIN 在分布内和分布外泛化方面均优于最先进的主动学习方法。

NoVo：在大型语言模型中用注意力头对幻觉进行规范投票

分类： 计算和语言, 人工智能

作者： Zheng Yi Ho, Siyuan Liang, Sen Zhang, Yibing Zhan, Dacheng Tao

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08970v1

摘要： 大型语言模型（LLM）中的幻觉仍然是一个主要障碍，特别是在事实准确性至关重要的高风险应用中。虽然表示编辑和阅读方法在减少幻觉方面取得了长足的进步，但它们严重依赖专门的工具和对域内样本的训练，这使得它们难以扩展并且容易过度拟合。这限制了它们的准确性增益和对不同数据集的通用性。本文提出了一种轻量级方法，即规范投票（NoVo），它利用注意力头规范尚未开发的潜力来显着提高零样本多项选择问题（MCQ）的事实准确性。 NoVo 首先通过仅使用 30 个随机样本的高效、仅推理算法自动选择与真值相关的头范数，从而使 NoVo 能够轻松扩展到不同的数据集。然后，在简单的投票算法中采用选定的头范数，这可以显着提高预测准确性。在 TruthfulQA MC1 上，NoVo 以惊人的优势超越了当前最先进的技术和所有以前的方法——至少 19 个准确点。 NoVo 对 20 个不同的数据集展示了出色的泛化能力，其中超过 90% 的数据集取得了显着的进步，远远超过了当前所有的表示编辑和读取方法。 NoVo 还揭示了微调策略和建立文本对抗性防御的可喜成果。 NoVo 的头部规范有效性在 LLM 可解释性、稳健性和可靠性方面开辟了新领域。

可控安全调整：推理时间适应不同的安全要求

分类： 计算和语言, 人工智能

作者： Jingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08968v1

摘要： 当前大型语言模型 (LLM) 安全调整的范式遵循一种一刀切的方法：模型拒绝与模型提供者认为不安全的任何内容进行交互。面对跨文化和地区不同的社会规范，这种方法缺乏灵活性。此外，用户可能有不同的安全需求，这使得具有静态安全标准的模型过于严格而无法使用，并且重新调整的成本也太高。我们提出了可控安全调整（CoSA），这是一个旨在使模型适应不同安全要求而无需重新训练的框架。我们不是调整固定模型，而是调整模型以遵循安全配置（所需安全行为的自由形式自然语言描述），这些配置作为系统提示的一部分提供。要调整模型安全行为，授权用户只需在推理时修改此类安全配置。为此，我们提出了 CoSAlign，这是一种以数据为中心的方法，用于调整大语言模型以轻松适应不同的安全配置。此外，我们设计了一种新颖的可控性评估协议，考虑有用性和配置安全性，将它们总结为CoSA-Score，并构建CoSapien，这是一个人类编写的基准，由具有不同安全要求的真实LLM用例和相应的评估提示组成。我们表明，CoSAlign 可以在强基线上带来显着的可控性收益，包括上下文对齐。我们的框架鼓励大语言模型更好地体现和适应多元人类价值观，从而提高其实用性。

语言不平衡驱动的多语言自我提升奖励

分类： 计算和语言, 人工智能

作者： Wen Yang, Junhong Wu, Chen Wang, Chengqing Zong, Jiajun Zhang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08964v1

摘要： 大型语言模型 (LLM) 在众多任务中都取得了最先进的性能。然而，这些进步主要有利于英语和汉语等“一流”语言，而许多其他语言的代表性不足。这种不平衡虽然限制了更广泛的应用，但在语言之间产生了自然的偏好排名，为以自我改进的方式引导大语言模型的多语言能力提供了机会。因此，我们提出$\textit{语言不平衡驱动的奖励}$，其中大语言模型内主导语言和非主导语言之间的固有不平衡被用作奖励信号。迭代DPO训练表明，这种方法不仅提高了非主导语言的LLM表现，而且还提高了主导语言的能力，从而产生迭代奖励信号。通过对该方法的两次迭代进行微调 Meta-Llama-3-8B-Instruct，可以持续改进指令跟踪和算术推理任务的多语言性能，X-AlpacaEval 排行榜上获胜率平均提高 7.46% 证明了这一点MGSM 基准测试的准确度为 13.9%。这项工作作为一个初步的探索，为大语言模型的多语言自我提升铺平了道路。

基于非 IID 数据评估联合 Kolmogorov-Arnold 网络

分类： 机器学习, 人工智能

作者： Arthur Mendonça Sasse, Claudio Miceli de Farias

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08961v1

摘要： 联合柯尔莫哥洛夫-阿诺德网络（F-KAN）已经被提出，但他们的评估还处于初始阶段。我们对 KAN（使用 B 样条和径向基函数作为激活函数）和具有相似参数数量的多层感知器 (MLP) 进行了比较，在 MNIST 分类任务中使用非 IID 分区进行 100 轮联邦学习100 个客户。对每个模型进行 15 次试验后，我们表明，Spline-KAN 可以在一半的时间（以轮为单位）内实现 MLP 所达到的最佳精度，而计算时间仅略有增加。

论广义“跳跃连接”的对抗性可转移性

分类： 机器学习, 人工智能

作者： Yisen Wang, Yichuan Mo, Dongxian Wu, Mingjie Li, Xingjun Ma, Zhouchen Lin

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08950v1

摘要： 跳跃连接是现代深度模型变得更深、更强大的重要组成部分。尽管它们在正常场景中取得了巨大成功（自然示例上最先进的分类性能），但我们研究并确定了对抗场景下跳跃连接的一个有趣属性，即使用跳跃连接可以更容易地生成高度可转移的对抗性例子。具体来说，在类似 ResNet 的模型（具有跳跃连接）中，我们发现在反向传播期间根据衰减因子使用来自跳跃连接的更多梯度而不是残差模块，可以制作具有高可迁移性的对抗性示例。上述方法被称为跳跃梯度法(SGM)。虽然从视觉领域的类似 ResNet 的模型开始，我们进一步将 SGM 扩展到更高级的架构，包括视觉变换器（ViT）和具有长度变化路径的模型和其他领域，即自然语言处理。我们对 ResNet、Transformers、Inceptions、神经架构搜索和大型语言模型 (LLM) 等各种模型进行全面的传输攻击。我们表明，在几乎所有情况下，采用 SGM 都可以极大地提高精心设计的攻击的可转移性。此外，考虑到实际使用的巨大复杂性，我们进一步证明 SGM 甚至可以提高模型集合或定向攻击的可转移性以及针对当前防御的隐秘性。最后，我们对 SGM 的运作方式提供了理论解释和实证见解。我们的研究结果不仅激发了对模型架构特征的新的对抗性研究，而且还为安全模型架构设计带来了进一步的挑战。我们的代码可在 https://github.com/mo666666/SGM 获取。

量子电路的可转移信念模型

分类： 人工智能, 量子物理学

作者： Qianli Zhou, Hao Luo, Lipeng Pan, Yong Deng, Eloi Bosse

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08949v1

摘要： 可迁移信念模型作为Dempster-Shafer理论的语义解释，使智能体能够在不精确和不完整的环境中进行推理和决策。该模型为处理不可靠的证词提供了独特的语义，与贝叶斯方法相比，允许更合理和通用的信念转移过程。然而，由于在更新信念函数时必须考虑信念质量和焦点集的结构，从而导致推理过程中额外的计算复杂性，可转移信念模型在最近的发展中逐渐失去了研究者的青睐。在本文中，我们在量子电路上实现了可转移置信模型，并证明置信函数在量子计算框架内为贝叶斯方法提供了更简洁、更有效的替代方案。此外，利用量子计算的独特特征，我们提出了几种新颖的信念转移方法。更广泛地说，本文介绍了量子人工智能模型基本信息表示的新视角，表明置信函数比贝叶斯方法更适合处理量子电路的不确定性。

元迁移学习赋能时态图网络进行跨城市房地产评估

分类： 机器学习, 人工智能

作者： Weijia Zhang, Jindong Han, Hao Liu, Wei Fan, Hao Wang, Hui Xiong

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08947v1

摘要： 房地产评估对于房地产交易、投资分析和房地产税收等各种工作都很重要。最近，深度学习通过利用网络平台的大量在线交易数据，在房地产评估方面显示出了巨大的前景。尽管如此，深度学习需要大量数据，因此它可能不适用于数据有限的巨大小城市。为此，我们提出元迁移学习赋能时态图网络（MetaTransfer），将有价值的知识从多个数据丰富的大都市转移到数据稀缺的城市，以提高估值绩效。具体来说，通过将不断增长的房地产交易与相关住宅社区建模为时间事件异构图，我们首先设计一个事件触发的时间图网络来模拟不断发展的房地产交易之间的不规则时空相关性。此外，我们将全市房地产评估制定为多任务动态图链接标签预测问题，其中城市中每个社区的评估被视为单独的任务。提出了基于超网络的多任务学习模块，以同时促进多个社区之间的城市内知识共享和特定于任务的参数生成，以适应社区的房地产价格分布。此外，我们提出了基于三级优化的元学习框架，以自适应地重新加权来自多个源城市的训练交易实例，以减轻负转移，从而提高跨城市知识转移的有效性。最后，基于五个真实世界数据集的大量实验证明了 MetaTransfer 与十一个基线算法相比具有显着的优越性。

大语言模型群体中社会习俗的动态：自发出现、集体偏见和临界点

分类： 多代理系统, 人工智能, 计算机与社会, 物理与社会

作者： Ariel Flint Ashery, Luca Maria Aiello, Andrea Baronchelli

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08948v1

摘要： 社会习俗是社会经济生活的基础。随着大量人工智能代理之间以及与人类之间的互动日益增多，他们形成共同约定的能力将决定他们如何有效地协调行为、融入社会并影响社会。在这里，我们使用模拟交互来研究大型语言模型（LLM）代理群体内约定的动态。首先，我们表明全球接受的社会习俗可以自发地产生于交流大语言模型之间的本地互动。其次，我们展示了在此过程中如何出现强烈的集体偏见，即使个体代理人似乎没有偏见。第三，我们研究了坚定的大语言模型少数群体如何通过建立新的社会习俗来推动社会变革。我们证明，一旦这些少数群体达到临界规模，他们就能不断推翻既定的行为。在所有情况下，将实验结果与最小多智能体模型的预测进行对比，使我们能够分离出 LLM 智能体的具体作用。我们的结果阐明了人工智能系统如何在没有明确编程的情况下自主制定规范，并对设计符合人类价值观和社会目标的人工智能系统具有影响。

最大化综合数据的潜力：随机矩阵理论的见解

分类： 机器学习, 人工智能, 统计理论, 统计理论

作者： Aymane El Firdoussi, Mohamed El Amine Seddik, Soufiane Hayou, Reda Alami, Ahmed Alzubaidi, Hakim Hacid

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08942v1

摘要： 合成数据在训练大型语言模型方面受到了关注，但质量差的数据可能会损害性能（参见 Shumailov 等人（2023）；Seddik 等人（2024））。一个潜在的解决方案是数据修剪，它仅保留基于评分函数（人类或机器反馈）的高质量数据。冯等人之前的工作。 (2024) 分析了随着样本量增加而使用合成数据训练的模型。我们通过使用随机矩阵理论来扩展这一点，以获得在高维设置中混合真实数据和修剪合成数据训练的二元分类器的性能。我们的研究结果确定了合成数据可以提高性能的条件，重点关注生成模型和验证策略的质量。我们还展示了合成标签噪声中的平滑相变，与之前无限样本限制中的尖锐行为形成对比。玩具模型和大型语言模型的实验验证了我们的理论结果。

欧洲语言的跨语言大语言模型评估

分类： 计算和语言, 人工智能, 机器学习

作者： Klaudia Thellmann, Bernhard Stadler, Michael Fromm, Jasper Schulze Buschhoff, Alex Jude, Fabio Barth, Johannes Leveling, Nicolas Flores-Herr, Joachim Köhler, René Jäkel, Mehdi Ali

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08928v1

摘要： 大型语言模型 (LLM) 的兴起彻底改变了多种语言和任务的自然语言处理。然而，以一致且有意义的方式评估多种欧洲语言的大语言模型表现仍然具有挑战性，特别是由于多语言基准的稀缺。我们引入了针对欧洲语言量身定制的跨语言评估方法。我们采用五个广泛使用的基准的翻译版本来评估 21 种欧洲语言的 40 名大语言模型的能力。我们的贡献包括检查翻译基准的有效性、评估不同翻译服务的影响，以及为大语言模型提供多语言评估框架，其中包括新创建的数据集：EU20-MMLU、EU20-HellaSwag、EU20-ARC、EU20-TruthfulQA 和 EU20 -GSM8K。基准和结果公开发布，以鼓励多语言大语言模型评估的进一步研究。

使用 SAM 2 进行零样本瞳孔分割：超过 1400 万张图像的案例研究

分类： 计算机视觉和模式识别, 人工智能, 人机交互

作者： Virmarie Maquiling, Sean Anthony Byrne, Diederick C. Niehorster, Marco Carminati, Enkelejda Kasneci

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08926v1

摘要： 我们探索 SAM 2（一种视觉基础模型）在推进注视估计和眼动追踪技术方面的变革潜力。通过显着减少注释时间、通过易于部署降低技术障碍以及提高分割准确性，SAM 2 解决了研究人员和从业人员面临的关键挑战。利用其零镜头分割功能和最少的用户输入（每个视频只需单击一次），我们在来自不同数据集的超过 1400 万张眼睛图像上测试了 SAM 2，这些数据集包括虚拟现实设置和使用可穿戴眼动仪记录的世界上最大的统一数据集。值得注意的是，在瞳孔分割任务中，SAM 2 与仅在眼睛图像上训练的特定领域模型的性能相匹配，无需微调即可实现高达 93% 的竞争平均交集 (mIoU) 分数。此外，我们还为这些广泛使用的数据集提供代码和分段掩码，以促进进一步的研究。

HyperPg——用于可解释深度学习的超球面上的原型高斯

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Maximilian Xiling Li, Korbinian Franz Rudolf, Nils Blank, Rudolf Lioutikov

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08925v1

摘要： 原型学习方法为黑盒深度学习模型提供了一种可解释的替代方案。 ProtoPNet 等方法可以学习测试图像的哪些部分“看起来像”训练图像中的已知原型部分，将预测能力与基于案例推理的固有可解释性相结合。然而，现有方法有两个主要缺点：A）它们仅依赖于确定性相似性得分，而没有统计置信度。 B）原型是在没有人工输入的情况下以黑盒方式学习的。这项工作引入了 HyperPg，这是一种利用潜在空间超球面上的高斯分布的新原型表示，具有可学习的均值和方差。 HyperPg 原型适应潜在空间中簇的传播并输出似然分数。新架构 HyperPgNet 利用 HyperPg 从像素级注释中学习与人类概念一致的原型。因此，每个原型代表一个特定的概念，例如颜色、图像纹理或图像主题的一部分。基于基础模型构建的概念提取管道提供像素级注释，显着减少人工标记工作。 CUB-200-2011 和斯坦福汽车数据集上的实验表明，HyperPgNet 在使用更少的参数和训练步骤的同时优于其他原型学习架构。此外，与概念一致的 HyperPg 原型是透明学习的，从而增强了模型的可解释性。

利用人工智能生成的代码探索认知参与技术的设计空间以增强学习

分类： 人机交互, 人工智能

作者： Majeed Kazemitabaar, Oliver Huang, Sangho Suh, Austin Z. Henley, Tovi Grossman

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08922v1

摘要： 新手程序员越来越依赖大型语言模型 (LLM) 来生成代码来学习编程概念。然而，这种互动可能会导致肤浅的参与，给学习者带来学习的错觉并阻碍技能发展。为了解决这个问题，我们进行了系统设计探索，开发了七种认知参与技术，旨在促进与人工智能生成代码的更深入参与。在本文中，我们描述了我们的设计过程、最初的七种技术以及受试者间研究 (N=82) 的结果。然后，我们迭代地完善了顶级技术，并通过受试者内研究（N = 42）进一步评估它们。我们评估了每种技术引入的摩擦、它们在帮助学习者在没有人工智能帮助的情况下将概念应用到同构任务方面的有效性，以及它们在协调学习者的感知和实际编码能力方面的成功。最终，我们的结果强调了最有效的技术：引导学习者逐步解决问题的过程，他们与人工智能进行交互式对话，在相应的代码被揭示之前提示每个阶段需要做什么。

CNN 的高效超参数重要性评估

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Ruinan Wang, Ian Nabney, Mohammad Golbabaee

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08920v1

摘要： 超参数选择是机器学习流程的一个重要方面，深刻影响模型的鲁棒性、稳定性和泛化能力。考虑到与神经网络相关的复杂超参数空间以及计算资源和时间的限制，优化所有超参数变得不切实际。在这种情况下，利用超参数重要性评估（HIA）可以通过缩小搜索空间来提供有价值的指导。这使得机器学习从业者能够将优化工作集中在对模型性能影响最大的超参数上，同时节省时间和资源。本文旨在使用 N-RReliefF 算法量化卷积神经网络（CNN）中一些超参数的重要性权重，为 HIA 方法在深度学习领域的应用奠定基础。我们进行了广泛的研究，通过在十个流行的图像分类数据集上训练超过一万个 CNN 模型，从而获得包含超参数配置实例及其相应性能指标的综合数据集。结果表明，在所研究的超参数中，CNN 模型最重要的 5 个超参数是卷积层数、学习率、dropout 率、优化器和历元。

使用 LASSO 进行测试驱动的软件实验：LLM 基准测试示例

分类： 软件工程, 人工智能, D.2.1; D.2.4; I.2.2; I.2.7

作者： Marcus Kessel

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08911v1

摘要： 经验软件工程面临着一个关键差距：缺乏用于快速开发和执行测试驱动软件实验（TDSE）的标准化工具，即涉及软件主题的执行以及对其“事实上”的观察和分析的实验运行时行为。在本文中，我们提出了一个名为 LASSO 的通用分析平台，它提供了一组最小的特定领域语言和数据结构来执行 TDSE。通过为用户提供可执行脚本语言来设计和执行 TDSE，除了静态确定的属性之外，LASSO 还可以有效评估运行时语义和执行特性。我们提供了一个 TDSE 示例，它展示了 LASSO 脚本编写功能的实际优势，即通过独立、可重用和可扩展的研究脚本来评估 LLM 代码生成的可靠性。 LASSO 平台可免费获取：https://softwareobservatorium.github.io/，演示视频可在 YouTube 上获取：https://youtu.be/tzY9oNTWXzw

社交媒体上跨领域论证立场分类的基准

分类： 计算和语言, 人工智能

作者： Jiaqing Yuan, Ruijie Xi, Munindar P. Singh

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08900v1

摘要： 论证立场分类在识别作者对特定主题的观点方面起着关键作用。然而，在不同领域生成不同的议论文对是具有挑战性的。现有的基准测试通常来自单个领域或专注于一组有限的主题。此外，用于准确标记的手动注释既耗时又费力。为了应对这些挑战，我们建议利用平台规则、随时可用的专家策划内容和大型语言模型来绕过人工注释的需要。我们的方法产生了一个多领域基准，包括来自三个来源的 4,498 个主题主张和 30,961 个论点，涵盖 21 个领域。我们在完全监督、零样本和少样本设置中对数据集进行基准测试，揭示不同方法的优点和局限性。我们以匿名方式隐藏了本研究中的数据集和代码。

在数据结构和算法课程中使用 ChatGPT：助教的视角

分类： 人机交互, 人工智能, 数据结构和算法, K.3.2; I.2.6

作者： Pooriya Jamie, Reyhaneh Hajihashemi, Sharareh Alipour

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08899v1

摘要： 集成 ChatGPT 等大型语言模型 (LLM) 正在彻底改变计算机科学教育领域。这些模型为丰富学生学习和支持助教 (TA) 提供及时反馈和补充学习资源提供了新的可能性。本研究深入探讨了 ChatGPT 在数据结构和算法 (DSA) 课程中的使用，特别是与 TA 监督相结合时。研究结果表明，将 ChatGPT 与结构化提示和主动助教指导相结合，可以增强学生对复杂算法概念的理解，提高参与度并提高学业成绩。然而，在解决学术诚信方面存在挑战，并且大语言模型在解决复杂问题方面存在局限性。该研究强调了助教积极参与对于减少学生对人工智能生成内容的依赖并扩大整体教育影响的重要性。结果表明，虽然大语言模型对教育有利，但它们的成功整合需要持续的监督以及人工智能和人类指导之间的深思熟虑的平衡。

脑 MRI 中 T1w 和 T1 图对比增强合成的条件生成模型

分类： 图像和视频处理, 人工智能, 神经元和认知

作者： Moritz Piening, Fabian Altekrüger, Gabriele Steidl, Elke Hattingen, Eike Steidl

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08894v1

摘要： 钆基造影剂（GBCA）增强对比度是神经放射学肿瘤诊断的重要工具。基于钆给药前后胶质母细胞瘤的脑部 MRI 扫描，我们通过神经网络进行增强预测，并做出了两项新贡献。首先，我们研究生成模型（更准确地说是条件扩散和流量匹配）在虚拟增强中不确定性量化的潜力。其次，我们检查定量 MRI 的 T1 扫描与 T1 加权扫描的性能。与 T1 加权扫描相比，这些扫描的优点是具有物理意义，因此具有可比的体素范围。为了比较这两种模式与不兼容的灰度值尺度的网络预测性能，我们建议使用 Dice 和 Jaccard 分数来评估对比度增强的感兴趣区域的分割。在各个模型中，我们观察到 T1 扫描比 T1 加权扫描有更好的分割效果。

戏剧：Mamba 支持的基于模型的强化学习样本和参数高效

分类： 机器学习, 人工智能, 机器人技术

作者： Wenlong Wang, Ivana Dusparic, Yucheng Shi, Ke Zhang, Vinny Cahill

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08893v1

摘要： 基于模型的强化学习 (RL) 为困扰大多数无模型 RL 算法的数据效率低下提供了解决方案。然而，学习鲁棒的世界模型通常需要复杂而深入的架构，而这些架构的计算和训练成本很高。在世界模型中，动力学模型对于准确预测尤其重要，并且已经探索了各种动力学模型架构，每种架构都有自己的挑战。目前，基于循环神经网络（RNN）的世界模型面临着梯度消失和难以有效捕获长期依赖关系等问题。相比之下，使用 Transformer 会遇到众所周知的自注意力机制问题，其中内存和计算复杂度都为 $O(n^2)$，其中 $n$ 表示序列长度。为了应对这些挑战，我们提出了一种基于状态空间模型 (SSM) 的世界模型，特别是基于 Mamba，它实现了 $O(n)$ 内存和计算复杂性，同时有效捕获长期依赖性并促进有效使用较长的训练序列。我们还引入了一种新颖的采样方法，以减轻训练早期阶段不正确的世界模型导致的次优性，并将其与上述技术相结合，以实现与其他最先进的基于模型的 RL 算法相当的归一化分数仅使用 700 万个可训练参数的世界模型。该模型易于访问，并且可以在现成的笔记本电脑上进行训练。我们的代码可在 https://github.com/realwenlongwang/drama.git 获取。

联邦学习实践：反思与预测

分类： 机器学习, 人工智能, 密码学和安全

作者： Katharine Daly, Hubert Eichner, Peter Kairouz, H. Brendan McMahan, Daniel Ramage, Zheng Xu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08892v1

摘要： 联邦学习 (FL) 是一种机器学习技术，使多个实体能够协作学习共享模型，而无需交换本地数据。在过去的十年中，FL 系统取得了长足的进步，可扩展到各个学习领域的数百万台设备，同时提供有意义的差分隐私 (DP) 保证。来自 Google、Apple 和 Meta 等组织的生产系统展示了 FL 的实际适用性。然而，关键挑战仍然存在，包括验证服务器端 DP 保证和协调跨异构设备的培训，限制了更广泛的采用。此外，大型（多模态）模型以及训练、推理和个性化之间的模糊界限等新兴趋势对传统的 FL 框架提出了挑战。作为回应，我们提出了一个重新定义的 FL 框架，优先考虑隐私原则而不是严格的定义。我们还通过利用可信执行环境和开源生态系统来制定前进道路，以应对这些挑战并促进 FL 的未来进步。

使用机器学习技术进行银行贷款预测

分类： 机器学习, 人工智能

作者： F M Ahosanul Haque, Md. Mahedi Hassan

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08886v1

摘要： 银行通过消费者和商业贷款对任何金融生态系统中的经济发展都很重要。然而，贷款也存在风险；因此，银行必须确定申请人的财务状况，以减少违约的可能性。因此，许多银行目前已采用数据分析和最先进的技术，以便在此过程中做出更好的决策。回报概率由应用机器学习算法的预测建模技术规定。在这个研究项目中，我们将应用多种机器学习方法来进一步提高贷款审批流程的准确性和效率。我们的工作重点是银行贷款审批的预测；我们使用机器学习方法处理了包含 148,670 个实例和 37 个属性的数据集。目标财产将贷款申请分为“已批准”和“已拒绝”组。使用了各种机器学习技术，即决策树分类、AdaBoosting、随机森林分类器、SVM 和 GaussianNB。随后，对模型进行了训练和评估。其中，表现最好的算法是 AdaBoosting，它达到了令人难以置信的 99.99% 的准确率。因此，结果表明集成学习如何有效地提高贷款审批决策的预测技能。所提出的工作指出了实现极其准确和高效的贷款预测模型的可能性，该模型为将机器学习应用于金融领域提供了有用的见解。

动态网络在线设计

分类： 人工智能, 社交和信息网络, 物理与社会

作者： Duo Wang, Andrea Araldo, Mounim El Yacoubi

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08875v1

摘要： 网络（例如电信或传输网络）的设计主要是在网络运营之前的规划阶段离线完成的。另一方面，人们投入了大量的精力来表征动态网络，即那些随时间演变的网络。本文的新颖之处在于我们介绍了一种动态网络在线设计的方法。当网络需要在动态和随机环境中运行时，就需要这样做。在这种情况下，人们可能希望随着时间的推移、动态地构建一个网络，以便对环境的变化做出反应并保持某些性能目标。我们通过基于蒙特卡罗树搜索的滚动水平优化来解决这个在线设计问题。在线网络设计的潜力展示了未来动态公共交通网络的设计，其中公交线路是动态构建的，以更好地适应随机用户需求。在这种情况下，我们将结果与最先进的动态车辆路径问题（VRP）解决方法进行比较，模拟来自纽约市出租车数据集的请求。与孤立地扩展车辆轨迹的经典 VRP 方法不同，我们的方法使我们能够构建结构化的线路总线网络，其中复杂的用户旅程是可能的，从而提高系统性能。

依赖类型高阶逻辑中的选择实验

分类： 计算机科学中的逻辑, 人工智能, F.4.1; I.2.3

作者： Daniel Ranalter, Chad E. Brown, Cezary Kaliszyk

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08874v1

摘要： 最近，引入了高阶逻辑的扩展（称为 DHOL），通过依赖类型丰富了语言，并创建了强大的扩展类型理论。在本文中，我们提出了两种向 DHOL 添加选择的方法。我们通过希尔伯特不定选择算子 $\epsilon$ 扩展了 DHOL 项结构，定义了选择项到 HOL 选择的翻译，将现有的翻译从 DHOL 扩展到 HOL，并证明翻译的扩展是完整的，并给出了一个论据健全性。我们最终评估了一组需要选择的相关 HOL 问题的扩展翻译。

好、坏和丑陋：水印、可转移攻击和对抗性防御

分类： 机器学习, 人工智能, 密码学和安全, 68T01, 94A60, 91A99

作者： Grzegorz Głuch, Berkant Turan, Sai Ganesh Nagarajan, Sebastian Pokutta

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08864v1

摘要： 我们将基于后门的水印和对抗性防御的现有定义形式化并扩展为两个玩家之间的交互协议。这些方案的存在本质上与其设计的学习任务相关。我们的主要结果表明，对于几乎每一个判别性学习任务，至少存在两者之一——水印或对抗性防御。 “几乎每一个”一词表明我们还确定了第三种违反直觉但必要的选项，即我们称之为可转移攻击的方案。通过可转移攻击，我们指的是一种计算查询的高效算法，它看起来与数据分布没有区别，并且欺骗了所有高效的防御者。为此，我们通过使用称为同态加密的加密工具的构造来证明可转移攻击的必要性。此外，我们表明，任何满足可转移攻击概念的任务都意味着密码原语，因此要求底层任务在计算上是复杂的。这两个事实意味着可转移攻击和密码学之间存在“等价性”。最后，我们证明有界 VC 维的任务类具有对抗性防御，并且它们的子类具有水印。

MATCH：针对异构边缘设备的基于模型感知 TVM 的编译

分类： 分布式、并行和集群计算, 人工智能, I.2.2; D.1.3

作者： Mohamed Amine Hamdi, Francesco Daghero, Giuseppe Maria Sarda, Josse Van Delm, Arne Symons, Luca Benini, Marian Verhelst, Daniele Jahier Pagliari, Alessio Burrello

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08855v1

摘要： 简化深度神经网络 (DNN) 在异构边缘平台上的部署，在相同的微控制器单元 (MCU) 指令处理器和用于张量计算的硬件加速器中耦合，正在成为 TinyML 领域的关键挑战之一。性能最佳的 DNN 编译工具链通常是针对单个 MCU 系列进行深度定制的，而移植到不同的异构 MCU 系列意味着几乎整个编译器需要进行劳动密集型的重新开发。另一方面，可重定向工具链（例如 TVM）无法利用自定义加速器的功能，从而导致生成通用但未经优化的代码。为了克服这种二元性，我们引入了 MATCH，这是一种基于 TVM 的新型 DNN 部署框架，借助可定制的基于模型的硬件抽象，可以跨不同的 MCU 处理器和加速器轻松敏捷地重新定位。我们证明，通过硬件成本模型增强的通用且可重定向的映射框架可以在不同目标上与自定义工具链竞争甚至优于自定义工具链，同时只需要定义抽象硬件模型和特定于 SoC 的 API。我们在两个最先进的异构 MCU（GAP9 和 DIANA）上测试了 MATCH。在 MLPerf Tiny 套件的四个 DNN 模型上，与使用普通 TVM 相比，MATCH 在 DIANA 上减少了高达 60.88 倍的推理延迟，这要归功于板载硬件加速器的利用。与 DIANA 完全定制的工具链 HTVM 相比，我们仍然降低了 16.94% 的延迟。在 GAP9 上，使用相同的基准，与专用 DORY 编译器相比，我们将延迟提高了 2.15 倍，这要归功于我们的异构 DNN 映射方法，该方法协同利用 DNN 加速器和板上可用的八核集群。

基于混合LLM-DDQN的V2I通信与自动驾驶联合优化

分类： 机器学习, 人工智能, 网络和互联网架构, 系统与控制, 系统与控制

作者： Zijiang Yan, Hao Zhou, Hina Tabassum, Xue Liu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08854v1

摘要： 大型语言模型（LLM）由于其出色的推理和理解能力，最近受到了极大的关注。这项工作探索将大语言模型应用于车辆网络，旨在共同优化车辆到基础设施（V2I）通信和自动驾驶（AD）政策。我们部署LLM用于AD决策，以最大限度地提高交通流量并避免碰撞，以确保道路安全，并使用双深度Q学习算法（DDQN）进行V2I优化，以最大限度地提高接收数据速率并减少频繁切换。特别是，对于支持 LLM 的 AD，我们采用欧几里得距离来识别以前探索过的 AD 经验，然后 LLM 可以从过去的好和坏决策中学习以进一步改进。然后，基于LLM的AD决策将成为V2I问题中状态的一部分，DDQN将相应地优化V2I决策。之后，AD和V2I决策迭代优化直至收敛。这种迭代优化方法可以更好地探索大语言模型和传统强化学习技术之间的相互作用，揭示了使用大语言模型进行网络优化和管理的潜力。最后，模拟表明我们提出的混合 LLM-DDQN 方法优于传统的 DDQN 算法，表现出更快的收敛和更高的平均奖励。

保形交互式模仿学习：处理专家轮班和间歇反馈

分类： 机器人技术, 人工智能, 人机交互, 机器学习

作者： Michelle Zhao, Reid Simmons, Henny Admoni, Aaditya Ramdas, Andrea Bajcsy

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08852v1

摘要： 在交互式模仿学习（IL）中，不确定性量化为学习者（即机器人）提供了一种通过主动在线寻求专家（即人类）的额外反馈来应对部署过程中遇到的分布变化的方法。当黑盒 IL 政策不确定时，先前的工作使用集成分歧或蒙特卡洛退出等机制来量化；然而，当面临部署时间分布变化时，这些方法可能会导致过度自信的估计。相反，我们认为我们需要不确定性量化算法，该算法可以利用在部署期间收到的专家人类反馈来在线调整机器人的不确定性。为了解决这个问题，我们利用在线共形预测，这是一种在给定地面实况标签流的情况下在线构建预测区间的无分布方法。然而，在交互式 IL 设置中，人类标签是间歇性的。因此，从保形预测方面，我们引入了一种称为间歇分位数跟踪（IQT）的新型不确定性量化算法，该算法利用间歇标签的概率模型，保持渐近覆盖保证，并凭经验实现所需的覆盖水平。从交互式 IL 方面，我们开发了 ConformalDAgger，这是一种新方法，其中机器人使用 IQT 校准的预测间隔作为部署时间不确定性的可靠度量，以主动查询更多专家反馈。我们将 ConformalDAgger 与之前的不确定性感知 DAgger 方法进行了比较，在这种情况下，由于专家策略的变化而出现（或不出现）分布变化。我们发现，在 7DOF 机器人操纵器上的模拟和硬件部署中，ConformalDAgger 在专家移动时检测到高度不确定性，并与基线相比增加了干预次数，从而使机器人能够更快地学习新行为。

无意的不一致：直接偏好优化中的似然位移

分类： 机器学习, 人工智能, 计算和语言, 机器学习

作者： Noam Razin, Sadhika Malladi, Adithya Bhaskar, Danqi Chen, Sanjeev Arora, Boris Hanin

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08847v1

摘要： 直接偏好优化（DPO）及其变体越来越多地用于使语言模型与人类偏好保持一致。尽管这些方法旨在教导模型相对于不良反应更频繁地生成首选反应，但先前的工作已经观察到，在训练期间，首选反应的可能性通常会降低。目前的工作揭示了这种反直觉现象的原因和影响，我们将其称为似然位移。我们证明，似然位移可能是灾难性的，将概率质量从首选响应转移到具有相反含义的响应。举一个简单的例子，训练模型使其更喜欢 $\texttt{No}$ 而不是 $\texttt{Never}$ 可以急剧增加 $\texttt{Yes}$ 的概率。此外，当调整模型以拒绝不安全提示时，我们表明，通过将概率质量从首选拒绝响应转移到有害响应（例如，将 Llama-3-8B-Instruct 的拒绝率从 74.4 降低），这种位移可能会无意中导致不对齐。 % 至 33.4%）。我们从理论上描述了似然位移是由引起相似嵌入的偏好驱动的，通过中心隐藏嵌入相似性（CHES）得分来衡量。根据经验，CHES 分数能够识别哪些训练样本对给定数据集中的似然位移贡献最大。过滤掉这些样本有效地减轻了我们实验中无意的未对齐情况。更广泛地说，我们的结果强调了以足够独特的偏好来整理数据的重要性，我们相信 CHES 分数可能会证明这一点很有价值。

通过消息传递神经网络和强化学习实现平等可达性的公共交通网络设计

分类： 人工智能

作者： Duo Wang, Maximilien Chau, Andrea Araldo

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08841v1

摘要： 设计能够满足人们出行需求的公共交通 (PT) 网络对于减少道路上的个人车辆数量、从而减少污染和拥堵至关重要。因此，城市可持续性与高效的公共交通紧密结合。当前传输网络设计（TND）的方法通常旨在优化广义成本，即包括运营商和用户成本的唯一数字。由于我们将 PT 的质量视为满足移动需求的能力，因此我们将重点放在 PT 的可达性上，即通过 PT 到达周围兴趣点的难易程度。城市地区的公共交通可达性普遍分布不均：郊区公共交通可达性普遍较差，这导致居民对私家车的依赖。因此，我们解决了公交线路设计问题，以尽量减少可达性地理分布的不平等。我们将最先进的消息传递神经网络 (MPNN) 和强化学习相结合。我们在一个以简化形式代表蒙特利尔市的用例中展示了我们的方法对抗元启发法（TND 中经典使用）的有效性。

利用蒙特卡罗树搜索对称约束生成多种低带隙分子

分类： 化学物理, 材料科学, 人工智能

作者： Akshay Subramanian, James Damewood, Juno Nam, Kevin P. Greenman, Avni P. Singhal, Rafael Gómez-Bombarelli

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08833v1

摘要： 有机光电材料由于其溶液可加工性、机械灵活性和可调谐电子性能而成为下一代电子器件的有前途的途径。特别是近红外（NIR）敏感分子在夜视设备和生物医学成像方面具有独特的应用。分子工程在开发 Y 系列分子等非富勒烯受体 (NFA) 方面发挥了至关重要的作用，这些受体显着提高了太阳能电池的功率转换效率 (PCE) 并增强了近红外区域的光谱覆盖范围。然而，系统地设计具有目标光电特性的分子，同时确保合成可及性仍然是一个挑战。为了解决这个问题，我们利用对称感知片段分解算法和片段约束蒙特卡罗树搜索（MCTS）生成器，利用来自以领域为中心、专利挖掘的有机电子分子数据集的结构先验。我们的方法生成的候选者保留了专利数据集的对称性约束，同时还表现出红移吸收，正如 TD-DFT 计算所验证的那样。

揭开分子秘密：用于可解释和可校准分子特性预测的大语言模型增强线性模型

分类： 机器学习, 人工智能

作者： Zhuoran Li, Xu Sun, Wanyu Lin, Jiannong Cao

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08829v1

摘要： 可解释的分子特性预测对于药物发现和材料科学等各个科学领域至关重要。尽管提供了内在的可解释性，线性模型仍难以捕获复杂的非线性模式。另一方面，大型语言模型（LLM）通过强大的推理能力产生准确的预测，但无法为其预测提供化学上有意义的解释。这项工作提出了一个名为 MoleX 的新颖框架，它利用大语言模型知识构建一个简单而强大的线性模型，用于准确的分子特性预测和忠实的解释。 MoleX 的核心是使用简单的线性模型对复杂的分子结构-性质关系进行建模，并通过大语言模型知识和精心设计的校准策略进行增强。具体来说，为了从 LLM 嵌入中提取最大量的任务相关知识，我们采用信息瓶颈启发的微调和稀疏性降维。然后使用这些信息嵌入来拟合线性模型以进行可解释的推理。此外，我们引入残差校准来解决由于线性模型对复杂 LLM 嵌入的表达能力不足而产生的预测误差，从而恢复 LLM 的预测能力并提高整体准确性。从理论上讲，我们提供了数学基础来证明 MoleX 的可解释性。大量实验表明，MoleX 在分子特性预测方面优于现有方法，在预测性能、可解释性和效率方面树立了新的里程碑。特别是，MoleX 支持 CPU 推理并加速大规模数据集处理，与 LLM 相比，其性能提高了 300 倍，且参数少了 100,000 个。此外，校准将模型性能提高了 12.7%，且不影响可解释性。

3D GAN 中的一次性生成域适应

分类： 计算机视觉和模式识别, 人工智能

作者： Ziqiang Li, Yi Wu, Chaoyue Wang, Xue Rui, Bin Li

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08824v1

摘要： 3D 感知图像生成需要大量的训练数据，以确保稳定的训练并降低过度拟合的风险。本文首先考虑了一项称为一次性 3D 生成域适应 (GDA) 的新颖任务，旨在仅依靠单个参考图像将预训练的 3D 生成器从一个域转移到新域。 One-shot 3D GDA 的特点是追求特定的属性，即高保真度、大多样性、跨域一致性、多视图一致性。在本文中，我们介绍了 3D-Adapter，这是第一个一次性 3D GDA 方法，用于多样化和忠实的生成。我们的方法首先明智地选择一个限制权重集进行微调，然后利用四个高级损失函数来促进适应。还实施了有效的渐进微调策略来增强适应过程。这三种技术组件的协同作用使 3D-Adapter 能够在 3D GDA 的所有所需属性上实现卓越的性能，并在数量和质量上得到证实。此外，3D-Adapter 将其功能无缝扩展到零样本场景，并保留了在预训练生成器的潜在空间内执行插值、重建和编辑等关键任务的潜力。代码可在 https://github.com/iceli1007/3D-Adapter 获取。

已售：使用以槽对象为中心的潜在动态进行强化学习

分类： 机器学习, 人工智能, 机器人技术

作者： Malte Mosbach, Jan Niklas Ewertz, Angel Villar-Corrales, Sven Behnke

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08822v1

摘要： 学习潜在动力学模型提供了代理对其环境的理解的与任务无关的表示。利用这些知识进行基于模型的强化学习，通过在想象中的部署中进行学习，有可能比无模型方法提高样本效率。此外，由于潜在空间作为行为模型的输入，世界模型学习到的信息表示有助于有效学习所需技能。大多数现有方法依赖于环境状态的整体表示。相比之下，人类对物体及其相互作用进行推理，预测行为将如何影响周围环境的特定部分。受此启发，我们提出了 Slot-Attention for Object-centric Latent Dynamics (SOLD)，这是一种新颖的算法，可以从像素输入中以无监督的方式学习以对象为中心的动态模型。我们证明，结构化的潜在空间不仅提高了模型的可解释性，而且还为行为模型的推理提供了宝贵的输入空间。我们的结果表明，在评估关系推理和低级操作能力的一系列基准机器人环境中，SOLD 的性能优于 DreamerV3（一种最先进的基于模型的 RL 算法）。视频可在 https://slot-latent-dynamics.github.io/ 获取。

StructRAG：通过推理时间混合信息结构化促进大语言模型的知识密集型推理

分类： 计算和语言, 人工智能

作者： Zhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08815v1

摘要： 检索增强生成（RAG）是在许多基于知识的任务中有效增强大型语言模型（LLM）的关键手段。然而，现有的 RAG 方法很难处理知识密集型推理任务，因为这些任务所需的有用信息严重分散。这一特性使得现有的 RAG 方法很难准确识别关键信息并通过这种噪声增强进行全局推理。在本文中，受人类在处理知识密集型推理时将原始信息转换为各种结构化知识的认知理论的启发，我们提出了一个新的框架StructRAG，它可以识别手头任务的最佳结构类型，将原始文档重建为这种结构化格式，并根据结果结构推断答案。跨各种知识密集型任务的大量实验表明，StructRAG 实现了最先进的性能，尤其是在具有挑战性的场景中表现出色，展示了其作为在复杂的现实应用中增强大语言模型的有效解决方案的潜力。

PoisonBench：评估大型语言模型对数据中毒的脆弱性

分类： 密码学和安全, 人工智能, 计算和语言

作者： Tingchen Fu, Mrinank Sharma, Philip Torr, Shay B. Cohen, David Krueger, Fazl Barez

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08811v1

摘要： 偏好学习是调整当前大语言模型的核心组成部分，但此过程可能容易受到数据中毒攻击。为了解决这个问题，我们引入了 PoisonBench，这是一个用于评估大型语言模型在偏好学习期间对数据中毒的敏感性的基准。数据中毒攻击可以操纵大型语言模型响应以包含隐藏的恶意内容或偏见，可能导致模型在看似正常运行的情况下生成有害或意外的输出。我们在 8 个现实场景中部署了两种不同的攻击类型，评估了 21 个广泛使用的模型。我们的研究结果揭示了一些令人担忧的趋势：（1）扩大参数大小并不能本质上增强抵御中毒攻击的能力； (2) 攻击效果与数据中毒率之间存在对数线性关系； (3) 数据中毒的影响可以推广到未包含在中毒数据中的外推触发因素。这些结果暴露了当前偏好学习技术的弱点，凸显了对恶意模型和数据操纵的更强大的防御的迫切需要。

DCNet：DVL 的数据驱动框架

分类： 机器人技术, 人工智能

作者： Zeev Yampolsky, Itzik Klein

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08809v1

摘要： 自主水下航行器 (AUV) 是用于多种应用的水下机器人平台。 AUV 的导航解决方案在很大程度上依赖于惯性传感器和多普勒速度计程仪 (DVL) 的融合，后者可提供准确的速度更新。为了确保精确导航，在任务开始估计其误差项之前进行 DVL 校准。在校准过程中，AUV 遵循复杂的轨迹并采用非线性估计滤波器来估计误差项。在本文中，我们介绍了 DCNet，这是一种以创新方式利用二维卷积核的数据驱动框架。使用 DCNet 和我们提出的 DVL 误差模型，我们提供快速校准程序。这可以应用于几乎恒定速度的轨迹。为了训练和测试我们提出的方法，使用了 276 分钟长的数据集，其中包含真实的 DVL 记录测量值。我们证明，与基线方法相比，使用低性能 DVL 的准确度平均提高了 70%，校准时间平均提高了 80%。由于这些改进，采用低成本 DVL 的 AUV 可以实现更高的精度、更短的校准时间，并应用简单的近乎恒定速度的校准轨迹。我们的研究结果还为利用低成本、高精度 DVL 的海洋机器人技术开辟了新的应用。

M$^3$-Impute：用于缺失值插补的掩模引导表示学习

分类： 机器学习, 人工智能

作者： Zhongyi Yu, Zhenghao Wu, Shuhan Zhong, Weifeng Su, S. -H. Gary Chan, Chul-Ho Lee, Weipeng Zhuo

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08794v1

摘要： 缺失值是一个常见问题，给数据分析和机器学习带来了重大挑战。这个问题需要开发一种有效的插补方法来准确填充缺失值，从而提高数据集的整体质量和实用性。然而，现有的插补方法未能在嵌入初始化阶段明确考虑数据中的“缺失”信息，并在学习过程中对纠缠特征和样本相关性进行建模，从而导致性能较差。我们提出 M$^3$-Impute，其目的是明确利用缺失信息以及与新颖掩蔽方案的相关性。 M$^3$-Impute 首先将数据建模为二部图，并使用图神经网络来学习节点嵌入，其中精炼的嵌入初始化过程直接合并缺失信息。然后通过 M$^3$-Impute 的新颖特征相关单元 (FRU) 和样本相关单元 (SRU) 对其进行优化，有效捕获特征和样本相关性以进行插补。在三种不同缺失设置下的 25 个基准数据集上进行的实验结果表明，M$^3$-Impute 的有效性，平均获得 20 个最佳和 4 个次佳 MAE 分数。

VLM 看，机器人做：通过视觉语言模型将人类演示视频转换为机器人行动计划

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Beichen Wang, Juexiao Zhang, Shuwen Dong, Irving Fang, Chen Feng

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08792v1

摘要： 视觉语言模型（VLM）最近因其常识推理和泛化能力而被机器人技术采用。现有工作已应用 VLM 根据自然语言指令生成任务和运动规划，并模拟机器人学习的训练数据。在这项工作中，我们探索使用 VLM 来解释人类演示视频并生成机器人任务规划。我们的方法将关键帧选择、视觉感知和 VLM 推理集成到管道中。我们将其命名为 SeeDo，因为它使 VLM 能够“看到”人类演示并向机器人解释相应的计划以供其“执行”。为了验证我们的方法，我们收集了一组长期人类视频，展示了三个不同类别的拾取和放置任务，并设计了一组指标，以根据多个基准（包括最先进的视频）对 SeeDo 进行全面基准测试。输入 VLM。实验证明了 SeeDo 的卓越性能。我们进一步在模拟环境和真实的机器人手臂上部署生成的任务计划。

F2A：利用 Feign 安全检测代理进行快速注入的创新方法

分类： 密码学和安全, 人工智能

作者： Yupeng Ren

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08776v1

摘要： 随着大型语言模型（LLM）的快速发展，LLM在内容安全检测领域涌现出众多成熟的应用。然而，我们发现大语言模型对安全检测剂表现出盲目信任。一般的大语言模型可能会因该漏洞而受到黑客的攻击。为此，本文提出了一种名为假代理攻击（F2A）的攻击方法。通过这种恶意伪造方法，在提示中添加伪造的安全检测结果，可以绕过LLM的防御机制，从而获取有害内容并劫持正常会话。，进行了一系列实验。在这些实验中，分析论证了F2A对LLM的劫持能力，探讨了LLM盲目相信安全检测结果的根本原因。实验涉及各种场景，将虚假安全检测结果注入提示中，并密切监视响应以了解漏洞的程度。此外，本文还为这种攻击提供了合理的解决方案，强调大语言模型必须严格评估增强代理的结果，以防止生成有害内容。通过这样做，可以显着提高可靠性和安全性，保护大语言模型免受 F2A 的影响。

通过基于重建的通道修剪在边缘设备上进行高效的多目标跟踪

分类： 计算机视觉和模式识别, 人工智能

作者： Jan Müller, Adrian Pigors

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08769v1

摘要： 多目标跟踪 (MOT) 技术的进步带来了维持高性能同时解决关键安全和隐私问题的双重挑战。在行人跟踪等涉及敏感个人数据的应用中，如果数据传输到外部服务器，隐私侵犯和数据滥用的可能性将成为一个重大问题。为了减轻这些风险，直接在智能相机等边缘设备上处理数据已成为一种可行的解决方案。边缘计算可确保敏感信息保留在本地，从而符合严格的隐私原则并显着减少网络延迟。然而，在边缘设备上实施 MOT 并非没有挑战。边缘设备通常拥有有限的计算资源，因此需要开发能够在这些限制下提供实时性能的高度优化的算法。最先进的 MOT 算法的计算要求与边缘设备的功能之间的差异强调了一个重大障碍。为了应对这些挑战，我们提出了一种专门用于压缩复杂网络的神经网络修剪方法，例如现代 MOT 系统中使用的网络。这种方法通过确保有限边缘设备（例如 NVIDIA 的 Jetson Orin Nano）的限制内的高精度和高效率来优化 MOT 性能。通过应用我们的剪枝方法，我们的模型大小减少了高达 70%，同时保持了较高的准确度，并进一步提高了 Jetson Orin Nano 上的性能，这证明了我们的方法对于边缘计算应用的有效性。

将超级标签特征集成到神经不连续成分解析中

分类： 计算和语言, 人工智能, 形式语言和自动机理论

作者： Lukas Mielczarek

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08766v1

摘要： 句法分析在自然语言处理中至关重要，成分结构是一种广泛使用的句法描述。传统的选区观点要求成分由相邻的单词组成，但这对分析具有非局部依赖性的语法提出了挑战，这在德语等语言中很常见。因此，在许多树库中，例如德语的 NeGra 和 TIGER 以及英语的 DPTB，远程依赖关系由交叉边表示。各种语法形式已被用来描述不连续树 - 通常解析时间复杂度很高。基于转换的解析旨在通过消除对显式语法的需要来减少这个因素。相反，神经网络经过训练，可以在给定原始文本输入的情况下使用大型注释语料库的监督学习来生成树。 Coavoux 和 Cohen (2019) 提出了一个关于基于无堆栈转换的解析器的优雅提案，成功地允许在最坏情况的二次时间内推导句子上的任何不连续构成树。这项工作的目的是探索将超级标签信息引入基于转换的不连续成分解析中。在像 CCG (Steedman, 1989) 这样的词汇化语法形式中，信息类别被分配给句子中的单词，并充当构成句子语法的构建块。这些超级标签指示单词的结构角色以及与周围项目的句法关系。该研究通过使用专用的超级标记器作为神经解析器（管道）的附加输入，并联合训练用于解析和超级标记（多任务）的神经模型来检验合并超级标记信息。除了 CCG 之外，还将比较其他几个框架（LTAG-spinal、LCFRS）和序列标记任务（分块、依存解析）作为解析辅助任务的适用性。

解锁 FedNL：独立的计算优化实施

分类： 机器学习, 人工智能, 数学软件, 表现, 优化与控制, G.4; C.3; I.2.11

作者： Konstantin Burlachenko, Peter Richtárik

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08760v1

摘要： 联邦学习 (FL) 是一种新兴范例，它使智能代理能够以分布式方式协作训练机器学习 (ML) 模型，从而无需共享本地数据。最近的工作 (arXiv:2106.02969) 引入了一系列联邦牛顿学习 (FedNL) 算法，标志着将二阶方法应用于 FL 和大规模优化的重要一步。然而，FedNL 参考原型存在三个严重的实际缺陷：(i) 在服务器级工作站中启动单个实验需要 4.8 小时； (ii) 原型仅模拟多节点设置； (iii) 将原型集成到资源受限的应用程序中具有挑战性。为了弥合理论与实践之间的差距，我们提出了适用于单节点和多节点设置的 FedNL、FedNL-LS、FedNL-PP 的独立实现。我们的工作解决了上述问题，并将挂钟时间减少了 1000 倍。借助此功能，FedNL 的性能优于单节点 CVXPY (arXiv:1603.00943) 和多节点 Apache Spark (arXiv:1505.06807)、Ray/Scikit-Learn (arXiv:1712.05889) 中训练逻辑回归的替代方案。最后，我们为 FedNL 提出了两种面向实用的压缩器——自适应 TopLEK 和缓存感知的 RandSeqK，它们实现了 FedNL 的理论。

通过与架构无关的图转换增强 GNN：系统分析

分类： 机器学习, 人工智能

作者： Zhifei Li, Gerrit Großmann, Verena Wolf

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08759v1

摘要： 近年来，出现了各种各样的图神经网络（GNN）架构，每种架构都有自己的优点、缺点和复杂性。各种技术，包括重新布线、提升和具有中心性值的节点注释，已被用作增强 GNN 性能的预处理步骤。然而，没有普遍接受的最佳实践，并且架构和预处理对性能的影响通常仍然不透明。本研究系统地探讨了各种图转换作为预处理步骤对标准数据集上常见 GNN 架构性能的影响。根据模型区分非同构图的能力（称为表达能力）来评估模型。我们的研究结果表明，某些转换，特别是那些通过中心性度量来增强节点特征的转换，可以持续提高表达能力。然而，这些收益也伴随着权衡，因为图编码等方法在增强表达能力的同时，也带来了广泛使用的 python 包中的数值不准确问题。此外，我们发现这些预处理技术在处理涉及 3-WL 和 4-WL 不可区分图的复杂任务时受到限制。

Hespi：自动检测标本表信息的管道

分类： 计算机视觉和模式识别, 人工智能, 信息检索

作者： Robert Turnbull, Emily Fitzgerald, Karen Thompson, Joanne L. Birch

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08740v1

摘要： 与生物多样性相关的样本数据受到生物、环境、气候和保护科学的追捧。从样本图像中提取数据需要进行速率转换，以消除对这些数据的人工转录的依赖所带来的瓶颈。我们应用先进的计算机视觉技术开发了“Hespi”（植物标本馆标本表 PIpeline），它从植物标本馆标本的机构标签上的数字图像中提取目录前的收集数据子集。该管道集成了两种目标检测模型；第一个检测基于文本的标签周围的边界框，第二个检测主要机构标签上基于文本的数据字段周围的边界框。该管道将基于文本的机构标签分类为打印、打字、手写或组合，并应用光学字符识别 (OCR) 和手写文本识别 (HTR) 进行数据提取。然后根据分类单元名称的权威数据库对识别的文本进行更正。提取的文本还借助多模式大语言模型 (LLM) 进行纠正。 Hespi 准确检测并提取测试数据集的文本，包括来自国际植物标本馆的标本表图像。管道的组件是模块化的，用户可以使用自己的数据训练自己的模型，并使用它们代替提供的模型。

制定评估大型语言模型中韩国法律语言理解的实用基准

分类： 计算和语言, 人工智能

作者： Yeeun Kim, Young Rok Choi, Eunkyung Choi, Jinhwan Choi, Hai Jin Park, Wonseok Hwang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08731v1

摘要： 大型语言模型（LLM）在法律领域表现出了卓越的性能，GPT-4 甚至通过了美国的统一律师考试，但其对于非标准化任务和英语以外语言的任务的功效仍然有限。这强调了在申请之前对每个法律体系内的大语言模型进行仔细评估的必要性。在这里，我们介绍 KBL，这是评估大语言模型韩语法律语言理解能力的基准，由 (1) 7 项法律知识任务（510 个示例）、(2) 4 项法律推理任务（288 个示例）和 (3) 韩语法律推理任务组成。律师资格考试（4 个领域、53 个任务、2,510 个示例）。前两个数据集是与律师密切合作开发的，旨在以经过认证的方式在实际场景中评估大语言模型。此外，考虑到法律从业者经常使用大量法律文件进行研究，我们在闭卷环境中评估大语言模型，他们仅依靠内部知识，在检索增强生成（RAG）环境中评估大语言模型，使用韩国法规语料库和先例。结果显示了巨大的改进空间和机会。

从 N-gram 到用于语言识别的预训练多语言模型

分类： 计算和语言, 人工智能

作者： Thapelo Sindane, Vukosi Marivate

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08728v1

摘要： 在本文中，我们研究了 N-gram 模型和大型预训练多语言模型在 11 种南非语言中的语言识别 (LID) 的使用情况。对于 N-gram 模型，本研究表明，有效的数据大小选择对于建立目标语言的有效频率分布仍然至关重要，从而有效地对每种语言进行建模，从而提高语言排名。对于预训练的多语言模型，我们进行了广泛的实验，涵盖了各种大规模预训练的多语言 (PLM) 模型 - mBERT、RemBERT、XLM-r 和以 Afri 为中心的多语言模型 - AfriBERTa、Afro-XLMr、AfroLM和塞伦盖蒂。我们进一步将这些模型与可用的大规模语言识别工具进行比较：紧凑语言检测器 v3 (CLD V3)、AfroLID、GlotLID 和 OpenLID，以强调基于焦点的 LID 的重要性。由此，我们表明 Serengeti 是跨模型的卓越模型：平均而言，N-gram 到 Transformers。此外，我们提出了一种使用 NHCLT + Vukzenzele 语料库训练的基于 BERT 的轻量级 LID 模型 (za_BERT_lid)，其性能与我们表现最佳的以非洲为中心的模型相当。

论更高RoPE注意力维度的token距离建模能力

分类： 计算和语言, 人工智能

作者： Xiangyu Hong, Che Jiang, Biqing Qi, Fandong Meng, Mo Yu, Bowen Zhou, Jie Zhou

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08703v1

摘要： 基于旋转位置嵌入（RoPE）的长度外推算法在扩展语言模型的上下文长度方面显示出了有希望的结果。然而，理解位置嵌入如何捕获更长期的上下文信息仍然难以捉摸。基于不同维度对应于 RoPE 编码中不同变化频率的直觉，我们进行了维度级分析，以研究注意力头的隐藏维度与其对捕获长距离依赖性的贡献之间的相关性。使用我们的相关性度量，我们从各种长度外推模型中识别出一种特定类型的注意力头，我们将其命名为位置头。这些头部表现出对远程信息交互的强烈关注，并在长输入处理中发挥着关键作用，我们的消融证明了这一点。我们进一步证明了长度外推的效率与这些头的高维注意力分配的扩展之间的相关性。位置中心词的识别为未来的长文本理解研究提供了见解。

恢复链：多任务图像恢复模型是零样本逐步通用图像恢复器

分类： 计算机视觉和模式识别, 人工智能

作者： Jin Cao, Deyu Meng, Xiangyong Cao

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08688v1

摘要： 尽管以前的工作通常针对孤立的降解类型，但最近的研究越来越集中于解决复合降解，其中涉及多种不同的孤立降解的复杂相互作用。认识到指数数量的可能退化组合带来的挑战，我们提出了通用图像恢复（UIR），这是一种新的任务设置，要求模型在一组退化基础上进行训练，然后消除这些基础可能构成的任何退化。零射击方式。受到促使大语言模型逐步解决问题的思想链的启发，我们提出了恢复链（CoR），它指示模型逐步消除未知的复合退化。通过将简单的退化鉴别器集成到预训练的多任务模型中，CoR 促进了模型每一步删除一个退化基础的过程，继续这一过程，直到图像从未知的复合退化中完全恢复。大量实验表明，CoR 显着提高了模型在消除复合退化方面的性能，取得了与所有退化训练的最先进 (SoTA) 方法相当或超过的结果。代码将在 https://github.com/toummHus/Chain-of-Restoration 发布。

SmartPretrain：用于运动预测的模型无关和数据集无关表示学习

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Yang Zhou, Hao Shao, Letian Wang, Steven L. Waslander, Hongsheng Li, Yu Liu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08669v1

摘要： 预测周围智能体的未来运动对于自动驾驶汽车 (AV) 在动态的人机混合环境中安全运行至关重要。然而，大规模驾驶数据集的稀缺阻碍了稳健且可推广的运动预测模型的开发，限制了它们捕获复杂交互和道路几何形状的能力。受自然语言处理 (NLP) 和计算机视觉 (CV) 最新进展的启发，自监督学习 (SSL) 由于学习丰富且可转移的场景表示而在运动预测社区中获得了极大的关注。尽管如此，现有的运动预测预训练方法主要集中在特定的模型架构和单个数据集上，限制了它们的可扩展性和通用性。为了应对这些挑战，我们提出了 SmartPretrain，这是一种通用且可扩展的 SSL 运动预测框架，它与模型和数据集无关。我们的方法集成了对比和重构 SSL，利用生成范式和判别范式的优势来有效地表示时空演化和交互，而无需施加架构限制。此外，SmartPretrain 采用与数据集无关的场景采样策略，集成了多个数据集，增强了数据量、多样性和鲁棒性。对多个数据集的广泛实验表明，SmartPretrain 能够持续提高跨数据集、数据分割和主要指标的最先进预测模型的性能。例如，SmartPretrain 将 Forecast-MAE 的 MissRate 显着降低了 10.6%。这些结果凸显了 SmartPretrain 作为统一、可扩展的运动预测解决方案的有效性，突破了小数据机制的限制。代码可在 https://github.com/youngzhou1999/SmartPretrain 获取

DeltaDQ：通过分组丢弃和单独量化实现微调 LLM 的超高增量压缩

分类： 机器学习, 人工智能

作者： Yanfeng Jiang, Zelan Yang, Bohua Chen, Shen Li, Yong Li, Tao Li

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08666v1

摘要： 大型语言模型通过监督微调在各种下游任务上实现了卓越的性能。然而，下游任务和实际需求的多样性使得部署多个全参数微调模型具有挑战性。当前压缩增量权重的方法很难实现超高压缩，无法最大限度地减少部署开销。为了解决上述问题，我们提出了一种新颖的分布驱动的增量压缩框架DeltaDQ，它利用Group-wise Dropout和单独量化来实现增量权重的超高压缩。我们观察到，增量权重的矩阵计算中间结果表现出极小的方差和最小-最大范围特征，称为平衡中间结果。利用这种现象，我们引入了 Group-wise Dropout，以使用最佳组大小对增量权重执行 dropout。此外，使用分离量化，对稀疏权重进行量化和分解以实现较低比特。实验结果表明，与跨不同参数范围的 WizardMath 和 WizardCoder 模型的基线相比，DeltaDQ 实现了 16 倍的压缩，并且精度有所提高。此外，DeltaDQ还展示了超高压缩比的能力，WizardMath-7B模型实现了128倍压缩，WizardMath-70B模型实现了512倍压缩。

DistDD：通过梯度匹配进行分布式数据蒸馏聚合

分类： 机器学习, 人工智能

作者： Peiran Wang, Haohan Wang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08665v1

摘要： 在本文中，我们介绍了 DistDD，这是联邦学习框架内的一种新颖方法，它通过直接在客户端设备上提取数据来减少重复通信的需要。与需要跨节点迭代模型更新的传统联邦学习不同，DistDD 促进了一次性蒸馏过程，提取全局蒸馏数据集，维护联邦学习的隐私标准，同时显着降低通信成本。通过利用 DistDD 的蒸馏数据集，FL 的开发人员可以在 FL 上实现即时参数调整和神经架构搜索，而无需多次重复整个 FL 过程。我们提供了 DistDD 算法的详细收敛证明，增强了其实际应用的数学稳定性和可靠性。我们的实验证明了 DistDD 的有效性和鲁棒性，特别是在非独立同分布中。和错误标记的数据场景，展示了其处理复杂的现实世界数据挑战的潜力，这与传统的联邦学习方法截然不同。我们还评估了 DistDD 在用例中的应用，并证明了它在 NAS 用例中的有效性和通信节省。

RePD：通过基于检索的提示分解过程防御越狱攻击

分类： 密码学和安全, 人工智能

作者： Peiran Wang, Xiaogeng Liu, Chaowei Xiao

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08660v1

摘要： 在本研究中，我们引入了 RePD，这是一种基于创新攻击检索的提示分解框架，旨在减轻大型语言模型 (LLM) 越狱攻击的风险。尽管针对道德一致性进行了严格的预培训和微调，大语言模型仍然容易受到越狱攻击。 RePD 采用一次性学习模型，它访问预先收集的越狱提示模板数据库，以识别和分解嵌入在用户提示中的有害查询。这一过程涉及将越狱提示分解到用户的原始查询中，整合到一次性学习示例中，以有效地教导大语言模型辨别和分离恶意组件。因此，大语言模型能够首先消除任何潜在的有害元素，然后再以符合其道德准则的方式解决用户的提示。 RePD 具有多功能性，并且与充当代理的各种开源大语言模型兼容。通过对有害和良性提示的全面实验，我们证明了我们提出的 RePD 在增强 LLM 抵御越狱攻击的能力方面的功效，而不会影响其响应典型用户请求的性能。

radarODE-MTL：具有偏心梯度对齐的多任务学习框架，用于基于雷达的鲁棒心电图重建

分类： 信号处理, 人工智能

作者： Yuanyuan Zhang, Rui Yang, Yutao Yue, Eng Gee Lim

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08656v1

摘要： 毫米波雷达有望以不引人注目的方式提供强大而准确的生命体征监测。然而，雷达信号在传播过程中可能会因环境噪声或随机身体运动而失真，破坏微妙的心脏活动并破坏生命体征恢复。特别是心电图（ECG）信号的恢复严重依赖于深度学习模型，并且对噪声敏感。因此，这项工作创造性地将基于雷达的心电图恢复解构为三个单独的任务，并提出了一种多任务学习（MTL）框架雷达ODE-MTL，以提高针对一致和突然噪声的鲁棒性。此外，为了缓解优化单个任务时的潜在冲突，提出了一种新颖的多任务优化策略——偏心梯度对齐（EGA），根据正交空间中的任务难度动态修剪特定于任务的梯度。所提出的带有 EGA 的雷达ODE-MTL 在公共数据集上进行了评估，精度显着提高，并且在噪声下性能保持一致。实验结果表明，雷达ODE-MTL可以从雷达信号中鲁棒地重建准确的心电信号，并暗示了其在现实生活中的应用前景。该代码位于：http://github.com/ZYY0844/radarODE-MTL。

SOAK：相同/其他/所有 K 折交叉验证，用于估计数据子集中模式的相似性

分类： 机器学习, 人工智能, 机器学习

作者： Toby Dylan Hocking, Gabrielle Thibault, Cameron Scott Bodine, Paul Nelson Arellano, Alexander F Shenkin, Olivia Jasmine Lindly

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08643v1

摘要： 在机器学习的许多实际应用中，我们有兴趣知道是否有可能对我们迄今为止收集的数据进行训练，并对在某些方面（时间）有质的不同的新测试数据子集获得准确的预测。时期、地理区域等）。另一个问题是数据子集是否足够相似，以便在模型训练期间组合子集是有利的。我们提出了 SOAK（Same/Other/All K-fold cross-validation），这是一种可以用来回答这两个问题的新方法。 SOAK系统地比较在不同数据子集上训练的模型，然后用于在固定测试子集上进行预测，以估计数据子集中可学习/可预测模式的相似性。我们展示了在 6 个新的真实数据集（具有地理/时间子集，以检查预测在新子集上是否准确）、3 个图像对数据集（子集是不同的图像类型，以检查我们是否获得更小的预测误差）上使用 SOAK 的结果在相似的图像上），以及 11 个具有预定义训练/测试分割的基准数据集（以检查预定义分割的相似性）。

用于优化梯度下降中 ROC 曲线下面积的高效线搜索

分类： 机器学习, 人工智能, 机器学习

作者： Jadon Fowler, Toby Dylan Hocking

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08635v1

摘要： 接收器操作特征 (ROC) 曲线对于二元分类和变化点检测的评估很有用，但很难用于学习，因为曲线下面积 (AUC) 是分段常数（几乎到处梯度为零）。最近，假阳性率和假阴性率的最小面积 (AUM) 被提议作为 AUC 的可微分替代指标。在本文中，我们研究了 AUM/AUC 的分段线性/常数性质，并提出了新的有效路径跟踪算法，用于在优化线性模型时选择梯度下降（线搜索）每一步的最佳学习率。值得注意的是，我们提出的线搜索算法与恒定步长的梯度下降具有相同的对数线性渐近时间复杂度，但它计算 AUM/AUC 作为步长函数的完整表示。在我们对二元分类问题的实证研究中，我们验证了我们提出的算法快速且准确；在变化点检测问题中，我们表明所提出的算法与网格搜索一样准确，但速度更快。

文字作为信标：用高级语言提示指导强化学习智能体

分类： 人工智能, 计算和语言, 机器学习

作者： Unai Ruiz-Gonzalez, Alain Andres, Pedro G. Bascoy, Javier Del Ser

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08632v1

摘要： 强化学习 (RL) 中的稀疏奖励环境对探索提出了重大挑战，通常会导致学习过程效率低下或不完整。为了解决这个问题，这项工作提出了一种师生强化学习框架，利用大型语言模型（LLM）作为“教师”，通过将复杂任务分解为子目标来指导智能体的学习过程。由于大语言模型具有基于结构和目的的文本描述来理解强化学习环境的固有能力，因此大语言模型可以提供子目标，以类似于人类的方式完成为环境定义的任务。在此过程中，提出了三种类型的子目标：相对于代理的位置目标、对象表示以及由大语言模型直接生成的基于语言的指令。更重要的是，我们表明可以仅在训练阶段查询 LLM，从而使代理能够在没有任何 LLM 干预的情况下在环境中运行。我们通过评估三个最先进的开源大语言模型（Llama、DeepSeek、Qwen）来评估该框架的性能，在 MiniGrid 基准的各种程序生成的环境中引出子目标。实验结果表明，这种基于课程的方法可加速学习并增强对复杂任务的探索，与最近为稀疏奖励环境设计的基线相比，训练步骤的收敛速度提高了 30 至 200 倍。

CryoFM：基于流的冷冻电镜密度基础模型

分类： 生物分子, 人工智能, 计算工程、金融和科学, 机器学习

作者： Yi Zhou, Yilai Li, Jing Yuan, Quanquan Gu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08631v1

摘要： 冷冻电子显微镜 (cryo-EM) 是结构生物学和药物发现领域的一项强大技术，能够以高分辨率研究生物分子。结构生物学家使用冷冻电镜取得了重大进展，已经生成了超过 38,626 个不同分辨率的蛋白质密度图1。然而，冷冻电镜数据处理算法尚未充分受益于我们对生物分子密度图的了解，只有少数最新模型是数据驱动的，但仅限于特定任务。在这项研究中，我们提出了 CryoFM，这是一种设计为生成模型的基础模型，可以学习高质量密度图的分布并有效地推广到下游任务。 CryoFM 基于流量匹配而构建，经过训练可以准确捕获生物分子密度图的先验分布。此外，我们引入了一种流后验采样方法，该方法利用 CRYOFM 作为冷冻电镜和冷冻电子断层扫描 (cryo-ET) 中多项下游任务的灵活先验，无需进行微调，从而实现了最先进的效果在大多数任务上表现出色，并展示了其作为这些领域更广泛应用的基础模型的潜力。

参考遥感图像分割的跨模态双向交互模型

分类： 计算机视觉和模式识别, 人工智能

作者： Zhe Dong, Yuzhe Sun, Yanfeng Gu, Tianzhu Liu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08613v1

摘要： 给定自然语言表达和遥感图像，参考遥感图像分割（RRSIS）的目标是生成由参考表达识别的目标对象的像素级掩模。与自然场景不同，RRSIS中的表达往往涉及复杂的地理空间关系，感兴趣的目标对象尺度变化很大，缺乏视觉显着性，从而增加了实现精确分割的难度。为了解决上述挑战，提出了一种新颖的 RRSIS 框架，称为跨模式双向交互模型（CroBIM）。具体来说，上下文感知提示调制（CAPM）模块旨在将空间位置关系和特定于任务的知识集成到语言特征中，从而增强捕获目标对象的能力。此外，引入了语言引导特征聚合（LGFA）模块，将语言信息集成到多尺度视觉特征中，并结合注意力缺陷补偿机制来增强特征聚合。最后，设计了相互交互解码器（MID），通过级联双向交叉注意力增强跨模态特征对齐，从而实现精确的分割掩模预测。为了进一步促进 RRSIS 的研究，我们还构建了 RISBench，一个新的大规模基准数据集，包含 52,472 个图像语言标签三元组。 RISBench 和其他两个流行数据集上的广泛基准测试证明了所提出的 CroBIM 相对于现有最先进 (SOTA) 方法的卓越性能。 CroBIM 和 RISBench 数据集的源代码将在 https://github.com/HIT-SIRS/CroBIM 上公开提供

Synth-SONAR：通过双扩散模型和 GPT 提示增强多样性和真实感的声纳图像合成

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 94A08 (Primary) 68T45, 68U10 (Secondary), I.2.0; I.4.5

作者： Purushothaman Natarajan, Kamal Basha, Athira Nambiar

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08612v1

摘要： 声纳图像合成对于推进水下探索、海洋生物学和国防应用至关重要。传统方法通常依赖于使用声纳传感器进行广泛且昂贵的数据收集，从而危及数据质量和多样性。为了克服这些限制，本研究提出了一种新的声纳图像合成框架，即利用扩散模型和 GPT 提示的 Synth-SONAR。 Synth-SONAR 的主要新颖之处有三个：首先，通过将基于生成式 AI 的注入技术与公开可用的真实/模拟数据相集成，从而生成用于声纳研究的最大声纳数据集之一。其次，双文本调节声纳扩散模型层次结构合成了具有增强质量和多样性的粗粒度和细粒度声纳图像。第三，基于文本的高级（粗略）和低级（详细）声纳生成方法利用视觉语言模型（VLM）和 GPT 提示中可用的高级语义信息。在推理过程中，该方法根据文本提示生成多样化且真实的声纳图像，弥合了文本描述和声纳图像生成之间的差距。据我们所知，这标志着 GPT 提示首次在声纳图像中的应用。 Synth-SONAR 在生成高质量合成声纳数据集方面取得了最先进的成果，显着增强了其多样性和真实性。

共轭语义池通过预先训练的视觉语言模型改进 OOD 检测

分类： 计算机视觉和模式识别, 人工智能

作者： Mengyuan Chen, Junyu Gao, Changsheng Xu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08611v1

摘要： 零样本分布外 (OOD) 检测的简单管道涉及从广泛的语义池中选择潜在的 OOD 标签，然后利用预先训练的视觉语言模型对分布内 (ID) 和 OOD 执行分类标签。在本文中，我们认为提高性能需要扩大语义池，同时增加 OOD 样本激活所选 OOD 标签的预期概率，并确保这些 OOD 标签的激活之间的低相互依赖性。自然的扩展方式是采用更大的词典；然而，不可避免地引入大量同义词和生僻词，无法满足上述要求，这表明可行的扩展方式不仅仅是从词典中选择单词。由于 OOD 检测的目的是将输入图像正确分类为 ID/OOD 类组，因此我们可以“制作”OOD 标签候选，它们不是标准类名称，但有利于该过程。观察到原始语义池由未修改的特定类名称组成，我们相应地构造了一个由修改的超类名称组成的共轭语义池（CSP），每个语义池作为跨不同类别共享相似属性的样本的聚类中心。与我们既定的理论一致，使用 CSP 扩展 OOD 标签候选满足要求，并且在 FPR95 中比现有作品高出 7.89%。代码可在 https://github.com/MengyuanChen21/NeurIPS2024-CSP 中获取。

使用生成对抗网络进行文本到图像的转换

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Mehrshad Momen-Tayefeh

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08608v1

摘要： 从人类文本生成逼真的图像是计算机视觉（CV）领域最具挑战性的问题之一。现有的文本到图像的方法可以粗略地反映所给出的描述的含义。在本文中，我们的主要目的是对基于生成对抗网络（GAN）从文本生成图像的五种不同方法进行简要比较。此外，每个模型架构都合成具有不同分辨率的图像。此外，获得的最佳和最差分辨率分别为6464、256256。然而，我们检查并比较了一些介绍每个模型准确性的指标。此外，通过这项研究，我们通过比较这些不同方法的基本指标，找到了解决此问题的最佳模型。

是什么杀死了猫？叙事中好奇心（以及悬念和惊喜）的逻辑形式化

分类： 人工智能

作者： Florence Dupin de Saint-Cyr, Anne-Gwenn Bosser, Benjamin Callac, Eric Maisel

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08597v1

摘要： 我们提供了一个统一的框架，其中叙事张力的核心三种情感（好奇、悬念和惊讶）被形式化。该框架建立在非单调推理的基础上，使我们能够简洁地表示世界的默认行为，并模拟接收故事的代理的情感演变。在将意识、好奇心、惊讶和悬念的概念形式化之后，我们探索了由我们的定义引起的属性，并研究了检测它们的计算复杂性。我们最终提出了评估听故事的给定代理的这些情绪强度的方法。

已验证：用于细粒度视频理解的视频语料库时刻检索基准

分类： 计算机视觉和模式识别, 人工智能

作者： Houlun Chen, Xin Wang, Hong Chen, Zeyang Zhang, Wei Feng, Bin Huang, Jia Jia, Wenwu Zhu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08593v1

摘要： 现有的视频语料库时刻检索（VCMR）仅限于粗粒度的理解，这在给定细粒度的查询时阻碍了精确的视频时刻定位。在本文中，我们提出了一个更具挑战性的细粒度 VCMR 基准，需要方法来定位语料库中与其他部分匹配的候选者的最佳匹配时刻。为了提高数据集构建效率并保证高质量的数据注释，我们提出了 VERIFIED，一个自动 \underline{V}id\underline{E}o 文本注释管道，用于生成 \underline{R}el\underline{I 的标题}能够\underline{FI}n\underline{E}粒度静态和\underline{D}动态。具体来说，我们利用大型语言模型（LLM）和大型多模态模型（LMM）以及我们提出的静态和动态增强字幕模块来为每个视频生成不同的细粒度字幕。为了过滤掉由 LLM 幻觉引起的不准确注释，我们提出了一种细粒度感知噪声评估器，其中我们使用受干扰的硬负片增强对比和匹配损失来微调视频基础模型。通过 VERIFIED，我们构建了一个更具挑战性的细粒度 VCMR 基准，其中包含 Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG，它们展示了高水平的注释质量。我们在所提出的数据集上评估了几种最先进的 VCMR 模型，表明 VCMR 中的细粒度视频理解仍有很大的空间。代码和数据集位于 \href{https://github.com/hlchen23/VERIFIED}{https://github.com/hlchen23/VERIFIED}。

VIBES——视觉骨干高效选择

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Joris Guerin, Shray Bansal, Amirreza Shaban, Paulo Mann, Harshvardhan Gazula

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08592v1

摘要： 这项工作解决了为特定目标任务有效选择高性能预训练视觉主干的挑战。尽管在有限的主干集合内进行穷举搜索可以解决这个问题，但对于大型数据集和主干池来说，它变得不切实际。为了解决这个问题，我们引入了 Vision Backbone Efficient Selection (VIBES)，其目的是快速找到合适的主干，可能会牺牲最优性以换取效率。我们提出了几种简单而有效的启发式方法来解决 VIBES 问题，并在四个不同的计算机视觉数据集中对其进行评估。我们的结果表明，即使在单个 GPU 上一小时的有限搜索预算内，这些方法也可以识别出优于从通用基准中选择的骨干网。我们认为 VIBES 标志着从基准测试到特定任务优化的范式转变。

LLaMA3 的 ViT3D 对齐：3D 医学图像报告生成

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Siyou Li, Beining Xu, Yihao Luo, Dong Nie, Le Zhang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08588v1

摘要： 自动医疗报告生成（MRG）旨在从医学图像生成详细的文本报告，已成为该领域的一项关键任务。 MRG 系统可以通过减少报告编写所需的时间和精力来增强放射学工作流程，从而提高诊断效率。在这项工作中，我们提出了一种利用多模态大语言模型进行自动 MRG 的新方法。具体来说，我们采用从 M3D-CLIP 引入的 3D Vision Transformer (ViT3D) 图像编码器来处理 3D 扫描，并使用 Asclepius-Llama3-8B 作为语言模型，通过自回归解码生成文本报告。实验表明，我们的模型在 MRG 任务验证集上的平均 Green 得分为 0.3，在视觉问答 (VQA) 任务验证集上的平均准确度为 0.61，优于基线模型。我们的方法通过在小数据集上调整模型来证明 LLaMA3 的 ViT3D 对齐对于自动 MRG 和 VQA 任务的有效性。

ZipVL：具有动态令牌稀疏化和 KV 缓存压缩的高效大型视觉语言模型

分类： 计算机视觉和模式识别, 人工智能

作者： Yefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08584v1

摘要： 大型视觉语言模型（LVLM）的效率受到预填充阶段注意机制的计算瓶颈和解码阶段获取键值（KV）缓存的内存瓶颈的限制，特别是在涉及高计算量的场景中。分辨率图像或视频。视觉内容通常表现出大量冗余，导致 LVLM 内的注意力图高度稀疏。可以利用这种稀疏性来加速注意力计算或通过各种方法压缩 KV 缓存。然而，大多数研究仅专注于解决这些瓶颈之一，并没有充分支持针对不同层或任务的稀疏性的动态调整。在本文中，我们提出了 ZipVL，这是一种专为 LVLM 设计的高效推理框架，通过重要令牌的动态比例分配策略解决计算和内存瓶颈。该比率是根据注意力分数的特定层分布而不是固定的超参数自适应确定的，从而提高不太复杂的任务的效率，同时保持更具挑战性的任务的高性能。然后，我们根据归一化的注意力分数选择重要的令牌，并仅对这些重要的令牌执行注意力机制以加速预填充阶段。为了缓解解码阶段的内存瓶颈，我们对 KV 缓存采用混合精度量化，其中高位量化用于重要令牌的缓存，而低位量化用于不太重要的令牌。我们的实验表明，与 LongVA-7B 模型相比，ZipVL 可以将预填充阶段加速 2.6$\times$，并减少 GPU 内存使用量 50.0%，在 Video-MME 基准上精度仅降低 0.2%，有效提高生成效率LVLM 的数量。

用于顺序推荐的意图增强数据增强

分类： 信息检索, 人工智能

作者： Shuai Chen, Zhoujun Li

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08583v1

摘要： 意图增强序列推荐算法的研究重点是如何基于用户行为数据更好地挖掘动态用户意图，用于序列推荐任务。当前序列推荐算法中广泛应用了各种数据增强方法，有效增强了捕获用户意图的能力。然而，这些广泛使用的数据增强方法通常依赖于大量的随机采样，这可能会在训练数据中引入过多的噪声，模糊用户意图，从而对推荐性能产生负面影响。此外，这些方法利用增强数据的方法有限，未能充分利用增强样本。我们提出了一种用于顺序推荐的意图增强数据增强方法（\textbf{IESRec}），该方法通过意图片段插入根据用户行为序列构建正样本和负样本。一方面，将生成的正样本与原始训练数据混合，一起训练以提高推荐性能。另一方面，生成的正样本和负样本用于构建对比损失函数，通过自监督训练来增强推荐性能。最后，将主要推荐任务与对比学习损失最小化任务联合训练。对三个真实世界数据集的实验验证了我们的 IESRec 模型的有效性。

集成人工智能以增强翻译修订中的反馈——学生参与度的混合方法调查

分类： 人机交互, 人工智能

作者： Simin Xu, Yanfang Su, Kanglong Liu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08581v1

摘要： 尽管反馈在教育中的重要性已得到公认，但人工智能 (AI) 生成的反馈（尤其是来自 ChatGPT 等语言模型的反馈）的应用在翻译教育中仍未得到充分研究。本研究调查了硕士生在修改过程中使用 ChatGPT 生成的反馈进行翻译的情况。采用混合方法，将翻译和修订实验与定量和定性分析相结合，检查反馈、修订前后的翻译、修订过程和学生的反思。结果揭示了认知、情感和行为维度之间复杂的相互关系，影响着学生对人工智能反馈的参与及其随后的修改。具体来说，研究结果表明，尽管反馈是可以理解的，但学生在复习过程中投入了大量的认知努力。此外，他们对反馈模型表现出中等的情感满意度。在行为上，他们的行为在很大程度上受到认知和情感因素的影响，尽管观察到了一些不一致的情况。这项研究为人工智能生成的反馈在翻译教学中的潜在应用提供了新颖的见解，并为进一步研究人工智能工具在语言教学环境中的集成开辟了途径。

大容量数据环境中人工智能驱动的数据质量监控的理论框架

分类： 人工智能

作者： Nikhil Bangad, Vivekananda Jayaram, Manjunatha Sughaturu Krishnappa, Amey Ram Banarse, Darshan Mohan Bidkar, Akshay Nagpal, Vidyasagar Parlapalli

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08576v1

摘要： 本文提出了人工智能驱动的数据质量监控系统的理论框架，旨在解决在大容量环境中维护数据质量的挑战。我们研究了传统方法在管理大数据的规模、速度和多样性方面的局限性，并提出了一种利用先进机器学习技术的概念方法。我们的框架概述了一个系统架构，其中包含异常检测、分类和预测分析，以实现实时、可扩展的数据质量管理。关键组件包括智能数据摄取层、自适应预处理机制、上下文感知特征提取和基于人工智能的质量评估模块。持续学习范式是我们框架的核心，确保适应不断变化的数据模式和质量要求。我们还解决了现有数据生态系统中对可扩展性、隐私和集成的影响。虽然没有提供实际结果，但它为未来的研究和实施奠定了坚实的理论基础，推进数据质量管理并鼓励在动态环境中探索人工智能驱动的解决方案。

百川-Omni技术报告

分类： 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08565v1

摘要： GPT-4o 突出的多模态功能和交互体验凸显了其在实际应用中的关键作用，但缺乏高性能的开源对应产品。在本文中，我们介绍了百川-Omni，这是第一个开源的7B多模态大语言模型（MLLM），擅长同时处理和分析图像、视频、音频和文本的模态，同时提供先进的多模态交互体验和强大的性能。我们提出了一种有效的多模态训练方案，从 7B 模型开始，经过音频、图像、视频和文本模态的多模态对齐和多任务微调两个阶段。这种方法使语言模型能够有效处理视觉和音频数据。我们在各种全模式和多模式基准测试中展示了强大的性能，我们的目标是将此贡献作为开源社区在推进多模式理解和实时交互方面的竞争基准。

使用联合嵌入预测架构学习 12 导联心电图的一般表示

分类： 机器学习, 人工智能

作者： Sehun Kim

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08559v1

摘要： 我们提出了一种用于 12 导联心电图 (ECG) 分析的自监督学习方法，称为 ECG 联合嵌入预测架构 (ECG-JEPA)。 ECG-JEPA 采用掩蔽策略来学习 ECG 数据的语义表示。与现有方法不同，ECG-JEPA 在隐藏表示级别进行预测，而不是重建原始数据。这种方法在心电图领域具有几个优点：（1）它避免产生不必要的细节，例如标准心电图中常见的噪声； (2) 它解决了原始信号之间的原始 L2 损失的局限性。另一个关键贡献是引入了针对 12 导联 ECG 数据量身定制的特殊屏蔽注意力，即交叉模式注意力 (CroPA)。CroPA 使该模型成为可能此外，ECG-JEPA 具有高度可扩展性，可以对大型数据集进行高效训练。我们的代码已公开 https://github.com/sehunfromdaegu/ECG_JEPA。

平衡创新与隐私：自然语言处理应用中的数据安全策略

分类： 密码学和安全, 人工智能, 计算和语言

作者： Shaobo Liu, Guiran Liu, Binrong Zhu, Yuanshuai Luo, Linxiao Wu, Rui Wang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08553v1

摘要： 这项研究通过引入一种基于差异隐私的新颖算法来解决自然语言处理（NLP）中的隐私保护问题，旨在保护聊天机器人、情感分析和机器翻译等常见应用中的用户数据。随着NLP技术的广泛应用，用户数据的安全和隐私保护成为亟待解决的重要问题。本文提出一种新的隐私保护算法，旨在有效防止用户敏感信息泄露。通过引入差分隐私机制，我们的模型在添加随机噪声的同时保证了数据分析结果的准确性和可靠性。这种方法不仅降低了数据泄露带来的风险，而且在保护用户隐私的同时实现了数据的有效处理。与数据匿名化和同态加密等传统隐私方法相比，我们的方法在计算效率和可扩展性方面具有显着优势，同时保持数据分析的高精度。该算法的有效性通过准确性（0.89）、精度（0.85）和召回率（0.88）等性能指标得到证明，在平衡隐私和实用性方面优于其他方法。随着隐私保护法规日益严格，企业和开发者必须采取有效措施应对隐私风险。我们的研究为隐私保护技术在NLP领域的应用提供了重要参考，强调需要在技术创新和用户隐私之间取得平衡。未来，随着技术的不断进步，隐私保护将成为数据驱动应用的核心要素，推动整个行业的健康发展。

使用文本到图像扩散模型的上下文感知全身匿名化

分类： 计算机视觉和模式识别, 人工智能, I.4.0; I.2.0

作者： Pascl Zwick, Kevin Roesch, Marvin Klemp, Oliver Bringmann

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08551v1

摘要： 匿名化在保护现实世界数据集中个人的敏感信息方面发挥着关键作用。例如，自动驾驶汽车需要高分辨率的面部特征来跟踪人们及其视线方向，以预测未来的行为并做出相应的反应。为了保护人们的隐私，同时保留数据集中的重要特征，用高度详细的匿名身体替换人的全身非常重要。与面部匿名化相比，全身替换会降低通过发型或衣服识别人的能力。在本文中，我们提出了一种利用稳定扩散作为生成后端的全身人员匿名化工作流程。文本到图像的扩散模型，如稳定扩散、OpenAI 的 DALL-E 或 Midjourney，近年来变得非常流行，能够从单个文本提示创建逼真的图像。我们表明，我们的方法在图像质量、分辨率、初始分数 (IS) 和 Frechet 初始距离 (FID) 方面优于最先进的匿名化管道。此外，我们的方法对于图像生成器来说是不变的，因此能够与最新的可用模型一起使用。

人工智能中的人性：检测大型语言模型的个性

分类： 计算和语言, 人工智能

作者： Baohua Zhan, Yongyi Huang, Wenyao Cui, Huaping Zhang, Jianyun Shang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08545v1

摘要： 调查问卷是检测大型语言模型（LLM）个性的常用方法。然而，它们的可靠性常常受到两个主要问题的影响：幻觉（大语言模型产生不准确或不相关的反应）以及反应对所提出选项的顺序的敏感性。为了解决这些问题，我们建议将文本挖掘与问卷调查方法相结合。文本挖掘可以从大语言模型的回答中提取心理特征，而不受选项顺序的影响。此外，由于该方法不依赖于具体答案，因此减少了幻觉的影响。通过对两种方法的分数进行归一化并计算均方根误差，我们的实验结果证实了该方法的有效性。为了进一步研究大语言模型人格特质的起源，我们对预训练语言模型（PLM）（例如 BERT 和 GPT）以及会话模型（ChatLLM）（例如 ChatGPT）进行了实验。结果表明，LLM确实具有一定的个性，例如ChatGPT和ChatGLM就表现出“尽责性”的个性特征。此外，我们发现大语言模型的个性源自他们预先训练的数据。用于训练 ChatLLM 的指令数据可以增强包含个性的数据的生成并暴露其隐藏的个性。我们将结果与人类平均个性得分进行比较，发现 PLM 中的 FLAN-T5 和 ChatLLM 中的 ChatGPT 的个性与人类更加相似，得分差异分别为 0.34 和 0.22。

万花筒：异构多智能体强化学习的可学习掩模

分类： 机器学习, 人工智能, 多代理系统

作者： Xinran Li, Ling Pan, Jun Zhang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08540v1

摘要： 在多智能体强化学习（MARL）中，参数共享通常用于提高样本效率。然而，流行的完全参数共享方法通常会导致代理之间的策略同质，从而可能限制策略多样性带来的性能优势。为了解决这个关键限制，我们引入了 \emph{Kaleidscope}，一种新颖的自适应部分参数共享方案，它可以促进策略异质性，同时仍然保持高样本效率。具体来说，万花筒为不同的代理维护一组通用参数以及多组不同的、可学习的掩码，从而规定参数的共享。它通过鼓励这些掩码之间的差异来促进政策网络之间的多样性，而不牺牲参数共享的效率。这种设计使 Kaleidscope 能够动态平衡高样本效率和广泛的策略表示能力，有效地弥合各种环境中的全参数共享和非参数共享之间的差距。我们进一步将万花筒扩展到演员批评家算法背景下的批评家集成，这有助于改善价值估计。我们在广泛的环境（包括多智能体粒子环境、多智能体 MuJoCo 和星际争霸多智能体挑战 v2）中进行的实证评估表明与现有的参数共享方法相比，Kaleidscope 具有优越的性能，展示了其在 MARL 中增强性能的潜力。该代码可在 \url{https://github.com/LXXXXR/Kaleidscope} 上公开获取。

VOVTrack：探索视频中开放词汇对象跟踪的潜力

分类： 计算机视觉和模式识别, 人工智能

作者： Zekun Qian, Ruize Han, Junhui Hou, Linqi Song, Wei Feng

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08529v1

摘要： 开放词汇多对象跟踪（OVMOT）代表了一个关键的新挑战，涉及视频中不同对象类别的检测和跟踪，包括已见类别（基类）和未见类别（新类）。这个问题融合了开放词汇目标检测（OVD）和多目标跟踪（MOT）的复杂性。现有的 OVMOT 方法通常将 OVD 和 MOT 方法合并为单独的模块，主要通过以图像为中心的镜头来解决问题。在本文中，我们提出了 VOVTrack，这是一种集成了与 MOT 相关的对象状态和以视频为中心的训练的新颖方法，从视频对象跟踪的角度解决了这一挑战。首先，我们考虑跟踪过程中对象的跟踪相关状态，并提出一种新的提示引导注意机制，以更准确地定位和分类（检测）时变对象。随后，我们利用没有注释的原始视频数据进行训练，通过制定自监督对象相似性学习技术来促进时间对象关联（跟踪）。实验结果强调了 VOVTrack 优于现有方法，使其成为开放词汇跟踪任务的最先进的解决方案。

大语言模型下游绩效预测的缩放法则

分类： 计算和语言, 人工智能, 机器学习

作者： Yangyi Chen, Binxuan Huang, Yifan Gao, Zhengyang Wang, Jingfeng Yang, Heng Ji

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08527v1

摘要： 在训练之前精确估计大型语言模型 (LLM) 的下游性能对于指导其开发过程至关重要。缩放法则分析利用一系列明显较小的采样语言模型 (LM) 的统计数据来预测目标 LLM 的性能。对于下游性能预测，关键挑战在于大语言模型的新兴能力超出了特定于任务的计算阈值。在这项工作中，我们将重点放在预训练损失上，将其作为性能估计的计算效率更高的指标。我们的两阶段方法包括首先使用一系列采样模型估计将计算资源（例如 FLOP）映射到预训练损失的函数，然后在关键的“紧急”之后将预训练损失映射到下游任务性能阶段”。在初步实验中，该 FLP 解决方案使用一系列高达 3B 的采样 LM 准确预测了具有 7B 和 13B 参数的 LLM 的性能，分别实现了 5% 和 10% 的误差幅度，并且显着优于 FLOPs-to-Performance 方法。这催生了 FLP-M，这是一种性能预测的基本方法，它解决了在预训练期间集成多个来源的数据集的实际需求，特别是将通用语料库与代码数据混合以准确表示常见需求。 FLP-M 扩展了幂律分析函数，以基于跨数据源的 FLOP 来预测特定领域的预训练损失，并采用两层神经网络对多个特定领域损失与下游性能之间的非线性关系进行建模。通过利用在特定比率上训练的 3B LLM 和一系列较小样本的 LM，FLP-M 可以有效地预测 3B 和 7B LLM 在大多数基准测试中的各种数据混合的性能，误差范围在 10% 以内。

“我是唯一的，你的网络好友”：了解 GenAI 的影响需要了解拟人化 AI 的影响

分类： 计算机与社会, 人工智能, 计算和语言

作者： Myra Cheng, Alicia DeVrio, Lisa Egede, Su Lin Blodgett, Alexandra Olteanu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08526v1

摘要： 许多最先进的生成人工智能（GenAI）系统越来越倾向于拟人化行为，即生成被认为与人类相似的输出。尽管这导致学者们越来越多地担心此类拟人化人工智能系统可能产生的负面影响，但人工智能开发、部署和使用中的拟人化仍然被严重忽视、研究不足和未充分说明。从这个角度来看，我们认为，如果不绘制拟人化人工智能的社会影响，我们就无法彻底绘制生成式人工智能的社会影响，并提出行动呼吁。

通过语义拓扑度量表示引导的大语言模型推理进行空中视觉和语言导航

分类： 机器人技术, 人工智能

作者： Yunpeng Gao, Zhigang Wang, Linglin Jing, Dong Wang, Xuelong Li, Bin Zhao

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08500v1

摘要： 空中视觉和语言导航（VLN）是一项新颖的任务，使无人机（UAV）能够通过自然语言指令和视觉提示在室外环境中进行导航。由于室外航空场景中复杂的空间关系，这仍然具有挑战性。在本文中，我们提出了一种用于空中 VLN 任务的端到端零样本框架，其中引入大语言模型（LLM）作为我们的动作预测代理。具体来说，我们开发了一种新颖的语义拓扑度量表示（STMR）来增强大语言模型的空间推理能力。这是通过提取地标的与指令相关的语义掩码并将其投影到包含周围地标的位置信息的自上而下的地图中来实现的。此外，该图被转换为具有距离度量的矩阵表示作为LLM的文本提示，以根据指令进行动作预测。在真实和模拟环境中进行的实验成功证明了我们方法的有效性和鲁棒性，在 AerialVLN-S 数据集上的 Oracle 成功率 (OSR) 分别实现了 15.9% 和 12.5% 的提高（绝对）。

自动驾驶中边缘情况检测的系统回顾：方法、挑战和未来方向

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Saeed Rahmani, Sabine Rieder, Erwin de Gelder, Marcel Sonntag, Jorge Lorente Mallada, Sytze Kalisvaart, Vahid Hashemi, Simeon C. Calvert

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08491v1

摘要： 自动驾驶汽车 (AV) 的快速发展有望通过提高安全性和效率来彻底改变交通运输。然而，确保它们在各种现实条件下的可靠性仍然是一项重大挑战，特别是由于被称为边缘情况的罕见和意外情况。尽管存在多种检测边缘情况的方法，但明显缺乏系统审查这些技术的全面调查。本文通过对边缘情况检测和评估方法进行实用的、层次化的审查和系统分类来填补这一空白。我们的分类分为两个层次：首先，根据自动驾驶模块对检测方法进行分类，包括与感知相关和与轨迹相关的边缘情况；其次，基于指导这些技术的基本方法和理论。我们通过引入一种称为“知识驱动”方法的新类别来扩展这种分类法，这种方法在文献中很大程度上被忽视了。此外，我们回顾了评估边缘情况检测方法和识别的边缘情况的技术和指标。据我们所知，这是第一个全面涵盖所有 AV 子系统的边缘情况检测方法、讨论知识驱动的边缘情况并探索检测方法评估技术的调查。这种结构化和多方面的分析旨在促进自动驾驶汽车的针对性研究和模块化测试。此外，通过确定各种方法的优缺点并讨论挑战和未来方向，本次调查旨在帮助自动驾驶开发人员、研究人员和政策制定者通过有效的边缘情况检测来增强自动驾驶（AD）系统的安全性和可靠性。

联合多模式推荐中的个性化项目嵌入

分类： 信息检索, 人工智能, 机器学习

作者： Zhiwei Li, Guodong Long, Jing Jiang, Chengqi Zhang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08478v1

摘要： 联合推荐系统在保护用户隐私方面发挥着至关重要的作用。然而，现有方法主要依赖于基于 ID 的项目嵌入，忽略了项目丰富的多模态信息。为了解决这个限制，我们提出了一种名为 FedMR 的新型联合多模态推荐系统。 FedMR 利用服务器端的基础模型对与项目关联的多模式数据（例如图像和文本）进行编码。为了应对不同用户偏好带来的数据异构性挑战，FedMR 在客户端引入了混合特征融合模块。该模块根据用户交互历史动态调整不同融合策略的权重，生成捕获细粒度用户偏好的个性化项目嵌入。 FedMR与现有的基于ID的联合推荐系统兼容，在不修改原有框架的情况下提高其性能。我们对四个真实世界多模式推荐数据集的实验证明了 FedMR 的有效性。我们的代码可在 https://anonymous.4open.science/r/FedMR 上获取。

GIVE：利用知识图启发的准确性外推进行结构化推理

分类： 人工智能, 计算和语言

作者： Jiashu He, Mingyu Derek Ma, Jinxuan Fan, Dan Roth, Wei Wang, Alejandro Ribeiro

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08475v1

摘要： 现有的大型语言模型（LLM）基于检索的推理方法严重依赖非参数知识源的密度和质量来提供领域知识和显式推理链。然而，包容性的知识源价格昂贵，有时无法为科学或角落领域构建。为了应对这些挑战，我们引入了图启发准确性外推法（GIVE），这是一种新颖的推理框架，它集成了参数和非参数记忆，以增强非常稀疏的知识图上的知识检索和忠实推理过程。通过利用外部结构化知识来启发大语言模型对相关概念之间的互连进行建模，我们的方法促进了一种更符合逻辑和逐步推理的方法，类似于专家解决问题的方法，而不是黄金答案检索。具体来说，该框架促使大语言模型将查询分解为关键概念和属性，构建具有相关实体的实体组，并通过探测这些实体组中节点对之间的潜在关系来构建增强推理链。我们的方法结合了事实和推断的联系，以实现全面的理解和响应生成。对生物医学和常识 QA 推理密集型基准的广泛实验证明了我们提出的方法的有效性。具体来说，GIVE 使 GPT3.5-turbo 能够在没有任何额外培训成本的情况下超越 GPT4 等高级模型，从而强调了整合结构化信息和大语言模型内部推理能力的有效性，以在有限的外部资源下处理专门任务。

深入洞察深度图卷积网络：稳定性和泛化性

分类： 机器学习, 人工智能, 机器学习

作者： Guangrui Yang, Ming Li, Han Feng, Xiaosheng Zhuang

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08473v1

摘要： 图卷积网络（GCN）已成为图学习任务的强大模型，在各个领域都表现出了良好的性能。虽然他们的经验成功是显而易见的，但越来越需要从理论角度理解他们的基本能力。现有的理论研究主要集中在单层GCN的分析上，而对深层GCN的稳定性和泛化性的综合理论探索仍然有限。在本文中，我们通过深入研究深度 GCN 的稳定性和泛化特性来弥补这一差距，旨在通过严格表征相关上限来提供有价值的见解。我们的理论结果表明，深度 GCN 的稳定性和泛化性受到某些关键因素的影响，例如图滤波器算子的最大绝对特征值和网络的深度。我们的理论研究有助于更深入地理解深度 GCN 的稳定性和泛化特性，有可能为开发更可靠、性能更好的模型铺平道路。

ARCap：通过增强现实反馈收集高质量的机器人学习人类演示

分类： 机器人技术, 人工智能

作者： Sirui Chen, Chen Wang, Kaden Nguyen, Li Fei-Fei, C. Karen Liu

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08464v1

摘要： 人类演示模仿学习的最新进展在教授机器人操作技能方面取得了可喜的成果。为了进一步扩大训练数据集，最近的工作开始使用便携式数据收集设备，而不需要物理机器人硬件。然而，由于在数据收集过程中缺乏机器人反馈，数据质量在很大程度上取决于用户的专业知识，并且许多设备仅限于特定的机器人实施例。我们提出 ARCap，一种便携式数据收集系统，通过增强现实 (AR) 和触觉警告提供视觉反馈，指导用户收集高质量的演示。通过广泛的用户研究，我们表明 ARCap 使新手用户能够收集与机器人运动学相匹配的机器人可执行数据，并避免与场景发生碰撞。利用 ARCap 收集的数据，机器人可以执行具有挑战性的任务，例如在杂乱环境中进行操作和长视界跨实体操作。 ARCap完全开源，易于校准；所有组件均采用现成产品构建。更多详细信息和结果可以在我们的网站上找到：https://stanford-tml.github.io/ARCap

为什么预训练有利于下游分类任务？

分类： 机器学习, 人工智能

作者： Xin Jiang, Xu Cheng, Zechao Li

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08455v1

摘要： 预训练通过提高准确性和加速收敛，对下游任务展现出显着的好处，但这些好处的确切原因仍不清楚。为此，我们建议从一种新颖的博弈论观点定量、明确地解释预训练对下游任务的影响，这也为深度神经网络（DNN）的学习行为提供了新的思路。具体来说，我们提取并量化预训练模型编码的知识，并进一步跟踪这些知识在微调过程中的变化。有趣的是，我们发现只有少量预训练模型的知识被保留用于下游任务的推理。然而，这样保存的知识对于从头开始学习的模型训练来说是非常具有挑战性的。因此，借助这种专门学习的有用知识，从预训练中微调的模型通常会比从头开始训练的模型获得更好的性能。此外，我们发现预训练可以引导微调模型更直接、更快速地学习下游任务的目标知识，这使得微调模型收敛得更快。

JurEE 而非法官：保护 llm 与小型专业编码器集成的交互

分类： 机器学习, 人工智能

作者： Dom Nasrabadi

发布时间： 2024-10-11

链接： http://arxiv.org/abs/2410.08442v1

摘要： 我们推出了 JurEE，这是一组高效、仅编码器的变压器模型，旨在加强基于 LLM 的系统中人工智能与用户交互的保障。现有的 LLM-as-Judge 方法经常难以对风险分类法进行泛化，并且仅提供文本输出，而 JurEE 与此不同，JurEE 提供了涵盖各种普遍风险的概率风险估计。我们的方法利用不同的数据源，并采用渐进式合成数据生成技术（包括大语言模型辅助增强）来增强模型的稳健性和性能。我们创建了一个内部基准测试，其中包含其他信誉良好的基准测试，例如 OpenAI 审核数据集和 ToxicChat，我们发现 JurEE 的性能显着优于基准模型，展示了卓越的准确性、速度和成本效益。这使得它特别适合需要严格内容审核的应用程序，例如面向客户的聊天机器人。编码器整体的模块化设计允许用户设置定制的风险阈值，从而增强其在各种安全相关应用中的多功能性。 JurEE 的集体决策过程中，每个专门的编码器模型都对最终输出做出贡献，不仅提高了预测准确性，还增强了可解释性。这种方法为需要强大内容审核的大规模实施提供了比传统大语言模型更高效、更高效、更经济的替代方案。

计算的函数表示模型

分类： 人工智能

作者： Alfredo Ibias, Hector Antona, Guillem Ramirez-Miranda, Enric Guinovart, Eduard Alarcon

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07928v2

摘要： 认知架构是我们开发人工认知研究的前沿。然而，他们从分离的内存和程序计算模型来解决这个问题。这种计算模型提出了一个基本问题：知识检索启发式。在本文中，我们建议通过使用一种新的计算模型来解决这个问题，该模型将内存和程序结合在一起：函数表示。我们提出了一种基于实现和使用这些函数表示的新颖计算模型，并通过数学定义和证明探索其潜力。我们还讨论了组织多个函数表示的不同方法，并探讨了这些函数表示可以实现的函数类型。最后，我们还探讨了我们提案的局限性。

LatteCLIP：通过 LMM 合成文本进行无监督 CLIP 微调

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Anh-Quan Cao, Maximilian Jaritz, Matthieu Guillaumin, Raoul de Charette, Loris Bazzani

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08211v1

摘要： 大规模视觉语言预训练 (VLP) 模型（例如 CLIP）以其多功能性而闻名，因为它们可以在零样本设置中应用于各种应用。然而，当这些模型用于特定领域时，由于领域差距或训练数据中这些领域的代表性不足，它们的性能往往会不足。虽然使用人工注释标签对自定义数据集上的 VLP 模型进行微调可以解决这个问题，但即使是小规模数据集（例如 10 万个样本）的注释也可能是一项昂贵的工作，如果任务很复杂，通常需要专家注释者。为了应对这些挑战，我们提出了 LatteCLIP，这是一种无监督方法，用于在自定义域中使用已知类名进行分类时微调 CLIP 模型，而不依赖于人工注释。我们的方法利用大型多模态模型 (LMM) 为单个图像和图像组生成富有表现力的文本描述。这些提供了额外的上下文信息来指导自定义域中的微调过程。由于 LMM 生成的描述容易产生幻觉或丢失细节，因此我们引入了一种新颖的策略来仅提取有用的信息并稳定训练。具体来说，我们从嘈杂的生成文本和双伪标签中学习丰富的每类原型表示。我们在 10 个特定领域数据集上进行的实验表明，LatteCLIP 的性能优于预训练的零样本方法，top-1 准确率平均提高了 +4.74 点，而其他最先进的无监督方法则提高了 +3.45 点。

PointOBB-v2：迈向更简单、更快、更强的单点监督定向目标检测

分类： 计算机视觉和模式识别, 人工智能

作者： Botao Ren, Xue Yang, Yi Yu, Junwei Luo, Zhidong Deng

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08210v1

摘要： 单点有监督的目标检测已经引起了社区的关注并取得了初步进展。与那些依赖一次性样本或强大的预训练模型（例如 SAM）的方法不同，PointOBB 由于其先验无关的特性而显示出前景。在本文中，我们提出了 PointOBB-v2，这是一种更简单、更快、更强的方法，可以从点生成伪旋转框，而不依赖于任何其他先验。具体来说，我们首先通过使用非均匀正负采样训练网络来生成类概率图（CPM）。我们证明 CPM 能够学习近似的对象区域及其轮廓。然后，应用主成分分析（PCA）来准确估计对象的方向和边界。通过进一步融入分离机制，解决了CPM重叠带来的混乱，使其能够在高密度场景下运行。广泛的比较表明，与之前的状态相比，我们的方法在 DOTA-v1.0/v1.5/v2.0 数据集上的训练速度提高了 15.58 倍，准确率提高了 11.60%/25.15%/21.19%艺术，PointOBB。这显着推进了模块化轨道中单点监督定向检测的前沿。

在没有接地监督的情况下大型多模式模型中出现的像素接地

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Shengcao Cao, Liang-Yan Gui, Yu-Xiong Wang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08209v1

摘要： 当前的大型多模态模型（LMM）面临着基础方面的挑战，这要求模型将语言组件与视觉实体相关联。与通过额外的接地监督来微调 LMM 的常见做法相反，我们发现接地能力实际上可以在没有明确接地监督的情况下训练的 LMM 中出现。为了揭示这一新兴基础，我们引入了一种“参与和分割”方法，该方法利用标准 LMM 的注意力图来执行像素级分割。此外，为了增强接地能力，我们提出了 DIFFLMM，这是一种利用基于扩散的视觉编码器的 LMM，而不是标准的 CLIP 视觉编码器，并使用相同的弱监督进行训练。不受特定接地监管数据的偏差和有限规模的限制，我们的方法更具通用性和可扩展性。分别与基础 LMM 和通用 LMM 相比，我们在基础特定和一般视觉问题回答基准上都取得了有竞争力的表现。值得注意的是，我们在没有任何基础监督的情况下在基础对话生成上实现了 44.2 基础掩码召回，优于广泛监督的模型 GLaMM。项目页面：https://groundLMM.github.io。

SPA：3D 空间意识实现有效的具体化表示

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Haoyi Zhu, Honghui Yang, Yating Wang, Jiange Yang, Limin Wang, Tong He

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08208v1

摘要： 在本文中，我们介绍了 SPA，这是一种新颖的表示学习框架，强调 3D 空间意识在具体人工智能中的重要性。我们的方法利用多视图图像上的可微神经渲染来赋予普通视觉变换器（ViT）内在的空间理解。我们提出了迄今为止对具身表征学习最全面的评估，涵盖了 8 个模拟器的 268 个任务，在单任务和语言条件多任务场景中具有不同的策略。结果令人信服：SPA 始终优于 10 多种最先进的表示方法，包括专门为实体 AI、以视觉为中心的任务和多模式应用程序设计的方法，同时使用较少的训练数据。此外，我们进行了一系列真实世界的实验，以证实其在实际场景中的有效性。这些结果凸显了 3D 空间意识对于具身表征学习的关键作用。我们最强大的模型需要超过 6000 个 GPU 小时来训练，我们致力于开源所有代码和模型权重，以促进具身表示学习的未来研究。项目页面：https://haoyizhu.github.io/spa/。

从探索到掌握：让大语言模型能够通过自我驱动的互动掌握工具

分类： 计算和语言, 人工智能

作者： Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, Ji-Rong Wen

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08197v1

摘要： 工具学习使大型语言模型 (LLM) 能够通过调用工具与外部环境进行交互，这是减轻预训练数据固有限制的有效策略。在此过程中，工具文档发挥着至关重要的作用，为大语言模型提供使用说明，从而促进工具的有效利用。本文重点讨论由于现有以人为中心的工具文档固有的不足和不准确而缩小大语言模型和外部工具之间的理解差距的关键挑战。我们提出了一个新颖的框架，DRAFT，旨在通过分析大语言模型与外部工具交互产生的反馈和踪迹来动态优化工具文档。该方法以创新的试错方法为基础，由三个不同的学习阶段组成：经验收集、从经验中学习和文档重写，以迭代地增强工具文档。通过实施促进多样性的探索策略以确保探索多样性和工具自适应终止机制以防止过度拟合并提高效率，进一步优化了该过程。对多个数据集的广泛实验表明，DRAFT 基于反馈的迭代改进显着提高了文档质量，促进大语言模型更深入地理解和更有效地利用工具。值得注意的是，我们的分析表明，通过我们的方法改进的工具文档展示了强大的跨模型泛化能力。

MathCoder2：通过对模型翻译的数学代码进行持续预训练获得更好的数学推理

分类： 计算和语言, 人工智能, 计算机视觉和模式识别

作者： Zimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08196v1

摘要： 由于其精确度和准确性，代码已被证明可以有效增强大型语言模型的数学推理能力。之前涉及持续数学预训练的工作通常包括利用数学相关包的代码，这些包主要是为工程、机器学习、信号处理或模块测试等领域设计的，而不是直接专注于数学推理。在本文中，我们介绍了一种生成数学代码的新方法，以及用于持续预训练的相应推理步骤。我们的方法首先通过合并数学相关的网络数据、使用数学包的代码、数学教科书和合成数据来构建高质量的数学持续预训练数据集。接下来，我们通过从之前收集的数据集中提取 LaTeX 表达式、表达式所需的条件以及表达式的结果来构建推理步骤。基于这些提取的信息，我们生成相应的代码以准确捕获数学推理过程。将生成的代码附加到每个推理步骤会产生由成对的自然语言推理步骤及其相应代码组成的数据。将此数据与原始数据集相结合，生成 19.2B 代币的高性能数学预训练语料库，我们将其命名为 MathCode-Pile。使用该语料库训练几个流行的基础模型可以显着提高他们的数学能力，从而创建了 MathCoder2 系列模型。我们所有的数据处理和培训代码都是开源的，确保整个数据收集和培训管道的完全透明度和轻松重现性。代码发布于 https://github.com/mathllm/MathCoder2 。

DifFRelight：基于扩散的面部性能重新照明

分类： 计算机视觉和模式识别, 人工智能, 图形

作者： Mingming He, Pascal Clausen, Ahmet Levent Taşel, Li Ma, Oliver Pilarski, Wenqi Xian, Laszlo Rikker, Xueming Yu, Ryan Burgert, Ning Yu, Paul Debevec

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08188v1

摘要： 我们提出了一种使用基于扩散的图像到图像转换的自由视角面部表现重新照明的新颖框架。利用包含在各种照明条件下捕获的不同面部表情的特定于主题的数据集，包括平光和一次一灯（OLAT）场景，我们训练了一个用于精确照明控制的扩散模型，从而实现高保真重新照明来自平光输入的面部图像。我们的框架包括平面照明捕获和随机噪声的空间对齐调节，以及用于全局控制的集成照明信息，利用预先训练的稳定扩散模型的先验知识。然后，将该模型应用于在一致的平面照明环境中捕获的动态面部表演，并使用可扩展的动态 3D 高斯泼溅方法进行重建以进行新颖的视图合成，以保持重新照明结果的质量和一致性。此外，我们通过将新颖的区域照明表示与定向照明集成来引入统一的照明控制，从而允许联合调整灯光大小和方向。我们还使用多个定向光实现高动态范围成像 (HDRI) 合成，以在复杂的照明条件下产生动态序列。我们的评估证明了模型在实现精确照明控制和泛化各种面部表情方面的效率，同时保留了皮肤纹理和头发等细节特征。该模型准确地再现了复杂的光照效果，如眼睛反射、次表面散射、自阴影和半透明，在我们的框架内推进了照片写实主义。

MRAG-Bench：检索增强多模态模型的以视觉为中心的评估

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Wenbo Hu, Jia-Chen Gu, Zi-Yi Dou, Mohsen Fayyaz, Pan Lu, Kai-Wei Chang, Nanyun Peng

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08182v1

摘要： 现有的多模态检索基准主要侧重于评估模型是否可以检索和利用外部文本知识来回答问题。然而，在某些情况下，检索视觉信息比文本数据更有益或更容易访问。在本文中，我们介绍了一种多模态检索增强生成基准，MRAG-Bench，其中我们系统地识别和分类视觉增强知识优于文本知识的场景，例如，来自不同视角的更多图像。 MRAG-Bench 包含 9 个不同场景的 16,130 张图像和 1,353 个人工注释的多项选择题。通过 MRAG-Bench，我们对 10 个开源模型和 4 个专有大型视觉语言模型 (LVLM) 进行了评估。我们的结果表明，与文本知识相比，所有 LVLM 在使用图像进行增强时都表现出更大的改进，这证实了 MRAG-Bench 是以视觉为中心的。此外，我们还使用 MRAG-Bench 进行了广泛的分析，这为检索增强 LVLM 提供了宝贵的见解。值得注意的是，表现最好的模型 GPT-4o 在有效利用检索到的知识方面面临挑战，利用地面实况信息仅实现了 5.82% 的改进，而在人类参与者中观察到的改进为 33.16%。这些发现强调了 MRAG-Bench 在鼓励社区增强 LVLM 更有效地利用检索到的视觉知识的能力方面的重要性。

采样然后识别：多模态大语言模型中风险控制和评估的通用框架

分类： 计算和语言, 人工智能, 机器学习, 多媒体

作者： Qingni Wang, Tiantian Geng, Zhiyuan Wang, Teng Wang, Bo Fu, Feng Zheng

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08174v1

摘要： 多模态大型语言模型（MLLM）在各种任务中表现出有希望的进步，但它们仍然遇到重大的可信度问题。先前的研究在语言建模中应用分割共形预测（SCP）来构建具有统计保证的预测集。然而，这些方法通常依赖于内部模型逻辑或仅限于多项选择设置，这妨碍了它们在动态、开放式环境中的通用性和适应性。在本文中，我们介绍了 TRON，这是一个用于风险控制和评估的两步框架，适用于任何支持开放式和封闭式场景中采样的 MLLM。 TRON 包含两个主要组成部分：(1) 新颖的适形评分，用于最小规模的样本响应集；(2) 不合格评分，用于基于自我一致性理论识别高质量的响应，通过两个特定的风险级别控制错误率。此外，我们首次研究了开放式上下文中预测集中的语义冗余，从而为基于平均集大小的 MLLM 提供了一个有前景的评估指标。我们利用八个 MLLM 在四个视频问答 (VideoQA) 数据集上进行的综合实验表明，TRON 达到了由两个用户指定的风险级别限制的所需错误率。此外，去重后的预测集在保持适应性的同时，对于不同风险水平下的风险评估更加高效和稳定。

关于生成机器人模拟的评估

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Feng Chen, Botian Xu, Pu Hua, Peiqi Duan, Yanchao Yang, Yi Ma, Huazhe Xu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08172v1

摘要： 由于获取大量现实世界数据的困难，机器人仿真对于并行训练和模拟到真实的迁移变得至关重要，凸显了可扩展的模拟机器人任务的重要性。基础模型在自主生成可行的机器人任务方面表现出了令人印象深刻的能力。然而，这种新范式强调了充分评估这些自主生成的任务的挑战。为了解决这个问题，我们提出了一个针对生成模拟的综合评估框架。我们的框架将评估分为三个核心方面：质量、多样性和概括性。对于单任务质量，我们使用大型语言模型和视觉语言模型评估生成任务的真实性和生成轨迹的完整性。在多样性方面，我们通过任务描述的文本相似性和在收集的任务轨迹上训练的世界模型损失来衡量任务和数据的多样性。对于任务级泛化，我们评估了使用多个生成任务训练的策略在未见过的任务上的零样本泛化能力。在三个代表性任务生成管道上进行的实验表明，我们框架的结果与人类评估高度一致，证实了我们方法的可行性和有效性。研究结果表明，虽然可以通过某些方法实现质量和多样性指标，但没有一种方法在所有指标上都表现出色，这表明需要更加注重平衡这些不同的指标。此外，我们的分析进一步强调了当前工作面临的泛化能力低的共同挑战。我们的匿名网站：https://sites.google.com/view/evaltasks。

Agent S：像人一样使用计算机的开放代理框架

分类： 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08164v1

摘要： 我们提出了 Agent S，这是一个开放的代理框架，可以通过图形用户界面（GUI）与计算机进行自主交互，旨在通过自动化复杂的多步骤任务来改变人机交互。 Agent S 旨在解决计算机任务自动化中的三个关键挑战：获取特定领域的知识、长期任务范围内的规划以及处理动态、非统一的界面。为此，Agent S引入了经验增强的分层规划，它可以从多个级别的外部知识搜索和内部经验检索中学习，从而促进高效的任务规划和子任务执行。此外，它还采用代理计算机接口（ACI）来更好地激发基于多模态大语言模型（MLLM）的GUI代理的推理和控制能力。 OSWorld 基准评估显示，Agent S 的成功率比基准高出 9.37%（相对提高了 83.6%），达到了新的 state-of-the-art。综合分析突出了各个组件的有效性，并为未来的改进提供了见解。此外，Agent S 在新发布的 WindowsAgentArena 基准测试中展示了对不同操作系统的广泛通用性。代码可在 https://github.com/simular-ai/Agent-S 获取。

Delta：基于多级内存的在线文档级翻译代理

分类： 计算和语言, 人工智能

作者： Yutong Wang, Jiali Zeng, Xuebo Liu, Derek F. Wong, Fandong Meng, Jie Zhou, Min Zhang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08143v1

摘要： 大型语言模型 (LLM) 在机器翻译 (MT) 方面取得了合理的质量改进。然而，目前大多数关于 MT-LLM 的研究在处理整个文档时仍然面临着保持翻译一致性和准确性的重大挑战。在本文中，我们介绍了 DelTA，这是一种文档级翻译代理，旨在克服这些限制。 DelTA 采用多级记忆结构，存储各种粒度和跨度的信息，包括专有名词记录、双语摘要、长期记忆和短期记忆，这些信息由基于 LLM 的辅助组件不断检索和更新。实验结果表明，DelTA 在四个开源/闭源 LLM 和两个代表性文档翻译数据集的翻译一致性和质量方面显着优于强大的基线，一致性分数提高了 4.58 个百分点，COMET 分数提高了平均分3.16分。 DelTA采用逐句翻译策略，确保不遗漏句子，并且与主流方法相比提供了更节省内存的解决方案。此外，DelTA 提高了代词翻译的准确性，并且代理的摘要组件也显示出作为基于查询的摘要任务的工具的前景。我们在 https://github.com/YutongWang1216/DocMTAgent 发布了我们的代码和数据。

通过离散去噪后验预测引导掩模离散扩散模型

分类： 机器学习, 人工智能

作者： Jarrid Rector-Brooks, Mohsin Hasan, Zhangzhi Peng, Zachary Quinn, Chenghao Liu, Sarthak Mittal, Nouha Dziri, Michael Bronstein, Yoshua Bengio, Pranam Chatterjee, Alexander Tong, Avishek Joey Bose

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08134v1

摘要： 离散数据的生成建模是重要应用的基础，这些应用涵盖基于文本的代理（例如 ChatGPT）到蛋白质序列中生命基本构件的设计。然而，应用程序域需要通过引导生成过程（通常通过 RLHF）来对生成的数据进行控制，以满足指定的属性、奖励或亲和力指标。在本文中，我们研究了引导掩蔽扩散模型（MDM）的问题，这是一类最新的离散扩散模型，为传统自回归模型提供了令人信服的替代方案。我们引入了离散去噪后验预测 (DDPP)，这是一种新颖的框架，通过学习从目标贝叶斯后验样本中进行采样，将引导预训练 MDM 的任务转化为概率推理问题。我们的 DDPP 框架产生了一系列三个新颖的目标，这些目标都是免模拟的，因此可以在应用于一般不可微奖励函数时进行扩展。根据经验，我们通过引导 MDM 执行类条件像素级图像建模、使用基于文本的奖励对 MDM 进行基于 RLHF 的对齐以及微调蛋白质语言模型以生成更多样化的二级结构和更短的蛋白质来实例化 DDPP。我们通过湿实验室验证证实了我们的设计，我们观察了奖励优化蛋白质序列的瞬时表达。

通过顺序回忆任务评估大语言模型的情景记忆

分类： 计算和语言, 人工智能, 机器学习

作者： Mathis Pink, Vy A. Vo, Qinyuan Wu, Jianing Mu, Javier S. Turek, Uri Hasson, Kenneth A. Norman, Sebastian Michelmann, Alexander Huth, Mariya Toneva

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08133v1

摘要： 当前的大语言模型基准侧重于评估模型对事实和语义关系的记忆，主要评估长期记忆的语义方面。然而，在人类中，长期记忆还包括情景记忆，它将记忆与其背景联系起来，例如发生的时间和地点。将记忆情境化的能力对于许多认知任务和日常功能至关重要。这种形式的记忆尚未在大语言模型中使用现有基准进行评估。为了解决大语言模型在评估记忆方面的差距，我们引入了序列顺序回忆任务（SORT），它是根据认知心理学中用于研究情景记忆的任务改编的。 SORT 要求大语言模型回忆文本片段的正确顺序，并提供一个易于扩展且不需要任何额外注释的通用框架。我们提出了一个初始评估数据集 Book-SORT，包含从最近添加到公共领域的 9 本书中提取的 36k 对片段。基于对 155 名参与者的人体实验，我们表明人类可以根据一本书的长期记忆来回忆顺序。我们发现，当在排序评估期间在上下文中给出相关文本时，模型可以高精度地执行任务。然而，当仅在培训期间呈现本书文本时，大语言模型在 SORT 上的表现较差。通过允许评估记忆的更多方面，我们相信 SORT 将有助于记忆增强模型的新兴发展。

火星：开放世界环境中的归纳推理

分类： 机器学习, 人工智能, 计算和语言

作者： Xiaojuan Tang, Jiaqi Li, Yitao Liang, Song-chun Zhu, Muhan Zhang, Zilong Zheng

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08126v1

摘要： 在海量语料库上训练的大型语言模型（LLM）在知识密集型任务中表现出了显着的成功。然而，其中大多数依赖于预先存储的知识。从特定环境中归纳出新的常识，并利用所获得的知识进行推理——\textit{情境归纳推理}，对于机器智能来说至关重要且具有挑战性。在本文中，我们设计了火星，这是一个为情境归纳推理而设计的交互式环境。它通过修改地形、生存设置和任务依赖性，同时遵循一定的原则，引入了反常识的游戏机制。在火星上，智能体需要与周围环境积极互动，得出有用的规则并在特定环境中执行决策任务。我们对各种基于 RL 和 LLM 的方法进行了实验，发现它们都在这个具有挑战性的情境归纳推理基准上陷入困境。此外，我们探索 \textit{Induction from Reflection}，指导智能体根据历史轨迹进行归纳推理。卓越的性能凸显了归纳推理在火星上的重要性。通过 Mars，我们的目标是推动情境归纳推理的进步，并为开发下一代人工智能系统奠定基础，该系统可以以自适应和上下文敏感的方式进行推理。

用于信用卡欺诈检测的异构图自动编码器

分类： 机器学习, 人工智能

作者： Moirangthem Tiken Singh, Rabinder Kumar Prasad, Gurumayum Robert Michael, N K Kaphungkui, N. Hemarjit Singh

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08121v1

摘要： 数字革命对金融交易产生了重大影响，导致信用卡使用量显着增加。然而，这种便利也伴随着一个代价：欺诈活动大幅增加。用于欺诈检测的传统机器学习方法通常难以捕获金融数据中固有的互连性。本文提出了一种信用卡欺诈检测的新方法，该方法利用图神经网络（GNN）和应用于金融数据异构图表示的注意机制。与同构图不同，异构图捕捉金融生态系统中各个实体（例如持卡人、商户和交易）之间错综复杂的关系，为欺诈分析提供更丰富、更全面的数据表示。为了解决欺诈数据中固有的类别不平衡问题，即真实交易的数量明显多于欺诈交易，所提出的方法集成了自动编码器。这种自动编码器经过真实交易的训练，可以学习潜在的表示，并将重建过程中的偏差标记为潜在的欺诈。这项研究研究了两个关键问题：（1）当应用于异构图时，具有注意力机制的 GNN 能够如何有效地检测和防止信用卡欺诈？ (2) 与传统方法相比，采用注意力方法的自动编码器的效果如何？结果令人鼓舞，表明所提出的模型优于 Graph Sage 和 FI-GRL 等基准算法，实现了 0.89 的卓越 AUC-PR 和 0.81 的 F1 分数。这项研究通过利用具有注意力机制的 GNN 并通过自动编码器解决类别不平衡问题，显着改进了欺诈检测系统和金融交易的整体安全性。

Optima：优化基于 LLM 的多代理系统的有效性和效率

分类： 计算和语言, 人工智能

作者： Weize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08115v1

摘要： 基于大语言模型（LLM）的多智能体系统（MAS）在协作解决问题方面显示出巨大的潜力，但它们仍然面临着严峻的挑战：通信效率低、可扩展性差以及缺乏有效的参数更新优化方法。我们提出了 Optima，一种新颖的框架，通过大语言模型培训显着提高基于大语言模型的 MAS 中的沟通效率和任务有效性，从而解决这些问题。 Optima 采用迭代生成、排名、选择和训练范例，并具有平衡任务性能、令牌效率和通信可读性的奖励函数。我们探索各种 RL 算法，包括监督微调、直接偏好优化及其混合方法，深入了解其有效性与效率的权衡。我们集成了蒙特卡罗树搜索启发的技术来生成 DPO 数据，将对话轮次视为树节点来探索不同的交互路径。对常见的多智能体任务（包括信息不对称问答和复杂推理）进行评估，Optima 显示出相对于单智能体基线和基于 Llama 3 8B 的普通 MAS 的一致且实质性的改进，以不到 10\需要大量信息交换的任务的 % 代币。此外，Optima 的效率提升为更有效地利用推理计算开辟了新的可能性，从而改进了推理时间缩放法则。通过解决基于 LLM 的 MAS 的基本挑战，Optima 展示了实现可扩展、高效和有效的 MAS 的潜力 (https://chenweize1998.github.io/optima-project-page)。

通过受限嵌入进行强大的人工智能生成文本检测

分类： 计算和语言, 人工智能

作者： Kristian Kuznetsov, Eduard Tulchinskii, Laida Kushnareva, German Magai, Serguei Barannikov, Sergey Nikolenko, Irina Piontkovskaya

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08113v1

摘要： 人工智能生成的文本数量和质量不断增加，使得检测此类内容变得更加困难。在大多数现实场景中，生成数据的领域（风格和主题）和生成器模型是事先未知的。在这项工作中，我们重点关注基于分类器的人工智能生成文本检测器的鲁棒性，即它们转移到看不见的生成器或语义域的能力。我们研究了基于 Transformer 的文本编码器的嵌入空间的几何形状，并表明清除有害的线性子空间有助于训练鲁棒的分类器，忽略特定领域的虚假特征。我们研究了几种子空间分解和特征选择策略，并在跨域和跨生成器传输方面实现了对最先进方法的显着改进。我们用于头部和基于坐标的子空间去除的最佳方法在 RoBERTa 和 BERT 嵌入的特定设置中分别将平均分布外 (OOD) 分类分数提高了 9% 和 14%。我们发布代码和数据：https://github.com/SilverSolver/RobustATD

用于估计 ML 模型分布特性的主动傅里叶审计器

分类： 机器学习, 人工智能, 计算机与社会, 机器学习

作者： Ayoub Ajarra, Bishwamittra Ghosh, Debabrota Basu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08111v1

摘要： 随着机器学习 (ML) 模型在现实应用中的普遍部署，验证和审核 ML 模型的属性已成为人们关注的焦点。在这项工作中，我们关注三个属性：鲁棒性、个体公平性和群体公平性。我们讨论了两种审计 ML 模型属性的方法：在审计中重建和不重建目标模型的情况下进行估计。尽管文献中研究了第一种方法，但第二种方法仍未被探索。为此，我们开发了一个新的框架，该框架根据审核中的 ML 模型的傅立叶系数来量化不同的属性，但不会对其进行参数化重建。我们提出了主动傅里叶审计器（AFA），它根据机器学习模型的傅里叶系数查询样本点，并进一步估计属性。我们得出 AFA 估计的高概率错误界限，以及样本复杂性的最坏情况下限以对其进行审核。我们在多个数据集和模型上通过数值证明，AFA 在估计感兴趣的属性方面比基线更准确且样本效率更高。

仔细研究大型语言模型的机器遗忘

分类： 计算和语言, 人工智能, 机器学习

作者： Xiaojian Yuan, Tianyu Pang, Chao Du, Kejiang Chen, Weiming Zhang, Min Lin

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08109v1

摘要： 大型语言模型 (LLM) 可能会记住敏感或受版权保护的内容，从而引发隐私和法律问题。由于从头开始重新训练的成本很高，研究人员尝试利用机器去学习来删除大语言模型中的特定内容，同时保持整体性能。在本文中，我们讨论了大语言模型机器取消学习的几个问题，并提供了我们对可能方法的见解。为了解决遗忘后模型输出评估不充分的问题，我们引入了三个额外的指标来评估标记多样性、句子语义和事实正确性。然后，我们将遗忘方法分为非目标性和目标性，并分别讨论它们的问题。具体来说，无目标忘却试图近似的行为是不可预测的，并且可能涉及幻觉，而现有的正则化不足以实现有针对性的忘却。为了缓解这些问题，我们建议使用最大化熵（ME）的目标来进行无目标的忘却，并将答案保留（AP）损失作为有针对性的忘却的正则化。虚拟遗忘、持续遗忘和现实世界遗忘三种场景的实验结果证明了我们方法的有效性。该代码可在 https://github.com/sail-sg/closer-look-LLM-unlearning 获取。

用于为美国住宅太阳能采用和发电合成数字孪生的生成式人工智能技术

分类： 人工智能

作者： Aparna Kishore, Swapna Thorve, Madhav Marathe

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08098v1

摘要： 住宅屋顶太阳能的采用被认为对于减少碳排放至关重要。缺乏更精细分辨率（例如家庭、每小时级别）的光伏 (PV) 数据给明智决策带来了重大障碍。我们讨论了一种新颖的方法来生成高度精细的、住宅规模的现实数据集，以便在美国本土采用屋顶太阳能。数据驱动的方法包括：（i）集成机器学习模型来识别光伏采用者，（ii）使用可解释的人工智能技术增强数据的方法，以收集有关关键特征及其相互作用的见解，以及（iii）生成家庭的方法使用分析模型的每小时太阳能输出水平。生成的合成数据集使用真实世界数据进行验证，并且可以作为下游任务建模的数字孪生。最后，一项利用弗吉尼亚州数字孪生的基于政策的案例研究表明，通过 30% 的联邦太阳能投资税收抵免，屋顶太阳能的采用率有所增加，特别是在中低收入社区。

SAKA：半自动化知识图谱构建与应用的智能平台

分类： 人工智能

作者： Hanrong Zhang, Xinyue Wang, Jiabao Pan, Hongwei Wang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08094v1

摘要： 知识图谱（KG）技术在许多领域得到广泛应用，许多公司都提供基于KG的应用。然而，大多数KG平台需要专业知识和用户大量的时间和精力来手动构建KG记录，这给普通人的使用带来了很大的困难。此外，音频数据丰富且包含有价值的信息，但将其转换为 KG 具有挑战性。更重要的是，这些平台通常不会充分利用用户构建的知识图谱的潜力。在本文中，我们提出了一种智能且用户友好的半自动化知识图谱构建和应用（SAKA）平台来解决上述问题。主要是用户可以通过与平台交互，半自动地从众多领域的结构化数据中构建知识图谱，并在此基础上存储、查看、管理和更新多版本的知识图谱。此外，我们提出了一种基于音频的知识图谱信息提取（AGIE）方法来从音频数据中建立知识图谱。最后，该平台基于用户创建的知识图谱创建了一个基于语义解析的知识库问答（KBQA）系统。我们证明了SAKA平台上半自动KG构建方法的可行性。

知识图谱能让大型语言模型更值得信赖吗？开放式问答的实证研究

分类： 计算和语言, 人工智能

作者： Yuan Sui, Bryan Hooi

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08085v1

摘要： 最近集成知识图（KG）的工作在提高大型语言模型（LLM）的推理准确性方面取得了有希望的改进。然而，当前的基准测试主要关注封闭任务，在评估更复杂的现实场景方面存在差距。这一差距也模糊了对 KG 减轻大语言模型幻觉问题潜力的评估。为了填补这一空白，我们引入了 OKGQA，这是一个新的基准，专门设计用于评估在开放式、真实世界问答场景下使用知识图谱增强的大语言模型。 OKGQA旨在使用不同类型的问题来密切反映实际应用的复杂性，并结合特定的指标来衡量幻觉的减少和推理能力的增强。为了考虑知识图谱可能存在不同程度错误的场景，我们进一步提出了另一个实验，设置 OKGQA-P 来评估当知识图谱的语义和结构被故意扰乱和污染时的模型性能。 OKGQA 的目标是（1）探索知识图谱是否能让大语言模型在开放式环境中更值得信赖，以及（2）进行比较分析，以揭示利用知识图谱减少大语言模型幻觉的方法和未来方向。我们相信，这项研究可以促进更完整的绩效比较，并鼓励在将 KG 与 LLM 结合方面不断改进。

打包分析：打包更适合监督微调中的大型模型或数据集

分类： 机器学习, 人工智能, 计算和语言

作者： Shuhe Wang, Guoyin Wang, Jiwei Li, Eduard Hovy, Chen Guo

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08081v1

摘要： 打包最初在预训练阶段使用，是一种优化技术，旨在通过组合不同的训练序列以适应模型的最大输入长度来最大化硬件资源效率。尽管它在预训练期间已经证明了有效性，但在监督微调（SFT）阶段仍然缺乏对以下几点的全面分析：（1）打包是否可以在保持性能的同时有效提高训练效率，（2）模型和数据集的合适大小，以便通过打包方法进行微调，以及（3）打包不相关或相关的训练样本是否可能导致模型过度忽视或过度依赖上下文。在本文中，我们对使用填充和打包的 SFT 方法进行了广泛的比较，涵盖从 69K 到 1.2M 的 SFT 数据集和从 8B 到 70B 的模型。这首次全面分析了打包与填充的优点和局限性，以及在各种训练场景中实施打包的实际考虑因素。我们的分析涵盖各种基准，包括知识、推理和编码，以及基于 GPT 的评估、时间效率和其他微调参数。我们还开源了用于微调和评估的代码，并提供了针对不同大小的数据集进行微调的检查点，旨在推进未来对打包方法的研究。代码位于：https://github.com/ShuheWang1998/Packing-Analysis?tab=readme-ov-file。

基于忘却的神经解释

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Ching Lam Choi, Alexandre Duplessis, Serge Belongie

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08069v1

摘要： 基于梯度的解释通常需要比较的锚点，以避免计算特征重要性的饱和。我们表明，当前使用静态函数（恒定映射、平均或模糊）定义的基线注入了偏离模型行为的有害颜色、纹理或频率假设。这会导致不规则梯度的积累，导致归因图有偏差、脆弱且可操纵。与静态方法不同，我们建议 UNI 通过扰乱输入到最陡上升的不可学习方向来计算不可学习的、去偏的和自适应的基线。我们的方法发现了可靠的基线并成功地消除了显着特征，从而局部平滑了高曲率决策边界。我们的分析指出，忘却是产生忠实、高效和稳健解释的一个有前途的途径。

受教学启发的综合提示框架：一种增强大型语言模型推理的新方法

分类： 计算和语言, 人工智能

作者： Wenting Tan, Dongxiao Chen, Jieting Xue, Zihao Wang, Taijie Chen

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08068v1

摘要： 大型语言模型 (LLM) 在各个领域都表现出了令人印象深刻的性能，但在算术推理任务上仍然遇到困难。最近的工作表明了提示设计方法在增强推理能力方面的有效性。然而，这些方法忽视了成功解决大多数算术推理问题所需的特定概念、定理和技巧的先验知识的关键要求。为了解决这个问题，我们提出了一种新颖有效的教学启发综合框架，它模拟教师指导学生的教学过程。该方法为大语言模型提供基本概念、相关定理以及类似问题的类比解决方法，有利于推理能力的提升。此外，我们还介绍了两个新的中文数据集 MathMC 和 MathToF，两者都有详细的解释和答案。在九个基准上进行的实验表明我们的方法提高了大语言模型的推理准确性。借助 GPT-4 和我们的框架，我们在四个数学基准（AddSub、SVAMP、Math23K 和 AQuA）上实现了最先进的性能，准确度分别为 98.2% (+3.3%)、93.9% (+0.2%) 、94.3%（+7.2%）和 81.1%（+1.2%）。我们的数据和代码可在 https://github.com/SallyTan13/Teaching-Inspired-Prompting 获取。

奖励增强数据增强了大语言模型的直接偏好调整

分类： 机器学习, 人工智能

作者： Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08067v1

摘要： 大型语言模型 (LLM) 中的偏好对齐显着提高了它们遵守人类指令和意图的能力。然而，现有的直接对齐算法主要关注相对偏好，常常忽视响应的定性方面。努力最大化所选响应和稍差的拒绝响应之间的隐式奖励差距可能会导致过度拟合和不必要的高质量拒绝响应的遗忘。对奖励分数的不了解也促使大语言模型不加区别地偏向低质量的选择响应，而无法推广到数据稀疏的最高奖励响应。为了克服这些缺点，我们的研究引入了奖励条件大语言模型政策，该政策可以从数据集中的整个响应质量范围中识别和学习，帮助推断出更优化的区域。我们提出了一种有效而简单的数据重新标记方法，该方法根据质量分数来调节偏好对，以构建奖励增强的数据集。该数据集很容易与现有的直接对齐算法集成，并且适用于任何偏好数据集。包括 AlpacaEval、MT-Bench 和 Arena-Hard-Auto 在内的指令跟踪基准测试的实验结果表明，我们的方法在不同模型中持续大幅提升 DPO 的性能。此外，我们的方法提高了各种学术基准的平均准确性。当将我们的方法应用于 on-policy 数据时，生成的 DPO 模型在 AlpacaEval 上实现了 SOTA 结果。通过消融研究，我们证明我们的方法不仅最大化了偏好数据的效用，而且还减轻了遗忘问题，证明了其广泛的有效性超出了单纯的数据集扩展。我们的代码可在 https://github.com/shenao-zhang/reward-augmented-preference 获取。

通过正交耦合动力学优化运输

分类： 优化与控制, 人工智能

作者： Mohsen Sadr, Peyman Mohajerin Esfehani, Hossein Gorji

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08060v1

摘要： 许多数值算法和学习任务都依赖于 Monge-Kantorovich 问题和相应 Wasserstein 距离的解决。虽然自然的方法是将问题视为无限维线性规划，但由于相对于样本大小的多项式缩放以及密集的内存要求，这种方法严重限制了计算性能。我们提出了一种新颖的替代框架来解决基于投影型梯度下降方案的 Monge-Kantorovich 问题。微观动力学建立在条件期望的概念之上，探索并利用与意见动态的联系来构建紧凑的数值方案。我们证明了所设计的动力学恢复了具有良好计算性能的随机映射。除了理论见解之外，所提供的动力学为构建计算最佳传输地图和 Wasserstein 距离的数值方案的创新方法铺平了道路。

闭环：学习通过语言模型模拟学生修订生成写作反馈

分类： 计算和语言, 人工智能, 机器学习

作者： Inderjeet Nair, Jiaye Tan, Xiaotian Su, Anne Gere, Xu Wang, Lu Wang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08058v1

摘要： 提供反馈被广泛认为对于提高学生的写作技能至关重要。语言模型 (LM) 的最新进展使得自动生成可操作且与人类指定属性非常一致的反馈成为可能。然而，目前尚不清楚这些模型产生的反馈是否真正有效地提高学生复习的质量。此外，由于对于可以提高修改性能的特定属性缺乏共识，因此用一组精确的指令来提示 LM 来生成反馈并非易事。为了应对这些挑战，我们提出了 PROF，它通过学习 LM 模拟学生的修订来产生反馈。 PROF 旨在通过直接最大化 LM 模拟的学生整体复习表现的有效性来迭代优化反馈生成器。我们以经济论文作业为重点，实证测试了 PROF 的有效性，并观察到我们的方法不仅在提高学生写作的有效性方面超越了各种基线方法，而且还展示了增强的教学价值，即使它没有经过明确的培训方面。

扩展内核：ConvNet 中的大型内核设计实现通用表示

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08049v1

摘要： 本文提出了设计现代卷积神经网络（ConvNet）时使用大卷积核的范例。我们发现，使用几个大内核而不是堆叠多个较小的内核可能是一种出色的设计策略。我们的工作引入了一套针对大内核卷积网络的架构设计指南，以优化其效率和性能。我们提出了 UniRepLKNet 架构，它提供了专为大内核 ConvNet 设计的系统架构设计原则，强调其无需深层堆叠即可捕获广泛空间信息的独特能力。该模型不仅以 88.0% 的 ImageNet 准确率、55.6% 的 ADE20K mIoU 和 56.4% 的 COCO box AP 超越了其前辈，而且在时间序列预测等各种模式上展现了令人印象深刻的可扩展性和性能、音频、点云和视频识别。这些结果表明，与视觉 Transformer 相比，大内核 ConvNet 具有更快的推理速度的通用建模能力。我们的研究结果表明，大内核 ConvNet 拥有更大的有效感受野和更高的形状偏差，远离小内核 CNN 典型的纹理偏差。所有代码和模型均可在 https://github.com/AILab-CVC/UniRepLKNet 上公开获取，以促进社区的进一步研究和开发。

关于 Kolmogorov 的（随机）梯度下降的收敛性--Arnold Networks

分类： 机器学习, 人工智能, 优化与控制

作者： Yihang Gao, Vincent Y. F. Tan

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08041v1

摘要： Kolmogorov--Arnold Networks (KAN) 是最近提出的一种神经网络架构，由于其作为多层感知器 (MLP) 的可行替代方案的潜力及其对各种科学任务的广泛适用性，在深度学习社区中获得了极大的关注。实证研究表明，通过随机梯度下降（SGD）优化的 KAN 能够在各种机器学习（例如回归、分类和时间序列预测等）和科学任务（例如求解偏微分）中实现接近零的训练损失方程）。在本文中，我们通过对两层 KAN 的梯度下降 (GD) 和 SGD 进行严格的收敛分析来解决回归和物理任务，为实证成功提供了理论解释。对于回归问题，我们使用神经正切核的视角建立了当 KAN 的隐藏维度足够大时 GD 实现目标函数的全局线性收敛。我们进一步将这些结果扩展到 SGD，证明了类似的全球预期趋同。此外，我们还分析了基于物理的 KAN 的 GD 和 SGD 的全局收敛性，这由于更复杂的损失结构而带来了额外的挑战。这是第一个为 GD 和 SGD 建立全局收敛保证的工作，应用于优化 KAN 和基于物理的 KAN。

具有外部性的战略分类

分类： 计算机科学与博弈论, 人工智能, 机器学习, 多代理系统

作者： Yiling Chen, Safwan Hossain, Evi Micha, Ariel Procaccia

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08032v1

摘要： 我们提出了策略分类问题的一个新变体：委托人揭示一个分类器，$n$ 代理报告他们要分类的（可能被操纵的）特征。在现实世界应用的推动下，我们的模型至关重要地允许操纵一个代理来影响另一个代理；也就是说，它明确地捕捉了主体间的外部性。委托-代理交互被正式建模为 Stackelberg 博弈，并将由此产生的代理操纵动态捕获为同步博弈。我们证明，在某些假设下，该代理操纵博弈的纯纳什均衡是唯一的并且可以有效地计算。利用这一结果，为学习者建立了 PAC 学习保证：非正式地，我们表明，即使随机数量的代理正在操纵其方式达到纯纳什均衡，我们也可以学习最小化分布损失的分类器。我们还评论了通过基于梯度的方法对此类分类器的优化。这项工作为对分类器进行更现实的分析奠定了理论基础，这些分类器对于在共同环境中交互的多个战略参与者具有鲁棒性。

通过截断拉普拉斯机制的私有语言模型

分类： 计算和语言, 人工智能, 机器学习

作者： Tianhao Huang, Tao Yang, Ivan Habernal, Lijie Hu, Di Wang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08027v1

摘要： NLP 任务的深度学习模型容易受到各种隐私攻击。为了防止隐私泄露，研究人员依赖嵌入空间中差分隐私（DP）的形式保证，研究了字级扰动。然而，许多现有方法要么在使用拉普拉斯或高斯机制时在高隐私机制中实现不令人满意的性能，要么诉诸于在隐私强度方面不如规范DP的较弱的DP松弛。这就提出了一个问题：是否可以设计一种新的私有词嵌入方法来克服这些限制。在本文中，我们提出了一种新颖的私有嵌入方法，称为高维截断拉普拉斯机制。具体来说，我们引入了截断拉普拉斯机制的非平凡扩展，该机制以前仅在一维空间情况下进行研究。从理论上讲，我们表明与之前的私有词嵌入方法相比，我们的方法具有较低的方差。为了进一步验证其有效性，我们使用三个数据集对私有嵌入和下游任务进行了全面的实验。值得注意的是，即使在高度隐私的情况下，与非隐私场景相比，我们的方法也只会导致效用略有下降。

内部可解释性电路发现的计算复杂性

分类： 人工智能, 计算复杂度, 神经元和认知

作者： Federico Adolfi, Martina G. Vilas, Todd Wareham

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08025v1

摘要： 神经网络在机器学习、认知/脑科学和社会中的许多拟议应用都取决于通过电路发现进行内部解释的可行性。这需要对可行的算法选项进行实证和理论探索。尽管启发式方法的设计和测试取得了进步，但当我们缺乏对它们所要解决的问题的复杂性属性的了解时，人们仍然担心它们的可扩展性和忠实性。为了解决这个问题，我们用经典和参数化计算复杂性理论来研究电路发现：（1）我们描述了一个概念支架，以根据描述、解释、预测和控制的可供性来推理电路发现查询；（2）我们形式化了一套全面的查询，捕捉机械解释，并提出了一个正式的分析框架；（3）我们用它来解决多层感知器（例如变压器的一部分）上许多查询变体的复杂性和实际兴趣的松弛。我们的研究结果揭示了一个具有挑战性的复杂性景观。许多查询是棘手的（NP-hard，$\Sigma^p_2$-hard），在约束模型/电路特征（例如深度）时仍然是固定参数棘手（W[1]-hard），并且在加法下是不可近似的，乘法和概率近似方案。为了驾驭这一局面，我们证明存在一些转换，可以通过更好理解的启发式方法来解决一些难题（NP- vs. $\Sigma^p_2$-complete），并证明可处理性 (PTIME) 或固定参数可处理性 ( FPT）更温和的查询，保留有用的可供性。该框架使我们能够了解可解释性查询的范围和限制，探索可行的选项，并比较现有和未来架构的资源需求。

使用分子中原子量子特性预训练图 Transformer，以改进 ADMET 建模

分类： 机器学习, 人工智能

作者： Alessio Fallani, Ramil Nugmanov, Jose Arjona-Medina, Jörg Kurt Wegner, Alexandre Tkatchenko, Kostiantyn Chernichenko

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08024v1

摘要： 我们评估预训练 Graph Transformer 架构对原子级量子力学特征的影响，以模拟药物化合物的吸收、分布、代谢、排泄和毒性 (ADMET) 特性。我们将这种预训练策略与其他两种策略进行比较：一种基于分子量子特性（特别是 HOMO-LUMO 间隙），另一种使用自监督原子掩蔽技术。在对 Therapeutic Data Commons ADMET 数据集进行微调后，我们评估了不同模型的性能改进，观察到使用原子量子力学特性预训练的模型通常会产生更好的结果。然后，我们分析潜在表示，并观察到监督策略在微调后保留了预训练信息，并且不同的预训练会产生跨层潜在表达的不同趋势。此外，我们发现针对原子量子力学特性进行预训练的模型通过注意力权重捕获输入图的更多低频拉普拉斯本征模式，并产生分子内原子环境的更好表示。将分析应用于更大的微粒体清除非公开数据集，说明了所研究指标的普遍性。在这种情况下，模型的性能符合表示分析和强调，特别是对于掩码预训练和原子级量子属性预训练的情况，在公共基准上具有相似性能的模型类型如何在大规模制药上具有不同的性能数据。

GrabDAE：利用 Grab-Mask 和降噪自动编码器进行无监督域适应的创新框架

分类： 计算机视觉和模式识别, 人工智能

作者： Junzhou Chen, Xuan Wen, Ronghui Zhang, Bingtao Ren, Di Wu, Zhigang Xu, Danwei Wang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08023v1

摘要： 无监督域适应 (UDA) 旨在通过解决域转移问题，将在标记源域上训练的模型调整到未标记目标域。现有的无监督域适应（UDA）方法通常无法充分利用目标域的上下文信息，从而导致源域和目标域对齐期间决策边界分离不理想。为了解决这个问题，我们引入了 GrabDAE，这是一种创新的 UDA 框架，旨在解决视觉分类任务中的领域转移问题。 GrabDAE 融合了两项关键创新：Grab-Mask 模块，模糊目标域图像中的背景信息，使模型能够通过对比学习专注于基本的、与域相关的特征；去噪自动编码器（DAE），通过重建特征和过滤噪声来增强特征对齐，确保对目标域的更鲁棒的适应。这些组件使 GrabDAE 能够有效处理未标记的目标域数据，从而显着提高分类准确性和鲁棒性。对基准数据集（包括 VisDA-2017、Office-Home 和 Office31）的大量实验表明，GrabDAE 始终超越最先进的 UDA 方法，设定了新的性能基准。通过利用其新颖的特征屏蔽和去噪方法解决 UDA 的关键挑战，GrabDAE 在领域适应方面提供了重大的理论和实践进步。

通过自适应策略切换强化学习中时态逻辑约束的概率满足

分类： 人工智能, 机器人技术, 系统与控制, 系统与控制

作者： Xiaoshan Lin, Sadık Bera Yüksel, Yasin Yazıcıoğlu, Derya Aksaray

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08022v1

摘要： 约束强化学习 (CRL) 是机器学习的一个子集，它将约束引入到传统的强化学习 (RL) 框架中。与仅以最大化累积奖励为目标的传统强化学习不同，CRL 包含了额外的约束，这些约束代表了代理在学习过程中必须遵守的特定任务要求或限制。在本文中，我们解决了一类 CRL 问题，其中代理旨在学习最优策略以最大化奖励，同时确保在整个学习过程中达到所需的时间逻辑约束满足水平。我们提出了一种新颖的框架，该框架依赖于纯学习（奖励最大化）和约束满足之间的切换。该框架根据早期试验估计约束满足的概率，并适当调整学习和约束满足策略之间切换的概率。我们从理论上验证了所提出算法的正确性，并通过综合仿真证明了其性能和可扩展性。

考试时高效学习：大语言模型的主动微调

分类： 机器学习, 人工智能

作者： Jonas Hübotter, Sascha Bongni, Ido Hakimi, Andreas Krause

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08020v1

摘要： 最近微调语言模型的努力通常依赖于自动数据选择，通常使用从大型数据集中检索最近邻居。然而，我们从理论上表明，这种方法倾向于选择冗余数据，限制其有效性甚至损害性能。为了解决这个问题，我们引入了 SIFT，这是一种数据选择算法，旨在减少给定提示时模型响应的不确定性，它统一了检索和主动学习的思想。最近邻检索通常会在存在信息重复的情况下失败，而 SIFT 会考虑信息重复并优化所选示例的整体信息增益。我们的评估重点是在测试时对 Pile 数据集上的提示特定语言建模进行微调，并表明 SIFT 始终优于最近邻检索，且计算开销最小。此外，我们表明，我们的不确定性估计可以预测测试时间微调的性能增益，并使用它来开发一种自适应算法，该算法投资与实现的性能增益成比例的测试时间计算。我们提供 $\texttt{activeft}$ （主动微调）库，它可以用作最近邻检索的直接替代品。

迈向协同、通用、高效的机器人操作双系统

分类： 机器人技术, 人工智能

作者： Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.08001v1

摘要： 对在多样化和动态环境中运行的多功能机器人系统的需求不断增长，强调了通才政策的重要性，该政策利用大型跨实体数据语料库来促进广泛的适应性和高级推理。然而，通才会因低效的推理和昂贵的培训而苦苦挣扎。相反，专家策略是针对特定领域数据制定的，并且在任务级精度和效率方面表现出色。然而，它缺乏广泛应用的泛化能力。受这些观察的启发，我们推出了 RoboDual，这是一种协同双系统，可以补充通才政策和专业政策的优点。基于扩散变压器的专家专为多步骤动作推出而设计，以基于视觉-语言-动作（VLA）的通才的高级任务理解和离散化动作输出为条件。与 OpenVLA 相比，RoboDual 通过引入仅 20M 可训练参数的专家策略，在现实环境中实现了 26.7% 的改进，在 CALVIN 上实现了 12% 的增益。仅用 5% 的演示数据即可保持强劲性能，并在实际部署中实现 3.8 倍的控制频率。代码将公开。我们的项目页面托管在：https://opendrivelab.com/RoboDual/

仇恨言论注释中的人类和大语言模型偏见：注释者和目标的社会人口统计分析

分类： 计算和语言, 人工智能, 人机交互

作者： Tommaso Giorgi, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07991v1

摘要： 在线平台的兴起加剧了仇恨言论的传播，需要可扩展且有效的检测。然而，仇恨言论检测系统的准确性在很大程度上依赖于人类标记的数据，而这些数据本质上很容易受到偏见的影响。虽然之前的工作已经研究过这个问题，但注释者的特征与仇恨目标的特征之间的相互作用仍未被探索。我们通过利用包含注释者和目标的丰富社会人口统计信息的广泛数据集来填补这一空白，揭示人类偏见如何与目标属性相关。我们的分析揭示了普遍存在的偏见，我们根据其强度和普遍程度对这些偏见进行了定量描述和表征，揭示了显着的差异。此外，我们将人类偏见与基于角色的大语言模型所表现出的偏见进行比较。我们的研究结果表明，虽然基于角色的大语言模型确实存在偏见，但这些偏见与人类注释者的偏见有很大不同。总的来说，我们的工作提供了关于仇恨言论注释中人类偏见的新的、细致入微的结果，以及对人工智能驱动的仇恨言论检测系统的设计的新见解。

MolMix：多模态分子表示学习的简单而有效的基线

分类： 机器学习, 人工智能

作者： Andrei Manolache, Dragos Tantaru, Mathias Niepert

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07981v1

摘要： 在这项工作中，我们提出了一个基于变压器的简单基线，用于多模式分子表示学习，集成了三种不同的模式：SMILES 字符串、2D 图形表示和分子的 3D 构象异构体。我们方法的一个关键方面是 3D 构象异构体的聚合，使模型能够解释分子可以采用多种构象的事实 - 这是准确分子表示的重要因素。使用特定于模态的编码器提取每种模态的标记：SMILES 字符串的转换器、2D 图的消息传递神经网络以及 3D 构象的等变神经网络。该框架的灵活性和模块化使得这些编码器能够轻松适应和替换，使该模型对于不同的分子任务具有高度的通用性。然后，提取的标记被组合成统一的多模态序列，由下游变压器处理以执行预测任务。为了有效地扩展我们的模型以适应大型多模态数据集，我们利用 Flash Attention 2 和 bfloat16 精度。尽管很简单，但我们的方法在多个数据集上取得了最先进的结果，证明了其作为多模式分子表示学习的强大基线的有效性。

D-Wave 的非线性程序混合求解器：描述和性能分析

分类： 新兴技术, 人工智能, 量子物理学

作者： Eneko Osaba, Pablo Miranda-Rodriguez

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07980v1

摘要： 先进量子经典算法的发展是量子计算中最突出的策略之一。最近引入了许多混合求解器。其中许多方法是专门为解决特定用例而创建的。然而，一些成熟的方案经常被用来解决优化问题。在此背景下，D-Wave 于 2020 年推出了混合求解器服务，提供了一系列方法，旨在为旨在优化性能和操作流程的用户加快解决方案时间。最近，该产品组合中添加了一项新技术：非线性程序混合求解器。本文描述了该求解器，并通过针对三个组合优化问题（旅行商问题、背包问题和最大割问题）的 45 个实例的基准测试来评估其性能。为了方便使用这个相对未经探索的求解器，我们提供了用于解决这三个优化问题的实现细节。

Doob 的拉格朗日：一种样本高效的过渡路径采样变分方法

分类： 机器学习, 人工智能, 生物物理学, 化学物理

作者： Yuanqi Du, Michael Plainer, Rob Brekelmans, Chenru Duan, Frank Noé, Carla P. Gomes, Alan Apsuru-Guzik, Kirill Neklyudov

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07974v1

摘要： 动力系统中的稀有事件采样是自然科学中出现的一个基本问题，由于轨迹空间呈指数级增长，因此带来了重大的计算挑战。对于感兴趣的动力系统遵循具有已知漂移的布朗运动的设置，调节过程以达到给定终点或所需罕见事件的问题由 Doob 的 h 变换明确回答。然而，这种变换的简单估计是不可行的，因为它需要模拟足够多的前向轨迹来估计罕见事件概率。在这项工作中，我们提出了 Doob 的 $h$ 变换的变分公式，作为给定初始点和所需终点之间轨迹的优化问题。为了解决这个优化问题，我们提出了一个无模拟的训练目标，其模型参数化通过设计施加了所需的边界条件。我们的方法显着减少了轨迹的搜索空间，并避免了现有方法所需的昂贵的轨迹模拟和低效的重要性采样估计器。我们证明了我们的方法能够在现实世界的分子模拟和蛋白质折叠任务中找到可行的转换路径。

神经推理网络：具有自动文本解释的高效可解释神经网络

分类： 机器学习, 人工智能, I.2.6; I.5.1

作者： Stephen Carrow, Kyle Harper Erwin, Olga Vilenskaia, Parikshit Ram, Tim Klinger, Naweed Aghmad Khan, Ndivhuwo Makondo, Alexander Gray

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07966v1

摘要： 机器学习的最新进展导致神经网络在各种任务中的采用激增，但缺乏可解释性仍然是许多其他任务的一个问题，其中有必要了解影响预测的特征以确保公平、安全和法律合规性。在本文中，我们考虑一类此类任务，即表格数据集分类，并提出一种新颖的神经符号架构——神经推理网络（NRN），它是可扩展的，并为其预测生成逻辑上合理的文本解释。 NRN 是逻辑神经元的连接层，实现一种实值逻辑形式。训练算法 (R-NRN) 像往常一样使用带有反向传播的梯度下降优化来学习网络权重，但也使用基于老虎机的优化来学习网络结构本身。两者都是在 PyTorch (https://github.com/IBM/torchlogic) 的扩展中实现，充分利用 GPU 扩展和批量训练。对 22 个开源数据集进行表格分类的评估表明，其性能（通过 ROC AUC 衡量）比多层感知器 (MLP) 有所改进，并且在统计上与随机森林等其他最先进的方法相似、XGBoost 和梯度提升树，同时训练速度平均提高 43%，所需参数数量减少超过 2 个数量级。此外，R-NRN 解释比比较方法更短，同时产生更准确的特征重要性得分。

使用本体论驱动的论证来保证大语言模型对抗性的稳健性

分类： 人工智能

作者： Tomas Bueno Momcilovic, Beat Buesser, Giulio Zizzo, Mark Purcell, Tomas Bueno Momcilovic

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07962v1

摘要： 尽管大型语言模型（LLM）具有令人印象深刻的适应性，但在确保其安全性、透明度和可解释性方面仍然存在挑战。鉴于大语言模型容易受到对抗性攻击，需要通过不断发展的对抗性训练和防护措施组合来保护大语言模型。然而，管理隐式和异构知识以持续确保鲁棒性是很困难的。我们引入了一种基于正式论证的新方法来保证大语言模型的对抗稳健性。使用本体进行形式化，我们构建最先进的攻击和防御，促进创建人类可读的保证案例和机器可读的表示。我们通过英语语言和代码翻译任务中的示例展示了其应用，并针对工程师、数据科学家、用户和审计员提供了对理论和实践的启示。

COMPL-AI 框架：欧盟人工智能法案的技术解释和 LLM 基准套件

分类： 计算和语言, 人工智能, 计算机与社会, 机器学习

作者： Philipp Guldimann, Alexander Spiridonov, Robin Staab, Nikola Jovanović, Mark Vero, Velko Vechev, Anna Gueorguieva, Mislav Balunović, Nikola Konstantinov, Pavol Bielik, Petar Tsankov, Martin Vechev

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07959v1

摘要： 欧盟的《人工智能法案》（AI Act）是朝着负责任的人工智能发展迈出的重要一步，但缺乏明确的技术解释，导致难以评估模型的合规性。这项工作提出了 COMPL-AI，这是一个综合框架，包括 (i) 对欧盟人工智能法案的第一个技术解释，将其广泛的监管要求转化为可衡量的技术要求，重点关注大语言模型 (LLM)，以及 (ii)一个以法案为中心的开源基准测试套件，基于对最先进的 LLM 基准的彻底调查和实施。通过在 COMPL-AI 背景下评估 12 个著名的大语言模型，我们揭示了现有模型和基准的缺陷，特别是在稳健性、安全性、多样性和公平性等领域。这项工作强调需要将重点转向这些方面，鼓励大语言模型的平衡发展和更全面的符合监管的基准。同时，COMPL-AI 首次展示了将该法案的义务提升到更具体、技术层面的可能性和困难。因此，我们的工作可以作为向模型提供商提供可行建议的有用的第一步，并有助于欧盟为实施该法案而不断做出的努力，例如起草 GPAI 实践守则。

功能表示统一框架

分类： 人工智能

作者： Alfredo Ibias, Hector Antona, Guillem Ramirez-Miranda, Enric Guinovart, Eduard Alarcon

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07928v1

摘要： 认知架构是我们开发人工认知研究的前沿。然而，他们从分离的内存和程序计算模型来解决这个问题。这种计算模型提出了一个基本问题：知识检索启发式。在本文中，我们建议通过使用一种新的计算模型来解决这个问题，该模型将内存和程序结合在一起：函数表示。我们提出了一个关于如何实现和使用这些函数表示的完整框架，并通过数学定义和证明探索了它们的潜力。我们还讨论了组织多个函数表示的不同方法，并探讨了这些函数表示可以实现的函数类型。最后，我们还探讨了我们提案的局限性。

具有背景知识的广义规划的深度学习

分类： 人工智能

作者： Dillon Z. Chen, Rostislav Horčík, Gustav Šír

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07923v1

摘要： 自动规划是一种声明式问题解决形式，最近引起了机器学习 (ML) 社区的关注。机器学习已应用于规划，作为测试架构“推理能力”的一种方式，或者更务实地尝试通过学习的领域知识来扩展求解器。在实践中，规划问题很容易解决，但很难优化。然而，机器学习方法仍然难以解决许多对人类和经典规划者来说都很容易的问题。因此，在本文中，我们提出了一种新的机器学习方法，允许用户通过数据记录规则指定背景知识（BK），以集成的方式指导学习和规划过程。通过合并 BK，我们的方法无需重新学习如何从头开始解决问题，而是将学习重点放在计划质量优化上。 BK 的实验表明，我们的方法成功地进行了扩展，并学会了如何利用 5 秒内生成的小型训练数据的高质量解决方案进行有效规划。

分层强化学习中的元学习集成可实现高级任务复杂性

分类： 机器学习, 人工智能

作者： Arash Khajooeinejad, Masoumeh Chapariniya

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07921v1

摘要： 分层强化学习（HRL）通过将复杂任务分解为结构化策略来有效地处理复杂任务。然而，HRL 智能体经常面临高效探索和快速适应的挑战。为了解决这个问题，我们将元学习集成到 HRL 中，以增强智能体快速学习和适应分层策略的能力。我们的方法采用元学习根据先前的经验进行快速任务适应，而内在动机机制通过奖励新的状态访问来鼓励有效的探索。具体来说，我们的代理使用高级策略在自定义网格环境中运行的多个低级策略中进行选择。我们利用基于梯度的元学习和可微的内循环更新，从而能够在日益困难的任务课程中进行优化。实验结果表明，我们的元学习分层智能体显着优于没有元学习和内在动机的传统 HRL 智能体。该代理在复杂的网格环境中表现出加速的学习、更高的累积奖励和更高的成功率。这些发现表明，将元学习与 HRL 相结合，以及课程学习和内在动机，可以大大增强智能体处理复杂任务的能力。

ONCOPILOT：用于实体瘤评估的快速 CT 基础模型

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Léo Machado, Hélène Philippe, Élodie Ferreres, Julien Khlaut, Julie Dupuis, Korentin Le Floch, Denis Habip Gatenyo, Pascal Roux, Jules Grégory, Maxime Ronot, Corentin Dancette, Daniel Tordjman, Pierre Manceron, Paul Hérent

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07908v1

摘要： 癌变是一种蛋白质形式的现象，肿瘤出现在不同的部位，并呈现出复杂多样的形状。在研究和临床实践的关键交叉点，需要精确和灵活的评估。然而，当前的生物标志物，例如 RECIST 1.1 的长轴和短轴测量，无法捕捉这种复杂性，无法提供肿瘤负荷的近似估计和更复杂过程的简单表示。此外，现有的监督人工智能模型在解决肿瘤表现的变异性方面面临挑战，限制了其临床实用性。这些限制源于注释的缺乏以及模型专注于狭隘定义的任务。为了应对这些挑战，我们开发了 ONCOPILOT，这是一种交互式放射学基础模型，经过大约 7,500 次覆盖全身的 CT 扫描训练，包括正常解剖结构和广泛的肿瘤病例。 ONCOPILOT 使用点击和边界框等视觉提示执行 3D 肿瘤分割，其性能优于最先进的模型（例如 nnUnet），并在 RECIST 1.1 测量中实现放射科医生级别的准确性。该基础模型的主要优点是它能够超越最先进的性能，同时让放射科医生了解最新情况，这是以前的模型无法实现的。当放射科医生交互式地细化分割时，准确性进一步提高。 ONCOPILOT 还加速测量过程并减少读者间的差异，促进体积分析并解锁新的生物标记以获得更深入的见解。该人工智能助手预计将提高 RECIST 1.1 测量的精度，释放体积生物标志物的潜力，并改善患者分层和临床护理，同时无缝集成到放射工作流程中。

执行算术：将大型语言模型微调为图灵机

分类： 人工智能, I.2.7

作者： Junyu Lai, Jiahe Xu, Yao Yang, Yunpeng Huang, Chun Cao, Jingwei Xu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07896v1

摘要： 大型语言模型 (LLM) 在广泛的自然语言处理和推理任务中表现出了卓越的能力。然而，他们在算术基础领域的表现仍然不能令人满意。在处理算术任务时，大语言模型通常会记住具体的例子，而不是学习底层的计算逻辑，这限制了他们推广到新问题的能力。在本文中，我们提出了一种可组合算术执行框架（CAEF），使大语言模型能够通过模拟图灵机来学习执行逐步计算，从而获得对计算逻辑的真正理解。此外，所提出的框架具有高度可扩展性，允许组合学习算子，从而显着降低学习复杂算子的难度。在我们的评估中，CAEF 在 LLaMA 3.1-8B 模型上的七种常见数学运算中实现了近 100% 的准确率，有效支持涉及最多 100 位数字的操作数的计算，而 GPT-4o 在某些设置中明显低于这一水平。

代理工作流生成基准测试

分类： 计算和语言, 人工智能, 人机交互, 机器学习, 多代理系统

作者： Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07869v1

摘要： 大型语言模型（LLM）以其处理各种任务的卓越能力，推动了推理和规划任务的显着进步，其中将复杂问题分解为可执行的工作流程是这一过程中的关键步骤。现有的工作流评估框架要么仅仅关注整体性能，要么存在场景覆盖范围有限、工作流结构简单化、评估标准宽松等局限性。为此，我们引入了 WorFBench，一个具有多方面场景和复杂的图形工作流结构的统一工作流生成基准。此外，我们还推出了 WorFEval，这是一种系统评估协议，利用子序列和子图匹配算法来准确量化 LLM 代理的工作流程生成能力。通过对不同类型LLM的综合评估，我们发现LLM智能体的序列规划能力和图规划能力之间存在明显差距，甚至GPT-4也表现出15%左右的差距。我们还训练了两个开源模型，并评估它们在执行任务上的泛化能力。此外，我们观察到生成的工作流可以增强下游任务，使它们能够在推理过程中用更少的时间实现卓越的性能。代码和数据集可在 https://github.com/zjunlp/WorFBench 获取。

权力集

分类： 人工智能

作者： Joao Marques-Silva, Carlos Mencía, Raúl Mencía

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07867v1

摘要： 自 20 世纪 40 年代中期以来，投票权的衡量标准一直是广泛研究的主题。最近，在其他领域也研究了类似的相对重要性的衡量标准，包括不一致的知识库、论证中的攻击强度、数据库管理分析中的不同问题以及可解释性。本文证明，所有这些示例都是对于更一般的问题领域而言重要的计算度量的实例。然后，论文表明，只要给定一个单调递增谓词来划分参考集的子集，就可以为任何参考集计算最著名的重要性度量。因此，本文还证明可以在多个领域设计重要的衡量标准，其中一些领域尚未研究或提出此类衡量标准。此外，本文还重点介绍了与重要性计算度量相关的几个研究方向。

System-2 通过通用性和适应性进行推理

分类： 人工智能

作者： Sejin Kim, Sundong Kim

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07866v1

摘要： 虽然在特定任务的应用中取得了重大进展，但当前的模型在深度推理、通用性和适应性方面存在困难，而这些是 System-2 推理的关键组成部分，对于实现通用人工智能 (AGI) 至关重要。尽管程序合成、语言模型和转换器等方法前景广阔，但这些方法往往无法泛化到训练数据之外，也无法适应新任务，从而限制了它们执行类人推理的能力。本文探讨了现有方法在实现先进的 System-2 推理方面的局限性，并强调了通用性和适应性对于 AGI 的重要性。此外，我们提出了四个关键研究方向来解决这些差距：（1）从动作序列中学习人类意图，（2）结合符号和神经模型，（3）针对陌生环境的元学习，以及（4）强化学习推理多步骤。通过这些方向，我们的目标是提高泛化和适应能力，使计算模型更接近 AGI 所需的推理能力。

RDT-1B：用于双手操作的扩散基础模型

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07864v1

摘要： 双手操纵在机器人技术中至关重要，但由于协调两个机器人手臂的固有复杂性（导致多模态动作分布）和训练数据的稀缺，开发基础模型极具挑战性。在本文中，我们提出了机器人扩散变压器（RDT），这是一种用于双手操作的开创性扩散基础模型。 RDT 基于扩散模型来有效地表示多模态，通过可扩展 Transformer 的创新设计来处理多模态输入的异构性并捕获机器人数据的非线性和高频。为了解决数据稀缺问题，我们进一步引入了物理可解释的统一动作空间，它可以统一各种机器人的动作表示，同时保留原始动作的物理意义，从而促进学习可迁移的物理知识。通过这些设计，我们成功地在迄今为止最大的多机器人数据集上预训练 RDT，并将其扩展到 1.2B 参数，这是用于机器人操作的最大的基于扩散的基础模型。我们最终在自行创建的多任务双手数据集（超过 6K 集）上对 RDT 进行了微调，以完善其操作能力。在真实机器人上的实验表明，RDT 显着优于现有方法。它对未见过的物体和场景表现出零样本泛化能力，理解并遵循语言指令，只需 1~5 次演示即可学习新技能，并有效处理复杂、灵巧的任务。我们参考 https://rdt-robotics.github.io/rdt-robotics/ 获取代码和视频。

混合动机游戏中基于同理心学习平衡利他主义和利己主义

分类： 人工智能

作者： Fanqi Kong, Yizhe Huang, Song-Chun Zhu, Siyuan Qi, Xue Feng

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07863v1

摘要： 现实世界的多主体场景通常涉及混合动机，要求利他主体能够自我保护，免受潜在的剥削。然而，现有的方法往往难以实现这两个目标。在本文中，基于移情反应是通过推断代理之间的社会关系来调节的，我们提出了 LASE Learning（基于移情）来平衡利他主义和利己主义），这是一种分布式多代理强化学习算法，通过赠送礼物来促进利他合作，同时避免在混合动机游戏中被其他主体利用。 LASE 将一部分奖励作为礼物分配给共同玩家，这种分配会根据社交关系动态调整——这是一种通过反事实推理评估共同玩家友好度的指标。特别是，社会关系通过将当前联合行动的估计 $Q$ 函数与边缘化共同玩家行为的反事实基线进行比较来衡量每个共同玩家，其行动分布由观点采择模块推断。在空间和时间扩展的混合动机博弈中进行了全面的实验，证明了 LASE 在不损害公平性的情况下促进群体协作的能力，以及针对各种类型的互动合作者调整政策的能力。

从 Logits 到层次结构：层次聚类变得简单

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Emanuele Palumbo, Moritz Vandenhirtz, Alain Ryser, Imant Daunhawer, Julia E. Vogt

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07858v1

摘要： 许多现实世界数据集的结构本质上是分层的，使得这种层次结构的建模成为无监督和监督机器学习的关键目标。最近，提出了具有深层架构的层次聚类的新方法。在这项工作中，我们对这一研究领域采取了批判性的视角，并证明许多方法在应用于现实数据集时表现出重大局限性，部分原因是它们的计算复杂性很高。特别是，我们表明，在预训练的非分层聚类模型之上实现的轻量级过程优于专门为分层聚类设计的模型。我们提出的方法计算效率高，适用于任何输出 logits 的预训练聚类模型，无需任何微调。为了强调我们研究结果的普遍性，我们说明了如何将我们的方法应用于监督设置，从预训练的 ImageNet 分类器中恢复有意义的层次结构。

SNN-PAR：通过尖峰神经网络进行节能行人属性识别

分类： 计算机视觉和模式识别, 人工智能, 神经和进化计算

作者： Haiyang Wang, Qian Zhu, Mowen She, Yabo Li, Haoyu Song, Minghe Xu, Xiao Wang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07857v1

摘要： 基于人工神经网络的行人属性识别（PAR）近年来得到了广泛的研究，尽管取得了很多进展，但能耗仍然较高。为了解决这个问题，在本文中，我们提出了一种基于尖峰神经网络（SNN）的节能属性识别框架。具体来说，我们首先采用尖峰标记器模块将给定的行人图像转换为尖峰特征表示。然后，输出将被输入尖峰 Transformer 主干网络以进行节能特征提取。我们将增强的尖峰特征输入一组前馈网络中以进行行人属性识别。除了广泛使用的二元交叉熵损失函数之外，我们还利用从人工神经网络到尖峰 Transformer 网络的知识蒸馏来实现更准确的属性识别。对三个广泛使用的 PAR 基准数据集进行的大量实验充分验证了我们提出的 SNN-PAR 框架的有效性。本文源代码发布于\url{https://github.com/Event-AHU/OpenPAR}。

MinorityPrompt：通过提示优化生成文本到少数图像

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Soobin Um, Jong Chul Ye

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07838v1

摘要： 我们使用预训练的文本到图像（T2I）潜在扩散模型研究少数样本的生成。在 T2I 生成的背景下，少数实例可以定义为生活在文本条件数据分布的低密度区域的实例。它们对于现代 T2I 生成器的各种应用都很有价值，例如数据增强和创意人工智能。不幸的是，现有的预训练 T2I 扩散模型主要集中在高密度区域，这很大程度上是由于引导采样器（如 CFG）的影响，而引导采样器对于生成高质量的生成至关重要。为了解决这个问题，我们提出了一个新颖的框架来应对 T2I 扩散模型的高密度焦点。具体来说，我们首先开发一个在线提示优化框架，该框架可以鼓励在推理过程中出现所需属性，同时保留用户提供的提示的语义内容。随后，我们将这个通用提示优化器定制为一个专门的求解器，通过合并精心设计的似然目标来促进少数特征的生成。我们在各种类型的 T2I 模型上进行的综合实验表明，与现有采样器相比，我们的方法显着增强了生成高质量少数实例的能力。

屏蔽生成先验提高了世界模型序列建模能力

分类： 机器学习, 人工智能

作者： Cristian Meo, Mircea Lica, Zarif Ikram, Akihiro Nakano, Vedant Shah, Aniket Rajiv Didolkar, Dianbo Liu, Anirudh Goyal, Justin Dauwels

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07836v1

摘要： 深度强化学习（RL）已成为在复杂环境中创建人工智能体的领先方法。基于模型的方法是使用预测环境动态的世界模型的强化学习方法，是提高数据效率最有前途的方向之一，是弥合研究与现实世界部署之间差距的关键一步。特别是，世界模型通过想象学习来提高样本效率，这涉及以自我监督的方式训练环境的生成序列模型。最近，掩码生成建模已经成为一种更有效、更优越的归纳偏差，用于建模和生成标记序列。基于高效随机变压器的世界模型 (STORM) 架构，我们用 Masked Generative Prior (例如 MaskGIT Prior) 取代了传统的 MLP 先验，并引入了 GIT-STORM。我们在两个下游任务上评估我们的模型：强化学习和视频预测。 GIT-STORM 在 Atari 100k 基准测试中展示了 RL 任务的显着性能提升。此外，我们首次将基于 Transformer 的世界模型应用于连续行动环境，弥补了先前研究中的重大空白。为了实现这一目标，我们采用了状态混合器功能，将潜在状态表示与动作集成在一起，使我们的模型能够处理连续的控制任务。我们通过对 DeepMind Control Suite 进行定性和定量分析来验证这种方法，展示了基于 Transformer 的世界模型在这个新领域的有效性。我们的结果凸显了 MaskGIT 动态先验的多功能性和有效性，为更准确的世界模型和有效的强化学习政策铺平了道路。

LaB-CL：用于改进停车位检测的局部和平衡对比学习

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： U Jin Jeong, Sumin Roh, Il Yong Chun

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07832v1

摘要： 停车位检测是自动停车系统的一项重要技术。一般来说，停车位检测的分类问题由两个任务组成，一个任务确定局部候选是否是停车位的路口，另一个任务识别检测到的路口的形状。这两种分类任务都很容易面临针对多数类别的偏见学习，从而降低分类性能。然而，停车位检测中数据不平衡的问题却被忽视了。我们提出了第一个用于停车位检测的监督对比学习框架，即用于改进停车位检测的局部和平衡对比学习（LaB-CL）。拟议的 LaB-CL 框架使用两种主要方法。首先，我们建议包含类原型，以从局部角度考虑每个小批量中所有类的表示。其次，我们提出了一种新的硬负采样方案，该方案选择具有高预测误差的局部表示。基准数据集的实验表明，所提出的 LaB-CL 框架可以优于现有的停车位检测方法。

通过模型编辑减轻代码大型语言模型中的性别偏见

分类： 软件工程, 人工智能, 计算和语言

作者： Zhanyue Qin, Haochuan Wang, Zecheng Wang, Deyuan Liu, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Dianbo Sui

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07820v1

摘要： 近年来，随着大语言模型（LLM）技术的成熟和高质量编程代码数据集的出现，研究人员对自动解决程序合成的挑战越来越有信心。然而，由于大多数LLM的训练样本都是未经筛选的，LLM的表现不可避免地可能与现实场景不符，从而导致社会偏见的存在。为了评估和量化代码法硕士中的性别偏见，我们提出了一个名为CodeGenBias（代码生成中的性别偏见）的数据集和一个基于相关职业的实际性别分布的评估指标FB-Score（Factual Bias Score）。在 CodeGenBias 和 FB-Score 的帮助下，我们评估和分析了八个主流 Code LLM 中的性别偏见。之前的工作已经证明，在知识编辑中表现良好的模型编辑方法有可能减轻大语言模型的社会偏见。因此，我们开发了一种名为MG-Editing（多粒度模型编辑）的模型编辑方法，其中包括定位和编辑阶段。我们的模型编辑方法MG-Editing可以应用于五个不同级别的模型参数粒度：全参数级别、层级别、模块级别、行级别和神经元级别。大量的实验不仅证明我们的 MG-Editing 可以有效减轻代码 LLM 中的性别偏见，同时保持其通用代码生成能力，而且还展示了其出色的泛化能力。同时，实验结果表明，考虑到模型的性别偏差及其通用代码生成能力，MG-Editing在行级和神经元级粒度上应用时最为有效。

时差变分持续学习

分类： 机器学习, 人工智能

作者： Luckeciano C. Melo, Alessandro Abate, Yarin Gal

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07812v1

摘要： 机器学习模型在现实应用中的一个关键能力是不断学习新任务的能力。这种适应性使他们能够应对数据生成分布随时间的潜在不可避免的变化。然而，在持续学习（CL）环境中，模型常常难以在学习新任务（可塑性）和保留先前知识（记忆稳定性）之间取得平衡。因此，它们很容易遭受灾难性遗忘，从而降低性能并破坏已部署系统的可靠性。变分连续学习方法通过采用递归更新后验分布并强制其保持接近最新后验估计的学习目标来应对这一挑战。尽管如此，我们认为这些方法可能由于连续递归的复合近似误差而无效。为了缓解这种情况，我们提出了新的学习目标，整合了多个先前后验估计的正则化效果，防止个别错误主导未来的后验更新并随着时间的推移而复合。我们揭示了这些目标与时间差异方法（强化学习和神经科学中流行的学习机制）之间的深刻联系。我们在流行的 CL 基准的挑战性版本上评估了所提出的目标，证明它们优于标准变分 CL 方法和非变分基线，有效减轻了灾难性遗忘。

用受指导的大型语言模型重写对话语句

分类： 计算和语言, 人工智能, 人机交互, 信息检索

作者： Elnara Galimzhanova, Cristina Ioana Muntean, Franco Maria Nardini, Raffaele Perego, Guido Rocchietti

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07797v1

摘要： 最近的许多研究表明，大型语言模型 (LLM) 有能力在许多 NLP 任务上实现最先进的性能，例如问答、文本摘要、编码和翻译。在某些情况下，大语言模型提供的结果与人类专家的结果相当。这些模型最具颠覆性的创新是它们通过零样本或少样本提示执行任务的能力。此功能已成功用于训练受指导的大语言模型，其中使用人类反馈的强化学习来指导模型直接遵循用户的请求。在本文中，我们研究了受指导的大语言模型通过在对话环境中重写用户问题来提高对话搜索效率的能力。我们研究哪些提示提供了信息最丰富的重写话语，从而实现最佳检索性能。在公开可用的 TREC CAST 数据集上进行了可重复的实验。结果表明，与最先进的方法相比，通过受指导的大语言模型重写对话话语，MRR 显着提高了 25.2%，Precision@1 提高了 31.7%，NDCG@3 提高了 27%，Recall@500 提高了 11.5%技术。

当前的语言模型是否支持 R 编程语言的代码智能？

分类： 软件工程, 人工智能

作者： ZiXiao Zhao, Fatemeh H. Fard

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07793v1

摘要： 开发代码预训练语言模型 (Code-PLM) 的最新进展推动了软件工程 (SE) 的许多领域的发展，并为许多 SE 任务带来了突破性成果。尽管这些模型已经在许多流行编程语言（例如 Java 和 Python）的 SE 任务中实现了最先进的性能，但科学软件及其相关语言（例如 R 编程语言）很少受益，甚至没有通过代码进行评估-PLM。研究表明，R 与其他编程语言有许多差异，并且需要特定的技术。在本研究中，我们为 R 的代码智能提供了第一个见解。为此，我们收集并开源了 R 数据集，并使用多种设置和策略评估代码摘要和方法名称预测这两项任务的 Code-PLM，包括两种 R 风格（Tidy-verse 和 Base R）的差异。我们的结果表明，所研究的模型在处理 R 编程语言代码时经历了不同程度的性能下降，这得到了人类评估的支持。此外，即使在多语言微调之后，并非所有模型都在 R 特定任务中表现出性能改进。 R 中的双重语法范例显着影响模型的性能，特别是在代码摘要任务中。此外，R 代码库中固有的特定于项目的上下文会显着影响尝试跨项目训练时的性能。

通过将软体和刚性机器人与模仿学习相结合来掌握接触丰富的任务

分类： 机器人技术, 人工智能

作者： Mariano Ramírez Montero, Ebrahim Shahabi, Giovanni Franzese, Jens Kober, Barbara Mazzolai, Cosimo Della Santina

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07787v1

摘要： 软机器人有可能彻底改变机器人系统的使用，因为它们能够与环境建立安全、稳健和适应性强的交互，但它们的精确控制仍然具有挑战性。相比之下，传统的刚性机器人具有高精度和重复性，但缺乏软体机器人的灵活性。我们认为，将这些特征结合到混合机器人平台中可以显着增强整体能力。这项工作提出了一种新颖的混合机器人平台，它将刚性机械臂与完全开发的软臂集成在一起。该系统配备了通过模仿学习自主执行灵活且通用的任务所需的智能。物理柔软性和机器学习使我们的平台能够实现高度通用的技能，而刚性组件则确保精度和可重复性。

不再是满秩：现代语音识别模型的低秩权重训练

分类： 声音, 人工智能, 计算和语言, 计算机视觉和模式识别, 音频和语音处理

作者： Adriana Fernandez-Lopez, Shiwei Liu, Lu Yin, Stavros Petridis, Maja Pantic

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07771v1

摘要： 本文从头开始研究了大规模基于 Conformer 的语音识别模型的低秩权重训练的尚未探索的领域。我们的研究证明了这种训练范例对于此类模型的可行性，并得出了一些值得注意的发现。首先，我们发现仅将低秩结构应用于注意力模块可以出乎意料地提高性能，即使秩显着降低 12%。相比之下，前馈层带来了更大的挑战，因为它们开始表现出性能下降，排名适度下降 50%。此外，我们发现初始化和逐层排名分配在成功的低排名训练中发挥着关键作用。具体来说，采用 SVD 初始化和线性逐层秩映射显着提高了低秩权重训练的效率。基于这些见解，我们引入了从头开始的低秩语音模型 (LR-SMS)，这种方法可以实现与全秩训练同等的性能，同时大幅减少参数数量（至少减少 2 倍）并加快训练时间（ASR 提高 1.3 倍，AVSR 提高 1.15 倍）。

GameTraversalBenchmark：通过遍历2D游戏地图评估大型语言模型的规划能力

分类： 计算和语言, 人工智能

作者： Muhammad Umair Nasir, Steven James, Julian Togelius

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07765v1

摘要： 大型语言模型（LLM）最近在生成和理解自然语言方面取得了巨大成功。虽然他们也显示出了自然语言领域之外的潜力，但这些大语言模型可以在多大程度上以及以何种方式进行规划仍然是一个悬而未决的问题。我们通过提出 GameTraversalBenchmark (GTB) 来研究他们的规划能力，这是一个由各种基于 2D 网格的游戏地图组成的基准。如果大语言模型能够以最少的步骤和最少的生成错误遍历给定的目标，那么它就成功了。我们对 GTB 上的一些大语言模型进行了评估，发现 GPT-4-Turbo 在 GTB_Score (GTBS) 上取得了最高分数 44.97%，这是结合了上述三个标准的综合分数。此外，我们初步测试了大型推理模型，即 o1，其在 GTBS 上的得分为 $67.84%$，表明该基准测试对于当前模型仍然具有挑战性。代码、数据和文档可在 https://github.com/umair-nasir14/Game-Traversal-Benchmark 上获取。

HARIVO：利用文本到图像模型生成视频

分类： 计算机视觉和模式识别, 人工智能

作者： Mingi Kwon, Seoung Wug Oh, Yang Zhou, Difan Liu, Joon-Young Lee, Haoran Cai, Baqiao Liu, Feng Liu, Youngjung Uh

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07763v1

摘要： 我们提出了一种从预训练的文本到图像（T2I）模型创建基于扩散的视频模型的方法。最近，AnimateDiff 提议冻结 T2I 模型，只训练时间层。我们通过提出一种独特的架构来推进这种方法，该架构结合了映射网络和逐帧令牌，专为视频生成而定制，同时保持了原始 T2I 模型的多样性和创造力。关键创新包括新颖的时间平滑损失函数和缓解梯度采样技术，尽管公共视频数据有限，但仍可确保真实且时间一致的视频生成。我们已经成功地将视频特定的归纳偏差集成到架构和损失函数中。我们的方法基于冻结的 StableDiffusion 模型，简化了训练过程，并允许与 ControlNet 和 DreamBooth 等现成模型无缝集成。项目页面：https://kwonminki.github.io/HARIVO

$\textit{跳过你的步骤}$：优化离散扩散模型的采样时间表

分类： 机器学习, 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Yong-Hyun Park, Chieh-Hsin Lai, Satoshi Hayakawa, Yuhta Takida, Yuki Mitsufuji

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07761v1

摘要： 扩散模型在连续领域取得了显着的成功，导致了离散变量的离散扩散模型（DDM）的发展。尽管最近取得了进展，DDM 仍面临采样速度慢的挑战。虽然像 $\tau$-leaping 这样的并行采样方法加速了这一过程，但它们引入了 $\textit{Compounding Decoding Error}$ (CDE)，其中真实分布与并行令牌生成的近似值之间出现差异，导致样本质量下降。在这项工作中，我们提出了 $\textit{Jump Your Steps}$ (JYS)，这是一种新颖的方法，它通过最小化 CDE 来优化离散采样时间步的分配，而无需额外的计算成本。更准确地说，我们得出了 CDE 的实用上限，并提出了一种用于搜索最佳采样计划的有效算法。图像、音乐和文本生成方面的大量实验表明，JYS 显着提高了采样质量，将其确立为增强快速采样 DDM 性能的通用框架。

使用模拟机械臂学习低级因果关系

分类： 机器人技术, 人工智能, 机器学习

作者： Miroslav Cibula, Matthias Kerzel, Igor Farkaš

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07751v1

摘要： 因果学习使人类能够预测其行为对已知环境的影响，并利用这些知识来计划更复杂行为的执行。这些知识还可以捕获环境的行为，并可用于分析和行为背后的推理。这类知识对于具有常识的智能机器人系统的设计也至关重要。在本文中，我们通过学习基于涉及两个感觉运动任务的模拟机械臂生成的数据的正向和逆向模型来研究因果关系。下一步，我们研究用于分析正向模型的特征归因方法，该方法揭示了与手臂关节和环境特征相关的状态向量的各个特征对应的低级因果效应。这种类型的分析为状态表示的降维以及为更高层次的因果效应的可解释性聚合知识提供了坚实的基础。

通过基于多域原型的联邦微调增强联邦域适应

分类： 机器学习, 人工智能

作者： Jingyuan Zhang, Yiyang Duan, Shuaicheng Niu, Yang Cao, Wei Yang Bryan Lim

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07738v1

摘要： 联合域适应 (FDA) 是一种联合学习 (FL) 场景，其中模型在具有唯一数据域但共享类别空间的多个客户端之间进行训练，而不传输私有数据。 FDA 面临的主要挑战是数据异质性，当使用传统的基于平均的聚合方法时，这会导致梯度更新出现显着差异，从而降低全局模型的有效性。这进一步损害了域内和域外的性能（在同一联合系统内但在本地客户端之外）。为了解决这个问题，我们提出了一个名为 \textbf{M}ulti-domain \textbf{P}rototype-based \textbf{F}ederated Fine-\textbf{T}uning (MPFT) 的新颖框架。 MPFT 使用多域原型对预训练模型进行微调，即使用来自特定类别本地数据的特定域信息丰富的预训练表示。这使得服务器上的监督学习能够派生出全局优化的适配器，随后将其分发到本地客户端，而不会侵犯数据隐私。实证结果表明，与传统方法相比，MPFT 显着提高了域内和域外的准确性，增强了 FDA 的知识保存和适应能力。值得注意的是，MPFT 在单轮通信中实现了收敛，大大降低了计算和通信成本。为了确保隐私，MPFT应用差分隐私来保护原型。此外，我们开发了一种基于原型的特征空间劫持攻击来评估鲁棒性，确认原始数据样本即使在广泛的训练周期之后仍然无法恢复。 MPFL 的完整实现可在 \url{https://anonymous.4open.science/r/DomainFL/} 获取。

飞机燃油流量估计模型深度学习的泛化性质

分类： 机器学习, 人工智能

作者： Gabriel Jarry, Ramon Dalmau, Philippe Very, Junzi Sun

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07717v1

摘要： 准确估计飞机燃油流量对于评估新程序、设计下一代飞机以及监测当前航空实践对环境的影响至关重要。本文研究了深度学习模型在预测燃油消耗方面的泛化能力，特别关注其对于训练数据中缺少的飞机类型的性能。我们提出了一种新颖的方法，将神经网络架构与领域泛化技术相结合，以增强各种飞机的鲁棒性和可靠性。包含 101 种不同飞机类型的综合数据集，分为训练集和泛化集，每个飞机类型集包含 1,000 个航班。我们采用飞机数据基础 (BADA) 模型进行燃油流量估计，引入伪距离度量来评估飞机类型相似性，并探索各种采样策略来优化数据稀疏区域的模型性能。我们的结果表明，对于以前未见过的飞机类型，将噪声引入飞机和发动机参数可以提高模型的泛化能力。对于接近现有飞机的飞机，该模型能够以可接受的平均绝对百分比误差在 2% 到 10% 之间进行概括，而对于训练集中的已知飞机，其性能误差低于 1%。这项研究强调了将特定领域的见解与先进的机器学习技术相结合来开发可扩展、准确和通用的燃料流量估计模型的潜力。

学习树模式转换

分类： 机器学习, 人工智能, 计算复杂度, 数据库

作者： Daniel Neider, Leif Sabellek, Johannes Schmidt, Fabian Vehlken, Thomas Zeume

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07708v1

摘要： 解释一棵树 $t$ 在结构上为何以及如何不同于另一棵树 $t^$ 是整个计算机科学中都会遇到的一个问题，包括理解树形结构数据（例如 XML 或 JSON 数据）。在本文中，我们探讨如何从样本数据中学习对树对之间的结构差异的解释：假设给定一个集合 ${(t_1, t_1^),\dots, (t_n, t_n^)} $ 成对的带标签、有序的树；是否有一小部分规则可以解释所有对 $(t_i, t_i^)$ 之间的结构差异？这就提出了两个研究问题：（i）在这种情况下，什么是“规则”的好概念？ (ii) 如何通过算法学习解释数据集的规则集？我们从数据库理论的角度探讨这些问题，方法是：（1）引入基于模式的树转换规范语言； (2)探索上述算法问题的变体的计算复杂度，例如显示非常有限的变体的 NP 难度； (3) 讨论如何使用 SAT 求解器求解 CS 教育研究数据的问题。

AgentBank：通过对 50000 多个交互轨迹进行微调，迈向广义 LLM 代理

分类： 计算和语言, 人工智能

作者： Yifan Song, Weimin Xiong, Xiutian Zhao, Dawei Zhu, Wenhao Wu, Ke Wang, Cheng Li, Wei Peng, Sujian Li

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07706v1

摘要： 对智能体与环境交互轨迹数据的微调对于在开源大语言模型 (LLM) 中展现通用智能体功能具有重大前景。在这项工作中，我们介绍了 AgentBank，它是迄今为止最大的轨迹调整数据集，具有超过 50k 个不同的高质量交互轨迹，其中包括涵盖 5 个不同代理技能维度的 16 项任务。利用新颖的注释管道，我们能够缩放注释轨迹并生成难度偏差最小化的轨迹数据集。此外，我们对AgentBank上的LLM进行了微调，得到了一系列的代理模型，萨摩耶。我们的比较实验证明了缩放交互轨迹数据以获得广义代理能力的有效性。其他研究还揭示了有关轨迹调整和代理技能泛化的一些关键观察结果。

交易中的对抗性稳健性高估和不稳定性

分类： 机器学习, 人工智能

作者： Jonathan Weiping Li, Ren-Wei Liang, Cheng-Han Yeh, Cheng-Chang Tsai, Kuanchun Yu, Chun-Shien Lu, Shang-Tse Chen

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07675v1

摘要： 本文研究了 TRADES（一种著名的对抗训练方法）中概率鲁棒性高估的现象。我们的研究表明，与多类分类任务中的 AutoAttack 测试准确性相比，TRADES 有时会产生不成比例的高 PGD 验证准确性。这种差异凸显了对这些实例的稳健性的显着高估，可能与梯度掩蔽有关。我们进一步分析了导致模型不稳定并导致高估的参数。我们的研究结果表明，较小的批量大小、较低的 beta 值（控制交易中稳健损失项的权重）、较大的学习率和较高的类别复杂性（例如，CIFAR-100 与 CIFAR-10）与增加的可能性相关鲁棒性高估。通过检查一阶平稳条件 (FOSC)、内部最大化和梯度信息等指标，我们将这种现象的根本原因确定为梯度掩蔽，并提供了对此的见解。此外，我们的实验表明，某些不稳定的训练实例可能会返回到没有稳健高估的状态，这启发了我们尝试解决方案。除了调整参数设置以减少高估时的不稳定性或重新训练之外，我们还建议在 FOSC 分数超过阈值时在输入中加入高斯噪声。该方法旨在从源头上减轻对 TRADES 和其他类似方法的鲁棒性高估，确保在评估过程中更可靠地表示对抗性鲁棒性。

使用因果表示推理消除混杂偏差的多模态标题诱饵检测

分类： 机器学习, 人工智能

作者： Jianxing Yu, Shiqi Wang, Han Yin, Zhenlong Sun, Ruobing Xie, Bo Zhang, Yanghui Rao

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07673v1

摘要： 本文重点关注检测网络上的标题诱饵帖子。这些帖子经常以混合方式使用引人注目的虚假信息来误导用户点击以获取利润。这会影响用户体验，因此会被内容提供商阻止。为了逃避检测，恶意创建者会使用技巧在诱饵帖子中添加一些不相关的非诱饵内容，将其伪装成合法的内容来欺骗检测器。这些内容通常与非诱饵标签存在偏见关系，但传统检测器倾向于基于简单的共现进行预测，而不是掌握导致恶意行为的内在因素。这种虚假的偏见很容易造成误判。为了解决这个问题，我们提出了一种基于因果推理的新去偏方法。我们首先采用多种模式的一组特征来描述帖子的特征。考虑到这些特征经常与未知的偏差混合在一起，我们然后从中分离出三种潜在因素，包括表明内在诱饵意图的不变因素；反映特定场景中欺骗模式的因果因素以及非因果噪声。通过消除导致偏差的噪声，我们可以利用不变因素和因果因素来构建具有良好泛化能力的鲁棒模型。对三个流行数据集的实验表明了我们方法的有效性。

MACPO：通过多智能体对比偏好优化进行弱到强对齐

分类： 计算和语言, 人工智能

作者： Yougang Lyu, Lingyong Yan, Zihan Wang, Dawei Yin, Pengjie Ren, Maarten de Rijke, Zhaochun Ren

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07672v1

摘要： 随着大型语言模型（LLM）的快速发展并实现接近人类的能力，使它们与人类价值观保持一致变得更加紧迫。在大语言模型表现优于人类的情况下，我们面临着弱到强的对齐问题，我们需要通过薄弱的教师产生的弱监督来有效地对齐强大的学生大语言模型。现有的对齐方法主要集中于强到弱对齐和自对齐设置，使其适应更难的弱到强对齐设置是不切实际的。为了填补这一空白，我们提出了一个多智能体对比偏好优化（MACPO）框架。 MACPO 通过迭代强化不熟悉的积极行为同时惩罚熟悉的消极行为，促进弱教师和强学生相互学习。为此，我们设计了一种相互的积极行为增强策略，鼓励弱教师和强学生互相学习彼此的积极行为，并进一步为下一次迭代提供更高质量的积极行为。此外，我们提出了一种硬性负面行为构建策略，通过对负面行为数据进行微调，诱导弱教师和强学生产生熟悉的负面行为。使用自动指标和人工判断进行评估的 HH-RLHF 和 PKU-SafeRLHF 数据集的实验结果表明，MACPO 同时提高了强学生和弱教师的对齐性能。此外，随着弱教师数量的增加，MACPO通过更多的迭代优化轮数实现了更好的弱到强对齐性能。

DISCO：用于可解释工作推荐的分层解缠认知诊断框架

分类： 信息检索, 人工智能

作者： Xiaoshan Yu, Chuan Qin, Qi Zhang, Chen Zhu, Haiping Ma, Xingyi Zhang, Hengshu Zhu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07671v1

摘要： 在线招聘平台的快速发展为求职者创造了前所未有的机会，同时也带来了快速准确地找到符合其技能和偏好的职位的重大挑战。职位推荐系统通过优化点击和申请等用户参与度指标，显着减轻了求职者的大量搜索负担，从而取得了显着的成功。近年来，大量研究致力于开发有效的工作推荐模型，主要集中在基于文本匹配和基于行为建模的方法。虽然这些方法已经取得了令人印象深刻的成果，但必须指出的是，关于招聘建议的可解释性的研究仍未得到深入探索。为此，在本文中，我们提出了 DISCO，一种基于分层解缠结的认知诊断框架，旨在灵活地适应底层表示学习模型，以提供有效且可解释的工作推荐。具体来说，我们首先设计了一个层次表示解开模块，以明确挖掘求职者和工作的隐藏表示中隐含的层次技能相关因素。随后，我们提出了层次感知关联建模，以增强层间和层内的信息通信和鲁棒表示学习，该模型由层间知识影响模块和逐层对比学习组成。最后，我们设计了一个包含神经诊断功能的交互诊断模块，用于有效地建模求职者与工作之间的多层次招聘交互过程，该模块引入了认知测量理论。

分段平稳线性老虎机中的近极小极大最优最佳臂识别

分类： 机器学习, 人工智能, 信息论, 信息论, 机器学习

作者： Yunlong Hou, Vincent Y. F. Tan, Zixin Zhong

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07638v1

摘要： 我们提出了一种新颖的分段平稳线性老虎机（PSLB）模型，其中环境从每个变化点的未知概率分布中随机采样上下文，并且臂的质量通过其在所有上下文上的平均回报来衡量。上下文及其分布以及变化点对于代理来说是未知的。我们设计了{\em Piecewise-Stationary $\varepsilon$-最佳手臂识别$^+$} (PS$\varepsilon$BAI$^+$)，这是一种保证识别 $\varepsilon$-最佳手臂的算法概率 $\ge 1-\delta$ 并且样本数量最少。 PS$\varepsilon$BAI$^+$ 由两个子例程 PS$\varepsilon$BAI 和 {\sc Na"ive $\varepsilon$-BAI} (N$\varepsilon$BAI) 组成，它们并行执行PS$\varepsilon$BAI 主动检测变化点并对齐上下文以促进手臂识别过程。通过证明下限，我们表明 PS$\varepsilon$BAI$^+$ 的预期样本复杂度在对数因子范围内是最优的。我们比较 PS$\varepsilon$BAI$。 ^+$ 使用数值实验证明了其效率，我们的分析和数值结果都证实了 PS$\varepsilon$BAI$^+$ 的功效归因于 PS$ 中嵌入的微妙的变化检测和上下文对齐程序。 \varepsilon$BAI。

自动课程专家迭代，实现可靠的大语言模型推理

分类： 机器学习, 人工智能, 计算和语言, 机器学习

作者： Zirui Zhao, Hanze Dong, Amrita Saha, Caiming Xiong, Doyen Sahoo

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07627v1

摘要： 幻觉（即生成看似合理但不准确的内容）和懒惰（即过度拒绝或默认“我不知道”）仍然是大语言模型推理中的主要挑战。目前减少幻觉的努力主要集中在以知识为基础的任务中的事实错误，往往忽视了与错误推理相关的幻觉。与此同时，一些方法使大语言模型过于保守，限制了他们解决问题的能力。为了减轻推理任务中的幻觉和懒惰，我们提出自动课程专家迭代（Auto-CEI）来增强 LLM 推理并根据模型的能力调整响应——在其限制内果断地回答，并在任务超出限制时拒绝。在我们的方法中，专家迭代探索了 LLM 政策附近的推理轨迹，引导不正确的路径回到正轨，以减少复合错误并提高鲁棒性；它还可以在充分的推理尝试后促进适当的“我不知道”回答。课程会自动调整奖励，在承认无能之前激励扩展推理，从而突破大语言模型推理的极限，并使其行为与这些限制保持一致。我们将 Auto-CEI 与逻辑推理、数学和规划任务中的各种 SOTA 基线进行比较，其中 Auto-CEI 通过有效平衡自信和保守来实现卓越的一致性。

摩云：基于扩散的特定风格中国书法生成模型

分类： 计算机视觉和模式识别, 人工智能

作者： Kaiyuan Liu, Jiahao Mei, Hengyu Zhang, Yihuai Zhang, Xingjiao Wu, Daoguo Dong, Liang He

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07618v1

摘要： 尽管中国书法生成已经实现了风格迁移，但通过指定书法家、字体和字体来生成书法仍然具有挑战性。针对这个问题，我们提出了一种新的书法生成模型“摩云”，用Vision Mamba代替Diffusion模型中的Unet，并引入TripleLabel控制机制来实现可控的书法生成。该模型在我们超过 190 万张图像的大规模数据集“墨宝”上进行了测试，结果表明“墨云”可以有效控制生成过程并生成指定风格的书法。即使是书法家没有写过的书法，“摩云”也能生成符合书法家风格的书法。

CSA：单峰特征到多峰特征的数据高效映射

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 信息检索

作者： Po-han Li, Sandeep P. Chinchali, Ufuk Topcu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07610v1

摘要： 像 CLIP 这样的多模态编码器在零样本图像分类和跨模态检索等任务中表现出色。然而，它们需要过多的训练数据。我们提出规范相似性分析（CSA），它使用两个单模态编码器来使用有限的数据复制多模态编码器。 CSA 将单峰特征映射到多峰空间，使用新的相似性得分仅保留多峰信息。 CSA 仅涉及单峰编码器的推理和三次复杂度矩阵分解，无需进行大量基于 GPU 的模型训练。实验表明，CSA 的性能优于 CLIP，同时用于 ImageNet 分类和错误信息新闻字幕检测的多模态数据对减少了 300,000 倍，单模态数据减少了 6 倍。 CSA 超越了将单峰特征映射到多峰特征的最先进方法。我们还展示了 CSA 具有图像和文本之外的模态的能力，为未来具有有限的成对多模态数据但丰富的未成对单模态数据（例如激光雷达和文本）的模态对铺平了道路。

跨模式和任务的视觉语言模型的统一去偏方法

分类： 计算机视觉和模式识别, 人工智能

作者： Hoin Jung, Taeuk Jang, Xiaoqian Wang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07593v1

摘要： 视觉语言模型 (VLM) 的最新进展通过同时处理文本和图像数据实现了复杂的多模式任务，显着增强了人工智能领域。然而，这些模型经常表现出偏差，可能使输出偏向社会刻板印象，因此需要消除偏差策略。现有的去偏方法狭隘地关注特定的模式或任务，并且需要广泛的再培训。为了解决这些限制，本文引入了选择性特征插补去偏差（SFID），这是一种集成特征剪枝和低置信插补（LCI）的新颖方法，可有效减少 VLM 中的偏差。 SFID 用途广泛，可保持输出的语义完整性，并且无需再培训，成本效益高。我们的实验结果证明了 SFID 在各种 VLM 任务中的有效性，包括零样本分类、文本到图像检索、图像字幕和文本到图像生成，通过显着减少性别偏见而不影响性能。这种方法不仅增强了 VLM 应用的公平性，而且还保持了其在不同场景下的效率和实用性。

知识图谱的多样化自适应负采样

分类： 人工智能

作者： Ran Liu, Zhongzhou Liu, Xiaoli Li, Hao Wu, Yuan Fang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07592v1

摘要： 在知识图嵌入中，除了正三元组（即知识图中的事实）之外，用于训练的负三元组也对模型性能有直接影响。实际上，由于知识图稀疏且不完整，负三元组通常缺乏明确的标签，因此它们通常是通过各种采样策略获得的（例如：随机替换正三元组中的实体）。理想的负三元组样本应该包含足够的信息以帮助模型更好地训练。然而，现有方法往往忽略采样过程中的多样性和适应性，这损害了负三元组的信息量。因此，我们提出了一种生成对抗方法，称为知识图谱上的多样化和自适应负采样 DANS。 DANS 配备了一个双向生成器，可以通过两条路径生成更多样化的负三元组，还配备了一个自适应机制，可以通过针对不同实体和关系本地化全局生成器来生成更细粒度的示例。一方面，双向生成器通过更多样的负例增加了整体信息量；另一方面，自适应机制通过更细粒度的采样来增加个体样本的信息量。最后，我们在三个基准知识图上评估 DANS 的性能，通过定量和定性实验证明其有效性。

通过期望最大化检测大型语言模型的训练数据

分类： 计算和语言, 人工智能, 密码学和安全, 机器学习

作者： Gyuwan Kim, Yang Li, Evangelia Spiliopoulou, Jie Ma, Miguel Ballesteros, William Yang Wang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07582v1

摘要： 大型语言模型 (LLM) 的广泛部署带来了令人瞩目的进步，但有关其训练数据（其性能的关键因素）的信息仍未公开。成员推理攻击 (MIA) 旨在确定特定实例是否是目标模型训练数据的一部分。 MIA 可以提供对 LLM 输出的见解，并帮助检测和解决数据污染以及遵守隐私和版权标准等问题。然而，由于预训练数据的规模庞大和会员身份的模糊性，将 MIA 应用于大语言模型面临着独特的挑战。此外，创建适当的基准来评估 MIA 方法并不简单，因为训练和测试数据分布通常是未知的。在本文中，我们介绍了 EM-MIA，这是一种针对大语言模型的新型 MIA 方法，它通过期望最大化算法迭代地细化成员资格分数和前缀分数，利用这些分数的估计可以相互改进的对偶性。成员分数和前缀分数分别评估每个实例如何成为成员以及作为前缀的区分性。我们的方法在 WikiMIA 数据集上取得了最先进的结果。为了进一步评估 EM-MIA，我们提出了 OLMoMIA，这是一个基于 OLMo 资源构建的基准，它使我们能够控制训练和测试数据分布之间不同程度重叠的 MIA 任务的难度。我们相信，EM-MIA 是大语言模型的一种强大的 MIA 方法，而 OLMoMIA 为全面评估 MIA 方法提供了宝贵的资源，从而推动了这一关键领域的未来研究。

它发生在何时何地？用于识别场景上下文的编码器-解码器模型

分类： 计算和语言, 人工智能

作者： Enrique Noriega-Atala, Robert Vacareanu, Salena Torres Ashton, Adarsh Pyarelal, Clayton T. Morrison, Mihai Surdeanu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07567v1

摘要： 我们引入了一种针对场景上下文生成任务进行微调的神经架构：文本中提到的事件或实体的相关位置和时间。当将自动罚款聚合为知识图时，上下文信息提取有助于确定自动罚款的有效性。我们的方法使用流行病学论文语料库中高质量的时间和位置注释精选数据集来训练编码器-解码器架构。我们还探索了训练期间数据增强技术的使用。我们的研究结果表明，相对较小的微调编码器-解码器模型比现成的 LLM 和语义角色标记解析器表现更好，可以准确预测特定实体或事件的相关场景信息。

PLAMo-100B：专为日语能力而设计的全新语言模型

分类： 计算和语言, 人工智能, 机器学习

作者： Kenshin Abe, Kaizaburo Chubachi, Yasuhiro Fujita, Yuta Hirokawa, Kentaro Imajo, Toshiki Kataoka, Hiroyoshi Komatsu, Hiroaki Mikami, Tsuguo Mogami, Shogo Murai, Kosuke Nakago, Daisuke Nishino, Toru Ogawa, Daisuke Okanohara, Yoshihiko Ozaki, Shotaro Sano, Shuji Suzuki, Tianqi Xu, Toshihiko Yanase

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07563v1

摘要： 我们推出 PLAMo-100B，这是一种专为日语水平而设计的大规模语言模型。该模型使用 2 万亿个 token 从头开始训练，采用 QK Normalization 和 Z-Loss 等架构来保证训练过程中的训练稳定性。应用包括监督微调和直接偏好优化在内的训练后技术来改进模型的性能。基准评估表明，PLaMo-100B 表现良好，尤其是在日本特定任务中，取得的结果可与 GPT-4 等前沿模型相媲美。

COMMA：通信多模式多代理基准

分类： 人工智能

作者： Timothy Ossowski, Jixuan Chen, Danyal Maqbool, Zefan Cai, Tyler Bradshaw, Junjie Hu

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07553v1

摘要： 基于大型基础模型的多模式代理的快速发展在很大程度上忽视了它们在协作任务中代理之间基于语言的通信的潜力。这种疏忽在理解它们在现实世界部署中的有效性方面存在着严重的差距，特别是在与人类通信时。现有的代理基准无法解决代理间通信和协作的关键方面，特别是在代理对信息的访问不平等并且必须共同努力以完成超出个人能力范围的任务的情况下。为了填补这一空白，我们引入了一种新颖的基准，旨在通过语言通信评估多模式多智能体系统的协作性能。我们的基准测试具有多种场景，可对通信协作环境中代理能力的四个关键类别进行全面评估。通过使用开源和闭源模型测试智能体与智能体以及智能体与人类的协作，我们的研究结果揭示了最先进模型（包括 GPT-4o 等专有模型）中令人惊讶的弱点。这些模型在智能体与智能体协作中甚至很难超越简单的随机智能体基线，并且只有在人类参与时才能超越随机基线。

KRAG 加强法律领域大语言模型的框架

分类： 计算和语言, 人工智能

作者： Nguyen Ha Thanh, Ken Satoh

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07551v1

摘要： 本文介绍了知识表示增强生成 (KRAG)，这是一种新颖的框架，旨在增强特定领域应用程序中大型语言模型 (LLM) 的功能。 KRAG 指出了关键知识实体和关系的战略性纳入，这些实体和关系通常在标准数据集中不存在，而且大语言模型本身并不学习这些实体和关系。在法律应用方面，我们提出了 Soft PROLEG，这是 KRAG 下的一种实现模型，它使用推理图来帮助大语言模型提供针对用户查询量身定制的结构化法律推理、论证和解释。 KRAG 的集成，无论是作为独立框架还是与检索增强生成 (RAG) 结合使用，都显着提高了语言模型导航和解决法律文本和术语带来的复杂挑战的能力。本文详细介绍了 KRAG 的方法、其通过 Soft PROLEG 的实现以及潜在的更广泛应用，强调了其在推进专业知识领域的自然语言理解和处理方面的重要作用。

OneNet：通过大型语言模型提示进行少镜头实体链接的免费微调框架

分类： 计算和语言, 人工智能

作者： Xukai Liu, Ye Liu, Kai Zhang, Kehang Wang, Qi Liu, Enhong Chen

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07549v1

摘要： 实体链接 (EL) 是将不明确的文本提及与知识库中的特定实体相关联的过程。传统的 EL 方法严重依赖大型数据集来提高其性能，这种依赖关系在少样本实体链接的情况下会成为问题，因为只有有限数量的示例可用于训练。为了应对这一挑战，我们提出了 OneNet，这是一种创新框架，它利用大型语言模型 (LLM) 的少量学习功能，无需进行微调。据我们所知，这标志着将大语言模型应用于少样本实体链接任务的开创性方法。 OneNet 围绕大语言模型提出的三个关键组件构建：(1) 实体缩减处理器，通过总结和过滤掉不相关实体来简化输入；(2) 双视角实体链接器，结合上下文线索和先验知识以实现精确的实体链接； (3)实体共识判断器，采用独特的一致性算法来减轻实体链接推理中的幻觉。对七个基准数据集的综合评估表明 OneNet 优于当前最先进的实体链接方法。

尖峰神经网络的全面在线培训和部署

分类： 神经和进化计算, 人工智能

作者： Zecheng Hao, Yifan Huang, Zijie Xu, Zhaofei Yu, Tiejun Huang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07547v1

摘要： 尖峰神经网络（SNN）因其受大脑启发和节能的特性而被认为在人工智能（AI）的未来发展中具有巨大潜力。在当前SNNs的监督学习领域，与普通的时空反向传播（STBP）训练相比，在线训练可以有效克服GPU内存爆炸的风险，受到了学术界的广泛关注。然而，当前提出的在线训练方法无法解决时间相关梯度的不可分离性问题，而仅仅旨在优化训练记忆，导致在推理阶段与 STBP 训练模型相比没有性能优势。为了解决上述挑战，我们提出了高效多精度激发（EM-PF）模型，这是一系列基于浮点尖峰和二元突触权重的高级尖峰模型。我们指出，EM-PF 模型可以有效地分离时间梯度，并实现计算速度和内存占用的全阶段优化。实验结果表明，EM-PF模型可以灵活地与随机反向传播、并行计算和通道注意机制等多种技术相结合，在在线学习领域以极低的计算开销实现最先进的性能。

穿墙雷达人体活动识别泛化能力分析

分类： 信号处理, 人工智能, 94, I.5.1

作者： Weicheng Gao, Xiaodong Qu, Xiaopeng Yang

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07543v1

摘要： 穿墙雷达（TWR）人体活动识别（HAR）是一种利用低频超宽带（UWB）信号来检测和分析室内人体运动的技术。然而，现有的端到端识别模型对 TWR 训练数据分布的高度依赖，使得很难在不同的室内测试仪之间实现良好的泛化。对此，本文对TWR HAR的泛化能力进行了分析。具体来说，首先讨论了 TWR HAR 的端到端线性神经网络方法及其泛化误差界。其次，提出了一种微多普勒角点表示方法以及降维前后泛化误差的变化。通过数值模拟和实验证明了理论泛化误差的适当性。结果表明，特征维数降低可以有效地允许识别模型在不同的室内测试仪之间进行泛化。

基于微多普勒角点云和动态图学习的可推广室内人体活动识别方法

分类： 信号处理, 人工智能, 94, I.5.1

作者： Xiaopeng Yang, Weicheng Gao, Xiaodong Qu, Haoyu Meng

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07542v1

摘要： 通过融合微多普勒特征提取和智能决策算法可以实现穿墙雷达（TWR）人体活动识别。然而，受限于测试仪在室内实际场景中的先验不足，一台测试仪上训练好的模型通常很难在其他测试仪上进行良好的推理，导致泛化能力较差。针对这一问题，本文提出一种基于微多普勒角点云和动态图学习的可推广的室内人体活动识别方法。在所提出的方法中，DoG-{\mu}D-CornerDet 用于对两种类型的雷达剖面进行微多普勒角点提取。然后，提出一种基于多项式拟合平滑的微多普勒角点滤波方法，以在运动学模型的约束下最大化特征距离。从两种类型的雷达剖面中提取的角点连接在一起形成三维点云。最后，本文提出了一种基于动态图神经网络（DGNN）的数据到活动标签映射的识别方法。进行可视化、比较和消融实验来验证所提方法的有效性。结果证明，该方法对不同测试仪采集的雷达数据具有较强的泛化能力。

利用双尺度等变流匹配高效生成分子簇

分类： 材料科学, 人工智能

作者： Akshay Subramanian, Shuhui Qu, Cheol Woo Park, Sulin Liu, Janghwan Lee, Rafael Gómez-Bombarelli

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07539v1

摘要： 无定形分子固体由于其机械灵活性和溶液加工性而成为无机半导体的有前途的替代品。这些材料的堆积结构在决定其电子和传输特性方面起着至关重要的作用，而这些特性是提高有机太阳能电池（OSC）等器件效率的关键。然而，通过计算获得这些光电特性需要分子动力学（MD）模拟来生成构象系综，由于涉及的系统尺寸较大，这一过程的计算成本可能很高。最近的进展集中在使用生成模型，特别是基于流的模型（如玻尔兹曼生成器）来提高 MD 采样的效率。在这项工作中，我们开发了一种双尺度流匹配方法，将训练和推理分为粗粒度和全原子阶段，并提高了标准流匹配采样器的准确性和效率。我们在通过 MD 模拟获得的 Y6 分子簇数据集上证明了该方法的有效性，并根据单尺度流匹配方法对其效率和准确性进行了基准测试。

通过使用 GEMM 隐藏 RNG 来降低 Flash-Attention 中的 Dropout 成本

分类： 硬件架构, 人工智能

作者： Haiyue Ma, Jian Liu, Ronny Krashinsky

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07531v1

摘要： 网络运营商 Dropout 启用后可能会极大地影响 Flash-Attention 的性能，从而增加大语言模型 (LLM) 的端到端训练时间。造成这种性能下降的主要原因是传统上融合到 Flash-Attention 内核中的随机数生成 (RNG) 阶段。由于RNG和Attention具有相同的硬件瓶颈，RNG延迟很难隐藏在Attention内核中。我们建议将 RNG 与网络中之前的 GEMM 层重叠，以隐藏 RNG 运行时并提高端到端性能。 RNG 和 GEMM 具有不同的资源需求和硬件瓶颈，因此它们可以并行运行，而不会影响彼此的性能。我们的细粒度性能模型经过硅结果交叉验证，显示 Llama2 的一个变压器块（包括多头注意力和前馈层）的加速率为 1.14 倍，而在 GH100 上，不同工作负载大小时加速高达 1.23 倍具有 FP8 精度的 GPU。此外，我们将理论模型扩展到不同的 RNG 实现和硬件架构，并讨论将 RNG 与 GEMM 层重叠的广泛适用的好处。

使用生成基础模型进行音频解释合成

分类： 声音, 人工智能, 音频和语音处理

作者： Alican Akman, Qiyang Sun, Björn W. Schuller

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07530v1

摘要： 音频基础模型在各种任务中的日益成功导致人们越来越需要提高可解释性，以更好地理解其复杂的决策过程。现有方法主要侧重于通过根据输入空间中的元素对最终决策的影响来赋予元素重要性来解释这些模型。在本文中，我们介绍了一种利用音频基础模型的生成能力的新颖的音频解释方法。我们的方法通过集成已建立的特征归因技术来识别该空间中的重要特征，从而利用这些模型中嵌入空间的内在表征能力。然后，该方法通过优先考虑最重要的特征来生成可听的音频解释。通过对标准数据集进行严格的基准测试，包括关键词识别和语音情感识别，我们的模型证明了其在生成音频解释方面的功效。

MKGL：掌握三词语言

分类： 计算和语言, 人工智能

作者： Lingbing Guo, Zhongpu Bo, Zhuo Chen, Yichi Zhang, Jiaoyan Chen, Yarong Lan, Mengshu Sun, Zhiqiang Zhang, Yangyifei Luo, Qian Li, Qiang Zhang, Wen Zhang, Huajun Chen

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07526v1

摘要： 大型语言模型 (LLM) 在一系列自然语言处理 (NLP) 任务中具有显着先进的性能。然而，它们在知识图（KG）中的应用仍然是一个尚未开发的前沿领域，知识图以三元组的形式描述事实并允许最少的幻觉。在本文中，我们通过引入一种专门的知识图谱语言（KGL）来研究大语言模型与知识图谱的整合，其中一个句子精确地由一个实体名词、一个关系动词组成，并以另一个实体名词结尾。尽管 LLM 不熟悉 KGL 词汇，但我们通过量身定制的词典和例句促进其学习，并通过实时 KG 上下文检索和 KGL 令牌嵌入增强来增强上下文理解。我们的结果表明，LLM 可以实现 KGL 的流畅性，与传统的 KG 嵌入方法相比，在 KG 补全方面大大减少了错误。此外，我们增强的大语言模型在从初始实体生成准确的三词句子和解释 KG 中新的未见过的术语方面表现出卓越的能力。

用于医疗保健安全关键决策的离线逆约束强化学习

分类： 机器学习, 人工智能

作者： Nan Fang, Guiliang Liu, Wei Gong

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07525v1

摘要： 在医疗保健中应用强化学习（RL）可能会导致不安全的医疗决策和治疗，例如剂量过多或突然变化，这通常是由于代理人忽视了常识性限制。因此，约束强化学习（CRL）是安全决策的自然选择。然而，在医疗保健领域，指定确切的成本函数本质上是困难的。最近的逆约束强化学习（ICRL）是一种很有前途的方法，它可以从专家演示中推断出约束。 ICRL 算法在交互式环境中对马尔可夫决策进行建模。这些设置与医疗保健决策系统的实际要求不符，该系统的决策依赖于离线数据集中记录的历史治疗。为了解决这些问题，我们提出了约束变压器（CT）。具体来说，1）我们利用因果注意机制将历史决策和观察纳入约束建模，同时采用非马尔可夫层进行加权约束来捕获关键状态。 2）生成世界模型用于执行探索性数据增强，使离线强化学习方法能够模拟不安全的决策序列。在多个医疗场景中，实证结果表明CT可以捕获不安全状态并实现近似降低死亡率的策略，降低不安全行为的发生概率。

将大型语言模型升级为专家混合模型

分类： 计算和语言, 人工智能, 机器学习

作者： Ethan He, Abhinav Khattar, Ryan Prenger, Vijay Korthikanti, Zijie Yan, Tong Liu, Shiqing Fan, Ashwath Aithal, Mohammad Shoeybi, Bryan Catanzaro

发布时间： 2024-10-10

链接： http://arxiv.org/abs/2410.07524v1

摘要： 将预训练的密集语言模型升级为稀疏专家混合 (MoE) 模型是提高已训练模型的模型容量的有效方法。然而，大规模升级改造的最佳技术仍不清楚。在这项工作中，我们对十亿参数规模语言模型的升级方法和超参数进行了广泛的研究。我们提出了一种新颖的“虚拟组”初始化方案和权重缩放方法，以实现升级到细粒度 MoE 架构。通过消融，我们发现升级改造优于持续的密集模型训练。此外，我们还表明，softmax-then-topK 专家路由比 topK-then-softmax 方法有所改进，并且更高粒度的 MoE 有助于提高准确性。最后，我们在 1T 代币上升级了 Nemotron-4 15B，并将其与相同模型在相同 1T 代币上的连续训练版本进行了比较：连续训练的模型实现了 65.3% MMLU，而升级后的模型实现了 67.6%。我们的研究结果提供了有效利用升级改造来构建 MoE 语言模型的见解和最佳实践。