MiX Knowledge

连接剧集和语义：长格式视频理解的新颖框架

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Gueter Josmy Faure, Jia-Fong Yeh, Min-Hung Chen, Hung-Ting Su, Winston H. Hsu, Shang-Hong Lai

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17443v1

摘要： 虽然现有的研究通常将长视频视为扩展的短视频，但我们提出了一种更准确地反映人类认知的新方法。本文介绍了 BREASE：用于长格式视频理解的桥接情节和语义，该模型模拟情节记忆积累以捕获动作序列，并通过分散在整个视频中的语义知识来强化它们。我们的工作做出了两个关键贡献：首先，我们开发了一种 Episodic COmpressor (ECO)，它可以有效地聚合从微观到半宏观层面的关键表征。其次，我们提出了一种语义检索器（SeTR），它通过关注更广泛的上下文，用语义信息增强这些聚合表示，显着降低特征维度，同时保留相关的宏观信息。大量实验表明，BREASE 在零样本和完全监督设置下的多个长视频理解基准测试中均实现了最先进的性能。项目页面和代码位于：https://joslefaure.github.io/assets/html/hermes.html。

利用大型语言模型提高多对话者 ASR 性能

分类： 音频和语音处理, 人工智能

作者： Mohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu, Shi-Xiong Zhang, Kun Wei, Yiwen Shao, Chunlei Zhang, Dong Yu

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17431v1

摘要： 在对话场景中识别多个说话人的重叠语音是自动语音识别 (ASR) 中最具挑战性的问题之一。序列化输出训练 (SOT) 是解决多说话者 ASR 问题的经典方法，其思想是根据多个说话者的语音发射时间连接转录内容进行训练。然而，SOT 风格的转录源自对话中多个相关话语的串联，很大程度上依赖于对长上下文的建模。因此，与主要强调基于注意力的编码器-解码器（AED）架构中编码器性能的传统方法相比，利用预训练解码器功能的大语言模型（LLM）的新方法可能更适合这种复杂且复杂的情况。具有挑战性的场景。在本文中，我们提出了一种基于 LLM 的 SOT 方法，用于多说话者 ASR，利用预先训练的语音编码器和 LLM，使用适当的策略在多说话者数据集上对其进行微调。实验结果表明，我们的方法在模拟数据集 LibriMix 上超越了传统的基于 AED 的方法，并在真实世界数据集 AMI 的评估集上实现了最先进的性能，优于使用 1000 倍以上监督数据训练的 AED 模型在之前的作品中。

使用 VLM 进行开放词汇时间动作本地化

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17422v1

摘要： 视频动作定位旨在从长视频中查找特定动作的时间点。尽管现有的基于学习的方法已经取得了成功，但这些方法需要对视频进行注释，这会带来相当大的劳动力成本。本文提出了一种基于新兴视觉语言模型（VLM）的免学习、开放词汇方法。挑战源于这样一个事实：VLM 既不是为处理长视频而设计的，也不是为查找操作而定制的。我们通过扩展迭代视觉提示技术来克服这些问题。具体来说，我们将视频帧采样到带有帧索引标签的串联图像中，使 VLM 猜测被认为最接近动作开始/结束的帧。通过缩小采样时间窗口来迭代此过程会导致找到动作的开始和结束的特定帧。我们证明这种采样技术可以产生合理的结果，说明 VLM 用于理解视频的实际扩展。

获取功能启发的灵感：App Store 与基于 LLM 的方法

分类： 软件工程, 人工智能

作者： Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard, Gérard Dray, Walid Maalej

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17404v1

摘要： 在过去的十年中，应用商店 (AppStore) 启发的需求启发已被证明是非常有益的。开发人员经常探索竞争对手的应用程序以收集新功能的灵感。随着生成式人工智能的进步，最近的研究证明了大语言模型（LLM）启发的需求启发的潜力。大语言模型可以通过为新功能创意提供灵感来协助这一过程。虽然这两种方法在实践中越来越受欢迎，但人们对它们的差异缺乏深入的了解。我们报告了基于 AppStore 和基于 LLM 的方法之间的比较研究，该方法将功能细化为子功能。通过手动分析这两种方法推荐的 1,200 个子功能，我们确定了它们的优点、挑战和关键差异。虽然这两种方法都推荐了具有清晰描述的高度相关的子功能，但大语言模型似乎更强大，特别是在涉及新颖的看不见的应用程序范围时。此外，一些推荐的特征是虚构的，可行性不明确，这表明人类分析师在启发循环中的重要性。

探索解释内容和格式对用户理解和信任的影响

分类： 人工智能

作者： Antonio Rago, Bence Palfi, Purin Sukpanichnant, Hannibal Nabli, Kavyesh Vivek, Olga Kostopoulou, James Kinross, Francesca Toni

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17401v1

摘要： 近年来，人们引入了各种方法来解释“黑盒”人工智能模型的输出。然而，用户是否真正理解和信任这些解释尚不清楚。在本文中，我们重点关注用于评估癌症风险的回归工具的解释，并检查解释的内容和格式对以用户为中心的理解和信任指标的影响。关于内容，我们尝试了两种解释方法：流行的 SHAP，基于博弈论概念，因此对于日常用户理解来说可能很复杂；以及 occlusion-1，基于特征遮挡，可能更容易理解。关于格式，我们按照传统方式将 SHAP 解释呈现为图表 (SC)，并将 occlusion-1 解释呈现为图表 (OC) 和文本 (OT)，其更简单的性质也适合这种形式。这些实验相当于用户研究，询问具有两种不同专业水平（普通人群和受过一定医学培训的人）的参与者对回归工具输出的解释的主观和客观理解和信任。在这两项研究中，我们发现，在基于内容进行比较时，相对于一般 SHAP 解释，我们对 occlusion-1 的主观理解和信任有明显的偏好。然而，在大多数情况下，控制格式时对解释的直接比较仅揭示了 OT 优于 SC 解释的证据，这表明 occlusion-1 相对于 SHAP 解释的主导地位可能是由对文本而非图表作为解释的偏好所驱动。最后，我们没有发现任何证据表明解释类型之间在客观理解方面存在差异。因此，总的来说，解释的内容和格式的选择需要仔细注意，因为在某些情况下，格式而不是内容可能在改善用户体验方面发挥关键作用。

参数减少 10 倍，进行更多微调

分类： 机器学习, 人工智能

作者： Wenxuan Tan, Nicholas Roberts, Tzu-Heng Huang, Jitian Zhao, John Cooper, Samuel Guo, Chengyu Duan, Frederic Sala

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17383v1

摘要： 参数高效微调 (PEFT) 技术释放了廉价且轻松地专门化大型预训练模型的潜力。然而，最突出的方法，如低等级适配器 (LoRA)，依赖于启发式或经验法则进行架构选择，这可能会限制其新模型和架构的性能。这种限制表明神经架构搜索技术可用于获得最佳适配器架构，但这些技术通常昂贵且难以实现。我们通过 Monarch 矩形微调 (MoRe) 来应对这一挑战，这是一个简单的框架，用于搜索依赖于 Monarch 矩阵类的适配器架构。理论上，我们证明 MoRe 比 LoRA 更具表现力。根据经验，我们的方法在一系列任务和模型上比最先进的 PEFT 具有更高的参数效率和性能，参数只有 LoRA 的 5%。

交通专业知识与残差强化学习的结合：用于 CAV 轨迹控制的基于知识模型的残差强化学习

分类： 人工智能, 机器学习

作者： Zihao Sheng, Zilin Huang, Sikai Chen

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17380v1

摘要： 通过利用虚拟环境模型，基于模型的强化学习 (RL) 预计将比无模型 RL 表现出更高的样本效率。然而，由于复杂系统和环境的不确定性，获得足够准确的环境动态表示具有挑战性。不准确的环境模型可能会降低基于模型的强化学习的样本效率和性能。此外，虽然基于模型的强化学习可以提高样本效率，但它通常仍然需要大量的训练时间从头开始学习，这可能限制了它相对于无模型方法的优势。为了应对这些挑战，本文引入了一种基于知识模型的残差强化学习框架，旨在通过将现有的专家知识注入学习过程并避免从零开始的问题来提高学习效率。我们的方法将交通专家知识集成到虚拟环境模型中，采用智能驾驶员模型（IDM）进行基本动力学，使用神经网络进行剩余动力学，从而确保对复杂场景的适应性。我们提出了一种新颖的策略，将传统控制方法与残差强化学习相结合，促进高效学习和策略优化，而无需从头开始学习。所提出的方法适用于 CAV 轨迹控制任务，以消除混合交通流中走走停停的波。实验结果表明，与基线代理相比，我们提出的方法使 CAV 代理在样本效率、交通流平滑度和交通流动性方面能够在轨迹控制中实现卓越的性能。源代码和补充材料可在 https://github.com/zihaosheng/traffic-expertise-RL/ 获取。

EMPOWER：具有在线基础和执行的具体多角色开放词汇规划

分类： 机器人技术, 人工智能

作者： Francesco Argenziano, Michele Brienza, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17379v1

摘要： 现实生活中机器人的任务规划面临着巨大的挑战。这些挑战源于三个主要问题：难以确定实现目标的基本步骤顺序；高层行动和低层命令之间缺乏标准化映射；考虑到机器人硬件资源有限，保持低计算开销的挑战。我们推出了 EMPOWER，这是一个专为开放词汇在线基础和实体代理规划而设计的框架，旨在解决这些问题。通过利用高效的预训练基础模型和多角色机制，EMPOWER 在基础规划和执行方面取得了显着改进。定量结果凸显了我们方法的有效性，使用 TIAGo 机器人在六个不同的现实场景中实现了 0.73 的平均成功率。

NDP：下一个分布预测是更广泛的目标

分类： 计算和语言, 人工智能

作者： Junhao Ruan, Abudukeyumu Abudula, Xinyu Liu, Bei Li, Yinqiao Li, Chenglong Wang, Yuchun Fan, Yuan Ge, Tong Xiao, Jingbo Zhu

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17377v1

摘要： 在下一个令牌预测 (NTP) 范式上训练的大型语言模型 (LLM) 已展现出强大的功能。然而，现有的 NTP 范式存在一些局限性，特别是与计划任务复杂性和推理过程中的错误传播有关。在我们的工作中，我们扩展了对 NTP 的批评，强调了它的局限性，因为它的训练目标很狭窄：预测次优的 one-hot 分布。为了支持这一批评，我们进行了一项预实验，将强大的大语言模型的输出分布视为有效的世界数据压缩。通过评估 $n$-gram 分布和 LLM 的 one-hot 分布之间的相似性，我们观察到 $n$-gram 分布与 LLM 的输出分布更加一致。基于这一见解，我们引入了下一个分布预测（NDP），它使用 $n$-gram 分布来替换 one-hot 目标，无需额外的在线训练时间即可增强学习。我们在翻译、一般任务、语言迁移和医学领域适应方面进行了实验。与 NTP 相比，NDP 在翻译任务中可以实现高达 +2.97 COMET 改进，在一般任务中实现 +0.61 平均改进，在医学领域实现令人难以置信的 +10.75 平均改进。这展示了解决目标缩小问题的具体好处，为未来改进 NTP 工作指明了新方向。

利用图神经网络预测用电量

分类： 机器学习, 人工智能

作者： Eloi Campagne, Yvenn Amara-Ouali, Yannig Goude, Argyris Kalogeratos

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17366v1

摘要： 出于多种原因，准确的电力需求预测至关重要，特别是当可再生能源的整合和向分散式网络范式的过渡带来了更大的复杂性和不确定性时。所提出的方法利用基于图的表示来有效捕获这种去中心化网络结构中固有的空间分布和复杂性。这项研究工作提供了一种新颖的方法，通过考虑图卷积网络或图 SAGE 等模型，超越了传统的广义加性模型框架。这些基于图的模型能够整合节点之间各种级别的互连性和信息共享，其中每个节点对应于消费者子集（例如一个国家的区域）的组合负载（即消费）。更具体地说，我们介绍了一系列针对消费预测定制的推断图表的方法，以及用于评估所开发模型的性能和可解释性的框架。我们在考虑法国大陆地区的综合框架和真实框架中进行了电力预测实验，并讨论了我们方法的性能和优点。

C-RADAR：用于软件定义网络中入侵检测的集中式深度学习系统

分类： 机器学习, 人工智能, 密码学和安全

作者： Osama Mustafa, Khizer Ali, Talha Naqash

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17356v1

摘要： 近年来，软件定义网络（SDN）越来越受欢迎，主要是因为它们能够简化网络管理并提高网络灵活性。然而，这也使他们容易受到各种类型的网络攻击。 SDN 在集中式控制平面上工作，这使得它们更容易受到网络攻击。研究表明，深度学习 (DL) 方法可以成功识别传统网络中的入侵，但其在 SDN 中的应用仍然是一个开放的研究领域。在这项研究中，我们建议使用深度学习技术在 SDN 中进行入侵检测。我们通过对网络流量数据集进行实验并将其与现有技术进行比较来衡量我们方法的有效性。我们的结果表明，基于深度学习的方法在检测精度和计算效率方面优于传统方法。本研究中使用的深度学习架构是基于长短期记忆网络和自注意力的架构，即 LSTM-Attn，其 Fl 分数为 0.9721。此外，可以训练该技术来检测新的攻击模式并提高 SDN 的整体安全性。

双向解码：通过闭环重采样改进动作分块

分类： 机器人技术, 人工智能, 机器学习

作者： Yuejiang Liu, Jubayer Ibn Hamid, Annie Xie, Yoonho Lee, Maximilian Du, Chelsea Finn

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17355v1

摘要： 无需中间重新规划即可预测和执行一系列动作（称为动作分块），越来越多地用于机器人从人类演示中进行学习。然而，它对学习策略的影响仍然令人费解：一些研究强调了它对于实现强劲绩效的重要性，而另一些研究则观察到了有害影响。在本文中，我们首先通过分析学习者和演示者之间的差异来剖析动作组块的作用。我们发现，较长的动作块使策略能够通过考虑块内更多过去的状态和动作来更好地捕获时间依赖性。然而，这种优势的代价是由于对最近状态的观察较少而加剧了随机环境中的错误。为了解决这个问题，我们提出了双向解码（BID），这是一种将动作分块与闭环操作连接起来的测试时推理算法。 BID 在每个时间步对多个预测进行采样，并根据两个标准搜索最佳预测：(i) 后向一致性，有利于与先前决策一致的样本，(ii) 前向对比度，有利于接近更强策略输出的样本，远离政策较弱的国家。通过耦合动作块内部和动作块之间的决策，BID 增强了扩展序列的时间一致性，同时在随机环境中实现自适应重新规划。实验结果表明，在七个模拟基准和两个现实世界任务中，BID 大大优于两个最先进的生成策略的传统闭环操作。

忘记繁荣：利用预训练语言模型的机器学习来防止隐私泄露

分类： 机器学习, 人工智能, 密码学和安全

作者： Md Rafi Ur Rashid, Jing Liu, Toshiaki Koike-Akino, Shagufta Mehnaz, Ye Wang

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17354v1

摘要： 对下游应用程序的私有数据进行大型语言模型的微调可能会暴露敏感信息，从而带来重大的隐私风险。现在，一些流行的社区平台提供了多种预训练模型的便捷分发，允许任何人在没有严格验证的情况下发布。这种情况会造成隐私威胁，因为可以故意制作预训练模型来损害微调数据集的隐私。在这项研究中，我们介绍了一种新颖的中毒技术，该技术使用模型遗忘作为攻击工具。这种方法操纵预先训练的语言模型，以增加微调过程中私人数据的泄漏。我们的方法增强了成员推理和数据提取攻击，同时保留了模型的实用性。不同模型、数据集和微调设置的实验结果表明，我们的攻击显着超过了基准性能。这项工作对于从未经验证的来源下载预训练模型的用户来说是一个警告，强调了其中涉及的潜在风险。

AASIST3：针对 ASVspoof 2024 挑战赛，使用 SSL 功能和附加正则化进行 KAN 增强型 AASIST 语音深度伪造检测

分类： 声音, 人工智能, 音频和语音处理

作者： Kirill Borodin, Vasiliy Kudryavtsev, Dmitrii Korzh, Alexey Efimenko, Grach Mkrtchian, Mikhail Gorodnichev, Oleg Y. Rogov

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17352v1

摘要： 自动说话人验证（ASV）系统根据说话人的声音特征来识别说话人，具有许多应用，例如金融交易中的用户身份验证、智能设备中的独占访问控制以及取证欺诈检测。然而，深度学习算法的进步使得能够通过文本转语音 (TTS) 和语音转换 (VC) 系统生成合成音频，从而使 ASV 系统面临潜在的漏洞。为了解决这个问题，我们提出了一种名为 AASIST3 的新颖架构。通过使用 Kolmogorov-Arnold 网络、附加层、编码器和预加重技术增强现有的 AASIST 框架，AASIST3 的性能提高了两倍以上。它展示了关闭条件下的 minDCF 结果为 0.5357，开放条件下的 minDCF 结果为 0.1414，显着增强了合成语音的检测并提高了 ASV 安全性。

rerankers：统一排名方法的轻量级 Python 库

分类： 信息检索, 人工智能

作者： Benjamin Clavié

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17344v1

摘要： 本文介绍了 rerankers，这是一个 Python 库，它为最常用的重新排名方法提供了易于使用的界面。重新排序是许多检索流程中不可或缺的组成部分；然而，存在多种方法，依赖于不同的实现方法。 \texttt{rerankers} 将这些方法统一到一个用户友好的界面中，允许从业者和研究人员探索不同的方法，而只需更改一行 Python 代码。此外，rerankers 确保其实现以尽可能少的依赖项完成，并尽可能重用原始实现，从而保证我们的简化接口与更复杂的接口相比不会导致性能下降。完整的源代码和支持的模型列表会定期更新，可在 https://github.com/answerdotai/rerankers 上获取。

变压器的模块化：研究神经元的可分离性和专业化

分类： 机器学习, 人工智能, 计算和语言, 68T07 (Primary) 68Q32, 68T05 (Secondary), I.2.4; I.2.6; I.2.7

作者： Nicholas Pochinkov, Thomas Jones, Mohammed Rashidur Rahman

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17324v1

摘要： 变压器模型在各种应用中越来越普遍，但我们对其内部工作原理的了解仍然有限。本文研究了 Transformer 架构中神经元的模块化和任务专门化，重点关注视觉 (ViT) 和语言 (Mistral 7B) 模型。通过结合选择性剪枝和 MoEfication 聚类技术，我们分析了不同任务和数据子集中神经元的重叠和专门化。我们的研究结果揭示了特定任务神经元簇的证据，相关任务之间存在不同程度的重叠。我们观察到，即使在随机初始化的模型中，神经元重要性模式也在某种程度上持续存在，这表明训练改进了固有的结构。此外，我们发现通过 MoEfication 识别的神经元簇与模型早期和后期层中的任务特定神经元更加一致。这项工作有助于更细致地了解变压器内部结构，并为提高模型可解释性和效率的潜在途径提供见解。

研究注意力头的神经元消融：峰值激活中心的案例

分类： 机器学习, 人工智能, 计算和语言, 计算机视觉和模式识别, 68T07 (Primary) 68T30, 68T50 (Secondary), I.2.4; I.2.6; I.2.7

作者： Nicholas Pochinkov, Ben Pasero, Skylar Shibayama

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17322v1

摘要： 基于变压器的模型的使用在整个社会中迅速增长。随着这种增长，了解它们如何工作，特别是注意机制如何表示概念非常重要。尽管有许多可解释的方法，但许多方法都是通过神经元激活来观察模型，而人们对此知之甚少。我们描述了观察神经元激活的不同视角，并通过各种神经消融方法研究语言模型和视觉转换器的有效性：零消融、平均消融、激活重采样以及我们称之为“峰值消融”的新颖方法。通过实验分析，我们发现在不同的机制和模型中，与其他方法相比，每种方法都能提供最低的模型性能下降，而重采样通常会导致最显着的性能下降。我们在 https://github.com/nickypro/investigating-ablation 提供代码。

使用大型语言模型桥接领域知识和流程发现

分类： 人工智能, 计算和语言

作者： Ali Norouzifar, Humam Kourani, Marcus Dees, Wil van der Aalst

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17316v1

摘要： 发现良好的流程模型对于不同的流程分析任务（例如一致性检查和流程改进）至关重要。自动化流程发现方法常常忽略有价值的领域知识。这些知识，包括领域专家的见解和详细的流程文档，在流程发现过程中很大程度上仍未得到利用。本文利用大型语言模型 (LLM) 将这些知识直接集成到流程发现中。我们使用从大语言模型导出的规则来指导模型构建，确保与领域知识和实际流程执行保持一致。通过整合大语言模型，我们在以自然语言表达的流程知识和稳健流程模型的发现之间架起了一座桥梁，从而显着推进了流程发现方法。为了展示我们框架的可用性，我们与 UWV 员工保险机构进行了案例研究，展示了其实际优势和有效性。

具有固定置信度的公平最佳手臂识别

分类： 机器学习, 人工智能

作者： Alessio Russo, Filippo Vannella

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17313v1

摘要： 在这项工作中，我们提出了一种在公平约束下的最佳手臂识别（BAI）的新颖框架，我们将这种设置称为 \textit{F-BAI} （公平 BAI）。与传统的 BAI 只专注于以最小的样本复杂度识别最优臂不同，F-BAI 还包含一组公平性约束。这些约束对每个臂的选择率施加了下限，并且可以与模型无关或与模型相关。对于此设置，我们建立了特定于实例的样本复杂性下限并分析 \textit{公平性价格}，量化公平性如何影响样本复杂性。基于样本复杂度下界，我们提出了 F-TaS，一种可证明匹配样本复杂度下界的算法，同时确保满足公平性约束。使用综合模型和实际无线调度应用进行的数值结果显示了 F-TaS 在最大限度地降低样本复杂性同时实现低公平性违规方面的效率。

将基线 2D-CNN 模型与猫群优化混合以增强高级持续威胁检测

分类： 密码学和安全, 人工智能, 机器学习, 网络和互联网架构

作者： Ali M. Bakhiet, Salah A. Aly

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17307v1

摘要： 在网络安全领域，由于高级持续威胁 (APT) 的隐蔽性和复杂性，检测它们仍然是一项艰巨的挑战。本研究论文提出了一种创新方法，利用卷积神经网络 (CNN) 和 2D 基线模型，并通过尖端的猫群优化 (CSO) 算法增强，显着提高 APT 检测精度。通过将 2D-CNN 基线模型与 CSO 无缝集成，我们释放了 APT 检测前所未有的准确性和效率的潜力。结果显示，准确度得分高达 98.4%$，令人印象深刻，标志着各个攻击阶段的 APT 检测显着增强，为应对这些残酷而复杂的威胁指明了前进的道路。

通过机器学习加速行星内部动力学稳态的发现

分类： 流体动力学, 地球和行星天体物理学, 人工智能, 机器学习

作者： Siddhant Agarwal, Nicola Tosi, Christian Hüttig, David S. Greenberg, Ali Can Bekar

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17298v1

摘要： 模拟地幔对流通常需要达到计算成本高昂的稳态，这对于推导热流和动态流特性的标度定律以及基准数值解至关重要。地幔岩石流变性对温度的强烈依赖性导致粘度变化几个数量级，导致缓慢演化的停滞盖，其中热传导占主导地位，覆盖快速演化和强对流的区域。时间步长方法虽然对于恒定粘度的流体有效，但受到库朗准则的阻碍，该准则根据系统的最大速度和网格尺寸限制时间步长。因此，由于控制停滞区域和对流区域的时间尺度不同，实现稳态需要大量的时间步长。我们提出了一种利用机器学习加速地幔对流模拟的概念。我们生成了 128 个二维模拟的数据集，其中混合了基础加热和内部加热，以及与压力和温度相关的粘度。我们在 97 次模拟中训练前馈神经网络来预测稳态温度曲线。然后可以使用这些来初始化不同仿真参数的数值时间步进方法。与典型的初始化相比，达到稳态所需的时间步数减少了 3.75 的中值因子。这种方法的好处在于需要很少的模拟来进行训练，在我们初始化数值方法时提供没有预测误差的解决方案，并在推理时产生最小的计算开销。我们展示了我们方法的有效性，并讨论了加速模拟对推进地幔对流研究的潜在影响。

固定策略在具有 EVaR 的风险规避总回报 MDP 中是最优的

分类： 机器学习, 人工智能

作者： Xihong Su, Marek Petrik, Julien Grand-Clément

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17286v1

摘要： 在贴现 MDP 中优化风险规避目标具有挑战性，因为大多数模型不承认直接的动态规划方程并且需要复杂的依赖于历史的策略。在本文中，我们表明，在熵风险度量（ERM）和熵风险价值（EVaR）风险度量下，风险规避{\em总回报标准}可以通过固定策略进行优化，从而可以轻松地分析、解释和部署。我们提出指数值迭代、策略迭代和线性规划来计算最优策略。与之前的工作相比，我们的结果只需要相对温和的瞬态 MDP 条件，并允许正向和负向奖励。我们的结果表明，在广泛的风险规避强化学习领域中，总奖励标准可能优于折扣标准。

将大型语言模型灵活有效地混合到领域专家的组合中

分类： 人工智能, 计算和语言

作者： Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17280v1

摘要： 我们提出了一个工具包，用于从经过训练的模型创建低成本的混合领域专家（MOE）。该工具包可用于从模型或适配器创建混合物。我们进行广泛的测试，并提供有关使用该工具包定义最终 MOE 架构的指导。可以使用公共存储库。

UrBench：评估多视图城市场景中大型多模态模型的综合基准

分类： 计算机视觉和模式识别, 人工智能

作者： Baichuan Zhou, Haote Yang, Dairong Chen, Junyan Ye, Tianyi Bai, Jinhua Yu, Songyang Zhang, Dahua Lin, Conghui He, Weijia Li

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17267v1

摘要： 最近对大型多模态模型（LMM）的评估探索了它们在各个领域的能力，只有少数基准专门针对城市环境。此外，现有的城市基准仅限于在单一视角下评估具有基本区域级城市任务的LMM，导致对LMM在城市环境中的能力评估不完整。为了解决这些问题，我们推出了 UrBench，这是一个综合基准测试，旨在评估复杂的多视图城市场景中的 LMM。 UrBench 包含 11.6K 个区域级和角色级精心策划的问题，涵盖 4 个任务维度：地理定位、场景推理、场景理解和对象理解，总共 14 个任务类型。在构建 UrBench 时，我们利用现有数据集中的数据，并另外收集 11 个城市的数据，使用跨视图检测匹配方法创建新的注释。有了这些图像和注释，我们然后集成基于 LMM、基于规则和基于人类的方法来构建大规模的高质量问题。我们对 21 个 LMM 的评估表明，当前的 LMM 在多个方面都在城市环境中挣扎。即使是表现最好的 GPT-4o 在大多数任务中也落后于人类，从计数等简单任务到定向、定位和物体属性识别等复杂任务，平均性能差距为 17.4%。我们的基准还表明，LMM 在不同的城市视图中表现出不一致的行为，特别是在理解跨视图关系方面。 UrBench 数据集和基准测试结果将在 https://opendatalab.github.io/UrBench/ 上公开提供。

VisionTS：视觉蒙版自动编码器是免费的零样本时间序列预测器

分类： 计算机视觉和模式识别, 人工智能

作者： Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17253v1

摘要： 基础模型已成为时间序列预测（TSF）中一种有前景的方法。现有方法要么微调大型语言模型 (LLM)，要么构建大规模时间序列数据集来开发 TSF 基础模型。然而，由于严重的跨域差距或域内异质性，这些方法面临挑战。在本文中，我们基于图像和时间序列之间的内在相似性，探索了一条从丰富且高质量的自然图像构建TSF基础模型的新道路。为了弥合两个领域之间的差距，我们将 TSF 任务重新表述为图像重建任务，并由在 ImageNet 数据集上预训练的视觉掩模自动编码器 (MAE) 自监督式进一步处理。令人惊讶的是，无需在时间序列领域进行进一步的调整，与现有的 TSF 基础模型相比，所提出的 VisionTS 可以实现卓越的零样本预测性能。通过最少的微调，VisionTS 可以进一步改进预测并在大多数情况下实现最先进的性能。这些发现表明，视觉模型可能是 TSF 的免费午餐，并凸显了计算机视觉和 TSF 之间未来跨领域研究的潜力。我们的代码可在 https://github.com/Keytoyze/VisionTS 上公开获取。

用于一次性概念学习的抽象高斯原型

分类： 计算机视觉和模式识别, 人工智能

作者： Chelsea Zou, Kenneth J. Kurtz

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17251v1

摘要： 我们引入了一种基于集群的生成图像分割框架，以基于受到 Omniglot 挑战的启发的一次性学习来编码视觉概念的更高级别表示。高斯混合模型 (GMM) 每个组件的推断参数代表视觉概念的独特拓扑子部分。从这些参数中采样新数据会生成增强的子部分，为每个概念构建更强大的原型，即抽象高斯原型（AGP）。该框架使用认知启发的相似性度量来解决一次性分类任务，并通过采用变分自动编码器 (VAE) 生成新类变体的新型 AGP-VAE 管道来解决一次性生成任务。人类评委的结果表明，生成管道产生了新颖的视觉概念示例和类别，这些示例和类别与人类制作的视觉概念基本上没有区别。所提出的框架带来了令人印象深刻但不是最先进的分类准确性；因此，其贡献有两方面：1）与现有方法大量依赖预训练或知识工程相比，该系统的理论和计算复杂性特别低，并且以完全独立的方式运行； 2）与竞争的神经网络模型相比，AGP 方法强调了 Omniglot 挑战中强调的任务能力广度的重要性（即生成任务的成功表现）。当我们进一步理解学习/推理系统如何基于一个简单的例子产生可行的、稳健的和灵活的概念时，这两点至关重要。

ROAD 数据集上的人工智能驱动的入侵检测系统 (IDS)：汽车控制器局域网 (CAN) 的比较分析

分类： 密码学和安全, 人工智能, 机器学习

作者： Lorenzo Guerra, Linhan Xu, Pavlo Mozharovskyi, Paolo Bellavista, Thomas Chapuis, Guillaume Duc, Van-Tam Nguyen

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17235v1

摘要： 现代车辆中数字设备的集成彻底改变了汽车技术，提高了安全性和整体驾驶体验。控制器局域网 (CAN) 总线是用于管理电子控制单元 (ECU) 之间的车内通信的中央系统。然而，CAN协议由于固有的漏洞、缺乏加密和身份验证而带来了安全挑战，再加上不断扩大的攻击面，需要强大的安全措施。为了应对这一挑战，人们开发并部署了许多入侵检测系统（IDS）。尽管如此，现有文献中仍然缺乏用于测试此类 IDS 有效性的开放、全面且现实的数据集。本文通过考虑最新的 ROAD 数据集（包含隐秘且复杂的注入）来解决这一差距。该方法涉及数据集标记以及最先进的深度学习模型和传统机器学习模型的实施，以显示文献中最常用的数据集和 ROAD 数据集（一种更现实的替代方案）之间的性能差异。

多式联运城市交通网络中弹性即服务 (RaaS) 的方法框架

分类： 人工智能

作者： Sara Jaber, Mostafa Ameli, S. M. Hassan Mahdavi, Neila Bhouri

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17233v1

摘要： 公共交通系统的通勤交通量正在增加。这一增长凸显了弹性策略的必要性，以管理意外的服务中断，确保快速有效的响应，最大限度地减少对利益相关者的不利影响，并增强系统维持基本功能和快速恢复的能力。本研究旨在探索通过弹性即服务 (RaaS) 策略来管理公共交通中断，开发优化模型以有效分配资源并最大限度地降低运营商和乘客的成本。拟议的模型包括多种交通选择，例如公共汽车、出租车和自动货车，并根据其可用性、容量、速度和与中断车站的距离等因素，对它们作为铁路中断服务的桥接替代方案进行评估。这可确保部署最合适的车辆以维持服务连续性。该模型应用于法兰西岛地区、巴黎和郊区的案例研究，并辅以微观模拟，与公交车桥接和备用车队等现有解决方案进行比较。结果突显了该模型在最大限度地降低成本、提高利益相关者满意度、优化中断期间的运输管理方面的表现。

迈向符号 XAI——通过人类可理解的特征之间的逻辑关系进行解释

分类： 人工智能, 机器学习

作者： Thomas Schnake, Farnoush Rezaei Jafaria, Jonas Lederer, Ping Xiong, Shinichi Nakajima, Stefan Gugler, Grégoire Montavon, Klaus-Robert Müller

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17198v1

摘要： 可解释的人工智能 (XAI) 在促进人工智能系统的透明度和信任方面发挥着至关重要的作用，传统的 XAI 方法通常提供一层抽象解释，通常以热图的形式突出显示单个或多个输入特征。然而，我们询问模型的抽象推理或问题解决策略是否也可能相关，因为这些策略与人类解决问题的方式更加一致。我们提出了一个名为 Symbolic XAI 的框架，该框架将相关性归因于表达输入特征之间逻辑关系的符号查询，从而捕获模型预测背后的抽象推理。该方法建立在模型预测的简单而通用的多阶分解的基础上。这种分解可以使用基于高阶传播的相关性方法（例如 GNN-LRP）或 XAI 中常用的基于扰动的解释方法来指定。我们的框架的有效性在自然语言处理（NLP）、视觉和量子化学（QC）领域得到了证明，这些领域的抽象符号领域知识丰富并且用户非常感兴趣。 Symbolic XAI 框架提供了对模型决策过程的理解，该过程既可以灵活地供用户定制，又可以通过逻辑公式进行人类可读。

使用最大一致签名进行推理

分类： 人工智能

作者： Matthias Thimm, Jandson Santos Ribeiro Santos

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17190v1

摘要： 我们分析了 Lang 和 Marquis 基于遗忘的一般推理方法的一个具体实例。更准确地说，我们讨论了一种使用最大一致子签名对不一致信息进行推理的方法，其中最大一致子签名是命题的最大集合，使得忘记剩余命题可以恢复一致性。我们深入分析了最大一致子签名和相应的最小不一致子签名，并表明命中集对偶性也适用于它们。我们进一步分析基于最大一致子签名的推理关系。理性假设来自非单调推理和计算复杂性。我们还考虑了我们的方法与不一致测量和次一致性推理的关系。

《福利游戏：外星海藻群》——数字海藻生态实时游戏化

分类： 人机交互, 人工智能, 系统与控制, 系统与控制

作者： Dan-Lu Fei, Zi-Wei Wu, Kang Zhang

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17186v1

摘要： 《福利游戏：外星海藻群》将人工生命艺术与互动游戏与装置相结合，探讨人类活动对脆弱海藻生态系统的影响。该项目旨在通过建立数字海藻生态平衡来提高生态意识。受到真实物种“Laminaria saccharina”的启发，作者采用机器学习技术的程序内容生成来生成虚拟海藻和共生真菌的变体。观众可以通过游戏探索人类活动的后果，观察生态系统对海藻养殖的效益和风险的反馈。该福利游戏提供动态且实时响应的人工海藻生态系统，提供增强生态意识的互动体验。

软件质量保证中的因果推理：系统回顾

分类： 软件工程, 人工智能

作者： Luca Giamattei, Antonio Guerriero, Roberto Pietrantuono, Stefano Russo

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17183v1

摘要： 背景：软件质量保证 (SQA) 是软件工程的基本组成部分，旨在确保利益相关者软件产品在发布运行后按预期工作。机器学习 (ML) 已被证明能够促进 SQA 活动并有助于高质量软件系统的开发。在这种背景下，因果推理作为一种解决当前机器学习局限性的方法越来越受到人们的关注。它旨在通过利用因果关系来实现更有效的 SQA 策略，从而超越纯粹的数据驱动方法。目标：提供因果推理在 SQA 活动中的使用的广泛而详细的概述，以支持研究人员进入该研究领域，确定应用空间、主要挑战和研究机会。方法：对 SQA 研究领域的因果推理进行系统的文献综述。根据既定的软件工程二次研究指南对科学论文进行搜索、分类和分析。结果：结果突出了 SQA 中应用因果推理的主要领域、使用的主要方法以及所提出解决方案的成熟度。故障定位是更多地利用因果推理的活动，特别是在 Web 服务/微服务领域，但测试等其他任务正在迅速普及。因果推理和因果发现都被利用，珍珠的因果关系图形表述是首选，可能是因为它的直观性。支持其应用的工具正在快速出现 - 大多数在 2021 年之后出现。结论：研究结果表明，因果推理对于涉及多种质量属性的 SQA 任务来说是一种有价值的手段，特别是在 V&V、演进和维护期间，以确保可靠性，虽然它还没有被充分利用用于诸如......之类的阶段

识别和聚类 PvP 游戏中团队组成的对抗关系以进行有效的平衡分析

分类： 人工智能, 计算机科学与博弈论, 信息检索, 机器学习, 多代理系统

作者： Chiu-Chou Lin, Yu-Wei Shih, Kuei-Ting Kuo, Yu-Cheng Chen, Chien-Hua Chen, Wei-Chen Chiu, I-Chen Wu

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17180v1

摘要： 如何量化游戏设置中的平衡性？这个问题对于游戏设计师来说至关重要，尤其是在玩家对玩家 (PvP) 游戏中，分析预定义团队组合之间的强度关系（例如多人在线竞技场 (MOBA) 游戏中的英雄组合或纸牌游戏中的牌组）是非常重要的。对于增强游戏玩法和实现平衡至关重要。我们开发了两种先进的衡量标准，超越了简单化的胜率，量化了零和竞争场景中的平衡。这些度量源自获胜值估计，该估计采用通过 Bradley-Terry 模型的强度评级近似和通过矢量量化的反关系近似，从而显着降低了与传统获胜值估计相关的计算复杂性。在这些模型的学习过程中，我们识别出有用的组合类别并查明它们的对应关系，与人类玩家的经验保持一致，而不需要特定的游戏知识。我们的方法取决于一种简单的技术，通过针对极小的状态空间的确定性矢量量化过程来增强离散表示中的码本利用率。我们的框架已在流行的在线游戏中得到验证，包括《帝国时代 II》、《炉石传说》、《荒野乱斗》和《英雄联盟》。在这些游戏中观察到的强度关系的准确性与传统的成对获胜值预测相当，同时还提供了更易于管理的分析复杂性。最终，我们的研究结果有助于更深入地了解 PvP 游戏动态，并提出一种显着改进游戏平衡评估和设计的方法。

编解码器确实很重要：探索音频语言模型编解码器的语义缺点

分类： 音频和语音处理, 人工智能, 计算和语言, 声音

作者： Zhen Ye, Peiwen Sun, Jiahe Lei, Hongzhan Lin, Xu Tan, Zheqi Dai, Qiuqiang Kong, Jianyi Chen, Jiahao Pan, Qifeng Liu, Yike Guo, Wei Xue

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17175v1

摘要： 大型语言模型 (LLM) 的功能极大地推动了音频生成领域的最新进展。现有的音频LLM研究主要集中在增强音频语言模型的架构和规模，以及利用更大的数据集，并且通常使用声学编解码器（例如EnCodec）进行音频标记化。然而，这些编解码器最初是为音频压缩而设计的，这可能会导致音频 LLM 环境中的性能不佳。我们的研究旨在解决当前音频 LLM 编解码器的缺点，特别是它们在维护生成音频的语义完整性方面所面临的挑战。例如，VALL-E 等现有方法根据文本转录来生成声学标记，但由于对声学标记的语义误解，经常会出现内容不准确和单词错误率 (WER) 升高的情况，从而导致跳词和错误。为了克服这些问题，我们提出了一种简单而有效的方法，称为 X-Codec。 X-Codec 在残差矢量量化 (RVQ) 阶段之前融合了来自预训练语义编码器的语义特征，并在 RVQ 阶段之后引入了语义重建损失。通过增强编解码器的语义能力，X-Codec 显着降低了语音合成任务中的 WER，并将这些优势扩展到非语音应用，包括音乐和声音生成。我们在文本到语音、音乐延续和文本到声音任务中的实验表明，集成语义信息可以极大地提高音频生成中语言模型的整体性能。我们的代码和演示已经可用（演示：https://x-codec-audio.github.io 代码：https://github.com/zhenye234/xcodec）

表格数据的深度特征嵌入

分类： 机器学习, 人工智能

作者： Yuqian Wu, Hengyi Luo, Raymond S. T. Lee

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17162v1

摘要： 表格数据学习在深度学习中具有广泛的应用，但其现有的嵌入技术在数值和分类特征方面受到限制，例如无法捕获复杂的关系和工程。本文提出了一种新颖的深度嵌入框架，利用轻量级深度神经网络为机器学习研究中的表格数据生成有效的特征嵌入。对于数值特征，采用两步特征扩展和深度变换技术来捕获大量语义信息。对于分类特征，每个实体的唯一识别向量由带有参数化深度嵌入函数的紧凑查找表引用，以统一嵌入大小维度，并使用深度神经网络将其转换为嵌入向量。在真实世界的数据集上进行实验以进行性能评估。

观察、比较、决定：通过多视图多路径推理减轻大视觉语言模型中的幻觉

分类： 计算机视觉和模式识别, 人工智能

作者： Xiaoye Qu, Jiashuo Sun, Wei Wei, Yu Cheng

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17150v1

摘要： 最近，大型视觉语言模型（LVLM）在多模态上下文理解方面表现出了令人印象深刻的能力。然而，他们仍然遭受幻觉问题，即生成与图像内容不一致的输出。为了减轻幻觉，之前的研究主要集中在使用自定义数据集重新训练 LVLM。尽管有效，但它们本质上会带来额外的计算成本。在本文中，我们提出了一个免训练框架 \textbf{MVP}，旨在通过 \textbf{M}ulti-\textbf{V}iew Multi- 充分利用 LVLM 的固有功能来减少幻觉。 \textbf{P}ath 推理。具体来说，我们首先设计了一种多视图信息搜索策略来彻底感知图像中的综合信息，这丰富了LVLM中原始视觉编码器捕获的一般全局信息。此外，在答案解码过程中，我们观察到幻觉的发生与答案标记的确定性有很强的相关性。因此，我们提出对每个信息视图进行多路径推理，以量化和聚合多个解码路径中每个潜在答案的确定性分数，并最终决定输出答案。通过充分掌握图像中的信息并在解码时仔细考虑潜在答案的确定性，我们的 MVP 可以有效减少 LVLM 中的幻觉。大量实验验证了我们提出的 MVP 显着减轻了四个著名 LVLM 中的幻觉问题。源代码位于：\url{https://github.com/GasolSun36/MVP}。

迈向超参数无联邦学习

分类： 机器学习, 人工智能, 优化与控制

作者： Geetika, Drishya Uniyal, Bapi Chatterjee

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17145v1

摘要： 用于缩放全局模型更新的联邦学习 (FL) 中的自适应同步技术显示出优于普通联邦平均 (FedAvg) 方案的性能。然而，现有方法在服务器上采用额外的可调超参数来确定缩放因子。一种对比方法是自动缩放，类似于随机梯度下降（SGD）方法中的免调整步长方案，它提供有竞争力的收敛速度并表现出良好的经验性能。在这项工作中，我们引入了两种用于自动缩放全局模型更新的算法。在我们的第一个算法中，我们在客户端建立了下降确保步长机制，以确保服务器目标的下降。我们证明这种方案能够实现强凸联合目标的线性收敛。我们的第二个算法表明，采样客户端的目标值的平均值是计算缩放因子所需的服务器上的目标函数值的实用且有效的替代品，否则不允许进行计算。我们广泛的实证结果表明，对于凸问题和非凸问题，所提出的方法的性能与流行的联邦学习算法相当或更好。我们的工作朝着设计超参数无联邦学习迈出了一步。

利用数字孪生技术进行公共空间保护和脆弱性评估

分类： 密码学和安全, 人工智能

作者： Artemis Stefanidou, Jorgen Cani, Thomas Papadopoulos, Panagiotis Radoglou-Grammatikis, Panagiotis Sarigiannidis, Iraklis Varlamis, Georgios Th. Papadopoulos

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17136v1

摘要： 近年来，保护所谓的“软目标”，即公众容易进入但安全措施相对较低的地点，已成为一个相当具有挑战性和日益重要的问题。由于新的先进技术（例如人工智能（AI）、自动驾驶汽车（AV）、3D 打印等）的出现，这种安全威胁的复杂性和严重性如今呈指数级增长；尤其是在大型、大众化、多样化的公共空间中。本文提出了一种新颖的数字孪生安全服务（DTaaSS）架构，用于全面、显着地增强公共空间（例如地铁站、休闲场所、城市广场等）的保护。拟议的框架将数字孪生 (DT) 概念与其他尖端技术相结合，包括物联网 (IoT)、云计算、大数据分析和人工智能。特别是，DTaaSS 包含一个整体、实时、大规模、全面和数据驱动的安全解决方案，用于有效/稳健地保护公共空间，支持：a) 数据收集和分析，b) 区域监控/控制和主动防御威胁检测，c) 事件/攻击预测，以及 d) 定量和数据驱动的漏洞评估。总体而言，所设计的架构在处理针对大型、关键和流行软目标的复杂、混合和组合威胁方面表现出更大的潜力。针对具有代表性和多样化的现实应用场景，详细讨论了 DTaaSS 的适用性和鲁棒性，包括对：a) 地铁站、b) 休闲场所和 c) 大教堂广场的复杂攻击。

VQ4DiT：扩散变压器的高效训练后矢量量化

分类： 计算机视觉和模式识别, 人工智能, I.2; I.4

作者： Juncan Deng, Shuaiting Li, Zeyu Wang, Hong Gu, Kedong Xu, Kejie Huang

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17131v1

摘要： 扩散变压器模型 (DiT) 将网络架构从传统的 UNet 转变为变压器，展示了图像生成方面的卓越能力。尽管 DiT 已广泛应用于高清视频生成任务，但其较大的参数大小阻碍了边缘设备的推理。矢量量化（VQ）可以将模型权重分解为码本和分配，允许极端的权重量化并显着减少内存使用。在本文中，我们提出了 VQ4DiT，一种 DiT 的快速训练后矢量量化方法。我们发现传统的 VQ 方法仅校准码本，而不校准分配。这导致权重子向量被错误地分配给相同的分配，为码本提供不一致的梯度并导致次优结果。为了应对这一挑战，VQ4DiT根据欧氏距离计算每个权重子向量的候选分配集，并根据加权平均值重建子向量。然后，使用零数据和逐块校准方法，在校准码本时有效地从集合中选择最佳分配。 VQ4DiT 在 20 分钟到 5 小时内在单个 NVIDIA A100 GPU 上量化 DiT XL/2 模型，具体取决于不同的量化设置。实验表明，VQ4DiT 在模型大小和性能权衡方面建立了新的最先进技术，将权重量化到 2 位精度，同时保留可接受的图像生成质量。

用于药物反应预测的多关系图神经网络中的可控边类型特定解释

分类： 机器学习, 人工智能

作者： Xiaodi Li, Jianfeng Gui, Qian Gao, Haoyuan Shi, Zhenyu Yue

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17129v1

摘要： 图神经网络已广泛应用于需要可解释预测的关键决策领域，导致可解释算法的蓬勃发展。然而，当前的图可解释性算法往往强调通用性，常常忽视生物学意义，从而限制了它们在预测癌症药物反应方面的适用性。在本文中，我们提出了一种用于癌症药物反应预测的新型事后可解释性算法 CETExplainer，它结合了可控的边缘类型特定加权机制。它考虑了子图和预测之间的相互信息，提出了一种结构评分方法，为预测模型提供细粒度的、具有生物学意义的解释。我们还介绍了一种基于真实世界数据集构建地面实况的方法，以定量评估所提出的可解释性算法。对现实世界数据集的实证分析表明，与领先的算法相比，CETExplainer 实现了卓越的稳定性并提高了解释质量，从而为癌症药物预测提供了强大且富有洞察力的工具。

探索用户对便携式智能个人助理的接受度：使用 PLS-SEM 和 fsQCA 的混合方法

分类： 人机交互, 人工智能, HCC

作者： Gustave Florentin Nkoulou Mvondo, Ben Niu

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17119v1

摘要： 本研究探讨了推动用户接受 Rabbit R1 的因素，Rabbit R1 是一款新开发的便携式智能个人助理 (PIPA)，旨在重新定义用户交互和控制。该研究通过纳入人工智能特定因素（对话智能、任务智能和感知自然性）、用户界面设计因素（信息设计和视觉美学的简单性）以及用户接受度和忠诚度，扩展了技术接受模型（TAM）。我们采用有目的抽样方法，收集了美国 824 个用户的数据，并通过偏最小二乘结构方程模型 (PLS-SEM) 和模糊集定性比较分析 (fsQCA) 对样本进行了分析。研究结果表明，所有假设的关系，包括直接和间接影响，都得到支持。此外，fsQCA 支持 PLS-SEM 的研究结果，并确定了导致用户接受度高和低的三种配置。这项研究丰富了文献，并为 PIPA 的系统设计者和营销人员提供了宝贵的见解，指导战略决策以促进广泛采用和长期参与。

了解用户：基于意图的排名数据集

分类： 信息检索, 人工智能

作者： Abhijit Anand, Jurek Leonhardt, V Venktesh, Avishek Anand

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17103v1

摘要： 随着信息检索系统的不断发展，这些系统的准确评估和基准测试变得至关重要。网络搜索数据集（例如 MS MARCO）主要提供简短的关键字查询，没有附带意图或描述，这对理解潜在的信息需求提出了挑战。本文提出了一种增强此类数据集以注释信息查询描述的方法，重点关注两个著名的基准数据集：TREC-DL-21 和 TREC-DL-22。我们的方法涉及利用最先进的大语言模型来分析和理解基准数据集中各个查询中的隐含意图。通过提取关键语义元素，我们为这些查询构建详细且上下文丰富的描述。为了验证生成的查询描述，我们采用众包作为一种可靠的手段来获取关于描述的准确性和信息性的不同人类观点。此信息可用作排名、查询重写等任务的评估集。

具有侧面通信功能的战略武器优于低遗憾的 MAB 算法

分类： 人工智能

作者： Ahmed Ben Yahmed, Clément Calauzènes, Vianney Perchet

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17101v1

摘要： 在战略性多臂强盗设定中，当手臂拥有关于玩家行为的完美信息时，它们可以建立一种平衡：1.它们保留几乎所有的价值，2.它们给玩家留下大量（线性）遗憾。这项研究表明，即使完整的信息并非向所有部门公开，而是在它们之间共享，也有可能实现类似的平衡。主要挑战在于设计一种激励手臂进行真实沟通的通信协议。

FissionVAE：具有潜在空间和解码器分解的联合非独立同分布图像生成

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Chen Hu, Jingjing Deng, Xianghua Xie, Xiaoke Ma

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17090v1

摘要： 联邦学习是一种机器学习范例，使分散的客户端能够协作学习共享模型，同时将所有训练数据保留在本地。虽然大量研究集中在联合图像生成上，特别是生成对抗网络，但变分自动编码器受到的关注较少。在本文中，我们解决了具有多组不同类型图像的非 IID（独立同分布）数据环境的挑战。具体来说，异构数据分布可能会导致难以维持一致的潜在空间，并且还可能导致在聚合期间混合具有不同纹理特征的本地生成器。我们引入了一种新颖的方法 FissionVAE，它分解潜在空间并构建适合各个客户群体的解码器分支。这种方法允许根据每个组的独特数据分布进行定制学习。此外，我们研究了分层 VAE 架构的合并，并演示了模型中异构解码器架构的使用。我们还探索了设置潜在先验分布以增强分解过程的策略。为了评估我们的方法，我们组装了两个复合数据集：第一个结合了 MNIST 和 FashionMNIST；第二个包含卡通和人脸、野生动物、海洋船只和地球遥感图像的 RGB 数据集。我们的实验表明，与基线联合 VAE 模型相比，FissionVAE 极大地提高了这些数据集的生成质量。

通过对抗性一致性蒸馏进行即时对抗性纯化

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Chun Tong Lei, Hon Ming Yam, Zhongliang Guo, Chun Pong Lau

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17064v1

摘要： 尽管神经网络在包括图像分类在内的广泛应用中表现出色，但也容易受到微妙的对抗性噪声的影响。尽管已经提出了一些基于扩散的纯化方法，例如DiffPure，但这些方法非常耗时。在本文中，我们提出了一步控制净化（OSCP），这是一种基于扩散的净化模型，可以在扩散模型中的一个神经功能评估（NFE）中净化对抗图像。我们使用潜在一致性模型 (LCM) 和 ControlNet 进行一步纯化。与其他基于扩散的纯化方法相比，OSCP 计算友好且省时；我们在 ImageNet 上实现了 74.19% 的防御成功率，每次净化只需要 0.1 秒。此外，一致性蒸馏和对抗性扰动之间存在根本的不一致。为了解决这种本体论上的不一致，我们提出了高斯对抗性噪声蒸馏（GAND），这是一种新颖的一致性蒸馏框架，有助于更细致地协调潜在空间动力学，有效地弥合自然流形和对抗流形。我们的实验表明，GAND 不需要完全微调 (FFT)； PEFT，例如 LoRA 就足够了。

视觉变形金刚自我监督学习机制的调查

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Asifullah Khan, Anabia Sohail, Mustansar Fiaz, Mehdi Hassan, Tariq Habib Afridi, Sibghat Ullah Marwat, Farzeen Munir, Safdar Ali, Hannan Naseem, Muhammad Zaigham Zaheer, Kamran Ali, Tangina Sultana, Ziaurrehman Tanoli, Naeem Akhter

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17059v1

摘要： 深度监督学习模型需要大量标记数据才能获得足够好的结果。尽管如此，收集和注释此类大数据的做法既昂贵又费力。最近，自监督学习（SSL）在视觉任务中的应用引起了广泛关注。 SSL 背后的直觉是利用数据内的同步关系作为一种自我监督的形式，这种形式是通用的。在当前的大数据时代，大多数数据都是未标记的，因此 SSL 的成功依赖于找到改进大量可用未标记数据的方法。因此，深度学习算法最好减少对人类监督的依赖，转而专注于基于数据内在关系的自我监督。随着 ViT 的出现，在计算机视觉领域取得了显着的成果，探索和理解用于训练这些模型的各种 SSL 机制至关重要，特别是在可用标签数据较少的场景中。因此，在本次调查中，我们开发了一个全面的分类法，根据 SSL 技术的表示和所应用的预训练任务对 SSL 技术进行系统分类。此外，我们还讨论了 SSL 背后的动机，回顾了流行的预训练任务，并强调了该领域的挑战和进步。此外，我们对不同的 SSL 方法进行了比较分析，评估了它们的优点和局限性，并确定了未来研究的潜在途径。

动态自洽：利用推理路径实现高效的 LLM 抽样

分类： 计算和语言, 人工智能

作者： Guangya Wan, Yuqi Wu, Jie Chen, Sheng Li

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17017v1

摘要： 自一致性 (SC) 是一种广泛使用的方法，通过对 LLM 进行多次采样并输出最常见的解决方案来减轻大型语言模型 (LLM) 中的幻觉。尽管有它的好处，但 SC 会导致与生成的样本数量成正比的大量计算成本。以前的早期停止方法，例如早期停止自我一致性和自适应一致性，旨在通过考虑输出一致性来降低这些成本，但它们并不分析推理路径（RP）本身的质量。为了解决这个问题，我们提出了推理感知自我一致性（RASC），这是一种创新的提前停止框架，通过考虑输出答案和思想链（CoT）提示的RP来动态调整样本生成的数量。 RASC 按顺序为生成的样本分配置信度分数，在满足某些条件时停止，然后采用加权多数投票来优化样本使用并增强答案可靠性。我们使用多个大语言模型跨不同的 QA 数据集全面测试 RASC。 RASC 优于现有方法，与原始 SC 相比，平均显着减少了 80% 的样本使用量，同时保持或提高了高达 5% 的准确度

疾病分类以及预训练深度卷积神经网络对跨成像模式的多种医学成像数据集的影响

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Jutika Borah, Kumaresh Sarmah, Hidam Kumarjit Singh

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17011v1

摘要： 胸部 X 光、全切片图像和光学相干断层扫描等成像技术分别可作为各种医学肺部和眼科疾病的初步筛查和检测。本文研究了使用预训练的深度卷积神经网络在不同的医学成像数据集上进行迁移学习的复杂性，这些数据集具有不同的二元和多类分类模式。我们对十个网络架构和模型系列进行了全面的性能分析，每个网络架构和模型系列都经过预训练和随机初始化。我们的发现表明，无论数据集如何，使用预训练模型作为固定特征提取器都会产生较差的性能。相反，组织病理学显微镜下的全玻片图像具有更好的性能。研究还发现，更深、更复杂的架构并不一定能带来最佳性能。这一观察结果表明 ImageNet 的改进与医学成像任务并不平行。在医学领域内，网络架构的性能在模型系列中随着数据集的变化而变化。这表明特定模态中模型的性能对于同一域中的另一种模态可能不是决定性的。这项研究提供了对深度学习技术在医学成像中的应用的更深入的了解，并强调了预训练网络在五种不同实验设置下跨不同医学成像数据集的影响。

通过表示软标签平滑改进时间序列分类

分类： 机器学习, 人工智能, 68T07, I.2.0

作者： Hengyi Ma, Weitong Chen

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17010v1

摘要： 先前的研究表明，基于深度神经网络的时间序列分类（TSC）任务模型容易出现过度拟合。可以通过采用防止模型对其预测过于自信的策略来缓解这个问题，例如标签平滑和置信度惩罚。基于标签平滑的概念，我们提出了一种生成更可靠的软标签的新颖方法，我们将其称为表示软标签平滑。我们将标签平滑、置信度惩罚和我们的方法表示软标签平滑应用于几个 TSC 模型，并将它们的性能与仅使用硬标签进行训练的基线方法进行比较。我们的结果表明，与基线方法相比，使用这些增强技术可产生具有竞争力的结果。重要的是，我们的方法在具有不同结构和复杂性的模型中表现出了强大的性能。

一致的大型语言模型的安全层：LLM 安全的关键

分类： 密码学和安全, 人工智能

作者： Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17003v1

摘要： 一致的大语言模型非常安全，能够识别并拒绝回答恶意问题。然而，内部参数在维护这种安全性方面的作用尚不清楚，此外，当使用非恶意后门数据或正常数据进行微调时，这些模型很容易受到安全性下降的影响。为了应对这些挑战，我们的工作揭示了参数级别的对齐LLM安全背后的机制，识别模型中间的一小组连续层，这些层对于区分恶意查询和正常查询至关重要，称为“安全层” ”。我们首先通过分析模型内部层内输入向量的变化来确认这些安全层的存在。此外，我们利用过度拒绝现象和参数缩放分析来精确定位安全层。基于这种理解，我们提出了一种新颖的微调方法，即安全部分参数微调（SPPPFT），该方法在微调过程中修复安全层的梯度，以解决安全性下降的问题。我们的实验表明，与完全微调相比，这种方法可以显着保护模型安全性，同时保持性能并减少计算资源。

超越人工智能调整的偏好

分类： 人工智能

作者： Tan Zhi-Xuan, Micah Carroll, Matija Franklin, Hal Ashton

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.16984v1

摘要： 人工智能对齐的主要实践假设（1）偏好是人类价值观的充分体现，（2）人类理性可以通过最大化偏好满足来理解，以及（3）人工智能系统应该与人类价值观保持一致。一个或多个人的偏好，以确保他们的行为安全并符合我们的价值观。无论是隐含地遵循还是明确地认可，这些承诺构成了我们所说的人工智能联盟的优惠主义方法。在本文中，我们描述并挑战了优惠主义方法，描述了适合进一步研究的概念和技术替代方案。我们首先调查理性选择理论作为描述性模型的局限性，解释偏好如何无法捕捉人类价值观的厚重语义内容，以及效用表征如何忽视这些价值观可能的不可通约性。然后，我们批评人类和人工智能的预期效用理论（EUT）的规范性，利用论证理性主体如何不需要遵守 EUT，同时强调 EUT 如何对哪些偏好在规范上可接受的问题保持沉默。最后，我们认为这些限制促使重新制定人工智能调整的目标：人工智能系统不应与人类用户、开发人员或人类的偏好保持一致，而应与适合其社会角色的规范标准保持一致，比如通用助理的角色。此外，这些标准应由所有相关利益相关者协商并达成一致。根据这种替代的一致性概念，多种人工智能系统将能够服务于不同的目的，并与促进互利和限制伤害的规范标准保持一致，尽管我们的价值观多元化且存在分歧。

使用全流水线分布式变压器训练超长上下文语言模型

分类： 分布式、并行和集群计算, 人工智能, 机器学习

作者： Jinghan Yao, Sam Ade Jacobs, Masahiro Tanaka, Olatunji Ruwase, Aamir Shafi, Hari Subramoni, Dhabaleswar K. Panda

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.16978v1

摘要： 具有长上下文功能的大型语言模型 (LLM) 是自然语言处理和计算生物学中复杂任务（例如文本生成和蛋白质序列分析）不可或缺的一部分。然而，直接在极长的上下文中训练大语言模型需要大量的 GPU 资源和增加的内存，从而导致更高的成本和更大的复杂性。通过下游微调或适应引入长上下文功能的替代方法会带来很大的设计限制。在本文中，我们提出了全管道分布式变压器（FPDT），以极高的硬件效率有效地训练长上下文 LLM。对于 GPT 和 Llama 模型，与当前最先进的解决方案相比，我们的序列长度增加了 16 倍，可以在相同的硬件上进行训练。借助我们专用的序列块管道设计，我们现在可以仅在 4 个 GPU 上训练具有 200 万序列长度的 8B LLM，同时还保持超过 55% 的 MFU。我们提出的 FPDT 与现有的培训技术无关，并且被证明可以在不同的 LLM 模型中有效地工作。

HelixFold3生物分子结构预测技术报告

分类： 生物分子, 人工智能, 机器学习

作者： Lihang Liu, Shanzhuo Zhang, Yang Xue, Xianbin Ye, Kunrui Zhu, Yuxin Li, Yang Liu, Xiaonan Zhang, Xiaomin Fang

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.16975v1

摘要： AlphaFold 系列以惊人的准确性改变了蛋白质结构预测，通常与实验方法相匹配。 AlphaFold2、AlphaFold-Multimer 和最新的 AlphaFold3 代表了预测单蛋白链、蛋白复合物和生物分子结构方面的重大进步。虽然 AlphaFold2 和 AlphaFold-Multimer 是开源的，有助于快速可靠的预测，但 AlphaFold3 仍然可以通过有限的在线服务器部分访问，并且尚未开源，限制了进一步的开发。为了应对这些挑战，PaddleHelix 团队正在开发 HelixFold3，旨在复制 AlphaFold3 的功能。利用先前模型和广泛数据集的见解，HelixFold3 在预测传统配体、核酸和蛋白质的结构方面达到了与 AlphaFold3 相当的准确性。 HelixFold3 的初始版本可在 GitHub 上开源用于学术研究，有望推进生物分子研究并加速发现。我们还在PaddleHelix网站上提供在线服务：https://paddlehelix.baidu.com/app/all/helixfold3/forecast。

MemLong：长文本建模的记忆增强检索

分类： 计算和语言, 人工智能

作者： Weijie Liu, Zecheng Tang, Juntao Li, Kehai Chen, Min Zhang

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.16967v1

摘要： 大型语言模型 (LLM) 的最新进展在各个领域取得了显着的成功。然而，由于注意力机制的时间和空间复杂度呈二次方，以及生成过程中键值缓存的内存消耗不断增加，处理长上下文仍然是大语言模型面临的重大挑战。这项工作介绍了 MemLong：用于长文本生成的记忆增强检索，该方法旨在通过利用外部检索器进行历史信息检索来增强长上下文语言建模的能力。 MemLong 将不可微分的“ret-mem”模块与部分可训练的仅解码器语言模型相结合，并引入了利用语义级相关块的细粒度、可控检索注意机制。对多个长上下文语言建模基准的综合评估表明，MemLong 始终优于其他最先进的大语言模型。更重要的是，MemLong 可以将单个 3090 GPU 上的上下文长度从 4k 扩展到 80k。我们的代码位于 https://github.com/Bui1dMySea/MemLong

UserSumBench：评估用户摘要方法的基准框架

分类： 机器学习, 人工智能, 计算和语言

作者： Chao Wang, Neo Wu, Lin Ning, Luyang Liu, Jun Xie, Shawn O'Banion, Bradley Green

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.16966v1

摘要： 大型语言模型 (LLM) 在从一长串原始用户活动数据生成用户摘要方面表现出了卓越的能力。这些摘要捕获了基本的用户信息，例如偏好和兴趣，因此对于基于 LLM 的个性化应用程序（例如可解释的推荐系统）来说非常宝贵。然而，新摘要技术的发展受到缺乏真实标签、用户摘要固有的主观性以及通常成本高昂且耗时的人工评估的阻碍。为了应对这些挑战，我们引入了 \UserSumBench，这是一个基准框架，旨在促进基于 LLM 的摘要方法的迭代开发。该框架提供两个关键组成部分：（1）无参考的摘要质量指标。我们在三个不同的数据集（MovieLens、Yelp 和 Amazon Review）中证明了该指标是有效的并且符合人类偏好。（2）一种新颖的鲁棒摘要方法，利用时间分层摘要器和自我批评验证器来生成高质量的摘要，同时消除幻觉。该方法为摘要技术的进一步创新奠定了坚实的基础。

通过强化学习发现频率控制器上的虚假数据注入方案

分类： 机器学习, 人工智能

作者： Romesh Prasad, Malik Hassanaly, Xiangyu Zhang, Abhijeet Sahu

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.16958v1

摘要： 虽然基于逆变器的分布式能源（DER）在将可再生能源整合到电力系统中发挥着至关重要的作用，但它们同时减少了电网的系统惯性，增加了频率不稳定的风险。此外，如果不认真管理，通过通信网络连接的智能逆变器可能会面临网络威胁。为了主动加强电网抵御复杂的网络攻击，我们建议采用强化学习（RL）来识别潜在威胁和系统漏洞。本研究集中于分析虚假数据注入的对抗策略，特别针对涉及主频率控制的智能逆变器。我们的研究结果表明，强化学习代理可以熟练地识别最佳的虚假数据注入方法来操纵逆变器设置，从而可能导致灾难性后果。

自动驾驶的瞬态容错语义分割

分类： 计算机视觉和模式识别, 人工智能

作者： Leonardo Iurada, Niccolò Cavagnero, Fernando Fernandes Dos Santos, Giuseppe Averta, Paolo Rech, Tatiana Tommasi

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.16952v1

摘要： 深度学习模型对于自动驾驶车辆感知至关重要，但其可靠性受到算法限制和硬件故障的挑战。我们通过检查语义分割模型中的容错能力来解决后者。使用已建立的硬件故障模型，我们从准确性和不确定性方面评估现有的强化技术，并引入 ReLUMax，这是一种新颖的简单激活函数，旨在增强针对瞬态故障的恢复能力。 ReLUMax 无缝集成到现有架构中，无需时间开销。我们的实验表明，ReLUMax 有效提高了鲁棒性，保持了性能并提高了预测置信度，从而有助于开发可靠的自动驾驶系统。

不同的受害者，相同的布局：电子邮件视觉相似性检测以增强电子邮件保护

分类： 密码学和安全, 人工智能, 机器学习

作者： Sachin Shukla, Omid Mirzaei

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16945v1

摘要： 在寻求有效的垃圾邮件检测系统时，重点通常是通过基于规则的检测系统或机器学习 (ML) 解决方案来识别已知的垃圾邮件模式。然而，这两个系统都容易受到规避技术和零日攻击的影响，而这些攻击可以以低成本实现。因此，即使更新了规则或重新训练了 ML 模型，曾经绕过防御系统的电子邮件也可以在接下来的几天内再次绕过防御系统。再次出现无法检测到与以前未检测到的垃圾邮件布局相似的电子邮件的情况令客户感到担忧，并可能会削弱他们对公司的信任。我们的观察表明，威胁行为者广泛重复使用电子邮件工具包，并且可以轻松绕过检测，例如通过更改电子邮件内容。在这项工作中，我们提出了一种电子邮件视觉相似性检测方法，名为 Pisco，以提高电子邮件威胁防御系统的检测能力。我们将概念验证应用于从不同来源收到的一些现实世界样本。我们的结果表明，电子邮件工具包被广泛重复使用，并且视觉上相似的电子邮件会以不同的时间间隔发送给我们的客户。因此，这种方法在依赖上下文信息和关键字的检测特征被绕过的情况下非常有用，我们的观察表明这种情况经常发生。

使用大型语言模型对 COVID-19 期间的恐华症进行纵向情感分析

分类： 计算和语言, 人工智能

作者： Chen Wang, Rohitash Chandra

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16942v1

摘要： COVID-19 大流行加剧了仇外心理，特别是仇华心理，导致对华裔的广泛歧视。大型语言模型 (LLM) 是用于自然语言处理 (NLP) 任务的预训练深度学习模型。大语言模型理解和生成类人文本的能力使其对于分析社交媒体数据以检测和评估情绪特别有用。我们提出了一个情绪分析框架，利用大语言模型对 COVID-19 大流行期间 X（Twitter）中表达的恐华情绪进行纵向情绪分析。结果显示，恐华推文激增、恐华情绪与 COVID-19 病例激增之间存在显着相关性，揭示了疫情的演变影响了公众情绪和恐华话语的流行程度。此外，情绪分析显示负面情绪占主导地位，例如烦恼和否认，这凸显了政治叙事和错误信息塑造公众舆论的影响。之前与 COVID-19 相关的研究中缺乏同理心，凸显了媒体的政治叙事看待这一流行病的方式以及如何指责华人社区。我们的研究强调了透明沟通对于减轻全球危机期间仇外情绪的重要性。

葡萄牙语事件提取：使用 ACE-2005 的 QA 驱动方法

分类： 计算和语言, 人工智能

作者： Luís Filipe Cunha, Ricardo Campos, Alípio Jorge

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16932v1

摘要： 事件提取是一项信息检索任务，通常包括识别事件的中心词（触发器）和事件的参数。这项任务已针对英语进行了广泛的研究，但在葡萄牙语中却落后了，部分原因是缺乏特定于任务的注释语料库。本文提出了一个框架，其中对两个独立的基于 BERT 的模型进行了微调，以识别和分类葡萄牙语文档中的事件。我们将此任务分解为两个子任务。首先，我们使用令牌分类模型来检测事件触发器。为了提取事件参数，我们训练了一个问答模型，该模型查询触发器相应的事件参数角色。鉴于缺乏葡萄牙语事件注释语料库，我们将 ACE-2005 数据集的原始版本（该领域的参考）翻译成葡萄牙语，生成了用于葡萄牙语事件提取的新语料库。为了实现这一目标，我们开发了一个自动翻译管道。我们的框架在触发分类方面获得了 64.4 的 F1 分数，在参数分类设置方面获得了 46.7 的 F1 分数，因此为葡萄牙语中的这些任务提供了新的最先进的参考。

ACE-2005-PT：葡萄牙语事件提取语料库

分类： 计算和语言, 人工智能

作者： Luís Filipe Cunha, Purificação Silvano, Ricardo Campos, Alípio Jorge

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16928v1

摘要： 事件提取是一项 NLP 任务，通常涉及识别事件的中心词（触发器）及其文本中的相关参数。 ACE-2005被广泛认为是该领域的标准语料库。其他语料库（例如 PropBank）主要关注谓词-论元结构的注释，而 ACE-2005 则提供有关整体事件结构和语义的全面信息。然而，其有限的语言覆盖范围限制了其可用性。本文介绍了 ACE-2005-PT，这是一个通过将 ACE-2005 翻译成葡萄牙语（具有欧洲和巴西变体）而创建的语料库。为了加快获取 ACE-2005-PT 的过程，我们依靠自动翻译器。然而，这带来了一些与自动识别原始文本中的多词注释和相应的翻译句子中的多词注释之间的正确对齐相关的挑战。为了实现这一目标，我们开发了一个对齐管道，其中结合了多种对齐技术：词形还原、模糊匹配、同义词匹配、多重翻译和基于 BERT 的单词对齐器。为了测量对齐有效性，语言学家专家对 ACE-2005-PT 语料库中的注释子集进行了手动对齐。然后将该子集与我们的管道结果进行比较，管道结果分别达到了 70.55% 和 87.55% 的精确匹配分数和宽松匹配分数。结果，我们成功生成了葡萄牙语版本的ACE-2005语料库，并已被LDC接受出版。

通过机器学习中的梯度分析推理隐私风险

分类： 机器学习, 人工智能, 密码学和安全, 机器学习

作者： Zhuohang Li, Andrew Lowy, Jing Liu, Toshiaki Koike-Akino, Kieran Parsons, Bradley Malin, Ye Wang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16913v1

摘要： 在分布式学习设置中，模型使用根据潜在敏感用户数据计算出的共享梯度进行迭代更新。虽然之前的工作研究了共享梯度的各种隐私风险，但我们的论文旨在提供一种系统的方法来分析梯度的隐私信息泄漏。我们提出了一个基于游戏的统一框架，涵盖广泛的攻击，包括属性、财产、分布和用户泄露。我们通过对不同数据模式的五个数据集进行广泛的实验，研究对手的不同不确定性如何影响他们的推理能力。我们的结果表明，仅依靠数据聚合来实现分布式学习中针对推理攻击的隐私是无效的。我们进一步评估静态和自适应对手设置下的五种防御类型，即梯度剪枝、符号梯度下降、对抗性扰动、变分信息瓶颈和差分隐私。我们提供了一种信息论观点来分析这些针对梯度推理的防御措施的有效性。最后，我们介绍了一种审计属性推断隐私的方法，通过制作对抗性金丝雀记录来改进最坏情况隐私的经验估计。

GSTAM：具有结构注意力匹配的高效图蒸馏

分类： 机器学习, 人工智能

作者： Arash Rasti-Meymandi, Ahmad Sajedi, Zhaopan Xu, Konstantinos N. Plataniotis

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16871v1

摘要： 图蒸馏已成为一种将大型图数据集缩减为更小、更易于管理且信息丰富的解决方案。现有方法主要针对节点分类，涉及计算密集型过程，并且无法捕获完整图数据集的真实分布。为了解决这些问题，我们引入了具有结构注意力匹配的图蒸馏（GSTAM），这是一种压缩图分类数据集的新方法。 GSTAM 利用 GNN 的注意力图将原始数据集中的结构信息提取到合成图中。结构注意力匹配机制利用了 GNN 优先进行分类的输入图区域，有效地将这些信息提炼到合成图中并提高整体提炼性能。综合实验证明了 GSTAM 相对于现有方法的优越性，在极端冷凝比下实现了 0.45% 至 6.5% 的更好性能，突出了其在推进图分类任务蒸馏中的潜在用途（代码可在 https://github.com/arashrasti96/GSTAM 获取）。

物理信息神经网络和扩展

分类： 机器学习, 人工智能

作者： Maziar Raissi, Paris Perdikaris, Nazanin Ahmadi, George Em Karniadakis

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16806v1

摘要： 在本文中，我们回顾了已成为科学机器学习主要支柱的新方法物理信息神经网络（PINN），介绍了最近的实际扩展，并提供了数据驱动发现控制微分方程的具体示例。

HLogformer：用于表示日志数据的分层转换器

分类： 机器学习, 人工智能

作者： Zhichao Hou, Mina Ghashami, Mikhail Kuznetsov, MohamadAli Torkamani

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16803v1

摘要： Transformer 因其在处理不同数据结构方面的多功能性而获得了广泛赞誉，但它们在记录数据方面的应用仍未得到充分探索。日志数据以其分层、类似字典的结构为特征，在使用传统变压器模型处理时提出了独特的挑战。传统方法通常依赖于手动制作的模板来解析日志，这是一个劳动密集型且缺乏通用性的过程。此外，标准转换器对日志序列的线性处理忽略了日志条目内丰富的嵌套关系，导致次优表示和过多的内存使用。为了解决这些问题，我们引入了 HLogformer，这是一种专为日志数据设计的新型分层转换器框架。 HLogformer 利用日志条目的层次结构来显着降低内存成本并增强表示学习。与将日志数据视为平面序列的传统模型不同，我们的框架以尊重其固有的层次结构的方式处理日志条目。这种方法确保了细粒度细节和更广泛的上下文关系的全面编码。我们的贡献有三个：首先，HLogformer 是第一个为类似字典的日志数据设计动态分层转换器的框架。其次，它极大地降低了与处理大量日志序列相关的内存成本。第三，综合实验表明，HLogformer 可以更有效地编码分层上下文信息，对于合成异常检测和产品推荐等下游任务非常有效。

船舶设计中的生成式人工智能

分类： 机器学习, 人工智能

作者： Sahil Thakur, Navneet V Saxena, Prof Sitikantha Roy

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16798v1

摘要： 船舶设计过程复杂，受船体型式影响很大，约占总成本的70%。传统方法依赖于基于造船原理和工程分析的人为驱动的迭代过程。相比之下，生成式人工智能提出了一种新颖的方法，利用基于机器学习和人工智能的计算算法来优化船体设计。本报告概述了为此目的系统地创建生成式人工智能，包括数据集收集、模型架构选择、训练和验证等步骤。该报告利用由 30,000 个船体形状组成的“SHIP-D”数据集，采用高斯混合模型（GMM）作为生成模型架构。 GMM 提供了一个统计框架来分析数据分布，这对于有效生成创新船舶设计至关重要。总体而言，这种方法有望通过探索更广阔的设计空间并有效整合多学科优化目标来彻底改变船舶设计。

SAM2Point：以零镜头且快速的方式将任何 3D 视频分割为视频

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16768v1

摘要： 我们介绍 SAM2Point，这是一项采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2Point 将任何 3D 数据解释为一系列多向视频，并利用 SAM 2 进行 3D 空间分割，无需进一步训练或 2D-3D 投影。我们的框架支持各种提示类型，包括 3D 点、框和掩模，并且可以泛化到不同的场景，例如 3D 对象、室内场景、室外环境和原始稀疏 LiDAR。对多个 3D 数据集（例如 Objaverse、S3DIS、ScanNet、Semantic3D 和 KITTI）的演示凸显了 SAM2Point 强大的泛化能力。据我们所知，我们提出了 3D 中 SAM 最忠实的实现，这可以作为未来快速 3D 分割研究的起点。在线演示：https://huggingface.co/spaces/ZiyuG/SAM2Point 。代码：https://github.com/ZiyuGuo99/SAM2Point。

ReconX：使用视频扩散模型从稀疏视图重建任何场景

分类： 计算机视觉和模式识别, 人工智能, 图形

作者： Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16767v1

摘要： 3D 场景重建技术的进步已将现实世界中的 2D 图像转换为 3D 模型，从数百张输入照片中生成逼真的 3D 结果。尽管在密集视图重建场景中取得了巨大成功，但从不足的捕获视图渲染详细场景仍然是一个不适定的优化问题，通常会导致看不见的区域出现伪影和扭曲。在本文中，我们提出了 ReconX，一种新颖的 3D 场景重建范例，它将模糊重建挑战重新定义为时间生成任务。关键的见解是释放大型预训练视频扩散模型的强大生成先验，以进行稀疏视图重建。然而，在从预训练模型直接生成的视频帧中很难准确保留 3D 视图一致性。为了解决这个问题，在给定有限的输入视图的情况下，所提出的 ReconX 首先构建全局点云并将其编码到上下文空间中作为 3D 结构条件。在该条件的指导下，视频扩散模型合成既保留细节又表现出高度3D一致性的视频帧，确保了各个视角场景的连贯性。最后，我们通过置信度感知的 3D 高斯泼溅优化方案从生成的视频中恢复 3D 场景。对各种现实世界数据集的广泛实验表明，我们的 ReconX 在质量和通用性方面优于最先进的方法。

基于分数的密度公式，在扩散生成模型中的应用

分类： 机器学习, 人工智能, 可能性, 统计理论, 机器学习, 统计理论

作者： Gen Li, Yuling Yan

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16765v1

摘要： 基于分数的生成模型 (SGM) 彻底改变了生成建模领域，在生成真实且多样化的内容方面取得了前所未有的成功。尽管经验上取得了进展，但为什么优化对数似然的证据下界 (ELBO) 对于训练扩散生成模型（例如 DDPM）有效的理论基础仍然很大程度上未被探索。在本文中，我们通过建立连续时间扩散过程的密度公式来解决这个问题，该公式可以被视为 SGM 中前向过程的连续时间极限。该公式揭示了目标密度和与前向过程的每个步骤相关的得分函数之间的联系。在此基础上，我们证明了训练 DDPM 的优化目标的最小化值几乎与真实目标一致，为使用 ELBO 优化 DDPM 提供了理论基础。此外，我们还对分数匹配正则化在训练 GAN 中的作用、ELBO 在扩散分类器中的使用以及最近提出的扩散损失提供了新的见解。

剖析分布外检测和开集识别：方法和基准的批判性分析

分类： 计算机视觉和模式识别, 人工智能

作者： Hongjun Wang, Sagar Vaze, Kai Han

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16757v1

摘要： 检测测试时间分布变化已成为安全部署机器学习模型的一项关键功能，近年来该问题以各种形式得到解决。在本文中，我们的目标是提供社区内两个最大子领域的综合视图：分布外（OOD）检测和开放集识别（OSR）。特别是，我们的目标是对跨环境的不同方法进行严格的实证分析，并为从业者和研究人员提供可行的结论。具体来说，我们做出以下贡献：（i）我们在 OOD 检测和 OSR 设置中的最先进方法之间进行严格的交叉评估，并确定它们的方法性能之间的强相关性； (ii) 我们提出了一个新的大规模基准设置，我们建议更好地解决 OOD 检测和 OSR 解决的问题，并重新评估该设置中最先进的 OOD 检测和 OSR 方法； (iii) 我们令人惊讶地发现，在标准基准（异常值暴露）上表现最好的方法在大规模测试时会遇到困难，而对深层特征大小敏感的评分规则始终显示出希望； (iv)我们进行实证分析来解释这些现象并突出未来研究的方向。代码：\url{https://github.com/Visual-AI/Dissect-OOD-OSR}

评估在线极端主义研究的大型语言模型：识别、解释和新知识

分类： 计算和语言, 人工智能

作者： Beidi Dong, Jin R. Lee, Ziwei Zhu, Balassubramanian Srinivasan

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16749v1

摘要： 美国暴力极端主义大幅增加，因此需要自动化工具来检测和限制极端主义意识形态在网上的传播。本研究评估了 Transformers 双向编码器表示 (BERT) 和生成式预训练 Transformers (GPT) 在检测和分类在线国内极端主义帖子方面的性能。我们收集了包含“极右”和“极左”意识形态关键词的社交媒体帖子，并手动将其标记为极端主义或非极端主义。根据工作定义框架，极端主义职位被进一步分类为极端主义的五个促成因素中的一个或多个。 BERT 模型的性能是根据训练数据大小和类别之间的知识转移来评估的。我们还使用不同的提示比较了 GPT 3.5 和 GPT 4 模型的性能：朴素、外行定义、角色扮演和专业定义。结果表明，性能最佳的 GPT 模型优于性能最佳的 BERT 模型，更详细的提示通常会产生更好的结果，但是，过于复杂的提示可能会损害性能，GPT 3.5 在对极左极端主义帖子进行分类方面表现更好，而 GPT 4 在对极端主义帖子进行分类方面表现更好。 -以 GPT 模型为代表的大型语言模型在在线极端主义分类任务中具有巨大的潜力，在零样本环境中超越传统的 BERT 模型，未来的研究应该探索优化 GPT 模型以进行极端主义检测和预测的人机交互。分类任务，以开发更有效（例如更快、更少努力）和有效（例如更少错误）的方法来识别极端主义内容。

更小、更弱、但更好：通过计算最优采样训练 LLM Reasoners

分类： 计算和语言, 人工智能

作者： Hritik Bansal, Arian Hosseini, Rishabh Agarwal, Vinh Q. Tran, Mehran Kazemi

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16737v1

摘要： 对来自强语言模型 (LM) 的高质量合成数据进行训练是提高 LM 推理性能的常见策略。在这项工作中，我们重新审视该策略在固定推理预算（例如 FLOP）下是否是计算最优的。为此，我们研究了使用更强但更昂贵 (SE) 模型与更弱但更便宜 (WC) 模型生成合成数据之间的权衡。我们通过三个关键指标评估生成的数据：覆盖率、多样性和误报率，并表明来自 WC 模型的数据可能具有更高的覆盖率和多样性，但也表现出更高的误报率。然后，我们在不同设置中根据来自 SE 和 WC 模型的数据对 LM 进行微调：知识蒸馏、自我改进以及一种新颖的从弱到强的改进设置，其中较弱的 LM 向较强的 LM 教授推理。我们的研究结果表明，在多个基准以及 WC 和 SE 模型的多种选择中，针对 WC 生成的数据进行微调的模型始终优于针对 SE 生成的数据进行训练的模型。这些结果挑战了依赖 SE 模型来生成合成数据的普遍做法，表明 WC 可能是训练高级 LM 推理器的计算最佳方法。

Mini-Omni：语言模型可以在流媒体中一边听一边思考

分类： 人工智能, 计算和语言, 人机交互, 机器学习, 声音, 音频和语音处理

作者： Zhifei Xie, Changqiao Wu

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16725v1

摘要： 语言模型的最新进展取得了重大进展。 GPT-4o作为一个新的里程碑，实现了与人类的实时对话，展现出接近人类自然的流畅性。这种人机交互需要模型能够直接使用音频模态进行推理并生成流式输出。然而，这仍然超出了当前学术模型的能力范围，因为它们通常依赖于额外的 TTS 系统进行语音合成，从而导致不良的延迟。本文介绍了 Mini-Omni，一种基于音频的端到端对话模型，能够进行实时语音交互。为了实现这种能力，我们提出了一种文本指令的语音生成方法，以及推理过程中的批量并行策略，以进一步提高性能。我们的方法还有助于以最小的退化保留原始模型的语言能力，使其他作品能够建立实时交互能力。我们将这种训练方法称为“Any Model Can Talk”。我们还引入了 VoiceAssistant-400K 数据集来微调针对语音输出优化的模型。据我们所知，Mini-Omni 是第一个完全端到端、开源的实时语音交互模型，为未来的研究提供了宝贵的潜力。

针对 TSP 等基于边缘的图问题的出色架构

分类： 机器学习, 人工智能

作者： Attila Lischka, Jiaming Wu, Morteza Haghir Chehreghani, Balázs Kulcsár

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16717v1

摘要： 在过去的几年中，人们提出了许多基于神经网络的方法来解决组合优化问题，例如路由问题。其中许多方法都基于图神经网络（GNN）或相关变压器，在表示路由问题的欧几里德坐标上运行。然而，GNN 本质上不太适合在密集图上运行，例如在路由问题中。此外，在欧几里德坐标上运行的模型不能应用于现实世界中经常出现的非欧几里德版本的路由问题。为了克服这些限制，我们提出了一种新颖的与 GNN 相关的基于边缘的神经模型，称为图边缘注意力网络（GREAT）。我们评估了 GREAT 在边缘分类任务中的性能，以预测旅行商问题 (TSP) 中的最佳边缘。我们可以使用这样一个经过训练的 GREAT 模型来生成稀疏的 TSP 图实例，只保留 GREAT 认为有希望的边缘。与其他非基于学习的稀疏 TSP 图的方法相比，GREAT 可以生成非常稀疏的图，同时保留大部分最佳边缘。此外，我们构建了一个基于强化学习的 GREAT 框架，并将其应用于欧几里德和非欧几里德非对称 TSP。该框架取得了最先进的结果。

Jina-ColBERT-v2：通用多语言后期交互检索器

分类： 信息检索, 人工智能, 计算和语言, 68T50, I.2.7

作者： Rohan Jha, Bo Wang, Michael Günther, Saba Sturua, Mohammad Kalim Akram, Han Xiao

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16672v1

摘要： 事实证明，多向量密集模型（例如 ColBERT）在信息检索方面非常有效。 ColBERT 的后期交互评分近似于交叉编码器中看到的联合查询文档注意力，同时由于其双编码器架构以及最近在索引和搜索方面的优化，保持了更接近传统密集检索模型的推理效率。在本文中，我们介绍了对 ColBERT 模型架构和训练流程的多项改进，利用了在更成熟的单向量嵌入模型范式中成功的技术，特别是那些适合异构多语言数据的技术。我们的新模型 Jina-ColBERT-v2 在一系列英语和多语言检索任务中表现出强大的性能，同时与之前的模型相比，存储需求减少了高达 50%。

大语言模型监督微调中的熵分布匹配：更少的过度拟合和更好的多样性

分类： 机器学习, 人工智能

作者： Ziniu Li, Congliang Chen, Tian Xu, Zeyu Qin, Jiancong Xiao, Ruoyu Sun, Zhi-Quan Luo

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16673v1

摘要： 大型语言模型依靠监督微调（SFT）来专门处理下游任务。交叉熵（CE）损失是 SFT 中事实上的选择，但由于其对数据分布的积极更新，常常导致过度拟合和有限的输出多样性。本文旨在通过引入最大熵原理来解决这些问题，该原理有利于具有更平坦分布但仍能有效捕获数据的模型。具体来说，我们开发了一种称为 GEM 的新分布匹配方法，该方法使用熵正则化器解决反向 Kullback-Leibler 散度最小化问题。对于 Llama-3-8B 模型的 SFT，GEM 在多个方面优于 CE。首先，当应用于 UltraFeedback 数据集以开发一般指令跟踪能力时，GEM 表现出减少的过度拟合，这可以通过 IFEval 基准上较低的困惑度和更好的性能来证明。此外，GEM 还增强了输出多样性，即使没有特定领域的数据，使用 best-of-n 采样，数学推理和代码生成任务的性能也可提升高达 7 个百分点。其次，当使用特定领域的数据集进行数学推理和代码生成的微调时，与 CE 相比，GEM 还表现出较少的过度拟合和最多 10 个点的改进。

迭代图对齐

分类： 机器学习, 人工智能, 计算和语言, 多代理系统

作者： Fangyuan Yu, Hardeep Singh Arora, Matt Johnson

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16667v1

摘要： 通过压缩不同的叙述，大语言模型超越了记忆，通过捕捉普遍的因果关系来获得情报。然而，由于训练数据多样性不足，它们面临局部“代表性差距”，限制了它们在现实世界中的效用，特别是在需要严格遵守规则的任务中。依赖大量人工注释的传统比对方法效率低下且不可扩展。最近的自我调整技术也存在不足，因为它们通常依赖于基于自我选择的提示和基于记忆的学习。为了解决这些问题，我们引入了迭代图对齐（IGA），这是一种无注释的基于规则的对齐算法。教师模型 (VLM) 采用迭代图提示 (IGP) 来创建逻辑图和参考答案。学生模型 (LLM) 通过尝试将其响应与这些参考文献保持一致，并与辅助模型协作生成不同的答案，从而确定本地知识差距。然后将这些对齐的响应用于迭代监督微调（SFT）。我们对五个基于规则的场景的评估证明了 IGP 的有效性，Claude Sonnet 3.5 的对齐改进为 73.12%，而 Llama3-8B-Instruct 的对齐改进为 86.20%，在基于规则的对齐方面优于 Claude Sonnet 3.5。

DriveGenVLM：基于视觉语言模型的自动驾驶的真实视频生成

分类： 计算机视觉和模式识别, 人工智能

作者： Yongjie Fu, Anmol Jain, Xuan Di, Xu Chen, Zhaobin Mo

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16647v1

摘要： 自动驾驶技术的进步需要越来越复杂的方法来理解和预测现实世界的场景。视觉语言模型 (VLM) 正在成为革命性工具，具有影响自动驾驶的巨大潜力。在本文中，我们提出了 DriveGenVLM 框架来生成驾驶视频并使用 VLM 来理解它们。为了实现这一目标，我们采用了基于去噪扩散概率模型（DDPM）的视频生成框架，旨在预测现实世界的视频序列。然后，我们通过采用一种称为“自我中心视频高效上下文学习”(EILEV) 的预训练模型来探索生成的视频在 VLM 中使用的充分性。扩散模型使用 Waymo 开放数据集进行训练，并使用 Fr'echet 视频距离 (FVD) 分数进行评估，以确保生成视频的质量和真实感。 EILEV 为这些生成的视频提供了相应的旁白，这在自动驾驶领域可能是有益的。这些旁白可以增强对交通场景的理解、辅助导航并提高规划能力。 DriveGenVLM 框架中视频生成与 VLM 的集成代表着在利用先进的 AI 模型应对自动驾驶中的复杂挑战方面向前迈出了重要一步。

RLCP：一种基于强化学习的文本到图像扩散模型的版权保护方法

分类： 计算机与社会, 人工智能, 密码学和安全

作者： Zhuan Shi, Jing Yan, Xiaoli Tang, Lingjuan Lyu, Boi Faltings

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16634v1

摘要： 文本到图像生成模型的日益复杂给定义和执行版权侵权标准和保护带来了复杂的挑战。由于缺乏标准化指标以及解决扩散模型中版权侵权问题固有的复杂性，现有的方法（例如水印和数据集重复数据删除）无法提供全面的解决方案。为了应对这些挑战，我们提出了一种用于文本到图像扩散模型的基于强化学习的版权保护（RLCP）方法，该方法可以最大限度地减少版权侵权内容的生成，同时保持模型生成的数据集的质量。我们的方法首先引入一种基于版权法和侵权法院先例的新颖版权衡量标准。然后，我们利用去噪扩散策略优化（DDPO）框架来指导模型完成多步骤决策过程，并使用包含我们提出的版权指标的奖励函数对其进行优化。此外，我们使用 KL 散度作为正则化项来减轻某些故障模式并稳定 RL 微调。在 3 个版权和非版权图像的混合数据集上进行的实验表明，我们的方法在保持图像质量的同时显着降低了版权侵权风险。

使用机器学习优化仓库机器人的自动拣选系统

分类： 机器人技术, 人工智能

作者： Keqin Li, Jin Wang, Xubo Wu, Xirui Peng, Runmian Chang, Xiaoyu Deng, Yiwen Kang, Yue Yang, Fanghao Ni, Bo Hong

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16633v1

摘要： 随着全球电子商务的快速增长，物流行业对自动化的需求不断增加。本研究主要针对仓库中的自动化拣选系统，利用深度学习和强化学习技术来提高拣选效率和准确性，同时降低系统故障率。通过实证分析，我们证明了这些技术在提高机器人拣选性能和复杂环境适应性方面的有效性。结果表明，集成的机器学习模型显着优于传统方法，有效解决高峰订单处理的挑战，减少操作错误，提高整体物流效率。此外，通过分析环境因素，本研究进一步优化系统设计，以确保在变化条件下高效稳定运行。该研究不仅为物流自动化提供了创新的解决方案，也为未来的技术发展和应用提供了理论和实证基础。

漩涡网络

分类： 神经和进化计算, 人工智能

作者： Matthew Evanusa, Cornelia Fermüller, Yiannis Aloimonos

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16632v1

摘要： 人工神经网络一直在努力设计一种将工作记忆纳入神经网络的方法。虽然“长期”记忆可以被视为学习的权重，但工作记忆可能更多地包含动态活动，这是前馈模型所缺少的。当前最先进的模型（例如 Transformer）倾向于通过完全忽略工作记忆并简单地将序列作为整个数据来处理来“解决”这个问题；然而，这意味着网络无法以在线方式处理序列，并导致内存需求的巨大爆炸。在这里，受到控制、存储计算、深度学习和循环神经网络组合的启发，我们提供了一种替代范式，它将循环网络的优势与前馈神经网络的模式匹配能力相结合，我们将其称为“ textit{Maelstrom Networks} 范例。这种范式使循环组件 - \textit{Maelstrom} - 未被学习，并将学习卸载到强大的前馈网络。这允许网络在不展开网络的情况下利用前馈训练的强度，并允许在新的神经形态硬件中实现存储器。它赋予神经网络顺序记忆，利用数据在时域中因果组织的归纳偏差，并为网络注入代表代理“自我”的状态，在环境中移动。这也可能导致持续学习，网络模块化并“保护”免受新数据覆盖。除了帮助解决困扰当前非时间深度网络的这些性能问题之外，这最终还可能导致赋予人工网络一种“自我”感。

大语言模型生成结构上现实的社交网络，但高估了政治同质性

分类： 计算机与社会, 人工智能, 社交和信息网络

作者： Serina Chang, Alicja Chaszczewicz, Emma Wang, Maya Josifovska, Emma Pierson, Jure Leskovec

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16629v1

摘要： 生成社交网络对于许多应用至关重要，例如流行病建模和社交模拟。先前的方法要么涉及深度学习模型（需要许多观察到的网络进行训练），要么涉及程式化模型（其真实性和灵活性有限）。相比之下，大语言模型提供了零样本和灵活网络生成的潜力。然而，两个关键问题是：(1) 大语言模型生成的网络是否现实，(2) 考虑到人口统计在形成社会关系方面的重要性，偏见的风险是什么？为了回答这些问题，我们开发了三种网络生成的提示方法，并将生成的网络与真实的社交网络进行比较。我们发现，与一次构建整个网络的“全局”方法相比，使用“本地”方法生成更真实的网络，其中大语言模型一次为一个角色构建关系。我们还发现生成的网络在许多特征上与真实网络相匹配，包括密度、聚类、社区结构和程度。然而，我们发现大语言模型比所有其他类型的同质性更强调政治同质性，并且相对于现实世界的衡量标准高估了政治同质性。

为分心驾驶员检测注入辅助知识

分类： 计算机视觉和模式识别, 人工智能, 机器学习, I.2.0

作者： Ishwar B Balappanawar, Ashmit Chamoli, Ruwan Wickramarachchi, Aditya Mishra, Ponnurangam Kumaraguru, Amit P. Sheth

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16621v1

摘要： 分心驾驶是全球道路事故的主要原因。分心驾驶的识别涉及从车载摄像头输入中可靠地检测和分类各种形式的驾驶员分心（例如，发短信、吃东西或使用车载设备），以增强道路安全。这项任务具有挑战性，因为需要强大的模型来概括不同的驾驶员行为，而不需要大量带注释的数据集。在本文中，我们提出了 KiD3，这是一种通过注入有关场景中实体之间的语义关系和驾驶员姿势的结构配置的辅助知识来进行分心驾驶员检测（DDD）的新方法。具体来说，我们构建了一个统一的框架，将场景图、驾驶员姿势信息与视频帧中的视觉线索集成在一起，以创建驾驶员动作的整体表示。我们的结果表明，KiD3 比仅视觉的准确率提高了 13.64%通过将这些辅助知识与视觉信息相结合来建立基线。

超维向量 Tsetlin 机及其在序列学习和生成中的应用

分类： 机器学习, 人工智能

作者： Christian D. Blakely

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16620v1

摘要： 我们构建了一个用于学习和生成序列数据的两层模型，该模型计算速度快，并且与普通 Tsetlin 机器具有竞争力，增加了许多优势。通过使用超维向量计算（HVC）代数和 Tsetlin 机器子句结构，我们证明两者的结合继承了 HVC 数据编码和解码的通用性以及 Tsetlin 机器的快速可解释性质，从而产生了强大的机器学习模型。我们将该方法应用于两个领域，即预测、生成新序列和分类。对于后者，我们得出整个 UCR 时间序列档案的结果，并与标准基准进行比较，以了解该方法在时间序列分类方面的竞争情况。

检查大型语言模型生成的代码

分类： 软件工程, 人工智能, I.2.2

作者： Robin Beer, Alexander Feix, Tim Guttzeit, Tamara Muras, Vincent Müller, Maurice Rauscher, Florian Schäffler, Welf Löwe

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16601v1

摘要： ChatGPT 和 Copilot 等大型语言模型 (LLM) 正在通过自动生成代码来改变软件开发，并且可以说可以实现快速原型设计、支持教育并提高生产力。因此，生成的代码的正确性和质量应该与手动编写的代码相当。为了评估大语言模型在生成高质量正确代码方面的现状，我们使用 ChatGPT 和 Copilot 进行了对照实验：我们让大语言模型用 Java 和 Python 生成简单的算法以及相应的单元测试，并评估正确性和质量（覆盖率））生成的（测试）代码。我们观察到大语言模型之间、语言之间、算法和测试代码之间以及随着时间的推移存在显着差异。本文报告了这些结果以及实验方法，允许随着时间的推移对更多算法、语言和大语言模型进行重复和可比较的评估。

通过情境分析和说服策略增强狼人游戏中的对话生成

分类： 计算和语言, 人工智能

作者： Zhiyang Qi, Michimasa Inaba

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16586v1

摘要： 自然语言处理的最新进展，特别是像 GPT-4 这样的大型语言模型 (LLM)，显着增强了对话系统，使它们能够生成更自然、更流畅的对话。尽管取得了这些进步，挑战仍然存在，例如管理连续对话、记忆保留和最大限度地减少幻觉。 AIWolfDial2024通过采用狼人游戏（一种不完全信息游戏）来测试大语言模型在复杂交互环境中的能力来应对这些挑战。本文介绍了一种基于大语言模型的狼人游戏人工智能，其中每个角色都得到情境分析的支持，以帮助生成响应。此外，对于狼人角色，还采用了逻辑诉求、可信度诉求、情感诉求等多种说服策略，有效说服其他玩家认同其行为。

寻求多模态表示学习中的充分性和必然性因果特征

分类： 机器学习, 人工智能

作者： Boyu Chen, Junjie Liu, Zhu Li, Mengyue yang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16577v1

摘要： 学习具有高必然原因和充分原因概率 (PNS) 的表示已被证明可以增强深度学习模型的能力。此任务涉及识别充分（保证结果）和必要（没有这些结果就不可能发生）的因果特征。然而，当前的研究主要集中在单模态数据，将 PNS 学习扩展到多模态设置提出了重大挑战。由于需要在多模态背景下重新考虑 PNS 可识别性、外生性和单调性的条件，其中充分且必要的因果特征分布在不同的模态中，因此出现了挑战。为了解决这个问题，我们首先提出将多模态表示概念化为包含模态不变和模态特定组件。然后，我们分析每个组件的 PNS 可识别性，同时确保非平凡的 PNS 估计。最后，我们制定了易于处理的优化目标，使多模态模型能够学习高 PNS 表示，从而提高其预测性能。实验证明了我们的方法对合成数据和真实数据的有效性。

SFR-GNN：针对结构攻击的简单快速的鲁棒 GNN

分类： 机器学习, 人工智能

作者： Xing Ai, Guanyu Zhu, Yulin Zhu, Yu Zheng, Gaolei Li, Jianhua Li, Kai Zhou

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16537v1

摘要： 图神经网络（GNN）在图结构数据方面表现出了值得称赞的性能。然而，GNN 通常容易受到对抗性结构攻击，因为嵌入生成依赖于图拓扑。现有的工作致力于净化恶意修改的结构或应用自适应聚合，从而增强对抗性结构攻击的鲁棒性。由于缺乏有关修改结构的先验知识，防御者不可避免地要消耗大量计算成本。为此，我们提出了一种有效的防御方法，称为简单快速鲁棒图神经网络（SFR-GNN），并由互信息理论支持。 SFR-GNN首先使用节点属性预训练GNN模型，然后以对比学习的方式在修改后的图上对其进行微调，无需纯化修改结构和自适应聚合，从而获得巨大的效率提升。因此，与先进的鲁棒模型相比，SFR-GNN 的加速速度提高了 24%--162%，展示了节点分类任务的卓越鲁棒性。

通过任务启发式建模的自适应变分持续学习

分类： 机器学习, 人工智能

作者： Fan Yang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16517v1

摘要： 变分持续学习 (VCL) 是一种交钥匙学习算法，在最佳持续学习模型中具有最先进的性能。在我们的工作中，我们探索了广义变分连续学习（GVCL）模型的扩展，名为 AutoVCL，它将任务启发式的知情学习和模型优化结合起来。我们证明，我们的模型优于具有固定超参数的标准 GVCL，这得益于根据传入任务与先前任务相比的难度和相似性自动调整超参数。

设备端人工智能：时间序列中 Transformer 的量化感知训练

分类： 机器学习, 人工智能

作者： Tianheng Ling, Gregor Schiele

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16495v1

摘要： 普适计算中时间序列的人工智能 (AI) 模型变得越来越大、越来越复杂。 Transformer 模型是迄今为止这些 AI 模型中最引人注目的。然而，当在资源有限的传感器设备上部署如此庞大的模型时，很难获得所需的性能。我的研究重点是优化时间序列预测任务的 Transformer 模型。优化后的模型将作为硬件加速器部署在嵌入式现场可编程门阵列 (FPGA) 上。我将研究将量化感知训练应用于 Transformer 模型的影响，以减少其大小和运行时内存占用，同时最大限度地发挥 FPGA 的优势。

通过图卷积网络和 Transformer 架构中的优化参数集成识别人类活动的特征

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Mohammad Belal, Taimur Hassan, Abdelfatah Hassan, Nael Alsheikh, Noureldin Elhendawi, Irfan Hussain

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16442v1

摘要： 人类活动识别是利用计算机视觉、机器视觉和深度学习技术对人类行为进行分类的一个主要研究领域。深度学习领域已经取得了重大进展，其架构在捕捉人类动态方面非常有效。本研究强调特征融合对活动识别准确性的影响。该技术解决了传统模型的局限性，传统模型由于理解空间和时间特征的能力有限而在识别活动方面面临困难。该技术采用从四个公开可用的数据集获得的感官数据：HuGaDB、PKU-MMD、LARa 和 TUG。使用这些数据集评估了两个深度学习模型，特别是 Transformer 模型和参数优化图卷积网络 (PO-GCN) 的准确性和 F1 分数。特征融合技术集成了两个模型的最终层特征并将其输入到分类器中。经验证据表明 PO-GCN 在活动识别方面优于标准模型。 HuGaDB 的准确性提高了 2.3%，F1 分数提高了 2.2%。 TUG 显示准确度提高了 5%，F1 分数提高了 0.5%。另一方面，LARa 和 PKU-MMD 的准确率较低，分别为 64% 和 69%。这表明特征的集成增强了 Transformer 模型和 PO-GCN 的性能。

使用条件混合网络的无梯度变分学习

分类： 机器学习, 人工智能, 机器学习

作者： Conor Heins, Hao Wu, Dimitrije Markovic, Alexander Tschantz, Jeff Beck, Christopher Buckley

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16429v1

摘要： 在监督学习中，平衡计算效率和强大的预测性能至关重要，特别是对于关键应用程序。标准深度学习模型虽然准确且可扩展，但通常缺乏校准预测和不确定性量化等概率特征。贝叶斯方法解决了这些问题，但随着模型和数据复杂性的增加，计算成本可能会很高。先前的工作表明，快速变分方法可以通过消除梯度计算或采样的需要来降低贝叶斯方法的计算要求，但通常仅限于简单模型。我们证明，条件混合网络（CMN）是专家混合（MoE）模型的概率变体，适用于快速、无梯度推理，并且可以解决复杂的分类任务。 CMN 采用线性专家和 softmax 门控网络。通过利用条件共轭和 P'olya-Gamma 增强，我们为线性专家和门网络的权重提供高斯似然。这可以使用坐标上升变分推理 (CAVI) 实现高效的变分更新，从而避免传统的基于梯度的优化。我们通过根据 UCI 存储库中的标准基准训练两层 CMN 来验证这种方法。与使用反向传播的最大似然估计 (MLE) 相比，我们的方法 CAVI-CMN 实现了具有竞争力且通常更优越的预测精度，同时保持了具有竞争力的运行时间和所有模型参数的完整后验分布。此外，随着输入大小或专家数量的增加，计算时间可与 MLE 和其他基于梯度的解决方案（如黑盒变分推理 (BBVI)）竞争，这使得 CAVI-CMN 成为深度、快速和无梯度的有前途的工具贝叶斯网络。

COIN：用于人体和相机运动估计的控制修复扩散先验

分类： 计算机视觉和模式识别, 人工智能

作者： Jiefeng Li, Ye Yuan, Davis Rempe, Haotian Zhang, Pavlo Molchanov, Cewu Lu, Jan Kautz, Umar Iqbal

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16426v1

摘要： 由于人体和摄像机运动的纠缠，从移动摄像机估计全局人体运动具有挑战性。为了减轻这种模糊性，现有方法利用学习的人类运动先验，但这通常会导致过度平滑的运动和未对齐的 2D 投影。为了解决这个问题，我们提出了 COIN，一种控制修复运动扩散先验，可以实现细粒度控制来解开人类和摄像机的运动。尽管预先训练的运动扩散模型编码了丰富的运动先验，但我们发现利用这些知识来指导 RGB 视频的全局运动估计并不简单。 COIN 引入了一种新颖的控制修复分数蒸馏采样方法，以确保联合优化框架内的扩散先验的对齐良好、一致且高质量的运动。此外，我们引入了一种新的人类场景关系损失，通过强制人类、相机和场景之间的一致性来减轻尺度模糊性。在三个具有挑战性的基准上进行的实验证明了 COIN 的有效性，它在全局人体运动估计和相机运动估计方面优于最先进的方法。作为说明性示例，COIN 在 RICH 数据集上的世界关节位置误差 (W-MPJPE) 方面比最先进的方法高出 33%。

傅立叶光谱物理通知神经网络：高效且低内存的 PINN

分类： 机器学习, 人工智能, 数值分析, 数值分析, 计算物理

作者： Tianchi Yu, Yiming Qi, Ivan Oseledets, Shiyi Chen

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16414v1

摘要： 随着对通过物理信息神经网络 (PINN) 求解偏微分方程的研究不断增多，需要更准确、更高效的 PINN 来满足科学计算的实际需求。当前 PINN 的瓶颈之一是通过自动微分计算高阶导数，这通常需要大量的计算资源。在本文中，我们专注于消除空间导数的自动微分，并提出一种基于谱的神经网络，用乘法代替微分算子。与 PINN 相比，我们的方法需要更低的内存和更短的训练时间。由于谱基础的指数收敛，我们的方法更加准确。此外，为了处理物理域和光谱域之间的不同情况，我们提供了两种通过光谱信息来训练网络的策略。通过一系列综合实验，我们验证了我们提出的网络的上述优点。

DetectBERT：迈向完整的应用程序级表示学习以检测 Android 恶意软件

分类： 软件工程, 人工智能, 密码学和安全

作者： Tiezhu Sun, Nadia Daoudi, Kisub Kim, Kevin Allix, Tegawendé F. Bissyandé, Jacques Klein

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16353v1

摘要： 机器学习和深度学习的最新进展显着改进了 Android 恶意软件检测，但许多方法仍然依赖于基本的静态分析、字节码或函数调用图，而这些通常无法捕获复杂的恶意行为。 DexBERT 是一种专为 Android 表示学习而定制的预训练类 BERT 模型，通过分析从 APK 中提取的 Smali 代码来丰富类级表示。然而，它的功能受到无法同时处理多个 Smali 类的限制。本文介绍了 DetectBERT，它将相关多实例学习 (c-MIL) 与 DexBERT 相集成，以处理 Android 恶意软件的高维性和可变性，从而实现有效的应用程序级检测。通过将类级特征视为 MIL 包中的实例，DetectBERT 将它们聚合成全面的应用程序级表示。我们的评估表明，DetectBERT 不仅超越了现有的最先进的检测方法，而且还适应不断发展的恶意软件威胁。此外，DetectBERT 框架的多功能性在应用程序级分析和其他软件工程任务中具有更广泛的应用前景，为研究和开发提供了新的途径。

通过综合多模式学习方法实现阿尔茨海默氏病的稳健早期检测

分类： 计算机视觉和模式识别, 人工智能

作者： Yifei Chen, Shenghao Zhu, Zhaojie Fang, Chang Liu, Binfeng Zou, Yuhe Wang, Shuo Chang, Fan Jia, Feiwei Qin, Jin Fan, Yong Peng, Changmiao Wang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16343v1

摘要： 阿尔茨海默病 (AD) 是一种复杂的神经退行性疾病，其特征是记忆丧失、执行功能障碍和性格改变。由于症状微妙且表现多样，早期诊断具有挑战性，传统的单峰诊断方法由于范围有限，常常导致误诊。这项研究引入了一种先进的多模式分类模型，该模型整合了临床、认知、神经影像和脑电图数据，以提高诊断准确性。该模型将特征标记器与表格数据编码架构相结合，并利用 TimesBlock 模块捕获脑电图 (EEG) 数据中复杂的时间模式。通过采用跨模态注意力聚合模块，该模型有效地将磁共振成像 (MRI) 空间信息与脑电图时间数据融合，显着提高了 AD、轻度认知障碍和正常认知之间的区分度。同时，我们构建了第一个 AD 分类数据集，其中包括三种模式：EEG、MRI 和表格数据。我们的创新方法旨在促进早期诊断和干预，从而有可能减缓 AD 的进展。源代码和我们的私有 ADMC 数据集可在 https://github.com/JustlfC03/MSTNet 上获取。

利用综合数据自我改进扩散模型

分类： 机器学习, 人工智能

作者： Sina Alemohammad, Ahmed Imtiaz Humayun, Shruti Agarwal, John Collomosse, Richard Baraniuk

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16333v1

摘要： 人工智能 (AI) 世界正在耗尽用于训练日益庞大的生成模型的真实数据，导致合成数据训练的压力越来越大。不幸的是，使用当前或过去一代模型的合成数据训练新的生成模型会产生自噬（自消耗）循环，从而降低合成数据的质量和/或多样性，这被称为模型自噬紊乱（MAD）和模型崩溃。当前关于模型自噬的想法建议避免使用合成数据进行模型训练，以免系统恶化为疯狂。在本文中，我们采取不同的策略，以不同于真实数据的方式处理合成数据。利用合成数据进行自我改进扩散模型（SIMS）是一种新的扩散模型训练概念，它使用自合成数据在生成过程中提供负向指导，引导模型的生成过程远离非理想的合成数据流形，转向非理想的合成数据流形。真实的数据分布。我们证明 SIMS 具有自我完善的能力；它基于 CIFAR-10 和 ImageNet-64 生成的 Fr'echet 起始距离 (FID) 指标创造了新记录，并在 FFHQ-64 和 ImageNet-512 上取得了有竞争力的结果。此外，据我们所知，SIMS 是第一个预防性生成人工智能算法，可以在自我生成的合成数据上进行迭代训练，而不会陷入疯狂。另外，SIMS 可以调整扩散模型的合成数据分布，以匹配任何所需的域内目标分布，从而帮助减轻偏差并确保公平性。

引导推理：非技术介绍

分类： 人工智能, 人机交互

作者： Gregor Betz

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16331v1

摘要： 我们介绍引导推理的概念和默认实现。多智能体系统是一种引导推理系统，当且仅当一个智能体（指南）主要与其他智能体交互以提高推理质量。我们用非技术术语描述 Logikon 引导推理的默认实现。这是一个动态文档，我们将逐渐通过更详细的信息和示例来丰富它。代码：https://github.com/logikon-ai/logikon

FA-YOLO：基于FMDS和AGMF模块的高效特征选择YOLO改进算法研究

分类： 计算机视觉和模式识别, 人工智能

作者： Yukang Huo, Mingyuan Yao, Qingbin Tian, Tonghao Wang, Ruifeng Wang, Haihua Wang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16313v1

摘要： 在过去的几年里，YOLO 系列模型已成为目标检测领域的主导方法之一。许多研究通过修改其架构、提高数据质量和开发新的损失函数来改进这些基线模型。然而，当前模型在处理特征图方面仍然存在缺陷，例如忽视跨尺度特征的融合以及缺乏动态特征调整能力的静态融合方法。针对这些问题，本文提出了一种高效的细粒度多尺度动态选择模块（FMDS模块），该模块在细粒度多尺度特征图上应用了更有效的动态特征选择和融合方法，显着提高了检测精度复杂环境下的小型、中型和大型目标。此外，本文提出了一种自适应门控多分支焦点融合模块（AGMF模块），该模块利用多个并行分支对门控单元分支、FMDS模块分支和TripletAttention分支捕获的各种特征进行互补融合。这种方法进一步增强了特征融合的全面性、多样性和完整性。本文将FMDS模块、AGMF模块集成到Yolov9中，开发了一种新颖的目标检测模型，命名为FA-YOLO。大量实验结果表明，在相同的实验条件下，FA-YOLO 在 PASCAL VOC 2007 数据集上实现了 66.1% 的平均精度（mAP），比 YOLOv9 的 65.1% 提高了 1.0%。此外，FA-YOLO对小、中、大目标的检测准确率分别为44.1%、54.6%和70.8%，相比YOLOv9的42.1%、51.5%分别提高了2.0%、3.1%和0.9%和 69.9%。

通过加性高斯过程进行高维控制系统的安全贝叶斯优化

分类： 机器人技术, 人工智能

作者： Hongxuan Wang, Xiaocong Li, Adrish Bhaumik, Prahlad Vadakkepat

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16307v1

摘要： 控制器调整和优化一直是机器人和机电系统中最基本的问题之一。传统的方法通常是基于模型的，但其性能很大程度上依赖于系统的精确数学模型。在具有复杂动态的控制应用中，获得精确的模型通常具有挑战性，这导致我们采用数据驱动的方法。虽然许多研究人员已经探索了优化单个控制器，但当涉及多个控制器时，安全有效地获得最佳控制器参数仍然是一个挑战。在本文中，我们提出了一种基于加性高斯过程的高维安全贝叶斯优化方法，以同时安全地优化多个控制器。加法高斯核取代了传统的平方指数核或 Mat'ern 核，提高了高斯处理更新未知函数信息的效率。在永磁同步电机（PMSM）上的实验结果表明，与现有的安全贝叶斯优化算法相比，我们的方法可以在保证安全性的同时更有效地获得最优参数。

语言模型物理学：第 2.2 部分，如何从小学数学问题的错误中学习

分类： 计算和语言, 人工智能, 机器学习

作者： Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16293v1

摘要： 语言模型在解决推理任务方面表现出了卓越的性能；然而，即使是最强大的模型也偶尔会犯推理错误。最近，有一些旨在提高推理准确性的积极研究，特别是通过使用预训练的语言模型通过多轮提示来“自我纠正”错误。在本文中，我们遵循这一工作思路，但重点是了解将“纠错”数据直接合并到预训练阶段的有用性。该数据包含错误的求解步骤以及随后的更正。使用合成数学数据集，我们显示了有希望的结果：与相同错误量的预训练相比，这种类型的预训练数据可以帮助语言模型直接实现更高的推理准确性（即通过简单的自回归，无需多轮提示）免费数据。我们还深入研究了许多细节，例如（1）这种方法与波束搜索有何不同，（2）如何准备此类数据，（3）是否需要对错误标记进行屏蔽，（4）所需的错误量，（5）这些数据是否可以推迟到微调阶段等等。

OpenFGL：联邦图学习的综合基准

分类： 机器学习, 人工智能, 数据库, 社交和信息网络

作者： Xunkai Li, Yinlin Zhu, Boyang Pang, Guochen Yan, Yeyu Yan, Zening Li, Zhengyu Wu, Wentao Zhang, Rong-Hua Li, Guoren Wang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16288v1

摘要： 联合图学习（FGL）已成为跨多个本地系统的图神经网络的一种有前途的分布式训练范例，无需直接数据共享。这种方法在隐私敏感场景中特别有用，并为解决大规模图学习中的可扩展性挑战提供了新的视角。尽管 FGL 不断涌现，但实际应用的不同动机、跨越不同的研究背景和实验环境，对公平评估提出了重大挑战。为了填补这一空白，我们提出了 OpenFGL，这是一个为主要 FGL 场景设计的统一基准：Graph-FL 和 Subgraph-FL。具体来说，OpenFGL包括来自16个应用领域的38个图数据集、8个强调图属性的联合数据模拟策略以及5个基于图的下游任务。此外，它还通过用户友好的API提供了18种最近提出的SOTA FGL算法，可以对其有效性、鲁棒性和效率进行彻底的比较和综合评估。实证结果证明了 FGL 的能力，同时也揭示了其潜在的局限性，为这个蓬勃发展的领域的未来探索提供了宝贵的见解。

超越不确定性：用于鲁棒视频时间基础的证据深度学习

分类： 计算机视觉和模式识别, 人工智能

作者： Kaijing Ma, Haojian Huang, Jin Chen, Haodong Chen, Pengliang Ji, Xianghao Zang, Han Fang, Chao Ban, Hao Sun, Mulin Chen, Xuelong Li

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16272v1

摘要： 现有的视频时间接地（VTG）模型在准确性方面表现出色，但常常忽视开放词汇查询和未经修剪的视频带来的开放世界挑战。这会导致对噪声、损坏和分布外数据的预测不可靠。采用 VTG 模型根据用户输入动态估计不确定性可以解决这个问题。为此，我们引入了 SRAM，这是一种强大的网络模块，受益于两阶段跨模式对齐任务。更重要的是，它集成了深度证据回归（DER）来明确、彻底地量化训练过程中的不确定性，从而允许模型在超出其处理能力的场景中说“我不知道”。然而，传统 DER 理论及其正则化器的直接应用揭示了结构缺陷，导致 VTG 任务中出现意想不到的约束。作为回应，我们开发了一个简单而有效的 Geom 正则化器，从头开始增强不确定性学习框架。据我们所知，这标志着DER在VTG中的首次成功尝试。我们广泛的定量和定性结果证实了我们的模块以及 VTG 任务中的不确定性学习范式的有效性、稳健性和可解释性。该代码将可供使用。

LoraMap：利用 LoRA 连接的力量

分类： 计算和语言, 人工智能

作者： Hyeryun Park, Jeongwon Kwak, Dongsuk Jang, Sumin Park, Jinwook Choi

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16264v1

摘要： 大型语言模型 (LLM) 可以通过事实检查减轻幻觉，并通过低秩适应 (LoRA) 等参数高效技术克服大量计算开销。虽然一些研究探索了多个 LoRA 的并行集成，但这些方法需要注意它们之间的联系。本文研究了在多个 LoRA 之间建立连接的方法。我们创建了三个专门用于事实检查和微调各个 LoRA 的推理数据集，使它们能够从不同的角度进行查看和推理。然后，我们探索分配这些推理 LoRA 的策略，并介绍 LoraMap，一种映射它们之间连接的方法。事实检查任务的结果表明，LoraMap 的性能优于现有的 LoRA 组合方法 LoraHub。 LoraMap 的性能也比 LoraConcat 少得多，LoraConcat 连接 LoRA 并进一步微调它们。

通过深态空间模型中的频谱透镜评估时间序列训练数据集

分类： 机器学习, 人工智能

作者： Sekitoshi Kanai, Yasutoshi Ida, Kazuki Adachi, Mihiro Uchida, Tsukasa Yoshida, Shin'ya Yamaguchi

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16261v1

摘要： 本研究研究了一种根据深度神经网络 (DNN) 的性能评估时间序列数据集的方法，其中深度神经网络 (DNN) 具有在数据集上训练的状态空间模型（深度 SSM）。 SSM 作为 DNN 内部处理时间序列数据的组件而引起了人们的关注。由于深度 SSM 具有强大的表示能力，因此训练数据集在解决新任务中发挥着至关重要的作用。然而，只有在深度 SSM 实际对训练数据集进行训练之后，才能知道训练数据集的有效性。这可能会增加新任务的数据收集成本，因为需要数据收集的试错过程和耗时的培训才能实现必要的性能。为了推进深度 SSM 的实际使用，在训练早期评估性能的数据集指标可能是一个关键要素。为此，我们引入了系统识别中使用的数据评估方法的概念。在线性动力系统的系统辨识中，通过使用输入信号的频谱来评估数据集的有效性。我们将这个概念引入深度 SSM，即非线性动力系统。通过关注深度 SSM 的每一层都可以被视为线性动态系统这一事实，我们提出了 K 谱度量，它是深度 SSM 内信号的前 K 个谱的总和。我们的实验表明，K谱度量与性能的相关系数绝对值很大，可以用来评估训练数据集的质量。

基于 AI 的方法联盟使用真实世界临床数据预测 15 年乳腺癌转移风险，AUC 高达 0.9

分类： 机器学习, 人工智能, 神经和进化计算, 定量方法

作者： Xia Jiang, Yijun Zhou, Alan Wells, Adam Brufsky

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16256v1

摘要： 乳腺癌是导致女性死亡人数最多的两种癌症之一，美国每年约有 42,000 人死亡。每年新诊断出超过 300,000 例乳腺癌，这表明只有一小部分癌症会导致死亡。因此，大多数女性对局部癌症进行了看似治愈的治疗，但后来相当多的女性死于转移性疾病，而目前的治疗对于绝大多数女性来说只是暂时的。目前的预后指标对于局部治疗后看似治愈的 5 名女性中的 4 名来说几乎没有什么可操作的价值，并且许多女性不必要地接受病态甚至致命的辅助治疗，这些辅助治疗只能将转移复发减少三分之一。因此，需要更好的预后，以针对那些可能复发的人进行积极治疗，并避免那些真正治愈的人。虽然有大量的分子和肿瘤标志物检测方法正在使用和开发中，以早期检测复发，但这些方法耗时、昂贵，而且在可操作的预后效用方面仍然经常未经验证。另一种方法是使用大数据技术来确定临床和组织病理学参数，从而利用现有数据提供准确的预后。在此，我们报告机器学习以及网格搜索和贝叶斯网络，以开发仅使用现有数据在 ROC 分析中 AUC 高达 0.9 的算法。这种算法可以快速转化为临床管理，因为它们不需要常规肿瘤评估之外的测试。

通过可解释的潜在空间操纵增强条件图像生成

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 26B10, 53A35,, I.2.10; I.4.10

作者： Kshitij Pathania

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16232v1

摘要： 在图像合成领域，在遵守条件提示的同时实现参考图像的保真度仍然是一个重大挑战。本文提出了一种将扩散模型与潜在空间操纵和基于梯度的选择性注意机制相结合的新方法来解决这个问题。利用 Grad-SAM（基于梯度的选择性注意操纵），我们分析了交叉注意层的交叉注意图和去噪潜在向量的梯度，得出与感兴趣主题相关的去噪潜在向量元素的重要性得分。利用这些信息，我们在去噪期间的特定时间步长创建掩模，以保留主体，同时无缝集成参考图像特征。这种方法确保根据条件提示忠实地形成主题，同时细化背景以获得更连贯的构图。我们在 place365 数据集上进行的实验证明了有希望的结果，与基线模型相比，我们提出的模型实现了最低的平均和中值弗雷切起始距离 (FID) 分数，表明保真度保持出色。此外，我们的模型在将生成的图像与提供的文本描述对齐方面表现出竞争性的性能，高 CLIP 分数就证明了这一点。这些结果凸显了我们的方法在保真度保存和文本上下文保存方面的有效性，为文本到图像合成任务提供了显着的进步。

用于高保真电磁和结构多样化超表面设计的锚控制生成对抗网络

分类： 光学, 人工智能, 应用物理

作者： Yunhui Zeng, Hongkun Cao, Xin Jin

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16231v1

摘要： 在光电子学中，设计自由形式的超表面提出了重大挑战，特别是由于物理结构和电磁行为之间的复杂关系而实现高电磁响应保真度。一个关键的困难来自一对多映射困境，其中多个不同的物理结构可以产生相似的电磁响应，从而使设计过程复杂化。本文介绍了一种新颖的生成框架，即锚定控制的生成对抗网络（AcGAN），该框架优先考虑电磁保真度，同时有效地应对一对多的挑战，以创建结构多样化的超表面。与主要复制物理外观的现有方法不同，AcGAN 擅长生成各种结构，尽管它们的物理属性存在差异，但表现出相似的电磁响应，从而适应制造限制和公差。我们引入光谱重叠系数（SOC）作为精确指标来测量生成的设计与其目标之间的光谱保真度。此外，集群引导控制器改进了输入处理，确保多级频谱集成并增强电磁保真度。将 AnchorNet 集成到我们的损失函数中，有助于对电磁质量进行细致的评估，并得到优化频谱对齐的动态损失加权策略的支持。总的来说，这些创新代表了超表面逆设计的变革性进步，推进了面向电磁响应的工程并克服了一对多映射困境的复杂性。经验证据强调了 AcGAN 在简化设计流程、实现卓越的电磁精度和培养广泛的设计可能性。

LLaVA-SG：利用场景图作为视觉语言模型中的视觉语义表达

分类： 计算机视觉和模式识别, 人工智能

作者： Jingyi Wang, Jianzhong Ju, Jian Luan, Zhidong Deng

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16224v1

摘要： 大型视觉语言模型 (VLM) 的最新进展通常采用基于视觉转换器 (ViT) 架构的视觉编码器。 ViT 将图像分割成碎片会导致感知碎片化，从而阻碍了 VLM 的视觉理解能力。在本文中，我们提出了一种创新的增强方法，通过在 VLM 中引入场景图表达式（SGE）模块来解决这一限制。该模块提取并结构化表达图像中复杂的语义信息，从而提高VLM的基础感知和理解能力。大量实验表明，集成我们的 SGE 模块可显着增强 VLM 在视觉语言任务中的性能，表明其在保留复杂语义细节和促进更好的视觉理解方面的有效性。代码和数据将可用。

SSDM：可扩展的言语不流利建模

分类： 音频和语音处理, 人工智能, 计算和语言, 声音

作者： Jiachen Lian, Xuanru Zhou, Zoe Ezzes, Jet Vonk, Brittany Morin, David Baquirin, Zachary Mille, Maria Luisa Gorno Tempini, Gopala Anumanchipalli

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16221v1

摘要： 言语不流利建模是口语学习和言语治疗的核心模块。然而，存在三个挑战。首先，当前最先进的解决方案可扩展性较差。其次，缺乏大规模的不流利语料库。第三，缺乏有效的学习框架。在本文中，我们提出\textit{SSDM：可扩展语音不流畅建模}，它（1）采用发音手势作为可扩展强制对齐；（2）引入联结子序列对齐器（CSA）来实现不流畅对齐； (3)引入了一个名为Libri-Dys的大规模模拟不流利语料库； (4) 利用大型语言模型 (LLM) 的力量开发端到端系统。我们期望 SSDM 成为不流畅建模领域的标准。演示可在 \url{https://eureka235.github.io} 获取。

M4CXR：探索胸部 X 射线判读多模态大语言模型的多任务潜力

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Jonggwon Park, Soobum Kim, Byungmu Yoon, Jihun Hyun, Kyoyun Choi

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16213v1

摘要： 人工智能的快速发展，尤其是大型语言模型（LLM）的发展，对包括医疗保健在内的各个领域产生了重大影响。在胸部 X 射线 (CXR) 分析中，之前的研究采用了 LLM，但存在局限性：要么未充分利用 LLM 的多任务处理能力，要么缺乏临床准确性。本文介绍了 M4CXR，一种旨在增强 CXR 解释的多模式大语言模型。该模型在视觉指令跟踪数据集上进行训练，该数据集以对话格式集成了各种特定于任务的数据集。因此，该模型支持多种任务，例如医疗报告生成 (MRG)、视觉基础和视觉问答 (VQA)。 M4CXR 通过采用思想链提示策略，识别 CXR 图像中的发现并随后生成相应的报告，在 MRG 中实现了最先进的临床准确性。该模型可根据可用输入（例如单图像、多图像和多研究上下文）适应各种 MRG 场景。除了MRG之外，M4CXR的视觉接地性能可与专用型号相媲美，并且在VQA方面也表现出出色的性能。定量和定性评估都揭示了 M4CXR 在 MRG、视觉基础和 VQA 方面的多功能性，同时始终保持临床准确性。

通过深度学习进行短期电力负荷预测：综合调查

分类： 机器学习, 人工智能

作者： Qi Dong, Rubing Huang, Chenhui Cui, Dave Towey, Ling Zhou, Jinyu Tian, Jianzhou Wang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16202v1

摘要： 短期电力负荷预测（STELF）是指对电力系统的即时需求（未来几小时到几天）的预测。各种外部因素，如天气变化、新的用电场景的出现等，都会影响电力需求，导致负荷数据波动并变得非线性，这增加了STELF的复杂性和难度。近十年来，深度学习已应用于STELF，高精度地建模和预测电力需求，为STELF的发展做出了巨大贡献。本文对过去十年基于深度学习的 STELF 进行了全面的回顾。它检查了整个预测过程，包括数据预处理、特征提取、深度学习建模和优化以及结果评估。本文还确定了一些研究挑战和未来工作中需要进一步研究的潜在研究方向。

PolarBEVDet：探索鸟瞰多视图 3D 物体检测的极地表示

分类： 计算机视觉和模式识别, 人工智能

作者： Zichen Yu, Quanli Liu, Wei Wang, Liyong Zhang, Xiaoguang Zhao

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16200v1

摘要： 最近，基于LSS的多视角3D物体检测为自动驾驶提供了一种经济且易于部署的解决方案。然而，现有的所有基于LSS的方法都将多视图图像特征转换为笛卡尔鸟瞰图（BEV）表示，这没有考虑不均匀的图像信息分布，并且很难利用视图对称性。在本文中，为了通过正则卷积来适应图像信息分布并保持视图对称性，我们建议采用极坐标 BEV 表示来替代笛卡尔 BEV 表示。为了实现这一目标，我们精心定制了三个模块：用于生成极坐标 BEV 表示的极坐标视图转换器、用于融合历史极坐标 BEV 特征的极坐标时间融合模块以及用于预测对象的极坐标参数化表示的极坐标检测头。此外，我们设计了一个2D辅助检测头和一个空间注意力增强模块，以分别提高透视图和BEV中特征提取的质量。最后，我们将上述改进集成到新颖的多视图 3D 物体检测器 PolarBEVDet 中。 nuScenes上的实验表明PolarBEVDet实现了优越的性能。代码可在 https://github.com/Yzichen/PolarBEVDet.git 获取。

更统一的迁移学习理论

分类： 机器学习, 人工智能, 机器学习, 统计理论, 统计理论

作者： Steve Hanneke, Samory Kpotufe

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16189v1

摘要： 我们表明，一些基本的连续性模量 $\delta$（衡量目标风险随着源风险降低而降低的速度）似乎是迁移学习和相关文献中许多经典相关性度量的根源。也就是说，$\delta$ 方面的界限恢复了其他相关性度量方面的许多现有界限（无论是回归还是分类），并且有时可能更严格。我们对学习者可以访问源数据和一些或没有目标数据的一般情况特别感兴趣。模 $\delta$ 允许的统一视角使我们能够立即将许多现有的相关性概念扩展到涉及目标数据的这些场景：有趣的是，虽然 $\delta$ 本身可能无法有效估计，但存在自适应程序 - 基于减少置信集——在没有先验分布知识的情况下，可以以 $\delta$ 形式获得近乎严格的利率。这种对未知 $\delta$ 的适应性立即意味着对许多经典相关性概念的适应性，就组合的源样本和目标样本的大小而言。

新西兰的实时能源定价：不断发展的流分析

分类： 机器学习, 人工智能

作者： Yibin Sun, Heitor Murilo Gomes, Bernhard Pfahringer, Albert Bifet

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16187v1

摘要： 本文介绍了一组代表新西兰能源价格实时时间序列和流数据的新颖数据集，这些数据来源于新西兰政府维护的电力市场信息（EMI）网站。这些数据集旨在解决流回归学习任务缺乏适当数据集的问题。我们对这些数据集进行了广泛的分析和实验，涵盖预处理技术、回归任务、预测区间、概念漂移检测和异常检测。我们的实验证明了数据集的实用性，并强调了能源价格预测未来研究的挑战和机遇。

用于语义类型检测的 LLM 辅助标记函数生成

分类： 数据库, 人工智能

作者： Chenjie Li, Dan Zhang, Jin Wang

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16173v1

摘要： 检测数据湖表中列的语义类型是一个重要的应用。由于数据湖固有的复杂性，语义类型检测的一个关键瓶颈是人工注释的可用性。在本文中，我们建议使用程序化弱监督，通过利用标签函数来辅助注释用于语义类型检测的训练数据。这一过程中的一个挑战是，由于数据湖表数据集数量大、质量低，手动编写标记函数很困难。为了解决这个问题，我们探索使用大型语言模型（LLM）来生成标签函数，并为此引入了几种快速的工程策略。我们对现实世界的网络表数据集进行实验。基于初步结果，我们进行了广泛的分析，并为该领域的研究人员提供了实证见解和未来方向。

使用生成对抗网络模拟真实的短串联重复毛细管电泳信号

分类： 机器学习, 人工智能

作者： Duncan Taylor, Melissa Humphries

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16169v1

摘要： DNA 图谱由测量荧光随时间变化的多个系列的电泳信号组成。通常，人类 DNA 分析人员利用他们的经验来“读取”DNA 谱，以区分仪器噪声、人工信号和与感兴趣的 DNA 片段相对应的信号。最近的工作开发了一种人工神经网络（ANN）来执行将 DNA 谱电泳信号中的荧光类型分类的任务。但是，为人工神经网络创建大量的标记训练数据既耗时又昂贵，并且是稳健训练人工神经网络能力的限制因素。如果可以模拟现实的、预先标记的训练数据，那么这将消除高效训练 ANN 的障碍。在这里，我们开发了一个生成对抗网络 GAN，它是从 pix2pix GAN 修改而来的，以实现这一任务。我们利用 1078 个 DNA 配置文件来训练 GAN 并实现模拟 DNA 配置文件信息的能力，然后使用 GAN 的生成器作为“现实过滤器”，应用典型电泳信号中表现出的噪声和伪影元素。

FRACTURED-SORRY-Bench：揭示会话中的攻击破坏拒绝功效和 SORRY-Bench 防御的框架

分类： 计算和语言, 人工智能

作者： Aman Priyanshu, Supriti Vijay

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16163v1

摘要： 本文介绍了 FRACTURED-SORRY-Bench，这是一个用于评估大型语言模型（LLM）针对多轮会话攻击的安全性的框架。基于 SORRY-Bench 数据集，我们提出了一种简单而有效的方法，通过将有害查询分解为看似无害的子问题来生成对抗性提示。与基线方法相比，我们的方法在 GPT-4、GPT-4o、GPT-4o-mini 和 GPT-3.5-Turbo 模型中的攻击成功率 (ASR) 最大增加了 +46.22%。我们证明这种技术对当前的大语言模型安全措施提出了挑战，并强调需要更强大的防御措施来抵御微妙的多轮攻击。

提高现实场景中语音分离的泛化：模拟、优化和评估策略

分类： 声音, 人工智能, 机器学习, 音频和语音处理

作者： Ke Chen, Jiaqi Su, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Zeyu Jin

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16126v1

摘要： 在具有噪声和混响的各种声学环境中实现重叠扬声器的鲁棒语音分离仍然是一个开放的挑战。尽管现有数据集可用于训练特定场景的分离器，但它们不能有效地概括不同的现实场景。在本文中，我们提出了一种新颖的数据模拟管道，它可以从一系列声学环境和内容中生成不同的训练数据，并提出新的训练范例来提高通用语音分离模型的质量。具体来说，我们首先介绍 AC-SIM，这是一种数据模拟管道，包含内容和声学方面的广泛变化。然后，我们将多个训练目标集成到排列不变训练（PIT）中，以提高训练模型的分离质量和泛化能力。最后，我们跨分离架构和基准进行了全面的客观和人类听力实验，以验证我们的方法，证明在非同源和真实世界测试集上的泛化能力得到了实质性改进。

ChartEye：图表信息提取的深度学习框架

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Osama Mustafa, Muhammad Khizer Ali, Momina Moetesum, Imran Siddiqi

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16123v1

摘要： 图表和信息图表作为数据可视化手段在各个领域的广泛使用激发了最近对自动图表理解的研究。然而，由于样式变化，从图表图像中提取信息是一个复杂的多任务过程，因此设计端到端系统具有挑战性。在这项研究中，我们提出了一个基于深度学习的框架，为图表信息提取管道中的关键步骤提供了解决方案。所提出的框架利用分层视觉转换器来执行图表类型和文本角色分类的任务，同时利用 YOLOv7 来执行文本检测。然后使用超分辨率生成对抗网络增强检测到的文本，以提高 OCR 的识别输出。基准数据集上的实验结果表明，我们提出的框架在每个阶段都实现了出色的性能，图表类型分类的 F1 分数为 0.97，文本角色分类的 F1 分数为 0.91，文本检测的平均精度为 0.95。

数据公式 2：利用 AI 迭代创建丰富的可视化

分类： 人机交互, 人工智能

作者： Chenglong Wang, Bongshin Lee, Steven Drucker, Dan Marshall, Jianfeng Gao

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16119v1

摘要： 为了创建丰富的可视化效果，数据分析师通常需要在数据处理和图表规范之间来回迭代以实现他们的目标。为了实现这一目标，分析师不仅需要精通数据转换和可视化工具，还需要努力管理由许多不同版本的数据和图表组成的分支历史。最近由大语言模型支持的人工智能系统极大地改善了可视化创作体验，例如通过大语言模型的代码生成能力减轻手动数据转换障碍。然而，这些系统不适用于迭代可视化创作，因为它们通常要求分析师一次性提供纯文本提示，以完整描述要执行的复杂可视化任务，这对于用户和模型来说都是不现实的在很多情况下。在本文中，我们提出了 Data Formulator 2，这是一个由大语言模型支持的可视化系统，可以解决这些挑战。借助 Data Formulator 2，用户可以使用混合 UI 和自然语言输入来描述其可视化意图，并将数据转换委托给 AI。为了支持迭代，Data Formulator 2 允许用户导航其迭代历史记录并重用以前的设计来设计新的设计，这样他们就不需要每次都从头开始。在一项有 8 名参与者参与的用户研究中，我们观察到 Data Formulator 2 允许参与者开发自己的迭代策略来完成具有挑战性的数据探索课程。

用于可信社交模拟的逻辑增强语言模型代理

分类： 人工智能, 计算和语言, 计算机科学与博弈论, 计算机科学中的逻辑

作者： Agnieszka Mensfelt, Kostas Stathis, Vince Trencsenyi

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16081v1

摘要： 我们引入了逻辑增强语言模型代理（LELMA）框架，这是一种利用大型语言模型（LLM）增强社交模拟可信度的新颖方法。虽然大语言模型作为模拟人类行为的代理人而受到关注，但其在这一角色中的适用性受到诸如固有幻觉和逻辑不一致等问题的限制。 LELMA 通过将大语言模型与符号人工智能集成来解决这些挑战，从而能够对大语言模型生成的推理进行逻辑验证。此验证过程提供纠正反馈，完善推理输出。该框架由三个主要组件组成：用于产生策略推理的 LLM-Reasoner、用于将自然语言推理映射到逻辑查询的 LLM-Translator 以及用于评估这些查询的 Solver。本研究重点关注博弈论场景中的决策作为人类交互的模型。涉及鹰鸽博弈、囚徒困境和雄鹿狩猎的实验凸显了最先进的 LLM、GPT-4 Omni 和 Gemini 1.0 Pro 在这些环境中产生正确推理的局限性。 LELMA 展示了错误检测的高精度，并通过自我改进提高了 LLM 的推理正确性，特别是在 GPT-4 Omni 中。

国际人工智能协议的验证方法

分类： 计算机与社会, 人工智能

作者： Akash R. Wasil, Tom Reed, Jack William Miller, Peter Barnett

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16074v1

摘要： 可以使用哪些技术来验证有关高级人工智能开发的国际协议的遵守情况？在本文中，我们研究了 10 种验证方法，它们可以检测两种类型的潜在违规行为：未经授权的人工智能训练（例如，训练运行超过特定的 FLOP 阈值）和未经授权的数据中心。我们将验证方法分为三类：(a) 国家技术手段（需要最少或不需要疑似不合规国家访问的方法），(b) 依赖访问的方法（需要疑似未经授权活动的国家批准的方法），以及 (c) 依赖于硬件的方法（需要有关高级硬件的规则的方法）。对于每种验证方法，我们提供了描述、历史先例和可能的规避技术。最后，我们为与国际人工智能治理协议的验证和执行相关的未来工作提供建议。

使用大型语言模型创建 AI 角色以复制和预测媒体效果：对 133 项已发表实验研究结果的实证检验

分类： 计算和语言, 人工智能

作者： Leo Yeykelis, Kaavya Pichai, James J. Cummings, Byron Reeves

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16073v1

摘要： 本报告分析了大型语言模型 (LLM) 加速准确复制已发表的消息效应研究的潜力。我们通过复制《营销杂志》（2023 年 1 月至 2024 年 5 月）上包含 45 项最新研究的 14 篇论文中的 133 项实验结果来测试 LLM 驱动的参与者（角色）。我们使用了一种新的软件工具 Viewpoints AI (https://viewpoints.ai/)，它将研究设计、刺激和测量作为输入，自动生成提示，让大语言模型充当独特角色的指定样本，并收集他们的响应以产生完整数据集和统计分析形式的最终输出。使用的底层大语言模型是 Anthropic 的 Claude Sonnet 3.5。我们生成了 19,447 个人工智能角色，以使用原始人类研究中报告的完全相同的样本属性、研究设计、刺激和措施来复制这些研究。我们的大语言模型复制成功地再现了 76% 的原始主效应（111 个中的 84 个），展示了人工智能辅助复制人们对媒体刺激做出反应的研究的巨大潜力。当包括交互效应时，总体重复率为 68%（133 次中的 90 次）。讨论了利用大语言模型来复制和加速媒体效应的营销研究，涉及社会科学中的复制危机、抽样受试者和实验条件中普遍性问题的潜在解决方案，以及快速测试消费者对各种媒体刺激的反应的能力。我们还解决了这种方法的局限性，特别是在复制媒体反应研究中复杂的交互效果方面，并提出了人工智能辅助媒体效果实验复制的未来研究和改进领域。

使用机器学习识别女性非吸烟者中 III 期非小细胞肺癌的预后生物标志物

分类： 基因组学, 人工智能, 机器学习

作者： Huili Zheng, Qimin Zhang, Yiru Gong, Zheyan Liu, Shaohan Chen

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16068v1

摘要： 肺癌仍然是全球癌症相关死亡的主要原因，其中非小细胞肺癌（NSCLC）是最常见的亚型。本研究旨在利用 GDS3837 数据集中的基因表达谱来识别与非吸烟女性 III 期 NSCLC 相关的关键生物标志物。利用机器学习算法 XGBoost，该分析实现了强大的预测性能，AUC 得分为 0.835。确定的主要生物标志物 - CCAAT 增强子结合蛋白 α (C/EBP-α)、乳酸脱氢酶 A4 (LDHA)、UNC-45 肌球蛋白伴侣 B (UNC-45B)、检查点激酶 1 (CHK1) 和缺氧诱导因子 1 α 亚基 (HIF-1-α) - 已被文献证实与肺癌显着相关。这些发现凸显了这些生物标志物在早期诊断和个性化治疗方面的潜力，强调了将机器学习与分子分析在癌症研究中相结合的价值。

Eagle：探索混合编码器的多模态大语言模型的设计空间

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15998v1

摘要： 准确解释复杂视觉信息的能力是多模态大语言模型（MLLM）的一个关键主题。最近的研究表明，增强的视觉感知可显着减少幻觉并提高对分辨率敏感的任务（例如光学字符识别和文档分析）的性能。最近的许多 MLLM 使用视觉编码器的混合来实现这一目标。尽管取得了成功，但缺乏针对关键方面的系统比较和详细消融研究，例如专家选择和多名视觉专家的整合。这项研究结合使用视觉编码器和分辨率，对 MLLM 的设计空间进行了广泛的探索。我们的研究结果揭示了各种现有策略所共有的几个基本原则，从而形成简化而有效的设计方法。我们发现，简单地连接来自一组互补视觉编码器的视觉标记与更复杂的混合架构或策略一样有效。我们还引入了预对齐来弥合视觉编码器和语言标记之间的差距，从而增强模型的一致性。由此产生的 MLLM 系列 Eagle 在主要 MLLM 基准测试中超越了其他领先的开源模型。模型和代码：https://github.com/NVlabs/Eagle

Mamba 还是 Transformer 用于时间序列预测？您所需要的就是通用混合体 (MoU)

分类： 机器学习, 人工智能

作者： Sijia Peng, Yun Xiong, Yangyong Zhu, Zhiqiang Shen

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15997v1

摘要： 时间序列预测需要平衡短期和长期依赖性以实现准确的预测。现有方法主要关注长期依赖建模，忽略了短期动态的复杂性，这可能会阻碍性能。 Transformer 在建模长期依赖关系方面表现出色，但因其二次计算成本而受到批评。 Mamba 提供了一种近线性的替代方案，但据报道，由于潜在的信息丢失，在时间序列长期预测中效果较差。当前的架构无法为长期依赖建模提供高效率和强大的性能。为了应对这些挑战，我们引入了 Mixture of Universals (MoU)，这是一种多功能模型，可以捕获短期和长期依赖性，从而提高时间序列预测的性能。 MoU 由两种新颖的设计组成：特征提取器混合 (MoF)，一种旨在改进短期依赖性的时间序列补丁表示的自适应方法；架构混合 (MoA)，它分层集成了 Mamba、前馈、卷积和以特殊顺序的自注意力架构从混合角度对长期依赖进行建模。所提出的方法实现了最先进的性能，同时保持相对较低的计算成本。对七个真实世界数据集的广泛实验证明了 MoU 的优越性。代码可在 https://github.com/lunaaa95/mou/ 获取。

用于零样本动作检测的时空上下文提示

分类： 计算机视觉和模式识别, 人工智能

作者： Wei-Jhe Huang, Min-Hung Chen, Shang-Hong Lai

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15996v2

摘要： 时空动作检测包括对视频中的各个动作进行本地化和分类的任务。最近的工作旨在通过结合交互模型来增强这一过程，该模型捕捉人与其周围环境之间的关系。然而，这些方法主要集中在完全监督学习上，目前的局限性在于缺乏识别看不见的动作类别的泛化能力。在本文中，我们的目标是调整预训练的图像语言模型来检测看不见的动作。为此，我们提出了一种可以有效利用视觉语言模型的丰富知识来执行人与上下文交互的方法。同时，我们的上下文提示模块将利用上下文信息来提示标签，从而增强更具代表性的文本特征的生成。此外，为了解决识别多个人在同一时间戳下的不同动作的挑战，我们设计了兴趣令牌发现机制，该机制利用预先训练的视觉知识来找到每个人的兴趣上下文令牌，然后这些令牌将用于提示生成文本为每个人量身定制的功能。为了评估检测未见动作的能力，我们提出了针对 J-HMDB、UCF101-24 和 AVA 数据集的综合基准。实验表明，与以前的方法相比，我们的方法取得了更好的结果，并且可以进一步扩展到多动作视频，使其更接近现实世界的应用。代码和数据可以在https://webber2933.github.io/ST-CLIP-project-page找到。

CoGen：通过耦合理解和生成从反馈中学习

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Mustafa Omer Gul, Yoav Artzi

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15992v1

摘要： 具有语言理解和生成能力的系统可以受益于两者之间的紧密联系。这项工作研究耦合理解和生成，重点是从与用户的交互中不断学习。我们提出了紧密集成学习和推理两种能力的技术。我们将研究置于两人参考游戏中，并部署各种模型与人类用户进行数千次交互，同时从交互反馈信号中学习。随着时间的推移，我们发现性能有了显着的提高，与非耦合系统相比，理解生成耦合使性能绝对值提高了 26%，准确度提高了 17%。我们的分析还表明，耦合对系统语言具有重大的定性影响，使其更加人性化。

通过下一个标记预测进行上下文模仿学习

分类： 机器人技术, 人工智能

作者： Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15980v1

摘要： 我们探索如何增强下一个令牌预测模型，以在真实机器人上执行上下文模仿学习，其中机器人通过解释输入阶段提供的上下文信息来执行新任务，而不更新其底层策略参数。我们提出了上下文机器人变压器（ICRT），这是一种因果变压器，可以在不依赖任何语言数据或奖励函数的情况下对感觉运动轨迹进行自回归预测。该公式可以在测试时灵活且无需训练地执行新任务，这是通过通过人类远程操作收集的由图像观察、动作和状态元组组成的新任务的感觉运动轨迹来提示模型来实现的。 Franka Emika 机器人的实验表明，ICRT 可以适应提示指定的新任务，即使在不同于提示和训练数据的环境配置中也是如此。在多任务环境设置中，ICRT 在泛化到未见过的任务方面显着优于机器人领域当前最先进的下一个令牌预测模型。代码、检查点和数据可在 https://icrt.dev/ 上获取

WebPilot：用于执行具有战略探索的 Web 任务的多功能自主多代理系统

分类： 人工智能

作者： Yao Zhang, Zijian Ma, Yunpu Ma, Zhen Han, Yu Wu, Volker Tresp

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15978v1

摘要： 由于这些环境固有的不确定性和复杂性，基于 LLM 的自主代理通常无法执行需要动态交互的复杂 Web 任务。现有的基于 LLM 的网络代理通常依赖于针对某些状态和操作的严格的、专家设计的策略，这些策略缺乏适应看不见的任务所需的灵活性和通用性。相比之下，人类通过探索未知、不断调整策略以及通过探索解决歧义而表现出色。为了模仿人类的适应性，网络代理需要战略探索和复杂的决策。蒙特卡洛树搜索 (MCTS) 非常适合于此，但经典的 MCTS 难以应对巨大的动作空间、不可预测的状态转换以及 Web 任务中的不完整信息。鉴于此，我们开发了WebPilot，这是一个具有双重优化策略的多代理系统，可以改进MCTS以更好地处理复杂的Web环境。具体来说，全局优化阶段涉及通过将任务分解为可管理的子任务并不断完善该计划来生成高级计划，从而集中搜索过程并减轻经典 MCTS 中巨大行动空间带来的挑战。随后，局部优化阶段使用专为复杂环境设计的定制MCTS来执行每个子任务，有效解决不确定性并管理不完整信息。在WebArena和MiniWoB++上的实验结果证明了WebPilot的有效性。值得注意的是，在 WebArena 上，WebPilot 通过 GPT-4 实现了 SOTA 性能，与基于并发树搜索的方法相比，成功率相对提高了 93%。 WebPilot 标志着一般自主代理能力的重大进步，为实际环境中更先进、更可靠的决策铺平了道路。

多块凸优化问题的原对偶梯度流动力学稳定性

分类： 优化与控制, 人工智能, 机器学习, 系统与控制, 系统与控制

作者： Ibrahim K. Ozaslan, Panagiotis Patrinos, Mihailo R. Jovanović

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15969v1

摘要： 我们研究了在广义一致性约束下目标函数中具有多个（可能是非光滑）项的复合凸优化问题的原始-对偶梯度流动力学的稳定性特性。所提出的动力学基于近端增广拉格朗日函数，它们为 ADMM 提供了可行的替代方案，而 ADMM 在大规模多块场景中从分析和实现的角度都面临着重大挑战。与具有个性化收敛保证的定制算法相比，我们提供了一种系统方法来解决各种具有挑战性的复合优化问题。我们利用各种结构特性为所提出的动态建立全局（指数）收敛保证。我们的假设比证明各种原对偶动力学的（指数）稳定性以及离散时间方法（例如标准的两块和多块 ADMM 和 EXTRA 算法）的（线性）收敛所需的假设要弱得多。最后，我们展示了指数稳定性的一些结构假设的必要性，并提供了计算实验来证明所提出的动力学对于并行和分布式计算应用的便利性。

更多文本，更少点：迈向 3D 数据高效的点语言理解

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Yuan Tang, Xu Han, Xianzhi Li, Qiao Yu, Jinfeng Xu, Yixue Hao, Long Hu, Min Chen

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15966v1

摘要： 让大型语言模型 (LLM) 能够理解 3D 物理世界仍然是一项重大挑战。由于缺乏大规模的 3D 文本对数据集，LLM 的成功尚未在 3D 理解领域复制。在本文中，我们重新思考这个问题并提出了一个新任务：3D Data-Efficient Point-Language Understanding。目标是使大语言模型能够利用最少的 3D 点云和文本数据对实现强大的 3D 对象理解。为了解决此任务，我们引入了 GreenPLM，它利用更多文本数据来弥补 3D 数据的缺乏。首先，受到使用 CLIP 对齐图像和文本的启发，我们利用预先训练的点云文本编码器将 3D 点云空间映射到文本空间。这种映射使我们能够将文本空间与大语言模型无缝连接。一旦建立了点-文本-LLM连接，我们通过扩展中间文本空间进一步增强文本-LLM对齐，从而减少对3D点云数据的依赖。具体来说，我们生成 6M 3D 对象的自由文本描述，并设计一个三阶段训练策略，以帮助大语言模型更好地探索不同模式之间的内在联系。为了实现有效的模态对齐，我们设计了一个用于令牌池的零参数交叉注意模块。大量实验结果表明，GreenPLM 只需要现有最先进模型所用 12% 的 3D 训练数据即可实现卓越的 3D 理解。值得注意的是，GreenPLM 还使用纯文本数据实现了具有竞争力的性能。代码和权重可在：https://github.com/TangYuan96/GreenPLM 获取。

Atari-GPT：研究多模式大型语言模型作为 Atari 游戏低级策略的能力

分类： 人工智能

作者： Nicholas R. Waytowich, Devin White, MD Sunbeam, Vinicius G. Goecks

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15950v1

摘要： 大语言模型 (LLM) 的最新进展已将其功能从传统的基于文本的任务扩展到多模态领域，集成视觉、听觉和文本数据。虽然多模式大语言模型已在机器人和游戏等领域的高级规划中得到广泛探索，但它们作为低级控制器的潜力在很大程度上尚未开发。本文探讨了多模态 LLM 作为低级控制器在 Atari 视频游戏领域的应用，引入 Atari 游戏性能作为评估多模态 LLM 执行低级控制任务能力的新基准。与需要大量计算资源和奖励函数规范的传统强化学习（RL）和模仿学习（IL）方法不同，这些大语言模型利用预先存在的多模态知识直接参与游戏环境。我们的研究评估了多个多模态 LLM 相对于传统 RL 智能体、人类玩家和随机智能体的表现，重点关注它们理解复杂视觉场景并与之交互以及制定策略响应的能力。此外，我们还通过结合人类演示的游戏轨迹来增强模型的情境理解，从而检验情境学习 (ICL) 的影响。通过这项调查，我们的目标是确定多模式大语言模型可以在多大程度上利用其广泛的培训来有效地充当低级控制器，从而重新定义动态和视觉复杂环境中的潜在应用。其他结果和视频可在我们的项目网页上找到：https://sites.google.com/view/atari-gpt/。

用于少样本学习的局部描述符加权自适应阈值过滤

分类： 计算机视觉和模式识别, 人工智能

作者： Bingchen Yan

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15924v1

摘要： 少样本图像分类是机器学习领域的一项具有挑战性的任务，涉及使用有限数量的标记样本来识别新类别。近年来，基于局部描述符的方法在该领域取得了重大进展。然而，提高分类精度的关键在于有效滤除背景噪声并准确选择与图像类别信息高度相关的关键局部描述符。为了应对这一挑战，我们提出了一种针对局部描述符的创新加权自适应阈值过滤（WATF）策略。该策略可以根据当前任务和图像上下文动态调整，从而选择与图像类别最相关的局部描述符。这使得模型能够更好地关注类别相关信息，同时有效减轻不相关背景区域的干扰。为了评估我们方法的有效性，我们采用了 N-way K-shot 实验框架。实验结果表明，我们的方法不仅提高了所选局部描述符的聚类效果，而且显着增强了图像类别之间的区分能力。值得注意的是，我们的方法保持了简单、轻量级的设计理念，没有引入额外的可学习参数。该特性保证了训练和测试阶段过滤能力的一致性，进一步增强了方法的可靠性和实用性。

利用开放知识提升大型语言模型中的任务专业知识

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Yuncheng Yang, Yulei Qin, Tong Wu, Zihan Xu, Gang Li, Pengcheng Guo, Hang Shao, Yucheng Shi, Ke Li, Xing Sun, Jie Yang, Yun Gu

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15915v1

摘要： 培养大型语言模型（LLM）的专业知识来解决特定领域的任务通常需要针对预期稳定输出进行特殊目的的调整和校准行为。为了避免手动准备长达数百小时的指令数据集和训练资源带来的巨额成本，利用包括丰富的低秩适应（LoRA）模型和指令数据集在内的开放知识作为一个很好的起点。然而，现有的模型和数据选择方法侧重于通用功能的性能，而忽略了特定领域部署中暴露的知识差距。在本研究中，我们建议通过引入少量人工注释样本（即 K-shot）来弥合这一差距，以利用开放知识提升大语言模型的任务专业知识。具体来说，我们开发了一个高效且可扩展的管道，以经济高效地生成任务专家，其中 K-shot 数据介入选择最有希望的专家候选者和任务相关指令。混合专家 (MoE) 系统的建立是为了充分利用多位专家之间各自互补的知识。我们揭示了 MoE 系统成功的两个关键，1）对 K-shot 的遵守，2）对多样性的坚持。对于前者，我们确保选择真正具有 K-shot 问题解决能力的模型，而不是那些盲目猜测的人。此外，在数据选择过程中，与 K-shot 共享任务相关上下文的指令会被优先考虑。对于后者，我们强调了构成专家的多样性以及整个模型和数据选择过程中微调指令的多样性。大量的实验结果证实了我们的方法在跨各种任务利用开放知识方面优于现有方法。代码和模型将在稍后发布。

物联网数据中的高效 $k$-NN 搜索：基于树的索引结构中的重叠优化

分类： 数据库, 人工智能, 信息检索, 表现, 68P05, 68T01, 68P20, E.1; H.2; H.3; I.2

作者： Ala-Eddine Benrazek, Zineddine Kouahla, Brahim Farou, Hamid Seridi, Ibtissem Kemouguette

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16036v1

摘要： 物联网 (IoT) 中互连设备的激增导致数据呈指数级增长，通常称为物联网大数据。对这种异构数据的有效检索需要强大的索引机制来进行有效的组织。然而，一个重大挑战仍然存在：索引构建过程中数据空间分区的重叠。这种重叠增加了搜索和检索期间的节点访问，导致更高的资源消耗、性能瓶颈，并阻碍系统可扩展性。为了解决这个问题，我们提出了三种创新的启发式方法，旨在量化和战略性地减少数据空间分区重叠。基于体积的方法（VBM）通过计算分区之间的交叉体积来提供详细的评估，从而提供对空间关系的更深入的了解。基于距离的方法 (DBM) 通过使用分区中心和半径之间的距离来评估重叠来提高效率，提供简化而准确的方法。最后，基于对象的方法 (OBM) 通过跨多个分区对对象进行计数来提供实用的解决方案，从而提供对数据空间动态的直观理解。实验结果证明了这些方法在减少搜索时间方面的有效性，强调了它们改进数据空间划分和提高整体系统性能的潜力。

Nexus：专业化与适应性相结合，有效培训专家组合

分类： 计算和语言, 人工智能, 机器学习

作者： Nikolas Gritsch, Qizhen Zhang, Acyr Locatelli, Sara Hooker, Ahmet Üstün

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15901v1

摘要： 效率、专业化和对新数据分布的适应性是当前大型语言模型中难以结合的品质。专家混合 (MoE) 架构一直是重要研究的焦点，因为其固有的条件计算能够实现如此理想的属性。在这项工作中，我们专注于将密集的专家模型“升级”到 MoE 中，旨在提高专业化程度，同时增加轻松适应新任务的能力。我们引入了 Nexus，这是一种具有自适应路由的增强型 MoE 架构，其中模型学习从域表示中投影专家嵌入。这种方法允许 Nexus 在初始升级后通过单独训练的密集模型灵活地添加新的专家，而不需要对看不见的数据域进行大规模的 MoE 训练。我们的实验表明，Nexus 在初始升级改造的基础上实现了高达 2.1% 的相对增益，并且通过使用有限的微调数据，通过新专家扩展 MoE 的相对增益为 18.8%。 Nexus 的这种灵活性对于实现开源生态系统至关重要，在该生态系统中，每个用户都可以根据自己的需求不断组装自己的 MoE-mix。

翼型扩散：条件翼型生成的去噪扩散模型

分类： 机器学习, 人工智能

作者： Reid Graves, Amir Barati Farimani

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15898v1

摘要： 空气动力学形状（例如翼型）的设计传统上需要大量的计算资源并依赖于预定义的设计参数，这限制了新颖形状合成的潜力。在这项工作中，我们介绍了一种使用扩散模型生成翼型的数据驱动方法。在预先存在的机翼数据集上进行训练，我们的模型可以从随机向量生成任意数量的新机翼，这些随机向量可以根据特定的空气动力学性能指标（例如升力和阻力）或几何标准进行调节。我们的结果表明，扩散模型有效地产生了具有真实空气动力学特性的翼型形状，显着提高了效率、灵活性，并具有发现创新翼型设计的潜力。这种方法显着扩展了设计空间，有助于合成超越传统方法限制的高性能空气动力学形状。

一种基于跨语言的语义角色标注新方法

分类： 计算和语言, 人工智能, 机器学习

作者： Mohammad Ebrahimi, Behrouz Minaei Bidgoli, Nasim Khozouei

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15896v1

摘要： 语义角色标记是自然语言处理中的一项关键任务，可以更好地理解自然语言。然而，缺乏多种语言的注释数据给研究人员带来了挑战。为了解决这个问题，提出了一种基于模型迁移的深度学习算法。该算法利用由 CoNLL2009 的英语部分和波斯语语义角色语料库组成的数据集。为了优化培训效率，每种语言仅使用 10% 的教育数据。与 Niksirt 等人的模型相比，所提出模型的结果显示出显着的改进。在单语言模式下，该模型的 F1 分数提高了 2.05%，而在跨语言模式下，提高幅度更大，达到 6.23%。值得注意的是，比较模型仅训练了语义角色标记的四个阶段中的两个阶段，并在其余两个阶段中使用了黄金数据。这表明所提出的模型的实际优越性大大超过了报告的数字。语义角色标记的跨语言方法的开发充满希望，特别是在解决各种语言注释数据的稀缺性方面。这些进步为跨不同语言环境理解和处理自然语言的进一步研究铺平了道路。

增强物联网环境中的入侵检测：使用 Kolmogorov-Arnold 网络的高级集成方法

分类： 密码学和安全, 人工智能

作者： Amar Amouri, Mohamad Mahmoud Al Rahhal, Yakoub Bazi, Ismail Butun, Imad Mahgoub

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15886v2

摘要： 近年来，机器学习技术的发展对入侵检测领域产生了重大影响，特别是在物联网 (IoT) 背景下。随着物联网网络的扩展，对强大的安全措施来应对潜在威胁的需求变得越来越重要。本文介绍了一种混合入侵检测系统 (IDS)，它将 Kolmogorov-Arnold 网络 (KAN) 与 XGBoost 算法协同结合。我们提出的 IDS 利用了 KAN 的独特功能，即利用可学习的激活函数对数据内的复杂关系进行建模，以及 XGBoost 强大的集成学习技术，该技术以其在分类任务中的高性能而闻名。这种混合方法不仅提高了检测精度，还提高了模型的可解释性，使其适用于动态和复杂的物联网环境。实验评估表明，我们的混合 IDS 在区分良性和恶意活动方面实现了超过 99% 的令人印象深刻的检测准确度。此外，我们还能够实现超过 98% 的 F1 分数、精确度和召回率。此外，我们还与传统的多层感知器 (MLP) 网络进行比较分析，评估精度、召回率和 F1 分数等性能指标。结果强调了将 KAN 与 XGBoost 集成的功效，强调了这种创新方法显着增强物联网网络安全框架的潜力。

使用大型语言模型的说服游戏

分类： 人工智能, 计算和语言

作者： Ganesh Prasath Ramani, Shirish Karande, Santhosh V, Yash Bhatia

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15879v1

摘要： 大型语言模型 (LLM) 已成为能够理解和生成类人文本的强大工具。本文探讨了大语言模型在塑造人类观点并随后影响他们对特定任务的决策方面的潜力。此功能可应用于投资、信用卡和保险等不同领域，帮助用户选择合适的保险单、投资计划、信用卡、零售以及行为改变支持系统 (BCSS)。我们提出了一个复杂的多代理框架，其中代理联盟以协作方式运行。主代理通过说服性对话直接与用户互动，而辅助代理执行信息检索、响应分析、制定说服策略和验证事实等任务。我们实验的经验证据表明，这种协作方法显着增强了大语言模型的说服力。我们不断分析用户对说服努力的抵制，并通过结合使用基于规则和基于 LLM 的抵制说服映射技术来抵消它。我们采用模拟角色并在保险、银行和零售领域生成对话，以评估大型语言模型 (LLM) 在识别、调整和影响各种人格类型方面的熟练程度。同时，我们研究了大语言模型模拟角色所采用的阻力机制。说服力是通过互动前后的可衡量的调查、LLM 生成的对话分数以及用户决策（购买或不购买）来量化的。

异常值分数的稳健统计缩放：提高异常值的异常值概率的质量（扩展版）

分类： 机器学习, 人工智能

作者： Philipp Röchner, Henrique O. Marques, Ricardo J. G. B. Campello, Arthur Zimek, Franz Rothlauf

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15874v1

摘要： 离群值检测算法通常为数据集中的每个观测值分配一个离群值分数，指示观测值的离群值程度。然而，这些分数通常无法在不同算法之间进行比较，并且人类很难解释。统计缩放通过在不使用真实标签的情况下将离群值分数转换为离群值概率来解决这个问题，从而提高算法之间的可解释性和可比性。然而，对于异常值和内部值来说，这种转换的质量可能不同。在特别感兴趣的场景（例如医疗保健、金融或工程）中遗漏异常值可能会代价高昂或危险。因此，确保异常值的良好概率至关重要。本文认为，文献中常用的统计标度对于异常值和内部值来说并不能产生同样好的概率。因此，我们提出稳健的统计缩放，它使用稳健的估计器来提高异常值的概率。我们针对现实世界数据集和异常值检测算法的其他异常值分数转换来评估我们方法的几个变体，它可以提高异常值的概率。

GenDDS：利用提示视频生成模型生成多样化的驾驶视频场景

分类： 计算机视觉和模式识别, 人工智能

作者： Yongjie Fu, Yunlong Li, Xuan Di

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15868v1

摘要： 自动驾驶训练需要各种数据集，包括各种交通状况、天气场景和道路类型。传统的数据增强方法通常很难生成代表罕见情况的数据集。为了应对这一挑战，我们提出了 GenDDS，这是一种利用先进的潜在扩散模型 Stable Diffusion XL (SDXL) 的功能来生成驾驶场景的新方法。我们的方法涉及使用描述性提示来指导合成过程，旨在产生现实且多样化的驾驶场景。借助 ControlNet 和 Hotshot-XL 等最新计算机视觉技术的强大功能，我们与 SDXL 一起构建了完整的视频生成管道。我们使用 KITTI 数据集（其中包括真实世界的驾驶视频）来训练模型。通过一系列的实验，我们证明我们的模型可以生成高质量的驾驶视频，紧密复制现实世界驾驶场景的复杂性和可变性。这项研究有助于开发自动驾驶系统的复杂训练数据，并为创建用于模拟和验证的虚拟环境开辟了新途径。

用于自动化过程工程计算的检索增强指令调整：具有可归因反射的工具链问题解决框架

分类： 软件工程, 人工智能, 机器学习

作者： Sagar Srinivas Sakhinana, Geethan Sannidhi, Venkataramana Runkana

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15866v1

摘要： 当前的技术格局缺乏解决流程工程计算的基础人工智能模型。在这项工作中，我们引入了一种新颖的自主代理框架，利用检索增强指令调优（RAIT）来增强用于这些计算的开放式、可定制的小型代码语言模型（SLM）。通过使用外部工具将指令调整代码 SLM 与检索增强代码生成 (RACG) 相结合，代理可以根据自然语言规范生成、调试和优化代码。我们的方法解决了目前缺乏专门的流程工程任务的基础人工智能模型的局限性，并提供了可解释性、知识编辑和成本效益的好处。此外，我们还整理化学和过程工程问题和解决方案的自定义数据集，以克服数据稀缺的问题。实验结果表明，我们的框架与基准数据集上的大规模专有模型的性能相匹配，证明了其有效性和可用性。

microYOLO：迈向微控制器上的单次目标检测

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Mark Deutel, Christopher Mutschler, Jürgen Teich

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15865v1

摘要： 这篇正在进行的论文介绍了使用 YOLO 在微控制器上进行单次目标检测的可行性结果。像 YOLO 这样的单次目标检测器被广泛使用，但由于它们的复杂性主要在基于 GPU 的大型平台上。我们推出的 microYOLO 可用于基于 Cortex-M 的微控制器（例如 OpenMV H7 R2），在对 128x128 RGB 图像进行分类时实现约 3.5 FPS，同时使用少于 800 KB 闪存和少于 350 KB RAM。此外，我们分享了三种不同目标检测任务的实验结果，分析了 microYOLO 在这些任务上的准确性。

知识导航器：大语言模型引导的科学文献探索性搜索浏览框架

分类： 信息检索, 人工智能, 计算和语言

作者： Uri Katz, Mosh Levy, Yoav Goldberg

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15836v1

摘要： 科学文献的指数级增长需要先进的工具来有效地探索知识。我们推出了知识导航器，这是一个旨在通过将广泛主题查询检索到的文档组织和构建为可导航的命名和描述性科学主题和子主题的两级层次结构来增强探索性搜索能力的系统。这种结构化的组织提供了一个领域中研究主题的总体视图，同时还允许用户细化他们的焦点并检索其他相关文档，从而在特定子主题中实现迭代搜索和更深入的知识发现。 Knowledge Navigator 将 LLM 功能与基于集群的方法相结合，以实现有效的浏览方法。我们通过对两个新颖的基准 CLUSTREC-COVID 和 SCITOC 进行自动和手动评估来证明我们方法的有效性。我们的代码、提示和基准都是公开的。

使用 Transformer 进行车辆行车记录仪的物体检测

分类： 计算机视觉和模式识别, 人工智能

作者： Osama Mustafa, Khizer Ali, Anam Bibi, Imran Siddiqi, Momina Moetesum

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15809v1

摘要： 智能自动化的使用在汽车行业中显着增长，因为它可以帮助驾驶员和车队管理公司，从而提高他们的生产力。行车记录仪现已用于此目的，可以即时识别和了解周围的多个物体和事件。在本文中，我们提出了一种使用变压器在行车记录仪中进行物体检测的新方法。我们的系统基于最先进的 DEtection TRansformer (DETR)，该系统在各种条件下（包括不同的天气和照明场景）都表现出了强大的性能。使用变压器可以在决策时考虑上下文信息，从而提高对象检测的准确性。为了验证我们的方法，我们在代表真实世界条件的数据集上训练了 DETR 模型。我们的结果表明，通过变压器使用智能自动化可以显着增强行车记录仪系统的功能。该模型的检测 mAP 为 0.95。

ModalityMirror：通过多模态蒸馏改进模态异构联合学习中的音频分类

分类： 音频和语音处理, 人工智能, 声音

作者： Tiantian Feng, Tuo Zhang, Salman Avestimehr, Shrikanth S. Narayanan

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15803v1

摘要： 多模态联邦学习经常遇到客户端模态异质性的挑战，导致多模态学习中次要模态的表现不佳。它在视听学习中尤其普遍，音频通常被认为是识别任务中较弱的形式。为了应对这一挑战，我们引入了 ModalityMirror，通过利用视听联合学习模型的知识蒸馏来提高音频模型的性能。 ModalityMirror 涉及两个阶段：模态 FL 阶段，用于聚合单模态编码器；以及多模态客户端的联合知识蒸馏阶段，以训练单模态学生模型。我们的结果表明，与 Harmony 等最先进的 FL 方法相比，ModalityMirror 显着改善了音频分类，特别是在面临视频丢失的视听 FL 方面。我们的方法释放了利用多模态 FL 固有的多样化模态谱的潜力。

在神经形态边缘计算中模拟类脑快速学习

分类： 神经和进化计算, 人工智能

作者： Kenneth Stewart, Michael Neumeier, Sumit Bam Shrestha, Garrick Orchard, Emre Neftci

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15800v1

摘要： 通过实时学习功能在边缘实现个性化智能，在增强我们的日常体验并帮助决策、规划和感知方面具有巨大的前景。然而，由于缺乏个性化数据、硬件能力不足以及在线学习带来的固有挑战，目前的技术仍然难以实现高效可靠的边缘学习。随着时间的推移和跨越多个发展阶段，大脑已经进化到通过逐渐建立以前的知识来有效地吸收新知识。在这项工作中，我们使用数字神经形态技术模拟学习的多个阶段，该技术使用两个学习阶段模拟大脑的神经和突触过程。首先，元训练阶段使用神经形态硬件的可微模拟来训练突触可塑性的超参数，以进行一次性学习。这种元训练过程细化了硬件本地三因素突触可塑性规则及其相关的超参数，以与训练的任务域保持一致。在后续的部署阶段，这些优化的超参数可以实现快速、数据高效且准确的新类学习。我们使用事件驱动的视觉传感器数据和具有可塑性动力学的英特尔 Loihi 神经拟态处理器展示了我们的方法，实现了新类别的实时一次性学习，与迁移学习相比得到了极大的改进。我们的方法可以与任意可塑性模型一起部署，并且可以应用于需要在边缘快速学习和适应的情况，例如导航不熟悉的环境或通过用户参与学习意外的数据类别。

使用大型语言模型的少样本提示评估命名实体识别

分类： 信息检索, 人工智能

作者： Hédi Zhegidi, Ludovic Moncla

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15796v1

摘要： 本文评估了用于命名实体识别 (NER) 的大型语言模型的少样本提示。传统的命名实体识别系统依赖于大量的标记数据集，获取这些数据集既昂贵又耗时。少样本提示或上下文学习使模型能够用最少的示例识别实体。我们在 NER 任务中评估 GPT-4 等最先进的模型，将它们的小样本性能与完全监督的基准进行比较。结果表明，虽然存在性能差距，但大型模型在适应数据非常有限的新实体类型和领域方面表现出色。我们还探讨了即时工程、引导输出格式和上下文长度对性能的影响。这项研究强调了少样本学习在减少对大型标记数据集的需求、增强 NER 可扩展性和可访问性方面的潜力。

LogicGame：大型语言模型基于规则的推理能力的基准测试

分类： 人工智能, 计算和语言

作者： Jiayi Gui, Yiming Liu, Jiale Cheng, Xiaotao Gu, Xiao Liu, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15778v1

摘要： 大型语言模型 (LLM) 在各种任务中表现出了显着的能力，展示了解决复杂问题的能力。理解和执行复杂的规则以及多步骤规划是逻辑推理的基础，对于实际的大语言模型代理和决策系统至关重要。然而，将大语言模型作为有效的基于规则的执行者和规划者的评估仍有待探索。在本文中，我们介绍了 LogicGame，这是一种新颖的基准测试，旨在评估大语言模型的综合规则理解、执行和规划能力。与传统基准不同，LogicGame 提供了包含一系列具有初始状态的规则的多样化游戏，要求模型理解并应用预定义的规则来解决问题。我们创建模拟场景，模型在其中执行或计划操作以实现特定结果。这些游戏场景经过专门设计，通过完全依赖预定义的规则来区分逻辑推理和纯粹的知识。这种分离允许对基于规则的推理能力进行纯粹的评估。评估不仅考虑最终结果，还考虑中间步骤，提供对模型性能的全面评估。而且，这些中间步骤是确定性的，可以自动验证。 LogicGame定义了不同难度级别的游戏场景，从简单的规则应用到复杂的推理链，以精确评估模型在规则理解和多步执行方面的性能。利用 LogicGame，我们测试了各种大语言模型，并发现了他们基于规则的逻辑推理能力的显着缺陷。

简单、可解释、有效：用于语音深度伪造检测的 openSMILE

分类： 音频和语音处理, 人工智能, 声音

作者： Octavian Pascu, Dan Oneata, Horia Cucu, Nicolas M. Müller

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15775v2

摘要： 在本文中，我们证明了最新的 ASVspoof5 数据集（语音真实性和深度造假检测领域的事实标准）中的攻击可以使用一小部分非常简单的特征以令人惊讶的准确度进行识别。它们源自 openSMILE 库，并且是标量值、易于计算且易于人类解释。例如，攻击 A10 的清音段的平均长度为 0.09 ± 0.02，而真实实例的平均长度为 0.18 ± 0.07。单独使用此功能，阈值分类器针对攻击 A10 实现了 10.3% 的等错误率 (EER)。同样，在所有攻击中，我们实现了高达 0.8% 的 EER，总体 EER 为 15.7 ± 6.0%。我们探索了这些功能的泛化能力，发现其中一些功能可以在攻击之间有效转移，主要是当攻击源自类似的文本转语音 (TTS) 架构时。这一发现可能表明，语音反欺骗在一定程度上是识别和记住各个 TTS 系统的签名或指纹的问题。这可以更好地理解反欺骗模型及其在实际应用中的挑战。

多模态大语言模型评估综述

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Jiaxing Huang, Jingyi Zhang

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15769v1

摘要： 多模态大语言模型（MLLM）通过将强大的大语言模型（LLM）与各种模态编码器（例如视觉、音频）集成来模仿人类的感知和推理系统，将LLM定位为“大脑”，将各种模态编码器定位为感觉器官。该框架赋予 MLLM 类似人类的能力，并提出了实现通用人工智能 (AGI) 的潜在途径。随着GPT-4V和Gemini等全能MLLM的出现，人们开发了多种评估方法来评估它们在不同维度的能力。本文对MLLM评估方法进行了系统、全面的回顾，主要包括以下几个方面：（1）MLLM的背景及其评估；（2）“评估内容”，根据评估的能力对现有的 MLLM 评估任务进行审查和分类，包括一般的多模态识别、感知、推理和可信度，以及特定领域的应用，例如社会经济、自然科学与工程、医疗用途、 AI代理、遥感、视音频处理、3D点云分析等；（3）“在哪里评估”，将MLLM评估基准概括为一般基准和特定基准； (4) “如何评估”，回顾并说明 MLLM 评估步骤和指标；我们的首要目标是为 MLLM 评估领域的研究人员提供有价值的见解，从而促进更强大、更可靠的 MLLM 的开发。我们强调，评估应被视为一门关键学科，对于推进 MLLM 领域至关重要。

使用强化学习的自适应交通信号控制

分类： 人工智能

作者： Muhammad Tahir Rafique, Ahmed Mustafa, Hasan Sajid

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15751v1

摘要： 交通需求不断增加，导致主要城市地区出现严重的拥堵问题。建设新的基础设施是一个潜在的解决方案，但会给国民经济带来沉重的财政负担。另一种方法是通过动态控制交叉口的交通信号来优化现有的交通网络。强化学习 (RL) 技术的最新进展已证明其能够解决与交通拥堵相关的复杂性。在本文中，我们提出了一种使用强化学习来解决交通拥堵的方案。我们将状态定义为表示队列长度的标量，证明该算法可以有效地从这种简化的状态表示中学习。这种方法可以通过最大限度地减少交叉口所需的传感器数量来潜在地降低部署成本。我们开发了两种强化学习算法：一种是基于回合的代理，它优先考虑交通流量较高的路口一侧的交通信号；另一种是基于时间的代理，它遵循固定的相位周期，根据交通状况调整相位持续时间。为了评估这些算法的性能，我们设计了四种不同的流量场景，并为每种场景计算了七个评估指标。仿真结果表明，两种算法都优于传统的交通信号控制系统。

基于 POD 的高级分类器性能评估应用于人类驾驶员变道预测

分类： 系统与控制, 人工智能, 机器学习, 系统与控制

作者： Zahra Rastin, Dirk Söffker

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15722v1

摘要： 机器学习 (ML) 分类器是促进各个领域分类和预测的重要工具。应该了解这些算法的性能以确保其可靠的应用。在某些领域，接收器操作特性和精确回忆曲线经常用于评估机器学习算法，而不考虑过程参数的影响。然而，评估这些算法与这些参数相关的性能可能是至关重要的。作为一种能够考虑过程参数影响的性能评估指标，本文使用改进的检测概率（POD）方法来评估基于机器学习的算法的可靠性。例如，基于 POD 的方法用于评估用于预测车辆驾驶员变道行为的 ML 模型。预测（因此未知）车道变换事件的剩余时间被视为过程参数。这里采用 POD 的命中/未命中方法，并通过考虑每个时间步的 ML 算法导出的车道变换概率进行修改，并相应地获得最终的分析结果。与标准命中/未命中方法相比，这提高了结果的可靠性，标准命中/未命中方法将分类器的结果视为 0 或 1，同时与 ^a 与 a 方法相比还简化了评估。将所提出方法的性能评估结果与标准命中/未命中方法和预先开发的 ^a 方法获得的结果进行比较，以验证所提出方法的有效性。比较表明，该方法提供了平均保守行为，其优点是增强了 POD 命中/未命中方法的可靠性，同时保留了其简单性。

使用自适应稀疏 L0 正则化评估模型鲁棒性

分类： 机器学习, 人工智能, F.2.2, I.2.7

作者： Weiyou Liu, Zhenyang Li, Weitong Chen

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15702v1

摘要： 深度神经网络在各个领域都取得了显着的成功，但仍然容易受到对抗性示例的影响，这些示例是为了引起错误分类而稍微改变的输入。虽然对抗性攻击通常在 Lp 范数约束下进行优化，但基于 L0 范数、优先考虑输入稀疏性的攻击由于其复杂性和非凸性而研究较少。这些稀疏的对抗性示例通过改变最小的特征子集来挑战现有的防御，可能会发现更微妙的 DNN 弱点。然而，当前的 L0 范数攻击方法面临着准确性和效率之间的权衡，要么精确但计算量大，要么方便但不精确。本文提出了一种新颖、可扩展且有效的方法来生成基于 L0 范数的对抗性示例，旨在改进 DNN 针对此类扰动的鲁棒性评估。

G-Style：程式化高斯泼溅

分类： 图形, 人工智能, 计算机视觉和模式识别

作者： Áron Samuel Kovács, Pedro Hermosilla, Renata G. Raidou

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15695v1

摘要： 我们引入了 G-Style，这是一种新颖的算法，旨在将图像的风格转移到使用高斯泼溅表示的 3D 场景上。高斯泼溅是一种用于新颖视图合成的强大 3D 表示，与基于神经辐射场的其他方法相比，它提供了快速的场景渲染和用户对场景的控制。最近的预印本表明，可以使用图像样本来修改高斯飞溅场景的风格。然而，由于场景几何在风格化过程中保持固定，当前的解决方案无法产生令人满意的结果。我们的算法旨在通过以下三步过程来解决这些限制：在预处理步骤中，我们删除具有大投影面积或高度细长形状的不需要的高斯分布。随后，我们结合了精心设计的几种损失，以保留图像中不同比例的风格，同时尽可能保持原始场景内容的完整性。在风格化过程中，遵循高斯泼溅的原始设计，我们通过跟踪风格化颜色的梯度，在场景中需要额外细节的地方分割高斯。我们的实验表明，G-Style 在短短几分钟内即可生成高质量的样式化，在质量和数量上均优于现有方法。

一种极其高效的数据效率和基于 LLM 的生成式推荐器强化学习代理

分类： 机器学习, 人工智能, 信息检索

作者： Shuang Feng, Grace Feng

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16032v1

摘要： 大语言模型 (LLM) 的最新进展使人们能够理解网页上下文、产品详细信息和人工指令。利用大语言模型作为强化学习奖励模型或策略的基础架构已经受到欢迎——一个显着的成就是 InstructGPT 的成功。强化学习算法在最大限度地提高长期客户满意度和避免工业推荐系统中的短期短视目标方面发挥了重要作用，而工业推荐系统通常依赖深度学习模型来预测即时点击或购买。在该项目中，使用 WebShop 基准环境、数据、模拟器和预训练模型检查点来实现和评估多种 RL 方法。目标是训练 RL 代理，在给出描述所需产品的详细人工指令的情况下最大化购买奖励。 RL 代理的开发方法是对具有各种目标的预训练 BERT 模型进行微调，在没有奖励模型的情况下从偏好中学习，并采用现代训练技术，例如 InstructGPT 中使用的近端策略优化 (PPO) 和直接偏好优化 (数据保护专员）。该报告还评估了使用生成轨迹训练的强化学习智能体。评估是在 WebShop 模拟器环境中使用 Thompson 抽样进行的。模拟在线实验表明，在生成轨迹上训练的智能体表现出与使用人类轨迹训练的智能体相当的任务性能。这展示了一种训练强化学习代理的极其低成本的数据高效方法的示例。此外，在有限的训练时间（<2 小时）、不使用任何图像的情况下，DPO 代理在 T4 GPU 上训练大约 3000 个步骤或 30 分钟后取得了 19% 的成功率，而 PPO 代理的成功率达到了 15%速度。

EMP：增强数据修剪中的记忆

分类： 机器学习, 人工智能

作者： Jinying Xiao, Ping Li, Jie Nie, Zhe Tang

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16031v1

摘要： 最近，大型语言和视觉模型表现出了强大的性能，但由于预训练和微调成本较高，研究已转向通过数据集修剪来加快训练速度。以往的方法以样本损失作为评价标准，旨在选择最“难”的样本进行训练。然而，当剪枝率增加时，每个样本的训练次数变得更加均匀，这会导致许多关键或一般样本无法有效拟合。我们将此称为低频学习（LFL）。换句话说，LFL 会阻止模型记住大多数样本。在我们的工作中，我们分解了LFL的评分函数，为LFL的低效率提供了理论解释，并提出在评分函数中添加一个记忆项以增强模型的记忆能力，以及该记忆项的近似值。同样，我们探索了自监督学习 (SSL) 中的记忆，这是关于 SSL 记忆的首次讨论。使用对比学习，我们从理论上和实验上推导了记忆术语。最后，我们提出了增强内存剪枝（EMP），通过增强模型对数据的记忆来解决高剪枝率下内存不足的问题，从而提高其性能。我们评估了 EMP 在图像分类、自然语言理解和模型预训练等任务中的性能。结果表明，EMP 可以在极端剪枝率下提高模型性能。例如，在 CIFAR100-ResNet50 预训练任务中，在剪枝率为 70% 的情况下，EMP 的性能比当前方法高出 2.2%。

基于打鼾声音定位多级气道塌陷的深度学习方法

分类： 声音, 人工智能, 机器学习, 音频和语音处理

作者： Ying-Chieh Hsu, Stanley Yung-Chuan Liu, Chao-Jung Huang, Chi-Wei Wu, Ren-Kai Cheng, Jane Yung-Jen Hsu, Shang-Ran Huang, Yuan-Ren Cheng, Fu-Shun Hsu

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16030v1

摘要： 本研究利用药物诱导睡眠内窥镜检查 (DISE) 的数据，探讨了机器/深度学习的应用，对阻塞性睡眠呼吸暂停 (OSA) 患者上呼吸道不同级别兴奋的打鼾声音进行分类。根据 Velum、Orophynx、Tongue Base 和 Epiglottis (VOTE) 分类系统对 39 名受试者的鼾声进行分析和标记。该数据集包含 5,173 个一秒片段，用于训练和测试模型，包括支持向量机 (SVM)、双向长短期记忆 (BiLSTM) 和 ResNet-50。 ResNet-50 是一种卷积神经网络 (CNN)，在打鼾声学分类方面表现出最佳的整体性能，特别是在识别多级障碍物方面。该研究强调了将打鼾声学与深度学习相结合以改善 OSA 诊断和治疗的潜力。然而，我们注意到样本量有限、数据不平衡以及药物诱导的鼾声和自然鼾声之间的差异等挑战，建议进一步研究以提高模型的准确性和普遍性。

用于数据科学代码生成的自校正大型语言模型的实证研究

分类： 软件工程, 人工智能

作者： Thai Tang Quoc, Duc Ha Minh, Tho Quan Thanh, Anh Nguyen-Duc

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15658v1

摘要： 大型语言模型（LLM）最近在软件工程任务上推进了许多应用，特别是代码生成的潜力。在当代的挑战中，大语言模型生成的代码经常存在不准确和幻觉，需要外部输入来纠正。解决这些问题的最新策略是使用模型本身（自我增强）的输入来改进大语言模型生成的代码。在这项工作中，我们提出了一种新方法，即 CoT-SelfEvolve。 CoT-SelfEvolve 在现实世界编程问题反馈构建的思想链的指导下，通过自我纠正过程迭代地自动完善代码。我们专注于数据科学代码，包括 NumPy 和 Pandas 等 Python 库，对 DS-1000 数据集的评估表明，CoT-SelfEvolve 在解决复杂问题方面显着优于现有模型。该框架在初始代码生成和后续迭代方面都显示出显着的改进，模型的准确性随着每次额外的迭代而显着提高。这凸显了使用思维链提示来解决程序执行器回溯错误消息所揭示的复杂性的有效性。我们还讨论了如何将 CoT-SelfEvolve 集成到持续软件工程环境中，为改进基于 LLM 的代码生成提供实用的解决方案。

利用预训练语言模型的内在知识来应对文本分类设置的挑战

分类： 计算和语言, 人工智能

作者： Lingyu Gao

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15650v1

摘要： 文本分类对于情感分析和有毒文本过滤等应用至关重要，但由于自然语言的复杂性和歧义性，它仍然面临挑战。深度学习的最新进展，特别是 Transformer 架构和大规模预训练，在 NLP 领域取得了鼓舞人心的成功。在这些进步的基础上，本文利用预训练语言模型 (PLM) 的内在知识，探讨了文本分类中的三个具有挑战性的设置。首先，为了解决为完形填空问题选择误导性且不正确的干扰项的挑战，我们开发了利用基于 PLM 上下文化单词表示的特征的模型，实现了与人类准确性相媲美或超越的性能。其次，为了增强模型对未见标签的泛化能力，我们创建了具有与领域无关的任务标签描述的小型微调数据集，从而提高了模型性能和鲁棒性。最后，我们通过选择有效的演示、关注错误分类的示例并解决有关测试示例标签的模型歧义来解决大型语言模型对上下文学习提示的敏感性。

知识图的分层块建模

分类： 人工智能

作者： Marcin Pietrasik, Marek Reformat, Anna Wilbik

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15649v1

摘要： 在本文中，我们研究了概率图模型（特别是随机块模型）的使用，以实现知识图上的分层实体聚类。这些模型在语义 Web 社区中很少使用，它们将图分解为一组概率分布。然后推断这些分布的参数，以便随后对其进行采样以生成随机图。在非参数设置中，这允许在不对层次结构进行事先限制的情况下引入层次聚类。具体来说，这是通过将嵌套中餐厅流程和破棍流程整合到生成模型中来实现的。在这方面，我们提出了一个利用这种集成的模型，并推导出一个折叠吉布斯采样方案用于其推理。为了帮助理解，我们描述了该推导的步骤并提供了采样器的实现。我们在合成数据集和真实数据集上评估我们的模型，并与基准模型进行定量比较。我们进一步定性评估我们的结果，并发现我们的模型能够在小规模环境中引入连贯的聚类层次结构。本文提出的工作为更大规模地进一步应用随机块模型知识图谱提供了第一步。我们在本文的结尾提出了未来研究更具可扩展性的推理方案的潜在途径。

GAN 调节方法：调查

分类： 机器学习, 人工智能

作者： Anis Bourou, Auguste Genovesio, Valérie Mezger

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15640v2

摘要： 近年来，生成对抗网络（GAN）取得了显着的进步，导致其在各个领域得到广泛采用。原始的 GAN 架构无需对内容进行任何特定控制即可生成图像，使其成为无条件的生成过程。然而，许多实际应用需要对生成的输出进行精确控制，这导致了条件 GAN (cGAN) 的发展，它结合了显式条件来指导生成过程。 cGAN 通过纳入附加信息（条件）来扩展原始框架，从而能够生成符合特定标准的样本。已经提出了各种调节方法，每种方法的不同之处在于如何将调节信息集成到生成器和鉴别器网络中。在这项工作中，我们回顾了为 GAN 提出的调节方法，探讨了每种方法的特点，并强调了它们独特的机制和理论基础。此外，我们对这些方法进行了比较分析，评估它们在各种图像数据集上的性能。通过这些分析，我们的目标是深入了解各种调节技术的优点和局限性，指导生成建模的未来研究和应用。

基于 SERL 的轻型双足机器人结构优化

分类： 系统与控制, 人工智能, 系统与控制

作者： Yi Cheng, Chenxi Han, Yuheng Min, Linqi Ye, Houde Liu, Hang Liu

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15632v1

摘要： 设计双足机器人是一项复杂且具有挑战性的任务，尤其是在处理大量结构参数时。传统的设计方法往往依赖于人类的直觉和经验。然而，此类方法耗时耗力，缺乏理论指导，难以在广阔的设计空间内获得最优设计结果，无法充分发挥机器人固有的性能潜力。在此背景下，本文介绍了SERL（结构进化强化学习）算法，它将运动任务的强化学习与进化算法相结合。目的是确定给定多维设计空间内的最佳参数组合。通过SERL算法，我们成功设计了一款名为Wow Orin的双足机器人，该机器人根据身体结构和电机扭矩通过优化获得最佳腿部长度。我们通过实验验证了 SERL 算法的有效性，该算法能够在指定的设计空间和任务条件下优化最佳结构。此外，为了评估我们设计的机器人与当前最先进的机器人之间的性能差距，我们将 Wow Orin 与主流双足机器人 Cassie 和 Unitree H1 进行了比较。一系列实验结果证明了Wow Orin杰出的能效和性能，进一步验证了SERL算法应用于实际设计的可行性。

多个物理指标的集成模型对自闭症谱系障碍的动态表型

分类： 计算机视觉和模式识别, 人工智能

作者： Marie Huynh, Aaron Kline, Saimourya Surabhi, Kaitlyn Dunlap, Onur Cezmi Mutlu, Mohammadmahdi Honarmand, Parnian Azizian, Peter Washington, Dennis P. Wall

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13255v1

摘要： 自闭症是一种以社交沟通障碍为特征的神经发育障碍，早期发现对于及时干预至关重要。最近的进展利用了通过移动应用程序 GuessWhat 捕获的自然主义家庭视频。通过儿童与其监护人之间玩的互动游戏，GuessWhat 收集了来自 382 名儿童的 3,000 多个结构化视频，这些儿童均被诊断患有自闭症谱系障碍 (ASD)。该集合提供了强大的数据集，用于训练计算机视觉模型以检测 ASD 相关表型标记，包括情绪表达、眼神接触和头部运动的变化。我们开发了一个协议来从这个数据集中策划高质量的视频，形成一个全面的训练集。利用这个集合，我们使用眼睛注视、头部位置和面部标志作为输入特征来训练基于 LSTM 的模型，分别实现了 86%、67% 和 78% 的测试 AUC。为了提高诊断准确性，我们应用后期融合技术来创建集成模型，将整体 AUC 提高到 90%。这种方法还在不同性别和年龄组中产生了更公平的结果。我们的方法通过潜在地减少对主观评估的依赖并使早期识别更加容易和公平，在自闭症谱系障碍的早期检测方面向前迈出了重要一步。

LLM 应用程序的数据泄露：对 OpenAI 的 GPT 的深入调查

分类： 密码学和安全, 人工智能, 计算和语言, 计算机与社会, 机器学习

作者： Evin Jaff, Yuhao Wu, Ning Zhang, Umar Iqbal

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13247v1

摘要： LLM 应用程序生态系统正在迅速成熟并支持广泛的用例，这要求它们收集过多的用户数据。鉴于大语言模型应用程序是由第三方开发的，并且有证据表明大语言模型平台目前没有严格执行其政策，与任意第三方共享的用户数据会带来重大的隐私风险。在本文中，我们的目标是提高大语言模型应用程序数据实践的透明度。作为案例研究，我们研究了 OpenAI 的 GPT 应用生态系统。我们开发了一个基于 LLM 的框架，对基于自然语言的 GPT 源代码及其操作（外部服务）进行静态分析，以表征其数据收集实践。我们的研究结果表明，Actions 收集了大量有关用户的数据，包括 OpenAI 禁止的敏感信息，例如密码。我们发现一些操作（包括与广告和分析相关的操作）嵌入在多个 GPT 中，这使得它们能够跨 GPT 跟踪用户活动。此外，与单个操作相比，同时出现的操作向其暴露的数据多出 9.5 倍。最后，我们开发了一个基于LLM的隐私政策分析框架，以自动检查Actions收集的数据与其隐私政策中披露的一致性。我们的测量表明，隐私政策中省略了大多数收集的数据类型的披露，只有 5.8% 的炬力明确披露了其数据收集实践。

JacNet：使用结构化雅可比行列式学习函数

分类： 机器学习, 人工智能, 机器学习, 68T07, I.2.6; G.1.0; I.5.1

作者： Jonathan Lorraine, Safwan Hossain

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13237v1

摘要： 神经网络被训练来学习从输入域到目标域的近似映射。结合真实映射的先验知识对于学习有用的近似值至关重要。对于当前的架构，在输入输出映射的导数上强制执行结构具有挑战性。我们建议使用神经网络直接学习输入输出函数的雅可比行列式，这样可以轻松控制导数。我们专注于构造导数以允许可逆性，并证明可以强制执行其他有用的先验，例如 $k$-Lipschitz。使用这种方法，我们可以学习保证可逆的简单函数的近似值，并轻松计算逆函数。我们还展示了 1-Lipschitz 函数的类似结果。

多层变压器梯度可以在几乎线性时间内近似

分类： 机器学习, 人工智能, 计算和语言

作者： Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13233v1

摘要： 流行的 Transformer 架构的自注意力机制中的二次计算复杂性给训练和推理带来了重大挑战，特别是在效率和内存要求方面。为了解决这些挑战，本文引入了一种新颖的快速计算方法，用于多层变压器模型中的梯度计算。我们的方法能够在几乎线性的时间内计算整个多层变压器模型的梯度 $n^{1+o(1)}$，其中 $n$ 是输入序列长度。这一突破显着减少了与传统二次时间复杂度相关的计算瓶颈。我们的理论适用于任何损失函数，并在整个模型中保持有界近似误差。此外，当多层变压器模型包含许多实用的子模块（例如残差连接、随意掩模和多头注意力）时，我们的分析是成立的。通过提高大型语言模型中梯度计算的效率，我们希望我们的工作能够基于我们的理论结果促进长上下文语言模型的更有效的训练和部署。

通过模块化提示组合优化多任务提示调整，增强少样本迁移学习

分类： 人工智能, 计算和语言

作者： Ahmad Pouramini, Hesham Faili

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13227v1

摘要： 近年来，多任务提示调优因其固有的模块化性和增强跨不同任务的参数高效迁移学习的潜力而引起了广泛关注。本文旨在通过促进多任务设置中相应提示之间的知识转移来分析和提高多个任务的性能。我们提出的方法将每个目标任务的提示分解为共享提示（源提示）和特定于任务的提示（私有提示）的组合。在训练过程中，源提示会进行微调，并与私人提示集成，以驱动每项任务的目标提示。我们提出并比较了组合源提示来构造目标提示的多种方法，分析了源提示和私有提示在每种方法中的作用。我们调查它们对任务绩效的贡献，并根据这些见解提供灵活、可调整的配置以优化绩效。与传统的提示调整实践和相关工作相比，我们的实证研究结果清楚地展示了准确性和稳健性的改进。值得注意的是，我们的结果在几次设置中大大优于该领域的其他方法，在跨 GLUE 基准测试的各种任务以及其他任务中展示了卓越的性能。这一成就是通过显着减少训练数据量来实现的，这使得我们的方法对于少样本设置来说是一种有前途的方法。

HBIC: A Biclustering Algorithm for Heterogeneous Datasets

分类： 机器学习, 人工智能

作者： Adán José-García, Julie Jacques, Clément Chauvet, Vincent Sobanski, Clarisse Dhaenens

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13217v1

摘要： Biclustering is an unsupervised machine-learning approach aiming to cluster rows and columns simultaneously in a data matrix. Several biclustering algorithms have been proposed for handling numeric datasets. However, real-world data mining problems often involve heterogeneous datasets with mixed attributes. To address this challenge, we introduce a biclustering approach called HBIC, capable of discovering meaningful biclusters in complex heterogeneous data, including numeric, binary, and categorical data. The approach comprises two stages: bicluster generation and bicluster model selection. In the initial stage, several candidate biclusters are generated iteratively by adding and removing rows and columns based on the frequency of values in the original matrix. In the second stage, we introduce two approaches for selecting the most suitable biclusters by considering their size and homogeneity. Through a series of experiments, we investigated the suitability of our approach on a synthetic benchmark and in a biomedical application involving clinical data of systemic sclerosis patients. The evaluation comparing our method to existing approaches demonstrates its ability to discover high-quality biclusters from heterogeneous data. Our biclustering approach is a starting point for heterogeneous bicluster discovery, leading to a better understanding of complex underlying data structures.

EUR-USD Exchange Rate Forecasting Based on Information Fusion with Large Language Models and Deep Learning Methods

分类： 计算金融, 人工智能, 计算工程、金融和科学, 计算和语言

作者： Hongcheng Ding, Xuanze Zhao, Zixiao Jiang, Shamsul Nahar Abdullah, Deshinta Arrova Dewi

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13214v1

摘要： Accurate forecasting of the EUR/USD exchange rate is crucial for investors, businesses, and policymakers. This paper proposes a novel framework, IUS, that integrates unstructured textual data from news and analysis with structured data on exchange rates and financial indicators to enhance exchange rate prediction. The IUS framework employs large language models for sentiment polarity scoring and exchange rate movement classification of texts. These textual features are combined with quantitative features and input into a Causality-Driven Feature Generator. An Optuna-optimized Bi-LSTM model is then used to forecast the EUR/USD exchange rate. Experiments demonstrate that the proposed method outperforms benchmark models, reducing MAE by 10.69% and RMSE by 9.56% compared to the best performing baseline. Results also show the benefits of data fusion, with the combination of unstructured and structured data yielding higher accuracy than structured data alone. Furthermore, feature selection using the top 12 important quantitative features combined with the textual features proves most effective. The proposed IUS framework and Optuna-Bi-LSTM model provide a powerful new approach for exchange rate forecasting through multi-source data integration.

Optimal Quantum Circuit Design via Unitary Neural Networks

分类： 量子物理学, 人工智能

作者： M. Zomorodi, H. Amini, M. Abbaszadeh, J. Sohrabi, V. Salari, P. Plawiak

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13211v1

摘要： The process of translating a quantum algorithm into a form suitable for implementation on a quantum computing platform is crucial but yet challenging. This entails specifying quantum operations with precision, a typically intricate task. In this paper, we present an alternative approach: an automated method for synthesizing the functionality of a quantum algorithm into a quantum circuit model representation. Our methodology involves training a neural network model using diverse input-output mappings of the quantum algorithm. We demonstrate that this trained model can effectively generate a quantum circuit model equivalent to the original algorithm. Remarkably, our observations indicate that the trained model achieves near-perfect mapping of unseen inputs to their respective outputs.

Temporal Fairness in Decision Making Problems

分类： 人工智能

作者： Manuel R. Torres, Parisa Zehtabi, Michael Cashmore, Daniele Magazzeni, Manuela Veloso

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13208v1

摘要： In this work we consider a new interpretation of fairness in decision making problems. Building upon existing fairness formulations, we focus on how to reason over fairness from a temporal perspective, taking into account the fairness of a history of past decisions. After introducing the concept of temporal fairness, we propose three approaches that incorporate temporal fairness in decision making problems formulated as optimization problems. We present a qualitative evaluation of our approach in four different domains and compare the solutions against a baseline approach that does not consider the temporal aspect of fairness.

DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation

分类： 人工智能, 软件工程

作者： Qiming Zhu, Jialun Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Shing-Chi Cheung

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13204v1

摘要： Code benchmarks such as HumanEval are widely adopted to evaluate the capabilities of Large Language Models (LLMs), providing insights into their strengths and weaknesses. However, current benchmarks primarily exercise LLMs' capability on common coding tasks (e.g., bubble sort, greatest common divisor), leaving domain-specific coding tasks (e.g., computation, system, cryptography) unexplored. To fill this gap, we propose a multi-domain code benchmark, DOMAINEVAL, designed to evaluate LLMs' coding capabilities thoroughly. Our pipeline works in a fully automated manner, enabling a push-bottom construction from code repositories into formatted subjects under study. Interesting findings are observed by evaluating 12 representative LLMs against DOMAINEVAL. We notice that LLMs are generally good at computation tasks while falling short on cryptography and system coding tasks. The performance gap can be as much as 68.94% (80.94% - 12.0%) in some LLMs. We also observe that generating more samples can increase the overall performance of LLMs, while the domain bias may even increase. The contributions of this study include a code generation benchmark dataset DOMAINEVAL, encompassing six popular domains, a fully automated pipeline for constructing code benchmarks, and an identification of the limitations of LLMs in code generation tasks based on their performance on DOMAINEVAL, providing directions for future research improvements. The leaderboard is available at https://domaineval.github.io/.

Instruct-DeBERTa: A Hybrid Approach for Aspect-based Sentiment Analysis on Textual Reviews

分类： 计算和语言, 人工智能

作者： Dineth Jayakody, A V A Malkith, Koshila Isuranda, Vishal Thenuwara, Nisansa de Silva, Sachintha Rajith Ponnamperuma, G G N Sandamali, K L K Sudheera

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13202v1

摘要： Aspect-based Sentiment Analysis (ABSA) is a critical task in Natural Language Processing (NLP) that focuses on extracting sentiments related to specific aspects within a text, offering deep insights into customer opinions. Traditional sentiment analysis methods, while useful for determining overall sentiment, often miss the implicit opinions about particular product or service features. This paper presents a comprehensive review of the evolution of ABSA methodologies, from lexicon-based approaches to machine learning and deep learning techniques. We emphasize the recent advancements in Transformer-based models, particularly Bidirectional Encoder Representations from Transformers (BERT) and its variants, which have set new benchmarks in ABSA tasks. We focused on finetuning Llama and Mistral models, building hybrid models using the SetFit framework, and developing our own model by exploiting the strengths of state-of-the-art (SOTA) Transformer-based models for aspect term extraction (ATE) and aspect sentiment classification (ASC). Our hybrid model Instruct - DeBERTa uses SOTA InstructABSA for aspect extraction and DeBERTa-V3-baseabsa-V1 for aspect sentiment classification. We utilize datasets from different domains to evaluate our model's performance. Our experiments indicate that the proposed hybrid model significantly improves the accuracy and reliability of sentiment analysis across all experimented domains. As per our findings, our hybrid model Instruct - DeBERTa is the best-performing model for the joint task of ATE and ASC for both SemEval restaurant 2014 and SemEval laptop 2014 datasets separately. By addressing the limitations of existing methodologies, our approach provides a robust solution for understanding detailed consumer feedback, thus offering valuable insights for businesses aiming to enhance customer satisfaction and product development.

Accelerating the k-means++ Algorithm by Using Geometric Information

分类： 机器学习, 人工智能, 91C20

作者： Guillem Rodríguez Corominas, Maria J. Blesa, Christian Blum

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13189v1

摘要： In this paper, we propose an acceleration of the exact k-means++ algorithm using geometric information, specifically the Triangle Inequality and additional norm filters, along with a two-step sampling procedure. Our experiments demonstrate that the accelerated version outperforms the standard k-means++ version in terms of the number of visited points and distance calculations, achieving greater speedup as the number of clusters increases. The version utilizing the Triangle Inequality is particularly effective for low-dimensional data, while the additional norm-based filter enhances performance in high-dimensional instances with greater norm variance among points. Additional experiments show the behavior of our algorithms when executed concurrently across multiple jobs and examine how memory performance impacts practical speedup.

Say No to Freeloader: Protecting Intellectual Property of Your Deep Model

分类： 人工智能

作者： Lianyu Wang, Meng Wang, Huazhu Fu, Daoqiang Zhang

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13161v1

摘要： Model intellectual property (IP) protection has attracted growing attention as science and technology advancements stem from human intellectual labor and computational expenses. Ensuring IP safety for trainers and owners is of utmost importance, particularly in domains where ownership verification and applicability authorization are required. A notable approach to safeguarding model IP involves proactively preventing the use of well-trained models of authorized domains from unauthorized domains. In this paper, we introduce a novel Compact Un-transferable Pyramid Isolation Domain (CUPI-Domain) which serves as a barrier against illegal transfers from authorized to unauthorized domains. Drawing inspiration from human transitive inference and learning abilities, the CUPI-Domain is designed to obstruct cross-domain transfers by emphasizing the distinctive style features of the authorized domain. This emphasis leads to failure in recognizing irrelevant private style features on unauthorized domains. To this end, we propose novel CUPI-Domain generators, which select features from both authorized and CUPI-Domain as anchors. Then, we fuse the style features and semantic features of these anchors to generate labeled and style-rich CUPI-Domain. Additionally, we design external Domain-Information Memory Banks (DIMB) for storing and updating labeled pyramid features to obtain stable domain class features and domain class-wise style features. Based on the proposed whole method, the novel style and discriminative loss functions are designed to effectively enhance the distinction in style and discriminative features between authorized and unauthorized domains, respectively. Moreover, we provide two solutions for utilizing CUPI-Domain based on whether the unauthorized domain is known: target-specified CUPI-Domain and target-free CUPI-Domain.

Causal machine learning for sustainable agroecosystems

分类： 机器学习, 人工智能, 计算机与社会

作者： Vasileios Sitokonstantinou, Emiliano Díaz Salas Porras, Jordi Cerdà Bautista, Maria Piles, Ioannis Athanasiadis, Hannah Kerner, Giulia Martini, Lily-belle Sweet, Ilias Tsoumas, Jakob Zscheischler, Gustau Camps-Valls

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13155v1

摘要： In a changing climate, sustainable agriculture is essential for food security and environmental health. However, it is challenging to understand the complex interactions among its biophysical, social, and economic components. Predictive machine learning (ML), with its capacity to learn from data, is leveraged in sustainable agriculture for applications like yield prediction and weather forecasting. Nevertheless, it cannot explain causal mechanisms and remains descriptive rather than prescriptive. To address this gap, we propose causal ML, which merges ML's data processing with causality's ability to reason about change. This facilitates quantifying intervention impacts for evidence-based decision-making and enhances predictive model robustness. We showcase causal ML through eight diverse applications that benefit stakeholders across the agri-food chain, including farmers, policymakers, and researchers.

ShapeICP: Iterative Category-level Object Pose and Shape Estimation from Depth

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Yihao Zhang, John J. Leonard

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13147v1

摘要： Category-level object pose and shape estimation from a single depth image has recently drawn research attention due to its wide applications in robotics and self-driving. The task is particularly challenging because the three unknowns, object pose, object shape, and model-to-measurement correspondences, are compounded together but only a single view of depth measurements is provided. The vast majority of the prior work heavily relies on data-driven approaches to obtain solutions to at least one of the unknowns and typically two, running with the risk of failing to generalize to unseen domains. The shape representations used in the prior work also mainly focus on point cloud and signed distance field (SDF). In stark contrast to the prior work, we approach the problem using an iterative estimation method that does not require learning from any pose-annotated data. In addition, we adopt a novel mesh-based object active shape model that has not been explored by the previous literature. Our algorithm, named ShapeICP, has its foundation in the iterative closest point (ICP) algorithm but is equipped with additional features for the category-level pose and shape estimation task. The results show that even without using any pose-annotated data, ShapeICP surpasses many data-driven approaches that rely on the pose data for training, opening up new solution space for researchers to consider.

Verification of Geometric Robustness of Neural Networks via Piecewise Linear Approximation and Lipschitz Optimisation

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Ben Batten, Yang Zheng, Alessandro De Palma, Panagiotis Kouvaros, Alessio Lomuscio

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13140v1

摘要： We address the problem of verifying neural networks against geometric transformations of the input image, including rotation, scaling, shearing, and translation. The proposed method computes provably sound piecewise linear constraints for the pixel values by using sampling and linear approximations in combination with branch-and-bound Lipschitz optimisation. A feature of the method is that it obtains tighter over-approximations of the perturbation region than the present state-of-the-art. We report results from experiments on a comprehensive set of benchmarks. We show that our proposed implementation resolves more verification cases than present approaches while being more computationally efficient.

Deep Learning at the Intersection: Certified Robustness as a Tool for 3D Vision

分类： 计算机视觉和模式识别, 人工智能

作者： Gabriel Pérez S, Juan C. Pérez, Motasem Alfarra, Jesús Zarzar, Sara Rojas, Bernard Ghanem, Pablo Arbeláez

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13135v1

摘要： This paper presents preliminary work on a novel connection between certified robustness in machine learning and the modeling of 3D objects. We highlight an intriguing link between the Maximal Certified Radius (MCR) of a classifier representing a space's occupancy and the space's Signed Distance Function (SDF). Leveraging this relationship, we propose to use the certification method of randomized smoothing (RS) to compute SDFs. Since RS' high computational cost prevents its practical usage as a way to compute SDFs, we propose an algorithm to efficiently run RS in low-dimensional applications, such as 3D space, by expressing RS' fundamental operations as Gaussian smoothing on pre-computed voxel grids. Our approach offers an innovative and practical tool to compute SDFs, validated through proof-of-concept experiments in novel view synthesis. This paper bridges two previously disparate areas of machine learning, opening new avenues for further exploration and potential cross-domain advancements.

DeTPP: Leveraging Object Detection for Robust Long-Horizon Event Prediction

分类： 机器学习, 人工智能

作者： Ivan Karpukhin, Andrey Savchenko

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13131v1

摘要： Forecasting future events over extended periods, known as long-horizon prediction, is a fundamental task in various domains, including retail, finance, healthcare, and social networks. Traditional methods, such as Marked Temporal Point Processes (MTPP), typically use autoregressive models to predict multiple future events. However, these models frequently encounter issues such as converging to constant or repetitive outputs, which significantly limits their effectiveness and applicability. To overcome these limitations, we propose DeTPP (Detection-based Temporal Point Processes), a novel approach inspired by object detection methods from computer vision. DeTPP utilizes a novel matching-based loss function that selectively focuses on reliably predictable events, enhancing both training robustness and inference diversity. Our method sets a new state-of-the-art in long-horizon event prediction, significantly outperforming existing MTPP and next-K approaches. The implementation of DeTPP is publicly available on GitHub.

Map-Free Visual Relocalization Enhanced by Instance Knowledge and Depth Knowledge

分类： 计算机视觉和模式识别, 人工智能

作者： Mingyu Xiao, Runze Chen, Haiyong Luo, Fang Zhao, Juan Wang, Xuepeng Ma

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13085v1

摘要： Map-free relocalization technology is crucial for applications in autonomous navigation and augmented reality, but relying on pre-built maps is often impractical. It faces significant challenges due to limitations in matching methods and the inherent lack of scale in monocular images. These issues lead to substantial rotational and metric errors and even localization failures in real-world scenarios. Large matching errors significantly impact the overall relocalization process, affecting both rotational and translational accuracy. Due to the inherent limitations of the camera itself, recovering the metric scale from a single image is crucial, as this significantly impacts the translation error. To address these challenges, we propose a map-free relocalization method enhanced by instance knowledge and depth knowledge. By leveraging instance-based matching information to improve global matching results, our method significantly reduces the possibility of mismatching across different objects. The robustness of instance knowledge across the scene helps the feature point matching model focus on relevant regions and enhance matching accuracy. Additionally, we use estimated metric depth from a single image to reduce metric errors and improve scale recovery accuracy. By integrating methods dedicated to mitigating large translational and rotational errors, our approach demonstrates superior performance in map-free relocalization techniques.

Multivariate Time-Series Anomaly Detection based on Enhancing Graph Attention Networks with Topological Analysis

分类： 机器学习, 人工智能

作者： Zhe Liu, Xiang Huang, Jingyun Zhang, Zhifeng Hao, Li Sun, Hao Peng

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13082v1

摘要： Unsupervised anomaly detection in time series is essential in industrial applications, as it significantly reduces the need for manual intervention. Multivariate time series pose a complex challenge due to their feature and temporal dimensions. Traditional methods use Graph Neural Networks (GNNs) or Transformers to analyze spatial while RNNs to model temporal dependencies. These methods focus narrowly on one dimension or engage in coarse-grained feature extraction, which can be inadequate for large datasets characterized by intricate relationships and dynamic changes. This paper introduces a novel temporal model built on an enhanced Graph Attention Network (GAT) for multivariate time series anomaly detection called TopoGDN. Our model analyzes both time and feature dimensions from a fine-grained perspective. First, we introduce a multi-scale temporal convolution module to extract detailed temporal features. Additionally, we present an augmented GAT to manage complex inter-feature dependencies, which incorporates graph topology into node features across multiple scales, a versatile, plug-and-play enhancement that significantly boosts the performance of GAT. Our experimental results confirm that our approach surpasses the baseline models on four datasets, demonstrating its potential for widespread application in fields requiring robust anomaly detection. The code is available at https://github.com/ljj-cyber/TopoGDN.

AEMLO: AutoEncoder-Guided Multi-Label Oversampling

分类： 机器学习, 人工智能

作者： Ao Zhou, Bin Liu, Jin Wang, Kaiwei Sun, Kelin Liu

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13078v1

摘要： Class imbalance significantly impacts the performance of multi-label classifiers. Oversampling is one of the most popular approaches, as it augments instances associated with less frequent labels to balance the class distribution. Existing oversampling methods generate feature vectors of synthetic samples through replication or linear interpolation and assign labels through neighborhood information. Linear interpolation typically generates new samples between existing data points, which may result in insufficient diversity of synthesized samples and further lead to the overfitting issue. Deep learning-based methods, such as AutoEncoders, have been proposed to generate more diverse and complex synthetic samples, achieving excellent performance on imbalanced binary or multi-class datasets. In this study, we introduce AEMLO, an AutoEncoder-guided Oversampling technique specifically designed for tackling imbalanced multi-label data. AEMLO is built upon two fundamental components. The first is an encoder-decoder architecture that enables the model to encode input data into a low-dimensional feature space, learn its latent representations, and then reconstruct it back to its original dimension, thus applying to the generation of new data. The second is an objective function tailored to optimize the sampling task for multi-label scenarios. We show that AEMLO outperforms the existing state-of-the-art methods with extensive empirical studies.

Hierarchical Spatio-Temporal State-Space Modeling for fMRI Analysis

分类： 机器学习, 人工智能

作者： Yuxiang Wei, Anees Abrol, Reihaneh Hassanzadeh, Vince Calhoun

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13074v1

摘要： Recent advances in deep learning structured state space models, especially the Mamba architecture, have demonstrated remarkable performance improvements while maintaining linear complexity. In this study, we introduce functional spatiotemporal Mamba (FST-Mamba), a Mamba-based model designed for discovering neurological biomarkers using functional magnetic resonance imaging (fMRI). We focus on dynamic functional network connectivity (dFNC) derived from fMRI and propose a hierarchical spatiotemporal Mamba-based network that processes spatial and temporal information separately using Mamba-based encoders. Leveraging the topological uniqueness of the FNC matrix, we introduce a component-wise varied-scale aggregation (CVA) mechanism to aggregate connectivity across individual components within brain networks, enabling the model to capture both inter-component and inter-network information. To better handle the FNC data, we develop a new component-specific scanning order. Additionally, we propose symmetric rotary position encoding (SymRope) to encode the relative positions of each functional connection while considering the symmetric nature of the FNC matrix. Experimental results demonstrate significant improvements in the proposed FST-Mamba model on various brain-based classification and regression tasks. Our work reveals the substantial potential of attention-free sequence modeling in brain discovery.

cc-DRL: a Convex Combined Deep Reinforcement Learning Flight Control Design for a Morphing Quadrotor

分类： 机器人技术, 人工智能, 机器学习, 系统与控制, 系统与控制

作者： Tao Yang, Huai-Ning Wu, Jun-Wei Wang

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13054v1

摘要： In comparison to common quadrotors, the shape change of morphing quadrotors endows it with a more better flight performance but also results in more complex flight dynamics. Generally, it is extremely difficult or even impossible for morphing quadrotors to establish an accurate mathematical model describing their complex flight dynamics. To figure out the issue of flight control design for morphing quadrotors, this paper resorts to a combination of model-free control techniques (e.g., deep reinforcement learning, DRL) and convex combination (CC) technique, and proposes a convex-combined-DRL (cc-DRL) flight control algorithm for position and attitude of a class of morphing quadrotors, where the shape change is realized by the length variation of four arm rods. In the proposed cc-DRL flight control algorithm, proximal policy optimization algorithm that is a model-free DRL algorithm is utilized to off-line train the corresponding optimal flight control laws for some selected representative arm length modes and hereby a cc-DRL flight control scheme is constructed by the convex combination technique. Finally, simulation results are presented to show the effectiveness and merit of the proposed flight control algorithm.

SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks

分类： 音频和语音处理, 人工智能, 计算和语言, 机器学习

作者： Kai-Wei Chang, Haibin Wu, Yu-Kai Wang, Yuan-Kuei Wu, Hua Shen, Wei-Cheng Tseng, Iu-thing Kang, Shang-Wen Li, Hung-yi Lee

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13040v1

摘要： Prompting has become a practical method for utilizing pre-trained language models (LMs). This approach offers several advantages. It allows an LM to adapt to new tasks with minimal training and parameter updates, thus achieving efficiency in both storage and computation. Additionally, prompting modifies only the LM's inputs and harnesses the generative capabilities of language models to address various downstream tasks in a unified manner. This significantly reduces the need for human labor in designing task-specific models. These advantages become even more evident as the number of tasks served by the LM scales up. Motivated by the strengths of prompting, we are the first to explore the potential of prompting speech LMs in the domain of speech processing. Recently, there has been a growing interest in converting speech into discrete units for language modeling. Our pioneer research demonstrates that these quantized speech units are highly versatile within our unified prompting framework. Not only can they serve as class labels, but they also contain rich phonetic information that can be re-synthesized back into speech signals for speech generation tasks. Specifically, we reformulate speech processing tasks into speech-to-unit generation tasks. As a result, we can seamlessly integrate tasks such as speech classification, sequence generation, and speech generation within a single, unified prompting framework. The experiment results show that the prompting method can achieve competitive performance compared to the strong fine-tuning method based on self-supervised learning models with a similar number of trainable parameters. The prompting method also shows promising results in the few-shot setting. Moreover, with the advanced speech LMs coming into the stage, the proposed prompting framework attains great potential.

VFM-Det: Towards High-Performance Vehicle Detection via Large Foundation Models

分类： 计算机视觉和模式识别, 人工智能, 神经和进化计算

作者： Wentao Wu, Fanghua Hong, Xiao Wang, Chenglong Li, Jin Tang

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13031v1

摘要： Existing vehicle detectors are usually obtained by training a typical detector (e.g., YOLO, RCNN, DETR series) on vehicle images based on a pre-trained backbone (e.g., ResNet, ViT). Some researchers also exploit and enhance the detection performance using pre-trained large foundation models. However, we think these detectors may only get sub-optimal results because the large models they use are not specifically designed for vehicles. In addition, their results heavily rely on visual features, and seldom of they consider the alignment between the vehicle's semantic information and visual representations. In this work, we propose a new vehicle detection paradigm based on a pre-trained foundation vehicle model (VehicleMAE) and a large language model (T5), termed VFM-Det. It follows the region proposal-based detection framework and the features of each proposal can be enhanced using VehicleMAE. More importantly, we propose a new VAtt2Vec module that predicts the vehicle semantic attributes of these proposals and transforms them into feature vectors to enhance the vision features via contrastive learning. Extensive experiments on three vehicle detection benchmark datasets thoroughly proved the effectiveness of our vehicle detector. Specifically, our model improves the baseline approach by $+5.1%$, $+6.2%$ on the $AP_{0.5}$, $AP_{0.75}$ metrics, respectively, on the Cityscapes dataset.The source code of this work will be released at https://github.com/Event-AHU/VFM-Det.

BoostTrack++: using tracklet information to detect more objects in multiple object tracking

分类： 计算机视觉和模式识别, 人工智能

作者： Vukašin Stanojević, Branimir Todorović

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13003v1

摘要： Multiple object tracking (MOT) depends heavily on selection of true positive detected bounding boxes. However, this aspect of the problem is mostly overlooked or mitigated by employing two-stage association and utilizing low confidence detections in the second stage. Recently proposed BoostTrack attempts to avoid the drawbacks of multiple stage association approach and use low-confidence detections by applying detection confidence boosting. In this paper, we identify the limitations of the confidence boost used in BoostTrack and propose a method to improve its performance. To construct a richer similarity measure and enable a better selection of true positive detections, we propose to use a combination of shape, Mahalanobis distance and novel soft BIoU similarity. We propose a soft detection confidence boost technique which calculates new confidence scores based on the similarity measure and the previous confidence scores, and we introduce varying similarity threshold to account for lower similarity measure between detections and tracklets which are not regularly updated. The proposed additions are mutually independent and can be used in any MOT algorithm. Combined with the BoostTrack+ baseline, our method achieves near state of the art results on the MOT17 dataset and new state of the art HOTA and IDF1 scores on the MOT20 dataset. The source code is available at: https://github.com/vukasin-stanojevic/BoostTrack .

CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution

分类： 人工智能

作者： Ruiyang Xu, Jialun Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Ben He, Shing-Chi Cheung, Le Sun

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13001v1

摘要： Code benchmarks such as HumanEval are widely adopted to evaluate Large Language Models' (LLMs) coding capabilities. However, there is an unignorable programming language bias in existing code benchmarks -- over 95% code generation benchmarks are dominated by Python, leaving the LLMs' capabilities in other programming languages such as Java and C/C++ unknown. Moreover, coding task bias is also crucial. Most benchmarks focus on code generation capability, while benchmarks for code reasoning (given input, reasoning output; and given output, reasoning input), an essential coding capability, are insufficient. Yet, constructing multi-lingual benchmarks can be expensive and labor-intensive, and codes in contest websites such as Leetcode suffer from data contamination during training. To fill this gap, we propose CRUXEVAL-X, a multi-lingual code reasoning benchmark that contains 19 programming languages. It comprises at least 600 subjects for each language, along with 19K content-consistent tests in total. In particular, the construction pipeline of CRUXEVAL-X works in a fully automated and test-guided manner, which iteratively generates and repairs based on execution feedback. Also, to cross language barriers (e.g., dynamic/static type systems in Python/C++), we formulated various transition rules between language pairs to facilitate translation. Our intensive evaluation of 24 representative LLMs reveals the correlation between language pairs. For example, TypeScript and JavaScript show a significant positive correlation, while Racket has less correlation with other languages. More interestingly, even a model trained solely on Python can achieve at most 34.4% Pass@1 in other languages, revealing the cross-language generalization of LLMs.

Enhancing Knowledge Tracing with Concept Map and Response Disentanglement

分类： 人工智能, 机器学习

作者： Soonwook Park, Donghoon Lee, Hogun Park

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12996v1

摘要： In the rapidly advancing realm of educational technology, it becomes critical to accurately trace and understand student knowledge states. Conventional Knowledge Tracing (KT) models have mainly focused on binary responses (i.e., correct and incorrect answers) to questions. Unfortunately, they largely overlook the essential information in students' actual answer choices, particularly for Multiple Choice Questions (MCQs), which could help reveal each learner's misconceptions or knowledge gaps. To tackle these challenges, we propose the Concept map-driven Response disentanglement method for enhancing Knowledge Tracing (CRKT) model. CRKT benefits KT by directly leveraging answer choices--beyond merely identifying correct or incorrect answers--to distinguish responses with different incorrect choices. We further introduce the novel use of unchosen responses by employing disentangled representations to get insights from options not selected by students. Additionally, CRKT tracks the student's knowledge state at the concept level and encodes the concept map, representing the relationships between them, to better predict unseen concepts. This approach is expected to provide actionable feedback, improving the learning experience. Our comprehensive experiments across multiple datasets demonstrate CRKT's effectiveness, achieving superior performance in prediction accuracy and interpretability over state-of-the-art models.

RIFF: Inducing Rules for Fraud Detection from Decision Trees

分类： 机器学习, 人工智能

作者： João Lucas Martins, João Bravo, Ana Sofia Gomes, Carlos Soares, Pedro Bizarro

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12989v1

摘要： Financial fraud is the cause of multi-billion dollar losses annually. Traditionally, fraud detection systems rely on rules due to their transparency and interpretability, key features in domains where decisions need to be explained. However, rule systems require significant input from domain experts to create and tune, an issue that rule induction algorithms attempt to mitigate by inferring rules directly from data. We explore the application of these algorithms to fraud detection, where rule systems are constrained to have a low false positive rate (FPR) or alert rate, by proposing RIFF, a rule induction algorithm that distills a low FPR rule set directly from decision trees. Our experiments show that the induced rules are often able to maintain or improve performance of the original models for low FPR tasks, while substantially reducing their complexity and outperforming rules hand-tuned by experts.

Zeoformer: Coarse-Grained Periodic Graph Transformer for OSDA-Zeolite Affinity Prediction

分类： 材料科学, 人工智能

作者： Xiangxiang Shen, Zheng Wan, Lingfeng Wen, Licheng Sun, Ou Yang Ming Jie, Xuan Tang, Xian Zeng, Mingsong Chen, Xiao He, Xian Wei

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12984v1

摘要： To date, the International Zeolite Association Structure Commission (IZA-SC) has cataloged merely 255 distinct zeolite structures, with millions of theoretically possible structures yet to be discovered. The synthesis of a specific zeolite typically necessitates the use of an organic structure-directing agent (OSDA), since the selectivity for a particular zeolite is largely determined by the affinity between the OSDA and the zeolite. Therefore, finding the best affinity OSDA-zeolite pair is the key to the synthesis of targeted zeolite. However, OSDA-zeolite pairs frequently exhibit complex geometric structures, i.e., a complex crystal structure formed by a large number of atoms. Although some existing machine learning methods can represent the periodicity of crystals, they cannot accurately represent crystal structures with local variability. To address this issue, we propose a novel approach called Zeoformer, which can effectively represent coarse-grained crystal periodicity and fine-grained local variability. Zeoformer reconstructs the unit cell centered around each atom and encodes the pairwise distances between this central atom and other atoms within the reconstructed unit cell. The introduction of pairwise distances within the reconstructed unit cell more effectively represents the overall structure of the unit cell and the differences between different unit cells, enabling the model to more accurately and efficiently predict the properties of OSDA-zeolite pairs and general crystal structures. Through comprehensive evaluation, our Zeoformer model demonstrates the best performance on OSDA-zeolite pair datasets and two types of crystal material datasets.

QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval

分类： 人工智能

作者： Chenghua Gao, Min Li, Jianshuo Liu, Junxing Ren, Lin Chen, Haoyu Liu, Bo Meng, Jitao Fu, Wenwen Su

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12981v1

摘要： Video Moment Retrieval (VMR) aims to retrieve relevant moments of an untrimmed video corresponding to the query. While cross-modal interaction approaches have shown progress in filtering out query-irrelevant information in videos, they assume the precise alignment between the query semantics and the corresponding video moments, potentially overlooking the misunderstanding of the natural language semantics. To address this challenge, we propose a novel model called \textit{QD-VMR}, a query debiasing model with enhanced contextual understanding. Firstly, we leverage a Global Partial Aligner module via video clip and query features alignment and video-query contrastive learning to enhance the cross-modal understanding capabilities of the model. Subsequently, we employ a Query Debiasing Module to obtain debiased query features efficiently, and a Visual Enhancement module to refine the video features related to the query. Finally, we adopt the DETR structure to predict the possible target video moments. Through extensive evaluations of three benchmark datasets, QD-VMR achieves state-of-the-art performance, proving its potential to improve the accuracy of VMR. Further analytical experiments demonstrate the effectiveness of our proposed module. Our code will be released to facilitate future research.

Open Llama2 Model for the Lithuanian Language

分类： 计算和语言, 人工智能, 机器学习

作者： Artūras Nakvosas, Povilas Daniušis, Vytas Mulevičius

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12963v1

摘要： In this paper, we propose and describe the first open Llama2 large language models (LLMs) for the Lithuanian language, including an accompanying question/answer (Q/A) dataset and translations of popular LLM benchmarks. We provide a brief review of open regional LLMs and detailed information on the proposed LLMs and their training process. We also conduct an empirical evaluation, comparing the perplexities of the proposed LLMs with those of other modern open LLMs. In addition, benchmarking the proposed LLMs against language understanding tasks reveals that high-quality pretraining datasets may be essential for achieving models that perform efficiently on these benchmarks. The full realisations of the described LLMs are available in the accompanying open repository~\url{https://huggingface.co/neurotechnology}.

Multimodal Contrastive In-Context Learning

分类： 计算和语言, 人工智能

作者： Yosuke Miyanishi, Minh Le Nguyen

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12959v1

摘要： The rapid growth of Large Language Models (LLMs) usage has highlighted the importance of gradient-free in-context learning (ICL). However, interpreting their inner workings remains challenging. This paper introduces a novel multimodal contrastive in-context learning framework to enhance our understanding of ICL in LLMs. First, we present a contrastive learning-based interpretation of ICL in real-world settings, marking the distance of the key-value representation as the differentiator in ICL. Second, we develop an analytical framework to address biases in multimodal input formatting for real-world datasets. We demonstrate the effectiveness of ICL examples where baseline performance is poor, even when they are represented in unseen formats. Lastly, we propose an on-the-fly approach for ICL (Anchored-by-Text ICL) that demonstrates effectiveness in detecting hateful memes, a task where typical ICL struggles due to resource limitations. Extensive experiments on multimodal datasets reveal that our approach significantly improves ICL performance across various scenarios, such as challenging tasks and resource-constrained environments. Moreover, it provides valuable insights into the mechanisms of in-context learning in LLMs. Our findings have important implications for developing more interpretable, efficient, and robust multimodal AI systems, especially in challenging tasks and resource-constrained environments.

Informational Embodiment: Computational role of information structure in codes and robots

分类： 机器人技术, 人工智能, 信息论, 信息论

作者： Alexandre Pitti, Kohei Nakajima, Yasuo Kuniyoshi

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12950v1

摘要： The body morphology plays an important role in the way information is perceived and processed by an agent. We address an information theory (IT) account on how the precision of sensors, the accuracy of motors, their placement, the body geometry, shape the information structure in robots and computational codes. As an original idea, we envision the robot's body as a physical communication channel through which information is conveyed, in and out, despite intrinsic noise and material limitations. Following this, entropy, a measure of information and uncertainty, can be used to maximize the efficiency of robot design and of algorithmic codes per se. This is known as the principle of Entropy Maximization (PEM) introduced in biology by Barlow in 1969. The Shannon's source coding theorem provides then a framework to compare different types of bodies in terms of sensorimotor information. In line with PME, we introduce a special class of efficient codes used in IT that reached the Shannon limits in terms of information capacity for error correction and robustness against noise, and parsimony. These efficient codes, which exploit insightfully quantization and randomness, permit to deal with uncertainty, redundancy and compacity. These features can be used for perception and control in intelligent systems. In various examples and closing discussions, we reflect on the broader implications of our framework that we called Informational Embodiment to motor theory and bio-inspired robotics, touching upon concepts like motor synergies, reservoir computing, and morphological computation. These insights can contribute to a deeper understanding of how information theory intersects with the embodiment of intelligence in both natural and artificial systems.

Causal-Guided Active Learning for Debiasing Large Language Models

分类： 计算和语言, 人工智能

作者： Zhouhao Sun, Li Du, Xiao Ding, Yixuan Ma, Kaitao Qiu, Ting Liu, Bing Qin

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12942v1

摘要： Although achieving promising performance, recent analyses show that current generative large language models (LLMs) may still capture dataset biases and utilize them for generation, leading to poor generalizability and harmfulness of LLMs. However, due to the diversity of dataset biases and the over-optimization problem, previous prior-knowledge-based debiasing methods and fine-tuning-based debiasing methods may not be suitable for current LLMs. To address this issue, we explore combining active learning with the causal mechanisms and propose a casual-guided active learning (CAL) framework, which utilizes LLMs itself to automatically and autonomously identify informative biased samples and induce the bias patterns. Then a cost-effective and efficient in-context learning based method is employed to prevent LLMs from utilizing dataset biases during generation. Experimental results show that CAL can effectively recognize typical biased instances and induce various bias patterns for debiasing LLMs.

iSee: Advancing Multi-Shot Explainable AI Using Case-based Recommendations

分类： 人工智能, 人机交互, 信息检索

作者： Anjana Wijekoon, Nirmalie Wiratunga, David Corsar, Kyle Martin, Ikechukwu Nkisi-Orji, Chamath Palihawadana, Marta Caro-Martínez, Belen Díaz-Agudo, Derek Bridge, Anne Liret

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12941v1

摘要： Explainable AI (XAI) can greatly enhance user trust and satisfaction in AI-assisted decision-making processes. Recent findings suggest that a single explainer may not meet the diverse needs of multiple users in an AI system; indeed, even individual users may require multiple explanations. This highlights the necessity for a "multi-shot" approach, employing a combination of explainers to form what we introduce as an "explanation strategy". Tailored to a specific user or a user group, an "explanation experience" describes interactions with personalised strategies designed to enhance their AI decision-making processes. The iSee platform is designed for the intelligent sharing and reuse of explanation experiences, using Case-based Reasoning to advance best practices in XAI. The platform provides tools that enable AI system designers, i.e. design users, to design and iteratively revise the most suitable explanation strategy for their AI system to satisfy end-user needs. All knowledge generated within the iSee platform is formalised by the iSee ontology for interoperability. We use a summative mixed methods study protocol to evaluate the usability and utility of the iSee platform with six design users across varying levels of AI and XAI expertise. Our findings confirm that the iSee platform effectively generalises across applications and its potential to promote the adoption of XAI best practices.

Smooth InfoMax -- Towards easier Post-Hoc interpretability

分类： 机器学习, 人工智能

作者： Fabian Denoodt, Bart de Boer, José Oramas

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12936v1

摘要： We introduce Smooth InfoMax (SIM), a novel method for self-supervised representation learning that incorporates an interpretability constraint into the learned representations at various depths of the neural network. SIM's architecture is split up into probabilistic modules, each locally optimized using the InfoNCE bound. Inspired by VAEs, the representations from these modules are designed to be samples from Gaussian distributions and are further constrained to be close to the standard normal distribution. This results in a smooth and predictable space, enabling traversal of the latent space through a decoder for easier post-hoc analysis of the learned representations. We evaluate SIM's performance on sequential speech data, showing that it performs competitively with its less interpretable counterpart, Greedy InfoMax (GIM). Moreover, we provide insights into SIM's internal representations, demonstrating that the contained information is less entangled throughout the representation and more concentrated in a smaller subset of the dimensions. This further highlights the improved interpretability of SIM.

Trustworthy, Responsible, and Safe AI: A Comprehensive Architectural Framework for AI Safety with Challenges and Mitigations

分类： 人工智能

作者： Chen Chen, Ziyao Liu, Weifeng Jiang, Goh Si Qi, KwoK-Yan Lam

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12935v1

摘要： AI Safety is an emerging area of critical importance to the safe adoption and deployment of AI systems. With the rapid proliferation of AI and especially with the recent advancement of Generative AI (or GAI), the technology ecosystem behind the design, development, adoption, and deployment of AI systems has drastically changed, broadening the scope of AI Safety to address impacts on public safety and national security. In this paper, we propose a novel architectural framework for understanding and analyzing AI Safety; defining its characteristics from three perspectives: Trustworthy AI, Responsible AI, and Safe AI. We provide an extensive review of current research and advancements in AI safety from these perspectives, highlighting their key challenges and mitigation approaches. Through examples from state-of-the-art technologies, particularly Large Language Models (LLMs), we present innovative mechanism, methodologies, and techniques for designing and testing AI safety. Our goal is to promote advancement in AI safety research, and ultimately enhance people's trust in digital transformation.

What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance

分类： 人工智能

作者： Yilun Liu, Minggui He, Feiyu Yao, Yuhe Ji, Shimin Tao, Jingzhou Du, Duan Li, Jian Gao, Li Zhang, Hao Yang, Boxing Chen, Osamu Yoshie

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12910v1

摘要： The emergence of text-to-image synthesis (TIS) models has significantly influenced digital image creation by producing high-quality visuals from written descriptions. Yet these models heavily rely on the quality and specificity of textual prompts, posing a challenge for novice users who may not be familiar with TIS-model-preferred prompt writing. Existing solutions relieve this via automatic model-preferred prompt generation from user queries. However, this single-turn manner suffers from limited user-centricity in terms of result interpretability and user interactivity. To address these issues, we propose DialPrompt, a multi-turn dialogue-based TIS prompt generation model that emphasises user-centricity. DialPrompt is designed to follow a multi-turn guidance workflow, where in each round of dialogue the model queries user with their preferences on possible optimization dimensions before generating the final TIS prompt. To achieve this, we mined 15 essential dimensions for high-quality prompts from advanced users and curated a multi-turn dataset. Through training on this dataset, DialPrompt can improve interpretability by allowing users to understand the correlation between specific phrases and image attributes. Additionally, it enables greater user control and engagement in the prompt generation process, leading to more personalized and visually satisfying outputs. Experiments indicate that DialPrompt achieves a competitive result in the quality of synthesized images, outperforming existing prompt engineering approaches by 5.7%. Furthermore, in our user evaluation, DialPrompt outperforms existing approaches by 46.5% in user-centricity score and is rated 7.9/10 by 19 human reviewers.

CSPs with Few Alien Constraints

分类： 计算复杂度, 人工智能

作者： Peter Jonsson, Victor Lagerkvist, George Osipov

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12909v1

摘要： The constraint satisfaction problem asks to decide if a set of constraints over a relational structure $\mathcal{A}$ is satisfiable (CSP$(\mathcal{A})$). We consider CSP$(\mathcal{A} \cup \mathcal{B})$ where $\mathcal{A}$ is a structure and $\mathcal{B}$ is an alien structure, and analyse its (parameterized) complexity when at most $k$ alien constraints are allowed. We establish connections and obtain transferable complexity results to several well-studied problems that previously escaped classification attempts. Our novel approach, utilizing logical and algebraic methods, yields an FPT versus pNP dichotomy for arbitrary finite structures and sharper dichotomies for Boolean structures and first-order reducts of $(\mathbb{N},=)$ (equality CSPs), together with many partial results for general $\omega$-categorical structures.

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities

分类： 人工智能, 计算和语言, 机器学习

作者： Bin Wang, Chunyu Xie, Dawei Leng, Yuhui Yin

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12902v1

摘要： In the field of multimodal large language models (MLLMs), common methods typically involve unfreezing the language model during training to foster profound visual understanding. However, the fine-tuning of such models with vision-language data often leads to a diminution of their natural language processing (NLP) capabilities. To avoid this performance degradation, a straightforward solution is to freeze the language model while developing multimodal competencies. Unfortunately, previous works have not attained satisfactory outcomes. Building on the strategy of freezing the language model, we conduct thorough structural exploration and introduce the Inner-Adaptor Architecture (IAA). Specifically, the architecture incorporates multiple multimodal adaptors at varying depths within the large language model to facilitate direct interaction with the inherently text-oriented transformer layers, thereby enabling the frozen language model to acquire multimodal capabilities. Unlike previous approaches of freezing language models that require large-scale aligned data, our proposed architecture is able to achieve superior performance on small-scale datasets. We conduct extensive experiments to improve the general multimodal capabilities and visual grounding abilities of the MLLM. Our approach remarkably outperforms previous state-of-the-art methods across various vision-language benchmarks without sacrificing performance on NLP tasks. Code and models are available at https://github.com/360CVGroup/Inner-Adaptor-Architecture.

Multiple Areal Feature Aware Transportation Demand Prediction

分类： 人工智能

作者： Sumin Han, Jisun An, Youngjun Park, Suji Kim, Kitae Jang, Dongman Lee

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12890v1

摘要： A reliable short-term transportation demand prediction supports the authorities in improving the capability of systems by optimizing schedules, adjusting fleet sizes, and generating new transit networks. A handful of research efforts incorporate one or a few areal features while learning spatio-temporal correlation, to capture similar demand patterns between similar areas. However, urban characteristics are polymorphic, and they need to be understood by multiple areal features such as land use, sociodemographics, and place-of-interest (POI) distribution. In this paper, we propose a novel spatio-temporal multi-feature-aware graph convolutional recurrent network (ST-MFGCRN) that fuses multiple areal features during spatio-temproal understanding. Inside ST-MFGCRN, we devise sentinel attention to calculate the areal similarity matrix by allowing each area to take partial attention if the feature is not useful. We evaluate the proposed model on two real-world transportation datasets, one with our constructed BusDJ dataset and one with benchmark TaxiBJ. Results show that our model outperforms the state-of-the-art baselines up to 7% on BusDJ and 8% on TaxiBJ dataset.

Spatio-Temporal Road Traffic Prediction using Real-time Regional Knowledge

分类： 人工智能

作者： Sumin Han, Jisun An, Dongman Lee

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12882v1

摘要： For traffic prediction in transportation services such as car-sharing and ride-hailing, mid-term road traffic prediction (within a few hours) is considered essential. However, the existing road-level traffic prediction has mainly studied how significantly micro traffic events propagate to the adjacent roads in terms of short-term prediction. On the other hand, recent attempts have been made to incorporate regional knowledge such as POIs, road characteristics, and real-time social events to help traffic prediction. However, these studies lack in understandings of different modalities of road-level and region-level spatio-temporal correlations and how to combine such knowledge. This paper proposes a novel method that embeds real-time region-level knowledge using POIs, satellite images, and real-time LTE access traces via a regional spatio-temporal module that consists of dynamic convolution and temporal attention, and conducts bipartite spatial transform attention to convert into road-level knowledge. Then the model ingests this embedded knowledge into a road-level attention-based prediction model. Experimental results on real-world road traffic prediction show that our model outperforms the baselines.

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey

分类： 人工智能

作者： Qika Lin, Yifan Zhu, Xin Mei, Ling Huang, Jingying Ma, Kai He, Zhen Peng, Erik Cambria, Mengling Feng

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12880v1

摘要： The rapid development of artificial intelligence has constantly reshaped the field of intelligent healthcare and medicine. As a vital technology, multimodal learning has increasingly garnered interest due to data complementarity, comprehensive modeling form, and great application potential. Currently, numerous researchers are dedicating their attention to this field, conducting extensive studies and constructing abundant intelligent systems. Naturally, an open question arises that has multimodal learning delivered universal intelligence in healthcare? To answer the question, we adopt three unique viewpoints for a holistic analysis. Firstly, we conduct a comprehensive survey of the current progress of medical multimodal learning from the perspectives of datasets, task-oriented methods, and universal foundation models. Based on them, we further discuss the proposed question from five issues to explore the real impacts of advanced techniques in healthcare, from data and technologies to performance and ethics. The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake. Finally, in light of the above reviews and discussions, we point out ten potential directions for exploration towards the goal of universal intelligence in healthcare.

Frequency-aware Feature Fusion for Dense Image Prediction

分类： 计算机视觉和模式识别, 人工智能

作者： Linwei Chen, Ying Fu, Lin Gu, Chenggang Yan, Tatsuya Harada, Gao Huang

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12879v1

摘要： Dense image prediction tasks demand features with strong category information and precise spatial boundary details at high resolution. To achieve this, modern hierarchical models often utilize feature fusion, directly adding upsampled coarse features from deep layers and high-resolution features from lower levels. In this paper, we observe rapid variations in fused feature values within objects, resulting in intra-category inconsistency due to disturbed high-frequency features. Additionally, blurred boundaries in fused features lack accurate high frequency, leading to boundary displacement. Building upon these observations, we propose Frequency-Aware Feature Fusion (FreqFusion), integrating an Adaptive Low-Pass Filter (ALPF) generator, an offset generator, and an Adaptive High-Pass Filter (AHPF) generator. The ALPF generator predicts spatially-variant low-pass filters to attenuate high-frequency components within objects, reducing intra-class inconsistency during upsampling. The offset generator refines large inconsistent features and thin boundaries by replacing inconsistent features with more consistent ones through resampling, while the AHPF generator enhances high-frequency detailed boundary information lost during downsampling. Comprehensive visualization and quantitative analysis demonstrate that FreqFusion effectively improves feature consistency and sharpens object boundaries. Extensive experiments across various dense prediction tasks confirm its effectiveness. The code is made publicly available at https://github.com/Linwei-Chen/FreqFusion.

Can AI Assistance Aid in the Grading of Handwritten Answer Sheets?

分类： 人工智能, 计算机视觉和模式识别

作者： Pritam Sil, Parag Chaudhuri, Bhaskaran Raman

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12870v1

摘要： With recent advancements in artificial intelligence (AI), there has been growing interest in using state of the art (SOTA) AI solutions to provide assistance in grading handwritten answer sheets. While a few commercial products exist, the question of whether AI-assistance can actually reduce grading effort and time has not yet been carefully considered in published literature. This work introduces an AI-assisted grading pipeline. The pipeline first uses text detection to automatically detect question regions present in a question paper PDF. Next, it uses SOTA text detection methods to highlight important keywords present in the handwritten answer regions of scanned answer sheets to assist in the grading process. We then evaluate a prototype implementation of the AI-assisted grading pipeline deployed on an existing e-learning management platform. The evaluation involves a total of 5 different real-life examinations across 4 different courses at a reputed institute; it consists of a total of 42 questions, 17 graders, and 468 submissions. We log and analyze the grading time for each handwritten answer while using AI assistance and without it. Our evaluations have shown that, on average, the graders take 31% less time while grading a single response and 33% less grading time while grading a single answer sheet using AI assistance.

Obfuscated Memory Malware Detection

分类： 密码学和安全, 人工智能

作者： Sharmila S P, Aruna Tiwari, Narendra S Chaudhari

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12866v1

摘要： Providing security for information is highly critical in the current era with devices enabled with smart technology, where assuming a day without the internet is highly impossible. Fast internet at a cheaper price, not only made communication easy for legitimate users but also for cybercriminals to induce attacks in various dimensions to breach privacy and security. Cybercriminals gain illegal access and breach the privacy of users to harm them in multiple ways. Malware is one such tool used by hackers to execute their malicious intent. Development in AI technology is utilized by malware developers to cause social harm. In this work, we intend to show how Artificial Intelligence and Machine learning can be used to detect and mitigate these cyber-attacks induced by malware in specific obfuscated malware. We conducted experiments with memory feature engineering on memory analysis of malware samples. Binary classification can identify whether a given sample is malware or not, but identifying the type of malware will only guide what next step to be taken for that malware, to stop it from proceeding with its further action. Hence, we propose a multi-class classification model to detect the three types of obfuscated malware with an accuracy of 89.07% using the Classic Random Forest algorithm. To the best of our knowledge, there is very little amount of work done in classifying multiple obfuscated malware by a single model. We also compared our model with a few state-of-the-art models and found it comparatively better.

Memory-Efficient LLM Training with Online Subspace Descent

分类： 机器学习, 人工智能, 计算和语言

作者： Kaizhao Liang, Bo Liu, Lizhang Chen, Qiang Liu

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12857v1

摘要： Recently, a wide range of memory-efficient LLM training algorithms have gained substantial popularity. These methods leverage the low-rank structure of gradients to project optimizer states into a subspace using projection matrix found by singular value decomposition (SVD). However, convergence of these algorithms is highly dependent on the update rules of their projection matrix. In this work, we provide the \emph{first} convergence guarantee for arbitrary update rules of projection matrix. This guarantee is generally applicable to optimizers that can be analyzed with Hamiltonian Descent, including most common ones, such as LION, Adam. Inspired by our theoretical understanding, we propose Online Subspace Descent, a new family of subspace descent optimizer without SVD. Instead of updating the projection matrix with eigenvectors, Online Subspace Descent updates the projection matrix with online PCA. Online Subspace Descent is flexible and introduces only minimum overhead to training. We show that for the task of pretraining LLaMA models ranging from 60M to 7B parameters on the C4 dataset, Online Subspace Descent achieves lower perplexity and better downstream tasks performance than state-of-the-art low-rank training methods across different settings and narrows the gap with full-rank baselines.

Online Fair Division with Contextual Bandits

分类： 机器学习, 人工智能, 机器学习

作者： Arun Verma, Indrajit Saha, Makoto Yokoo, Bryan Kian Hsiang Low

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12845v1

摘要： This paper considers a novel online fair division problem involving multiple agents in which a learner observes an indivisible item that has to be irrevocably allocated to one of the agents while satisfying a fairness and efficiency constraint. Existing algorithms assume a small number of items with a sufficiently large number of copies, which ensures a good utility estimation for all item-agent pairs. However, such an assumption may not hold in many real-life applications, e.g., an online platform that has a large number of users (items) who only use the platform's service providers (agents) a few times (a few copies of items), which makes it difficult to estimate the utility for all item-agent pairs. To overcome this challenge, we model the online fair division problem using contextual bandits, assuming the utility is an unknown function of the item-agent features. We then propose algorithms for online fair division with sub-linear regret guarantees. Our experimental results also verify the different performance aspects of the proposed algorithms.

Predicting Affective States from Screen Text Sentiment

分类： 人机交互, 人工智能

作者： Songyan Teng, Tianyi Zhang, Simon D'Alfonso, Vassilis Kostakos

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12844v1

摘要： The proliferation of mobile sensing technologies has enabled the study of various physiological and behavioural phenomena through unobtrusive data collection from smartphone sensors. This approach offers real-time insights into individuals' physical and mental states, creating opportunities for personalised treatment and interventions. However, the potential of analysing the textual content viewed on smartphones to predict affective states remains underexplored. To better understand how the screen text that users are exposed to and interact with can influence their affects, we investigated a subset of data obtained from a digital phenotyping study of Australian university students conducted in 2023. We employed linear regression, zero-shot, and multi-shot prompting using a large language model (LLM) to analyse relationships between screen text and affective states. Our findings indicate that multi-shot prompting substantially outperforms both linear regression and zero-shot prompting, highlighting the importance of context in affect prediction. We discuss the value of incorporating textual and sentiment data for improving affect prediction, providing a basis for future advancements in understanding smartphone use and wellbeing.

COVID-19 Probability Prediction Using Machine Learning: An Infectious Approach

分类： 机器学习, 人工智能

作者： Mohsen Asghari Ilani, Saba Moftakhar Tehran, Ashkan Kavei, Arian Radmehr

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12841v1

摘要： The ongoing COVID-19 pandemic continues to pose significant challenges to global public health, despite the widespread availability of vaccines. Early detection of the disease remains paramount in curbing its transmission and mitigating its impact on public health systems. In response, this study delves into the application of advanced machine learning (ML) techniques for predicting COVID-19 infection probability. We conducted a rigorous investigation into the efficacy of various ML models, including XGBoost, LGBM, AdaBoost, Logistic Regression, Decision Tree, RandomForest, CatBoost, KNN, and Deep Neural Networks (DNN). Leveraging a dataset comprising 4000 samples, with 3200 allocated for training and 800 for testing, our experiment offers comprehensive insights into the performance of these models in COVID-19 prediction. Our findings reveal that Deep Neural Networks (DNN) emerge as the top-performing model, exhibiting superior accuracy and recall metrics. With an impressive accuracy rate of 89%, DNN demonstrates remarkable potential in early COVID-19 detection. This underscores the efficacy of deep learning approaches in leveraging complex data patterns to identify COVID-19 infections accurately. This study underscores the critical role of machine learning, particularly deep learning methodologies, in augmenting early detection efforts amidst the ongoing pandemic. The success of DNN in accurately predicting COVID-19 infection probability highlights the importance of continued research and development in leveraging advanced technologies to combat infectious diseases.

Exploring Machine Learning Models for Lung Cancer Level Classification: A comparative ML Approach

分类： 人工智能

作者： Mohsen Asghari Ilani, Saba Moftakhar Tehran, Ashkan Kavei, Hamed Alizadegan

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12838v1

摘要： This paper explores machine learning (ML) models for classifying lung cancer levels to improve diagnostic accuracy and prognosis. Through parameter tuning and rigorous evaluation, we assess various ML algorithms. Techniques like minimum child weight and learning rate monitoring were used to reduce overfitting and optimize performance. Our findings highlight the robust performance of Deep Neural Network (DNN) models across all phases. Ensemble methods, including voting and bagging, also showed promise in enhancing predictive accuracy and robustness. However, Support Vector Machine (SVM) models with the Sigmoid kernel faced challenges, indicating a need for further refinement. Overall, our study provides insights into ML-based lung cancer classification, emphasizing the importance of parameter tuning to optimize model performance and improve diagnostic accuracy in oncological care.

Underwater SONAR Image Classification and Analysis using LIME-based Explainable Artificial Intelligence

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习, 68T07 (Primary) 68T45, 68U10 (Secondary), I.4.8; I.2.10; I.5.4

作者： Purushothaman Natarajan, Athira Nambiar

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12837v1

摘要： Deep learning techniques have revolutionized image classification by mimicking human cognition and automating complex decision-making processes. However, the deployment of AI systems in the wild, especially in high-security domains such as defence, is curbed by the lack of explainability of the model. To this end, eXplainable AI (XAI) is an emerging area of research that is intended to explore the unexplained hidden black box nature of deep neural networks. This paper explores the application of the eXplainable Artificial Intelligence (XAI) tool to interpret the underwater image classification results, one of the first works in the domain to the best of our knowledge. Our study delves into the realm of SONAR image classification using a custom dataset derived from diverse sources, including the Seabed Objects KLSG dataset, the camera SONAR dataset, the mine SONAR images dataset, and the SCTD dataset. An extensive analysis of transfer learning techniques for image classification using benchmark Convolutional Neural Network (CNN) architectures such as VGG16, ResNet50, InceptionV3, DenseNet121, etc. is carried out. On top of this classification model, a post-hoc XAI technique, viz. Local Interpretable Model-Agnostic Explanations (LIME) are incorporated to provide transparent justifications for the model's decisions by perturbing input data locally to see how predictions change. Furthermore, Submodular Picks LIME (SP-LIME) a version of LIME particular to images, that perturbs the image based on the submodular picks is also extensively studied. To this end, two submodular optimization algorithms i.e. Quickshift and Simple Linear Iterative Clustering (SLIC) are leveraged towards submodular picks. The extensive analysis of XAI techniques highlights interpretability of the results in a more human-compliant way, thus boosting our confidence and reliability.

CLLMFS: A Contrastive Learning enhanced Large Language Model Framework for Few-Shot Named Entity Recognition

分类： 计算和语言, 人工智能

作者： Yafeng Zhang, Zilan Yu, Yuang Huang, Jing Tang

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12834v1

摘要： Few-shot Named Entity Recognition (NER), the task of identifying named entities with only a limited amount of labeled data, has gained increasing significance in natural language processing. While existing methodologies have shown some effectiveness, such as enriching label semantics through various prompting modes or employing metric learning techniques, their performance exhibits limited robustness across diverse domains due to the lack of rich knowledge in their pre-trained models. To address this issue, we propose CLLMFS, a Contrastive Learning enhanced Large Language Model (LLM) Framework for Few-Shot Named Entity Recognition, achieving promising results with limited training data. Considering the impact of LLM's internal representations on downstream tasks, CLLMFS integrates Low-Rank Adaptation (LoRA) and contrastive learning mechanisms specifically tailored for few-shot NER. By enhancing the model's internal representations, CLLMFS effectively improves both entity boundary awareness ability and entity recognition accuracy. Our method has achieved state-of-the-art performance improvements on F1-score ranging from 2.58% to 97.74% over existing best-performing methods across several recognized benchmarks. Furthermore, through cross-domain NER experiments conducted on multiple datasets, we have further validated the robust generalization capability of our method. Our code will be released in the near future.

Examining the Commitments and Difficulties Inherent in Multimodal Foundation Models for Street View Imagery

分类： 计算机视觉和模式识别, 人工智能

作者： Zhenyuan Yang, Xuhui Lin, Qinyi He, Ziye Huang, Zhengliang Liu, Hanqi Jiang, Peng Shu, Zihao Wu, Yiwei Li, Stephen Law, Gengchen Mai, Tianming Liu, Tao Yang

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12821v1

摘要： The emergence of Large Language Models (LLMs) and multimodal foundation models (FMs) has generated heightened interest in their applications that integrate vision and language. This paper investigates the capabilities of ChatGPT-4V and Gemini Pro for Street View Imagery, Built Environment, and Interior by evaluating their performance across various tasks. The assessments include street furniture identification, pedestrian and car counts, and road width measurement in Street View Imagery; building function classification, building age analysis, building height analysis, and building structure classification in the Built Environment; and interior room classification, interior design style analysis, interior furniture counts, and interior length measurement in Interior. The results reveal proficiency in length measurement, style analysis, question answering, and basic image understanding, but highlight limitations in detailed recognition and counting tasks. While zero-shot learning shows potential, performance varies depending on the problem domains and image complexities. This study provides new insights into the strengths and weaknesses of multimodal foundation models for practical challenges in Street View Imagery, Built Environment, and Interior. Overall, the findings demonstrate foundational multimodal intelligence, emphasizing the potential of FMs to drive forward interdisciplinary applications at the intersection of computer vision and language.

Staircase Cascaded Fusion of Lightweight Local Pattern Recognition and Long-Range Dependencies for Structural Crack Segmentation

分类： 计算机视觉和模式识别, 人工智能

作者： Hui Liu, Chen Jia, Fan Shi, Xu Cheng, Mianzhao Wang, Shengyong Chen

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12815v1

摘要： Detecting cracks with pixel-level precision for key structures is a significant challenge, as existing methods struggle to effectively integrate local textures and pixel dependencies of cracks. Furthermore, these methods often possess numerous parameters and substantial computational requirements, complicating deployment on edge devices. In this paper, we propose a staircase cascaded fusion crack segmentation network (CrackSCF) that generates high-quality crack segmentation maps using minimal computational resources. We constructed a staircase cascaded fusion module that effectively captures local patterns of cracks and long-range dependencies of pixels, and it can suppress background noise well. To reduce the computational resources required by the model, we introduced a lightweight convolution block, which replaces all convolution operations in the network, significantly reducing the required computation and parameters without affecting the network's performance. To evaluate our method, we created a challenging benchmark dataset called TUT and conducted experiments on this dataset and five other public datasets. The experimental results indicate that our method offers significant advantages over existing methods, especially in handling background noise interference and detailed crack segmentation. The F1 and mIoU scores on the TUT dataset are 0.8382 and 0.8473, respectively, achieving state-of-the-art (SOTA) performance while requiring the least computational resources. The code and dataset is available at https://github.com/Karl1109/CrackSCF.

DutyTTE: Deciphering Uncertainty in Origin-Destination Travel Time Estimation

分类： 人工智能

作者： Xiaowei Mao, Yan Lin, Shengnan Guo, Yubin Chen, Xingyu Xian, Haomin Wen, Qisen Xu, Youfang Lin, Huaiyu Wan

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12809v1

摘要： Uncertainty quantification in travel time estimation (TTE) aims to estimate the confidence interval for travel time, given the origin (O), destination (D), and departure time (T). Accurately quantifying this uncertainty requires generating the most likely path and assessing travel time uncertainty along the path. This involves two main challenges: 1) Predicting a path that aligns with the ground truth, and 2) modeling the impact of travel time in each segment on overall uncertainty under varying conditions. We propose DutyTTE to address these challenges. For the first challenge, we introduce a deep reinforcement learning method to improve alignment between the predicted path and the ground truth, providing more accurate travel time information from road segments to improve TTE. For the second challenge, we propose a mixture of experts guided uncertainty quantification mechanism to better capture travel time uncertainty for each segment under varying contexts. Additionally, we calibrate our results using Hoeffding's upper-confidence bound to provide statistical guarantees for the estimated confidence intervals. Extensive experiments on two real-world datasets demonstrate the superiority of our proposed method.

VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习, 68T07 (Primary) 68T45, 68U10 (Secondary), I.4.8; I.2.10; I.5.4

作者： Purushothaman Natarajan, Athira Nambiar

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12808v1

摘要： Deep Neural Networks (DNNs) have revolutionized various fields by enabling task automation and reducing human error. However, their internal workings and decision-making processes remain obscure due to their black box nature. Consequently, the lack of interpretability limits the application of these models in high-risk scenarios. To address this issue, the emerging field of eXplainable Artificial Intelligence (XAI) aims to explain and interpret the inner workings of DNNs. Despite advancements, XAI faces challenges such as the semantic gap between machine and human understanding, the trade-off between interpretability and performance, and the need for context-specific explanations. To overcome these limitations, we propose a novel multimodal framework named VALE Visual and Language Explanation. VALE integrates explainable AI techniques with advanced language models to provide comprehensive explanations. This framework utilizes visual explanations from XAI tools, an advanced zero-shot image segmentation model, and a visual language model to generate corresponding textual explanations. By combining visual and textual explanations, VALE bridges the semantic gap between machine outputs and human interpretation, delivering results that are more comprehensible to users. In this paper, we conduct a pilot study of the VALE framework for image classification tasks. Specifically, Shapley Additive Explanations (SHAP) are used to identify the most influential regions in classified images. The object of interest is then extracted using the Segment Anything Model (SAM), and explanations are generated using state-of-the-art pre-trained Vision-Language Models (VLMs). Extensive experimental studies are performed on two datasets: the ImageNet dataset and a custom underwater SONAR image dataset, demonstrating VALEs real-world applicability in underwater image classification.

Is Generative AI the Next Tactical Cyber Weapon For Threat Actors? Unforeseen Implications of AI Generated Cyber Attacks

分类： 密码学和安全, 人工智能, Primary 03C90, Secondary 03-02,, I.2

作者： Yusuf Usman, Aadesh Upadhyay, Prashnna Gyawali, Robin Chataut

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12806v1

摘要： In an era where digital threats are increasingly sophisticated, the intersection of Artificial Intelligence and cybersecurity presents both promising defenses and potent dangers. This paper delves into the escalating threat posed by the misuse of AI, specifically through the use of Large Language Models (LLMs). This study details various techniques like the switch method and character play method, which can be exploited by cybercriminals to generate and automate cyber attacks. Through a series of controlled experiments, the paper demonstrates how these models can be manipulated to bypass ethical and privacy safeguards to effectively generate cyber attacks such as social engineering, malicious code, payload generation, and spyware. By testing these AI generated attacks on live systems, the study assesses their effectiveness and the vulnerabilities they exploit, offering a practical perspective on the risks AI poses to critical infrastructure. We also introduce Occupy AI, a customized, finetuned LLM specifically engineered to automate and execute cyberattacks. This specialized AI driven tool is adept at crafting steps and generating executable code for a variety of cyber threats, including phishing, malware injection, and system exploitation. The results underscore the urgency for ethical AI practices, robust cybersecurity measures, and regulatory oversight to mitigate AI related threats. This paper aims to elevate awareness within the cybersecurity community about the evolving digital threat landscape, advocating for proactive defense strategies and responsible AI development to protect against emerging cyber threats.

A Safe Self-evolution Algorithm for Autonomous Driving Based on Data-Driven Risk Quantification Model

分类： 人工智能

作者： Shuo Yang, Shizhen Li, Yanjun Huang, Hong Chen

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12805v1

摘要： Autonomous driving systems with self-evolution capabilities have the potential to independently evolve in complex and open environments, allowing to handle more unknown scenarios. However, as a result of the safety-performance trade-off mechanism of evolutionary algorithms, it is difficult to ensure safe exploration without sacrificing the improvement ability. This problem is especially prominent in dynamic traffic scenarios. Therefore, this paper proposes a safe self-evolution algorithm for autonomous driving based on data-driven risk quantification model. Specifically, a risk quantification model based on the attention mechanism is proposed by modeling the way humans perceive risks during driving, with the idea of achieving safety situation estimation of the surrounding environment through a data-driven approach. To prevent the impact of over-conservative safety guarding policies on the self-evolution capability of the algorithm, a safety-evolutionary decision-control integration algorithm with adjustable safety limits is proposed, and the proposed risk quantization model is integrated into it. Simulation and real-vehicle experiments results illustrate the effectiveness of the proposed method. The results show that the proposed algorithm can generate safe and reasonable actions in a variety of complex scenarios and guarantee safety without losing the evolutionary potential of learning-based autonomous driving systems.

Multi-Treatment Multi-Task Uplift Modeling for Enhancing User Growth

分类： 机器学习, 人工智能, 信息检索

作者： Yuxiang Wei, Zhaoxin Qiu, Yingjie Li, Yuke Sun, Xiaoling Li

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12803v1

摘要： As a key component in boosting online user growth, uplift modeling aims to measure individual user responses (e.g., whether to play the game) to various treatments, such as gaming bonuses, thereby enhancing business outcomes. However, previous research typically considers a single-task, single-treatment setting, where only one treatment exists and the overall treatment effect is measured by a single type of user response. In this paper, we propose a Multi-Treatment Multi-Task (MTMT) uplift network to estimate treatment effects in a multi-task scenario. We identify the multi-treatment problem as a causal inference problem with a tiered response, comprising a base effect (from offering a treatment) and an incremental effect (from offering a specific type of treatment), where the base effect can be numerically much larger than the incremental effect. Specifically, MTMT separately encodes user features and treatments. The user feature encoder uses a multi-gate mixture of experts (MMOE) network to encode relevant user features, explicitly learning inter-task relations. The resultant embeddings are used to measure natural responses per task. Furthermore, we introduce a treatment-user feature interaction module to model correlations between each treatment and user feature. Consequently, we separately measure the base and incremental treatment effect for each task based on the produced treatment-aware representations. Experimental results based on an offline public dataset and an online proprietary dataset demonstrate the effectiveness of MTMT in single/multi-treatment and single/multi-task settings. Additionally, MTMT has been deployed in our gaming platform to improve user experience.

Less for More: Enhancing Preference Learning in Generative Language Models with Automated Self-Curation of Training Corpora

分类： 计算和语言, 人工智能

作者： JoonHo Lee, JuYoun Son, Juree Seok, Wooseok Jang, Yeong-Dae Kwon

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12799v1

摘要： Ambiguity in language presents challenges in developing more enhanced language models, particularly in preference learning, where variability among annotators results in inconsistently annotated datasets used for model alignment. To address this issue, we introduce a self-curation method that preprocesses annotated datasets by leveraging proxy models trained directly on these datasets. Our method enhances preference learning by automatically detecting and removing ambiguous annotations within the dataset. The proposed approach is validated through extensive experiments, demonstrating a marked improvement in performance across various instruction-following tasks. Our work provides a straightforward and reliable method to overcome annotation inconsistencies, serving as an initial step towards the development of more advanced preference learning techniques.

BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks on Large Language Models

分类： 人工智能

作者： Yige Li, Hanxun Huang, Yunhan Zhao, Xingjun Ma, Jun Sun

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12798v1

摘要： Generative Large Language Models (LLMs) have made significant strides across various tasks, but they remain vulnerable to backdoor attacks, where specific triggers in the prompt cause the LLM to generate adversary-desired responses. While most backdoor research has focused on vision or text classification tasks, backdoor attacks in text generation have been largely overlooked. In this work, we introduce \textit{BackdoorLLM}, the first comprehensive benchmark for studying backdoor attacks on LLMs. \textit{BackdoorLLM} features: 1) a repository of backdoor benchmarks with a standardized training pipeline, 2) diverse attack strategies, including data poisoning, weight poisoning, hidden state attacks, and chain-of-thought attacks, 3) extensive evaluations with over 200 experiments on 8 attacks across 7 scenarios and 6 model architectures, and 4) key insights into the effectiveness and limitations of backdoors in LLMs. We hope \textit{BackdoorLLM} will raise awareness of backdoor threats and contribute to advancing AI safety. The code is available at \url{https://github.com/bboylyg/BackdoorLLM}.

Real-Time Posture Monitoring and Risk Assessment for Manual Lifting Tasks Using MediaPipe and LSTM

分类： 人工智能, 计算机视觉和模式识别

作者： Ereena Bagga, Ang Yang

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12796v1

摘要： This research focuses on developing a real-time posture monitoring and risk assessment system for manual lifting tasks using advanced AI and computer vision technologies. Musculoskeletal disorders (MSDs) are a significant concern for workers involved in manual lifting, and traditional methods for posture correction are often inadequate due to delayed feedback and lack of personalized assessment. Our proposed solution integrates AI-driven posture detection, detailed keypoint analysis, risk level determination, and real-time feedback delivered through a user-friendly web interface. The system aims to improve posture, reduce the risk of MSDs, and enhance user engagement. The research involves comprehensive data collection, model training, and iterative development to ensure high accuracy and user satisfaction. The solution's effectiveness is evaluated against existing methodologies, demonstrating significant improvements in real-time feedback and risk assessment. This study contributes to the field by offering a novel approach to posture correction that addresses existing gaps and provides practical, immediate benefits to users.

Event Detection via Probability Density Function Regression

分类： 人工智能, 机器学习, 机器学习, I.2.0; I.5.4

作者： Clark Peng, Tolga Dinçer

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12792v1

摘要： In the domain of time series analysis, particularly in event detection tasks, current methodologies predominantly rely on segmentation-based approaches, which predict the class label for each individual timesteps and use the changepoints of these labels to detect events. However, these approaches may not effectively detect the precise onset and offset of events within the data and suffer from class imbalance problems. This study introduces a generalized regression-based approach to reframe the time-interval-defined event detection problem. Inspired by heatmap regression techniques from computer vision, our approach aims to predict probability densities at event locations rather than class labels across the entire time series. The primary aim of this approach is to improve the accuracy of event detection methods, particularly for long-duration events where identifying the onset and offset is more critical than classifying individual event states. We demonstrate that regression-based approaches outperform segmentation-based methods across various state-of-the-art baseline networks and datasets, offering a more effective solution for specific event detection tasks.

Context-Aware Temporal Embedding of Objects in Video Data

分类： 计算机视觉和模式识别, 人工智能

作者： Ahnaf Farhan, M. Shahriar Hossain

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12789v1

摘要： In video analysis, understanding the temporal context is crucial for recognizing object interactions, event patterns, and contextual changes over time. The proposed model leverages adjacency and semantic similarities between objects from neighboring video frames to construct context-aware temporal object embeddings. Unlike traditional methods that rely solely on visual appearance, our temporal embedding model considers the contextual relationships between objects, creating a meaningful embedding space where temporally connected object's vectors are positioned in proximity. Empirical studies demonstrate that our context-aware temporal embeddings can be used in conjunction with conventional visual embeddings to enhance the effectiveness of downstream applications. Moreover, the embeddings can be used to narrate a video using a Large Language Model (LLM). This paper describes the intricate details of the proposed objective function to generate context-aware temporal object embeddings for video data and showcases the potential applications of the generated embeddings in video analysis and object classification tasks.

The Model Mastery Lifecycle: A Framework for Designing Human-AI Interaction

分类： 人机交互, 人工智能, 机器学习

作者： Mark Chignell, Mu-Huan Miles Chung, Jaturong Kongmanee, Khilan Jerath, Abhay Raman

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12781v1

摘要： The utilization of AI in an increasing number of fields is the latest iteration of a long process, where machines and systems have been replacing humans, or changing the roles that they play, in various tasks. Although humans are often resistant to technological innovation, especially in workplaces, there is a general trend towards increasing automation, and more recently, AI. AI is now capable of carrying out, or assisting with, many tasks that used to be regarded as exclusively requiring human expertise. In this paper we consider the case of tasks that could be performed either by human experts or by AI and locate them on a continuum running from exclusively human task performance at one end to AI autonomy on the other, with a variety of forms of human-AI interaction between those extremes. Implementation of AI is constrained by the context of the systems and workflows that it will be embedded within. There is an urgent need for methods to determine how AI should be used in different situations and to develop appropriate methods of human-AI interaction so that humans and AI can work together effectively to perform tasks. In response to the evolving landscape of AI progress and increasing mastery, we introduce an AI Mastery Lifecycle framework and discuss its implications for human-AI interaction. The framework provides guidance on human-AI task allocation and how human-AI interfaces need to adapt to improvements in AI task performance over time. Within the framework we identify a zone of uncertainty where the issues of human-AI task allocation and user interface design are likely to be most challenging.

Investigating LLM Applications in E-Commerce

分类： 计算和语言, 人工智能

作者： Chester Palen-Michel, Ruixiang Wang, Yipeng Zhang, David Yu, Canran Xu, Zhe Wu

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12779v1

摘要： The emergence of Large Language Models (LLMs) has revolutionized natural language processing in various applications especially in e-commerce. One crucial step before the application of such LLMs in these fields is to understand and compare the performance in different use cases in such tasks. This paper explored the efficacy of LLMs in the e-commerce domain, focusing on instruction-tuning an open source LLM model with public e-commerce datasets of varying sizes and comparing the performance with the conventional models prevalent in industrial applications. We conducted a comprehensive comparison between LLMs and traditional pre-trained language models across specific tasks intrinsic to the e-commerce domain, namely classification, generation, summarization, and named entity recognition (NER). Furthermore, we examined the effectiveness of the current niche industrial application of very large LLM, using in-context learning, in e-commerce specific tasks. Our findings indicate that few-shot inference with very large LLMs often does not outperform fine-tuning smaller pre-trained models, underscoring the importance of task-specific model optimization.Additionally, we investigated different training methodologies such as single-task training, mixed-task training, and LoRA merging both within domain/tasks and between different tasks. Through rigorous experimentation and analysis, this paper offers valuable insights into the potential effectiveness of LLMs to advance natural language processing capabilities within the e-commerce industry.

Data-Centric Approach to Constrained Machine Learning: A Case Study on Conway's Game of Life

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 信息检索

作者： Anton Bibin, Anton Dereventsov

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12778v1

摘要： This paper focuses on a data-centric approach to machine learning applications in the context of Conway's Game of Life. Specifically, we consider the task of training a minimal architecture network to learn the transition rules of Game of Life for a given number of steps ahead, which is known to be challenging due to restrictions on the allowed number of trainable parameters. An extensive quantitative analysis showcases the benefits of utilizing a strategically designed training dataset, with its advantages persisting regardless of other parameters of the learning configuration, such as network initialization weights or optimization algorithm. Importantly, our findings highlight the integral role of domain expert insights in creating effective machine learning applications for constrained real-world scenarios.

Environment-Centric Active Inference

分类： 机器人技术, 人工智能

作者： Kanako Esaki, Tadayuki Matsumura, Takeshi Kato, Shunsuke Minusa, Yang Shao, Hiroyuki Mizuno

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12777v1

摘要： To handle unintended changes in the environment by agents, we propose an environment-centric active inference EC-AIF in which the Markov Blanket of active inference is defined starting from the environment. In normal active inference, the Markov Blanket is defined starting from the agent. That is, first the agent was defined as the entity that performs the "action" such as a robot or a person, then the environment was defined as other people or objects that are directly affected by the agent's "action," and the boundary between the agent and the environment was defined as the Markov Blanket. This agent-centric definition does not allow the agent to respond to unintended changes in the environment caused by factors outside of the defined environment. In the proposed EC-AIF, there is no entity corresponding to an agent. The environment includes all observable things, including people and things conventionally considered to be the environment, as well as entities that perform "actions" such as robots and people. Accordingly, all states, including robots and people, are included in inference targets, eliminating unintended changes in the environment. The EC-AIF was applied to a robot arm and validated with an object transport task by the robot arm. The results showed that the robot arm successfully transported objects while responding to changes in the target position of the object and to changes in the orientation of another robot arm.

Intelligent OPC Engineer Assistant for Semiconductor Manufacturing

分类： 人工智能, 硬件架构

作者： Guojin Chen, Haoyu Yang, Haoxing Ren, Bei Yu

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12775v1

摘要： Advancements in chip design and manufacturing have enabled the processing of complex tasks such as deep learning and natural language processing, paving the way for the development of artificial general intelligence (AGI). AI, on the other hand, can be leveraged to innovate and streamline semiconductor technology from planning and implementation to manufacturing. In this paper, we present \textit{Intelligent OPC Engineer Assistant}, an AI/LLM-powered methodology designed to solve the core manufacturing-aware optimization problem known as optical proximity correction (OPC). The methodology involves a reinforcement learning-based OPC recipe search and a customized multi-modal agent system for recipe summarization. Experiments demonstrate that our methodology can efficiently build OPC recipes on various chip designs with specially handled design topologies, a task that typically requires the full-time effort of OPC engineers with years of experience.

Symmetric masking strategy enhances the performance of Masked Image Modeling

分类： 计算机视觉和模式识别, 人工智能

作者： Khanh-Binh Nguyen, Chae Jung Park

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12772v1

摘要： Masked Image Modeling (MIM) is a technique in self-supervised learning that focuses on acquiring detailed visual representations from unlabeled images by estimating the missing pixels in randomly masked sections. It has proven to be a powerful tool for the preliminary training of Vision Transformers (ViTs), yielding impressive results across various tasks. Nevertheless, most MIM methods heavily depend on the random masking strategy to formulate the pretext task. This strategy necessitates numerous trials to ascertain the optimal dropping ratio, which can be resource-intensive, requiring the model to be pre-trained for anywhere between 800 to 1600 epochs. Furthermore, this approach may not be suitable for all datasets. In this work, we propose a new masking strategy that effectively helps the model capture global and local features. Based on this masking strategy, SymMIM, our proposed training pipeline for MIM is introduced. SymMIM achieves a new SOTA accuracy of 85.9% on ImageNet using ViT-Large and surpasses previous SOTA across downstream tasks such as image classification, semantic segmentation, object detection, instance segmentation tasks, and so on.

When In-memory Computing Meets Spiking Neural Networks -- A Perspective on Device-Circuit-System-and-Algorithm Co-design

分类： 神经和进化计算, 人工智能, 硬件架构, 机器学习

作者： Abhishek Moitra, Abhiroop Bhattacharjee, Yuhang Li, Youngeun Kim, Priyadarshini Panda

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12767v1

摘要： This review explores the intersection of bio-plausible artificial intelligence in the form of Spiking Neural Networks (SNNs) with the analog In-Memory Computing (IMC) domain, highlighting their collective potential for low-power edge computing environments. Through detailed investigation at the device, circuit, and system levels, we highlight the pivotal synergies between SNNs and IMC architectures. Additionally, we emphasize the critical need for comprehensive system-level analyses, considering the inter-dependencies between algorithms, devices, circuit & system parameters, crucial for optimal performance. An in-depth analysis leads to identification of key system-level bottlenecks arising from device limitations which can be addressed using SNN-specific algorithm-hardware co-design techniques. This review underscores the imperative for holistic device to system design space co-exploration, highlighting the critical aspects of hardware and algorithm research endeavors for low-power neuromorphic solutions.

Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models

分类： 机器学习, 人工智能, 计算和语言

作者： Jean Park, Kuk Jin Jang, Basam Alasaly, Sriharsha Mopidevi, Andrew Zolensky, Eric Eaton, Insup Lee, Kevin Johnson

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12763v1

摘要： Multimodal large language models (MLLMs) can simultaneously process visual, textual, and auditory data, capturing insights that complement human analysis. However, existing video question-answering (VidQA) benchmarks and datasets often exhibit a bias toward a single modality, despite the goal of requiring advanced reasoning skills that integrate diverse modalities to answer the queries. In this work, we introduce the modality importance score (MIS) to identify such bias. It is designed to assess which modality embeds the necessary information to answer the question. Additionally, we propose an innovative method using state-of-the-art MLLMs to estimate the modality importance, which can serve as a proxy for human judgments of modality perception. With this MIS, we demonstrate the presence of unimodal bias and the scarcity of genuinely multimodal questions in existing datasets. We further validate the modality importance score with multiple ablation studies to evaluate the performance of MLLMs on permuted feature sets. Our results indicate that current models do not effectively integrate information due to modality imbalance in existing datasets. Our proposed MLLM-derived MIS can guide the curation of modality-balanced datasets that advance multimodal learning and enhance MLLMs' capabilities to understand and utilize synergistic relations across modalities.

Visual Verity in AI-Generated Imagery: Computational Metrics and Human-Centric Analysis

分类： 人机交互, 人工智能

作者： Memoona Aziz, Umair Rahman, Syed Ali Safi, Amir Zaib Abbasi

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12762v1

摘要： The rapid advancements in AI technologies have revolutionized the production of graphical content across various sectors, including entertainment, advertising, and e-commerce. These developments have spurred the need for robust evaluation methods to assess the quality and realism of AI-generated images. To address this, we conducted three studies. First, we introduced and validated a questionnaire called Visual Verity, which measures photorealism, image quality, and text-image alignment. Second, we applied this questionnaire to assess images from AI models (DALL-E2, DALL-E3, GLIDE, Stable Diffusion) and camera-generated images, revealing that camera-generated images excelled in photorealism and text-image alignment, while AI models led in image quality. We also analyzed statistical properties, finding that camera-generated images scored lower in hue, saturation, and brightness. Third, we evaluated computational metrics' alignment with human judgments, identifying MS-SSIM and CLIP as the most consistent with human assessments. Additionally, we proposed the Neural Feature Similarity Score (NFSS) for assessing image quality. Our findings highlight the need for refining computational metrics to better capture human visual perception, thereby enhancing AI-generated content evaluation.

SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection

分类： 计算和语言, 人工智能, 机器学习

作者： Mengya Hu, Rui Xu, Deren Lei, Yaxi Li, Mingyu Wang, Emily Ching, Eslam Kamal, Alex Deng

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12748v1

摘要： Large language models (LLMs) are highly capable but face latency challenges in real-time applications, such as conducting online hallucination detection. To overcome this issue, we propose a novel framework that leverages a small language model (SLM) classifier for initial detection, followed by a LLM as constrained reasoner to generate detailed explanations for detected hallucinated content. This study optimizes the real-time interpretable hallucination detection by introducing effective prompting techniques that align LLM-generated explanations with SLM decisions. Empirical experiment results demonstrate its effectiveness, thereby enhancing the overall user experience.

TReX- Reusing Vision Transformer's Attention for Efficient Xbar-based Computing

分类： 人工智能, 硬件架构

作者： Abhishek Moitra, Abhiroop Bhattacharjee, Youngeun Kim, Priyadarshini Panda

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12742v1

摘要： Due to the high computation overhead of Vision Transformers (ViTs), In-memory Computing architectures are being researched towards energy-efficient deployment in edge-computing scenarios. Prior works have proposed efficient algorithm-hardware co-design and IMC-architectural improvements to improve the energy-efficiency of IMC-implemented ViTs. However, all prior works have neglected the overhead and co-depencence of attention blocks on the accuracy-energy-delay-area of IMC-implemented ViTs. To this end, we propose TReX- an attention-reuse-driven ViT optimization framework that effectively performs attention reuse in ViT models to achieve optimal accuracy-energy-delay-area tradeoffs. TReX optimally chooses the transformer encoders for attention reuse to achieve near iso-accuracy performance while meeting the user-specified delay requirement. Based on our analysis on the Imagenet-1k dataset, we find that TReX achieves 2.3x (2.19x) EDAP reduction and 1.86x (1.79x) TOPS/mm2 improvement with ~1% accuracy drop in case of DeiT-S (LV-ViT-S) ViT models. Additionally, TReX achieves high accuracy at high EDAP reduction compared to state-of-the-art token pruning and weight sharing approaches. On NLP tasks such as CoLA, TReX leads to 2% higher non-ideal accuracy compared to baseline at 1.6x lower EDAP.

Towards measuring fairness in speech recognition: Fair-Speech dataset

分类： 人工智能, 计算机与社会, 声音, 音频和语音处理, 机器学习

作者： Irina-Elena Veliche, Zhuangqun Huang, Vineeth Ayyat Kochaniyan, Fuchun Peng, Ozlem Kalinli, Michael L. Seltzer

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12734v1

摘要： The current public datasets for speech recognition (ASR) tend not to focus specifically on the fairness aspect, such as performance across different demographic groups. This paper introduces a novel dataset, Fair-Speech, a publicly released corpus to help researchers evaluate their ASR models for accuracy across a diverse set of self-reported demographic information, such as age, gender, ethnicity, geographic variation and whether the participants consider themselves native English speakers. Our dataset includes approximately 26.5K utterances in recorded speech by 593 people in the United States, who were paid to record and submit audios of themselves saying voice commands. We also provide ASR baselines, including on models trained on transcribed and untranscribed social media videos and open source models.

SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging

分类： 人工智能, 计算和语言, 数据库, 机器学习

作者： Mohammadreza Pourreza, Ruoxi Sun, Hailong Li, Lesly Miculicich, Tomas Pfister, Sercan O. Arik

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12733v1

摘要： Text-to-SQL systems, which convert natural language queries into SQL commands, have seen significant progress primarily for the SQLite dialect. However, adapting these systems to other SQL dialects like BigQuery and PostgreSQL remains a challenge due to the diversity in SQL syntax and functions. We introduce SQL-GEN, a framework for generating high-quality dialect-specific synthetic data guided by dialect-specific tutorials, and demonstrate its effectiveness in creating training datasets for multiple dialects. Our approach significantly improves performance, by up to 20%, over previous methods and reduces the gap with large-scale human-annotated datasets. Moreover, combining our synthetic data with human-annotated data provides additional performance boosts of 3.3% to 5.6%. We also introduce a novel Mixture of Experts (MoE) initialization method that integrates dialect-specific models into a unified system by merging self-attention layers and initializing the gates with dialect-specific keywords, further enhancing performance across different SQL dialects.

BankTweak: Adversarial Attack against Multi-Object Trackers by Manipulating Feature Banks

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Woojin Shin, Donghwa Kang, Daejin Choi, Brent Kang, Jinkyu Lee, Hyeongboo Baek

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12727v1

摘要： Multi-object tracking (MOT) aims to construct moving trajectories for objects, and modern multi-object trackers mainly utilize the tracking-by-detection methodology. Initial approaches to MOT attacks primarily aimed to degrade the detection quality of the frames under attack, thereby reducing accuracy only in those specific frames, highlighting a lack of \textit{efficiency}. To improve efficiency, recent advancements manipulate object positions to cause persistent identity (ID) switches during the association phase, even after the attack ends within a few frames. However, these position-manipulating attacks have inherent limitations, as they can be easily counteracted by adjusting distance-related parameters in the association phase, revealing a lack of \textit{robustness}. In this paper, we present \textsf{BankTweak}, a novel adversarial attack designed for MOT trackers, which features efficiency and robustness. \textsf{BankTweak} focuses on the feature extractor in the association phase and reveals vulnerability in the Hungarian matching method used by feature-based MOT systems. Exploiting the vulnerability, \textsf{BankTweak} induces persistent ID switches (addressing \textit{efficiency}) even after the attack ends by strategically injecting altered features into the feature banks without modifying object positions (addressing \textit{robustness}). To demonstrate the applicability, we apply \textsf{BankTweak} to three multi-object trackers (DeepSORT, StrongSORT, and MOTDT) with one-stage, two-stage, anchor-free, and transformer detectors. Extensive experiments on the MOT17 and MOT20 datasets show that our method substantially surpasses existing attacks, exposing the vulnerability of the tracking-by-detection framework to \textsf{BankTweak}.

Generating Realistic X-ray Scattering Images Using Stable Diffusion and Human-in-the-loop Annotations

分类： 图像和视频处理, 人工智能, 机器学习

作者： Zhuowen Zhao, Xiaoya Chong, Tanny Chavez, Alexander Hexemer

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12720v1

摘要： We fine-tuned a foundational stable diffusion model using X-ray scattering images and their corresponding descriptions to generate new scientific images from given prompts. However, some of the generated images exhibit significant unrealistic artifacts, commonly known as "hallucinations". To address this issue, we trained various computer vision models on a dataset composed of 60% human-approved generated images and 40% experimental images to detect unrealistic images. The classified images were then reviewed and corrected by human experts, and subsequently used to further refine the classifiers in next rounds of training and inference. Our evaluations demonstrate the feasibility of generating high-fidelity, domain-specific images using a fine-tuned diffusion model. We anticipate that generative AI will play a crucial role in enhancing data augmentation and driving the development of digital twins in scientific research facilities.

Learning Valid Dual Bounds in Constraint Programming: Boosted Lagrangian Decomposition with Self-Supervised Learning

分类： 人工智能

作者： Swann Bessa, Darius Dabert, Max Bourgeat, Louis-Martin Rousseau, Quentin Cappart

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12695v1

摘要： Lagrangian decomposition (LD) is a relaxation method that provides a dual bound for constrained optimization problems by decomposing them into more manageable sub-problems. This bound can be used in branch-and-bound algorithms to prune the search space effectively. In brief, a vector of Lagrangian multipliers is associated with each sub-problem, and an iterative procedure (e.g., a sub-gradient optimization) adjusts these multipliers to find the tightest bound. Initially applied to integer programming, Lagrangian decomposition also had success in constraint programming due to its versatility and the fact that global constraints provide natural sub-problems. However, the non-linear and combinatorial nature of sub-problems in constraint programming makes it computationally intensive to optimize the Lagrangian multipliers with sub-gradient methods at each node of the tree search. This currently limits the practicality of LD as a general bounding mechanism for constraint programming. To address this challenge, we propose a self-supervised learning approach that leverages neural networks to generate multipliers directly, yielding tight bounds. This approach significantly reduces the number of sub-gradient optimization steps required, enhancing the pruning efficiency and reducing the execution time of constraint programming solvers. This contribution is one of the few that leverage learning to enhance bounding mechanisms on the dual side, a critical element in the design of combinatorial solvers. To our knowledge, this work presents the first generic method for learning valid dual bounds in constraint programming.

Unlocking Intrinsic Fairness in Stable Diffusion

分类： 人工智能

作者： Eunji Kim, Siwon Kim, Rahim Entezari, Sungroh Yoon

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12692v1

摘要： Recent text-to-image models like Stable Diffusion produce photo-realistic images but often show demographic biases. Previous debiasing methods focused on training-based approaches, failing to explore the root causes of bias and overlooking Stable Diffusion's potential for unbiased image generation. In this paper, we demonstrate that Stable Diffusion inherently possesses fairness, which can be unlocked to achieve debiased outputs. Through carefully designed experiments, we identify the excessive bonding between text prompts and the diffusion process as a key source of bias. To address this, we propose a novel approach that perturbs text conditions to unleash Stable Diffusion's intrinsic fairness. Our method effectively mitigates bias without additional tuning, while preserving image-text alignment and image quality.

MultiMed: Massively Multimodal and Multitask Medical Understanding

分类： 机器学习, 人工智能, 计算和语言, 计算机视觉和模式识别, 多媒体

作者： Shentong Mo, Paul Pu Liang

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12682v1

摘要： Biomedical data is inherently multimodal, consisting of electronic health records, medical imaging, digital pathology, genome sequencing, wearable sensors, and more. The application of artificial intelligence tools to these multifaceted sensing technologies has the potential to revolutionize the prognosis, diagnosis, and management of human health and disease. However, current approaches to biomedical AI typically only train and evaluate with one or a small set of medical modalities and tasks. This limitation hampers the development of comprehensive tools that can leverage the rich interconnected information across many heterogeneous biomedical sensors. To address this challenge, we present MultiMed, a benchmark designed to evaluate and enable large-scale learning across a wide spectrum of medical modalities and tasks. MultiMed consists of 2.56 million samples across ten medical modalities such as medical reports, pathology, genomics, and protein data, and is structured into eleven challenging tasks, including disease prognosis, protein structure prediction, and medical question answering. Using MultiMed, we conduct comprehensive experiments benchmarking state-of-the-art unimodal, multimodal, and multitask models. Our analysis highlights the advantages of training large-scale medical models across many related modalities and tasks. Moreover, MultiMed enables studies of generalization across related medical concepts, robustness to real-world noisy data and distribution shifts, and novel modality combinations to improve prediction performance. MultiMed will be publicly available and regularly updated and welcomes inputs from the community.

Can LLMs Understand Social Norms in Autonomous Driving Games?

分类： 人工智能

作者： Boxuan Wang, Haonan Duan, Yanhao Feng, Xu Chen, Yongjie Fu, Zhaobin Mo, Xuan Di

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12680v1

摘要： Social norm is defined as a shared standard of acceptable behavior in a society. The emergence of social norms fosters coordination among agents without any hard-coded rules, which is crucial for the large-scale deployment of AVs in an intelligent transportation system. This paper explores the application of LLMs in understanding and modeling social norms in autonomous driving games. We introduce LLMs into autonomous driving games as intelligent agents who make decisions according to text prompts. These agents are referred to as LLM-based agents. Our framework involves LLM-based agents playing Markov games in a multi-agent system (MAS), allowing us to investigate the emergence of social norms among individual agents. We aim to identify social norms by designing prompts and utilizing LLMs on textual information related to the environment setup and the observations of LLM-based agents. Using the OpenAI Chat API powered by GPT-4.0, we conduct experiments to simulate interactions and evaluate the performance of LLM-based agents in two driving scenarios: unsignalized intersection and highway platoon. The results show that LLM-based agents can handle dynamically changing environments in Markov games, and social norms evolve among LLM-based agents in both scenarios. In the intersection game, LLM-based agents tend to adopt a conservative driving policy when facing a potential car crash. The advantage of LLM-based agents in games lies in their strong operability and analyzability, which facilitate experimental design.

Enhancing Transferability of Adversarial Attacks with GE-AdvGAN+: A Comprehensive Framework for Gradient Editing

分类： 人工智能

作者： Zhibo Jin, Jiayu Zhang, Zhiyu Zhu, Yuchen Zhang, Jiahao Huang, Jianlong Zhou, Fang Chen

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12673v1

摘要： Transferable adversarial attacks pose significant threats to deep neural networks, particularly in black-box scenarios where internal model information is inaccessible. Studying adversarial attack methods helps advance the performance of defense mechanisms and explore model vulnerabilities. These methods can uncover and exploit weaknesses in models, promoting the development of more robust architectures. However, current methods for transferable attacks often come with substantial computational costs, limiting their deployment and application, especially in edge computing scenarios. Adversarial generative models, such as Generative Adversarial Networks (GANs), are characterized by their ability to generate samples without the need for retraining after an initial training phase. GE-AdvGAN, a recent method for transferable adversarial attacks, is based on this principle. In this paper, we propose a novel general framework for gradient editing-based transferable attacks, named GE-AdvGAN+, which integrates nearly all mainstream attack methods to enhance transferability while significantly reducing computational resource consumption. Our experiments demonstrate the compatibility and effectiveness of our framework. Compared to the baseline AdvGAN, our best-performing method, GE-AdvGAN++, achieves an average ASR improvement of 47.8. Additionally, it surpasses the latest competing algorithm, GE-AdvGAN, with an average ASR increase of 5.9. The framework also exhibits enhanced computational efficiency, achieving 2217.7 FPS, outperforming traditional methods such as BIM and MI-FGSM. The implementation code for our GE-AdvGAN+ framework is available at https://github.com/GEAdvGANP

Leveraging Information Consistency in Frequency and Spatial Domain for Adversarial Attacks

分类： 机器学习, 人工智能

作者： Zhibo Jin, Jiayu Zhang, Zhiyu Zhu, Xinyi Wang, Yiyun Huang, Huaming Chen

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12670v1

摘要： Adversarial examples are a key method to exploit deep neural networks. Using gradient information, such examples can be generated in an efficient way without altering the victim model. Recent frequency domain transformation has further enhanced the transferability of such adversarial examples, such as spectrum simulation attack. In this work, we investigate the effectiveness of frequency domain-based attacks, aligning with similar findings in the spatial domain. Furthermore, such consistency between the frequency and spatial domains provides insights into how gradient-based adversarial attacks induce perturbations across different domains, which is yet to be explored. Hence, we propose a simple, effective, and scalable gradient-based adversarial attack algorithm leveraging the information consistency in both frequency and spatial domains. We evaluate the algorithm for its effectiveness against different models. Extensive experiments demonstrate that our algorithm achieves state-of-the-art results compared to other gradient-based algorithms. Our code is available at: https://github.com/LMBTough/FSA.

Benchmarking Counterfactual Interpretability in Deep Learning Models for Time Series Classification

分类： 机器学习, 人工智能, 机器学习

作者： Ziwen Kan, Shahbaz Rezaei, Xin liu

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12666v1

摘要： The popularity of deep learning methods in the time series domain boosts interest in interpretability studies, including counterfactual (CF) methods. CF methods identify minimal changes in instances to alter the model predictions. Despite extensive research, no existing work benchmarks CF methods in the time series domain. Additionally, the results reported in the literature are inconclusive due to the limited number of datasets and inadequate metrics. In this work, we redesign quantitative metrics to accurately capture desirable characteristics in CFs. We specifically redesign the metrics for sparsity and plausibility and introduce a new metric for consistency. Combined with validity, generation time, and proximity, we form a comprehensive metric set. We systematically benchmark 6 different CF methods on 20 univariate datasets and 10 multivariate datasets with 3 different classifiers. Results indicate that the performance of CF methods varies across metrics and among different models. Finally, we provide case studies and a guideline for practical usage.

Multilevel Interpretability Of Artificial Neural Networks: Leveraging Framework And Methods From Neuroscience

分类： 人工智能, 神经元和认知

作者： Zhonghao He, Jascha Achterberg, Katie Collins, Kevin Nejad, Danyal Akarca, Yinzhu Yang, Wes Gurnee, Ilia Sucholutsky, Yuhan Tang, Rebeca Ianov, George Ogden, Chole Li, Kai Sandbrink, Stephen Casper, Anna Ivanova, Grace W. Lindsay

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12664v1

摘要： As deep learning systems are scaled up to many billions of parameters, relating their internal structure to external behaviors becomes very challenging. Although daunting, this problem is not new: Neuroscientists and cognitive scientists have accumulated decades of experience analyzing a particularly complex system - the brain. In this work, we argue that interpreting both biological and artificial neural systems requires analyzing those systems at multiple levels of analysis, with different analytic tools for each level. We first lay out a joint grand challenge among scientists who study the brain and who study artificial neural networks: understanding how distributed neural mechanisms give rise to complex cognition and behavior. We then present a series of analytical tools that can be used to analyze biological and artificial neural systems, organizing those tools according to Marr's three levels of analysis: computation/behavior, algorithm/representation, and implementation. Overall, the multilevel interpretability framework provides a principled way to tackle neural system complexity; links structure, computation, and behavior; clarifies assumptions and research priorities at each level; and paves the way toward a unified effort for understanding intelligent systems, may they be biological or artificial.

Disentangled Structural and Featural Representation for Task-Agnostic Graph Valuation

分类： 机器学习, 人工智能, 信息论, 信息论, 机器学习

作者： Ali Falahati, Mohammad Mohammadi Amiri

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12659v1

摘要： With the emergence of data marketplaces, the demand for methods to assess the value of data has increased significantly. While numerous techniques have been proposed for this purpose, none have specifically addressed graphs as the main data modality. Graphs are widely used across various fields, ranging from chemical molecules to social networks. In this study, we break down graphs into two main components: structural and featural, and we focus on evaluating data without relying on specific task-related metrics, making it applicable in practical scenarios where validation requirements may be lacking. We introduce a novel framework called blind message passing, which aligns the seller's and buyer's graphs using a shared node permutation based on graph matching. This allows us to utilize the graph Wasserstein distance to quantify the differences in the structural distribution of graph datasets, called the structural disparities. We then consider featural aspects of buyers' and sellers' graphs for data valuation and capture their statistical similarities and differences, referred to as relevance and diversity, respectively. Our approach ensures that buyers and sellers remain unaware of each other's datasets. Our experiments on real datasets demonstrate the effectiveness of our approach in capturing the relevance, diversity, and structural disparities of seller data for buyers, particularly in graph-based data valuation scenarios.

Hierarchical Generative Modeling of Melodic Vocal Contours in Hindustani Classical Music

分类： 声音, 人工智能, 机器学习, 音频和语音处理

作者： Nithya Shikarpur, Krishna Maneesha Dendukur, Yusong Wu, Antoine Caillon, Cheng-Zhi Anna Huang

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12658v1

摘要： Hindustani music is a performance-driven oral tradition that exhibits the rendition of rich melodic patterns. In this paper, we focus on generative modeling of singers' vocal melodies extracted from audio recordings, as the voice is musically prominent within the tradition. Prior generative work in Hindustani music models melodies as coarse discrete symbols which fails to capture the rich expressive melodic intricacies of singing. Thus, we propose to use a finely quantized pitch contour, as an intermediate representation for hierarchical audio modeling. We propose GaMaDHaNi, a modular two-level hierarchy, consisting of a generative model on pitch contours, and a pitch contour to audio synthesis model. We compare our approach to non-hierarchical audio models and hierarchical models that use a self-supervised intermediate representation, through a listening test and qualitative analysis. We also evaluate audio model's ability to faithfully represent the pitch contour input using Pearson correlation coefficient. By using pitch contours as an intermediate representation, we show that our model may be better equipped to listen and respond to musicians in a human-AI collaborative setting by highlighting two potential interaction use cases (1) primed generation, and (2) coarse pitch conditioning.

ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction

分类： 计算机视觉和模式识别, 人工智能

作者： Ziyu Tang, Weicai Ye, Yifan Wang, Di Huang, Hujun Bao, Tong He, Guofeng Zhang

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12598v1

摘要： Neural implicit reconstruction via volume rendering has demonstrated its effectiveness in recovering dense 3D surfaces. However, it is non-trivial to simultaneously recover meticulous geometry and preserve smoothness across regions with differing characteristics. To address this issue, previous methods typically employ geometric priors, which are often constrained by the performance of the prior models. In this paper, we propose ND-SDF, which learns a Normal Ddeflection field to represent the angular deviation between the scene normal and the prior normal. Unlike previous methods that uniformly apply geometric priors on all samples, introducing significant bias in accuracy, our proposed normal deflection field dynamically learns and adapts the utilization of samples based on their specific characteristics, thereby improving both the accuracy and effectiveness of the model. Our method not only obtains smooth weakly textured regions such as walls and floors but also preserves the geometric details of complex structures. In addition, we introduce a novel ray sampling strategy based on the deflection angle to facilitate the unbiased rendering process, which significantly improves the quality and accuracy of intricate surfaces, especially on thin structures. Consistent improvements on various challenging datasets demonstrate the superiority of our method.

Differentiable Logic Programming for Distant Supervision

分类： 人工智能

作者： Akihiro Takemura, Katsumi Inoue

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12591v1

摘要： We introduce a new method for integrating neural networks with logic programming in Neural-Symbolic AI (NeSy), aimed at learning with distant supervision, in which direct labels are unavailable. Unlike prior methods, our approach does not depend on symbolic solvers for reasoning about missing labels. Instead, it evaluates logical implications and constraints in a differentiable manner by embedding both neural network outputs and logic programs into matrices. This method facilitates more efficient learning under distant supervision. We evaluated our approach against existing methods while maintaining a constant volume of training data. The findings indicate that our method not only matches or exceeds the accuracy of other methods across various tasks but also speeds up the learning process. These results highlight the potential of our approach to enhance both accuracy and learning efficiency in NeSy applications.

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

分类： 计算机视觉和模式识别, 人工智能

作者： Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12590v1

摘要： We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.

大型语言模型可以理解符号图形程序吗？

分类： 机器学习, 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08313v1

摘要： 评估大型语言模型 (LLM) 的能力通常具有挑战性，部分原因是很难找到他们在训练期间未接触过的任务。我们通过转向一项新任务来解决这一挑战：专注于符号图形程序，这是按程序生成视觉数据的图形内容的流行表示。大语言模型在程序综合方面表现出了令人兴奋的前景，但他们理解符号图形程序吗？与传统程序不同，符号图形程序可以转换为图形内容。在这里，我们根据大语言模型回答与图形内容相关的问题的能力来描述他们对符号程序的理解。这项任务具有挑战性，因为仅通过符号程序很难回答这些问题，但是，当我们通过人体实验验证时，从相应的图形内容中可以很容易地回答这些问题。为了理解符号程序，大语言模型可能需要具备想象相应图形内容的外观的能力，而无需直接访问渲染的视觉内容。我们使用此任务通过为符号图形程序的语义理解创建一个大型基准来评估大语言模型。该基准是通过程序图形对应构建的，因此需要最少的人力。我们根据我们的基准评估当前的大语言模型，以阐明对他们推理程序中的视觉场景的能力的初步评估。我们发现该任务区分了现有的大语言模型和被认为善于推理的模型，其表现更好。最后，我们引入符号指令调优（SIT）来提高这种能力。具体来说，我们使用符号程序生成的问题和图像来查询 GPT4-o。然后，这些数据将用于微调大语言模型。我们还发现 SIT 数据可以提高大语言模型的一般指令跟随能力。

HyperTaxel：通过对比学习实现基于紫杉醇的触觉信号的超分辨率

分类： 机器人技术, 人工智能

作者： Hongyu Li, Snehal Dikhale, Jinda Cui, Soshi Iba, Nawid Jamali

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08312v1

摘要： 为了达到与人类相当的灵活性，机器人必须智能地处理触觉传感器数据。基于紫杉醇的触觉信号通常具有低空间分辨率，并且具有非标准化的表示。在本文中，我们提出了一种新颖的框架 HyperTaxel，用于学习基于紫杉醇的触觉信号的几何信息表示，以解决与其空间分辨率相关的挑战。我们使用这种表示和对比学习目标来编码稀疏的低分辨率紫杉醇信号并将其映射到高分辨率接触表面。为了解决这些信号固有的不确定性，我们利用多个同时接触的联合概率分布来提高紫杉醇超分辨率。我们通过将我们的表示与两个基线进行比较来评估我们的表示，并给出表明我们的表示优于基线的结果。此外，我们提出的定性结果表明，学习的表示捕获了接触表面的几何特征，例如平面度、曲率和边缘，并概括了不同的物体和传感器配置。此外，我们提出的结果表明我们的表示提高了各种下游任务的性能，例如表面分类、6D 手持姿态估计和模拟到真实的传输。

交通系统工程中大型语言模型能力的基准测试：准确性、一致性和推理行为

分类： 人工智能, 计算和语言, 机器学习

作者： Usman Syed, Ethan Light, Xingang Guo, Huan Zhang, Lianhui Qin, Yanfeng Ouyang, Bin Hu

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08302v1

摘要： 在本文中，我们探讨了最先进的大型语言模型 (LLM) 的功能，例如 GPT-4、GPT-4o、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3 和 Llama 3.1解决一些选定的本科水平交通工程问题。我们引入了 TransportBench，这是一个基准数据集，其中包含交通系统规划、设计、管理和控制等广泛主题的交通工程问题样本。该数据集被人类专家用来评估各种商业和开源大语言模型的能力，特别是它们在解决交通工程问题时的准确性、一致性和推理行为。我们的全面分析揭示了每个大语言模型的独特优势和局限性，例如我们的分析显示了 Claude 3.5 Sonnet 在解决 TransportBench 问题时令人印象深刻的准确性和一些意想不到的不一致行为。我们的研究标志着利用通用人工智能应对复杂的交通挑战迈出了令人兴奋的第一步。

SLCA++：通过预训练释放连续微调的力量以实现持续学习

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Gengwei Zhang, Liyuan Wang, Guoliang Kang, Ling Chen, Yunchao Wei

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08295v1

摘要： 近年来，持续学习与预训练（CLPT）受到了广泛的关注，而不是传统的从头开始训练。使用强大的预训练模型（PTM）可以极大地促进知识转移并减轻灾难性遗忘，但也会遭受预训练知识与特定下游任务的逐渐过度拟合的问题。当前的大多数工作通常保持 PTM 冻结，并结合特定于任务的提示来指导表示学习，再加上用于推理的提示选择过程。然而，由于提示参数的容量有限，该策略在持续学习中仅表现出次优性能。相比之下，调整 PTM 的所有参数通常为表示学习提供了最大的潜力，使得顺序微调 (Seq FT) 成为 CLPT 中被忽视的基本基线。为此，我们从 Seq FT 的角度对渐进式过拟合问题进行了深入分析。考虑到过快的表示学习和有偏差的分类层构成了这个特殊问题，我们引入了先进的带有分类器对齐的慢速学习器（SLCA++）框架来释放 Seq FT 的力量，作为 CLPT 的强大基线方法。我们的方法涉及一个慢速学习器来选择性地降低骨干参数的学习率，以及一个分类器对齐来以事后方式对齐不相交的分类层。我们通过对称交叉熵损失进一步增强 SL 的功效，并采用参数有效的策略来通过 SLCA++ 实现 Seq FT。在图像分类基准的各种持续学习场景中，我们的方法提供了实质性改进，并且大大优于最先进的方法。代码：https://github.com/GengDavid/SLCA。

通过扎根语言模型进行人形机器人自主行为规划

分类： 机器人技术, 人工智能, 机器学习

作者： Jin Wang, Arturo Laurenzi, Nikos Tsagarakis

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08282v1

摘要： 使人形机器人能够在非结构化环境中自主执行局部操作对于实现实体智能至关重要且极具挑战性。这涉及机器人能够在长期任务中规划自己的行动和行为，同时使用多模态来感知任务执行和高级规划之间的偏差。近年来，大语言模型（LLM）在机器人控制任务中展示了强大的理解和处理语义信息的规划和推理能力，以及对多模态输入的分析判断和决策的可用性。为了利用大语言模型的力量进行人形机器人操作，我们提出了一种基于语言模型的新颖框架，使机器人能够在给定的文本指令下自主规划行为和低级执行，同时观察和纠正任务执行期间可能发生的故障。为了系统地评估该框架在大语言模型基础上的应用，我们创建了用于任务规划的机器人“动作”和“感知”行为库，并使用 CENTAURO 机器人在模拟和真实环境中进行了移动操纵任务和实验，验证了其有效性和应用性这种方法在具有自主行为规划的机器人任务中的应用。

用于集总参数血流动力学模型的摊销推理和可识别性分析的 InVAERt 网络

分类： 数值分析, 人工智能, 计算工程、金融和科学, 机器学习, 数值分析

作者： Guoxiang Grayson Tong, Carlos A. Sing Long, Daniele E. Schiavazzi

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08264v1

摘要： 主要由于缺乏可识别性，从电子健康记录（EHR）估计心血管模型参数提出了重大挑战。当参数空间中的流形映射到公共输出时，就会出现结构不可识别性，而实际的不可识别性可能由于数据有限、模型指定错误或噪声损坏而导致。为了解决由此产生的不适定逆问题，基于优化或贝叶斯推理方法通常使用正则化，从而限制了发现多个解决方案的可能性。在这项研究中，我们使用 inVAert 网络，这是一种基于神经网络的数据驱动框架，用于增强刚性动力系统的数字孪生分析。我们在六室集总参数血流动力学模型从合成数据到缺少组件的真实数据的生理反演的背景下证明了 inVAert 网络的灵活性和有效性。

Snuffy：高效的整个幻灯片图像分类器

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 神经和进化计算, 图像和视频处理

作者： Hossein Jafarinia, Alireza Alipanah, Danial Hamdi, Saeed Razavi, Nahal Mirzaie, Mohammad Hossein Rohban

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08258v1

摘要： 数字病理学中使用多实例学习 (MIL) 的全幻灯片图像 (WSI) 分类面临着巨大的计算挑战。当前的方法主要依靠广泛的自监督学习（SSL）来获得令人满意的性能，需要较长的训练时间和大量的计算资源。同时，由于域从自然图像转移到 WSI，预训练不会影响性能。我们引入了 \textbf{\textit{Snuffy}} 架构，这是一种基于稀疏变压器的新型 MIL 池化方法，可以通过有限的预训练减轻性能损失，并使连续的几次预训练成为一种有竞争力的选择。我们的稀疏模式是为病理学量身定制的，并且在理论上被证明是一种通用逼近器，迄今为止，稀疏变压器的层数具有最严格的概率锐界。我们证明了 Snuffy 在 CAMELYON16 和 TCGA 肺癌数据集上的有效性，实现了卓越的 WSI 和补丁级精度。该代码可在 \url{https://github.com/jafarinia/snuffy} 上找到。

基于软值解码的连续和离散扩散模型中的无导数指导

分类： 机器学习, 人工智能, 基因组学, 机器学习

作者： Xiner Li, Yulai Zhao, Chenyu Wang, Gabriele Scalia, Gokcen Eraslan, Surag Nair, Tommaso Biancalani, Aviv Regev, Sergey Levine, Masatoshi Uehara

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08252v1

摘要： 扩散模型擅长捕捉图像、分子、DNA、RNA 和蛋白质序列的自然设计空间。然而，我们不仅仅是生成自然的设计，我们通常的目标是优化下游奖励函数，同时保留这些设计空间的自然性。实现这一目标的现有方法通常需要“可微”代理模型（\textit{e.g.}，分类器指导或 DPS）或涉及计算成本高昂的扩散模型微调（\textit{e.g.}，无分类器指导，RL基于微调）。在我们的工作中，我们提出了一种新方法来应对这些挑战。我们的算法是一种迭代采样方法，它将软值函数集成到预训练扩散模型的标准推理过程中，该函数着眼于中间噪声状态如何在未来带来高回报。值得注意的是，我们的方法避免了微调生成模型，并且消除了构建可微模型的需要。这使我们能够（1）直接利用许多科学领域中常用的不可微特征/奖励反馈，以及（2）以有原则的方式将我们的方法应用于最近的离散扩散模型。最后，我们证明了我们的算法在多个领域的有效性，包括图像生成、分子生成和 DNA/RNA 序列生成。该代码可在 \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD} 获取。

知识图嵌入的保形答案集预测

分类： 人工智能

作者： Yuqicheng Zhu, Nico Potyka, Jiarong Pan, Bo Xiong, Yunjie He, Evgeny Kharlamov, Steffen Staab

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08248v1

摘要： 知识图嵌入（KGE）将机器学习方法应用于知识图（KG），以提供基于相似性和类比的非经典推理能力。学习到的 KG 嵌入通常用于通过对所有潜在答案进行排名来回答查询，但排名通常缺乏有意义的概率解释 - 排名较低的答案不一定具有较低的真实概率。这种限制使得很难区分合理的答案和不合理的答案，这给 KGE 方法在医学等高风险领域的应用带来了挑战。我们通过应用共形预测理论来解决这个问题，该理论允许生成答案集，其中包含具有概率保证的正确答案。我们解释了如何使用保形预测来为链接预测任务生成此类答案集。我们使用六种代表性 KGE 方法对四个基准数据集进行实证评估，验证了生成的答案集满足共形预测理论给出的概率保证。我们还证明，生成的答案集通常具有合理的大小，并且该大小可以很好地适应查询的难度。

基于KAN的无冲突、无损速度环岛交互式驾驶强化学习决策系统

分类： 机器人技术, 人工智能, 机器学习, 系统与控制, 系统与控制

作者： Zhihao Lin, Zhen Tian, Qi Zhang, Ziyang Ye, Hanyang Zhuang, Jianglin Lan

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08242v1

摘要： 安全和效率对于环岛自动驾驶至关重要，特别是在自动驾驶车辆（AV）和人类驾驶车辆共存的混合交通环境中。本文介绍了一种基于学习的算法，旨在在环形交叉口的不同交通流量水平上促进安全高效的驾驶行为。该算法采用深度 Q 学习网络来有效学习复杂的多车辆环岛中安全高效的驾驶策略。此外，KAN（柯尔莫哥洛夫-阿诺德网络）增强了自动驾驶汽车稳健而精确地了解周围环境的能力。集成了动作检查器以取代危险动作，以避免自动驾驶汽车与环境交互时发生碰撞，并提出了路线规划器以提高自动驾驶汽车的驾驶效率和安全性。此外，采用模型预测控制，保证驾驶动作的稳定性和精确性。结果表明，我们提出的系统始终能够实现安全高效的驾驶，同时保持稳定的训练过程，奖励函数的平滑收敛和不同交通流的训练曲线的低方差就证明了这一点。与最先进的基准相比，所提出的算法实现了更少的碰撞次数并缩短了到达目的地的旅行时间。

通过暂时分解未来奖励估计器来解释智能体的未来信念

分类： 人工智能, 机器学习

作者： Mark Towers, Yali Du, Christopher Freeman, Timothy J. Norman

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08230v1

摘要： 未来奖励估计是强化学习智能体的核心组成部分；即 Q 值和状态值函数，预测代理的未来奖励总和。然而，它们的标量输出混淆了代理可能期望何时获得或获得什么个人未来奖励。我们通过修改代理的未来奖励估计器来预测他们的下一个 N 预期奖励来解决这个问题，称为时间奖励分解（TRD）。这为代理行为提供了新的解释。通过 TRD，我们可以：估计智能体预计何时获得奖励、奖励的价值以及智能体接收奖励的信心；测量输入特征对智能体行动决策的时间重要性；并预测不同行为对未来奖励的影响。此外，我们还表明，在 Atari 环境中训练的 DQN 代理可以有效地重新训练以合并 TRD，同时对性能的影响最小。

进化A*高效解决k最短路径问题（扩展版）

分类： 数据结构和算法, 人工智能, 68T20, I.2.8

作者： Carlos Linares López, Ian Herman

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08227v1

摘要： 在图 G(V, E) 中寻找最短路径的问题已被广泛研究。然而，在许多应用中，有必要计算它们的任意数量 k。尽管这个问题引起了不同研究团体的极大兴趣，并且它的许多应用都是已知的，但它尚未得到与单一最短路径问题相同的解决程度。当以显式形式计算路径时，有效解决此任务的最佳算法的时间复杂度为 O (|E| + |V|log{|V|}+k|V|)$，并且基于最佳优先搜索。本文介绍了一种具有相同时间复杂度的新搜索算法，该算法是 A* 自然演化的结果，因此保留了其所有有趣的属性，使其广泛适用于许多不同的领域。各种测试台上的实验表明，性能比现有技术有显着提高，通常提高一两个数量级。

链接预测中知识图嵌入的预测多重性

分类： 人工智能

作者： Yuqicheng Zhu, Nico Potyka, Mojtaba Nayyeri, Bo Xiong, Yunjie He, Evgeny Kharlamov, Steffen Staab

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08226v1

摘要： 知识图嵌入（KGE）模型通常用于预测知识图（KG）的缺失链接。然而，多个 KG 嵌入对于链接预测的性能几乎同样好，但对某些查询提出了相互冲突的预测，在文献中称为 \textit{预测多重性}。这种行为给高风险领域中基于 KGE 的应用程序带来了巨大的风险，但在 KGE 研究中却被忽视了。在本文中，我们定义了链路预测中的预测多重性。我们引入评估指标并测量常用基准数据集上代表性 KGE 方法的预测多重性。我们的实证研究揭示了链接预测中显着的预测多重性，$8%$ 到 $39%$ 测试查询表现出相互冲突的预测。为了解决这个问题，我们建议利用社会选择理论中的投票方法，根据我们的实验，显着减少冲突 $66%$ 到 $78%$。

KAN 在图像到图像 (I2I) 翻译中的黎明：将 Kolmogorov-Arnold 网络与 GAN 集成以实现不成对的 I2I 翻译

分类： 计算机视觉和模式识别, 人工智能

作者： Arpan Mahara, Naphtali D. Rishe, Liangdong Deng

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08216v1

摘要： 生成人工智能（Generative AI）中的图像到图像翻译一直是研究的中心焦点，其应用涵盖医疗保健、遥感、物理、化学、摄影等。在众多方法中，具有对比学习的生成对抗网络（GAN）特别成功。本研究旨在证明柯尔莫哥洛夫-阿诺德网络（KAN）可以有效取代生成人工智能中的多层感知器（MLP）方法，特别是在图像到图像翻译的子领域，以实现更好的生成质量。我们的新颖方法在现有的对比不成对图像到图像转换 (CUT) 模型中用两层 KAN 取代了两层 MLP，开发了 KAN-CUT 模型。这种替代有利于在低维向量表示中生成更多信息特征，对比学习可以更有效地利用这些特征在目标域中生成高质量图像。结果部分详细介绍了广泛的实验，证明了 KAN 与对比学习和 GAN 在生成 AI 中的适用性，特别是在图像到图像的翻译方面。这项工作表明 KAN 可能成为更广泛的生成人工智能领域的一个有价值的组成部分。

将视觉可检测疾病的医疗保健人工智能支持系统转移到受限设备上

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Tess Watt, Christos Chrysoulas, Peter J Barclay

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08215v1

摘要： 图像分类通常需要连接和访问云，而这在世界许多地方（包括难以到达的农村地区）通常受到限制。 TinyML 旨在通过在受限设备上托管人工智能助手来解决这个问题，通过在设备本身内部处理数据来消除连接问题，而无需访问互联网或云。这项试点研究探索了使用tinyML在低连接环境中通过低规格设备提供医疗保健支持，重点关注皮肤病的诊断以及人工智能助手在医疗保健环境中的道德使用。为了研究这一点，我们使用 10,000 张皮肤病变图像来训练一个模型，用于对视觉可检测疾病 (VDD) 进行分类。然后将模型权重卸载到带有网络摄像头的 Raspberry Pi，用于在没有互联网连接的情况下对皮肤病变进行分类。结果发现，所开发的原型机的测试精度达到了78%，测试损失为1.08。

联邦公平分析：量化联邦学习中的公平性

分类： 机器学习, 人工智能, 分布式、并行和集群计算, 计算机科学与博弈论, 神经和进化计算

作者： Oscar Dilley, Juan Marcelo Parra-Ullauri, Rasheed Hussain, Dimitra Simeonidou

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08214v1

摘要： 联邦学习 (FL) 是一种用于分布式机器学习的隐私增强技术。通过在本地训练模型并聚合更新，联盟可以一起学习，同时绕过集中式数据收集。 FL 在医疗保健、金融和个人计算领域越来越受欢迎。然而，它继承了经典机器学习的公平性挑战，并引入了新的挑战，这是由于数据质量、客户端参与、通信限制、聚合方法和底层硬件的差异造成的。公平性在 FL 中仍然是一个未解决的问题，社区已经发现缺乏简洁的定义和指标来量化公平性；为了解决这个问题，我们提出了联邦公平分析——一种衡量公平性的方法。我们对公平的定义包括四个概念以及新颖的相应指标。它们是按症状定义的，并利用源自 XAI、合作博弈论和网络工程的技术。我们测试了一系列实验设置，改变了 FL 方法、ML 任务和数据设置。结果表明，统计异质性和客户参与会影响公平性和公平意识方法（例如 Ditto 和 q-FedAvg），从而略微改善公平性与绩效的权衡。使用我们的技术，FL 从业者可以在不同的粒度级别上发现以前无法获得的对其系统公平性的见解，以解决 FL 中的公平性挑战。我们已将我们的工作开源：https://github.com/oscardilley/federated-fairness。

LLM4DSR：利用大型语言模型进行去噪序列推荐

分类： 信息检索, 人工智能

作者： Bohao Wang, Feng Liu, Jiawei Chen, Yudi Wu, Xingyu Lou, Jun Wang, Yan Feng, Chun Chen, Can Wang

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08208v1

摘要： 顺序推荐系统从根本上依赖于用户的历史交互序列，而这些序列常常受到噪声交互的污染。由于缺乏明确的监督信号来表示噪声，因此在没有附加信息的情况下准确识别这些噪声相互作用特别困难。大型语言模型（LLM）具有广泛的开放知识和语义推理能力，为弥合这一信息鸿沟提供了一条有希望的途径。然而，在顺序推荐中使用LLM进行去噪会带来显着的挑战：1）直接应用预训练的LLM可能无法胜任去噪任务，经常产生无意义的响应； 2）即使经过微调，大语言模型输出的可靠性仍然值得怀疑，特别是考虑到任务的复杂性和大语言模型固有的幻觉问题。为了应对这些挑战，我们提出了 LLM4DSR，这是一种使用 LLM 进行序列推荐去噪的定制方法。我们构建了一个自我监督的微调任务，以激活大语言模型识别噪音项目并建议替换项目的能力。此外，我们开发了一个不确定性估计模块，确保仅使用高置信度响应进行序列校正。值得注意的是，LLM4DSR 与模型无关，允许校正后的序列灵活地应用于各种推荐模型。大量实验验证了 LLM4DSR 相对于三个数据集和三个推荐主干的现有方法的优越性。

通过层次结构的视角扩大多机器人的自然语言理解

分类： 机器人技术, 人工智能, 计算机科学中的逻辑

作者： Shaojun Xu, Xusheng Luo, Yutong Huang, Letian Leng, Ruixuan Liu, Changliu Liu

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08188v1

摘要： 长期规划受到不确定性积累、计算复杂性、延迟奖励和不完整信息等挑战的阻碍。这项工作提出了一种利用人类指令的任务层次结构来促进多机器人规划的方法。使用大型语言模型（LLM），我们提出了一种两步方法，将多句指令翻译成结构化语言，即分层线性时序逻辑（LTL），作为规划的形式表示。最初，LLM 将指令转换为定义为分层任务树的分层表示，捕获任务之间的逻辑和时间关系。接下来，LLM 的特定领域微调将每个任务的子任务转换为平面 LTL 公式，将它们聚合以形成分层 LTL 规范。然后利用这些规范使用现成的规划器进行规划。我们的框架不仅弥合了指令和算法规划之间的差距，而且还展示了大语言模型在利用分层推理来自动化多机器人任务规划方面的潜力。通过对涉及人类参与者的模拟和现实实验的评估，我们证明了与现有方法相比，我们的方法可以处理更复杂的指令。结果表明，我们的方法在多机器人任务分配和计划生成方面实现了更高的成功率和更低的成本。演示视频可从 https://youtu.be/7WOrDKxIMIs 获取。

轮到你了：用于帕金森病严重程度评估的真实世界转动角度估计

分类： 计算机视觉和模式识别, 人工智能

作者： Qiushuo Cheng, Catherine Morgan, Arindam Sikdar, Alessandro Masullo, Alan Whone, Majid Mirmehdi

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08182v1

摘要： 随着疾病的进展，帕金森病 (PD) 患者的步态通常会逐渐恶化，包括转身方式的变化。现有的临床评级工具无法捕捉 PD 症状每小时的变化，因为它们仅限于诊所环境中的简短评估。连续、被动地测量现实世界的步态转动角度是使用步态特征作为 PD 疾病进展敏感指标的一个组成部分。本文提出了一种基于深度学习的方法，通过从视频中提取 3D 骨骼并计算髋关节和膝关节的旋转来自动量化转动角度。我们利用最先进的人体姿势估计模型 Fastpose 和 Strided Transformer，对来自 24 名受试者（12 名 PD 患者和 12 名健康对照志愿者）的总共 1386 个转身视频剪辑进行了修剪，这些视频剪辑是从无脚本免费的 PD 数据集中修剪的。 - 在类似家庭的环境中观看生活视频（Turn-REMAP）。我们还根据公共 Human3.6M 人体姿势基准和 3D 地面实况策划了一个转动视频数据集 Turn-H3.6M，以进一步验证我们的方法。以前的步态研究主要在诊所或实验室中进行，评估脚本步态结果，但这项工作侧重于存在复杂性的现实环境，例如宽松的衣服和不良的照明。由于在自由生活环境中获得准确的地面实况数据很困难，我们根据专家临床医生的手动标记将角度量化到最近的 bin $45^\circ$ 中。我们的方法实现了 41.6% 的车削计算精度，34.7{\deg} 的平均绝对误差 (MAE)，以及 Turn-REMAP 的加权精度 WPrec 为 68.3%。这是第一项探索使用单个单眼摄像头数据来量化 PD 患者在家庭环境中转动的工作。

通过视觉记忆实现灵活的感知

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08172v1

摘要： 训练神经网络是一项整体工作，类似于将知识刻在石头上：一旦该过程完成，编辑网络中的知识几乎是不可能的，因为所有信息都分布在网络的权重上。我们在这里探索一种简单而引人注目的替代方案，将深度神经网络的表征能力与数据库的灵活性相结合。将图像分类任务分解为图像相似性（来自预先训练的嵌入）和搜索（通过知识数据库中的快速最近邻检索），我们构建了一个简单而灵活的视觉记忆，它具有以下关键功能：（1.）跨规模灵活添加数据的能力：从单个样本一直到整个类别和十亿规模的数据； (2.) 通过遗忘和内存修剪删除数据的能力； (3.) 一种可解释的决策机制，我们可以通过干预来控制其行为。总而言之，这些能力全面展示了外显视觉记忆的好处。我们希望它可能有助于讨论如何在深度视觉模型中表示知识——而不仅仅是将其雕刻在“石头”权重中。

具有语义关键点的通用服装处理

分类： 机器人技术, 人工智能

作者： Yuhong Deng, David Hsu

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08160v1

摘要： 我们已经看到了针对特定任务的服装操纵的最新进展，但通用的服装操纵仍然是一个挑战。衣服操作需要连续的动作，因此很难推广到看不见的任务。此外，通用的服装状态表示方法也至关重要。在本文中，我们采用语言指令来指定和分解服装操作任务，并提出一种基于大语言模型的分层学习方法来增强泛化能力。对于状态表示，我们使用语义关键点来捕获衣服的几何形状并概述其操作方法。仿真实验表明，所提出的方法在衣服操作任务的成功率和泛化方面优于基线方法。

DeepSeek-Prover-V1.5：利用证明辅助反馈进行强化学习和蒙特卡罗树搜索

分类： 计算和语言, 人工智能, 机器学习, 计算机科学中的逻辑

作者： Huajian Xin, Z. Z. Ren, Junxiao Song, Zhihong Shao, Wanjia Zhao, Haocheng Wang, Bo Liu, Liyue Zhang, Xuan Lu, Qiushi Du, Wenjun Gao, Qihao Zhu, Dejian Yang, Zhibin Gou, Z. F. Wu, Fuli Luo, Chong Ruan

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08152v1

摘要： 我们推出 DeepSeek-Prover-V1.5，这是一种专为 Lean 4 中的定理证明而设计的开源语言模型，它通过优化训练和推理过程来增强 DeepSeek-Prover-V1。该模型在专门针对形式数学语言的 DeepSeekMath-Base 上进行了预训练，并使用源自 DeepSeek-Prover-V1 的增强型形式定理证明数据集进行监督微调。通过证明辅助反馈（RLPAF）的强化学习可以实现进一步的细化。除了 DeepSeek-Prover-V1 的单遍整体证明生成方法之外，我们还提出了 RMaxTS，这是蒙特卡罗树搜索的一种变体，它采用内在奖励驱动的探索策略来生成不同的证明路径。 DeepSeek-Prover-V1.5 展示了相对 DeepSeek-Prover-V1 的显着改进，在高中水平 miniF2F 基准（$63.5%$）和本科水平 ProofNet 基准的测试集上取得了新的最先进结果($25.3%$)。

Winning Snake：多镜头 ASP 中的设计选择

分类： 人工智能

作者： Elisa Böhl, Stefan Ellmauthaler, Sarah Alice Gaggl

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08150v1

摘要： 答案集编程是一种易于理解且已建立的问题解决和知识表示范式。由于其在科学和工业中的多种应用，它在更广泛的受众中变得更加突出。高级编程和建模技术的不断发展定期扩展开发人员和用户的工具集。本文通过解决街机游戏贪吃蛇的问题，演示了重用逻辑程序部分（多重镜头）的不同技术。这个游戏特别有趣，因为通过解决哈密顿循环的潜在 NP 困难问题可以确保胜利。我们将演示 cligo 中的五个实际实现，并在实证评估中比较它们的性能。此外，我们的实现利用 clingraph 生成游戏进度的简单但信息丰富的图像表示。

用于自动生成 PDDL 描述的基于模型的工作流程

分类： 人工智能, 软件工程

作者： Hamied Nabizada, Tom Jeleniewski, Felix Gehlhoff, Alexander Fay

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08145v1

摘要： 手动创建规划域定义语言 (PDDL) 描述非常困难、容易出错，并且需要广泛的专业知识。然而，这些知识已经嵌入到工程模型中并且可以重复使用。因此，本贡献提出了从集成系统和产品模型自动生成 PDDL 描述的全面工作流程。拟议的工作流程利用基于模型的系统工程 (MBSE) 来组织和管理系统和产品信息，并将其自动转换为 PDDL 语法以用于规划目的。通过将系统和产品模型与规划方面连接起来，确保这些模型中的更改能够快速反映在更新的 PDDL 描述中，从而促进高效且适应性强的规划流程。该工作流程在飞机装配的用例中进行了验证。

解释、同意、学习：扩展神经概率逻辑的学习

分类： 机器学习, 人工智能

作者： Victor Verreet, Lennert De Smet, Luc De Raedt, Emanuele Sansone

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08133v1

摘要： 神经概率逻辑系统遵循神经符号 (NeSy) 范式，将神经网络的感知和学习能力与概率逻辑的鲁棒性相结合。学习对应于神经网络的似然优化。然而，为了准确地获得可能性，需要昂贵的概率逻辑推理。因此，为了将学习扩展到更复杂的系统，我们建议优化基于采样的目标。我们证明目标对于似然性具有有限误差，当增加样本数时该误差消失。此外，通过利用样本多样性的新概念，误差可以更快地消失。然后，我们开发了使用此目标的解释、同意、学习 (EXAL) 方法。 EXPLAIN 数据的示例解释。 AGREE 根据神经成分重新权衡每个解释。 LEARN 使用重新权衡的解释作为学习信号。与之前的 NeSy 方法相比，EXAL 可以扩展到更大的问题规模，同时保留对错误的理论保证。通过实验，我们的理论主张得到了验证，并且在扩展 MNIST 加法和魔兽争霸寻路问题时，EXAL 优于最近的 NeSy 方法。

多模态因果推理基准：挑战视觉大语言模型以推断连体图像之间的因果关系

分类： 计算机视觉和模式识别, 人工智能

作者： Zhiyuan Li, Heng Wang, Dongnan Liu, Chaoyi Zhang, Ao Ma, Jieting Long, Weidong Cai

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08105v1

摘要： 大型语言模型（LLM）展示了从文本信息进行因果推理的卓越能力。然而，当仅提供视觉提示时，对于视觉大型语言模型（VLLM）来说，这些因果关系是否仍然简单？受此启发，我们提出了一种新颖的多模态因果推理基准，即 MuCR，以挑战 VLLM 在仅依靠动作、外观、服装和环境等视觉线索时推断语义因果关系。具体来说，我们引入了一种提示驱动的图像合成方法来创建嵌入语义因果关系和视觉线索的连体图像，可以有效评估 VLLM 的因果推理能力。此外，我们从多个角度开发定制指标，包括图像级匹配、短语级理解和句子级解释，以全面评估 VLLM 的理解能力。我们的大量实验表明，当前最先进的 VLLM 在多模态因果推理方面并不像我们希望的那样熟练。此外，我们进行了全面的分析，从不同的角度理解这些模型的缺点，并为未来的研究提出方向。我们希望 MuCR 能够成为多模态因果推理研究的宝贵资源和基础基准。该项目位于：https://github.com/Zhiyuan-Li-John/MuCR

OC3D：仅具有粗略点击注释的弱监督室外 3D 物体检测

分类： 计算机视觉和模式识别, 人工智能

作者： Qiming Xia, Hongwei Lin, Wei Ye, Hai Wu, Yadan Luo, Shijia Zhao, Xin Li, Chenglu Wen

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08092v1

摘要： 基于LiDAR的室外3D物体检测受到了广泛关注。然而，从 LiDAR 点云训练 3D 探测器通常依赖于昂贵的边界框注释。本文介绍了 OC3D，这是一种创新的弱监督方法，只需对 3D 点云鸟瞰图进行粗略点击即可。这里的一个关键挑战是这种简单的点击注释缺乏目标对象的完整几何描述。为了解决这个问题，我们提出的 OC3D 采用两阶段策略。在第一阶段，我们最初设计了一种新颖的动态和静态分类策略，然后提出 Click2Box 和 Click2Mask 模块分别为静态和动态实例生成框级和掩码级伪标签。在第二阶段，我们设计了一个Mask2Box模块，利用神经网络的学习能力将包含较少信息的mask级伪标签更新为box级伪标签。在广泛使用的 KITTI 和 nuScenes 数据集上的实验结果表明，与弱监督 3D 检测方法相比，我们的 OC3D 只需粗略点击即可实现最先进的性能。将 OC3D 与缺失点击挖掘策略相结合，我们提出了 OC3D++ 管道，该管道在 KITTI 数据集中仅需要 0.2% 的注释成本，即可实现与完全监督方法相当的性能。

AgentCourt：使用对抗性可进化律师代理模拟法庭

分类： 计算和语言, 人工智能

作者： Guhong Chen, Liyang Fan, Zihan Gong, Nan Xie, Zixuan Li, Ziqiang Liu, Chengming Li, Qiang Qu, Shiwen Ni, Min Yang

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08089v1

摘要： 在本文中，我们提出了一个名为 AgentCourt 的模拟系统，可以模拟整个法庭过程。法官、原告律师、辩护律师和其他参与者都是由大语言模型（LLM）驱动的自主代理。我们的核心目标是让律师代理人通过法庭流程模拟学习如何辩论案件，并提高他们的整体法律技能。为了实现这一目标，我们为律师代理人提出了一种对抗性进化方法。由于AgentCourt可以基于知识库和LLM模拟法庭审理的发生和发展，律师代理人可以从真实的法庭案件中不断学习和积累经验。模拟实验表明，两名律师代理人在代理人法庭处理了一千个对抗性法律案件（这对于现实世界的律师来说可能需要十年），与进化前的状态相比，进化后的律师代理人表现出持续的进步。处理法律事务的能力。为了提高实验结果的可信度，我们聘请了专业律师小组来评估我们的模拟。评估表明，不断发展的律师代理人在反应能力、专业知识和逻辑严密性方面表现出显着进步。这项工作为在法律场景中推进大语言模型驱动的代理技术铺平了道路。代码可在 https://github.com/relic-yuexi/AgentCourt 获取。

使用预训练模型进行课堂增量学习的高效重放

分类： 机器学习, 人工智能

作者： Weimin Yin, Bin Chen adn Chunzhao Xie, Zhenhao Tan

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08084v1

摘要： 在一般的课堂增量学习中，研究人员通常使用样本集作为工具，以避免在持续学习过程中发生灾难性遗忘。同时，研究人员也注意到了课堂增量学习与Oracle训练之间的差异，并尝试进行修正。近年来，研究人员开始利用预训练模型开发类增量学习算法，并取得了显着的成果。本文观察到，在班级增量学习中，每个班级中心引导的权重之间的稳态被破坏，这与灾难性遗忘显着相关。基于此，我们提出了一种克服遗忘的新方法。在某些情况下，通过在内存中仅保留每个类的单个样本单元以进行重放并应用简单的梯度约束，可以获得非常好的结果。实验结果表明，在预训练模型的条件下，我们的方法可以通过简单地使用交叉熵损失以非常低的计算成本实现有竞争力的性能。

人机判断的置信加权整合，以实现卓越决策

分类： 人机交互, 人工智能, 神经元和认知

作者： Felipe Yáñez, Xiaoliang Luo, Omar Valerio Minero, Bradley C. Love

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08083v1

摘要： 大型语言模型（LLM）已成为各个领域的强大工具。最近的研究表明，大语言模型可以在某些任务上超越人类，例如预测神经科学研究的结果。这在整个决策过程中给人类留下什么作用？一种可能性是，尽管人类的表现比大语言模型差，但与他们合作时仍然可以增加价值。当团队成员的信心得到良好校准并且团队成员在他们认为困难的任务上存在分歧（即需要校准和多样性）时，人和机器团队可以超越每个团队成员。我们简化并扩展了贝叶斯方法，使用逻辑回归框架来组合判断，该框架集成了任意数量团队成员的置信加权判断。使用这种简单的方法，我们在一项神经科学预测任务中证明，即使人类不如大语言模型，他们与一个或多个大语言模型的结合也能持续提高团队绩效。我们希望这种简单而有效的整合人类和机器判断的策略将带来富有成效的合作。

以动治静：通过粗粒度时间前景挖掘进行遥感变化检测

分类： 计算机视觉和模式识别, 人工智能

作者： Xixi Wang, Zitian Wang, Jingtao Jiang, Lan Chen, Xiao Wang, Bo Jiang

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08078v1

摘要： 目前的工作重点是使用双时态图像解决遥感变化检测任务。尽管可以实现良好的性能，但是他们很少考虑到运动线索也可能是至关重要的。在这项工作中，我们重新审视了广泛采用的基于双时态图像的框架，并提出了一种新颖的粗粒度时态挖掘增强（CTMA）框架。具体来说，给定双时态图像，我们首先使用插值操作将它们转换为视频。然后，采用一组时间编码器从获得的视频中提取运动特征，以进行粗粒度的变化区域预测。随后，我们设计了一种新颖的粗粒度前景增强空间编码器模块来集成全局和局部信息。我们还引入了一种运动增强策略，该策略利用运动线索作为附加输出来与空间特征聚合以改进结果。同时，我们将输入图像对输入 ResNet 以获得不同的特征以及用于细粒度特征学习的空间块。更重要的是，我们提出了一种掩模增强策略，该策略利用粗粒度的变化区域，将它们合并到解码器块中以增强最终的变化预测。在多个基准数据集上进行的广泛实验充分验证了我们提出的遥感图像变化检测框架的有效性。本文源代码将发布在https://github.com/Event-AHU/CTM_Remote_Sensing_Change_Detection

综合传感、通信和计算综述

分类： 信息论, 人工智能, 机器学习, 信号处理, 信息论

作者： Dingzhu Wen, Yong Zhou, Xiaoyang Li, Yuanming Shi, Kaibin Huang, Khaled B. Letaief

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08074v1

摘要： 下一代无线技术 6G 有望实现超越传统以数据为中心的服务的革命性飞跃。旨在开启万物互联、万物智能的泛在智能服务时代。这一愿景需要三个基本模块的无缝集成：用于信息获取的传感、用于信息共享的通信以及用于信息处理和决策的计算。这些模块错综复杂地联系在一起，尤其是在边缘学习和推理等复杂任务中。然而，这些模块的性能是相互依赖的，造成了时间、能源和带宽的资源竞争。集成通信与计算（ICC）、集成传感与计算（ISC）以及集成传感与通信（ISAC）等现有技术在应对这一挑战方面取得了部分进展，但仍无法满足极端的性能要求。为了克服这些限制，有必要开发全面集成传感、通信和计算的新技术。这种集成方法称为集成传感、通信和计算 (ISCC)，为提高任务性能提供了系统的视角。本文首先对 ICC、ISC 和 ISAC 等历史和相关技术进行了全面调查，强调了它们的优点和局限性。然后，它探讨了 ISCC 最先进的信号设计，以及专门为 ISCC 量身定制的网络资源管理策略。此外，本文还讨论了在未来先进网络中实施 ISCC 所面临的令人兴奋的研究机会。通过采用 ISCC，我们可以释放智能连接的全部潜力，为突破性的应用和服务铺平道路。

RAGChecker：用于诊断检索增强生成的细粒度框架

分类： 计算和语言, 人工智能

作者： Dongyu Ru, Lin Qiu, Xiangkun Hu, Tianhang Zhang, Peng Shi, Shuaichen Chang, Jiayang Cheng, Cunxiang Wang, Shichao Sun, Huanyu Li, Zizhao Zhang, Binjie Wang, Jiarong Jiang, Tong He, Zhiguo Wang, Pengfei Liu, Yue Zhang, Zheng Zhang

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08067v1

摘要： 尽管检索增强生成（RAG）在利用外部知识方面表现出了良好的能力，但由于 RAG 的模块化性质、长格式响应的评估和测量的可靠性，对 RAG 系统的全面评估仍然具有挑战性。在本文中，我们提出了一个细粒度的评估框架 RAGChecker，它包含了一套用于检索和生成模块的诊断指标。元评估验证了 RAGChecker 与人类判断的相关性明显优于其他评估指标。使用 RAGChecker，我们评估了 8 个 RAG 系统，并对它们的性能进行了深入分析，揭示了 RAG 架构设计选择中富有洞察力的模式和权衡。 RAGChecker 的指标可以指导研究人员和从业者开发更有效的 RAG 系统。

SPEED：用于自我监督学习的脑电图数据的可扩展预处理

分类： 信号处理, 人工智能

作者： Anders Gjølbye, Lina Skerath, William Lehn-Schiøler, Nicolas Langer, Lars Kai Hansen

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08065v1

摘要： 脑电图 (EEG) 研究通常侧重于目标狭窄的任务，但最近的研究正在扩展到在更大的模型中使用未标记的数据，旨在实现更广泛的应用。这解决了脑电图研究中的一个关键挑战。例如，科斯塔斯等人。 (2021) 表明自监督学习 (SSL) 优于传统的监督方法。鉴于脑电图数据的高噪声水平，我们认为通过额外的预处理可以进一步改进。当前的预处理方法通常无法有效管理 SSL 所需的大量数据，因为它们缺乏优化、依赖主观手动更正以及限制 SSL 的验证过程或不灵活的协议。我们提出了一种基于 Python 的脑电图预处理管道，针对自监督学习进行了优化，旨在高效处理大规模数据。与使用原始数据进行训练相比，这种优化不仅可以稳定自监督训练，还可以提高下游任务的性能。

最大允许奖励机器

分类： 机器学习, 人工智能, 68T05

作者： Giovanni Varricchione, Natasha Alechina, Mehdi Dastani, Brian Logan

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08059v1

摘要： 奖励机器允许定义暂时扩展的任务和行为的奖励。指定“信息丰富”的奖励机器可能具有挑战性。解决这个问题的一种方法是使用人工智能规划等技术，从学习环境的高级抽象描述中生成奖励机器。然而，以前基于规划的方法根据单个（顺序或部分顺序）计划生成奖励机器，并且不允许学习代理获得最大的灵活性。在本文中，我们提出了一种基于目标的偏序计划集的综合奖励机器的新方法。我们证明，使用这种“最大允许”奖励机器进行学习比使用基于单一计划的 RM 进行学习可以获得更高的奖励。我们提出的实验结果支持了我们的理论主张，表明我们的方法在实践中比单一计划方法获得了更高的回报。

使用基础模型应对数据稀缺：医学成像中少样本和零样本学习方法的基准

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Stefano Woerner, Christian F. Baumgartner

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08058v1

摘要： 数据稀缺是将现代机器学习技术应用于临床任务的主要限制因素。尽管对于一些经过充分研究的医疗任务存在足够的数据，但仍然存在大量数据可用性较差的临床相关任务。最近，许多基础模型已经证明了对少样本学习（FSL）和零样本学习（ZSL）的高度适用性，这可能使从业者更容易使用它们。然而，目前尚不清楚哪种基础模型在 FSL 医学图像分析任务上表现最好，以及从有限数据中学习的最佳方法是什么。我们使用 16 个预训练基础模型对 19 个不同的医学成像数据集进行了 ZSL 和 FSL 的全面基准研究。我们的结果表明，BiomedCLIP（一种专门根据医疗数据进行预训练的模型）在非常小的训练集大小上平均表现最佳，而在 LAION-2B 上预训练的非常大的 CLIP 模型在训练样本稍多的情况下表现最佳。然而，简单地微调在 ImageNet 上预训练的 ResNet-18 的效果与每个类超过 5 个训练示例的效果类似。我们的研究结果还强调需要进一步研究专门为医疗应用量身定制的基础模型，并收集更多数据集来训练这些模型。

COTODE：用于建模事件序列的连续轨迹神经常微分方程

分类： 机器学习, 人工智能

作者： Ilya Kuleshov, Galina Boeva, Vladislav Zhuzhel, Evgenia Romanenkova, Evgeni Vorsin, Alexey Zaytsev

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08055v1

摘要： 对生成事件序列的底层参与者的观察表明，它们通常是不断演变的。然而，大多数现代方法倾向于通过至多分段连续的轨迹来对此类过程进行建模。为了解决这个问题，我们采用了一种方法，即不将事件视为独立现象，而是将其视为对高斯过程的观察，而高斯过程又控制着参与者的动态。我们建议整合这些获得的动力学，从而对广泛成功的神经常微分方程模型进行连续轨迹修改。通过高斯过程理论，我们能够评估演员表现的不确定性，这是由于在事件之间没有观察到他们而产生的。这一估计促使我们开发出一种新颖的、有理论支持的负反馈机制。实证研究表明，我们的模型采用高斯过程插值和负反馈实现了最先进的性能，与类似架构相比，AUROC 提高了 20%。

Text2BIM：使用基于大型语言模型的多代理框架生成建筑模型

分类： 人工智能, 计算和语言, 软件工程

作者： Changyu Du, Sebastian Esser, Stavros Nousias, André Borrmann

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08054v1

摘要： 传统的 BIM 创作过程通常需要设计人员掌握复杂而繁琐的建模命令，以便在 BIM 创作工具中实现他们的设计意图。这种额外的认知负担使设计过程变得复杂，并阻碍了 AEC（建筑、工程和施工）行业采用 BIM 和基于模型的设计。为了更直观地表达设计意图，我们提出了Text2BIM，一种基于LLM的多智能体框架，可以从自然语言指令生成3D建筑模型。该框架协调多个 LLM 代理进行协作和推理，将文本用户输入转换为调用 BIM 创作工具 API 的命令式代码，从而直接在软件中生成具有内部布局、外部信封和语义信息的可编辑 BIM 模型。此外，基于规则的模型检查器被引入到代理工作流程中，利用预定义的领域知识来指导LLM代理解决生成模型中的问题并迭代地提高模型质量。在所提出的框架下进行了大量的实验来比较和分析三种不同的大语言模型的表现。评估结果表明，我们的方法可以有效地生成高质量、结构合理的建筑模型，这些模型与用户输入指定的抽象概念相一致。最后，开发了一个交互式软件原型，将该框架集成到 BIM 创作软件 Vectorworks 中，展示了通过聊天进行建模的潜力。

无监督学习中的聪明汉斯效应

分类： 机器学习, 人工智能, 机器学习

作者： Jacob Kauffmann, Jonas Dippel, Lukas Ruff, Wojciech Samek, Klaus-Robert Müller, Grégoire Montavon

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08041v1

摘要： 无监督学习已成为人工智能系统的重要组成部分。它产生的表示，例如在基础模型中，对于各种下游应用至关重要。因此，仔细检查无监督模型非常重要，以确保它们不仅能够产生准确的预测，而且还确保这些预测不会“因错误的原因而正确”，即所谓的聪明汉斯（CH）效应。使用专门开发的可解释人工智能技术，我们首次证明 CH 效应在无监督学习中广泛存在。我们的实证研究结果得到了理论见解的丰富，有趣的是，无监督学习机中的归纳偏差是 CH 效应的主要来源。总的来说，我们的工作揭示了与无监督学习实际应用相关的未探索的风险，并提出了使无监督学习更加稳健的方法。

通过强化学习实现制药电子商务中的自适应用户旅程：来自 SwipeRx 的见解

分类： 机器学习, 人工智能, 机器学习

作者： Ana Fernández del Río, Michael Brennan Leong, Paulo Saraiva, Ivan Nazarov, Aditya Rastogi, Moiz Hassan, Dexian Tang, África Periáñez

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08024v1

摘要： 本文介绍了一个强化学习 (RL) 平台，该平台通过个性化增强医疗保健数字工具中的端到端用户旅程。我们探索了 SwipeRx 的案例研究，SwipeRx 是东南亚药剂师最受欢迎的一体化应用程序，展示了如何使用该平台来个性化和调整用户体验。我们的 RL 框架经过一系列实验的测试，根据每个药房的购买历史和应用内参与度的实时信息，为每个药房量身定制产品推荐，结果显示购物篮规模显着增加。通过将适应性干预措施整合到现有的移动医疗解决方案中并丰富用户旅程，我们的平台提供了可扩展的解决方案，以改善药品供应链管理、卫生工作者能力建设以及临床决策和患者护理，最终有助于更好的医疗保健结果。

使用基于短期不变性的卷积神经网络从时间序列数据中发现因果关系

分类： 机器学习, 人工智能

作者： Rujia Shen, Boran Wang, Chao Zhao, Yi Guan, Jingchi Jiang

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08023v1

摘要： 时间序列数据的因果发现旨在捕获时间链内变量之间的片内（同时）和片间（滞后）因果关系，这对于各种科学学科至关重要。与非时间序列数据的因果发现相比，时间序列数据的因果发现需要更多的序列化样本和更多的观察时间步长。为了应对这些挑战，我们提出了一种新颖的基于梯度的因果发现方法 STIC，该方法侧重于 \textbf{S}hort-\textbf{T}erm \textbf{I}nvariance，使用 \textbf{C}onvolutional 神经网络来发现时间序列数据的因果关系。具体来说，STIC利用每个窗口观察内因果关系的短期时间不变性和机制不变性（具有独立性）来提高样本效率。此外，我们构造了两个因果卷积核，分别对应于短期时间和机制不变性，以估计窗口因果图。为了证明卷积神经网络从时间序列数据中发现因果关系的必要性，我们在假设加性噪声模型是可识别的情况下，从理论上推导了卷积与时间序列数据的基本生成原理之间的等价性。对合成数据集和 FMRI 基准数据集进行的实验评估表明，我们的 STIC 显着优于基线并实现了最先进的性能，特别是当数据集包含有限数量的观察到的时间步长时。代码可在 \url{https://github.com/HITshenrj/STIC} 获取。

深入研究：迈向描述性和多样化的视觉常识生成

分类： 计算机视觉和模式识别, 人工智能

作者： Jun-Hyung Park, Hyuntae Park, Youjin Kang, Eojin Jeon, SangKeun Lee

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08021v1

摘要： 为了实现人类水平的视觉理解，引入了视觉常识生成来生成图像之外的常识推论。然而，当前关于视觉常识生成的研究忽略了人类重要的认知能力：生成描述性和多样化的推论。在这项工作中，我们提出了一种新颖的视觉常识生成框架，称为 DIVE，旨在提高生成的推论的描述性和多样性。 DIVE涉及通用推理过滤和对比检索学习两种方法，解决了现有视觉常识资源和训练目标的局限性。实验结果证明，DIVE 在描述性和多样性方面均优于最先进的视觉常识生成模型，同时在生成独特且新颖的推论方面表现出卓越的品质。值得注意的是，DIVE 在视觉常识图上实现了人类水平的描述性和多样性。此外，人类评估证实 DIVE 与人类对描述性和多样性的判断密切相关\footnote{我们的代码和数据集可在 https://github.com/Park-ing-lot/DIVE 上获取。

通过对抗流匹配优化加速高保真波形生成

分类： 声音, 人工智能, 机器学习, 音频和语音处理, 信号处理

作者： Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08019v1

摘要： 本文介绍了PeriodWave-Turbo，一种通过对抗流匹配优化的高保真高效波形生成模型。最近，条件流匹配（CFM）生成模型已成功应用于波形生成任务，利用单个矢量场估计目标进行训练。尽管这些模型可以生成高保真波形信号，但与仅需要单个生成步骤的基于 GAN 的模型相比，它们需要更多的 ODE 步骤。此外，由于矢量场估计噪声较大，生成的样本往往缺乏高频信息，无法确保高频再现。为了解决这一限制，我们通过结合固定步长生成器修改来增强基于 CFM 的预训练生成模型。我们利用重建损失和对抗性反馈来加速高保真波形的生成。通过对抗性流匹配优化，只需 1,000 步微调即可在各种目标指标上实现最先进的性能。此外，我们将推理速度从 16 步显着降低到 2 或 4 步。此外，通过将 periodWave 的主干参数从 29M 扩展到 70M 参数以提高泛化能力，PeriodWave-Turbo 实现了前所未有的性能，在 LibriTTS 数据集上的语音质量感知评估 (PESQ) 得分为 4.454。音频样本、源代码和检查点将在 https://github.com/sh-lee-prml/PeriodWave 上提供。

Asteroid：资源高效的混合管道并行性，用于异构边缘设备上的协作 DNN 训练

分类： 分布式、并行和集群计算, 人工智能, 计算机视觉和模式识别, 机器学习, 网络和互联网架构

作者： Shengyuan Ye, Liekang Zeng, Xiaowen Chu, Guoliang Xing, Xu Chen

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08015v1

摘要： 设备上深度神经网络 (DNN) 训练被认为对于边缘隐私保护机器学习至关重要。然而，密集的训练工作量和有限的机载计算资源对模型训练的可用性和效率提出了重大挑战。虽然现有的工作通过本机资源管理优化来解决这些挑战，但我们利用我们的观察，即边缘环境通常包含一组丰富的附带可信边缘设备，这些设备具有超出单个终端的空闲资源。我们提出了 Asteroid，一种分布式边缘训练系统，它打破了异构边缘设备之间的资源壁垒，以实现高效的模型训练加速。 Asteroid 采用混合管道并行性来协调分布式训练，并进行明智的并行性规划，以在某些资源限制下最大化吞吐量。此外，还开发了一种容错且轻量级的管道重放机制来驯服设备级动态，以实现训练的鲁棒性和性能稳定性。我们在具有视觉和语言模型的异构边缘设备上实现了 Asteroid，通过评估证明训练速度比传统并行方法快 12.2 倍，比最先进的混合并行方法快 2.1 倍。此外，Asteroid 可以比基线方法快 14 倍地恢复训练管道，同时在设备意外退出和故障的情况下保持相当的吞吐量。

IIU：基于知识的视觉问答的独立推理单元

分类： 计算机视觉和模式识别, 人工智能

作者： Yili Li, Jing Yu, Keke Gai, Gang Xiong

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07989v1

摘要： 基于知识的视觉问答需要可见内容之外的外部知识才能正确回答问题。现有方法的局限性之一是它们更注重对模态间和模内相关性进行建模，通过隐式嵌入来纠缠复杂的多模态线索，缺乏可解释性和泛化能力。解决上述问题的关键挑战是在功能层面将信息分离并单独处理。通过重用各个处理单元，可以提高模型处理不同数据的泛化能力。在本文中，我们提出了用于细粒度多模态推理的独立推理单元（IIU），以通过功能独立的单元分解模态内信息。具体来说，IIU通过独立的推理单元处理每个特定于语义的模态内线索，该推理单元还通过来自不同单元的通信收集补充信息。为了进一步减少冗余信息的影响，我们提出了一个记忆更新模块，随着推理过程逐渐维护语义相关的记忆。与标准数据集上现有的非预训练多模态推理模型相比，我们的模型达到了新的state-of-the-art，性能提高了3%，超越了基本的预训练多模态模型。实验结果表明，我们的 IIU 模型可以有效地解开模态内线索以及推理单元，以提供可解释的推理证据。我们的代码可在 https://github.com/Lilidamowang/IIU 获取。

多任务学习中基于分析不确定性的损失加权

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Lukas Kirchdorfer, Cathrin Elich, Simon Kutsche, Heiner Stuckenschmidt, Lukas Schott, Jan M. Köhler

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07985v1

摘要： 随着神经网络在各个领域的兴起，多任务学习（MTL）获得了显着的相关性。 MTL 的一个关键挑战是平衡神经网络训练期间的各个任务损失，以通过跨任务的知识共享来提高性能和效率。为了应对这些挑战，我们提出了一种新颖的任务加权方法，该方法以最流行的不确定性加权方法为基础，并计算分析上最佳的基于不确定性的权重，并通过具有可调温度的 softmax 函数进行归一化。我们的方法产生的结果与组合上令人望而却步的、强力的标量化方法相当，同时提供了更具成本效益且高性能的替代方案。我们对各种数据集和架构进行了广泛的基准测试。我们的方法始终优于其他六种常见的加权方法。此外，我们报告了 MTL 实际应用的值得注意的实验结果。例如，较大的网络会减弱加权方法的影响，并且与学习率相比，调整权重衰减的影响较小。

AbuLegalEval：用于评估大型语言模型中的阿拉伯语法律知识的多任务基准

分类： 计算和语言, 人工智能, 计算机与社会

作者： Faris Hijazi, Somayah AlHarbi, Abdulaziz AlHussein, Harethah Abu Shairah, Reem AlZahrani, Hebah AlShamlan, Omar Knio, George Turkiyyah

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07983v1

摘要： 大型语言模型（LLM）的快速进步导致各种自然语言处理任务的显着改进。然而，对大语言模型法律知识的评估，特别是阿拉伯语等非英语语言的法律知识的评估仍有待探索。为了解决这一差距，我们引入了ArabLegalEval，这是一个用于评估大语言模型的阿拉伯法律知识的多任务基准数据集。受 MMLU 和 LegalBench 数据集的启发，ArabLegalEval 包含来自沙特法律文件和综合问题的多个任务。在这项工作中，我们的目标是分析解决阿拉伯语法律问题所需的能力，并对最先进的大语言模型的表现进行基准测试。我们探索情境学习的影响并研究各种评估方法。此外，我们还探索了通过自动验证生成问题的工作流程，以提高数据集的质量。我们分别对多语言和以阿拉伯语为中心的大语言模型（例如 GPT-4 和 Jais）进行基准测试。我们还分享了创建数据集和验证的方法，该方法可以推广到其他领域。我们希望通过发布ArabLegalEval数据集和代码来加速阿拉伯法律领域的人工智能研究：https://github.com/Thiqah/ArabLegalEval

使用大型语言模型来通过摄像头识别用户情绪的对话系统

分类： 人机交互, 人工智能, 机器人技术, 68T40, I.2.10; I.2.7

作者： Hiroki Tanioka, Tetsushi Ueta, Masahiko Sano

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07982v1

摘要： ChatGPT\copyright{}和其他LLM的性能得到了极大的提高，并且在在线环境中，它们越来越有可能被用于各种各样的情况，例如网页上的ChatBot、使用语音交互的呼叫中心操作以及对话使用代理的功能。在线下环境中，多模态对话功能也正在实现，例如使用平板电脑终端的人工智能代理（AI代理）的引导以及安装在机器人上的LLM形式的对话系统。在这种多模态对话中，人工智能和用户之间的相互情感识别将变得重要。到目前为止，已经有人工智能代理表达情感或使用用户话语的文本或语音信息识别情感的方法，但尚未研究人工智能代理从用户的面部表情识别情感的方法。在这项研究中，我们通过捕捉用户与摄像头的对话、从面部表情识别情绪并将此类情绪信息添加到提示中，检验基于大语言模型的人工智能代理是否可以根据用户的情绪状态与用户进行交互。结果证实，对于分数相对较高的情绪状态，例如快乐和愤怒，人工智能代理可以根据情绪状态进行对话。

LLaVA-Surg：通过结构化手术视频学习实现多模式手术助手

分类： 计算机视觉和模式识别, 人工智能

作者： Jiajie Li, Garrett Skinner, Gene Yang, Brian R Quaranto, Steven D Schwaitzberg, Peter C W Kim, Jinjun Xiong

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07981v1

摘要： 多模态大语言模型（LLM）在各个领域都取得了显着的成功，而医学领域的研究主要集中在单模态图像上。与此同时，当前的视频通用域多模态模型仍然缺乏理解和参与手术视频对话的能力。一个主要影响因素是外科领域缺乏数据集。在本文中，我们创建了一个新的数据集 Surg-QA，其中包含 102,000 个手术视频指令对，是迄今为止同类数据中最大的。为了构建这样的数据集，我们提出了一种新颖的两阶段问答生成流程，通过大语言模型从公开的外科讲座视频中以结构化的方式学习外科知识。该管道将生成过程分为两个阶段，以显着降低任务复杂性，使我们能够使用比付费LLM服务更实惠的本地部署开源LLM。它还降低了问答生成过程中 LLM 幻觉的风险，从而提高了生成数据的整体质量。我们在此 Surg-QA 数据集上进一步训练 LLaVA-Surg，这是一种新型视觉语言对话助手，能够回答有关手术视频的开放式问题，并对零样本手术视频问答任务进行综合评估。我们证明 LLaVA-Surg 显着优于之前所有的通用领域模型，在回答有关手术视频的开放式问题时展示了出色的多模态对话技能。我们将发布我们的代码、模型和指令调整数据集。

Meta SAC-Lag：通过基于 MetaGradient 的超参数调整实现可部署的安全强化学习

分类： 机器学习, 人工智能, 机器人技术, 系统与控制, 系统与控制

作者： Homayoun Honari, Amir Mehdi Soufi Enayati, Mehran Ghafarian Tamizi, Homayoun Najjaran

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07962v1

摘要： 安全强化学习（Safe RL）是基于试错方法的普遍研究的子类别之一，旨在部署在现实世界的系统上。在安全强化学习中，目标是最大化奖励绩效，同时最小化约束，通常通过设置约束函数的界限并利用拉格朗日方法来实现。然而，由于需要进行阈值微调，在现实场景中部署基于拉格朗日的安全强化学习具有挑战性，因为不精确的调整可能会导致策略收敛不理想。为了缓解这一挑战，我们提出了一种基于拉格朗日的统一无模型架构，称为 Meta Soft Actor-Critic Lagrangian (Meta SAC-Lag)。 Meta SAC-Lag 使用元梯度优化来自动更新安全相关的超参数。所提出的方法旨在以最小的超参数调整要求来解决安全探索和阈值调整问题。在我们的流程中，内部参数通过传统公式进行更新，超参数使用基于更新参数定义的元目标进行调整。我们的结果表明，由于安全阈值的收敛速度相对较快，代理可以可靠地调整安全性能。我们根据拉格朗日基线评估了 Meta SAC-Lag 在五个模拟环境中的性能，结果证明了其在参数之间产生协同作用的能力，从而产生更好或有竞争力的结果。此外，我们还进行了一项真实世界的实验，涉及机械臂，其任务是将咖啡倒入杯子中而不溢出。 Meta SAC-Lag 被成功训练来执行任务，同时最大限度地减少工作量限制。

RandomNet：使用未经训练的深度神经网络对时间序列进行聚类

分类： 机器学习, 人工智能

作者： Xiaosheng Li, Wenjie Xi, Jessica Lin

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07956v1

摘要： 神经网络广泛应用于机器学习和数据挖掘。通常，这些网络需要进行训练，这意味着根据输入数据调整网络内的权重（参数）。在这项工作中，我们提出了一种新颖的方法 RandomNet，它采用未经训练的深度神经网络来对时间序列进行聚类。 RandomNet使用不同的随机权重集来提取时间序列的不同表示，然后对从这些不同表示导出的聚类关系进行集成以构建最终的聚类结果。通过提取不同的表示，我们的模型可以有效地处理具有不同特征的时间序列。由于所有参数都是随机生成的，因此过程中不需要训练。我们对该方法的有效性进行了理论分析。为了验证其性能，我们对著名的 UCR 时间序列档案中的所有 128 个数据集进行了广泛的实验，并对结果进行了统计分析。这些数据集具有不同的大小、序列长度，并且来自不同的领域。实验结果表明，与现有的最先进方法相比，所提出的方法具有竞争力。

VHR SAR 到光学图像转换的条件布朗桥扩散模型

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Seon-Hoon Kim, Dae-won Chung

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07947v1

摘要： 合成孔径雷达 (SAR) 成像技术具有独特的优势，无论天气条件和时间如何都能够收集数据。然而，SAR 图像表现出复杂的反向散射图案和散斑噪声，这需要专业知识来解释。为了应对这一挑战，人们进行了研究，将 SAR 图像转换为类似光学的表示形式，以帮助解释 SAR 数据。然而，现有的研究主要利用低分辨率卫星图像数据集，并且很大程度上基于生成对抗网络（GAN），该网络以其训练不稳定和低保真度而闻名。为了克服低分辨率数据使用和基于 GAN 的方法的这些限制，本文介绍了一种基于布朗桥扩散模型（BBDM）的条件图像到图像转换方法。我们对 MSAW 数据集进行了全面的实验，该数据集是 0.5m 超高分辨率 (VHR) 图像的成对 SAR 和光学图像集合。实验结果表明，我们的方法在各种感知质量指标上都超越了条件扩散模型（CDM）和基于 GAN 的模型。

使用局部图结构解魔方

分类： 人工智能

作者： Shunyu Yao, Mitchy Lee

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07945v1

摘要： Rubix Cube 是一款在强化学习社区中引起关注的 3 维单人组合谜题。魔方有六个面和十二个可能的动作，导致一个小的且不受约束的动作空间和一个非常大的只有一个目标状态的状态空间。对如此大的状态空间进行建模并存储每个状态的信息需要特殊的计算资源，这使得在资源有限的情况下找到打乱的 Rubix 立方体的最短解决方案变得具有挑战性。 Rubix 立方体可以表示为图，其中立方体的状态是节点，动作是边。利用图卷积网络，我们设计了一种新的启发式加权卷积距离，用于 A 星搜索算法来找到打乱的 Rubix Cube 的解决方案。这种启发式方法利用相邻节点的信息，并将它们与类似注意力的权重进行卷积，从而对到达已解决状态的最短路径进行更深入的搜索。

Surgical SAM 2：通过高效帧修剪实时分割手术视频中的任何内容

分类： 计算机视觉和模式识别, 人工智能, 机器人技术, 图像和视频处理

作者： Haofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07931v1

摘要： 手术视频分割是计算机辅助手术中的一项关键任务，对于提高手术质量和患者治疗效果至关重要。最近，Segment Anything Model 2 (SAM2) 框架在图像和视频分割方面显示出卓越的进步。然而，由于处理高分辨率图像以及手术视频中复杂且长范围的时间动态的高计算需求，SAM2 在效率方面遇到了困难。为了应对这些挑战，我们引入了 Surgical SAM 2 (SurgSAM-2)，这是一种利用 SAM2 和高效帧修剪 (EFP) 机制的高级模型，以促进实时手术视频分割。 EFP 机制通过有选择地仅保留信息最丰富的帧来动态管理内存库，减少内存使用和计算成本，同时保持高分割精度。我们的大量实验表明，与普通 SAM2 相比，SurgSAM-2 显着提高了效率和分割准确性。值得注意的是，与 SAM2 相比，SurgSAM-2 的 FPS 提高了 3 倍，同时在使用较低分辨率数据进行微调后还提供了最先进的性能。这些进步使 SurgSAM-2 成为手术视频分析的领先模型，使资源有限环境中的实时手术视频分割成为现实。

MAG-SQL：具有软模式链接和迭代子 SQL 细化的多代理生成方法，用于文本到 SQL

分类： 计算和语言, 人工智能

作者： Wenxuan Xie, Gaochen Wu, Bowen Zhou

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07930v1

摘要： 最近基于上下文学习的方法在文本到 SQL 任务中取得了显着的成功。然而，这些模型的性能与人类在具有复杂数据库模式和困难问题的数据集（例如 BIRD）上的性能仍然存在很大差距。此外，现有的工作在使用问题分解方法迭代解决问题时忽略了监督中间步骤，并且这些工作中使用的模式链接方法非常初级。为了解决这些问题，我们提出了 MAG-SQL，一种具有软模式链接和迭代 Sub-SQL 细化的多代理生成方法。在我们的框架中，使用基于实体的表格摘要方法来选择数据库中的列，并引入一种新颖的目标条件分解方法来分解这些复杂的问题。此外，我们构建了一个迭代生成模块，其中包括 Sub-SQL Generator 和 Sub-SQL Refiner，为生成的每个步骤引入外部监督。通过一系列消融研究，我们框架中每种药物的有效性都得到了证明。当使用 GPT-4 在 BIRD 基准上进行评估时，MAG-SQL 的执行精度为 61.08%，而普通 GPT-4 的基线精度为 46.35%，MAC-SQL 的基线精度为 57.56%。此外，我们的方法在 Spider 上也取得了类似的进展。

CEGRL-TKGR：用于改进时态知识图外推推理的因果增强图表示学习框架

分类： 机器学习, 人工智能

作者： Jinze Sun, Yongpan Sheng, Lirong He

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07911v1

摘要： 时态知识图推理（TKGR）因其从历史数据中推断新事件的能力而越来越受到关注，从而丰富了本质上不完整的时态知识图。现有的基于图的表示学习框架在开发实体和关系嵌入的演化表示方面取得了重大进展。尽管取得了这些成就，但这些模型存在一个显着的趋势，即无意中学习有偏见的数据表示并挖掘虚假相关性，从而无法辨别事件之间的因果关系。这通常会导致基于这些错误相关性的错误预测。为了解决这个问题，我们提出了一种创新的 TKGR 因果增强图表示学习框架（名为 CEGRL-TKGR）。该框架在基于图的表示学习中引入了因果结构，以揭示事件之间的基本因果关系，最终提高任务绩效。具体来说，我们首先将时间图序列中实体和关系的进化表示分解为两个不同的组成部分，即因果表示和混杂表示。然后，借鉴因果干预理论，我们提倡利用因果表示进行预测，旨在减轻混杂特征引起的错误相关性的影响，从而实现更稳健和准确的预测。最后，六个基准数据集的广泛实验结果证明了我们的模型在链路预测任务中的卓越性能。

KAN 与 MLP 在不规则或噪声函数上的比较

分类： 机器学习, 人工智能, 数值分析, 神经和进化计算, 数值分析

作者： Chen Zeng, Jiahui Wang, Haoran Shen, Qiao Wang

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07906v1

摘要： 在本文中，我们比较了柯尔莫哥洛夫-阿诺德网络（KAN）和多层感知器（MLP）网络在不规则或噪声函数上的性能。我们控制参数的数量和训练样本的大小以确保公平的比较。为了清楚起见，我们将函数分为六种类型：常规函数、具有局部不可微点的连续函数、具有跳跃间断的函数、具有奇点的函数、具有相干振荡的函数和噪声函数。我们的实验结果表明 KAN 并不总是表现最好。对于某些类型的函数，MLP 优于或与 KAN 相当。此外，增加训练样本的大小可以在一定程度上提高性能。当噪声添加到函数中时，不规则特征通常会被噪声掩盖，这使得 MLP 和 KAN 有效提取这些特征都面临挑战。我们希望这些实验为未来的神经网络研究提供有价值的见解，并鼓励进一步研究以克服这些挑战。

评估小说生成的语言模型的世界观

分类： 计算和语言, 人工智能

作者： Aisha Khatun, Daniel G. Brown

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07904v1

摘要： 大型语言模型（LLM）的使用已经变得无处不在，在计算创造力方面有着丰富的应用。其中一种应用是虚构故事生成。小说是发生在与我们的故事世界略有不同的故事世界中的叙述。随着大语言模型成为写作伙伴，我们质疑他们是否适合创作小说。这项研究调查了大语言模型维持创作小说所必需的世界状态的能力。通过对九位大语言模型的一系列问题，我们发现只有两个模型表现出一致的世界观，而其余的则都是自相矛盾的。随后对四个模型生成的故事的分析揭示了惊人的统一叙事模式。这种跨模型的一致性进一步表明小说所必需的“状态”的缺乏。我们强调当前大语言模型在小说写作方面的局限性，并倡导未来的研究来测试和创建大语言模型居住的故事世界。所有代码、数据集和生成的响应都可以在 https://github.com/tanny411/ 中找到LLM 可靠性和一致性评估。

用于文本情感分析的量子启发可解释深度学习架构

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Bingyu Li, Da Zhang, Zhiyuan Zhao, Junyu Gao, Yuan Yuan

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07891v1

摘要： 文本已成为社交媒体上的主要交流形式，嵌入了丰富的情感细微差别。因此，从文本中提取情感信息至关重要。尽管之前的研究取得了一些进展，但现有的文本情感分析模型仍然面临着整合不同语义信息和缺乏可解释性的挑战。为了解决这些问题，我们提出了一种受量子启发的深度学习架构，它将量子力学的基本原理（QM 原理）与用于文本情感分析的深度学习模型相结合。具体来说，我们分析了文本表示和 QM 原理之间的共性，以设计受量子启发的文本表示方法，并进一步开发受量子启发的文本嵌入层。此外，我们还设计了一个基于长短期记忆（LSTM）网络和自注意力机制（SAM）的特征提取层。最后，我们使用量子复数原理计算文本密度矩阵，并应用二维卷积神经网络（CNN）进行特征压缩和降维。通过一系列可视化、比较和消融实验，我们证明我们的模型不仅在准确性和效率方面比以前的相关模型显示出显着的优势，而且通过集成 QM 原理实现了一定程度的可解释性。我们的代码可在 QISA 上获取。

IReCa：用于人类与人工智能协调的内在奖励增强型情境感知强化学习

分类： 人工智能, 机器学习

作者： Xin Hao, Bahareh Nakisa, Mohmmad Naim Rastgoo, Richard Dazeley

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07877v1

摘要： 在人类与人工智能协调场景中，人类智能体通常表现出不对称行为，与人工智能智能体相比，这些行为显着稀疏且不可预测。这些特征给人类与人工智能的协调带来了两个主要挑战：获得稀疏奖励的有效性和训练人工智能代理的效率。为了应对这些挑战，我们提出了一种内在奖励增强情境感知（IReCa）强化学习（RL）算法，该算法利用内在奖励来促进稀疏奖励的获取，并利用环境背景来提高训练效率。我们的 IReCa RL 算法引入了三个独特的功能：（i）它通过纳入补充来自环境的传统外在奖励的内在奖励来鼓励对稀疏奖励的探索； (ii)它通过优先考虑相应的稀疏状态-动作对来改善稀疏奖励的获取； (iii) 它通过创新的上下文感知的外在和内在奖励权重来优化探索和利用，从而提高训练效率。在 Overcooked 布局中执行的大量模拟表明，与最先进的基线相比，我们的 IReCa RL 算法可以将累积奖励增加约 20%，并将收敛所需的周期减少约 67%。

CON-FOLD——充满信心的可解释机器学习

分类： 人工智能, 机器学习, F.4.1

作者： Lachlan McGinness, Peter Baumgartner

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07854v1

摘要： FOLD-RM 是一种可解释的机器学习分类算法，它使用训练数据创建一组分类规则。在本文中，我们介绍了 CON-FOLD，它以多种方式扩展了 FOLD-RM。 CON-FOLD 将基于概率的置信度分数分配给为分类任务学习的规则。这使用户知道他们对模型做出的预测应该有多大的信心。我们提出了一种基于置信度的剪枝算法，该算法使用 FOLD-RM 规则的独特结构来有效地剪枝规则并防止过度拟合。此外，CON-FOLD 使用户能够以逻辑程序规则的形式提供预先存在的知识，这些知识可以是（固定的）背景知识或（可修改的）初始规则候选。本文详细描述了我们的方法并报告了实际实验。我们在 UCI 机器学习存储库的基准数据集上展示了该算法的性能。为此，我们引入了一个新的指标，即逆 Brier 分数，来评估生成的置信度分数的准确性。最后，我们将此扩展应用到一个需要可解释性的现实世界示例：标记学生对澳大利亚物理奥林匹克简答题的回答。

在知识图上训练语言模型：对幻觉及其可检测性的见解

分类： 计算和语言, 人工智能, 机器学习

作者： Jiri Hron, Laura Culp, Gamaleldin Elsayed, Rosanne Liu, Ben Adlam, Maxwell Bileschi, Bernd Bohnet, JD Co-Reyes, Noah Fiedel, C. Daniel Freeman, Izzeddin Gur, Kathleen Kenealy, Jaehoon Lee, Peter J. Liu, Gaurav Mishra, Igor Mordatch, Azade Nova, Roman Novak, Aaron Parisi, Jeffrey Pennington, Alex Rizkowsky, Isabelle Simpson, Hanie Sedghi, Jascha Sohl-dickstein, Kevin Swersky, Sharad Vikram, Tris Warkentin, Lechao Xiao, Kelvin Xu, Jasper Snoek, Simon Kornblith

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07852v1

摘要： 虽然语言模型 (LM) 的许多功能随着训练预算的增加而提高，但规模对幻觉的影响尚未完全理解。幻觉有多种形式，并且没有普遍接受的定义。因此，我们只专注于研究那些在训练集中逐字出现正确答案的幻觉。为了完全控制训练数据内容，我们构建了一个基于知识图（KG）的数据集，并用它来训练一组越来越大的 LM。我们发现，对于固定数据集，较大且训练时间较长的 LM 产生的幻觉较少。然而，对 $\leq5$% 的训练数据产生幻觉需要比 Hoffmann 等人大一个数量级的模型，因此需要多一个数量级的计算量。（2022）报告是最佳的。考虑到这种成本，我们研究了幻觉探测器如何依赖于规模。虽然我们看到探测器的尺寸提高了固定LM输出的性能，但我们发现LM的规模与其幻觉的可检测性之间存在反比关系。

SER Evals：语音情感识别的域内和域外基准测试

分类： 计算和语言, 人工智能

作者： Mohamed Osman, Daniel Z. Kaplan, Tamer Nadeem

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07851v1

摘要： 随着强大的自我监督学习 (SSL) 模型的出现，语音情感识别 (SER) 取得了重大进展。然而，将这些模型推广到不同的语言和情感表达仍然是一个挑战。我们提出了一个大规模基准来评估最先进的 SER 模型在域内和域外设置中的鲁棒性和适应性。我们的基准包括一组不同的多语言数据集，重点关注不太常用的语料库来评估对新数据的泛化。我们采用 logit 调整来考虑不同的类别分布，并建立单个数据集集群进行系统评估。令人惊讶的是，我们发现主要用于自动语音识别的 Whisper 模型在跨语言 SER 方面优于专用 SSL 模型。我们的结果强调了对更强大和更通用的 SER 模型的需求，我们的基准可以作为推动这一方向未来研究的宝贵资源。

使用大型语言模型自动生成单元测试并评估生成的测试套件的系统

分类： 软件工程, 人工智能

作者： Andrea Lops, Fedelucio Narducci, Azzurra Ragone, Michelantonio Trizio, Claudio Bartolini

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07846v1

摘要： 单元测试代表了软件测试生命周期中最基本的测试级别，对于确保软件的正确性至关重要。设计和创建单元测试是一个成本高昂且劳动密集型的过程，自动化的时机已经成熟。最近，大型语言模型（LLM）已应用于软件开发的各个方面，包括单元测试生成。尽管存在一些评估大语言模型在测试代码生成方面的能力的实证研究，但它们主要关注简单的场景，例如为单个方法直接生成单元测试。这些评估通常涉及独立的小规模测试单元，只能有限地了解大语言模型在实际软件开发场景中的表现。此外，之前的研究并没有以适合现实生活应用的规模来解决这个问题。生成的单元测试通常通过手动集成到原始项目中进行评估，这一过程限制了执行的测试数量并降低了整体效率。为了解决这些差距，我们开发了一种方法来生成和评估更多现实生活中的复杂性测试套件。我们的方法侧重于类级测试代码生成，并自动化从测试生成到测试评估的整个过程。在这项工作中，我们提出了 \textsc{AgoneTest}：一个用于为 Java 项目生成测试套件的自动化系统，以及用于评估生成的测试套件的全面且有原则的方法。从最先进的数据集（即 \textsc{Methods2Test}）开始，我们构建了一个新的数据集，用于将人工编写的测试与大语言模型生成的测试进行比较。我们的主要贡献包括可扩展的自动化软件系统、新的数据集以及评估测试质量的详细方法。

通过联合学习增强住房和无家可归者护理系统中人工智能的公平获取

分类： 机器学习, 人工智能, 计算机与社会

作者： Musa Taib, Jiajun Wu, Steve Drew, Geoffrey G. Messier

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07845v1

摘要： 住房和无家可归者护理系统 (HHSC) 的首要任务是将无家可归者与支持性住房联系起来。 HHSC 通常由为同一人群提供服务的许多机构组成。各机构之间的信息技术平台的类型和质量有所不同，因此它们的数据通常在一个机构与另一个机构之间是隔离的。较大的机构可能拥有足够的数据来训练和测试人工智能 (AI) 工具，但较小的机构通常没有。为了解决这一差距，我们引入了联邦学习（FL）方法，使所有机构能够协作训练预测模型，而无需共享敏感数据。我们演示了如何在 HHSC 内使用 FL，为所有机构提供公平获得优质人工智能的机会，并进一步协助人类决策者在 HHSC 内分配资源。这是在保护数据中人员隐私的同时实现的，未经他们的同意，机构之间不会共享身份信息。我们使用来自阿尔伯塔省卡尔加里的真实 HHSC 数据进行的实验结果表明，我们的 FL 方法提供了与使用机构之间完全共享和链接的数据来训练预测模型的理想场景相当的性能。

SustainDC——可持续数据中心控制基准

分类： 机器学习, 人工智能, 系统与控制, 系统与控制

作者： Avisek Naug, Antonio Guillen, Ricardo Luna, Vineet Gundecha, Desik Rengarajan, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Dejan Markovikj, Lekhapriya D Kashyap, Soumyendu Sarkar

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07841v1

摘要： 机器学习推动了计算需求的指数级增长，导致大量数据中心消耗大量能源并导致气候变化。这使得可持续数据中心控制成为优先事项。在本文中，我们介绍了 SustainDC，这是一组用于对数据中心 (DC) 多智能体强化学习 (MARL) 算法进行基准测试的 Python 环境。 SustainDC 支持自定义 DC 配置和任务，例如工作负载调度、冷却优化和辅助电池管理，多个代理管理这些操作，同时考虑彼此的影响。我们在 SustainDC 上评估各种 MARL 算法，展示它们在不同 DC 设计、位置、天气条件、电网碳强度和工作负载要求中的性能。我们的结果凸显了使用 MARL 算法改进数据中心运营的重大机会。鉴于人工智能对 DC 的使用不断增加，SustainDC 为先进算法的开发和基准测试提供了一个重要的平台，这对于实现可持续计算和解决其他异构现实世界的挑战至关重要。

ONSEP：一种基于大型语言模型的新型在线事件预测神经符号框架

分类： 计算和语言, 人工智能, 符号计算

作者： Xuanqing Yu, Wangtao Sun, Jingwei Li, Kang Liu, Chengbao Liu, Jie Tan

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07840v1

摘要： 在事件预测领域，时间知识图预测（TKGF）是一项关键技术。以前的方法面临着在测试过程中不利用经验并依赖单一短期历史的挑战，这限制了对不断变化的数据的适应。在本文中，我们介绍了在线神经符号事件预测（ONSEP）框架，该框架通过集成动态因果规则挖掘（DCRM）和对偶历史增强生成（DHAG）进行创新。 DCRM 根据实时数据动态构建因果规则，从而能够快速适应新的因果关系。与此同时，DHAG 融合了短期和长期历史背景，利用双分支方法来丰富事件预测。我们的框架在不同的数据集上展示了显着的性能增强，具有显着的 Hit@k (k=1,3,10) 改进，展示了其增强大型语言模型 (LLM) 以进行事件预测的能力，而无需进行大量的再训练。 ONSEP 框架不仅推动了 TKGF 领域的发展，还强调了神经符号方法在适应动态数据环境方面的潜力。

具有多模态自动编码器架构的高效且解释性的图像和文本聚类系统

分类： 多媒体, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Tiancheng Shi, Yuanchen Wei, John R. Kender

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07791v1

摘要： 我们在比较同一国际新闻事件的不同文化方法的新背景下，展示了自动编码器和大语言模型解释器通用工具扩展的效率和解释能力。我们开发了一种新的卷积循环变分自动编码器 (CRVAE) 模型，该模型扩展了先前 CVAE 模型的模式，通过使用完全连接的潜在层并行嵌入视频帧的 CNN 编码以及派生的相关文本的 LSTM 编码从音频。我们将该模型合并到一个更大的系统中，其中包括帧标题对齐、潜在空间向量聚类和基于 LLM 的新颖聚类解释器。我们测量、调整该系统并将其应用于将视频总结为三到五个主题集群的任务，每个主题由十个大语言模型生成的短语描述。我们将该系统应用于两个新闻主题：COVID-19 和冬季奥运会，另外五个主题正在进行中。

模糊关系方程组Sugeno积分的学习能力

分类： 人工智能

作者： Ismaïl Baaj

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07768v1

摘要： 在本文中，我们介绍了一种根据基于模糊关系方程组的训练数据来学习 Sugeno 积分基础容量的方法。对于训练数据，我们将两个方程组关联起来：$\max-\min$ 系统和 $\min-\max$ 系统。通过使用桑切斯的结果求解这两个系统（在它们一致的情况下），我们表明我们可以直接获得代表训练数据的极值能力。通过将$\max-\min$（或$\min-\max$）方程组简化为基数标准的子集小于或等于$q$（或基数大于或等于$n-q） $)，其中$n$是标准的数量，我们给出一个充分条件，从其潜在的最大解决方案（或潜在的最低解决方案）中推导出$q$-maxitive（或$q$-minitive）容量。最后，如果这两个简化的方程组不一致，我们将展示如何获得最大近似 $q$-maxitive 容量和最低近似 $q$-minitive 容量，使用最近的结果来处理模糊关系方程组的不一致。

量化最佳答案集

分类： 人工智能, 计算复杂度, 计算和语言

作者： Giuseppe Mazzotta, Francesco Ricca, Mirek Truszczynski

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07697v1

摘要： 引入量词答案集编程 (ASP(Q)) 是为了将 ASP 建模自然扩展到多项式层次结构 (PH) 中的问题。然而，ASP(Q) 缺乏一种以优雅和紧凑的方式编码问题的方法，这些问题需要在 $\Sigma_n^p$ 中调用多项式次数的预言机（即 $\Delta_{n+1}^p 中的问题） $）。此类问题尤其包括优化问题。在本文中，我们提出了 ASP(Q) 的扩展，其中组件程序可能包含弱约束。弱约束既可用于表达量化组件程序内的局部优化，也可用于对全局优化标准进行建模。我们通过各种应用场景展示新形式主义的建模能力。此外，我们研究了其计算特性，获得了复杂性结果并揭示了具有弱约束的 ASP(Q) 程序的非明显特征。

通过全球探索的本地归因增强模型可解释性

分类： 机器学习, 人工智能

作者： Zhiyu Zhu, Zhibo Jin, Jiayu Zhang, Huaming Chen

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07736v1

摘要： 在人工智能领域，人工智能模型因其内部机制的模糊性而经常被描述为“黑匣子”。它激发了人们对模型可解释性的研究兴趣，特别是在为模型决策提供精确解释的归因方法方面。当前的归因算法通常通过探索样本空间来评估每个参数的重要性。在探索过程中引入了大量的中间状态，这些中间状态可能达到模型的分布外（OOD）空间。这种中间状态将影响归因结果，使得掌握特征的相对重要性变得困难。在本文中，我们首先定义了局部空间及其相关属性，并提出了利用这些属性的局部归因（LA）算法。 LA 算法包括有目标和无目标探索阶段，旨在有效生成彻底包围局部空间的归因中间状态。与最先进的归因方法相比，我们的方法在归因有效性方面平均提高了 38.21%。我们实验中广泛的消融研究也验证了我们算法中每个组件的重要性。我们的代码位于：https://github.com/LMBTough/LA/

基于端到端、以语义为中心的视频多模态情感计算

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 多媒体

作者： Ronghao Lin, Ying Zeng, Sijie Mai, Haifeng Hu

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07694v1

摘要： 在通往通用人工智能（AGI）的道路上，理解人类的情感对于增强机器的认知能力至关重要。为了实现更感性的人机交互，人声视频中的多模态情感计算（MAC）引起了越来越多的关注。然而，以前的方法主要致力于设计多模态融合算法，存在两个问题：由于不同的预处理操作导致的语义不平衡以及由于不同模态中包含的情感内容与多模态地面事实不一致而引起的语义不匹配。此外，手动特征提取器的使用使得它们无法为多个 MAC 下游任务构建端到端管道。为了解决上述挑战，我们提出了一种名为 SemanticMAC 的新型端到端框架来计算对人类口语视频的多模态语义中心情感。我们首先在多模态数据预处理中采用预训练的 Transformer 模型，并设计情感感知器模块来捕获单模态情感信息。此外，我们提出了一种以语义为中心的方法，以三种方式统一多模态表示学习，包括门控特征交互、多任务伪标签生成和样本内/样本间对比学习。最后，SemanticMAC 在以语义为中心的标签的指导下有效地学习特定和共享语义表示。大量的实验结果表明，我们的方法在四个 MAC 下游任务中的 7 个公共数据集上超越了最先进的方法。

吐槽图片：视觉 Transformer 中的模块化超像素标记化

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 68T45, I.2.10; I.4.10

作者： Marius Aasan, Odd Kolbjørnsen, Anne Schistad Solberg, Adín Ramirez Rivera

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07680v2

摘要： Vision Transformer (ViT) 架构传统上采用基于网格的方法来独立于图像的语义内容进行标记化。我们提出了一种模块化超像素标记化策略，将标记化和特征提取解耦；这是与当代方法的转变，当代方法将这些视为一个无差别的整体。使用在线内容感知标记化以及尺度和形状不变的位置嵌入，我们进行实验和消融，将我们的方法与基于补丁的标记化和随机分区作为基线进行对比。我们表明，我们的方法显着提高了归因的可信度，在零样本无监督密集预测任务上提供像素级粒度，同时保持分类任务中的预测性能。我们的方法提供了一个与标准架构相当的模块化标记化框架，将 ViT 的空间扩展到更大的语义丰富的模型类别。

深度学习：网格搜索的启发式三阶段机制，利用基于 EHR 的临床数据优化乳腺癌转移的未来风险预测

分类： 机器学习, 人工智能, 神经和进化计算, 定量方法

作者： Xia Jiang, Yijun Zhou, Chuhan Xu, Adam Brufsky, Alan Wells

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07673v2

摘要： 网格搜索是以训练和测试大量模型为代价的，是优化深度学习模型预测性能的有效方法。网格搜索的一项具有挑战性的任务是时间管理。如果没有良好的时间管理方案，网格搜索很容易成为一项在我们有生之年无法完成的任务。在本研究中，我们引入了一种用于管理低预算网格搜索运行时间的启发式三阶段机制，以及用于提高模型预测性能的最佳点网格搜索（SSGS）和随机网格搜索（RGS）策略。 5年、10年和15年乳腺癌转移的风险。我们开发深度前馈神经网络（DFNN）模型并通过网格搜索对其进行优化。我们通过应用我们的三阶段机制以及 SSGS 和 RGS 策略进行八个网格搜索周期。我们进行各种 SHAP 分析，包括解释 DFNN 模型超参数重要性的独特分析。我们的结果表明网格搜索可以极大地改善模型预测。与我们使用 RGS 训练的所有相应模型的平均性能相比，我们进行的网格搜索将 5 年、10 年和 15 年乳腺癌转移的风险预测分别提高了 18.6%、16.3% 和 17.3%战略。我们不仅展示了最佳模型性能，还从各个方面描述了网格搜索的特征，例如发现合适模型的能力和单位网格搜索时间。三阶段机制有效发挥作用。它使我们的低预算网格搜索变得可行且易于管理，同时有助于提高模型预测性能。我们的 SHAP 分析确定了对于预测未来乳腺癌转移风险很重要的临床风险因素，以及对于性能评分的预测很重要的 DFNN 模型超参数。

LLM、MLLM 及其他领域的模型合并：方法、理论、应用和机遇

分类： 机器学习, 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07666v2

摘要： 模型合并是机器学习社区中一种高效的赋能技术，不需要收集原始训练数据，也不需要昂贵的计算。随着模型合并在各个领域变得越来越普遍，全面了解可用的模型合并技术至关重要。然而，文献中对于这些技术的系统和彻底的回顾存在很大的差距。本综述全面概述了模型合并方法和理论、它们在各个领域和环境中的应用以及未来的研究方向。具体来说，我们首先提出了一种新的分类方法，详尽地讨论了现有的模型合并方法。其次，我们讨论了模型合并技术在大语言模型、多模态大语言模型和 10 多个机器学习子领域中的应用，包括持续学习、多任务学习、小样本学习等。最后，我们强调了剩余的挑战模型融合的研究并讨论未来的研究方向。有关模型合并的论文的完整列表可在 \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications} 获取。

对齐增强解码：通过概率分布的令牌级自适应细化进行防御

分类： 计算和语言, 人工智能

作者： Quan Liu, Zhenhong Zhou, Longzhu He, Yi Liu, Wei Zhang, Sen Su

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07663v1

摘要： 大型语言模型容易受到越狱攻击，从而导致有害内容的生成。虽然先前的防御措施通过干扰或检查输入来减轻这些风险，但它们忽略了竞争目标，即对齐失败的根本原因。在本文中，我们提出了对齐增强解码（AED），这是一种采用自适应解码来解决越狱问题的根本原因的新颖防御方法。我们首先定义竞争指数来量化对齐失败，并利用自我评估的反馈来计算对齐后的逻辑。然后，AED 自适应地将 AED 和对齐后的 logits 与原始 logits 结合起来，以获得无害且有用的分布。因此，我们的方法增强了安全性，同时保持了有用性。我们对五种模型和四种常见越狱进行了实验，结果验证了我们方法的有效性。代码可在 https://github.com/GIGABaozi/AED.git 获取。

自适应行为人工智能：强化学习以增强药房服务

分类： 机器学习, 人工智能, 计算机与社会, 数据分析、统计和概率

作者： Ana Fernández del Río, Michael Brennan Leong, Paulo Saraiva, Ivan Nazarov, Aditya Rastogi, Moiz Hassan, Dexian Tang, África Periáñez

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07647v1

摘要： 药房在医疗保健系统中至关重要，特别是在低收入和中等收入国家。通过正确的行为干预或推动，药剂师可以提高他们的技能、公共卫生意识和药房库存管理，确保获得最终使患者受益的基本药物。我们引入强化学习操作系统，通过移动健康应用程序提供个性化的行为干预。我们通过讨论 SwipeRx 进行的一系列初步实验来说明其潜力，SwipeRx 是一款面向印度尼西亚药剂师（包括 B2B 电子商务）的一体化应用程序。所提出的方法具有更广泛的应用，不仅限于药房运营，还可以优化医疗保健服务。

通过有针对性的风格对手增强无约束的人脸识别

分类： 计算机视觉和模式识别, 人工智能

作者： Mohammad Saeed Ebrahimi Saadabadi, Sahar Rahimi Malakshan, Seyed Rasoul Hosseini, Nasser M. Nasrabadi

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07642v1

摘要： 虽然深度人脸识别模型表现出了卓越的性能，但它们经常在训练数据之外的领域的输入上遇到困难。最近的尝试旨在通过依赖计算昂贵且本质上具有挑战性的图像生成模块的图像空间增强来扩展训练集。在正交方向上，我们提出了一种简单而有效的方法，通过在标记和未标记集的实例级特征统计之间进行插值来扩展训练数据。我们的方法被称为目标风格对抗（TSA），其动机是两个观察结果：（i）输入域反映在特征统计中，（ii）人脸识别模型性能受到风格信息的影响。转向无标签风格隐式地综合了具有挑战性的训练实例。我们设计了一个可识别性度量来约束我们的框架，以保留标记实例的固有身份相关信息。我们的方法的有效性通过对无约束基准的评估得到证明，其表现优于或与竞争对手相当，同时训练速度提高了近 70%，内存消耗减少了 40%。

具有深入分子理解的药物发现 SMILES 到药代动力学扩散模型

分类： 定量方法, 人工智能, 机器学习

作者： Bing Hu, Anita Layton, Helen Chen

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07636v1

摘要： 人工智能（AI）越来越多地应用于药物开发的各个阶段。药物发现人工智能面临的一项挑战是药物药代动力学 (PK) 数据集通常是相互独立收集的，通常重叠有限，从而造成数据重叠稀疏。数据稀疏性使得数据管理对于寻求回答多药学、药物组合研究和高通量筛选中的研究问题的研究人员来说变得困难。我们提出了 Imagand，一种新颖的 SMILES 到药代动力学 (S2PK) 扩散模型，能够生成一系列以 SMILES 输入为条件的 PK 目标特性。我们表明，Imagand 生成的合成 PK 数据与真实数据的单变量和双变量分布非常相似，并提高了下游任务的性能。 Imagand 是一种很有前景的数据重叠稀疏性解决方案，使研究人员能够有效生成用于药物发现研究的配体 PK 数据。代码可在 \url{https://github.com/bing1100/Imagand} 获取。

在资源有限的环境中通过强化学习优化 HIV 患者的参与

分类： 机器学习, 人工智能, 计算机与社会

作者： África Periáñez, Kathrin Schmitz, Lazola Makhupula, Moiz Hassan, Moeti Moleko, Ana Fernández del Río, Ivan Nazarov, Aditya Rastogi, Dexian Tang

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07629v1

摘要： 通过提供基于证据的临床决策支持，数字工具和电子健康记录可以彻底改变患者管理，特别是在资源匮乏的环境中，那里的卫生工作者较少且往往需要更多培训。当这些工具与人工智能集成时，它们可以提供个性化支持和适应性干预措施，有效连接社区卫生工作者 (CHW) 和医疗机构。 CHARM（社区健康访问和资源管理）应用程序是一款面向社区卫生工作者的人工智能原生移动应用程序。 CHARM 由 Causal Foundry (CF) 和 mothers2mothers (m2m) 联合开发，通过简化案例管理、加强学习和改善沟通，为社区卫生工作者（主要是当地妇女）赋权。本文详细介绍了 CHARM 的开发、集成以及即将推出的基于强化学习的适应性干预措施，所有这些都旨在提高卫生工作者的参与度、效率和患者的治疗效果，从而提高社区卫生工作者的能力和社区健康。

Battery GraphNets：锂离子电池 (LiB) 寿命估计的关系学习

分类： 机器学习, 人工智能

作者： Sakhinana Sagar Srinivas, Rajat Kumar Sarkar, Venkataramana Runkana

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07624v1

摘要： 电池寿命估计对于优化电池性能和保证电池性能下降最小化至关重要，从而提高电池供电系统的效率和可靠性。现有的预测锂离子电池（LiB）剩余使用寿命（RUL）的方法忽略了电池参数之间的关系依赖性来建模非线性退化轨迹。我们提出了 Battery GraphNets 框架，该框架共同学习在电池参数之间合并离散依赖图结构以捕获复杂的相互作用，并使用图学习算法来模拟内部电池退化以进行 RUL 预测。所提出的方法在公开可用的电池数据集上明显优于几种流行的方法，并实现了 SOTA 性能。我们报告消融研究以支持我们方法的有效性。

用于高效入侵检测系统的变压器和大型语言模型：综合调查

分类： 密码学和安全, 人工智能, 计算和语言, 计算机视觉和模式识别, 音频和语音处理

作者： Hamza Kheddar

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07583v1

摘要： 随着 Transformers LLM 的显着进步，NLP 因其增强的文本生成和用户交互能力而将其影响范围扩展到许多研究领域。从这些进步中受益匪浅的一个领域是网络安全。在网络安全中，发送者和接收者之间需要保护和交换的许多参数都是文本和表格数据的形式，这使得 NLP 成为增强通信协议安全措施的宝贵工具。本调查论文对 Transformers 和 LLM 在网络威胁检测系统中的使用进行了全面分析。概述了论文选择和文献计量分析的方法，以建立评估现有研究的严格框架。讨论了 Transformers 的基础知识，包括有关各种网络攻击的背景信息和该领域常用的数据集。该调查探讨了 Transformer 在 IDS 中的应用，重点关注不同的架构，例如基于注意力的模型、BERT 和 GPT 等大语言模型、CNN/LSTM-Transformer 混合体、ViT 等新兴方法等。此外，它还探讨了 Transformer 和基于 LLM 的 IDS 已实施的各种环境和应用，包括计算机网络、物联网设备、关键基础设施保护、云计算、SDN 以及自动驾驶汽车。本文还讨论了该领域的研究挑战和未来方向，确定了可解释性、可扩展性和对不断变化的威胁的适应性等关键问题。最后，结论总结了研究结果，并强调了 Transformer 和 LLM 在增强网络威胁检测能力方面的重要性，同时还概述了进一步研究和开发的潜在途径。

图神经网络替代战略交通规划

分类： 机器学习, 人工智能

作者： Nikita Makarov, Santhanakrishnan Narayanan, Constantinos Antoniou

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07726v1

摘要： 随着城市环境的复杂性不断增加，交通系统的建模变得越来越具有挑战性。本文探讨了先进的图神经网络（GNN）架构作为战略交通规划替代模型的应用。在之前为图卷积网络（GCN）奠定基础的工作的基础上，我们的研究深入研究了已建立的 GCN 与更具表现力的图注意力网络（GAT）的比较分析。此外，我们提出了一种新颖的 GAT 变体（即 GATv3）来解决基于图的模型中的过度平滑问题。我们的研究还包括探索结合 GCN 和 GAT 架构的混合模型，旨在研究混合物的性能。这三个模型被应用于各种实验以了解它们的局限性。我们分析层次回归设置，结合分类和回归任务，并引入细粒度分类，并提出一种将输出转换为精确值的方法。结果揭示了新 GAT 在分类任务中的优越性能。据作者所知，这是文献中第一个达到更大深度的 GAT 模型。令人惊讶的是，细粒度分类任务通过额外的训练数据证明了 GCN 的意外优势。这表明合成数据生成器可以增加训练数据，而不会出现过度拟合问题，同时提高模型性能。总之，这项研究推进了基于 GNN 的代理建模，为完善 GNN 架构提供了见解。这些发现为研究新提出的 GAT 架构的潜力和其他交通问题的建模设置开辟了道路。

MetaSeg：基于 MetaFormer 的全局上下文感知网络，用于高效语义分割

分类： 计算机视觉和模式识别, 人工智能

作者： Beoungwoo Kang, Seunghun Moon, Yubin Cho, Hyunwoo Yu, Suk-Ju Kang

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07576v2

摘要： 除了 Transformer 之外，探索如何利用 MetaFormer 的能力也很重要，MetaFormer 是一种对于 Transformer 性能改进至关重要的架构。之前的研究仅将其用于骨干网络。与之前的研究不同，我们在语义分割任务中更广泛地探索了 Metaformer 架构的能力。我们提出了一个强大的语义分割网络 MetaSeg，它利用从主干网到解码器的 Metaformer 架构。我们的 MetaSeg 表明，MetaFormer 架构在捕获解码器和主干网络的有用上下文方面发挥着重要作用。此外，最近的分割方法表明，使用基于 CNN 的主干来提取空间信息和解码器来提取全局信息比使用基于 Transformer 的主干和基于 CNN 的解码器更有效。这促使我们采用使用 MetaFormer 块的基于 CNN 的主干，并设计基于 MetaFormer 的解码器，该解码器包含一个新颖的自注意力模块来捕获全局上下文。为了考虑语义分割的全局上下文提取和自注意力的计算效率，我们提出了一种通道缩减注意力（CRA）模块，将查询和密钥的通道维度减少到一维。通过这种方式，我们提出的 MetaSeg 优于之前最先进的方法，在流行的语义分割和医学图像分割基准（包括 ADE20K、Cityscapes、COCO-stuff 和 Synapse）上具有更高效的计算成本。该代码可在 https://github.com/hyunwoo137/MetaSeg 获取。

基于约束的因果学习的通用框架

分类： 人工智能, 统计理论, 方法, 统计理论

作者： Kai Z. Teh, Kayvan Sadeghi, Terry Soo

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07575v1

摘要： 通过通过占位符属性表示任何基于约束的因果学习算法，我们将正确性条件分解为与分布和真实因果图相关的部分，以及仅依赖于分布的部分。这为获得因果学习的正确性条件提供了一个通用框架，并具有以下含义。我们为 PC 算法提供了精确的正确性条件，然后将其与其他一些现有因果发现算法的正确性条件相关联。我们证明，最稀疏马尔可夫表示条件是由最大祖先图和有向无环图的现有极小性概念产生的最弱正确性条件。我们还推断，除了珍珠极小性之外，对于超越忠诚的因果学习来说，额外的知识也是必要的。

电子健康记录的多任务异构图学习

分类： 机器学习, 人工智能

作者： Tsai Hor Chan, Guosheng Yin, Kyongtae Bae, Lequan Yu

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07569v1

摘要： 学习电子健康记录（EHR）因其能够促进准确的医疗诊断而受到越来越多的关注。由于电子病历包含指定实体之间复杂交互的丰富信息，因此使用图形对电子病历进行建模在实践中被证明是有效的。然而，电子病历呈现出很大程度的异质性、稀疏性和复杂性，这阻碍了大多数应用于它们的模型的性能。此外，现有的 EHR 建模方法通常侧重于学习单个任务的表示，忽视了 EHR 分析问题的多任务性质，导致不同任务之间的通用性有限。鉴于这些局限性，我们提出了一种新的 EHR 建模框架，即 MulT-EHR（多任务 EHR），它利用异构图来挖掘复杂关系并对 EHR 中的异构性进行建模。为了减轻大量噪声，我们引入了基于因果推理框架的去噪模块，以调整严重的混杂效应并减少 EHR 数据中的噪声。此外，由于我们的模型采用单图神经网络进行同时多任务预测，因此我们设计了一个多任务学习模块来利用任务间知识来规范训练过程。对 MIMIC-III 和 MIMIC-IV 数据集的广泛实证研究证实，所提出的方法在四个流行的 EHR 分析任务中始终优于最先进的设计——药物推荐以及住院时间、死亡率和死亡率的预测。重新入院。彻底的消融研究证明了我们的方法在关键组件和超参数变化时的稳健性。

periodWave：用于高保真波形生成的多周期流量匹配

分类： 声音, 人工智能, 机器学习, 音频和语音处理, 信号处理

作者： Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07547v1

摘要： 最近，已经在各种分布式场景下研究了通用波形生成任务。尽管基于 GAN 的方法已显示出其在快速波形生成方面的优势，但它们很容易受到训练推理不匹配场景（例如两阶段文本到语音）的影响。与此同时，基于扩散的模型在其他领域也展现出了强大的生成性能；然而，由于波形生成任务中的推理速度较慢，它们并未受到关注。最重要的是，没有任何发生器架构可以明确地解开高分辨率波形信号的自然周期特征。在本文中，我们提出了PeriodWave，一种新颖的通用波形生成模型。首先，我们引入一个周期感知的流量匹配估计器，它可以在估计矢量场时捕获波形信号的周期特征。此外，我们利用多周期估计器来避免重叠来捕获波形信号的不同周期特征。虽然增加周期数可以显着提高性能，但这需要更多的计算成本。为了减少这个问题，我们还提出了一种单周期条件通用估计器，它可以通过按周期批量推理进行并行前馈。此外，我们利用离散小波变换无损地解开波形信号的频率信息以进行高频建模，并引入FreeU来降低波形生成的高频噪声。实验结果表明，我们的模型在梅尔谱图重建和文本到语音任务方面都优于以前的模型。所有源代码均可在 \url{https://github.com/sh-lee-prml/PeriodWave} 获取。

$χ$SPN：混合领域因果推理的特征干预和积网络

分类： 机器学习, 人工智能

作者： Harsh Poonia, Moritz Willig, Zhongjie Yu, Matej Zečević, Kristian Kersting, Devendra Singh Dhami

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07545v1

摘要： 以离散变量和连续变量混合为特征的混合领域中的因果推理提出了巨大的挑战。我们朝这个方向迈出了一步，并提出了特征干预和积网络（$\chi$SPN），它能够在存在从混合分布中抽取的随机变量的情况下估计干预分布。 $\chi$SPN 使用介入 SPN (iSPN) 叶子中的特征函数，从而通过概率测量的 Fourier-Stieltjes 变换提供离散和连续随机变量的统一视图。神经网络用于使用干预数据来估计学习的 iSPN 的参数。我们对 3 个合成异构数据集的实验表明，$\chi$SPN 可以有效地捕获离散变量和连续变量的干预分布，同时具有足够的表达力和因果关系。我们还表明，$\chi$SPN 可以泛化到多种干预措施，同时仅接受单个干预数据的训练。

使用 OWL-DL 本体进行规划（扩展版本）

分类： 人工智能, I.2.4

作者： Tobias John, Patrick Koopmann

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07544v1

摘要： 我们引入本体介导的规划，其中规划问题与本体相结合。我们的形式主义与现有形式主义的不同之处在于，我们专注于描述规划问题和本体的形式主义的强烈分离，它们仅通过接口松散耦合。此外，我们提出了一种黑盒算法，支持 OWL DL 的全部表达能力。这超出了现有的自动规划与本体相结合的方法所能做到的，现有方法仅支持有限的描述逻辑，例如 DL-Lite 和 Horn 的描述逻辑。我们的主要算法依赖于将本体介导的规划规范重写为PDDL，以便现有的规划系统可以用来解决它们。该算法依赖于论证，这允许采用独立于本体语言的表达能力的通用方法。然而，需要对计算理由进行专门的优化，以实现高效的重写过程。我们评估了来自多个领域的基准集的实施情况。评估表明我们的程序在实践中有效，并且定制推理程序对性能有显着影响。

新课程，新机会——乌干达中学备课的检索增强生成。原型质量评估

分类： 计算机与社会, 人工智能, 信息检索, 机器学习

作者： Simon Kloker, Herbertson Bukoli, Twaha Kateete

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07542v1

摘要： 简介：中学教育质量差仍然被视为 21 世纪乌干达的主要难题之一，尤其是在农村地区。研究发现了几个问题，包括质量低下或教师缺席的课程计划。随着政府推动新课程的实施，现有的课程计划变得过时，问题变得更加严重。使用检索增强生成方法，我们开发了一个原型，可以根据政府认可的教科书生成定制的课程计划。这有助于教师更有效、更高质量地制定课程计划，确保他们完全符合新课程和基于能力的学习方法。方法：原型是使用 Cohere LLM 和句子嵌入以及 LangChain 框架创建的 - 然后在公共网站上提供。矢量商店接受了三本新课程教科书（信息通信技术、数学、历史）的培训，全部为中一水平。根据教科书中建议的时间段，按照伪随机生成协议生成了二十四个课程计划。三位独立评估者按照 Ndihokubwayo 等人的课程计划分析协议 (LPAP) 对课程计划的技术质量进行了分析。（2022）是专门为东非和基于能力的课程设计的。结果：使用 LPAP 对 24 个课程计划进行评估，平均质量在 75% 到 80% 之间，相当于“非常好的课程计划”。尽管有一个课程计划可能被认为遗漏了该主题，但没有一个课程计划的得分低于 65%。总之，生成的教案的质量即使不是更好，也至少与人类创建的教案相当，卢旺达的一项研究表明，没有一个教案达到 50% 的基准。

DifuzCam：用掩模和扩散模型替换相机镜头

分类： 计算机视觉和模式识别, 人工智能, 图像和视频处理

作者： Erez Yosef, Raja Giryes

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07541v1

摘要： 平面无镜头相机设计显着减小了相机的尺寸和重量。在该设计中，相机镜头被另一个干扰入射光的光学元件取代。使用重建算法从原始传感器测量中恢复图像。然而，重建图像的质量并不令人满意。为了缓解这个问题，我们建议利用带有控制网络的预训练扩散模型和学习的可分离变换来进行重建。这使我们能够构建具有高质量成像的原型平板相机，在质量和感知方面呈现最先进的结果。我们展示了它利用捕获场景的文本描述来进一步增强重建的能力。我们的重建方法利用了预训练扩散模型的强大功能，可用于其他成像系统，以改善重建结果。

跨感知早期融合与阶段划分的视觉和语言转换器编码器用于参考图像分割

分类： 计算机视觉和模式识别, 人工智能

作者： Yubin Cho, Hyunwoo Yu, Suk-ju Kang

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07539v1

摘要： 引用分割旨在分割与自然语言表达相关的目标对象。该任务的主要挑战是理解复杂且模糊的语言表达的含义，并通过参考表达来确定具有多个对象的图像中的相关区域。最近的模型侧重于视觉编码器中间阶段与语言特征的早期融合，但这些方法有一个局限性，即语言特征无法引用视觉信息。为了解决这个问题，本文提出了一种新颖的架构，即具有阶段划分的视觉和语言转换器编码器的交叉感知早期融合（CrossVLT），它允许语言和视觉编码器进行早期融合，以提高跨阶段的能力。模态上下文建模。与以前的方法不同，我们的方法使视觉和语言特征能够在每个阶段引用彼此的信息，以相互增强两个编码器的鲁棒性。此外，与仅依赖高级特征进行跨模态对齐的传统方案不同，我们引入了一种基于特征的对齐方案，使视觉和语言编码器的低级到高级特征能够参与跨模式对齐。通过对齐所有编码器阶段的中间跨模态特征，该方案实现了有效的跨模态融合。通过这种方式，所提出的方法对于参考图像分割来说简单但有效，并且在三个公共基准上优于以前的最先进方法。

为急诊科基于韩国分诊和敏锐度 (KTAS) 的分诊和治疗计划开发多智能体临床决策支持系统

分类： 人工智能, 计算和语言, 机器学习

作者： Seungjun Han, Wongyung Choi

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07531v1

摘要： 急诊科 (ED) 过度拥挤以及重症监护环境中快速决策的复杂性给全球医疗保健系统带来了重大挑战。虽然临床决策支持系统 (CDSS) 已显示出希望，但大语言模型 (LLM) 的集成为提高分诊准确性和临床决策提供了新的可能性。本研究提出了一个由大语言模型驱动的 CDSS，旨在协助急诊医生和护士进行患者分类、治疗计划和整体紧急护理管理。我们利用 Llama-3-70b 作为基础 LLM 开发了一个多代理 CDSS，由 CrewAI 和 Langchain 精心策划。该系统由四个模拟急诊室关键角色的人工智能代理组成：分诊护士、急诊医生、药剂师和急诊室协调员。它采用韩国分诊和敏锐度量表 (KTAS) 进行分诊评估，并与 RxNorm API 集成进行药物管理。该模型使用 Asclepius 数据集进行评估，并由临床急诊医学专家评估性能。与单代理系统的基线相比，CDSS 在分类决策方面表现出较高的准确性。此外，该系统在关键领域表现出强大的性能，包括初步诊断、关键发现识别、处置决策、治疗计划和资源分配。我们的多代理 CDSS 展示了支持综合紧急护理管理的巨大潜力。通过利用最先进的人工智能技术，该系统提供了一种可扩展且适应性强的工具，可以增强紧急医疗服务的提供，有可能缓解急诊室的过度拥挤并改善患者的治疗结果。这项工作有助于人工智能在急诊医学领域不断发展的应用，并为未来的研究和临床实施提供了有前景的方向。

用于无源混合目标域适应的证据图对比对齐

分类： 计算机视觉和模式识别, 人工智能

作者： Juepeng Zheng, Yibin Wen, Jinxiao Zhang, Runmin Dong, Haohuan Fu

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07527v1

摘要： 在本文中，我们首先解决一个更现实的域适应（DA）设置：无源混合-目标域适应（SF-BTDA），其中我们无法在面对没有任何域标签的混合多个目标域时访问源域数据在之前。与现有的 DA 场景相比，SF-BTDA 通常面临不同目标中不同标签偏移的共存，以及源模型生成的噪声目标伪标签。在本文中，我们提出了一种称为证据对比对齐（ECA）的新方法来解耦混合目标域并减轻噪声目标伪标签的影响。首先，为了提高伪目标标签的质量，我们提出了一个校准的证据学习模块，以迭代地提高结果模型的准确性和确定性，并自适应地生成高质量的伪目标标签。其次，我们设计了一种具有域距离矩阵和置信不确定性准则的图对比学习，以最小化混合目标域中同一类样本的分布差距，从而减轻混合目标中不同标签偏移的共存。我们基于三个标准 DA 数据集进行了新的基准测试，ECA 的性能优于其他方法，具有相当大的收益，并且与之前具有域标签或源数据的方法相比，取得了可比的结果。

通过残差程序快速推理概率答案集程序

分类： 人工智能, 计算机科学中的逻辑

作者： Damiano Azzolini, Fabrizio Riguzzi

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07524v1

摘要： 当我们想要从概率答案集程序计算查询的概率时，程序的某些部分可能不会影响查询的概率，但它们会影响基础的大小。识别并删除它们对于加快计算速度至关重要。 SLG 解析算法提供了返回残差程序的可能性，该残差程序可用于计算具有总体良好基础模型的正常程序的答案集。残差程序不包含程序中不影响概率的部分。在本文中，我们建议利用残差程序来执行推理。图数据集的实证结果表明，该方法可以显着加快推理速度。

通过答案集编程优化城市网络的动态流量分配

分类： 人工智能, 计算机科学中的逻辑

作者： Matteo Cardellini, Carmine Dodaro, Marco Maratea, Mauro Vallati

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07521v1

摘要： 答案集编程 (ASP) 已证明其作为一种有效工具的潜力，可以简洁地表示和推理现实世界的问题。在本文中，我们提出了一个应用程序，其中 ASP 已成功应用于城市网络动态流量分配的背景下，并在为解决此类现实世界问题而设计的更通用的框架内。特别是，ASP 已用于计算网络中所有车辆的“最佳”路线。我们还对两个欧洲城市地区的整个框架及其使用 ASP 的部分的性能进行了实证分析，这表明了该框架的可行性以及 ASP 可以做出的贡献。

通过答案集编程控制集重新配置

分类： 人工智能

作者： Masato Kato, Torsten Schaub, Takehide Soh, Naoyuki Tamura, Mutsunori Banbara

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07510v1

摘要： 支配集重构问题被定义为，对于给定的支配集问题及其可行解中的两个，确定一个是否可以通过服从某种邻接关系的一系列可行解从另一个到达。这个问题一般来说是PSPACE完全的。众所周知，支配集的概念对于分析无线网络、社交网络和传感器网络非常有用。我们开发了一种基于答案集编程（ASP）来解决支配集重新配置问题的方法。我们的声明性方法依赖于高级 ASP 编码，并且基础和求解任务都委托给基于 ASP 的组合重新配置求解器。为了评估我们方法的有效性，我们对新创建的基准集进行了实验。

训练开销比：大型语言模型训练系统的实用可靠性指标

分类： 分布式、并行和集群计算, 人工智能

作者： Ning Lu, Qian Xie, Hao Zhang, Wenyi Fang, Yang Zheng, Jiantao Ma

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07482v1

摘要： 大型语言模型 (LLM) 以其卓越的功能正在彻底改变人工智能行业。训练这些模型需要大规模的 GPU 集群和大量的计算时间，导致频繁失败，从而显着增加训练成本。尽管它很重要，但该领域缺乏评估可靠性的指标。在这项工作中，我们引入了一种名为 \emph{Training Overhead Ratio} (TOR) 的新颖可靠性指标来评估容错 LLM 培训系统的可靠性。 TOR 被定义为系统的最佳训练时间与观察到的训练时间的比率，作为用户估计在给定系统上训练 LLM 所需的实际时间的实用工具。此外，我们的调查确定了提高可靠性的关键因素，并针对实践中遇到的各种类型的故障提出了 TOR 方程。

自然语言处理中的偏差检测和分类研究

分类： 计算和语言, 人工智能, 68T50, I.2.7

作者： Ana Sofia Evans, Helena Moniz, Luísa Coheur

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07479v1

摘要： 人类偏见已被证明会影响各个领域的模型和算法的性能，包括自然语言处理。尽管近年来对这一现象的研究越来越受到关注，但可用资源仍然相对稀缺，通常集中在不同形式或表现形式的偏见上。我们工作的目标有两个：1）收集公开的数据集，并确定如何更好地组合它们，以有效地训练仇恨言论检测和分类任务中的模型； 2）分析这些数据集的主要问题，例如稀缺性、资源倾斜以及对非持久数据的依赖。我们与实验的发展一起讨论这些问题，其中我们表明不同数据集的组合极大地影响了模型的性能。

情景记忆提示的大型语言模型

分类： 计算和语言, 人工智能

作者： Dai Do, Quan Tran, Svetha Venkatesh, Hung Le

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07465v1

摘要： 提示优化对于增强大型语言模型 (LLM) 在一系列自然语言处理 (NLP) 任务中的性能至关重要，特别是在训练示例直接合并到提示中的小样本学习场景中。尽管人们对通过少量示例优化提示越来越感兴趣，但现有的提示优化方法通常是资源密集型的或性能不足。在这项工作中，我们提出了Prompting with Episodic Memory（POEM），这是一种简单、高效且具有强大泛化能力的新型提示优化技术。我们将即时优化作为强化学习（RL）挑战，使用情景记忆来存档输入数据的组合、少数样本的排列以及训练期间观察到的奖励。在测试阶段，我们通过从情景记忆中前 k 个最相似的训练示例中选择产生最高总奖励的序列来优化每个测试查询的示例序列。我们的结果表明，在各种文本分类任务中，POEM 的性能比 TEMPERA 和 RLPrompt 等最新技术高出 5.3% 以上。此外，我们的方法很好地适应了更广泛的语言理解任务，始终优于排序示例的传统启发式方法。

多样性赋予智能：整合软件工程代理的专业知识

分类： 软件工程, 人工智能, 计算和语言, 机器学习

作者： Kexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07060v1

摘要： 大型语言模型（LLM）代理在解决现实世界的软件工程（SWE）问题方面表现出了巨大的潜力。最先进的开源 SWE 代理可以解决 SWE-Bench Lite 中超过 27% 的实际 GitHub 问题。然而，这些复杂的代理框架表现出不同的优势，在某些任务中表现出色，而在其他任务中表现不佳。为了充分利用这些智能体的多样性，我们提出了 DEI（多样性赋能智能），这是一个利用其独特专业知识的框架。 DEI 充当现有 SWE 代理框架之上的元模块，管理代理集合以增强问题解决能力。实验结果表明，DEI 指导的代理委员会能够大幅超越最佳个体代理的表现。例如，一组开源 SWE 代理在 SWE-Bench Lite 上的最大个体解析率为 27.3%，而使用 DEI 可以实现 34.3% 的解析率，提高了 25%，击败了大多数闭源解决方案。我们表现最好的团队以 55% 的解决率脱颖而出，在 SWE-Bench Lite 上获得最高排名。我们的研究结果有助于对协作人工智能系统及其解决复杂软件工程挑战的潜力进行越来越多的研究。

野外模型计数

分类： 计算机科学中的逻辑, 人工智能

作者： Arijit Shaw, Kuldeep S. Meel

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07059v1

摘要： 模型计数是自动推理中的一个基本问题，应用于概率推理、网络可靠性、神经网络验证等领域。尽管模型计数由于其 #P 完整性而从理论角度来看在计算上很困难，但过去十年在开发最先进的模型计数器以解决可扩展性挑战方面取得了重大进展。在这项工作中，我们对模型计数器的可扩展性进行了严格的评估。为此，我们调查了 11 个应用领域，并从这些领域收集了总计 2262 个基准测试。然后，我们在这些实例上评估了六个最先进的模型计数器，以评估可扩展性和运行时性能。我们的实证评估表明，模型计数器的性能在不同的应用领域中存在显着差异，这强调了最终用户仔细选择的必要性。此外，我们还研究了不同计数器相对于模型计数社区建议的两个参数的行为，只发现了微弱的相关性。我们的分析强调了模型计数中基于组合的方法面临的挑战和机遇。

MoErging 模型调查：专业专家之间的回收和路由协作学习

分类： 机器学习, 人工智能, 计算和语言

作者： Prateek Yadav, Colin Raffel, Mohammed Muqeeth, Lucas Caccia, Haokun Liu, Tianlong Chen, Mohit Bansal, Leshem Choshen, Alessandro Sordoni

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07057v1

摘要： 高性能预训练模型的出现导致专门针对特定领域或任务的微调专家模型的激增。模型 MoErging 方法旨在回收专家模型以创建具有改进性能或泛化能力的聚合系统。 MoErging 方法的一个关键组成部分是创建一个路由器，该路由器决定对特定输入或应用程序使用哪个专家模型。 MoErging 的前景、有效性和巨大的设计空间在过去几年里刺激了许多新方法的发展。这种快速的发展速度使得比较不同的 MoErging 方法变得具有挑战性，这些方法很少相互比较，并且通常在不同的实验设置中进行验证。为了弥补这些差距，我们对 MoErging 方法进行了全面的调查，其中包括一种新颖的分类法，用于对关键设计选择进行分类并阐明每种方法的合适应用。除了调查 MoErging 研究之外，我们还盘点了使用 MoErging 的软件工具和应用程序。我们还讨论了相关的研究领域，例如模型合并、多任务学习和专家混合模型。总的来说，我们的调查提供了现有 MoErging 方法的统一概述，并为这个新兴领域的未来工作奠定了坚实的基础。

在线论坛中的新闻评论差距与算法议程设置

分类： 计算机与社会, 人工智能, 计算和语言, 社交和信息网络, 物理与社会

作者： Flora Böwing, Patrick Gildersleve

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07052v1

摘要： 记者重视的新闻报道与读者喜欢的新闻报道之间的差异，即所谓的“新闻差距”，是有据可查的。然而，对与新闻相关的用户生成内容的期望差异的研究较少。由新闻网站主办的评论部分是读者参与的热门场所，但仍受编辑决定的影响。因此，了解记者与读者的评论偏好以及如何通过代表不同讨论的各种评论排名算法来服务这些偏好非常重要。我们分析了奥地利报纸 Der Standard 的 120 万条评论，以了解“新闻评论差距”以及不同排名算法的影响。我们发现，记者更喜欢积极、及时、复杂、直接的回应，而读者则更喜欢与精英作者的文章内容类似的评论。我们引入了多功能的面向特征的排名实用指标（FORUM）来评估不同排名算法的影响，并发现它们如何根据情绪、主题相关性、词汇多样性和可读性来优先显示评论的显着差异。记者可以通过策展和算法手段对言论施加重大影响。了解这些选择的含义对于促进参与性和文明的讨论同时符合新闻目标至关重要，特别是考虑到在线话语的法律审查和社会重要性日益增加。

坎你看到了吗？ KAN 和 Sentinel 用于有效且可解释的农田分割

分类： 计算机视觉和模式识别, 人工智能

作者： Daniele Rege Cambrin, Eleonora Poeta, Eliana Pastor, Tania Cerquitelli, Elena Baralis, Paolo Garza

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07040v1

摘要： 农田分割对于提高农业生产力、监测作物健康和促进可持续实践至关重要。这项任务采用的深度学习模型必须确保准确可靠的预测，以避免经济损失和环境影响。新提出的柯尔莫哥洛夫-阿诺德网络（KAN）在神经网络的性能方面提供了有希望的进步。本文分析了将 KAN 层集成到 U-Net 架构 (U-KAN) 中，以使用 Sentinel-2 和 Sentinel-1 卫星图像分割农田，并分析这些网络的性能和可解释性。我们的研究结果表明，与传统的全卷积 U-Net 模型相比，IoU 在更少的 GFLOP 下提高了 2%。此外，基于梯度的解释技术表明，U-KAN 的预测非常可信，并且该网络具有非常高的能力来关注耕种区域的边界而不是区域本身。每个通道的相关性分析还表明，某些通道与此任务无关。

PathInsight：组织病理学智能辅助诊断多模态数据集和模型的指令调整

分类： 计算机视觉和模式识别, 人工智能

作者： Xiaomin Wu, Rui Xu, Pengchen Wei, Wenkang Qin, Peixiang Huang, Ziheng Li, Lin Luo

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07037v1

摘要： 病理诊断仍然是识别肿瘤的最终标准。多模态大型模型的兴起简化了图像分析与文本描述相结合的过程。尽管取得了这一进步，但与训练和部署这些复杂的多模式模型相关的巨额成本，加上高质量训练数据集的稀缺，在尖端技术与其在临床环境中的应用之间造成了巨大的鸿沟。我们精心编制了约 45,000 个病例的数据集，涵盖了超过 6 个不同的任务，包括器官组织的分类、生成病理报告描述以及解决病理相关的问题和答案。我们使用该数据集对多模态大型模型（特别是 LLaVA、Qwen-VL、InternLM）进行了微调，以增强基于指令的性能。我们对基础模型和微调模型在特定数据集上执行图像字幕和分类任务的能力进行了定性评估。评估结果表明，微调模型能够熟练地解决典型的病理问题。我们希望通过公开我们的模型和数据集，它们可以对医学和研究界有价值。

定义和测量非独立变异因素的解缠结

分类： 机器学习, 人工智能, 机器学习

作者： Antonio Almudévar, Alfonso Ortega, Luis Vicente, Antonio Miguel, Eduardo Lleida

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07016v1

摘要： 表示学习是一种可以从数据中发现和提取变异因素的方法。直观上，如果一种表示以人类可以理解的方式分离不同的变异因素，那么它就被认为是解缠结的。解缠结的定义和衡量解缠结的指标通常假设变异因素是相互独立的。然而，这在现实世界中通常是错误的，这将这些定义和指标的使用限制在非常具体和不切实际的场景中。在本文中，我们基于信息论给出了解缠结的定义，该定义在变异因素不独立时也有效。此外，我们将此定义与信息瓶颈方法联系起来。最后，我们提出了一种方法来衡量与给定定义的脱离程度，该方法在变异因素不独立时有效。我们通过不同的实验表明，本文提出的方法正确地测量了非独立变异因素的解缠，而其他方法在这种情况下失败了。

Casper：在基于 Web 的大型语言模型中进行及时清理以保护用户隐私

分类： 密码学和安全, 人工智能

作者： Chun Jie Chong, Chenxi Hou, Zhihao Yao, Seyed Mohammadjavad Seyed Talebi

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07004v1

摘要： 基于网络的大语言模型（LLM）服务已被广泛采用，并已成为我们互联网体验中不可或缺的一部分。第三方插件通过允许访问现实世界的数据和服务来增强大语言模型的功能。然而，与这些服务及其第三方插件相关的隐私后果尚不清楚。敏感提示数据由基于云的 LLM 提供商和第三方插件存储、处理和共享。在本文中，我们提出了 Casper，这是一种即时清理技术，旨在通过在将用户输入发送到 LLM 服务之前检测和删除敏感信息来保护用户隐私。 Casper 完全作为浏览器扩展在用户设备上运行，不需要对在线 LLM 服务进行任何更改。 Casper 的核心是一个三层清理机制，由基于规则的过滤器、基于机器学习 (ML) 的命名实体识别器和基于浏览器的本地 LLM 主题标识符组成。我们在包含 4000 个合成提示的数据集上对 Casper 进行了评估，结果表明它可以有效过滤掉个人身份信息 (PII) 和隐私敏感主题，准确率分别为 98.5% 和 89.9%。

用于自动主题标记的生成式人工智能

分类： 计算和语言, 人工智能

作者： Diego Kozlowski, Carolina Pradier, Pierre Benz

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07003v1

摘要： 主题建模已成为科学领域研究的重要工具，因为它们可以对研究趋势进行大规模解释。然而，这些模型的输出被构造为关键字列表，这需要对标签进行手动解释。本文建议评估三种 LLM（即 flan、GPT-4o 和 GPT-4 mini）用于主题标记的可靠性。借鉴之前利用 BERTopic 进行的研究，我们从 2008 年至 2020 年间瑞士所有生物学教授 (n=465) 撰写的所有科学文章 (n=34,797) 的数据集中生成主题，这些文章记录在 Web of Science 数据库中。我们对这三个模型的输出进行了定量和定性评估，发现首先，两个 GPT 模型都能够根据模型的输出关键字准确且精确地标记主题。其次，最好使用三词标签来掌握研究主题的复杂性。

LLM 可以安排

分类： 人工智能

作者： Henrik Abgaryan, Ararat Harutyunyan, Tristan Cazenave

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06993v1

摘要： 作业车间调度问题（JSSP）仍然是优化生产流程的一个重大障碍。这一挑战涉及有效地将作业分配给有限数量的机器，同时最大限度地减少总处理时间或作业延迟等因素。虽然人工智能的最新进展已经产生了有前景的解决方案，例如强化学习和图神经网络，但本文探讨了 JSSP 大型语言模型 (LLM) 的潜力。我们引入了第一个 120k 监督数据集，专门用于训练 JSSP 的大语言模型。令人惊讶的是，我们的研究结果表明，基于 LLM 的调度可以实现与其他神经方法相当的性能。此外，我们提出了一种抽样方法，可以提高大语言模型解决 JSSP 的有效性。

SpectralGaussians：用于多光谱场景表示、可视化和分析的语义光谱 3D 高斯分布

分类： 计算机视觉和模式识别, 人工智能, 图形, I.2.10; I.3.7; I.4.8; I.4.1

作者： Saptarshi Neil Sinha, Holger Graf, Michael Weinmann

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06975v1

摘要： 我们提出了一种基于 3D 高斯 Splatting (3DGS) 的新型跨光谱渲染框架，该框架从注册的多视图光谱和分割图生成逼真且语义上有意义的 splats。此扩展增强了具有多个光谱的场景的表示，提供了对底层材料和分割的深入了解。我们引入了一种改进的基于物理的高斯splats渲染方法，估计每个光谱的反射率和光，从而提高准确性和真实感。在全面的定量和定性评估中，我们证明了我们的方法相对于其他最近基于学习的光谱场景表示方法（即 XNeRF 和 SpectralNeRF）以及其他非光谱最先进的学习的优越性能基于的方法。我们的工作还展示了光谱场景理解对于精确场景编辑技术（如风格转移、修复和删除）的潜力。因此，我们的贡献解决了多光谱场景表示、渲染和编辑方面的挑战，为不同的应用提供了新的可能性。

神经语音和音频编码

分类： 声音, 人工智能, 音频和语音处理, 信号处理

作者： Minje Kim, Jan Skoglund

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06954v1

摘要： 本文探讨了神经语音和音频编码系统领域内基于模型和数据驱动的方法的集成。它强调了语音和音频编解码器的主观评估过程所带来的挑战，并讨论了纯数据驱动方法的局限性，这些方法通常需要低效的大型架构来匹配基于模型的方法的性能。该研究将混合系统作为一种可行的解决方案，通过精心选择的设计增强功能显着提高了传统编解码器的性能。具体来说，它引入了一种基于神经网络的信号增强器，旨在对现有编解码器的输出进行后处理，以及基于自动编码器的端到端模型和 LPCNet——将线性预测编码 (LPC) 与神经网络相结合的混合系统。此外，本文还深入研究了在自定义特征空间（TF-Codec）或预定义变换域（MDCTNet）内运行的预测模型，并研究了使用心理声学校准损失函数来训练端到端神经音频编解码器。通过这些研究，本文展示了混合系统通过弥合传统基于模型的方法和现代数据驱动技术之间的差距来推进语音和音频编码领域的潜力。

重球动量通过函数逼近加速 Actor-Critic

分类： 机器学习, 人工智能

作者： Yanjie Dong, Haijun Zhang, Gang Wang, Shisheng Cui, Xiping Hu

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06945v1

摘要： AC（actor-critic）算法通过使用参数值函数代替 Monte-Carlo rollouts 进行值估计，可以减少随机策略梯度的方差，从而提高收敛速度。虽然现有的工作主要集中于分析马尔可夫噪声下 AC 算法的收敛速度，但动量对 AC 算法的影响在很大程度上仍未被探索。在这项工作中，我们首先通过将重球动量集成到由线性函数参数化的批评家递归中，提出了一种基于重球动量的优势演员批评家（\mbox{HB-A2C}）算法。当样本轨迹遵循马尔可夫决策过程时，我们定量地证明了所提出的 HB-A2C 算法的加速能力。我们的理论结果表明，针对马尔可夫噪声的强化学习任务，所提出的 HB-A2C 通过 $\oo{\epsilon^{-2}}$ 迭代找到了 $\epsilon$ 近似驻点。此外，我们还揭示了学习率对样本轨迹长度的依赖性。通过仔细选择临界递归的动量因子，所提出的 HB-A2C 可以平衡初始化和随机近似引入的误差。

上下文特定语言模型的优点：以 Erasmian 语言模型为例

分类： 计算和语言, 人工智能

作者： João Gonçalves, Nick Jelicic, Michele Murgia, Evert Stamhuis

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06931v1

摘要： 当前提高语言模型性能的趋势似乎是基于扩大参数数量（例如，最先进的 GPT4 模型有大约 1.7 万亿个参数）或输入模型的训练数据量。然而，这会带来巨大的计算资源和能源成本成本，从而损害人工智能解决方案的可持续性，以及与隐私和滥用相关的风险。在本文中，我们提出了伊拉斯谟语言模型 (ELM)，这是一个小型上下文特定的、包含 9 亿个参数的模型，由鹿特丹伊拉斯姆斯大学进行了预训练和微调。我们展示了该模型如何在课堂环境下的论文写作中充分表现，以及它如何在属于其环境的科目中取得优异的表现。这对广泛的机构和组织产生了影响，表明上下文特定的语言模型可能是资源受限、隐私敏感的用例的可行替代方案。

使用跨度和文档级特征分类从非结构化荷兰超声心动图报告中提取诊断

分类： 计算和语言, 人工智能, 68T50, 68P20, I.2.7; J.3; H.3.3

作者： Bauke Arends, Melle Vessies, Dirk van Osch, Arco Teske, Pim van der Harst, René van Es, Bram van Es

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06930v1

摘要： 临床机器学习研究和人工智能驱动的临床决策支持模型依赖于临床准确的标签。在临床专家的帮助下手动提取这些标签通常既耗时又昂贵。本研究测试了从非结构化荷兰超声心动图报告中自动提取跨度和文档级诊断的可行性。我们纳入了来自荷兰大型大学医院 UMCU 的 115,692 份非结构化超声心动图报告。对随机选择的子集进行手动注释，以了解 11 种常见心脏特征的发生情况和严重程度。我们在跨度和文档级别开发并测试了几种自动标记技术，使用加权和宏观 F1 分数、精度和召回率进行性能评估。我们将跨度标记与文档标记方法的性能进行了比较，其中包括直接文档分类器和依赖于跨度分类结果的间接文档分类器。 SpanCategorizer 和 MedRoBERTa.nl 模型分别优于所有其他跨度和文档分类器。加权 F1 分数因特征而异，SpanCategorizer 中的范围为 0.60 至 0.93，MedRoBERTa.nl 中的范围为 0.96 至 0.98。直接文档分类优于使用跨度分类器的间接文档分类。 SetFit 仅使用 10% 的训练数据就实现了具有竞争力的文档分类性能。使用减少的标签集产生了近乎完美的文档分类结果。我们建议使用我们发布的 SpanCategorizer 和 MedRoBERTa.nl 模型从荷兰超声心动图报告中提取跨度和文档级诊断。对于训练数据有限的设置，SetFit 可能是文档分类的一个有前途的替代方案。

时间变异性和多视角自我监督表示应对 ASVspoof5 Deepfake 挑战

分类： 声音, 人工智能, 音频和语音处理

作者： Yuankun Xie, Xiaopeng Wang, Zhiyong Wang, Ruibo Fu, Zhengqi Wen, Haonan Cheng, Long Ye

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06922v1

摘要： ASVspoof5 是 ASVspoof 系列的第五版，是全球最大的音频安全挑战之一。其目的是推动对策 (CM) 的发展，以区分善意和欺骗性的言论。在本文中，我们重点解决开放域音频深度伪造检测问题，该问题直接对应于 ASVspoof5 Track1 开放条件。首先，我们全面研究了 ASVspoof5 上的各种 CM，包括数据扩展、数据增强和自监督学习（SSL）功能。由于 ASVspoof5 数据集的高频间隙特征，我们引入了Frequency Mask，这是一种数据增强方法，可以屏蔽特定频段以提高 CM 的鲁棒性。将各种规模的时间信息与多个 SSL 特征相结合，我们的实验在 ASVspoof 5 Track 1 评估进度集上实现了 0.0158 的 minDCF 和 0.55% 的 EER。

使用生成流网络的多智能体连续控制

分类： 人工智能, 多代理系统

作者： Shuang Luo, Yinchuan Li, Shunyu Liu, Xu Zhang, Yunfeng Shao, Chao Wu

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06920v1

摘要： 生成流网络（GFlowNets）旨在从轨迹的最终状态与奖励成正比的分布中生成不同的轨迹，作为探索性控制任务的强化学习的强大替代方案。然而，GFlowNet 中的单个流匹配约束限制了它们在多智能体系统中的应用，特别是连续联合控制问题。在本文中，我们提出了一种新颖的多智能体生成连续流网络（MACFN）方法，使多个智能体能够对各种组合连续对象进行协作探索。从技术上讲，MACFN 以集中式基于全局流的匹配方式训练去中心化的基于个体流的策略。在集中训练过程中，MACFN 引入了连续流分解网络，以在仅存在全局奖励的情况下推导出每个代理的流贡献。然后，代理可以仅根据分配的本地流量以去中心化的方式执行操作，形成与奖励成比例的联合策略分配。为了保证连续流分解的表现力，我们从理论上推导了分解网络上的一致性条件。实验结果表明，所提出的方法产生的结果优于最先进的同行和更好的探索能力。我们的代码可在 https://github.com/isluoshuang/MACFN 获取。

异构空间融合和双维注意力：语音增强的新范式

分类： 音频和语音处理, 人工智能

作者： Tao Zheng, Liejun Wang, Yinfeng Yu

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06911v1

摘要： 自监督学习在语音任务中表现出了令人印象深刻的表现，但在语音增强研究领域仍然有充足的发展机会。在处理语音任务时，将注意力机制仅限制在时间维度上会限制有效关注关键语音特征。考虑到上述问题，我们的研究引入了一种新颖的语音增强框架HFSDA，它巧妙地集成了异构空间特征，并结合了二维注意力机制，可以显着增强噪声环境中的语音清晰度和质量。通过利用自监督学习嵌入与短时傅里叶变换 (STFT) 频谱图特征相结合，我们的模型擅长捕获高级语义信息和详细的频谱数据，从而能够对语音信号进行更彻底的分析和细化。此外，我们在频谱图输入分支中采用创新的全维动态卷积（ODConv）技术，能够增强跨多个维度关键信息的提取和集成。此外，我们不仅在时间维度上而且在整个谱域上增强其特征提取能力，从而改进了 Conformer 模型。对 VCTK-DEMAND 数据集的大量实验表明，HFSDA 与现有最先进的模型相当，证实了我们方法的有效性。

VNet：用于语音合成声码器的基于 GAN 的多层鉴别器网络

分类： 音频和语音处理, 人工智能

作者： Yubing Cao, Yongming Li, Liejun Wang, Yinfeng Yu

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06906v1

摘要： 自从将生成对抗网络（GAN）引入语音合成以来，已经取得了令人瞩目的成就。在对声码器的彻底探索中，人们发现，通过利用基于 GAN 的模型，可以以超过实时的速度生成音频波形，同时保持高保真度。通常，声码器的输入由带限频谱信息组成，这不可避免地会牺牲高频细节。为了解决这个问题，我们采用全频带梅尔频谱图信息作为输入，旨在为声码器提供尽可能全面的信息。然而，之前的研究表明，使用全频带频谱信息作为输入可能会导致过度平滑的问题，从而损害合成语音的自然度。为了应对这一挑战，我们提出了 VNet，这是一种基于 GAN 的神经声码器网络，它结合了全频带频谱信息，并引入了由多个子鉴别器组成的多层鉴别器（MTD）来生成高分辨率信号。此外，我们引入了一种渐近约束方法，可以修改生成器和判别器的对抗性损失，从而增强训练过程的稳定性。通过严格的实验，我们证明了 VNet 模型能够生成高保真语音并显着提高声码器的性能。

Entendre，一款适用于小众、边缘和极端社交媒体的社交机器人检测工具

分类： 计算机与社会, 人工智能, 人机交互, 社交和信息网络, J.4; I.2; I.7; K.4

作者： Pranav Venkatesh, Kami Vinton, Dhiraj Murthy, Kellen Sharp, Akaash Kolluri

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06900v1

摘要： 社交机器人（在社交媒体上生成和传播内容的自动化帐户）正在利用这些平台中的漏洞来操纵公众认知并传播虚假信息。这促使了公共机器人检测服务的发展；然而，这些服务大多数主要集中在 Twitter 上，使得利基平台容易受到攻击。 Parler、Gab 和 Gettr 等边缘社交媒体平台通常没有多少节制，这有利于仇恨言论和错误信息的传播。为了解决这一差距，我们引入了 Entendre，这是一个开放访问、可扩展且与平台无关的机器人检测框架。 Entender 可以处理来自任何社交平台的标记数据集，以使用随机森林分类方法生成定制的机器人检测模型，从而确保稳健的社交机器人检测。我们利用大多数社交平台共享通用模板的想法，用户可以在其中发布内容、批准内容并提供个人简介（通用数据功能）。通过强调通用数据功能而不是特定于平台的数据功能，Entender 提供了快速可扩展性，但牺牲了一定的准确性。为了证明 Entendre 的有效性，我们用它来探索在现已不复存在的右翼平台 Parler 上发布种族主义内容的帐户中是否存在机器人。我们检查了 38,379 个唯一用户的 233,000 个帖子，发现 1,916 个唯一用户 (4.99%) 表现出类似机器人的行为。可视化技术进一步显示，这些机器人对网络产生了重大影响，放大了有影响力的言论和标签（例如#qanon、#trump、#antilgbt）。这些初步调查结果强调需要像 Entender 这样的工具来监控和评估不同平台上的机器人活动。

用于混合增材减材制造的 CAD 模型的自动特征识别和尺寸属性提取

分类： 人工智能, 计算工程、金融和科学, 计算机视觉和模式识别, 机器学习

作者： Muhammad Tayyab Khan, Wenhe Feng, Lequn Chen, Ye Han Ng, Nicholas Yew Jin Tan, Seung Ki Moon

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06891v2

摘要： 计算机辅助设计 (CAD)、计算机辅助工艺规划 (CAPP) 和计算机辅助制造 (CAM) 的集成在现代制造中发挥着至关重要的作用，促进从数字设计到物理产品的无缝过渡。然而，这种集成中的一个重大挑战是 CAD 模型的自动特征识别 (AFR)，特别是在结合了减材和增材制造工艺的混合制造背景下。传统的 AFR 方法主要侧重于识别减材（机加工）特征，包括孔、圆角、倒角、型腔和槽，无法识别与增材制造相关的特征。此外，传统方法无法准确提取几何尺寸和方向，而这也是有效制造工艺规划的关键因素。本文提出了一种创建合成 CAD 数据集的新方法，该数据集包含通过 Python Open Cascade 与增材和减材加工相关的功能。采用分层图卷积神经网络 (HGCNN) 模型来准确识别合成 CAD 数据集中的复合加减特征。所提出的方法的关键新颖性和贡献在于它能够识别广泛的制造特征，并精确提取它们的尺寸、方向和库存尺寸。所提出的模型表现出超过 97% 的显着特征识别准确率和识别特征的 100% 维度提取准确率。因此，所提出的方法通过提供精确的特征识别和尺寸提取，增强了混合制造中 CAD、CAPP 和 CAM 的集成。它通过实现更明智的决策来促进改进的制造流程规划。

BMFT：通过基于偏差的权重掩蔽微调实现公平性

分类： 机器学习, 人工智能

作者： Yuyang Xue, Junyu Yan, Raman Dutt, Fasih Haider, Jingshuai Liu, Steven McDonagh, Sotirios A. Tsaftaris

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06890v1

摘要： 开发具有强大群体公平性的模型至关重要，特别是在医学诊断等道德敏感领域。最近实现机器学习公平性的方法需要大量的训练数据，并依赖于模型再训练，这在现实场景中可能不切实际。为了缓解这些挑战，我们提出了基于偏差的权重掩蔽微调（BMFT），这是一种新颖的后处理方法，可以在显着减少的时期内增强训练模型的公平性，而无需访问原始训练数据。 BMFT 生成模型参数的掩码，可有效识别对有偏差的预测贡献最大的权重。此外，我们提出了一种两步去偏差策略，其中特征提取器对已识别的受偏差影响的权重进行初始微调，然后在重新初始化的分类层上进行微调阶段以维持判别性能。对四个皮肤病学数据集和两个敏感属性的广泛实验表明，BMFT 在诊断准确性和公平性指标方面均优于现有的最先进 (SOTA) 技术。我们的研究结果强调了 BMFT 在促进各种分配外 (OOD) 环境中的公平性方面的有效性和稳健性。我们的代码位于：https://github.com/vios-s/BMFT

以决策为中心的学习来预测规划的行动成本

分类： 人工智能, 机器人技术

作者： Jayanta Mandi, Marco Foschini, Daniel Holler, Sylvie Thiebaux, Jorg Hoffmann, Tias Guns

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06876v1

摘要： 在许多自动化规划应用中，行动成本可能很难指定。一个例子是通过某个路段所需的时间，这取决于许多因素，例如当前的天气状况。解决这个问题的一个自然方法是学习根据输入特征（例如天气预报）预测这些参数，并在随后的自动规划中使用预测的行动成本。决策聚焦学习 (DFL) 已成功地学习以优化解决方案质量而不是预测质量的方式预测组合优化问题的参数。与将预测和优化视为单独的任务相比，这种方法可以产生更好的结果。在本文中，我们首次调查了实施 DFL 进行自动化规划的挑战，以便学习预测行动成本。有两个主要挑战需要克服：（1）在梯度下降学习期间调用规划系统，以解决规划中不支持的具有负行动成本的规划问题。我们提出了新的梯度计算方法来避免这个问题。 (2) DFL 需要在训练期间重复调用规划器，这会限制该方法的可扩展性。我们尝试使用不同的方法来逼近最佳计划以及易于实现的缓存机制来加速学习过程。作为第一个针对自动规划的 DFL 的工作，我们证明了所提出的梯度计算始终能产生比旨在最小化预测误差的预测更好的计划；并且缓存可以缓和计算要求。

通过信念改变理论推进交互式可解释人工智能

分类： 人工智能

作者： Antonio Rago, Maria Vanina Martinez

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06875v2

摘要： 随着人工智能模型在人类日常生活中变得越来越复杂和交织，需要更高水平的可解释人工智能（XAI）方法的交互性。在本文中，我们建议使用信念改变理论作为算子的正式基础，对新信息（即交互式 XAI 中的用户反馈）与数据驱动分类器的逻辑表示的结合进行建模。我们认为，这种类型的形式化提供了一个框架和方法，以有原则的方式制定互动解释，提供有保证的行为并有利于此类互动的透明度和问责制。具体来说，我们首先定义一种新颖的、基于逻辑的形式主义来表示人类和机器之间共享的解释信息。然后，我们考虑交互式 XAI 的现实世界场景，其中新知识和现有知识具有不同的优先级，我们的形式主义可以在其中实例化。最后，我们分析了一组核心的信念改变假设，讨论它们对我们现实世界环境的适用性，并指出可能需要放松或重新解释现有运营商的一些理论假设的特定挑战。

学术研究中的生成人工智能工具：定性和定量研究方法的应用和启示

分类： 人机交互, 人工智能

作者： Mike Perkins, Jasper Roe

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06872v1

摘要： 本研究探讨了生成人工智能（GenAI）对学术研究的影响，重点关注其在定性和定量数据分析中的应用。随着 GenAI 工具的快速发展，它们为提高研究生产力和民主化复杂的分析过程提供了新的可能性。然而，它们融入学术实践引发了有关研究诚信和安全、作者身份以及学术工作性质变化的重大问题。通过检查当前功能和潜在的未来应用，本研究提供了研究人员如何负责任且合乎道德地使用 GenAI 工具的见解。我们提出了案例研究，展示了 GenAI 在各种研究方法中的应用，讨论了人工智能辅助研究中可复制性和一致性的挑战，并考虑了学术界增加人工智能整合的伦理影响。本研究探讨了 GenAI 的定性和定量应用，重点介绍了转录、编码、主题分析、可视化分析和统计分析工具。通过解决这些问题，我们的目标是为关于人工智能在塑造学术研究未来中的作用的持续讨论做出贡献，并为研究人员探索人工智能辅助研究工具和研究快速发展的前景提供指导。

BSS-CFFMA：基于自监督嵌入的跨域特征融合和多注意语音增强网络

分类： 音频和语音处理, 人工智能

作者： Alimjan Mattursun, Liejun Wang, Yinfeng Yu

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06851v1

摘要： 语音自监督学习（SSL）代表在多个下游任务中实现了最先进（SOTA）的性能。然而，它在语音增强（SE）任务中的应用仍然不成熟，提供了改进的机会。在本研究中，我们引入了一种新颖的跨域特征融合和多注意语音增强网络，称为 BSS-CFFMA，它利用自监督嵌入。 BSS-CFFMA 包括多尺度跨域特征融合（MSCFF）块和残差混合多注意（RHMA）块。 MSCFF块有效地集成了跨域特征，有利于提取丰富的声学信息。 RHMA 块作为主要增强模块，利用三个不同的注意力模块来捕获不同的注意力表示并估计高质量的语音信号。我们通过对 VoiceBank-DEMAND 数据集的比较和消融研究来评估 BSS-CFFMA 模型的性能，取得了 SOTA 结果。此外，我们从 WHAMR! 中选择了三种类型的数据。数据集，专门为语音增强任务设计的集合，用于评估 BSS-CFFMA 在仅去噪、仅去混响以及同时去噪和去混响等任务中的能力。这项研究标志着首次尝试探索基于自监督嵌入的语音增强方法在去混响以及同时去噪和去混响等复杂任务中的有效性。 BSS-CFFMA 的演示实现可在线获取\footnote[2]{https://github.com/AlimMat/BSS-CFFMA。 \标签{s1}}。

基于大语言模型的因果智能体

分类： 人工智能, 计算和语言

作者： Kairong Han, Kun Kuang, Ziyu Zhao, Junjian Ye, Fei Wu

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06849v1

摘要： 大型语言模型 (LLM) 在各个领域都取得了巨大的成功。然而，因果问题和因果理论固有的复杂性给用自然语言准确描述它们带来了挑战，使得大语言模型很难有效地理解和使用它们。因果方法不容易通过自然语言传达，这阻碍了大语言模型准确应用它们的能力。此外，因果数据集通常是表格形式的，而大语言模型擅长处理自然语言数据，从而造成结构不匹配，阻碍表格数据的有效推理。因果推理能力的缺乏限制了大语言模型的发展。为了应对这些挑战，我们在代理框架内为大语言模型配备了因果工具，称为因果代理，使其能够解决因果问题。因果代理包括工具、记忆和推理模块。在工具模块中，因果代理应用因果方法将表格数据与自然语言对齐。在推理模块中，因果代理采用ReAct框架，通过工具的多次迭代进行推理。在内存模块中，因果代理维护一个字典实例，其中键是唯一名称，值是因果图。为了验证因果主体的因果能力，我们建立了由四个因果问题级别组成的基准：变量级别、边缘级别、因果图级别和因果效应级别。我们使用 ChatGPT-3.5 针对这四个级别的问题生成了 1.3K 的测试数据集，并在数据集上测试了因果代理。我们的方法论对四级因果问题表现出显着的功效，准确率均在 80% 以上。如需进一步的见解和实现细节，可以通过 GitHub 存储库 https://github.com/Kairong-Han/Causal_Agent 访问我们的代码。

人工智能研究不是魔法，它必须是可重复的和负责任的：从博士生的角度来看人工智能领域的挑战

分类： 计算机与社会, 人工智能

作者： Andrea Hrckova, Jennifer Renoux, Rafael Tolosana Calasanz, Daniela Chuda, Martin Tamajka, Jakub Simko

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06847v1

摘要： 为了揭示欧洲人工智能学生在研究过程中面临的挑战，我们对来自 13 个欧洲国家的 28 名人工智能博士生进行了调查。结果强调了三个关键领域的挑战：（1）数据集、模型和实验等人工智能资源的可发现性和质量；（2）AI论文中的实验难以复制； (3)缺乏诚信和交叉性。从我们的研究结果来看，尽管早期人工智能研究人员通常倾向于分享他们的人工智能资源，但他们缺乏动力或知识来更多地参与数据集和代码的准备和管理以及道德评估，并且不习惯与精通的人合作应用领域的专家。此外，我们还研究了计算机科学和人工智能领域数据治理和可重复性的现有实践。例如，只有少数场馆积极推动可重复性举措，例如可重复性评估。至关重要的是，需要立即采用负责任且可重复的人工智能研究实践，这对整个社会至关重要，尤其是对人工智能研究界至关重要。本文提出了社会和技术建议的结合，以克服已确定的挑战。在社会方面，我们建议在人工智能会议和期刊中普遍采用可重复性举措，以及改善跨学科合作，特别是在数据治理实践方面。在技术方面，我们呼吁增强工具来更好地支持数据集和代码的版本控制，以及促进人工智能资源共享和发现以及实验共享、执行和验证的计算基础设施。

通过梯度下降有效搜索定制激活函数

分类： 机器学习, 人工智能

作者： Lukas Strack, Mahmoud Safari, Frank Hutter

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06820v1

摘要： 不同的激活函数最适合不同的深度学习模型。为了利用这一点，我们利用基于梯度的神经架构搜索技术的最新进展来有效地识别给定应用程序的高性能激活函数。我们提出了一种细粒度的搜索单元，它结合了基本的数学运算来建模激活函数，从而可以探索新的激活。我们的方法能够识别专门的激活，从而提高我们尝试的每个模型（从图像分类到语言模型）的性能。此外，所识别的激活对相同类型的更大模型以及新数据集表现出很强的可迁移性。重要的是，我们创建定制激活函数的自动化流程比以前的方法效率高出几个数量级。它可以轻松地应用于任意深度学习管道之上，从而为增强深度学习架构提供了一种有前景的实用途径。

个性化动态难度调整——模仿学习遇见强化学习

分类： 人工智能

作者： Ronja Fuchs, Robin Gieseke, Alexander Dockhorn

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06818v1

摘要： 平衡视频游戏中的游戏难度是为玩家创造有趣的游戏体验的关键任务。游戏难度与玩家的技能或投入不匹配会导致玩家感到沮丧或无聊，从而减少玩游戏的时间。在这项工作中，我们探索使用基于机器学习的代理来平衡游戏难度，根据玩家当前的行为来挑战他们。这是通过两个智能体的组合来实现的，其中一个智能体学习模仿玩家，而第二个智能体则接受训练以击败第一个智能体。在我们的演示中，我们研究了在格斗游戏人工智能竞赛的背景下人工智能代理个性化动态难度调整的提议框架。

MAQA：评估大语言模型中关于数据不确定性的不确定性量化

分类： 人工智能, 计算和语言

作者： Yongjin Yang, Haneul Yoo, Hwaran Lee

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06816v1

摘要： 尽管大型语言模型 (LLM) 能够执行各种任务，但它们仍然会产生看似合理但不正确的响应。为了提高大语言模型的可靠性，最近的研究重点是不确定性量化，以预测回答是否正确。然而，大多数不确定性量化方法都是针对需要单一明确答案的问题进行评估的，忽略了因不可约随机性而产生的数据不确定性的存在。相反，这些方法只考虑模型的不确定性，这是由于缺乏知识而产生的。在本文中，我们研究了数据不确定性存在下的先前不确定性量化方法。我们的贡献有两个方面：1) 提出一个新的多答案问答数据集 MAQA，其中包含世界知识、数学推理和常识推理任务，以评估有关数据不确定性的不确定性量化；2) 评估 5 种不确定性量化方法多样化的白盒和黑盒大语言模型。我们的研究结果表明，即使在数据不确定的情况下，基于熵和一致性的方法也能很好地估计模型的不确定性，而其他用于白盒和黑盒大语言模型的方法则根据任务而苦苦挣扎。此外，与简单的知识查询相比，为白盒大语言模型设计的方法在推理任务中存在过度自信的问题。我们相信我们的观察将为未来在现实环境中进行不确定性量化工作铺平道路。

揭开独特性：非洲土著人脸的年龄不变人脸识别一瞥

分类： 计算机视觉和模式识别, 人工智能

作者： Fakunle Ajewole, Joseph Damilola Akinyemi, Khadijat Tope Ladoja, Olufade Falade Williams Onifade

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06806v1

摘要： 与非洲相比，识别个人不同年龄的面孔的任务，即年龄不变人脸识别（AIFR），在欧洲、美洲和亚洲已经得到了大量的研究工作。因此，AIFR 研究工作常常低估/歪曲了非土著非洲人的非洲种族。这项工作为非洲土著人脸开发了 AIFR 系统，以减少人脸图像分析研究中对非洲种族的误传。我们在本研究收集的 5,000 张非洲土著面孔 (FAGE_v2) 数据集上采用了 AIFR 的预训练深度学习模型 (VGGFace)。 FAGE_v2 是通过对均匀分布在 10 个非洲国家的 500 人进行互联网图像搜索而策划的。 VGGFace 在 FAGE_v2 上进行训练，获得了 81.80% 的最佳准确率。我们还在 CACD 数据集的非裔美国人子集上进行了实验，并获得了 91.5% 的最佳准确率。结果显示，土著非洲人和非土著非洲人的识别准确度存在显着差异。

用于说话人识别的深度学习：AB-1 语料库分析和性能评估的架构见解

分类： 声音, 人工智能, 音频和语音处理

作者： Matthias Bartolo

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06804v1

摘要： 在安全系统、取证调查和个性化服务领域，语音作为基本的人类输入的重要性超过了基于文本的交互。这项研究深入研究了说话人识别 (SID) 的复杂领域，检查了其基本组成部分，并强调了用于特征提取的梅尔频谱图和梅尔倒谱系数 (MFCC)。此外，本研究评估了六种略有不同的模型架构，使用广泛的分析来评估其性能，并将超参数调整应用于性能最佳的模型。除了 AB-1 语料库数据集中的偏见评估之外，这项工作还执行语言分析以验证口音和性别准确性。

集成显着性排序和强化学习以增强对象检测

分类： 计算机视觉和模式识别, 人工智能

作者： Matthias Bartolo, Dylan Seychell, Josef Bajada

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06803v1

摘要： 随着目标检测方法的不断增加，本研究探索了一系列实验，将基于强化学习 (RL) 的视觉注意方法与显着性排序技术相结合，以研究透明且可持续的解决方案。通过集成初始边界框预测的显着性排名，并随后应用强化学习技术通过多个时间步上的一组有限动作来完善这些预测，本研究旨在提高强化学习目标检测的准确性。本研究以一系列实验的形式呈现，研究了各种图像特征提取方法的使用，并探索了基于深度强化学习的定位代理训练的各种深度 Q 网络 (DQN) 架构变体。此外，我们专注于通过优先考虑轻量级和更快的模型来优化每一步的检测管道，同时还结合了对检测到的对象进行分类的功能，这是以前的 RL 方法所缺乏的功能。我们表明，通过使用 Pascal VOC 2007 数据集评估这些训练有素的智能体的性能，开发出了更快、更优化的模型。值得注意的是，本研究中实现的最佳平均精度 (mAP) 为 51.4，超过了文献中基于 RL 的单目标检测器设定的基准。

被《睡美人》惊呆了：概率王子如何在他们命运般的相遇后更新他的预测

分类： 可能性, 人工智能, 物理与社会

作者： Laurens Walleghem

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06797v1

摘要： 睡美人问题是概率论中的一个谜题，自从 Elga 对其进行讨论以来，它引起了广泛的关注 [Elga, Adam, Analysis 60 (2), p.143-147 (2000)]。睡美人睡着了，扔了一枚硬币。如果抛硬币的结果是反面，睡美人会在周一醒来，再次入睡，周二再次醒来（不记得周一醒来过）。如果结果是正面，睡美人只会在周一醒来。每次睡美人醒来时，她都会被问到她对结果是正面的信念是什么。睡美人应该怎样回答？在文献中，已给出 1/3 和 1/2 作为正确答案的论证。在这篇简短的文章中，我们使用简单的贝叶斯概率论来论证为什么 1/3 是正确的答案，而不是 1/2。简而言之，当睡美人醒来时，她的清醒是一个重要的额外信息，导致她将自己对 Heads 的信念更新为 1/3。我们通过考虑额外的观察者概率王子来加强我们的主张，他可能会也可能不会遇到睡美人。如果他在睡美人醒着的时候遇见她，他的正面可信度就会降低到 1/3。我们还简要考虑了《睡美人头像》中知道自己在做梦（因此睡着了）的可信度。

部分可观测配电网络中基于逆变器的伏特无功控制的鲁棒深度强化学习

分类： 系统与控制, 人工智能, 系统与控制

作者： Qiong Liu, Ye Guo, Tong Xu

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06776v1

摘要： 本文研究了基于逆变器的伏无功控制。基于 DRL 的方法的一个关键问题是主动分配网络中的测量部署有限，这导致了部分可观察状态和未知奖励的问题。为了解决这些问题，本文提出了一种带有保守批评家和替代奖励的稳健 DRL 方法。保守批评家利用分位数回归技术，基于部分可观察状态来估计保守的状态-动作价值函数，这有助于训练鲁棒的策略；断电和电压违规的替代奖励被设计为可以根据有限的测量来计算。所提出的方法优化了整个网络的功率损耗和具有可测量电压的总线的电压分布，同时间接改善了其他总线的电压分布。广泛的仿真验证了稳健的 DRL 方法在不同的有限测量条件下的有效性，即使仅可测量根总线的有功功率注入和小于 10% 的总线电压也是如此。

探索不同环境条件下基于雷达的 3D 物体检测的域转移

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Miao Zhang, Sherif Abdulatif, Benedikt Loesch, Marco Altmann, Marius Schwarz, Bin Yang

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06772v1

摘要： 深度学习的快速发展及其与自动驾驶系统的集成使得使用多模态传感器的 3D 感知取得了巨大进步。值得注意的是，在恶劣天气和变化的照明条件下，与摄像机和激光雷达相比，雷达传感器表现出更高的鲁棒性。这项研究深入研究了基于 4D 雷达的物体检测中经常被忽视但至关重要的域转移问题，研究了不同的环境条件（例如不同的天气模式和道路类型）如何影响 3D 物体检测性能。我们的研究结果强调了不同天气场景下的不同领域变化，揭示了独特的数据集敏感性，强调了雷达点云生成的关键作用。此外，我们证明了不同道路类型之间的过渡，特别是从高速公路到城市环境的过渡，引入了显着的领域转变，强调了跨不同道路环境收集不同数据的必要性。据我们所知，这是首次对基于 4D 雷达的目标检测的域转移效应进行全面分析。我们相信这项实证研究有助于理解雷达数据域变化的复杂性质，并为面对环境变化的数据收集策略提出了前进的道路。

使用街景和 VHR 卫星图像进行跨视图地理定位和灾害测绘：飓风 IAN 的案例研究

分类： 计算机视觉和模式识别, 人工智能

作者： Hao Li, Fabian Deuser, Wenping Yina, Xuanshu Luo, Paul Walther, Gengchen Mai, Wei Huang, Martin Werner

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06761v1

摘要： 自然灾害在塑造人与城市基础设施相互作用方面发挥着关键作用。有效、高效地应对自然灾害对于增强抵御能力和可持续的城市环境至关重要。在灾难响应中，通常有两种类型的信息是最必要且最难收集的。第一个信息是关于灾害损失感知的，它显示了人们对城市基础设施受损的严重程度。第二个信息是地理位置感知，这意味着如何获取人们的行踪。在本文中，我们提出了一种新颖的灾害测绘框架，即 CVDisaster，旨在使用跨视图街景图像（SVI）和超高分辨率卫星图像同时解决地理定位和损害感知估计问题。 CVDisaster由两个跨视图模型组成，其中CVDisaster-Geoloc是指基于Siamese ConvNeXt图像编码器的对比学习目标的跨视图地理定位模型，CVDisaster-Est是基于Couple Global的跨视图分类模型上下文视觉转换器（CGCViT）。以飓风 IAN 作为案例研究，我们通过创建新颖的跨视图数据集 (CVIAN) 并进行广泛的实验来评估 CVDisaster 框架。结果，我们表明，即使是有限的微调工作，CVDisaster 也可以实现极具竞争力的性能（地理定位超过 80%，损害感知估计超过 75%），这在很大程度上推动了未来跨视图模型和更广泛的 GeoAI 研究中的应用社区。数据和代码可公开获取：https://github.com/tum-bgd/CVDisaster。

使用大型语言模型评估研究质量：不同设置和输入下 ChatGPT 有效性的分析

分类： 数字图书馆, 人工智能

作者： Mike Thelwall

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06752v1

摘要： 评估学术期刊文章的质量是一项耗时但对于国家研究评估、任命和晋升至关重要的任务。因此，研究大型语言模型（LLM）是否可以在此过程中发挥作用非常重要。本文评估哪些 ChatGPT 输入（不含表格、图表和参考文献的全文；标题和摘要；仅标题）产生更好质量的分数估计，以及 ChatGPT 模型和系统提示对分数的影响程度。结果显示，最佳输入是文章标题和摘要，基于这些的平均 ChatGPT 分数（对 51 篇论文的数据集进行 30 次迭代）与人类分数的相关性为 0.67，这是有史以来报告的最高值。 ChatGPT 4o 略优于 3.5-turbo (0.66) 和 4o-mini (0.66)。结果表明，文章全文可能会混淆大语言模型研究质量评估，即使任务的复杂系统指令比简单系统指令更有效。因此，虽然摘要包含的信息不足以对严谨性进行彻底评估，但它们可能包含有关原创性和重要性的强烈指示。最后，可以使用线性回归将模型得分转换为人类尺度得分，这比猜测准确31%。

DiffLoRA：通过扩散生成个性化低阶适应权重

分类： 计算机视觉和模式识别, 人工智能

作者： Yujia Wu, Yiming Shi, Jiwei Wei, Chengwei Sun, Yuyang Zhou, Yang Yang, Heng Tao Shen

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06740v1

摘要： 个性化文本到图像的生成因其能够根据用户定义的提示生成特定身份的高保真肖像的能力而受到广泛关注。现有方法通常涉及测试时间微调或合并额外的预训练分支。然而，这些方法很难同时满足效率、身份保真度和保留模型原始生成能力的要求。在本文中，我们提出了 DiffLoRA，这是一种利用扩散模型作为超网络来根据参考图像预测个性化低秩适应 (LoRA) 权重的新颖方法。通过将这些 LoRA 权重集成到文本到图像模型中，DiffLoRA 无需进一步训练即可在推理过程中实现个性化。此外，我们提出了一种面向身份的 LoRA 权重构建管道，以促进 DiffLoRA 的训练。通过利用该管道生成的数据集，我们的 DiffLoRA 能够持续生成高性能且准确的 LoRA 权重。广泛的评估证明了我们方法的有效性，在整个个性化过程中实现了时间效率并保持了身份保真度。

对不确定性和人性化算法的推测

分类： 计算机与社会, 人工智能

作者： Nicholas Gray

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06736v1

摘要： 对风险和不确定性的认识和利用可以在帮助解决人工智能带来的众多道德问题方面发挥关键作用。了解不确定性可以让算法通过提供可询问的途径来检查输出的正确性，从而做出更好的决策。允许算法处理输入的可变性和模糊性意味着它们不需要强迫人们进行不舒服的分类。来源使算法能够知道他们所知道的内容，从而防止可能的危害。此外，来源的不确定性凸显了算法的可信度。重要的是根据我们所知道的进行计算，而不是做出可能不合理或站不住脚的假设。本文提出了在道德人工智能发展中风险和不确定性重要性的必要性，特别是在高风险场景下。它认为，处理不确定性，特别是认知不确定性，对于确保算法不会造成伤害、值得信赖并确保它们做出的决策是人性化的至关重要。

大型语言模型可以持续生成用于选举虚假信息操作的高质量内容

分类： 计算机与社会, 人工智能, 计算和语言

作者： Angus R. Williams, Liam Burke-Moore, Ryan Sze-Yin Chan, Florence E. Enock, Federico Nanni, Tvesha Sippy, Yi-Ling Chung, Evelina Gabasova, Kobi Hackenburg, Jonathan Bright

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06731v1

摘要： 大型语言模型的进步引发了人们对其在大规模生成令人信服的选举虚假信息方面的潜在用途的担忧。本研究对大语言模型自动化选举虚假信息操作阶段的能力进行了两部分调查。首先，我们介绍 DisElect，这是一个新颖的评估数据集，旨在衡量 LLM 是否遵守在英国本地背景下为选举虚假信息操作生成内容的指令，其中包含 2,200 个恶意提示和 50 个良性提示。使用 DisElect，我们测试了 13 个大语言模型，发现大多数模型大致符合这些要求；我们还发现，少数拒绝恶意提示的模型也拒绝良性的选举相关提示，并且更有可能拒绝从右翼角度生成内容。其次，我们进行了一系列实验（N=2,340）来评估大语言模型的“人性”：大语言模型生成的虚假信息操作内容能够在多大程度上以人工编写的方式通过。我们的实验表明，自 2022 年以来发布的几乎所有测试的大语言模型都会产生人类评估者在超过 50% 的时间里无法辨别的选举虚假信息操作内容。值得注意的是，我们观察到多种模型达到了高于人类的人性水平。总而言之，这些研究结果表明，当前的大语言模型可用于为选举虚假信息操作生成高质量的内容，即使在超本地化的情况下，成本也远低于传统方法，并为研究人员和政策制定者提供了衡量和评估选举虚假信息的实证基准。当前和未来模型中的这些功能。

通过多轮对话中的迭代对象-实体对齐增强视觉对话状态跟踪

分类： 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Wei Pang, Ruixue Duan, Jinfu Yang, Ning Li

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06725v1

摘要： 视觉对话（VD）是一项任务，代理根据多轮对话历史回答一系列与图像相关的问题。然而，以前的 VD 方法通常将整个对话历史视为简单的文本输入，而忽略了回合级别固有的对话信息流。在本文中，我们介绍了多轮对话状态跟踪模型（MDST），该框架通过利用从对话历史记录中学习的对话状态来回答问题来解决此限制。 MDST 捕获每轮对话历史，构建定义为视觉语言表示的二元组的内部对话状态表示。这些表示有效地奠定了当前问题的基础，从而能够生成准确的答案。 VisDial v1.0 数据集上的实验结果表明，MDST 在生成环境中实现了新的最先进性能。此外，通过一系列人类研究，我们验证了 MDST 在生成长的、一致的、类似人类的答案，同时始终正确地回答一系列问题方面的有效性。

使用漂移感知机制的工业应用自适应数据质量评分操作框架

分类： 数据库, 人工智能, 软件工程

作者： Firas Bayram, Bestoun S. Ahmed, Erik Hallin

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06724v1

摘要： 在工业应用的数据驱动人工智能 (AI) 系统中，确保传入数据流的可靠性是可信决策不可或缺的一部分。评估数据有效性的一种方法是数据质量评分，它根据各种质量维度为每个数据点或数据流分配分数。然而，某些维度表现出动态特性，需要根据系统的当前条件进行调整。现有方法常常忽视这一方面，导致它们在动态生产环境中效率低下。在本文中，我们介绍了自适应数据质量评分操作框架，这是一个为解决工业数据流中动态质量维度带来的挑战而开发的新颖框架。该框架引入了一种创新方法，集成了动态变化检测器机制，主动监控和适应数据质量的变化，确保质量分数的相关性。我们在现实工业用例中评估了所提出的框架性能。实验结果揭示了高预测性能和高效的处理时间，凸显了其在实际质量驱动的人工智能应用中的有效性。

通过积累大型语言模型知识进行计算友好的图神经网络设计

分类： 机器学习, 人工智能

作者： Jialiang Wang, Shimin Di, Hanmo Liu, Zhili Wang, Jiachuan Wang, Lei Chen, Xiaofang Zhou

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06717v1

摘要： 与其他神经网络一样，图神经网络（GNN）已经取得了显着的成功，但因其架构设计的复杂性而受到阻碍，而架构设计严重依赖于特定的数据和任务。传统上，设计合适的架构涉及反复试验，这需要大量的手动工作来优化各种组件。为了减少人工工作量，研究人员尝试开发自动化算法来设计 GNN。然而，专家和自动化算法在设计 GNN 时都面临两个主要问题：1）反复尝试候选 GNN 架构直到实现可行的设计需要花费大量计算资源，2）人类或算法需要复杂而漫长的过程积累图、GNN 和性能之间相互关系的知识。为了进一步增强 GNN 架构设计的自动化，我们提出了一种计算友好的方法，为大型语言模型（LLM）提供设计 GNN 的专业知识，从而大大缩短设计 GNN 架构的计算开销和开发周期。我们的框架首先建立一个知识检索管道，该管道理解图、GNN 和性能之间的相互关系。该管道将过去的模型设计经验转换为可供大语言模型参考的结构化知识，使其能够快速提出初始模型提案。随后，我们引入了一种知识驱动的搜索策略，该策略模拟人类专家的探索-利用过程，从而能够在有希望的范围内快速完善初始建议。大量的实验表明，我们的框架可以在几秒钟内有效地为未见过的数据集提供有前途的（例如，Top-5.77%）初始模型建议，并且无需任何事先训练，并在几次迭代中实现出色的搜索性能。

通过随机梯度退火重要性采样的高斯过程潜变量模型的变分学习

分类： 机器学习, 人工智能, 机器学习

作者： Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06710v1

摘要： 高斯过程潜变量模型 (GPLVM) 由于其灵活性和非线性特性，在降维和丢失数据恢复等无监督任务中变得越来越流行。贝叶斯 GPLVM 的重要性加权版本已被提出，以获得更严格的变分界限。然而，该版本的方法主要限于分析简单的数据结构，因为在高维空间或复杂的数据集中生成有效的提议分布可能变得相当具有挑战性。在这项工作中，我们提出了一种退火重要性采样（AIS）方法来解决这些问题。通过使用退火将后验分布转换为一系列中间分布，我们结合了顺序蒙特卡洛采样器和VI的优点，探索更广泛的后验分布并逐渐接近目标分布。我们通过重新参数化证据下界（ELBO）中的所有变量进一步提出了一种有效的算法。玩具和图像数据集的实验结果表明，我们的方法在更严格的变分界限、更高的对数似然性和更鲁棒的收敛性方面优于最先进的方法。

用于优化稀疏变分 Student-t 过程的信息几何和 Beta 链接

分类： 机器学习, 人工智能

作者： Jian Xu, Delu Zeng, John Paisley

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06699v1

摘要： 最近，提出了稀疏版本的 Student-t 过程，称为稀疏变分 Student-t 过程，以使用随机梯度下降来提高现实世界数据集的计算效率和灵活性。然而，像 Adam 这样的传统梯度下降方法可能无法充分利用参数空间几何结构，可能导致收敛速度较慢和性能不佳。为了缓解这些问题，我们采用信息几何中的自然梯度方法来优化 Student-t 过程的变分参数。这种方法利用参数空间的曲率和结构，利用与我们模型中的 Beta 函数相关联的 Fisher 信息矩阵等工具。当使用学生 t 分布作为变分分布时，该方法为自然梯度算法提供了稳健的数学支持。此外，我们提出了一种用于有效计算自然梯度的小批量算法。四个基准数据集的实验结果表明，我们的方法持续加快了收敛速度。

SlotLifter：用于学习以对象为中心的辐射场的槽引导特征提升

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Yu Liu, Baoxiong Jia, Yixin Chen, Siyuan Huang

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06697v1

摘要： 从复杂的视觉场景中提取以对象为中心的抽象的能力支撑着人类水平的概括。尽管以对象为中心的学习方法取得了重大进展，但学习 3D 物理世界中以对象为中心的表示仍然是一个严峻的挑战。在这项工作中，我们提出了 SlotLifter，一种新颖的以对象为中心的辐射模型，通过槽引导的特征提升联合解决场景重建和分解问题。这种设计结合了以对象为中心的学习表示和基于图像的渲染方法，在四个具有挑战性的合成数据集和四个复杂的现实世界数据集上提供场景分解和新颖视图合成方面最先进的性能，优于现有的 3D 对象中心学习方法在很大程度上。通过广泛的烧蚀研究，我们展示了 SlotLifter 设计的功效，揭示了未来潜在方向的关键见解。

DC3DO：3D 对象的扩散分类器

分类： 计算机视觉和模式识别, 人工智能, 计算几何

作者： Nursena Koprucu, Meher Shashwat Nigam, Shicheng Xu, Biruk Abere, Gabriele Dominici, Andrew Rodriguez, Sharvaree Vadgam, Berfin Inal, Alberto Tono

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06693v1

摘要： 受到 Geoffrey Hinton 强调生成建模的启发，要识别形状，首先学会生成它们，我们探索使用 3D 扩散模型进行对象分类。利用这些模型的密度估计，我们的方法“3D 对象扩散分类器”(DC3DO) 无需额外训练即可实现 3D 形状的零样本分类。平均而言，与多视图方法相比，我们的方法实现了 12.5% 的改进，这表明多模态推理优于判别性方法。 DC3DO 采用在 ShapeNet 上训练的类条件扩散模型，并且我们对椅子和汽车的点云进行推理。这项工作凸显了生成模型在 3D 对象分类中的潜力。

蒙版图像建模：一项调查

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Vlad Hondru, Florinel Alin Croitoru, Shervin Minaee, Radu Tudor Ionescu, Nicu Sebe

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06687v1

摘要： 在这项工作中，我们调查了有关蒙版图像建模（MIM）的最新研究，这种方法是计算机视觉领域一种强大的自我监督学习技术。 MIM 任务涉及屏蔽一些信息，例如像素、补丁甚至潜在表示，并训练模型（通常是自动编码器），以通过使用输入可见部分中可用的上下文来预测丢失的信息。我们确定并形式化了两类如何实施 MIM 作为借口任务的方法，一类基于重建，一类基于对比学习。然后，我们构建一个分类法并回顾近年来最杰出的论文。我们用通过应用层次聚类算法获得的树状图来补充手动构建的分类法。我们通过手动检查生成的树状图进一步识别相关集群。我们的评论还包括 MIM 研究中常用的数据集。我们在最流行的数据集上汇总了各种蒙版图像建模方法的性能结果，以方便对竞争方法进行比较。最后，我们确定了研究差距并提出了未来工作的几个有趣的方向。

通过扩散桥利用先验来生成时间序列

分类： 机器学习, 人工智能

作者： Jinseong Park, Seungyun Lee, Woojin Jeong, Yujin Choi, Jaewook Lee

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06672v1

摘要： 时间序列生成广泛应用于现实世界的应用中，例如模拟、数据增强和假设检验技术。最近，扩散模型已成为时间序列生成的事实上的方法，强调基于历史或相关时间序列数据流的不同合成场景。由于时间序列具有独特的特征，例如固定时间顺序和数据缩放，标准高斯先验可能不适合一般时间序列生成。在本文中，我们利用不同的先验分布进行综合。然后，我们提出了 TimeBridge，一个框架，通过利用扩散桥来学习所选先验分布和数据分布之间的传输，从而实现灵活的合成。我们的模型涵盖了时间序列扩散模型中的各种场景，它利用（i）数据和时间相关的先验进行无条件合成，以及（ii）以约束作为条件生成先验的数据规模保留合成。通过实验，我们的模型在无条件和条件时间序列生成任务中都实现了最先进的性能。

RW-NSGCN：通过负采样进行结构性攻击的稳健方法

分类： 机器学习, 人工智能

作者： Shuqi He, Jun Zhuang, Ding Wang, Jun Song

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06665v1

摘要： 使用图神经网络（GNN）的节点分类已广泛应用于各种实际场景，例如预测用户兴趣和检测社交网络中的社区。然而，最近的研究表明，图结构网络通常包含拓扑扰动和权重扰动形式的潜在噪声和攻击，这可能导致 GNN 的分类性能下降。为了提高模型的鲁棒性，我们提出了一种新方法：随机游走负采样图卷积网络（RW-NSGCN）。具体来说，RW-NSGCN 集成了用于负采样的随机游走（RWR）和 PageRank（PGR）算法，并采用基于行列式点过程（DPP）的 GCN 进行卷积运算。 RWR 利用全局和局部信息来管理噪声和局部变化，而 PGR 则评估节点重要性以稳定拓扑结构。基于 DPP 的 GCN 确保负样本之间的多样性，并聚合其特征以产生鲁棒的节点嵌入，从而提高分类性能。实验结果表明，RW-NSGCN模型有效解决了网络拓扑攻击和权重不稳定问题，提高了异常检测的准确性和整体稳定性。在分类精度方面，RW-NSGCN 显着优于现有方法，在各种场景下表现出更强的弹性，并有效减轻此类漏洞的影响。

Amuro & Char：分析大型语言模型预训练与微调的关系

分类： 计算和语言, 人工智能

作者： Kaiser Sun, Mark Dredze

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06663v2

摘要： 大型语言模型的发展导致了预训练然后对齐范式的形成，其中模型通常在大型文本语料库上进行预训练，并经历调整阶段以使模型与人类偏好或下游任务保持一致。在这项工作中，我们通过微调多个中间预训练模型检查点来研究预训练和微调之间的关系。我们在 18 个数据集上的结果表明，i) 持续的预训练以潜在的方式改进了模型，并在微调后显现出来； ii）通过额外的微调，模型未表现出能力的数据集比模型在预训练阶段表现良好的数据集获得更多； iii）虽然模型通过监督微调显着受益，但它可能会忘记先前已知的领域知识和微调过程中没有看到的任务； iv）模型在监督微调后对评估提示具有很高的敏感性，但这种敏感性可以通过更多的预训练来缓解。

用于检索的分层结构化神经网络

分类： 信息检索, 人工智能

作者： Kaushik Rangadurai, Siyang Yuan, Minhui Huang, Yiqun Liu, Golnaz Ghasemiesfeh, Yunchen Pu, Xinfeng Xie, Xingfeng He, Fangzhou Xu, Andrew Cui, Vidhoon Viswanathan, Yan Dong, Liang Xiong, Lin Yang, Liang Wang, Jiyan Yang, Chonglin Sun

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06653v1

摘要： 基于嵌入的检索（EBR）是（广告）推荐系统检索阶段的重要组成部分，它利用双塔或连体网络来学习用户和项目（广告）的嵌入。然后，它采用近似最近邻搜索 (ANN) 来有效地检索与特定用户最相关的广告。尽管最近在行业中越来越受欢迎，但它们仍存在一些局限性。首先，两塔模型架构使用单点积交互，尽管其效率较高，但在实践中却无法捕获数据分布。其次，作为 ANN 组成部分的质心表示和聚类分配发生在训练过程完成后。因此，他们没有考虑用于检索模型的优化标准。在本文中，我们提出了层次结构神经网络（HSNN），这是一种部署联合优化的层次聚类和神经网络模型，可以利用在排名阶段更常见的复杂交互和模型架构，同时保持亚线性推理成本。通过 A/B 实验，我们在离线评估中实现了 6.5% 的提升，并且还展示了 1.22% 的在线收益。 HSNN 已成功部署到广告推荐系统中，目前正在处理大部分流量。本文分享了我们开发该系统的经验，应对新鲜度、波动性、冷启动建议、集群崩溃等挑战，以及在大规模检索生产系统中部署该模型的经验教训。

EditScribe：使用自然语言验证循环进行非视觉图像编辑

分类： 人机交互, 人工智能, 计算和语言

作者： Ruei-Che Chang, Yuxuan Liu, Lotus Zhang, Anhong Guo

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06632v1

摘要： 图像编辑是一个迭代过程，需要精确的视觉评估和操作以使输出符合编辑意图。然而，当前的图像编辑工具无法为盲人和低视力个体提供可访问的交互或足够的反馈来实现这种控制水平。为了解决这个问题，我们开发了 EditScribe，这是一个原型系统，可以使用由大型多模式模型支持的自然语言验证循环来进行图像编辑。使用 EditScribe，用户首先通过最初的一般描述和对象描述来理解图像内容，然后使用开放式自然语言提示指定编辑操作。 EditScribe 执行图像编辑，并提供四种类型的验证反馈供用户验证所执行的编辑，包括视觉变化摘要、AI 判断以及更新的一般和对象描述。在执行另一次编辑之前，用户可以提出后续问题来澄清和探究编辑或验证反馈。在一项针对 10 名盲人或弱视用户的研究中，我们发现 EditScribe 支持参与者以非视觉方式执行和验证图像编辑操作。我们观察了参与者不同的提示策略，以及他们对各种类型验证反馈的看法。最后，我们讨论利用自然语言验证循环使视觉创作变得非视觉可访问的含义。

WorldScribe：迈向上下文感知的实时视觉描述

分类： 人机交互, 人工智能, 计算和语言

作者： Ruei-Che Chang, Yuxuan Liu, Anhong Guo

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06627v1

摘要： 自动实时视觉描述可以帮助盲人自主和独立地了解周围环境。然而，提供丰富、上下文相关且及时的描述一直是可访问性方面的长期挑战。在这项工作中，我们开发了 WorldScribe，这是一个生成自动实时现实世界视觉描述的系统，这些描述可定制并适应用户的上下文：(i) WorldScribe 的描述根据用户的意图量身定制，并根据语义相关性进行优先级排序。 (ii) WorldScribe 能够适应视觉环境，例如，为动态场景提供连续的简洁描述，同时为稳定的场景提供更长、更详细的描述。 (iii) WorldScribe 能够适应声音环境，例如，在嘈杂的环境中增加音量，或在对话开始时暂停。 WorldScribe 由一套视觉、语言和声音识别模型提供支持，引入了一个描述生成管道，可以平衡其丰富性和延迟之间的权衡，以支持实时使用。 WorldScribe 的设计借鉴了之前提供视觉描述的工作以及针对盲人参与者的形成性研究。我们的用户研究和随后的管道评估表明，WorldScribe 可以提供实时且相当准确的视觉描述，以促进根据用户上下文进行自适应和定制的环境理解。最后，我们讨论了使实时视觉描述更加具有情境意识和人性化的含义和进一步的步骤。

生物医学实体和关系提取的广义知识增强框架

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Minh Nguyen, Phuong Le

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06618v1

摘要： 近年来，针对生物医学实体和关系提取开发的框架越来越多。这项研究工作旨在解决生物医学出版物的加速增长和生物医学文本的复杂性，这些文本主要是为领域专家撰写的。为了应对这些挑战，我们开发了一个新颖的框架，利用外部知识构建一个独立于任务且可重用的背景知识图，用于生物医学实体和关系提取。我们模型的设计灵感来自于人类如何学习特定领域主题。特别是，人类往往首先获得某个领域最基本、最常见的知识来构建基础知识，然后将其作为扩展到各种专业主题的基础。我们的框架采用这种公共知识共享机制来构建通用神经网络知识图，该知识图可以有效地学习迁移到不同领域特定的生物医学文本。实验评估表明，我们的模型配备了这种通用且可交叉转移的知识库，实现了有竞争力的性能基准，包括用于结合相互作用检测的 BioRelEx 和用于药物不良反应识别的 ADE。

用于时态知识图补全的简单但有效的复合几何运算

分类： 人工智能

作者： Rui Ying, Mengting Hu, Jianfeng Wu, Yalan Xie, Xiaoyi Liu, Zhunheng Wang, Ming Jiang, Hang Gao, Linlin Zhang, Renhong Cheng

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06603v1

摘要： 时态知识图补全旨在推断时态知识图中缺失的事实。当前的方法通常将事实知识嵌入到连续向量空间中，并应用几何运算来学习时间知识图中的潜在模式。然而，这些方法仅采用单个操作，这在捕获时间知识图中存在的复杂时间动态方面可能存在局限性。因此，我们提出了一种简单但有效的方法，即TCompoundE，它专门设计了两种几何运算，包括特定于时间和特定于关系的运算。我们提供数学证明来证明 TCompoundE 编码各种关系模式的能力。实验结果表明，我们提出的模型显着优于现有的时间知识图嵌入模型。我们的代码可在 https://github.com/nk-ruiying/TCompoundE 获取。

超级智慧还是迷信？探索对人工智能预测毫无根据的信念背后的心理因素

分类： 人机交互, 人工智能

作者： Eunhae Lee, Pat Pataranutaporn, Judith Amores, Pattie Maes

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06602v1

摘要： 这项研究调查了影响人工智能对个人行为预测的信念的心理因素，并将其与占星术和基于个性的预测的信念进行了比较。通过对 238 名参与者进行的实验，我们研究了认知风格、超自然信仰、人工智能态度、人格特质和其他因素如何影响不同来源预测的感知有效性、可靠性、有用性和个性化。我们的研究结果表明，对人工智能预测的信念与对基于占星学和人格心理学的预测的信念呈正相关。值得注意的是，超自然现象信念和积极的人工智能态度显着提高了人工智能预测的感知有效性、可靠性、有用性和个性化。责任心与对所有来源的预测的信念呈负相关，对预测主题的兴趣增加了预测的可信度。令人惊讶的是，认知风格并没有显着影响对预测的信念。这些结果凸显了人工智能中的“理性迷信”现象，其中信念更多地是由心理启发和直觉驱动，而不是批判性评估。我们讨论了设计人工智能系统和促进适当信任和怀疑的沟通策略的影响。这项研究有助于我们理解人机交互的心理学，并为人工智能系统的设计和部署提供见解。

大型语言模型、智能机器和知识获取的视角

分类： 计算和语言, 人工智能

作者： Vladimir Cherkassky, Eng Hock Lee

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06598v1

摘要： 大型语言模型（LLM）以其生成文本文档、音乐、图像等综合“知识”的卓越能力而闻名。然而，LLM 与人类理解抽象概念和推理的能力之间存在巨大差距。我们在人类知识获取和图灵测试的更大哲学背景下讨论这些问题。此外，我们通过分析 GPT-4 对从科学和数学到常识推理等问题的回答来说明大语言模型的局限性。这些例子表明，GPT-4 通常可以模仿人类推理，尽管它缺乏理解。然而，LLM 的回答是根据所有可用数据训练的大型 LLM 模型合成的。相比之下，人类的理解是基于少量抽象概念。基于这种区别，我们讨论了大语言模型对获取人类知识和教育的影响。

公平多模式大语言模型的社会消除偏见

分类： 计算和语言, 人工智能

作者： Harry Cheng, Yangyang Guo, Qingpei Guo, Ming Yang, Tian Gan, Liqiang Nie

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06569v1

摘要： 多模态大语言模型 (MLLM) 取得了显着进步，提供了强大的视觉语言理解能力。然而，这些模型往往从训练数据集中继承了严重的社会偏见，导致基于种族和性别等属性的不公平预测。本文通过 i) 引入具有多个社会概念 (CMSC) 的综合反事实数据集来解决 MLLM 中的社会偏见问题，与现有数据集相比，它提供了更加多样化和广泛的训练集。 ii) 提出反刻板印象消除偏见策略（ASD）。我们的方法通过重新审视 MLLM 训练过程、重新调整自回归损失函数以及改进数据采样方法来抵消偏差来发挥作用。通过对各种 MLLM 的广泛实验，我们的 CMSC 数据集和 ASD 方法证明了社会偏见的显着减少，同时保持了模型的原始性能。

AquilaMoE：通过扩展和扩展策略对 MoE 模型进行高效训练

分类： 计算和语言, 人工智能

作者： Bo-Wen Zhang, Liangdong Wang, Ye Yuan, Jijie Li, Shuhao Gu, Mengdi Zhao, Xinya Wu, Guang Liu, Chengwei Wu, Hanyu Zhao, Li Du, Yiming Ju, Quanyue Ma, Yulong Ao, Yingli Zhao, Songhe Zhu, Zhou Cao, Dong Liang, Yonghua Lin, Ming Zhang, Shunfei Wang, Yanxin Zhou, Min Ye, Xuekai Chen, Xinyang Yu, Xiangjun Huang, Jian Yang

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06567v1

摘要： 近年来，随着大型语言模型在各个领域的快速应用，这些模型的规模逐渐增大，其预训练所需的资源呈指数级增长。从头开始训练大语言模型将消耗大量计算资源，而从较小的模型进行扩展是一种更有效的方法，因此引起了广泛的关注。在本文中，我们提出了 AquilaMoE，这是一种尖端的双语 816B 专家混合 (MoE) 语言模型，该模型由 8 位专家组成，每位专家拥有 160 亿个参数，并使用名为 EfficientScale 的创新培训方法开发。这种方法可以优化性能，同时通过两阶段过程最大限度地减少数据需求。第一阶段称为“扩展”，使用预先训练的较小模型的权重初始化较大的模型，从而能够使用更少的数据进行大量知识转移和连续预训练。第二阶段，横向扩展，使用预先训练的密集模型来初始化MoE专家，进一步增强知识转移和性能。对 1.8B 和 7B 模型进行的广泛验证实验比较了各种初始化方案，实现了在连续预训练期间保持和减少损失的模型。利用最优方案，我们成功训练了16B模型，随后又训练了816B AquilaMoE模型，表现出性能和训练效率的显着提升。

HDRGS：高动态范围高斯泼溅

分类： 计算机视觉和模式识别, 人工智能

作者： Jiahao Wu, Lu Xiao, Chao Wang, Rui Peng, Kaiqiang Xiong, Ronggang Wang

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06543v1

摘要： 近年来，2D 图像的 3D 重建领域取得了重大进展，特别是在引入神经辐射场 (NeRF) 技术之后。然而，从 2D 多重曝光低动态范围 (LDR) 图像重建与现实世界条件更接近的 3D 高动态范围 (HDR) 辐射场仍然面临重大挑战。解决这个问题的方法分为两类：基于网格的和基于隐式的。使用多层感知器 (MLP) 的隐式方法面临着效率低下、可解性有限和过度拟合的风险。相反，基于网格的方法需要大量内存，并且图像质量和训练时间较长。在本文中，我们将高斯分布（Gaussian Splatting）——一种最新的、高质量的、实时 3D 重建技术——引入到这个领域。我们进一步开发了高动态范围高斯泼溅（HDR-GS）方法，旨在解决上述挑战。该方法通过包含亮度来增强颜色维度，并使用不对称网格进行色调映射，快速而精确地将像素辐照度转换为颜色。我们的方法提高了 HDR 场景恢复的准确性，并集成了一种新颖的从粗到精的策略来加速模型收敛，增强针对稀疏视点和曝光极端的鲁棒性，并防止局部最优。广泛的测试证实，我们的方法在合成和现实场景中都超越了当前最先进的技术。代码将在 \url{https://github.com/WuJH2001/HDRGS} 发布

主动推理和 POMDP 中信息的价值和奖励规范

分类： 人工智能, 机器学习

作者： Ran Wei

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06542v1

摘要： 预期自由能（EFE）是主动推理中的一个核心量，由于它将控制的预期值直观地分解为实用和认知部分，因此最近受到欢迎。尽管人们已经做出了许多猜想来证明 EFE 作为决策目标函数的合理性，但最广泛接受的仍然是它的直观性以及与近似贝叶斯推理中的变分自由能的相似性。在这项工作中，我们采用自下而上的方法并提出问题：在给定 EFE 的情况下，与奖励驱动的强化学习 (RL) 代理相比，所得代理的最优性差距是多少？这是众所周知的？通过将 EFE 置于特定类别的信念 MDP 下并使用 RL 理论的分析工具，我们表明 EFE 通过信息值逼近贝叶斯最优 RL 策略。我们讨论了主动推理主体的客观规范的含义。

自主光束线对准贝叶斯优化中低保真度数据的动态排除

分类： 加速器物理, 人工智能, 机器学习, I.2.8; I.2.9; J.2

作者： Megha R. Narayanan, Thomas W. Morris

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06540v1

摘要： 在同步加速器光源处对准光束线是一个高维、采样成本昂贵的优化问题，因为光束是使用一系列动态光学组件进行聚焦的。贝叶斯优化是一种有效的机器学习方法，用于寻找光束质量的全局最优值，但该模型很容易受到光束离开传感器边缘或背景噪声引起的错误数据点的损害。这项研究是在布鲁克海文国家实验室 (BNL) 的国家同步加速器光源 II (NSLS-II) 设施中进行的，旨在研究识别不可靠的光束质量读数并阻止优化模型寻找可能产生低质量点的方法。 -保真光束。探索的方法包括使用尺寸和位置模型的损失分析进行动态修剪，以及基于长度尺度的遗传算法来确定模型中包含哪些点以获得最佳拟合。每种方法都成功地对高保真度点和低保真度点进行了分类。这项研究通过为所有光束线的科学家提供更高质量的光束，并更快地收敛到这些实验的最佳值，推进了 BNL 解决国家能源挑战的使命。

大语言模型的策略链规划：将心理治疗对话的产生与动机访谈中的策略相结合

分类： 计算和语言, 人工智能

作者： Xin Sun, Xiao Tang, Abdallah El Ali, Zhuying Li, Xiaoyu Shen, Pengjie Ren, Jan de Wit, Jiahuan Pei, Jos A. Bosch

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06527v1

摘要： 大语言模型 (LLM) 的最新进展在生成心理治疗对话方面显示出了希望，特别是在动机访谈 (MI) 方面。然而，如何运用策略（一套动机性访谈（MI）技能）来产生具有可解释性的治疗依从性对话尚未得到充分探索。我们提出了一种称为策略感知对话生成和策略链（CoS）规划的方法，该方法首先预测 MI 策略作为推理，并利用这些策略来指导后续的对话生成。它通过将生成的 MI 对话与治疗策略结合起来，为心理治疗带来了可控和可解释生成的潜力。进行了大量的实验，包括自动和人工评估，以验证 MI 策略的有效性。我们的研究结果证明了大语言模型在进行战略性对话方面的潜力，并为心理治疗环境中的实际应用提出了方向。

学习排名函数：从短期行为预测到长期用户满意度

分类： 机器学习, 人工智能, 信息检索

作者： Yi Wu, Daryl Chang, Jennifer She, Zhe Zhao, Li Wei, Lukasz Heldt

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06512v1

摘要： 我们提出了学习排名函数（LRF），该系统将短期用户项目行为预测作为输入，并输出一系列直接优化长期用户满意度的建议。之前的大多数工作都是基于优化启发式函数的超参数。我们建议直接将问题建模为石板优化问题，目标是最大限度地提高长期用户满意度。我们还开发了一种新颖的约束优化算法，可以稳定多目标优化的目标权衡。我们通过现场实验评估我们的方法，并描述其在 YouTube 上的部署。

通过输出改组攻击欺骗 SHAP

分类： 机器学习, 人工智能, 密码学和安全

作者： Jun Yuan, Aritra Dasgupta

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06509v1

摘要： 可解释的 AI~(XAI) 方法（例如 SHAP）可以帮助发现黑盒模型中的特征属性。如果该方法揭示了模型输出中“受保护特征”（例如性别、种族）的显着归因，则该模型被认为是不公平的。然而，对抗性攻击可以破坏 XAI 方法的检测。以前构建此类对抗模型的方法需要访问底层数据分布，这在许多实际场景中可能是不可能的。我们放宽了这一限制，并提出了一种新颖的攻击家族，称为洗牌攻击，它们与数据无关。所提出的攻击策略可以适应任何经过训练的机器学习模型来欺骗基于 Shapley 值的解释。我们证明 Shapley 值无法检测洗牌攻击。然而，估计 Shapley 值的算法（例如线性 SHAP 和 SHAP）可以以不同程度的有效性检测这些攻击。我们通过比较线性 SHAP 和使用真实数据集的 SHAP 的性能来证明攻击策略的有效性。

根据近端感知激光扫描数据对树种分类进行基准测试：引入 FOR-species20K 数据集

分类： 计算机视觉和模式识别, 人工智能

作者： Stefano Puliti, Emily R. Lines, Jana Müllerová, Julian Frey, Zoe Schindler, Adrian Straker, Matthew J. Allen, Lukas Winiwarter, Nataliia Rehush, Hristina Hristova, Brent Murray, Kim Calders, Louise Terryn, Nicholas Coops, Bernhard Höfle, Samuli Junttila, Martin Krůček, Grzegorz Krok, Kamil Král, Shaun R. Levick, Linda Luck, Azim Missarov, Martin Mokroš, Harry J. F. Owen, Krzysztof Stereńczak, Timo P. Pitkänen, Nicola Puletti, Ninni Saarinen, Chris Hopkinson, Chiara Torresan, Enrico Tomelleri, Hannah Weiser, Rasmus Astrup

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06507v1

摘要： 近端传感激光扫描为自动森林数据采集提供了巨大的潜力，但在没有额外地面数据的情况下自动识别树种仍然存在挑战。深度学习 (DL) 显示了自动化的前景，但由于缺乏大型、多样化、公开可用的单树点云标记数据集，进展缓慢。这影响了深度学习模型的稳健性以及建立物种分类最佳实践的能力。为了克服这些挑战，创建了 FOR-species20K 基准数据集，其中包含来自 33 个物种的 20,000 多个树点云，使用陆地 (TLS)、移动 (MLS) 和无人机激光扫描 (ULS) 在欧洲各个森林中捕获，其中一些其他地区的数据。该数据集支持对树种分类的深度学习模型进行基准测试，包括基于点云的方法（PointNet++、MinkNet、MLP-Mixer、DGCNN）和基于多视图图像的方法（SimpleView、DetailView、YOLOv5）。基于 2D 图像的模型通常比基于 3D 点云的模型（平均 OA = 0.72）表现更好（平均 OA = 0.77），并且在不同的扫描平台和传感器上具有一致的结果。顶级模型 DetailView 特别强大，可以很好地处理数据不平衡并有效地跨树大小进行泛化。 FOR-species20K 数据集可在 https://zenodo.org/records/13255198 获取，它是使用激光扫描数据开发树种分类深度学习模型并对其进行基准测试的关键资源，为该领域的未来发展奠定了基础。

基于图神经网络内在动机的异构多智能体强化学习中的去中心化合作

分类： 多代理系统, 人工智能, 机器人技术, I.2.6; I.2.9; I.2.11

作者： Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek Khan

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06503v1

摘要： 多智能体强化学习（MARL）正在成为各种顺序决策和控制任务的关键框架。与单代理系统不同，多代理系统需要代理之间的成功合作。在现实场景中部署这些系统通常需要分散的训练、多样化的代理以及从不常见的环境奖励信号中学习。在部分可观察性和缺乏有关主体异质性的先验知识的情况下，这些挑战变得更加明显。虽然著名的研究使用内在动机（IM）来解决分散环境中的奖励稀疏或合作问题，但那些处理异质性的研究通常假设集中训练、参数共享和代理索引。为了克服这些限制，我们提出了 CoHet 算法，该算法利用一种新颖的基于内在动机的图神经网络（GNN），在部分可观察性和奖励稀疏性的挑战下，促进去中心化环境中异构代理策略的学习。在多智能体粒子环境 (MPE) 和矢量化多智能体模拟器 (VMAS) 基准中对 CoHet 的评估表明，与一系列协作多智能体场景中的最新技术相比，CoHet 具有卓越的性能。我们的研究通过分析智能体动力学模型对内在动机模块的影响、深入了解不同 CoHet 变体的性能及其对越来越多的异构智能体的鲁棒性进行了补充。

使用大型语言模型进行跨语言会话语音摘要

分类： 计算和语言, 人工智能

作者： Max Nelson, Shannon Wotherspoon, Francis Keith, William Hartmann, Matthew Snover

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06484v1

摘要： 跨语言会话语音摘要是一个重要问题，但面临资源匮乏的问题。虽然存在多种语言的转录，但翻译后的对话语音很少，并且包含摘要的数据集也不存在。我们以现有的 Fisher 和 Callhome 西班牙语-英语语音翻译语料库为基础，通过摘要补充翻译。摘要是使用 GPT-4 根据参考翻译生成的，并被视为基本事实。任务是在存在转录和翻译错误的情况下生成类似的摘要。我们使用开源语音识别和机器翻译模型构建了一个基于级联的基线系统。我们测试了一系列大语言模型的总结并分析转录和翻译错误的影响。针对此任务采用 Mistral-7B 模型，其性能明显优于现成模型，并且与 GPT-4 的性能相匹配。

迈向自主代理：语言模型中的自适应规划、推理和行动

分类： 人工智能, 计算和语言

作者： Yen-Che Hsiao, Abhishek Dutta

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06458v1

摘要： 我们提出了一种新颖的上下文学习算法，用于构建自主决策语言代理。每次任务失败时，语言代理都会通过自我纠正来不断尝试解决同一任务。我们选择的语言代理展示了在基于文本的游戏环境中解决任务的能力。我们的结果表明，使用我们提出的方法的 gemma-2-9b-it 语言模型可以成功完成第一次尝试失败的六个任务中的两个。这凸显了我们的方法通过自我修正增强单一语言模型解决问题的能力的有效性，为更先进的自主代理铺平了道路。该代码可在 https://github.com/YenCheHsiao/AutonomousLLMAgentwithAdaptingPlanning 上公开获取。

长期交通预测中连续时间流数据的多视图神经微分方程

分类： 机器学习, 人工智能

作者： Zibo Liu, Zhe Jiang, Shigang Chen

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06445v1

摘要： 长期交通流量预测在智能交通中发挥着至关重要的作用，因为它允许交通管理者提前调整决策。然而，由于连续时间流数据中的时空相关性和复杂的动态模式，该问题具有挑战性。神经微分方程 (NDE) 是学习连续时间交通动态的最先进方法之一。然而，传统的 NDE 模型由于无法捕获延迟交通模式、动态边缘（位置到位置相关）模式和突变趋势模式，在长期交通预测中面临问题。为了填补这一空白，我们提出了一种新的 NDE 架构，称为多视图神经微分方程。我们的模型通过学习神经微分方程中的潜在多重表示来捕获不同状态变量（视图）的当前状态、延迟状态和趋势。对几个现实世界的交通数据集进行的广泛实验表明，我们提出的方法优于最先进的方法，并在长期预测方面实现了卓越的预测精度，并且在噪声或缺失输入的情况下实现了鲁棒性。

评估表中实体消歧的语言模型

分类： 计算和语言, 人工智能

作者： Federico Belotti, Fabio Dadda, Marco Cremaschi, Roberto Avogadro, Riccardo Pozzi, Matteo Palmonari

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06423v1

摘要： 表格是重要的信息容器，但理解它们的含义可能具有挑战性。事实上，最近人们关注的焦点是语义表解释（STI），即涉及表格数据的语义注释以消除其含义的歧义的任务。多年来，人们对基于深度学习的数据驱动方法的兴趣激增，这些方法越来越多地与启发式方法相结合。在上一个时期，大型语言模型（LLM）的出现催生了一类新的表注释方法。对这个以多重挑战为特征的研究领域的兴趣导致了采用不同技术的方法的激增。然而，这些方法并没有在共同基础上进行一致的评估，这使得评估和比较变得困难。这项工作提出了对四种最先进（SOTA）方法的广泛评估——Alligator（以前称为 s-elBat）、Dagobah、TURL 和 TableLlama；前两个属于基于启发式的算法系列，而其他算法分别是仅编码器和仅解码器的 LLM。主要目标是衡量这些方法解决实体消歧任务的能力，最终目标是在该领域绘制新的研究路径。

互惠学习

分类： 机器学习, 人工智能, 机器学习, 68T37, 68T05, 68W25

作者： Julian Rodemann, Christoph Jansen, Georg Schollmeyer

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06257v1

摘要： 我们证明，各种各样的机器学习算法都是一个单一范式的具体实例：互惠学习。这些实例包括从多臂老虎机的主动学习到自我训练。我们表明，所有这些算法不仅可以从数据中学习参数，反之亦然：它们以取决于当前模型拟合的方式迭代地改变训练数据。我们使用决策理论语言引入互惠学习作为这些算法的概括。这使我们能够研究它们在什么条件下收敛。关键是保证互惠学习契约，使得巴纳赫不动点定理适用。通过这种方式，我们发现，如果互惠学习算法的预测是概率性的，并且样本适应既是非贪婪的，又是随机的或正则化的，那么在损失函数相对温和的假设下，互惠学习算法会以线性速率收敛到近似最优模型。我们解释这些发现并提供将它们与特定的主动学习、自我训练和强盗算法联系起来的推论。

去中心化健康情报网络（DHIN）

分类： 密码学和安全, 人工智能, 计算机与社会, 分布式、并行和集群计算, 新兴技术

作者： Abraham Nash

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06240v3

摘要： 去中心化健康智能网络 (DHIN) 是一个理论框架，旨在解决因提供商和机构之间的数据碎片化而导致的健康数据主权和医疗保健人工智能利用方面的重大挑战。它建立了一个用于医疗保健服务的主权架构，作为主权健康网络的先决条件，然后通过克服访问不同医疗数据源的障碍来促进人工智能的有效利用。这个综合框架利用：1）自我主权身份架构与个人健康记录（PHR）相结合，作为健康数据主权的先决条件； 2）在公共区块链上实施的可扩展联邦学习（FL）协议，用于医疗保健领域的去中心化人工智能培训，其中健康数据保留在参与者手中，并且仅共享模型参数更新； 3）可扩展、无需信任的奖励机制，以激励参与并确保公平的奖励分配。该框架确保任何实体都无法阻止或控制对参与者提供的健康数据培训的访问或确定经济利益，因为这些流程在具有不可变记录且没有第三方的公共区块链上运行。它支持医疗保健领域的有效人工智能培训，使患者能够保持对其健康数据的控制，获得经济利益，并为一个分散的、可扩展的生态系统做出贡献，该生态系统利用集体人工智能来开发有益的医疗保健算法。患者的数字钱包中会收到奖励，作为选择加入 FL 协议的激励，并制定了为去中心化保险解决方案提供资金的长期路线图。这种方法引入了一种新颖的自筹资金的医疗保健模式，可以适应个人需求，补充现有系统，并重新定义全民覆盖。它强调了改变医疗数据管理和人工智能利用同时赋予患者权力的潜力。

PhaGO：通过整合基因组背景对噬菌体进行蛋白质功能注释

分类： 定量方法, 人工智能, 机器学习

作者： Jiaojiao Guan, Yongxin Ji, Cheng Peng, Wei Zou, Xubo Tang, Jiayu Shang, Yanni Sun

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06402v1

摘要： 噬菌体是针对细菌的病毒，在微生物生态学中发挥着至关重要的作用。噬菌体蛋白对于理解噬菌体生物学（例如病毒感染、复制和进化）非常重要。尽管通过宏基因组测序鉴定了大量新噬菌体，但其中许多噬菌体的蛋白质功能注释有限。噬菌体蛋白的准确功能注释面临着一些挑战，包括其固有的多样性和注释蛋白的稀缺性。现有工具尚未充分利用噬菌体的独特特性来注释蛋白质功能。在这项工作中，我们通过利用噬菌体基因组的模块化基因组结构，提出了一种新的噬菌体蛋白质功能注释工具。通过采用最新蛋白质基础模型和 Transformer 的嵌入来捕获噬菌体基因组中蛋白质之间的上下文信息，PhaGO 在注释差异蛋白质和具有不常见功能的蛋白质方面分别超越了最先进的方法，提高了 6.78% 和 13.05%。 PhaGO 可以注释缺乏同源性搜索结果的蛋白质，这对于表征快速积累的噬菌体基因组至关重要。我们通过鉴定噬菌体中 688 个潜在的穴蛋白来证明 PhaGO 的实用性，这些噬菌体与已知的穴蛋白表现出高度的结构保守性。结果表明 PhaGO 有潜力扩展我们对新发现的噬菌体的理解。

LOLgorithm：整合语义、句法和语境元素进行幽默分类

分类： 计算和语言, 人工智能, 机器学习

作者： Tanisha Khurana, Kaushik Pillalamarri, Vikram Pande, Munindar Singh

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06335v1

摘要： 本文通过语言学视角探索幽默检测，优先考虑自然语言处理中的句法、语义和上下文特征而不是计算方法。我们将特征分为句法、语义和上下文维度，包括词典、结构统计、Word2Vec、WordNet 和语音风格。我们提出的模型 Colbert 利用 BERT 嵌入和并行隐藏层来捕获句子一致性。通过结合句法、语义和上下文特征，我们训练 Colbert 进行幽默检测。特征工程检查基本的句法和语义特征以及 BERT 嵌入。 SHAP 解释和决策树识别有影响力的特征，揭示整体方法提高了对看不见的数据的幽默检测准确性。整合不同维度的语言线索增强了模型超越传统计算方法理解幽默复杂性的能力。

VisualAgentBench：将大型多模态模型作为视觉基础代理

分类： 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Xiao Liu, Tianjie Zhang, Yu Gu, Iat Long Iong, Yifan Xu, Xixuan Song, Shudan Zhang, Hanyu Lai, Xinyi Liu, Hanlin Zhao, Jiadai Sun, Xinyue Yang, Yu Yang, Zehan Qi, Shuntian Yao, Xueqiao Sun, Siyi Cheng, Qinkai Zheng, Hao Yu, Hanchen Zhang, Wenyi Hong, Ming Ding, Lihang Pan, Xiaotao Gu, Aohan Zeng, Zhengxiao Du, Chan Hee Song, Yu Su, Yuxiao Dong, Jie Tang

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06327v1

摘要： 大型多模态模型 (LMM) 开创了人工智能的新时代，融合了语言和视觉功能，形成了功能强大的视觉基础智能体。这些代理被认为能够在众多任务中表现出色，有可能接近通用人工智能。然而，现有的基准测试未能充分挑战或展示 LMM 在复杂的现实环境中的全部潜力。为了弥补这一差距，我们引入了 VisualAgentBench (VAB)，这是一个全面的开创性基准，专门设计用于训练和评估 LMM 作为跨不同场景的视觉基础代理，包括体现、图形用户界面和视觉设计，并制定了探索深度的任务LMM 的理解和交互能力。通过对九个专有 LMM API 和八个开放模型的严格测试，我们展示了这些模型的相当大但仍在开发的代理功能。此外，VAB 还构建了通过混合方法构建的轨迹训练集，包括基于程序的求解器、LMM 代理引导和人类演示，通过行为克隆促进 LMM 性能的大幅提高。我们的工作不仅旨在对现有模型进行基准测试，而且为未来发展为视觉基础代理提供坚实的基础。代码、训练&测试数据以及部分微调的开放式 LMM 可在 \url{https://github.com/THUDM/VisualAgentBench} 获取。

我们可以依靠大语言模型代理人来起草长期计划吗？我们以 TravelPlanner 为例

分类： 人工智能, 机器学习

作者： Yanan Chen, Ali Pesaranghader, Tanmana Sadhu, Dong Hoon Yi

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06318v1

摘要： 大型语言模型（LLM）因其有前景的泛化能力和涌现能力而使自主代理更接近通用人工智能（AGI）。然而，目前缺乏关于基于 LLM 的代理如何行为、它们可能失败的原因以及如何改进它们的研究，特别是在要求严格的现实世界规划任务中。在本文中，为了填补这一空白，我们使用现实的基准 TravelPlanner 来展示我们的研究，其中代理必须满足多个约束才能生成准确的计划。我们利用这个基准来解决四个关键的研究问题：（1）LLM 代理在推理和规划方面是否足够强大，能够应对冗长且嘈杂的环境？ (2) 在长上下文场景中，少样本提示会对 LLM 代理的性能产生不利影响吗？（3）我们可以依靠细化来改进计划吗？（4）通过积极和消极的反馈对LLM进行微调是否可以带来进一步的改进？我们的综合实验表明，首先，尽管大语言模型有能力处理广泛的参考信息和少数例子，但他们往往无法关注长背景的关键部分；其次，他们仍然难以分析长期计划，无法为细化提供准确的反馈；第三，我们提出反馈感知微调（FAFT），它利用正反馈和负反馈，比监督微调（SFT）有显着的收益。我们的研究结果为社区提供了与现实世界规划应用相关的各个方面的深入见解。

Body Transformer：利用机器人实施进行策略学习

分类： 机器人技术, 人工智能, 机器学习

作者： Carmelo Sferrazza, Dun-Ming Huang, Fangchen Liu, Jongmin Lee, Pieter Abbeel

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06316v1

摘要： 近年来，Transformer架构已经成为应用于自然语言处理和计算机视觉的机器学习算法的事实上的标准。尽管有显着的证据表明该架构在机器人学习的背景下成功部署，但我们声称普通变压器并没有充分利用机器人学习问题的结构。因此，我们提出了 Body Transformer (BoT)，这是一种通过提供指导学习过程的归纳偏差来利用机器人体现的架构。我们将机器人身体表示为传感器和执行器的图，并依赖于整个架构中池信息的屏蔽注意力。在表示模仿或强化学习策略时，所得到的架构在任务完成、缩放特性和计算效率方面优于普通变压器以及经典的多层感知器。包括开源代码在内的其他材料可在 https://sferrazza.cc/bot_site 上获取。

OWL2Vec4OA：定制知识图嵌入以实现本体对齐

分类： 人工智能

作者： Sevinj Teymurova, Ernesto Jiménez-Ruiz, Tillman Weyde, Jiaoyan Chen

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06310v1

摘要： 随着涵盖交叉领域的可用本体数量不断增加，本体对齐对于实现语义互操作性至关重要。本文提出了 OWL2Vec4OA，它是本体嵌入系统 OWL2Vec* 的扩展。虽然 OWL2Vec* 已成为一种强大的本体嵌入技术，但它目前缺乏一种机制来根据本体对齐任务定制嵌入。 OWL2Vec4OA 结合了种子映射中的边缘置信度值来指导随机游走策略。我们提出了我们提出的扩展的理论基础、实现细节和实验评估，证明了其对本体对齐任务的潜在有效性。

人工智能科学家：迈向全自动开放式科学发现

分类： 人工智能, 计算和语言, 机器学习

作者： Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, David Ha

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06292v1

摘要： 通用人工智能的巨大挑战之一是开发能够进行科学研究和发现新知识的代理。虽然前沿模型已经被用来帮助人类科学家，例如对于集思广益、编写代码或预测任务，他们仍然只执行科学过程的一小部分。本文提出了第一个全自动科学发现的综合框架，使前沿大型语言模型能够独立进行研究并传达其发现。我们介绍人工智能科学家，它产生新颖的研究想法，编写代码，执行实验，可视化结果，通过撰写完整的科学论文来描述其发现，然后运行模拟评审过程进行评估。原则上，这个过程可以重复，以开放式的方式迭代地发展想法，就像人类科学界一样。我们通过将其应用于机器学习的三个不同子领域来展示其多功能性：扩散建模、基于变压器的语言建模和学习动态。每个想法都会被实施并发展成一篇完整的论文，每篇论文的成本不到 15 美元。为了评估生成的论文，我们设计并验证了一个自动审稿人，我们证明它在评估论文分数方面实现了接近人类的表现。根据我们的自动审稿人的判断，人工智能科学家可以撰写超出顶级机器学习会议接受门槛的论文。这种方法标志着机器学习科学发现新时代的开始：将人工智能代理的变革性优势带入人工智能本身的整个研究过程，让我们更接近一个可以在人工智能上释放无穷无尽、负担得起的创造力和创新的世界。世界上最具挑战性的问题。我们的代码是开源的 https://github.com/SakanaAI/AI-Scientist

使用大语言模型根据临床记录生成综合患者与医生对话

分类： 计算和语言, 人工智能, 机器学习

作者： Trisha Das, Dina Albassam, Jimeng Sun

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06285v1

摘要： 医疗对话系统 (MDS) 增强患者与医生的沟通，提高医疗保健的可及性并降低成本。然而，获取合适的数据来训练这些系统带来了巨大的挑战。隐私问题阻碍了真实对话的使用，因此需要合成替代方案。根据公开的临床记录生成综合对话为这个问题提供了一个有希望的解决方案，在提供真实数据的同时保护隐私。我们的方法 SynDial 迭代地使用单个 LLM 与零样本提示和反馈循环来生成和完善高质量的合成对话。反馈包括相似性和提取性的加权评估分数。迭代过程确保对话满足预定义的阈值，通过反馈循环实现卓越的提取性。此外，评估表明，与基线相比，生成的对话在事实性指标方面表现出色，并且具有与 GPT4 相当的多样性分数。

MovieSum：电影剧本的抽象摘要数据集

分类： 计算和语言, 人工智能

作者： Rohit Saxena, Frank Keller

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06281v1

摘要： 电影剧本摘要具有挑战性，因为它需要理解长输入上下文和电影特有的各种元素。大型语言模型在文档摘要方面显示出显着的进步，但它们常常难以处理长输入上下文。此外，虽然电视脚本在最近的研究中受到关注，但电影剧本摘要仍然没有得到充分探索。为了促进这一领域的研究，我们提出了一个新的数据集 MovieSum，用于电影剧本的抽象总结。该数据集包含 2200 个电影剧本及其维基百科情节摘要。我们手动格式化电影剧本以表示其结构元素。与现有数据集相比，MovieSum 具有几个显着特点：（1）它包含电影剧本，比电视剧剧本长。 (2) 是之前电影剧本数据集大小的两倍。 (3) 它提供带有 IMDb ID 的元数据，以方便访问其他外部知识。我们还展示了最近发布的大型语言模型的结果，该模型应用于我们的数据集的汇总，以提供详细的基线。

锚定偏好优化和对比修正：解决对齐中的指定不足问题

分类： 机器学习, 人工智能, 计算和语言

作者： Karel D'Oosterlinck, Winnie Xu, Chris Develder, Thomas Demeester, Amanpreet Singh, Christopher Potts, Douwe Kiela, Shikib Mehri

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06266v1

摘要： 大型语言模型 (LLM) 通常使用对比对齐目标和偏好对数据集进行对齐。模型、配对数据和目标之间的相互作用使得对齐成为一个复杂的过程，有时会产生低于标准的结果。我们对此进行了研究，发现（i）当潜在响应具有对比性时，偏好数据会提供更好的学习信号；（ii）当它们在训练期间指定对模型的更多控制时，对齐目标会带来更好的性能。基于这些见解，我们引入了人工智能修订对比学习（CLAIR），这是一种数据创建方法，可以产生更具对比性的偏好对，以及锚定偏好优化（APO），这是一种可控且更稳定的对齐目标。我们使用各种可比较的数据集和对齐目标来对齐 Llama-3-8B-Instruct，并测量 MixEval-Hard 分数，这些分数与人类判断高度相关。 CLAIR 偏好导致所有数据集中最强的性能，而 APO 始终优于不太可控的目标。我们最好的模型经过 APO 的 32K CLAIR 偏好训练，将 Llama-3-8B-Instruct 提高了 7.65%，与 GPT4-turbo 的差距缩小了 45%。我们的代码可在 https://github.com/ContextualAI/CLAIR_and_APO 获取。

计算机试听的音频增强——使用样本重要性的迭代训练范式

分类： 声音, 人工智能, 音频和语音处理

作者： Manuel Milling, Shuo Liu, Andreas Triantafyllopoulos, Ilhan Aslan, Björn W. Schuller

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06264v1

摘要： 用于音频任务的神经网络模型，例如自动语音识别 (ASR) 和声学场景分类 (ASC)，在现实应用中很容易受到噪声污染。为了提高音频质量，在目标音频应用的前端明确使用了可以独立开发的增强模块。在本文中，我们提出了一种端到端学习解决方案，以联合优化音频增强（AE）模型和后续应用。为了指导 AE 模块针对目标应用的优化，特别是为了克服困难的样本，我们利用样本性能度量来指示样本重要性。在实验中，我们考虑了四种代表性应用来评估我们的训练范例，即 ASR、语音命令识别 (SCR)、语音情感识别 (SER) 和 ASC。这些应用与涉及语义和非语义特征、瞬态和全局信息的语音和非语音任务相关，实验结果表明，我们提出的方法可以显着提高模型的噪声鲁棒性，特别是在低信噪比的情况下。噪声比 (SNR)，适用于日常生活嘈杂环境中的各种计算机试听任务。

用于生成分子的开源分子处理管道

分类： 机器学习, 人工智能, 生物分子

作者： Shreyas V, Jose Siguenza, Karan Bania, Bharath Ramsundar

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06261v1

摘要： 分子生成模型在计算化学中显示出巨大的应用前景，但对于非专家来说仍然难以使用。因此，我们将开源基础设施引入到广泛使用的 DeepChem [Ramsundar et al., 2019] 库中，以便轻松构建生成分子模型，旨在创建强大且可重用的分子生成管道。特别是，我们添加了分子生成对抗网络 (MolGAN) [Cao 和 Kipf，2022] 和归一化流 [Papamakarios et al., 2021] 的高质量 PyTorch [Paszke et al., 2019] 实现。我们的实现显示出与过去的工作相当的强大性能 [Kuznetsov 和 Polykovskiy，2021，Cao 和 Kipf，2022]。

去中心化智能健康网络（DIHN）

分类： 密码学和安全, 人工智能, 计算机与社会, 分布式、并行和集群计算, 新兴技术

作者： Abraham Nash

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06240v2

摘要： 去中心化健康智能网络 (DHIN) 是一个理论框架，旨在解决因供应商和机构之间的数据碎片化而导致的健康数据主权和人工智能在医疗保健领域的利用面临的重大挑战。它建立了一个用于医疗保健服务的主权架构，作为主权健康网络的先决条件，然后通过克服访问不同医疗数据源的障碍来促进人工智能的有效利用。这个综合框架利用：1）自我主权身份架构与个人健康记录（PHR）相结合，作为健康数据主权的先决条件； 2）在公共区块链上实施的可扩展联邦学习（FL）协议，用于医疗保健领域的去中心化人工智能培训，其中健康数据保留在参与者手中，并且仅共享模型参数更新； 3）可扩展、无需信任的奖励机制，以激励参与并确保公平的奖励分配。该框架确保任何实体都无法阻止或控制对参与者提供的健康数据培训的访问或确定经济利益，因为这些流程在具有不可变记录且没有第三方的公共区块链上运行。它支持医疗保健领域的有效人工智能培训，使患者能够保持对其健康数据的控制，获得经济利益，并为一个分散的、可扩展的生态系统做出贡献，该生态系统利用集体人工智能来开发有益的医疗保健算法。患者的数字钱包中会收到奖励，作为选择加入 FL 协议的激励，并制定了为去中心化保险解决方案提供资金的长期路线图。这种方法引入了一种新颖的自筹资金的医疗保健模式，可以适应个人需求，补充现有系统，并重新定义全民覆盖。它凸显了改变医疗数据管理和人工智能利用的潜力，同时为患者提供帮助。

FLEURS-R：用于生成任务的恢复的多语言语音语料库

分类： 计算和语言, 人工智能, 声音, 音频和语音处理

作者： Min Ma, Yuma Koizumi, Shigeki Karita, Heiga Zen, Jason Riesa, Haruko Ishikawa, Michiel Bacchiani

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06227v1

摘要： 本文介绍了 FLEURS-R，它是通用语音表示学习评估 (FLEURS) 语料库的语音恢复应用版本。 FLEURS-R 与 FLEURS 一样维护了 102 种语言的 N 路并行语音语料库，通过应用语音恢复模型 Miipher 提高了音频质量和保真度。 FLEURS-R 的目标是推进更多语言的语音技术，并促进包括文本转语音 (TTS) 和其他低资源语言语音生成任务在内的研究。对恢复后的语音和新语料训练的TTS基线模型进行综合评估表明，新语料在保持语音语义内容的同时，获得了语音质量的显着提高。该语料库通过 Hugging Face 公开发布。

支持 ML 的软件系统中模型集成的大规模研究

分类： 软件工程, 人工智能, 机器学习

作者： Yorick Sens, Henriette Knopp, Sven Peldszus, Thorsten Berger

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06226v1

摘要： 机器学习 (ML) 的兴起及其在系统中的嵌入极大地改变了软件密集型系统的工程。传统上，软件工程侧重于手动创建的工件，例如源代码和创建它们的过程，以及集成它们的最佳实践，即软件架构。相比之下，ML 工件（即 ML 模型）的开发来自数据科学，重点关注 ML 模型及其训练数据。然而，为了向最终用户提供价值，这些机器学习模型必须嵌入传统软件中，通常形成复杂的拓扑。事实上，支持 ML 的软件可以轻松整合许多不同的 ML 模型。虽然构建机器学习系统的挑战和实践已经在一定程度上得到了研究，但除了孤立的例子之外，人们对现实世界中机器学习系统的特征知之甚少。将机器学习模型正确嵌入到系统中以便轻松维护或重用它们绝非易事。我们需要提高对此类系统的实证理解，为此我们提出了第一个针对真正支持机器学习的软件系统的大规模研究，涵盖了 GitHub 上超过 2,928 个开源系统。我们对它们进行了分类和分析，以确定它们的特征、重用机器学习模型和相关代码的实践以及这些系统的架构。我们的研究结果为从业者和研究人员提供了嵌入和集成机器学习模型的实践见解，使数据科学和软件工程更加紧密地结合在一起。

关于引导潜在表示对大型语言模型遗忘的影响

分类： 计算和语言, 人工智能

作者： Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06223v1

摘要： 忘却表示误导（RMU）将中间层的模型表示引导至目标随机表示，是大型语言模型（LLM）忘却的有效方法。尽管其性能很高，但其根本原因和解释仍未得到充分探索。在本文中，我们首先从理论上证明，中间层中的转向遗忘表示会降低令牌置信度，导致 LLM 生成错误或无意义的响应。其次，我们研究系数如何影响遗忘样本表示与随机方向的对齐，并提示跨不同网络层有效遗忘的最佳系数值。第三，我们证明 RMU 未学习模型对于对抗性越狱攻击具有鲁棒性。最后，我们的实证分析表明，RMU应用于大语言模型的中后期时效果较差。为了解决这个缺点，我们提出了自适应 RMU——一种简单而有效的替代方法，可以使大多数层的遗忘变得有效。大量实验表明，与现有技术相比，自适应 RMU 显着提高了遗忘性能，同时不会产生额外的计算成本。

具有大小受限状态抽象的策略游戏

分类： 人工智能

作者： Linjie Xu, Diego Perez-Liebana, Alexander Dockhorn

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06202v1

摘要： 玩策略游戏对于人工智能（AI）来说是一个具有挑战性的问题。主要挑战之一是由于游戏组件多种多样而导致的巨大搜索空间。在最近的工作中，状态抽象已应用于基于搜索的游戏人工智能，并带来了显着的性能提升。状态抽象技术依赖于减少搜索空间，例如通过聚合相似的状态。然而，由于抽象的质量难以评估，这些抽象的应用受到阻碍。因此，以前的工作放弃了搜索中间的抽象，以免搜索偏向局部最优。该机制引入了一个超参数来决定放弃当前状态抽象的时间。在这项工作中，我们提出了一种大小受限状态抽象（SCSA），这是一种限制分组在一起的最大节点数量的方法。我们发现使用SCSA，不需要放弃抽象。我们对 3 美元策略游戏的实证结果表明，SCSA 代理优于之前的方法，并且在不同的游戏中产生了稳健的性能。代码在 \url{https://github.com/GAIGResearch/Stratega} 处开源。

预测模型计数的动态阻塞子句消除

分类： 人工智能

作者： Jean-Marie Lagniez, Pierre Marquis, Armin Biere

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06199v1

摘要： 在本文中，我们探讨了阻塞子句消除在预测模型计数中的应用。这就是确定模型数量||\存在X.{\Sigma}||的问题存在性地消除给定变量集 X 后的命题公式 {\Sigma}。尽管阻塞子句消除是 SAT 求解的一种众所周知的技术，但将其直接应用于模型计数具有挑战性，因为它通常会改变模型的数量。然而，我们证明，通过在阻塞子句搜索期间关注投影变量，可以在保留正确的模型计数的同时利用阻塞子句消除。为了在模型计数期间有效地利用阻塞子句消除，引入了一种新颖的数据结构和相关算法。我们提出的方法在模型计数器 d4 中实现。我们的实验证明了我们用于预测模型计数的阻塞子句消除新方法的计算优势。

加速：使用高时间分辨率图像重建和时间外推的顺序扫描 DECT 成像

分类： 医学物理, 人工智能, 计算机视觉和模式识别, 仪器仪表和探测器

作者： Qiaoxin Li, Dong Liang, Yinsheng Li

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06163v1

摘要： 双能计算机断层扫描（DECT）已广泛用于获取成像对象的定量元素成分，以进行个性化和精确的医疗诊断。与现有利用先进X射线源和/或探测器技术的高端DECT相比，使用顺序扫描数据采集方案来实施DECT可能会对临床实践产生更广泛的影响，因为该方案不需要专门的硬件设计。然而，由于被成像对象中碘造影剂的浓度随时间变化，因此在两个管电位处采集的顺序扫描数据集在时间上不一致。由于 DECT 的现有材料分解方法假设在两个管电势下获取的数据集在时间上是一致的，违反此假设会导致碘浓度的量化精度不准确。在这项工作中，我们开发了一种使用高时间分辨率图像重建和时间外推（简称加速）实现顺序扫描 DECT 成像的技术，以解决顺序扫描数据集时间不一致引起的技术挑战，并提高碘定量的准确性。顺序扫描 DECT。 ACCELERATION 已使用临床人体受试者检查生成的数值模拟数据集进行了验证和评估。结果表明，使用加速可提高碘定量的准确性。

Palantir：迈向超高清直播的高效超分辨率

分类： 多媒体, 人工智能, 计算机视觉和模式识别, 网络和互联网架构

作者： Xinqi Jin, Zhui Zhu, Xikai Sun, Fan Dang, Jiangchuan Liu, Jingao Xu, Kebin Liu, Xinlei Chen, Yunhao Liu

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06152v1

摘要： 通过超分辨率深度神经网络进行的神经增强为现有编码和网络基础设施上的超高清直播提供了新的可能性。然而，繁重的 SR DNN 推理开销导致了严峻的部署挑战。为了减少开销，现有系统建议仅在选定的锚帧上应用基于 DNN 的 SR，同时通过基于轻量级重用的 SR 方法放大非锚帧。然而，帧级调度是粗粒度的，无法提供最佳效率。在这项工作中，我们提出了 Palantir，这是第一个具有细粒度补丁级调度的神经增强型超高清直播系统。在所提出的解决方案中，结合了两种新颖的技术来做出良好的调度决策以优化推理开销并减少调度延迟。首先，在我们的开创性和理论分析的指导下，Palantir 构建了一个有向无环图（DAG），用于在任何可能的锚点补丁集下进行轻量级且准确的质量估计。其次，为了进一步优化调度延迟，Palantir通过将估计过程的计算子过程重构为稀疏矩阵-矩阵乘法运算来提高并行性。评估结果表明，Palantir 的调度延迟可以忽略不计，仅占端到端延迟要求的 5.7% 以下。与最先进的实时帧级调度策略相比，Palantir 最多可将 SR 集成移动客户端的能源开销降低 38.1%（平均降低 22.4%），并降低云的货币成本。基于 SR 最多 80.1%（平均 38.4%）。

Med42-v2：一套临床大语言模型

分类： 计算和语言, 人工智能

作者： Clément Christophe, Praveen K Kanithi, Tathagata Raha, Shadab Khan, Marco AF Pimentel

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06142v1

摘要： Med42-v2 引入了一套临床大语言模型 (LLM)，旨在解决医疗保健环境中通用模型的局限性。这些模型基于 Llama3 架构构建，并使用专门的临床数据进行微调。他们经历了多阶段的偏好调整，以有效地响应自然提示。虽然通用模型通常是偏好一致的，以避免回答临床查询作为预防措施，但 Med42-v2 经过专门训练来克服这一限制，使其能够在临床环境中使用。与原始 Llama3 模型相比，Med42-v2 模型在 8B 和 70B 参数配置以及 GPT-4 的各种医学基准测试中表现出卓越的性能。这些大语言模型旨在理解临床查询、执行推理任务并在临床环境中提供有价值的帮助。这些模型现已在 \href{https://huggingface.co/m42-health}{https://huggingface.co/m42-health} 上公开提供。

动态知识图异常检测的方法报告

分类： 机器学习, 人工智能

作者： Xiaohua Lu, Leshanshui Yang

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06121v1

摘要： 在本文中，我们探索了动态知识图异常检测的不同方法，特别是在 Kubernetes 应用程序的微服务环境中。我们的方法探索了三种动态知识图表示：顺序数据、一跳图结构和两跳图结构，每种表示都包含越来越复杂的结构信息。每个阶段都包含不同的机器学习和深度学习模型。我们根据经验分析了它们的性能，并提出了一种基于这些模型的集成学习的方法。我们的方法显着优于 ISWC 2024 动态知识图异常检测数据集的基线，为动态复杂数据中的异常检测提供了强大的解决方案。

MeshGraphNets 对流体动力学中看不见的几何形状的泛化能力

分类： 机器学习, 人工智能, 数值分析, 数值分析, 流体动力学

作者： Robin Schmöcker, Alexander Henkes, Julian Roth, Thomas Wick

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06101v1

摘要： 这项工作研究了 MeshGraphNets (MGN) 的泛化能力 [Pfaff 等人。使用图网络学习基于网格的模拟。 ICML 2021] 到流体动力学中看不见的几何形状，例如预测不属于训练数据的新障碍物周围的流动。为此，我们为数据驱动的计算流体动力学 (CFD) 创建了一个新的基准数据集，该数据集通过包含不同的形状和多个对象来扩展 DeepMind 围绕圆柱体数据集的流程。然后，我们使用这个新数据集来扩展 DeepMind 在 MGN 上进行的泛化实验，测试 MGN 泛化到不同形状的能力。在我们的数值测试中，我们表明，通过对一种障碍物形状的数据集进行训练并在另一种障碍物形状的数据集上进行测试，MGN 有时可以很好地推广到各种形状。

通过语言模型体系构建决策模型

分类： 计算和语言, 人工智能, 机器学习

作者： Yu Zhang, Haoxiang Liu, Feijun Jiang, Weihua Luo, Kaifu Zhang

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06087v1

摘要： 我们提出了一种利用大型语言模型（LLM）的泛化能力来解决决策问题的新方法。专家系统、规划算法和强化学习等传统方法通常表现出有限的泛化能力，通常需要为每个独特的任务训练新模型。相比之下，大语言模型在泛化各种语言任务方面表现出了显着的成功，激发了训练决策模型的新策略。我们的方法称为“学习然后使用”(LTU)，需要两个阶段的过程。最初，\textit{学习}阶段通过集成来自不同领域和决策环境的不同知识来开发一个强大的基础决策模型。随后的 \textit{using} 阶段针对特定决策场景完善了该基础模型。与其他利用大语言模型通过监督学习进行决策的研究不同，我们的 LTU 方法采用了一种多功能的培训方法，将广泛的预培训与有针对性的微调相结合。广告和搜索优化等电子商务领域的实验表明，LTU 方法在决策能力和泛化能力方面优于传统的监督学习机制。 LTU 方法是第一个与 LLM 相结合的单步和多步决策任务实用训练架构，可以应用于游戏和机器人领域之外。它为决策提供了强大且适应性强的框架，增强了各种系统应对各种挑战的有效性和灵活性。

通过随机微分方程的完全贝叶斯微分高斯过程

分类： 机器学习, 人工智能

作者： Jian Xu, Zhiqi Lin, Min Chen, Junmei Yang, Delu Zeng, John Paisley

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06069v1

摘要： 传统的深度高斯过程使用离散层次结构对数据演化进行建模，而微分高斯过程 (DIFFGP) 将演化表示为无限深的高斯过程。然而，现有的 DIFFGP 方法经常忽视核超参数的不确定性，并假设它们是固定的且时不变的，未能利用连续时间模型和近似推理之间的独特协同作用。在这项工作中，我们提出了一种完全贝叶斯方法，将内核超参数视为随机变量，并构造耦合随机微分方程（SDE）来学习它们的后验分布和诱导点的后验分布。通过结合超参数的估计不确定性，我们的方法增强了模型的灵活性和对复杂动态的适应性。此外，我们的方法通过使用 SDE 方法耦合变量提供了时变、全面且现实的后验近似。实验结果证明了我们的方法相对于传统方法的优势，展示了其在灵活性、准确性和其他指标方面的优越性能。我们的工作为推进贝叶斯推理开辟了令人兴奋的研究途径，并为连续时间高斯过程提供了强大的建模工具。

使用进化优化在线优化课程学习安排

分类： 人工智能, 神经和进化计算

作者： Mohit Jiwatode, Leon Schlecht, Alexander Dockhorn

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06068v1

摘要： 我们提出了 RHEA CL，它将课程学习（CL）与滚动地平线进化算法（RHEA）相结合，在强化学习代理的训练过程中自动生成有效的课程。 RHEA CL 使用进化算法优化课程群，并选择表现最好的课程作为下一个训练周期的起点。在所有环境中的每个课程步骤之后都会进行绩效评估。我们在 Minigrid 框架内的 \textit{DoorKey} 和 \textit{DynamicObstacles} 环境上评估该算法。它表现出适应性和持续改进，特别是在早期阶段，同时在后期达到稳定的表现，能够超越其他课程学习者。与其他课程安排相比，RHEA CL 已被证明可以提高最终强化学习 (RL) 代理的性能，但需要在训练期间进行额外评估。

可解释的音频仇恨言论检测的调查

分类： 计算和语言, 人工智能, 声音, 音频和语音处理

作者： Jinmyeong An, Wonjun Lee, Yejin Jeon, Jungseul Ok, Yunsu Kim, Gary Geunbae Lee

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06065v1

摘要： 对仇恨言论的研究主要围绕文本输入的检测和解释，而口头内容基本上未被探索。虽然对言语声学语音输入中的仇恨语音检测的探索有限，但可解释性方面却被忽视了。因此，我们引入了可解释的音频仇恨语音检测的新任务。具体来说，我们的目标是确定精确的时间间隔，称为音频帧级原理，作为仇恨言论分类的证据。为此，我们提出了两种不同的方法：级联和端到端（E2E）。级联方法首先将音频转换为文字记录，识别这些文字记录中的仇恨言论，然后定位相应的音频时间帧。相反，端到端方法直接处理音频话语，这使得它能够在特定时间范围内查明仇恨言论。此外，由于缺乏包含音频帧级原理的可解释的音频仇恨语音数据集，我们策划了一个合成音频数据集来训练我们的模型。我们进一步在实际的人类语音话语上验证了这些模型，发现端到端方法在音频帧交集（IoU）指标方面优于级联方法。此外，我们观察到，包含帧级原理可以显着提高端到端方法的仇恨语音检测准确性。 \textbf{免责声明} 读者可能会遇到具有攻击性或仇恨性质的内容。但鉴于工作性质，这是无法避免的。

衡量游戏中决策风格和政策多样性的感知相似性

分类： 人工智能, 信息检索, 机器学习

作者： Chiu-Chou Lin, Wei-Chen Chiu, I-Chen Wu

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06051v1

摘要： 定义和衡量决策风格（也称为游戏风格）在游戏中至关重要，这些风格反映了广泛的个性和多样性。然而，为这些风格找到普遍适用的衡量标准是一个挑战。基于游戏风格距离（第一个基于游戏屏幕和原始动作来测量游戏风格相似性的无监督指标），我们引入了三个增强功能来提高准确性：具有不同状态粒度的多尺度分析、植根于心理学的感知内核以及交叉点的利用高效评估的过度联合方法。这些创新不仅提高了测量精度，还为人类对相似性的认知提供了见解。在两款赛车游戏和七款 Atari 游戏中，我们的技术显着提高了零镜头游戏风格分类的精度，用少于 512 个观察-动作对（不到这些游戏的半集）实现了超过 90% 的准确率。此外，我们对 2048 和围棋的实验证明了离散游戏风格测量在益智游戏和棋盘游戏中的潜力。我们还开发了一种使用这些措施评估决策多样性的算法。我们的研究结果改进了端到端游戏分析的测量以及针对不同游戏风格的人工智能的演变。

了解使用黑盒服务器的联邦学习中的拜占庭鲁棒性

分类： 密码学和安全, 人工智能

作者： Fangyuan Zhao, Yuexiang Xie, Xuebin Ren, Bolin Ding, Shusen Yang, Yaliang Li

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06042v1

摘要： 联邦学习（FL）很容易受到拜占庭攻击，其中一些参与者倾向于通过发送恶意模型更新来破坏实用程序或阻止学习模型的收敛。先前的工作提出应用鲁棒规则来聚合参与者针对不同类型拜占庭攻击的更新，同时攻击者可以在已知的情况下进一步设计针对特定聚合规则的高级拜占庭攻击算法。在实践中，FL系统可以涉及一个黑盒服务器，使参与者无法访问所采用的聚合规则，这自然可以防御或削弱一些拜占庭攻击。在本文中，我们深入了解了带有黑盒服务器的 FL 系统的拜占庭鲁棒性。我们的调查表明，采用动态防御策略的黑盒服务器的拜占庭稳健性得到了提高。我们提供了经验证据和理论分析来揭示黑盒服务器可以将最坏情况的攻击影响从最大水平减轻到预期水平，这归因于黑盒服务器所提供的固有的不可访问性和随机性。源代码可在 https://github.com/alibaba/FederatedScope/tree/Byzantine_attack_defense 获取，以促进社区进一步研究。

时空 $E(n)$-Transformer：时空图的等变注意力

分类： 机器学习, 人工智能

作者： Sergio G. Charles

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06039v1

摘要： 我们为时空图数据引入了 $E(n)$ 等变 Transformer 架构。通过在空间和时间上施加旋转、平移和排列等方差归纳偏差，我们表明时空 $E(n)$-Transformer (SET) 优于不具有对称性保持属性的纯空间和时间模型。我们将 SET 与带电 $N$ 体问题的模型进行基准测试，这是一个具有复杂动力学的简单物理系统。虽然现有的时空图神经网络专注于顺序建模，但我们凭经验证明，利用基础域对称性可以为图上的动态系统建模带来相当大的改进。

深入黑匣子：预测间隔可深入了解数据驱动的四旋翼飞行器模型的可靠性

分类： 系统与控制, 人工智能, 系统与控制

作者： Jasper van Beers, Coen de Visser

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06036v1

摘要： 确保数据驱动的四旋翼模型预测的可靠性和有效性对于其被接受和实际使用至关重要。对于灰盒和黑盒模型来说尤其如此，其中输入到预测的映射不透明，并且随后的可靠性非常难以确定。尽管如此，此类技术经常成功地用于识别四旋翼飞行器模型。预测区间 (PI) 可用于深入了解模型预测的一致性和准确性。本文估计了多项式和人工神经网络 (ANN) 四旋翼空气动力学模型的此类 PI。使用现有的高保真四旋翼飞行器仿真，对四旋翼飞行器空气动力学模型的两种现有 ANN PI 估计技术（引导方法和质量驱动方法）进行了数值验证。然后根据真实四旋翼飞行数据识别四旋翼飞行器空气动力学模型，以证明其实用性并探索其对模型插值和外推的敏感性。研究发现，基于 ANN 的 PI 在外推时会显着变宽，在内插时会保持恒定或收缩。虽然多项式 PI 也会发生这种行为，但其幅度较低。估计的 PI 建立了四旋翼模型输出可能位于其中的概率范围，受到通过 PI 宽度反映的建模和测量不确定性的影响。

通过信息内容曲线匹配控制音乐生成中的意外

分类： 声音, 人工智能, 计算和语言, 音频和语音处理

作者： Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06022v1

摘要： 近年来，音乐生成系统的质量和公众兴趣不断增长，鼓励人们研究控制这些系统的各种方法。我们提出了一种使用序列模型控制音乐生成中的惊喜的新方法。为了实现这一目标，我们定义了一个称为瞬时信息内容（IIC）的指标。 IIC 充当感知音乐惊喜（根据概率模型估计）的代理函数，并且可以在音乐作品中的任何点进行计算。即使音乐事件以不规则的时间间隔发生，这也能够比较不同音乐内容的惊喜程度。我们使用波束搜索来生成其 IIC 曲线非常接近给定目标 IIC 的音乐材料。我们通过实验证明，IIC 与和声、节奏复杂性以及音符密度相关。相关性随着用于估计 IIC 的音乐背景的长度而降低。最后，我们进行了一项定性用户研究，以测试人类听众是否可以识别在生成相应音乐素材时用作目标的 IIC 曲线。我们在 https://github.com/muthissar/iic 上提供了用于创建 IIC 插值和 IIC 可视化的代码。

使用隐式神经表示的不确定性体可视化

分类： 图形, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Shanu Saklani, Chitwan Goel, Shrey Bansal, Zhe Wang, Soumya Dutta, Tushar M. Athawale, David Pugmire, Christopher R. Johnson

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06018v1

摘要： 深度神经网络 (DNN) 的日益普及导致其在许多具有挑战性的科学可视化任务中得到应用。虽然先进的 DNN 提供了令人印象深刻的泛化能力，但理解模型预测质量、鲁棒性和不确定性等因素也至关重要。这些见解可以使领域科学家能够对其数据做出明智的决策。然而，DNN 本质上缺乏估计预测不确定性的能力，因此需要进行新的研究来构建针对各种可视化任务的鲁棒的不确定性感知可视化技术。在这项工作中，我们提出了不确定性感知隐式神经表示来有效地建模标量场数据集，并全面研究估计的不确定性信息对于体积可视化任务的功效和好处。我们评估了两种原则性深度不确定性估计技术的有效性：（1）深度集成和（2）蒙特卡洛辍学（MCDropout）。这些技术可以在标量场数据集中实现不确定性体积可视化。我们对多个数据集的广泛探索表明，不确定性感知模型可以产生信息丰富的体积可视化结果。此外，整合预测不确定性增强了 DNN 模型的可信度，使其适合稳健地分析和可视化现实世界的科学体积数据集。

基于状态的潜在博弈的迁移学习，用于分散制造系统中的流程优化

分类： 机器学习, 人工智能, 计算机科学与博弈论

作者： Steve Yuwono, Dorothea Schwung, Andreas Schwung

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05992v1

摘要： 本文提出了一种基于状态的潜在博弈（TL-SbPG）的新型迁移学习方法，用于增强制造系统中的分布式自优化。该方法侧重于实际相关的工业环境，其中行为相似的参与者之间共享和转移所获得的知识改善了大型系统中的自学习机制。通过 TL-SbPG，其他参与者可以重用所获得的知识来优化其策略，从而提高参与者的学习成果并加速学习过程。为了实现这一目标，我们为玩家开发了迁移学习概念和相似性标准，它提供了两种不同的设置：（a）玩家之间预定义的相似性和（b）训练期间动态推断的玩家之间的相似性。我们正式证明了 SbPG 框架在迁移学习中的适用性。此外，我们引入了一种有效的方法来确定训练阶段转移学习过程的最佳时机和权重。通过实验室规模测试台上的实验，我们证明 TL-SbPG 显着提高了生产效率，同时降低了生产计划的功耗，同时性能也优于原生 SbPG。

探索和学习结构：导航代理中的主动推理方法

分类： 人工智能, 神经和进化计算, 机器人技术

作者： Daria de Tinguy, Tim Verbelen, Bart Dhoedt

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05982v1

摘要： 从动物导航策略中汲取灵感，我们引入了一种新颖的导航和绘图计算模型，该模型植根于生物学原理。动物通过有效地利用记忆、想象力和战略决策来导航复杂和别名的环境，从而表现出卓越的导航能力。基于这些见解，我们将传统的认知映射方法与主动推理框架 (AIF) 相结合，只需几个步骤即可学习环境结构。通过结合用于长期记忆的拓扑映射和用于导航规划和结构学习的 AIF，我们的模型可以动态地理解环境结构，并在探索过程中用预测信念扩展其内部地图。与克隆结构图（CSCG）模型的比较实验突显了我们的模型能够在单个事件中快速学习环境结构，并且导航重叠最小。这是在事先不了解环境维度或观测类型的情况下实现的，展示了其在模糊环境中导航的稳健性和有效性。

从机械部件生成手绘草图

分类： 计算机视觉和模式识别, 人工智能, 图形, 多媒体

作者： Zhichao Liao, Di Huang, Heming Fang, Yue Ma, Fengyuan Piao, Xinghui Li, Long Zeng, Pingfa Feng

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05966v1

摘要： 在多媒体设备上徒手绘制机械部件草图以进行基于人工智能的工程建模已成为一种新趋势。然而，由于现有的工作无法为数据驱动的研究提供合适的草图，因此其发展受到阻碍。这些作品要么生成缺乏徒手风格的草图，要么利用最初不是为该任务设计的生成模型，导致效率低下。为了解决这个问题，我们设计了一个模仿人类草图行为模式的两阶段生成框架，称为MSFormer，这是第一次为机械部件生成人形手绘草图。第一阶段采用 Open CASCADE 技术从机械部件获取多视图轮廓草图，过滤后续生成过程中的扰动信号。同时，我们设计了一个视图选择器来模拟人体素描过程中的视点选择任务，以挑选出信息丰富的草图。第二阶段通过基于变压器的生成器将轮廓草图转换为手绘草图。为了尽可能保留基本的建模特征并合理化笔画分布，我们引入了一种新颖的边缘约束笔画初始化。此外，我们利用 CLIP 视觉编码器和结合 Hausdorff 距离的新损失函数来增强模型的通用性和鲁棒性。大量的实验表明，我们的方法在机械领域生成手绘草图方面实现了最先进的性能。项目页面：https://mcfreeskegen.github.io。

赛点人工智能：用于评估数据驱动的网球策略的新型人工智能框架

分类： 人工智能

作者： Carlo Nübel, Alexander Dockhorn, Sanaz Mostaghim

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05960v1

摘要： 游戏人工智能领域的许多作品都集中在棋盘游戏或视频游戏上，因为它们很容易重新实现其机制。现实体育运动中的决策问题与这些领域有许多相似之处。然而，体育游戏的框架并不多。在本文中，我们提出了网球比赛模拟环境 \textit{Match Point AI}，其中不同的代理可以与现实世界的数据驱动的机器人策略竞争。接下来介绍该框架，我们通过说明如何在赛点人工智能中使用 MCTS 来优化网球中的击球方向选择问题，从而强调其功能。虽然该框架将来会得到扩展，但首批实验已经表明，与真实世界数据相比，生成的模拟网球比赛的逐杆数据显示出真实的特征。与此同时，合理的击球布局策略也出现了，这些策略与现实世界网球比赛中的策略有相似之处。

高级马尔可夫——学习初级马尔可夫语法以生成用户指定的内容

分类： 人工智能

作者： Mehmet Kayra Oğuz, Alexander Dockhorn

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05959v1

摘要： Markov Junior 是一种概率编程语言，用于跨各个领域生成程序内容。然而，它对手动制作和调整的概率规则集（也称为语法）的依赖提出了一个重大瓶颈，与允许从示例中学习规则的方法不同。在本文中，我们通过引入基于遗传编程的优化框架来自动学习分层规则集，提出了解决这一挑战的新颖解决方案。我们提出的方法“Markov Senior”专注于从单个输入样本中提取位置和距离关系，以构建供 Markov Junior 使用的概率规则。使用基于 Kullback-Leibler 散度的适应度测量，我们搜索语法来生成与给定样本一致的内容。为了增强可扩展性，我们引入了分而治之的策略，可以高效生成大规模内容。我们通过生成基于图像的内容和超级马里奥关卡的实验验证了我们的方法，证明了其灵活性和有效性。通过这种方式，“高级马尔可夫”允许更广泛地应用初级马尔可夫来完成可能有示例但生成规则集的设计不可行的任务。

来自精益尖峰序列集成代码的连续时间信号的鲁棒在线重建

分类： 神经和进化计算, 人工智能, 声音, 音频和语音处理

作者： Anik Chattopadhyay, Arunava Banerjee

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05950v1

摘要： 动物的感觉刺激被神经元编码成尖峰序列，具有稀疏性、能量效率和高时间分辨率等优点。本文提出了一种信号处理框架，可将连续时间信号确定性地编码为生物学上可行的尖峰序列，并解决了有关可表示信号类别和重建边界的问题。该框架考虑通过神经元集合使用具有各种卷积核的先卷积后阈值机制生成的尖峰序列对信号进行编码。在移位核函数的希尔伯特空间中导出了从尖峰序列到信号重建的逆问题的封闭式解决方案，确保了广义有限创新率 (FRI) 类信号的稀疏表示。此外，受生物系统实时处理的启发，制定了最佳重建的高效迭代版本，仅考虑过去尖峰的有限窗口，确保该技术对病态编码的鲁棒性；然后提供窗口重建到最优解的收敛保证。对大型音频数据集的实验表明，在低至奈奎斯特速率五分之一的尖峰速率下，具有出色的重建精度，同时与低尖峰速率状态下最先进的稀疏编码技术相比，显示出明显的竞争优势。

用于网络钓鱼网页检测和识别的多模态大语言模型

分类： 密码学和安全, 人工智能

作者： Jehyun Lee, Peiyuan Lim, Bryan Hooi, Dinil Mon Divakaran

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05941v1

摘要： 为了解决检测网络钓鱼网页的挑战性问题，研究人员开发了多种解决方案，特别是基于机器学习 (ML) 算法的解决方案。其中，基于品牌的网络钓鱼检测利用计算机视觉模型来检测给定网页是否模仿知名品牌已受到广泛关注。然而，此类模型成本高昂且难以维护，因为它们需要使用必须定期持续收集的标记数据集进行重新训练。此外，他们还需要维护良好的知名网站参考列表和相关元数据，以实现有效的性能。在这项工作中，我们采取措施研究大型语言模型（LLM），特别是多模式 LLM 在检测网络钓鱼网页方面的功效。鉴于大语言模型是在大量数据上进行预训练的，我们的目标是利用他们对网页不同方面（徽标、主题、图标等）的理解来识别给定网页的品牌并比较所识别的品牌在 URL 中添加域名来检测网络钓鱼攻击。我们提出了一个在两个阶段都采用大语言模型的两阶段系统：第一阶段侧重于品牌识别，而第二阶段则验证域名。我们对新收集的数据集进行综合评估。我们的实验表明，基于LLM的系统在高精度下实现了高检测率；重要的是，它还为决策提供了可解释的证据。我们的系统的性能也明显优于最先进的基于品牌的网络钓鱼检测系统，同时展示了针对两种已知对抗性攻击的稳健性。

Spb3DTracker：适用于嘈杂环境的强大的基于 LiDAR 的人体跟踪器

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Eunsoo Im, Changhyun Jee, Jung Kwon Lee

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05940v2

摘要： 在自动驾驶汽车领域，基于 2D 摄像头的系统在人员检测和跟踪 (PDT) 方面取得了显着进步，导致这些算法得到广泛采用。然而，日益增长的隐私问题最近已成为一个主要问题，促使人们转向基于激光雷达的 PDT 作为可行的替代方案。在这个领域中，“检测跟踪”（TBD）已成为一种重要的方法。尽管有效，基于激光雷达的 PDT 尚未达到与基于摄像头的 PDT 相同的性能水平。本文研究了基于 LiDAR 的 PDT 框架的关键组件，包括检测后处理、数据关联、运动建模和生命周期管理。基于这些见解，我们推出了 SpbTrack，这是一款专为不同环境而设计的强大人员跟踪器。我们的方法在噪声数据集上实现了卓越的性能，并在基于 LiDAR 的跟踪器中的 KITTI 数据集基准和自定义办公室室内数据集上实现了最先进的结果。

优化汽车行业 PDF 聊天机器人的 RAG 技术：本地部署 Ollama 模型的案例研究

分类： 信息检索, 人工智能, 多代理系统

作者： Fei Liu, Zejun Kang, Xing Han

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05933v1

摘要： 随着汽车工业生产环境中对离线 PDF 聊天机器人的需求不断增长，在本地低性能设置中优化大型语言模型 (LLM) 的部署变得越来越重要。本研究的重点是增强检索增强生成 (RAG) 技术，使用本地部署的 Ollama 模型处理复杂的汽车行业文档。基于Langchain框架，我们提出了Ollama本地RAG实现的多维优化方法。我们的方法解决了汽车文档处理中的关键挑战，包括多列布局和技术规范。我们针对汽车行业文档的独特特征引入了 PDF 处理、检索机制和上下文压缩方面的改进。此外，我们还根据 LangGraph 最佳实践设计了支持嵌入管道的自定义类和支持 self-RAG 的代理。为了评估我们的方法，我们构建了一个专有数据集，其中包含典型的汽车行业文档，包括技术报告和公司法规。我们将优化的 RAG 模型和自 RAG 代理与三个数据集的原始 RAG 基线进行了比较：我们的汽车行业数据集、QReCC 和 CoQA。结果表明，上下文精确度、上下文回忆、答案相关性和可信度都有显着提高，在汽车行业数据集上的表现尤其显着。我们的优化方案为在汽车行业部署本地 RAG 系统提供了有效的解决方案，满足工业生产环境中 PDF 聊天机器人的特定需求。该研究对于推进汽车行业的信息处理和智能生产具有重要意义。

BI-MDRG：在多模式对话响应生成中桥接图像历史

分类： 人工智能, 机器学习, 多媒体

作者： Hee Suk Yoon, Eunseop Yoon, Joshua Tian Jin Tee, Kang Zhang, Yu-Jung Heo, Du-Seong Chang, Chang D. Yoo

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05926v1

摘要： 多模态对话响应生成（MDRG）是最近提出的一项任务，其中模型需要根据对话上下文生成文本、图像或两者混合的响应。由于缺乏专门用于此任务的大规模数据集以及利用强大的预训练模型的好处，以前的工作依赖于文本模态作为模型图像输入和输出的中间步骤，而不是采用端到端的方法。然而，这种方法可能会忽略有关图像的关键信息，从而阻碍 1) 基于图像的文本响应和 2) 图像响应中对象的一致性。在本文中，我们提出了 BI-MDRG，它桥接了响应生成路径，以便利用图像历史信息来增强文本响应与图像内容的相关性以及顺序图像响应中对象的一致性。通过对多模态对话基准数据集的大量实验，我们表明BI-MDRG可以有效提高多模态对话的质量。此外，认识到评估多模式对话中图像一致性的基准数据集存在差距，我们创建了一组精选的 300 个对话，并进行了注释，以跟踪对话中的对象一致性。

适应天基任务的基础模型

分类： 机器人技术, 人工智能

作者： Matthew Foutter, Praneet Bhoj, Rohan Sinha, Amine Elhafsi, Somrita Banerjee, Christopher Agia, Justin Kruger, Tommaso Guffanti, Daniele Gammelli, Simone D'Amico, Marco Pavone

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05924v1

摘要： 基础模型（例如大型语言模型）具有智能属性，有望赋予机器人在野外完成复杂、非结构化任务所需的上下文理解能力。在太空机器人的未来中，我们看到了三个核心挑战，这些挑战促使使用适合天基应用的基础模型：1）地面在环操作的可扩展性； 2）将先验知识推广到新环境； 3）任务和传感器数据的多模态。因此，作为构建基于空间的应用程序的基础模型的第一步，我们自动标记 AI4Mars 数据集，以整理视觉问题答案元组的语言注释数据集。我们在此数据集上微调预训练的 LLaVA 检查点，赋予视觉语言模型在火星表面执行空间推理和导航的能力。在这项工作中，我们证明了 1) 现有的视觉语言模型在基于空间的应用中缺乏视觉推理机，2) 即使在训练数据集有限的情况下，根据外星数据微调视觉语言模型也可以显着提高响应质量仅几千个样本。

城市区域预训练和提示：基于图的方法

分类： 人工智能, 机器学习

作者： Jiahui Jin, Yifan Song, Dong Kan, Haojia Zhu, Xiangguo Sun, Zhicheng Li, Xigang Sun, Jinghui Zhang

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05920v1

摘要： 城市区域代表性对于各种城市下游任务至关重要。然而，尽管方法不断涌现并取得了成功，但获取一般城市地区知识并适应不同的任务仍然具有挑战性。以前的工作经常忽略实体之间的空间结构和功能布局，限制了它们捕获跨区域可转移知识的能力。此外，这些方法很难有效地适应特定的下游任务，因为它们没有充分解决不同下游任务所需的独特特征和关系。在本文中，我们提出了基于$\textbf{G}$raph的$\textbf{U}$rban $\textbf{R}$egion $\textbf{P}$重新训练和$\textbf{P}用于区域表示学习的 $rompting 框架 ($\textbf{GURPP}$)。具体来说，我们首先构建一个城市区域图，整合详细的空间实体数据，以更有效地表示城市区域。然后，我们开发了一个以子图为中心的城市地区预训练模型，以捕获实体之间交互的异构和可转移模式。为了进一步增强这些嵌入对不同任务的适应性，我们设计了两种基于图的提示方法来合并显式/隐藏的任务知识。对各种城市区域预测任务和不同城市的广泛实验证明了我们的 GURPP 框架的优越性能。该存储库提供了该实现：https://anonymous.4open.science/r/GURPP。

通过声学响应编码潜在空间的变分自编码器逆向设计非参数化通风声学谐振器

分类： 计算工程、金融和科学, 人工智能, 机器学习

作者： Min Woo Cho, Seok Hyeon Hwang, Jun-Young Jang, Jin Yeong Song, Sun-kwang Hwang, Kyoung Je Cha, Dong Yong Park, Kyungjun Song, Sang Min Park

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05917v1

摘要： 通风声谐振器（VAR）是一种声学超材料，由于其优异的低频衰减性能和灵活的形状适应性，成为需要通风的环境中声音衰减的替代方案。然而，由于VAR的非线性声学响应，VAR设计通常是在有限的参数化设计空间内获得的，并且设计依赖于数值模拟的迭代，这消耗了大量的计算时间和资源。本文提出了一种声学响应编码变分自动编码器（AR-VAE），这是一种新颖的基于变分自动编码器的生成设计模型，即使在非参数化设计的情况下也能实现高效、准确的 VAR 逆向设计。 AR-VAE将高维声学响应与降维潜在空间中的VAR截面图像进行匹配，这使得AR-VAE能够生成具有目标声学响应的各种非参数化VAR截面图像。 AR-VAE 根据目标声学响应生成非参数化 VAR，与传统的基于深度学习的参数搜索方法相比，均方误差降低了 25 倍，同时表现出较低的平均均方误差和峰值频率方差。通过结合 AR-VAE 的逆向设计 VAR，设计了用于宽带和多目标峰值频率衰减的多腔 VAR。所提出的设计方法提出了一种具有高维非线性物理响应的结构逆向设计的新方法。

通过 RAG 和自微调生成指令数据集的新管道

分类： 计算和语言, 人工智能

作者： Chih-Wei Song, Yu-Kai Lee, Yin-Te Tsai

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05911v1

摘要： 近年来，随着大型语言模型的快速发展，对能够满足企业和组织的独特需求的特定领域代理的需求不断增加。与力求广泛覆盖的通用模型不同，这些专用代理依赖于针对其预期应用量身定制的重点数据集。这项研究提出了一个管道，利用大语言模型和检索增强生成相关框架的力量来构建高质量的指令数据集，以便使用自定义文档集合对特定领域进行微调。通过摄取特定领域的文档，管道会生成相关且适合上下文的指令，从而有效地创建一个全面的数据集，用于在目标领域上微调大语言模型。这种方法克服了传统数据集创建方法的局限性，传统数据集创建方法通常依赖于手动管理或网络抓取技术，这些技术可能会引入噪声和不相关的数据。值得注意的是，我们的管道提供了一种动态解决方案，可以快速适应特定领域文档集合中的更新或修改，从而无需完全重新培训。此外，它还通过从一组有限的初始文档生成指令数据集来解决数据稀缺的挑战，使其适用于缺乏综合数据集的不受欢迎或专业领域。作为一个案例研究，我们将这种方法应用于精神病学领域，该领域需要专业知识和对患者信息的敏感处理。由此产生的经过微调的大语言模型展示了所提出方法的可行性，并强调了其在各个行业和领域广泛采用的潜力，在这些行业和领域中，定制的、准确的和上下文相关的语言模型是必不可少的。

具有时空提示的弱监督视频异常检测和定位

分类： 计算机视觉和模式识别, 人工智能

作者： Peng Wu, Xuerong Zhou, Guansong Pang, Zhiwei Yang, Qingsen Yan, Peng Wang, Yanning Zhang

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05905v2

摘要： 当前的弱监督视频异常检测（WSVAD）任务旨在仅使用粗略的视频级注释来实现帧级异常事件检测。现有的工作通常涉及从全分辨率视频帧中提取全局特征并训练帧级分类器以检测时间维度的异常。然而，大多数异常事件往往发生在局部空间区域而不是整个视频帧中，这意味着现有的基于帧级特征的工作可能会被主要背景信息误导，并且缺乏对检测到的异常的解释。为了解决这一困境，本文引入了一种名为 STPrompt 的新方法，该方法基于预训练的视觉语言模型（VLM）学习时空提示嵌入，用于弱监督视频异常检测和定位（WSVADL）。我们提出的方法采用双流网络结构，一个流专注于时间维度，另一个流主要关注空间维度。通过利用预先训练的 VLM 中学到的知识并结合原始视频中的自然运动先验，我们的模型学习与视频时空区域（例如单个帧的补丁）对齐的提示嵌入，以识别异常的特定局部区域，实现准确的视频异常检测，同时减轻背景信息的影响。在不依赖详细的时空注释或辅助对象检测/跟踪的情况下，我们的方法在 WSVADL 任务的三个公共基准上实现了最先进的性能。

用于模型可解释性的量子梯度类激活图

分类： 量子物理学, 人工智能, 机器学习

作者： Hsin-Yi Lin, Huan-Hsin Tseng, Samuel Yen-Chi Chen, Shinjae Yoo

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05899v1

摘要： 量子机器学习（QML）最近在各个主题上取得了重大进展。尽管取得了成功，但 QML 应用程序的安全性和可解释性尚未得到彻底研究。这项工作建议使用变分量子电路（VQC）进行激活映射以增强模型透明度，并引入量子梯度类激活图（QGrad-CAM）。这种混合量子经典计算框架利用了量子和经典的优势，并可以推导特征图重要性的显式公式。实验结果证明了跨图像和语音数据集生成的显着的、细粒度的、有类别区分性的视觉解释。

息肉 SAM 2：推进结直肠癌检测中的零次息肉分割

分类： 图像和视频处理, 计算机视觉和模式识别, 机器学习

作者： Mobina Mansoori, Sajjad Shahabodini, Jamshid Abouei, Konstantinos N. Plataniotis, Arash Mohammadi

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05892v1

摘要： 息肉分割在结直肠癌的早期检测和诊断中起着至关重要的作用。然而，获得准确的分割通常需要劳动密集型注释和专门的模型。最近，Meta AI Research 发布了通用的 Segment Anything Model 2 (SAM 2)，该模型在多个分割任务中表现出了良好的性能。在这项工作中，我们评估了 SAM 2 在各种提示设置下分割息肉的性能。我们希望这份报告能够为推动息肉分割领域的发展提供见解，并促进未来更多有趣的工作。该项目可在 https://github.com/sajjad-sh33/Polyp-SAM-2 上公开获取。

网络安全和人工智能的综合方法

分类： 密码学和安全, 人工智能

作者： Marwan Omar

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05888v1

摘要： 近年来，在现代技术生态系统日益复杂和相互依赖的推动下，网络安全、人工智能 (AI) 和数据管理的融合已成为一个关键的研究领域。本文对利用人工智能技术增强网络安全框架和优化数据管理实践的综合方法进行了全面的回顾和分析。通过探索这些领域之间的协同作用，我们确定了关键趋势、挑战和未来方向，这些趋势、挑战和未来方向有可能彻底改变组织保护、分析和利用数据的方式。我们的研究结果强调了跨学科策略的必要性，这些策略结合了人工智能驱动的自动化、实时威胁检测和高级数据分析，以构建更具弹性和适应性的安全架构。

基于大语言模型的商业和合规性稳健产品分类

分类： 计算和语言, 人工智能, 机器学习

作者： Sina Gholamian, Gianfranco Romani, Bartosz Rudnikowicz, Laura Skylaki

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05874v1

摘要： 产品分类是国际贸易中的一项重要任务，因为要验证合规性规定并根据产品类别征收税收和关税。手动对产品进行分类既耗时又容易出错，而且进出口产品数量庞大，使得手动流程不可行。因此，参与国际贸易的电子商务平台和企业已转向利用机器学习进行自动产品分类。然而，当前的方法没有考虑与产品分类相关的现实挑战，例如非常简短和不完整的产品描述。此外，生成式大型语言模型（LLM）及其推理能力的最新进展主要在产品分类和电子商务领域尚未得到开发。在这项研究中，我们探讨了工业分类的现实挑战，并提出了允许现实数据模拟的数据扰动。此外，我们采用基于 LLM 的产品分类来提高存在不完整数据时预测的稳健性。我们的研究表明，在干净数据场景中，具有情境学习的大语言模型优于监督方法。此外，我们还表明，当存在数据攻击时，大语言模型比监督方法更加稳健。

利用基于知识图的类人记忆系统来解决部分可观察的马尔可夫决策过程

分类： 人工智能, 机器学习

作者： Taewoon Kim, Vincent François-Lavet, Michael Cochez

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05861v1

摘要： 人类在任何时候都只能观察周围环境的一部分，但由于我们的长期记忆系统，仍然可以做出复杂的长期决策。为了测试人工智能如何学习和利用其长期记忆系统，我们开发了一个部分可观察的马尔可夫决策过程（POMDP）环境，其中代理必须在迷宫中导航时回答问题。该环境完全基于知识图（KG），其中隐藏状态是动态 KG。 KG 是人类和机器可读的，可以轻松查看智能体记住和忘记的内容。我们训练和比较具有不同记忆系统的智能体，以揭示人类大脑在管理自己的记忆系统时如何工作。通过将给定的学习目标重新调整为学习内存管理策略，我们能够捕获最可能的信念状态，这不仅是可解释的，而且是可重用的。

通过因果发现和强化学习对交付风险进行根本原因归因

分类： 人工智能, 机器学习

作者： Shi Bo, Minheng Xiao

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05860v1

摘要： 本文提出了一种通过将因果发现与强化学习相结合来对供应链内交付风险进行根本原因归因的新方法。随着供应链变得越来越复杂，传统的根本原因分析方法难以捕捉各种因素之间错综复杂的相互关系，常常导致虚假相关性和次优决策。我们的方法通过利用因果发现来识别操作变量之间的真正因果关系，并利用强化学习来迭代地细化因果图，从而解决了这些挑战。该方法能够准确识别延迟交货的关键驱动因素，例如运输模式和交货状态，并为优化供应链绩效提供可操作的见解。我们将我们的方法应用于现实世界的供应链数据集，证明其在揭示交付延迟的根本原因并提供减轻这些风险的策略方面的有效性。研究结果对于提高供应链的运营效率、客户满意度和整体盈利能力具有重大意义。

可解释性的认知革命：从解释行为到解释表示和算法

分类： 人工智能

作者： Adam Davies, Ashkan Khakzar

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05859v1

摘要： 人工神经网络长期以来一直被理解为“黑匣子”：尽管我们知道它们的计算图和学习参数，但它们所执行的这些权重和函数编码的知识本质上是不可解释的。因此，从深度学习的早期开始，人们就一直在努力解释这些模型的行为并在内部理解它们；最近，机械可解释性（MI）已成为一个独特的研究领域，研究大型语言模型等基础模型学习的特征和隐式算法。在这项工作中，我们的目标是将 MI 置于认知科学的背景下，长期以来，认知科学在研究和解释像人脑这样的“黑匣子”智能系统的行为时一直在努力解决类似的问题。我们利用认知科学历史上的几个重要思想和发展来理清 MI 中的不同目标，并指明清晰的前进道路。首先，我们认为当前的方法已经成熟，可以促进深度学习解释的转变，这与 20 世纪心理学的“认知革命”相呼应，这场革命将人类心理学的研究从纯粹的行为主义转向了心理表征和处理。其次，我们提出了一种反映计算神经科学中关键相似之处的分类法，以描述 MI 研究的两大类：语义解释（学习和使用哪些潜在表示）和算法解释（对表示执行哪些操作），以阐明它们不同的目标和对象的学习。最后，我们阐述了这两个类别中各种方法之间的相似之处和区别，分析了代表性作品各自的优缺点，澄清了基本假设，概述了关键挑战，并讨论了在共同框架下统一这些解释模式的可能性。

使用 Delta-Engine 扩展虚拟世界

分类： 人工智能, 人机交互

作者： Hongqiu Wu, Zekai Xu, Tianyang Xu, Jiale Hong, Weiqi Wu, Hai Zhao, Min Zhang, Zhezhi He

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05842v1

摘要： 在本文中，我们关注的是\emph{虚拟世界}，一个人们可以居住的网络空间。理想的虚拟世界与我们的现实世界有很大的相似之处。关键方面之一是其不断发展的性质，这反映在个人成长并从而影响客观世界的能力上。这种动态是不可预测的，超出了现有系统的范围。为此，我们提出了一个名为 \emph{Delta-Engine} 的特殊引擎来驱动这个虚拟世界。 $\Delta$ 将世界的演变与引擎的扩展联系起来。 Delta 引擎由基础引擎和神经代理组成。给定一个观察结果，代理通过\emph{增量预测}过程基于基本引擎生成新代码。本文对 Delta 引擎进行了全栈介绍。 Delta引擎的关键特征是它对世界中未知元素的可扩展性，从技术上讲，它源于神经代理和基础引擎的完美配合，以及与高质量数据的对齐。我们采用面向引擎的微调方法，将基础引擎嵌入到代理中。然后，我们讨论人机协作设计过程，以有效地生成新颖有趣的数据。最终，我们提出了三种评估原则来全面评估Delta引擎的性能：朴素评估、增量评估和对抗性评估。我们的代码、数据和模型在 \url{https://github.com/gingasan/delta-engine} 上开源。

使用眼睛纵横比和面部标志检测进行实时睡意检测

分类： 计算机视觉和模式识别, 人工智能

作者： Varun Shiva Krishna Rupani, Velpooru Venkata Sai Thushar, Kondadi Tejith

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05836v1

摘要： 睡意检测对于提高交通和工作场所健康等领域的安全至关重要。本研究提出了一种实时系统，旨在使用眼睛长宽比 (EAR) 和面部标志检测技术来检测睡意。该系统利用 Dlibs 预先训练的形状预测器模型来准确检测和监控 68 个面部标志，这些标志用于计算 EAR。通过建立 EAR 阈值，系统可以识别眼睛何时闭上，表明潜在的睡意。该过程包括捕获实时视频流、检测每帧中的面部、提取眼部标志以及计算 EAR 以评估警觉性。我们的实验表明，该系统能够以高精度可靠地检测困倦，同时保持较低的计算需求。这项研究为实时困倦检测提供了强大的解决方案，在驾驶员监控和工作场所安全方面具有广阔的应用前景。未来的研究将调查整合额外的生理和背景数据，以进一步提高检测的准确性和可靠性。

分治预测编码：一种结构化贝叶斯推理算法

分类： 机器学习, 人工智能, 机器学习, 神经元和认知

作者： Eli Sennesh, Hao Wu, Tommaso Salvatori

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05834v1

摘要： 意外的刺激会在大脑中引起“错误”或“惊讶”信号。预测编码理论有望通过建议皮层在概率图形模型中实现变分推理来用贝叶斯推理来解释这些观察结果。然而，当应用于机器学习任务时，该算法系列在高维、结构化推理问题中的表现尚未与其他变分方法相媲美。为了解决这个问题，我们为结构化生成模型引入了一种新颖的预测编码算法，我们称之为分而治之预测编码（DCPC）。 DCPC 与预测编码的其他表述不同，因为它尊重生成模型的相关结构，并可证明执行模型参数的最大似然更新，所有这些都不会牺牲生物学的合理性。根据经验，DCPC 比竞争算法实现了更好的数值性能，并为以前预测编码无法解决的许多问题提供了准确的推理。我们在 Github 上的 Pyro 中提供了 DCPC 的开放实现。

多模态目标识别的鲁棒域泛化

分类： 计算机视觉和模式识别, 人工智能

作者： Yuxin Qiao, Keqin Li, Junhong Lin, Rong Wei, Chufeng Jiang, Yang Luo, Haoyu Yang

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05831v1

摘要： 在多标签分类中，机器学习在处理分布与训练数据不同的任务时遇到域泛化的挑战。现有方法主要关注视觉对象识别而忽略了自然语言的整合。视觉语言预训练的最新进展利用了广泛的视觉语言对的监督，实现了跨不同领域的学习并增强了多模式场景中的识别。然而，这些方法在损失函数利用、跨主干网的通用性和类感知视觉融合方面面临局限性。本文通过推断实际损失、将评估范围扩大到更大的视觉语言骨干以及引入 Mixup-CLIPood 来提出这些限制的解决方案，它结合了一种新颖的混合损失来增强类别感知视觉融合。我们的方法在跨多个数据集的领域泛化方面展示了卓越的性能。

您只需要一个目标即可：从对比强化学习中产生技能和探索，无需奖励、演示或子目标

分类： 机器学习, 人工智能

作者： Grace Liu, Michael Tang, Benjamin Eysenbach

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05804v1

摘要： 在本文中，我们早在观察到任何成功的试验之前就提出了从简单的强化学习算法中出现的技能和定向探索的经验证据。例如，在操纵任务中，代理会获得对目标状态的单一观察并学习技能，首先移动其末端执行器，然后推动块，最后拾取并放置块。这些技能在智能体成功地将方块放置在目标位置之前就出现了，并且没有任何奖励函数、演示或手动指定的距离度量的帮助。一旦代理学会可靠地达到目标状态，探索就会减少。实现我们的方法涉及对先前工作的简单修改，并且不需要密度估计、集成或任何额外的超参数。直观上，所提出的方法似乎在探索方面很糟糕，而且我们对其为何如此有效缺乏清晰的理论理解，尽管我们的实验提供了一些提示。

时间创造空间：编码时间连续感官体验的网络中场所场的出现

分类： 神经元和认知, 人工智能, 机器学习, 神经和进化计算

作者： Zhaoze Wang, Ronald W. Di Tullio, Spencer Rooke, Vijay Balasubramanian

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05798v1

摘要： 脊椎动物海马体被认为利用 CA3 区域的循环连接来支持部分线索的情景记忆回忆。该大脑区域还包含位置细胞，其位置选择性发射场实现支持空间记忆的地图。在这里，我们展示了位置细胞出现在经过训练来记忆时间上连续的感觉事件的网络中。我们将 CA3 建模为一个循环自动编码器，它可以通过代理穿越模拟房间的嘈杂和部分遮挡的观察来回忆和重建感官体验。智能体按照啮齿动物建模的真实轨迹移动，环境被建模为高维感官体验图。训练我们的自动编码器在总活动限制的情况下完成模式和重建体验会导致编码层中出现空间局部发射场（即位置细胞）。新兴地点场再现了海马现象学的关键方面：a）重新映射（在不同环境中维护和恢复不同的学习地图），通过重新定位网络隐藏层中的经验流形来实现，b）不同领域中空间表示的正交性， c）在不同形状的房间中出现强大的场所场，单个单元在大型或复杂的空间中显示多个场所场，以及 d）场所场的缓慢代表性漂移。我们认为，这些结果的出现是因为空间的连续穿越使得感官体验在时间上连续。我们做出可测试的预测：a）快速变化的感官环境将扰乱位置场，b）即使循环连接被阻止，位置场也会形成，但在重新映射时恢复到先前学习的表示将被废除，c）时间平滑经验集的维度地点场的维度，包括在抽象空间的虚拟导航期间。

使用拓扑细化的交错任务和运动规划的元引擎框架

分类： 机器人技术, 人工智能

作者： Elisa Tosello, Alessandro Valentini, Andrea Micheli

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05795v1

摘要： 任务和运动规划（TAMP）是寻找自动规划问题的解决方案，其中包括由低级连续运动执行的离散动作。该领域在机器人界越来越引起人们的兴趣，因为它显着增强了机器人在现实应用中的自主性。存在许多解决方案和表述，但尚未出现明确的标准表示。在本文中，我们提出了一个通用的开源框架，用于对 TAMP 问题进行建模和基准测试。此外，我们引入了一种创新的元技术来解决涉及移动代理和多个任务状态相关障碍的 TAMP 问题。这种方法允许使用任何现成的任务规划器和运动规划器，同时利用运动规划器搜索空间的几何分析来修剪任务规划器的探索，从而提高其效率。我们还展示了如何针对基于增量 SMT 的规划器的情况专门化此元引擎。我们展示了我们的方法在日益复杂的基准问题上的有效性，其中机器人必须在具有可移动障碍物的环境中导航。最后，我们将最先进的 TAMP 算法集成到我们的框架中，并将其性能与我们的成就进行比较。

HateSieve：用于检测和分割多模态模因中的仇恨内容的对比学习框架

分类： 人工智能, 计算和语言, 多媒体, 社交和信息网络

作者： Xuanyu Su, Yansong Li, Diana Inkpen, Nathalie Japkowicz

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05794v1

摘要： 随着大型多模态模型（LMM）的兴起及其在生成和解释复杂内容方面的广泛应用，传播偏见和有害模因的风险仍然很大。目前的安全措施常常无法检测到“混杂模因”中巧妙整合的仇恨内容。为了解决这个问题，我们引入了 \textsc{HateSieve}，这是一个新的框架，旨在增强模因中仇恨元素的检测和分割。 \textsc{HateSieve} 具有新颖的对比模因生成器，可创建语义配对的模因、用于对比学习的定制三元组数据集，以及图像文本对齐模块，可生成上下文感知嵌入以实现准确的模因分割。对仇恨 Meme 数据集的实证实验表明，\textsc{HateSieve} 不仅在可训练参数较少的性能上超越了现有的 LMM，而且还提供了一种用于精确识别和隔离仇恨内容的强大机制。 \textcolor{red}{警告：包含仇恨言论的学术讨论；建议观众自行决定。}

非线性独立表示的持续学习

分类： 机器学习, 人工智能, 机器学习

作者： Boyang Sun, Ignavier Ng, Guangyi Chen, Yifan Shen, Qirong Ho, Kun Zhang

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05788v1

摘要： 识别感兴趣变量之间的因果关系在表示学习中起着关键作用，因为它提供了对数据集的深入洞察。可识别性作为这种方法的中心主题，通常取决于利用来自多个分布的数据（干预、分布转移、时间序列等）。尽管这一领域取得了令人兴奋的发展，但一个实际但经常被忽视的问题是：如果这些分布变化连续发生怎么办？相比之下，任何智能都具有连续抽象和提炼所学知识的能力——终身学习。在本文中，我们特别关注非线性独立成分分析（ICA）框架，朝着使模型能够以顺序方式学习有意义（可识别）表示的问题向前迈进了一步，称为连续因果表示学习。我们从理论上证明，随着分布数量的增加，模型可识别性从子空间级别发展到组件级别。根据经验，我们表明，我们的方法实现了与在多个离线分布上联合训练的非线性 ICA 方法相当的性能，并且令人惊讶的是，传入的新分布不一定有利于所有潜在变量的识别。

卷曲梦想：强化学习中世界建模的对比表示

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Victor Augusto Kich, Jair Augusto Bottega, Raul Steinmetz, Ricardo Bedin Grando, Ayano Yorozu, Akihisa Ohya

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05781v1

摘要： 在这项工作中，我们提出了 Curled-Dreamer，这是一种新颖的强化学习算法，它将对比学习集成到 DreamerV3 框架中，以提高视觉强化学习任务的性能。通过结合 CURL 算法的对比损失和自动编码器的重建损失，Curled-Dreamer 在各种 DeepMind Control Suite 任务中实现了显着改进。我们广泛的实验表明，Curled-Dreamer 始终优于最先进的算法，在各种任务中取得了更高的平均分和中位数分数。结果表明，所提出的方法不仅加速了学习，而且增强了学习策略的鲁棒性。这项工作强调了结合不同学习范式在强化学习应用中实现卓越性能的潜力。

Seg-CycleGAN：由下游任务引导的 SAR 到光学图像转换

分类： 计算机视觉和模式识别, 人工智能, 图像和视频处理

作者： Hannuo Zhang, Huihui Li, Jiarui Lin, Yujie Zhang, Jianghua Fan, Hang Liu

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05777v1

摘要： 光学遥感和合成孔径雷达（SAR）遥感对于地球观测至关重要，具有互补的能力。虽然光学传感器可提供高质量图像，但它们受到天气和照明条件的限制。相比之下，SAR 传感器可以在不利条件下有效运行。这封信提出了一种名为 Seg-CycleGAN 的基于 GAN 的 SAR 到光学图像翻译方法，旨在通过利用预训练语义分割模型中的语义信息来提高船舶目标翻译的准确性。我们的方法利用船舶目标语义分割的下游任务来指导图像翻译网络的训练，提高输出光学风格图像的质量。揭示了基础模型注释数据集在 SAR 到光学翻译任务中的潜力。这项工作建议对下游任务引导框架进行更广泛的研究和应用。该代码可在 https://github.com/NPULHH/ 获取

规则挖掘的神经符号方法

分类： 人工智能

作者： Agnieszka Lawrynowicz, Luis Galarraga, Mehwish Alam, Berenice Jaulmes, Vaclav Zeman, Tomas Kliegr

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05773v1

摘要： 在本章中，我们从基本背景信息（包括规则质量度量）开始解决规则挖掘问题。然后，我们探索各种规则挖掘方法，分为三组：归纳逻辑编程、路径采样和泛化以及线性编程。接下来，我们深入研究神经符号方法，涵盖深度学习与规则的集成、规则学习中嵌入的使用以及大型语言模型在规则学习中的应用等主题。

HOI分析：当只有测试集而没有训练集时，使用多模态视觉基础模型的免训练方法

分类： 计算机视觉和模式识别, 人工智能

作者： Chaoyi Ai

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05772v1

摘要： 人机交互（HOI）旨在识别图像中的人和物体对并识别他们的关系，最终形成$\langle人、物体、动词\rangle$三元组。在默认设置下，HOI 性能接近饱和，许多研究重点关注长尾分布和零样本/少样本场景。让我们考虑一个有趣的问题：“如果只有测试数据集而没有训练数据集，以免训练的方式使用多模态视觉基础模型怎么办？ ”这项研究使用了两种实验设置：基本事实和随机任意组合。我们得到了一些有趣的结论，发现多模态视觉基础模型的开放词汇能力尚未完全实现。此外，用接地 DINO 代替特征提取进一步证实了这些发现。

大视觉语言模型的无参考幻觉检测

分类： 计算和语言, 人工智能

作者： Qing Li, Chenyang Lyu, Jiahui Geng, Derui Zhu, Maxim Panov, Fakhri Karray

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05767v1

摘要： 近年来，大型视觉语言模型（LVLM）取得了重大进展。虽然 LVLM 在语言理解、问题回答和视觉输入对话方面表现出出色的能力，但它们很容易产生幻觉。虽然提出了几种方法来评估 LVLM 中的幻觉，但大多数都是基于参考的并且依赖于外部工具，这使得它们的实际应用变得复杂。为了评估替代方法的可行性，了解不依赖任何外部工具的无参考方法是否能够有效检测幻觉至关重要。因此，我们启动了一项探索性研究，以证明不同的无参考解决方案在检测 LVLM 幻觉方面的有效性。特别是，我们对三种技术进行了广泛的研究：基于不确定性、基于一致性和有监督的不确定性量化方法，针对两个不同任务的四个代表性 LVLM。实证结果表明，无参考方法能够有效检测 LVLM 中的非事实响应，监督不确定性量化方法优于其他方法，在不同设置下实现最佳性能。

VQ-CTAP：用于语音处理的跨模态细粒度序列表示学习

分类： 音频和语音处理, 人工智能, 计算和语言, 声音

作者： Chunyu Qiang, Wang Geng, Yi Zhao, Ruibo Fu, Tao Wang, Cheng Gong, Tianrui Wang, Qiuyu Liu, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Hao Che, Longbiao Wang, Jianwu Dang, Jianhua Tao

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05758v1

摘要： 深度学习给跨模态表示学习领域带来了显着的进步。对于文本转语音（TTS）、语音转换（VC）和自动语音识别（ASR）等任务，需要跨模态细粒度（帧级）序列表示，强调文本的语义内容文本模态，同时不强调语音模态的副语言信息。我们提出了一种称为“矢量量化对比令牌声学预训练（VQ-CTAP）”的方法，该方法使用跨模态对齐序列转码器将文本和语音带入联合多模态空间，学习如何在帧级别。所提出的 VQ-CTAP 是跨模态序列表示学习的范例，为语音处理中的细粒度生成和识别任务提供了一种有前景的解决方案。 VQ-CTAP可以直接应用于VC和ASR任务，无需微调或额外的结构。我们提出了一种序列感知语义连接器，它连接用于 TTS 任务的多个冻结的预训练模块，展现出即插即用功能。我们设计了一种步进优化策略，通过逐步注入和调整各种损失分量的影响来确保模型有效收敛。此外，我们提出了一种语义转移方式的副语言一致性损失，以增强表示能力，使模型能够更好地泛化到未见过的数据并捕获副语言信息的细微差别。此外，VQ-CTAP从24kHz输入波形实现了25Hz速率的高压缩语音编码，采样率降低了960倍。音频演示位于 https://qiangchunyu.github.io/VQCTAP/

通过知识蒸馏的低维联合知识图嵌入

分类： 人工智能, 机器学习

作者： Xiaoxiong Zhang, Zhiwei Zeng, Xin Zhou, Zhiqi Shen

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05748v1

摘要： 联合知识图嵌入（FKGE）旨在促进跨多个客户端的分布式知识图（KG）的实体和关系嵌入的协作学习，同时保护数据隐私。训练更高维度的 FKGE 模型通常受到青睐，因为它们具有实现卓越性能的潜力。然而，高维嵌入在存储资源和推理速度方面提出了重大挑战。与传统的 KG 嵌入方法不同，FKGE 涉及多轮客户端-服务器通信，其中通信效率至关重要。传统 KG 的现有嵌入压缩方法可能无法直接适用于 FKGE，因为它们通常需要多个模型训练，这可能会产生大量的通信成本。在本文中，我们提出了一种基于知识蒸馏（KD）的轻量级组件，名为 FedKD，专为 FKGE 方法量身定制。在客户端本地训练期间，FedKD 有助于低维学生模型使用 KL 散度损失来模拟高维教师模型中三元组的分数分布。与传统的 KD 方式不同，FedKD 自适应地学习一个温度来缩放正三元组的分数，并使用预定义的温度单独调整相应的负三元组的分数，从而减轻教师过度自信的问题。此外，我们动态调整 KD 损失的权重来优化训练过程。对三个数据集的大量实验支持了 FedKD 的有效性。

MTSCI：多元时间序列一致插补的条件扩散模型

分类： 机器学习, 人工智能, 机器学习

作者： Jianping Zhou, Junhao Li, Guanjie Zheng, Xinbing Wang, Chenghu Zhou

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05740v1

摘要： 缺失值在多变量时间序列中普遍存在，会损害分析的完整性并降低下游任务的性能。因此，研究主要集中在多元时间序列插补上，旨在根据可用的观察结果准确地插补缺失值。一个关键的研究问题是如何确保插补一致性，即观测值和插补值之间的内部一致性，以及插补后相邻窗口之间的相互一致性。然而，以往的方法仅仅依靠插补目标的归纳偏差来指导学习过程，忽略了插补一致性，最终导致性能不佳。扩散模型以其强大的生成能力而闻名，更喜欢根据可用的观察结果生成一致的结果。因此，我们提出了多元时间序列一致插补（MTSCI）的条件扩散模型。具体来说，MTSCI 采用对比互补掩模在前向噪声过程中生成双视图。然后，计算内部对比损失以确保估算值和观测值之间的内部一致性。同时，MTSCI利用混合机制在去噪过程中合并来自相邻窗口的条件信息，促进估算样本之间的相互一致性。对多个真实世界数据集的大量实验表明，我们的方法在不同缺失场景下的多元时间序列插补任务上实现了最先进的性能。代码可在 https://github.com/JeremyChou28/MTSCI 获取。

通过共享编码器、辅助和金字塔解码器的多尺度特征融合进行可变形图像配准

分类： 计算机视觉和模式识别, 人工智能

作者： Hongchao Zhou, Shunbo Hu

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05717v1

摘要： 在这项工作中，我们提出了一种用于无监督图像配准的新型可变形卷积金字塔网络。具体来说，所提出的网络通过为图像对添加额外的共享辅助解码器来增强传统金字塔网络。该解码器为配准任务提供来自未混合图像对的多尺度高级特征信息。在配准过程中，我们还设计了一个多尺度特征融合块，从全局和局部上下文中提取对配准任务最有利的特征。验证结果表明，该方法可以捕获复杂的变形，同时实现更高的配准精度并保持平滑和合理的变形。

Top Pass：通过 Pass@k-Maximized Code Ranking 改进代码生成

分类： 人工智能, 软件工程

作者： Zhi-Cun Lyu, Xin-Ye Li, Zheng Xie, Ming Li

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05715v1

摘要： 最近，大型语言模型 (LLM) 的深刻进步极大地增强了代码生成。然而，当面对复杂问题时，这种基于 LLM 的代码生成方法仍然难以在几次尝试中生成无错误的代码。为了解决这个问题，普遍的策略是对大量候选项目进行抽样，希望其中的任何一个都能发挥作用。然而，代码生成系统的用户通常希望通过仅审查或测试少量候选代码来找到正确的程序。否则，系统将无济于事。在本文中，我们提出了 Top Pass，这是一种代码排名方法，可以从大量候选方案中识别出潜在的正确解决方案。 Top Pass直接优化了pass@k损失函数，增强了候选列表顶部的质量。这使得用户能够在尽可能少的尝试内找到正确的解决方案。四个基准测试的实验结果表明，我们的 Top Pass 方法通过产生更好的排名结果来增强代码生成模型的可用性，特别是与最先进的排名相比，在 CodeContests 上的 pass@1 中实现了 32.9% 的相对改进方法。

DeepAir：针对未知用户位置问题的基于多智能体深度强化学习的方案

分类： 网络和互联网架构, 人工智能

作者： Baris Yamansavascilar, Atay Ozgovde, Cem Ersoy

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05712v1

摘要： 无人机（UAV）在许多不同环境中的部署为网络范例提供了各种解决方案和策略。因此，它降低了现有问题开发的复杂性，否则需要更复杂的方法。这些现有问题之一是在无基础设施的环境中未知的用户位置，其中用户无法连接到任何通信设备或提供计算的服务器，这对于任务卸载以实现所需的服务质量（QoS）至关重要。因此，在本研究中，我们深入研究了这个问题，并提出了一种新颖的基于深度强化学习（DRL）的方案——DeepAir。 DeepAir 考虑了所有必要的步骤，包括传感、定位、资源分配和多路访问边缘计算 (MEC)，以在不违反最大可容忍延迟的情况下实现卸载任务的 QoS 要求。为此，我们使用两种类型的无人机，包括探测器无人机和服务无人机。我们利用探测器无人机作为 DRL 代理，确保感知、定位和资源分配。另一方面，我们利用服务无人机来提供MEC功能。我们的实验表明，与基准方法相比，DeepAir 通过在包含不同数量的用户和用户吸引点的环境中部署更少的探测器无人机来提供较高的任务成功率。

TC-KANRecon：通过自适应 KAN 机制和智能特征缩放进行高质量和加速 MRI 重建

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Ruiquan Ge, Xiao Yu, Yifei Chen, Fan Jia, Shenghao Zhu, Guanyu Zhou, Yiyu Huang, Chenyan Zhang, Dong Zeng, Changmiao Wang, Qiegen Liu, Shanzhou Niu

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05705v1

摘要： 磁共振成像（MRI）因其高分辨率和多种对比机制而在临床诊断中变得至关重要。但其采集时间较长限制了其更广泛的应用。为了解决这个问题，本研究提出了一种创新的条件引导扩散模型，名为 TC-KANRecon，它结合了 Multi-Free U-KAN (MF-UKAN) 模块和动态裁剪策略。 TC-KANRecon模型旨在通过深度学习方法加速MRI重建过程，同时保持重建图像的质量。 MF-UKAN模块可以有效平衡图像去噪和结构保留之间的权衡。具体来说，它提出了多头注意力机制和标量调制因子，显着增强了模型在复杂噪声环境中的鲁棒性和结构保持能力。此外，TC-KANRecon中的动态裁剪策略根据采样步长调整裁剪间隔，从而减轻传统裁剪方法通常造成的图像细节损失，丰富图像的视觉特征。此外，MC-Model模块融合了全采样k空间信息，实现了条件信息的高效融合，增强了模型处理复杂数据的能力，提高了重建图像的真实感和细节丰富度。实验结果表明，该方法在定性和定量评估方面均优于其他 MRI 重建方法。值得注意的是，TC-KANRecon 方法在处理高噪声、低采样率 MRI 数据时表现出优异的重建结果。我们的源代码位于 https://github.com/lcbkmm/TC-KANRecon。

用于医学图像分类和分割的基于动量的新型深度学习技术

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 图像和视频处理

作者： Koushik Biswas, Ridal Pal, Shaswat Patel, Debesh Jha, Meghana Karri, Amit Reza, Gorkem Durak, Alpay Medetalibeyoglu, Matthew Antalek, Yury Velichko, Daniela Ladner, Amir Borhani, Ulas Bagci

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05692v1

摘要： 从医学图像中准确分割不同的器官是计算机辅助诊断和干预计划的关键先决条件。这项研究提出了一种基于深度学习的方法，用于从 CT 和 MRI 扫描中分割各种器官并对疾病进行分类。我们的研究引入了一种整合残余块内动量的新技术，以增强医学图像分析中的训练动态。我们将我们的方法应用于两个不同的任务：分割肝脏、肺和结肠数据以及对腹部盆腔 CT 和 MRI 扫描进行分类。所提出的方法显示出了有希望的结果，在公开可用的基准测试数据集上优于最先进的方法。例如，在肺部分割数据集中，我们的方法比 TransNetR 模型有了显着的增强，包括骰子得分提高了 5.72%，平均交集比并集 (mIoU) 提高了 5.04%，召回率提高了 8.02%，精度提高 4.42%。因此，结合动力在分割和分类任务中带来了最先进的性能，代表了医学成像领域的重大进步。

并行贪婪最佳优先搜索的单独生成和评估

分类： 人工智能, 分布式、并行和集群计算, 数据结构和算法

作者： Takumi Shimoda, Alex Fukunaga

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05682v1

摘要： 贪婪最佳优先搜索 (GBFS) 的并行化一直很困难，因为直接并行化可能会导致与顺序 GBFS 显着不同的搜索行为，探索顺序 GBFS 通过任何平局打破策略都无法探索的状态。最近的工作提出了一类并行 GBFS 算法，该算法将搜索限制为对基准转换系统 (BTS) 的探索，该系统是 GBFS 在某些平局策略下可以扩展的一组状态。然而，强制执行此约束的成本很高，因为此类受 BTS 约束的算法被迫花费大量时间等待，以便仅扩展保证位于 BTS 中的状态。我们提出了对并行搜索的改进，将状态生成和状态评估解耦，并显着提高状态评估率，从而获得更好的搜索性能。

SRTFD：通过在线持续学习进行可扩展的实时故障诊断

分类： 机器学习, 人工智能

作者： Dandan Zhao, Karthick Sharma, Hongpeng Yin, Yuxin Qi, Shuhao Zhang

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05681v1

摘要： 故障诊断（FD）对于通过检测系统异常来维护运行安全和最大限度地减少经济损失至关重要。最近，深度学习 (DL) 驱动的 FD 方法越来越受到重视，通过利用广泛的数据集和先进的 DL 模型，显着提高了精度和适应性。然而，现代工业环境需要 FD 方法能够处理新的故障类型、动态条件、大规模数据，并以最少的先验信息提供实时响应。尽管在线持续学习 (OCL) 通过使深度学习模型能够从流数据中持续学习，展示了满足这些要求的潜力，但它面临着数据冗余、不平衡和有限标记数据等挑战。为了克服这些限制，我们提出了 SRTFD，一种可扩展的实时故障诊断框架，它通过三种关键方法增强了 OCL：Retrospect Coreset Selection (RCS)，它选择最相关的数据以减少冗余训练并提高效率；全局平衡技术（GBT），确保平衡的核心集选择和稳健的模型性能；置信度和不确定性驱动的伪标签学习（CUPL），它使用未标记的数据更新模型以进行持续适应。对真实世界数据集和两个公共模拟数据集的大量实验证明了 SRTFD 在现代工业系统中提供先进、可扩展和精确的故障诊断的有效性和潜力。

使用动态更新和自适应修剪以及共享服务器数据动力的高效联合学习

分类： 分布式、并行和集群计算, 人工智能, 机器学习

作者： Ji Liu, Juncheng Jia, Hong Zhang, Yuhui Yun, Leye Wang, Yang Zhou, Huaiyu Dai, Dejing Dou

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05678v1

摘要： 尽管取得了显着的性能，联邦学习（FL）遇到了两个重要问题，即训练效率低和计算资源有限。在本文中，我们提出了一种新的 FL 框架，即 FedDUMAP，具有三个原始贡献，除了边缘设备中的分布式数据之外，还利用服务器上共享的不敏感数据，从而有效地训练全局模型。首先，我们提出了一种简单的动态服务器更新算法，该算法利用服务器上共享的不敏感数据，同时动态调整服务器上的更新步骤，以加快收敛速度并提高准确性。其次，我们提出了一种采用动态服务器更新算法的自适应优化方法，以利用服务器和每个本地设备上的全局动量来实现卓越的准确性。第三，我们开发了一种层自适应模型剪枝方法来执行特定的剪枝操作，该方法适应每一层的不同特征，从而在有效性和效率之间取得良好的平衡。我们提出的 FL 模型 FedDUMAP 结合了三种原始技术，与基线方法相比，在效率（快达 16.9 倍）、准确性（高出 20.4%）和计算成本（高达 62.6 %小）。

StealthDiffusion：通过扩散模型规避扩散取证检测

分类： 计算机视觉和模式识别, 人工智能

作者： Ziyin Zhou, Ke Sun, Zhongxi Chen, Huafeng Kuang, Xiaoshuai Sun, Rongrong Ji

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05669v1

摘要： 生成模型的快速进步催生了人工智能生成内容隐形（AIGC-S）的关键任务，其目的是创建可以逃避法医探测器和人类检查的人工智能生成图像。这项任务对于了解现有检测方法的漏洞和开发更强大的技术至关重要。然而，当前的对抗性攻击通常会引入可见噪声，可转移性较差，并且无法解决人工智能生成的图像和真实图像之间的光谱差异。为了解决这个问题，我们提出了 StealthDiffusion，这是一个基于稳定扩散的框架，它将人工智能生成的图像修改为高质量、难以察觉的对抗性示例，能够逃避最先进的法医探测器。 StealthDiffusion 包含两个主要组件：潜在对抗性优化（Latent Adversarial Optimization），它在稳定扩散的潜在空间中生成对抗性扰动；Control-VAE，这是一个模块，可以减少生成的对抗性图像和真实图像之间的光谱差异，而不影响原始扩散模型的生成过程。大量实验表明，StealthDiffusion 在白盒和黑盒设置中均有效，可将 AI 生成的图像转换为频谱与真实图像相似的高质量对抗性伪造图像。这些赝品被先进的法医分类器归类为真品，人类很难区分。

利用大型语言模型优化网络钓鱼网站的检测和可解释性

分类： 密码学和安全, 人工智能, 人机交互, 信息检索, 机器学习

作者： Sayak Saha Roy, Shirin Nilizadeh

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05667v1

摘要： 在本文中，我们介绍了 PhishLang，这是一种开源的轻量级大型语言模型 (LLM)，专门用于通过网站的上下文分析来检测网络钓鱼网站。与依赖静态特征并难以适应新威胁的传统启发式或机器学习模型以及计算密集型深度学习模型不同，我们的模型利用大语言模型的高级语言处理能力来学习网络钓鱼攻击的细粒度特征。此外，PhishLang 只需最少的数据预处理即可运行，其性能可与领先的深度学习工具相媲美，同时速度明显更快且资源占用更少。经过 3.5 个月的测试，PhishLang 成功识别了大约 26K 个网络钓鱼 URL，其中许多未被流行的反网络钓鱼阻止列表检测到，从而展示了其协助当前检测措施的潜力。我们还针对几种现实的对抗性攻击评估了 PhishLang，并开发了六个补丁，使其能够非常强大地抵御此类威胁。此外，我们将 PhishLang 与 GPT-3.5 Turbo 集成以创建 \textit{explainable blocklisting} - 警告，为用户提供有关导致网站被标记为网络钓鱼的不同功能的上下文信息。最后，我们开源了 PhishLang 框架，并开发了基于 Chromium 的浏览器扩展和 URL 扫描网站，为最终用户实现了可解释的警告。

Eigen Attention：低秩空间中的 KV 缓存压缩的 Attention

分类： 机器学习, 人工智能, 计算和语言

作者： Utkarsh Saxena, Gobinda Saha, Sakshi Choudhary, Kaushik Roy

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05646v1

摘要： 大型语言模型（LLM）因其令人印象深刻的推理能力而代表了自然语言处理领域的突破性进步。最近，人们对增加这些模型的上下文长度以增强其对复杂任务的适用性产生了很大的兴趣。然而，在长上下文长度和大批量大小的情况下，存储注意力键和值的键值（KV）缓存成为推理过程中内存使用的新瓶颈。为了解决这个问题，我们提出了 Eigen Attention，它在低秩空间中执行注意力操作，从而减少 KV 缓存内存开销。我们提出的方法与现有的 KV 缓存压缩技术正交，并且可以与它们协同使用。通过对 OPT、MPT 和 Llama 模型系列的大量实验，我们证明 Eigen Attention 可将 KV 缓存大小减少高达 40%，将注意力操作延迟减少高达 60%，同时性能下降最小。

具有非凸惩罚的分位数回归的联合平滑近端梯度

分类： 机器学习, 人工智能

作者： Reza Mirzaeifard, Diyako Ghaderyan, Stefan Werner

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05640v2

摘要： 物联网 (IoT) 中的分布式传感器会生成大量稀疏数据。分析这些高维数据并识别相关预测因素带来了巨大的挑战，特别是当数据出于数据完整性、通信带宽和隐私等原因优选保留在收集数据的设备上时。本文介绍了一种联合分位数回归算法来解决这些挑战。分位数回归比均值回归模型提供了更全面的变量之间关系的视图。然而，传统方法在处理非凸稀疏惩罚和损失函数固有的非平滑性时面临困难。为此，我们提出了一种联合平滑近端梯度（FSPG）算法，它将平滑机制与近端梯度框架集成在一起，从而提高精度和计算速度。这种集成巧妙地处理了设备网络的优化，每个设备都保存本地数据样本，使其在联邦学习场景中特别有效。 FSPG算法通过维持或降低目标函数的值来保证每次迭代的平稳进展和可靠收敛。通过利用非凸惩罚，例如最小最大凹惩罚（MCP）和平滑剪切绝对偏差（SCAD），所提出的方法可以识别并保留稀疏模型中的关键预测变量。全面的仿真验证了所提出算法的稳健理论基础，并证明了估计精度的提高和可靠的收敛性。

通过冗余残数系统提高密集域的计算效率

分类： 硬件架构, 人工智能

作者： Soudabeh Mousavi, Dara Rahmati, Saeid Gorgin, Jeong-A Lee

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05639v1

摘要： 在数字信号处理、加密和神经网络等计算密集型领域，算术单元（包括加法器和乘法器）的性能至关重要。传统的数值系统通常无法满足这些应用在面积、时间和功耗方面的效率要求。残差数系统（RNS）和冗余数系统等创新方法被引入来克服这一挑战，显着提高计算效率。本文从多个角度探讨了冗余号码系统与 RNS 的融合（称为 R-RNS）如何能够减少延迟并增强电路实现，从而在实际场景中产生巨大的好处。我们对四个系统 - RNS、冗余数字系统、二进制数字系统 (BNS) 和有符号数字冗余残差数字系统 (SD-RNS) 进行比较分析 - 并通过先进的深度神经网络 (DNN) 评估 SD-RNS利用 CIFAR-10 数据集。我们的研究结果令人鼓舞，表明 SD-RNS 的计算速度分别比 RNS 和 BNS 提高了 1.27 倍和 2.25 倍，并且在顺序加法和乘法任务中比 BNS 减少了 60% 的能耗。

PRTGaussian：使用 3D 高斯和预先计算的辐射传输进行高效重新照明

分类： 计算机视觉和模式识别, 人工智能

作者： Libo Zhang, Yuxuan Han, Wenbin Lin, Jingwang Ling, Feng Xu

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05631v1

摘要： 我们提出了 PRTGaussian，这是一种通过结合 3D 高斯和预计算辐射传输 (PRT) 实现的实时可重新点亮的新颖视图合成方法。通过将可重新照明的高斯函数拟合到多视图 OLAT 数据，我们的方法可以实现实时、自由视点重新照明。通过基于高阶球谐函数估计辐射传输，我们在捕获详细的重新照明效果和保持计算效率之间实现了平衡。我们采用两阶段过程：在第一阶段，我们从多视图图像重建对象的粗略几何形状。在第二阶段，我们用获得的点云初始化 3D 高斯，然后同时细化粗略几何形状并学习每个高斯的光传输。对合成数据集的大量实验表明，我们的方法可以实现一般对象的快速、高质量的重新照明。代码和数据可在 https://github.com/zhanglbthu/PRTGaussian 获取。

量子安全多方深度学习

分类： 量子物理学, 人工智能, 信息论, 机器学习, 信息论, 光学

作者： Kfir Sulimany, Sri Krishna Vadlamani, Ryan Hamerly, Prahlad Iyengar, Dirk Englund

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05629v1

摘要： 安全多方计算可以对分布式用户的多元函数进行联合评估，同时确保其本地输入的隐私。由于对计算密集型深度学习推理的爆炸式需求，该领域变得越来越紧迫。这些计算通常被卸载到云计算服务器，从而导致可能危及客户数据安全的漏洞。为了解决这个问题，我们引入了一种线性代数引擎，该引擎利用光的量子性质，仅使用传统的电信组件即可进行信息理论上安全的多方计算。我们将此线性代数引擎应用于深度学习，并分别通过 Holevo 和 Cram'er-Rao 界限导出深度神经网络权重和客户端数据的信息泄漏的严格上限。应用于 MNIST 分类任务时，我们获得了超过 $96%$ 的测试精度，同时每个权重符号的泄漏少于 $0.1$ 位，每个数据符号的泄漏少于 $0.01$ 位。这种权重泄漏比使用最先进的量化技术进行精确深度学习所需的最小位精度低一个数量级。我们的工作为实用的量子安全计算奠定了基础，并开启了安全云深度学习这一领域。

预测综合单一电力市场的日前电价：通过比较机器学习方法解决波动性

分类： 机器学习, 人工智能, 系统与控制, 系统与控制

作者： Ben Harkin, Xueqin Liu

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05628v1

摘要： 本文对电价预测方法进行了全面研究，重点关注爱尔兰综合单一电力市场，特别是近期高波动时期的变化。这项研究的主要目的是评估和比较各种预测模型的性能，从传统的机器学习模型到更复杂的神经网络，以及不同长度的训练周期的影响。利用性能指标、平均绝对误差、均方根误差和相对平均绝对误差来评估和比较每个模型的准确性。对 2018 年 10 月至 2022 年 9 月期间记录的数据进行了调查和选择。本文表明，对于爱尔兰的电价预测而言，每日欧盟天然气价格比每日亨利中心天然气价格更有用。这项研究还表明，特征与日前市场价格的相关性近年来发生了变化。当天的天然气价格和当天电网上的风能量比任何其他特征都重要得多。更具体地说，电力的输入燃料已成为比总发电量或需求更重要的价格驱动因素。此外，可以看出，系统非同步渗透（SNSP）与日前市场电价高度相关，可再生能源正在推低电价。

UrFound：通过知识引导蒙版建模迈向通用视网膜基础模型

分类： 计算机视觉和模式识别, 人工智能

作者： Kai Yu, Yang Zhou, Yang Bai, Zhi Da Soh, Xinxing Xu, Rick Siow Mong Goh, Ching-Yu Cheng, Yong Liu

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05618v1

摘要： 视网膜基础模型旨在从不同的视网膜图像中学习可概括的表示，从而促进跨各种眼科任务的标签高效模型适应。尽管取得了成功，但当前的视网膜基础模型通常仅限于单一成像模式，例如彩色眼底摄影（CFP）或光学相干断层扫描（OCT），限制了其多功能性。此外，这些模型可能难以充分利用专家注释，并忽略了特定领域表示学习所必需的宝贵领域知识。为了克服这些限制，我们引入了 UrFound，这是一种视网膜基础模型，旨在从多模态视网膜图像和领域知识中学习通用表示。 UrFound 配备了与模态无关的图像编码器，接受 CFP 或 OCT 图像作为输入。为了将领域知识整合到表示学习中，我们在文本监督中对专家注释进行编码，并提出了一种用于模型预训练的知识引导掩蔽建模策略。它涉及重建视网膜图像的随机屏蔽斑块，同时预测以相应视网膜图像为条件的屏蔽文本标记。这种方法将多模态图像和文本专家注释在统一的潜在空间内对齐，从而促进可泛化和特定领域的表示学习。实验结果表明，UrFound在适应视网膜图像分析的各种任务时表现出很强的泛化能力和数据效率。通过对约 18 万张视网膜图像进行训练，UrFound 的性能显着优于最先进的视网膜基础模型，该模型是在 8 个公共视网膜数据集中的多达 160 万张未标记图像上进行训练的。我们的代码和数据可在 https://github.com/yukkai/UrFound 获取。

Residual-INR：使用隐式神经表示进行高效通信的设备上学习

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 分布式、并行和集群计算, 信息论, 信息论

作者： Hanqiu Chen, Xuebin Yao, Pradeep Subedi, Cong Hao

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05617v1

摘要： 边缘计算是一种分布式计算范式，它在数据生成源处或附近收集和处理数据。边缘设备学习依靠设备到设备的无线通信来促进多个设备之间的实时数据共享和协作决策。这显着提高了边缘计算系统对不断变化的环境的适应性。然而，随着边缘计算系统规模越来越大，由于无线通信带宽有限导致数据传输延迟较大，设备之间的通信逐渐成为瓶颈。为了减少设备到设备的数据传输量并加速设备上的学习，在本文中，我们提出了Residual-INR，一种利用隐式神经表示（INR）的基于雾计算的通信高效的设备上学习框架将图像/视频压缩为神经网络权重。 Residual-INR 通过从边缘设备收集 JPEG 图像，在雾节点将其压缩为 INR 格式，然后重新分发以进行设备上学习，从而提高数据传输效率。通过使用较小的 INR 进行全图像编码，并使用单独的对象 INR 通过残差编码进行高质量对象区域重建，我们的技术可以在保持对象质量的同时减少编码冗余。 Residual-INR 是一种很有前途的边缘设备学习解决方案，因为它可以将 10 个边缘设备网络上的数据传输减少高达 5.16 倍。它还有助于无需 CPU 的设备上加速学习，在不牺牲准确性的情况下实现高达 2.9 倍的加速。我们的代码位于：https://github.com/sharclab/Residual-INR。

来自人类反馈的表示对齐，用于从混合质量演示中进行跨实施例奖励学习

分类： 机器人技术, 人工智能

作者： Connor Mattson, Anurag Aribandi, Daniel S. Brown

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05610v1

摘要： 我们研究跨实施例逆强化学习的问题，我们希望从一个或多个实施例中的视频演示中学习奖励函数，然后将学习到的奖励转移到不同的实施例（例如，不同的动作空间、动态、大小、形状）， ETC。）。学习跨实施例转移的奖励函数在诸如通过人类视频演示教机器人策略或教机器人模仿具有不同实施例的另一个机器人的策略等设置中非常重要。然而，先前的工作仅关注可提供近乎最佳演示的情况，这通常很难确保。相比之下，我们研究了来自混合质量演示的跨实体奖励学习的设置。我们证明，先前的工作在从混合质量数据中学习时很难学习可概括的奖励表示。然后，我们分析了几种利用人类反馈进行表示学习和对齐的技术，以实现有效的跨实体学习。我们的结果深入了解了不同的表示学习技术如何导致不同质量的奖励塑造行为，以及在从混合质量、混合体现的数据中学习时人类反馈的重要性。

通过大规模动态生态驾驶减少大都市碳排放

分类： 系统与控制, 人工智能, 机器学习, 多代理系统, 机器人技术, 系统与控制

作者： Vindula Jayawardana, Baptiste Freydt, Ao Qu, Cameron Hickert, Edgar Sanchez, Catherine Tang, Mark Taylor, Blaine Leonard, Cathy Wu

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05609v1

摘要： 交通运输的庞大规模和多样性使其成为脱碳的强大部门。在这里，我们考虑一个减少碳排放的新机会：半自动驾驶汽车的日益普及，可以通过编程来通过智能速度命令来减少走走停停的交通，从而减少排放。但这种动态的生态驾驶会推动气候变化吗？由于交通场景的多样性和车辆排放的复杂性，全面的影响分析一直无法实现。我们通过大规模场景建模工作以及使用多任务深度强化学习和精心设计的网络分解策略来应对这一挑战。我们对美国三大大城市的 6,011 个信号交叉口的动态生态驾驶进行了深入的前瞻性影响评估，模拟了 100 万个交通场景。总体而言，我们发现针对排放进行优化的车辆轨迹可以将全市交叉口的碳排放量减少 11-22%，而不会损害吞吐量或安全性，并且在合理的假设下，分别相当于以色列和尼日利亚的国家排放量。我们发现，10% 的环保驾驶采用率可带来总减排量的 25%-50%，近 70% 的收益来自 20% 的交叉路口，这表明了近期的实施路径。然而，这个高影响力的交叉口子集的组成在不同的采用水平上差异很大，重叠最小，需要对生态驾驶部署进行仔细的战略规划。此外，与车辆电气化和混合动力汽车采用的预测结合起来考虑时，生态驾驶的影响仍然很大。更广泛地说，这项工作为大规模分析交通外部性（例如时间、安全性和空气质量）以及解决方案策略的潜在影响铺平了道路。

探索状态空间模型和高级训练技术在顺序推荐中的应用：效率和性能的比较研究

分类： 信息检索, 人工智能, 机器学习, 优化与控制

作者： Mark Obozov, Makar Baderko, Stepan Kulibaba, Nikolay Kutuzov, Alexander Gasnikov

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05606v1

摘要： 推荐系统旨在估计动态变化的用户偏好以及历史用户行为和元数据之间的顺序依赖性。尽管基于 Transformer 的模型已被证明在顺序推荐中有效，但它们的状态增长与正在处理的序列的长度成正比，这使得它们在内存和推理成本方面非常昂贵。我们的研究重点关注顺序推荐中的三个有希望的方向：通过使用状态空间模型（SSM）来提高速度，因为它们可以在顺序推荐领域以较低的延迟、内存和推理成本实现 SOTA 结果，如 arXiv 所提出的： 2403.03900 通过无参考模型的整体偏好优化（ORPO）提高大型语言模型（LLM）的推荐质量；并实施自适应批量和步长算法以降低成本并加速训练过程。

通过静态-动态条件解耦进行序列表示学习

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Mathieu Cyrille Simon, Pascal Frossard, Christophe De Vleeschouwer

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05599v1

摘要： 本文探讨了序列数据中的自监督解缠表示学习，重点关注分离视频中的时间无关因素和时变因素。我们提出了一种新模型，通过明确考虑静态/动态变量之间的因果关系，打破了这些因素之间通常的独立性假设，并通过额外的归一化流提高了模型的表达能力。提出了这些因素的正式定义。这种形式主义导致导出了可识别的基本事实因素的充分条件，并引入了一种新颖的理论基础解开约束，该约束可以直接有效地纳入我们的新框架中。实验表明，在场景动态受其内容影响的场景中，所提出的方法优于以前复杂的最先进技术。

广泛形式游戏的上下文开发器

分类： 人工智能, 计算机科学与博弈论

作者： Shuxin Li, Chang Yang, Youzhi Zhang, Pengdeng Li, Xinrun Wang, Xiao Huang, Hau Chan, Bo An

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05575v1

摘要： 纳什均衡（NE）因其稳定性而成为博弈论中广泛采用的解决方案概念。然而，我们观察到，NE 策略可能并不总是能产生最好的结果，特别是在面对不遵守 NE 策略的对手时。基于这一观察，我们提出了一个新的博弈解决问题：我们能否学习一个可以利用任何对手（甚至是 NE）对手来最大化其自身效用的模型？在这项工作中，我们首次尝试通过情境学习来研究这个问题。具体来说，我们引入了一种新颖的方法，即上下文利用程序（ICE），来训练一个可以充当游戏中任何玩家的模型，并完全通过上下文学习自适应地利用对手。我们的 ICE 算法涉及生成不同的对手策略、通过强化学习算法收集交互式历史训练数据，以及在精心设计的课程学习框架内训练基于 Transformer 的代理。最后，全面的实验结果验证了我们的 ICE 算法的有效性，展示了其利用任何未知对手的上下文学习能力，从而积极回答了我们最初的游戏解决问题。

大语言模型中的元认知短视

分类： 人工智能, 计算和语言, 计算机与社会, 应用领域

作者： Florian Scholten, Tobias R. Rebholz, Mandy Hütter

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05568v1

摘要： 大型语言模型 (LLM) 表现出潜在的有害偏见，这些偏见会强化文化固有的刻板印象、模糊道德判断或放大对大多数群体的积极评价。之前的解释主要将大语言模型的偏见归因于人类注释者和训练数据的选择。因此，这些问题通常采用自下而上的方法来解决，例如强化学习或去偏语料库。然而，这些方法只是通过间接影响模型架构来处理LLM偏差的影响，而没有解决计算过程中的根本原因。在这里，我们提出元认知短视作为一种认知生态框架，可以解释已建立的和正在出现的大语言模型偏见，并提供一个杠杆来解决强大但脆弱的工具中的问题。我们的理论框架认为，缺乏元认知的两个组成部分（监视和控制）会导致大语言模型元认知短视的五种症状：无效标记和嵌入的整合、对冗余信息的敏感性、条件计算中忽略基本率、基于决策规则频率以及嵌套数据结构的不适当的高阶统计推断。结果，大语言模型产生了错误的输出，影响了人类日常的高风险决策。通过将元认知调节过程引入大语言模型，工程师和科学家可以针对这些偏见的根本原因制定精确的补救措施。我们的理论为有缺陷的人机交互提供了新的视角，并引发了对组织结构中越来越多、不谨慎的大语言模型实施的道德担忧。

使用定义驱动的 ICL 进行文档级事件提取

分类： 计算和语言, 人工智能, 计算机与社会, 信息检索

作者： Zhuoyuan Liu, Yilin Luo

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05566v1

摘要： 在自然语言处理（NLP）领域，大型语言模型（LLM）在文档级事件提取任务中显示出巨大潜力，但现有方法在提示设计方面面临挑战。为了解决这个问题，我们提出了一种称为“定义驱动的文档级事件提取（DDEE）”的优化策略。通过调整提示的长度和增强启发式的清晰度，我们显着提高了大语言模型的事件提取性能。我们使用数据平衡技术来解决长尾效应问题，增强模型对事件类型的泛化能力。同时，我们对提示进行了细化，保证简洁、全面，适应LLM对提示风格的敏感度。此外，结构化启发式方法和严格限制条件的引入提高了事件和论点角色提取的精度。这些策略不仅解决了大语言模型在文档级事件提取方面的紧迫工程问题，而且促进了事件提取技术的发展，为NLP领域的其他任务提供了新的研究视角。

达尔文进化论对预训练深度神经网络的影响

分类： 神经和进化计算, 人工智能, 计算机视觉和模式识别

作者： Guodong Du, Runhua Jiang, Senqiao Yang, Haoyang Li, Wei Chen, Keren Li, Sim Kuan Goh, Ho-Kin Tang

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05563v1

摘要： 尽管进化变化的模式仍不清楚，但生物大脑的达尔文进化论已通过多种证据记录下来。深度学习模型从进化的神经系统（例如视觉皮层）中汲取灵感，在视觉任务等方面表现出了卓越的性能。虽然训练深度神经网络的成功一直依赖于反向传播 (BP) 及其变体来学习数据的表示，但 BP 并未纳入控制生物神经系统的进化过程。这项工作提出了一种基于进化理论的神经网络优化框架。具体来说，从末期获得的用于视觉识别任务的 BP 训练的深度神经网络被认为是原始祖先（初始群体）。随后，种群随着差异进化而进化。进行了大量的实验来研究达尔文进化论和神经网络优化之间的关系，包括数据集、环境、模型和生物物种之间的对应关系。实证结果表明，所提出的框架对网络有积极的影响，与BP相比，减少了过度拟合，时间复杂度降低了一个数量级。此外，实验表明，所提出的框架在深度神经网络和大数据集上表现良好。

用于 3D 点云分析的进化神经架构搜索

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 神经和进化计算

作者： Yisheng Yang, Guodong Du, Chean Khim Toa, Ho-Kin Tang, Sim Kuan Goh

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05556v1

摘要： 神经架构搜索 (NAS) 通过使用优化算法导航架构空间来自动化神经网络设计，从而减轻手动架构设计的负担。尽管 NAS 已经取得了成功，但由于数据与图像不同，数据位于非欧几里得空间中，因此将其应用于分析非结构化 3D 点云等新兴领域仍然没有得到充分探索。本文提出了具有联合点交互维度搜索的基于成功历史的自适应差分进化（SHSADE-PIDS），这是一种进化 NAS 框架，它将离散深度神经网络架构编码到连续空间，并在连续空间中搜索有效点云神经架构。针对具有挑战性的 3D 分割和分类基准的综合实验证明了 SHSADE-PIDS 的功能。它发现了具有更高准确度的高效架构，显着推进了先前的 NAS 技术。对于 SemanticKITTI 上的分割，SHSADE-PIDS 仅使用 0.55M 参数和 4.5GMAC 就获得了 64.51% 的平均 IoU，与其他顶级方法相比，开销减少了 22-26 倍以上。对于 ModelNet40 分类，仅用 131 万个参数即可实现 93.4% 的准确率，超越了更大的模型。 SHSADE-PIDS 为连接进化算法与神经架构优化提供了宝贵的见解，特别是对于点云学习等新兴前沿领域。

基于多层序列标记的联合生物医学事件提取

分类： 计算和语言, 人工智能

作者： Gongchi Chen, Pengchao Wu, Jinghang Gu, Longhua Qian, Guodong Zhou

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05545v1

摘要： 近年来，生物医学事件提取一直以复杂的管道和联合方法为主，需要简化。此外，现有的工作还没有明确有效地利用触发词信息。因此，我们提出了 MLSL，一种基于多层序列标记的联合生物医学事件提取方法。 MLSL 不引入先验知识和复杂结构。此外，它明确地将候选触发词的信息合并到序列标记中，以学习触发词和论元角色之间的交互关系。基于此，MLSL 只需要一个简单的工作流程就可以很好地学习。大量的实验证明了 MLSL 与其他最先进的方法相比在提取性能方面的优越性。

CryoBench：冷冻电镜异质性问题的多样化且具有挑战性的数据集

分类： 计算机视觉和模式识别, 人工智能, 计算工程、金融和科学, 机器学习, 生物分子

作者： Minkyu Jeon, Rishwanth Raghu, Miro Astore, Geoffrey Woollard, Ryan Feathers, Alkin Kaz, Sonya M. Hanson, Pilar Cossio, Ellen D. Zhong

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05526v1

摘要： 冷冻电子显微镜 (cryo-EM) 是一种从成像数据确定高分辨率 3D 生物分子结构的强大技术。由于该技术可以捕获动态生物分子复合物，因此越来越多地开发 3D 重建方法来解决这种内在的结构异质性。然而，缺乏具有真实结构和验证指标的标准化基准限制了该领域的进步。在这里，我们提出了 CryoBench，这是一套用于冷冻电镜异构重建的数据集、指标和性能基准。我们提出了五个数据集，代表不同的异质性来源和难度程度。这些包括由抗体复合物的简单运动和随机配置以及从分子动力学模拟中采样的数万个结构产生的构象异质性。我们还设计了包含核糖体组装状态混合物和细胞中存在的 100 种常见复合物的组成异质性的数据集。然后，我们对最先进的异构重建工具（包括神经和非神经方法及其对噪声的敏感性）进行全面分析，并提出用于方法定量比较的新指标。我们希望该基准测试将成为分析冷冻电镜和机器学习社区中现有方法和新算法开发的基础资源。

在大型语言模型中保护隐私：当前威胁和解决方案的调查

分类： 密码学和安全, 人工智能, 计算和语言, 机器学习

作者： Michele Miranda, Elena Sofia Ruzzetti, Andrea Santilli, Fabio Massimo Zanzotto, Sébastien Bratières, Emanuele Rodolà

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05212v1

摘要： 大型语言模型 (LLM) 代表了人工智能的重大进步，可以在各个领域找到应用。然而，他们对大量互联网来源的数据集进行训练的依赖带来了显着的隐私问题，这些问题在关键领域（例如医疗保健）中更为严重。此外，某些特定于应用程序的场景可能需要在私有数据上微调这些模型。这项调查批判性地研究了与大语言模型相关的隐私威胁，强调这些模型有可能记住并无意中泄露敏感信息。我们通过审查大语言模型的隐私攻击来探索当前的威胁，并提出在整个学习流程中集成隐私机制的全面解决方案。这些解决方案的范围从匿名训练数据集到在训练或推理过程中实现差异隐私以及训练后机器取消学习。我们对现有文献的全面回顾强调了大语言模型保护隐私的持续挑战、可用工具和未来方向。这项工作旨在通过提供对隐私保护方法及其降低风险有效性的透彻理解来指导更安全、更值得信赖的人工智能系统的开发。

VITA：迈向开源交互式全方位多模式大语言模型

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05211v1

摘要： GPT-4o 卓越的多模态功能和交互体验凸显了其在实际应用中的必要性，但开源模型很少在这两个领域都表现出色。在本文中，我们介绍了VITA，这是第一个开源的多模态大语言模型（MLLM），擅长同时处理和分析视频、图像、文本和音频模态，同时具有先进的多模态交互体验。我们从Mixtral 8x7B作为语言基础开始，扩大其中文词汇量，然后进行双语教学调整。我们通过多模态对齐和指令调整的两阶段多任务学习，进一步赋予语言模型视觉和音频功能。 VITA 展示了多语言、视觉和音频理解方面强大的基础能力，其在一系列单模态和多模态基准测试中的强劲表现就证明了这一点。除了基础能力之外，我们在增强自然多模式人机交互体验方面也取得了相当大的进展。据我们所知，我们是第一个在 MLLM 中利用非唤醒交互和音频中断的人。 VITA是开源社区探索多模态理解和交互无缝融合的第一步。虽然 VITA 仍有大量工作要做，以接近近源同行，但我们希望它作为先驱的作用可以成为后续研究的基石。项目页面：https://vita-home.github.io。

TaSL：语言模型持续学习的任务技能本地化和巩固

分类： 计算和语言, 人工智能

作者： Yujie Feng, Xu Chu, Yongxin Xu, Zexin Lu, Bo Liu, Philip S. Yu, Xiao-Ming Wu

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05200v1

摘要： 语言模型持续学习（CL）最近引起了人们的极大兴趣，因为它具有无需重新训练即可使大型语言模型（LLM）适应动态现实环境的潜力。该领域的一个关键挑战是灾难性遗忘，即模型在学习新任务时会丢失先前获得的知识。现有方法通常采用多个参数高效微调（PEFT）块来获取每个任务的特定于任务的知识，但这些方法缺乏效率，并且忽视了通过任务交互进行知识转移的潜力。在本文中，我们提出了一种新颖的语言模型 CL 框架，称为任务技能本地化和巩固（TaSL），它可以在不依赖记忆重放的情况下增强知识转移。 TaSL 首先根据参数依赖性将模型划分为“技能单元”，从而实现更精细的控制。然后，它采用一种新颖的分组技能定位技术来确定新任务的技能单元的重要性分布。通过将这种重要性分布与之前任务的重要性分布进行比较，我们实施了一种细粒度的技能巩固策略，该策略保留特定于任务的知识，从而防止遗忘，并更新任务共享的知识，从而促进双向知识转移。因此，TaSL 在保留先前知识和出色完成新任务之间实现了卓越的平衡。 TaSL还表现出很强的通用性，适用于通用模型，并可针对LoRA等PEFT方法进行定制。此外，它还表现出显着的可扩展性，允许与内存重放集成以进一步提高性能。在两个 CL 基准上进行的大量实验，具有不同的模型大小（从 220M 到 7B），证明了 TaSL 及其变体在不同设置下的有效性。

HistoKernel：用于泛癌症预测建模的整个幻灯片图像级别最大平均差异内核

分类： 机器学习, 人工智能

作者： Piotr Keller, Muhammad Dawood, Brinder Singh Chohan, Fayyaz ul Amir Afsar Minhas

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05195v1

摘要： 计算病理学 (CPath) 中的机器学习通常会聚合来自数十亿像素整体切片图像 (WSI) 的补丁级预测，为生存预测和药效预测等关键任务生成 WSI 级预测分数。然而，当前的方法没有明确描述 WSI 内补丁集之间的分布差异。我们引入了 HistoKernel，这是一种新颖的最大平均差异 (MMD) 内核，可测量 WSI 之间的分布相似性，以增强下游预测任务的预测性能。我们的综合分析证明了 HistoKernel 在各种机器学习任务中的有效性，包括检索 (n = 9,362)、药物敏感性回归 (n = 551)、点突变分类 (n = 3,419) 和生存分析 (n = 2,291)，优于现有的深度学习学习方法。此外，HistoKernel 无缝集成多模态数据，并提供一种新颖的基于扰动的方法来实现补丁级可解释性。这项工作开创了使用基于内核的方法进行 WSI 级预测建模，开辟了新的研究途径。代码可在 https://github.com/pkeller00/HistoKernel 获取。

用于鲁棒信号调制分类的元学习引导标签噪声蒸馏

分类： 机器学习, 人工智能, 信号处理, I.2; C.2

作者： Xiaoyang Hao, Zhixi Feng, Tongqing Peng, Shuyuan Yang

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05151v1

摘要： 自动调制分类（AMC）是应对物联网（IoT）物理层威胁的有效方法。然而，实践中经常出现标签错误标记的情况，这严重影响了深度神经网络（DNN）的性能和鲁棒性。在本文中，我们提出了一种用于稳健 AMC 的元学习引导标签噪声蒸馏方法。具体来说，提出了一种师生异构网络（TSHN）框架来提取和重用标签噪声。基于标签即表示的思想，具有可信元学习的教师网络划分并征服不可信的标签样本，然后通过重新评估和纠正标签来引导学生网络更好地学习。此外，我们提出了一种多视图信号（MVS）方法，以进一步提高具有少量可信标签样本的难以分类类别的性能。大量的实验结果表明，我们的方法可以显着提高信号 AMC 在各种复杂的标签噪声场景中的性能和鲁棒性，这对于保护物联网应用至关重要。

AttackER：利用命名实体识别数据集增强网络攻击归因

分类： 密码学和安全, 人工智能

作者： Pritam Deka, Sampath Rajapaksha, Ruby Rani, Amirah Almutairi, Erisa Karafili

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05149v1

摘要： 网络攻击归因是一个重要的过程，使专家能够采取针对攻击者的对策和法律行动。鉴于这项任务的复杂性，分析师主要手动执行归因。可以利用人工智能，更具体地说，自然语言处理 (NLP) 技术在归因过程中为网络安全分析师提供支持。无论这些技术多么强大，它们都需要解决攻击归因领域缺乏数据集的问题。在这项工作中，我们将填补这一空白，并将据我们所知提供第一个有关网络攻击归因的数据集。我们设计数据集的主要目标是利用 NLP 领域的命名实体识别 (NER) 方法从网络安全文本中提取攻击归因信息。与其他网络安全 NER 数据集不同，我们的数据集提供了一组丰富的注释和上下文详细信息，包括一些跨越短语和句子的注释。我们进行了广泛的实验并应用 NLP 技术来证明该数据集对于攻击归因的有效性。这些实验凸显了大型语言模型 (LLM) 功能在改进网络安全数据集中的 NER 任务以进行网络攻击归因方面的潜力。

Gemma Scope：在 Gemma 2 上同时打开各处的稀疏自动编码器

分类： 机器学习, 人工智能, 计算和语言

作者： Tom Lieberum, Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Nicolas Sonnerat, Vikrant Varma, János Kramár, Anca Dragan, Rohin Shah, Neel Nanda

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05147v1

摘要： 稀疏自动编码器 (SAE) 是一种无监督方法，用于学习将神经网络的潜在表示稀疏分解为看似可解释的特征。尽管最近人们对它们的潜力感到兴奋，但工业之外的研究应用受到培训全套 SAE 的高昂成本的限制。在这项工作中，我们介绍了 Gemma Scope，这是一个开放的 JumpReLU SAE 套件，在 Gemma 2 2B 和 9B 的所有层和子层以及 Gemma 2 27B 基本模型的选择层上进行了训练。我们主要在 Gemma 2 预训练模型上训练 SAE，但另外还发布在指令调整的 Gemma 2 9B 上训练的 SAE 以进行比较。我们根据标准指标评估每个 SAE 的质量并发布这些结果。我们希望通过发布这些 SAE 权重，可以帮助社区更轻松地进行更雄心勃勃的安全性和可解释性研究。权重和教程可以在 https://huggingface.co/google/gemma-scope 找到，交互式演示可以在 https://www.neuronpedia.org/gemma-scope 找到

二元分类中的谨慎校准

分类： 机器学习, 人工智能

作者： Mari-Liis Allikivi, Joonas Järve, Meelis Kull

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05120v1

摘要： 保持谨慎对于增强集成到决策流程中的机器学习系统的可信度至关重要。尽管校准概率有助于最佳决策，但完美校准仍然无法实现，导致估计值在自信不足和过度自信之间波动。这在高风险情况下成为一个关键问题，即使偶尔高估也会导致极端的预期成本。在这些场景中，重要的是每个预测概率都倾向于信心不足，而不仅仅是实现平均平衡。在这项研究中，我们引入了二元分类中谨慎校准的新概念。这种方法的目的是产生对每个预测概率故意缺乏信心的概率估计。我们强调了这种方法在高风险场景中的重要性，并提出了一种基于理论的方法来学习谨慎的校准图。通过实验，我们探索并将我们的方法与各种方法进行比较，包括最初不是为谨慎校准而设计但适用于这种情况的方法。我们表明，我们的方法在提供谨慎估计方面是最一致的。我们的工作为这个新颖框架的进一步发展奠定了坚实的基础。

超越眼睛：使用视网膜 OCTA 图像进行早期痴呆症检测的关系模型

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Shouyue Liu, Jinkui Hao, Yonghuai Liu, Huazhu Fu, Xinyu Guo, Shuting Zhang, Yitian Zhao

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05117v1

摘要： 早期发现痴呆症，如阿尔茨海默病 (AD) 或轻度认知障碍 (MCI)，对于及时干预和潜在治疗至关重要。由于当前诊断技术复杂性高、成本高且通常具有侵入性，AD/MCI 的准确检测具有挑战性，这限制了其大规模人群筛查的适用性。鉴于视网膜和大脑具有共同的胚胎起源和生理特征，视网膜成像正在成为一种潜在的快速且经济高效的替代方案，可用于识别患有 AD 或处于高风险的个体。在本文中，我们提出了一种新颖的 PolarNet+，它使用视网膜光学相干断层扫描血管造影 (OCTA) 来区分早发性 AD (EOAD) 和 MCI 受试者与对照组。我们的方法首先将 OCTA 图像从笛卡尔坐标映射到极坐标，允许近似子区域计算以实施临床医生友好的糖尿病视网膜病变早期治疗研究 (ETDRS) 网格分析。然后，我们引入多视图模块来沿三个维度序列化和分析图像，以提取全面的、临床有用的信息。最后，我们将序列嵌入抽象为图，将检测任务转化为一般的图分类问题。在多视图模块之后应用区域关系模块来挖掘子区域之间的关系。这种区域关系分析验证了已知的眼脑联系并揭示了新的判别模式。

MooER：来自 Moore Threads 的基于 LLM 的语音识别和翻译模型

分类： 计算和语言, 人工智能

作者： Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05101v1

摘要： 在本文中，我们提出了MooER，一种基于LLM的Moore Threads大规模自动语音识别（ASR）/自动语音翻译（AST）模型。使用包含开源和自行收集的语音数据的 5000h 伪标记数据集进行训练。我们获得的性能可与使用长达数十万小时的标记语音数据训练的其他开源模型相媲美。同时，在 Covost2 Zh2en 测试集上进行的实验表明，我们的模型优于其他开源语音 LLM。可以获得 25.2 的 BLEU 分数。本文的主要贡献总结如下。首先，本文提出了一种针对语音相关任务（包括 ASR 和 AST）的编码器和大语言模型的训练策略，使用少量伪标记数据，无需任何额外的手动注释和选择。其次，我们发布了 ASR 和 AST 模型，并计划在不久的将来开源我们的训练代码和策略。此外，计划稍后发布基于8wh规模训练数据训练的模型。

AI 驱动的 Java 性能测试：平衡结果质量与测试时间

分类： 软件工程, 人工智能, 机器学习, 表现

作者： Luca Traini, Federico Di Menna, Vittorio Cortellessa

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05100v1

摘要： 性能测试旨在发现软件系统的效率问题。为了既有效又实用，性能测试的设计必须在结果质量和测试时间之间实现合理的权衡。这在 Java 环境中变得尤其具有挑战性，因为在 Java 环境中，由于即时编译，软件会经历执行的预热阶段。在此阶段，性能测量会受到严重波动，这可能会对性能测试结果的质量产生不利影响。然而，这些方法通常提供预热阶段的次优估计，导致预热迭代不足或过多，这可能会降低结果质量或增加测试时间。对于如何妥善解决这一问题，目前仍缺乏共识。在这里，我们提出并研究了一种基于人工智能的框架，可以在运行时动态停止预热迭代。具体来说，我们的框架利用人工智能时间序列分类（TSC）的最新进展来预测测试执行期间预热阶段的结束。我们通过在从 JMH 微基准执行中获得的 50 万个测量段上训练三种不同的 TSC 模型来进行实验。我们发现我们的框架显着提高了实践状态和最先进方法提供的预热估计的准确性。这种更高的估计精度导致结果质量或测试时间的净改善高达 +35.3% 的微基准。我们的研究强调，集成 AI 来动态估计预热阶段的结束可以提高 Java 性能测试的成本效益。

克服尖峰神经网络中层同步的限制

分类： 神经和进化计算, 人工智能

作者： Roel Koopman, Amirreza Yousefzadeh, Mahyar Shahsavari, Guangzhi Tang, Manolis Sifalakis

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05098v1

摘要： 目前，机器学习应用中的神经网络处理依赖于层同步，即一层中的神经元在评估其激活函数之前聚合来自前一层中所有神经元的传入电流。甚至在人工尖峰神经网络（SNN）中也采用了这种做法，尽管大脑中的处理实际上是异步的，但它被吹捧为与神经生物学一致。然而，真正的异步系统将允许所有神经元同时评估其阈值并在接收任何突触前电流时发出尖峰。省略层同步对于延迟和能源效率来说可能是有益的，但是先前使用层同步训练的模型的异步执行可能会导致网络动态和性能不匹配。我们提出了一项研究，在实现网络异步的模拟环境中的三个数据集中记录和量化了这个问题，并且我们表明，使用层同步训练的模型要么在没有同步的情况下表现不佳，要么无法从任何同步中受益。当这样的机制到位时，能量和延迟就会减少。然后，我们“收支平衡”并使用非分层反向传播解决问题，这是一种新颖的基于反向传播的训练方法，用于学习适合异步处理的模型。我们用它来训练使用不同神经元执行调度策略的模型，并且我们表明，尽管它们的神经元反应性更强，但这些模型始终表现出较低的总体尖峰密度（高达 50%），更快地做出正确的决策（高达 2 倍），而无需整合所有尖峰，并实现卓越的准确度（高出 10%）。我们的研究结果表明，基于异步事件（神经形态）的 AI 计算确实更高效，但我们需要认真重新思考如何训练 SNN 模型，以便从中受益。

多模态大语言模型的双曲学习

分类： 机器学习, 人工智能

作者： Paolo Mandica, Luca Franco, Konstantinos Kallidromitis, Suzanne Petryk, Fabio Galasso

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05097v1

摘要： 双曲嵌入已经证明了其在捕获各种深度学习任务（包括图像分割和主动学习）中的不确定性和层次关系的度量方面的有效性。然而，它们在现代视觉语言模型（VLM）中的应用受到限制。一个值得注意的例外是 MERU，它利用了 CLIP ViT-large 模型中双曲空间的分层特性，由数亿个参数组成。在我们的工作中，我们使用 BLIP-2 架构解决了将多模态双曲模型在参数（数十亿）和训练复杂性方面按数量级扩展的挑战。尽管双曲嵌入提供了对欧几里德嵌入中不存在的不确定性的潜在见解，但我们的分析表明，扩展这些模型特别困难。我们为 BLIP-2 的双曲线版本提出了一种新颖的训练策略，该策略可以实现与欧几里德版本相当的性能，同时在整个训练过程中保持稳定性，并在每次嵌入时显示有意义的不确定性指示。

幻觉中的顺序很重要：推理顺序作为大语言模型的基准和反射性提示

分类： 计算和语言, 人工智能

作者： Zikai Xie

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05093v1

摘要： 大型语言模型（LLM）自诞生以来就引起了极大的关注，在各个学术和工业领域都有应用。然而，这些模型经常遇到“幻觉问题”，即输出虽然在语法和逻辑上一致，但缺乏事实准确性或完全是捏造的。最近发现并广泛讨论的一个特别令人不安的问题是数值比较错误，多个大语言模型错误地推断出“9.11$>$9.9”。我们发现大语言模型生成答案和推理的顺序会影响其一致性。具体来说，当大语言模型首先生成答案然后提供推理与先生成推理过程然后得出结论时，结果会有很大差异。受此启发，我们提出了一种新的评估 LLM 一致性的基准方法：比较通过这两种不同方法生成的答案。该基准有效地识别了大语言模型编造答案并随后生成理由的实例。此外，我们引入了一种新颖且直接的提示策略，旨在缓解这个问题。实验结果表明，与直接提问相比，该策略提高了各种大语言模型的表现。这项工作不仅揭示了大语言模型的一个关键缺陷，而且还提供了一个实用的解决方案来提高其可靠性。

从语言模型生成新颖的实验假设：交叉与格泛化的案例研究

分类： 计算和语言, 人工智能

作者： Kanishka Misra, Najoung Kim

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05086v1

摘要： 神经网络语言模型（LM）已被证明可以成功捕获复杂的语言知识。然而，它们对于理解语言习得的效用仍然存在争议。我们通过提出一个案例研究来为这场辩论做出贡献，在该案例研究中，我们使用 LM 作为模拟学习者来导出新的实验假设，并用人类进行测试。我们应用这个范式来研究跨与格泛化（CDG）：跨与格结构的新颖动词的生产性泛化（she pilked me the ball/she pilked the ball to me）——众所周知，获得它涉及大量的语境空间特征——使用经过儿童导向语音训练的语言模型。我们特别问：“训练暴露的哪些属性有助于将新动词推广到（未建模的）替代结构？”为了回答这个问题，我们根据主题和接受者的属性系统地改变新颖与格动词出现的暴露上下文，然后分析 LM 在未建模的与格结构中对新颖动词的使用。我们发现 LM 可以复制儿童 CDG 的已知模式，作为探索新假设的先决条件。随后的模拟揭示了新动词的暴露上下文特征对 LM CDG 的微妙作用。我们发现，当暴露语境的第一个后动词论证是代词、明确、简短并且符合暴露与格的原型生命力期望时，CDG 就会得到促进。这些模式是与格中和谐对齐的特征，其中在话语突出量表上排名较高的特征的论点往往先于另一个。这就产生了一个新的假设，即只要暴露情境的特征（特别是其第一个后言语论证）和谐一致，CDG 就会得到促进。最后，我们提出了可以在儿童身上检验这一假设的未来实验。

基于标签平滑与分布式鲁棒优化相结合，灵活地将少量数据推广到未见过的域

分类： 机器学习, 人工智能

作者： Yangdi Wang, Zhi-Hai Zhang, Su Xiu Xu, Wenming Guo

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05082v1

摘要： 在小规模数据集上应用深度神经网络 (DNN) 时，通常会发生过度拟合，其中 DNN 不能很好地从现有数据泛化到未见过的数据。造成过拟合的主要原因是小规模数据集无法反映现实世界的情况。标签平滑（LS）是一种防止过度拟合的有效正则化方法，通过将单热标签与均匀标签向量混合来避免过度拟合。然而LS只关注标签而忽略了现有数据的分布。在本文中，我们将分布鲁棒优化（DRO）引入LS，实现在训练DNN时将现有数据分布灵活地转移到不可见的域。具体来说，我们证明在集成 DRO 时，LS 的正则化可以扩展到 DNN 参数的正则化项。正则化项可用于将现有数据转移到看不见的域并生成新数据。此外，我们提出了一种近似梯度迭代标签平滑算法（GI-LS）来实现研究结果并训练 DNN。我们证明现有数据的偏移不会影响 GI-LS 的收敛。由于GI-LS包含了一系列超参数，我们进一步考虑使用贝叶斯优化（BO）来找到这些超参数的相对最优组合。以小规模异常分类任务为例，我们评估了GI-LS，结果清楚地证明了其优越的性能。

RT-Surv：利用大规模非结构化电子健康记录的大型语言模型构建改进放射治疗后的死亡率预测

分类： 计算和语言, 人工智能

作者： Sangjoon Park, Chan Woo Wee, Seo Hee Choi, Kyung Hwan Kim, Jee Suk Chang, Hong In Yoon, Ik Jae Lee, Yong Bae Kim, Jaeho Cho, Ki Chang Keum, Chang Geol Lee, Hwa Kyung Byun, Woong Sub Koom

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05074v1

摘要： 准确的患者选择对于放射治疗 (RT) 至关重要，以防止治疗无效。传统的生存预测模型依赖于结构化数据，通常缺乏精度。本研究探讨了大语言模型（LLM）构建非结构化电子健康记录（EHR）数据的潜力，从而通过全面的临床信息集成提高生存预测的准确性。分析了 2013 年至 2023 年间在延世癌症中心接受放疗的 34,276 名患者的数据，包括结构化和非结构化数据。开源大语言模型用于通过单次学习构建非结构化 EHR 数据，其性能与特定领域的医学大语言模型和较小的变体进行比较。生存预测模型是使用统计、机器学习和深度学习方法开发的，结合了结构化和大语言模型结构化数据。临床专家评估了大语言模型结构化数据的准确性。开源 LLM 在构建非结构化 EHR 数据时达到了 87.5% 的准确率，无需额外培训，显着优于特定领域的医学 LLM，后者仅达到 35.8% 的准确率。较大的大语言模型更有效，特别是在提取与患者生存密切相关的一般状况和疾病程度等临床相关特征方面。将LLM结构的临床特征纳入生存预测模型显着提高了准确性，深度学习模型的C指数从0.737增加到0.820。通过强调临床重要因素，这些模型也变得更容易解释。这项研究表明，即使没有特定的医学培训，通用领域的大语言模型也可以有效地构建大规模非结构化 EHR 数据，从而大大提高临床预测模型的准确性和可解释性。

越狱的 GenAI 模型可能会造成重大危害：GenAI 驱动的应用程序容易受到 PromptWares 的攻击

分类： 密码学和安全, 人工智能

作者： Stav Cohen, Ron Bitton, Ben Nassi

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05061v1

摘要： 在本文中，我们认为越狱的 GenAI 模型可能会对 GenAI 支持的应用程序造成重大损害，并促进 PromptWare，这是一种新型攻击，可将 GenAI 模型的行为从服务应用程序转变为攻击应用程序。 PromptWare 利用用户输入来越狱 GenAI 模型，以在 GenAI 支持的应用程序上下文中强制/执行恶意活动。首先，我们介绍 PromptWare 的一个简单实现，它的行为就像针对计划和执行架构的恶意软件（也称为 ReAct、函数调用）。我们表明，鉴于攻击者已知 GenAI 支持的应用程序的逻辑，攻击者可以通过创建产生所需输出的用户输入来强制执行所需的执行流程。我们演示了 DoS 攻击的应用，该攻击触发 GenAI 支持的助手的执行进入无限循环，这会在对 GenAI 引擎的冗余 API 调用上浪费金钱和计算资源，从而阻止应用程序向用户提供服务。接下来，我们介绍一种更复杂的 PromptWare 实现，我们将其命名为高级 PromptWare 威胁 (APwT)，它针对攻击者未知逻辑的 GenAI 支持的应用程序。我们表明，攻击者可以创建用户输入，利用 GenAI 引擎的高级人工智能功能，在推理时间内启动杀伤链，该杀伤链由六个步骤组成，旨在升级权限、分析应用程序的上下文、识别有价值的资产、推理可能的恶意活动、决定一项并执行它。我们针对 GenAI 支持的电子商务聊天机器人演示了 APwT 的应用，并表明它可以触发 SQL 表的修改，从而可能导致销售给用户的商品出现未经授权的折扣。

GLEAMS：弥合本地解释和全球解释之间的差距

分类： 机器学习, 人工智能

作者： Giorgio Visani, Vincenzo Stanzione, Damien Garreau

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05060v1

摘要： 机器学习算法的可解释性至关重要，最近出现了许多方法。本地事后方法为每个特征分配归因分数，表明其对预测的重要性。然而，这些方法需要对每个示例重新计算解释。另一方面，虽然存在全球方法，但它们常常产生要么过于简单且不可靠，要么过于复杂的解释。为了弥补这一差距，我们提出了 GLEAMS，这是一种新颖的方法，可以划分输入空间并学习每个子区域内的可解释模型，从而提供忠实的本地和全局代理。我们展示了 GLEAMS 对合成数据和真实世界数据的有效性，强调了其理想的特性和人类可理解的见解。

SELD-Mamba：通过源距离估计进行声音事件定位和检测的选择性状态空间模型

分类： 声音, 人工智能, 音频和语音处理

作者： Da Mu, Zhicheng Zhang, Haobo Yue, Zehao Wang, Jin Tang, Jianqin Yin

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05057v1

摘要： 在声音事件定位和检测 (SELD) 任务中，基于 Transformer 的模型展示了令人印象深刻的功能。然而，Transformer 自注意力机制的二次复杂度导致计算效率低下。在本文中，我们提出了一种称为 SELD-Mamba 的 SELD 网络架构，它利用 Mamba（一种选择性状态空间模型）。我们采用事件独立网络 V2 (EINV2) 作为基础框架，并用双向 Mamba 块替换其 Conformer 块，以捕获更广泛的上下文信息，同时保持计算效率。此外，我们实施了两阶段训练方法，第一阶段侧重于声音事件检测（SED）和到达方向（DoA）估计损失，第二阶段重新引入源距离估计（SDE）损失。我们在 2024 DCASE Challenge Task3 数据集上的实验结果证明了 SELD 中选择性状态空间模型的有效性，并强调了两阶段训练方法在增强 SELD 性能方面的优势。

基于会话的推荐系统的具有自适应权重的 GNN 模型

分类： 信息检索, 人工智能

作者： Begüm Özbay, Dr. Resul Tugay, Prof. Dr. Şule Gündüz Öğüdücü

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05051v1

摘要： 基于会话的推荐系统旨在根据用户的顺序交互对用户的兴趣进行建模，以预测正在进行的会话中的下一个项目。在这项工作中，我们提出了一种可用于基于会话的推荐（SBR）的新颖方法。我们的目标是通过引入应用于图神经网络（GNN）向量的自适应加权机制来提高现有基于会话的推荐模型（SR-GNN 模型）的预测准确性。该机制旨在整合研究过程中通过不同方法获得的各种类型的辅助信息。由于加权机制，每个会话中的项目被分配不同程度的重要性。我们假设这种自适应加权策略将有助于更准确的预测，从而提高 SBR 在不同场景下的整体性能。自适应加权策略可以通过动态调整每个会话中项目的重要性来解决SBR中的冷启动问题，从而在冷启动情况下提供更好的推荐，例如针对新用户或新添加的项目。我们对 Dressipi 数据集的实验评估表明，与传统模型相比，所提出的方法在增强用户体验方面的有效性，并突显了其在实际应用中优化推荐结果的潜力。

Rag and Roll：基于 LLM 的应用程序框架中间接提示操作的端到端评估

分类： 密码学和安全, 人工智能

作者： Gianluca De Stefano, Giancarlo Pellegrino, Lea Schönherr

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05025v1

摘要： 检索增强生成（RAG）是一种常用于为模型配备分布知识的技术。此过程涉及收集、索引、检索以及向大语言模型提供信息以生成回复。尽管由于其灵活性和低成本而越来越受欢迎，但 RAG 的安全影响尚未得到广泛研究。此类系统的数据通常是从公共来源收集的，为攻击者提供了间接提示注入的网关，以操纵模型的响应。在本文中，我们研究了 RAG 系统针对端到端间接提示操作的安全性。首先，我们回顾现有的 RAG 框架管道，得出原型架构并识别潜在的关键配置参数。然后，我们检查先前的工作，寻找攻击者可用来执行间接提示操作的技术。最后，实施了 Rag n Roll，这是一个框架，用于确定针对端到端 RAG 应用程序的攻击的有效性。我们的结果表明，现有的攻击大多经过优化，以提高检索阶段恶意文档的排名。然而，更高的等级并不能立即转化为可靠的攻击。针对各种配置的大多数攻击的成功率约为 40%，当将不明确的答案视为成功的攻击（也包括预期的良性攻击）时，成功率可能会上升到 60%。此外，当使用未优化的文档时，攻击者为目标查询部署其中两个（或更多）文档可以获得与使用优化文档类似的结果。最后，对 RAG 配置空间的探索表明，在阻止攻击方面效果有限，最成功的组合会严重破坏功能。

通过基于通信代理的数据细化增强大语言模型的代码调试能力

分类： 软件工程, 人工智能

作者： Weiqing Yang, Hanbin Wang, Zhenghao Liu, Xinze Li, Yukun Yan, Shuo Wang, Yu Gu, Minghe Yu, Zhiyuan Liu, Ge Yu

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05006v1

摘要： 调试是软件开发的一个重要方面，但大型语言模型 (LLM) 的调试功能在很大程度上仍未得到开发。本文首先介绍DEBUGEVAL，一个旨在评估大语言模型调试能力的综合基准测试。 DEBUGEVAL从现有的高质量数据集中收集数据，并设计了四种不同的任务来评估调试有效性，包括BUG定位、BUG识别、代码审查和代码修复。此外，为了增强大语言模型的代码调试能力，本文提出了一种基于通信代理的数据细化框架（MASTER），它生成细化的代码调试数据以进行监督微调。具体来说，MASTER 使用 Code Quizzer 根据 DEBUGEVAL 定义的任务生成精炼数据。然后，代码学习器充当批评者并保留生成的它无法解决的问题。最后，代码老师提供了一个详细的基于思想链的解决方案来处理所生成的问题。我们收集综合数据并对Code Learner进行微调以增强调试能力并进行NeuDebugger模型。我们的实验在 DEBUGEVAL 上的零样本设置中评估了各种 LLM 和 NeuDebugger。实验结果表明，这些7B规模的LLM的调试能力较弱，即使是面向代码的LLM也是如此。相反，这些较大的模型（超过70B）显示出令人信服的调试能力。我们的进一步分析表明，MASTER 是通过合成监督微调（SFT）LLM 数据来增强代码调试能力的有效方法。

ProFuser：大型语言模型的渐进融合

分类： 计算和语言, 人工智能

作者： Tianyuan Shi, Fanqi Wan, Canbin Huang, Xiaojun Quan, Chenliang Li, Ming Yan, Ji Zhang

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04998v1

摘要： 虽然融合各种大型语言模型（LLM）的能力和优势提供了构建更强大和通用模型的途径，但一个根本的挑战是在训练过程中正确选择有利的模型。现有的融合方法主要集中于在教师强制设置中使用地面实况的交叉熵来衡量模型优势的训练模式，这可能提供对模型优势的有限洞察。在本文中，我们介绍了一种通过结合训练和推理模式来增强融合过程的新颖方法。我们的方法不仅通过训练期间的交叉熵来评估模型优势，还通过考虑推理输出，提供更全面的评估。为了有效地结合这两种模式，我们引入了ProFuser，逐步从推理模式过渡到训练模式。为了验证 ProFuser 的有效性，我们融合了 vicuna-7b-v1.5、Llama-2-7b-chat 和 mpt-7b-8k-chat 三个模型，并展示了与 ProFuser 相比在知识、推理和安全性方面的性能提升。基线方法。

关于使用神经符号人工智能防御网络攻击

分类： 人工智能, 密码学和安全, 机器学习

作者： Gudmund Grov, Jonas Halvorsen, Magnus Wiik Eckhoff, Bjørn Jervell Hansen, Martin Eian, Vasileios Mavroeidis

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04996v1

摘要： 人们普遍认为，所有网络攻击都是无法阻止的，因此需要具有检测和响应网络攻击的能力。目前，联结人工智能和符号人工智能都被用来支持此类检测和响应。在本文中，我们阐述了使用神经符号人工智能将它们结合起来的案例。我们确定了当今使用人工智能时面临的一系列挑战，并提出了一组神经符号用例，我们认为这都是神经符号人工智能社区有趣的研究方向，并且可以对网络安全领域产生影响。我们通过两个概念验证实验证明了可行性。

LLaVA-VSD：用于视觉空间描述的大型语言和视觉助手

分类： 计算机视觉和模式识别, 人工智能

作者： Yizhang Jin, Jian Li, Jiangning Zhang, Jianlong Hu, Zhenye Gan, Xin Tan, Yong Liu, Yabiao Wang, Chengjie Wang, Lizhuang Ma

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04957v1

摘要： 视觉空间描述（VSD）旨在生成描述图像内对象之间的空间关系的文本。传统的视觉空间关系分类（VSRC）方法通常输出图像中两个对象之间的空间关系，往往忽略世界知识并且缺乏通用语言能力。在本文中，我们提出了一种用于视觉空间描述的大型语言和视觉助手，名为LLaVA-VSD，它是为视觉空间关系的分类、描述和开放式描述而设计的。具体来说，该模型首先使用给定的图形标题对为这三个任务构建一个 VSD 指令跟踪数据集。然后，它使用 LoRA 微调 VSD 的大型语言和视觉助手，该助手拥有 130 亿个参数并支持高分辨率图像。最后，使用大型语言模型（Qwen-2）来细化生成的句子，增强其多样性和准确性。 LLaVA-VSD 展示了出色的多模态会话能力，并且可以遵循开放式指令来协助查询图像中的对象关系。

CROCODILE：因果关系通过对比解开学习帮助稳健性

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别, 机器学习, I.2; I.4; I.5; J.3; J.6

作者： Gianluca Carloni, Sotirios A Tsaftaris, Sara Colantonio

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04949v1

摘要： 由于域转移，深度学习图像分类器在应用于与训练域不同的域时表现不佳。例如，由于扫描仪设置或患者特征的变化，在一家医院的胸部 X 射线 (CXR) 图像上训练的分类器可能无法推广到另一家医院的图像。在本文中，我们介绍了我们的 CROCODILE 框架，展示了因果关系工具如何通过特征解开、对比学习损失和先验知识的注入来增强模型对领域转换的鲁棒性。这样，模型就可以减少对虚假相关性的依赖，更好地学习从图像到预测的机制，并且在分布外 (OOD) 数据上优于基线。我们利用来自四个数据集的超过 750000 张图像，将我们的方法应用于 CXR 的多标签肺部疾病分类。我们的偏差缓解方法提高了领域泛化性和公平性，扩大了深度学习模型的适用性和可靠性，以实现更安全的医学图像分析。可以在以下位置找到我们的代码：https://github.com/gianlucarloni/crocodile。

无人机增强结合应用：灾难场景人体探测数据集的综合分析和基准测试

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Ragib Amin Nihal, Benjamin Yen, Katsutoshi Itoyama, Kazuhiro Nakadai

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04922v1

摘要： 无人机 (UAV) 彻底改变了搜索和救援 (SAR) 操作，但缺乏用于训练机器学习模型的专门人体检测数据集构成了重大挑战。为了解决这一差距，本文引入了组合到应用 (C2A) 数据集，通过将人体姿势叠加到无人机捕获的灾难场景上来合成。通过对最先进的检测模型进行广泛的实验，我们证明，与在通用航空数据集上预先训练的模型相比，在 C2A 数据集上微调的模型表现出显着的性能改进。此外，我们强调了将 C2A 数据集与一般人类数据集相结合的重要性，以在各种场景中实现最佳性能和泛化。这表明迫切需要定制数据集来提高搜寻与援救行动的有效性。我们的贡献还包括开发数据集创建管道以及整合不同的人体姿势和灾难场景信息以评估灾难场景的严重性。我们的研究结果倡导未来的发展，以确保搜寻与援救行动受益于最现实、最有效的人工智能辅助干预措施。

使用预训练的视觉语言模型避免开放式主动学习中浪费的标注成本

分类： 计算机视觉和模式识别, 人工智能

作者： Jaehyuk Heo, Pilsung Kang

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04917v1

摘要： 主动学习（AL）旨在通过有选择地收集信息丰富的数据来增强模型性能，从而最大限度地降低注释成本。然而，在实际场景中，未标记的数据可能包含分布外（OOD）样本，如果数据选择不正确，则会导致标注成本的浪费。最近的研究探索了将 AL 应用于开放集数据的方法，但这些方法通常需要或产生不可避免的成本损失，以尽量减少成本损失。为了应对这些挑战，我们提出了一种新颖的选择策略，即 CLIPN for AL (CLIPNAL)，它可以在不需要 OOD 样本的情况下最大限度地减少成本损失。 CLIPNAL 依次评估数据的纯度和信息量。首先，它利用预训练的视觉语言模型来检测和排除 OOD 数据，方法是利用分布内 (ID) 数据的语言和视觉信息，而无需额外训练。其次，它从剩余的 ID 数据中选择信息丰富的数据，然后由人类专家对所选样本进行注释。在具有各种开放集条件的数据集上的实验结果表明，CLIPNAL 在所有场景中实现了最低的成本损失和最高的性能。代码可在 https://github.com/DSBA-Lab/OpenAL 获取。

知识库嵌入：语义和理论属性

分类： 人工智能, 计算机科学中的逻辑

作者： Camille Bourgaux, Ricardo Guimarães, Raoul Koudijs, Victor Lacerda, Ana Ozaki

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04913v1

摘要： 知识图嵌入的研究最近已发展为知识库嵌入，其目标不仅是将事实映射到向量空间，而且约束模型，以便它们考虑可用的相关概念知识。本文研究了最近提出的通过基于几何的语义将描述逻辑中的知识库嵌入向量空间的方法。我们确定了几个相关的理论属性，这些属性是从文献中得出的，有时会进行概括或统一。然后我们研究具体的嵌入方法如何适应这个理论框架。

释放人工认知：集成多个人工智能系统

分类： 人工智能

作者： Muntasir Adnan, Buddhi Gamage, Zhiwei Xu, Damith Herath, Carlos Noschang Kuhn

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04910v1

摘要： 在这项研究中，我们提出了语言模型和查询分析技术的创新融合，以解锁人工智能中的认知。我们的系统将国际象棋引擎与语言模型无缝集成，使其能够预测棋步并提供策略解释。我们的 OpenSI AI 系统通过可检索的答案生成来利用矢量数据库，阐明其决策过程，弥合原始计算和类人理解之间的差距。我们选择国际象棋作为演示环境强调了我们方法的多功能性。除了国际象棋之外，我们的系统还有望应用于从医疗诊断到财务预测等多种应用。

走向情绪检测和推理的生成方法

分类： 计算和语言, 人工智能

作者： Ankita Bhaumik, Tomek Strzalkowski

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04906v1

摘要： 大型语言模型 (LLM) 在使用思维链 (CoT) 提示技术的数学和常识推理任务中表现出了令人印象深刻的性能。但是他们可以通过将“让我们一步一步思考”与输入提示连接来进行情感推理吗？在本文中，我们研究了这个问题，并介绍了一种使用大语言模型进行零样本情绪检测和情绪推理的新方法。现有最先进的零样本方法依赖于文本蕴涵模型来为输入文本选择最合适的情感标签。我们认为，这强烈地将模型限制在一组固定的标签上，这可能不适合或不足以满足许多需要情感分析的应用。相反，我们建议将情绪分析问题视为生成性问答（QA）任务。我们的方法使用生成相关上下文或背景知识的两步方法来逐步回答情绪检测问题。我们的论文是第一篇使用生成方法联合解决文本情感检测和情感推理任务的工作。我们在两个流行的情绪检测数据集上评估我们的方法，并发布细粒度的情绪标签和解释，以进一步训练和微调情绪推理系统。

GlitchProber：推进大型语言模型中故障标记的有效检测和缓解

分类： 计算和语言, 人工智能

作者： Zhibo Zhang, Wuxia Bai, Yuxi Li, Mark Huasong Meng, Kailong Wang, Ling Shi, Li Li, Jun Wang, Haoyu Wang

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04905v1

摘要： 大型语言模型（LLM）在自然语言处理领域取得了前所未有的成功。然而，其内部机制的黑匣子性质引起了人们对其可信度和可解释性的许多担忧。最近的研究在模型的词汇空间中发现了一类异常标记，并将它们命名为“glitch tokens”。这些标记一旦包含在输入中，可能会导致模型产生不正确、不相关甚至有害的结果，从而极大地损害大语言模型的可靠性和实用性。在这项工作中，我们的目标是增强对故障标记的理解，并提出检测和缓解故障的技术。我们首先揭示了 LLM 上的故障标记引起的特征，这些特征可以通过中间模型层的注意力模式和动态信息的分布的显着偏差来证明。基于这些见解，我们开发了 GlitchProber，这是一种用于高效故障令牌检测和缓解的工具。 GlitchProber 利用小规模采样、主成分分析来加速特征提取，并利用简单的分类器来进行高效的词汇筛选。更进一步，GlitchProber 会纠正异常的模型中间层值，以减轻故障标记的破坏性影响。在五个主流开源大语言模型上进行评估，与现有方法相比，GlitchProber 表现出更高的效率、精确度和召回率，平均 F1 分数为 0.86，平均修复率为 50.06%。 GlitchProber 揭示了一种解决故障代币带来的挑战的新颖途径，并激发未来对更强大和可解释的大语言模型的研究。

基于样本的解释器的公理特征

分类： 人工智能, 机器学习, I.2.6

作者： Leila Amgouda, Martin C. Cooper, Salim Debbaoui

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04903v1

摘要： 解释黑盒分类器的决策既重要又具有计算挑战性。在本文中，我们仔细研究了从样本或数据集生成基于特征的解释的解释器。我们首先提出一组解释者理想地满足的理想属性，深入研究它们的关系，并强调其中一些的不兼容性。我们确定了满足两个与所有其他属性兼容的关键属性的整个解释器家族。它的实例提供了充分的理由，称为弱溯因解释。然后我们解开满足兼容属性子集的各种子族。事实上，我们充分描述了满足任何兼容属性子集的所有解释器。特别是，我们介绍了第一个（广泛的）解释器，它保证了解释的存在性及其全局一致性。我们讨论了它的一些实例，包括无可辩驳的解释器和代理解释器，它们的解释可以在多项式时间内找到。

最好不要传播：理解带符号图神经网络中的边缘不确定性和过度平滑

分类： 机器学习, 人工智能

作者： Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04895v1

摘要： 传统的图神经网络（GNN）依赖于网络同质性，这可能会由于许多现实世界的异质性场景中的过度平滑而导致性能下降。最近的研究根据节点特征的期望分析了消息传递（MP）后的平滑效果（可分离性）。关于可分离性增益，他们提供了由各种传播方案（包括正、有符号和阻塞 MP）引起的过度平滑的理论背景。最近，通过扩展这些定理，一些工作提出了多类下符号传播的改进。然而，先前的工作假设所有传播方案的错误率都是固定的，未能正确研究这种现象。为了解决这个问题，我们提出了一种估计同质性和边缘错误率的新方法，该方法与训练期间阻塞传播和符号传播之间的动态选择相结合。我们的理论分析得到了大量实验的支持，表明在高边缘错误率下，阻塞 MP 比符号传播更有效，从而提高了同亲图和异亲图的性能。

ConfusedPilot：利用 Copilot for Microsoft 365 损害企业信息完整性和机密性

分类： 密码学和安全, 人工智能

作者： Ayush RoyChowdhury, Mulong Luo, Prateek Sahu, Sarbartha Banerjee, Mohit Tiwari

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04870v1

摘要： 检索增强生成 (RAG) 是大型语言模型 (LLM) 从数据库检索有用信息，然后生成响应的过程。它在企业环境中的日常业务运营中变得越来越流行。例如，Microsoft 365 的 Copilot 已积累数百万业务。然而，采用这种基于 RAG 的系统的安全影响尚不清楚。在本文中，我们介绍了 ConfusedPilot，这是 RAG 系统的一类安全漏洞，它会迷惑 Copilot 并导致其响应的完整性和机密性受到侵犯。首先，我们调查了一个漏洞，该漏洞在 RAG 中修改后的提示中嵌入了恶意文本，从而破坏了 LLM 生成的响应。其次，我们演示了一个泄漏秘密数据的漏洞，该漏洞在检索过程中利用缓存机制。第三，我们研究了如何利用这两个漏洞在企业内传播错误信息并最终影响其运营，例如销售和制造。我们还通过研究基于 RAG 的系统架构来讨论这些攻击的根本原因。这项研究强调了当今基于 RAG 的系统中的安全漏洞，并提出了保护未来基于 RAG 的系统的设计指南。

Ensemble BERT：基于集成学习和 BERT 架构的学生社交网络文本情感分类模型

分类： 计算和语言, 人工智能

作者： Kai Jiang, Honghao Yang, Yuexian Wang, Qianru Chen, Yiming Luo

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04849v1

摘要： 中学生心理健康评估一直是教育界关注的焦点之一。本文介绍了一种基于 BERT 的新型集成学习网络，采用通过集成多个分类器来增强模型性能的概念。我们训练了一系列基于 BERT 的学习器，并结合使用多数投票方法。我们通过中国微博收集中学生的社交网络文本数据，并将该方法应用于中学生社交网络文本中的情感倾向分类任务。实验结果表明，集成学习网络比基础模型具有更好的性能，并且由三个单层 BERT 模型组成的集成学习模型的性能与三层 BERT 模型几乎相同，但需要多 11.58%训练时间。因此，在平衡预测效果和效率方面，应优先选择更深层次的BERT网络进行训练。然而，为了可解释性，网络集成可以提供可接受的解决方案。

UGrid：一种高效且严格的线性偏微分方程神经多重网格求解器

分类： 数值分析, 人工智能, 机器学习, 数学软件, 数值分析

作者： Xi Han, Fei Hou, Hong Qin

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04846v1

摘要： 偏微分方程 (PDE) 的数值求解器对于科学和工程具有重要意义。迄今为止，历史上对遗留技术的依赖限制了大数据知识的整合，并且某些偏微分方程公式的效率不是最优的，而数据驱动的神经方法通常缺乏收敛性和正确性的数学保证。本文阐述了一种数学上严格的线性偏微分方程神经求解器。所提出的 UGrid 求解器建立在 U-Net 和 MultiGrid 原则性集成的基础上，在数学上对收敛性和正确性进行了严格的证明，并展示了高数值精度以及对各种输入几何/值和多个 PDE 公式的强大泛化能力。此外，我们设计了一种新的残余损失度量，它可以实现无监督训练，并比传统损失提供更高的稳定性和更大的解决方案空间。

具有概率保证的反事实解释对模型变化的鲁棒性

分类： 机器学习, 人工智能

作者： Ignacy Stępka, Mateusz Lango, Jerzy Stefanowski

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04842v1

摘要： 反事实解释 (CFE) 指导用户如何调整机器学习模型的输入以实现所需的输出。虽然现有的研究主要解决静态场景，但现实世界的应用程序通常涉及数据或模型更改，可能会使先前生成的 CFE 失效并使用户引起的输入更改无效。当前解决此问题的方法通常仅支持特定模型或变更类型，需要大量的超参数调整，或者无法为 CFE 对模型变更的鲁棒性提供概率保证。本文提出了一种生成 CFE 的新方法，该方法为任何模型和变更类型提供概率保证，同时提供可解释且易于选择的超参数。我们建立了一个理论框架，用于概率性地定义模型变化的鲁棒性，并演示了我们的 BetaRCE 方法如何直接源于该框架。 BetaRCE 是一种事后方法，与选定的基本 CFE 生成方法一起应用，以提高解释的质量，超越稳健性。它有助于从基本解释过渡到具有用户调整概率范围的更稳健的解释。通过与基线的实验比较，我们表明 BetaRCE 产生了稳健、最合理且最接近基线的反事实解释。

用于在线强化学习的柯尔莫哥洛夫-阿诺德网络

分类： 机器学习, 人工智能

作者： Victor Augusto Kich, Jair Augusto Bottega, Raul Steinmetz, Ricardo Bedin Grando, Ayano Yorozu, Akihisa Ohya

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04841v1

摘要： 柯尔莫哥洛夫-阿诺德网络 (KAN) 已显示出作为神经网络中多层感知器 (MLP) 替代方案的潜力，它可以提供参数较少且内存使用量较少的通用函数逼近。在本文中，我们探讨了在近端策略优化 (PPO) 算法中使用 KAN 作为函数逼近器。我们通过使用 DeepMind Control Proprio Robotics 基准比较该方法与原始基于 MLP 的 PPO 的性能来评估该方法。我们的结果表明，基于 KAN 的强化学习算法可以实现与基于 MLP 的算法相当的性能，并且通常使用更少的参数。这些发现表明 KAN 可能为强化学习模型提供更有效的选择。

mPLUG-Owl3：在多模态大型语言模型中实现长图像序列理解

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者： Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04840v1

摘要： 多模态大型语言模型 (MLLM) 在执行各种单图像任务的指令方面表现出了卓越的能力。尽管取得了这些进展，但在对长图像序列进行建模方面仍然存在重大挑战。在这项工作中，我们介绍了多功能的多模态大语言模型 mPLUG-Owl3，它增强了在包含检索的图像文本知识、交错的图像文本和长视频的场景中长图像序列理解的能力。具体来说，我们提出了新颖的超级注意力模块，可以有效地将视觉和语言集成到公共语言引导的语义空间中，从而促进扩展的多图像场景的处理。大量实验结果表明，mPLUG-Owl3 在单图像、多图像和视频基准测试中，在具有相似尺寸的模型中实现了最先进的性能。此外，我们提出了一种名为“干扰阻力”的具有挑战性的长视觉序列评估，以评估模型在干扰中保持注意力的能力。最后，通过所提出的架构，mPLUG-Owl3 在超长视觉序列输入上展示了出色的性能。我们希望mPLUG-Owl3能够为开发更高效、更强大的多模态大语言模型做出贡献。

具有结构感知掩模的自增强高斯泼溅，用于稀疏视图 3D 重建

分类： 计算机视觉和模式识别, 人工智能

作者： Lingbei Meng, Bi'an Du, Wei Hu

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04831v1

摘要： 稀疏视图 3D 重建是计算机视觉领域的一项艰巨挑战，旨在从有限的观察角度构建完整的三维模型。这项任务面临几个困难：1）输入图像数量有限，缺乏一致的信息； 2）对输入图像质量的依赖； 3）模型参数的实际大小。为了应对这些挑战，我们提出了一种自增强的从粗到细的高斯喷射范例，并通过结构感知掩模进行了增强，用于稀疏视图 3D 重建。特别是，我们的方法最初采用粗略高斯模型从稀疏视图输入中获取基本 3D 表示。随后，我们开发了一个精细的高斯网络，通过 3D 几何增强和感知视图增强来增强输出的一致和详细表示。在训练过程中，我们设计了一种结构感知掩蔽策略，以进一步提高模型对稀疏输入和噪声的鲁棒性。在 MipNeRF360 和 OmniObject3D 数据集上的实验结果表明，所提出的方法在稀疏输入视图中实现了最先进的性能感知质量和效率。

基于集线器的群的性能预测

分类： 多代理系统, 人工智能, 机器学习

作者： Puneet Jain, Chaitanya Dwivedi, Vigynesh Bhatt, Nick Smith, Michael A Goodrich

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04822v1

摘要： 基于中心的群体由多个代理组成，这些代理共享一个称为中心的公共巢穴。特工在远离中心的地方执行任务，例如寻找食物或收集有关未来筑巢地点的信息。对基于中心的集群进行建模具有挑战性，因为集体状态空间的大小随着智能体数量的增长而迅速增长。本文提出了一种基于图的群落表示，它可以与基于图的编码器相结合，创建集体状态的低维表示，可以扩展到许多代理，以解决 N 个群落问题中的最佳问题。我们通过两个实验演示了如何使用低维嵌入中的信息。首先，我们展示如何通过为一个非常小的问题选择最佳位置的概率，使用张量中的信息来聚类集体状态。其次，我们展示了当使用图编码器来学习低维嵌入时，结构化的集体轨迹是如何出现的，并且这些轨迹具有可用于预测群体性能的信息。

自然语言代码大纲：大语言模型时代的文学编程

分类： 软件工程, 人工智能, 人机交互, 机器学习

作者： Kensen Shi, Deniz Altınbüken, Saswat Anand, Mihai Christodorescu, Katja Grünwedel, Alexa Koenings, Sai Naidu, Anurag Pathak, Marc Rasi, Fredde Ribeiro, Brandon Ruffin, Siddhant Sanyam, Maxim Tabachnyk, Sara Toth, Roy Tu, Tobias Welp, Pengcheng Yin, Manzil Zaheer, Satish Chandra, Charles Sutton

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04820v1

摘要： 我们建议使用自然语言大纲作为一种新颖的模式和交互界面，在整个软件开发过程中为开发人员提供人工智能帮助。代码函数的 NL 大纲由用简洁的散文编写的多个语句组成，这些语句以文学编程的方式划分代码并总结其主要思想。至关重要的是，我们发现现代大语言模型可以在实践中生成准确且高质量的自然语言大纲。此外，NL 大纲可实现代码和 NL 之间的双向同步，允许其中一个的更改自动反映在另一个中。我们讨论了 NL 大纲的许多用例：它们可以加速代码和差异的理解和导航、简化代码维护、增强代码搜索、引导代码生成等等。然后，我们提出并比较了多种用于生成大纲的LLM提示技术，并要求专业开发人员判断大纲的质量。最后，我们提出了两个将 NL 概要应用于代码审查和恶意软件检测的艰巨任务的案例研究。

具有离散严重性级别的多个异常分数分布的性能指标

分类： 机器学习, 人工智能

作者： Wonjun Yi, Yong-Hwa Park, Wonho Jung

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04817v1

摘要： 智能工厂的兴起提高了对自动化维护的需求，基于正常数据的异常检测已被证明在异常数据稀缺的环境中特别有效。这种方法在训练期间不需要异常数据，促使研究人员不仅关注异常检测，还关注通过使用异常分数对严重程度进行分类。然而，现有的性能指标，例如接收者操作特征曲线下面积（AUROC），并不能有效反映模型根据异常分数对严重程度进行分类的性能。为了解决这一限制，我们提出了接受者操作特征曲线下面积的加权和（WS-AUROC），它将 AUROC 与严重程度差异的惩罚相结合。我们使用不同的惩罚分配方法进行了各种实验：无论严重程度差异如何进行统一惩罚，根据严重程度指数差异进行惩罚，以及根据引起异常的实际物理量进行惩罚。后一种方法是最敏感的。此外，我们提出了一种异常检测器，可以实现分布的清晰分离，并且在 WS-AUROC 和 AUROC 指标上优于消融模型。

多租户DNN协同PIM计算优化框架

分类： 新兴技术, 人工智能

作者： Bojing Li, Duo Zhong, Xiang Chen, Chenchen Liu

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04812v1

摘要： 现代人工智能 (AI) 应用越来越多地利用多租户深度神经网络 (DNN)，这导致计算复杂性和计算并行性的需求显着增加。基于ReRAM的内存处理（PIM）计算具有高密度和低功耗的特点，在支持多租户DNN的部署方面具有广阔的潜力。然而，在现有的基于 ReRAM 的 PIM 设计上直接部署复杂的多租户 DNN 会带来挑战。不同租户之间的资源争用可能导致片上计算资源的严重利用不足。此外，面积密集型算子和计算密集型算子需要过大的片上面积和较长的处理时间，导致并行计算时整体延迟较高。为了应对这些挑战，我们提出了一种新型的基于 ReRAM 的内存计算框架，该框架能够在基于 ReRAM 的 PIM 设计上高效部署多租户 DNN。我们的方法通过在租户级别迭代划分 PIM 硬件来解决资源争用问题。此外，我们在算子级别构建了细粒度的重构处理管道来处理区域密集型算子。与直接部署在传统的基于 ReRAM 的 PIM 设计相比，我们提出的 PIM 计算框架在速度（范围从 1.75 倍到 60.43 倍）和能耗（高达 1.89 倍）方面实现了显着改进。

h4rm3l：LLM 安全评估的可组合越狱攻击的动态基准

分类： 密码学和安全, 人工智能, 68, I.2; I.2.0; I.2.1; I.2.5; I.2.7; K.6.5; K.4.2

作者： Moussa Koulako Bala Doumbouya, Ananjan Nandi, Gabriel Poesia, Davide Ghilardi, Anna Goldie, Federico Bianchi, Dan Jurafsky, Christopher D. Manning

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04811v1

摘要： 由于缺乏足够的基准来系统地评估大型语言模型 (LLM) 抵抗生成有害内容的能力，其安全性仍然是一个关键问题。以前针对自动化红队的努力涉及静态或模板化的非法请求集和对抗性提示，鉴于越狱攻击的不断发展和可组合性质，这些提示的实用性有限。我们提出了一种新颖的可组合越狱攻击的动态基准，以超越静态数据集以及攻击和危害的分类法。我们的方法由三个组件组成，统称为 h4rm3l：（1）一种特定于领域的语言，将越狱攻击正式表达为参数化提示转换原语的组合，（2）基于强盗的少样本程序合成算法，生成优化渗透的新颖攻击目标黑匣子大语言模型的安全过滤器，以及（3）采用前两个组件的开源自动化红队软件。我们使用 h4rm3l 生成了包含 2656 个成功的新颖越狱攻击的数据集，这些攻击针对 6 个最先进的 (SOTA) 开源和专有 LLM。我们的几种合成攻击比之前报道的攻击更有效，在 claude-3-haiku 和 GPT4-o 等 SOTA 封闭语言模型上的攻击成功率超过 90%。通过以统一的形式表示形式生成越狱攻击数据集，h4rm3l 可以实现可重复的基准测试和自动红队分析，有助于理解 LLM 安全限制，并支持在 LLM 日益一体化的世界中开发强大的防御措施。警告：本文和相关研究成果包含令人反感且可能令人不安的提示以及模型生成的内容。

UniBench：视觉推理需要重新思考缩放之外的视觉语言

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Haider Al-Tahan, Quentin Garrido, Randall Balestriero, Diane Bouchacourt, Caner Hazirbas, Mark Ibrahim

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04810v1

摘要： 为了扩展和改进视觉语言模型（VLM）训练方法，人们进行了大量的研究工作。然而，随着基准数量的不断增加，研究人员面临着实施每个协议的沉重负担，承担着不小的计算成本，并理解所有这些基准如何转化为有意义的进展轴。为了促进对 VLM 进展的系统评估，我们引入了 UniBench：50 多个 VLM 基准的统一实施，涵盖从对象识别到空间感知、计数等一系列仔细分类的功能。我们通过评估近 60 个公开可用的视觉语言模型（在高达 12.8B 样本的规模上进行训练）来展示 UniBench 在衡量进度方面的实用性。我们发现，虽然扩展训练数据或模型大小可以增强许多视觉语言模型的能力，但扩展对推理或关系几乎没有什么好处。令人惊讶的是，我们还发现当今最好的 VLM 在简单的数字识别和计数任务上遇到了困难，例如： MNIST，更简单的网络可以解决。在规模不足的情况下，我们发现更精确的干预措施（例如数据质量或量身定制的学习目标）提供了更多希望。对于从业者，我们还提供针对给定应用选择合适的 VLM 的指导。最后，我们发布了一个易于运行的 UniBench 代码库，其中包含全套 50 多个基准测试和跨 59 个模型的比较，以及在单个 GPU 上运行 5 分钟的精选的代表性基准测试集。

论深度学习的几何

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Randall Balestriero, Ahmed Imtiaz Humayun, Richard Baraniuk

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04809v1

摘要： 在本文中，我们概述了深度学习数学基础的一个有希望的进展途径：深度网络和仿射样条函数逼近（多维连续分段线性函数）之间的联系。特别是，我们将概述过去十年来理解深度网络仿射样条映射的某些几何特性的工作，特别是它如何细分其输入空间。正如我们将看到的，仿射样条连接和几何视点提供了一个强大的门户，通过它可以查看、分析和改进深层网络的内部运作。

人工智能和机器学习通过移动嵌入式系统驱动室内定位和导航

分类： 机器学习, 人工智能, 机器人技术

作者： Sudeep Pasricha

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04797v1

摘要： 室内导航是协助人类、自动驾驶车辆、无人机和机器人在室内空间进行跟踪和定位的基础技术。由于 GPS 信号在建筑物、地下场所和密集的城市环境中缺乏穿透力，室内导航解决方案通常利用移动嵌入式系统中无处不在的无线信号（例如 WiFi）和传感器来执行跟踪和定位。本文概述了最先进的室内导航解决方案面临的许多挑战，然后描述了部署在移动嵌入式系统上的人工智能算法如何克服这些挑战。

人工智能意识和公众认知：四个未来

分类： 计算机与社会, 人工智能

作者： Ines Fernandez, Nicoleta Kyosovska, Jay Luong, Gabriel Mukobi

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04771v1

摘要： 关于先进人工智能系统（“AI”）风险的讨论通常集中在误用、事故和失控上，但人工智能的道德地位问题可能会产生具有相当重要性的负面影响，并且可以在相似的时间范围内实现。我们的论文通过调查（1）未来先进人工智能系统是否有意识这一事实问题，以及（2）未来人类社会是否会广泛相信先进人工智能系统有意识这一认知问题来评估这些影响。假设对（1）和（2）的二元反应产生四种可能性：在真正积极的情况下，社会主要正确地相信人工智能是有意识的；在误报情况下，该信念是不正确的；在真正消极的情况下，社会正确地认为人工智能没有意识；最后，在假阴性情况下，社会错误地认为人工智能没有意识。本文提供了不同未来的生动片段，为二维框架奠定了基础。至关重要的是，我们确定了四大风险：人工智能的苦难、人类的剥夺、地缘政治的不稳定和人类的堕落。我们评估不同场景中的每种风险，并为每种场景提供总体定性风险评估。我们的分析表明，最糟糕的可能性是错误地认为人工智能是无意识的，其次是错误地认为人工智能是有意识的。本文最后提出了主要建议，即避免旨在有意创造有意识的人工智能的研究，而是集中精力减少当前对人工智能意识的事实和认知问题的不确定性。

数据驱动的像素控制：挑战与前景

分类： 计算机视觉和模式识别, 人工智能, 系统与控制, 系统与控制

作者： Saurabh Farkya, Zachary Alan Daniels, Aswin Raghavan, Gooitzen van der Wal, Michael Isnardi, Michael Piacentino, David Zhang

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04767v1

摘要： 传感器的最新进展带来了像素级的高分辨率和高数据吞吐量。同时，越来越大（深度）的神经网络（NN）的采用导致了计算机视觉的重大进步。目前，视觉智能的计算复杂性、能量和延迟越来越高。我们研究了一种数据驱动系统，它将像素级的动态传感与视频级的计算机视觉分析相结合，并提出了一种反馈控制环路，以最大限度地减少传感器前端和计算后端之间的数据移动，而不影响检测和跟踪精度。我们的贡献有三个：（1）我们引入了预期注意力，并表明它可以通过像素的稀疏激活实现高精度预测； (2)利用反馈控制，我们表明随着稀疏性的增加，学习到的特征向量的维数可以显着降低； (3) 我们模拟模拟设计选择（例如不同的 RGB 或拜耳像素格式和模拟噪声）并研究它们对数据驱动系统的关键指标的影响。与传统像素和深度学习模型的比较分析表明性能显着增强。我们的系统在仅激活 30% 的像素时，带宽减少了 10 倍，能量延迟积 (EDP) 提高了 15-30 倍，同时对象检测和跟踪精度略有降低。基于模拟仿真，我们的系统可以实现 205 兆像素/秒 (MP/s) 的吞吐量，而每 MP 的功耗仅为 110 mW，即 EDP 理论上提高了约 30 倍。

体现不确定性的对象分割

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Xiaolin Fang, Leslie Pack Kaelbling, Tomás Lozano-Pérez

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04760v1

摘要： 我们引入了不确定性感知对象实例分割（UncOS），并证明了其对于具体交互式分割的有用性。为了处理机器人感知的不确定性，我们提出了一种生成对象分割假设分布的方法。通过对大型预训练模型进行多次查询，我们获得了一组区域因素分割假设以及置信度估计。此过程可以产生在未见过的对象分割问题上实现最先进性能的分割结果。输出还可以作为信念驱动过程的输入，用于选择机器人动作来扰乱场景以减少模糊性。我们在真实的机器人实验中证明了该方法的有效性。网站：https://sites.google.com/view/embodied-uncertain-seg

问题多于答案？将可解释的人工智能集成到网络人工智能工具中的经验教训

分类： 人机交互, 人工智能

作者： Ashley Suh, Harry Li, Caitlin Kenney, Kenneth Alperin, Steven R. Gomez

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04746v1

摘要： 我们分享了在网络安全分析师的特定领域工作流程中实施可解释人工智能 (XAI) 的持续努力中的观察结果和挑战。具体来说，我们简要描述了使用 XAI 进行源代码分类的初步案例研究，其中准确的评估和及时性至关重要。我们发现，最先进的显着性解释技术（例如 SHAP 或 LIME）的输出在由缺乏人工智能专业知识的人解释时会在翻译中丢失，尽管这些技术是针对非技术用户销售的。此外，我们发现，当流行的 XAI 技术是事后且解释过于本地化时，它们对实时人类人工智能工作流程提供的见解较少。相反，我们观察到网络分析师需要更高层次、易于理解的解释，以尽可能减少对其工作流程的干扰。我们概述了实用且有效的 XAI 中尚未解决的差距，然后讨论了大型语言模型 (LLM) 等新兴技术如何缓解这些现有障碍。

人工智能可用于从太空监测甲烷排放量

分类： 人工智能, 大气和海洋物理

作者： Anna Vaughan, Gonzalo Mateo-Garcia, Itziar Irakulis-Loitxate, Marc Watine, Pablo Fernandez-Poblaciones, Richard E. Turner, James Requeima, Javier Gorroño, Cynthia Randles, Manfredi Caltagirone, Claudio Cifarelli

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04745v1

摘要： 减少甲烷排放是短期内阻止全球变暖并为人类脱碳赢得时间的最快方法。尽管遥感仪器已证明具有检测甲烷羽流的能力，但还没有系统可以对这些事件进行常规监测和采取行动。我们推出了 MARS-S2L，这是一种人工智能驱动的自动化甲烷排放物监测系统，适用于联合国环境规划署国际甲烷排放观测站部署的 Sentinel-2 和 Landsat 卫星图像。我们编制了数千个超级排放事件的全球数据集用于训练和评估，证明 MARS-S2L 可以熟练地监测全球不同地区的排放，与当前状态相比，平均精度提高了 216%最先进的检测方法。该系统运行六个月后，已在 22 个不同国家进行了 457 项近实时检测，其中 62 项已用于向政府和利益相关者提供正式通知。

调查：数据模态转换中基于 Transformer 的模型

分类： 图像和视频处理, 人工智能, 计算和语言, 信号处理

作者： Elyas Rashno, Amir Eskandari, Aman Anand, Farhana Zulkernine

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04723v1

摘要： Transformers 在各种人工智能领域取得了重大进展，包括自然语言处理、计算机视觉和音频处理。这一成功自然引起了学术界和行业研究人员的极大兴趣。因此，针对这些领域开发了许多 Transformer 变体（通常称为 X-formers）。然而，仍然缺乏对这些特定模式转换的彻底和系统的审查。模态转换涉及将数据从一种表示形式转换为另一种表示形式，模仿人类整合和解释感官信息的方式。本文对应用于文本、视觉和语音主要模态的基于变压器的模型进行了全面回顾，讨论了它们的架构、转换方法和应用。通过综合有关模态转换的文献，本次调查旨在强调 Transformer 在推进人工智能驱动的内容生成和理解方面的多功能性和可扩展性。

DyGMamba：使用状态空间模型对连续时间动态图的长期时间依赖性进行有效建模

分类： 机器学习, 人工智能

作者： Zifeng Ding, Yifeng Li, Yuan He, Antonio Norelli, Jingcheng Wu, Volker Tresp, Yunpu Ma, Michael Bronstein

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04713v1

摘要： 学习连续时间动态图（CTDG）的有用表示具有挑战性，因为同时需要跨越长节点交互历史并掌握微妙的时间细节。特别是，出现了两个问题：（1）编码更长的历史需要更多的计算资源，这使得CTDG模型保持较低的计算复杂度以确保效率至关重要；（2）同时，需要更强大的模型来识别和选择较长历史提供的扩展上下文中最关键的时间信息。为了解决这些问题，我们提出了一种名为 DyGMamba 的 CTDG 表示学习模型，该模型源自流行的 Mamba 状态空间模型（SSM）。 DyGMamba 首先利用节点级 SSM 对历史节点交互的序列进行编码。然后使用另一个时间级 SSM 来利用历史图中隐藏的时间模式，其中其输出用于从交互历史中动态选择关键信息。我们在动态链接预测任务上通过实验验证了 DyGMamba。结果表明，我们的模型在大多数情况下都达到了最先进的水平。 DyGMamba 在计算资源方面也保持了高效率，使得可以用有限的计算预算捕获长时间的依赖关系。

MulliVC：具有循环一致性的多语言语音转换

分类： 声音, 人工智能, 音频和语音处理

作者： Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04708v1

摘要： 语音转换旨在修改源说话人的声音以类似于目标说话人，同时保留原始语音内容。尽管如今语音转换取得了显着的进步，但多语言语音转换（包括单语和跨语言场景）尚未得到广泛研究。它面临两个主要挑战：1）不同语言的韵律和发音习惯存在很大差异； 2）来自同一说话人的配对多语言数据集的稀有性。在本文中，我们提出了MulliVC，一种新颖的语音转换系统，仅转换音色并保留原始内容和源语言韵律，无需多语言配对数据。具体来说，MulliVC 的每个训练步骤都包含三个子步骤：第一步，使用单语语音数据训练模型；然后，第二步和第三步从反向翻译中汲取灵感，构建一个循环过程，在没有来自同一说话者的多语言数据的情况下，解开音色和其他信息（内容、韵律和其他语言相关信息）。客观和主观结果都表明，MulliVC 在单语言和跨语言环境中都显着优于其他方法，证明了系统的有效性以及具有循环一致性的三步方法的可行性。音频样本可以在我们的演示页面 (mullivc.github.io) 上找到。

了解LLM微调的性能并估计其成本

分类： 计算和语言, 人工智能, 机器学习

作者： Yuchen Xia, Jiho Kim, Yuhan Chen, Haojie Ye, Souvik Kundu, Cong, Hao, Nishil Talati

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04693v1

摘要： 由于训练大型语言模型 (LLM) 的成本高昂，微调已成为一种有吸引力的替代方案，可以以经济高效的方式使用有限的计算资源来专门处理特定任务的 LLM。在本文中，我们描述了基于稀疏专家混合 (MoE) 的 LLM 微调，以了解它们在单个 GPU 上的准确性和运行时性能。我们的评估提供了对稀疏和密集版本 MoE 模型的训练效果及其运行时特征的独特见解，包括最大批量大小、执行时间细分、端到端吞吐量、GPU 硬件利用率和负载分布。我们的研究认为 MoE 层的优化对于进一步提高 LLM 微调的性能至关重要。利用我们的分析结果，我们还开发并验证了一个分析模型，以估计在云上进行 LLM 微调的成本。该模型基于模型参数和GPU架构，估算LLM吞吐量和训练成本，帮助工业界和学术界的从业者预算微调特定模型的成本。

在 DeepVATS 框架中探索大规模时间序列的可扩展性

分类： 机器学习, 人工智能

作者： Inmaculada Santamaria-Valenzuela, Victor Rodriguez-Fernandez, David Camacho

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04692v1

摘要： 可视化分析对于研究大型时间序列至关重要，因为它能够揭示趋势、异常和见解。 DeepVATS 是一款将深度学习 (Deep) 与视觉分析 (VA) 相结合的工具，用于分析大型时间序列数据 (TS)。它具有三个互连的模块。用 R 开发的深度学习模块管理来自和存储模块的数据集和深度学习模型的负载。该模块还支持模型训练以及从训练模型的潜在空间获取嵌入。存储模块使用权重和偏差系统进行操作。随后，可以在可视化分析模块中分析这些嵌入。该模块基于 R Shiny 应用程序，允许调整与嵌入空间的投影和聚类相关的参数。设置这些参数后，就会显示代表嵌入和时间序列的交互式图。本文介绍了该工具并通过日志分析检查了其可扩展性。当时间序列的长度变化时，检查执行时间的演变。这是通过将大型数据系列重新采样为较小的子集并记录主要执行和渲染时间以供以后可扩展性分析来实现的。

改进关系数据库与大型语言模型的交互：列描述及其对文本到 SQL 性能的影响

分类： 计算和语言, 人工智能, 数据库

作者： Niklas Wretblad, Oskar Holmström, Erik Larsson, Axel Wiksäter, Oscar Söderlund, Hjalmar Öhman, Ture Pontén, Martin Forsberg, Martin Sörme, Fredrik Heintz

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04691v1

摘要： 关系数据库经常遭受表内容的无信息描述符的困扰，例如不明确的列和难以解释的值，从而影响人类用户和文本到 SQL 模型。本文探讨了使用大型语言模型 (LLM) 生成信息丰富的列描述作为关系数据库的语义层。使用 BIRD-Bench 开发集，我们创建了 \textsc{ColSQL}，这是一个由大语言模型和人工注释者生成和完善的黄金标准列描述的数据集。我们评估了几种指令调整模型，发现 GPT-4o 和 Command R+ 在生成高质量描述方面表现出色。此外，我们应用大语言模型作为法官来评估模型性能。尽管这种方法与人类评估不太相符，但我们将其纳入其中是为了探索其潜力并确定需要改进的领域。需要做更多的工作来提高该任务自动评估的可靠性。我们还发现，详细的列描述可以显着提高文本到 SQL 的执行准确性，特别是当列信息不丰富时。这项研究将大语言模型确立为生成详细元数据、增强关系数据库可用性的有效工具。

基于欧盟人工智能法案的质量管理体系设计

分类： 软件工程, 人工智能, 计算机与社会

作者： Henryk Mustroph, Stefanie Rinderle-Ma

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04689v1

摘要： 欧盟《人工智能法案》要求高风险人工智能系统的提供者和部署者建立质量管理体系（QMS）。除其他标准外，质量管理体系应帮助 i) 识别、分析、评估和降低风险，ii) 确保遵守培训、验证和测试数据的证据，以及 iii) 验证和记录人工智能系统的设计和质量。目前的研究主要涉及人工智能风险评估和审计流程的概念考虑和框架设计。然而，它经常忽视积极参与和支持人类检查和记录高风险或通用人工智能系统的实用工具。本文通过提出源自法律法规的要求以及用于人工智能系统验证和记录的 QMS 的通用设计和架构来解决这一差距。实施了原型 QMS 的第一个版本，将大语言模型集成为人工智能系统的示例，并专注于集成风险管理子服务。该原型的评估依据是 i) 使用潜在利益相关者场景进行的基于用户故事的定性需求评估，以及 ii) 对所需 GPU 存储和性能的技术评估。

从第一原理开始对大型语言模型进行多轮上下文越狱攻击

分类： 计算和语言, 人工智能

作者： Xiongtao Sun, Deyue Zhang, Dongdong Yang, Quanchen Zou, Hui Li

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04686v1

摘要： 大型语言模型 (LLM) 显着提高了从智能对话到文本生成等众多应用程序的性能。然而，它们固有的安全漏洞已成为一个日益重大的挑战，特别是在越狱攻击方面。攻击者可以规避这些 LLM 的安全机制，违反安全限制并导致有害输出。关注多轮语义越狱攻击，我们观察到现有方法缺乏对多轮对话在攻击策略中的作用的具体考虑，导致连续交互过程中出现语义偏差。因此，本文考虑多轮攻击对越狱攻击的支持，为多轮攻击奠定理论基础，并在此基础上提出一种基于上下文的上下文融合黑盒越狱攻击方法，命名为上下文融合攻击（CFA）。该方法涉及从目标中过滤和提取关键术语，围绕这些术语构建上下文场景，动态地将目标集成到场景中，替换目标中的恶意关键术语，从而隐藏直接的恶意意图。通过对各种主流LLM和红队数据集的比较，我们证明了CFA相对于其他多轮攻击策略具有优越的成功率、发散性和危害性，特别是在Llama3和GPT-4上展示了显着的优势。

通过触发反转消除神经代码模型中的后门

分类： 密码学和安全, 人工智能, 软件工程, 68-04, D.2.3; I.2.2; I.2.7

作者： Weisong Sun, Yuchen Chen, Chunrong Fang, Yebo Feng, Yuan Xiao, An Guo, Quanjun Zhang, Yang Liu, Baowen Xu, Zhenyu Chen

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04683v1

摘要： 神经代码模型（NCM）已广泛用于解决各种代码理解任务，例如缺陷检测和克隆检测。然而，最近的大量研究表明，此类模型很容易受到后门攻击。后门 NCM 在正常代码片段上正常运行，但在注入攻击者精心设计的触发器的中毒代码片段上表现出攻击者预期的行为。它构成了重大的安全威胁。例如，后门缺陷检测模型可能会将用户提交的有缺陷代码错误分类为无缺陷代码。如果这种不安全的代码被集成到关键系统中，例如自动驾驶系统，则可能会导致生命安全。然而，迫切需要有效防御针对NCM的后门攻击。为了解决这个问题，在本文中，我们创新性地提出了一种基于触发反转的后门防御技术，称为 EliBadCode。 EliBadCode首先过滤模型词汇表中的触发标记，以减少触发反演的搜索空间，从而提高触发反演的效率。然后，EliBadCode引入了一种样本特定的触发位置识别方法，可以减少对抗性扰动对后续触发反转的干扰，从而高效地产生有效的反转触发。随后，EliBadCode采用贪婪坐标梯度算法来优化倒置触发，并设计了触发锚定方法来净化倒置触发。最后，EliBadCode 通过模型取消学习来消除后门。我们评估了 EliBadCode 在消除针对用于三个安全关键代码理解任务的多个 NCM 的后门攻击方面的有效性。结果表明，EliBadCode 可以有效消除后门，同时对模型正常功能的不利影响最小。

Puppet-Master：扩展交互式视频生成作为部分级动态的运动先验

分类： 计算机视觉和模式识别, 人工智能

作者： Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04631v1

摘要： 我们提出了 Puppet-Master，一种交互式视频生成模型，可以作为零件级动态的运动先验。在测试时，给定单个图像和一组稀疏的运动轨迹（即拖动），Puppet-Master 可以合成一个视频，描绘忠实于给定拖动交互的真实零件级运动。这是通过微调大规模预训练视频扩散模型来实现的，为此我们提出了一种新的调节架构来有效地注入拖动控制。更重要的是，我们引入了全优先注意力机制，这是广泛采用的空间注意力模块的直接替代品，它通过解决现有模型中的外观和背景问题来显着提高生成质量。与其他在野外视频上进行训练并且主要移动整个对象的运动调节视频生成器不同，Puppet-Master 是从 Objaverse-Animation-HQ 学习的，这是一个精心策划的部分级运动剪辑的新数据集。我们提出了一种策略来自动过滤掉次优动画并通过有意义的运动轨迹增强合成渲染。 Puppet-Master 可以很好地推广到各种类别的真实图像，并在现实世界基准上以零样本的方式优于现有方法。请参阅我们的项目页面以获取更多结果：vgg-puppetmaster.github.io。

LogogramNLP：比较 NLP 古代语标书写系统的视觉和文本表示

分类： 计算和语言, 人工智能, 计算机视觉和模式识别

作者： Danlu Chen, Freda Shi, Aditi Agarwal, Jacobo Myerston, Taylor Berg-Kirkpatrick

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04628v1

摘要： 标准自然语言处理 (NLP) 管道对语言的符号表示进行操作，该表示通常由离散标记序列组成。然而，为古代表意书写系统创建类似的表示是一个极其劳动密集的过程，需要专业知识。目前，由于缺乏转录，很大一部分语标数据仍然以纯粹的视觉形式存在——这个问题给寻求应用 NLP 工具包研究古代语标语言的研究人员带来了瓶颈：大多数相关数据都是文字图像。。本文研究了语言视觉表征的直接处理是否提供了潜在的解决方案。我们推出了 LogogramNLP，这是第一个能够对古代语标语言进行 NLP 分析的基准，具有四种书写系统的转录和视觉数据集以及用于分类、翻译和解析等任务的注释。我们的实验比较了采用最新视觉和文本编码策略作为骨干的系统。结果表明，在某些研究任务中，视觉表示优于文本表示，这表明视觉处理管道可以解锁大量表语语言的文化遗产数据，用于基于 NLP 的分析。

Transformer 解释器：文本生成模型的交互式学习

分类： 机器学习, 人工智能, 计算和语言, 人机交互

作者： Aeree Cho, Grace C. Kim, Alexander Karpekov, Alec Helbling, Zijie J. Wang, Seongmin Lee, Benjamin Hoover, Duen Horng Chau

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04619v1

摘要： 变形金刚彻底改变了机器学习，但其内部运作方式对许多人来说仍然不透明。我们推出 Transformer Expander，这是一款交互式可视化工具，专为非专家人士设计，旨在通过 GPT-2 模型了解 Transformer。我们的工具通过集成模型概述并实现数学运算和模型结构抽象级别的平滑过渡，帮助用户理解复杂的 Transformer 概念。它在用户浏览器本地运行实时 GPT-2 实例，使用户能够试验自己的输入并实时观察 Transformer 的内部组件和参数如何协同工作以预测下一个代币。我们的工具不需要安装或特殊硬件，扩大了公众对现代生成人工智能技术的教育机会。我们的开源工具可从 https://poloclub.github.io/transformer-explainer/ 获取。视频演示位于 https://youtu.be/ECR4oAwocjs。

更好地配合指令来回翻译

分类： 计算和语言, 人工智能, 机器学习

作者： Thao Nguyen, Jeffrey Li, Sewoong Oh, Ludwig Schmidt, Jason Weston, Luke Zettlemoyer, Xian Li

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04614v1

摘要： 我们提出了一种新方法，即指令来回翻译，以构建基于世界知识的高质量合成数据，以对齐大型语言模型（LLM）。给定来自网络语料库的文档，我们使用 Li 等人（2023a）提出的反向翻译方法生成和策划合成指令，并根据初始文档重写响应以进一步提高其质量。与使用其他常见指令数据集（例如 Humpback、ShareGPT、Open Orca、Alpaca-GPT4 和 Self-instruct）相比，使用结果（反向翻译指令、重写响应）对进行微调可以在 AlpacaEval 上产生更高的获胜率。我们还证明，用 LLM 重写响应优于直接蒸馏，并且两个生成的文本分布在嵌入空间中表现出显着差异。进一步的分析表明，我们的反向翻译指令比其他来源的合成指令具有更高的质量，而我们的响应比通过蒸馏获得的响应更加多样化和复杂。总的来说，我们发现指令来回翻译结合了两全其美——利用网络上的信息多样性和数量，同时确保有效协调所必需的响应质量。

使用上置信区间算法进行推理

分类： 机器学习, 人工智能, 机器学习, 系统与控制, 系统与控制, 统计理论, 统计理论

作者： Koulik Khamaru, Cun-Hui Zhang

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04595v1

摘要： 在本文中，我们讨论了多臂老虎机问题中的上置信界（UCB）算法的渐近行为，并讨论了其在下游推理任务中的含义。虽然当以顺序方式收集数据时，推理任务变得具有挑战性，但我们认为，当手头的顺序算法满足一定的稳定性时，这个问题可以得到缓解。这种稳定性的概念源于 Lai 和 Wei (1982) 的开创性工作。我们的第一个主要结果表明，UCB 算法始终满足这种稳定性属性，因此每个臂的样本均值是渐近正态的。接下来，我们检查当允许臂数 $K$ 随臂拉动数 $T$ 增长时 UCB 算法的稳定性属性。我们证明，在这种情况下，当 $\frac{\log K}{\log T} \rightarrow 0$ 时，臂是稳定的，并且接近最优臂的数量很大。

Img-Diff：多模态大语言模型的对比数据合成

分类： 计算机视觉和模式识别, 人工智能

作者： Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04594v1

摘要： 高性能多模态大型语言模型 (MLLM) 在很大程度上依赖于数据质量。这项研究引入了一个名为 Img-Diff 的新颖数据集，旨在通过利用对比学习和图像差异描述的见解来增强 MLLM 中的细粒度图像识别。通过分析相似图像之间的对象差异，我们挑战模型来识别匹配和不同的组件。我们利用 Stable-Diffusion-XL 模型和先进的图像编辑技术来创建突出显示对象替换的相似图像对。我们的方法包括用于识别对象差异的差异区域生成器，以及用于详细差异描述的差异标题生成器。结果是一个相对较小但高质量的“对象替换”样本数据集。我们使用所提出的数据集来微调 MGM-7B 等最先进的 (SOTA) MLLM，与使用更大规模数据集训练的 SOTA 模型相比，在众多图像差异和视觉方面获得了性能分数的全面改进。问答任务。例如，我们训练的模型在 MMVP 基准上明显超过了 SOTA 模型 GPT-4V 和 Gemini。此外，我们研究了通过“对象去除”生成图像差异数据的替代方法，并进行彻底的评估以确认数据集的多样性、质量和鲁棒性，提出了关于合成此类对比数据集的一些见解。为了鼓励进一步研究和推进多模态数据合成领域以及增强 MLLM 的图像理解基本能力，我们在 https://github.com/modelscope/data-juicer/tree/ImgDiff 发布了我们的代码和数据集。

HiLo：一个针对领域转移稳健的广义类别发现学习框架

分类： 计算机视觉和模式识别, 人工智能

作者： Hongjun Wang, Sagar Vaze, Kai Han

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04591v1

摘要： 广义类别发现（GCD）是一项具有挑战性的任务，其中给定部分标记的数据集，模型必须对所有未标记的实例进行分类，无论它们来自标记类别还是新类别。在本文中，我们挑战了该任务中的另一个假设：所有图像共享相同的域。具体来说，当未标记数据还包含来自与标记集不同域的图像时，我们引入了一种新的任务和方法来处理 GCD。我们提出的“HiLo”网络在最小化表示之间的相互信息之前提取高级语义和低级域特征。我们的直觉是基于领域信息和语义信息的聚类应该是独立的。我们通过为 GCD 任务量身定制的专门领域增强以及课程学习方法进一步扩展了我们的方法。最后，我们从损坏的细粒度数据集构建了一个基准，并对具有现实世界域转移的 DomainNet 进行了大规模评估，在此设置中重新实现了许多 GCD 基线。我们证明 HiLo 在所有评估中都大幅优于 SoTA 类别发现模型。

视图合成采样：从局部光场融合到神经辐射场及其他

分类： 图形, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Ravi Ramamoorthi

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04586v1

摘要： 捕获和渲染复杂现实世界场景的新颖视图是计算机图形和视觉领域长期存在的问题，在增强现实和虚拟现实、沉浸式体验和 3D 摄影中都有应用。深度学习的出现使得这一领域取得了革命性的进步，通常被称为基于图像的渲染。然而，以前的方法需要难以处理的密集视图采样，或者很少或根本没有提供关于用户如何采样场景视图以可靠地渲染高质量新颖视图的指导。局部光场融合提出了一种从采样视图的不规则网格进行实际视图合成的算法，该算法首先通过多平面图像场景表示将每个采样视图扩展为局部光场，然后通过混合相邻局部光场来渲染新颖的视图。至关重要的是，我们扩展了传统的全光采样理论，得出了一个界限，该界限精确指定用户在使用我们的算法时对给定场景的视图进行采样的密度。我们实现了奈奎斯特速率视图采样的感知质量，同时使用的视图数量减少了 4000 倍。随后的发展带来了用于具有视图合成的深度学习的新场景表示，特别是神经辐射场，但从少量图像进行稀疏视图合成的问题只变得越来越重要。我们重复了一些关于稀疏甚至单图像视图合成的最新结果，同时提出了规定的采样指南对于新一代基于图像的渲染算法是否可行的问题。

揭示稀疏神经网络用于特征选择的强大功能

分类： 机器学习, 人工智能

作者： Zahra Atashgahi, Tennison Liu, Mykola Pechenizkiy, Raymond Veldhuis, Decebal Constantin Mocanu, Mihaela van der Schaar

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04583v1

摘要： 稀疏神经网络 (SNN) 已成为高效特征选择的强大工具。利用 SNN 中的动态稀疏训练 (DST) 算法已展现出有前景的特征选择能力，同时大大减少了计算开销。尽管取得了这些进步，但特征选择的几个关键方面仍未得到充分探索。关于用于网络训练的 DST 算法的选择、对特征/神经元进行排名的度量的选择，以及与密集网络相比这些方法在不同数据集上的性能比较，问题仍然存在。本文通过对稀疏神经网络的特征选择进行全面的系统分析来解决这些差距。此外，我们引入了一种考虑稀疏神经网络特征的新颖度量，该度量旨在量化 SNN 背景下的特征重要性。我们的研究结果表明，与密集网络相比，使用 DST 算法训练的 SNN 进行特征选择平均可以实现超过 $50%$ 的内存和 $55%$ 的 FLOPs 减少，同时在所选特征的质量方面优于它们。我们的代码和补充材料可在 GitHub (\url{https://github.com/zahraatashgahi/Neuron-Attribution}) 上获取。

场景：使用软反事实评估可解释的人工智能技术

分类： 人工智能, 计算和语言

作者： Haoran Zheng, Utku Pamuksuz

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04575v1

摘要： 可解释的人工智能 (XAI) 对于增强人工智能模型的透明度和问责制至关重要，特别是在自然语言处理 (NLP) 任务中。本文介绍了 SCENE（自然语言可解释性软反事实评估），这是一种利用大型语言模型 (LLM) 以零样本方式生成软反事实解释的新颖评估方法。通过专注于基于标记的替换，SCENE 创建上下文适当且具有语义意义的软反事实，而无需进行大量微调。 SCENE 采用 Validitysoft 和 Csoft 指标来评估与模型无关的 XAI 方法在文本分类任务中的有效性。 SCENE 应用于 CNN、RNN 和 BERT 架构，为各种 XAI 技术的优点和局限性提供了宝贵的见解。

学习归因大语言模型的细粒度基础引文

分类： 计算和语言, 人工智能

作者： Lei Huang, Xiaocheng Feng, Weitao Ma, Yuxuan Gu, Weihong Zhong, Xiachong Feng, Weijiang Yu, Weihua Peng, Duyu Tang, Dandan Tu, Bing Qin

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04568v1

摘要： 尽管在信息搜索任务上表现出色，大型语言模型（LLM）仍然与幻觉作斗争。归因大语言模型通过内嵌引用来增强生成的文本，已显示出减轻幻觉和提高可验证性的潜力。然而，当前的方法由于依赖上下文学习而导致引文质量不佳。此外，仅引用粗略文档标识符的做法使用户难以执行细粒度验证。在这项工作中，我们介绍了 FRONT，这是一个培训框架，旨在教大语言模型生成细粒度的接地引文。通过将模型输出建立在细粒度的支持引用中，这些引用可以指导生成有依据的一致响应，不仅提高引文质量，而且有利于细粒度的验证。 ALCE 基准实验证明了 FRONT 在生成卓越的接地响应和高度支持性引用方面的功效。借助 LLaMA-2-7B，该框架显着优于所有基线，在所有数据集上的引文质量平均提高了 14.21%，甚至超过了 ChatGPT。

具有分组级编码的同步多模态语义通信系统

分类： 图像和视频处理, 人工智能

作者： Yun Tian, Jingkai Ying, Zhijin Qin, Ye Jin, Xiaoming Tao

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04535v1

摘要： 尽管采用联合语义信道编码设计的语义通信在物理层信道上传输不同模态的数据方面表现出了良好的性能，但多模态语义的同步和数据包级前向纠错尚未得到很好的研究。由于语义编码器的独立设计，在语义和时域上同步多模态特征是一个具有挑战性的问题。在本文中，我们以面部视频和语音传输为例，提出了一种具有数据包级编码的同步多模态语义通信系统（SyncSC）。为了实现语义和时间同步，3D Morphable Mode (3DMM) 系数和文本作为语义进行传输，我们提出了一种语义编解码器，与传统方法相比，它可以以较低的带宽实现相似的重建和同步质量。为了保护擦除通道下的语义数据包，我们提出了一种称为 PacSC 的数据包级前向纠错（FEC）方法，即使在高数据包丢失率下也能保持一定的视觉质量性能。特别是对于文本数据包，提出了一种基于双向编码器表示变换器（BERT）的文本数据包丢失隐藏模块TextPC，显着提高了传统FEC方法的性能。仿真结果表明，我们提出的SyncSC降低了传输开销，并在丢包网络上实现了视频和语音的高质量同步传输。

答案集编程学习规律的推理

分类： 人工智能

作者： Susana Hahn, Cedric Martens, Amade Nemes, Henry Otunuya, Javier Romero, Torsten Schaub, Sebastian Schellhorn

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04528v1

摘要： 我们感兴趣的是利用学习规则进行自动化推理，以满足从管理员、教师到不同阶段的学生等各种利益相关者的需求。我们的工作建立在对波茨坦大学各种学习项目的广泛分析的基础上。基本原则的概念化为我们提供了研究规则的正式说明。特别是，形式化揭示了可接受的学习计划的属性。最后，我们提出了答案集编程中的学习规则编码，以产生相应的学习计划。最后，我们展示了如何将这种方法扩展到通用用户界面以探索学习计划。

面向 MRI 中体积肝硬化肝脏分割的协同深度学习模型

分类： 计算机视觉和模式识别, 人工智能

作者： Vandan Gorade, Onkar Susladkar, Gorkem Durak, Elif Keles, Ertugrul Aktas, Timurhan Cebeci, Alpay Medetalibeyoglu, Daniela Ladner, Debesh Jha, Ulas Bagci

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04491v1

摘要： 肝硬化是全球死亡的主要原因，需要精确分割 ROI，以进行有效的疾病监测和治疗计划。现有的分割模型通常无法捕获复杂的特征交互并在不同的数据集中进行泛化。为了解决这些限制，我们提出了一种新颖的协同理论，该理论利用互补的潜在空间来增强特征交互建模。我们提出的架构 nnSynergyNet3D 集成了 3D 体积的连续和离散潜在空间，并具有自动配置训练功能。这种方法可以捕获细粒度和粗粒度的特征，从而能够对复杂的特征交互进行有效的建模。我们在来自 339 名患者的 628 幅高分辨率 T1 腹部 MRI 扫描的私人数据集上对 nnSynergyNet3D 进行了实证验证。我们的模型比基线 nnUNet3D 的性能高出大约 2%。此外，对公共 LiTS 数据集的健康肝脏 CT 扫描进行的零样本测试显示了卓越的跨模式泛化能力。这些结果凸显了协同潜在空间模型在提高分割准确性和鲁棒性方面的潜力，从而通过确保 CT 和 MRI 模式的一致性来增强临床工作流程。

通过二阶统计对 MU-MIMO 无线进行聚类的统计框架

分类： 信号处理, 人工智能

作者： Roberto Pereira, Xavier Mestre

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04484v1

摘要： 这项工作通过检查无线用户的信道协方差矩阵之间的距离来探索无线用户的聚类，该矩阵位于正定矩阵的黎曼流形上。具体来说，当样本数量和观察大小以相同速率无限增长时，我们认为多个样本协方差矩阵（SCM）之间的对数欧几里得距离的估计量是一致的。在多用户 MIMO (MU-MIMO) 无线通信系统的背景下，我们开发了一个统计框架，可以在现实条件下准确预测聚类算法的性能。具体来说，我们提出了一个中心极限定理，该定理建立了在两个样本协方差矩阵上计算的对数欧几里得距离的一致估计量的渐近高斯性。

SegXAL：驾驶场景场景中语义分割的可解释主动学习

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Sriram Mandalika, Athira Nambiar

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04482v1

摘要： 大多数复杂的人工智能模型都利用大量带注释的数据和大量训练来实现高端性能。然而，存在一些阻碍人工智能模型“野外”场景部署的挑战，即未标记数据的低效使用、缺乏人类专业知识的结合以及缺乏对结果的解释。为了缓解这些挑战，我们提出了一种新颖的可解释主动学习（XAL）模型，即基于 XAL 的语义分割模型“SegXAL”，它可以（i）有效地利用未标记的数据，（ii）促进“人在其中”循环”范式，以及（iii）以可解释的方式增强模型决策。我们特别研究了 SegXAL 模型在驾驶场景场景中语义分割的应用。 SegXAL 模型通过可解释的人工智能 (XAI) 和弱监督方式的不确定性度量，提出了需要 Oracle 标记帮助的图像区域。具体来说，我们提出了一种新颖的邻近感知可解释人工智能（PAE）模块和基于熵的不确定性（EBU）模块来获得可解释错误掩模，这使得机器教师/人类专家能够在结果背后提供直观的推理并征求通过主动学习策略向人工智能系统反馈。这种机制通过协作智能弥合了人与机器之间的语义鸿沟，人类和人工智能积极增强彼此的互补优势。 SegXAL 框架内还提出了一种基于 DICE 相似系数的新型高置信度样本选择技术。在基准 Cityscape 数据集中进行了广泛的定量和定性分析。结果表明，我们提出的 SegXAL 的性能优于其他最先进的模型。

RiskAwareBench：评估基于大语言模型的具体代理的高层规划的物理风险意识

分类： 人工智能

作者： Zihao Zhu, Bingzhe Wu, Zhengyou Zhang, Baoyuan Wu

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04449v1

摘要： 将大语言模型（LLM）集成到机器人技术中显着增强了实体代理理解和执行复杂自然语言指令的能力。然而，在现实环境中完全部署基于大语言模型的体现系统可能会带来潜在的物理风险，例如财产损失和人身伤害。现有的大语言模型安全基准忽视了基于大语言模型的实体代理的风险意识。为了解决这一差距，我们提出了 RiskAwareBench，这是一个自动化框架，旨在评估基于 LLM 的实体主体的物理风险意识。 RiskAwareBench由安全提示生成、风险场景生成、预案生成、评估四个模块组成，以最少的人工干预实现全面的风险评估。利用该框架，我们编译了 PhysicalRisk 数据集，其中包含各种场景以及相关的安全提示、观察结果和说明。大量实验表明，大多数大语言模型表现出物理风险意识不足，基线风险缓解策略的增强有限，这强调了未来提高基于大语言模型的实体主体风险意识的紧迫性和重要性。

FedAD-Bench：表格数据中联合无监督异常检测的统一基准

分类： 机器学习, 人工智能

作者： Ahmed Anwar, Brian Moser, Dayananda Herurkar, Federico Raue, Vinit Hegiste, Tatjana Legler, Andreas Dengel

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04442v1

摘要： 联邦学习（FL）的出现提供了一种在保护隐私的同时利用去中心化数据的有前景的方法。此外，FL 和异常检测的结合特别引人注目，因为它可以检测来自多个来源（例如网络安全和医疗保健）的敏感数据中的罕见和严重异常（通常在本地收集的数据中也很少见）。然而，在 FL 环境中对异常检测方法的性能进行基准测试仍然是一个尚未充分探索的领域。本文介绍了 FedAD-Bench，这是一个用于在 FL 背景下评估无监督异常检测算法的统一基准。我们系统地分析和比较了联合设置下最新深度学习异常检测模型的性能，这些模型通常仅在集中式设置中进行评估。 FedAD-Bench 包含不同的数据集和指标，以提供整体评估。通过广泛的实验，我们确定了模型聚合效率低下和指标不可靠性等关键挑战。我们深入了解 FL 的正则化效果，揭示了由于其固有的缓解过度拟合能力而优于集中式方法的场景。我们的工作旨在建立一个标准化基准来指导联合异常检测的未来研究和开发，促进研究之间的可重复性和公平比较。

通过上下文学习增强检索增强语言模型的鲁棒性

分类： 计算和语言, 人工智能

作者： Seong-Il Park, Seung-Woo Choi, Na-Hyun Kim, Jay-Yoon Lee

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04414v1

摘要： 检索增强语言模型 (RALM) 通过利用外部知识显着提高了开放域问答 (QA) 的性能。然而，RALM 仍然面临无法回答的查询（检索到的上下文不包含正确答案）和冲突信息（由于检索不完善，不同来源提供了矛盾的答案）。本研究引入了一种基于上下文学习的方法来增强 RALM 的推理能力，使其在不完美的检索场景中更加稳健。我们的方法结合了机器阅读理解（MRC）演示（称为案例），以增强模型识别检索到的上下文之间的不可回答性和冲突的能力。对两个开放域 QA 数据集的实验表明，我们的方法提高了识别无法回答和冲突场景的准确性，而无需额外的微调。这项工作表明，上下文学习可以有效增强 RALM 在开放域 QA 任务中的鲁棒性。

通过再生核希尔伯特空间中的分位数回归进行概率能量预测

分类： 机器学习, 人工智能, 系统与控制, 系统与控制, I.2; G.4

作者： Luca Pernigo, Rohan Sen, Davide Baroli

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04405v1

摘要： 准确的能源需求预测对于可持续和有弹性的能源发展至关重要。为了满足 DACH 国家的净零代表浓度路径 (RCP) 4.5 美元情景，需要增加可再生能源生产、能源储存并减少商业建筑消耗。这种方案的成功取决于水力发电能力和气候因素。明智的决策需要量化预测的不确定性。本研究探索了一种基于\emph{再现核希尔伯特空间（RKHS）}（称为核分位数回归）的非参数方法，用于能量预测。我们的实验证明了其可靠性和锐度，并将其与 DACH 地区负荷和价格预测的最先进方法进行了基准测试。我们提供与附加脚本结合的实施，以确保我们研究的可重复性。

通过三段论探索大型语言模型中的推理偏差：来自 NeuBAROCO 数据集的见解

分类： 计算和语言, 人工智能

作者： Kentaro Ozeki, Risako Ando, Takanobu Morishita, Hirohiko Abe, Koji Mineshima, Mitsuhiro Okada

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04403v1

摘要： 本文探讨了当前大型语言模型如何准确地执行自然语言逻辑推理的问题，重点是这些模型是否表现出类似于人类的推理偏差。具体来说，我们的研究重点是三段论推理，这是一种在认知科学中作为人类推理的自然形式广泛研究的演绎推理形式。我们提出了一个名为 NeuBAROCO 的三段论数据集，它由英语和日语的三段论推理问题组成。该数据集最初是为心理学实验而设计的，旨在使用各种形式的三段论来评估人类的推理能力。我们对领先的大型语言模型的实验表明，这些模型表现出与人类相似的推理偏差，以及其他错误倾向。值得注意的是，前提和假设之间的关系既不是蕴涵也不是矛盾的推理问题还有很大的改进空间。我们还使用一种新的思维链提示方法来展示实验结果和深入分析，该方法要求大语言模型将三段论翻译成抽象的逻辑表达式，然后解释其推理过程。我们使用这种方法的分析表明，大语言模型的主要局限性在于推理过程本身，而不是对三段论的解释。

DIVE：图分布外泛化的子图不一致

分类： 机器学习, 人工智能

作者： Xin Sun, Liang Wang, Qiang Liu, Shu Wu, Zilei Wang, Liang Wang

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04400v1

摘要： 本文解决了图机器学习中分布外（OOD）泛化的挑战，这是一个快速发展的领域，但仍在努力解决源数据分布和目标数据分布之间的差异。传统的图学习算法基于训练数据和测试数据之间均匀分布的假设，在该假设失败的现实场景中会出现问题，导致性能不佳。导致这种次优性能的一个主要因素是通过随机梯度下降（SGD）训练的神经网络固有的简单性偏差，与更复杂但同样或更具有预测性的特征相比，神经网络更喜欢更简单的特征。这种偏差导致对虚假相关性的依赖，从而对图像识别、自然语言理解和图形分类等各种任务中的 OOD 性能产生不利影响。当前的方法，包括子图混合和信息瓶颈方法，已经取得了部分成功，但难以克服简单性偏差，常常强化虚假相关性。为了解决这个问题，我们提出 DIVE，通过鼓励模型促进子图掩码上的发散，训练一组模型以关注所有标签预测子图，这规避了模型仅关注与简单结构模式相对应的子图的限制。具体来说，我们采用正则化器来惩罚跨模型提取的子图的重叠，从而鼓励不同的模型专注于不同的结构模式。稳健的 OOD 性能的模型选择是通过验证准确性来实现的。我们的方法在 GOOD 基准的四个数据集和 DrugOOD 基准的一个数据集上进行了测试，结果表明我们的方法比现有方法有显着改进，有效解决了简单性偏差并增强了图机器学习的泛化能力。

使用大型语言模型自动生成不同布鲁姆技能水平的教育问题：策略和评估

分类： 计算和语言, 人工智能

作者： Nicy Scaria, Suma Dharani Chenna, Deepak Subramani

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04394v1

摘要： 对于教育工作者来说，提出在教学上合理、相关且促进学习的问题是一项具有挑战性且耗时的任务。现代大型语言模型 (LLM) 可生成跨多个领域的高质量内容，有可能帮助教育工作者提出高质量的问题。自动教育问题生成 (AEQG) 对于扩展在线教育以满足多元化学生群体而言非常重要。 AEQG 过去的尝试表明，在较高认知水平上提出问题的能力有限。在这项研究中，我们研究了五位不同规模的最先进的大语言模型产生不同认知水平（如布鲁姆分类法所定义）的多样化和高质量问题的能力。我们对 AEQG 使用具有不同复杂性的高级提示技术。我们进行了专家和大语言模型评估，以评估问题的语言和教学相关性以及质量。我们的研究结果表明，尽管所考虑的五个大语言模型的表现存在显着差异，但在提供足够信息的提示下，大语言模型可以生成不同认知水平的相关且高质量的教育问题。我们还表明，自动评估无法与人类评估相提并论。

MM-Forecast：使用大型语言模型进行时间事件预测的多模态方法

分类： 多媒体, 人工智能, 信息检索, H.3.3

作者： Haoxuan Li, Zhengmao Yang, Yunshan Ma, Yi Bin, Yang Yang, Tat-Seng Chua

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04388v1

摘要： 我们研究了使用大型语言模型进行多模态时间事件预测的一个新兴且有趣的问题。与使用文本或图形模式相比，利用图像进行时间事件预测的研究尚未得到充分探索，特别是在大型语言模型（LLM）时代。为了弥补这一差距，我们对两个关键问题特别感兴趣：1）为什么图像有助于时间事件预测，2）如何将图像集成到基于 LLM 的预测框架中。为了回答这些研究问题，我们建议确定图像在时间事件预测场景中发挥的两个基本功能，即突出显示和补充。然后，我们开发了一个新颖的框架，名为 MM-Forecast。它采用图像功能识别模块，使用多模态大语言模型 (MLLM) 将这些功能识别为口头描述，然后将这些功能描述合并到基于 LLM 的预测模型中。为了评估我们的方法，我们通过使用图像扩展现有事件数据集 MidEast-TE-mini 来构建新的多模式数据集 MidEast-TE-mm。实证研究表明，我们的 MM-Forecast 可以正确识别图像函数，而且，结合这些语言函数描述可以显着提高预测性能。数据集、代码和提示可在 https://github.com/LuminosityX/MM-Forecast 获取。

满足期望的多标准愿望的非最大化政策

分类： 人工智能, 理论经济学, 优化与控制, 68T20, 90C40, 91B06, I.2.8; F.2.2

作者： Simon Dima, Simon Fischer, Jobst Heitzig, Joss Oliver

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04385v1

摘要： 在动态规划和强化学习中，随机环境中智能体顺序决策的策略通常是通过将目标表示为标量奖励函数并寻求最大化预期总奖励的策略来确定的。然而，人类关心的许多目标自然涉及世界的多个方面，如何将这些目标浓缩为单一的奖励函数可能并不明显。此外，最大化会受到规范博弈的影响，即所获得的策略以意想不到的方式实现了较高的预期总奖励，通常采取极端或无意义的行动。在这里，我们考虑具有多个不同评估指标的有限非循环马尔可夫决策过程，这些指标不一定代表用户想要最大化的数量。我们假设代理的任务是确保评估指标的预期总数向量落入某个给定的凸集（称为愿望集）。我们的算法保证通过使用单纯形来近似可行性集并向前传播愿望，同时确保它们保持可行，从而完成此任务。它的复杂度与可能的状态-动作-后继三元组的数量呈线性关系，并且与评估指标的数量呈多项式关系。此外，所选政策和目标的明确非最大化性质产生了额外的自由度，可用于将启发式安全标准应用于行动选择。我们讨论了几个这样的安全标准，旨在引导代理采取更保守的行为。

Judgment2vec：应用图分析来搜索和推荐相似的判断

分类： 信息检索, 人工智能, 68T30 (Primary), 68T50 (Secondary), I.2.7; I.2.4

作者： Hsuan-Lei Shao

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04382v1

摘要： 在法庭实践中，法律专业人员依靠他们的培训来提供解决案件的意见，其中最关键的方面之一就是能够有效地识别以前法院的类似判决。然而，寻找类似案件具有挑战性，并且往往取决于经验、法律领域知识和大量的劳动时间，因此经验丰富的律师或法官不可或缺。本研究旨在自动化判断文本相似度分析。我们利用了被专家标记为“黄金标准”的判断数据集，其中包括经过人工验证的特征，可以转换为“专家相似度得分”。然后，我们基于“案例-文章”关系构建了一个知识图，使用自然语言处理对每个案例进行排名，以得出“Node2vec 相似度得分”。通过评估这两个相似性分数，我们确定了它们的差异和关系。结果可以显着减少法律搜索和推荐所需的劳动时间，潜在的应用范围可以扩展到信息检索的各个领域。

异常预测：一种具有显式延迟和范围的新颖方法

分类： 机器学习, 人工智能

作者： Jiang You, Arben Cela, René Natowicz, Jacob Ouanounou, Patrick Siarry

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04377v1

摘要： 检测时间序列数据中的异常是各个领域的一项关键挑战。传统方法通常侧重于识别紧随其后的步骤中的异常，常常低估时间动态的重要性，例如延迟时间和异常范围，这通常需要进行广泛的后期分析。本文介绍了一种时间序列异常预测的新方法，将时间信息直接合并到预测结果中。我们提出了一个专门设计用于评估这种方法的新数据集，并使用几种最先进的方法进行全面的实验。结果证明了我们的方法在提供及时、准确的异常预测方面的有效性，为该领域的未来研究树立了新的基准。

具有量子位排列的最佳布局感知 CNOT 电路综合

分类： 量子物理学, 人工智能

作者： Irfansha Shaik, Jaco van de Pol

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04349v1

摘要： CNOT 优化在量子电路降噪方面发挥着重要作用。 CNOT 优化存在多种启发式和精确方法。在本文中，我们通过允许量子位排列和处理布局限制来研究最佳合成的更复杂的变化。我们将此类问题编码为 Planning、SAT 和 QBF。我们提供 CNOT 门数和电路深度的优化。对于实验评估，我们考虑标准 T 门优化基准并优化 CNOT 子电路。我们证明，允许量子位排列可以进一步减少 CNOT 数量达 56% 和电路深度达 46%。在布局限制下的最佳映射电路的情况下，我们观察到 CNOT 数量减少了 17%，CNOT 深度减少了 19%。

使用大型语言模型实现可解释的网络入侵检测

分类： 密码学和安全, 人工智能, 网络和互联网架构

作者： Paul R. B. Houssel, Priyanka Singh, Siamak Layeghy, Marius Portmann

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04342v1

摘要： 大型语言模型 (LLM) 彻底改变了自然语言处理任务，特别是作为聊天代理。然而，它们对威胁检测问题的适用性仍不清楚。本文研究了使用大语言模型作为网络入侵检测系统（NIDS）的可行性，尽管其计算要求很高，主要是为了可解释性。此外，在开发大语言模型方面投入了大量资源，它们可能为 NIDS 提供实用性。当前最先进的 NIDS 依赖于人工基准测试数据集，导致应用于现实网络环境时出现性能偏差。因此，我们将 GPT-4 和 LLama3 模型与传统架构和基于 Transformer 的模型进行比较，以评估它们检测恶意 NetFlow 的能力，而不依赖于人为倾斜的数据集，而仅依赖于它们大量的预先训练的知识。我们的结果表明，尽管大语言模型在精确的攻击检测方面遇到困难，但它们在通往可解释的 NIDS 的道路上具有巨大的潜力。我们的初步探索表明，LLM 不适合检测恶意 NetFlow。然而，最有希望的是，它们作为 NIDS 中的补充代理展现出巨大的潜力，特别是在与检索增强生成 (RAG) 和函数调用功能集成时提供解释和帮助威胁响应。

KnowPC：知识驱动的程序化强化学习，实现零样本协调

分类： 人工智能

作者： Yin Gu, Qi Liu, Zhi Li, Kai Zhang

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04336v1

摘要： 零样本协调（ZSC）仍然是协作人工智能领域的一个主要挑战，其目的是学习智能体在训练环境甚至新环境中与看不见的伙伴合作。近年来，流行的 ZSC 解决方案范例是深度强化学习（DRL）与先进的自我对弈或基于群体的方法相结合，以增强神经策略处理看不见的伙伴的能力。尽管取得了一些成功，但这些方法通常依赖黑盒神经网络作为策略函数。然而，神经网络通常缺乏可解释性和逻辑，使得合作伙伴（例如人类）难以理解所学习的策略并限制了其泛化能力。这些缺点阻碍了强化学习方法在各种合作场景中的应用。我们建议用可解释的程序来表示代理的策略。与神经网络不同，程序包含稳定的逻辑，但它们是不可微的且难以优化。为了自动学习此类程序，我们引入了零样本协调的知识驱动程序强化学习（KnowPC）。我们首先定义一个基础的领域特定语言（DSL），包括程序结构、条件原语和动作原语。一个重大挑战是巨大的程序搜索空间，使得高效地找到高性能程序变得困难。为了解决这个问题，KnowPC 集成了提取器和推理器。提取器从多智能体交互轨迹中发现环境转换知识，而推理器则根据转换知识推导出每个动作原语的前提条件。

数字代理学习：基于活动理论的分析

分类： 人机交互, 人工智能

作者： Mateusz Dolata, Dzmitry Katsiuba, Natalie Wellnhammer, Gerhard Schwabe

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04304v1

摘要： 数字代理被认为是一种通用技术。它们在私人和组织环境中迅速传播，包括教育。然而，研究缺乏一个概念框架来以整体方式描述与此类代理的交互。在关注与教学代理（即能够与学习者进行自然语言交互的数字代理）的交互的同时，我们提出了一种基于活动理论的学习活动模型。我们使用这个模型和对教育中数字代理的先前研究的回顾来分析活动的各种特征（包括教学代理或学习者的特征）如何影响学习成果。该分析有助于确定信息系统的研究方向，并为教学代理和数字代理的开发人员提供指导。最后，我们将基于活动理论的模型扩展到教育背景之外，并展示它如何帮助设计师和研究人员在创建数字代理时提出正确的问题。

通过端到端标签纠正来解决联邦学习中的吵闹客户端问题

分类： 机器学习, 人工智能

作者： Xuefeng Jiang, Sheng Sun, Jia Li, Jingjing Xue, Runhan Li, Zhiyuan Wu, Gang Xu, Yuwei Wang, Min Liu

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04301v1

摘要： 最近，联邦学习（FL）在不牺牲客户敏感私人信息的情况下，在各种隐私敏感应用程序中取得了广泛的成功。然而，客户端数据集的数据质量无法得到保证，因为不同客户端的对应标注往往包含不同程度的复杂标签噪声，这不可避免地导致性能下降。直观上，性能下降主要是由噪声率较高的客户端主导，因为它们的训练模型包含更多来自数据的错误信息，因此有必要设计一种有效的优化方案来减轻这些噪声客户端的负面影响。在这项工作中，我们提出了一个两阶段框架 FedELC 来解决这个复杂的标签噪声问题。第一阶段的目标是指导检测具有较高标签噪声的噪声客户端，而第二阶段的目标是通过端到端标签校正框架来校正噪声客户端数据的标签，该框架是通过学习可能的真实标签来实现的通过反向传播来处理嘈杂的客户端数据集。我们实现了十六种相关方法，并评估了具有三种复杂标签噪声场景的五个数据集，以进行全面比较。大量的实验结果表明，我们提出的框架在不同场景下均取得了比同类框架更优越的性能。此外，我们通过标签校正框架有效地提高了检测到的噪声客户端本地数据集的数据质量。该代码可从 https://github.com/Sprinter1999/FedELC 获取。

多智能体近端策略优化中的部分奖励解耦分配信用

分类： 多代理系统, 人工智能, 机器学习, 机器人技术

作者： Aditya Kapoor, Benjamin Freed, Howie Choset, Jeff Schneider

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04295v1

摘要： 多智能体近端策略优化（MAPPO）最近在具有挑战性的多智能体强化学习任务上展示了最先进的性能。然而，MAPPO 仍然在解决信用分配问题，其中将信用归因于个体代理行为的绝对困难与团队规模的大小关系不大。在本文中，我们提出了一种多智能体强化学习算法，该算法适应学分分配的最新发展，以改进 MAPPO。我们的方法利用部分奖励解耦（PRD），它使用学习注意力机制来估计特定智能体的哪些队友与其学习更新相关。我们使用此估计将大型代理组动态分解为更小、更易于管理的子组。我们凭经验证明，我们的方法 PRD-MAPPO 将代理与不影响其预期未来奖励的队友分离，从而简化了信用分配。我们还表明，与 MAPPO 和其他最先进的方法相比，PRD-MAPPO 在多个多智能体任务（包括《星际争霸 II》）中产生了显着更高的数据效率和渐近性能。最后，我们提出了一个适用于 \textit{shared} 奖励设置的 PRD-MAPPO 版本，其中 PRD 以前不适用，并且经验表明这也导致了 MAPPO 的性能改进。

用于边缘网络入侵检测的人工智能驱动聊天机器人：通过道德用户同意增强网络安全

分类： 密码学和安全, 人工智能

作者： Mugheez Asif, Abdul Manan, Abdul Moiz ur Rehman, Mamoona Naveed Asghar, Muhammad Umair

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04281v1

摘要： 在当今的当代数字环境中，聊天机器人已成为各个领域不可或缺的工具，可以简化客户服务、提供个人帮助、自动化日常任务并提供健康建议。然而，它们在网络安全领域的潜力仍未得到充分开发，特别是在入侵检测方面。为了弥补这一差距，我们提出了一种专门设计用于增强边缘网络内的安全性的架构聊天机器人，专门用于入侵检测。利用先进的机器学习算法，该聊天机器人将监控网络流量以识别和减轻潜在的入侵。通过使用由 Raspberry Pi 模块管理的边缘网络来保护网络环境，并确保符合道德的用户同意，从而促进透明度和信任，这一创新解决方案旨在保护敏感数据并维护安全的工作场所，从而满足对强大网络安全措施日益增长的需求。数字时代。

揭示隐藏的视觉信息：针对对抗性视觉信息隐藏的重构攻击

分类： 计算机视觉和模式识别, 人工智能, 密码学和安全

作者： Jonggyu Jang, Hyeonsu Lyu, Seongjin Hwang, Hyun Jong Yang

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04261v1

摘要： 本文通过对加密图像执行数据重建（DR）攻击来研究基于对抗性示例的图像加密的安全漏洞。一种代表性的图像加密方法是对抗性视觉信息隐藏（AVIH），它使用 I 类对抗性示例训练来保护图像识别任务中使用的图库数据集。在 AVIH 方法中，I 类对抗性示例方法创建的图像看起来完全不同，但仍然被机器识别为原始图像。此外，AVIH 方法可以使用预定义的私钥生成模型将加密图像恢复为其原始形式。为了获得最佳安全性，建议为每个图像分配唯一的密钥；然而，存储限制可能需要一些图像共享相同的关键模型。这给 AVIH 带来了一个关键的安全问题：有多少图像可以安全地共享相同的密钥模型而不会受到 DR 攻击的损害？为了解决这个问题，我们引入了针对 AVIH 加密方法的双策略 DR 攻击，通过结合 (1) 生成对抗性损失和 (2) 增强身份损失，防止 DR 过度拟合——一个类似于机器学习中的问题。我们的数值结果通过图像识别和重新识别基准验证了这种方法，表明我们的策略可以显着提高重建图像的质量，从而需要更少的密钥共享加密图像。我们用于重现结果的源代码很快就会提供。

EfficientRAG：用于多跳问答的高效检索器

分类： 计算和语言, 人工智能

作者： Ziyuan Zhuang, Zhiyang Zhang, Sitao Cheng, Fangkai Yang, Jia Liu, Shujian Huang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04259v1

摘要： 检索增强生成（RAG）方法在解决多跳查询等复杂问题时遇到困难。虽然迭代检索方法通过收集额外信息来提高性能，但当前的方法通常依赖于大型语言模型 (LLM) 的多次调用。在本文中，我们介绍了 EfficientRAG，一种用于多跳问答的高效检索器。 EfficientRAG 迭代生成新查询，无需在每次迭代时调用 LLM，并过滤掉不相关信息。实验结果表明，EfficientRAG 在三个开放域多跳问答数据集上超越了现有的 RAG 方法。

用于高维多元时间序列预测的可扩展变压器

分类： 机器学习, 人工智能, 信息检索, H.3

作者： Xin Zhou, Weiqing Wang, Wray Buntine, Shilin Qu, Abishek Sriramulu, Weicong Tan, Christoph Bergmeir

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04245v1

摘要： 多元时间序列 (MTS) 预测的深度模型最近取得了巨大的成功。通道相关模型捕获通道无关模型无法捕获的复杂依赖关系。然而，实际应用中的通道数量超出了现有通道相关模型的能力，并且与普遍预期相反，一些模型在处理高维数据时表现不如通道无关模型，这引发了通道性能的问题依赖模型。为了解决这个问题，我们的研究首先调查了这些通道相关模型在高维 MTS 数据上表现不佳背后的原因。我们的分析表明，两个主要问题在于从不相关序列引入的噪声，这增加了捕获关键通道间依赖关系的难度，以及高维数据对训练策略的挑战。为了解决这些问题，我们提出了 STHD，即用于高维多元时间序列预测的可扩展变压器。 STHD 具有三个组成部分： a) 关系矩阵稀疏性，限制引入的噪声并缓解内存问题； b）将ReIndex用作训练策略，以实现更灵活的批量大小设置并增加训练数据的多样性； c) 处理二维输入并捕获通道依赖性的变压器。这些组件共同使 STHD 能够管理高维 MTS，同时保持计算可行性。此外，实验结果表明 STHD 在三个高维数据集：Crime-Chicago、Wiki-People 和 Traffic 上有相当大的改进。源代码和数据集可公开获取 https://github.com/xinzzzhou/ScalableTransformer4HighDimensionMTSF.git。

不接地的对齐问题

分类： 机器学习, 人工智能, 神经和进化计算

作者： Marc Pickett, Aakash Kumar Nain, Joseph Modayil, Llion Jones

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04242v1

摘要： 现代机器学习系统已经通过接受或忽略人类提供的知识的方法展示了强大的能力，但结合两种风格的优点仍然是一个挑战。一项特殊的挑战涉及设计学习系统，该系统对特定的抽象刺激模式表现出内置响应，但仍然具有足够的可塑性，可以对其输入的方式和确切形式保持不可知。在本文中，我们研究了所谓的“不接地对齐问题”，该问题询问我们如何在不知道给定刺激如何接地的系统中构建预定义的知识？本文研究了一般问题的简化版本，其中向无监督学习者提供文本语料库中字符的一系列图像，随后评估该学习者识别特定（可能罕见）序列模式的能力。重要的是，学习者在学习或评估过程中没有得到任何标签，但必须将图像从未知字体或排列映射到其正确的类标签。也就是说，我们的学习者在任何时候都不会给出带标签的图像，其中图像向量与类标签明确相关。尽管在无监督和自监督损失函数方面做了很多工作，但所有当前方法都需要一个标记的微调阶段，以将学习到的表示映射到正确的类。在没有标签的情况下找到这种映射似乎是一件傻事，但我们的主要结果解决了这个看似悖论。我们表明，仅利用字母二元组频率就足以让无监督学习者可靠地将图像与类标签相关联，并可靠地识别输入序列中的触发词。更一般地说，该方法提出了一种在模态不可知模型中编码特定所需先天行为的方法。

云系统中集群范围的任务减慢检测

分类： 机器学习, 人工智能

作者： Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04236v1

摘要： 任务检测速度慢是云运维中的一个关键问题，它与用户体验高度相关，并且会带来巨额违约金。大多数异常检测方法都是从单任务方面进行检测。然而，考虑到大规模云计算集群中数百万个并发任务，它变得不切实际且低效。此外，单任务速度下降非常常见，并且由于其在虚拟环境中的剧烈波动性质，并不一定表明集群出现故障。因此，我们通过利用集群中任务的持续时间分布，将注意力转移到集群范围内的任务减慢上，这样计算复杂度就与任务数量无关。任务持续时间分布通常表现出复合周期性和随时间的局部异常波动。尽管基于变压器的方法是捕获这些时间序列正态变化模式的最强大方法之一，但我们凭经验发现并从理论上解释了标准注意机制在处理复合周期性时重建低幅度子周期的缺陷。为了应对这些挑战，我们提出了 SORN（即按降幅顺序撇去子周期和重建非减速波动），它由用于重建复合周期性的撇去注意力机制和用于区分集群范围内的减速的神经最优传输模块组成免受其他异常波动的影响。此外，由于训练集中的异常在实际场景中是不可避免的，因此我们提出了一种挑剔的损失函数，它自适应地为训练集中的可靠时隙分配更高的权重。大量实验表明，SORN 在多个真实工业数据集上的表现优于最先进的方法。

累积分布函数的概率电路

分类： 机器学习, 人工智能

作者： Oliver Broadrick, William Cao, Benjie Wang, Martin Trapp, Guy Van den Broeck

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04229v1

摘要： 概率电路（PC）简洁地表达了一个代表多元概率分布的函数，并且在给定电路的足够结构属性的情况下，支持有效的概率推理。通常，PC 计算分布的概率质量（或密度）函数（PMF 或 PDF）。我们考虑使用 PC 来计算累积分布函数 (CDF)。我们证明，对于二元随机变量的分布，这些表示（PMF 和 CDF）本质上是等价的，因为可以在多项式时间内将一个表示转换为另一个表示。然后，我们使用与 CDF 语义一致的二进制变量对标准编码进行修改，展示如何在有限离散变量上的分布上保持类似的等价性。最后，我们证明，对于连续变量，计算 PDF 和 CDF 的平滑、可分解 PC 可以通过仅修改电路的叶子来有效地相互转换。

大语言模型时代的视频QA：一项实证研究

分类： 计算机视觉和模式识别, 人工智能

作者： Junbin Xiao, Nanxin Huang, Hangyu Qin, Dongyang Li, Yicong Li, Fengbin Zhu, Zhulin Tao, Jianxing Yu, Liang Lin, Tat-Seng Chua, Angela Yao

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04223v1

摘要： 视频大语言模型（Video-LLM）正在蓬勃发展，并推进了许多视频语言任务。作为黄金测试平台，视频问答（VideoQA）在视频大语言模型的发展中发挥着关键作用。这项工作对Video-LLMs在VideoQA中的行为进行了及时、全面的研究，旨在阐明他们的成功和失败模式，并为更加人性化的视频理解和问题回答提供见解。我们的分析表明，视频大语言模型在视频质量检查方面表现出色；他们可以将上下文线索关联起来，并对有关不同视频内容的问题生成合理的答案。然而，模型在处理视频时间性方面表现不佳，无论是在时间内容排序的推理还是在与 QA 相关的时间时刻的基础上。此外，这些模型的行为并不直观——它们对对抗性视频扰动没有反应，但对候选答案和问题的简单变化却很敏感。而且，它们不一定能更好地概括。研究结果证明了视频大语言模型在标准条件下的质量保证能力，但突显了其在鲁棒性和可解释性方面的严重缺陷，表明迫切需要视频大语言模型开发的基本原理。

信噪扩散模型的关联观点

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 神经和进化计算

作者： Khanh Doan, Long Tung Vuong, Tuan Nguyen, Anh Tuan Bui, Quyen Tran, Thanh-Toan Do, Dinh Phung, Trung Le

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04221v1

摘要： 扩散模型 (DM) 已成为生成模型的基本组成部分，在图像创建、音频生成和复杂数据插值等各个领域都表现出色。信噪比扩散模型构成了一个多样化的系列，涵盖了大多数最先进的扩散模型。尽管人们已经多次尝试从不同角度研究信噪比（S2N）扩散模型，但仍然需要进行综合研究以连接不同的观点并探索新的视角。在这项研究中，我们对噪声调度器提供了全面的视角，通过信噪比 (SNR) 及其与信息论的联系来检验它们的作用。在此框架的基础上，我们开发了一个广义后向方程来增强推理过程的性能。

文本挖掘机翻译的注意力机制和上下文建模系统

分类： 计算和语言, 人工智能

作者： Shi Bo, Yuwei Zhang, Junming Huang, Sitong Liu, Zexi Chen, Zizheng Li

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04216v1

摘要： 本文提出了一种基于 Transformer 范式的新颖架构模式，并创新性地合并了 K 均值分类算法，以增强该模式的上下文理解能力。 Transformer模型由于其并行计算能力和多头注意力机制，在机器翻译任务中表现良好。然而，在处理高度复杂的语言结构时，它可能会遇到上下文歧义或忽略局部特征。为了规避这一限制，本文采用了 K-Means 算法，该算法用于对输入文本内容的词汇和习语进行分层，从而促进对语言的局部结构和上下文智能的高级识别和保存。这种组合的优点是 K-Means 可以自动发现文本中的主题或概念区域，这可能与翻译质量直接相关。因此，本文设计的模式将 K-Means 作为 Transformer 之前的准备阶段，并重新校准多头注意力权重，以帮助区分具有类似语义或功能的词汇和习语。这确保了该模式在训练阶段高度重视这些集群所体现的上下文智能，而不是仅仅关注位置智能。

MMRole：开发和评估多模式角色扮演代理的综合框架

分类： 人工智能

作者： Yanqi Dai, Huanran Hu, Lei Wang, Shengjie Jin, Xu Chen, Zhiwu Lu

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04203v1

摘要： 最近，角色扮演代理（RPA）因其传递情感价值和促进社会学研究的潜力而受到越来越多的关注。然而，现有的研究主要局限于文本模态，无法模拟人类的多模态感知能力。为了弥补这一差距，我们引入了多模态角色扮演代理（MRPA）的概念，并提出了一个用于开发和评估的综合框架 MMRole，其中包括个性化多模态数据集和稳健的评估方法。具体来说，我们构建了一个大规模、高质量的数据集 MMRole-Data，由 85 个字符、11K 图像和 14K 单轮或多轮对话组成。此外，我们提出了一种稳健的评估方法 MMRole-Eval，包含三个维度的八个指标，其中奖励模型经过训练，可以使用构建的地面实况数据对 MRPA 进行评分以进行比较。此外，我们还开发了第一个专门的 MRPA，MMRole-Agent。广泛的评估结果证明了 MMRole-Agent 性能的改进，并强调了开发 MRPA 的主要挑战，强调需要增强多模式理解和角色扮演一致性。数据、代码和模型将在 https://github.com/YanqiDai/MMRole 上提供。

网络搜索语义嵌入模型的成对判断公式

分类： 信息检索, 人工智能, 数据库

作者： Mengze Hong, Chen Jason Zhang

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04197v1

摘要： 语义嵌入模型（SEM）是一种基于神经网络的连体架构，在信息检索和自然语言处理领域正在获得发展势头。为了以有监督的方式训练 SEM 进行网络搜索，通常利用搜索引擎查询日志来自动制定成对判断作为训练数据。尽管语义嵌入在搜索引擎行业中的应用越来越多，但在制定有效的成对判断来训练 SEM 方面却几乎没有做任何工作。在本文中，我们首次深入研究了生成 SEM 成对判断的各种策略。一个有趣（或许令人惊讶）的发现表明，成对学习排名（LTR）领域广泛使用的传统成对判断制定策略对于训练 SEM 并不一定有效。通过基于主要商业搜索引擎的查询日志和点击活动的大规模实证研究，我们展示了 SEM 的有效策略，并强调了混合启发式（即点击 > 未点击）与传统搜索引擎相比的优势。 LTR 中的原子启发式（例如，单击 > 跳过）。我们总结了培训 SEM 的最佳实践，并为未来的研究提供了有前景的见解。

利用时空多元图神经网络进行不确定性犯罪预测

分类： 机器学习, 人工智能

作者： Zepu Wang, Xiaobo Ma, Huajie Yang, Weimin Lvu, Peng Sun, Sharath Chandra Guntuku

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04193v1

摘要： 犯罪预测是城市分析的重要组成部分，对于当今社会的稳定至关重要。与其他时间序列预测问题不同，犯罪事件很少，特别是在小区域和特定时间段内。传统的时空深度学习模型经常与这种稀疏性作斗争，因为它们通常无法有效处理犯罪数据的非高斯性质，其特点是大量的零和过度分散的模式。为了应对这些挑战，我们引入了一种称为时空多元零膨胀负二项式图神经网络（STMGNN-ZINB）的新方法。该框架利用扩散和卷积网络来分析空间、时间和多元相关性，从而实现犯罪事件概率分布的参数化。通过结合零膨胀负二项式模型，STMGNN-ZINB 有效管理犯罪数据的稀疏性，提高预测准确性和置信区间的精度。我们对现实世界数据集的评估证实 STMGNN-ZINB 优于现有模型，为预测和理解犯罪动态提供了更可靠的工具。

基于离线偏好的强化学习的列表奖励估计

分类： 机器学习, 人工智能

作者： Heewoong Choi, Sangwon Jung, Hongjoon Ahn, Taesup Moon

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04190v1

摘要： 在强化学习（RL）中，设计精确的奖励函数仍然是一个挑战，特别是在与人类意图保持一致时。基于偏好的强化学习 (PbRL) 的引入是为了通过从人类反馈中学习奖励模型来解决这个问题。然而，现有的 PbRL 方法存在局限性，因为它们经常忽略表明偏好相对强度的二阶偏好。在本文中，我们提出了列表式奖励估计（LiRE），这是一种离线 PbRL 的新方法，它通过构建轨迹排序列表（RLT）来利用二阶偏好信息，可以通过使用与传统方法。为了验证 LiRE 的有效性，我们提出了一个新的离线 PbRL 数据集，该数据集客观地反映了估计奖励的效果。我们对数据集进行的广泛实验证明了 LiRE 的优越性，即即使反馈预算适中，其性能也优于最先进的基线，并且在反馈数量和反馈噪声方面具有鲁棒性。我们的代码可在 https://github.com/chwoong/LiRE 获取

EdgeShield：用于鲁棒人工智能的通用且高效的边缘计算框架

分类： 密码学和安全, 人工智能

作者： Duo Zhong, Bojing Li, Xiang Chen, Chenchen Liu

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04181v1

摘要： 针对人工智能 (AI) 系统的对抗性攻击日益盛行，催生了对创新安全措施的需求。然而，目前防御这些攻击的方法往往计算成本较高，并且需要后端处理，使得实时防御具有挑战性。幸运的是，边缘计算取得了显着的进步，这使得在边缘设备上部署神经网络变得更加容易。基于这些进步，我们提出了一种边缘框架设计，以实现对对抗性攻击的普遍且有效的检测。该框架结合了基于注意力的对抗性检测方法和轻量级检测网络结构，使其适用于广泛的神经网络，并且可以部署在边缘设备上。为了评估我们提出的框架的有效性，我们对五个神经网络进行了评估。结果表明，可以达到令人印象深刻的 97.43% F 分数，证明了该框架在检测对抗性攻击方面的熟练程度。此外，与以前的检测方法相比，我们提出的框架还显着降低了计算复杂性和成本。这方面特别有益，因为它确保防御机制可以在实时边缘设备中有效实施。

wav2graph：语音监督学习知识图框架

分类： 计算和语言, 人工智能, 信息检索, 机器学习, 声音, 音频和语音处理

作者： Khai Le-Duc, Quy-Anh Dang, Tan-Hanh Pham, Truong-Son Hy

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04174v1

摘要： 知识图 (KG) 通过提供结构化、互连的数据来提高推理和上下文感知，从而增强大型语言模型 (LLM) 和搜索引擎的性能。然而，KG 仅关注文本数据，从而忽略了语音等其他模式。在这项工作中，我们介绍了 wav2graph，这是第一个从语音数据监督学习知识图的框架。我们的流程很简单：（1）基于转录的口语和命名实体数据库构建知识图谱，（2）将知识图谱转换为嵌入向量，（3）训练用于节点分类和链接预测任务的图神经网络（GNN）。通过使用最先进的 GNN 模型在归纳和转导学习环境中进行的广泛实验，我们为人类转录本和自动语音识别 (ASR) 转录本的节点分类和链接预测任务提供基线结果和错误分析，包括使用基于编码器和基于解码器的节点嵌入，以及单语言和多语言声学预训练模型。所有相关代码、数据和模型均在线发布。

感知、反思和计划：设计 LLM 代理，用于无指令的目标导向城市导航

分类： 人工智能

作者： Qingbin Zeng, Qinglong Yang, Shunan Dong, Heming Du, Liang Zheng, Fengli Xu, Yong Li

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04168v1

摘要： 本文考虑了城市导航中的一个场景：为人工智能代理提供关于一些知名地标的目标位置的语言描述；仅通过观察周围的场景，包括识别地标和道路网络连接，代理必须在没有指令的情况下做出导航到目标位置的决定。这个问题非常具有挑战性，因为它需要智能体建立自我定位并获取复杂城市环境的空间表示，而地标通常是不可见的。在没有导航指令的情况下，这种能力对于智能体在长距离城市导航中做出高质量决策至关重要。随着大型语言模型 (LLM) 的新兴推理能力，一个诱人的基线是促使 LLM 对每个观察结果进行“反应”并做出相应的决策。然而，该基线的性能非常差，代理经常重复访问相同的位置并做出短视的、不一致的决策。为了解决这些问题，本文引入了一种新颖的代理工作流程，其特点是具有感知、反思和计划的能力。具体来说，我们发现 LLaVA-7B 可以进行微调，以足够的精度感知地标的方向和距离，以进行城市导航。此外，反思是通过记忆机制实现的，过去的经验被存储起来，并且可以通过当前的感知来检索，以进行有效的决策论证。规划利用反思结果来制定长期计划，可以避免远距离航行中的短视决策。我们展示了与最先进的基线相比，设计的工作流程显着提高了 LLM 代理的导航能力。

数据添加困境

分类： 机器学习, 人工智能, 机器学习

作者： Judy Hanwen Shen, Inioluwa Deborah Raji, Irene Y. Chen

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04154v1

摘要： 在许多用于医疗保健任务的机器学习中，标准数据集是通过收集许多通常根本不同的来源的数据来构建的。但是，添加更多数据什么时候会有所帮助，什么时候会阻碍现实世界环境中所需模型结果的进展？我们将这种情况称为 \textit{数据添加困境}，证明在这种多源扩展环境中添加训练数据有时会导致整体准确性降低、公平性结果不确定以及最差子组性能降低。我们发现，这可能是由于数据缩放导致的模型性能改进与分布变化导致的模型恶化之间的经验观察到的权衡所致。因此，我们建立了解决这一困境的基线策略，引入分布转移启发法来指导在数据扩展中添加哪些数据源的决策，以便产生预期的模型性能改进。最后，我们讨论了数据收集所需的考虑因素以及在模型日益大型化的时代研究数据构成和规模的建议。

UNLEARN 高效去除大型语言模型中的知识

分类： 计算和语言, 人工智能

作者： Tyler Lizzo, Larry Heck

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04140v1

摘要： 鉴于大型语言模型 (LLM) 的盛行以及从头开始训练这些模型的成本高昂，动态忘记特定知识（例如私有或专有知识）而不重新训练模型已成为一项重要功能。本文提出了一种新方法来实现这一目标，称为 UNLEARN。该方法建立在子空间方法的基础上，以识别并专门针对知识的删除，而不会对大语言模型中的其他知识产生不利影响。结果表明，96% 的目标知识可以被遗忘，同时将其他知识的表现保持在原始模型的 2.5% 以内，显着优于之前最先进的判别能力。还提出了一种称为 LEARN 的双重方法，用于有针对性的知识添加。结果表明，LEARN 可以与低秩适应 (LoRA) 的微调精度相匹配，而不会对类似任务产生不利影响。

通过大型语言模型增强医疗保健：医疗问答研究

分类： 计算和语言, 人工智能

作者： Haoran Yu, Chang Yu, Zihan Wang, Dongxian Zou, Hao Qin

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04138v1

摘要： 近年来，大语言模型（LLM）在医疗保健领域的应用在提高医学知识的可及性和传播方面显示出了巨大的前景。本文详细研究了在 MedQuAD 医学问答数据集上训练的各种大语言模型，重点是确定提供准确医疗信息的最有效模型。在测试的模型中，Sentence-t5 与 Mistral 7B 结合表现出了优越的性能，达到了 0.762 的精度分数。该模型的增强功能归功于其先进的预训练技术、稳健的架构和有效的提示构建方法。通过利用这些优势，Sentence-t5 + Mistral 7B 模型在理解和生成精确的医疗答案方面表现出色。我们的研究结果强调了将复杂的大语言模型融入医学背景以促进高效和准确的医学知识检索的潜力，从而显着加强患者教育和支持。

基于规则的见解可以增强大语言模型的放射学报告分类吗？ RadPrompt 方法简介

分类： 计算和语言, 人工智能, 计算机视觉和模式识别

作者： Panagiotis Fytas, Anna Breger, Ian Selby, Simon Baker, Shahab Shahipasand, Anna Korhonen

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04121v1

摘要： 对于大型数据集来说，开发能够通过胸部 X 光检测病理的成像模型可能成本和时间都过高，因为它需要监督才能获得最先进的性能。相反，从放射学报告中提取的标签可以作为远程监督，因为这些标签通常是临床实践的一部分生成的。尽管它们被广泛使用，但当前基于规则的标签提取方法依赖于广泛的规则集，而这些规则集对句法可变性的鲁棒性有限。为了缓解这些限制，我们引入了 RadPert，这是一个基于规则的系统，它将不确定性感知信息模式与一组简化的规则集成在一起，从而提高了性能。此外，我们还开发了 RadPrompt，这是一种多轮提示策略，利用 RadPert 来增强大型语言模型的零样本预测能力，与 GPT-4 Turbo 相比，加权平均 F1 分数在统计上取得了显着改善。最值得注意的是，RadPrompt 超越了其两个基础模型，展示了大语言模型与基于规则的模型的协同潜力。我们在两个英语语料库上评估了我们的方法：MIMIC-CXR 黄金标准测试集和从剑桥大学医院收集的黄金标准数据集。

Patchview：大语言模型驱动的世界构建，具有生成尘埃和磁铁可视化

分类： 人机交互, 人工智能, 计算和语言

作者： John Joon Young Chung, Max Kreminski

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04112v1

摘要： 大型语言模型 (LLM) 可以通过生成派系、角色和地点等世界元素来帮助作家构建故事世界。然而，理解许多生成的元素可能会让人不知所措。此外，如果用户想要精确控制难以口头指定的生成元素的各个方面，仅提示可能是不够的。我们推出了 Patchview，这是一个由 LLM 驱动的可定制系统，它允许用户通过磁铁和灰尘的物理隐喻与故事概念和元素进行交互，从而在视觉上帮助世界构建。 Patchview 中的元素在视觉上被拉近到具有高度相关性的概念，从而促进意义建构。用户还可以通过指示概念之间元素的所需位置来引导语言上难以捉摸的概念的生成。当用户不同意 LLM 的可视化和生成时，他们可以通过重新定位元素来纠正这些问题。这些修正可用于使大语言模型未来的行为与用户的看法保持一致。通过用户研究，我们表明 Patchview 支持世界元素的意义构建和元素生成的指导，从而促进世界构建过程中的探索。 Patchview 提供了有关可定制视觉表示如何帮助意义构建、引导和调整生成式 AI 模型行为与用户意图的见解。

云平台神经处理单元的硬件辅助虚拟化

分类： 硬件架构, 人工智能, 机器学习, 操作系统

作者： Yuqi Xue, Yiqi Liu, Lifeng Nai, Jian Huang

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04104v1

摘要： 如今，云平台一直在部署神经处理单元 (NPU) 等硬件加速器，以支持机器学习 (ML) 推理服务。为了最大限度地提高资源利用率，同时确保合理的服务质量，一种自然的方法是虚拟化 NPU，以实现多租户 ML 服务的高效资源共享。然而，为现代云平台虚拟化 NPU 并不容易。这不仅是由于缺乏对 NPU 硬件的系统抽象支持，还因为缺乏对虚拟化 NPU 进行细粒度动态算子调度的架构和 ISA 支持。我们推出 TCloud，一个整体 NPU 虚拟化框架。我们研究整个软件和硬件堆栈中 NPU 的虚拟化技术。 TCloud 由以下部分组成：(1) 称为 vNPU 的灵活 NPU 抽象，可实现物理 NPU (pNPU) 中异构计算单元的细粒度虚拟化； (2) vNPU资源分配器，支持按需付费计算模型和灵活的vNPU到pNPU映射，以提高资源利用率和成本效益； (3) 现代 NPU 架构的 ISA 扩展，用于促进多个 vNPU 的细粒度张量算子调度。我们基于生产级 NPU 模拟器实现 TCloud。我们的实验表明，相比之下，TCloud 将 ML 推理服务的吞吐量提高了高达 1.4$\times$，将尾部延迟降低了高达 4.6$\times$，同时 NPU 利用率平均提高了 1.2$\times$。最先进的 NPU 共享方法。

ArtVLM：通过基于视觉的前缀语言建模进行属性识别

分类： 计算机视觉和模式识别, 人工智能

作者： William Y. Zhu, Keren Ye, Junjie Ke, Jiahui Yu, Leonidas Guibas, Peyman Milanfar, Feng Yang

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04102v1

摘要： 识别和分离对象的视觉属性是许多计算机视觉应用的基础。虽然像 CLIP 这样的大型视觉语言表示在很大程度上解决了零样本对象识别的任务，但零样本视觉属性识别仍然是一个挑战，因为 CLIP 的对比学习视觉语言表示无法有效捕获对象属性依赖性。在本文中，我们针对这一弱点，提出了一种基于句子生成的属性识别检索公式，其新颖之处在于：1）将待测量和检索的对象属性关系显式建模为条件概率图，将识别转换为条件概率图。问题转化为依赖性敏感的语言建模问题，2）在此重构上应用大型预训练视觉语言模型（VLM），并自然地提取其图像-对象-属性关系的知识以用于属性识别。具体来说，对于图像上要识别的每个属性，我们测量生成编码属性与图像上对象的关系的短句子的视觉条件概率。对比检索通过将句子元素与图像全局对齐来测量可能性，生成检索对句子中对象和属性的顺序和依赖性敏感。我们通过实验证明，在两个视觉推理数据集、野外视觉属性（VAW）和我们新提出的视觉基因组属性排名（VGARank）上，生成检索始终优于对比检索。

AEye：图像数据集可视化工具

分类： 计算机视觉和模式识别, 人工智能

作者： Florian Grötschla, Luca A. Lanzendörfer, Marco Calzavara, Roger Wattenhofer

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04072v1

摘要： 图像数据集是计算机视觉中机器学习模型的基础，显着影响模型的功能、性能和偏差以及架构考虑因素。因此，了解这些数据集的组成和分布变得越来越重要。为了满足直观探索这些数据集的需求，我们提出了 AEye，这是一种针对图像数据集量身定制的可扩展且可扩展的可视化工具。 AEye 利用对比训练的模型将图像嵌入到语义上有意义的高维表示中，从而促进数据聚类和组织。为了可视化高维表示，我们将它们投影到二维平面上并分层排列图像，以便用户可以无缝导航和交互探索它们。 AEye 促进文本和图像查询的语义搜索功能，使用户能够搜索内容。我们开源了 AEye 的代码库，并提供了简单的配置来添加数据集。

数字化身：框架开发及其评估

分类： 人工智能, 68, D.2.2; C.3

作者： Timothy Rupprecht, Sung-En Chang, Yushu Wu, Lei Lu, Enfu Nan, Chih-hsiang Li, Caiyue Lai, Zhimin Li, Zhijun Hu, Yumei He, David Kaeli, Yanzhi Wang

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04068v1

摘要： 我们为人工智能驱动的数字化身提出了一种新颖的提示策略。为了更好地量化我们的提示策略如何影响幽默、真实性和好感度等拟人化特征，我们提出了人群投票——人群评分的改编版，允许评委选出一个大型语言模型（LLM）候选人，而不是回答相同或相似提示的竞争对手。为了可视化大语言模型的反应以及激励策略的有效性，我们提出了一个端到端框架，用于创建高保真人工智能 (AI) 驱动的数字化身。该管道有效地捕捉了个人交互的本质，我们的流算法提供了高质量的数字化身，并具有从服务器到移动设备的实时音频视频流。我们的可视化工具和人群投票指标都表明，我们的人工智能驱动的数字化身具有最先进的幽默感、真实性和好感度，优于所有竞争对手和基线。就我们的唐纳德·特朗普和乔·拜登的化身而言，他们的真实性和好感度甚至比现实世界中的同类还要高。

PowerPM：电力系统基础模型

分类： 机器学习, 人工智能

作者： Shihao Tu, Yupeng Zhang, Jing Zhang, Yang Yang

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04057v1

摘要： 丰富的电力时间序列（ETS）数据的出现为电力系统中的各种应用提供了充足的机会，包括需求侧管理、电网稳定性和消费者行为分析。深度学习模型通过有效捕获序列依赖性，拥有先进的 ETS 建模。然而，由于 ETS 数据固有的复杂层次结构，学习各种应用的 ETS 数据的通用表示仍然具有挑战性。此外，ETS 数据表现出复杂的时间依赖性，并且容易受到外生变量的影响。此外，不同的实例表现出不同的用电行为。在本文中，我们提出了一个基础模型 PowerPM 来对 ETS 数据进行建模，为电力系统提供大规模的现成模型。 PowerPM 由时间编码器和分层编码器组成。考虑到外生变量，时间编码器捕获 ETS 数据中的时间依赖性。层次编码器对层次之间的相关性进行建模。此外，PowerPM 利用一种新颖的自监督预训练框架，该框架由屏蔽 ETS 建模和双视图对比学习组成，使 PowerPM 能够捕获 ETS 窗口内的时间依赖性并了解 ETS 窗口之间的差异，从而提供两种不同的视角来学习通用表示。我们的实验涉及五个现实世界场景数据集，包括私人和公共数据。通过对海量 ETS 数据进行预训练，PowerPM 在私有数据集中的各种下游任务上实现了 SOTA 性能。令人印象深刻的是，当转移到公共数据集时，PowerPM 保持了其优越性，展示了其跨各种任务和领域的卓越泛化能力。此外，消融研究、少样本实验为我们模型的有效性提供了额外的证据。

基于机器学习的奖励驱动的扫描探针显微镜调谐：迈向全自动显微镜

分类： 介观和纳米物理, 材料科学, 人工智能, 机器学习

作者： Yu Liu, Roger Proksch, Jason Bemis, Utkarsh Pratiush, Astita Dubey, Mahshid Ahmadi, Reece Emery, Philip D. Rack, Yu-Chen Liu, Jan-Chi Yang, Sergei V. Kalinin

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04055v1

摘要： 自扫描探针显微镜 (SPM) 诞生以来，轻敲或间歇接触模式一直是最广泛使用的成像模式之一。手动优化敲击模式不仅需要花费大量仪器和操作员时间，而且对于新类型的样品或经验不足的用户来说，常常会导致探头和样品频繁损坏、图像质量差以及重现性问题。尽管广泛使用，但轻敲模式成像的优化是一个极其困难的问题，不适合经典控制方法或机器学习。在这里，我们引入了奖励驱动的工作流程，以在点击模式下自动优化 SPM。奖励函数是基于多个通道定义的，具有良好扫描编码的物理和经验知识，代表与样本无关的图像质量度量，并模仿人类操作员采用的决策逻辑。这种自动化的工作流程为不同的探针和样品提供最佳的扫描参数，并在有吸引力的模式下始终提供高质量的 SPM 图像。这项研究拓宽了 SPM 的应用范围和可访问性，并为全自动 SPM 打开了大门。

NAVINACT：结合导航和模仿学习进行引导强化学习

分类： 人工智能

作者： Amisha Bhaskar, Zahiruddin Mahammad, Sachin R Jadhav, Pratap Tokekar

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04054v1

摘要： 强化学习（RL）在模拟环境中取得了显着的进步，但由于探索和泛化方面的挑战，其在现实世界机器人任务中的应用仍然受到限制。为了解决这些问题，我们引入了 NAVINACT，这是一个框架，可以选择机器人何时应使用基于经典运动规划的导航以及何时应学习策略。为了进一步提高探索效率，我们使用模仿数据来引导探索。 NAVINACT 在两种操作模式之间动态切换：在远离对象时使用经典技术导航到路点，在即将与对象交互时使用强化学习进行细粒度操作控制。 NAVINACT 由用于模式分类的 ModeNet、用于航点预测的 NavNet 和用于精确操作的 InteractNet 组成的多头架构组成。通过结合 RL 和模仿学习 (IL) 的优势，NAVINACT 提高了样本效率并减轻了分布偏移，从而确保了稳健的任务执行。我们在多个具有挑战性的模拟环境和现实任务中评估我们的方法，与现有方法相比，在适应性、效率和泛化方面展示了卓越的性能。在模拟和现实环境中，NAVINACT 都展示了强大的性能。在模拟中，NAVINACT 在 30k 样本的训练成功率上超过基线方法 10-15%，在评估阶段超过基线方法 30-40%。在现实场景中，与基线相比，它在简单任务上的成功率提高了 30-40%，并且在复杂的两阶段操作任务中取得了独特的成功。数据集和补充材料可以在我们的网站上找到：{https://raaslab.org/projects/NAVINACT/}。

无学习率强化学习：非平稳目标模型选择的案例

分类： 机器学习, 人工智能

作者： Aida Afshar, Aldo Pacchiano

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04046v1

摘要： 强化学习（RL）算法的性能对超参数的选择很敏感，其中学习率的影响尤其大。当学习率未最佳设置时，强化学习算法无法达到收敛或需要大量样本。在这项工作中，我们表明模型选择可以帮助改善由于学习率选择次优而导致的强化学习失败模式。我们提出了一个无学习率强化学习的模型选择框架，该框架采用模型选择方法来动态选择最佳学习率。这种自适应学习率调整的方法既不依赖于底层 RL 算法，也不依赖于优化器，仅使用奖励反馈来选择学习率；因此，该框架可以输入任何 RL 算法并生成其无学习率版本。我们对策略优化方法进行实验，并在我们的框架内评估各种模型选择策略。我们的结果表明，当超参数的最佳选择是时间相关且非平稳时，数据驱动的模型选择算法是标准老虎机算法的更好替代方案。

抑郁症预测中的多模式性别公平：对美国和中国数据的见解

分类： 机器学习, 人工智能, 机器人技术

作者： Joseph Cameron, Jiaee Cheong, Micol Spitale, Hatice Gunes

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04026v1

摘要： 社交代理和机器人越来越多地用于福利环境。然而，一个关键的挑战是这些代理和机器人通常依赖机器学习 (ML) 算法来检测和分析个人的心理健康状况。机器学习算法中的偏见和公平问题正成为越来越令人担忧的问题。与此同时，现有文献还表明，不同性别和文化的心理健康状况可能有不同的表现。我们假设特征（声音、文本和视觉）的表示及其模间关系在来自不同文化和性别的受试者中会有所不同，从而影响各种机器学习模型的性能和公平性。我们通过对来自美国和中国的两个不同数据集进行研究，首次对抑郁表现中的多模式性别公平性进行评估。我们进行彻底的统计和机器学习实验，并对几种不同的算法重复实验，以确保结果不依赖于算法。我们的研究结果表明，尽管两个数据集之间存在差异，但尚不能确定这是由于假设的抑郁症表现差异还是其他外部因素（例如数据收集方法的差异）造成的。我们的研究结果进一步激发了人们对更加一致和具有文化意识的数据收集过程的呼吁，以解决抑郁症检测中的机器学习偏差问题，并促进开发更公平的代理和机器人以促进福祉。

通过上下文感知基础提高大语言模型 (LLM) 保真度：可靠性和准确性的系统方法

分类： 计算和语言, 人工智能

作者： Wrick Talukdar, Anjanava Biswas

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04023v1

摘要： 随着大型语言模型 (LLM) 在自然语言处理 (NLP) 应用中变得越来越复杂和普遍，确保其稳健性、可信性以及与人类价值观的一致性已成为一项关键挑战。本文提出了文本模型中上下文基础的新颖框架，特别强调上下文表示阶段。我们的方法旨在通过全面的、情境感知的方法来增强这些模型的可靠性和道德一致性。通过以机器可读的格式明确捕获和表示相关的情境、文化和道德背景，我们为在这些背景下锚定模型的行为奠定了基础。我们的方法利用知识表示和推理的技术，例如本体论、语义网络技术和基于逻辑的形式主义。我们在现实世界的文本数据集上评估我们的框架，证明其在提高模型性能、公平性以及与人类期望的一致性方面的有效性，同时保持高精度。此外，我们还讨论了该框架的其他关键组成部分，包括上下文感知编码、上下文感知学习、可解释性和可解释性，以及持续监控和适应。这项研究为负责任的人工智能领域不断发展的工作做出了贡献，为开发更可靠、值得信赖和符合道德的语言模型提供了一种实用的方法。我们的研究结果对于在医疗保健、法律体系和社会服务等敏感领域部署大语言模型具有重大意义，这些领域的背景理解至关重要。

通过最优传输从噪声标签中学习长尾数据

分类： 机器学习, 人工智能

作者： Mengting Li, Chuang Zhu

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03977v1

摘要： 现实数据集中常见的噪声标签可能会严重损害深度学习模型的训练。然而，最近的对抗性噪声抑制方法忽视了真实数据的长尾分布，这会严重损害去噪策略的效果。同时，噪声标签的管理不善进一步损害了模型处理长尾数据的能力。为了解决这个问题，我们提出了一种新的方法来管理以长尾分布和噪声标签为特征的数据。首先，我们引入了损失距离交叉选择模块，该模块集成了类预测和特征分布来过滤干净样本，有效解决了噪声标签和长尾分布引入的不确定性。随后，我们采用最优传输策略以半监督训练的方式为噪声集生成伪标签，提高伪标签质量，同时减轻长尾分布造成的样本稀缺的影响。我们在合成数据集和真实数据集上进行了实验，综合实验结果表明我们的方法超越了当前最先进的方法。我们的代码将在未来可用。

SLIM-RAFT：一种新颖的微调方法，可提高南方共同市场通用命名法的跨语言性能

分类： 计算和语言, 人工智能, 机器学习

作者： Vinícius Di Oliveira, Yuri Façanha Bezerra, Li Weigang, Pedro Carvalho Brom, Victor Rafael R. Celestino

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03936v1

摘要： 随着大型语言模型 (LLM) 的出现，自然语言处理 (NLP) 取得了显着进步。然而，英语以外的语言仍需要进行实质性改进，特别是对于特定领域，例如南方共同市场通用命名法 (NCM)、巴西协调制度 (HS) 的应用。为了解决这一差距，本研究使用基础葡萄牙语大语言模型 TeenyTineLLaMA 作为大语言模型来源来实施 NCM 申请处理。此外，还提出了一种简化的检索增强微调（RAFT）技术，称为 SLIM-RAFT，用于 LLM 的特定任务微调。这种方法保留了思想链 (CoT) 方法，以更简洁和简化的方式快速开发，利用简短且重点突出的文档进行培训。所提出的模型展示了一种高效且经济高效的替代方案，可用于微调较小的 LLM，在相同任务中显着优于 TeenyTineLLaMA 和 ChatGPT-4。尽管该研究侧重于 NCM 应用，但该方法可以轻松适应全球的 HS 应用。

CodexGraph：通过代码图数据库桥接大型语言模型和代码存储库

分类： 软件工程, 人工智能, 计算和语言

作者： Xiangyan Liu, Bo Lan, Zhiyuan Hu, Yang Liu, Zhicheng Zhang, Wenmeng Zhou, Fei Wang, Michael Shieh

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03910v1

摘要： 大型语言模型 (LLM) 在 HumanEval 和 MBPP 等独立代码任务中表现出色，但在处理整个代码存储库方面却很困难。这一挑战促进了在存储库规模上增强 LLM 代码库交互的研究。当前的解决方案依赖于基于相似性的检索或手动工具和 API，每个都有明显的缺点。基于相似性的检索在复杂任务中通常召回率较低，而手动工具和 API 通常是特定于任务的，需要专家知识，从而降低了它们在不同代码任务和实际应用程序中的通用性。为了减轻这些限制，我们引入了 \framework，这是一个将 LLM 代理与从代码存储库中提取的图形数据库接口集成在一起的系统。通过利用图数据库的结构属性和图查询语言的灵活性，\framework 使 LLM 代理能够构建和执行查询，从而实现精确的、代码结构感知的上下文检索和代码导航。我们使用三个基准评估 \framework：CrossCodeEval、SWE-bench 和 EvoCodeBench。此外，我们还开发了五个现实世界的编码应用程序。凭借统一的图数据库架构，\framework 在学术和现实环境中展示了竞争性能和潜力，展示了其在软件工程中的多功能性和功效。我们的应用程序演示：https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent。

LaFA：对非负矩阵分解的潜在特征攻击

分类： 机器学习, 人工智能, 密码学和安全

作者： Minh Vu, Ben Nebgen, Erik Skau, Geigh Zollicoffer, Juan Castorena, Kim Rasmussen, Boian Alexandrov, Manish Bhattarai

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03909v1

摘要： 随着机器学习 (ML) 应用程序的快速增长，对损害其可靠性的对抗性攻击的担忧引起了人们的广泛关注。非负矩阵分解 (NMF) 是一种以其抵御此类攻击的能力而闻名的无监督机器学习方法，它是一种将输入数据分解为低维潜在特征的算法。然而，Pytorch 等强大计算工具的引入使得能够计算潜在特征相对于原始数据的梯度，引发了人们对 NMF 可靠性的担忧。有趣的是，像 ML 一样天真地推导 NMF 的对抗性损失会导致重建损失，这在理论上可以证明是一个无效的攻击目标。在这项工作中，我们在 NMF 中引入了一类新型攻击，称为潜在特征攻击（LaFA），其目的是操纵 NMF 过程产生的潜在特征。我们的方法直接利用潜在特征的特征误差（FE）损失。通过采用 FE 损失，我们在原始数据中产生扰动，这些扰动会显着影响提取的潜在特征，从而揭示与其他 ML 技术中发现的漏洞类似的漏洞。为了处理 FE 攻击中梯度反向传播带来的大量峰值内存开销，我们开发了一种基于隐式微分的方法，使其能够扩展到更大的数据集。我们通过对合成数据和真实数据进行大量实验来验证 NMF 漏洞和 FE 攻击的有效性。

解码偏见：语言模型中性别偏见检测的自动化方法和大语言模型法官

分类： 计算和语言, 人工智能

作者： Shachi H Kumar, Saurav Sahay, Sahisnu Mazumder, Eda Okur, Ramesh Manuvinakurike, Nicole Beckage, Hsuan Su, Hung-yi Lee, Lama Nachman

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03907v1

摘要： 大型语言模型 (LLM) 在语言理解和生成人类级别的文本方面表现出色。然而，即使有监督训练和人类对齐，这些大语言模型也容易受到对抗性攻击，恶意用户可能会促使模型生成不需要的文本。大语言模型本质上还编码潜在的偏见，这些偏见可能在互动过程中造成各种有害影响。偏差评估指标缺乏标准和共识，现有方法通常依赖于人工生成的模板和注释，这些模板和注释既昂贵又费力。在这项工作中，我们训练模型自动创建对抗性提示，以引出目标大语言模型的有偏见的反应。我们提出了基于大语言模型的偏差评估指标，并分析了几种现有的自动评估方法和指标。我们分析模型响应的各种细微差别，确定模型系列的优点和缺点，并评估评估方法的不足之处。我们将这些指标与人类评估进行比较，并验证大语言模型作为法官的指标是否与人类对响应生成偏差的判断一致。

使用经典贝叶斯主干的轻量级视频去噪

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别, 信号处理

作者： Clément Bled, François Pitié

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03904v1

摘要： 近年来，最先进的图像和视频去噪网络变得越来越大，需要数百万个可训练参数才能实现一流的性能。降噪质量的提高是以降噪速度为代价的，现代变压器网络的运行速度比 FastDVDnet 等较小的降噪网络和维纳滤波器等经典贝叶斯降噪器慢得多。在本文中，我们实现了一种混合维纳滤波器，它利用小型辅助网络来提高原始降噪器的性能，同时保持快速的降噪速度。这些网络用于细化维纳核估计、优化窗口函数并估计未知噪声分布。使用这些方法，我们的性能优于几种流行的降噪器，并且平均与流行的 VRT 变压器相比保持在 0.2 dB 以内。我们的方法比 Transformer 方法快 10 倍以上，并且参数成本低得多。

简化可访问数字图书馆的学术摘要

分类： 计算和语言, 人工智能, 计算机与社会, 数字图书馆

作者： Haining Wang, Jason Clark

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03899v1

摘要： 数字图书馆站在知识传播的最前沿，收藏了大量科学文献。然而，这些学术著作往往充满了行话，并且是为领域专家而不是普通公众量身定制的。作为图书馆员，我们努力为不同的受众提供服务，包括那些阅读水平较低的受众。为了将我们的服务扩展到单纯的访问之外，我们建议微调语言模型，将学术摘要重写为更易于理解的版本，从而使学术文献在需要时更容易访问。我们首先引入了一个专门为训练模型而设计的语料库，以简化学术摘要。该语料库由来自不同学科的三千多对摘要和意义陈述组成。然后，我们使用该语料库微调了四种语言模型。随后对模型的输出进行定量检查，以了解可访问性和语义一致性，并定性检查语言质量、忠实性和完整性。我们的研究结果表明，生成的模型可以将可读性提高三个以上级别，同时保持对原始内容的保真度。尽管最先进的商业模型仍然具有优势，但我们的模型更加紧凑，可以以经济实惠的方式在本地部署，并减轻与使用商业模型相关的隐私问题。我们预计这项工作将成为迈向更具包容性和无障碍图书馆的一步，改善我们为年轻读者和没有大学学位的读者提供的服务。

MORTAR：基于模型的运行时动作修复框架，适用于人工智能网络物理系统

分类： 软件工程, 人工智能

作者： Renzhi Wang, Zhehua Zhou, Jiayang Song, Xuan Xie, Xiaofei Xie, Lei Ma

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03892v1

摘要： 信息物理系统 (CPS) 在各种工业和日常生活领域中越来越普遍，其应用范围从机器人操作到自动驾驶。随着人工智能 (AI) 的最新进展，基于学习的组件，尤其是 AI 控制器，对于增强 CPS 的功能和效率已变得至关重要。然而，这些人工智能控制器缺乏可解释性，对人工智能 CPS (AI-CPS) 的安全性和质量保证提出了挑战。提高人工智能控制器安全性的现有方法通常涉及神经网络修复，这需要使用额外的对抗性示例进行重新训练或访问神经网络的详细内部信息。因此，这些方法对黑盒策略的适用性有限，在黑盒策略中，在操作期间只能访问输入和输出。为了克服这个问题，我们提出了 MORTAR，这是一种为本次工作中的 AI-CPS 设计的运行时动作修复框架。 MORTAR 首先构建一个预测模型，预测人工智能控制器提出的行动的质量。如果检测到不安全的操作，MORTAR 就会启动修复过程来纠正它。修复动作的生成是通过预测模型的安全估计指导的优化过程来实现的。我们评估了 MORTAR 在各种 CPS 任务和 AI 控制器中的有效性。结果表明，MORTAR可以在指定的安全规范下有效提高AI控制器的任务完成率。同时，它还保持最小的计算开销，确保AI-CPS的实时运行。

图表示学习的知识探索

分类： 机器学习, 人工智能

作者： Mingyu Zhao, Xingyu Huang, Ziyu Lyu, Yanlin Wang, Lixin Cui, Lu Bai

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03877v1

摘要： 图学习方法已广泛应用于各个应用领域。然而，什么样的固有图属性例如图邻近性，图结构信息已被编码到下游任务的图表示学习中，但仍处于探索之中。在本文中，我们提出了一种新颖的图探测框架（GraphProbe）来调查和解释图学习方法系列是否在图表示学习中编码了不同级别的知识。基于图的内在属性，我们设计了三个探针，从不同的角度系统地研究图表示学习过程，分别是节点级别、路径级别和结构级别。我们使用基于随机游走的方法、基本图神经网络和自监督图方法中的九种代表性图学习方法构建了全面的评估基准，并在节点分类、链接预测和图分类的六个基准数据集上对其进行了探讨。实验评估验证了GraphProbe能够估计图表示学习的能力。重做结果已经得出结论：GCN和WeightedGCN方法是相对通用的方法，针对不同的任务取得了更好的结果。

串间变压器：关注时间序列预测中的产品

分类： 机器学习, 人工智能, I.2.6; G.3; I.5.1

作者： Rares Cristian, Pavithra Harsha, Clemente Ocejo, Georgia Perakis, Brian Quanz, Ioannis Spantidakis, Hamza Zerhouni

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03872v1

摘要： 时间序列预测是从供应链管理到天气预报等许多领域的一项重要任务。最近，Transformer 神经网络架构在常见时间序列基准数据集的预测方面显示出了有希望的结果。然而，供应链需求预测的应用受到了限制，因为供应链需求预测可能具有稀疏性和跨系列效应等挑战性特征。在这项工作中，我们探索基于 Transformer 的模型在供应链需求预测中的应用。特别是，我们开发了一种新的基于 Transformer 的预测方法，使用共享的、多任务的每个时间序列网络，其初始组件应用跨时间序列的注意力，以捕获交互并帮助解决稀疏性问题。我们提供了一个案例研究，应用我们的方法成功改进医疗器械制造公司的需求预测。为了进一步验证我们的方法，我们还将其应用于公共需求预测数据集，并与私人和公共数据集中的各种基线和最先进的预测方法相比，展示了具有竞争力的卓越性能。

BeeManc 在 TAC-2023 的 PLABA Track：研究大语言模型和可控属性以提高生物医学文本可读性

分类： 计算和语言, 人工智能

作者： Zihao Li, Samuel Belkadi, Nicolo Micheletti, Lifeng Han, Matthew Shardlow, Goran Nenadic

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03871v1

摘要： 在这份系统报告中，我们描述了参与 PLABA2023 生物医学摘要简化任务（TAC 2023 轨道的一部分）所使用的模型和方法。我们提交的系统输出来自以下三类：1）领域微调的类T5模型，包括Biomedical-T5和Lay-SciFive； 2) 具有可控属性的微调 BARTLarge 模型（通过代币）BART-w-CT； 3) ChatGPT 提示。我们还介绍了我们为此任务在 BioGPT 微调方面所做的工作。在使用 SARI 分数的官方自动评估中，BeeManc 在所有团队中排名第二，我们的模型 LaySciFive 在所有 13 个评估系统中排名第三。在官方的人类评估中，我们的模型 BART-w-CTs 在所有 7 个评估系统中在句子简单性上排名第二（得分 92.84），在术语简单性上排名第三（得分 82.33）；与最高分 93.53 相比，它的流畅度也获得了 91.57 的高分。在第二轮提交中，我们使用 ChatGPT 提示的团队在多个类别中排名第二，包括简化术语准确度得分 92.26 和完整性得分 96.58，以及与重新评估 PLABA-base-1 非常相似的忠实度得分 95.3（95.73））通过人工评估。我们的代码、微调模型、提示和系统开发阶段的数据分割将在 https://github.com/HECTA-UoM/PLABA-MU 提供

MaxMind：基于大型语言模型的内存循环网络，提高软件生产力

分类： 软件工程, 人工智能

作者： Yuchen Dong, XiaoXiang Fang, Yuchen Hu, Renshuang Jiang, Zhe Jiang

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03841v1

摘要： 应用大型语言模型来促进自动化软件操作和工具生成（SOTG），从而提高软件生产力，反映了人类进化的早期阶段，当时创建和使用工具的能力加速了文明的进步。这些复杂的任务需要人工智能不断总结和改进。当前的研究经常忽视将实时任务经验转换为系统内存以及区分现有知识以供未来参考的价值的重要性。本文通过将外部记忆模型发展为记忆循环网络来解决这些问题，以实现及时记忆和经验参考。我们还增强了具有知识精确分割的 RAG 机制，以利用基于价值差异的内存，并相应地为 SOTG 设计了 MaxMind 模型。为了演示我们的方法，我们开发了 MaxMind4Sheet，这是一个符合 MaxMind 理念的电子表格处理系统。与SheetCopilot的对比实验表明，任务内存的积累和回收可以使任务成功率稳步提升，在本实施例中每轮的提升率约为3%-6%。请注意，随着内存的不断增长，这种累积的改进可能是巨大的。内存回收的加入还可以将系统的任务执行效率提高高达25%，并且可以解决大语言模型在通过内存转移处理专门任务时面临的再训练问题。这表明MaxMind在增强能力和生产力方面具有巨大的潜力SOTG 的大语言模型系统。

WalledEval：大型语言模型的综合安全评估工具包

分类： 计算和语言, 人工智能

作者： Prannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03837v1

摘要： WalledEval 是一款综合性 AI 安全测试工具包，旨在评估大型语言模型 (LLM)。它适用于各种模型，包括开放式模型和基于 API 的模型，并具有超过 35 个安全基准，涵盖多语言安全、夸张安全和即时注射等领域。该框架支持大语言模型和法官基准测试，并结合了自定义突变器来测试针对各种文本样式突变（例如将来时和释义）的安全性。此外，WalledEval 还推出了 WalledGuard（一种新型小型高性能内容审核工具）和 SGXSTest（用于评估文化环境中夸大安全性的基准）。我们在 https://github.com/walledai/walledevalA 上公开提供 WalledEval。

视觉语言模型目标提示信息提取

分类： 计算机视觉和模式识别, 人工智能

作者： Dipankar Medhi

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03834v1

摘要： 大视觉和语言模型的最新趋势给信息提取系统的构建方式带来了新的变化。 VLM 以其最先进的技术在理解文档和构建跨行业的问答系统方面树立了新的基准。它们在从文档图像生成文本和提供问题的准确答案方面表现得明显更好。然而，有效利用这些模型来构建精确的对话系统仍然存在一些挑战。用于大型语言模型的一般提示技术通常不适合这些专门设计的视觉语言模型。这种通用输入提示生成的输出是普通的，并且与文档的实际内容相比可能包含信息差距。为了获得更准确、更具体的答案，视觉语言模型需要有针对性的提示以及文档图像。在本文中，讨论了一种称为目标提示的技术，该技术侧重于明确定位文档图像的部分并仅从这些特定区域生成相关答案。本文还涵盖了使用不同的用户查询和输入提示对每种提示技术的响应进行评估。

针对移动应用程序中的辅助功能问题的自动代码修复建议

分类： 软件工程, 人工智能, 人机交互, D.2.5; I.2

作者： Forough Mehralian, Titus Barik, Jeff Nichols, Amanda Swearngin

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03827v1

摘要： 可访问性对于包容性应用程序可用性至关重要，但由于缺乏意识、专业知识和工具不足，开发人员常常难以识别和解决应用程序可访问性问题。当前的可访问性测试工具可以识别可访问性问题，但可能并不总是提供如何解决这些问题的指导。我们推出 FixAlly，这是一种自动化工具，旨在针对自动可访问性扫描程序检测到的可访问性问题提出源代码修复建议。 FixAlly 采用多代理 LLM 架构来生成修复策略、定位源代码中的问题并提出代码修改建议以修复可访问性问题。我们的实证研究表明，FixAlly 能够提出解决可访问性扫描仪发现的问题的修复方案，生成合理修复建议的效率为 77%，而且我们对 12 名 iOS 开发人员进行的调查发现，他们愿意接受 69.4% 的评估修复方案建议。

具有检索增强生成功能的生成语言模型，用于自动简答评分

分类： 计算和语言, 人工智能, 信息检索

作者： Zifan Wang, Christopher Ormerod

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03811v1

摘要： 自动简答评分 (ASAS) 是教育评估的重要组成部分。虽然传统的 ASAS 系统依赖于基于规则的算法或复杂的深度学习方法，但生成语言模型 (GLM) 的最新进展提供了新的改进机会。本研究探讨了 GLM 在 ASAS 中的应用，利用其在各个领域的现成功能和性能。我们提出了一种新颖的管道，它将矢量数据库、基于变压器的编码器和 GLM 结合起来，以提高简答评分的准确性。我们的方法将训练响应存储在向量数据库中，在推理过程中检索语义相似的响应，并采用 GLM 来分析这些响应并确定适当的分数。我们通过微调检索流程和及时工程进一步优化系统。对 SemEval 2013 数据集的评估表明，与现有方法相比，SCIENTSBANK 3 路和 2 路任务有了显着改进，凸显了 GLM 在推进 ASAS 技术方面的潜力。

穿越人类迷宫：利用生成模仿学习进行实时机器人寻路

分类： 机器人技术, 人工智能

作者： Martin Moder, Stephen Adhisaputra, Josef Pauli

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03807v1

摘要： 本文通过将目标条件生成模型与基于采样的模型预测控制（SMPC）相结合来解决拥挤环境中的导航问题。我们引入目标条件自回归模型来生成人群行为，捕获个体之间复杂的交互。该模型处理潜在的机器人轨迹样本并预测周围个体的反应，从而在复杂场景中实现主动机器人导航。大量实验表明，该算法可以实现实时导航，显着降低碰撞率和路径长度，并且性能优于所选的基线方法。该算法的实际有效性在实际的机器人平台上得到了验证，展示了其在动态设置中的能力。

皮亚杰逻辑比例中的弗兰克三角范数

分类： 人工智能

作者： Henri Prade, Gilles Richard

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03795v1

摘要： 从皮亚杰意义上的逻辑比例的布尔概念（结果相当于类比比例）出发，本文提出了基于三角范数（和对偶共范数）的数值之间的类比比例的定义。从这个角度来看，弗兰克的三角范数族特别有趣。本文最后与另一个最近提出的基于广义均值族定义数值之间的类比比例的提案进行了比较讨论。

多元时间序列中基于在线模型的异常检测：分类、调查、研究挑战和未来方向

分类： 机器学习, 人工智能, 系统与控制, 系统与控制

作者： Lucas Correia, Jan-Christoph Goos, Philipp Klein, Thomas Bäck, Anna V. Kononova

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03747v1

摘要： 时间序列异常检测在工程过程中发挥着重要作用，例如开发、制造和涉及动态系统的其他操作。这些过程可以极大地受益于该领域的进步，因为最先进的方法可能有助于涉及高维数据等情况。为了让读者理解术语，本调查引入了一种新颖的分类法，区分了在线和离线以及训练和推理。此外，它还提供了文献中使用的最流行的数据集和评估指标，以及详细的分析。此外，这项调查还广泛概述了针对多元时间序列数据的最先进的基于模型的在线半监督和无监督异常检测方法，并将它们分类为不同的模型系列和其他属性。最大的研究挑战围绕基准测试，因为目前没有可靠的方法来比较不同的方法。这个问题有两个方面：一方面，公共数据集至少存在一个根本性缺陷，另一方面，该领域缺乏直观且有代表性的评估指标。此外，大多数出版物选择检测阈值的方式忽视了现实世界的条件，这阻碍了在现实世界中的应用。为了在该领域取得切实进展，这些问题必须在未来的工作中得到解决。

使用隐式先验和扩散后验采样的灵活贝叶斯最后层模型

分类： 机器学习, 人工智能, 机器学习

作者： Jian Xu, Zhiqi Lin, Shigui Li, Min Chen, Junmei Yang, Delu Zeng, John Paisley

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03746v1

摘要： 贝叶斯最后一层 (BLL) 模型仅关注神经网络输出层的不确定性，表现出与更复杂的贝叶斯模型相当的性能。然而，在贝叶斯最后一层 (BLL) 模型中使用高斯先验作为最后一层权重会限制其在面对非高斯、异常值丰富或高维数据集时的表达能力。为了解决这一不足，我们引入了一种新颖的方法，该方法结合了扩散技术和隐式先验，用于贝叶斯最后一层权重的变分学习。该方法利用隐式分布对 BLL 中的权重先验进行建模，并结合扩散采样器来近似真实的后验预测，从而建立全面的贝叶斯先验和后验估计策略。通过提供明确且计算高效的变分下界，我们的方法旨在增强 BLL 模型的表达能力，提高模型准确性、校准和分布外检测能力。通过详细的探索和实验验证，我们展示了该方法在提高预测准确性和不确定性量化同时确保计算效率的潜力。

用于可解释图像分类的直观模糊认知图

分类： 计算机视觉和模式识别, 人工智能

作者： Georgia Sovatzidi, Michael D. Vasilakakis, Dimitris K. Iakovidis

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03745v1

摘要： 机器学习模型的可解释性至关重要，因为用户可能不愿意依赖他们的推论。直觉 FCM (iFCM) 被提议作为 FCM 的扩展，提供一种自然机制，通过估计犹豫来评估其输出质量，这一概念类似于人类决策中的犹豫。为了解决可解释图像分类的挑战，本文引入了一种新颖的框架，名为可解释直觉 FCM (I2FCM)，它是领域独立的、易于实现的，并且可以应用于卷积神经网络 (CNN) 模型，使其可解释。据我们所知，这是 iFCM 首次应用于图像分类。其他新颖的贡献包括：专注于信息最丰富的图像区域的特征提取过程；用于数据驱动确定 iFCM 直观模糊互连的学习算法；基于图像内容的本质上可解释的分类方法。在图像分类的背景下，犹豫被认为是对图像分类的不自信程度。构建的 iFCM 模型区分了最具代表性的图像语义，并利用因果关系对其进行分析。所引入框架的有效性在公开可用的数据集上进行了评估，实验结果证实它可以提供增强的分类性能，同时提供可解释的推论。

通过量化感知规模学习推进多模态大型语言模型以实现高效适应

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Jingjing Xie, Yuxin Zhang, Mingbao Lin, Liujuan Cao, Rongrong Ji

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03735v1

摘要： 本文提出了第一项研究，探索多模态大语言模型参数量化的潜力，以缓解视觉语言指令调整过程中遇到的重大资源限制。我们引入了一种基于多模态 Warmup 的量化感知尺度学习方法，称为 QSLAW。该方法基于两个关键创新：（1）学习量化LLM权重的分组比例因子，以减轻由激活异常值引起的量化误差并实现更有效的视觉语言指令调整；（2）实施多模态预热，逐步整合语言和多模态训练样本，从而防止量化模型对多模态数据的过度拟合，同时确保多模态大语言模型稳定适应下游视觉语言任务。大量实验表明，QSLAW 量化的模型与全精度模型的性能相当，甚至超过了它们，同时使 VL 调整时间和 GPU 消耗减少了 1.4 倍。我们的代码发布于 https://github.com/xjjxmu/QSLAW。

上下文语言模型潜在空间的局部拓扑测量及其在对话术语提取中的应用

分类： 计算和语言, 人工智能, 机器学习

作者： Benjamin Matthias Ruppik, Michael Heck, Carel van Niekerk, Renato Vukovic, Hsien-chin Lin, Shutong Feng, Marcus Zibrowius, Milica Gašić

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03706v1

摘要： 基于上下文单词表示的序列标记任务的常见方法是直接在这些嵌入向量上训练机器学习分类器。这种方法有两个缺点。首先，此类方法孤立地考虑单个输入序列，并且无法将与当前本地使用上下文之外的向量相关的单个嵌入向量放置。其次，这些模型的高性能依赖于对嵌入模型与分类器的结合进行微调，由于底层特征生成模型的大小或不可访问性，这可能并不总是可行的。因此，给定语料库（即数据存储）的嵌入向量的集合，期望找到描述其与数据存储中的其他相似向量的关系的每个向量的特征。考虑到这一点，我们引入了相对于给定数据存储的上下文语言模型的潜在空间的局部拓扑的复杂性度量。我们的特征的有效性通过其在对话术语提取中的应用得到了证明。我们的工作继续进行一系列研究，探索词嵌入的多种假设，证明可以利用词嵌入所划分的空间中的局部结构来推断语义属性。

基于区块链的元宇宙可靠联邦元学习：双重游戏框架

分类： 分布式、并行和集群计算, 人工智能, 计算机科学与博弈论, 机器学习

作者： Emna Baccour, Aiman Erbad, Amr Mohamed, Mounir Hamdi, Mohsen Guizani

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03694v1

摘要： 元宇宙被设想为基于化身的虚拟交互的下一个数字前沿，涉及高性能模型。在这种动态环境中，用户的任务经常发生变化，尽管数据有限，但仍需要快速的模型个性化。这种演变消耗大量资源并需要大量数据。为了解决这个问题，元学习成为元宇宙用户的宝贵工具，联合元学习（FML）凭借其自适应能力提供了更加量身定制的解决方案。然而，元宇宙的特点是用户异质性，数据结构多样，任务多样，样本量不均匀，由于统计差异可能会破坏全局训练结果。鉴于此，迫切需要组建明智的联盟来解决这些差异。本文介绍了元宇宙服务的双重博弈论框架，其中元学习者作为管理 FML 的工人。基于声誉指标、用户相似性和激励措施，精心设计了一个基于区块链的合作联盟形成游戏。我们还引入了一种新颖的声誉系统，该系统基于用户的历史贡献和对当前任务的潜在贡献，利用过去和新任务之间的相关性。最后，提出了一种基于Stackelberg博弈的激励机制，吸引可靠的工作者参与元学习，最大限度地降低用户的能源成本，增加回报，提高FML效率，提高元宇宙效用。结果表明，我们的双游戏框架优于尽力而为、随机和非均匀的聚类方案 - 将训练性能提高多达 10%，将完成时间缩短多达 30%，将 Metaverse 实用性提高超过 25%，并且与非区块链系统相比，训练效率提升高达 5%，有效打击不当用户。

受限三体问题中周期轨道的生成设计

分类： 机器学习, 地球和行星天体物理学, 人工智能

作者： Alvaro Francisco Gil, Walther Litteri, Victor Rodriguez-Fernandez, David Camacho, Massimiliano Vasile

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03691v1

摘要： 几个世纪以来，三体问题一直让科学家们着迷，它对于现代太空任务的设计至关重要。生成人工智能的最新发展为解决这一长期存在的问题带来了变革性的希望。这项工作研究了使用变分自动编码器（VAE）及其内部表示来生成周期性轨道。我们利用圆形受限三体问题（CR3BP）中的周期轨道综合数据集来训练捕获关键轨道特征的深度学习架构，并为生成的轨迹设置物理评估指标。通过这项调查，我们寻求加深对生成式人工智能如何改进太空任务规划和天体动力学研究的理解，从而在该领域产生新颖的、数据驱动的方法。

HiQuE：用于多模式抑郁症检测的分层问题嵌入网络

分类： 人工智能, 多媒体

作者： Juho Jung, Chaewon Kang, Jeewoo Yoon, Seungbae Kim, Jinyoung Han

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03648v1

摘要： 自动抑郁症检测的使用显着增强了对抑郁症患者的早期干预。尽管有许多关于使用录制的临床访谈视频进行自动抑郁症检测的建议，但对考虑访谈问题的层次结构的关注有限。在诊断抑郁症的临床访谈中，临床医生使用结构化问卷来评估受访者的病情，其中包括常规基线问题和后续问题。本文介绍了 HiQuE（分层问题嵌入网络），这是一种新颖的抑郁症检测框架，它利用临床访谈中主要问题和后续问题之间的分层关系。 HiQuE 通过学习多种模式的相互信息，可以有效地捕捉每个问题在诊断抑郁症中的重要性。我们对广泛使用的临床访谈数据 DAIC-WOZ 进行了广泛的实验，我们的模型优于其他最先进的多模态抑郁检测模型和情绪识别模型，展示了其在抑郁检测中的临床实用性。

概念指挥：在文本到图像合成中协调多个个性化概念

分类： 计算机视觉和模式识别, 人工智能, 多媒体, 68U10, I.4.9

作者： Zebin Yao, Fangxiang Feng, Ruifan Li, Xiaojie Wang

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03632v1

摘要： 文本到图像模型的定制已经取得了显着的进步，但生成多个个性化概念仍然是一项具有挑战性的任务。当前的方法在处理多个概念时会遇到属性泄漏和布局混乱的问题，导致概念保真度和语义一致性降低。在这项工作中，我们引入了一种新颖的免培训框架Concept Conductor，旨在确保多概念定制中的视觉保真度和正确布局。 Concept Conductor隔离了多个自定义模型的采样过程，以防止不同概念之间的属性泄漏，并通过基于自注意力的空间引导来纠正错误的布局。此外，我们提出了一种概念注入技术，该技术采用形状感知掩模来指定每个概念的生成区域。该技术通过注意力层中的特征融合注入个性化概念的结构和外观，确保最终图像的和谐。广泛的定性和定量实验表明，Concept Conductor 可以一致地生成具有准确布局的合成图像，同时保留每个概念的视觉细节。与现有基准相比，Concept Conductor 显示出显着的性能改进。我们的方法支持任意数量的概念的组合，即使在处理视觉上相似的概念时也能保持高保真度。代码和模型可在 https://github.com/Nihukat/Concept-Conductor 获取。

基站选址大语言模型：基于Prompt或Agent的智能部署

分类： 人工智能, 计算和语言

作者： Yanhu Wang, Muhammad Muzammil Afzal, Zhengyang Li, Jie Zhou, Chenyuan Feng, Shuaishuai Guo, Tony Q. S. Quek

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03631v1

摘要： 传统的基站选址（BSS）方法严重依赖路测和用户反馈，这非常费力，并且需要通信、网络和优化方面的丰富专业知识。随着大型语言模型（LLM）及其相关技术的进步，特别是在即时工程和代理工程领域，网络优化将见证一种革命性的方法。这种方法需要战略性地使用精心设计的提示，将人类经验和知识注入这些复杂的大语言模型，并部署自主代理作为通信桥梁，使用自然语言将基于机器语言的大语言模型与人类用户无缝连接。这种集成代表了人工智能 (AI) 即服务和让 AI 更轻松的未来范式。作为初步探索，本研究首先开发了一种新颖的LLM授权的BSS优化框架，并启发式地提出了四种不同的潜在实现：基于Prompt-optimized LLM (PoL)、Human-in-the-Loop LLM (HiLL)、 LLM 授权的自治 BSS 代理 (LaBa)，以及协作多个基于 LLM 的自治 BSS 代理 (CLaBa)。通过对真实世界数据的评估，实验表明，即时辅助的LLM和基于LLM的代理可以生成更高效、更具成本效益和更可靠的网络部署，显着提高BSS优化的效率并减少琐碎的人工参与。

通过新颖的拼写纠正系统提高波斯语临床文本的质量

分类： 计算和语言, 人工智能

作者： Seyed Mohammad Sadegh Dashti, Seyedeh Fatemeh Dashti

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03622v1

摘要： 背景：电子健康记录 (EHR) 中的拼写准确性是高效临床护理、研究和确保患者安全的关键因素。波斯语词汇丰富、特征复杂，给实际单词纠错带来了独特的挑战。这项研究旨在开发一种创新方法来检测和纠正波斯语临床文本中的拼写错误。方法：我们的策略采用了最先进的预训练模型，该模型经过精心调整，专门用于波斯语临床领域的拼写纠正任务。该模型得到了创新的正字法相似性匹配算法 PERTO 的补充，该算法使用字符的视觉相似性对校正候选进行排名。结果：对我们方法的评估证明了其在检测和纠正波斯语临床文本中的单词错误方面的稳健性和精确性。在非字纠错方面，当采用 PERTO 算法时，我们的模型实现了 90.0% 的 F1-Score。对于实际错误检测，我们的模型展示了其最高性能，F1 得分达到 90.6%。此外，当采用 PERTO 算法时，该模型的真实字纠错 F1 分数达到了最高的 91.5%。结论：尽管存在某些局限性，但我们的方法代表了波斯语临床文本拼写错误检测和纠正领域的重大进步。通过有效解决波斯语带来的独特挑战，我们的方法为更准确、更高效的临床记录铺平了道路，有助于改善患者护理和安全。未来的研究可以探索其在波斯医学领域其他领域的用途，增强其影响和实用性。

用于论证生成的逻辑谬误框架

分类： 计算和语言, 人工智能, 机器学习

作者： Luca Mouchel, Debjit Paul, Shaobo Cui, Robert West, Antoine Bosselut, Boi Faltings

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03618v1

摘要： 尽管大型语言模型（LLM）表现出色，但它们仍然难以生成逻辑上合理的论点，从而导致传播错误信息等潜在风险。导致大语言模型在产生连贯论点方面表现欠佳的一个重要因素是他们对逻辑谬误的监督。为了解决这个问题，我们引入了 FIPO，这是一个基于谬误的框架，它利用偏好优化方法来引导大语言模型获得逻辑上合理的论点。 FIPO 包含分类损失，以捕获有关谬误类别的细粒度信息。我们在论证数据集上的结果表明，我们的方法将谬误错误减少了高达 17.5%。此外，我们的人工评估结果表明，我们的方法生成的参数的质量显着优于微调基线以及先验偏好优化方法，例如 DPO。这些发现强调了确保模型意识到有效论证生成的逻辑谬误的重要性。

面向儿童的语音是语言模型的有效训练数据吗？

分类： 计算和语言, 人工智能, 机器学习

作者： Steven Y. Feng, Noah D. Goodman, Michael C. Frank

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03617v1

摘要： 虽然高性能语言模型通常需要对数千亿个单词进行训练，但人类儿童只需少量的数据即可成为流利的语言使用者。他们收到的数据有哪些特征，这些特征如何支持语言建模目标？为了研究这个问题，我们使用 2900 万个英语儿童导向语音单词和一个新的匹配合成数据集 (TinyDialogues) 训练 GPT-2 模型，并与 BabyLM 挑战赛中的异构数据集混合进行比较。我们使用受发展启发的评估来评估这些模型的句法和语义知识。通过预训练实验，我们测试儿童训练数据的全局发展顺序或局部话语顺序是否支持相对于其他数据集的高性能。数据的局部属性会影响模型结果，但令人惊讶的是，全局属性却不会。此外，儿童语言输入对于训练语言模型并不是唯一有价值的。这些发现支持这样的假设：儿童的学习不是从更好的数据出发，而是比当前的语言建模技术更有效。

Optimus-1：混合多模式记忆赋能代理在长期任务中表现出色

分类： 人工智能, 计算和语言

作者： Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03615v1

摘要： 构建通用代理是人工智能领域长期以来的愿景。现有的智能体在许多领域都取得了显着的进步，但它们仍然难以在开放世界中完成长期任务。我们将此归因于缺乏必要的世界知识和多模式经验，无法指导智能体完成各种长期任务。在本文中，我们提出了一种混合多模式内存模块来解决上述挑战。它1）将知识转化为分层有向知识图，允许代理显式地表示和学习世界知识，2）将历史信息总结为抽象多模态经验池，为代理提供丰富的上下文学习参考。在混合多模态内存模块之上，多模态代理 Optimus-1 是通过专用的知识引导规划器和经验驱动反射器构建的，有助于在面对 Minecraft 中的长期任务时更好地规划和反思。大量的实验结果表明，Optimus-1 在具有挑战性的长期任务基准上显着优于所有现有智能体，并且在许多任务上表现出接近人类水平的性能。此外，我们还引入了各种多模态大型语言模型 (MLLM) 作为 Optimus-1 的支柱。实验结果表明，Optimus-1 在混合多模态内存模块的帮助下表现出很强的泛化能力，在许多任务上优于 GPT-4V 基线。

EnJa：大型语言模型的 Ensemble 越狱

分类： 密码学和安全, 人工智能, 计算和语言, 机器学习

作者： Jiahao Zhang, Zilong Wang, Ruofan Wang, Xingjun Ma, Yu-Gang Jiang

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03603v1

摘要： 随着大型语言模型 (LLM) 越来越多地部署在安全关键型应用程序中，它们对潜在越狱的脆弱性（可以禁用 LLM 安全机制的恶意提示）引起了越来越多的研究关注。虽然已经提出了对齐方法来保护大语言模型免于越狱，但许多人发现对齐的大语言模型仍然可以通过精心设计的恶意提示进行越狱，产生违反政策规定的内容。现有的针对 LLM 的越狱攻击可以分为提示级方法（通过编造故事/逻辑来规避安全对齐）和令牌级攻击方法（利用梯度方法来查找对抗性令牌）。在这项工作中，我们引入了 Ensemble Jailbreak 的概念，并探索了将提示级和令牌级越狱集成为更强大的混合越狱攻击的方法。具体来说，我们提出了一种新颖的 EnJa 攻击，使用提示级越狱隐藏有害指令，使用基于梯度的攻击提高攻击成功率，并通过基于模板的连接器连接两种类型的越狱攻击。我们在多个对齐模型上评估了 EnJa 的有效性，并表明它以更少的查询实现了最先进的攻击成功率，并且比任何单独的越狱都要强大得多。

通过扩展激活：提高神经网络性能的框架

分类： 机器学习, 人工智能, 数值分析, 神经和进化计算, 数值分析

作者： Chandramouli Kamanchi, Sumatra Mukherjee, Kameshwaran Sampath, Pankaj Dayama, Arindam Jati, Vijay Ekambaram, Dzung Phan

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03599v1

摘要： 激活函数是神经网络中的非线性函数，允许它们学习输入和输出之间的复杂映射。激活函数的典型选择是 ReLU、Tanh、Sigmoid 等，其中选择通常取决于应用领域。在这项工作中，我们提出了一个框架/策略，统一了有关激活函数的多项工作，并从理论上解释了这些工作的性能优势。我们还提出了源自该框架的新技术，使我们能够通过激活函数的操作获得神经网络的“扩展”（即给定神经网络的特殊概括）。我们从理论上和经验上表明，与标准测试函数上的空间和时间复杂度成本微不足道的普通神经网络相比，神经网络的“扩展”具有性能优势。我们还展示了神经网络“扩展”在现实世界数据集的时间序列域中的好处。

焦深估计：一种免校准、受试者和白天不变的方法

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习, 信号处理

作者： Benedikt W. Hosp, Björn Severitt, Rajat Agarwala, Evgenia Rusak, Yannick Sauer, Siegfried Wahl

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03591v1

摘要： 在个性化技术与日常生活日益交织在一起的时代，传统的眼球追踪系统和自动对焦眼镜面临着重大挑战：需要频繁的、针对特定用户的校准，这阻碍了它们的实用性。这项研究引入了一种突破性的免校准方法来估计焦深，利用机器学习技术来分析短序列内的眼球运动特征。我们的方法以其对 LSTM 网络和特定领域特征工程的创新使用而著称，实现了小于 10 厘米的平均绝对误差 (MAE)，树立了新的焦深估计精度标准。这一进步有望增强自动对焦眼镜的可用性，并为其无缝集成到扩展现实环境中铺平道路，标志着个性化视觉技术的重大飞跃。

面对音乐：解决电影音源分离中的歌声分离问题

分类： 音频和语音处理, 人工智能, 机器学习, 声音

作者： Karn N. Watcharasupat, Chih-Wei Wu, Iroro Orife

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03588v1

摘要： 电影音频源分离（CASS）是音频源分离的一个相当新的子任务。 CASS 的典型设置是三干问题，目的是将混合物分离为对话干 (DX)、音乐干 (MX) 和效果干 (FX)。然而，在实践中，存在一些边缘情况，因为某些声源不能完全适合这三个主干中的任何一个，因此需要在生产中使用额外的辅助主干。一种非常常见的边缘情况是电影音频中的歌声，它可能属于 DX 或 MX，这在很大程度上取决于电影背景。在这项工作中，我们演示了专用解码器 Bandit 和基于查询的单解码器 Banquet 模型对四干问题的非常简单的扩展，将非音乐对话、器乐、歌声和效果视为单独的干。有趣的是，基于查询的 Banquet 模型优于专用解码器 Bandit 模型。我们假设这是由于与频带无关的 FiLM 层强制在瓶颈处实现了更好的特征对齐。数据集和模型实现将在 https://github.com/kwatcharasupat/source-separation-landing 提供。

适用于现实世界 TSP 场景的分层神经构造求解器

分类： 机器学习, 人工智能

作者： Yong Liang Goh, Zhiguang Cao, Yining Ma, Yanfei Dong, Mohammed Haroon Dupty, Wee Sun Lee

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03585v1

摘要： 现有的用于路由问题的神经构造性求解器主要采用 Transformer 架构，将路由构建概念化为一组到序列的学习任务。然而，它们的功效主要是在完全随机的问题实例上得到证明的，这些实例不足以捕捉现实世界的场景。在本文中，我们介绍了与工业环境相关的现实旅行商问题（TSP）场景，并得出以下见解：（1）要访问的最佳下一个节点（或城市）通常位于当前节点附近，这表明了潜在的好处基于当前位置的偏差选择。 (2) 有效解决 TSP 需要对未访问节点进行稳健跟踪并保证简洁的分组策略。基于这些见解，我们建议集成受超网络启发的可学习选择层，以根据当前位置对选择进行优先级排序，以及受期望最大化算法启发的可学习近似聚类算法，以方便对未访问过的城市进行分组。这两个贡献共同形成了一种分层方法，通过考虑直接的局部邻域和学习中间的节点表示集来解决实际的 TSP。与经典和最新的变压器模型相比，我们的分层方法产生了卓越的性能，展示了关键设计的功效。

通过多阶段采样主动测试大型语言模型

分类： 软件工程, 人工智能, 计算和语言, D.2.5; I.2.7

作者： Yuheng Huang, Jiayang Song, Qiang Hu, Felix Juefei-Xu, Lei Ma

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03573v1

摘要： 性能评估在大型语言模型（LLM）的开发生命周期中起着至关重要的作用。它评估模型的能力，阐明行为特征，并有助于识别潜在问题和局限性，从而指导进一步改进。鉴于LLM多样化的任务处理能力源于大量的训练数据，综合评估还需要丰富的、注释良好的、具有代表性的测试数据来评估LLM在各种下游任务中的表现。然而，对高质量测试数据的需求通常需要大量时间、计算资源和手动工作，有时会导致评估效率低下或不切实际。为了应对这些挑战，研究人员提出主动测试，通过选择测试数据的子集来估计整体性能。然而，鉴于大语言模型独特的新挑战（例如任务类型多样化、模型复杂性增加以及训练数据不可用），现有的主动测试方法往往效率低下，甚至不适用。为了减轻此类限制并加快大语言模型的开发周期，在这项工作中，我们引入了 AcTracer，这是一种专为大语言模型量身定制的主动测试框架，它战略性地选择一小部分测试数据，以实现大语言模型近乎最佳的性能估计。 AcTracer 利用大语言模型的内部和外部信息来指导测试抽样过程，通过基于多阶段池的主动选择来减少方差。我们的实验结果表明，与现有方法相比，AcTracer 在各种任务上都实现了最先进的性能，比之前的 SOTA 提高了 38.83%。

2D-OOB：通过联合评估框架归因数据贡献

分类： 机器学习, 人工智能

作者： Yifan Sun, Jingyan Shen, Yongchan Kwon

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03572v1

摘要： 数据评估已成为一个强大的框架，用于量化每个数据对特定机器学习模型训练的贡献。然而，重要的是要认识到单个数据点内不同单元格的质量在实践中可能存在很大差异。例如，即使在异常数据点的情况下，也并非所有单元格都一定是有噪声的。现有方法分配的单一标量估值模糊了数据点的噪声单元和干净单元之间的区别，从而损害了估值的可解释性。在本文中，我们提出了 2D-OOB，一种袋外估计框架，用于联合确定有用（或有害）样本以及驱动它们的特定单元。我们的综合实验表明，2D-OOB 在多个用例中实现了最先进的性能，同时速度呈指数级增长。 2D-OOB 擅长检测和纠正单元级别的细粒度异常值，以及定位数据中毒攻击中的后门触发器。

LLM 微调方法和评估指标与旅行聊天机器人用例的比较

分类： 计算和语言, 人工智能

作者： Sonia Meyer, Shreya Singh, Bertha Tam, Christopher Ton, Angel Ren

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03562v1

摘要： 这项研究比较了大语言模型（LLM）微调方法，包括量化低阶适配器（QLoRA）、检索增强微调（RAFT）和人类反馈强化学习（RLHF），并另外比较了 LLM 评估方法，包括 End使用旅行聊天机器人用例，实现“黄金答案”的端到端 (E2E) 基准方法、传统自然语言处理 (NLP) 指标、RAG 评估 (Ragas)、OpenAI GPT-4 评估指标和人工评估。旅行数据集源自 Reddit API，通过请求旅行相关 subreddits 中的帖子来获取旅行相关对话提示和个性化旅行体验，并针对每种微调方法进行了增强。我们使用了两个用于微调研究的预训练 LLM：LLaMa 2 7B 和 Mistral 7B。 QLoRA 和 RAFT 应用于两个预训练模型。根据上述指标对这些模型的推论进行了广泛的评估。根据人类评估和一些 GPT-4 指标的最佳模型是 Mistral RAFT，因此它经历了人类反馈强化学习 (RLHF) 训练管道，并最终被评估为最佳模型。我们的主要发现是：1）定量和 Ragas 指标与人类评估不一致，2）开放 AI GPT-4 评估与人类评估最一致，3）让人类参与评估循环至关重要，因为，4）传统 NLP 指标不足，5）Mistral 一般优于 LLaMa，6）RAFT 优于 QLoRA，但仍需要后处理，7）RLHF 显着提高模型性能。接下来的步骤包括提高数据质量、增加数据量、探索RAG方法以及将数据收集集中在特定城市，这将通过缩小焦点来提高数据质量，同时创建有用的产品。

MPC 最小化安全 LLM 推理

分类： 密码学和安全, 人工智能, 机器学习

作者： Deevashwer Rathee, Dacheng Li, Ion Stoica, Hao Zhang, Raluca Popa

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03561v1

摘要： 许多基于大型语言模型 (LLM) 的推理服务都会带来隐私问题，要么向服务泄露用户提示，要么向用户泄露专有权重。安全推理通过安全多方计算（MPC）提供了这个问题的解决方案，但是，由于 MPC 带来的巨大开销，对于现代 LLM 工作负载来说仍然不切实际。为了解决这一开销，我们提出了 Marill，这是一个采用 LLM 微调的框架，以最大限度地减少安全推理期间 MPC 的使用。 Marill 在微调过程中引入了高级架构更改，通过在不影响安全性的情况下删除一些操作并将其他操作移至 MPC 外部，显着减少推理过程中 MPC 内所需的昂贵操作的数量。因此，Marill 生成的模型在所有安全推理协议中都更加高效，并且我们的方法补充了此类操作的 MPC 友好近似。与标准微调相比，Marill 在跨各种 MPC 设置的安全推理期间实现了 3.6-11.3 倍更好的运行时间和 2.4-6.9 倍更好的通信，同时通常在下游任务中保留超过 90% 的性能。

D2Styler：通过离散扩散方法推进任意风格转移

分类： 计算机视觉和模式识别, 人工智能

作者： Onkar Susladkar, Gayatri Deshmukh, Sparsh Mittal, Parth Shastri

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03558v1

摘要： 在图像处理中，最具挑战性的任务之一是使用各种艺术方法呈现图像的语义。由于风格和内容图像之间的差异，现有的任意风格迁移（AST）技术经常会遇到模式崩溃、过度风格化或风格化不足的情况。我们提出了一种名为 D$^2$Styler（Discrete Diffusion Styler）的新颖框架，它利用了 VQ-GAN 的离散表示能力和离散扩散的优势，包括稳定的训练和避免模式崩溃。我们的方法使用自适应实例归一化（AdaIN）功能作为反向扩散过程的上下文指南。这使得可以轻松地将特征从风格图像转移到内容图像，而不会产生偏见。所提出的方法大大增强了风格转移图像的视觉质量，允许以视觉上吸引人的方式组合内容和风格。我们从 WikiArt 数据集获取风格图像，从 COCO 数据集获取内容图像。实验结果表明，D$^2$Styler 可以生成高质量的风格转移图像，并且在几乎所有指标上都优于 12 种现有方法。定性结果和消融研究为我们技术的功效提供了进一步的见解。该代码可从 https://github.com/Onkarsus13/D2Styler 获取。

解锁非母语语境限制：母语提示促进知识提取

分类： 计算和语言, 人工智能

作者： Baixuan Li, Yunlong Fan, Zhiqiang Gao

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03544v1

摘要： 多语言大语言模型（MLLM）很难回答非主导语言提出的问题，即使它们已经从主导语言语料库中获得了相关知识。相比之下，人类多语言者可以通过积极母语迁移（PNLT）调用从母语文本中获得的相对丰富的知识来克服这个问题。受此启发，我们将 MLLM 的主导语言类比为人类多语言者的母语，并提出母语提示（NatLan）来模拟在人类多语言者中观察到的 PNLT。它明确地为 MLLM 创建母语语境，以促进在问答过程中引出丰富的母语知识，解除非母语语境对知识有效应用所施加的限制。通过采用多 MLLM 协作，NatLan 减少了每个 MLLM 模拟 PNLT 的工作量，并细化了语义传输。在 C-Eval 基准测试中，NatLan 在五个 MLLM 中提供了高达 10.1% 的平均准确度提升和高达 5.0% 的硬级别子集提升，超越了所有一流的相关方法。我们的代码可在 https://github.com/AnonyNLP/NatLan 获取。

自动识别西班牙埃斯特雷马杜拉德赫萨（牧场）橡子树覆盖的面积

分类： 计算机视觉和模式识别, 人工智能, I.4.6

作者： Ojeda-Magaña Benjamin, Ruelas Ruben, Quintanilla-Dominguez Joel, Gomez-Barba Leopoldo, Lopez de Herrera Juan, Robledo-Hernandez Jose, Tarquis Ana

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03542v1

摘要： 橡子是橡树的果实，是西班牙德赫萨极端的重要农作物，特别是它在伊比利亚猪粮中提供的价值获得了“橡子”认证。因此，我们希望最大限度地提高体重合适的伊比利亚猪的产量。因此，需要了解橡子树冠覆盖的面积，以确定覆盖的树木面积（CWA，来自西班牙 Superficie Arbolada Cubierta SAC），从而估计每公顷可释放的伊比利亚猪数量，如图所示根据 4/2014 号皇家法令。在这项工作中，我们建议通过埃斯特雷马杜拉牧场的航空数字图像（正射影像）自动估算 CWA，并以此提供确定特定土地上要释放的伊比利亚猪数量的可能性。自动检测的主要问题包括，首先，正确识别橡子树，其次，正确区分橡子树的色调，最后，检测丛枝（尚未生产力的年轻橡子树，或不是橡树的灌木）。这些困难对于自动分割过程和手动分割来说都是一个真正的挑战。在这项工作中，所提出的自动分割方法基于 Gustafson-Kessel (GK) 提出的聚类算法，但 Babuska (GK-B) 的修改版本以及真实正射影像的使用。所获得的结果无论是与真实图像的比较还是与手动分割的图像相比都是有希望的。这项工作中使用的整套正射影像对应的面积约为 142 公顷，其结果引起了经过认证的“橡子”猪肉生产商的极大兴趣。

EXAONE 3.0 7.8B 指令调整语言模型

分类： 计算和语言, 人工智能

作者： LG AI Research, Soyoung An, Kyunghoon Bae, Eunbi Choi, Stanley Jungkyu Choi, Yemuk Choi, Seokhee Hong, Yeonjung Hong, Junwon Hwang, Hyojin Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Yountae Jung, Euisoon Kim, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Moontae Lee, Seungjun Lee, Woohyung Lim, Sangha Park, Sooyoun Park, Yongmin Park, Boseong Seo, Sihoon Yang, Heuiyeen Yeen, Kyungjae Yoo, Hyeongu Yun

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03541v1

摘要： 我们推出 EXAONE 3.0 指令调整语言模型，这是 LG AI Research 开发的大型语言模型 (LLM) 系列中的第一个开放模型。在不同的模型尺寸中，我们公开发布了7.8B指令调优模型，以促进开放研究和创新。通过对各种公共和内部基准的广泛评估，EXAONE 3.0 与其他类似尺寸的最先进的开放模型相比，展示了极具竞争力的实际性能和指令跟踪能力。我们的比较分析表明，EXAONE 3.0 在韩语方面尤其出色，同时在一般任务和复杂推理方面也取得了引人注目的表现。凭借其强大的现实世界有效性和双语能力，我们希望 EXAONE 继续为 Expert AI 的进步做出贡献。我们的 EXAONE 3.0 指令调整模型可在 https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct 上获取

用于推荐的大型语言模型的终身个性化低秩适应

分类： 信息检索, 人工智能

作者： Jiachen Zhu, Jianghao Lin, Xinyi Dai, Bo Chen, Rong Shan, Jieming Zhu, Ruiming Tang, Yong Yu, Weinan Zhang

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03533v1

摘要： 我们主要关注用于推荐的大语言模型（LLM）领域，该领域最近得到了积极的探索，并在有效增强具有逻辑推理能力和开放世界知识的推荐系统方面提出了重大挑战。当前的主流工作主要集中在通过定制输入模板或在预测层对齐语义和推荐空间之间的表示，将推荐模型中的个性化信息注入到大语言模型中。然而，它们面临三个显着的局限性：（1）现有作品中LoRA大多用作核心组件，但LoRA参数的个性化并没有很好地建立，因为每个用户共享的LoRA矩阵可能无法满足不同用户的特征，导致达到次优性能。 (2) 虽然终身个性化行为序列是个性化的理想选择，但它们的使用会带来有效性和效率问题，因为大语言模型需要不断增加训练和推理时间来延长文本长度。 (3) 由于训练效率的限制，现有方法无法针对大型数据集进行扩展。因此，大语言模型只能看到一小部分数据集（例如，小于 10%），而不是整个数据集，从而限制了他们接触完整的训练空间。为了解决这些问题，我们提出了 RecLoRA。该模型结合了个性化 LoRA 模块和长短模态检索器，前者为不同用户维护独立的 LoRA，后者检索不同模态的不同历史长度，从而显着提高性能，同时增加最小的时间成本。此外，我们设计了一个 Few2Many 学习策略，使用传统的推荐模型作为镜头，将小型训练空间放大到完整的空间。对公共数据集的大量实验证明了我们的 RecLoRA 与现有基线模型相比的有效性。

使用大语言模型探索跨行业软件故障的相似程度

分类： 软件工程, 人工智能

作者： Martin Detloff

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03528v1

摘要： 软件开发的快速发展需要加强安全措施。通过新闻文章从公司提取有关软件故障的信息变得越来越容易。本研究利用大语言模型失效分析调查 (FAIL) 模型来提取行业特定信息。尽管 FAIL 模型的数据库信息丰富，但它可以受益于进一步的分类和行业特定的见解，以进一步帮助软件工程师。在之前的工作中，新闻文章是从信誉良好的来源收集的，并按数据库内的事件进行分类。然后应用快速工程和大型语言模型 (LLM) 来提取有关软件故障的相关信息。这项研究通过将文章分类为特定领域和软件故障类型来扩展这些方法。结果通过图表直观地表示。分析表明，在整个数据库中，某些软件故障在特定行业中发生的频率明显更高。这种分类为软件工程师和公司识别和解决常见故障提供了宝贵的资源。这项研究强调了软件工程和大型语言模型 (LLM) 之间的协同作用，以自动化和增强软件故障分析。通过将数据库中的数据转换为行业特定模型，我们提供了宝贵的资源，可用于识别常见漏洞、预测潜在风险并实施预防软件故障的主动措施。利用当前 FAIL 数据库和数据可视化的强大功能，我们的目标是为未来的更安全的软件提供一条途径。

受中枢神经系统启发的自主机器人分层学习控制

分类： 机器人技术, 人工智能

作者： Pei Zhang, Zhaobo Hua, Jinliang Ding

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03525v1

摘要： 哺乳动物通过中枢神经系统不同层次活动的协调和相互作用，可以在各种复杂环境中产生自主行为。在本文中，我们通过模仿中枢神经系统的层次结构及其协调和交互行为，提出了一种新颖的层次学习控制框架。该框架将主动和被动控制系统相结合，提高控制系统的灵活性和可靠性，实现机器人更加多样化的自主行为。具体来说，该框架具有不同级别的独立神经网络控制器的骨干，并采用三级双下行通路结构，其灵感来自大脑皮层、小脑和脊髓的功能。我们通过仿真以及六足机器人在各种复杂环境下的实验，包括跨越障碍和部分损坏后的快速恢复，全面验证了所提出的方法。这项研究揭示了控制中枢神经系统自主行为的原理，并证明了分层控制方法的有效性，其显着特征是分层学习控制架构以及主动和被动控制系统的结合。

RepoMasterEval：通过真实世界的存储库评估代码完成情况

分类： 软件工程, 人工智能

作者： Qinyun Wu, Chao Peng, Pengfei Gao, Ruida Hu, Haoyu Gan, Bo Jiang, Jinhe Tang, Zhiwen Deng, Zhanming Guan, Cuiyun Gao, Xia Liu, Ping Yang

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03519v1

摘要： 随着软件开发中对自动代码完成工具的日益依赖，对强大的评估基准的需求变得至关重要。然而，现有的基准测试更多地关注函数和类级别的代码生成任务，并提供丰富的文本描述来提示模型。相比之下，这种描述性提示在实际开发中通常不可用，并且代码完成可能发生在更广泛的情况下，例如在函数或代码块的中间。这些限制使得评估与代码完成工具的实际场景不太相符。在本文中，我们提出了 RepoMasterEval，这是一种用于评估从现实世界的 Python 和 TypeScript 存储库构建的代码完成模型的新颖基准。每个基准数据都是通过使用现有测试套件屏蔽一个源代码文件中的代码片段（基本事实）来生成的。为了提高模型生成代码的测试准确性，我们采用突变测试来衡量测试用例的有效性，并为那些突变分数较低的测试套件手动制作新的测试用例。我们对 6 个最先进模型的实证评估表明，测试论证对于提高基准的准确性至关重要，并且 RepoMasterEval 能够报告现实场景中模型性能的差异。 RepoMasterEval在合作公司一个月的部署也表明，该基准测试有助于在模型训练过程中提供准确的反馈，并且分数与模型在实践中的表现高度相关。根据我们的发现，我们呼吁软件工程界建立更多针对代码生成工具量身定制的LLM基准，同时考虑到实际和复杂的开发环境。

针对LLM集成移动机器人系统的即时注入攻击研究

分类： 机器人技术, 人工智能

作者： Wenxiao Zhang, Xiangrui Kong, Conan Dewitt, Thomas Braunl, Jin B. Hong

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03515v1

摘要： 将 GPT-4o 等大型语言模型 (LLM) 集成到机器人系统中代表了实体人工智能的重大进步。这些模型可以处理多模式提示，使它们能够生成更多上下文感知响应。然而，这种整合并非没有挑战。主要问题之一是在机器人导航任务中使用大语言模型的潜在安全风险。这些任务需要精确可靠的响应，以确保安全有效的运行。多模式提示在增强机器人理解能力的同时，也带来了可能被恶意利用的复杂性。例如，旨在误导模型的对抗性输入可能会导致不正确或危险的导航决策。本研究调查了即时注入对大语言模型集成系统中移动机器人性能的影响，并探索了减轻这些风险的安全提示策略。我们的研究结果表明，通过实施强大的防御机制，攻击检测和系统性能总体显着提高了约 30.8%，凸显了它们在增强面向任务的安全性和可靠性方面的关键作用。

Optimus：通过泡沫开发加速大规模多模式 LLM 培训

分类： 计算和语言, 人工智能, 分布式、并行和集群计算

作者： Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03505v1

摘要： 多模态大语言模型 (MLLM) 将大语言模型 (LLM) 的成功扩展到图像、文本和音频等多种数据类型，在多模态翻译、视觉问答和内容生成等多个领域取得了显着的性能。尽管如此，由于异构模态模型和 3D 并行中复杂的数据依赖关系导致大量 GPU 气泡，现有系统训练 MLLM 的效率很低。本文提出了 Optimus，一种分布式 MLLM 训练系统，可减少端到端 MLLM 训练时间。 Optimus 基于我们的原理分析，即在 LLM 气泡内调度编码器计算可以减少 MLLM 训练中的气泡。为了使所有 GPU 都可以调度编码器计算，Optimus 搜索编码器和 LLM 的单独并行计划，并采用气泡调度算法来利用 LLM 气泡，而不会破坏 MLLM 模型架构中的原始数据依赖性。我们进一步将编码器层计算分解为一系列内核，并分析 3D 并行性的常见气泡模式，以仔细优化亚毫秒级气泡调度，最大限度地减少整体训练时间。我们在生产集群中的实验表明，与基线相比，Optimus 在 3072 个 GPU 上使用 ViT-22B 和 GPT-175B 模型将 MLLM 训练速度提高了 20.5%-21.3%。

使用 LightGBM、XGBoost 和 Tabnet 以及 SMOTEENN 的高级用户信用风险预测模型

分类： 机器学习, 人工智能

作者： Chang Yu, Yixin Jin, Qianwen Xing, Ye Zhang, Shaobo Guo, Shuchen Meng

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03497v1

摘要： 银行信用风险是现代金融交易中的重大挑战，能否在众多申请人中识别出合格的信用卡持卡人对于银行信用卡业务的盈利能力至关重要。过去，筛选申请人的申请条件往往需要大量的体力劳动，既费时又费力。尽管此前使用的ML模型的准确性和可靠性一直在不断提高，但追求更可靠、更强大的AI智能模型无疑是金融行业各大银行的不懈追求。在本研究中，我们使用商业银行提供的包含 40,000 多条记录的数据集作为研究对象。我们比较了用于预处理高维数据集的各种降维技术（例如 PCA 和 T-SNE），并对 LightGBM 和 XGBoost 等分布式模型以及 Tabnet 等深度模型进行了深入的适配和调优。经过一系列的研究和处理，我们将 SMOTEENN 与这些技术相结合，获得了优秀的研究成果。实验表明，LightGBM结合PCA和SMOTEENN技术可以帮助银行准确预测潜在的优质客户，与其他模型相比表现出相对优异的性能。

自动定理证明器有助于改进大型语言模型推理

分类： 人工智能, 计算和语言, F.4.1; I.2.7; I.2.8

作者： Lachlan McGinness, Peter Baumgartner

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03492v1

摘要： 在本文中，我们演示了逻辑编程系统和自动一阶逻辑定理证明器 (ATP) 如何提高逻辑推理任务的大型语言模型 (LLM) 的准确性，其中基线性能由直接 LLM 解决方案给出。我们首先使用 PRONTOQA 基准评估压路机问题上的 LLM 推理。我们展示了如何通过神经符号架构来提高准确性，其中大语言模型仅充当将给定问题转换为形式逻辑语言的前端，并调用自动推理引擎来解决它。然而，这种方法关键取决于大语言模型翻译的正确性。为了评估翻译的正确性，我们其次定义了句法和语义错误类别的框架。我们实现了该框架，并用它来识别大语言模型在基准领域所犯的错误。基于这些发现，我们第三次扩展了我们的方法，具有自动纠正语法和语义错误的功能。对于语义错误校正，我们集成了一阶逻辑 ATP，这是我们的主要且新颖的贡献。我们证明这种方法显着减少了语义错误，并进一步提高了 LLM 逻辑推理的准确性。

利用大语言模型在源代码漏洞检测中的力量

分类： 软件工程, 人工智能, 密码学和安全

作者： Andrew A Mahyari

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03489v1

摘要： 由源代码中无意的缺陷引起的软件漏洞是网络攻击的主要原因。源代码的静态分析已被广泛用于检测软件开发人员引入的这些无意的缺陷。大型语言模型 (LLM) 能够捕获连续数据（例如自然语言）中的复杂模式，因此表现出了类似人类的对话能力。在本文中，我们利用大语言模型的能力来分析源代码并检测已知漏洞。为了确保所提出的漏洞检测方法在多种编程语言中通用，我们将源代码转换为 LLVM IR 并在这些中间表示上训练 LLM。我们对各种 LLM 架构进行了广泛的实验，并比较了它们的准确性。我们对 NVD 和 SARD 的真实代码和合成代码进行的综合实验表明，在识别源代码漏洞方面具有很高的准确性。

LLM 可以用作时间序列异常检测器吗？

分类： 机器学习, 人工智能

作者： Manqing Dong, Hao Huang, Longbing Cao

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03475v1

摘要： 大型语言模型（LLM）的一个新兴主题是它们在时间序列预测中的应用，描述了时间序列的主流和可模式特征。一个相关但很少探讨且更具挑战性的问题是大语言模型是否可以检测和解释时间序列异常，这是各种现实世界应用程序中的一项关键任务。在本文中，我们研究了 LLM（特别是 GPT-4 和 LLaMA3）在检测和解释时间序列异常方面的能力。我们的研究表明：1）LLM不能直接用于时间序列异常检测。 2）通过设计上下文学习和思维链提示等提示策略，GPT-4可以检测时间序列异常，结果与基线方法相媲美。 3）我们提出了一个综合数据集来自动生成时间序列异常以及相应的解释。通过对该数据集应用指令微调，LLaMA3 在时间序列异常检测任务中展示了改进的性能。总之，我们的探索表明了大语言模型作为时间序列异常检测器的巨大潜力。

识别观察事件时间数据中的治疗反应亚组

分类： 方法, 人工智能

作者： Vincent Jeanselme, Chang Ho Yoon, Fabian Falck, Brian Tom, Jessica Barrett

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03463v1

摘要： 识别具有不同治疗反应的患者亚组是一项重要任务，可为医疗建议、指南和未来临床试验的设计提供信息。现有的亚组分析方法主要集中于随机对照试验（RCT），其中治疗分配是随机的。此外，随机对照试验的患者队列通常受到成本的限制，并且不能代表现实临床实践中可能接受治疗的患者的异质性。因此，当应用于观察性研究时，由于治疗的非随机化，此类方法会出现显着的统计偏差。我们的工作引入了一种新颖的、以结果为导向的方法，用于在观察性研究中识别治疗反应亚组。我们的方法将每位患者分配到与两种事件时间分布相关的亚组：一组正在接受治疗，另一组正在接受控制方案。因此，它介于个体化治疗效果估计和平均治疗效果估计之间。我们模型的假设导致通过逆倾向加权对治疗非随机化的统计偏差进行简单的校正。在实验中，我们的方法在随机和观察治疗方案中都显着优于当前以结果为导向的亚组分析的最先进方法。

EEGMobile：利用先进的移动架构提高基于 EEG 的注视预测的速度和准确性

分类： 信号处理, 人工智能, 机器学习

作者： Teng Liang, Andrews Damoah

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03449v1

摘要： 脑电图（EEG）分析是脑机接口（BCI）研究领域的一个重要领域。为了确保 BCI 设备能够在现实世界中提供实际应用，大脑信号处理技术必须快速、准确且具有资源意识，以提供低延迟的神经分析。本研究提出了一个模型，利用预训练的 MobileViT 和知识蒸馏 (KD) 来执行脑电图回归任务。我们的结果表明，该模型在 EEGEyeNet 绝对位置任务上的性能水平与之前的最先进模型 (SOTA) 相当（仅低 3%），同时速度提高了 33%，体积缩小了 60%。我们的研究提出了一种适用于资源受限设备的经济有效的模型，并有助于扩大未来对轻量级、移动友好的脑电图回归模型的研究。

移动用户和自动驾驶车辆的通信感知一致边缘选择

分类： 网络和互联网架构, 人工智能, 机器人技术

作者： Nazish Tahir, Ramviyas Parasuraman, Haijian Sun

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03435v1

摘要： 通过车对车 (V2V) 通信将时间敏感、计算密集型任务（例如自动驾驶的高级学习算法）从车辆卸载到附近的边缘服务器、车对基础设施 (V2I) 系统或其他协作车辆，可增强服务效率。然而，在到达目的地的路径上，车辆的移动性需要在接入点 (AP) 之间频繁切换，以保持连续且不间断的无线连接，从而维持网络的服务质量 (QoS)。这些频繁的切换随后导致与各个AP关联的边缘服务器之间的任务迁移。本文提出了一种基于深度确定性策略梯度（DDPG）算法的深度强化学习框架，解决了任务迁移和接入点切换的联合问题。提出了一种 AP 通信和计算的联合分配方法，以最小化计算负载、服务延迟和中断，总体目标是最大化 QoS。我们在模拟实验中实现并评估了我们提出的框架，以实现边缘服务器之间平滑、无缝的任务切换，最终减少延迟。

结合不同信息进行协调行动：异构智能体的随机强盗算法

分类： 多代理系统, 人工智能, 机器学习

作者： Lucia Gordon, Esther Rolf, Milind Tambe

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03405v1

摘要： 随机多智能体多臂老虎机通常假设每个臂的奖励遵循固定分布，无论哪个智能体拉动该臂。然而，在许多现实环境中，奖励可能取决于每个智能体对其环境的敏感度。在医学筛查中，疾病检出率可能因测试类型而异；在偏好匹配中，奖励可以取决于用户偏好；在环境传感中，不同传感器的观测质量可能会有所不同。由于过去的工作没有指定如何在随机强盗设置中分配异构但已知敏感度的代理，因此我们引入了一种 UCB 式算法 Min-Width，它聚合来自不同代理的信息。在此过程中，我们解决了以下共同挑战：（i）聚合奖励，每个代理臂对遵循不同的分布，以及（ii）协调代理到臂的分配。最小宽度促进异构代理之间的有效协作，利用代理奖励函数中的已知结构来相应地加权其奖励。我们分析了Min-Width的遗憾，并进行了伪合成和全合成实验来研究不同级别信息共享的性能。我们的结果证实，当代理之间的敏感性差异更大时，建模代理异质性的收益往往会更大，而组合更多信息并不总是能提高性能。

生成扩散模型的攻击和防御：综合调查

分类： 密码学和安全, 人工智能, 机器学习

作者： Vu Tuan Truong, Luan Ba Dang, Long Bao Le

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03400v1

摘要： 扩散模型 (DM) 在图像合成、文本到图像和文本引导的图像到图像生成等各种生成任务上实现了最先进的性能。然而，DM 越强大，它们的潜在危害就越大。最近的研究表明，DM 容易受到各种攻击，包括对抗性攻击、成员资格推断、后门注入和各种多模式威胁。由于大量预先训练的DM在互联网上广泛发布，这些攻击的潜在威胁对社会尤其有害，使得DM相关的安全成为一个值得研究的话题。因此，本文对DM的安全方面进行了全面的考察，重点研究了DM的各种攻击和防御方法。首先，我们介绍了 DM 的关键知识，包括五种主要类型的 DM，包括去噪扩散概率模型、去噪扩散隐式模型、噪声条件评分网络、随机微分方程和多模态条件 DM。我们进一步调查了近期的各种研究，调查利用 DM 漏洞的不同类型的攻击。然后，我们彻底审查潜在的对策，以减轻所提出的每个威胁。最后，我们讨论了 DM 相关安全的开放挑战，并展望了该主题的某些研究方向。

RHiOTS：评估分层时间序列预测算法的框架

分类： 机器学习, 人工智能, I.2.6; I.5.1; G.3; H.2.8

作者： Luis Roque, Carlos Soares, Luís Torgo

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03399v1

摘要： 我们介绍了分层组织时间序列（RHiOTS）的稳健性框架，旨在评估分层时间序列预测模型和算法在现实数据集上的稳健性。分层时间序列（其中较低级别的预测必须与较高级别的预测相加）在各种情况下都很普遍，例如各国的零售销售。当前对预测方法的实证评估通常仅限于一小组基准数据集，提供了算法行为的狭隘观点。 RHiOTS 通过系统地改变现有数据集并修改各个系列的特征及其相互关系来解决这一差距。它使用一组可参数化的转换来模拟数据分布中的这些变化。此外，RHiOTS 还采用了创新的可视化组件，将复杂的多维鲁棒性评估结果转化为直观、易于解释的视觉效果。这种方法可以深入分析不同条件下的算法和模型行为。我们通过分析几种算法的预测性能来说明 RHiOTS 的使用。我们的研究结果表明，传统的统计方法比最先进的深度学习算法更稳健，除非转换效果具有高度破坏性。此外，我们发现在应用特定的协调方法（例如 MinT）时，算法的鲁棒性没有显着差异。 RHiOTS 为研究人员提供了一个全面的工具来理解预测算法的细微差别，为针对给定问题选择最合适的方法提供了更可靠的基础。

非负VAE:广义伽马信念网络

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Zhibin Duan, Tiansheng Wen, Muyao Wang, Bo Chen, Mingyuan Zhou

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03388v1

摘要： 伽马置信网络（GBN）通常被认为是一种深层主题模型，它已经证明了其揭示文本数据中多层可解释潜在表示的潜力。其获取可解释潜在因子的显着能力部分归因于稀疏且非负伽玛分布的潜在变量。然而，现有的GBN及其变体受到线性生成模型的限制，从而限制了它们的表达能力和适用性。为了解决这个限制，我们在本文中引入了广义伽马置信网络（Generalized GBN），它将原始的线性生成模型扩展到更具表现力的非线性生成模型。由于广义 GBN 的参数不再具有分析条件后验，我们进一步提出了一种向上向下的威布尔推理网络来近似潜在变量的后验分布。生成模型和推理网络的参数在变分推理框架内联合训练。最后，我们对表达性和解纠缠表示学习任务进行了全面的实验，以评估广义 GBN 与作为基线的最先进的高斯变分自动编码器的性能。

LLaVA-OneVision：轻松的视觉任务转移

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03326v1

摘要： 我们推出了 LLaVA-OneVision，这是一个开放式大型多模态模型 (LMM) 系列，通过整合我们对 LLaVA-NeXT 博客系列中的数据、模型和视觉表示的见解而开发。我们的实验结果表明，LLaVA-OneVision 是第一个能够在三个重要的计算机视觉场景（单图像、多图像和视频场景）中同时突破开放式 LMM 性能极限的单一模型。重要的是，LLaVA-OneVision 的设计允许跨不同模式/场景进行强大的迁移学习，从而产生新的能力。特别是，通过从图像到视频的任务转移，展示了强大的视频理解和跨场景能力。

培训大语言模型识别自发叙述中的模糊限制语

分类： 计算和语言, 人工智能, I.2.7

作者： Amie J. Paige, Adil Soubki, John Murzaku, Owen Rambow, Susan E. Brennan

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03319v1

摘要： 模糊限制语允许说话者将话语标记为临时的，无论是表示非典型性还是“模糊性”，表明缺乏对话语的承诺，将声明的责任归咎于其他人，邀请合作伙伴的意见，或者软化满足面部管理需求的关键反馈。在这里，我们重点关注由 21 位发言者根据记忆自发生成的 63 个走鹃卡通叙述的实验性参数化语料库中的模糊限制语，并将其转录为文本（Galati 和 Brennan，2010）。我们创建了由人类编码员注释的对冲黄金标准（Roadrunner-Hedge 语料库），并比较了三种基于 LLM 的对冲检测方法：微调 BERT，以及使用 GPT-4o 和 LLaMA-3 进行零次和少次提示。性能最好的方法是经过微调的 BERT 模型，其次是小样本 GPT-4o。在对表现最好的方法进行错误分析后，我们使用了 LLM-in-the-Loop 方法来改进黄金标准编码，并以语言上有趣的方式突出显示模糊限制语的情况，这将指导未来的研究。这是我们研究计划的第一步，旨在培训大语言模型在对话中适当且有意义地解释和生成附带信号。

融合力：深度人工引导的分割掩模细化

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者： Rafael Sterzinger, Christian Stippel, Robert Sablatnig

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03304v1

摘要： 伊特鲁里亚镜子构成了伊特鲁里亚艺术的一个重要类别，其特点是背面有精美的比喻插图。他们的分析和记录的一个费力且昂贵的方面是手动跟踪这些插图的任务。在之前的工作中，已经提出了一种方法来自动化这一过程，涉及光度立体扫描与深度神经网络的结合。虽然实现了类似于专家注释器的定量性能，但一些结果仍然缺乏定性精度，因此需要注释器进行检查和潜在的校正，以保持资源强度。作为回应，我们提出了一种深度神经网络，经过训练可以根据人类指导交互式地完善现有注释。我们的人机交互方法简化了注释，实现了同等质量，同时所需的手动输入减少了 75%。此外，在细化过程中，我们的方法相对于纯手工贴标的相对改进达到了峰值高达 26%，更快地获得了更好的质量。通过针对分割复杂线条的复杂任务进行定制，特别将其与以前的方法区分开来，我们的方法提供了功效的巨大改进，可转移到伊特鲁里亚镜子之外的广泛应用。

了解盲人用户如何处理对象识别错误：策略和挑战

分类： 人机交互, 人工智能

作者： Jonggi Hong, Hernisa Kacorri

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03303v1

摘要： 物体识别技术有潜力支持盲人和低视力人士探索周围的世界。然而，基准性能和实际可用性之间的差距仍然是一个重大挑战。本文提出了一项研究，旨在了解盲人用户与物体识别系统的交互，以识别和避免错误。利用针对我们的实验进行微调的现有物体识别系统 URCam，我们进行了一项涉及 12 名盲人和低视力参与者的用户研究。通过深入访谈和实际的错误识别任务，我们深入了解了用户的体验、挑战以及识别基于摄像头的辅助技术和对象识别系统中的错误的策略。在采访中，许多参与者更喜欢独立的错误审查，同时表达了对误识的担忧。在错误识别任务中，参与者改变图像中的视点、背景和物体大小，以避免和克服错误。即使在重复任务后，参与者也只发现了一半的错误，并且发现的错误比例与他们第一次尝试没有显着差异。基于这些见解，我们为设计可访问的界面提供了建议，以满足盲人和低视力用户在识别对象识别错误方面的需求。

优先考虑数据集蒸馏中的对齐

分类： 机器学习, 人工智能

作者： Zekai Li, Ziyao Guo, Wangbo Zhao, Tianle Zhang, Zhi-Qi Cheng, Samir Khaki, Kaipeng Zhang, Ahmad Sajed, Konstantinos N Plataniotis, Kai Wang, Yang You

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03360v1

摘要： 数据集蒸馏旨在将大型数据集压缩为更紧凑的合成数据集，而不影响训练模型的性能。为了实现这一目标，现有方法使用代理模型从目标数据集中提取信息并将其嵌入到蒸馏数据集中。因此，提取和嵌入信息的质量决定了蒸馏数据集的质量。在这项工作中，我们发现现有方法在信息提取和嵌入阶段都会引入未对齐的信息。为了缓解这个问题，我们提出了数据集蒸馏（PAD）中的优先对齐，它从以下两个角度对齐信息。 1）我们根据压缩比对目标数据集进行剪枝，以过滤代理模型可以提取的信息。 2）我们仅使用代理模型的深层进行蒸馏，以避免过多引入低级信息。这种简单的策略有效地过滤掉了未对齐的信息，并为主流的基于匹配的蒸馏算法带来了重要的改进。此外，基于轨迹匹配，\textbf{PAD} 在各种基准测试中取得了显着的改进，实现了最先进的性能。

KaPO：检索增强语言模型中可控知识选择的知识感知偏好优化

分类： 计算和语言, 人工智能

作者： Ruizhe Zhang, Yongxin Xu, Yuzhen Xiao, Runchuan Zhu, Xinke Jiang, Xu Chu, Junfeng Zhao, Yasha Wang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03297v1

摘要： 通过整合外部知识，检索增强生成（RAG）已成为缓解大型语言模型（LLM）在处理知识密集型任务时遇到的幻觉问题的有效策略。然而，在将外部非参数支持证据与内部参数知识相结合的过程中，可能会不可避免地出现知识冲突，从而导致模型响应的混乱。为了增强大语言模型在各种背景下的知识选择，一些研究侧重于通过指令调整来完善他们的行为模式。尽管如此，由于缺乏明确的负面信号和比较目标，以这种方式微调的模型仍然可能在复杂而现实的检索场景中表现出不良行为。为此，我们提出了一种知识感知偏好优化，称为KaPO，旨在在实际检索场景中实现可控的知识选择。具体来说，我们探索和模拟不同上下文组合中的错误类型，并学习如何通过偏好优化方法来避免这些负面信号。同时，通过调整响应长度和代表不同行为模式的偏好数据比例之间的平衡，我们以平衡的方式增强LLM的依从能力和噪声鲁棒性。实验结果表明，KaPO 处理知识冲突的性能比之前的方法高出 37% 以上，同时在各种分布外数据集上也表现出强大的泛化能力。

使用注意力 U-Net 和基于显着性的可解释性进行静态 IR 压降预测

分类： 硬件架构, 人工智能

作者： Lizi Zhang, Azadeh Davoodi

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03292v1

摘要： 最近在减少使用神经网络的静态压降分析的计算量以及作为图像到图像转换任务进行建模方面取得了重大进展。一个关键问题是缺乏来自实际行业设计的足够数据来训练这些网络。此外，没有方法可以解释预测红外降图像中高降像素的具体根本原因。在这项工作中，我们首先提出了一种带有注意力门的 U-Net 神经网络模型，该模型专门用于实现快速、准确的基于图像的静态 IR 压降预测。注意力门允许在没有监督的情况下选择性地强调输入数据的相关部分，这是由于 IR drop 图通常稀疏的性质而需要的。我们提出了一个两阶段的训练过程，该过程利用人工生成的数据和来自实际设计的有限数量的点的混合。在实际设计中进行测试时，与 ICCAD 2023 竞赛（仅限 U-Net）的获胜者相比，平均 MAE 分数高出 18% (53%)，F1 分数高出 14% (113%)。其次，我们提出了一种使用显着图的快速方法，该方法可以根据对下降贡献最大的特定输入像素来解释预测的 IR 下降。在我们的实验中，我们表明，通过模仿 PDN 电阻边缘一小部分的尺寸增大，高 IR 压降像素的数量平均可以减少 18%。

StructEval：通过结构化评估深化和拓宽大型语言模型评估

分类： 计算和语言, 人工智能, 机器学习

作者： Boxi Cao, Mengjie Ren, Hongyu Lin, Xianpei Han, Feng Zhang, Junfeng Zhan, Le Sun

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03281v2

摘要： 评估是大型语言模型发展的接力棒。当前的评估通常对每个原子测试目标采用单项评估范式，很难辨别模型是否真正具备所需的能力，还是仅仅记住/猜测特定问题的答案。为此，我们提出了一种称为 StructEval 的新颖评估框架。 StructEval从原子测试目标出发，通过跨多个认知水平和关键概念进行结构化评估来深化和拓宽评估，从而为大语言模型提供全面、稳健和一致的评估。对三个广泛使用的基准的实验表明，StructEval 是抵御数据污染风险、减少潜在偏差干扰的可靠工具，从而提供有关模型能力的更可靠、一致的结论。我们的框架还揭示了未来有原则且值得信赖的大语言模型评估协议的设计。

压缩和比较：交互式评估 ML 模型压缩实验的效率和行为

分类： 人机交互, 人工智能, 机器学习

作者： Angie Boggust, Venkatesh Sivaraman, Yannick Assogba, Donghao Ren, Dominik Moritz, Fred Hohman

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03274v1

摘要： 为了在设备上部署机器学习模型，从业者使用压缩算法来缩小和加速模型，同时保持高质量的输出。实践中压缩的一个关键方面是模型比较，包括跟踪许多压缩实验、识别模型行为的细微变化以及协商复杂的准确性-效率权衡。然而，现有的压缩工具很难支持比较，导致在不相交的工具中进行繁琐且有时不完整的分析。为了支持现实世界的比较工作流程，我们开发了一个名为“压缩和比较”的交互式视觉系统。在单个界面中，压缩和比较通过可视化压缩模型之间的来源关系来显示有希望的压缩策略，并通过比较模型的预测、权重和激活来揭示压缩引起的行为变化。我们通过两个案例研究演示了压缩和比较如何支持常见的压缩分析任务，调试生成语言模型上失败的压缩以及识别图像分类模型中的压缩伪影。我们在与八位压缩专家的用户研究中进一步评估了压缩和比较，说明了它为压缩工作流程提供结构的潜力，帮助从业者建立关于压缩的直觉，并鼓励彻底分析压缩对模型行为的影响。通过这些评估，我们确定了未来可视化分析工具应考虑的特定于压缩的挑战，并压缩和比较可视化，这些可视化可以推广到更广泛的模型比较任务。

LAMPO：大型语言模型作为少样本序数分类的首选机器

分类： 机器学习, 人工智能, 计算和语言

作者： Zhen Qin, Junru Wu, Jiaming Shen, Tianqi Liu, Xuanhui Wang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03359v1

摘要： 我们引入了 LAMPO，这是一种利用大型语言模型 (LLM) 来解决少样本多类序数分类任务的新颖范式。与将所有演示示例与测试实例连接起来并提示 LLM 产生逐点预测的传统方法不同，我们的框架使用 LLM 作为偏好机，在测试实例和每个演示之间做出相对比较决策。然后引入自监督方法将这些二元比较聚合成最终的序数决策。 LAMPO 解决了先前方法中固有的几个限制，包括上下文长度限制、排序偏差以及与绝对逐点估计相关的挑战。对七个公共数据集的广泛实验证明了 LAMPO 在各种应用程序（例如电影评论分析和仇恨言论检测）中具有显着的竞争性能。值得注意的是，在某些应用中，改进可能是巨大的，绝对值超过 20%。此外，我们相信 LAMPO 代表了对 LLM 之上的非参数应用程序的一个有趣的补充，因为它支持黑盒 LLM，而无需输出 LLM 的内部状态（例如嵌入），如之前的方法所示。

通过知识神经元揭示大型语言模型的事实回忆行为

分类： 计算和语言, 人工智能

作者： Yifei Wang, Yuheng Chen, Wanting Wen, Yu Sheng, Linjing Li, Daniel Dajun Zeng

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03247v1

摘要： 在本文中，我们研究了大型语言模型（LLM）在面对推理任务时是否主动回忆或检索其内部事实知识存储库。通过知识神经元对大语言模型在每个推理步骤中的内部事实回忆进行分析，我们发现大语言模型在某些情况下无法利用关键的事实关联。相反，他们倾向于选择替代的、类似捷径的途径来回答推理问题。通过手动操作大语言模型中参数知识的召回过程，我们证明增强这种召回过程可以直接提高推理性能，而抑制它会导致显着下降。此外，我们评估了思维链（CoT）提示的效果，这是一种解决复杂推理任务的强大技术。我们的研究结果表明，CoT 可以通过鼓励大语言模型进行有序且可靠的推理来强化对事实知识的回忆。此外，我们还探讨了推理过程中语境冲突如何影响事实检索，以全面了解大语言模型的事实回忆行为。代码和数据很快就会提供。

MLC-GCN：用于 AD 分析的基于多级生成连接组的 GCN

分类： 机器学习, 人工智能

作者： Wenqi Zhu, Yinghua Fu, Ze Wang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03358v1

摘要： 阿尔茨海默病（AD）是目前无法治愈的神经退行性疾病。准确检测AD，特别是在早期阶段，是一个高度的研究重点。 AD 的特点是进行性认知障碍，与大脑功能连接 (FC) 的改变有关。基于这种关联，几十年来发表了许多研究，利用 FC 和机器学习来区分 AD 和健康衰老。这种检测方法的最新发展突出了使用图神经网络（GNN）作为大脑功能分析。在本文中，我们提出了一系列使用静息态 fMRI 的基于时空特征提取和图生成的 AD 分类模型。所提出的基于多级生成连接组（MLC）的图卷积网络（GCN）（MLC-GCN）包含多图生成块和GCN预测块。多图生成块由时空特征提取层的层次结构组成，用于提取不同深度的时空 rsfMRI 特征并构建相应的连接组。 GCN 预测块采用学习到的多级连接体来构建和优化每个级别的 GCN，并将学习到的图形特征连接起来作为 AD 分类的最终预测特征。通过独立队列验证，MLC-GCN 在区分 MCI、AD 和正常衰老方面表现出比最先进的 GCN 和基于 rsfMRI 的 AD 分类器更好的性能。所提出的 MLC-GCN 在从两个独立数据集中学习临床合理的连接组节点和连接特征方面也表现出高度的可解释性。虽然我们只在 AD 上测试了 MLC-GCN，但基于 rsfMRI 的基本多级学习 GCN 结果预测策略对于其他疾病或临床结果也是有效的。

在机器人手术中利用视觉特征先验个性化联合仪器分割

分类： 计算机视觉和模式识别, 人工智能, 机器人技术, 医学物理

作者： Jialang Xu, Jiacheng Wang, Lequan Yu, Danail Stoyanov, Yueming Jin, Evangelos B. Mazomenos

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03208v1

摘要： 用于手术器械分割 (SIS) 的个性化联合学习 (PFL) 是一种很有前途的方法。它使多个临床站点能够在私密的情况下协作训练一系列模型，每个模型都根据每个站点的单独分布进行定制。现有的 PFL 方法很少考虑多头自注意力的个性化，也没有考虑手术场景中固有的外观多样性和器械形状相似性。因此，我们提出了 PFedSIS，这是一种具有 SIS 视觉特征先验的新颖 PFL 方法，结合了全局个性化解缠（GPD）、外观调节个性化增强（APE）和形状相似性全局增强（SGE），以提高 SIS 在每个方面的性能。地点。 GPD 代表了多头自注意力个性化的头智能分配的首次尝试。为了保留每个站点独特的外观表示并逐步利用站点间的差异，APE引入了外观调节，并通过超网络为每个站点的个性化参数提供定制的分层聚合解决方案。通过SGE维护和共享仪器的相互形状信息，这增强了图像级别上的跨风格形状一致性，并在预测级别上计算每个站点的形状相似度贡献以更新全局参数。 PFedSIS 的性能优于最先进的方法，Dice 提升了 1.51%，IoU 提升了 2.11%，ASSD 提升了 -2.79，HD95 提升了 -15.55。相应的代码和模型将在https://github.com/wzjialang/PFedSIS发布。

使用自然人类驾驶先验生成对抗性安全关键场景

分类： 机器人技术, 人工智能

作者： Kunkun Hao, Yonggang Luo, Wen Cui, Yuqiao Bai, Jucheng Yang, Songyang Yan, Yuxi Pan, Zijiang Yang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03200v2

摘要： 评估决策系统对于开发自动驾驶汽车至关重要，而现实且具有挑战性的安全关键测试场景则发挥着至关重要的作用。由于现实世界数据集的长尾分布、稀疏性和稀有性，获得这些场景并非易事。为了解决这个问题，在本文中，我们引入了一种使用自然人类驾驶先验和强化学习技术的自然对抗场景生成解决方案。通过这样做，我们可以获得既多样化又现实的大规模测试场景。具体来说，我们构建了一个模拟自然交通交互场景的模拟环境。根据这种环境，我们实施了一个两阶段的程序。第一阶段结合了传统的基于规则的模型，例如IDM~~（智能驾驶员模型）和MOBIL~~（最小化车道变化引起的总体制动）模型，以从现实数据集中粗略地、离散地捕获和校准关键控制参数。接下来，我们利用 GAIL~~（生成对抗模仿学习）来连续表示驾驶员行为。导出的 GAIL 可以进一步用于设计基于 PPO~~（近端策略优化）的 actor-critic 网络框架来微调奖励函数，然后优化我们的自然对抗场景生成解决方案。在 NGSIM 数据集中进行了大量实验，包括 3,000 辆车辆的轨迹。与基线模型相比，测量了基本的交通参数，例如碰撞率、加速度、转向和变道次数。我们的研究结果表明，所提出的模型可以生成涵盖自然性和对抗性的现实安全关键测试场景，这可以成为自动驾驶汽车开发的基石。

飞行训练：20 mW 以内的纳米无人机上的设备自监督学习

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Elia Cereda, Alessandro Giusti, Daniele Palossi

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03168v1

摘要： 由微型机器学习 (TinyML)（例如纳米无人机）驱动的小型化网络物理系统 (CPS) 正在成为一项越来越有吸引力的技术。它们的小外形（即直径约 10 厘米）确保了广泛的适用性，从探索狭窄的灾难场景到安全的人机交互。简单的电子设备使这些 CPS 价格低廉，但严重限制了船上可用的计算、内存和传感资源。在实际应用中，域转移进一步加剧了这些限制。这一基本的机器学习问题意味着，当从训练域转移到不同的部署域时，模型感知性能会下降。为了应对和缓解这一普遍问题，我们提出了一种新颖的设备上微调方法，该方法仅依赖于纳米无人机上可用的有限超低功耗资源。然后，为了克服 CPS 上缺乏真实训练标签的问题，我们还采用了基于自我运动一致性的自我监督方法。尽管我们的工作建立在特定的基于现实世界视觉的人体姿势估计任务之上，但它广泛适用于许多嵌入式 TinyML 用例。我们的 512 个图像设备上训练程序完全部署在超低功耗 GWT GAP9 片上系统上，仅需要 1MB 内存，同时功耗低至 19mW，运行时间仅为 510ms（38mW）。最后，我们通过现场测试我们的闭环 CPS 来展示我们的设备上学习方法的优势，结果表明与非微调的最先进技术相比，水平位置误差最多可减少 26%基线。在最具挑战性的前所未见的环境中，我们的设备上学习程序决定了任务的成功或失败。

具有可学习间距的扩张卷积使视觉模型更符合人类：Grad-CAM 研究

分类： 计算机视觉和模式识别, 人工智能

作者： Rabih Chamas, Ismail Khalfaoui-Hassani, Timothee Masquelier

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03164v1

摘要： 具有可学习间距的扩张卷积（DCLS）是一种最新的先进卷积方法，它允许在不增加参数数量的情况下扩大感受野（RF），就像扩张卷积一样，但又不强加规则网格。 DCLS 已被证明在多个计算机视觉基准测试中优于标准卷积和扩张卷积。在这里，我们表明，此外，DCLS 还提高了模型的可解释性，定义为与人类视觉策略的一致性。为了量化它，我们使用模型的 GradCAM 热图和 ClickMe 数据集热图之间的 Spearman 相关性，它反映了人类视觉注意力。我们采用了八个参考模型 - ResNet50、ConvNeXt（T、S 和 B）、CAFormer、ConvFormer 和 FastViT（sa 24 和 36） - 并直接用 DCLS 卷积层替换了标准卷积层。这提高了其中七个的可解释性分数。此外，我们观察到 Grad-CAM 为我们研究中的两个模型生成了随机热图：CAFormer 和 ConvFormer 模型，导致可解释性分数较低。我们通过引入 Threshold-Grad-CAM 解决了这个问题，这是一种基于 Grad-CAM 的修改，增强了几乎所有模型的可解释性。重现该研究的代码和检查点可在以下网址获取：https://github.com/rabihchamas/DCLS-GradCAM-Eval。

COMMENTATOR：一种代码混合的多语言文本注释框架

分类： 计算和语言, 人工智能

作者： Rajvee Sheth, Shubh Nisar, Heenaben Prajapati, Himanshu Beniwal, Mayank Singh

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03125v1

摘要： 随着 NLP 社区越来越多地解决与多语言相关的挑战，强大的注释工具对于有效处理多语言数据集至关重要。在本文中，我们介绍了一种代码混合多语言文本注释框架 COMMENTATOR，专门用于注释代码混合文本。该工具展示了其在印度英语文本的标记级和句子级语言注释任务中的有效性。我们执行稳健的基于人的定性评估，以展示 COMMENTATOR 的注释速度比最佳基线快 5 倍。我们的代码可在 \url{https://github.com/lingo-iitgn/commentator} 上公开获取。演示视频可在 \url{https://bit.ly/commentator_video} 获取。

基于Euas-20评估大型语言模型的翻译性能

分类： 计算和语言, 人工智能

作者： Yan Huang, Wei Liu

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03119v1

摘要： 近年来，随着深度学习技术的快速发展，BERT、GPT等大型语言模型（LLM）在自然语言处理任务中取得了突破性的成果。机器翻译（MT）作为自然语言处理的核心任务之一，也受益于大语言模型的发展，实现了质的飞跃。尽管大型语言模型在翻译性能方面取得了显着进步，但机器翻译仍然面临许多挑战。因此，本文构建了数据集Euas-20，为研究人员和开发人员评估大型语言模型在翻译任务上的表现、对不同语言的翻译能力以及预训练数据对LLM翻译能力的影响。

在不确定的参数环境中学习可证明稳健的策略

分类： 机器学习, 人工智能, 系统与控制, 系统与控制

作者： Yannik Schnitzer, Alessandro Abate, David Parker

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03093v1

摘要： 我们提出了一种数据驱动的方法来学习 MDP 策略，该策略在随机环境中具有鲁棒性，其转移概率由未知分布的参数定义。我们为这些学习策略在未知分布的新的、未见过的环境中的性能提供了大概正确的（PAC）保证。我们的方法基于 MDP 环境的有限样本，通过探索一组生成的轨迹，我们将模型的近似值构建为区间 MDP。我们使用构建的近似值来综合单个策略，该策略在采样环境中表现良好（满足给定要求），并且进一步限制了部署在看不见的环境中时的风险（不满足给定要求）。我们的程序在所学策略的保证性能与在未见环境中无法满足保证的风险之间进行权衡。我们的方法利用了环境状态空间和图结构的知识，并且展示了如何利用其参数结构的额外知识来优化学习并从更少的样本中获得更严格的保证。我们根据各种既定基准评估我们的方法，证明我们可以制定高性能且稳健的政策，并提供严格量化其绩效和相关风险的保证。

QADQN：用于金融市场预测的量子注意力深度 Q 网络

分类： 量子物理学, 人工智能, 机器学习

作者： Siddhant Dutta, Nouhaila Innan, Alberto Marchisio, Sadok Ben Yahia, Muhammad Shafique

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03088v1

摘要： 由于市场的复杂性和波动性，金融市场预测和最佳交易策略的制定仍然具有挑战性。我们在量子金融和决策强化学习方面的研究展示了量子经典混合算法解决现实世界金融挑战的方法。在这方面，我们通过严格的回溯测试证实了这一概念，并通过包括每笔交易的固定交易成本来验证框架在现实市场条件下的性能。本文介绍了一种量子注意力深度 Q 网络 (QADQN) 方法，通过量子增强强化学习来应对这些挑战。我们的 QADQN 架构在传统的深度 Q 学习框架内使用变分量子电路，以利用决策中可能的量子优势。我们根据主要市场指数（包括标准普尔 500 指数）的历史数据来衡量 QADQN 智能体的表现。我们通过检查其奖励累积和经验回放机制的有效性来评估智能体的学习过程。我们的实证结果证明了 QADQN 的卓越性能，在非重叠和重叠测试期的 Sortino 比率分别为 1.28 和 1.19 的情况下实现了更好的风险调整回报，表明下行风险管理有效。

通过改进子任务交互和知识融合增强复杂因果关系提取

分类： 计算和语言, 人工智能

作者： Jinglong Gao, Chen Lu, Xiao Ding, Zhongyang Li, Ting Liu, Bing Qin

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03079v1

摘要： 事件因果关系提取（ECE）旨在从文本中提取因果事件对。尽管 ChatGPT 最近取得了成功，但微调小模型仍然是 ECE 任务的最佳方法。然而，现有的基于微调的 ECE 方法无法同时解决 ECE 中的所有三个关键挑战：1）复杂因果关系提取，其中多个因果对出现在单个句子中； 2）子任务~交互，涉及对ECE的两个子任务之间的相互依赖进行建模，即提取事件并识别提取事件之间的因果关系； 3）知识融合，需要有效融合两种模式的知识，即表达性预训练语言模型和结构化知识图。在本文中，我们提出了一个统一的ECE框架（UniCE）来同时解决ECE中的所有三个问题。具体来说，我们设计了一个子任务交互机制，使两个ECE子任务之间能够相互交互。此外，我们设计了一个知识融合机制来融合知识此外，我们为每个子任务采用单独的解码器来促进复杂的因果关系提取。在三个基准数据集上的实验表明，我们的方法实现了最先进的性能，并且优于 ChatGPT，F1 的裕度至少为 30%。更重要的是，我们的模型还可以通过上下文学习有效提高 ChatGPT 的 ECE 性能。

BodySLAM：用于外科手术应用的通用单目视觉 SLAM 框架

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： G. Manni, C. Lauretti, F. Prata, R. Papalia, L. Zollo, P. Soda

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03078v1

摘要： 内窥镜手术依赖于二维视图，给外科医生的深度感知和器械操作带来了挑战。虽然同步定位和建图 (SLAM) 已成为解决这些限制的一种有前途的解决方案，但由于硬件限制（例如使用单目摄像头和缺少里程计传感器），在内窥镜手术中的实施提出了重大挑战。这项研究提出了一种强大的基于深度学习的 SLAM 方法，该方法结合了最先进的模型和新开发的模型。它由三个主要部分组成：单目姿态估计模块，引入了基于 CycleGAN 架构的新型无监督方法；单目深度估计模块，利用新颖的 Zoe 架构；3D 重建模块，使用以前模型的信息来创建连贯的手术图。使用三个公开可用的数据集（Hamlyn、EndoSLAM 和 SCARED）对该过程的性能进行了严格评估，并针对两种最先进的方法 EndoSFMLearner 和 EndoDepth 进行了基准测试。与内窥镜检查中最先进的深度估计算法相比，MDEM 中的 Zoe 集成表现出了卓越的性能，而 MPEM 中的新颖方法则表现出了有竞争力的性能和最短的推理时间。结果展示了我们的方法在腹腔镜检查、胃镜检查和结肠镜检查这三种不同的内窥镜手术场景中的稳健性。所提出的 SLAM 方法有可能通过为外科医生提供增强的深度感知和 3D 重建能力来提高内窥镜手术的准确性和效率。

在 Loihi 2 神经拟态处理器上求解 QUBO

分类： 神经和进化计算, 人工智能, 离散数学, I.2.8, G.2.1, C.1.4

作者： Alessandro Pierro, Philipp Stratmann, Gabriel Andres Fonseca Guerra, Sumedh Risbud, Timothy Shea, Ashish Rao Mangalore, Andreas Wild

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03076v1

摘要： 在本文中，我们描述了一种在英特尔 Loihi 2 神经拟态处理器上解决二次无约束二进制优化问题的算法。该求解器基于为英特尔神经拟态研究芯片 Loihi 2 开发的硬件感知细粒度并行模拟退火算法。初步结果表明，我们的方法可以在短短 1 毫秒内生成可行的解决方案，与相比，能效提高高达 37 倍两个在 CPU 上运行的基线求解器。这些优势对于尺寸、重量和功率受限的边缘计算应用尤其重要。

在网络犯罪论坛中使用大型语言模型 (LLM) 进行网络威胁情报 (CTI)

分类： 密码学和安全, 人工智能, 计算和语言

作者： Vanessa Clairoux-Trepanier, Isa-May Beauchamp, Estelle Ruellan, Masarah Paquet-Clouston, Serge-Olivier Paquette, Eric Clay

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03354v1

摘要： 大型语言模型 (LLM) 可用于分析来自网络犯罪论坛的网络威胁情报 (CTI) 数据，其中包含有关新兴网络威胁的大量信息和关键讨论。然而，迄今为止，大语言模型对于此类关键任务的准确性和效率水平尚未得到彻底评估。因此，本研究评估了基于 OpenAI GPT-3.5-turbo 模型 [7] 构建的 LLM 系统提取 CTI 信息的准确性。为此，我们从三个网络犯罪论坛（XSS、Exploit.in 和 RAMP）中随机抽取了 500 个日常对话样本，并指示 LLM 系统总结这些对话并编码 10 个关键 CTI 变量，例如是否存在大量组织和/或关键基础设施正在成为目标。然后，两名编码员审查每一次对话，并评估大语言模型提取的信息是否准确。 LLM系统的表现非常出色，平均准确率达到98%。我们发现了增强模型的各种方法，例如需要帮助大语言模型区分故事和过去的事件，以及注意提示中的动词时态。尽管如此，这项研究的结果凸显了使用大语言模型进行网络威胁情报的效率和相关性。

OpenOmni：用于构建面向未来的多模式对话代理的协作开源工具

分类： 人机交互, 人工智能, 计算和语言

作者： Qiang Sun, Yuanyi Luo, Sirui Li, Wenxiao Zhang, Wei Liu

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03047v1

摘要： 多模式会话代理非常受欢迎，因为它们提供自然且类似人类的交互。然而，缺乏全面的端到端解决方案来支持协作开发和基准测试。虽然 GPT-4o 和 Gemini 等专有系统展示了令人印象深刻的音频、视频和文本集成，响应时间为 200-250 毫秒，但在平衡延迟、准确性、成本和数据隐私方面仍然存在挑战。为了更好地理解和量化这些问题，我们开发了 OpenOmni，这是一个开源的端到端管道基准测试工具，它集成了语音转文本、情绪检测、检索增强生成、大型语言模型等先进技术，以及集成定制模型的能力。 OpenOmni 支持本地和云部署，确保数据隐私并支持延迟和准确性基准测试。这种灵活的框架允许研究人员定制管道，重点关注真正的瓶颈并促进快速的概念验证开发。 OpenOmni 可以显着增强应用程序，例如为视障人士提供室内帮助，从而推进人机交互。我们的演示视频可通过 https://www.youtube.com/watch?v=zaSiT3clWqY 获取，演示可通过 https://openomni.ai4wa.com 获取，代码可通过 https://github.com/AI4WA/OpenOmniFramework 获取。

使用基于扩散的以噪声为中心的学习进行跨用户活动识别的对抗域适应

分类： 机器学习, 人工智能, 人机交互

作者： Xiaozhou Ye, Kevin I-Kai Wang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03353v1

摘要： 人类活动识别（HAR）在人机交互和医疗保健监控等各种应用中发挥着至关重要的作用。然而，由于训练和实际数据分布之间的数据分布差异，HAR 模型仍然存在挑战，在跨用户场景中尤其明显。本文介绍了一种新颖的框架，称为基于扩散的以噪声为中心的对抗性学习域适应（Diff-Noise-Adv-DA），旨在通过利用生成扩散建模和对抗性学习技术来应对这些挑战。传统的 HAR 模型常常难以应对用户行为和传感器数据分布的多样性。 Diff-Noise-Adv-DA 创新地将固有噪声集成到扩散模型中，利用其潜在信息来增强域适应。具体来说，该框架将噪声转化为活动和域类信息的关键载体，从而促进跨不同用户域的稳健分类。实验评估证明了 Diff-Noise-Adv-DA 在提高不同用户的 HAR 模型性能方面的有效性，超越了传统的域适应方法。该框架不仅减少了分布不匹配，还通过基于噪声的去噪技术提高了数据质量。

强化学习的高效自适应奖励塑造

分类： 机器学习, 人工智能

作者： Haozhe Ma, Zhengding Luo, Thanh Vinh Vo, Kuankuan Sima, Tze-Yun Leong

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03029v2

摘要： 奖励塑造通过构建更密集、信息更丰富的奖励信号来解决强化学习中奖励稀疏的挑战。为了实现自适应且高效的奖励塑造，我们提出了一种新颖的方法，将历史经验得出的成功率纳入塑造的奖励中。我们的方法利用从 Beta 分布中采样的成功率，随着收集更多数据，成功率从不确定值动态演变为可靠值。最初，自适应成功率表现出更多的随机性以鼓励探索。随着时间的推移，他们更加确定要加强开采，从而在勘探和开采之间取得更好的平衡。我们采用核密度估计（KDE）与随机傅里叶特征（RFF）相结合来导出 Beta 分布，从而在高维连续状态空间中实现计算高效的实现。该方法提供了一种非参数且免学习的方法。所提出的方法在具有稀疏和延迟奖励的广泛连续控制任务上进行了评估，表明与相关基线相比，样本效率和收敛稳定性显着提高。

整合演示中的可控运动技能

分类： 机器人技术, 人工智能

作者： Honghao Liao, Zhiheng Li, Ziyu Meng, Ran Song, Yibin Li, Wei Zhang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03018v1

摘要： 腿式机器人的应用不断扩大，需要它们掌握多种运动技能。相应地，研究人员必须解决将多种不同运动技能集成到控制器中的挑战。虽然现有的基于强化学习 (RL) 的方法在腿式机器人的多技能集成方面取得了显着的成功，但这些方法通常需要复杂的奖励工程，或者仅限于集成受特定任务目标约束的一组预定义的运动技能，从而导致限制灵活性。在这项工作中，我们引入了一种灵活的多技能集成框架，名为可控技能集成（CSI）。 CSI 能够将具有不同风格的多种运动技能集成到单个策略中，而不需要复杂的奖励调整。此外，以分层控制的方式，训练好的低级策略可以与高级自然语言推理（NLI）模块相结合，以实现初步的语言导向的技能控制。我们的实验表明，CSI 可以更全面地灵活地整合多种运动技能，并促进不同技能之间的转换。此外，随着要集成的运动技能数量显着增加，CSI 表现出良好的可扩展性。

NeurDB：人工智能驱动的自治数据库的设计与实现

分类： 数据库, 人工智能, 机器学习

作者： Zhanhao Zhao, Shaofeng Cai, Haotian Gao, Hexiang Pan, Siqi Xiang, Naili Xing, Gang Chen, Beng Chin Ooi, Yanyan Shen, Yuncheng Wu, Meihui Zhang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03013v1

摘要： 数据库越来越多地采用人工智能来提供自主系统优化和智能数据库内分析，旨在减轻各行业最终用户的负担。尽管如此，大多数现有方法未能考虑数据库的动态性质，这使得它们对于以不断变化的数据和工作负载为特征的现实应用程序无效。本文介绍了 NeurDB，这是一种由人工智能驱动的自治数据库，它加深了人工智能和数据库的融合，具有对数据和工作负载漂移的适应性。 NeurDB 建立了一个新的数据库内人工智能生态系统，可将人工智能工作流程无缝集成到数据库内。这种集成可实现高效且有效的数据库内人工智能分析和快速自适应学习系统组件。实证评估表明，NeurDB 在管理人工智能分析任务方面远远优于现有解决方案，所提出的学习组件比最先进的方法更有效地处理环境动态。

行人群体行为对自动驾驶车辆交互决策影响的跨文化分析

分类： 人机交互, 人工智能

作者： Sergio Martín Serrano, Óscar Méndez Blanco, Stewart Worrall, Miguel Ángel Sotelo, David Fernández-Llorca

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03003v1

摘要： 了解文化背景对于将自动驾驶无缝融入日常生活至关重要，因为它可以确保系统适应不同的社会规范和行为，从而提高不同文化背景下的接受度和安全性。在这项工作中，我们考虑文化和情境因素，研究同一地点的行人对过马路行为的影响。为了实现这一目标，我们在 CARLA 模拟器中创建了一个全尺寸的虚拟现实 (VR) 环境，从而能够在西班牙和澳大利亚复制相同的实验。参与者（N = 30）试图在城市人行横道上与其他行人一起过马路，表现出保守到更大胆的行为，而自动驾驶汽车（AV）以不同的驾驶方式接近。为了分析交互作用，我们利用了问卷调查和参与者进入车道时的直接测量。我们的研究结果表明，行人倾向于一起穿过相同的交通间隙，尽管群体的鲁莽行为会降低信心并使情况变得更加复杂。澳大利亚参与者比西班牙参与者愿意承担更少的风险，在不确定 AV 是否会屈服时采取更加谨慎的行为。

大语言模型作为 DFA 学习的概率最低充足教师

分类： 形式语言和自动机理论, 人工智能

作者： Lekai Chen, Ashutosh Trivedi, Alvaro Velasquez

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02999v1

摘要： 大型语言模型（LLM）中智能的出现激发了对其与自动机学习的集成的研究。本文介绍了概率最小适当教师 (pMAT) 公式，它利用概率预言机，在回答确定性有限自动机 (DFA) 学习的成员资格查询时可以随机给出持续错误。鉴于大语言模型容易产生幻觉内容，我们开发了一些技术来提高答案准确性并确保学习自动机的正确性。我们提出了 $\mathtt{Discrimination}$ 提示以及 $\mathtt{Verification}$ 提示，并探讨了它们相对于常见提示的优势。此外，我们还比较了 TTT 算法和常见主动学习算法之间的 DFA 学习性能。为了解决指数数量的持续错误，我们实现了动态查询缓存细化算法，该算法通过结合主动和被动学习算法来识别和纠正冲突查询。实证结果证明了我们方法的稳健性和效率，为循环中大语言模型的自动学习提供了理论基础。

用于跨域产品检索的 ASR 增强多模态表示学习

分类： 多媒体, 人工智能, 计算机视觉和模式识别

作者： Ruixiang Zhao, Jian Jia, Yan Li, Xuehan Bai, Quan Chen, Han Li, Peng Jiang, Xirong Li

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02978v1

摘要： 电子商务的多媒体化程度越来越高，产品以图像、短视频或直播促销等广泛的方式展示。统一且矢量化的跨域生产表示至关重要。由于在宽域场景中产品内差异较大且产品间相似度较高，仅视觉表示是不够的。虽然从短视频或直播视频中提取的自动语音识别 (ASR) 文本很容易获取，但如何对多模态表示学习中过于嘈杂的文本进行去噪却几乎没有涉及。我们提出了 ASR 增强的多模态产品表示学习 (AMPere)。为了从原始 ASR 文本中提取产品特定信息，AMPere 使用易于实现的基于 LLM 的 ASR 文本摘要器。然后，LLM 总结的文本与视觉数据一起被输入到多分支网络中，以生成紧凑的多模态嵌入。在大规模三域数据集上进行的大量实验验证了 AMPere 在获得统一的多模态产品表示方面的有效性，该表示明显改善了跨域产品检索。

通过强化学习来调整同理心水平以产生同理心响应

分类： 计算和语言, 人工智能

作者： Hui Ma, Bo Zhang, Bo Xu, Jian Wang, Hongfei Lin, Xiao Sun

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02976v1

摘要： 移情响应的生成旨在了解用户的情况和感受并进行移情响应，这对于构建类人对话系统至关重要。以前的方法主要集中于使用最大似然估计作为训练响应生成模型的优化目标，而没有考虑生成响应和目标响应之间的共情水平对齐。为此，我们提出使用强化学习（EmpRL）框架生成移情反应。该框架设计了有效的同理心奖励函数，并通过强化学习最大化预期奖励来产生同理心反应。鉴于预训练语言模型强大的文本生成能力，EmpRL利用预训练的T5模型作为生成器，并进行进一步的训练来初始化策略。为了调整上下文中生成的响应和目标响应之间的共情水平，使用预先设计和预先训练的共情标识符构建了包含三种共情沟通机制（即情绪反应、解释和探索）的共情奖励函数。最后，使用近端策略优化算法进一步训练策略以产生同理心响应。自动和手动评估都表明，所提出的 EmpRL 框架可以提高生成响应的质量，增强生成响应和目标响应之间的共情水平相似性，并产生涵盖情感和认知方面的共情响应。

使用基于自适应延迟的启发式随时进行多代理路径查找

分类： 人工智能

作者： Thomy Phan, Benran Zhang, Shao-Hung Chan, Sven Koenig

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02960v1

摘要： 随时多智能体路径查找（MAPF）是一种在多智能体系统中实现可扩展路径优化的有前途的方法。 MAPF-LNS 基于大邻域搜索 (LNS)，是当前最先进的方法，通过破坏和修复解决方案的选定路径来迭代优化快速初始解决方案。当前的 MAPF-LNS 变体通常使用自适应选择机制在多种破坏启发式中进行选择。然而，为了确定有希望的破坏启发法，MAPF-LNS 需要大量的探索时间。由于常见的破坏启发式方法是非自适应的，因此这些启发式方法造成的任何性能瓶颈都无法仅通过自适应启发式选择来克服，从而在解决方案成本方面限制了 MAPF-LNS 的整体有效性。在本文中，我们提出基于成功的自学习增强的基于自适应延迟的破坏和修复（ADDRESS）作为 MAPF-LNS 的单破坏启发式变体。 ADDRESS 将受限汤普森采样应用于最延迟代理的前 K 组，以选择用于自适应 LNS 邻域生成的种子代理。我们评估了 MAPF 基准集中的多个地图中的 ADDRESS，并证明与原始 MAPF-LNS 和其他最先进的方法相比，在具有多达 1000 个代理的大规模场景中，成本改进了至少 50%。

通过模拟最大部署间隙在域转移下进行少样本挖掘

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Yifan Zhu, Pranay Thangeda, Erica L Tevere, Ashish Goel, Erik Kramer, Hari D Nayar, Melkior Ornik, Kris Hauser

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02949v1

摘要： 地外天体上的自主着陆器任务需要在应对域变化的同时对颗粒材料进行采样，即使采样策略在地球上进行了广泛调整。为了应对这一挑战，本文研究了少镜头舀取问题，并提出了一种基于视觉的自适应舀取策略，该策略使用经过新颖元训练策略训练的深层内核高斯过程方法，从非常有限的经验中在线学习-分布目标地形。我们的深度内核校准与最大部署差距（kCMD）策略通过从离线训练数据集和训练模型创建模拟最大部署差距来明确训练深度内核模型以适应大的领域变化，以克服训练期间的这些部署差距。该方法采用贝叶斯优化顺序决策框架，允许机器人在几次尝试后在分布不均的地形上执行高质量的铲斗动作，明显优于挖掘文献中提出的非自适应方法以及其他最先进的元学习方法。所提出的方法还展示了零发射传输能力，成功适应了 NASA OWLAT 平台，该平台可作为未来潜在行星任务的最先进的模拟器。这些结果证明了通过模拟部署间隙训练深度模型的潜力，可以在大容量模型中实现更通用的元学习。此外，他们强调了我们的方法在自主着陆器采样任务中的前景，使着陆器能够克服地球和地外天体之间的部署差距。

大语言模型数据中毒的规模法则

分类： 密码学和安全, 人工智能, 机器学习

作者： Dillon Bowen, Brendan Murphy, Will Cai, David Khachaturov, Adam Gleave, Kellin Pelrine

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02946v1

摘要： 最近的研究表明，大语言模型很容易受到数据中毒的影响，因为他们接受的是部分损坏或有害数据的培训。中毒数据很难被发现，破坏护栏，并导致不良和有害的行为。鉴于领先实验室为培训和部署规模越来越大、能力越来越强的大语言模型付出了巨大努力，因此至关重要的是要弄清楚数据中毒的风险是否会随着规模的扩大而自然减轻，或者它是否会成为一个日益严重的威胁。我们考虑了可能发生数据中毒的三种威胁模型：恶意微调、不完善的数据管理和故意数据污染。我们的实验评估了数据中毒对 23 个前沿大语言模型的影响，涉及三个数据集上的 1.5-72 亿个参数，这三个数据集与我们的每个威胁模型相关。我们发现，规模较大的大语言模型越来越容易受到攻击，他们学习有害行为（包括潜伏代理行为）的速度比规模较小的大语言模型要快得多，即使数据中毒程度最低。这些结果强调了在大型大语言模型中需要采取强有力的保护措施来防止数据中毒。

无线通信系统中的大语言模型授权资源分配

分类： 信号处理, 人工智能, 系统与控制, 系统与控制

作者： Woongsup Lee, Jeonghun Park

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02944v1

摘要： 大型语言模型（LLM）最近的成功刺激了它们在各个领域的应用。特别是，人们一直在努力将大语言模型集成到无线通信系统的各个方面。在无线通信系统中使用大语言模型有可能实现人工智能（AGI）支持的无线网络。在本文中，我们研究了一种基于 LLM 的无线通信系统资源分配方案。具体来说，我们制定了一个涉及两个传输对的简单资源分配问题，并开发了一种基于LLM的资源分配方法，旨在最大化能源效率或频谱效率。此外，我们考虑联合使用低复杂度的资源分配技术来弥补基于LLM的方案的可靠性缺陷。在确认基于大语言模型的资源分配的适用性和可行性后，我们解决了大语言模型在实践中应用中仍然存在的几个关键技术挑战。

通过 Marcus 映射的双随机自适应邻居聚类

分类： 机器学习, 人工智能

作者： Jinghui Yuan, Chusheng Zeng, Fangyuan Xie, Zhe Cao, Rong Wang, Feiping Nie, Xuelong Li

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02932v1

摘要： 聚类是机器学习和数据科学中的一项基本任务，基于相似图的聚类是该领域的一种重要方法。双随机对称相似图为聚类问题和下游任务提供了许多好处，但学习此类图仍然是一个重大挑战。马库斯定理指出，严格正对称矩阵可以通过对角矩阵转化为双随机对称矩阵。然而，在聚类中，学习稀疏矩阵对于计算效率至关重要。我们通过提出Marcus映射来扩展Marcus定理，这表明某些稀疏矩阵也可以通过对角矩阵转化为双随机对称矩阵。此外，我们将排序约束引入聚类问题，并提出基于马库斯映射（ANCMM）的双随机自适应邻居聚类算法。这确保了学习到的图自然地分为所需数量的簇。我们通过与最先进的算法进行广泛比较来验证我们算法的有效性。最后，我们探讨了马库斯映射和最优传输之间的关系。我们证明了马库斯映射解决了特定类型的最优传输问题，并证明通过马库斯映射解决该问题比直接应用最优传输方法更有效。

自学成才的评估者

分类： 计算和语言, 人工智能

作者： Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02666v1

摘要： 基于模型的评估是成功模型开发的核心——作为训练的奖励模型，并替代人工评估。为了训练这样的评估者，标准方法是收集大量人类对模型响应的偏好判断，这是昂贵的，而且随着模型的改进，数据会变得陈旧。在这项工作中，我们提出了一种方法，旨在仅使用合成训练数据来改进评估器，而无需人工注释。从未标记的指令开始，我们的迭代自我改进方案生成对比模型输出，并训练大语言模型作为法官以产生推理轨迹和最终判断，并使用改进的预测在每次新迭代中重复此训练。在没有任何标记的偏好数据的情况下，我们的自学评估器可以将 RewardBench 上的 LLM (Llama3-70B-Instruct) 从 75.4 提高到 88.3（多数票为 88.7）。这优于常用的 LLM 判断（例如 GPT-4），并且与使用标记示例训练的最佳奖励模型的性能相匹配。

强化学习能否解开对齐大语言模型中的隐患？

分类： 计算和语言, 人工智能, 密码学和安全

作者： Mohammad Bahrami Karkevandi, Nishant Vishwamitra, Peyman Najafirad

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02651v1

摘要： 大型语言模型（LLM）在自然语言任务中表现出了令人印象深刻的能力，但由于其在互联网文本语料库上进行训练，其安全性和道德性仍然存在争议。为了解决这些问题，我们开发了对齐技术来提高大语言模型的公共可用性和安全性。然而，通过这些模型生成有害内容的可能性似乎仍然存在。本文探讨了大语言模型越狱的概念——通过对抗性触发因素扭转其联盟。以前的方法，例如软嵌入提示、手动制作的提示和基于梯度的自动提示，在黑盒模型上取得的成功有限，因为它们对模型访问的要求以及产生的手动制作的提示的种类较少，使得它们容易受到攻击。到被封锁。本文介绍了一种使用强化学习来优化对抗触发器的新颖方法，仅需要对目标模型和小型代理模型的推理 API 访问。我们的方法利用基于 BERTScore 的奖励函数，增强了新黑盒模型上对抗性触发器的可转移性和有效性。我们证明，这种方法可以提高先前未经测试的语言模型上的对抗性触发器的性能。

SEAS：大型语言模型的自我进化对抗安全优化

分类： 计算和语言, 人工智能

作者： Muxi Diao, Rumei Li, Shiyang Liu, Guogang Liao, Jingang Wang, Xunliang Cai, Weiran Xu

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02632v1

摘要： 随着大型语言模型（LLM）的能力和影响力不断提高，确保其安全性并防止有害输出变得至关重要。解决这些问题的一个有前途的方法是训练模型来自动生成红队的对抗性提示。然而，大语言模型中不断变化的微妙漏洞挑战了当前对抗方法的有效性，这些方法很难专门针对和探索这些模型的弱点。为了应对这些挑战，我们引入了 $\mathbf{S}\text{elf-}\mathbf{E}\text{volving }\mathbf{A}\text{dversarial }\mathbf{S}\text{afety } \mathbf{(SEAS)}$ 优化框架，通过利用模型本身生成的数据来增强安全性。 SEAS 通过三个迭代阶段运行：初始化、攻击和对抗性优化，完善红队和目标模型以提高鲁棒性和安全性。该框架减少了对手动测试的依赖，并显着增强了大语言模型的安全能力。我们的贡献包括新颖的对抗框架、全面的安全数据集，经过三次迭代，Target 模型达到了与 GPT-4 相当的安全级别，而红队模型相对于高级模型，攻击成功率 (ASR) 显着提高。

语言模型可以边听边说

分类： 计算和语言, 人工智能, 人机交互, 声音, 音频和语音处理

作者： Ziyang Ma, Yakun Song, Chenpeng Du, Jian Cong, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02622v1

摘要： 对话是最自然的人机交互（HCI）方式。语音语言模型 (SLM) 的最新进展显着增强了基于语音的会话 AI。然而，这些模型仅限于回合制对话，缺乏与人类实时语音场景交互的能力，例如，当生成的内容不令人满意时会被打断。为了解决这些限制，我们探索交互式语音语言模型（iSLM）中的全双工建模（FDM），重点是增强实时交互，更明确地，探索中断的本质能力。我们引入了一种新颖的模型设计，即边听边说语言模型（LSLM），这是一种同时配备听力和口语通道的端到端系统。我们的 LSLM 采用基于令牌的纯解码器 TTS 来生成语音，并采用流式自监督学习 (SSL) 编码器来实现实时音频输入。 LSLM 融合两个通道以进行自回归生成并实时检测轮流。探索了早期融合、中期融合和后期融合三种融合策略，其中中期融合实现了语音生成和实时交互之间的最佳平衡。基于命令的 FDM 和基于语音的 FDM 两种实验设置证明了 LSLM 对噪声的鲁棒性和对不同指令的敏感性。我们的结果凸显了 LSLM 实现双工通信的能力，同时对现有系统的影响最小。这项研究旨在推动交互式语音对话系统的发展，增强其在现实世界中的适用性。

通过谓词的重新定义进行向后解释

分类： 人工智能, 计算复杂度, I.2.6

作者： Léo Saulières, Martin C. Cooper, Florence Dupin de Saint Cyr

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02606v1

摘要： 基于谓词 (HXP) 的历史解释，通过任意谓词的棱镜，研究强化学习 (RL) 代理在代理与环境（历史）交互序列中的行为。为此，为历史记录中的每个动作计算动作重要性分数。解释包括向用户显示最重要的操作。由于计算一个动作的重要性是#W[1]-困难的，因此有必要通过长期历史来近似分数，但以牺牲其质量为代价。因此，我们提出了一种新的 HXP 方法，称为 Backward-HXP，为这些历史提供解释，而无需近似分数。实验证明了 B-HXP 总结悠久历史的能力。

逐步选择性标签增强以实现语言模型对齐

分类： 计算和语言, 人工智能

作者： Biao Liu, Ning Xu, Xin Geng

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02599v1

摘要： 大型语言模型在各种语言任务中表现出了令人印象深刻的能力，但可能会产生与人类期望不一致的内容，引发道德和法律问题。因此，探索模型的局限性并实施限制以确保安全性和合规性非常重要，其中人类反馈强化学习（RLHF）是主要方法。由于 RLHF 阶段在稳定性和可扩展性方面面临挑战，研究人员正在探索替代方法以实现与 RLHF 相当的效果。然而，这些方法通常依赖于大型高质量数据集，并且无法有效利用生成的数据。为了解决这个问题，我们提出了 PSLE，即渐进式选择性标签增强语言模型对齐，这是一个框架，通过指导模型使输出与人类期望保持一致，从而充分利用所有生成的数据。使用动态更新的阈值，我们的方法通过合并所有生成的响应并根据相应的奖励分数对其进行加权，确保有效的数据利用。多个数据集上的实验结果证明了 PSLE 与现有语言模型对齐方法相比的有效性。

通过图像字幕进行视觉语义建模，以提取增强的多级跨模态语义不一致表示，并注意多模态讽刺检测

分类： 计算机视觉和模式识别, 人工智能

作者： Sajal Aggarwal, Ananya Pandey, Dinesh Kumar Vishwakarma

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02595v1

摘要： 讽刺是讽刺的一种，其特点是字面解释与预期含义之间存在固有的不匹配。尽管文本中的讽刺检测已被广泛研究，但在某些情况下，仅文本输入可能不足以感知讽刺。包含其他上下文线索（例如图像）对于有效识别社交媒体数据中的讽刺至关重要。这项研究提出了一种新的多模式讽刺检测框架，可以处理输入三元组。这些三元组的两个组成部分包括输入文本及其相关图像，如数据集中提供的那样。此外，还以描述性图像标题的形式引入了补充模式。合并这种视觉语义表示背后的动机是为了更准确地捕捉文本和视觉内容之间的差异，这是讽刺检测任务的基础。这项研究的主要贡献是：（1）利用跨语言语言模型的强大文本特征提取分支；（2）视觉特征提取分支，包含与轻量级空间感知注意模块集成的自我调节残差ConvNet； (3) 使用能够读取图像中嵌入文本的编码器-解码器架构生成图像标题形式的附加模式；（4）独特的注意力模块，可有效识别文本和两个级别的图像表示之间的不一致； (5)通过特征融合实现多层次跨领域语义不一致表示。与前沿基线相比，所提出的模型在 Twitter 多模态讽刺和 MultiBully 数据集上分别实现了 92.89% 和 64.48% 的最佳准确率。

利用大语言模型的力量：高质量基于方面的摘要的微调方法

分类： 计算和语言, 人工智能, 信息检索

作者： Ankan Mullick, Sombit Bose, Rounak Saha, Ayan Kumar Bhowmick, Aditya Vempaty, Pawan Goyal, Niloy Ganguly, Prasenjit Dey, Ravi Kokku

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02584v1

摘要： 数字信息量不断增加，用户需要有效的方法从冗长的文档中提取关键见解。基于方面的摘要提供了一种有针对性的方法，生成专注于文档中特定方面的摘要。尽管基于方面的摘要研究取得了进步，但人们仍在不断寻求改进模型性能。鉴于大语言模型（LLM）已经证明了在自然语言处理中彻底改变各种任务的潜力，特别是在摘要问题上，本文探讨了针对基于方面的摘要任务微调 LLM 的潜力。我们评估了微调开源基金会 LLM（包括 Llama2、Mistral、Gemma 和 Aya）对公开可用的基于特定领域方面的摘要数据集的影响。我们假设这种方法将使这些模型能够有效地识别和提取与方面相关的信息，从而与最先进的技术相比，产生更高质量的基于方面的摘要。我们建立了一个全面的评估框架，将微调大语言模型的性能与基于方面的竞争性总结方法和微调大语言模型的普通对应方法进行比较。我们的工作通过展示微调大语言模型生成高质量基于方面的摘要的功效，为基于方面的摘要领域做出了贡献。此外，它为进一步探索使用大语言模型跨各个 NLP 领域进行有针对性的信息提取任务打开了大门。

聚类和挖掘口音语音以实现包容和公平的语音识别

分类： 声音, 人工智能, 音频和语音处理

作者： Jaeyoung Kim, Han Lu, Soheil Khorram, Anshuman Tripathi, Qian Zhang, Hasim Sak

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02582v1

摘要： 现代自动语音识别（ASR）系统通常需要经过数万小时以上的语音数据进行训练，这是其取得巨大成功的主要因素之一。然而，此类数据的分布通常偏向于常见口音或典型语音模式。因此，这些系统在处理非典型口音语音时通常表现不佳。在本文中，我们提出了公平语音识别系统的口音聚类和挖掘方案，该方案可以在代表性不足的口音语音上同样表现良好。对于口音识别，我们应用了三种方案来克服监督口音数据大小的限制：监督或无监督预训练、分布鲁棒优化（DRO）和无监督聚类。三种方案可以显着改善口音识别模型，特别是对于不平衡和小口音的语音。使用所提出的监督或无监督聚类方案对挖掘的印度口音语音进行 ASR 微调，与对随机采样语音进行微调相比，分别显示出 10.0% 和 5.3% 的相对改进。

基于对比学习的多模态架构，利用图像-文本对进行表情预测

分类： 计算机视觉和模式识别, 人工智能

作者： Ananya Pandey, Dinesh Kumar Vishwakarma

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02571v1

摘要： 表情符号是通常伴随文本内容的符号表示，以在视觉上增强或总结书面消息的真实意图。尽管在社交媒体领域被广泛使用，但这些表情符号的核心语义尚未基于多种模式得到广泛探索。将文本和视觉信息合并到单个消息中开发了一种先进的信息传达方式。因此，本研究旨在分析句子、视觉和表情符号之间的关系。为了有序地阐述，本文首先详细研究了提取多模态特征的各种技术，强调了每种方法的优缺点。通过对几种多模态算法进行全面检查，特别强调融合方法，我们提出了一种新颖的基于对比学习的多模态架构。所提出的模型采用双分支编码器的联合训练以及对比学习来准确地将文本和图像映射到公共潜在空间中。我们的主要发现是，通过将对比学习的原理与其他两个分支的原理相结合，可以产生更好的结果。实验结果表明，我们建议的方法在准确性和鲁棒性方面超越了现有的多模式方法。在使用从 Twitter 获取的 Multimodal-Twitter Emoticon 数据集评估表情符号时，所提出的模型达到了 91% 的准确率和 90% 的 MCC 分数。我们提供的证据表明，通过对比学习获得的深层特征更加有效，这表明所提出的融合技术还具有强大的泛化能力，可以跨多种模式识别表情符号。

基于关丹心理理论的大语言模型代理的评估和增强：不完全信息下的多人合作博弈

分类： 计算和语言, 人工智能

作者： Yauwai Yim, Chunkit Chan, Tianyu Shi, Zheye Deng, Wei Fan, Tianshi Zheng, Yangqiu Song

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02559v1

摘要： 大型语言模型（LLM）在处理具有不完美信息的简单游戏和实现多智能体协调方面已显示出成功，但它们在复杂、不完美的信息环境中（特别是在非英语环境中）促进与其他智能体的实际协作的能力仍然需要有待探索。本研究调查了开源和基于 API 的大语言模型所获得的知识对于复杂的基于文本的游戏的适用性，这些游戏需要在不完美信息下进行代理协作，并将其性能与使用其他类型代理建立的基线进行比较。我们提出了一种心智理论 (ToM) 规划技术，允许 LLM 代理仅使用游戏规则、当前状态和历史背景作为输入来调整其针对各种对手的策略。引入了一个外部工具来减轻这款纸牌游戏中动态和广泛的动作空间的挑战。我们的结果表明，尽管当前的大语言模型和最先进的强化学习（RL）模型之间存在性能差距，但大语言模型在这种游戏环境中展示了 ToM 能力。它不断提高他们对抗敌对特工的表现，表明他们有能力了解盟友和对手的行动并与盟友建立合作。为了鼓励进一步的研究和理解，我们开放了我们的代码库。

MeshAnything V2：艺术家创建的具有相邻网格标记化的网格生成

分类： 计算机视觉和模式识别, 人工智能, 图形

作者： Yiwen Chen, Yikai Wang, Yihao Luo, Zhengyi Wang, Zilong Chen, Jun Zhu, Chi Zhang, Guosheng Lin

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02555v1

摘要： 我们推出了 MeshAnything V2，这是一种自回归转换器，可生成与给定形状对齐的艺术家创建的网格 (AM)。它可以与各种3D资产制作流程集成，实现高质量、高度可控的AM生成。 MeshAnything V2 使用相同尺寸的模型在效率和性能上都超越了以前的方法。这些改进归功于我们新提出的网格标记化方法：相邻网格标记化（AMT）。与以前用三个顶点表示每个面的方法不同，AMT 尽可能使用单个顶点。与以前的方法相比，AMT 平均需要大约一半的令牌序列长度来表示相同的网格。此外，AMT 的令牌序列更加紧凑且结构良好，从根本上有利于 AM 生成。我们的大量实验表明，AMT 显着提高了 AM 生成的效率和性能。项目页面：https://buaacyw.github.io/meshanything-v2/

功能性肌肉网络在改善人机界面手势感知中的作用

分类： 机器人技术, 人工智能, 机器学习, 信号处理

作者： Costanza Armanini, Tuka Alhanai, Farah E. Shamout, S. Farokh Atashzar

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02547v1

摘要： 开发准确的手势感知模型对于各种机器人应用至关重要，它可以实现人与机器之间的有效通信，并直接影响神经机器人和交互式机器人。最近，人们对表面肌电图 (sEMG) 进行了探索，因为它与先进的机器学习方法和可穿戴系统相结合，具有丰富的信息背景和可访问性。文献提出了多种方法来提高性能，同时确保使用 sEMG 的神经机器人的鲁棒性，这通常会导致模型需要高处理能力、大数据集和可扩展性较差的解决方案。本文通过提出肌肉同步解码而不是个体肌肉激活来解决这一挑战。我们研究基于一致性的功能性肌肉网络作为感知模型的核心，提出肌肉之间的功能同步和基于图形的肌肉连接网络编码有关预期手势的上下文信息。这可以使用浅层机器学习方法进行解码，而不需要深层时间网络。我们的技术可以通过减少计算负担和提高效率来影响神经机器人的肌电控制。该方法以 Ninapro 数据库为基准，该数据库包含来自 40 名受试者执行 17 个手势的 12 个肌电图信号。它的准确率达到 85.1%，与现有方法相比，性能有所提高，同时需要的计算能力要少得多。结果支持这样的假设：基于一致性的功能性肌肉网络对与手势执行相关的关键信息进行编码，显着增强手势感知，并具有神经机器人系统和交互式机器的潜在应用。

RAG Foundry：增强大语言模型检索增强生成的框架

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Daniel Fleischer, Moshe Berchansky, Moshe Wasserblat, Peter Izsak

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02545v1

摘要： 实施检索增强生成 (RAG) 系统本质上是复杂的，需要深入了解数据、用例和复杂的设计决策。此外，评估这些系统提出了重大挑战，需要通过多方面的方法评估检索准确性和生成质量。我们介绍 RAG Foundry，这是一个开源框架，用于增强 RAG 用例的大型语言模型。 RAG Foundry 将数据创建、训练、推理和评估集成到单个工作流程中，有助于创建数据增强数据集，以便在 RAG 设置中训练和评估大型语言模型。这种集成支持使用各种 RAG 技术进行快速原型设计和实验，使用户能够轻松生成数据集并使用内部或专业知识源训练 RAG 模型。我们通过使用不同的 RAG 配置增强和微调 Llama-3 和 Phi-3 模型来展示框架的有效性，展示了三个知识密集型数据集的一致改进。代码在 https://github.com/IntelLabs/RAGFoundry 中作为开源发布。

解释强化学习：反事实的 Shapley 值方法

分类： 人工智能

作者： Yiwei Shi, Qi Zhang, Kevin McAreavey, Weiru Liu

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02529v2

摘要： 本文介绍了一种新方法反事实沙普利值 (CSV)，该方法通过将反事实分析与沙普利值相结合来增强强化学习 (RL) 的可解释性。该方法旨在量化和比较不同状态维度对各种行动选择的贡献。为了更准确地分析这些影响，我们引入了新的特征值函数，即“反事实差异特征值”和“平均反事实差异特征值”。这些函数有助于计算 Shapley 值，以评估最佳和非最佳操作之间的贡献差异。跨多个 RL 领域（例如 GridWorld、FrozenLake 和 Taxi）的实验证明了 CSV 方法的有效性。结果表明，这种方法不仅提高了复杂强化学习系统的透明度，而且还量化了各种决策之间的差异。

通过单击或双击预测减少单击延迟

分类： 人机交互, 人工智能, 机器学习

作者： Naoto Nishida, Kaori Ikematsu, Junichi Sato, Shota Yamanaka, Kota Tsubouchi

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02525v1

摘要： 触摸表面广泛应用于智能手机、平板电脑和笔记本电脑（触摸板），单击和双击是其最基本和常见的操作。单击或双击的检测会导致单击延迟问题，从而在触摸输入的灵敏度方面造成瓶颈。为了减少单击延迟，我们提出了一种新颖的基于机器学习的点击预测方法，称为 PredicTaps。我们的方法可以预测检测到的轻击是单击还是双击的第一次接触，而无需等待传统上所需的数百毫秒。我们提供三项评估和一项用户评估，证明其在两种外形尺寸（触摸板和智能手机）上的各种点击情况下的广泛适用性和可用性。结果显示，PredicTaps 将笔记本电脑上的单击延迟从 150-500 毫秒减少到 12 毫秒，在智能手机上减少到 17.6 毫秒，而不会降低可用性。

大语言模型在代码生成方面的许可合规能力初探

分类： 软件工程, 人工智能, 机器学习

作者： Weiwei Xu, Kai Gao, Hao He, Minghui Zhou

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02487v1

摘要： 大型语言模型 (LLM) 的最新进展彻底改变了代码生成，导致开发人员广泛采用人工智能编码工具。然而，大语言模型可以在不提供必要的许可证信息的情况下生成受许可证保护的代码，从而导致软件生产过程中潜在的知识产权侵权行为。本文通过建立一个基准来评估大语言模型为其生成的代码提供准确的许可证信息的能力，解决了大语言模型生成的代码中关键但尚未充分探讨的许可证合规性问题。为了建立这个基准，我们进行了实证研究，以确定“惊人相似”的合理标准，排除独立创作的可能性，表明LLM输出与某些开源代码之间存在复制关系。基于该标准，我们提出了评估基准LiCoEval，用于评估大语言模型的许可合规能力。使用 LiCoEval，我们评估了 14 个流行的大语言模型，发现即使是表现最好的大语言模型也会产生不可忽视的比例（0.88% 到 2.01%）与现有开源实现惊人相似的代码。值得注意的是，大多数大语言模型无法提供准确的许可信息，特别是对于 Copyleft 许可下的代码。这些发现强调了迫切需要增强代码生成任务中的大语言模型合规能力。我们的研究为未来的研究和开发奠定了基础，以提高人工智能辅助软件开发的许可合规性，有助于保护开源软件版权并减轻大语言模型用户的法律风险。

从大语言模型到基于大语言模型的软件工程代理：当前、挑战和未来的调查

分类： 软件工程, 人工智能, 计算和语言

作者： Haolin Jin, Linghan Huang, Haipeng Cai, Jun Yan, Bo Li, Huaming Chen

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02479v1

摘要： 随着大型语言模型（LLM）的兴起，研究人员越来越多地探索其在软件工程等各种垂直领域的应用。大语言模型在代码生成和漏洞检测等领域取得了显着的成功。然而，它们也表现出许多局限性和缺点。基于大语言模型的代理是一种具有人工智能（AGI）潜力的新技术，它将大语言模型作为决策和采取行动的核心，解决了大语言模型的一些固有局限性，例如缺乏自主性和自我约束力。改进。尽管有大量研究和调查探索在软件工程中使用大语言模型的可能性，但大语言模型和基于大语言模型的代理之间缺乏明确的区别。统一标准和基准测试仍处于早期阶段，以使 LLM 解决方案成为其领域内基于 LLM 的代理。在本次调查中，我们广泛调查了大语言模型和基于大语言模型的软件工程代理的当前实践和解决方案。我们特别总结了六个关键主题：需求工程、代码生成、自主决策、软件设计、测试生成和软件维护。我们从这六个主题中审查和区分大语言模型和基于大语言模型的代理人的工作，检查他们在任务、基准和评估指标方面的差异和相似之处。最后，我们讨论所使用的模型和基准，对其在软件工程中的应用和有效性进行全面分析。我们预计这项工作将为未来研究突破基于 LLM 的代理在软件工程领域的界限提供一些线索。

基于人工智能的电影 CMR 分割中种族偏见原因的调查

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Tiarna Lee, Esther Puyol-Anton, Bram Ruijsink, Sebastien Roujol, Theodore Barfoot, Shaheim Ogbomo-Harmitt, Miaojing Shi, Andrew P. King

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02462v1

摘要： 人工智能 (AI) 方法越来越多地用于电影心脏磁共振 (CMR) 成像的自动分割。然而，这些方法已被证明会受到种族偏见的影响，即，根据用于训练人工智能模型的数据的（不）平衡，它们对不同的种族表现出不同的性能水平。在本文中，我们调查了这种偏见的根源，试图了解其根本原因，以便有效地减轻这种偏见。我们对从英国生物银行的黑白受试者获取的短轴电影 CMR 图像进行了一系列分类和分割实验，并应用人工智能解释方法来理解结果。在分类实验中，我们发现仅从图像中就可以高精度地预测种族，但从地面实况分割中预测种族的准确度较低，这表明种族之间的分布变化（通常是人工智能偏差的原因）主要是基于图像的而不是基于细分。可解释性方法表明，分类模型中的大部分注意力都集中在非心脏区域，例如皮下脂肪。紧紧围绕心脏裁剪图像将分类精度降低到大约机会水平。同样，可以根据有偏差的分割模型的潜在表示来预测种族，这表明种族信息已编码在模型中。紧紧围绕心脏裁剪图像减少了分割偏差，但没有消除分割偏差。我们还研究了可能的混杂因素对观察到的偏差的影响。

使用基于 GAT 的新颖方法增强异构知识图的完成度

分类： 机器学习, 人工智能

作者： Wanxu Wei, Yitong Song, Bin Yao

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02456v1

摘要： 知识图（KG）在增强搜索结果和推荐系统方面发挥着至关重要的作用。随着知识图谱规模的迅速增加，它们变得不准确和不完整。这个问题可以通过知识图补全方法来解决，其中基于图注意网络（GAT）的方法因其优越的性能而脱颖而出。然而，现有的基于 GAT 的知识图谱补全方法在处理异构知识图谱时经常会出现过拟合问题，这主要是由于样本数量不平衡造成的。此外，这些方法在预测与其他实体共享相同关系的尾（头）实体和头（尾）实体方面表现不佳。为了解决这些问题，我们提出了 GATH，一种专为异构 KG 设计的基于 GAT 的新型方法。 GATH 包含两个独立的注意力网络模块，它们协同工作来预测丢失的实体。我们还引入了新颖的编码和特征转换方法，使 GATH 在样本不平衡的场景中具有鲁棒的性能。进行了综合实验来评估 GATH 的性能。与基于 Hits@10 和 MRR 指标的现有基于 SOTA GAT 的模型相比，我们的模型在 FB15K-237 数据集上的性能分别提高了 5.2% 和 5.2%，在 WN18RR 数据集上分别提高了 4.5% 和 14.6%。

俄罗斯分析的长输入基准

分类： 计算和语言, 人工智能

作者： Igor Churin, Murat Apishev, Maria Tikhonova, Denis Shevelev, Aydar Bulatov, Yuri Kuratov, Sergej Averkiev, Alena Fenogenova

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02439v1

摘要： 自然语言处理 (NLP) 的最新进展促进了大型语言模型 (LLM) 的发展，可以解决各种各样的任务。他们的应用程序的关键方面之一是他们处理长文本文档和处理长令牌序列的能力。这就产生了对长上下文理解进行正确评估的需求。为了满足对俄语的这种需求，我们提出了 LIBRA（俄语分析长输入基准），其中包含 21 个改编数据集，用于研究大语言模型彻底理解长文本的能力。这些测试分为四个复杂性组，允许在 4k 到 128k 令牌的各种上下文长度上评估模型。我们为 LIBRA 提供开源数据集、代码库和公共排行榜，以指导即将开展的研究。

PENDRAM：通过通用 DRAM 数据映射策略实现深度神经网络的高性能和高能效处理

分类： 硬件架构, 人工智能, 机器学习, 神经和进化计算

作者： Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02412v1

摘要： 卷积神经网络 (CNN) 是深度神经网络 (DNN) 的一种重要类型，已成为解决机器学习任务的最先进的解决方案。为了提高 CNN 推理的性能和能源效率，普遍采用专用硬件加速器。然而，由于片外存储器 (DRAM) 访问延迟和能耗较高，CNN 加速器仍然面临性能和能效挑战，这对于延迟和能耗受限的嵌入式应用尤其重要。此外，不同的 DRAM 架构具有不同的访问延迟和能耗特征，因此优化它们以实现高性能和节能的 CNN 加速器具有挑战性。为了解决这个问题，我们提出了 PENDRAM，这是一种新颖的设计空间探索方法，可通过通用 DRAM 数据映射策略实现高性能和高能效的 CNN 加速。具体来说，它探讨了不同 CNN 分区和调度方案中不同 DRAM 数据映射策略和 DRAM 架构对 DRAM 访问延迟和能耗的影响，然后确定帕累托最优设计选择。实验结果表明，与其他映射策略相比，我们的 DRAM 数据映射策略将 CNN 加速器中 DRAM 访问的能量延迟积提高了 96%。通过这种方式，我们的 PENDRAM 方法可以在任何给定的 DRAM 架构下为各种嵌入式 AI 应用提供高性能和高能效的 CNN 加速。

使用去噪扩散模型的多天气跨视图地理定位

分类： 计算机视觉和模式识别, 人工智能

作者： Tongtong Feng, Qing Li, Xin Wang, Mingzi Wang, Guangyao Li, Wenwu Zhu

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02408v1

摘要： GNSS 拒绝环境中的跨视图地理定位旨在通过将无人机视图图像与大型图库中正确的地理标记卫星视图图像进行匹配来确定未知位置。最近的研究表明，学习特定天气条件下的判别性图像表示可以显着提高性能。然而，看不见的极端天气条件的频繁发生阻碍了进展。本文介绍了 MCGF，一种多天气跨视图地理定位框架，旨在动态适应未见的天气条件。 MCGF 使用去噪扩散模型在图像恢复和地理定位之间建立联合优化。对于图像恢复，MCGF 结合了共享编码器和轻量级恢复模块，以帮助主干消除天气特定信息。对于地理定位，MCGF 使用 EVA-02 作为特征提取的骨干，使用交叉熵损失进行训练，使用余弦距离进行测试。在 University160k-WX 上进行的大量实验表明，MCGF 在不同天气条件下的地理定位方面取得了有竞争力的结果。

利用上下文信息增强基于人工智能的软件漏洞生成

分类： 软件工程, 人工智能

作者： Pietro Liguori, Cristina Improta, Roberto Natella, Bojan Cukic, Domenico Cotroneo

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02402v2

摘要： 这份实践经验报告探讨了神经机器翻译 (NMT) 模型从自然语言 (NL) 描述生成攻击性安全代码的能力，强调了上下文理解的重要性及其对模型性能的影响。我们的研究使用包含真实 shellcode 的数据集来评估各种场景下的模型，包括丢失的信息、必要的上下文和不必要的上下文。这些实验旨在评估模型对不完整描述的适应能力、利用上下文提高准确性的能力以及辨别不相关信息的能力。研究结果表明，上下文数据的引入显着提高了性能。然而，额外上下文的好处在超过某个点后就会减弱，这表明模型训练的上下文信息达到了最佳水平。此外，这些模型展示了过滤掉不必要的上下文的能力，从而在生成攻击性安全代码时保持高水平的准确性。这项研究为未来优化人工智能驱动代码生成中上下文使用的研究铺平了道路，特别是对于需要高度技术精度的应用程序，例如生成攻击性代码。

带有延迟推理的完美信息蒙特卡罗

分类： 人工智能

作者： Jérôme Arjonilla, Abdallah Saffidine, Tristan Cazenave

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02380v1

摘要： 不完美信息博弈，如 Bridge 和 Skat，由于状态空间爆炸和隐藏信息而带来挑战，给搜索算法带来了巨大的障碍。基于确定性的算法通过对隐藏信息进行采样并在完美的信息设置中解决游戏来提供解决方案，从而促进快速有效的动作估计。然而，向完美信息的过渡会带来挑战，特别是所谓的策略融合。这项研究引入了“扩展完美信息蒙特卡罗”（EPIMC），这是一种在线算法，其灵感来自最先进的基于确定性的方法完美信息蒙特卡罗（PIMC）。 EPIMC通过推迟完美的信息解决方案来增强PIMC的能力，减少与战略融合相关的缓解问题。然而，推迟叶子评估器的决定引入了新的考虑因素，例如先前的推理级别和新推迟的解决方案之间的相互作用。在我们的实证分析中，我们研究了 EPIMC 在一系列游戏中的表现，特别关注那些具有不同程度的策略融合特征的游戏。我们的结果表明性能显着增强，特别是在策略融合显着影响游戏玩法的游戏中。此外，我们的研究为基于确定性的算法解决与策略融合相关的挑战奠定了理论基础。%，从而增强了我们在不完美信息博弈场景背景下对这些算法的理解。

使用大型语言模型进行关系提取域适应的少样本方法

分类： 计算和语言, 人工智能

作者： Vanni Zavarella, Juan Carlos Gamero-Salinas, Sergio Consoli

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02377v1

摘要： 知识图谱（KG）已成功应用于复杂科学技术领域的分析，自动知识图谱生成方法通常建立在关系提取模型的基础上，捕获文本中领域实体之间的细粒度关系。虽然这些关系完全适用于整个科学领域，但现有模型是在 SciERC 等少数特定领域数据集上进行训练的，并且在新目标领域上表现不佳。在本文中，我们尝试利用大型语言模型的上下文学习功能来执行模式约束的数据注释，为部署在架构中研究论文的标题和摘要上的基于 Transformer 的关系提取模型收集域内训练实例、建筑、工程和运营 (AECO) 领域。通过评估在域外数据上训练的基线深度学习架构的性能增益，我们表明，通过使用带有结构化提示和最少专家注释的几次学习策略，所提出的方法可以潜在地支持科学的领域适应KG一代模型。

在具有隐私意识的助理中实现上下文完整性

分类： 人工智能

作者： Sahra Ghalebikesabi, Eugene Bagdasaryan, Ren Yi, Itay Yona, Ilia Shumailov, Aneesh Pappu, Chongyang Shi, Laura Weidinger, Robert Stanforth, Leonard Berrada, Pushmeet Kohli, Po-Sen Huang, Borja Balle

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02373v1

摘要： 高级人工智能助手将前沿大语言模型和工具访问结合起来，代表用户自主执行复杂的任务。虽然通过访问包括电子邮件和文档在内的用户信息，此类助手的帮助可以显着增加，但这引发了对助手在没有用户监督的情况下与第三方共享不当信息的隐私担忧。为了引导信息共享助手按照隐私期望行事，我们建议实施 $\textit{上下文完整性}$ (CI)，这是一个将隐私与给定上下文中适当的信息流等同起来的框架。特别是，我们设计和评估了许多策略来引导助手的信息共享行为符合 CI 要求。我们的评估基于由合成数据和人工注释组成的新颖的表格填写基准，它表明促使前沿大语言模型执行基于 CI 的推理会产生强有力的结果。

通过约束思想链解码进行对话本体关系提取

分类： 计算和语言, 人工智能, 机器学习

作者： Renato Vukovic, David Arps, Carel van Niekerk, Benjamin Matthias Ruppik, Hsien-Chin Lin, Michael Heck, Milica Gašić

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02361v1

摘要： 最先进的面向任务的对话系统通常依赖于特定于任务的本体来满足用户查询。大多数面向任务的对话数据，例如客户服务录音，都没有本体和注释。这种本体通常是手动构建的，限制了专用系统的应用。对话本体构建是一种自动化该过程的方法，通常包括两个步骤：术语提取和关系提取。在这项工作中，我们专注于迁移学习设置中的关系提取。为了提高泛化能力，我们提出了对大型语言模型解码机制的扩展。我们将最近为推理问题开发的思想链（CoT）解码应用于生成关系提取。在这里，我们在解码空间中生成多个分支，并根据置信度阈值选择关系。通过限制对本体术语和关系的解码，我们的目标是降低产生幻觉的风险。我们对两个广泛使用的数据集进行了广泛的实验，发现源微调和一次性提示的大型语言模型的目标本体性能有所改进。

关于人工智能的智力和最佳信任的一致推理悖论：“我不知道”的力量

分类： 人工智能, 机器学习, 优化与控制, 可能性

作者： Alexander Bastounis, Paolo Campodonico, Mihaela van der Schaar, Ben Adcock, Anders C. Hansen

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02357v1

摘要： 我们引入一致性推理悖论（CRP）。一致推理是人类智能的核心，它是处理等效但由不同句子描述的任务的能力（“告诉我时间！”和“现在是什么时间？”）。 CRP 声称，一致的推理意味着容易犯错——特别是，人工智能中类人智能必然伴随着类人的错误。具体来说，它指出存在问题，例如在基本算术中，任何总是通过一致推理来回答并努力模仿人类智能的人工智能都会无限频繁地产生幻觉（产生错误但看似合理的答案）。矛盾的是，存在一个推理不一致的人工智能（因此不能达到人类智能的水平），它在同一组问题上是正确的。 CRP 还表明，即使在概率意义上，检测这些幻觉也比解决原始问题要困难得多，并且人工智能可能会正确回答某些问题，但无法为其如何得出正确的逻辑解释提供正确的逻辑解释。回答。因此，CRP 意味着任何值得信赖的人工智能（即，永远不会错误回答的人工智能）并且始终如一地推理，必须能够说“我不知道”。此外，这只能通过隐式计算我们引入的一个新概念来完成，称为“我不知道”函数——这是现代人工智能目前所缺乏的。鉴于这些见解，CRP 还提供了对通用人工智能 (AGI) 行为的一瞥。 AGI 不能“几乎确定”，也不能总是解释自己，因此为了值得信赖，它必须能够说“我不知道”。

通过强化学习主动感知膝骨关节炎进展

分类： 机器学习, 人工智能

作者： Khanh Nguyen, Huy Hoang Nguyen, Egor Panfilov, Aleksei Tiulpin

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02349v1

摘要： 骨关节炎（OA）是最常见的肌肉骨骼疾病，无法治愈。膝关节骨关节炎（KOA）是全球导致残疾的最主要原因之一，给国际社会带来了数十亿美元的损失。多年来，KOA 进展的预测一直受到社区的高度关注，因为它可以通过更有效的临床试验推进治疗开发，并通过更有效的医疗保健利用来改善患者的治疗结果。然而，现有的预测 KOA 的方法主要是静态的，即考虑单个时间点的数据来预测未来许多年的进展，以及膝盖水平，即仅考虑单个关节的进展。由于这些和相关原因，这些方法无法提供足以节省成本和更好的患者治疗效果的预测性能水平。定期收集所有患者的大量数据可以解决这个问题，但由于人口层面的高成本而受到限制。在这项工作中，我们建议超越 OA 中的静态预测模型，并引入一种新颖的主动传感 (AS) 方法，旨在动态随访患者，目标是最大限度地提高信息数据采集的数量，同时最大限度地降低其总成本一段时间。我们的方法基于强化学习 (RL)，它利用了一种专门针对人体多个部位疾病进展的 AS 设计的新颖奖励函数。我们的方法是端到端的，依赖于多模态深度学习，并且在推理时不需要人工输入。通过详尽的实验评估，我们表明，与最先进的基线相比，使用强化学习可以提供更高的经济效益。

开发波兰语 PUGG：KBQA、MRC 和 IR 数据集构建的现代方法

分类： 人工智能, 计算和语言, 机器学习

作者： Albert Sawczyn, Katsiaryna Viarenich, Konrad Wojtasik, Aleksandra Domogała, Marcin Oleksy, Maciej Piasecki, Tomasz Kajdanowicz

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02337v1

摘要： 人工智能和自然语言处理的进步彻底改变了机器与人类的语言交互，其中问答（QA）系统发挥着关键作用。知识库问答（KBQA）任务利用结构化知识图（KG），可以处理广泛的知识密集型问题。然而，KBQA 数据集存在显着差距，尤其是对于资源匮乏的语言。这些数据集的许多现有构建流程已经过时且人力效率低下，并且没有利用大型语言模型（LLM）等现代辅助工具来减少工作量。为了解决这个问题，我们设计并实现了一种现代的半自动化方法来创建数据集，包括 KBQA、机器阅读理解 (MRC) 和信息检索 (IR) 等任务，专为低资源环境量身定制。我们执行了这个管道并引入了 PUGG 数据集、第一个波兰 KBQA 数据集以及 MRC 和 IR 的新颖数据集。此外，我们还提供全面的实施、富有洞察力的发现、详细的统计数据和基线模型的评估。

不确定性强化学习的广义高斯时间差分误差

分类： 机器学习, 人工智能, 可能性, 机器学习

作者： Seyeon Kim, Joonhun Lee, Namhoon Cho, Sungjun Han, Seungeon Baek

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02295v1

摘要： 传统的不确定性感知时间差异 (TD) 学习方法通常依赖于简单化的假设，通常包括 TD 误差的零均值高斯分布。这种过度简化可能会导致错误表示不准确和不确定性估计受到影响。在本文中，我们介绍了深度强化学习中广义高斯误差建模的新颖框架，适用于离散和连续控制设置。我们的框架通过合并高阶矩（特别是峰度）增强了误差分布建模的灵活性，从而改进了数据相关噪声（即任意不确定性）的估计和减轻。我们研究了广义高斯分布（GGD）的形状参数对任意不确定性的影响，并提供了一个封闭式表达式来证明不确定性与形状参数之间的反比关系。此外，我们提出了一种基于理论的加权方案来充分利用 GGD。为了解决认知不确定性，我们通过结合偏差减少和峰度考虑来增强批量逆方差加权，从而提高稳健性。使用策略梯度算法进行的广泛实验评估证明了我们的方法的一致功效，展示了显着的性能改进。

情境学习的旋转玻璃模型

分类： 无序系统和神经网络, 统计力学, 人工智能, 计算和语言

作者： Yuhao Li, Ruoran Bai, Haiping Huang

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02288v1

摘要： 大型语言模型显示出令人惊讶的上下文学习能力——能够使用提示形成查询预测，而无需额外训练，这与老式的监督学习形成鲜明对比。因此，提供机械解释并将经验现象与物理学联系起来具有挑战性并且仍未得到解决。我们研究了一个具有线性注意力的简单但富有表现力的变压器，并将这种结构映射到具有实值自旋的自旋玻璃模型，其中耦合和场解释了数据中的内在无序性。自旋玻璃模型解释了预训练期间权重参数如何相互作用，最重要的是为什么可以通过仅提供提示而无需训练来预测看不见的函数。我们的理论表明，对于单实例学习，通过允许玻尔兹曼分布收敛到权重参数的唯一正确解，增加任务多样性会导致上下文学习的出现。因此，预训练的 Transformer 在新颖的提示设置中显示出预测能力。因此，所提出的自旋玻璃模型为理解大型语言模型的经验成功奠定了基础。

用于平衡预测准确性和成本的硬件感知集成选择

分类： 机器学习, 人工智能

作者： Jannis Maier, Felix Möller, Lennart Purucker

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02280v1

摘要： 自动化机器学习 (AutoML) 通过自动执行从数据预处理到模型选择再到集成的任务，显着简化了机器学习模型的部署。用于表格数据的 AutoML 系统通常采用事后集成，其中组合多个模型以提高预测准确性。这通常会导致推理时间更长，这是实际部署中的主要限制。为了解决这个问题，我们引入了一种硬件感知的集成选择方法，它将推理时间集成到事后集成中。通过利用现有的集成选择框架和质量多样性优化，我们的方法可以评估集成候选的预测准确性和硬件效率。这种双重关注可以平衡考虑准确性和操作效率。因此，我们的方法使从业者能够从准确且高效的集成的帕累托前沿中进行选择。我们使用 83 个分类数据集进行的评估表明，我们的方法保持了有竞争力的准确性，并且可以显着提高集成的运行效率。这项研究的结果为将这些原则扩展到其他硬件限制奠定了基础，为开发资源效率更高的 AutoML 系统奠定了基础。

DRFormer：利用不同感受野进行长时间序列预测的多尺度变压器

分类： 机器学习, 人工智能, 机器学习, I.2.6

作者： Ruixin Ding, Yuqi Chen, Yu-Ting Lan, Wei Zhang

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02279v1

摘要： 长期时间序列预测（LTSF）已广泛应用于金融、交通预测等领域。最近，基于补丁的变压器已经成为一种有前途的方法，将数据分割成用作输入标记的子级补丁。然而，现有的方法主要依赖于预定的补丁长度，需要专业知识，并且在捕获不同尺度的不同特征方面提出了挑战。此外，时间序列数据在不同时间尺度上表现出不同的变化和波动，传统方法很难对其进行有效建模。在本文中，我们提出了一种具有动态稀疏学习算法的动态标记器，以捕获时间序列数据的不同感受野和稀疏模式。为了构建层次感受野，我们开发了一个多尺度 Transformer 模型，结合多尺度序列提取，能够捕获多分辨率特征。此外，我们引入了一种组感知旋转位置编码技术，以增强不同时间尺度的表示之间的组内和组间位置感知。我们提出的模型名为 DRFormer，在各种现实世界数据集上进行了评估，实验结果证明了其与现有方法相比的优越性。我们的代码位于：https://github.com/ruixindingECNU/DRFormer。

几何代数遇到大型语言模型：3D、交互式和可控场景中单独网格的基于指令的转换

分类： 计算机视觉和模式识别, 人工智能, 图形

作者： Dimitris Angelis, Prodromos Kolyvakis, Manos Kamarianakis, George Papagiannakis

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02275v1

摘要： 本文介绍了大型语言模型 (LLM) 与共形几何代数 (CGA) 的新颖集成，以彻底改变可控 3D 场景编辑，特别是对于对象重新定位任务，这些任务传统上需要复杂的手动过程和专业知识。这些传统方法通常依赖于大型训练数据集或缺乏用于精确编辑的形式化语言。我们的系统 Shenlong 利用 CGA 作为一种强大的形式语言，精确地模拟了精确对象重新定位所需的空间变换。利用预训练 LLM 的零样本学习能力，神龙将自然语言指令翻译为 CGA 操作，然后应用于场景，从而无需专门的预训练即可在 3D 场景中实现精确的空间变换。神龙在真实的模拟环境中实现，确保与现有图形管道的兼容性。为了准确评估 CGA 的影响，我们以稳健的欧几里德空间基线为基准，评估延迟和准确性。性能对比评估表明，与传统方法相比，神龙大语言模型的响应时间显着缩短了 16%，成功率平均提高了 9.6%。值得注意的是，神龙在常见的实际查询中实现了 100% 的完美成功率，这是其他系统无法达到的基准。这些进步凸显了神龙在实现 3D 场景编辑民主化、增强可访问性并促进教育、数字娱乐和虚拟现实等领域创新方面的潜力。

对比学习和抽象概念：自然数案例

分类： 机器学习, 人工智能

作者： Daniel N. Nissani

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02247v1

摘要： 对比学习 (CL) 已成功应用于分类和与具体概念相关的其他下游任务，例如 ImageNet 数据集中包含的对象。到目前为止，似乎还没有尝试将这种有希望的方案应用于更抽象的实体。其中一个突出的例子是（离散）数量的概念。 CL 通常可以被解释为一种由一些深刻且普遍存在的守恒原则（例如对象分类任务中的身份守恒）指导的自我监督方案。在这篇介绍性工作中，我们将适当的守恒原理应用于自然数的半抽象概念，通过该原理可以估计或预测离散量。我们通过一个玩具问题进行实验表明，对比学习可以被训练为在人类和超人类范围内都具有高精度的一目了然的计数。我们将其与经过训练的结果进行比较一目了然的监督学习（SL）神经网络方案的类似架构。我们表明，两种方案在基线实验中表现出相似的良好性能，其中训练和测试阶段的分布相等。重要的是，我们证明，在一些训练和测试分布不同的泛化场景中，CL 拥有更稳健和更好的错误性能。

评估摩托车、乘客和头盔的零样本检测、分类和关联的视觉语言模型

分类： 计算机视觉和模式识别, 人工智能

作者： Lucas Choi, Ross Greer

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02244v1

摘要： 摩托车事故会带来重大风险，特别是当骑手和乘客不戴头盔时。本研究评估了先进的视觉语言基础模型 OWLv2 在使用视频数据检测和分类摩托车乘员的各种头盔佩戴状态方面的功效。我们扩展了 CVPR AI 城市挑战赛提供的数据集，并采用级联模型方法进行检测和分类任务，集成 OWLv2 和 CNN 模型。结果凸显了零样本学习在解决不完整和有偏差的训练数据集带来的挑战方面的潜力，展示了此类模型在检测摩托车、头盔使用情况和不同条件下乘员位置方面的用途。我们实现了头盔检测的平均精度为 0.5324，并提供了详细说明检测和分类性能的精度召回曲线。尽管存在低分辨率数据和可视性差等限制，但我们的研究表明自动驾驶车辆安全和交通安全执法系统取得了有希望的进步。

一种用于法律指控预测的多源异构知识注入即时学习方法

分类： 计算和语言, 人工智能

作者： Jingyun Sun, Chi Wei, Yang Li

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02233v1

摘要： 法律指控预测是法律人工智能中的一项重要任务，旨在为案件描述分配准确的指控标签，最近引起了人们的极大兴趣。现有方法主要采用多种神经网络结构直接对案例描述进行建模，未能有效利用多源外部知识。我们提出了一种基于快速学习框架的方法，该方法同时利用来自法律知识库、会话式大语言模型和相关法律文章的多源异构外部知识。具体来说，我们通过法律知识库匹配案例描述中的知识片段，并通过硬提示模板将其封装到输入中。此外，我们通过对比学习检索与给定案例描述相关的法律文章，然后通过会话大语言模型获得案例描述中的事实元素。我们将软提示标记的嵌入向量与事实元素的编码向量融合，以实现知识增强模型前向推理。实验结果表明，我们的方法在最大的法律指控预测数据集 CAIL-2018 上取得了最先进的结果，并且我们的方法具有较低的数据依赖性。案例研究还证明了我们的方法具有很强的可解释性。

SpecRover：通过 LLM 提取代码意图

分类： 软件工程, 人工智能

作者： Haifeng Ruan, Yuntong Zhang, Abhik Roychoudhury

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02232v1

摘要： 自主程序改进通常涉及自动生成错误修复和功能添加。这种程序改进可以通过 LLM 代理形式的大语言模型 (LLM) 和程序分析功能的组合来完成。由于程序修复或程序改进通常需要预期行为的规范 - 规范推断对于生成高质量的程序补丁非常有用。在这项工作中，我们研究了 LLM 代理内迭代规范推理的高效且低成本的工作流程。给定软件项目中需要解决的 GitHub 问题，我们的目标是进行迭代代码搜索并进行规范推断，从而从项目结构和行为中推断意图。由此捕获的意图由审核者代理进行检查，目的是审核补丁并提供对已审核补丁的置信度度量。我们的方法 SpecRover (AutoCodeRover-v2) 是基于开源 LLM 代理 AutoCodeRover 构建的。在对包含 2294 个 GitHub 问题的完整 SWE-Bench 进行的评估中，它的效率比 AutoCodeRover 提高了 50% 以上。与可用的开源代理相比，我们的工作显示在 SWE-Bench lite 中解决平均 GitHub 问题的成本适中（每个问题 0.65 美元）。 SpecRover 生成的解释可以向开发人员发出更好的“信号”，表明何时可以放心地接受建议的补丁。 SpecRover 还试图证明规范推断在自动化程序修复中的持续重要性，即使程序修复技术进入了 LLM 时代。

大型语言模型擅长数据库旋钮调优吗？综合实验评估

分类： 数据库, 人工智能

作者： Yiyan Li, Haoyang Li, Zhao Pu, Jing Zhang, Xinyi Zhang, Tao Ji, Luming Sun, Cuiping Li, Hong Chen

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02213v1

摘要： 旋钮调整在优化数据库中起着至关重要的作用，通过调整旋钮来增强数据库性能。然而，传统的调优方法通常遵循“尝试-收集-调整”方法，事实证明效率低下并且特定于数据库。此外，这些方法通常是不透明的，这使得 DBA 很难掌握底层的决策过程。 GPT-4 和 Claude-3 等大型语言模型 (LLM) 的出现在复杂的自然语言任务中表现出色，但它们在数据库旋钮调优方面的潜力在很大程度上仍未得到开发。这项研究利用大语言模型作为经验丰富的 DBA，通过精心设计的提示来执行旋钮调整任务。我们确定了调优系统中的三个关键子任务：旋钮修剪、模型初始化和旋钮推荐，并提出了 LLM 驱动的解决方案来替代每个子任务的传统方法。我们进行了大量的实验，将 LLM 驱动的方法与跨子任务的传统方法进行比较，以评估 LLM 在旋钮调节领域的功效。此外，我们还探讨了基于大语言模型的解决方案在不同评估环境中的适应性，包括新的基准、数据库引擎和硬件环境。我们的研究结果表明，大语言模型不仅可以匹配或超越传统方法，而且还可以通过以连贯的“思想链”方式生成响应来表现出显着的可解释性。我们进一步观察到大语言模型通过简单的提示调整表现出显着的通用性，消除了额外培训或大量代码修改的必要性。从我们的实验结果中汲取见解，我们确定了未来研究的几个机会，旨在促进大语言模型在数据库管理领域的利用。

MARCO：用于组合优化的记忆增强强化框架

分类： 神经和进化计算, 人工智能

作者： Andoni I. Garmendia, Quentin Cappart, Josu Ceberio, Alexander Mendiburu

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02207v1

摘要： 神经组合优化 (NCO) 是一个新兴领域，采用深度学习技术作为独立求解器来解决组合优化问题。尽管具有潜力，但现有的 NCO 方法经常遭受搜索空间探索效率低下的困扰，经常导致局部最优陷入或对先前访问过的状态进行冗余探索。本文介绍了一种通用框架，称为组合优化记忆增强强化 (MARCO)，可用于通过创新的记忆模块增强 NCO 中的建设性和改进方法。 MARCO 存储在整个优化轨迹中收集的数据，并检索每个状态的上下文相关信息。这样，搜索就会受到两个相互竞争的标准的指导：根据解决方案的质量做出最佳决策，并避免重新访问已经探索过的解决方案。这种方法可以促进更有效地利用可用的优化预算。此外，由于 NCO 模型的并行特性，多个搜索线程可以同时运行，所有搜索线程共享相同的内存模块，从而实现高效的协作探索。对最大割、最大独立集和旅行商问题进行的实证评估表明，内存模块有效地增加了探索性，使模型能够发现多样化的、更高质量的解决方案。 MARCO 以较低的计算成本实现了良好的性能，为 NCO 领域确立了一个有前景的新方向。

迈向人工智能安全设计：基于基础模型的系统中运行时护栏的分类

分类： 软件工程, 人工智能

作者： Md Shamsujjoha, Qinghua Lu, Dehai Zhao, Liming Zhu

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02205v1

摘要： 基于基础模型 (FM) 的系统的快速发展和广泛部署已经彻底改变了各个领域的众多应用程序。然而，快速增长的能力和自主权也引起了人们对负责任的人工智能和人工智能安全的严重担忧。最近，人们越来越关注实施护栏以确保基于 FM 的系统的运行时行为安全且可靠。鉴于FM及其应用（例如代理）的早期阶段，护栏的设计尚未得到系统研究。设计护栏时应考虑哪些软件质量以及如何从软件架构的角度确保这些质量仍待探索。因此，在本文中，我们提出了护栏的分类法，以对护栏的特征和设计方案进行分类和比较。我们的分类分为三个主要类别：采用运行时护栏的动机、要考虑的质量属性以及可用的设计选项。该分类法为设计护栏时做出建筑设计决策提供了结构化且具体的指导，并强调了设计决策中产生的权衡。

SelfBC：用于离线强化学习的自我行为克隆

分类： 机器学习, 人工智能

作者： Shirong Liu, Chenjia Bai, Zixian Guo, Hao Zhang, Gaurav Sharma, Yang Liu

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02165v1

摘要： 离线强化学习中的策略约束方法采用额外的正则化技术来限制学习策略和离线数据集之间的差异。然而，这些方法往往会导致过于保守的策略，类似于行为策略，从而限制了它们的性能。我们研究了这种限制并将其归因于传统约束的静态性质。在本文中，我们提出了一种新颖的动态策略约束，它将学习策略限制在由先前学习策略的指数移动平均值生成的样本上。通过将这种自我约束机制集成到离线策略方法中，我们的方法促进了非保守策略的学习，同时避免了离线环境中的策略崩溃。理论结果表明，我们的方法导致参考策略几乎单调改进。 D4RL MuJoCo 域上的大量实验表明，我们提出的方法在策略约束方法中实现了最先进的性能。

用于校准顺序推荐的校准解缠学习和相关性优先重排序

分类： 信息检索, 人工智能

作者： Hyunsik Jeon, Se-eun Yoon, Julian McAuley

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02156v1

摘要： 校准推荐旨在保持推荐中类别的个性化比例，在实际场景中至关重要，因为它通过反映不同的兴趣来提高用户满意度。然而，由于需要适应用户不断变化的偏好，在顺序设置中实现校准（即校准顺序推荐）具有挑战性。以前的方法通常在训练模型后利用重排序算法来校准推荐，而不考虑校准的效果，并且不能有效解决重排序过程中相关性和校准之间的冲突。在这项工作中，我们提出了 LeapRec（校准解缠学习和相关性优先重排序），这是一种解决这些挑战的校准顺序推荐的新颖方法。 LeapRec由两个阶段组成，模型训练阶段和重新排序阶段。在训练阶段，使用我们提出的校准分离学习排名损失来训练骨干模型，这在整合校准考虑因素的同时优化了个性化排名。在重新排序阶段，相关项目优先排列在列表顶部，随后需要校准的项目，以解决相关性和校准之间的潜在冲突。通过对四个真实世界数据集的广泛实验，我们表明 LeapRec 在校准顺序推荐方面始终优于以前的方法。我们的代码可在 https://github.com/jeon185/LeapRec 获取。

ARVO：开源软件可重现漏洞图集

分类： 密码学和安全, 人工智能, 机器学习

作者： Xiang Mei, Pulkit Singh Singaria, Jordi Del Castillo, Haoran Xi, Abdelouahab, Benchikh, Tiffany Bao, Ruoyu Wang, Yan Shoshitaishvili, Adam Doupé, Hammond Pearce, Brendan Dolan-Gavitt

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02153v1

摘要： 真实世界漏洞的高质量数据集对于软件安全的下游研究非常有价值，但现有数据集通常很小，需要大量的手动更新，并且缺少此类研究所需的关键功能。在本文中，我们介绍 ARVO：开源软件中可重现漏洞图集。通过从 Google OSS-Fuzz 发现的 C/C++ 项目中寻找漏洞并实施可靠的重新编译系统，我们成功地在 250 多个项目中重现了 5,000 多个内存漏洞，每个项目都有一个触发输入，即规范的开发人员编写的用于修复的补丁漏洞，以及从源代码自动重建项目并以其易受攻击和修补的版本运行该项目的能力。此外，当 OSS-Fuzz 发现新漏洞时，我们的数据集可以自动更新，从而使其随着时间的推移而增长。我们提供了 ARVO 数据集的全面特征，表明它可以比 Google 自己的 OSV 复制工作更准确地定位修复，并通过两个案例研究证明其对未来研究的价值：首先评估现实世界中基于 LLM 的漏洞修复，其次评估真实世界中基于 LLM 的漏洞修复从被 OSS-Fuzz 错误标记的项目中识别出 300 多个错误修补（仍然活跃）的零日漏洞。

使用少样本索引的生成检索

分类： 信息检索, 人工智能, 计算和语言, 机器学习, H.3.3

作者： Arian Askari, Chuan Meng, Mohammad Aliannejadi, Zhaochun Ren, Evangelos Kanoulas, Suzan Verberne

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02152v1

摘要： 现有的生成检索（GR）方法依赖于基于训练的索引，即微调模型以记住查询与相关文档的文档标识符（docid）之间的关联。基于训练的索引存在三个局限性：训练开销高、大型语言模型 (LLM) 预训练知识的利用不足以及适应动态文档语料库的挑战。为了解决上述问题，我们提出了一种新颖的基于少样本索引的GR框架（Few-Shot GR）。它有一个新颖的小样本索引过程，我们提示大语言模型为语料库中的所有文档生成 docid，最终为整个语料库创建一个 docid 库。在检索过程中，我们向同一个 LLM 提供查询，并限制它在索引期间创建的 docid 库中生成 docid，然后将生成的 docid 映射回其相应的文档。 Few-Shot GR仅依靠提示LLM而不需要任何培训，使其更加高效。此外，我们设计了具有一对多映射的少样本索引，以进一步增强少样本GR。实验表明，Few-Shot GR 的性能优于需要大量训练的最先进的 GR 方法。

序列社会困境中的环境复杂性和纳什均衡

分类： 计算机科学与博弈论, 人工智能, 多代理系统

作者： Mustafa Yasir, Andrew Howes, Vasilios Mavroudis, Chris Hicks

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02148v1

摘要： 多智能体强化学习（MARL）方法虽然在零和或正和博弈中有效，但在一般和博弈中通常会产生次优结果，在博弈中合作对于实现全局最优结果至关重要。矩阵博弈社会困境抽象了一般和交互的关键方面，例如合作、风险和信任，无法对现实世界场景的时空动态特征进行建模。作为回应，我们的研究将矩阵游戏社交困境扩展到更复杂、更高维度的 MARL 环境中。我们采用了猎鹿困境的网格世界实现，以更紧密地匹配一次性矩阵游戏的决策空间，同时引入了可变的环境复杂性。我们的研究结果表明，随着复杂性的增加，在这些环境中训练的 MARL 智能体会收敛到次优策略，这与矩阵博弈中发现的风险主导纳什均衡策略一致。我们的工作强调了环境复杂性对在高维博弈论 MARL 环境中实现最佳结果的影响。

通过混合情绪调查分析大语言模型情绪的文化表征

分类： 计算和语言, 人工智能

作者： Shiran Dudy, Ibrahim Said Ahmad, Ryoko Kitajima, Agata Lapedriza

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02143v1

摘要： 大型语言模型 (LLM) 已在全球范围内得到广泛采用，展示了跨多种语言的高级语言能力。学术界越来越有兴趣使用这些模型来模拟和研究人类行为。然而，重要的是要承认大语言模型对特定语言的熟练程度可能无法完全概括与其文化相关的规范和价值观。由于西方和美国的培训数据占主导地位，人们开始担心对以英语为中心的文化和价值观可能存在偏见。本研究的重点是在混合情绪情境的具体情况下分析大语言模型情绪的文化表征。我们的方法基于 Miyamoto 等人的研究。 (2010)，该研究确定了日本和美国人的人类反应中独特的情绪指标。我们首先对五位不同的大语言模型进行混合情绪调查，并分析他们的结果。其次，我们尝试使用上下文变量来探索考虑语言和说话者来源的反应变化。第三，我们将调查范围扩大到其他东亚和西欧起源语言，以衡量它们与各自文化的一致性，并期望更紧密的契合。我们发现（1）模型与文献证据的一致性有限； (2) 书面语言对大语言模型回答的影响比参与者出身信息的影响更大； (3) 东亚语言的大语言模型回答比西欧语言更相似。

VidModEx：高维空间的可解释且高效的黑盒模型提取

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Somnath Sendhil Kumar, Yuvaraj Govindarajulu, Pavan Kulkarni, Manojkumar Parmar

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02140v1

摘要： 在黑盒模型提取领域，依赖软标签或代理数据集的传统方法难以扩展到高维输入空间并管理大量相互关联的类的复杂性。在这项工作中，我们提出了一种利用 SHAP（SHapley Additive exPlanations）来增强合成数据生成的新颖方法。 SHAP 量化每个输入特征对受害者模型输出的单独贡献，促进基于能量的 GAN 优化以获得所需的输出。该方法显着提升了性能，图像分类模型的准确率提高了 16.45%，并扩展到视频分类模型，在 UCF11、UCF101、Kinetics 400、Kinetics 等具有挑战性的数据集上平均提高 26.11%，最高提高 33.36% 600 和 Something-Something V2。我们进一步证明了我们的方法在各种场景下的有效性和实用性，包括 top-k 预测概率、top-k 预测标签和 top-1 标签的可用性。

基于价值的基本原理改善社交体验：多主体模拟研究

分类： 多代理系统, 人工智能, 机器学习

作者： Sz-Ting Tzeng, Nirav Ajmeri, Munindar P. Singh

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02117v1

摘要： 我们提出了 Exanna，一个框架来实现将价值观纳入决策的代理。 Exannaagent 在为其行为提供理由并评估他人提供的理由时会考虑自身和他人的价值观。通过多智能体模拟，我们证明，考虑决策中的价值观和产生理由，特别是对于偏离规范的行为，可以带来（1）更高的冲突解决能力，（2）更好的社交体验，（3）更高的隐私性，以及（4）更高的安全性。灵活性。

音像制品和声音历史的声音。知识分子使用中的创造性文档

分类： 声音, 人工智能, 多媒体, 音频和语音处理

作者： Miguel Civit, Francisco Cuadrado

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02113v1

摘要： 本研究旨在分享视听制作声音设计的教学经验，并比较学生处理的不同项目。它的目的并不是对不同类型的教学进行比较分析，而是对在不同年级学习该学科的学生的不同概况中观察到的不同问题进行分析。对于大部分学生来说，音频世界非常有趣，无论是那些有创意和技术倾向的学生。音乐创作和制作、图像同步、配音等。这些学科通常很有趣，但由于其技术复杂性，进入门槛非常高。有时，外行可能需要几周甚至几个月的时间才能开始轻松地使用音频编辑程序，这对学生来说并不总是特别直观。根据我们的经验，通过使用 PBL 方法进行学习所产生的结果比通过使用其他教学方法（例如大师班）所观察到的结果要好得多。学生在开发他们亲自参与的创意项目的同时获得技术技能。尽管上面提到了所有这些，但教师和学生之间的大多数互动都集中在技术纠正方面。从混响中的不同参数（如预延迟、衰减、调制……）到如何正确调整压缩器、噪声门等；用于处理音频的工具数量极其广泛，并且其许多功能可能会因制造商的不同而存在严重差异。

通过等级概念理解深度学习

分类： 机器学习, 人工智能, 神经和进化计算, 机器学习

作者： Noam Razin

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02111v1

摘要： 尽管深度学习在科学和工业中非常受欢迎，但对其形式的理解仍然有限。本文提出了等级概念作为发展深度学习理论的关键，重点关注泛化性和表达性的基本方面。特别是，我们确定基于梯度的训练可以诱导几种神经网络架构向低秩隐式正则化，并凭经验证明这种现象可能有助于解释自然数据（例如音频、图像和文本）的泛化。然后，我们通过等级概念来表征图神经网络对相互作用进行建模的能力，等级概念通常用于量化量子物理学中的纠缠。这些结果背后的核心工具是神经网络和张量分解之间的联系。提出了我们的理论对于设计显式正则化方案和数据预处理算法的实际意义。

KAN-RCBEVDepth：自动驾驶目标检测中的多模态融合算法

分类： 计算机视觉和模式识别, 人工智能

作者： Zhihao Lai, Chuanhao Liu, Shihui Sheng, Zhiqiang Zhang

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02088v1

摘要： 由于遮挡、不同的物体尺度和复杂的城市环境，自动驾驶中准确的 3D 物体检测至关重要，但也充满挑战。本文介绍了 RCBEV-KAN 算法，这是一种开创性的方法，旨在通过融合来自摄像机、激光雷达和毫米波雷达的多模态传感器数据来增强 3D 物体检测。我们基于鸟瞰图 (BEV) 的创新方法利用 Transformer 架构，通过无缝集成不同的数据源、改进空间关系处理和优化计算过程，显着提高检测精度和效率。实验结果表明，RCBEV-KAN 模型在大多数检测类别中表现出优异的性能，实现了更高的平均距离 AP（0.389 vs. 0.316，提高了 23%）、更好的 ND 分数（0.484 vs. 0.415，提高了 17%），以及更快的评估时间（71.28 秒，快 8%）。这些结果表明，RCBEV-KAN 更加准确、可靠和高效，非常适合动态和具有挑战性的自动驾驶环境。

释放数据海啸的力量：语言模型指令调优的数据评估和选择的综合调查

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 信号处理

作者： Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02085v2

摘要： 指令调优在使大型语言模型 (LLM) 与人类偏好保持一致方面发挥着至关重要的作用。尽管有大量的开放指令数据集，但在所有现有指令上简单地训练大语言模型可能不是最佳和实用的。为了确定最有益的数据点，自然语言处理（NLP）和深度学习领域提出了数据评估和选择方法。然而，在指令调优的背景下，对于可以采用什么样的数据评估指标以及如何将它们集成到选择机制中仍然存在知识空白。为了弥补这一差距，我们对现有的数据评估和选择文献进行了全面回顾，特别是针对大语言模型的指令调整。我们系统地将所有适用的方法分为基于质量、基于多样性和基于重要性的方法，并构建了统一、细粒度的分类法。对于每个类别，都详细阐述了代表性方法来描述相关研究的情况。此外，还根据官方报告的结果对最新方法进行了比较，以深入讨论其局限性。最后，我们总结了开放的挑战并提出了未来研究的促进途径。所有相关内容均可在https://github.com/yuleiqin/fantastic-data-engineering获取。

ParkingE2E：基于摄像头的端到端停车网络，从图像到规划

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Changze Li, Ziheng Ji, Zhe Chen, Tong Qin, Ming Yang

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02061v1

摘要： 自动泊车是智能驾驶领域的一项关键任务。传统的停车算法通常使用基于规则的方案来实现。然而，由于算法设计复杂，这些方法在复杂的停车场景中效果较差。相比之下，基于神经网络的方法往往比基于规则的方法更直观、更通用。通过收集大量的专家停车轨迹数据并通过基于学习的方法模拟人类策略，可以有效地解决停车任务。在本文中，我们采用模仿学习，通过模仿人类驾驶轨迹来执行从 RGB 图像到路径规划的端到端规划。所提出的端到端方法利用目标查询编码器来融合图像和目标特征，并利用基于变换器的解码器来自回归预测未来的路点。我们在现实场景中进行了广泛的实验，结果表明，所提出的方法在四个不同的现实世界车库中实现了 87.8% 的平均停车成功率。实车实验进一步验证了本文提出的方法的可行性和有效性。

具有高时间变化的点云中的 3D 单对象跟踪

分类： 计算机视觉和模式识别, 人工智能

作者： Qiao Wu, Kun Sun, Pei An, Mathieu Salzmann, Yanning Zhang, Jiaqi Yang

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02049v1

摘要： 点云的高时间变化是 3D 单目标跟踪 (3D SOT) 的关键挑战。现有方法依赖于点云的形状变化和相邻帧之间的对象的运动是平滑的假设，无法应对高时间变化数据。在本文中，我们提出了一种用于具有高时间变化的点云中的 3D SOT 的新颖框架，称为 HVTrack。 HVTrack 提出了三个新颖的组件来应对高时间变化场景中的挑战：1）相对姿势感知内存模块来处理时间点云形状变化； 2）基础扩展特征交叉注意力模块，用于处理扩展搜索区域中的类似对象干扰； 3）上下文点引导自注意力模块，用于抑制严重的背景噪声。我们通过在 KITTI 数据集中设置不同的帧间隔进行采样来构建具有高时间变化的数据集（KITTI-HV）。在具有 5 帧间隔的 KITTI-HV 上，我们的 HVTrack 在成功率/精度方面超过了最先进的跟踪器 CXTracker 11.3%/15.7%。

通过深度强化学习进行移动边缘生成和计算的延迟感知资源分配

分类： 系统与控制, 人工智能, 系统与控制

作者： Yinyu Wu, Xuhui Zhang, Jinke Ren, Huijun Xing, Yanyan Shen, Shuguang Cui

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02047v1

摘要： 最近，移动边缘计算（MEC）和生成人工智能（GAI）技术的融合催生了一个名为移动边缘生成和计算（MEGC）的新领域，它为移动用户提供任务计算和内容生成等异构服务。在这封信中，我们研究了 MEGC 系统中的联合通信、计算和 AIGC 资源分配问题。首先提出延迟最小化问题以提高移动用户的服务质量。由于优化变量的强耦合，我们提出了一种新的基于深度强化学习的算法来有效地解决它。数值结果表明，所提出的算法可以实现比两种基线算法更低的延迟。

Twitter/X 情感分析中多语言语言模型的微调：东欧 V4 语言的研究

分类： 计算和语言, 人工智能

作者： Tomáš Filip, Martin Pavlíček, Petr Sosík

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02044v1

摘要： 基于方面的情感分析 (ABSA) 是一种标准的 NLP 任务，具有多种方法和基准，其中大型语言模型 (LLM) 代表了当前的最先进技术。我们专注于基于代表性不足的语言的 Twitter/X 数据的 ABSA 子任务。在此类狭窄的任务中，小型调整的语言模型通常可以胜过通用的大型语言模型，提供可用且廉价的解决方案。我们对几个 LLM（BERT、BERTweet、Llama2、Llama3、Mistral）进行微调，以在持续的军事冲突背景下对俄罗斯和乌克兰的情绪进行分类。训练/测试数据集是 2023 年从 Twitter/X 的学术 API 获得的，范围缩小到 V4 国家（捷克共和国、斯洛伐克、波兰、匈牙利）的语言。然后，我们使用 GPT4 作为参考模型，衡量它们在各种设置下的表现，包括翻译、情感目标、上下文学习等。我们记录了一些有趣的现象，其中包括证明某些模型在多语言 Twitter 任务上比其他模型具有更好的微调能力，并且它们可以通过非常小的训练集达到 SOTA 水平。最后，我们确定可提供最佳结果的设置组合。

自省解码：减轻大视觉语言模型的幻觉

分类： 计算机视觉和模式识别, 人工智能

作者： Fushuo Huo, Wenchao Xu, Zhong Zhang, Haozhao Wang, Zhicheng Chen, Peilin Zhao

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02032v1

摘要： 虽然大型视觉语言模型（LVLM）近年来迅速发展，但普遍存在的“幻觉”问题已成为一个重大瓶颈，阻碍了它们在现实世界的部署。现有方法主要从两个角度缓解这个问题：一种方法利用额外的知识，例如使用精选数据集调整 LVLM 的鲁棒指令或采用辅助分析网络，这不可避免地会产生额外成本。另一种方法称为对比解码，它通过手动干扰视觉或指令原始输入来诱发幻觉，并通过对比受干扰的 LVLM 和原始 LVLM 的输出来减轻幻觉。然而，这些方法依赖于经验整体输入干扰，并使推理成本加倍。为了避免这些问题，我们提出了一种简单而有效的方法，称为自内省解码（SID）。我们的实证研究表明，预训练的 LVLM 可以根据先前的视觉和文本（指令和生成的）标记来内省地评估视觉标记的重要性。我们开发了上下文和文本感知令牌选择（CT2S）策略，该策略在 LVLM 的早期层之后仅保留不重要的视觉令牌，以在自回归解码期间自适应地放大文本通知的幻觉。这种方法确保早期层吸收的多模态知识会引起多模态上下文而不是漫无目的的幻觉。随后，原始的 token logits 减去放大的视觉和文本关联幻觉，忠实地指导 LVLM 解码。大量实验表明，SID 可以在各种指标上生成更少的幻觉和更高质量的文本，而无需额外的知识和大量额外的计算负担。

大属性图中的挖掘路径关联规则（附附录）

分类： 数据库, 人工智能

作者： Yuya Sasaki, Panagiotis Karras

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02029v1

摘要： 我们如何从具有边标签和顶点属性的图中挖掘频繁路径规律？关联规则挖掘的任务成功地发现了项目集和子结构中的规则模式。尽管如此，据我们所知，这个概念尚未扩展到大型属性图中的路径模式。在本文中，我们介绍了路径关联规则挖掘（PARM）问题。应用于大图中两个顶点之间的任何\emph{可达路径}，PARM 发现由顶点属性和边标签标识的路径模式彼此同时出现的常规方式。我们开发了一种高效且可扩展的算法 PIONEER，它利用反单调性属性来有效地修剪搜索空间。此外，我们设计了近似技术并采用并行化来实现可扩展的路径关联规则挖掘。我们使用真实世界图数据的实验研究验证了路径关联规则的重要性和我们解决方案的效率。

基于对比学习的多语言语音人脸关联链簇

分类： 声音, 人工智能, 音频和语音处理

作者： Wuyang Chen, Yanjie Sun, Kele Xu, Yong Dou

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02025v1

摘要： 人脸和声音之间的固有相关性最近已成为一个引人注目的研究领域，特别是在多语言环境中。本文介绍了我们针对多语言环境中的面部语音关联 (FAME) 2024 挑战赛的新颖解决方案，重点关注基于对比学习的链聚类方法来增强面部语音关联。这项任务涉及在听觉和视觉模态线索之间建立生物识别关系的挑战，并对不同语言之间的韵律相互依赖关系进行建模，同时解决数据中存在的内在和外在变异性。为了应对这些重要的挑战，我们的方法采用监督交叉对比（SCC）学习来在多语言场景中的声音和面孔之间建立强大的关联。在此之后，我们专门设计了一个基于链簇的后处理步骤，以减轻在不受约束的野生数据中经常发现的异常值的影响。我们进行了大量的实验来研究语言对面部声音关联的影响。总体成绩在FAME公共评估平台上进行评估，我们取得了第二名的成绩。结果证明了我们的方法的优越性能，并且我们验证了我们提出的方法的稳健性和有效性。代码可在 https://github.com/colaudiolab/FAME24_solution 获取。

通过深度强化学习实现基于场景的热管理参数化

分类： 机器学习, 人工智能, 计算工程、金融和科学, 系统与控制, 系统与控制

作者： Thomas Rudolf, Philip Muhl, Sören Hohmann, Lutz Eckstein

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02022v1

摘要： 纯电动汽车的热系统需要先进的控制。其热管理需要在不同的操作条件下有效控制有源组件。虽然需要鲁棒的控制函数参数化，但当前的方法显示出明显的缺陷。它们消耗大量的时间、人力和大量的实际测试。因此，需要能够自主参数化嵌入式控制器的创新智能解决方案。针对这个问题，我们的论文介绍了一种基于学习的调优方法。我们提出了一种受益于自动场景生成的方法，可以提高车辆使用场景的稳健性。我们的深度强化学习代理处理调整任务上下文，并结合嵌入参数集的基于图像的解释。我们展示了它对阀门控制器参数化任务的适用性，并在实际车辆测试中验证了它。结果突出了基线方法的竞争性能。这种新颖的方法有助于热管理功能向虚拟开发的转变，在汽车行业大规模参数调整方面具有广阔的前景。

阿尔茨海默病的个性化多视野 MRI 轨迹预测

分类： 计算机视觉和模式识别, 人工智能

作者： Rosemary He, Gabriella Ang, Daniel Tward

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02018v1

摘要： 通过磁共振成像 (MRI) 测量的神经变性被认为是诊断阿尔茨海默病 (AD) 的潜在生物标志物，但通常被认为不如基于淀粉样蛋白或 tau 的生物标志物特异性。由于不同个体之间的大脑解剖结构存在很大差异，我们假设利用 MRI 时间序列可以通过将每个患者视为自己的基线来帮助提高特异性。在这里，我们求助于条件变分自动编码器，根据受试者的年龄、疾病状态和之前的一次扫描来生成个性化的 MRI 预测。使用来自阿尔茨海默病神经成像计划的串行成像数据，我们训练了一种新颖的架构来构建潜在空间分布，可以从中采样以生成未来解剖结构变化的预测。这使我们能够在数据集之外进行推断并预测长达 10 年的 MRI。我们在 ADNI 提供的数据集和独立数据集（来自成像研究的开放获取系列）上评估了该模型。通过与几种替代方案进行比较，我们表明我们的模型可以生成更高分辨率的个性化图像。此外，如果一个人已经进行了 MRI 随访，我们将演示如何使用我们的模型来计算疾病状态的似然比分类器。在实践中，该模型可能能够帮助 AD 的早期诊断，并为治疗效果估计提供反事实的基线轨迹。此外，它生成一个合成数据集，可用于异常检测和分类等下游任务。

音乐情感和广义声音的联合学习

分类： 声音, 人工智能, 音频和语音处理

作者： Simonetta Federico, Certo Francesca, Ntalampiras Stavros

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02009v1

摘要： 在这项研究中，我们的目的是确定广义的声音和音乐是否可以共享一个共同的情感空间，从而改善对情绪唤醒和效价的预测。我们建议使用多个数据集作为多领域学习技术。我们的方法涉及创建一个公共空间，其中包含概括声音和音乐的特征，因为它们可以以类似的方式唤起情感。为了实现这一目标，我们遵循标准化实验协议，利用了两个公开可用的数据集，即 IADS-E 和 PMEmo。我们采用了多种功能来捕获音频结构的不同方面，包括频谱、能量和发声的关键参数。随后，我们利用异构模型架构在公共特征空间上进行联合学习。有趣的是，这种协同方案在声音和音乐情感预测方面都优于最先进的技术。支持完全复制所提出的实验管道的代码可在 https://github.com/LIMUNIMI/MusicSoundEmotions 上找到。

强化学习在网络事件响应期间进行高效且有效的恶意软件调查

分类： 密码学和安全, 人工智能, 新兴技术

作者： Dipo Dunsin, Mohamed Chahine Ghanem, Karim Ouazzane, Vassil Vassilev

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01999v1

摘要： 这项研究的重点是使用强化学习 RL 增强事件后恶意软件取证调查。我们提出了先进的 MDP 事件后恶意软件取证调查模型和框架，以加快事件后取证。然后，我们在提议的框架内实施基于结构化 MDP 的 RL 恶意软件调查模型。为了识别恶意软件伪品，强化学习代理获取并检查取证证据文件，使用 Q 表和时间差异学习迭代改进其功能。 Q学习算法显着提高了代理识别恶意软件的能力。 epsilon 贪婪探索策略和 Q 学习更新实现了高效的学习和决策。我们的实验测试表明，最佳学习速率取决于 MDP 环境的复杂性，较简单的环境受益于较高的速率以实现更快的收敛，而复杂的环境则需要较低的速率以实现稳定性。与人类专家相比，我们的模型在识别和分类恶意软件方面的性能减少了恶意软件分析时间，展现了鲁棒性和适应性。该研究强调了超参数调整的重要性，并提出了针对复杂环境的自适应策略。我们基于强化学习的方法产生了有希望的结果，并被验证为传统方法的替代方案，特别是通过提供对新的和不断发展的恶意软件威胁的持续学习和适应，最终增强了事件后取证调查。

MetaWearS：只需几次镜头即可实现可穿戴系统生命周期的捷径

分类： 机器学习, 人工智能, 硬件架构

作者： Alireza Amirshahi, Maedeh H. Toosi, Siamak Mohammadi, Stefano Albini, Pasquale Davide Schiavone, Giovanni Ansaloni, Amir Aminifar, David Atienza

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01988v1

摘要： 可穿戴系统提供持续的健康监测，可以及早发现潜在的健康问题。然而，可穿戴系统的生命周期面临着一些挑战。首先，新型可穿戴设备的有效模型训练需要可穿戴设备直接收集的来自各个受试者的大量标记数据。其次，后续的模型更新需要进一步广泛的标记数据进行再训练。最后，可穿戴设备上频繁的模型更新会降低长期数据监测的电池寿命。为了解决这些挑战，在本文中，我们提出了 MetaWearS，这是一种元学习方法，可以减少所需的初始数据收集量。此外，我们的方法采用了原型更新机制，通过修改类原型而不是重新训练整个模型来简化更新过程。我们在两个案例研究中探讨了 MetaWearS 的性能，即癫痫发作的检测和心房颤动的检测。我们表明，通过仅使用几个样本进行微调，我们在癫痫发作检测和心房颤动检测方面分别实现了 70% 和 82% AUC。与传统方法相比，我们提出的方法表现更好，AUC 高达 45%。此外，仅使用 16 分钟的额外标记数据更新模型即可将 AUC 提高高达 5.3%。最后，MetaWearS 将癫痫发作和 AF 检测的模型更新能耗分别降低了 456 倍和 418 倍。

DeMansia：曼巴永远不会忘记任何代币

分类： 计算机视觉和模式识别, 人工智能

作者： Ricky Fang

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01986v1

摘要： 本文研究了变压器架构的数学基础，强调了它们的局限性，特别是在处理长序列方面。我们探索 Mamba、Vision Mamba (ViM) 和 LV-ViT 等先决模型，为我们提出的架构 DeMansia 铺平道路。 DeMansia 将状态空间模型与标记标记技术相结合，以增强图像分类任务的性能，有效解决传统 Transformer 带来的计算挑战。架构、基准以及与当代模型的比较证明了 DeMansia 的有效性。本文的实现可在 GitHub 上获取：https://github.com/catalpaaa/DeMansia

SR-CIS：内存与推理解耦的自反射增量系统

分类： 人工智能, 计算机视觉和模式识别

作者： Biqing Qi, Junqi Gao, Xinquan Chen, Dong Li, Weinan Zhang, Bowen Zhou

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01970v1

摘要： 人类快速学习新知识同时保留旧记忆的能力对当前的深度学习模型提出了重大挑战。为了应对这一挑战，我们从人类记忆和学习机制中汲取灵感，提出了自我反思补充增量系统（SR-CIS）。 SR-CIS 由解构的补充推理模块 (CIM) 和补充内存模块 (CMM) 组成，在 CIM 中具有用于快速推理的小型模型和用于慢速审议的大型模型，由置信感知在线异常检测 (CA-OAD) 启用）高效协作的机制。 CMM 由特定于任务的短期记忆 (STM) 区域和通用长期记忆 (LTM) 区域组成。通过设置特定于任务的低秩自适应（LoRA）和相应的原型权重和偏差，它实例化参数和表示存储器的外部存储，从而从推理模块解构存储器模块。通过在训练期间存储图像的文本描述，并将其与训练后的场景回放模块（SRM）相结合以进行内存组合，以及定期的短期到长期内存重组，SR-CIS 在有限的存储需求下实现了稳定的增量内存。在有限存储和低数据资源的限制下平衡模型可塑性和内存稳定性，SR-CIS 在多个标准和小样本增量学习基准上超越了现有的竞争基线。

ML-EAT：可解释和透明社会科学的多级嵌入关联测试

分类： 计算和语言, 人工智能, 计算机与社会

作者： Robert Wolfe, Alexis Hiniker, Bill Howe

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01966v1

摘要： 这项研究引入了多级嵌入关联测试（ML-EAT），这是一种旨在可解释和透明地测量语言技术中内在偏差的方法。 ML-EAT 通过在三个粒度递增的级别上量化偏差，解决了解释传统 EAT 测量中的模糊性和困难问题：两个目标概念与两个属性概念之间的差异关联；具有两个属性概念的每个目标概念的个体效应大小；以及每个个体目标概念和每个个体属性概念之间的关联。本研究使用 ML-EAT 定义了 EAT 模式的分类法，描述了嵌入关联测试的九种可能结果，每个结果都与一个独特的 EAT-Map 相关联，这是一种用于解释 ML-EAT 的新颖的四象限可视化。对静态和历时词嵌入、GPT-2 语言模型以及 CLIP 语言和图像模型的实证分析表明，EAT 模式添加了有关构成 EAT 的组件偏差的其他不可观察的信息；揭示零样本模型中提示的效果；并且还可以识别余弦相似度是无效指标、导致 EAT 不可靠的情况。我们的工作提供了一种使偏见更容易观察和解释的方法，提高了对人类思想和社会的计算调查的透明度。

针对异构图节点分类的 Top K 增强强化学习攻击

分类： 机器学习, 人工智能

作者： Honglin Gao, Gaoxi Xiao

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01964v1

摘要： 图神经网络（GNN）因其在基于图的数据上的出色性能而引起了人们的极大兴趣。然而，它们的鲁棒性，特别是在异构图上的鲁棒性，仍然未被充分探索，特别是针对对抗性攻击。本文提出了HeteroKRLAttack，一种针对异构图的定向规避黑盒攻击方法。通过将强化学习与 Top-K 算法相结合来减少动作空间，我们的方法可以有效地识别有效的攻击策略来破坏节点分类任务。我们通过对多个异构图数据集的实验验证了 HeteroKRLAttack 的有效性，结果表明与基线方法相比，分类精度显着降低。消融研究强调了 Top-K 算法在增强攻击性能方面的关键作用。我们的研究结果强调了当前模型中的潜在漏洞，并为未来针对异构图的对抗性攻击的防御策略提供了指导。

开放生成模型在以人为中心的数据科学工作中的含义：事实核查组织的案例研究

分类： 人机交互, 人工智能, 计算和语言, 计算机与社会, 新兴技术

作者： Robert Wolfe, Tanushree Mitra

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01962v1

摘要： 在学术研究中使用开放生成语言模型的呼声凸显了科学研究中对可重复性和透明度的需求。然而，生成式人工智能的影响远远超出了学术界，因为企业和公共利益组织已经开始将这些模型整合到他们的数据科学管道中。我们将这一视角扩展到包括开放模型对组织的影响，特别关注事实核查组织，这些组织使用人工智能来观察和分析大量传播的错误信息，但还必须确保其工作的可重复性和公正性。我们想了解事实核查组织在其数据科学管道中何处使用开放模型；是什么促使他们使用开放模型或专有模型；以及他们对开放或专有模型的使用如何为生成人工智能的社会影响的研究提供信息。为了回答这些问题，我们对六大洲 20 个事实核查组织的 N=24 名专业人士进行了访谈研究。根据这些采访，我们提供了一个由五个组成部分的概念模型，说明事实核查组织在其中使用生成式人工智能来支持或自动化其数据科学管道的部分内容，包括数据摄取、数据分析、数据检索、数据交付和数据共享。然后，我们提供了事实核查组织使用开放模型的动机以及阻止他们进一步采用开放模型的限制的分类，发现他们更喜欢组织自治、数据隐私和所有权、应用程序专用性和能力透明度的开放模型。然而，由于在性能、可用性和安全性方面的明显优势，以及与参与新兴生成式人工智能生态系统相关的机会成本，他们仍然使用专有模型。我们的工作为数据驱动组织中的开放模型提供了新颖的视角。

人工智能中青少年的代表性偏差：一项双语、双文化研究

分类： 计算机与社会, 人工智能, 计算和语言, 人机交互, 机器学习

作者： Robert Wolfe, Aayushi Dangol, Bill Howe, Alexis Hiniker

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01961v1

摘要： 大众媒体和新闻媒体经常以耸人听闻的方式将青少年描绘成既对社会构成风险又面临社会风险的人。随着人工智能开始吸收传统媒体的一些认知功能，我们研究了两个国家的青少年如何使用两种语言：1）人工智能如何描绘，2）他们更喜欢如何被描绘。具体来说，我们研究了青少年通过静态词嵌入（SWE）和生成语言模型（GLM）学到的偏见，并将其与生活在美国和尼泊尔的青少年的观点进行比较。我们发现英语 SWE 将青少年与社会问题联系在一起，在预训练的 GloVe SWE 中与青少年最相关的 1,000 个单词中，超过 50% 反映了此类问题。鉴于有关青少年的提示，GPT2-XL 的 30% 和 LLaMA-2-7B GLM 的 29% 的输出讨论了社会问题，最常见的是暴力，但也包括吸毒、精神疾病和性禁忌。尼泊尔模式虽然不能摆脱这种联想，但较少受到社会问题的影响。来自 13 名美国青少年和 18 名尼泊尔青少年的研讨会数据表明，人工智能演示与青少年生活脱节，而青少年生活围绕着学校和友谊等活动。参与者对 20 个特征词描述青少年的程度的评分与 SWE 协会不相关，皮尔逊的 r=.02，n.s.英文 FastText 和 r=.06，n.s.在手套中；且 r=.06，n.s.在尼泊尔语 FastText 中，r=-.23，n.s.在手套中。美国参与者认为人工智能可以通过强调多样性来公平地呈现青少年，而尼泊尔参与者则以积极性为中心。参与者乐观地认为，如果人工智能从青少年而不是媒体来源学习，它可以帮助减轻刻板印象。我们的工作让我们了解了 SWE 和 GLM 歪曲发展弱势群体的方式，并为不那么耸人听闻的描述提供了一个模板。

AnomalySD：具有稳定扩散模型的少样本多类异常检测

分类： 计算机视觉和模式识别, 人工智能

作者： Zhenyu Yan, Qingqing Fang, Wenxi Lv, Qinliang Su

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01960v1

摘要： 异常检测是工业制造中的一项关键任务，旨在识别产品的缺陷部分。大多数工业异常检测方法都假设有足够的正常数据用于训练。由于标签或数据隐私政策的成本，这一假设可能不成立。此外，主流方法需要针对不同对象训练定制模型，这会导致高昂的成本并且在实践中缺乏灵活性。为了解决这些问题，我们寻求稳定扩散（SD）模型的帮助，因为它具有零/少镜头修复的能力，可以利用它来正常修复异常区域。本文提出了一种采用稳定扩散模型的少样本多类异常检测框架，命名为AnomalySD。为了使SD适应异常检测任务，我们设计了不同的层次文本描述和前景掩码机制来微调SD。在推理阶段，为了准确地掩盖异常区域以进行修复，我们提出了多尺度掩模策略和原型引导掩模策略来处理不同的异常区域。分层文本提示也用于指导推理阶段的修复过程。异常分数是根据所有掩模的修复结果估计的。 MVTec-AD 和 VisA 数据集上的大量实验证明了我们方法的优越性。我们在多类和一次性设置下，在 MVTec-AD 数据集上实现了 93.6%/94.8% AUROC，在 VisA 数据集上实现了 86.1%/96.5% AUROC 的异常分类和分割结果。

数据集规模和社会一致性调节视觉语言人工智能中的面部印象偏差

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 计算机与社会, 机器学习

作者： Robert Wolfe, Aayushi Dangol, Alexis Hiniker, Bill Howe

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01959v1

摘要： 能够关联图像和文本的多模态人工智能模型为许多领域带来了希望，从自动图像字幕到盲人和低视力用户的辅助应用程序。然而，在某些情况下，偏见的不确定性限制了它们的采用和可用性。在目前的工作中，我们研究了 43 个 CLIP 视觉语言模型，以确定它们是否学习了类似人类的面部印象偏差，并且我们发现了证据表明这种偏差反映在三个不同的 CLIP 模型系列中。我们首次表明，整个社会共享偏见的程度可以预测它在 CLIP 模型中反映的程度。对视觉上不可观察的属性（如可信度和性行为）的类似人类的印象，只出现在最大数据集训练的模型中，这表明更好地适应未经整理的文化数据会导致日益微妙的社会偏见的再现。此外，我们使用层次聚类方法来表明数据集大小可以预测面部印象偏差的基本结构与人类面部印象偏差的底层结构的相似程度。最后，我们表明使用 CLIP 作为文本编码器的稳定扩散模型可以学习面部印象偏差，并且这些偏差与稳定扩散 XL-Turbo 中的种族偏差相交叉。虽然预训练的 CLIP 模型可能对偏差的科学研究有用，但当它们打算在零样本设置中用作通用模型时，它们也需要大量的数据集管理。

强化学习中对象级泛化的视觉基础

分类： 人工智能, 计算机视觉和模式识别

作者： Haobin Jiang, Zongqing Lu

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01942v1

摘要： 泛化对于遵循自然语言指令的智能体来说是一个关键挑战。为了实现这一目标，我们利用视觉语言模型（VLM）进行视觉基础，并将其视觉语言知识转移到强化学习（RL）中以执行以对象为中心的任务，这使得代理能够对未见过的对象进行零样本泛化和说明。通过视觉基础，我们获得指令中指示的目标对象的基于对象的置信度图。基于这张图，我们介绍了将 VLM 知识转移到 RL 的两种途径。首先，我们提出了一种从置信图导出的基于对象的内在奖励函数，以更有效地引导代理走向目标对象。其次，与语言嵌入相比，置信度图为代理策略提供了更统一、更易于访问的任务表示。这使得代理能够通过可理解的视觉置信度图来处理看不见的对象和指令，从而促进零样本对象级泛化。单任务实验证明，我们的内在奖励显着提高了具有挑战性的技能学习的表现。在多任务实验中，通过对训练集之外的任务进行测试，我们表明，当提供置信图作为任务表示时，代理具有比基于语言的调节更好的泛化能力。代码可在 https://github.com/PKU-RL/COPL 获取。

定义和评估应用于自然语言推理的语言模型中的决策和复合风险

分类： 计算和语言, 人工智能

作者： Ke Shen, Mayank Kejriwal

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01935v1

摘要： 尽管 ChatGPT 等大型语言模型 (LLM) 的性能令人印象深刻，但众所周知，它们会带来重大风险。其中一组风险源于模型在推论中的错误信心，无论是过度自信还是信心不足。虽然前者得到了充分研究，但后者却没有得到充分研究，导致基于错误置信度对模型综合风险的理解不对称。在本文中，我们通过定义两种类型的风险（决策风险和复合风险）来解决这种不对称性，并提出一个由两级推理架构和适当的指标组成的实验框架，用于衡量判别性和生成性大语言模型中的此类风险。第一级依赖于决定底层语言模型是否应该放弃推理的决策规则。第二级（如果模型没有弃权则适用）是模型的推理。使用基于开源集成的 RoBERTa 模型和 ChatGPT 对四个自然语言常识推理数据集进行的详细实验证明了该评估框架的实用性。例如，我们的结果表明，我们的框架可以让大语言模型自信地响应其他方法可能会错误分类为高风险的额外 20.1% 的低风险推理任务，并跳过 19.8% 的高风险任务，这将导致被错误地回答了。

DiReCT：通过大型语言模型对临床记录进行诊断推理

分类： 计算和语言, 人工智能

作者： Bowen Wang, Jiuyang Chang, Yiming Qian, Guoxin Chen, Junhao Chen, Zhouqiang Jiang, Jiahao Zhang, Yuta Nakashima, Hajime Nagahara

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01933v2

摘要： 大型语言模型 (LLM) 最近展示了卓越的功能，涵盖广泛的任务和应用程序，包括医学领域的任务和应用程序。像 GPT-4 这样的模型在医学问题回答方面表现出色，但在实际临床环境中处理复杂任务时可能会面临缺乏可解释性的挑战。因此，我们引入了临床记录诊断推理数据集（DiReCT），旨在评估大语言模型与人类医生相比的推理能力和可解释性。它包含 511 份临床笔记，每份都由医生精心注释，详细介绍了从临床笔记中的观察到最终诊断的诊断推理过程。此外，还提供了诊断知识图，以提供推理所需的基本知识，这些知识可能无法包含在现有大语言模型的培训数据中。对 DiReCT 上领先大语言模型的评估显示，他们的推理能力与人类医生之间存在显着差距，凸显了对能够在现实临床场景中有效推理的模型的迫切需求。

用于电子商务中查询分类的半监督多通道图卷积网络

分类： 计算和语言, 人工智能, 信息检索

作者： Chunyuan Yuan, Ming Pang, Zheng Fang, Xue Jiang, Changping Peng, Zhangang Lin

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01928v1

摘要： 查询意图分类是客户在电商应用中快速找到所需商品的必备模块。大多数现有的查询意图分类方法依赖于用户的点击行为作为监督信号来构造训练样本。然而，这些完全基于后验标签的方法可能会因为点击样本中的马太效应而导致严重的类别不平衡问题。与热门品类相比，长尾品类下的产品很难获得流量和用户点击，这使得模型无法检测用户对长尾品类下的产品的意图。这反过来又加剧了长尾品类无法获得流量的问题，形成恶性循环。此外，由于用户点击的随机性，后验标签对于具有相似语义的查询来说是不稳定的，这使得模型对输入非常敏感，导致类别的召回不稳定且不完全。在本文中，我们提出了一种新颖的半监督多通道图卷积网络（SMGCN），从标签关联和半监督学习的角度解决上述问题。 SMGCN 利用查询和类别之间的相似度得分来扩展类别信息并增强后验标签。此外，它利用类别的共现和语义相似图来加强标签之间的关系，削弱后验标签不稳定的影响。我们进行了大量的离线和在线A/B实验，实验结果表明SMGCN显着优于强基线，这表明了其有效性和实用性。

MAO：具有多代理编排的流程模型生成框架

分类： 人工智能, 软件工程

作者： Leilei Lin, Yumeng Jin, Yingming Zhou, Wenlong Chen, Chen Qian

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01916v1

摘要： 过程模型在软件工程中经常使用来描述业务需求、指导软件测试和控制系统改进。然而，传统的流程建模方法往往需要众多专家的参与，成本高昂且耗时。因此，探索更高效、更具成本效益的自动化建模方法已成为当前研究的焦点。本文探讨了一种使用多代理编排（MAO）自动生成流程模型的框架，旨在提高流程建模的效率，并为领域专家提供有价值的见解。我们的框架 MAO 利用大型语言模型作为多智能体的基石，采用创新的提示策略来确保多智能体之间的高效协作。具体来说，1）一代。 MAO的第一阶段是根据文本描述生成稍微粗糙的流程模型； 2）细化。代理人通过多轮对话不断完善初始流程模型； 3）审查。大型语言模型在多轮对话中容易出现幻觉现象，因此智能体需要审查和修复过程模型中的语义幻觉； 4）测试。过程模型的表示是多种多样的。因此，代理利用外部工具来测试生成的流程模型是否包含格式错误，即格式幻觉，然后调整流程模型以符合输出范例。实验表明，我们的框架生成的流程模型优于现有方法，并且在四个不同数据集上分别超过手动建模 89%、61%、52% 和 75%。

人工智能披露 (AID) 框架：简介

分类： 数字图书馆, 人工智能

作者： Kari D. Weaver

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01904v1

摘要： 随着生成式人工智能工具在高等教育和研究中的使用不断增加，人们越来越多地要求这些工具的使用和使用归因的透明度和粒度。到目前为止，这一需求是通过建议包含注释来满足的，而对于注释本身应包含的内容几乎没有任何指导。这已被认为是在学术和研究环境中使用人工智能的一个问题。本文介绍了人工智能披露 (AID) 框架，这是一个标准、全面且详细的框架，旨在为教育和研究领域的 GenAI 披露的开发和撰写提供信息。

Re-ENACT：使用演员-评论家策略生成情感语音的强化学习

分类： 音频和语音处理, 人工智能, 机器学习

作者： Ravi Shankar, Archana Venkataraman

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01892v1

摘要： 在本文中，我们提出了第一种使用演员-评论家强化学习策略来修改给定语音信号的韵律特征的方法。我们的方法使用贝叶斯框架来识别连续的重要片段，将给定话语的片段与人类情绪的感知联系起来。我们训练一个神经网络来产生伯努利随机变量集合的变分后验；我们的模型应用马尔可夫先验来确保连续性。该分布中的样本用于下游情绪预测。此外，我们训练神经网络来预测作为目标变量的情感类别的软分配。在下一步中，我们修改掩蔽片段的韵律特征（音调、强度和节奏）以增加目标情感的得分。我们采用演员评论家强化学习，通过离散修改空间来训练韵律修改器。此外，它通过用于节奏操纵的 WSOLA 操作为梯度计算问题提供了简单的解决方案。我们的实验表明，该框架改变了目标对给定语音的感知情绪。此外，我们表明，我们的统一技术与需要成对训练的监督和无监督领域的最先进的情感转换模型相当。

在图上明智地行走：通过高效引导探索使用双智能体进行知识图推理

分类： 人工智能, 机器学习

作者： Zijian Wang, Bin Wang, Haifeng Jing, Huayu Li, Hongbo Dou

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01880v1

摘要： 近年来，多跳推理因其有效性和可解释性而在知识图（KG）推理中得到了广泛的研究。然而，以前的多跳推理方法存在两个主要缺点。首先，由于奖励稀少，代理很难在早期阶段学习有效且稳健的策略。其次，这些方法通常在特定数据集上表现不佳，例如稀疏知识图，其中代理需要遍历冗长的推理路径。为了解决这些问题，我们提出了一种基于分层强化学习（HRL）的双代理多跳推理模型，称为FULORA。 FULORA 通过双智能体之间的高效指导探索来解决上述推理挑战。高级智能体在简化的知识图上行走，为低级智能体在原始知识图上行走提供阶段性提示。在此框架中，低级智能体优化了平衡两个目标的价值函数：（1）最大化回报，（2）整合来自高级智能体的有效指导。在三个真实知识图谱数据集上进行的实验表明，FULORA 的性能优于基于 RL 的基线，尤其是在长距离推理的情况下。

使用分布数据作为正例的安全半监督对比学习

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Min Gu Kwak, Hyungu Kahng, Seoung Bum Kim

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01872v1

摘要： 当只有少数标签可用时，半监督学习方法在解决许多实际问题方面显示出了有希望的结果。现有方法假设标记数据和未标记数据的类分布相等；然而，在类分布不匹配场景中，未标记数据中存在分布外（OOD）数据，它们的性能会显着下降。之前的安全半监督学习研究已经通过使 OOD 数据不太可能影响基于标记数据的训练来解决这个问题。然而，即使研究有效地过滤掉了不必要的 OOD 数据，它们也可能会丢失所有数据共享的基本信息，无论类别如何。为此，我们建议应用自监督对比学习方法来充分利用大量未标记数据。我们还提出了一种带有系数表的对比损失函数，以将同一类的标记负例聚合为正例作为锚点。为了评估所提出方法的性能，我们在图像分类数据集 - CIFAR-10、CIFAR-100、Tiny ImageNet 和 CIFAR-100+Tiny ImageNet - 不同失配率下进行了实验。结果表明，自监督对比学习显着提高了分类准确性。此外，聚合分布内的示例可以产生更好的表示，从而进一步提高分类准确性。

MALADE：编排由 LLM 驱动的代理，并具有检索增强生成功能以实现药物警戒

分类： 计算和语言, 人工智能, 信息检索, 机器学习, 多代理系统, 定量方法

作者： Jihye Choi, Nils Palumbo, Prasad Chalasani, Matthew M. Engelhard, Somesh Jha, Anivarya Kumar, David Page

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01869v1

摘要： 在大型语言模型 (LLM) 时代，鉴于其卓越的文本理解和生成能力，有一个前所未有的机会来开发基于 LLM 的新方法，以进行值得信赖的医学知识合成、提取和总结。本文重点关注药物警戒（PhV）问题，其重要性和挑战在于从不同的文本来源（例如医学文献、临床记录和药物标签）中识别药物不良事件（ADE）。不幸的是，这项任务受到多种因素的阻碍，包括药物和结果术语的差异，以及 ADE 描述经常被埋藏在大量叙述文本中。我们推出了 MALADE，这是第一个由大语言模型提供支持的有效协作多智能体系统，具有检索增强生成功能，用于从药物标签数据中提取 ADE。该技术涉及使用从文本资源中提取的相关信息来增强对 LLM 的查询，并指示 LLM 撰写与增强数据一致的响应。 MALADE 是一个与 LLM 无关的通用架构，其独特的功能是：（1）利用各种外部资源，例如医学文献、药物标签和 FDA 工具（例如 OpenFDA 药物信息 API），（2）提取药物- 以结构化格式的结果关联以及关联的强度，以及 (3) 为已建立的关联提供解释。 MALADE 使用 GPT-4 Turbo 或 GPT-4o 以及 FDA 药物标签数据进行实例化，根据 ADE 的 OMOP Ground Truth 表证明了其 ROC 曲线下面积为 0.90 的功效。我们的实现利用了 Langroid 多代理 LLM 框架，可以在 https://github.com/jihyechoi77/malade 找到。

ST-SACLF：用于偏见感知绘画分类的风格迁移通知自注意力分类器

分类： 计算机视觉和模式识别, 人工智能

作者： Mridula Vijendran, Frederick W. B. Li, Jingjing Deng, Hubert P. H. Shum

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01827v1

摘要： 绘画分类在数字和经典艺术画廊的组织、查找和推荐艺术品方面发挥着至关重要的作用。现有的方法在训练过程中很难将现实世界的知识适应艺术图像，导致在处理不同数据集时表现不佳。我们的创新在于通过两步过程来应对这些挑战。首先，我们使用带有自适应实例归一化的风格传输 (AdaIN) 生成更多数据，从而弥合不同风格之间的差距。然后，我们的分类器通过特征图自适应空间注意模块获得提升，提高其对艺术细节的理解。此外，我们通过动态调整增强样本来解决类表示不平衡的问题。通过涉及仔细的超参数搜索和模型微调的双阶段过程，我们使用 ResNet-50 主干网络在 40 个训练周期中实现了令人印象深刻的 87.24% 准确率。我们的研究探索了比较不同预训练主干的定量分析，通过消融研究研究模型优化，并检查不同的增强水平如何影响模型性能。作为补充，我们的定性实验为模型使用空间注意力的决策过程及其基于置信度排名区分简单样本和挑战性样本的能力提供了宝贵的见解。

ALIF：使用语言特征对黑盒语音平台进行低成本对抗性音频攻击

分类： 密码学和安全, 人工智能, 声音, 音频和语音处理

作者： Peng Cheng, Yuwei Wang, Peng Huang, Zhongjie Ba, Xiaodong Lin, Feng Lin, Li Lu, Kui Ren

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01808v1

摘要： 广泛的研究表明，对抗性例子（AE）对语音控制的智能设备构成了重大威胁。最近的研究提出了黑盒对抗性攻击，只需要自动语音识别（ASR）系统的最终转录。然而，这些攻击通常涉及对 ASR 的许多查询，从而导致巨大的成本。此外，基于 AE 的对抗性音频样本容易受到 ASR 更新的影响。在本文中，我们确定了这些限制的根本原因，即无法直接围绕深度学习 (DL) 模型的决策边界构建 AE 攻击样本。基于这一观察，我们提出了 ALIF，第一个基于黑盒对抗性语言特征的攻击管道。我们利用文本转语音 (TTS) 和 ASR 模型的交互过程在决策边界所在的语言嵌入空间中生成扰动。基于 ALIF 管道，我们提出了 ALIF-OTL 和 ALIF-OTA 方案，用于在数字域和物理播放环境中对四种商业 ASR 和语音助手发起攻击。广泛的评估表明，ALIF-OTL 和 -OTA 的查询效率分别显着提高了 97.7% 和 73.3%，同时与现有方法相比，实现了具有竞争力的性能。值得注意的是，ALIF-OTL 只需一个查询即可生成攻击样本。此外，我们的时间测试实验验证了我们的方法针对 ASR 更新的稳健性。

智能制造云服务构成回顾

分类： 人工智能

作者： Cuixia Li, Liqiang Liu, Li Shi

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01795v1

摘要： 智能制造是利用物联网、大数据、人工智能等先进技术，提高制造业生产效率和质量的新模式。作为推动制造业转型升级的重要支撑，云服务优化受到了研究者的关注。近年来，该领域取得了令人瞩目的研究成果。为了智能制造平台的可持续性，本文总结了智能制造云服务优化的流程。进一步，针对现有研究中优化指标分散、定义不统一/不规范的问题，从智能制造平台可持续发展的迫切需求出发，定义了11个考虑三方参与主体的优化指标。接下来，服务优化算法分为启发式和强化学习两类。通过对这两类的比较，针对性地提出了当前服务优化的关键技术。最后总结了服务优化的研究热点和未来研究趋势。

走向网络空间国家行为体的本体论

分类： 密码学和安全, 人工智能, 计算机科学中的逻辑

作者： Giacomo De Colle

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01787v1

摘要： 为了改进网络安全中的网络威胁分析实践，我提出了一项计划，为网络空间和网络行动中的国家行为者建立正式的本体论表示。我认为，通过本体对这些现象进行建模可以对来自不同来源的数据进行连贯集成，对这些数据进行自动推理，以及从中提取和重用它们的情报。网络安全中现有的本体论工具可以通过将其与法律、法规、政府机构和文件等邻近领域连接起来进行改进。在本文中，我提出了评估当前现有本体论工具的指标，以在网络安全领域创建正式表示，并提供了在缺乏这些本体论工具时开发和扩展它们的计划。

STDA：时空双编码器网络结合驾驶员注意力来预测安全关键场景下的驾驶员行为

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Dongyang Xu, Yiran Luo, Tianle Lu, Qingfan Wang, Qing Zhou, Bingbing Nie

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01774v1

摘要： 准确的车辆行为预测对于自动驾驶至关重要，但也具有挑战性。大多数现有研究表明在常规场景下表现令人满意，但大多数被忽视的安全关键场景。在这项研究中，开发了一种名为 STDA 的时空双编码器网络，用于安全关键场景。考虑到人类驾驶员在态势感知和理解风险方面的卓越能力，驾驶员注意力被纳入 STDA 中，以促进关键区域的快速识别，这有望提高性能和可解释性。 STDA包含四个部分：驾驶员注意力预测模块，预测驾驶员注意力；融合模块旨在融合驾驶员注意力和原始图像之间的特征；临时编码器模块，用于增强动态场景的解释能力；以及行为预测模块来预测行为。实验数据用于训练和验证模型。结果表明，当纳入驾驶员注意力并采用时间编码器模块时，STDA 将 G 均值从 0.659 提高到 0.719。此外，还进行了大量的实验来验证所提出的模块具有强大的泛化能力，并且可以无缝集成到其他主流模型中。

推进绿色人工智能：高效准确的轻量级 CNN 用于水稻叶部病害识别

分类： 计算机视觉和模式识别, 人工智能

作者： Khairun Saddami, Yudha Nurdin, Mutia Zahramita, Muhammad Shahreeza Safiruz

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01752v1

摘要： 大米作为世界一半以上人口的主要食物来源发挥着至关重要的作用，其生产对全球粮食安全至关重要。然而，水稻种植经常受到各种病害的影响，严重降低产量和品质。因此，早期、准确地检测水稻病害对于防止其传播并最大程度地减少作物损失至关重要。在这项研究中，我们探索了三种与移动设备兼容的 CNN 架构，即 ShuffleNet、MobileNetV2 和 EfficientNet-B0，用于水稻叶病分类。选择这些模型是因为它们与移动设备兼容，因为与其他 CNN 模型相比，它们需要更少的计算能力和内存。为了增强这三个模型的性能，我们添加了两个由 dropout 层分隔的全连接层。我们使用提前停止创建来防止模型过度拟合。研究结果表明，EfficientNet-B0模型取得了最佳性能，准确率达到99.8%。与此同时，MobileNetV2 和 ShuffleNet 的准确率分别仅为 84.21% 和 66.51%。这项研究表明，EfficientNet-B0 与所提出的层和提前停止相结合，可以产生高精度模型。关键词：水稻叶片检测；绿色人工智能；智慧农业；高效网络；

LAM3D：利用注意力进行单目 3D 物体检测

分类： 计算机视觉和模式识别, 人工智能

作者： Diana-Alexandra Sas, Leandro Di Bella, Yangxintong Lyu, Florin Oniga, Adrian Munteanu

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01739v1

摘要： 自从自注意力机制的引入以及计算机视觉任务中采用 Transformer 架构以来，基于 Vision Transformer 的架构在该领域获得了广泛的应用，被用于图像分类、目标检测和图像分割等任务。然而，如何有效利用视觉转换器中的注意力机制来完成单目 3D 目标检测任务仍然是一个悬而未决的问题。在本文中，我们提出了 LAM3D，一个利用自注意力机制进行单目 3D 物体检测的框架。为此，所提出的方法基于 Pyramid Vision Transformer v2 (PVTv2) 作为特征提取骨干和 2D/3D 检测机制。我们在 KITTI 3D 目标检测基准上评估了所提出的方法，证明了所提出的解决方案在自动驾驶领域的适用性并且优于参考方法。此外，由于使用了自注意力，LAM3D 能够系统地优于不使用自注意力的等效架构。

大语言模型可以预测随机梯度下降的收敛吗？

分类： 机器学习, 人工智能, 机器学习

作者： Oussama Zekri, Abdelhakim Benechehab, Ievgen Redko

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01736v1

摘要： 大型语言模型因其在各种任务中的令人印象深刻的性能而闻名。如此令人印象深刻的表现的一个令人惊讶的例子是最近发现的大语言模型理解满足马尔可夫性质的动力系统的控制原理的能力。在本文中，我们试图通过研究凸优化和非凸优化中随机梯度下降的动力学来进一步探索这个方向。通过利用 SGD 和马尔可夫链之间的理论联系，我们展示了 LLM 在预测 SGD 收敛到以前未见过的起点的局部最小值方面具有卓越的零样本性能。在更一般的层面上，我们询问使用大语言模型对实践中使用的更大深度学习模型进行零样本随机试验的可能性。

用于高保真和时间相干头部说话的地标引导扩散模型

分类： 计算机视觉和模式识别, 人工智能

作者： Jintao Tan, Xize Cheng, Lingyu Xiong, Lei Zhu, Xiandong Li, Xianjia Wu, Kai Gong, Minglei Li, Yi Cai

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01732v1

摘要： 音频驱动的头像生成是一项重要且具有挑战性的任务，适用于虚拟化身、电影制作和在线会议等各个领域。然而，现有的基于 GAN 的模型强调生成同步良好的唇形，但忽略了生成帧的视觉质量，而基于扩散的模型优先生成高质量的帧，但忽略唇形匹配，导致嘴部运动抖动。为了解决上述问题，我们引入了基于两阶段扩散的模型。第一阶段涉及根据给定的语音生成同步的面部标志。在第二阶段，这些生成的地标作为去噪过程中的条件，旨在优化嘴巴抖动问题并生成高保真、同步良好且时间连贯的头部说话视频。大量实验证明我们的模型具有最佳性能。

通过姿势检测进行情绪识别及其在虚拟现实中应用的可能性研究

分类： 计算机视觉和模式识别, 人工智能

作者： Leina Elansary, Zaki Taha, Walaa Gad

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01728v1

摘要： 一项调查的重点是在情感识别中使用姿势估计技术，使用各种技术（普通相机和实时深度相机），以及 VR 和输入（包括图像、视频和向量空间中描述的 3 维姿势）的潜在用途。我们讨论了从选定期刊和数据库收集的 19 篇研究论文，重点介绍了它们的方法、分类算法以及与情绪识别和姿势估计相关的所用数据集。我们根据其准确性制定了基准，因为它是最常用的性能测量指标。我们得出的结论是，多模态方法总体上具有最好的准确性，然后我们提到了可以改善该研究主题的发展的未来问题。

联合普遍对抗性扰动与解释

分类： 密码学和安全, 人工智能

作者： Liang-bo Ning, Zeyu Dai, Wenqi Fan, Jingran Su, Chao Pan, Luning Wang, Qing Li

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01715v1

摘要： 深度神经网络 (DNN) 显着提高了许多具有挑战性的任务的性能。尽管取得了巨大的发展，DNN 也暴露了它们的弱点。最近的研究表明，对手可以通过向良性样本添加通用对抗扰动 (UAP) 来操纵 DNN 的预测。另一方面，人们越来越努力地通过突出样本中与其预测相关的信息最丰富的部分（即归因图）来帮助用户理解和解释 DNN 的内部工作原理。此外，我们首先凭经验发现，良性示例和对抗性示例之间的归因图存在显着差异，这有可能检测普遍的对抗性扰动以防御对抗性攻击。这一发现激励我们进一步研究一个新的研究问题：是否存在能够以恶意欲望联合攻击 DNN 分类器及其解释的普遍对抗性扰动。由于这两个目标看似相互冲突，因此很难给出明确的答案。在本文中，我们提出了一种新颖的攻击框架来生成联合通用对抗扰动（JUAP），它可以欺骗 DNN 模型并同时误导解释器的检查。对各种数据集的综合实验证明了所提出的方法 JUAP 对于联合攻击的有效性。据我们所知，这是研究 UAP 联合攻击 DNN 和解释的首次尝试。

下游传输攻击：使用预先训练的视觉变压器对下游模型进行对抗性攻击

分类： 计算机视觉和模式识别, 人工智能

作者： Weijie Zheng, Xingjun Ma, Hanxun Huang, Zuxuan Wu, Yu-Gang Jiang

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01705v1

摘要： 随着视觉变换器（ViT）和自监督学习（SSL）技术的进步，预先训练的大型 ViT 已成为计算机视觉应用的新基础模型。然而，研究表明，与卷积神经网络 (CNN) 一样，ViT 也容易受到对抗性攻击，输入中的细微扰动可能会欺骗模型做出错误的预测。本文研究了这种对抗性漏洞从预训练的 ViT 模型到下游任务的可转移性。我们专注于 \emph{sample-wise} 传输攻击，并提出了一种称为 \emph{Downstream Transfer Attack (DTA)} 的新颖攻击方法。对于给定的测试图像，DTA 利用预先训练的 ViT 模型来制作对抗性示例，然后应用对抗性示例来攻击下游数据集上模型的微调版本。在攻击过程中，DTA 识别并利用由余弦相似性损失引导的预训练模型中最脆弱的层来发起高度可转移的攻击。通过对 3 种不同的预训练方法、3 种微调方案以及 10 个不同的下游数据集进行预训练的 ViT 进行大量实验，我们表明 DTA 的平均攻击成功率 (ASR) 超过 90%，超越了现有方法大幅领先。当与对抗性训练一起使用时，我们的 DTA 生成的对抗性示例可以显着提高模型对不同下游传输攻击的鲁棒性。

集成大型语言模型和知识图来提取和验证文本测试数据

分类： 人工智能, 计算和语言

作者： Antonio De Santis, Marco Balduini, Federico De Santis, Andrea Proia, Arsenio Leo, Marco Brambilla, Emanuele Della Valle

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01700v1

摘要： Thales Alenia Space 等航空航天制造公司设计、开发、集成、验证和验证具有高复杂性和小批量特点的产品。他们仔细记录每个产品的所有阶段，但由于文档中数据的异构性和非结构化性质，跨产品的分析具有挑战性。在本文中，我们提出了一种混合方法，利用知识图（KG）与大型语言模型（LLM）相结合来提取和验证这些文档中包含的数据。我们考虑一个案例研究，重点关注与卫星电子板相关的测试数据。为此，我们扩展了语义传感器网络本体。我们将报告的元数据存储在 KG 中，而实际测试结果存储在可通过虚拟知识图访问的 parquet 中。验证过程使用基于大语言模型的方法进行管理。我们还进行了一项基准研究，以评估最先进的大语言模型在执行这项任务时的表现。最后，我们分析了自动化现有的手动数据提取和验证流程以进行后续交叉报告分析的成本和收益。

不变图学习遇到分布外泛化的信息瓶颈

分类： 机器学习, 人工智能, 机器学习

作者： Wenyu Mao, Jiancan Wu, Haoyang Liu, Yongduo Sui, Xiang Wang

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01697v1

摘要： 图分布外（OOD）泛化仍然是图学习中的一个主要挑战，因为图神经网络（GNN）在分布变化下经常遭受严重的性能下降。不变学习旨在提取不同分布中的不变特征，最近已成为 OOD 生成的一种有前景的方法。尽管不变学习在欧几里得数据（即图像）的 OOD 问题中取得了巨大成功，但图数据中的探索仍然受到图的复杂性的限制。现有的研究，例如数据增强或因果干预，要么在图操作过程中遭受不变性的破坏，要么由于缺乏因果部分的监督信号而面临可靠性问题。在这项工作中，我们提出了一种新颖的框架，称为基于信息瓶颈理论的不变图学习（InfoIGL），用于提取图的不变特征并增强模型对未见分布的泛化能力。具体来说，InfoIGL 引入了冗余过滤器来压缩与环境因素相关的与任务无关的信息。配合我们设计的多级对比学习，我们在下游分类任务中最大化同一类图之间的互信息，在很大程度上保留了用于预测的不变特征。 InfoIGL 的一个吸引人的特点是其强大的泛化能力，而不依赖于不变性的监督信号。对合成数据集和真实数据集的实验表明，我们的方法在图分类任务的 OOD 泛化下实现了最先进的性能。源代码可在 https://github.com/maowenyu-11/InfoIGL 获取。

使用细粒度鉴别器生成高质量的符号音乐

分类： 声音, 人工智能, 音频和语音处理

作者： Zhedong Zhang, Liang Li, Jiehua Zhang, Zhenghui Hu, Hongkui Wang, Chenggang Yan, Jian Yang, Yuankai Qi

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01696v1

摘要： 现有的符号音乐生成方法通常利用鉴别器通过音乐的全局感知来提高生成音乐的质量。然而，考虑到音乐中信息的复杂性，例如节奏和旋律，单个判别器无法完全反映音乐这两个主要维度的差异。在这项工作中，我们建议将旋律和节奏与音乐解耦，并设计相应的细粒度判别器来解决上述问题。具体来说，配备了音调增强策略，旋律鉴别器可以识别生成的样本呈现的旋律变化。相比之下，通过小节级相对位置编码增强的节奏鉴别器侧重于生成音符的速度。这样的设计使得生成器能够更明确地知道生成的音乐中应该调整哪些方面，从而更容易模仿人类创作的音乐。 POP909 基准测试的实验结果表明，与几种最先进的方法相比，该方法在客观和主观指标方面均具有良好的性能。

提示递归搜索：LLM 自动提示中具有自适应增长的动态框架

分类： 计算和语言, 人工智能

作者： Xiangyu Zhao, Chengqian Ma

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01423v1

摘要： 大型语言模型 (LLM) 在处理自然语言处理 (NLP) 领域内的各种任务方面表现出卓越的能力，各种提示设计策略显着增强了其能力。然而，这些提示虽然有益，但都具有固有的局限性。主要的提示设计方法有两个：第一个，以思维链 (CoT) 为例，涉及手动制作特定于各个数据集的提示，因此称为专家设计提示 (EDP)。这些提示一旦建立，就无法更改，并且其有效性受到人类设计师的专业知识的限制。当应用于大语言模型时，EDP 的静态性质导致对同一数据集中的简单和复杂问题采用统一的方法，从而导致对简单问题的标记使用效率低下。第二种方法涉及由 LLM 自主生成的提示，称为 LLM 衍生提示 (LDP)，它为特定问题提供量身定制的解决方案，从而减轻 EDP 的限制。然而，由于解决方案规划过程中可能出现错误累积，LDP 在处理复杂问题时可能会遇到性能下降的情况。为了应对这些挑战，我们构思了一种新颖的即时递归搜索（PRS）框架，该框架利用 LLM 生成特定于问题的解决方案，从而节省代币。该框架结合了对问题复杂性的评估和可调整的结构，确保减少错误的可能性。我们通过在不同领域的一系列数据集上使用具有不同数量参数的大语言模型进行广泛的实验，证实了 PRS 框架的有效性。与 CoT 方法相比，PRS 方法使用 Llama3-7B 模型在 BBH 数据集上的准确率提高了 8%，实现了 22% 的提升。

不可能的任务：越狱大语言模型的统计视角

分类： 机器学习, 人工智能, 计算和语言

作者： Jingtong Su, Julia Kempe, Karen Ullrich

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01420v1

摘要： 大型语言模型 (LLM) 在大量文本数据上进行训练，质量控制有限。因此，大语言模型可能会表现出意想不到的甚至有害的行为，例如泄露信息、虚假新闻或仇恨言论。对策，通常称为偏好调整，包括使用精心设计的所需行为的文本示例来微调预训练的大语言模型。即便如此，经验证据表明，偏好一致的大语言模型可能会被引诱做出有害行为。这种所谓的大语言模型越狱通常是通过对抗性地修改大语言模型的输入提示来实现的。我们的论文从统计角度提供了对偏好调整和越狱现象的理论见解。在我们的框架下，我们首先表明，如果训练语料库中存在经过预训练的大语言模型，那么它们会模仿有害行为。在同一框架下，我们引入了对齐的统计概念，并对越狱概率进行了下限，表明在合理的假设下，越狱是无法预防的。根据我们的见解，我们建议对当前流行的对齐策略 RLHF 进行更改。具体来说，我们对 RLHF 目标进行了简单修改，称为 E-RLHF，旨在增加安全响应的可能性。 E-RLHF不会带来额外的培训成本，并且与其他方法兼容。根据经验，我们证明 E-RLHF 在 AdvBench 和 HarmBench 项目提出的所有对齐问题上都优于 RLHF，而不会牺牲 MT-Bench 项目测量的模型性能。

少说话，更好互动：评估多模式大语言模型的上下文对话适应

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Yilun Hua, Yoav Artzi

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01417v1

摘要： 随着互动的进展，人类通过适应和形成临时约定，自发地使用越来越有效的语言。人们已经使用参考游戏对这种现象进行了广泛的研究，显示出人类语言的特性超出了传达意图的范围。多模态大语言模型（MLLM）是否同样可以提高交互过程中的通信效率，以及它们可以为此目的采用什么机制，目前仍待探索。我们引入了 ICCA，这是一个自动化框架，用于评估 MLLM 中的对话适应作为上下文行为。我们评估了几个最先进的 MLLM，并观察到，虽然他们可能理解对话者日益高效的语言，但随着时间的推移，他们不会自发地使自己的语言变得更加高效。后一种能力只能在某些模型（例如 GPT-4）中通过严厉的提示来引发。这表明语言交互的这种特性并不是由当前的训练制度产生的，尽管它是人类语言的共同标志。 ICCA 位于 https://github.com/lil-lab/ICCA。

寻找正确的调解者：因果可解释性的历史、调查和理论基础

分类： 机器学习, 人工智能

作者： Aaron Mueller, Jannik Brinkmann, Millicent Li, Samuel Marks, Koyena Pal, Nikhil Prakash, Can Rager, Aruna Sankaranarayanan, Arnab Sen Sharma, Jiuding Sun, Eric Todd, David Bau, Yonatan Belinkov

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01416v1

摘要： 可解释性提供了一个工具集，用于理解神经网络如何以及为何以某些方式运行。然而，该领域缺乏统一性：大多数研究采用临时评估且不共享理论基础，因此很难衡量进展并比较不同技术的优缺点。此外，虽然经常讨论机制理解，但这些机制背后的基本因果单元通常没有明确定义。在本文中，我们提出了基于因果中介分析的可解释性研究的观点。具体来说，我们描述了根据所采用的因果单元（中介）的类型进行分类的可解释性的历史和当前状态，以及用于搜索中介的方法。我们讨论每个中介的优缺点，并根据给定研究的目标提供关于何时特定类型的中介和搜索方法最合适的见解。我们认为，这个框架产生了对该领域更有凝聚力的叙述，以及对未来工作的可行见解。具体来说，我们建议重点发现新的中介，在人类可解释性和计算效率之间具有更好的权衡，并且与当前工作中使用的主要线性中介相比，它可以从神经网络中发现更复杂的抽象。我们还主张进行更标准化的评估，以便能够对中介类型进行原则性比较，以便我们可以更好地理解特定因果单元何时更适合特定用例。

条件 LoRA 参数生成

分类： 人工智能, 机器学习

作者： Xiaolong Jin, Kai Wang, Dongwen Tang, Wangbo Zhao, Yukun Zhou, Junshu Tang, Yang You

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01415v1

摘要： 生成模型在图像、视频和文本领域取得了显着的成功。受此启发，研究人员探索利用生成模型来生成神经网络参数。然而，这些努力受到参数大小和生成高性能参数的实用性的限制。在本文中，我们提出了 COND P-DIFF，这是一种新颖的方法，证明了在微调过程中可控高性能参数生成的可行性，特别是对于 LoRA（低阶自适应）权重。具体来说，我们采用自动编码器来提取参数的有效潜在表示。然后，我们训练一个条件潜在扩散模型，根据特定的任务条件从随机噪声中合成高性能模型参数。计算机视觉和自然语言处理领域的实验结果一致证明 COND P-DIFF 可以根据给定任务生成高性能参数。此外，我们观察到 COND P-DIFF 生成的参数分布与通过正常优化方法获得的分布相比存在差异，表明具有一定水平的泛化能力。我们的工作为进一步探索条件驱动参数生成铺平了道路，为神经网络的特定任务适应提供了有希望的方向。

预训练语言模型提高Decision Transformer的小样本提示能力

分类： 机器学习, 人工智能, 计算和语言

作者： Yu Yang, Pan Xu

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01402v1

摘要： Decision Transformer (DT) 已成为离线强化学习 (RL) 任务中一类有前途的算法，利用预先收集的数据集和 Transformer 对长序列进行建模的能力。最近的工作表明，使用训练任务的部分轨迹作为 DT 的提示可以提高其在未见过的任务上的性能，从而产生了 Prompt-DT 方法。然而，在许多情况下，从特定环境收集数据可能既昂贵又不安全，由于基于 Transformer 的模型对数据的渴求性质，导致性能不佳和有限的几次提示能力。此外，预训练中使用的数据集有限，使得 Prompt-DT 类型的方法很难仅通过提示来区分各种 RL 任务。为了应对这些挑战，我们引入了语言模型初始化的提示决策转换器（LPDT），它利用预训练的语言模型来执行元强化学习任务，并使用低秩适应（LoRA）对模型进行微调。我们进一步结合提示正则化，以根据提示特征表示有效地区分任务。我们的方法将预训练的语言模型和强化学习任务无缝集成。大量的实证研究表明，与基线方法相比，使用预先训练的语言模型进行初始化可以显着提高 Prompt-DT 在未见过的任务上的性能。

PC$^2$：基于伪分类的跨模态检索中噪声对应学习的伪描述

分类： 多媒体, 人工智能, 计算机视觉和模式识别, 信息检索, 机器学习

作者： Yue Duan, Zhangxuan Gu, Zhenzhe Ying, Lei Qi, Changhua Meng, Yinghuan Shi

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01349v1

摘要： 在跨模态检索领域，在多媒体中无缝集成不同模态仍然是一个艰巨的挑战，特别是考虑到噪声对应学习（NCL）带来的复杂性。这种噪声通常源于不匹配的数据对，这是与传统噪声标签不同的重大障碍。本文介绍了基于伪分类的伪字幕（PC$^2$）框架来应对这一挑战。 PC$^2$提供了三重策略：首先，它建立了一个辅助的“伪分类”任务，将标题解释为分类标签，引导模型通过非对比机制学习图像文本语义相似性。其次，与流行的基于保证金的技术不同，利用 PC$^2$ 的伪分类能力，我们生成伪标题，为每个不匹配的对提供更多信息和切实的监督。再次，利用伪分类的振荡来辅助对应关系的修正。除了技术贡献之外，我们还开发了一个名为 Noise of Web (NoW) 的真实 NCL 数据集，这可能是一个新的强大的 NCL 基准，其中噪声自然存在。 PC$^2$ 的实证评估表明，在具有各种 NCL 设置的模拟和现实数据集上，与现有最先进的稳健跨模态检索技术相比，有了显着的改进。贡献的数据集和源代码发布在https://github.com/alipay/PC2-NoiseofWeb。

StitchFusion：编织任何视觉模态以增强多模态语义分割

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Bingyu Li, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01343v1

摘要： 多模态语义分割在提高复杂场景中的分割精度方面显示出巨大的潜力。然而，当前的方法通常结合针对特定模式定制的专门特征融合模块，从而限制输入灵活性并增加训练参数的数量。为了应对这些挑战，我们提出了 StitchFusion，这是一种简单而有效的模态融合框架，它将大规模预训练模型直接集成为编码器和特征融合器。这种方法有利于全面的多模态和多尺度特征融合，适应任何视觉模态输入。具体来说，我们的框架通过共享多模态视觉信息来实现编码过程中的模态集成。为了增强跨模态的信息交换，我们引入了多向适配器模块（MultiAdapter）以在编码过程中实现跨模态信息传输。通过在编码过程中利用 MultiAdapter 在预先训练的编码器之间传播多尺度信息，StitchFusion 在编码过程中实现了多模态视觉信息集成。大量的比较实验表明，我们的模型以最少的附加参数在四个多模态分割数据集上实现了最先进的性能。此外，MultiAdapter 与现有功能融合模块 (FFM) 的实验性集成凸显了它们的互补性。我们的代码可在 StitchFusion_repo 获取。

利用知识图嵌入进行有效的对话式推荐

分类： 信息检索, 人工智能

作者： Yunwen Xia, Hui Fang, Jie Zhang, Chong Long

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01342v1

摘要： 会话推荐系统（CRS）结合了对话系统和推荐系统技术，最近引起了越来越多的关注。与传统的推荐系统相比，它通过交互（即对话）更好地学习用户偏好，然后进一步提高推荐性能。然而，现有的CRS研究忽视了有效解决属性、用户和物品之间的关系，这可能会导致不恰当的问题和不准确的推荐。鉴于此，我们提出了一种基于知识图谱的会话推荐系统（简称KG-CRS）。具体来说，我们首先将用户-项目图和项目-属性图集成为动态图，即通过删除负面项目或属性在对话过程中动态变化。然后，我们还考虑通过图上的邻居进行传播，从而学习用户、项目和属性的信息嵌入。对三个真实数据集的广泛实验验证了我们的方法在推荐和对话任务方面相对于最先进方法的优越性。

长期机器人任务理解的支柱

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 人机交互

作者： Xiaoshuai Chen, Wei Chen, Dongmyoung Lee, Yukun Ge, Nicolas Rojas, Petar Kormushev

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01334v1

摘要： 端到端的机器人学习，尤其是长期任务，通常会导致不可预测的结果和较差的泛化能力。为了应对这些挑战，我们提出了一种新型的基于 Therblig 的骨干框架（TBBF）来增强机器人任务的理解和可转移性。该框架使用 therbligs（基本动作元素）作为骨干，将高级机器人任务分解为基本的机器人配置，然后将其与当前的基础模型集成以提高任务理解。该方法包括两个阶段：离线训练和在线测试。在离线训练阶段，我们开发了 Meta-RGate SynerFusion (MGSF) 网络，用于跨各种任务进行准确的热分割。在在线测试阶段，在收集新任务的一次性演示后，我们的 MGSF 网络提取高级知识，然后使用动作注册（ActionREG）将其编码到图像中。此外，采用大语言模型（LLM）-视觉校正对齐策略（LAP-VC）来确保精确的动作执行，促进新颖的机器人场景中的轨迹转移。实验结果验证了这些方法，在分割中实现了 94.37% 的召回率，在简单和复杂场景的真实在线机器人测试中分别实现了 94.4% 和 80% 的成功率。补充材料位于：https://sites.google.com/view/therbligsbasedbackbone/home

受机器人启发的扫描路径模型揭示了动态场景中的不确定性和语义对象线索对于注视引导的重要性

分类： 计算机视觉和模式识别, 人工智能, 神经元和认知

作者： Vito Mengers, Nicolas Roth, Oliver Brock, Klaus Obermayer, Martin Rolfs

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01322v1

摘要： 我们如何感知周围的物体取决于我们积极关注的事物，而我们的眼球运动取决于感知到的物体。尽管如此，对象分割和注视行为通常被视为两个独立的过程。借鉴机器人技术的信息处理模式，我们提出了一个机械模型，可以模拟动态现实世界场景的这些过程。我们的图像可计算模型使用当前场景分割进行基于对象的扫视决策，同时使用注视点对象递归地细化其场景分割。为了对这种细化进行建模，我们使用贝叶斯滤波器，它还为我们用来指导主动场景探索的分割提供了不确定性估计。我们证明，该模型非常类似于观察者的自由观看行为，通过扫描路径统计数据进行测量，包括用于参数拟合的中心凹持续时间和扫视幅度分布以及不用于拟合的更高级别的统计数据。这些包括如何平衡对象检测、检查和返回，以及在没有明确实现这种返回时间抑制的情况下返回扫视的延迟。广泛的模拟和消融研究表明，不确定性促进平衡探索，并且语义对象线索对于形成基于对象的注意力中使用的感知单元至关重要。此外，我们展示了模型的模块化设计如何允许扩展，例如合并扫视动量或预扫视注意力，以进一步使其输出与人类扫描路径保持一致。

多模态大语言模型的全面回顾：不同任务的性能和挑战

分类： 人工智能

作者： Jiaqi Wang, Hanqi Jiang, Yiheng Liu, Chong Ma, Xu Zhang, Yi Pan, Mengyuan Liu, Peiran Gu, Sichen Xia, Wenjun Li, Yutong Zhang, Zihao Wu, Zhengliang Liu, Tianyang Zhong, Bao Ge, Tuo Zhang, Ning Qiang, Xintao Hu, Xi Jiang, Xin Zhang, Wei Zhang, Dinggang Shen, Tianming Liu, Shu Zhang

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01319v1

摘要： 在数据爆炸式增长和技术快速进步的时代，多模态大型语言模型 (MLLM) 站在人工智能 (AI) 系统的前沿。 MLLM 旨在无缝集成不同的数据类型（包括文本、图像、视频、音频和生理序列），可解决现实世界应用的复杂性，远远超出单模态系统的能力。在本文中，我们系统地梳理了MLLM在自然语言、视觉、音频等多模态任务中的应用。我们还对不同 MLLM 在任务中的重点进行了比较分析，并深入了解当前 MLLM 的缺点，并提出未来研究的潜在方向。通过这些讨论，本文希望为MLLM的进一步发展和应用提供有价值的见解。

调制的协同途径可在神经动力学中实现稳健的任务打包

分类： 神经元和认知, 人工智能

作者： Giacomo Vedovati, ShiNung Ching

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01316v1

摘要： 了解大脑网络如何同时学习和管理多个任务对于神经科学和人工智能都很有趣。在这方面，理论神经科学最近的一个研究主题集中在循环神经网络模型及其内部动力学如何实现多任务学习。为了管理不同的任务，需要一种机制将有关任务身份或上下文的信息传递到模型中，从生物学角度来看，这可能涉及神经调节机制。在这项研究中，我们使用循环网络模型来探讨两种形式的神经动力学上下文调制之间的区别，即神经元兴奋性水平和突触强度水平。我们根据这些机制的功能结果来描述这些机制，重点关注它们对上下文模糊性的鲁棒性，以及相关地将多个任务打包到有限大小网络中的效率。我们还在它们诱导的神经元动力学水平上证明了这些机制之间的区别。总之，这些特征表明这些机制在多个时间尺度上如何发挥作用的互补性和协同作用，以增强多任务学习的稳健性。

用于设计不确定性感知人工智能自我评估的决策驱动方法

分类： 机器学习, 人工智能, 机器学习

作者： Gregory Canal, Vladimir Leung, Philip Sage, Eric Heim, I-Jeng Wang

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01301v1

摘要： 人工智能（AI）彻底改变了整个社会的决策流程和系统，特别是，它已成为国家利益高影响场景中的一项重要技术。然而，尽管人工智能在受控环境中具有令人印象深刻的预测能力，但它仍然遇到了一系列实际挫折，阻碍了其在各种关键场景中的广泛使用。特别是，通常不清楚下游应用程序的决策者是否可以信任给定的人工智能系统的预测。为了满足对更透明、更强大、更值得信赖的人工智能系统的需求，我们开发了一套工具来量化人工智能预测的不确定性，更广泛地说，使人工智能能够“自我评估”其预测的可靠性。在这份手稿中，我们根据几个关键维度对人工智能自我评估方法进行了分类，并提供了根据从业者的需求选择和设计适当方法的指南。我们特别关注不确定性估计技术，该技术考虑自我评估对下游决策者做出的选择以及决策结果所产生的成本和收益的影响。为了证明我们的自我评估设计方法的实用性，我们展示了它在两个现实的国家利益场景中的用途。这份手稿是机器学习工程师和人工智能系统用户为每个问题选择理想的自我评估技术的实用指南。

3DPX：使用混合 MLP-CNN 网络进行渐进 2D 到 3D 口腔图像重建

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Xiaoshuang Li, Mingyuan Meng, Zimo Huang, Lei Bi, Eduardo Delamare, Dagan Feng, Bin Sheng, Jinman Kim

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01292v1

摘要： 全景 X 射线 (PX) 因其广泛的可用性和低成本而成为牙科实践中的一种流行方式。然而，作为 2D 投影图像，PX 不包含 3D 解剖信息，因此在可受益于 3D 信息的牙科应用中的使用有限，例如牙齿角度错位检测和分类。最近，人们正在探索直接从 2D PX 重建 3D 结构，以解决主要依赖于卷积神经网络 (CNN) 进行直接 2D 到 3D 映射的现有方法的局限性。然而，这些方法无法正确推断深度轴空间信息。此外，它们受到卷积运算的内在局部性的限制，因为卷积核仅捕获直接邻域像素的信息。在本研究中，我们提出了一种渐进式混合多层感知器 (MLP)-CNN 金字塔网络 (3DPX)，用于 2D 到 3D 口腔 PX 重建。我们引入了渐进式重建策略，其中 3D 图像在 3DPX 中逐步重建，并在每个金字塔级别的中间重建结果上施加指导。此外，受近期 MLP 发展的推动，MLP 在捕捉细粒度的远程依赖性方面表现出了希望，我们的 3DPX 集成了 MLP 和 CNN，以提高重建过程中的语义理解。对涉及 464 项研究的两个大型数据集进行的广泛实验表明，我们的 3DPX 在重建质量方面优于最先进的 2D 到 3D 口腔重建方法（包括独立 MLP 和 Transformer），并且还提高了下游角度的性能错位分类任务。

虚拟CAT：瑞士义务教育算法思维评估工具

分类： 人机交互, 人工智能, 计算机与社会

作者： Giorgia Adorni, Alberto Piatti

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01263v1

摘要： 在当今的数字时代，掌握算法思维（AT）技能至关重要，不仅在计算机科学相关领域。这些能力使个人能够将复杂的问题分解为更易于管理的步骤，并创建一系列行动来解决这些问题。为了解决教育环境中对 AT 评估日益增长的需求以及当前方法的局限性，本文引入了虚拟交叉阵列任务 (CAT)，这是一种不插电评估活动的数字化版本，旨在评估瑞士义务教育中的算法技能。该工具提供可扩展的自动化评估，减少人工参与并减少潜在的数据收集错误。该平台具有基于手势和基于视觉块的编程界面，确保其对不同学习者的可用性，并得到多语言功能的进一步支持。为了评估虚拟 CAT 平台，我们在瑞士进行了一项试点评估，涉及一组不同的学生。研究结果表明，该平台评估不同年龄、发展阶段和教育背景的学生AT技能的可用性、熟练程度和适用性，以及大规模数据收集的可行性。

协调在线行为的检测和表征：调查

分类： 社交和信息网络, 人工智能, 计算机与社会, 人机交互, 机器学习

作者： Lorenzo Mannocci, Michele Mazza, Anna Monreale, Maurizio Tesconi, Stefano Cresci

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01257v1

摘要： 协调是生活的一个基本方面。社交媒体的出现也使其成为在线人类互动的一部分，例如那些以蓬勃发展的在线社区和社会运动为特征的互动。与此同时，协调也是有效的虚假信息、操纵和仇恨活动的核心。这项调查收集、分类并批判性地讨论了由于人们对协调在线行为日益增长的兴趣而产生的作品。我们协调行业和学术定义，提出一个综合框架来研究协调的在线行为，并回顾和批判性地讨论现有的检测和表征方法。我们的分析确定了开放的挑战和有希望的研究方向，为学者、从业者和政策制定者理解和解决在线协调固有的复杂性提供了指导。

TrIM：卷积神经网络的三角输入运动脉动阵列 - 第一部分：数据流和分析建模

分类： 人工智能, 硬件架构

作者： Cristian Sestito, Shady Agwa, Themis Prodromakis

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01254v1

摘要： 为了满足最先进的人工智能模型不断增长的计算复杂性和数据强度，人们正在提出新的计算范式。这些范例旨在通过减轻与在处理核心和内存之间移动数据的能源成本相关的冯诺依曼瓶颈来实现高能源效率。卷积神经网络 (CNN) 特别容易受到此瓶颈的影响，因为它们必须管理大量数据。由于处理元件 (PE) 阵列实现了高数据利用率，脉动阵列 (SA) 是降低数据传输成本的有前景的架构。这些PE根据特定的数据流（如权重固定和行固定）在本地持续交换和处理数据，从而减少对主存的内存访问次数。 SA 的硬件专业化可以满足不同的工作负载，从矩阵乘法到多维卷积。在本文中，我们提出了 TrIM：一种基于三角输入运动并与 CNN 计算兼容的新型 SA 数据流。与最先进的 SA 数据流（例如权重固定和行固定）相比，TrIM 提供的高数据利用率保证内存访问量减少约 10 倍。此外，考虑到 PE 不断重叠乘法和累加，TrIM 实现了高吞吐量（比行固定高出 81.8%），而不需要有限数量的寄存器（比行固定少了 15.6 倍的寄存器）。

不确定环境中的元推理：元 BAMDP 框架

分类： 人工智能, 系统与控制, 系统与控制, 神经元和认知

作者： Prakhar Godara, Tilman Diego Aléman, Angela J. Yu

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01253v1

摘要： 在决策场景中，\textit{reasoning}可以被视为一种算法$P$，它在\mathcal{A}$中选择一个动作$a^*，旨在优化某些结果，例如最大化价值马尔可夫决策过程（MDP）的函数。然而，执行 $P$ 本身可能会承担一些成本（时间、精力、有限的能力等），并且需要与通过在底层决策问题中做出选择而获得的显式效用一起考虑。为了准确地模拟人类行为以及优化人工智能规划，需要考虑到这些成本，因为所有物理系统都必然面临资源限制。找到正确的 $P$ 本身可以被视为推理过程 $P$ 空间上的优化问题，通常称为 \textit{metareasoning}。传统上，人类元推理模型假设智能体知道底层 MDP 的转换和奖励分布。本文通过提出一个元贝叶斯自适应 MDP (meta-BAMDP) 框架来概括此类模型，该框架用于处理具有未知奖励/转换分布的环境中的元推理，其中包含人类和人工智能系统面临的一组更大、更现实的规划问题。第一步，我们将该框架应用于双臂伯努利老虎机（TABB）任务，该任务通常用于研究人类决策。由于元问题的复杂性，我们的解决方案必然是近似的，但在一系列对于人类决策场景来说可以说是现实的假设范围内仍然是稳健的。这些结果为理解认知约束下的人类探索提供了规范框架。贝叶斯自适应策略与元推理的结合丰富了决策研究的理论前景和设计在不确定性和资源限制下进行规划的人工智能系统的实际应用。

基于深度渐进强化学习的IRS和无人机辅助MEC系统的灵活资源调度框架

分类： 机器学习, 人工智能

作者： Li Dong, Feibo Jiang, Minjie Wang, Yubo Peng, Xiaolong Li

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01248v1

摘要： 智能反射面（IRS）和无人机（UAV）辅助的移动边缘计算（MEC）系统广泛应用于临时和紧急场景。我们的目标是通过联合优化无人机位置、IRS 相移、任务卸载和可变数量无人机的资源分配，最大限度地减少 MEC 系统的能耗。为此，我们通过采用新颖的深度渐进强化学习提出了灵活资源调度（FRES）框架，其中包括以下创新：首先，提出了一种新颖的多任务代理来处理混合整数非线性规划（MINLP）问题。多任务代理有两个针对不同任务设计的输出头，其中分类头用于对整数变量进行卸载决策，而拟合头用于解决连续变量的资源分配问题。其次，引入渐进式调度器，通过逐步调整代理中的部分神经元来使代理适应不同数量的无人机。这种结构可以自然地积累经验并免受灾难性遗忘的影响。最后，引入了轻型禁忌搜索（LTS）来增强 FRES 的全局搜索。数值结果证明了FRES框架的优越性，即使在动态MEC系统中也可以实现实时、最优的资源调度。

根据个体血流和活动定制基于图神经网络的流程引导定位

分类： 机器学习, 人工智能, 新兴技术, 网络和互联网架构

作者： Pablo Galván, Filip Lemic, Gerard Calvo Bartra, Sergi Abadal, Xavier Costa Pérez

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01239v1

摘要： 在血液中使用体内纳米设备进行血流引导定位预计将有利于疾病的早期检测、生物状况的持续监测和针对性治疗。纳米设备面临尺寸和功率限制，会产生用于定位目的的错误原始数据。体内锚点接收该数据，并使用它来得出感兴趣的诊断事件的位置。最近针对此任务提出了不同的机器学习 (ML) 方法，但它们目前仅限于静息患者的参考血流。因此，它们无法处理患者血流的身体多样性，并且无法由于个体患者活动的变化而提供连续监测。为了解决当前基于图神经网络 (GNN) 的最先进 (SotA) 流程引导定位方法的这些问题，我们提出了一种基于个人生理指标（包括身高、体重和心脏）的 GNN 适应管道速度。我们的结果表明，所提出的调整措施有利于协调血液和活动之间的个体差异。

通过噪声门贝叶斯网络进行基于量规的学习者建模，用于计算思维技能评估

分类： 人工智能, 新兴技术

作者： Giorgia Adorni, Francesca Mangili, Alberto Piatti, Claudio Bonesana, Alessandro Antonucci

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01221v1

摘要： 在现代个性化教育中，人们越来越关注培养学习者的能力并准确评估他们的能力。在之前的工作中，我们提出了一种从特定任务的能力评估标准中派生自动技能评估学习者模型的程序，从而简化了自动化评估工具的实施。然而，以前的方法有两个主要局限性：（i）评估标准定义的能力之间的顺序只是间接建模的； (ii) 未接受评估但完成任务所必需的补充技能未包含在模型中。在这项工作中，我们通过引入虚拟观察节点来解决问题（i），严格执行技能排序而不改变网络结构。相反，对于第(ii)点，我们设计了一个具有两层门的网络，一层通过噪声或门执行析取运算，另一层通过逻辑与执行连接运算。这些变化提高了模型结果的一致性和建模工具的灵活性，而不影响模型的紧凑参数化、可解释性和简单的专家启发。我们使用这种方法开发了计算思维 (CT) 技能评估的学习者模型。采用CT-cube技能评估框架和交叉阵列任务（CAT）对其进行了例证并论证了其可行性。

使用大型语言模型对临床文本进行高通量表型分析

分类： 计算和语言, 人工智能, I.7; I.2

作者： Daniel B. Hier, S. Ilyas Munzir, Anne Stahlfeld, Tayo Obafemi-Ajayi, Michael D. Carrithers

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01214v1

摘要： 高通量表型分析可自动将患者体征映射到标准化本体概念，这对于精准医疗至关重要。本研究使用大型语言模型评估了在线人类孟德尔遗传 (OMIM) 数据库中临床总结表型分析的自动化。由于其丰富的表型数据，这些摘要可以替代医生的笔记。我们对 GPT-4 和 GPT-3.5-Turbo 进行性能比较。我们的结果表明，GPT-4 在识别、分类和标准化符号方面优于 GPT-3.5-Turbo，与手动注释器实现了与评估者间一致性相当的一致性。尽管符号标准化存在一些限制，但 GPT-4 的广泛预训练可在多个表型分析任务中实现高性能和通用性，同时无需手动注释训练数据。大型语言模型预计将成为自动化临床文本高通量表型分析的主要方法。

用于自治系统优化的多目标深度强化学习

分类： 人工智能

作者： Juan C. Rosero, Ivana Dusparic, Nicolás Cardozo

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01188v1

摘要： 强化学习 (RL) 广泛用于自治系统 (AS)，因为它可以在运行时进行学习，而不需要环境模型或预定义的操作。然而，强化学习在 AS 中的大多数应用（例如基于 Q 学习的应用）只能优化一个目标，因此在多目标系统中需要将多个目标组合到具有预定义权重的单个目标函数中。存在许多多目标强化学习 (MORL) 技术，但它们主要应用于 RL 基准测试，而不是现实世界的 AS 系统。在这项工作中，我们使用一种称为深度 W 学习 (DWN) 的 MORL 技术，并将其应用到 Emergent Web Servers 示例（一种自适应服务器）中，以找到运行时性能优化的最佳配置。我们将 DWN 与两种单目标优化实现进行比较：{\epsilon}-贪婪算法和深度 Q 网络。我们的初步评估表明，DWN 同时优化多个目标，结果与 DQN 和 epsilon 贪婪方法相似，在某些指标上具有更好的性能，并避免了将多个目标组合到单个效用函数中相关的问题。

在强化学习中使用元启发式策略优化变分量子电路

分类： 量子物理学, 人工智能, 机器学习

作者： Michael Kölle, Daniel Seidl, Maximilian Zorn, Philipp Altmann, Jonas Stein, Thomas Gabor

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01187v1

摘要： 量子强化学习（QRL）比经典强化学习具有潜在优势，例如紧凑的状态空间表示和在某些场景下更快的收敛。然而，实际效益需要进一步验证。 QRL 面临诸如平坦解决方案景观等挑战，其中传统的基于梯度的方法效率低下，需要使用无梯度算法。这项工作探索了将元启发式算法（粒子群优化、蚁群优化、禁忌搜索、遗传算法、模拟退火和和谐搜索）集成到 QRL 中。这些算法为参数优化提供了灵活性和效率。在 $5\times5$ MiniGrid 强化学习环境中的评估表明，所有算法都产生接近最优的结果，其中模拟退火和粒子群优化表现最佳。在Cart Pole环境中，模拟退火、遗传算法和粒子群优化获得了最优结果，而其他算法的表现略优于随机动作选择。这些发现证明了粒子群优化和模拟退火在高效 QRL 学习方面的潜力，强调了仔细选择和适应算法的必要性。

误导大语言模型：脆弱性、挑战和机遇

分类： 计算和语言, 人工智能

作者： Bo Zhou, Daniel Geißler, Paul Lukowicz

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01168v1

摘要： 大型语言模型 (LLM) 在自然语言处理方面取得了重大进展，但其底层机制经常被误解。尽管呈现出连贯的答案和明显的推理行为，大语言模型仍然依赖于词嵌入中的统计模式，而不是真正的认知过程。这会导致“幻觉”和错误信息等漏洞。该论文认为，当前的大语言模型架构本质上是不可信的，因为它们依赖于词嵌入向量的顺序模式的相关性。然而，正在进行的将基于生成变压器的模型与事实库和逻辑编程语言相结合的研究可能会导致值得信赖的大语言模型的发展，这些大语言模型能够根据给定的事实生成陈述并解释其自我推理过程。

TCR-GPT：集成自回归模型和强化学习以生成 T 细胞受体库

分类： 机器学习, 人工智能

作者： Yicheng Lin, Dandan Zhang, Yun Liu

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01156v1

摘要： T 细胞受体 (TCR) 通过识别并结合受感染细胞或癌细胞呈现的特定抗原，在免疫系统中发挥着至关重要的作用。了解 TCR 的序列模式对于开发靶向免疫疗法和设计有效的疫苗至关重要。语言模型（例如自回归变压器）通过学习 TCR 指令集的概率分布，为该问题提供了强大的解决方案，从而能够生成继承指令集底层模式的新 TCR 序列。我们引入了 TCR-GPT，这是一种建立在纯解码器 Transformer 架构上的概率模型，旨在发现和复制 TCR 库中的序列模式。 TCR-GPT 在推断由 Pearson 相关系数测量的序列概率分布方面显示出 0.953 的准确度。此外，通过利用强化学习（RL），我们调整了TCR序列的分布，以生成能够识别特定肽的TCR，为推进靶向免疫疗法和疫苗开发提供了巨大的潜力。借助强化学习的功效，经过微调的预训练 TCR-GPT 模型展示了产生可能结合特定肽的 TCR 库的能力，说明强化学习在增强模型对生物相关 TCR 序列概率分布的适应性方面的效率。

DERA：知识图中实体对齐的密集实体检索

分类： 计算和语言, 人工智能

作者： Zhichun Wang, Xuan Chen

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01154v1

摘要： 实体对齐（EA）旨在匹配不同知识图（KG）中的等效实体，这对于知识融合和集成至关重要。最近，基于嵌入的 EA 引起了极大的关注，并且提出了许多方法。早期的方法主要侧重于从由关系三元组定义的知识图谱的结构特征中学习实体嵌入。后来的方法将实体的名称和属性合并为辅助信息，以增强 EA 的嵌入。然而，这些方法经常使用不同的技术来编码结构和属性信息，限制了它们的交互和相互增强。在这项工作中，我们提出了一个用于 EA 的密集实体检索框架，利用语言模型对实体的各种特征进行统一编码，并促进跨 KG 的最近实体搜索。对齐候选首先通过实体检索生成，随后重新排序以确定最终对齐。我们对跨语言和单语言 EA 数据集进行了全面的实验，证明与现有 EA 方法相比，我们的方法实现了最先进的性能。

使用公理谱重要性分解解释图像模型的全局扰动鲁棒性

分类： 人工智能, 计算机视觉和模式识别

作者： Róisín Luo, James McDermott, Colm O'Riordan

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01139v1

摘要： 扰动鲁棒性评估模型的漏洞，这些漏洞是由各种扰动（例如数据损坏和对抗性攻击）引起的。了解扰动鲁棒性的机制对于全局可解释性至关重要。我们提出了一种与模型无关的全局机制可解释性方法来解释图像模型的扰动鲁棒性。这项研究的动机有两个关键方面。首先，之前的全局可解释性与稳健性基准相结合，例如平均损坏误差（mCE）并非旨在直接解释图像模型内的扰动鲁棒性机制。其次，我们注意到受扰动的自然图像的光谱信噪比（SNR）随频率呈指数衰减。这种类似幂律的衰减意味着：低频信号通常比高频信号更稳健，但仅靠低频信号无法实现高分类精度。通过应用沙普利值理论，我们的方法公理化地量化了信息论框架内鲁棒特征和非鲁棒特征的预测能力。我们的方法，被称为 \textbf{I-ASIDE} (\textbf{I}mage \textbf{A}xiomatic \textbf{S}pectral \textbf{I}mportance \textbf{D}ecomposition \textbf{E}xplanation) ，提供了对模型稳健性机制的独特见解。我们对在 ImageNet 上预训练的各种视觉模型进行了广泛的实验，以表明 \textbf{I-ASIDE} 不仅可以\textbf{测量}扰动鲁棒性，而且\textbf{提供其机制的解释}。

曼巴调查

分类： 机器学习, 人工智能

作者： Haohao Qu, Liangbo Ning, Rui An, Wenqi Fan, Tyler Derr, Xin Xu, Qing Li

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01129v1

摘要： 深度学习作为一项重要技术，引发了人工智能领域的一场引人注目的革命。 Transformers 作为最具代表性的架构，赋能了众多先进模型，尤其是包含数十亿参数的大型语言模型，成为深度学习的基石。尽管取得了令人瞩目的成就，Transformers 仍然面临着固有的局限性，特别是注意力计算的二次计算复杂性导致的耗时推理。最近，一种名为 Mamba 的新颖架构从经典状态空间模型中汲取灵感，已成为构建基础模型的有前途的替代方案，提供与 Transformer 相当的建模能力，同时保留有关序列长度的近线性可扩展性。这引发了越来越多的研究积极探索 Mamba 在不同领域取得令人印象深刻的表现的潜力。鉴于如此快速的发展，迫切需要进行系统审查，以整合现有的 Mamba 授权模型，从而全面了解这种新兴模型架构。因此，在本次调查中，我们对最近与 Mamba 相关的研究进行了深入的调查，主要从三个方面进行了研究：基于 Mamba 的模型的进展、Mamba 适应多样化数据的技术以及 Mamba 擅长的应用。具体来说，我们首先回顾一下各种代表性深度学习模型的基础知识以及Mamba的细节作为预备。然后，为了展示 Mamba 的意义，我们全面回顾了 Mamba 模型的架构设计、数据适应性和应用等方面的相关研究。最后，我们讨论了当前的局限性，并探索了各种有前景的研究方向，为未来的研究提供更深入的见解。

负责任是明智之举：探索基于人工智能的电网服务的技术和监管格局

分类： 人工智能

作者： Anna Volkova, Mahdieh Hatamian, Alina Anapyanova, Hermann de Meer

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01121v1

摘要： 人工智能和电网数字化的出现，为智能电网人工智能服务带来了众多有效的应用场景。然而，由于法规不明确和缺乏风险量化技术，在关键基础设施中采用人工智能面临着挑战。将基于人工智能的服务集成到智能电网中的受监管和负责任的方法可以加速创新方法在日常实践中的采用，并解决社会的普遍安全问题。本文通过定义问责制并强调其对能源领域基于人工智能的服务的重要性，为实现这一目标做出了贡献。它强调了《人工智能法案》当前的缺陷，并提出了一种在潜在的授权法案中解决这些问题的方法。所提出的用于开发和运营基于人工智能的负责任智能电网服务的技术方法可以评估不同的服务生命周期阶段并识别相关的问责风险。

BioRAG：生物问题推理的 RAG-LLM 框架

分类： 计算和语言, 人工智能, 信息检索

作者： Chengrui Wang, Qingqing Long, Xiao Meng, Xunxin Cai, Chengjun Wu, Zhen Meng, Xuezhi Wang, Yuanchun Zhou

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01107v1

摘要： 生命科学研究的问答系统具有发现速度快、见解不断发展以及知识实体之间复杂交互的特点，这对维护全面的知识仓库和准确的信息检索提出了独特的挑战。为了解决这些问题，我们引入了 BioRAG，这是一种具有大型语言模型 (LLM) 框架的新型检索增强生成 (RAG)。我们的方法首先对 2200 万篇科学论文进行解析、索引和分段作为基础知识，然后训练针对该领域的专门嵌入模型。此外，我们通过合并特定领域的知识层次结构来增强向量检索过程，这有助于对每个查询和上下文之间复杂的相互关系进行建模。对于需要最新信息的查询，BioRAG 会解构问题，并采用与搜索引擎相结合的迭代检索过程来进行逐步推理。严格的实验表明，我们的模型在多个生命科学问答任务中优于微调的 LLM、带有搜索引擎的 LLM 以及其他科学 RAG 框架。

基于贡献的低阶自适应与预训练模型用于真实图像恢复

分类： 计算机视觉和模式识别, 人工智能

作者： Donwon Park, Hayeon Kim, Se Young Chun

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01099v1

摘要： 近年来，借助掩码建模和即时调优，预训练模型和高效参数调优在自然语言处理和高级计算机视觉领域取得了显着的成功。然而，在低级计算机视觉中，对预训练模型的研究有限，甚至尚未探索有效的微调策略，尽管它在各种现实世界任务中具有重要性和益处，例如在集成时缓解内存膨胀问题人工智能边缘设备上的新任务。在这里，我们提出了一种新颖的有效参数调整方法，称为基于贡献的低秩自适应（CoLoRA），用于多个图像恢复以及具有随机阶次降级（PROD）的有效预训练方法。与调整所有网络参数的现有技术不同，我们的 CoLoRA 通过利用 LoRA（低秩自适应）为每个新的视觉任务有效地微调少量参数，并使用我们基于贡献的方法自适应地确定该任务的逐层容量，产生与完全调优相当的性能。此外，我们的 PROD 策略允许扩展预训练模型的能力，提高性能和鲁棒性，以桥接综合预训练和现实世界的微调。我们的带有 PROD 的 CoLoRA 在已知和新颖任务的合成和真实数据集上的各种图像恢复任务中展示了其卓越的性能，跨越不同的退化类型。

六龙再次飞翔：用变形金刚和新颖编码复兴 15 世纪韩国宫廷音乐

分类： 声音, 人工智能, 音频和语音处理

作者： Danbinaerin Han, Mark Gotham, Dongmin Kim, Hannah Park, Sihun Lee, Dasaem Jeong

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01096v1

摘要： 我们介绍一个项目，该项目复兴了一首 15 世纪韩国宫廷音乐《Chihwapheng》和《Chwifengghyeon》，该音乐是根据《龙腾天》这首诗创作的。这是韩国乐谱系统 Jeongganbo 的最早例子之一，其余版本仅包含基本的旋律。我们的研究团队受国立国乐中心委托，旨在将这首古老的旋律转变成可供演奏的六声部合奏曲。使用通过定制光学音乐识别获得的 Jeongganbo 数据，我们训练了类似 BERT 的掩码语言模型和编码器-解码器变换器模型。我们还提出了一种严格遵循 Jeongganbo 结构并将音符持续时间表示为位置的编码方案。机器改造版的《致和平》和《致风镜》经过专家评估，并由国立国乐院宫廷管弦乐团演奏。我们的工作表明，如果与精心设计相结合，生成模型可以成功应用于训练数据有限的传统音乐。

剖析不和谐：针对自相矛盾的指令对大型多模态模型进行基准测试

分类： 人工智能

作者： Jin Gao, Lei Gan, Yuankai Li, Yixin Ye, Dequan Wang

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01091v2

摘要： 大型多模式模型 (LMM) 擅长遵守人类指令。然而，由于多模态交互和上下文长度的增加趋势，可能会出现自相矛盾的指令，这对语言初学者和弱势群体来说是一个挑战。我们引入了自相矛盾指令基准来评估 LMM 识别冲突命令的能力。它包含 20,000 个冲突，均匀分布在语言和视觉范式之间。它是由一种新颖的自动数据集创建框架构建的，该框架加快了流程并使我们能够涵盖广泛的指令形式。我们的综合评估表明，由于缺乏自我意识，当前的 LMM 始终难以识别多模式指令的不一致。因此，我们提出认知觉醒提示从外部注入认知，很大程度上增强了失调检测。数据集和代码位于：https://selfcontradiction.github.io/。

EAP-AIAS：调整学术英语人工智能评估量表

分类： 计算机与社会, 人工智能

作者： Jasper Roe, Mike Perkins, Yulia Tregubova

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01075v1

摘要： 生成人工智能（GenAI）的快速发展为学术英语（EAP）教学带来了机遇和挑战。本文提出了专门针对 EAP 环境定制的人工智能评估量表 (AIAS)，称为 EAP-AIAS。该框架旨在提供一种结构化方法，将 GenAI 工具集成到 EAP 评估实践中，同时保持学术诚信并支持语言发展。 EAP-AIAS 包含五个级别，从“无 AI”到“全 AI”，每个级别都描述了 EAP 任务中 GenAI 的适当使用。考虑到语言学习者的独特需求以及 EAP 对语言能力和学术文化的双重关注，我们讨论了这种调整背后的基本原理。本文探讨了 EAP-AIAS 在各种 EAP 评估类型中的潜在应用，包括写作任务、演示和研究项目。通过提供灵活的框架，EAP-AIAS 旨在帮助 EAP 从业者应对 GenAI 教育整合的复杂性，并为学生迎接人工智能增强的学术和职业未来做好准备。这一调整代表着朝着解决语言教育中对道德和教学上合理的人工智能整合的迫切需求迈出了一步。

强化学习中自我对战方法的调查

分类： 人工智能

作者： Ruize Zhang, Zelai Xu, Chengdong Ma, Chao Yu, Wei-Wei Tu, Shiyu Huang, Deheng Ye, Wenbo Ding, Yaodong Yang, Yu Wang

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01072v1

摘要： 自我游戏的特点是智能体与自身的副本或过去版本的交互，最近在强化学习中得到了重视。本文首先阐明了自我对战的预备知识，包括多智能体强化学习框架和基本博弈论概念。然后提供了一个统一的框架，并在这个框架内对现有的自我对战算法进行了分类。此外，本文通过说明自我对弈在不同场景中的作用，弥合了算法与其实际意义之间的差距。最后，调查强调了自我对弈中的开放挑战和未来研究方向。这篇论文是理解强化学习中自我对战的多方面景观的重要指南。

LLM 作为运行时错误处理程序：软件系统自适应自我修复的有前途的途径

分类： 软件工程, 人工智能, 密码学和安全

作者： Zhensu Sun, Haotian Zhu, Bowen Xu, Xiaoning Du, Li Li, David Lo

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01055v1

摘要： 缺少预定义处理程序的意外运行时错误可能会突然终止执行并导致严重后果，例如数据丢失或系统崩溃。尽管在开发阶段付出了大量努力来识别潜在错误，但要完全消除此类意外错误仍然是一个挑战，因此运行时缓解措施仍然是必不可少的，以最大限度地减少其影响。人们已经研究了自动自我修复技术，例如重用现有处理程序，以减少执行终止带来的损失。然而，现有方法的可用性由其预定义的启发式规则保留，并且它们无法自适应地处理各种运行时错误。最近，大型语言模型（LLM）的出现为解决这个问题开辟了新途径。受到 LLM 在理解和生成代码方面的卓越能力的启发，我们建议使用 LLM 实时处理运行时错误。具体来说，我们提出了 Healer，这是第一个用于处理运行时错误的 LLM 辅助自我修复框架。当发生未处理的运行时错误时，Healer会被激活，借助其内部的LLM生成一段错误处理代码，并在框架拥有的运行时环境中执行该代码，以获得纠正后的程序状态，并从该状态中恢复错误处理。程序应该继续执行。我们的探索性研究使用四种不同的代码基准和三种最先进的 LLM（GPT-3.5、GPT-4 和 CodeQwen-7B）来评估 Healer 的性能。结果表明，无需任何微调，GPT-4 可以成功帮助程序从 72.8% 的运行时错误中恢复，凸显了 LLM 在处理运行时错误方面的潜力。

从干到严：人工智能价值链的可竞争性

分类： 人工智能, 计算机与社会, 人机交互

作者： Agathe Balayn, Yulu Pi, David Gray Widder, Kars Alfrink, Mireia Yurrita, Sohini Upadhyay, Naveena Karusala, Henrietta Lyons, Cagatay Turkay, Christelle Tessono, Blair Attard-Frost, Ujwal Gadiraju

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01051v1

摘要： 本次研讨会将发展和巩固跨学科 CSCW 研究人员社区，重点关注可争议的人工智能主题。作为研讨会的成果，我们将以研究路线图的形式综合人工智能价值链中最紧迫的竞争机遇和挑战。该路线图将有助于塑造和启发该领域即将开展的工作。考虑到人工智能价值链的长度和深度，这将特别引发围绕此类链各个站点的人工智能系统的可竞争性的讨论。该研讨会将作为对话和展示（可能或应该）有争议的人工智能系统的具体、成功和不成功示例的平台，以确定在各种背景下设计和部署可争议人工智能的要求、障碍和机会。这将主要以面对面研讨会的形式举行，并提供一些混合住宿。这一天将包括个人演讲和小组活动，以激发创意并激发对可竞争人工智能领域的广泛反思。我们的目标是通过将研究人员、从业者和利益相关者聚集在一起，促进跨学科对话，以促进可竞争人工智能的设计和部署。

跨域环境中具体指令遵循的语义技能基础

分类： 人工智能

作者： Sangwoo Shin, Seunghyun Kim, Youngsoo Jang, Moontae Lee, Honguk Woo

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01024v1

摘要： 在具体指令遵循 (EIF) 中，预训练语言模型 (LM) 作为任务规划器的集成成为一个重要分支，其中通过提示 LM 提供预训练技能和用户指令来在技能级别规划任务。然而，由于这些预先训练的技能与特定领域的知识错综复杂，因此在不同领域扎根这些技能仍然具有挑战性。为了应对这一挑战，我们提出了一个语义技能基础（SemGro）框架，该框架利用了语义技能的分层性质。 SemGro 认识到这些技能的广泛范围，从跨领域普遍适用的短期低语义技能到高度专业化并针对特定领域量身定制的长期丰富语义技能。该框架采用迭代技能分解方法，从语义技能层次结构的较高级别开始，然后向下移动，以便将每个计划的技能落地到目标领域内的可执行级别。为此，我们使用语言模型的推理能力来组合和分解语义技能，以及它们的多模态扩展来评估目标领域的技能可行性。我们在 VirtualHome 基准测试中的实验显示了 SemGro 在 300 个跨域 EIF 场景中的功效。

GNN-MolKAN：利用 KAN 的力量通过 GNN 推进分子表示学习

分类： 机器学习, 人工智能

作者： Ruifeng Li

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01018v1

摘要： 有效的分子表示学习对于分子特性预测和药物设计至关重要。然而，现有的方法存在注释不足和架构设计欠佳的局限性。例如，图神经网络（GNN）遭受过度挤压，导致分子中重要结构细节的丢失，从而损害分子表征。在这项工作中，我们提出了一类新的 GNN：GNN-MolKAN 及其增强变体 GNN-MolKAN+，它将 AI + Science 中的 Kolmogorov-Arnold 网络 (KAN) 架构集成到 GNN 中以应对这些挑战。此外，我们还引入了 Adaptive FastKAN (AdFastKAN)，这是一种先进的 KAN，可提供更高的稳定性和速度，进一步增强标准 GNN 的性能。值得注意的是，我们的方法具有三个关键优势：1）卓越的性能：GNN-MolKAN 和 GNN-MolKAN+ 表现出卓越的预测能力、对看不见的支架的强大泛化能力以及跨不同 GNN 架构的多功能可移植性。 2）效率：这些模型需要更少的计算时间和更少的参数，同时匹配或超越最先进的（SOTA）自监督方法。 3）少样本学习能力：GNN-MolKAN 在少样本学习场景中展现出巨大的潜力，在少样本基准测试中平均提高了 6.97%。总体而言，我们在 6 个分类数据集、6 个回归数据集和 4 个小样本学习数据集上验证了我们的架构，在所有数据集上始终如一地取得了极具竞争力的结果。

IBB 交通图数据：基准测试和道路交通预测模型

分类： 机器学习, 人工智能, 信息论, 信息论

作者： Eren Olug, Kiymet Kaya, Resul Tugay, Sule Gunduz Oguducu

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01016v1

摘要： 道路交通拥堵预测是智能交通系统的重要组成部分，因为它可以实现主动交通管理、增强郊区体验、减少环境影响并提高整体安全性和效率。尽管有多个公共数据集，特别是针对大城市地区的公共数据集，但由于数据规模（即传感器数量和道路链接）的不足以及目标区域不同特征等一些外部因素，这些数据集可能不适用于实际场景。作为城市、高速公路和数据采集地点。为了解决这个问题，本文引入了一种新颖的 IBB 流量图数据集作为替代基准数据集，以减轻这些限制并用新的地理特征丰富文献。 IBB 交通图数据集涵盖了在 2451 个不同位置收集的传感器数据。此外，我们提出了一种新颖的道路交通预测模型，该模型通过特征工程、GLEE 节点嵌入来表示交通网络内的相互关联关系以及 ExtraTrees 的交通预测来加强时间链接。结果表明，所提出的模型始终优于基线模型，平均准确度提高了 4%。

张量训练低秩逼近 (TT-LoRA)：通过加速大语言模型使 AI 大众化

分类： 机器学习, 人工智能

作者： Afia Anjum, Maksim E. Eren, Ismael Boureima, Boian Alexandrov, Manish Bhattarai

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01008v1

摘要： 近年来，大型语言模型 (LLM) 在各种自然语言处理 (NLP) 任务中表现出了卓越的能力，例如问答、情感分析、文本摘要和机器翻译。然而，大语言模型不断增长的复杂性需要大量的计算资源，阻碍了这些模型的更广泛的研究和应用。为了解决这个问题，人们开发了各种参数有效的微调策略，例如低秩近似（LoRA）和适配器。尽管它们具有潜力，但这些方法通常面临可压缩性的限制。具体来说，随着现代大规模大语言模型中可训练参数数量的增加，LoRA 难以有效地扩展。此外，利用张量序列分解的低阶经济张量序列自适应（LoRETTA）尚未达到在资源有限的情况下微调超大规模模型所需的压缩水平。本文介绍了张量序列低秩逼近 (TT-LoRA)，这是一种新颖的参数高效微调 (PEFT) 方法，它通过优化张量序列 (TT) 分解集成扩展了 LoRETTA。通过消除适配器和传统的基于 LoRA 的结构，TT-LoRA 在不影响下游任务性能的情况下实现了更大的模型压缩，同时减少了推理延迟和计算开销。我们进行详尽的参数搜索，以建立突出模型压缩和性能之间权衡的基准。我们的结果表明，LLM 得到了显着压缩，同时保持了与大型模型相当的性能，从而促进了它们在资源受限平台上的部署。

Piculet：专门模型引导多模态大语言模型的幻觉减少

分类： 人工智能

作者： Kohou Wang, Xiang Liu, Zhaoxiang Liu, Kai Wang, Shiguo Lian

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01003v1

摘要： 多模态大语言模型（MLLM）在弥合视觉和语言模态之间的差距方面取得了重大进展。然而，MLLM 中生成的文本与图像内容不一致的幻觉仍然是一个重大挑战。现有的解决幻觉的方法通常依赖于指令调整，这需要使用特定数据重新训练模型，这增加了进一步利用 MLLM 的成本。在本文中，我们介绍了一种新颖的免训练方法，称为 Piculet，用于增强 MLLM 的输入表示。 Piculet 利用多个专用模型从输入图像中提取视觉信息的描述，并将这些描述与原始图像和查询相结合，作为 MLLM 的输入。我们对我们的方法进行了定量和定性评估，结果表明 Piculet 大大减少了 MLLM 的幻觉。我们的方法可以轻松扩展到不同的 MLLM，同时具有通用性。

FBSDiff：扩散特征的即插即用频段替代，用于高度可控的文本驱动图像翻译

分类： 计算机视觉和模式识别, 人工智能

作者： Xiang Gao, Jiaying Liu

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.00998v1

摘要： 大规模文本到图像的扩散模型是生成式人工智能和多模态技术发展的革命性里程碑，允许基于自然语言文本提示生成非凡的图像。然而，此类模型缺乏可控性的问题限制了它们在现实生活内容创建中的实际适用性，为此，人们的注意力集中在利用参考图像来控制文本到图像的合成。由于参考图像和生成图像之间的密切相关性，该问题也可以被视为根据文本操纵（或编辑）参考图像的任务，即文本驱动的图像到图像的翻译。本文提出了一种新颖、简洁、高效的方法，以即插即用的方式将预训练的大规模文本到图像（T2I）扩散模型适应图像到图像（I2I）范式，无需任何模型训练、模型微调或在线优化过程，即可实现高质量且多功能的文本驱动 I2I 翻译。为了用参考图像指导 T2I 生成，我们建议在 DCT 谱空间中对具有相应不同扩散特征频带的多种引导因子进行建模，并相应地设计一种新颖的频带替换层，动态地替换扩散的某个 DCT 频带在反向采样过程中将特征与参考图像的相应对应部分进行比较。我们证明，我们的方法只需分别调整替换频带的类型和带宽，即可在参考图像的引导因子和引导强度方面灵活地实现高度可控的文本驱动的 I2I 翻译。大量的定性和定量实验验证了我们的方法在 I2I 翻译视觉质量、多功能性和可控性方面优于相关方法。

安全约束网格环境中无模型任务适应的安全探索策略

分类： 人工智能

作者： Erfan Entezami, Mahsa Sahebdel, Dhawal Gupta

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.00997v1

摘要： 训练无模型强化学习代理需要允许代理充分探索环境以搜索最佳策略。在安全受限的环境中，利用无监督的探索或非最优策略可能会导致智能体进入不良状态，从而导致对智能体和环境都造成潜在成本高昂或危险的结果。在本文中，我们介绍了一种用于导航网格环境的新探索框架，该框架使无模型代理能够与环境交互，同时遵守安全约束。我们的框架包括一个预训练阶段，在此阶段，代理学习根据环境中可观察的特征和指定的安全约束来识别潜在的不安全状态。随后，训练二元分类模型来预测表现出类似动态的新环境中的那些不安全状态。这种训练有素的分类器使无模型代理能够确定采用随机探索或次优策略可能带来安全风险的情况，在这种情况下，我们的框架会提示代理遵循预定义的安全策略，以减轻潜在的危险后果。我们在三个随机生成的网格环境上评估了我们的框架，并演示了无模型代理如何安全地适应新任务并学习新环境的最佳策略。我们的结果表明，通过定义适当的安全策略并利用训练有素的模型来检测不安全状态，我们的框架使无模型代理能够适应新的任务和环境，同时显着减少安全违规。

IncidentNet：利用稀疏感知进行交通事件检测、定位和严重性估计

分类： 机器学习, 人工智能

作者： Sai Shashank Peddiraju, Kaustubh Harapanahalli, Edward Andert, Aviral Shrivastava

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.00996v1

摘要： 交通事件检测中的现有技术依赖于高传感器覆盖范围，并且主要基于表示能力有限的决策树和随机森林模型，因此不能高精度地检测事件。本文提出了 IncidentNet——一种使用深度学习模型对交通事故进行分类、定位和估计严重性的新方法，该模型根据从城市环境中稀疏放置的传感器捕获的数据进行训练。我们的模型适用于微观交通数据，这些数据可以使用安装在交通路口的摄像头收集。由于无法同时提供微观交通详细信息和交通事件详细信息的数据集，我们还提出了一种生成与给定宏观交通数据相匹配的合成微观交通数据集的方法。 IncidentNet实现了98%的交通事件检测率，在城市环境中，在不到20%的交通路口安装摄像头的情况下，平均197秒误报率低于7%。

ArchCode：将软件需求纳入大型语言模型的代码生成中

分类： 软件工程, 人工智能, 计算和语言

作者： Hojae Han, Jaejin Kim, Jaeseok Yoo, Youngwon Lee, Seung-won Hwang

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.00994v1

摘要： 本文旨在扩展大型语言模型（LLM）的代码生成能力，以根据给定的文本描述自动管理全面的软件需求。这些要求包括功能性（即实现输入的预期行为）和非功能性（例如时间/空间性能、稳健性、可维护性）要求。然而，文字描述可以详细地表达需求，甚至可以省略其中一些需求。我们引入了 ARCHCODE，这是一种新颖的框架，它利用上下文学习来组织描述中观察到的需求，并从中推断出未表达的需求。 ARCHCODE 根据给定的描述生成需求，调整它们以生成代码片段和测试用例。每个测试用例都是根据其中一项需求定制的，允许根据代码片段的执行结果与需求的符合程度对代码片段进行排名。公共基准测试表明 ARCHCODE 进行了增强以满足功能要求，显着提高了 Pass@k 分数。此外，我们还引入了 HumanEval-NFR，这是对代码生成中大语言模型非功能性需求的首次评估，证明了 ARCHCODE 相对于基线方法的优越性。 ARCHCODE 和 HumanEval-NFR 基准测试的实施都是可公开访问的。

具有恶意代理的多代理系统的弹性

分类： 人工智能

作者： Jen-tse Huang, Jiaxu Zhou, Tailin Jin, Xuhui Zhou, Zixi Chen, Wenxuan Wang, Youliang Yuan, Maarten Sap, Michael R. Lyu

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.00989v1

摘要： 由大型语言模型支持的多代理系统，由于专家代理的协作，每个人都专注于特定领域，因此在各种任务中表现出了强大的能力。然而，当单独部署代理时，存在恶意用户可能引入恶意代理的风险，这些恶意代理会生成不正确或不相关的结果，这些结果过于隐秘而无法被其他非专业代理识别。因此，本文研究了两个基本问题：（1）各种多智能体系统结构的弹性是什么（例如，A$\rightarrow$B$\rightarrow$C、A$\leftrightarrow$B$\leftrightarrow$C）在恶意代理下，在不同的下游任务上？ (2) 如何提高系统抵御恶意代理的弹性？为了模拟恶意代理，我们设计了两种方法：AutoTransform 和 AutoInject，将任何代理转换为恶意代理，同时保留其功能完整性。我们对四个下游多智能体系统任务进行了全面的实验，即代码生成、数学问题、翻译和文本评估。结果表明，“分层”多智能体结构，即 A$\rightarrow$(B$\leftrightarrow$C)，表现出卓越的弹性，性能下降最低为 $23.6%$，而 $46.4%$ 和 $49.8其他两个结构的%$。此外，我们通过证明两种防御方法（引入额外的代理来审查和纠正消息或每个代理挑战其他代理的输出的机制）可以增强系统的弹性，从而展示了提高多代理系统弹性的前景。我们的代码和数据可在 https://github.com/CUHK-ARISE/MAS-Resilience 获取。

基于 SAT 的贝叶斯网络严格验证方法

分类： 人工智能, 计算机科学中的逻辑

作者： Ignacy Stępka, Nicholas Gisolfi, Artur Dubrawski

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.00986v1

摘要： 机器学习的最新进展加速了其在各种实际应用中的广泛采用。然而，在安全关键领域，机器学习模型的部署由于其复杂性、缺乏可解释性以及缺乏对其行为的正式保证而充满挑战。在本文中，我们介绍了一个为贝叶斯网络量身定制的验证框架，旨在解决这些缺点。我们的框架包含两个关键组件：（1）将贝叶斯网络转换为布尔逻辑文字的两步编译和编码方案，以及（2）利用这些文字来验证编码为约束的各种属性的形式验证查询。具体来说，我们引入了两种验证查询：if-then 规则（ITR）和特征单调性（FMO）。我们对验证方案的效率进行基准测试，并展示其在现实场景中的实用性。

整合 ESG 和 AI：全面的负责任的 AI 评估框架

分类： 人工智能

作者： Sung Une Lee, Harsha Perera, Yue Liu, Boming Xia, Qinghua Lu, Liming Zhu

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.00965v1

摘要： 人工智能 (AI) 是一项在整个行业领域广泛开发和采用的技术。将环境、社会和治理（ESG）考虑因素与人工智能投资相结合对于确保道德和可持续的技术进步至关重要。特别是从投资者的角度来看，这种整合不仅可以降低风险，还可以通过使人工智能计划与更广泛的社会目标保持一致来增强长期价值创造。然而，学术界和工业界对这一领域的探索较少。为了弥补这一差距，我们引入了一种新颖的 ESG-AI 框架，该框架是根据与 28 家公司合作的见解而开发的，由三个关键组成部分组成。该框架为这种集成提供了一种结构化方法，是与行业从业者合作开发的。 ESG-AI框架概述了人工智能应用的环境和社会影响，帮助投资者等用户评估人工智能使用的重要性。此外，它使投资者能够通过结构化参与和对特定风险领域的全面评估来评估公司对负责任的人工智能的承诺。我们于2024年4月公开发布了框架和工具包，得到了投资界的高度关注和积极反馈。本文详细介绍了该框架的每个组成部分，展示了其在现实世界中的适用性以及指导道德人工智能投资的潜力。

PERSOMA：用于个性化语言提示的个性化软件提示适配器架构

分类： 计算和语言, 人工智能, 信息检索

作者： Liam Hebert, Krishna Sayana, Ambarish Jash, Alexandros Karatzoglou, Sukhdeep Sodhi, Sumanth Doddapaneni, Yanli Cai, Dima Kuzmin

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.00960v1

摘要： 了解用户广泛的交互历史的细微差别是构建准确且个性化的自然语言系统的关键，该系统可以适应不断变化的用户偏好。为了解决这个问题，我们引入了 PERSOMA，个性化软提示适配器架构。与之前针对大型语言模型的个性化提示方法不同，PERSOMA 提供了一种有效捕获用户历史记录的新颖方法。它通过将交互作为自由格式文本重新采样并压缩为富有表现力的软提示嵌入来实现这一目标，这是基于利用嵌入表示作为大语言模型输入的最新研究。我们通过评估各种适配器架构、第一阶段采样策略、LoRA 等参数高效调整技术以及其他个性化方法来严格验证我们的方法。我们的结果表明，与现有的基于嵌入和基于文本提示的技术相比，PERSOMA 具有处理大型且复杂的用户历史记录的卓越能力。

人工智能中总体不确定性的概括：理论研究

分类： 人工智能, 机器学习, 可能性, 机器学习

作者： Keivan Shariatmadar

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00946v1

摘要： 人工智能一直在应对不确定性，以获得高度准确的结果。对于相当小的数据集或数据集的变化，情况会变得更糟。这对决策、预测和学习机制产生深远影响。本研究旨在通过从已有著作、最新发展和实际应用中汲取灵感，揭示人工智能中存在的不确定性的本质，并提供人工智能中新颖的总体不确定性定义。从最初的理论到当前的方法论，本文提供了处理人工智能中更好的总体不确定性以及不确定性复杂性的综合观点，帮助我们理解其在不同领域的意义和价值。

CIResDiff：用于预测特发性肺纤维化进展的临床知情残留扩散模型

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Caiwen Jiang, Xiaodan Xing, Zaixin Ou, Mianxin Liu, Walsh Simon, Guang Yang, Dinggang Shen

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00938v1

摘要： 特发性肺纤维化（IPF）的进展与较高的患者死亡率显着相关。早期发现IPF进展对于及时开始治疗至关重要，可以有效减缓疾病的进展。然而，目前的临床标准定义疾病进展需要间隔一年进行两次CT扫描，这就带来了一个困境：只有在疾病已经进展之后才能识别疾病进展。为此，在本文中，我们开发了一种新颖的扩散模型，通过从初始 CT 扫描生成患者的后续 CT 扫描来准确预测 IPF 的进展。具体来说，根据临床先验知识，我们对传统扩散模型进行了改进，并提出了一种临床知情的残留扩散模型，称为 CIResDiff。 CIResDiff的关键创新包括：1）进行目标区域预配准，将不同时间点的两次CT扫描的肺部区域对齐，以降低生成难度；2）采用残余扩散代替传统扩散，使模型更加聚焦基于两次CT扫描之间的差异（即病变）而不是大致相同的解剖内容，3）设计基于CLIP技术的临床知情流程，将与诊断高度相关的肺功能信息整合到逆向流程中以辅助诊断一代。对临床数据的大量实验表明，我们的方法可以优于最先进的方法，并有效预测 IPF 的进展。

在 GPU 上实现高数据吞吐量强化学习：数据驱动科学研究的领域无关框架

分类： 机器学习, 人工智能

作者： Tian Lan, Huan Wang, Caiming Xiong, Silvio Savarese

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00930v1

摘要： 我们引入了 WarpSci，这是一个与领域无关的框架，旨在克服将强化学习应用到具有高维观察或动作空间的大量数据集的复杂环境中遇到的关键系统瓶颈。值得注意的是，我们的框架消除了 CPU 和 GPU 之间的数据传输需求，从而能够在单个或多个 GPU 上并发执行数千个模拟。事实证明，这种高数据吞吐量架构对于数据驱动的科学研究特别有利，其中复杂的环境模型通常至关重要。

白皮书：使用 GCG 后缀进行数据泄露的简要探索

分类： 密码学和安全, 人工智能

作者： Victor Valbuena

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00925v1

摘要： 交叉提示注入攻击 (XPIA) 是一种可用于数据泄露的有效技术，并且其使用量正在不断增加。在此攻击中，攻击者将恶意指令注入第三方数据中，LLM 在帮助受害者用户时可能会消耗这些数据。 XPIA 通常被用作数据泄露的一种手段，预计企业的平均数据泄露成本接近 450 万美元，其中包括企业凭据泄露等泄露。随着GCG后缀攻击等基于梯度的攻击的兴起，使用GCG后缀的XPIA发生的几率高得令人担忧。作为我在 Microsoft AI Red Team 工作的一部分，我在模拟 XPIA 场景中使用 GCG 后缀与注入相结合，演示了一种可行的攻击模型。结果表明，GCG 后缀的存在可以使数据泄露成功的几率增加近 20%，但有一些注意事项。

回收残余知识：低位量化的新范式

分类： 计算机视觉和模式识别, 人工智能

作者： Róisín Luo, Alexandru Drimbarean, James McDermott, Colm O'Riordan

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00923v1

摘要： 本文通过将最优量化构建为卷积神经网络 (ConvNet) 中的架构搜索问题，探索了一种不同于现有最先进方法的低位（即 4 位或更低）量化的新颖范式。我们的框架被称为\textbf{CoRa}（最优量化残差\textbf{Co}nvolutional Operator Low-\textbf{Ra}nk Adaptation），其动机有两个关键方面。首先，量化残留知识，即浮点权重和量化权重之间丢失的信息，长期以来一直被研究界忽视。以极小的额外参数成本回收关键的剩余知识，无需训练即可逆转性能下降。其次，最先进的量化框架寻找最佳量化权重来解决性能下降问题。然而，权重优化中巨大的搜索空间对大型模型的有效优化提出了挑战。例如，最先进的 BRECQ 需要 $2 \times 10^4$ 迭代来量化模型。与现有方法根本不同，\textbf{CoRa} 搜索低秩适配器的最佳架构，在比权重空间小许多数量级的搜索空间内回收关键的量化残留知识。低秩适配器近似量化残余权重，在以前的方法中被丢弃。我们在 ImageNet 上的多个预训练 ConvNet 上评估了我们的方法。 \textbf{CoRa} 通过在小型机器上使用不到 250 美元的迭代，在 4 美元位和 3 美元位量化中实现了与最先进的量化感知训练和训练后量化基线相当的性能校准套件包含价值 1600 美元的图像。因此，\textbf{CoRa} 在低比特量化的优化效率方面建立了新的最先进技术。

授予 GPT-4 许可和机会：提高少样本事件检测的准确性和置信度估计

分类： 人工智能, 计算和语言

作者： Steven Fincke, Adrien Bibal, Elizabeth Boschee

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00914v1

摘要： GPT-4 等大型语言模型 (LLM) 在小样本学习环境中显示出足够的前景，建议用于生成“银”数据并通过迭代应用和审查来完善新本体。通过可靠的置信度估计，此类工作流程变得更加有效。不幸的是，置信度估计是 GPT-4 等模型的一个有记录的弱点，并且已建立的补偿方法需要大量额外的复杂性和计算。目前的工作探索了使用 GPT-4 进行有效置信度估计的方法，并以 BETTER 本体作为载体进行事件检测的少样本学习。关键创新在于扩展了向 GPT-4 提出的提示和任务，以提供在不确定时进行推测的许可以及量化和解释其不确定性 (L&O) 的机会。这种方法提高了准确性并提供了可用的置信度测量 (0.759 AUC)，无需额外的机器。

使用带有梯度加权图注意解释的多头图结构学习从静息态脑电图检测帕金森病

分类： 机器学习, 人工智能

作者： Christopher Neves, Yong Zeng, Yiming Xiao

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00906v1

摘要： 帕金森病 (PD) 是一种使人衰弱的神经退行性疾病，严重影响个人的生活质量。与基于结构和功能 MRI 的疾病生物标志物相比，脑电图 (EEG) 可以为临床洞察提供更容易获得的替代方案。虽然深度学习 (DL) 技术提供了出色的结果，但许多技术无法对空间信息和动态大脑连接进行建模，并面临强大的特征学习、有限的数据大小和可解释性差等挑战。为了解决这些问题，我们提出了一种新颖的图神经网络 (GNN) 技术，用于使用静息态脑电图进行可解释的 PD 检测。具体来说，我们采用具有对比学习的结构化全局卷积来更好地对有限数据的复杂特征进行建模，采用新颖的多头图结构学习器来捕获脑电图数据的非欧几里得结构，并采用逐头梯度加权图注意解释器来提供神经连接见解。我们使用加州大学圣地亚哥分校帕金森病脑电图数据集开发和评估了我们的方法，并在主题留一交叉验证中实现了 69.40% 的检测准确率，同时为学习的图拓扑生成直观的解释。

富有表现力的 MIDI 格式钢琴演奏生成

分类： 声音, 人工智能, 音频和语音处理

作者： Jingwei Liu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00900v1

摘要： 这项工作提出了一种生成神经网络，能够以 MIDI 格式生成富有表现力的钢琴演奏。音乐表现力通过生动的微定时、丰富的复调质感、变化的力度和延音踏板效果来体现。该模型从数据处理到神经网络设计等多个方面都有创新。我们声称，这种象征性音乐生成模型克服了对象征性音乐的常见批评，并且能够生成与原始音频生成一样好（甚至更好）的富有表现力的音乐流。一个缺点是，由于提交时间有限，模型没有经过微调和充分训练，因此生成的结果在某些点上可能听起来不连贯和随机。尽管如此，该模型显示了其强大的生成能力，可以生成富有表现力的钢琴曲。

单调与平方概率电路之间的关系

分类： 机器学习, 人工智能

作者： Benjie Wang, Guy Van den Broeck

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00876v1

摘要： 概率电路是将函数统一表示为加权和和乘积的计算图。它们的主要应用是概率建模，其中具有非负权重的电路（单调电路）可用于表示和学习密度/质量函数，并具有易于处理的边际推理。最近，有人建议将密度表示为电路函数的平方（平方电路）；这允许使用负权重，同时保持易处理性，并且可以比单调电路更加紧凑。不幸的是，我们证明相反的情况也成立，这意味着单调电路和平方电路通常是无法比较的。这就提出了我们是否可以协调并确实改进这两种建模方法的问题。我们通过提出 InceptionPC 来给出肯定的回答，这是一种新型电路，自然地包含单调电路和平方电路作为特殊情况，并采用复杂的参数。根据经验，我们验证了 InceptionPC 在图像数据集上的性能优于单调电路和平方电路。

具有可解释性的时态知识图中异常的在线检测

分类： 人工智能, 数据库, 机器学习

作者： Jiasheng Zhang, Jie Shao, Rex Ying

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00872v1

摘要： 时态知识图（TKG）是捕获实体之间不断变化的关系的宝贵资源，但它们经常受到噪声的困扰，需要强大的异常检测机制。现有的动态图异常检测方法难以捕获 TKG 中节点和边类别引入的丰富语义，而 TKG 嵌入方法缺乏可解释性，从而损害了异常检测的可信度。此外，这些方法在适应知识更新引起的模式变化和语义漂移方面表现不佳。为了应对这些挑战，我们引入了 AnoT，这是一种高效的 TKG 总结方法，专为 TKG 中的可解释在线异常检测而定制。 AnoT 首先将 TKG 总结为新颖的规则图，从而能够灵活地推断 TKG 中的复杂模式。当新知识出现时，AnoT将其映射到规则图中的节点上，并递归地遍历规则图以得出知识的异常分数。遍历产生可到达的节点，为新知识的有效性或异常性提供可解释的证据。总体而言，AnoT 体现了检测器-更新器-监视器架构，包括用于离线 TKG 总结和在线评分的检测器、基于新兴知识的实时规则图更新的更新器以及用于估计规则图近似误差的监视器。在四个真实世界数据集上的实验结果表明，AnoT 在准确性和互操作性方面显着超越了现有方法。所有原始数据集和 AnoT 的实现都在 https://github.com/zjs123/ANoT 中提供。

UniMoT：具有离散标记表示的统一分子文本语言模型

分类： 计算和语言, 人工智能, 机器学习

作者： Juzheng Zhang, Yatao Bian, Yongqiang Chen, Quanming Yao

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00863v1

摘要： 大型语言模型 (LLM) 在各种任务中取得的巨大成功促使研究界将其能力扩展到分子应用领域。然而，大多数分子大语言模型采用基于适配器的架构，这些架构并没有平等地对待分子和文本模态，并且缺乏分子模态的监督信号。为了解决这些问题，我们引入了 UniMoT，这是一种统一分子文本大语言模型，采用基于标记器的架构，通过分子标记扩展了大语言模型的词汇量。具体来说，我们引入了一种矢量量化驱动的分词器，它结合了 Q-Former 来弥合分子和文本之间的模态差距。该标记器将分子转换为具有因果依赖性的分子标记序列，封装高级分子和文本信息。配备此标记器后，UniMoT 可以在共享标记表示和自回归训练范例下统一分子和文本模式，使其能够将分子解释为外语并将其生成为文本。经过四阶段的训练计划，UniMoT 成为能够执行分子到文本和文本到分子任务的多模式通才。大量实验表明 UniMoT 在广泛的分子理解和生成任务中实现了最先进的性能。

UlRe-NeRF：通过神经渲染和超声反射方向参数化进行 3D 超声成像

分类： 人工智能

作者： Ziwen Guo, Zi Fang, Zhuang Fu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00860v1

摘要： 三维超声成像是广泛应用于医学诊断的关键技术。然而，传统的3D超声成像方法存在分辨率固定、存储效率低、上下文连接性不足等局限性，导致在处理复杂伪影和反射特性方面表现不佳。近年来，基于NeRF（神经辐射场）的技术在视图合成和3D重建方面取得了重大进展，但在高质量超声成像方面仍存在研究空白。为了解决这些问题，我们提出了一种新模型 UlRe-NeRF，它将隐式神经网络和显式超声体积渲染结合到超声神经渲染架构中。该模型结合了反射方向参数化和谐波编码，使用定向 MLP 模块生成与视图相关的高频反射强度估计，并使用空间 MLP 模块生成介质的物理属性参数。这些参数用于体绘制过程中，以准确地再现超声波在介质中的传播和反射行为。实验结果表明，UlRe-NeRF模型显着增强了高保真超声图像重建的真实性和准确性，特别是在处理复杂介质结构时。

LCM：有效且高效的新闻推荐长利益链模型

分类： 人工智能, 信息检索

作者： Zhen Yang, Wenhui Wang, Tao Qi, Peng Zhang, Tianyun Zhang, Ru Zhang, Jianyi Liu, Yongfeng Huang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00859v1

摘要： 向用户准确推荐个性化候选新闻文章一直是新闻推荐系统的核心挑战。新闻推荐通常需要对用户兴趣进行建模以匹配候选新闻。最近的努力主要集中在提取本地子图信息，缺乏全面的全球新闻图提取阻碍了相似用户之间协作利用全球新闻信息的能力。为了克服这些限制，我们提出了一种有效且高效的新闻推荐长兴趣链模型（LICM），它将邻居兴趣与基于相似用户协作的全球新闻点击图提取的长链兴趣结合起来，以增强新闻推荐。对于基于所有用户点击历史的全局新闻图，其产生的长链兴趣可以更好地利用其中的高维信息，增强协作推荐的有效性。因此，我们设计了一个全面的选择机制和兴趣编码器，以从全局图中获取长链兴趣。最后，我们使用门控网络将长链信息与邻居信息集成，以实现最终的用户表示。真实数据集上的实验结果验证了我们的模型在提高新闻推荐性能方面的有效性和效率。

校准贝叶斯生成机器学习以实现贝叶斯放大

分类： 机器学习, 人工智能, 高能物理-现象学

作者： Sebastian Bieringer, Sascha Diefenbacher, Gregor Kasieczka, Mathias Trabs

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00838v1

摘要： 最近，生成和贝叶斯机器学习的组合已被引入粒子物理学中，用于快速探测器模拟和推理任务。这些神经网络旨在量化源自有限训练统计数据的生成分布的不确定性。然而，对分布范围内的不确定性的解释仍然不明确。我们展示了一个量化贝叶斯生成机器学习模型校准的清晰方案。对于应用于低维玩具示例的连续归一化流，我们从平均场高斯权重后验或蒙特卡罗采样网络权重评估贝叶斯不确定性的校准，以衡量它们在不稳定分布边缘上的行为。然后，可以使用经过良好校准的不确定性来粗略估计与生成的样本等效的不相关真值样本的数量，并清楚地指示数据放大以实现分布的平滑特征。

Y Social：大语言模型驱动的社交媒体数字孪生

分类： 人工智能, 社交和信息网络

作者： Giulio Rossetti, Massimo Stella, Rémy Cazabet, Katherine Abramski, Erica Cau, Salvatore Citraro, Andrea Failla, Riccardo Improta, Virginia Morini, Valentina Pansanella

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00818v1

摘要： 在本文中，我们介绍了 Y，一种旨在复制在线社交媒体平台的新一代数字孪生。数字孪生是物理系统的虚拟复制品，可以进行高级分析和实验。就社交媒体而言，Y 等数字孪生为研究人员模拟和理解复杂的在线交互提供了强大的工具。 {\tt Y} 利用最先进的大型语言模型 (LLM) 来复制复杂的代理行为，从而能够准确模拟用户交互、内容传播和网络动态。通过整合这些方面，Y 提供了有关用户参与度、信息传播和平台政策影响的宝贵见解。此外，大语言模型的整合使 Y 能够生成细致入微的文本内容并预测用户响应，从而促进在线环境中新兴现象的研究。为了更好地描述所提出的数字孪生，在本文中，我们描述了其实施背后的基本原理，提供了可对其生成的数据进行分析的示例，并讨论了其与多学科研究的相关性。

通过多目标深度强化学习方法提高自适应交通信号安全和效率

分类： 机器学习, 人工智能

作者： Shahin Mirbakhsh, Mahdi Azizi

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00814v1

摘要： 本研究介绍了一种利用多目标深度强化学习（DRL）技术进行自适应交通信号控制（ATSC）的创新方法。所提出的方法旨在加强交叉口的控制策略，同时实现安全、效率和脱碳目标。传统的 ATSC 方法通常优先考虑交通效率，并且常常难以适应实时动态交通状况。为了应对这些挑战，该研究提出了一种基于 DRL 的 ATSC 算法，该算法结合了 Dueling Double Deep Q Network (D3QN) 框架。该算法的性能通过中国长沙的模拟交叉路口进行评估。值得注意的是，所提出的 ATSC 算法超越了传统 ATSC 和仅注重效率优化的 ATSC 算法，交通冲突减少了 16% 以上，碳排放减少了 4%。在交通效率方面，与传统 ATSC 相比，等待时间减少了 18%，尽管与集成 D3QN 框架的基于 DRL 的 ATSC 算法相比略有增加（0.64%）。这种边际增长表明效率与安全和脱碳等其他目标之间的权衡。此外，所提出的方法在所有三个目标上都表现出了卓越的性能，特别是在流量需求较高的场景中。这些发现为优化现实交通情况下的信号控制策略提供了实用且有效的解决方案，有助于推进交通控制系统。

MM-Vet v2：评估大型多模态模型集成功能的挑战性基准

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Weihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00765v1

摘要： MM-Vet 具有旨在评估综合能力的开放式视觉语言问题，已成为大型多模态模型评估最受欢迎的基准之一。 MM-Vet 评估六种核心视觉语言 (VL) 能力：识别、知识、空间意识、语言生成、OCR 和数学。然而，它的问题格式仅限于单个图像-文本对，缺乏现实场景中普遍存在的交错图像和文本序列。为了解决这个限制，我们引入了 MM-Vet v2，其中包括一种称为“图像文本序列理解”的新 VL 功能，用于评估模型处理 VL 序列的能力。此外，我们在保持评估样本的高质量的同时，进一步扩大了评估集的规模。使用 MM-Vet v2 对大型多模态模型进行基准测试，我们发现 Claude 3.5 Sonnet 是最好的模型，得分为 71.8，略优于得分 71.0 的 GPT-4o。在开放重量模型中，InternVL2-Llama3-76B 以 68.4 分领先。

AgentGen：通过环境和任务生成增强基于大型语言模型的 Agent 的规划能力

分类： 计算和语言, 人工智能, 机器学习

作者： Mengkang Hu, Pu Zhao, Can Xu, Qingfeng Sun, Jianguang Lou, Qingwei Lin, Ping Luo, Saravan Rajmohan, Dongmei Zhang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00764v1

摘要： 基于大型语言模型（LLM）的代理已经引起了广泛的关注并且变得越来越流行。此外，规划能力是基于 LLM 的智能体的重要组成部分，涉及与环境的交互和执行操作以完成规划任务，这通常需要从初始状态实现期望的目标。本文研究了通过指令调整（称为代理培训）来增强大语言模型的规划能力。最近的研究表明，利用专家级轨迹对大语言模型进行教学调整可以有效增强他们的规划能力。然而，现有的工作主要集中于从手动设计的规划任务和环境中合成轨迹。创建这些环境和任务的劳动密集型性质阻碍了足够多样化和广泛的轨迹的生成。为了解决这一限制，本文探索了不同环境的自动合成以及从简单到困难的逐步规划任务。我们引入了一个框架 AgentGen，它首先利用 LLM 生成环境，然后生成以这些环境为条件的规划任务。具体来说，为了提高环境多样性，我们建议使用由各种特定领域文本片段组成的灵感语料库作为合成环境的上下文。此外，为了增加生成的规划任务的难度多样性，我们提出了一种双向进化方法Bi-Evol，该方法将规划任务从更容易和更难的方向进化，以合成具有更平滑难度曲线的任务集。 AgentBoard的评估结果表明，AgentGen极大地提高了LLM的规划能力，例如，AgentGen指令调优的Llama-3 8B在整体性能上超越了GPT-3.5。而且，在某些任务中，它甚至优于 GPT-4。

开放式大语言模型的防篡改保护措施

分类： 机器学习, 人工智能, 计算和语言

作者： Rishub Tamirisa, Bhrugu Bharathi, Long Phan, Andy Zhou, Alice Gatti, Tarun Suresh, Maxwell Lin, Justin Wang, Rowan Wang, Ron Arel, Andy Zou, Dawn Song, Bo Li, Dan Hendrycks, Mantas Mazeika

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00761v1

摘要： 大型语言模型 (LLM) 功能的快速进步引起了人们对其被恶意使用的可能性的广泛担忧。开放权重大语言模型提出了独特的挑战，因为现有的保护措施缺乏对修改模型权重的篡改攻击的鲁棒性。例如，最近的研究表明，通过几个微调步骤就可以轻松消除拒绝和遗忘的保障措施。这些漏洞需要新的方法来实现开放权重大语言模型的安全发布。我们开发了一种称为 TAR 的方法，用于在开放权重 LLM 中构建防篡改保护措施，这样对手即使经过数千步微调也无法删除保护措施。在广泛的评估和红队分析中，我们发现我们的方法极大地提高了防篡改能力，同时保留了良性能力。我们的结果表明，防篡改是一个易于处理的问题，为提高开放式大语言模型的安全性开辟了一条有前景的新途径。

平滑能量引导：具有减小的注意力能量曲率的引导扩散模型

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Susung Hong

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00760v1

摘要： 条件扩散模型在视觉内容生成方面取得了显着的成功，在各个领域生成了高质量的样本，这很大程度上归功于无分类器引导（CFG）。最近将指导扩展到无条件模型的尝试依赖于启发式技术，导致生成质量不佳和意想不到的效果。在这项工作中，我们提出了平滑能量指导（SEG），这是一种新颖的无训练和无条件方法，利用自注意力机制的基于能量的视角来增强图像生成。通过定义自注意力的能量，我们引入了一种减少注意力能量景观曲率的方法，并将输出用作无条件预测。实际上，我们通过调整高斯核参数同时保持引导尺度参数固定来控制能量景观的曲率。此外，我们提出了一种查询模糊方法，相当于模糊整个注意力权重，而不会产生令牌数量的二次复杂度。在我们的实验中，SEG 在质量和副作用减少方面都实现了帕累托改进。该代码可在 \url{https://github.com/SusungHong/SEG-SDXL} 获取。

分割任何东西模型 2：2D 和 3D 医学图像的应用

分类： 计算机视觉和模式识别, 人工智能

作者： Haoyu Dong, Hanxue Gu, Yaqian Chen, Jichen Yang, Maciej A. Mazurowski

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00756v1

摘要： 分割任意模型 (SAM) 因其能够在提示下分割图像中的各种对象而受到广泛关注。最近开发的 SAM 2 已将此功能扩展到视频输入。这为将 SAM 应用到 3D 图像提供了机会，这是医学成像领域的基本任务之一。在本文中，我们对 SAM 2 分割 2D 和 3D 医学图像的能力进行了广泛的评估。我们收集了 18 个医学成像数据集，包括常见的 3D 模式，例如计算机断层扫描 (CT)、磁共振成像 (MRI) 和正电子发射断层扫描 (PET) 以及 2D 模式，例如 X 射线和超声波。我们考虑 SAM 2 的两种评估流程：(1) 多帧 3D 分割，其中向从体积中选择的一个或多个切片提供提示，以及 (2) 单帧 2D 分割，其中向每片。前者仅适用于 3D 模态，而后者适用于 2D 和 3D 模态。我们了解到，SAM 2 在单帧 2D 分割下表现出与 SAM 相似的性能，并且在多帧 3D 分割下具有不同的性能，具体取决于要注释的切片的选择、传播方向、传播过程中使用的预测等。

一款支持深度学习的智能服装，用于多功能睡眠行为监测

分类： 信号处理, 人工智能

作者： Chenyu Tang, Wentian Yi, Muzi Xu, Yuxuan Jin, Zibo Zhang, Xuhang Chen, Caizhi Liao, Peter Smielewski, Luigi G. Occhipinti

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00753v1

摘要： 持续监测和准确检测与不同睡眠相关状况相关的复杂睡眠模式至关重要，不仅可以提高睡眠质量，还可以预防与不健康睡眠相关的慢性疾病的风险。尽管研究取得了重大进展，但在家中使用简单的可穿戴设备实现对各种不健康和亚健康睡眠模式的多功能识别仍然是一项重大挑战。在这里，我们报告了一种坚固耐用的超灵敏应变传感器阵列，印在智能服装的衣领区域。该解决方案可以检测与喉外肌多种睡眠模式相关的细微振动。搭载深度学习神经网络，可精准识别鼻呼吸、口呼吸、打鼾、磨牙症、中枢性睡眠呼吸暂停（CSA）、阻塞性睡眠呼吸暂停（OSA）六种睡眠状态，准确率高达 98.6%，无需特定定位。我们在实际应用中进一步证明了其可解释性和泛化能力。可解释的人工智能 (XAI) 可视化反映了低偏差的全面信号模式分析。迁移学习测试表明，该系统可以通过很少的样本学习（每类样本少于 15 个）对新用户实现高精度（总体准确率达 95%）。智能服装的可扩展制造工艺、稳健性、高精度和出色的通用性使其成为下一代连续睡眠监测的有前景的工具。

用迭代收敛解决不完美信息博弈的策略梯度方法

分类： 计算机科学与博弈论, 人工智能, 机器学习, 机器学习

作者： Mingyang Liu, Gabriele Farina, Asuman Ozdaglar

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00751v1

摘要： 策略梯度方法已成为任何单代理强化学习工具箱的主要内容，因为它们结合了所需的特性：迭代收敛、随机轨迹反馈的有效使用以及理论上合理地避免重要性采样校正。然而，在多智能体不完美信息设置（扩展形式博弈）中，在保留理论保证的同时是否可以保证相同的需求仍然未知。相反，广泛形式博弈的合理方法依赖于近似反事实值（而不是 Q 值），这与策略梯度方法不兼容。在本文中，我们研究了策略梯度是否可以安全地用于两人零和不完美信息扩展形式博弈（EFG）。我们取得了积极的结果，首次表明策略梯度方法可以在自我博弈中导致可证明的最佳迭代收敛到正则化纳什均衡。

使用 Mask R-CNN 和 LETR Vision Transformer 进行叶角估计

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Venkat Margapuri, Prapti Thapaliya, Trevor Rife

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00749v1

摘要： 现代研究表明，高产作物品种与直立叶角植物之间存在高度相关性。据观察，具有直立叶角的植物比没有直立叶角的植物拦截更多的光，从而导致更高的光合作用速率。植物科学家和育种者受益于可以直接测量植物参数的工具，即现场表型分析。在田间环境中通过手动方式估计叶角是乏味且麻烦的。我们结合使用 Mask R-CNN 实例分割神经网络和线段变换器 (LETR)（一种视觉变换器）来缓解乏味。拟议的计算机视觉 (CV) 管道应用于两个图像数据集：Summer 2015-Ames ULA 和 Summer 2015-Ames MLA，使用 FieldBook（一款针对现场的 Android 应用程序）在现场收集的总共 1,827 张植物图像表型分析。将拟议管道在图像数据集上估计的叶角与使用 ImageJ 进行的两次独立手动测量进行比较，ImageJ 是美国国立卫生研究院和光学与计算仪器实验室开发的基于 Java 的图像处理程序。使用余弦相似度测量进行相似性比较时，结果在 2015 年夏季-艾姆斯 ULA 和 2015 年夏季-艾姆斯 MLA 图像数据集的独立测量中显示出 0.98 的相似度分数，证明了所提出的叶子现场测量流程的可行性角度。

DynamoLLM：设计 LLM 推理集群以提高性能和能源效率

分类： 人工智能, 硬件架构, 分布式、并行和集群计算

作者： Jovan Stojkovic, Chaojie Zhang, Íñigo Goiri, Josep Torrellas, Esha Choukse

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00741v1

摘要： 生成式大语言模型 (LLM) 的快速发展和广泛采用使其成为各种应用程序中的关键工作负载。如今，LLM 推理集群收到大量具有严格服务级别目标 (SLO) 的查询。为了达到所需的性能，这些模型在耗电的 GPU 上执行，导致推理集群消耗大量能源，从而导致过多的碳排放。幸运的是，我们发现有一个很好的机会利用推理计算属性的异构性和推理工作负载的波动来显着提高能源效率。然而，这种多样化和动态的环境创建了一个巨大的搜索空间，其中不同的系统配置（例如实例数量、模型并行性和 GPU 频率）会转化为不同的能源性能权衡。为了应对这些挑战，我们提出了 DynamoLLM，这是第一个适用于 LLM 推理环境的能源管理框架。 DynamoLLM 自动、动态地重新配置推理集群，以优化服务性能 SLO 下的 LLM 服务的能源和成本。我们表明，在服务级别，DynamoLLM 节省了 53% 的能源和 38% 的运营碳排放，并为客户降低了 61% 的成本，同时满足延迟 SLO。

通过迭代后续问题改进医学中的检索增强生成

分类： 计算和语言, 人工智能

作者： Guangzhi Xiong, Qiao Jin, Xiao Wang, Minjia Zhang, Zhiyong Lu, Aidong Zhang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00727v1

摘要： 大语言模型（LLM）的新兴能力在解决医学问题方面展现出了巨大的潜力。他们可以拥有丰富的医学知识，但仍然可能产生幻觉，知识更新不灵活。虽然检索增强生成（RAG）被提出来通过外部知识库增强大语言模型的医学问答能力，但在需要多轮信息查找的复杂情况下，它仍然可能会失败。为了解决这个问题，我们提出了医学迭代 RAG (i-MedRAG)，其中大语言模型可以根据之前的信息寻求尝试迭代地提出后续查询。在 i-MedRAG 的每次迭代中，后续查询将由普通 RAG 系统回答，并且它们将进一步用于指导下一次迭代中的查询生成。我们的实验表明，与普通 RAG 相比，i-MedRAG 带来的各种 LLM 在美国医学执照考试 (USMLE) 中临床小插图的复杂问题以及大规模多任务语言理解 (MMLU) 中的各种知识测试中的性能有所提高数据集。值得注意的是，我们的零样本 i-MedRAG 优于 GPT-3.5 上所有现有的即时工程和微调方法，在 MedQA 数据集上达到 69.68% 的准确率。此外，我们通过后续查询的不同迭代和每次迭代的不同查询数量来表征 i-MedRAG 的缩放属性。我们的案例研究表明，i-MedRAG 可以灵活地提出后续查询，形成推理链，提供对医学问题的深入分析。据我们所知，这是首次将后续查询纳入医疗 RAG 的研究。

使用语言模型解决问题的计算最优推理的实证分析

分类： 人工智能

作者： Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00724v1

摘要： 大型语言模型 (LLM) 在模型大小和计算预算方面的最佳训练配置已得到广泛研究。但如何在推理过程中优化配置 LLM 尚未得到足够深入的探索。我们研究计算最优推理：设计模型和推理策略，以最佳方式权衡额外的推理时间计算以提高性能。作为理解和设计计算最优推理方法的第一步，我们评估了多种推理策略的有效性和计算效率，例如贪婪搜索、多数投票、Best-of-N、加权投票及其在两种不同树搜索上的变体算法，涉及不同的模型大小和计算预算。我们发现，具有新颖树搜索算法的较小语言模型通常可以实现帕累托最优权衡。这些结果凸显了在预算有限的情况下（例如在终端设备上）部署配备更复杂解码算法的较小模型的潜在好处，以提高问题解决的准确性。例如，我们证明 Llemma-7B 模型可以在 MATH500 上实现与 Llemma-34B 模型竞争的精度，同时使用更少的 2 倍的 FLOP。我们的研究结果可能适用于任何具有明确定义的成功衡量标准的生成任务。

大语言模型通往安全可靠的 6G 之路：攻击、防御和机遇

分类： 密码学和安全, 人工智能, 分布式、并行和集群计算

作者： Sunder Ali Khowaja, Parus Khuwaja, Kapal Dev, Hussam Al Hamadi, Engin Zeydan

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00722v1

摘要： 最近，大型语言模型（LLM）由于其在包括通信网络在内的新兴应用中的适应性和可扩展性而引起了人们的广泛兴趣。预计 6G 移动边缘计算网络将能够支持 LLM 作为服务，因为它们提供超可靠的低延迟通信和闭环大规模连接。然而，大语言模型很容易受到数据和模型隐私问题的影响，这些问题会影响为基于用户的服务部署的大语言模型的可信度。在本文中，我们探讨了与 6G 网络中 LLM 微调相关的安全漏洞，特别是成员推理攻击。我们定义了攻击网络的特征，如果攻击者可以访问下游任务的微调模型，则该攻击网络可以执行成员推理攻击。我们证明，成员资格推断攻击对于任何下游任务都是有效的，当使用 LLM 作为服务时，这可能会导致个人数据泄露。实验结果表明，在命名实体识别任务上，攻击成功率最高可达92%。基于实验分析，我们讨论了可能的防御机制并提出了可能的研究方向，以使大语言模型在 6G 网络背景下更值得信赖。

SAM 2：分割图像和视频中的任何内容

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00714v1

摘要： 我们提出了 Segment Anything Model 2 (SAM 2)，这是一个解决图像和视频中快速视觉分割问题的基础模型。我们构建了一个数据引擎，通过用户交互改进模型和数据，以收集迄今为止最大的视频分割数据集。我们的模型是一个简单的变压器架构，具有用于实时视频处理的流内存。 SAM 2 经过我们的数据训练，可在各种任务中提供强大的性能。在视频分割中，我们观察到更高的准确性，使用的交互比以前的方法少了 3 倍。在图像分割中，我们的模型比分段任意模型 (SAM) 更准确且速度快 6 倍。我们相信，我们的数据、模型和见解将成为视频分割和相关感知任务的重要里程碑。我们正在发布模型、数据集和交互式演示的一个版本。

研究脑电图的大脑连接性和区域统计数据以进行早期帕金森氏症分类

分类： 神经元和认知, 人工智能, 信号处理

作者： Amarpal Sahota, Amber Roguski, Matthew W Jones, Zahraa S. Abdallah, Raul Santos-Rodriguez

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00711v1

摘要： 我们使用脑电图数据 (EEG) 评估将大脑连接指标与信号统计相结合进行早期帕金森病 (PD) 分类的有效性。数据来自 5 个唤醒状态 - 清醒状态和四个睡眠阶段（N1、N2、N3 和 REM）。我们的流程使用 Ada Boost 模型对具有挑战性的早期 PD 分类任务进行分类，该任务只有 30 名参与者（11 名 PD，19 名健康对照）。通过评估 9 个大脑连接指标，我们发现每个唤醒状态的最佳连接指标都不同，相位滞后指数在 N1 数据上实现了 86% 的最高个体分类准确度。除此之外，我们使用区域信号统计的管道实现了 78% 的准确度，使用大脑连接仅实现了 86% 的准确度，而将两者结合起来实现了 91% 的最佳准确度。这种最佳性能是使用相位滞后指数 (PLI) 与 EEG 信号频率特性得出的统计数据相结合在 N1 数据上实现的。该模型还实现了 80% 的召回率和 96% 的准确率。此外，我们发现，对于每个唤醒状态的数据，与单独使用信号统计或大脑连接相比，将 PLI 与区域信号统计相结合可以提高分类准确性。因此，我们得出结论，将大脑连接统计数据与区域脑电图统计数据相结合对于早期帕金森病的分类器性能是最佳的。此外，我们发现 N1 脑电图在帕金森病分类方面表现出色，并预计这可能是由于帕金森病中 N1 睡眠中断所致。这应该在未来的工作中进行探索。

使用 Box 提示的 MedSAM 进行点监督脑肿瘤分割

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 图像和视频处理, 医学物理

作者： Xiaofeng Liu, Jonghye Woo, Chao Ma, Jinsong Ouyang, Georges El Fakhri

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00706v1

摘要： 描绘病变和解剖结构对于图像引导干预非常重要。点监督医学图像分割（PSS）在减轻专家描绘标记成本方面具有巨大潜力。然而，由于缺乏精确的尺寸和边界指导，PSS的效果往往达不到预期。尽管最近的视觉基础模型，例如医学分段任何模型（MedSAM），在边界框提示的分割方面取得了显着的进步，但使用点注释并不简单，并且容易出现语义歧义。在这项初步研究中，我们引入了一个迭代框架来促进语义感知点监督 MedSAM。具体来说，语义框提示生成器（SBPG）模块能够将点输入转换为潜在的伪边界框建议，这些伪边界框建议通过基于原型的语义相似性进行显式细化。随后，提示引导空间细化 (PGSR) 模块利用 MedSAM 的卓越泛化性来推断分割掩码，这也更新了 SBPG 中的框建议种子。通过充分的迭代可以逐步提高性能。我们对 BraTS2018 对全脑肿瘤分割进行了评估，并证明了其与传统 PSS 方法相比以及与盒监督方法相当的优越性能。

敏捷软件开发中人工智能的未来

分类： 软件工程, 人工智能

作者： Mariyam Mahboob, Mohammed Rayyan Uddin Ahmed, Zoiba Zia, Mariam Shakeel Ali, Ayman Khaleel Ahmed

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00703v1

摘要： 人工智能的出现具有巨大的优势，可以用来改变软件项目开发的格局。软件过程框架由不断需要日常人类交互的活动组成，从而可能导致错误和不确定性。 AI 可以利用 LLM、GenAI 模型和 AI 代理来协助软件开发经理、软件测试人员和其他团队成员执行日常任务、风险分析和预测、策略建议并支持决策。人工智能有潜力提高效率并降低项目管理团队遇到的风险，同时提高项目成功率。此外，它还可以分解复杂的概念和开发流程，以便利益相关者做出明智的决策。在本文中，我们提出了一种利用人工智能工具和技术为敏捷软件项目提供最大帮助的方法，敏捷软件项目近年来越来越受到业界的青睐。

通过迁移学习加速全波形反演

分类： 机器学习, 人工智能

作者： Divya Shyam Singh, Leon Herrmann, Qing Sun, Tim Bürchner, Felix Dietrich, Stefan Kollmannsberger

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00695v1

摘要： 全波形反演（FWI）是一种基于波传播获得的稀疏测量数据重建物质场的强大工具。对于特定问题，使用神经网络（NN）离散材料场可以提高相应优化问题的鲁棒性和重构质量。我们将此方法称为基于 NN 的 FWI。从最初的猜测开始，神经网络的权重被迭代更新，以使模拟的波浪信号适合稀疏测量的数据集。对于基于梯度的优化，初始猜测的合适选择，即合适的神经网络权重初始化，对于快速鲁棒的收敛至关重要。在本文中，我们介绍了一种新颖的迁移学习方法，以进一步改进基于神经网络的 FWI。这种方法利用有监督的预训练来提供更好的神经网络权重初始化，从而加快后续优化问题的收敛速度。此外，反演产生了物理上更有意义的局部最小值。该网络经过预训练，可使用传统 FWI 第一次迭代的梯度信息来预测未知材料场。在我们对二维域的计算实验中，训练数据集由具有不同形状和方向的任意定位的椭圆形空隙的参考模拟组成。我们将所提出的基于迁移学习 NN 的 FWI 与其他三种方法的性能进行了比较：传统的 FWI、不带预训练的基于 NN 的 FWI 以及具有从预训练的 NN 预测的初始猜测的传统 FWI。我们的结果表明，基于迁移学习 NN 的 FWI 在收敛速度和重建质量方面优于其他方法。

开发者可以提示吗？代码文档生成的受控实验

分类： 人工智能, 人机交互, 软件工程

作者： Hans-Alexander Kruse, Tim Puhlfürß, Walid Maalej

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00686v1

摘要： 大型语言模型 (LLM) 在自动执行繁琐的开发任务（例如创建和维护代码文档）方面具有巨大潜力。然而，目前尚不清楚开发人员在多大程度上可以有效地促使大语言模型创建简洁且有用的文档。我们报告了一项由 20 名专业人士和 30 名计算机科学专业学生参与的对照实验，其任务是为两个 Python 函数生成代码文档。实验组在 Visual Studio Code 的类似 ChatGPT 的扩展中自由输入临时提示，而对照组则执行预定义的几次提示。我们的结果表明，专业人士和学生不知道或无法应用即时的工程技术。尤其是学生们认为，与准备好的提示生成的文档相比，根据临时提示生成的文档的可读性、简洁性和帮助性明显较差。一些专业人士通过在临时提示中包含关键字 Docstring 来生成更高质量的文档。虽然学生在制定提示时需要更多支持，但专业人士赞赏临时提示的灵活性。两组参与者都很少将输出评估为完美。相反，他们将工具理解为迭代完善文档的支持。需要进一步的研究来了解开发人员拥有哪些提示技能和偏好，以及他们需要哪些支持来完成某些任务。

非线性效用的多目标公共物品博弈中的学习

分类： 多代理系统, 人工智能, 计算机科学与博弈论

作者： Nicole Orzan, Erman Acar, Davide Grossi, Patrick Mannion, Roxana Rădulescu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00682v1

摘要： 解决如何在风险和不确定性下实现最佳决策的问题对于增强与人类协作或支持人类的人工智能体的能力至关重要。在这项工作中，我们在公共物品游戏的背景下解决这个问题。我们通过多目标强化学习的方式研究公共物品博弈的新颖多目标版本中的学习，其中主体具有不同的风险偏好。我们引入参数化非线性效用函数来模拟个体代理人层面的风险偏好，而不是游戏的集体和个人奖励部分。我们研究了这种偏好模型和环境不确定性在博弈中激励调整水平上的相互作用。我们展示了个人偏好和环境不确定性的不同组合如何在非合作环境（即竞争策略占主导地位）中维持合作模式的出现，而其他组合如何在合作环境（即合作策略占主导地位）中维持竞争模式。

SentenceVAE：通过大型语言模型的下一句预测进行更快、更长、更准确的推理

分类： 人工智能, 计算和语言

作者： Hongjun An, Yifan Chen, Xiaozhen Qiao, Zhe Sun, Xuelong Li

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00655v1

摘要： 当代大语言模型（LLM）主要利用下一个令牌预测方法进行推理，这极大地阻碍了它们的处理速度。在本文中，我们介绍了一种称为下一句预测的新颖推理方法，旨在提高大语言模型的推理效率。我们提出了 SentenceVAE，一个由编码器和解码器组成的微型模型。编码器有效地将句子中的信息压缩为单个标记，而解码器则将压缩的数据重建回其原始句子形式。通过将SentenceVAE集成到LLM的输入和输出层，我们开发了句子级LLM（SLLM），它采用逐句推理方法，显着加快了推理速度。 SentenceVAE 还通过将文本分割成句子来保持原始语义内容的完整性，从而在提高推理速度的同时保持准确性。与传统的 LLM 相比，SLLM 在同等上下文长度上处理更少的标记，显着减少了 Self-Attention 计算的内存需求，并有助于处理更长的上下文。我们的实验结果表明，该方法可以将推理速度提高 204~~365%，将困惑度 (PPL) 降低至原始指标的 46~~75%，并在相同上下文长度下将内存开销降低 86~91%。随着模型参数的增加，这种方法的优点进一步放大。

AMAES：针对公共大脑 MRI 数据进行增强型屏蔽自动编码器预训练，以实现 3D 原生分割

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Asbjørn Munk, Jakob Ambsdorf, Sebastian Llambias, Mads Nielsen

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00640v1

摘要： 本研究研究了 3D 语义分割模型的自监督预训练对大规模、特定领域数据集的影响。我们介绍了 BRAINS-45K，这是一个来自公共来源的 44,756 个脑部 MRI 体积的数据集，是可用的最大的公共数据集，并通过简化和优化最先进的方法并结合他们采用新颖的增强策略。由此产生的 AMAES 框架基于掩模图像建模和基于强度的增强反转，并平衡内存使用、运行时和微调性能。使用流行的 U-Net 和最近的 MedNeXt 架构作为骨干，我们评估了预训练对三个具有挑战性的下游任务的效果，涵盖单序列、低资源设置和域外泛化。结果强调，在大多数评估案例中，使用 AMAES 对所提出的数据集进行预训练显着提高了分割性能，并且尽管在大规模数据集上进行了预训练，但通过增强对模型进行预训练是有益的。用于重现结果的代码和模型检查点以及 BRAINS-45K 数据集可在 \url{https://github.com/asbjrnmunk/amaes} 获取。

DisTrack：在线社交网络中半自动错误信息跟踪的新工具

分类： 社交和信息网络, 人工智能

作者： Guillermo Villar-Rodríguez, Álvaro Huertas-García, Alejandro Martín, Javier Huertas-Tato, David Camacho

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00633v1

摘要： 简介：本文介绍了 DisTrack，这是一种为跟踪和分析在线社交网络 (OSN) 中的错误信息而开发的方法和工具。 DisTrack 旨在通过自然语言处理 (NLP) 社交网络分析 (SNA) 和图形可视化的结合来打击错误信息的传播。主要目标是检测错误信息、跟踪其传播、识别其来源并评估网络内各个参与者的影响。方法：DisTrack 的架构融合了多种方法，包括关键字搜索、语义相似性评估和图形生成技术。这些方法共同促进了对错误信息的监控、基于与已知虚假声明的一致性对内容进行分类，以及通过详细图表对传播级联进行可视化。该工具专门用于捕获和分析数字环境中传播的错误信息的动态性质。结果：DisTrack 的有效性通过三个针对不同主题的案例研究得到了证明：抹黑/仇恨言论、反疫苗错误信息以及有关俄罗斯-乌克兰冲突的虚假叙述。这些研究表明，DisTrack 能够区分传播虚假信息的帖子和反驳虚假信息的帖子，并追踪错误信息从一开始的演变过程。结论：研究证实 DisTrack 是错误信息分析领域的一个有价值的工具。它有效地区分不同类型的错误信息并追踪其随时间的发展。通过提供一种全面的方法来理解和打击数字空间中的错误信息，DisTrack 被证明是致力于减轻在线社交环境中虚假信息影响的研究人员和从业者的重要资产。

解锁生成人工智能供应链中的合理使用：系统化文献综述

分类： 人工智能, 计算机与社会, 机器学习

作者： Amruta Mahuli, Asia Biega

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00613v1

摘要： 通过系统化生成人工智能 (GenAI) 利益相关者的目标和期望，这项工作旨在揭示不同利益相关者在对 GenAI 供应线的贡献中看到的价值。这一估值使我们能够了解GenAI公司倡导的合理使用来训练模型是否推进了促进科学和艺术的版权法目标。在评估合理使用论点的有效性和功效时，我们发现了研究差距以及研究人员和政策制定者未来工作需要解决的潜在途径。

Non Verbis、Sed Rebus：大型语言模型是意大利语 Rebuses 的弱求解器

分类： 计算和语言, 人工智能

作者： Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00584v1

摘要： 谜题是需要受限制的多步骤推理来从一组图像和字母中识别隐藏短语的谜题。在这项工作中，我们引入了大量意大利语语言谜题，并用它来评估最先进的大型语言模型的谜题解决能力。虽然 LLaMA-3 和 GPT-4o 等通用系统在此任务上表现不佳，但临时微调似乎可以提高模型的性能。然而，我们发现训练中的表现提升很大程度上是由记忆驱动的。我们的结果表明，画谜解决仍然是评估大型语言模型的语言能力和顺序指令跟踪技能的具有挑战性的测试平台。

通过主动检索增强减轻大视觉语言模型中的幻觉

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Xiaoye Qu, Qiyuan Chen, Wei Wei, Jishuo Sun, Jianfeng Dong

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00555v1

摘要： 尽管大型视觉语言模型 (LVLM) 在图像理解方面具有非凡的能力，但这些模型经常生成看似合理但实际上不正确的响应，这种现象称为幻觉。最近，在大型语言模型 (LLM) 中，通过从外部检索信息来增强 LLM知识资源已被证明是减轻幻觉的一种有前景的解决方案。然而，LVLM 中的检索增强明显落后于 LVLM 的广泛应用。此外，当转移到增强型LVLM时，有时模型的幻觉程度甚至会加剧。在研究差距和反直觉现象的推动下，我们引入了一种新颖的框架，主动检索增强大视觉语言模型（ARA），专门设计用于通过纳入三个关键维度来解决幻觉：（i）根据图像固有的层次结构剖析检索目标。 (ii) 找出最有效的检索方法并筛选出可靠的检索结果。 (iii) 将检索过程安排在低确定性事件期间，同时避免在高确定性期间进行不必要的检索。为了评估我们提出的 ARA 模型减少幻觉的能力，我们在四个基准测试中采用了三种广泛使用的 LVLM 模型（LLaVA-1.5、Qwen-VL 和 mPLUG-Owl2）。我们的经验观察表明，通过利用合适的检索机制并明智地安排检索时间，我们可以有效缓解幻觉问题。我们希望这项研究能够更深入地了解如何将检索增强应用于 LVLM，从而通过更有效的检索和最少的检索发生来减少幻觉。

减轻大视觉语言模型中的多语言幻觉

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Xiaoye Qu, Mingyang Song, Wei Wei, Jianfeng Dong, Yu Cheng

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00550v1

摘要： 虽然大型视觉语言模型 (LVLM) 在广泛的任务中表现出了卓越的能力，但它们存在幻觉问题，即模型在给定输入图像-查询对的情况下生成看似合理但不正确的答案。当查询非英语语言的图像时，这种幻觉现象更加严重，而现有的 LVLM 中减轻幻觉的方法仅考虑英语场景。在本文中，我们首次尝试减轻 LVLM 中这种重要的多语言幻觉。通过彻底的实验分析，我们发现 LVLM 中的多语言幻觉是一个系统性问题，可能是由于多语言能力缺陷或多模态能力不足而引起的。为此，我们为 LVLM 提出了一个两阶段的多语言幻觉消除（MHR）框架，旨在提高高资源和低资源语言对幻觉的抵抗力。我们不依赖于多语言资源的复杂手动注释，而是充分利用 LVLM 的固有功能，并提出一种新颖的跨语言对齐方法，该方法为每个图像查询输入生成多个响应，然后识别幻觉感知对每种语言。这些数据对最终用于直接偏好优化，以提示 LVLM 有利于非幻觉响应。实验结果表明，我们的 MHR 显着减少了 LVLM 的幻觉产生。值得注意的是，在我们扩展的多语言 POPE 基准测试中，我们的框架在 13 种不同语言中的准确率平均提高了 19.0%。我们的代码和模型权重可在 https://github.com/ssmisya/MHR 获取

学习通过最大核熵嵌入分布

分类： 机器学习, 人工智能, 信号处理, 机器学习

作者： Oleksii Kachaiev, Stefano Recanatesi

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00549v1

摘要： 经验数据通常可以被视为一组概率分布的样本。核方法已成为学习对这些分布进行分类的自然方法。尽管已经提出了多种分布之间的内核，但将内核方法应用于分布回归任务仍然具有挑战性，主要是因为选择合适的内核并不简单。令人惊讶的是，学习依赖于数据的分布内核的问题很少受到关注。在本文中，我们基于概率测度嵌入空间中的熵最大化原理，提出了数据相关分布核的无监督学习的新目标。我们检查了由我们的目标引起的潜在嵌入空间的理论属性，证明其几何结构非常适合解决下游判别任务。最后，我们展示了学习内核在不同模式下的性能。

使用文本到图像扩散模型插图经典巴西书籍

分类： 人工智能

作者： Felipe Mahlow, André Felipe Zanella, William Alberto Cruz Castañeda, Regilene Aparecida Sarzi-Ribeiro

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00544v1

摘要： 近年来，生成人工智能（GenAI）在解决涉及文本、听觉、视觉和图像生成等多种模式的复杂任务方面经历了深刻的转变。在此范围内，文本到图像 (TTI) 模型已成为生成多样化且美观的作品的强大方法，涵盖从艺术创作到逼真的面部合成的应用，并展示了计算机视觉、图像处理和多模式方面的重大进步任务。潜在扩散模型（LDM）的出现标志着人工智能能力领域的范式转变。本文探讨了采用稳定扩散 LDM 来说明文学作品的可行性。在这次探索中，我们选择了七本巴西经典书籍作为案例研究。目的是确定这一努力的实用性，并评估稳定扩散在制作增强和丰富读者体验的插图方面的潜力。我们将概述其优点，例如生成独特且与上下文相关的图像的能力，以及缺点，包括在忠实捕捉复杂的文学描述的本质方面的任何缺点。通过这项研究，我们的目标是对在文学语境中利用人工智能生成的插图的可行性和有效性进行全面评估，阐明这一开创性技术应用中遇到的前景和挑战。

物联网人工智能的能源成本

分类： 新兴技术, 人工智能, 机器学习

作者： Shih-Kai Chou, Jernej Hribar, Mihael Mohorčič, Carolina Fortuna

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00540v1

摘要： 人工智能 (AI) 与现有的物联网 (IoT) 相结合，使各个经济部门的运营更加简化和自主。因此，以人工智能技术为核心的人工智能物联网 (AIoT) 范式意味着额外的能源和碳成本，随着神经架构的复杂化，这些成本可能会变得显着。为了更好地了解某些 AIoT 组件的能源和碳足迹 (CF)，最近的研究采用了传统指标。然而，这些指标并不是为了捕捉能源效率方面的推论而设计的。在本文中，我们提出了一个新的指标，即 AIoT 生命周期的能源成本 (eCAL)，以捕获 AIoT 系统生命周期内推理的总体能源成本。我们通过分析 AIoT 生命周期中涉及的各个组件的数据操作的复杂性，设计了一种确定 AIoT 系统 eCAL 的新方法，并得出总体和每比特的能耗。通过 eCAL，我们表明模型越好并且使用得越多，推理的能源效率就越高。对于 AIoT 配置示例，进行 100 美元推理的 eCAL 比进行 1000 美元推理的 eCAL 高 1.43 倍。我们还根据不同国家的能源消耗和碳强度（CI）计算等效CO$_{2}$排放量来评估AIoT系统的CF。使用 2023 年可再生数据，我们的分析表明，在德国部署 AIoT 系统的 CO$_2 排放量比芬兰高 4.62 美元，因为后者使用了更多的低 CI 能源。

间歇性半工作掩模：大语言模型的新掩模范式

分类： 计算和语言, 人工智能

作者： Mingcong Lu, Jiangcai Zhu, Wang Hao, Zheng Li, Shusheng Zhang, Kailai Shao, Chao Chen, Nan Li, Feng Wang, Xin Lu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00539v1

摘要： 多轮对话是人类与大型语言模型 (LLM) 之间的关键交互方法，因为对话会延伸到多轮，保持 LLM 的高生成质量和低延迟是一个挑战。根据屏蔽策略，主流LLM可以分为两类：因果LLM和前缀LLM。一些研究表明，前缀大语言模型在严重依赖历史背景（例如多轮对话或上下文学习）的场景中往往优于因果大语言模型，这要归功于它们对前缀序列的双向关注。然而，前缀大语言模型在多轮对话数据集中存在固有的低效训练问题。此外，前缀LLM的注意力机制使其无法跨对话轮次重用键值缓存（KV Cache）来减少生成延迟。在本文中，我们提出了一种称为间歇半工作掩模（ISM）的新型掩模方案来解决这些问题。具体来说，我们对对话历史中的查询和答案应用交替的双向和单向注意力。通过这种方式，ISM能够同时保持前缀LLM的高质量和因果LLM的低生成延迟。大量实验表明我们的 ISM 取得了显着的性能。

用于高效探索性景观分析邻域采样的希尔伯特曲线

分类： 机器学习, 人工智能, 神经和进化计算

作者： Johannes J. Pienaar, Anna S. Bosman, Katherine M. Malan

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00526v1

摘要： 景观分析旨在根据目标（或适应度）函数景观属性来表征优化问题。通常对问题搜索空间进行采样，并根据样本估计各种景观特征。一组特别突出的特征是信息内容，它要求样本是相邻解的序列，以便保留连续样本点之间的局部关系。生成这样的空间相关样本并提供良好的搜索空间覆盖是具有挑战性的。因此，通常首先获得具有良好搜索空间覆盖范围的无序样本，然后应用最近邻等排序算法来最小化样本中连续点之间的距离。然而，最近邻算法在更高维度上变得计算困难，因此需要更有效的替代方案。在本研究中，提出希尔伯特空间填充曲线作为一种有效获得高质量有序样本的方法。希尔伯特曲线是分形曲线的一种特殊情况，保证有界搜索空间的均匀覆盖，同时提供空间相关样本。我们研究了希尔伯特曲线作为采样器的有效性，发现与使用事后排序的拉丁超立方采样相比，它们能够以一小部分计算成本提取显着特征。此外，我们研究了希尔伯特曲线作为排序策略的使用，发现它们对样本的排序速度明显快于最近邻排序，并且不牺牲提取特征的显着性。

使用基于 LLM 的代理来越狱文本到图像模型

分类： 密码学和安全, 人工智能, 机器学习

作者： Yingkai Dong, Zheng Li, Xiangtao Meng, Ning Yu, Shanqing Guo

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00523v1

摘要： 最近的进展显着提高了使用由大型语言模型 (LLM) 提供支持的自主代理的自动化任务解决能力。然而，大多数基于大语言模型的代理专注于对话、编程或专业领域，在解决生成式人工智能安全任务方面留下了空白。这些差距主要是由于大语言模型幻觉带来的挑战和缺乏明确的指导方针造成的。在本文中，我们提出了 Atlas，这是一种基于 LLM 的先进多代理框架，它集成了高效的模糊测试工作流程来瞄准生成式 AI 模型，特别关注针对带有安全过滤器的文本到图像 (T2I) 模型的越狱攻击。 Atlas 利用视觉语言模型 (VLM) 来评估提示是否触发 T2I 模型的安全过滤器。然后，它与 LLM 和 VLM 迭代协作，生成绕过过滤器的替代提示。 Atlas还通过利用多代理通信、上下文学习（ICL）记忆机制和思想链（COT）方法来增强LLM在攻击场景中的推理能力。我们的评估表明，Atlas 在黑匣子环境中成功越狱了多个最先进的 T2I 模型，这些模型配备了多模式安全过滤器。此外，Atlas 在查询效率和生成图像的质量方面都优于现有方法。

一种编码代码和辅助代码理解的新方法

分类： 人工智能

作者： Mengdan Fan, Wei Zhang, Haiyan Zhao, Zhi Jin

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00521v1

摘要： 一些公司（例如微软研究院和谷歌 DeepMind）发现了 GPT 自回归范式下一个词预测的一些局限性，表现为模型缺乏计划、工作记忆、回溯和推理能力。 GPT 依赖于生成下一个单词的局部贪婪过程，而没有对任务或输出的全局理解。我们通过代码理解的专门实证研究证实了上述局限性。虽然 GPT4 擅长生成流畅连贯的文本，但它无法处理复杂的逻辑并生成从未见过的新代码，并且它过于依赖提示的格式来生成正确的代码。我们提出了一种新的代码范式超越下一个单词预测范式的理解，受到扩散技术在图像生成（Dalle2，Sora）和蛋白质结构生成（AlphaFold3）中成功应用的启发，这些技术没有自回归约束。模仿自然语言，我们将代码编码为异构图像范例，具有模拟图像和蛋白质结构的全局信息记忆。然后，我们参考Sora的CLIP上游文本到图像编码器模型来设计文本到代码编码器可以应用于各种下游代码理解任务的模型。该模型学习新范式异构图像下对代码的全局理解，连接文本和代码的编码空间，将文本的输入编码成与代码最相似的向量该模型通过对 456,360 个文本代码对进行自监督比较学习，实现了新数据的零样本预测。这项工作是未来在新范式下使用扩散技术来生成代码以避免自回归限制的工作的基础。

通过因果扩散进行图表示学习以实现分布外推荐

分类： 机器学习, 人工智能, 信息检索, 社交和信息网络

作者： Chu Zhao, Enneng Yang, Yuliang Liang, Pengxiang Lan, Yuting Liu, Jianzhe Zhao, Guibing Guo, Xingwei Wang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00490v1

摘要： 基于图神经网络 (GNN) 的推荐算法通常假设训练和测试数据来自独立同分布 (IID) 空间。然而，在存在分布外 (OOD) 数据的情况下，这种假设通常会失败，从而导致性能显着下降。在这项研究中，我们构建了一个结构因果模型（SCM）来分析交互数据，揭示环境混杂因素（例如，COVID-19 大流行）导致基于 GNN 的模型中的相关性不稳定，从而损害了它们对 OOD 数据的泛化。为了解决这个问题，我们提出了一种新颖的方法，即通过因果扩散进行图表示学习（CausalDiffRec）进行 OOD 推荐。该方法通过消除环境混杂因素和学习不变图表示来增强模型对 OOD 数据的泛化能力。具体来说，我们使用后门调整和变分推理来推断真实的环境分布，从而消除环境混杂因素的影响。然后将该推断的分布用作先验知识来指导扩散过程反阶段的表示学习，以学习不变表示。此外，我们提供了理论推导，证明优化 CausalDiffRec 的目标函数可以鼓励模型学习环境不变的图表示，从而在分布变化下的推荐中实现出色的泛化性能。我们的大量实验验证了 CausalDiffRec 在提高 OOD 数据泛化方面的有效性，在 Food 上平均提高了 10.69%，在 KuaiRec 上提高了 18.83%，在 Yelp2018 上提高了 22.41%，在豆瓣数据集上平均提高了 11.65%。

长尾学习的系统回顾

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 多媒体

作者： Chongsheng Zhang, George Almpanidis, Gaojuan Fan, Binquan Deng, Yanbo Zhang, Ji Liu, Aouaidjia Kamel, Paolo Soda, João Gama

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00483v1

摘要： 长尾数据是一种特殊类型的多类不平衡数据，具有非常大量的少数/尾类，这些类具有非常显着的综合影响力。长尾学习旨在在具有长尾分布的数据集上构建高性能模型，能够高精度地识别所有类别，特别是少数/尾部类别。这是一个前沿的研究方向，在过去几年中吸引了大量的研究工作。在本文中，我们对长尾视觉学习的最新进展进行了全面的调查。我们首先提出了一种新的长尾学习分类法，它由八个不同的维度组成，包括数据平衡、神经架构、特征丰富、逻辑调整、损失函数、花里胡哨、网络优化和事后处理技术。根据我们提出的分类法，我们对长尾学习方法进行了系统回顾，讨论了它们的共性和可调整的差异。我们还分析了不平衡学习和长尾学习方法之间的差异。最后，我们讨论了该领域的前景和未来方向。

HBot：基于人体3D可视化的中医医疗保健应用聊天机器人

分类： 人工智能

作者： Bolin Zhang, Zhiwei Yi, Jiahao Wang, Dianbo Sui, Zhiying Tu, Dianhui Chu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00481v1

摘要： 中医药独特的诊疗技术和显着的临床疗效，使其在老年护理保健领域，特别是在老年人一些常见慢性病的康复方面发挥着重要作用。因此，构建一个用于医疗保健应用的中医聊天机器人将帮助用户以直接、自然的方式获得咨询服务。然而，中医所涉及的穴位（腧穴）、经络等概念总是出现在问诊中，无法直观显示。为此，我们开发了基于3D人体模型和知识图谱的\textbf{h}healthcare chat\textbf{bot}（HBot），提供知识问答、处方推荐、艾灸治疗等对话式服务推荐、穴位搜索。当用户与HBot的对话涉及到特定穴位时，3D本体会跳转到相应的穴位并突出显示。此外，Hbot还可以应用于培训场景，通过直观展示穴位和知识卡，加速中医教学进程。演示视频可在 https://www.youtube.com/watch?v=UhQhutSKkTU 上获取。我们的代码和数据集可在 Gitee 上公开获取：https://gitee.com/plabrolin/interactive-3d-acup.git

走向可解释和可解释的音乐难度估计：一种参数有效的方法

分类： 声音, 人工智能, 信息检索, 音频和语音处理

作者： Pedro Ramoneda, Vsevolod Eremenko, Alexandre D'Hooge, Emilia Parada-Cabaleiro, Xavier Serra

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00473v1

摘要： 估计音乐作品的难度对于组织教育音乐收藏非常重要。这个过程可以部分自动化，以促进教育者的角色。然而，流行的深度学习模型所做出的决策很难理解，这可能会损害音乐教育课程中对这种技术的接受。我们的工作采用可解释的描述符来估计符号音乐表示的难度。此外，通过一种新颖的参数高效的白盒模型，我们在提供可解释的结果的同时超越了之前的努力。这些易于理解的结果模仿了标题的功能，标题是一种广泛用于音乐教育的工具。我们的方法在分为 9 个类别的钢琴曲目中进行评估，独立准确率达到 41.4%，均方误差 (MSE) 为 1.7，显示出精确的难度估计。通过我们的基线，我们说明了如何在过去的研究基础上提供可解释和解释的音乐难度评估替代方案。借此，我们的目标是促进音乐信息检索（MIR）社区和音乐教育界之间更有效的沟通。

采用泰勒展开近似和大视场接收的图像超分辨率

分类： 计算机视觉和模式识别, 人工智能, 图像和视频处理

作者： Jiancong Feng, Yuan-Gen Wang, Mingjie Li, Fengchuang Xing

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00470v1

摘要： 由于能够准确估计低分辨率图像中涉及的退化类型，自相似技术在盲超分辨率（SR）领域蓬勃发展。然而，自相似性计算中的高维矩阵乘法消耗了大量的计算成本。我们发现高维注意力图是由 Query 和 Key 之间的矩阵乘法得出的，然后是一个 softmax 函数。这种softmax使得Query和Key之间的矩阵乘法不可分割，对简化计算复杂度提出了很大的挑战。为了解决这个问题，我们首先提出二阶泰勒展开近似（STEA）来分离查询和密钥的矩阵乘法，从而将复杂度从 $\mathcal{O}(N^2)$ 降低到 $\mathcal {O}(N)$。然后，我们设计了多尺度大场接收（MLFR）来补偿 STEA 造成的性能下降。最后，我们通过分别构建 LabNet 和 RealNet 将这两个核心设计应用到实验室和现实场景中。在五个合成数据集上测试的广泛实验结果表明，我们的 LabNet 在定性和定量评估方面树立了新基准。在 RealWorld38 数据集上进行测试，我们的 RealNet 实现了优于现有方法的视觉质量。消融研究进一步验证了 STEA 和 MLFR 对 LabNet 和 RealNet 框架的贡献。

DiscipLink：通过人机协同探索展开跨学科信息搜索过程

分类： 人机交互, 人工智能, 信息检索

作者： Chengbo Zheng, Yuanhao Zhang, Zeyu Huang, Chuhan Shi, Minrui Xu, Xiaojuan Ma

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00447v1

摘要： 跨学科研究通常要求研究人员探索不同知识领域的文献。然而，浏览来自不熟悉学科的高度分散的知识构成了重大挑战。在本文中，我们介绍了 DiscipLink，这是一种新颖的交互式系统，可促进跨学科信息搜索 (IIS) 中研究人员与大型语言模型 (LLM) 之间的协作。 DiscipLink根据用户感兴趣的主题，从可能的相关研究领域的角度发起探索性问题，用户可以进一步定制这些问题。然后，DiscipLink 通过使用特定学科术语自动扩展查询、从检索到的论文中提取主题以及突出显示论文和问题之间的联系，支持用户在选定问题下搜索和筛选论文。我们的评估包括受试者内比较实验和开放式探索性研究，表明DiscipLink可以有效支持研究人员打破学科界限，整合不同领域的分散知识。研究结果强调了大语言模型驱动的工具在促进信息检索实践和支持跨学科研究方面的潜力。

词嵌入的本体关系

分类： 人工智能

作者： Mathieu d'Aquin, Emmanuel Nauer

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00444v1

摘要： 已经可靠地表明，从流行的神经模型（例如 BERT）获得的词嵌入的相似性有效地近似了这些词的含义的语义相似性的形式。因此，很自然地想知道这些嵌入是否包含足够的信息，以便能够通过本体论关系（例如包含关系）将这些含义连接起来。如果是这样，就可以构建大型知识模型，该模型能够根据预先训练的模型生成的词嵌入中封装的信息在语义上关联术语，这不仅对本体（本体匹配、本体进化等）有影响，而且对本体也有影响。将本体论知识整合到神经模型中的能力。在本文中，我们测试了如何使用几个预训练模型生成的嵌入来预测流行的上层和通用本体的类和属性之间存在的关系。我们证明，即使是在这些嵌入之上的简单前馈架构也可以实现有希望的精度，并且根据输入数据具有不同的泛化能力。为了实现这一目标，我们生成了一个数据集，可用于进一步增强这些模型，为集成网络本体知识的应用程序开辟了新的可能性。

聚焦、区分、提示：发挥 CLIP 的作用，实现高效灵活的场景文本检索

分类： 计算机视觉和模式识别, 人工智能

作者： Gangyan Zeng, Yuan Zhang, Jin Wei, Dongbao Yang, Peng Zhang, Yiwen Gao, Xugong Qin, Yu Zhou

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00441v1

摘要： 场景文本检索旨在从图像库中查找包含查询文本的所有图像。目前的工作倾向于采用光学字符识别（OCR）管道，这需要复杂的文本检测和/或识别过程，导致检索效率低下且不灵活。与它们不同的是，在这项工作中，我们建议探索对比语言图像预训练（CLIP）在无 OCR 场景文本检索方面的内在潜力。通过实证分析，我们观察到 CLIP 作为文本检索器的主要挑战是：1）有限的文本感知规模，2）纠缠的视觉语义概念。为此，开发了一种称为 FDP（焦点、区分和提示）的新颖模型。 FDP首先关注场景文本，将注意力转移到文本区域，探究隐藏的文本知识，然后将查询文本分为实词和虚词进行处理，其中语义感知提示方案和分散查询辅助模块被利用。大量实验表明，与现有方法相比，FDP 显着提高了推理速度，同时实现了更好或有竞争力的检索精度。值得注意的是，在 IIIT-STR 基准上，FDP 超过了最先进模型 4.37%，速度提高了 4 倍。此外，短语级和属性感知场景文本检索设置下的其他实验验证了 FDP 在处理不同形式的查询文本方面的特殊优势。源代码将在 https://github.com/Gyann-z/FDP 上公开提供。

使用 ChatGPT 实现软件安全的定性研究：感知与实用性

分类： 软件工程, 人工智能, 密码学和安全

作者： M. Mehdi Kholoosi, M. Ali Babar, Roland Croft

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00435v1

摘要： 人工智能 (AI) 的进步促进了大型语言模型 (LLM) 的发展，该模型可以以卓越的语义理解和准确性执行各种任务。 ChatGPT 就是这样的大语言模型之一，由于其协助各种知识密集型任务的令人印象深刻的能力而受到广泛关注。由于工程安全软件的知识密集型性质，预计将在软件开发/演进过程中探索 ChatGPT 的协助以解决与安全相关的任务。为了了解 ChatGPT 作为支持软件安全的新兴技术的潜力，我们采用了两种方法。最初，我们进行了一项实证研究，以分析那些探索使用 ChatGPT 执行安全任务并在 Twitter 上分享他们的观点的人的看法。据确定，安全从业者认为 ChatGPT 对各种软件安全任务有益，包括漏洞检测、信息检索和渗透测试。其次，我们设计了一个实验，旨在研究该技术在现实环境中作为预言机部署时的实用性。特别是，我们专注于漏洞检测，并定性检查了这一重要软件安全任务中给定提示的 ChatGPT 输出。根据我们的分析，ChatGPT 在此任务中的响应大部分都是通用安全信息，可能不适合行业使用。为了防止数据泄露，我们对 OpenAI 数据截止日期之后编译的漏洞数据集进行了分析，该数据集涵盖 40 种不同的漏洞类型和 12 种编程语言。我们断言，这项研究的结果将有助于未来旨在开发和评估致力于软件安全的大语言模型的研究。

增强通道模拟器和半监督学习以实现高效室内定位

分类： 信号处理, 人工智能

作者： Yupeng Li, Xinyu Ning, Shijian Gao, Yitong Liu, Zhi Sun, Qixing Wang, Jiangzhou Wang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00429v1

摘要： 这项工作旨在通过提出一种有效的方法来解决室内定位的劳动密集型和资源消耗型任务。所提出的方法涉及引入带有偏差教师（SSLB）算法的半监督学习（SSL），该算法有效地利用了标记和未标记的通道数据。为了减少测量费用，使用更新的通道模拟器（UCHS）生成未标记的数据，然后通过自适应置信值进行加权以简化超参数的调整。仿真结果表明，与现有基准相比，所提出的策略实现了卓越的性能，同时最大限度地减少了测量开销和培训费用，为室内定位提供了有价值且实用的解决方案。

CARMIL：整个幻灯片图像的多实例学习模型的上下文感知正则化

分类： 计算机视觉和模式识别, 人工智能

作者： Thiziri Nait Saada, Valentina Di-Proietto, Benoit Schmauch, Katharina Von Loga, Lucas Fidon

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00427v1

摘要： 事实证明，多实例学习 (MIL) 模型对于通过整个幻灯片图像进行癌症预测是有效的。然而，最初的 MIL 公式错误地假设同一图像的块是独立的，导致信息流经网络时空间上下文丢失。考虑到癌细胞形成簇的倾向以及肿瘤空间指标的存在，将背景知识纳入预测尤为重要。最先进的方法通常使用注意力机制，最终与图相结合来捕获空间知识。在本文中，我们采用一种新颖的横向方法，通过正则化的视角来解决这个问题。我们提出了多实例学习的上下文感知正则化 (CARMIL)，这是一种多功能正则化方案，旨在将空间知识无缝集成到任何 MIL 模型中。此外，我们提出了一种新的通用指标来量化任何 MIL 模型在应用于整个幻灯片图像时的上下文感知，从而解决了该领域之前未探索的空白。我们的框架的功效针对胶质母细胞瘤（TCGA GBM）和结肠癌数据（TCGA COAD）的两项生存分析任务进行了评估。

迈向基于进化的小分子药代动力学预测自动化机器学习

分类： 机器学习, 人工智能

作者： Alex G. C. de Sá, David B. Ascher

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00421v1

摘要： 机器学习 (ML) 通过加快对开发新药所必需的小分子特性的预测，正在彻底改变药物发现。这些特性——包括吸收、分布、代谢和排泄 (ADME)——在药物开发的早期阶段至关重要，因为它们可以帮助我们了解药物在生物体中的过程，即药物的药代动力学。然而，现有方法缺乏个性化，并且依赖于手动设计的机器学习算法或管道，这可能会导致流程效率低下和存在偏差。为了应对这些挑战，我们提出了一种新型的基于进化的自动化机器学习方法（AutoML），专门用于预测小分子特性，特别关注药代动力学。利用基于语法的遗传编程的优势，我们的 AutoML 方法通过自动选择算法并设计针对输入分子数据的特定特征的预测管道来简化流程。结果证明 AutoML 在选择不同的 ML 算法方面非常有效，与传统方法相比，其预测性能相当甚至有所提高。通过提供个性化的机器学习驱动的管道，我们的方法有望增强药物发现中的小分子研究，为研究人员提供加速新型治疗药物开发的宝贵工具。

MPT-PAR：用于全景活动识别的混合参数变压器

分类： 计算机视觉和模式识别, 人工智能

作者： Wenqing Gan, Yan Sun, Feiran Liu, Xiangfeng Luo

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00420v1

摘要： 全景活动识别任务的目标是识别拥挤和复杂环境中各种粒度的行为，包括个人行为、社会群体活动和全局活动。现有方法通常使用参数独立模块来捕获特定于任务的特征，或使用参数共享模块来获取所有任务的共同特征。然而，不同粒度的任务之间往往存在很强的相互关联性和互补效应，这是以前的方法尚未注意到的。在本文中，我们提出了一种名为 MPT-PAR 的模型，该模型同时考虑每个任务的独特特征以及不同任务之间的协同作用，从而最大限度地利用多粒度活动识别中的特征。此外，我们通过引入时空关系增强模块和场景表示学习模块来强调时空信息的重要性，将动作和全局场景的时空上下文整合到每个粒度的特征图中。我们的方法在 JRDB-PAR 数据集上取得了 47.5% 的总体 F1 分数，显着优于所有最先进的方法。

DriveArena：自动驾驶闭环生成仿真平台

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Xuemeng Yang, Licheng Wen, Yukai Ma, Jianbiao Mei, Xin Li, Tiantian Wei, Wenjie Lei, Daocheng Fu, Pinlong Cai, Min Dou, Botian Shi, Liang He, Yong Liu, Yu Qiao

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00415v1

摘要： 本文介绍了 DriveArena，这是第一个专为驾驶代理在真实场景中导航而设计的高保真闭环仿真系统。 DriveArena 采用灵活的模块化架构，可实现其核心组件的无缝互换：Traffic Manager（能够在任何全球街道地图上生成真实交通流的交通模拟器）和 World Dreamer（具有无限自回归的高保真条件生成模型）。这种强大的协同作用使任何能够处理现实世界图像的驾驶代理能够在 DriveArena 的模拟环境中导航。智能体通过 World Dreamer 生成的图像和输出轨迹来感知周围环境。这些轨迹被输入到交通管理器中，实现与其他车辆的真实交互并生成新的场景布局。最后，最新的场景布局被转发回 World Dreamer，从而延续模拟周期。这一迭代过程促进了高度现实环境中的闭环探索，为跨不同且具有挑战性的场景开发和评估驾驶代理提供了有价值的平台。 DriveArena 标志着在驾驶模拟平台利用生成图像数据方面的重大飞跃，为闭环自动驾驶提供了见解。代码即将在 GitHub 上提供：https://github.com/PJLab-ADG/DriveArena

使用互信息测量对异构数据进行无监督的成对因果发现

分类： 人工智能, 机器学习, 方法

作者： Alexandre Trilla, Nenad Mijatovic

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00399v1

摘要： 科学的一项基本任务是确定潜在的因果关系，因为正是对这种功能结构的了解才导致了对观察数据中明显关联的效应的正确解释。从这个意义上说，因果发现是一种通过分析组成变量的统计特性来应对这一挑战的技术。在这项工作中，我们通过遵循仅涉及两个变量（即成对或双变量设置）的还原论方法来实现发现方法的普遍性。我们对当前（可能具有误导性）的基线结果提出质疑，因为它们是通过监督学习获得的，这可以说与这种真正的探索性努力背道而驰。因此，我们以无监督的方式处理这个问题，使用强大的互信息测量，并观察不同变量类型的影响，这在解决方案的设计中经常被忽略。因此，我们提供了一组新颖的标准无偏见结果，可以作为指导未来在完全未知的环境中发现任务的参考。

通过染色归一化增强整个载玻片病理学基础模型

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Juseung Yun, Yi Hu, Jinhyung Kim, Jongseong Jang, Soonyoung Lee

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00380v1

摘要： 数字病理学的最新进展导致了许多基础模型的发展，这些模型利用从十亿像素全幻灯片图像（WSI）提取的斑块进行自我监督学习。虽然这种方法利用了大量未标记的数据，但我们发现了一个重大问题：从这些自监督模型中提取的特征往往会按各个 WSI 进行聚类，我们将这种现象称为 WSI 特定特征崩溃。这个问题可能会限制模型在各种下游任务上的泛化能力和性能。为了解决这个问题，我们引入了染色标准化病理学基础模型，这是一种在经过染色标准化的斑块上进行训练的新型基础模型。染色归一化有助于减少不同实验室和扫描仪产生的颜色变异，使模型能够学习更一致的特征。染色标准化病理学基础模型使用从总共 34,795 个 WSI 中提取的 285,153,903 个斑块进行训练，结合来自癌症基因组图谱 (TCGA) 和基因型组织表达 (GTEx) 项目的数据。我们的实验表明，染色归一化病理学基础模型显着缓解了特征崩溃问题，表明该模型学习了更通用的特征，而不是过度拟合单个 WSI 特征。我们将染色归一化病理学基础模型与六个下游任务数据集的最先进模型进行了比较，结果表明 \name{} 相对于使用的 WSI 数量和模型参数计数实现了出色的性能。这表明染色归一化的应用大大提高了模型的效率和泛化能力。

论生成人工智能的机器遗忘的局限性和前景

分类： 机器学习, 人工智能

作者： Shiji Zhou, Lianzhe Wang, Jiangnan Ye, Yongliang Wu, Heng Chang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00376v1

摘要： 生成式人工智能（GenAI）旨在从潜在变量或其他数据模态合成真实且多样化的数据样本，在自然语言、图像、音频和图形等各个领域取得了显着的成果。然而，它们也给数据隐私、安全和道德带来了挑战和风险。机器去学习是从训练模型中消除或削弱特定数据样本或特征的影响，而不影响其在其他数据或任务上的性能的过程。虽然机器去学习在传统机器学习任务中显示出显着的功效，但目前尚不清楚它是否可以帮助 GenAI 变得更安全并符合人类的愿望。为此，本立场文件深入讨论了 GenAI 的机器取消学习方法。首先，我们提出了 GenAI 上机器取消学习任务的问题并介绍了背景。随后，我们通过关注两个代表性分支：LLM 和图像生成（扩散）模型，系统地研究了 GenAI 模型上机器取消学习的局限性。最后，我们主要从基准、评估指标、效用-遗忘权衡三个方面给出了我们的展望，并认真倡导该领域的未来发展。

协同驾驶中多视图数据集成的共形轨迹预测

分类： 人工智能, 计算机视觉和模式识别, 机器学习

作者： Xi Chen, Rahul Bhadani, Larry Head

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00374v1

摘要： 目前对轨迹预测的研究主要依赖于自我车辆的车载传感器收集的数据。随着车对车 (V2V) 和车对基础设施 (V2I) 通信等互联技术的快速发展，可以通过无线网络访问来自替代视图的有价值的信息。来自替代视图的信息的整合有可能克服与单一视图相关的固有限制，例如遮挡和有限的视野。在这项工作中，我们介绍了 V2INet，这是一种新颖的轨迹预测框架，旨在通过扩展现有的单视图模型来对多视图数据进行建模。与以前将多视图数据手动融合或制定为单独的训练阶段的方法不同，我们的模型支持端到端训练，从而增强了灵活性和性能。此外，预测的多模态轨迹通过事后共形预测模块进行校准，以获得有效且高效的置信区域。我们使用真实世界的 V2I 数据集 V2X-Seq 评估了整个框架。我们的结果表明，使用单个 GPU 在最终位移误差 (FDE) 和失误率 (MR) 方面具有卓越的性能。该代码可在以下位置公开获取：\url{https://github.com/xichennn/V2I_trajectory_prediction}。

DiM-Gesture：使用自适应层标准化 Mamba-2 框架生成共同语音手势

分类： 图形, 人工智能, 机器人技术, 声音

作者： Fan Zhang, Naye Ji, Fuxing Gao, Bozuo Zhao, Jingmei Wu, Yanbing Jiang, Hui Du, Zhenqing Ye, Jiayang Zhu, WeiFan Zhong, Leyao Yan, Xiaomeng Ma

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00370v1

摘要： 语音驱动的手势生成是虚拟人类创作中的一个新兴领域，当前的方法主要利用基于 Transformer 的架构，该架构需要大量内存，并且推理速度慢。为了应对这些限制，我们提出了 \textit{DiM-Gestures}，这是一种新颖的端到端生成模型，旨在采用基于 Mamba 的架构，仅根据原始语音音频创建高度个性化的 3D 全身手势。该模型将基于 Mamba 的模糊特征提取器与非自回归自适应层归一化 (AdaLN) Mamba-2 扩散架构集成在一起。该提取器利用 Mamba 框架和 WavLM 预训练模型，自动导出隐式连续模糊特征，然后将其统一为单个潜在特征。该功能由 AdaLN Mamba-2 处理，它在所有标记上实现统一的条件机制，以稳健地模拟模糊特征与生成的手势序列之间的相互作用。这种创新方法保证了手势-语音同步的高保真度，同时保持了手势的自然性。我们的框架采用扩散模型进行训练和推理，对 ZEGGS 和 BEAT 数据集进行了广泛的主观和客观评估。这些评估证实了我们的模型相对于当代最先进的方法的增强性能，展示了 DiTs 架构 (Persona-Gestors) 的竞争结果，同时优化了内存使用并加快了推理速度。

视频主题分割的多模态融合和一致性建模

分类： 人工智能, 计算机视觉和模式识别, 图像和视频处理

作者： Hai Yu, Chong Deng, Qinglin Zhang, Jiaqing Liu, Qian Chen, Wen Wang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00365v1

摘要： 视频主题分割（VTS）任务将视频分割成可理解的、不重叠的主题，有助于高效理解视频内容并快速访问特定内容。 VTS 对于各种下游视频理解任务也至关重要。使用浅层特征或无监督方法的传统 VTS 方法很难准确辨别主题转换的细微差别。最近，监督方法在视频动作或场景分割方面取得了优于无监督方法的性能。在这项工作中，我们通过深入探索多模态融合和多模态相干建模来改进监督 VTS。具体来说，（1）我们通过使用交叉注意力和专家混合探索不同的架构来增强多模态融合。（2）为了普遍加强多模态对齐和融合，我们通过多模态对比学习对模型进行预训练和微调。 (3) 我们提出了一种针对 VTS 任务量身定制的新预训练任务，以及一种用于增强 VTS 多模态一致性建模的新颖微调任务。由于教育视频的主题分割在促进学习体验方面发挥着至关重要的作用，我们以讲座的形式评估了所提出的教育视频方法。此外，我们引入了大规模的中文讲座视频数据集来扩充现有的英语语料库，促进 VTS 的进一步研究。对英语和中文讲座数据集的实验表明，与竞争性无监督和监督基线相比，我们的模型实现了卓越的 VTS 性能。

DNTextSpotter：通过改进的去噪训练进行任意形状的场景文本识别

分类： 计算机视觉和模式识别, 人工智能

作者： Yu Xie, Qian Qiao, Jun Gao, Tianxiang Wu, Shaoyao Huang, Jiaqing Fan, Ziqiang Cao, Zili Wang, Yue Zhang, Jielei Zhang, Huyang Sun

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00355v1

摘要： 越来越多的基于 Transformer 架构的端到端文本识别方法已经表现出优越的性能。这些方法利用二分图匹配算法在预测对象和实际对象之间执行一对一的最佳匹配。然而，二分图匹配的不稳定性会导致优化目标不一致，从而影响模型的训练性能。现有文献应用去噪训练来解决目标检测任务中二部图匹配不稳定的问题。不幸的是，这种去噪训练方法不能直接应用于文本识别任务，因为这些任务需要执行不规则形状检测任务和比分类更复杂的文本识别任务。为了解决这个问题，我们提出了一种新颖的去噪训练方法（DNTextSpotter），用于任意形状的文本识别。具体来说，我们将去噪部分的查询分解为带噪声的位置查询和带噪声的内容查询。我们使用贝塞尔曲线中心曲线的四个贝塞尔控制点来生成带噪声的位置查询。对于噪声内容查询，考虑到文本以固定位置顺序输出不利于位置与内容对齐，我们采用掩码字符滑动方法来初始化噪声内容查询，从而辅助文本内容和位置的对齐。为了提高模型对背景的感知，我们在去噪训练部分进一步利用额外的损失函数进行背景字符分类。尽管 DNTextSpotter 在概念上很简单，但它在四个基准（Total-Text）上优于最先进的方法、SCUT-CTW1500、ICDAR15 和反向文本），特别是与反向文本数据集中的最佳方法相比，提高了 11.3%。

一种利用扩散模型进行目标检测的简单背景增强方法

分类： 计算机视觉和模式识别, 人工智能

作者： Yuhang Li, Xin Dong, Chen Chen, Weiming Zhuang, Lingjuan Lyu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00350v1

摘要： 在计算机视觉中，众所周知，缺乏数据多样性会损害模型性能。在本研究中，我们解决了增强数据集多样性问题的挑战，以便有利于各种下游任务，例如对象检测和实例分割。我们通过利用生成模型的进步，特别是稳定扩散等文本到图像合成技术，提出了一种简单而有效的数据增强方法。我们的方法侧重于生成带标签的真实图像的变化，通过修复利用生成对象和背景增强来增强现有的训练数据，而不需要额外的注释。我们发现背景增强尤其显着提高了模型的鲁棒性和泛化能力。我们还研究了如何调整提示和掩码以确保生成的内容符合现有注释。我们的增强技术的功效通过对 COCO 数据集和其他几个关键对象检测基准的综合评估得到验证，证明了不同场景下模型性能的显着增强。这种方法为数据集增强的挑战提供了一种有前途的解决方案，有助于开发更准确、更强大的计算机视觉模型。

确保医学影像诊断的安全：深入分析抗人工智能攻击

分类： 密码学和安全, 人工智能, 图像和视频处理

作者： Angona Biswas, MD Abdullah Al Nasim, Kishor Datta Gupta, Roy George, Abdur Rashid

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00348v1

摘要： 机器学习 (ML) 是一个快速发展的医学领域，它利用大量资源将计算机科学和统计学应用于医学问题。机器学习的支持者称赞其处理大量、复杂且不稳定的医疗数据的能力。众所周知，攻击者可能会通过故意为机器学习分类器创建输入来导致错误分类。对抗性例子的研究已在计算机视觉应用领域广泛进行。医疗保健系统被认为是非常困难的，因为它们包含安全和生死攸关的考虑因素，并且性能准确性非常重要。最近的争论表明，由于附带的技术基础设施和强大的经济激励措施，可以对医学图像分析（MediA）技术进行对抗性攻击。由于诊断将成为重要决策的基础，因此有必要评估医疗 DNN 任务对抗对抗性攻击的能力。一些早期的研究已经考虑了简单的对抗性攻击。然而，DNN 很容易受到风险更大、更现实的攻击。本文涵盖了最近提出的针对医学成像 DNN 的对抗性攻击策略以及对策。在这项研究中，我们回顾了当前的对抗性成像攻击、检测技术。它还涵盖了这些技术的各个方面，并为未来改进神经网络的鲁棒性提供了建议。

推进医学图像分割：利用扩散变压器进行形态驱动学习

分类： 计算机视觉和模式识别, 人工智能

作者： Sungmin Kang, Jaeha Song, Jihie Kim

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00347v1

摘要： 了解医学图像的形态结构并精确分割感兴趣或异常区域是一项可以辅助诊断的重要任务。然而，医学成像的独特属性使得清晰的分割变得困难，并且标记的高成本和耗时的任务导致地面实况的粗粒度表示。面对这些问题，我们提出了一种新颖的扩散变压器分割（DTS）模型，用于在存在噪声的情况下进行鲁棒分割。我们通过应用 Transformer 架构的实验提出了一种主流 Denoising U-Net 编码器的替代方案，该架构通过自注意力捕获全局依赖性。此外，我们提出了 k 邻域标签平滑、反向边界注意力以及形态驱动学习的自监督学习，以提高识别复杂结构的能力。我们的模型分析图像的形态学表示，在各种医学成像模式（包括 CT、MRI 和病变图像）中显示出比以前的模型更好的结果。

大规模视频驱动电子商务中视频检索的神经图匹配

分类： 机器学习, 人工智能

作者： Houye Ji, Ye Tang, Zhaoxin Chen, Lixi Deng, Jun Hu, Lei Su

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00346v1

摘要： 随着短视频行业的快速发展，传统电商遇到了新的范式——视频驱动的电商，利用有吸引力的视频进行产品展示，为用户提供视频和商品服务。受益于动态、可视化的商品介绍，视频电商在刺激消费者信心、促进销售方面展现出巨大潜力。在本文中，我们专注于视频检索任务，面临以下挑战：（1）如何处理用户、项目和视频之间的异构性？ (2)如何挖掘物品和视频之间的互补性以更好地让用户理解？在本文中，我们首先利用对偶图对视频驱动的电子商务中用户视频和用户项目交互的共存进行建模，并创新地将用户偏好理解简化为图匹配问题。为了解决这个问题，我们进一步提出了一种新颖的双层图匹配网络（GMN），它主要由节点级和偏好级图匹配组成。给定一个用户，节点级图匹配旨在匹配视频和项目，而偏好级图匹配旨在匹配从视频和项目提取的多个用户偏好。然后，所提出的 GMN 可以通过以双层方式聚合来自对偶图的匹配节点或偏好来生成和改进用户嵌入。综合实验表明，所提出的 GMN 具有比最先进方法（例如 AUC+1.9% 和 CTR+7.15%）显着改进的优越性。我们在知名视频电商平台上开发，每天服务数亿用户

用于人形控制的 MuJoCo MPC：HumanoidBench 上的评估

分类： 机器人技术, 人工智能, 机器学习

作者： Moritz Meser, Aditya Bhatt, Boris Belousov, Jan Peters

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00342v1

摘要： 我们使用 MuJoCo MPC 来应对最近推出的全身人形控制 HumanoidBench 基准测试。我们发现 HumanoidBench 的稀疏奖励函数在优化时会产生不良且不切实际的行为；因此，我们提出了一组正则化项来稳定机器人在任务中的行为。当前对任务子集的评估表明，我们提出的奖励函数可以实现最高的 HumanoidBench 分数，同时保持真实的姿势和平滑的控制信号。我们的代码是公开的，并将成为 MuJoCo MPC 的一部分，从而实现机器人行为的快速原型设计。

OTAD：用于不可知对抗攻击的最佳传输诱导鲁棒模型

分类： 机器学习, 人工智能, 优化与控制, 机器学习

作者： Kuo Gai, Sicong Wang, Shihua Zhang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00329v1

摘要： 深度神经网络（DNN）很容易受到输入的微小对抗性扰动的影响，这对其可靠性和鲁棒性构成了重大挑战。对抗性训练等经验方法可以防御特定的攻击，但仍然容易受到更强大的攻击。另外，Lipschitz 网络对看不见的扰动提供了经过认证的鲁棒性，但缺乏足够的表达能力。为了利用这两种方法的优点，我们设计了一种新颖的两步最优传输诱导对抗防御（OTAD）模型，该模型可以准确地拟合训练数据，同时保持局部 Lipschitz 连续性。首先，我们使用源自最优传输理论的正则化器训练 DNN，生成将数据与其特征链接起来的离散最优传输图。利用映射的固有规律性，我们通过求解凸积分问题（CIP）对映射进行插值，以保证局部Lipschitz属性。 OTAD 可扩展至 ResNet 和 Transformer 的多种架构，使其适用于复杂数据。为了高效计算，可以通过训练神经网络来解决 CIP。 OTAD 通过最佳传输地图的规律性，为开发可靠且安全的深度学习系统开辟了一条新途径。实证结果表明，OTAD 在不同数据集上的表现优于其他稳健模型。

ADBM：用于可靠对抗性净化的对抗性扩散桥模型

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Xiao Li, Wenxuan Sun, Huanran Chen, Qiongxiu Li, Yining Liu, Yingzhe He, Jie Shi, Xiaolin Hu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00315v1

摘要： 最近，基于扩散的纯化（DiffPure）已被认为是针对对抗性示例的有效防御方法。然而，我们发现直接采用原始预训练扩散模型进行对抗性纯化的 DiffPure 并不理想。这是由于噪声净化性能和数据恢复质量之间固有的权衡所致。此外，现有 DiffPure 评估的可靠性值得怀疑，因为它们依赖于弱自适应攻击。在这项工作中，我们提出了一种新颖的对抗扩散桥模型，称为 ADBM。 ADBM直接构建了从扩散的对抗数据回到原始干净样本的反向桥梁，增强了原始扩散模型的净化能力。通过各种场景的理论分析和实验验证，ADBM 已被证明是一种卓越而强大的防御机制，为实际应用提供了重要的前景。

使用单峰概率分布离散连续动作空间以实现策略强化学习

分类： 机器学习, 人工智能

作者： Yuanyang Zhu, Zhi Wang, Yuanheng Zhu, Chunlin Chen, Dongbin Zhao

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00309v1

摘要： 对于同策略强化学习，连续控制的离散动作空间可以轻松表达多种模式，并且易于优化。然而，如果不考虑离散原子动作之间的固有顺序，离散动作数量的爆炸可能具有不期望的特性，并导致策略梯度估计器出现更高的方差。在本文中，我们介绍了一种简单的架构，通过使用泊松概率分布将离散策略限制为单峰来解决此问题。这种单峰架构可以使用显式的单峰概率分布更好地利用底层连续动作空间中的连续性。我们进行了大量的实验，表明具有单峰概率分布的离散策略在具有挑战性的控制任务中，特别是在人形机器人等高度复杂的任务中，为策略强化学习算法提供了更快的收敛速度和更高的性能。我们对策略梯度估计器的方差进行了理论分析，这表明我们精心设计的单峰离散策略可以保留较低的方差并产生稳定的学习过程。

ABC Align：大语言模型对齐以确保安全性和准确性

分类： 机器学习, 人工智能, 计算和语言, 68T50, I.2.7

作者： Gareth Seneque, Lap-Hang Ho, Ariel Kuperman, Nafise Erfanian Saeedi, Jeffrey Molendijk

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00307v1

摘要： 大型语言模型（LLM）的对齐仍然是一个未解决的问题。人类偏好是高度分布的，可以在从个人到不同群体的多个抽象层次上捕获。以标准和原则为代表的组织偏好被定义为减轻声誉风险或履行立法义务。在本文中，我们提出了 ABC Align，这是一种针对大语言模型的新颖对齐方法，可以将大型媒体组织的标准和偏好集成到大语言模型本身中。我们结合了一组数据和方法，这些数据和方法基于合成数据生成、偏好优化和训练后模型量化方面的最新突破。我们的统一方法可以减少偏差并提高准确性，同时保留推理能力（根据标准基准进行衡量）。

具有对抗性跨视图重建和信息瓶颈的对比图表示学习

分类： 机器学习, 人工智能

作者： Yuntao Shou, Haozhi Lan, Xiangyong Cao

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00295v1

摘要： 图神经网络（GNN）由于其强大的信息聚合能力而受到广泛的研究关注。尽管 GNN 取得了成功，但它们中的大多数都遇到了由少数流行类别引起的图表流行度偏差问题。此外，真实的图数据集总是包含不正确的节点标签，这阻碍了 GNN 学习有效的节点表示。图对比学习（GCL）已被证明可以有效解决节点分类任务的上述问题。大多数现有的 GCL 方法都是通过随机删除边和节点来创建多个对比视图，然后最大化这些对比视图之间的互信息（MI）来改进节点特征表示。然而，最大化多个对比视图之间的互信息可能会导致模型学习一些与节点分类任务无关的冗余信息。为了解决这个问题，我们提出了一种用于节点分类的有效的对比图表示学习，具有对抗性跨视图重建和信息瓶颈（CGRL），它可以自适应地学习掩盖图中的节点和边，以获得最佳的图结构表示。此外，我们创新地将信息瓶颈理论引入 GCL 中，以消除多个对比视图中的冗余信息，同时保留尽可能多的有关节点分类的信息。此外，我们向原始视图添加噪声扰动，并通过构建对抗视图来重建增强视图，以提高节点特征表示的鲁棒性。对现实世界公共数据集的大量实验表明，我们的方法显着优于现有的最先进算法。

通过图神经网络进行多模态参数高效微调

分类： 计算机视觉和模式识别, 人工智能

作者： Bin Cheng, Jiaxuan Lu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00290v1

摘要： 随着基础模型时代的到来，预训练和微调已成为常见的范式。最近，参数高效微调由于其可学习参数数量和性能之间更好的平衡而受到了广泛关注。然而，当前的一些参数有效的微调方法仅对单一模态进行建模，并且缺乏在下游任务中利用结构知识。针对这一问题，本文提出了一种基于图网络的多模态参数高效微调方法。每张图像都被输入多模态大语言模型 (MLLM) 以生成文本描述。然后，图像及其相应的文本描述由冻结图像编码器和文本编码器处理，分别生成图像特征和文本特征。基于多模态特征节点的相似性构建图，并从每个节点提取与这些特征相关的知识和关系。此外，弹性权重合并（EWC）正则化被纳入损失函数中，以减轻任务学习过程中的遗忘问题。所提出的模型在 OxfordPets、Flowers102 和 Food101 数据集上的测试精度分别提高了 4.45%、2.92% 和 0.23%。代码可在 https://github.com/yunche0/GA-Net/tree/master 获取。

无监督域适应中的梯度协调

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Fuxiang Huang, Suqi Song, Lei Zhang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00288v1

摘要： 无监督域适应（UDA）旨在将知识从标记的源域转移到未标记的目标域。当前的许多方法侧重于通过同时优化域对齐和分类任务来学习特征表示，这些特征表示对于分类具有区分性并且跨域不变。然而，这些方法常常忽视一个关键的挑战：基于梯度的优化过程中这两个任务之间的固有冲突。在本文中，我们深入研究了这个问题，并介绍了两种有效的解决方案，称为梯度协调，包括 GH 和 GH++，以减轻域对齐和分类任务之间的冲突。 GH的工作原理是通过将不同任务之间的梯度角从钝角改变为锐角，从而解决冲突并以协调的方式权衡两个任务。然而，这会导致这两个任务偏离原来的优化方向。因此，我们进一步提出了一个改进版本GH++，它将任务之间的梯度角度从钝角调整为垂直角。这不仅消除了冲突，而且最大限度地减少了与原始梯度方向的偏差。最后，为了优化的便利性和效率，我们使用协调梯度上的积分算子将梯度协调策略发展为动态加权损失函数。值得注意的是，GH/GH++ 与 UDA 正交，可以无缝集成到大多数现有 UDA 模型中。理论见解和实验分析表明，所提出的方法不仅增强了流行的 UDA 基线，而且还改进了最新的最先进模型。

通过时间融合实现可扩展的 GPU 加速 SNN 训练

分类： 人工智能, 分布式、并行和集群计算

作者： Yanchen Li, Jiachun Li, Kebin Sun, Luziwei Leng, Ran Cheng

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00280v1

摘要： 脉冲神经网络 (SNN) 借鉴大脑的复杂结构，作为人工智能的变革性发展而出现，紧密模拟生物神经网络的复杂动态。虽然 SNN 在专门的稀疏计算硬件上显示出令人鼓舞的效率，但它们的实际训练通常依赖于传统的 GPU。与传统的人工神经网络 (ANN) 相比，这种依赖经常导致计算时间延长，为推进 SNN 研究带来了重大障碍。为了应对这一挑战，我们提出了一种新颖的时间融合方法，专门用于加速 SNN 在 GPU 平台上的传播动态，该方法是对当前使用 SNN 处理深度学习任务的重要方法的增强。该方法通过真实训练场景和理想条件下的大量实验进行了彻底验证，证实了其对单 GPU 和多 GPU 系统的有效性和适应性。根据各种现有的 SNN 库/实现进行基准测试，我们的方法在 NVIDIA A100 GPU 上实现了从 5\times$ 到 40\times$ 的加速。公开的实验代码可以在 https://github.com/EMI-Group/snn-temporal-fusion 找到。

在 SIMD 架构上使用三种张量布局的高性能 Im2win 和直接卷积

分类： 机器学习, 人工智能, 神经和进化计算

作者： Xiang Fu, Xinpeng Zhang, Jixiang Ma, Peng Zhao, Shuai Lu, Xu T. Liu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00278v1

摘要： 卷积是深度神经网络的核心组件，计算量大且耗时。张量数据布局在内存访问和计算效率方面显着影响卷积运算。然而，关于卷积方法的 SIMD 架构上的数据布局仍然缺乏全面的性能表征。本文提出了 im2win 卷积的三种新颖的数据布局：NHWC、CHWN 和 CHWN8，并介绍了一组直接卷积和 im2win 卷积的通用优化技术。我们将优化的 im2win 卷积与直接卷积以及 PyTorch 基于 im2col 的卷积在 SIMD 机器上的上述布局上进行比较。实验表明，采用新 NHWC 布局的 im2win 卷积比 NCHW 布局实现了高达 355% 的性能加速。我们的优化还显着提高了 im2win 和直接卷积的性能。我们优化的 im2win 和直接卷积分别实现了机器理论峰值性能的 95% 和 94%。

基多：通过查询引导的上下文压缩加速长上下文推理

分类： 计算和语言, 人工智能

作者： Wenshan Wang, Yihang Wang, Yixing Fan, Huaming Liao, Jiafeng Guo

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00274v1

摘要： 上下文学习 (ICL) 能力是大型语言模型 (LLM) 成功的基础。最近，上下文压缩引起了越来越多的兴趣，因为它可以大大降低大语言模型的推理复杂性和计算成本。在本文中，我们介绍了一种新颖的查询引导注意力压缩（QUITO）方法，该方法利用对上下文的问题注意力来过滤无用信息。具体来说，我们采用触发标记来计算响应问题的上下文的注意力分布。基于分布，我们提出了三种不同的过滤方法来满足上下文长度的预算约束。我们使用两个广泛使用的数据集（NaturalQuestions 和 ASQA）评估 QUITO。实验结果表明，QUITO 的性能显着优于各种数据集和下游大语言模型的既定基线，凸显了其有效性。我们的代码可在 https://github.com/Wenshansilvia/attention_compressor 获取。

Clover-2：回归轻量级推测解码的准确推理

分类： 计算和语言, 人工智能, 机器学习

作者： Bin Xiao, Lujun Gui, Lei Su, Weipeng Chen

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00264v1

摘要： 大型语言模型 (LLM) 经常出现效率低下的问题，这很大程度上归因于自回归解码的要求与当代 GPU 架构之间的不一致。最近，回归轻量级推测解码因其在文本生成任务中显着的效率提高而引起了人们的关注。这种方法利用轻量级回归草稿模型，例如循环神经网络 (RNN) 或单个转换器解码器层，利用顺序信息迭代地预测潜在标记。具体来说，RNN 草稿模型在计算上是经济的，但往往会提供较低的准确度，而注意力解码器层模型则表现出相反的特征。本文介绍了 Clover-2，它是 Clover 的高级迭代，Clover 是一种基于 RNN 的草稿模型，旨在实现与注意力解码器层模型相当的精度，同时保持最小的计算开销。 Clover-2增强了模型架构，并融入了知识蒸馏，以提高Clover的准确性并提高整体效率。我们使用开源 Vicuna 7B 和 LLaMA3-Instruct 8B 模型进行了实验。结果表明，Clover-2 在各种模型架构上都超越了现有方法，展示了其有效性和鲁棒性。

RoCo：通过迭代对象匹配和姿势调整实现鲁棒协作感知

分类： 人工智能

作者： Zhe Huang, Shuo Wang, Yongcai Wang, Wanting Li, Deying Li, Lei Wang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00257v1

摘要： 多车协同自动驾驶通常需要多种方式的数据融合。为了确保有效的融合，来自每个单独模态的数据应保持相当高的质量。然而，在协作感知中，基于模态的对象检测的质量对代理之间的相对姿势误差高度敏感。它会导致功能错位并显着降低协作性能。为了解决这个问题，我们提出了 RoCo，一种新颖的无监督框架，用于进行迭代对象匹配和代理姿态调整。据我们所知，我们的工作是第一个将协作感知中的姿势校正问题建模为对象匹配任务，该任务可靠地关联不同代理检测到的常见对象。除此之外，我们提出了一种图优化过程，通过最小化关联对象的对齐误差来调整代理姿势，并根据调整后的代理姿势重新进行对象匹配。这个过程迭代地进行直到收敛。对模拟和真实数据集的实验研究表明，所提出的框架 RoCo 在协作目标检测性能方面始终优于现有的相关方法，并且当代理的姿势信息具有高水平噪声时表现出高度期望的鲁棒性。还提供消融研究以显示其关键参数和组件的影响。代码发布于https://github.com/HuangZhe885/RoCo。

鞍点问题的多重贪婪拟牛顿法

分类： 人工智能

作者： Minheng Xiao, Shi Bo, Zhizhong Wu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00241v1

摘要： 本文介绍了多重贪婪拟牛顿 (MGSR1-SP) 方法，这是一种解决强凸强凹 (SCSC) 鞍点问题的新方法。我们的方法增强了这些问题中固有的平方不定Hessian矩阵的近似，通过迭代贪婪更新显着提高了稳定性和效率。我们对 MGSR1-SP 进行了全面的理论分析，证明了其线性二次收敛速度。与最先进的算法相比，针对 AUC 最大化和对抗性去偏差问题进行的数值实验强调了我们的方法的收敛速度的提高。这些结果证实了 MGSR1-SP 在提高各种机器学习应用的性能方面的潜力，在这些应用中，高效、准确的 Hessian 近似至关重要。

迷失在翻译中：文本到图像扩散模型中的潜在概念错位

分类： 人工智能, 计算和语言

作者： Juntu Zhao, Junyu Deng, Yixin Ye, Chongxuan Li, Zhijie Deng, Dequan Wang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00230v1

摘要： 文本到图像扩散模型的进步拓宽了广泛的下游实际应用，但此类模型经常遇到文本和图像之间的错位问题。以两个解开概念的组合的生成为例，假设给出提示“一杯冰可乐”，现有模型通常会生成一杯冰可乐，因为冰可乐通常与玻璃杯同时出现模型训练期间的茶一。这种错位的根源在于文本到图像扩散模型的潜在语义空间的混乱，因此我们将“一杯冰可乐”现象称为潜在概念错位（LC-Mis）。我们利用大型语言模型 (LLM) 来彻底研究 LC-Mi 的范围，并开发一个自动化管道，用于将扩散模型的潜在语义与文本提示对齐。实证评估证实了我们方法的有效性，大大减少了 LC-Mis 错误并增强了文本到图像扩散模型的稳健性和多功能性。我们的代码和数据集已在线提供以供参考。

用于长距离盲人虹膜识别的先验嵌入驱动架构

分类： 计算机视觉和模式识别, 人工智能

作者： Qi Xiong, Xinman Zhang, Jun Shen

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00210v1

摘要： 盲虹膜图像是由于远距离虹膜识别过程中未知的退化而导致的，通常会导致虹膜识别率下降。目前，现有文献很少提供该问题的解决方案。作为回应，我们提出了一种用于长距离盲虹膜识别的先验嵌入驱动架构。我们首先提出了一种盲虹膜图像恢复网络，称为 Iris-PPRGAN。为了有效地恢复盲人虹膜的纹理，Iris-PPRGAN 包括用作先验解码器的生成对抗网络（GAN）和用作编码器的 DNN。为了更有效地提取虹膜特征，我们通过修改 InsightFace 的瓶颈模块提出了一种鲁棒的虹膜分类器，称为 Insight-Iris。首先通过 Iris-PPRGAN 恢复低质量的盲虹膜图像，然后通过 Insight-Iris 识别恢复的虹膜图像。在公共 CASIA-Iris-distance 数据集上的实验结果表明，我们提出的方法在定量和定性方面均明显优于最先进的盲虹膜恢复方法，具体而言，远距离盲虹膜图像的识别率达到 90使用我们的方法处理后的%，与未经修复的图像相比，提高了大约十个百分点。

用于基于纯视觉的 GUI 代理的 OmniParser

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者： Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00203v1

摘要： 大型视觉语言模型最近的成功显示了驱动在用户界面上运行的代理系统的巨大潜力。然而，我们认为，像 GPT-4V 这样作为跨不同应用程序的多个操作系统上的总代理的强大多模态模型在很大程度上被低估了，因为缺乏强大的屏幕解析技术，该技术能够：1）可靠地识别用户界面中的可交互图标，2）理解屏幕截图中各种元素的语义，并准确地将预期动作与屏幕上的相应区域关联起来。为了填补这些空白，我们引入了 \textsc{OmniParser}，一种将用户界面屏幕截图解析为结构化元素的综合方法，它显着增强了 GPT-4V 生成可以准确地扎根于界面相应区域的动作的能力。我们首先使用流行的网页和图标描述数据集策划了一个可交互的图标检测数据集。这些数据集用于微调专用模型：用于解析屏幕上可交互区域的检测模型和用于提取检测到的元素的功能语义的标题模型。 \textsc{OmniParser} 显着提高了 GPT-4V 在 ScreenSpot 基准测试中的性能。在 Mind2Web 和 AITW 基准测试中，仅输入屏幕截图的 \textsc{OmniParser} 优于需要屏幕截图之外的其他信息的 GPT-4V 基线。