MiX Knowledge

通过自主现实世界强化学习不断改进移动操作

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习, 系统与控制, 系统与控制

作者： Russell Mendonca, Emmanuel Panov, Bernadette Bucher, Jiuguang Wang, Deepak Pathak

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20568v1

摘要： 我们提出了一个用于移动操作的完全自主的现实世界强化学习框架，该框架可以在没有大量仪器或人工监督的情况下学习策略。这是通过以下方式实现的：1) 任务相关的自主性，它指导对对象交互的探索并防止目标状态附近的停滞，2) 通过利用行为先验中的基本任务知识进行有效的策略学习，以及 3) 制定结合人类可解释语义的通用奖励具有低水平、细粒度观察的信息。我们证明，我们的方法允许 Spot 机器人在一组四个具有挑战性的移动操作任务中不断提高其性能，在任务中获得 80% 的平均成功率，比现有方法提高 3-4 倍。视频可以在 https://continual-mobile-manip.github.io/ 找到

LaMMA-P：使用 LM 驱动的 PDDL 规划器进行泛化多智能体长期任务分配和规划

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习, 多代理系统

作者： Xiaopan Zhang, Hao Qin, Fuquan Wang, Yue Dong, Jiachen Li

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20560v1

摘要： 语言模型（LM）具有很强的理解自然语言的能力，使其能够有效地将人类指令转化为简单机器人任务的详细计划。尽管如此，处理长期任务仍然是一个重大挑战，特别是在协作异构机器人团队的子任务识别和分配方面。为了解决这个问题，我们提出了一种语言模型驱动的多智能体 PDDL 规划器（LaMMA-P），这是一种新颖的多智能体任务规划框架，可以在长期任务上实现最先进的性能。 LaMMA-P 集成了 LM 的推理能力和传统启发式搜索规划器的优势，以实现高成功率和效率，同时展示跨任务的强大泛化能力。此外，我们还创建了 MAT-THOR，这是一个综合基准，基于 AI2-THOR 环境，以两种不同复杂程度的家庭任务为特征。实验结果表明，与现有基于 LM 的多智能体规划器相比，LaMMA-P 的成功率提高了 105%，效率提高了 36%。这项工作的实验视频、代码和数据集以及每个模块中使用的详细提示可以在 https://lamma-p.github.io 上找到。

Maia-2：国际象棋中人类与人工智能协调的统一模型

分类： 人工智能

作者： Zhenwei Tang, Difan Jiao, Reid McIlroy-Young, Jon Kleinberg, Siddhartha Sen, Ashton Anderson

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20553v1

摘要： 在越来越多的领域，人工智能（AI）系统不仅超越了人类的能力，而且准确地模拟了人类的行为。这引入了通过更相关的人工智能合作伙伴和对人类决策更深入的洞察，在这些领域进行基于算法的教学的可能性。然而，实现这一目标的关键是对不同技能水平的人类行为进行连贯建模。国际象棋是研究这种人类与人工智能一致性的理想模型系统，其作为人工智能研究关键测试平台的丰富历史、成熟的超人类人工智能系统（如 AlphaZero）以及通过国际象棋评级系统对技能进行精确测量。之前在国际象棋中对人类决策进行建模的工作使用完全独立的模型来捕捉不同技能水平的人类风格，这意味着它们在适应人类全面改进的能力方面缺乏一致性，并且最终限制了它们作为人工智能合作伙伴和技术的有效性。教学工具。在这项工作中，我们提出了一种统一的建模方法，用于国际象棋中的人类与人工智能的协调，该方法可以连贯地捕捉不同技能水平的人类风格，并直接捕捉人们如何提高。认识到人类学习的复杂性、非线性本质，我们引入了一种技能感知注意力机制，将玩家的优势与编码的国际象棋位置动态整合，使我们的模型能够对不断发展的玩家技能敏感。我们的实验结果表明，这个统一的框架显着增强了人工智能和人类玩家在不同专业水平上的一致性，为更深入地了解人类决策和人工智能引导的教学工具铺平了道路。

实际代码生成中的大语言模型幻觉：现象、机制和缓解措施

分类： 软件工程, 人工智能, 计算和语言

作者： Ziyao Zhang, Yanlin Wang, Chong Wang, Jiachi Chen, Zibin Zheng

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20550v1

摘要： 代码生成旨在根据输入的需求自动生成代码，显着提高开发效率。最近基于大型语言模型（LLM）的方法已经显示出有希望的结果并彻底改变了代码生成任务。尽管LLM的性能很有前景，但LLM生成的内容常常带有幻觉，特别是对于实际开发过程中需要处理复杂上下文依赖的代码生成场景。尽管之前的研究已经分析了 LLM 支持的代码生成中的幻觉，但该研究仅限于独立函数生成。在本文中，我们进行了实证研究，以在存储库级生成场景中更实际和更复杂的开发环境中研究大语言模型幻觉的现象、机制和缓解。首先，我们手动检查六个主流 LLM 的代码生成结果，以建立 LLM 生成代码的幻觉分类法。接下来，我们详细阐述幻觉现象，分析其在不同模型中的分布。然后，我们分析幻觉的原因并确定导致幻觉的四个潜在因素。最后，我们提出了一种基于 RAG 的缓解方法，该方法在所有研究的大语言模型中表现出一致的有效性。包括代码、数据和实验结果的复制包可在 https://github.com/DeepSoftwareAnalytics/LLMCodingHallucination 获取

Robi Butler：与家用机器人助手的远程多模式交互

分类： 机器人技术, 人工智能, 人机交互

作者： Anxing Xiao, Nuwan Janaka, Tianrun Hu, Anshul Gupta, Kaixin Li, Cunjun Yu, David Hsu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20548v1

摘要： 在本文中，我们介绍了 Robi Butler，这是一种新型家用机器人系统，可以与远程用户进行多模式交互。 Robi Butler 基于先进的通信接口，允许用户监控机器人的状态、发送文本或语音指令，并通过手势选择目标对象。我们系统的核心是一个由大型语言模型 (LLM) 提供支持的高级行为模块，它解释多模式指令以生成行动计划。这些计划由一组由视觉语言模型 (VLM) 支持的开放词汇基元组成，可处理文本和指向查询。上述组件的集成使得Robi Butler能够以零样本的方式在现实家庭环境中实现远程多模式指令。我们使用涉及远程用户发出多模式指令的各种日常家务任务来展示该系统的有效性和效率。此外，我们还进行了一项用户研究，以分析多模式交互如何影响远程人机交互过程中的效率和用户体验，并讨论潜在的改进。

母语西班牙语词义消歧：综合词汇评估资源

分类： 计算和语言, 人工智能

作者： Pablo Ortega, Jordi Luque, Luis Lamiable, Rodrigo López, Richard Benjamins

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20524v1

摘要： 人类语言虽然旨在传达意义，但本质上带有歧义。它给语音和语言处理带来了挑战，但也发挥着重要的交流功能。有效解决歧义既是期望的也是必要的特性。上下文中单词的词汇含义可以通过词义消歧 (WSD) 算法自动确定，该算法依赖于通常有限且偏向英语的外部知识。当将内容改编为其他语言时，自动翻译常常不准确，需要高度的专家人工验证才能确保准确性和理解性。当前的研究通过为西班牙语 WSD 引入新资源来解决以前的局限性。它包括一个意义清单和一个来自 Diccionario de la Lengua Espa~nola 的词汇数据集，该词典由 Real Academia Espa~nola 维护。我们还审查当前的西班牙语资源，并通过最先进的系统报告这些资源的指标。

分布稳健的非动态强化学习的上限和下限

分类： 机器学习, 人工智能, 机器学习

作者： Zhishuai Liu, Weixin Wang, Pan Xu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20521v1

摘要： 我们研究非动态强化学习（RL），其中策略训练和部署环境不同。为了应对这种环境扰动，我们专注于在分布稳健马尔可夫决策过程（DRMDP）框架下学习对过渡动态中的不确定性具有鲁棒性的策略，其中名义动态和扰动动态是线性马尔可夫决策过程。我们提出了一种新颖的算法 We-DRIVE-U，其平均次优性 $\widetilde{\mathcal{O}}\big({d H \cdot \min {1/{\rho}, H}/\sqrt {K} }\big)$，其中$K$是剧集数量，$H$是地平线长度，$d$是特征维度，$\rho$是不确定性水平。该结果将当前最佳水平提高了 $\mathcal{O}(dH/\min{1/\rho,H})$。我们还构建了一个新颖的硬实例，并在此设置中导出第一个信息论下界，这表明我们的算法对于任何不确定性水平 $\ rho\in(0,1]$。我们的算法还采用“罕见切换”设计，因此只需要 $\mathcal{O}(dH\log(1+H^2K))$ 策略切换和 $\ mathcal{O}(d^2H\log(1+H^2K))$调用预言机解决对偶优化问题，显着提高了DRMDP现有算法的计算效率，其策略切换和预言机复杂度均为$\数学{O}(K)$。

SMLE：通过嵌入式过度逼近实现安全机器学习

分类： 机器学习, 人工智能

作者： Matteo Francobaldi, Michele Lombardi

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20517v1

摘要： 尽管机器学习 (ML) 和神经网络最近取得了一定程度的进步，但为这些系统的行为提供正式保证仍然是一个悬而未决的问题，也是在受监管或安全关键场景中采用它们的关键要求。我们考虑训练可微 ML 模型的任务，保证满足设计者选择的属性，即输入输出含义。由于现代神经模型中严格验证和执行合规性的计算复杂性，这是非常具有挑战性的。我们提供了一种基于三个组件的创新方法：1）通用、简单的架构，能够以保守的语义进行有效的验证； 2）基于投影梯度法的严格训练算法； 3）寻找强反例问题的表述。所提出的框架仅受模型复杂性的轻微影响，可以很好地扩展到实际应用，并生成提供完全财产满意度保证的模型。我们评估回归中线性不等式定义的属性以及多标签分类中互斥类的方法。我们的方法与包括预处理期间（即训练数据）以及后处理期间（即模型预测）期间的属性执行的基线相比具有竞争力。最后，我们的贡献建立了一个框架，开辟了多个研究方向和潜在的改进。

哪些信息有助于基于日志的异常检测？基于可配置变压器的方法的见解

分类： 软件工程, 人工智能, 机器学习

作者： Xingfang Wu, Heng Li, Foutse Khomh

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20503v1

摘要： 日志数据是根据源代码中的日志语句生成的，可深入了解软件应用程序和系统的执行过程。最先进的基于日志的异常检测方法通常利用深度学习模型来捕获日志数据中的语义或顺序信息并检测异常运行时行为。然而，这些不同类型信息的影响尚不清楚。此外，现有方法尚未捕获日志数据中的时间戳，这可能会提供比顺序信息更细粒度的时间信息。在这项工作中，我们提出了一种可配置的基于变压器的异常检测模型，它可以捕获日志数据中的语义、顺序和时间信息，并允许我们将不同类型的信息配置为模型的特征。此外，我们使用不同长度的日志序列来训练和评估所提出的模型，从而克服了依赖固定长度或时间窗口日志序列作为输入的现有方法的约束。利用所提出的模型，我们使用不同的输入特征组合进行了一系列实验，以评估不同类型信息在异常检测中的作用。当提供不同长度的日志序列时，与基线相比，该模型可以获得有竞争力且一致稳定的性能。结果表明，事件发生信息在识别异常中起着关键作用，而顺序和时间信息对所研究的公共数据集中的异常检测影响并不显着。另一方面，研究结果还揭示了所研究的公共数据集的简单性，并强调了构建包含不同类型异常的新数据集以更好地评估异常检测模型性能的重要性。

COLLAGE：使用分层潜在扩散和语言模型生成协作人机交互

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 图形

作者： Divyanshu Daiya, Damon Conover, Aniket Bera

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20502v1

摘要： 我们提出了一种新颖的框架 COLLAGE，用于通过利用大语言模型（LLM）和分层运动特定矢量量化变分自动编码器（VQ-VAE）来生成协作代理-对象-代理交互。我们的模型通过结合大语言模型的知识和推理能力来指导生成扩散模型，解决了该领域缺乏丰富数据集的问题。分层 VQ-VAE 架构在多个抽象级别捕获不同的运动特定特征，避免冗余概念并实现高效的多分辨率表示。我们引入了一种在潜在空间中运行的扩散模型，并结合了 LLM 生成的运动规划线索来指导去噪过程，从而产生具有更大控制力和多样性的特定提示运动。 CORE-4D 和 InterHuman 数据集上的实验结果证明了我们的方法在生成真实且多样化的人-物-人协作交互方面的有效性，优于最先进的方法。我们的工作为机器人、图形和计算机视觉等各个领域的复杂交互建模开辟了新的可能性。

RecSys 挑战 2024：平衡新闻推荐的准确性和编辑价值

分类： 信息检索, 人工智能, 机器学习

作者： Johannes Kruse, Kasper Lindskow, Saikishore Kalloori, Marco Polignano, Claudio Pomo, Abhishek Srivastava, Anshuk Uppal, Michael Riis Andersen, Jes Frellsen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20483v1

摘要： 2024 年 RecSys 挑战赛旨在通过解决为新闻出版设计有效且负责任的推荐系统所固有的技术和规范挑战来推进新闻推荐。本文描述了该挑战，包括其目标、问题设置以及丹麦新闻出版商 Ekstra Bladet 和 JP/Politikens Media Group（“Ekstra Bladet”）提供的数据集。该挑战探索了新闻推荐的独特方面，例如基于行为对用户偏好进行建模、考虑新闻议程对用户兴趣的影响以及管理新闻项目的快速衰减。此外，挑战还包括规范的复杂性，调查推荐系统对新闻流的影响及其与编辑价值观的一致性。我们总结了挑战设置、数据集特征和评估指标。最后，我们宣布获奖者并强调他们的贡献。该数据集可从以下网址获取：https://recsys.eb.dk。

越南社交媒体中机器词汇规范化的弱监督数据标记框架

分类： 计算和语言, 人工智能

作者： Dung Ha Nguyen, Anh Thi Hoang Nguyen, Kiet Van Nguyen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20467v1

摘要： 这项研究引入了一种创新的自动标签框架，以解决越南语等资源匮乏语言的社交媒体文本中词汇规范化的挑战。社交媒体数据丰富多样，但这些环境中使用的不断发展和多样化的语言使得手动标记成为劳动密集型且昂贵的。为了解决这些问题，我们提出了一个将半监督学习与弱监督技术相结合的框架。这种方法提高了训练数据集的质量并扩大了其大小，同时最大限度地减少了手动标记工作。我们的框架自动标记原始数据，将非标准词汇转换为标准化形式，从而提高训练数据的准确性和一致性。实验结果证明了我们的弱监督框架在标准化越南语文本方面的有效性，特别是在使用预训练语言模型时。所提出的框架实现了令人印象深刻的 82.72% 的 F1 分数，并保持词汇完整性，准确度高达 99.22%。此外，它还可以在各种条件下有效地处理未经认可的文本。该框架显着增强了自然语言规范化质量，提高了各种 NLP 任务的准确率，平均准确率提高了 1-3%。

少类蒸馏的教师嵌入的线性投影

分类： 机器学习, 人工智能

作者： Noel Loo, Fotis Iliopoulos, Wei Hu, Erik Vee

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20449v1

摘要： 知识蒸馏 (KD) 已成为一种很有前途的方法，可将知识从更大、更复杂的教师模型转移到更小的学生模型。传统上，KD 涉及训练学生模仿教师的输出概率，而更先进的技术则探索引导学生采用教师的内部表征。尽管 KD 取得了广泛的成功，但它在二元分类和少类问题上的表现却不太令人满意。这是因为有关教师模型泛化模式的信息与班级数量直接成比例。此外，几种复杂的蒸馏方法对于计算机视觉之外的数据类型可能并不普遍适用或有效。因此，对于一系列关键的现实应用，例如情感分析、搜索查询理解和广告查询相关性评估，有效的蒸馏技术仍然难以捉摸。考虑到这些观察结果，我们引入了一种从教师模型表示中提取知识的新方法，我们将其称为学习嵌入线性投影（LELP）。受最近关于最终层表示结构的发现的启发，LELP 的工作原理是识别教师嵌入空间中的信息丰富的线性子空间，并将它们分成伪子类。然后训练学生模型来复制这些伪类。我们对 Amazon Reviews 和 Sentiment140 等大规模 NLP 基准进行的实验评估表明，对于大多数 KD 方法都遇到问题的二元和少类问题，LELP 始终能够与现有最先进的蒸馏算法竞争，并且通常优于现有的最先进的蒸馏算法。

POMONAG：帕累托最优多目标神经架构生成器

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Eugenio Lomurno, Samuele Mariani, Matteo Monti, Matteo Matteucci

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20447v1

摘要： 神经架构搜索 (NAS) 可自动化神经网络设计，减少对人类专业知识的依赖。虽然 NAS 方法计算密集且特定于数据集，但辅助预测器减少了需要训练的模型，从而减少了搜索时间。该策略用于生成满足多个计算约束的架构。最近，Transferable NAS 出现了，将搜索过程从依赖数据集推广到依赖任务。在这个领域，DiffusionNAG 是一种最先进的方法。这种基于扩散的方法简化了计算，生成针对未见过的数据集的准确性而优化的架构，而无需进一步调整。然而，由于仅关注准确性，DiffusionNAG 忽略了其他关键目标，例如模型复杂性、计算效率和推理延迟——这些因素对于在资源受限的环境中部署模型至关重要。本文介绍了帕累托最优多目标神经架构生成器 (POMONAG)，通过多目标扩散过程扩展了 DiffusionNAG。 POMONAG 同时考虑准确性、参数数量、乘法累加运算 (MAC) 和推理延迟。它集成了性能预测器模型来估计这些指标并指导扩散梯度。 POMONAG 的优化通过扩展其训练元数据集、应用 Pareto Front Filtering 以及细化条件生成的嵌入而得到增强。这些增强功能使 POMONAG 能够生成帕累托最优架构，在性能和效率方面优于之前最先进的架构。结果在两个搜索空间（NASBench201 和 MobileNetV3）上进行了验证，并在 15 个图像分类数据集上进行了评估。

充分且必要的解释（以及介于两者之间的解释）

分类： 机器学习, 人工智能, 机器学习

作者： Beepul Bharti, Paul Yi, Jeremias Sulam

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20427v1

摘要： 随着复杂的机器学习模型继续在高风险决策场景中找到应用，我们能够解释和理解它们的预测至关重要。事后解释方法通过识别输入 $\mathbf{x}$ 中相对于模型输出 $f(\mathbf{x})$ 的重要特征来提供有用的见解。在这项工作中，我们形式化并研究了通用机器学习模型的特征重要性的两个精确概念：充分性和必要性。我们演示了这两种类型的解释虽然直观且简单，但无法提供模型认为重要的特征的完整图片。为此，我们提出了一个统一的重要性概念，通过探索沿着必要性-充足性轴的连续体来规避这些限制。我们表明，我们的统一概念与其他流行的特征重要性定义有着密切的联系，比如基于条件独立性和博弈论量（如沙普利值）的定义。至关重要的是，我们展示了统一的视角如何使我们能够检测到单独使用以前的任何一种方法可能会错过的重要特征。

World to Code：通过自学组合字幕和过滤生成多模式数据

分类： 计算机视觉和模式识别, 人工智能

作者： Jiacong Wang, Bohong Wu, Haiyong Jiang, Xun Zhou, Xin Xiao, Haoyuan Guo, Jun Xiao

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20424v1

摘要： 视觉语言模型 (VLM) 的最新进展和高质量多模态对齐数据的稀缺激发了对合成 VLM 数据生成的大量研究。 VLM 数据构建的传统规范使用字幕和 OCR 专家的混合，或者更强大的 VLM API 和昂贵的人工注释。在本文中，我们提出了 World to Code (W2C)，这是一个精心策划的多模式数据构建管道，它将最终生成的输出组织为 Python 代码格式。该管道利用 VLM 本身通过不同的提示提取跨模式信息，并通过一致性过滤策略再次过滤生成的输出。实验通过改进不同 VLM 上的各种现有视觉问答和视觉基础基准，证明了 W2C 的高质量。进一步的分析还表明，VLM 的新代码解析能力比常用的详细描述能力呈现出更好的跨模态等效性。我们的代码可在 https://github.com/foundation-multimodal-models/World2Code 上获取。

贝叶斯决策理论视角下的流级流量匹配

分类： 机器学习, 人工智能, 机器学习

作者： Ganchao Wei, Li Ma

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20423v1

摘要： 流匹配 (FM) 是一系列用于拟合连续归一化流 (CNF) 的训练算法。 FM 的一种标准方法称为条件流匹配 (CFM)，它利用了这样一个事实：CNF 的边缘向量场可以通过将最小二乘回归拟合到给定给定流的一端或两端的所谓条件向量场来学习。流动路径。我们表明，从参数估计的贝叶斯决策理论角度看待 CFM 训练为 CFM 算法的推广打开了大门。我们提出了一种这样的扩展，引入了一种基于定义条件概率路径的 CFM 算法，给定我们所说的“流”，即连接噪声对和观测数据的潜在随机路径的实例。此外，我们提倡使用高斯过程（GP）对这些潜在流进行建模。 GP 独特的分布特性，特别是 GP 的速度仍然是 GP 的事实，允许从生成的流增强条件概率路径中抽取样本，而无需模拟实际流，因此“免模拟”我们表明，CFM 的这种泛化可以以适度的计算成本显着减少估计边缘向量场的方差，从而提高通用指标下生成样本的质量。流上的 GP 允许灵活链接多个相关的训练数据点（例如时间序列）并结合其他先验信息，我们通过模拟和应用到两个手写图像数据集来实证验证我们的主张。

连续治疗剂量反应模型的适形预测

分类： 机器学习, 人工智能, 机器学习

作者： Jarne Verhaeghe, Jef Jonkers, Sofie Van Hoecke

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20412v1

摘要： 了解持续治疗与个体结果之间的剂量反应关系可以极大地推动决策，特别是在个性化药物剂量和个性化医疗干预等领域。在这些高风险环境中，点估计通常是不够的，这突出表明需要对不确定性进行量化以支持明智的决策。保形预测是一种用于不确定性量化的无分布且与模型无关的方法，在连续治疗或剂量反应模型中的应用有限。为了解决这一差距，我们提出了一种新颖的方法，利用加权共形预测，将因果剂量反应问题描述为协变量转变。通过结合倾向估计、保形预测系统和似然比，我们提出了一种为剂量反应模型生成预测区间的实用解决方案。此外，我们的方法通过应用核函数作为加权共形预测中的权重来近似每个治疗值的局部覆盖。最后，我们使用新的综合基准数据集来证明协变量移位假设在实现剂量反应模型的稳健预测区间方面的重要性。

非平稳时间序列预测的频率自适应归一化

分类： 机器学习, 人工智能

作者： Weiwei Ye, Songgaojun Deng, Qiaosha Zou, Ning Gui

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20371v1

摘要： 时间序列预测通常需要处理具有不断变化的趋势和季节性模式的非平稳数据。为了解决非平稳性，最近提出了可逆实例归一化，以通过某些统计措施（例如均值和方差）来减轻趋势的影响。尽管它们表现出更高的预测准确性，但它们仅限于表达基本趋势，并且无法处理季节性模式。为了解决这一限制，本文提出了一种新的实例归一化解决方案，称为频率自适应归一化（FAN），它扩展了实例归一化以处理动态趋势和季节性模式。具体来说，我们采用傅里叶变换来识别覆盖大多数非平稳因素的实例方面的主要频繁成分。此外，输入和输出之间的这些频率分量的差异被明确地建模为具有简单 MLP 模型的预测任务。 FAN 是一种与模型无关的方法，可应用于任意预测主干。我们在四种广泛使用的预测模型上实例化 FAN 作为骨干，并在八个基准数据集上评估它们的预测性能改进。 FAN 表现出显着的性能提升，MSE 平均提高了 7.76% ~ 37.90%。

完美融合：与评委的混合重新定义 RLHF

分类： 机器学习, 人工智能, 计算和语言

作者： Tengyu Xu, Eryk Helenowski, Karthik Abinav Sankararaman, Di Jin, Kaiyan Peng, Eric Han, Shaoliang Nie, Chen Zhu, Hejia Zhang, Wenxuan Zhou, Zhouhao Zeng, Yun He, Karishma Mandyam, Arya Talabzadeh, Madian Khabsa, Gabriel Cohen, Yuandong Tian, Hao Ma, Sinong Wang, Han Fang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20370v1

摘要： 基于人类反馈的强化学习 (RLHF) 已成为微调大型语言模型 (LLM) 的主要方法。然而，由于奖励黑客和极端多目标优化（即多个和/或有时相互冲突的目标的权衡）的挑战，RLHF 在多任务学习（MTL）方面存在局限性。目前，将 RLHF 应用于 MTL 需要仔细调整奖励模型和数据组合的权重。这通常是通过人类直觉来完成的，并且不能概括。在这项工作中，我们引入了一种新颖的训练后范式，称为约束生成策略优化（CGPO）。 CGPO 的核心是法官混合（MoJ），具有成本效益的分层约束策略优化，可以原则性地识别 RLHF 中的完美混合。它显示了强有力的实证结果和理论保证，不需要大量的超参数调整，并且在常见的训练后管道中是即插即用的。总之，这可以检测并减轻奖励黑客行为，同时在大量目标上达到帕累托最优点。我们的实证评估表明，CGPO 在一般聊天、STEM 问题、指令遵循和编码等各种任务中显着优于 PPO 和 DPO 等标准 RLHF 算法。具体来说，CGPO 在 AlpacaEval-2（一般聊天）中显示出 7.4% 的改进，在 Arena-Hard（STEM 和推理）中显示出 12.5% 的改进，并且在数学和编码等其他领域也取得了持续的进步。值得注意的是，PPO 虽然常用，但在流行的编码基准中很容易遭受严重的奖励黑客攻击，而 CGPO 成功解决了这一问题。 RLHF 的这一突破不仅解决了奖励黑客和极端的多目标优化挑战，而且还推动了针对不同应用调整通用 LLM 的最先进技术。

使用大语言模型在边缘设备上进行高效驾驶行为叙述和推理

分类： 人工智能, 计算机视觉和模式识别, 机器人技术

作者： Yizhou Huang, Yihua Cheng, Kezhi Wang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20364v1

摘要： 具有强大推理能力的深度学习架构推动了自动驾驶技术的重大进步。该领域应用的大型语言模型（LLM）可以以类似于人类感知的准确度描述驾驶场景和行为，特别是在视觉任务中。同时，边缘计算的快速发展，以其靠近数据源的优势，使得边缘设备在自动驾驶中变得越来越重要。边缘设备在本地处理数据，减少传输延迟和带宽使用，并实现更快的响应时间。在这项工作中，我们提出了一种将大语言模型应用于边缘设备的驾驶行为叙述和推理框架。该框架由多个路边单元组成，每个单元上都部署了大语言模型。这些路边单元收集道路数据并通过 5G NSR/NR 网络进行通信。我们的实验表明，部署在边缘设备上的LLM可以达到令人满意的响应速度。此外，我们提出了一种即时策略来增强系统的叙述和推理性能。该策略集成了多模态信息，包括环境、代理和运动数据。在 OpenDV-Youtube 数据集上进行的实验表明，我们的方法显着提高了这两项任务的性能。

旋转运行时平滑：无需培训的激活平滑器，可实现准确的 INT4 推理

分类： 机器学习, 人工智能

作者： Ke Yi, Zengke Liu, Jianwei Zhang, Chengyuan Li, Tong Zhang, Junyang Lin, Jingren Zhou

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20361v1

摘要： 大型语言模型在扩大参数方面表现出了有前途的能力。然而，由于大型语言模型规模庞大，因此服务大型语言模型会产生大量的计算和内存移动成本。已采用量化方法来降低服务成本和延迟。然而，激活中的异常值阻碍了 INT4 权重激活量化的发展。现有方法将离群值和正常值分离到两个矩阵中，或者将离群值从激活迁移到权重，从而遭受高延迟或准确性下降。基于观察大型语言模型的激活，异常值可以分为通道异常值和尖峰异常值。在这项工作中，我们提出了旋转运行时平滑（RRS），这是一种用于量化的即插即用激活平滑器，由运行时平滑和旋转操作组成。引入运行时平滑 (RS)，通过在运行时使用通道最大值平滑激活来消除通道异常值。旋转操作可以缩小峰值异常值和正常值之间的差距，减轻通道平滑造成的受害者的影响。所提出的方法优于 LLaMA 和 Qwen 系列中最先进的方法，并将 INT4 推理的 WikiText-2 困惑度从 57.33 提高到 6.66。

通过基于对比学习的多级渐进微调 SNN 和基于 RL 的外部优化来增强 GAN

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Osama Mustafa

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20340v2

摘要： 深度学习在癌症研究中的应用，特别是在早期诊断、病例理解和治疗策略设计中，强调对高质量数据的需求。生成式人工智能，尤其是生成对抗网络（GAN），已成为解决类别不平衡、稳健学习和模型训练等挑战的领先解决方案，同时解决了患者隐私和真实数据稀缺带来的问题。尽管前景广阔，GAN 仍面临一些挑战，既有组织病理学数据固有的挑战，也有组织病理学数据特有的挑战。固有问题包括训练不平衡、模式崩溃、鉴别器反馈不足的线性学习以及严格反馈导致的硬边界收敛。组织病理学数据因其复杂的表示、高空间分辨率和多尺度特征而提出了独特的挑战。为了应对这些挑战，我们提出了一个由两个组件组成的框架。首先，我们引入基于对比学习的多级渐进微调连体神经网络（MFT-SNN），用于评估组织病理学斑块之间的相似性。其次，我们在 GAN 训练循环中实现基于强化学习的外部优化器 (RL-EO)，作为奖励信号生成器。修改后的判别器损失函数包含加权奖励，引导 GAN 最大化奖励，同时最小化损失。这种方法为判别器提供了外部优化指南，防止生成器过度拟合并确保平滑收敛。我们提出的解决方案已针对最先进的 (SOTA) GAN 和去噪扩散概率模型进行了基准测试，在各种指标上都优于之前的 SOTA，包括 FID 分数、KID 分数、感知路径长度和下游分类任务。

语言模型行为评估中迫在眉睫的复制危机？证据和解决方案

分类： 计算和语言, 人工智能

作者： Laurène Vaugrante, Mathias Niepert, Thilo Hagendorff

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20303v1

摘要： 在大型语言模型 (LLM) 越来越多地集成到广泛的日常应用中的时代，对这些模型行为的研究激增。然而，由于该领域的新颖性，缺乏明确的方法指南。这引起了人们对从大语言模型行为研究中获得的见解的可复制性和普遍性的担忧。在这项研究中，我们讨论了复制危机的潜在风险，并通过一系列复制实验来支持我们的担忧，这些实验侧重于旨在影响大语言模型推理能力的即时工程技术。我们在思想链、EmotionPrompting、ExpertPrompting、Sandbagging 以及 Re-Reading 提示上测试了 GPT-3.5、GPT-4o、Gemini 1.5 Pro、Claude 3 Opus、Llama 3-8B 和 Llama 3-70B工程技术，使用手动双重检查的推理基准子集，包括 CommonsenseQA、CRT、NumGLUE、ScienceQA 和 StrategyQA。我们的研究结果表明，几乎所有测试的技术普遍缺乏统计上的显着差异，这凸显了先前研究中的一些方法学缺陷。我们提出了一种前瞻性的方法，包括开发评估大语言模型的稳健方法、建立健全的基准以及设计严格的实验框架，以确保对模型输出进行准确可靠的评估。

OM4OV：利用本体匹配进行本体版本控制

分类： 人工智能, 计算和语言, 信息检索

作者： Zhangcheng Qiang, Kerry Taylor

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20302v1

摘要： 由于语义网的动态特性，需要本体版本控制来捕获随时间变化的信息，尤其是对于广泛使用的本体而言。尽管长期以来人们一直认为本体版本控制 (OV) 是高效本体管理的关键组成部分，但本体规模的不断增长和体力劳动造成的错误累积压倒了当前的 OV 方法。在本文中，我们提出了另一种使用现有本体匹配（OM）技术和系统来执行 OV 的方法。我们引入了统一的 OM4OV 管道。从 OM 的角度来看，我们为 OV 任务重建了新的任务制定、性能测量和数据集构建。重用 OM 的先前对齐，我们还提出了一种交叉引用机制，以有效减少匹配候选并提高 OV 的整体性能。我们使用来自对齐评估计划 (OAEI) 的三个数据集通过实验验证 OM4OV 管道及其交叉引用机制，并利用对用于 OV 任务的 OM 的见解。

使用离散和连续随机变量的概率答案集编程

分类： 人工智能

作者： Damiano Azzolini, Fabrizio Riguzzi

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20274v1

摘要： 信任语义下的概率答案集编程 (PASP) 使用表示不确定信息的概率事实扩展了答案集编程。概率事实是离散的伯努利分布。然而，一些现实场景需要离散和连续随机变量的组合。在本文中，我们扩展了 PASP 框架以支持连续随机变量，并提出混合概率答案集编程（HPASP）。此外，我们讨论、实现和评估了两种基于预测答案集枚举和知识编译的精确算法以及两种基于采样的近似算法的性能。经验结果也与已知的理论结果一致，表明精确推理仅适用于小实例，但知识编译对性能具有巨大的积极影响。采样允许处理更大的实例，但有时需要增加内存量。正在逻辑编程理论与实践（TPLP）中考虑。

计算机介导的中风康复疗法：系统评价和荟萃分析

分类： 医学物理, 人工智能, 人机交互, 多媒体, J.3.2

作者： Stanley Mugisha. Mirko Job. Matteo Zoppi, Marco Testa, Rezia Molfino

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20260v1

摘要： 目的：与传统疗法（CT）相比，评估不同形式的虚拟现实（VR）治疗（沉浸式虚拟现实（IVR）或非沉浸式虚拟现实（NIVR））在改善中风患者身体和心理状态方面的功效。方法：对七个数据库进行文献检索。 ACM 数字图书馆、Medline（通过 PubMed）、Cochrane、IEEE Xplore、Web of Science 和 Scopus。使用 Cohen's d 计算主要结果的效应大小。汇总结果用于使用随机效应模型对治疗效果进行总体估计。结果：总共评估了 22 项随机对照试验。 3项试验表明，沉浸式虚拟现实以与CT相当的方式改善了上肢活动、功能和日常生活活动。 18 项试验表明，NIVR 在上肢活动和功能、平衡和活动能力、日常生活活动和参与方面具有与 CT 类似的益处。不同形式的 VR 之间的比较表明，对于上肢训练和日常生活活动，IVR 可能比 NIVR 更有益。结论：本研究发现，在改善上肢活动、功能和日常生活活动方面，IVR 疗法可能比 NIVR 更有效，但比 CT 更有效。然而，没有证据表明 IVR 治疗的持久性。需要进行更多涉及更大样本的研究来评估沉浸式虚拟现实技术的长期影响和有希望的好处。

学习建立存在量化的目标

分类： 人工智能

作者： Martin Funkquist, Simon Ståhlberg, Hector Geffner

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20259v1

摘要： 自主人工智能代理的目标指令不能假设对象具有唯一的名称。相反，必须通过提供适当的描述来引用目标中的对象。然而，这在经典规划和广义规划中都提出了问题。在经典规划中处理存在量化目标的标准方法包括将它们编译成 DNF 公式，该公式对所有可能的变量绑定进行编码，并添加虚拟操作以将每个 DNF 术语映射到新的虚拟目标。这种预处理的变量数量呈指数级增长。在广义规划中，问题是不同的：即使一般政策可以处理任何初始情况和目标，执行一般政策也需要以目标为基础来定义政策特征的值。扎根目标的问题，即找到绑定目标变量的对象，是很微妙的：它是经典规划和约束推理的推广，经典规划是没有目标变量绑定的特殊情况，约束推理是一种特殊情况当没有任何动作时。在这项工作中，我们用一种新颖的监督学习方法解决了目标基础问题。 GNN 架构经过训练，可以预测小域实例上部分量化目标的成本，并在涉及更多对象和不同量化目标的较大实例上进行测试。所提出的架构在多个规划领域进行了实验评估，其中沿着多个维度测试泛化性，包括目标变量和可以绑定这些变量的对象的数量。还根据 GNN 和 C2 逻辑之间的已知关系讨论了该方法的范围。

从多目标强化学习的演示中推断偏好

分类： 人工智能

作者： Junlin Lu, Patrick Mannion, Karl Mason

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20258v1

摘要： 许多决策问题具有多个目标，并不总是能够了解人类或代理决策者对不同目标的偏好。然而，决策者所表现出的行为通常是可用的。本研究提出了一种基于权重的动态偏好推断（DWPI）算法，该算法可以从演示中推断出在多目标决策问题中代理的偏好。所提出的算法在三个多目标马尔可夫决策过程上进行评估：深海宝藏、流量和物品收集，并与两种现有的偏好推理算法进行比较。实证结果表明，与基线算法相比，在时间效率和推理准确性方面都有显着改进。 DWPI 算法在推断次优演示的偏好时保持其性能。此外，DWPI 算法在推理过程中不需要与用户进行任何交互——只需要演示。我们提供了算法的正确性证明和复杂性分析，并统计评估了不同演示表示下的性能。

大型语言模型在天文学研究发展中的作用是什么？

分类： 天体物理学仪器和方法, 人工智能

作者： Morgan Fouesneau, Ivelina G. Momcheva, Urmila Chadayammuri, Mariia Demianenko, Antoine Dumont, Raphael E. Hviding, K. Angelique Kahle, Nadiia Pulatova, Bhavesh Rajpoot, Marten B. Scheuck, Rhys Seeburger, Dmitry Semenov, Jaime I. Villaseñor

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20252v2

摘要： ChatGPT 和其他最先进的大型语言模型 (LLM) 正在迅速改变多个领域，为广泛的应用程序提供强大的工具。这些模型通常在大量数据集上进行训练，表现出类似人类的文本生成能力，使其可用于构思、文献综述、编码、起草和推广等研究任务。我们进行了一项研究，涉及 13 名处于不同职业阶段和研究领域的天文学家，以在几个月的时间里探索大语言模型在不同任务中的应用，并评估他们在研究相关活动中的表现。这项工作还伴随着一项匿名调查，评估参与者对大语言模型的经历和态度。我们提供了对尝试的任务和调查答案的详细分析，以及具体的输出示例。我们的研究结果强调了大语言模型在支持研究方面的潜力和局限性，同时也解决了一般和特定研究的道德考虑。最后，我们提出了一系列建议，强调研究人员需要用批判性思维和领域专业知识来补充大语言模型，确保这些工具作为严格的科学探究的辅助工具，而不是替代品。

移动边缘计算中稳定的大语言模型培训的资源分配

分类： 分布式、并行和集群计算, 人工智能, 信息论, 系统与控制, 系统与控制, 信息论, 优化与控制

作者： Chang Liu, Jun Zhao

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20247v1

摘要： 随着移动设备日益成为高级应用程序的焦点，边缘计算为其固有的计算限制提供了一种可行的解决方案，特别是在部署大型语言模型 (LLM) 方面。然而，尽管边缘计算取得了进步，但由于与这些模型相关的计算需求和数据隐私问题，有效训练和部署大语言模型仍然面临重大挑战。本文探讨了一种协作培训框架，该框架将移动用户与边缘服务器集成以优化资源分配，从而提高性能和效率。我们的方法利用参数高效微调 (PEFT) 方法，允许移动用户调整 LLM 的初始层，而边缘服务器则处理要求更高的后面层。具体来说，我们制定了一个多目标优化问题，以最大限度地减少训练期间的总能耗和延迟。我们还通过将稳定性增强纳入我们的目标函数来解决模型性能不稳定的常见问题。通过新颖的分数规划技术，我们实现了所表述问题的驻点。模拟表明，我们的方法降低了能耗和延迟，并提高了大语言模型在各种移动设置下的可靠性。

超越提示：大型语言模型的动态会话基准测试

分类： 计算和语言, 人工智能

作者： David Castillo-Bolado, Joseph Davidson, Finlay Gray, Marek Rosa

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20222v1

摘要： 我们为会话代理引入了一个动态基准测试系统，该系统通过单个、模拟且冗长的 user$\leftrightarrow$agent 交互来评估其性能。交互是用户和代理之间的对话，其中引入多个任务，然后同时执行。我们定期进行上下文切换以交错任务，这构建了一个真实的测试场景，我们在其中评估智能体的长期记忆、持续学习和信息集成能力。专有和开源大语言模型的结果表明，大语言模型通常在单任务交互上表现良好，但当它们交叉时，它们在相同的任务上表现不佳。值得注意的是，辅以 LTM 系统的短背景大语言模型的表现与具有较大背景的大语言模型一样好，甚至更好。我们的基准表明，大语言模型在应对更自然的互动方面还存在其他挑战，而当代基准迄今无法捕捉到这些挑战。

旋律是音乐生成所需要的一切

分类： 声音, 人工智能, 音频和语音处理

作者： Shaopeng Wei, Manzhen Wei, Haoyu Wang, Yu Zhao, Gang Kou

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20196v1

摘要： 我们提出了旋律引导音乐生成（MMGen）模型，这是第一个使用旋律来指导音乐生成的新颖方法，尽管方法非常简单且资源极其有限，但仍实现了出色的性能。具体来说，我们首先使用多模态对齐模块将旋律与音频波形及其相关描述对齐。随后，我们根据学习到的旋律表示来调节扩散模块。这使得 MMGen 能够生成与所提供的音频风格相匹配的音乐，同时还生成反映给定文本描述内容的音乐。为了解决高质量数据的稀缺问题，我们构建了一个多模态数据集 MusicSet，其中包括旋律、文本和音频，并将公开提供。我们进行了广泛的实验，证明了所提出的模型在实验指标和实际性能质量方面的优越性。

使用纵向视网膜 OCT 中的平行超平面预测疾病进展

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Arunava Chakravarty, Taha Emre, Dmitrii Lachinov, Antoine Rivail, Hendrik Scholl, Lars Fritsche, Sobha Sivaprasad, Daniel Rueckert, Andrew Lotery, Ursula Schmidt-Erfurth, Hrvoje Bogunović

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20195v1

摘要： 由于患者的异质性以及微妙或未知的成像生物标志物，从医学图像预测未来疾病进展风险具有挑战性。此外，用于生存分析的深度学习 (DL) 方法容易受到扫描仪之间图像域变化的影响。我们在通过视网膜 OCT 扫描预测晚期干性年龄相关性黄斑变性 (dAMD) 发病的任务中解决了这些问题。我们提出了一种新颖的深度学习生存预测方法，可以根据当前扫描联合预测风险评分，该风险评分与转换时间以及时间间隔 $t$ 内的转换概率成反比。它使用通过将偏置项参数化为 $t$ 的函数而生成的一系列平行超平面。此外，我们基于受试者内图像对开发无监督损失，以确保风险分数随着时间的推移而增加，并且未来的转换预测与使用未来访问的实际扫描的 AMD 阶段预测一致。这种损失使得能够在使用不同扫描仪获取的新的未标记数据集上对训练模型进行数据高效的微调。对使用不同扫描仪获取的两个大型数据集进行广泛评估后，数据集 1 的平均 AUROC 为 0.82，数据集 2 的平均 AUROC 为 0.83，预测间隔为 6.12 个月和 24 个月。

工厂经营者对知识共享认知助手的看法：挑战、风险和对工作的影响

分类： 人机交互, 人工智能

作者： Samuel Kernan Freire, Tianhao He, Chaofan Wang, Evangelos Niforatos, Alessandro Bozzon

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20192v1

摘要： 在向以人为本的制造转变的过程中，我们为期两年的纵向研究调查了在工厂中部署认知助手 (CA) 的现实影响。 CA 旨在促进工厂操作员之间的知识共享。我们的调查重点是基于智能手机的语音助手和大语言模型支持的聊天机器人，检查它们在现实工厂环境中的可用性和实用性。根据我们在工厂部署 CA 期间收集的定性反馈，我们进行了主题分析，以调查对工作流程和知识共享的看法、挑战和总体影响。我们的结果表明，虽然 CA 有潜力通过知识共享和更快地解决生产问题来显着提高效率，但它们也引起了对工作场所监视、可以共享的知识类型以及与人与人之间的知识相比的缺点的担忧分享。此外，我们的研究结果强调了解决隐私、知识贡献负担以及工厂经营者与其经理之间紧张关系的重要性。

在缺乏基本事实的情况下使用马尔可夫和最小边数选择 DAG 模型

分类： 机器学习, 人工智能, 方法, 机器学习, 68T37, I.2.0; I.2.6; I.6.5

作者： Joseph D. Ramsey, Bryan Andrews, Peter Spirtes

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20187v1

摘要： 我们针对给定数据集的有向无环图（DAG）或完整的部分有向无环图（CPDAG）模型的马尔可夫条件给出了一种新颖的非参数逐点一致统计测试（马尔可夫检查器）。我们还引入了跨算法节俭搜索 (CAFS)，用于拒绝未通过马尔可夫检查器测试或不是边缘最小的 DAG 模型。尽管 CAFS 很容易推广到其他简单性条件，但 Raskutti 和 Uhler 之前已将边极小性用作非参数简单性标准。 CAFS 不需要参考基本事实，因此它对于寻找因果结构学习算法和调整参数设置非常有用，这些参数设置可输出与给定数据集近似真实的因果模型。我们为这种分析提供了一个软件工具，它甚至适用于相当大或密集的模型，前提是可以提供适当快速的条件独立性逐点一致测试。此外，我们在模拟中表明，CAFS 程序可以在不知道基本事实的情况下选择大致正确的模型。

GPT-2 自然讲座认知过程模型

分类： 神经元和认知, 人工智能

作者： Bruno Bianchi, Alfredo Umfurer, Juan Esteban Kamienkowski

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20174v1

摘要： 自然语言处理领域的进步使得能够开发具有强大文本生成能力的语言模型。近年来，神经科学一直在使用这些模型来更好地理解认知过程。在之前的研究中，我们发现 Ngram 和 LSTM 网络等模型用作解释读者眼球运动的协变量时可以部分模拟可预测性。在目前的工作中，我们通过使用基于 GPT-2 的模型进一步推进这一研究。结果表明，该架构比其前身取得了更好的结果。

MemSim：用于评估大语言模型个人助理记忆力的贝叶斯模拟器

分类： 人工智能, 计算和语言

作者： Zeyu Zhang, Quanyu Dai, Luyu Chen, Zeren Jiang, Rui Li, Jieming Zhu, Xu Chen, Yi Xie, Zhenhua Dong, Ji-Rong Wen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20163v1

摘要： 基于LLM的代理已被广泛用作个人助理，能够记住用户消息中的信息并响应个人查询。然而，仍然缺乏对他们的记忆能力的客观和自动评估，这很大程度上是由于根据用户消息构建可靠的问题和答案（QA）的挑战。在本文中，我们提出了 MemSim，一种贝叶斯模拟器，旨在根据生成的用户消息自动构建可靠的 QA，同时保持其多样性和可扩展性。具体来说，我们引入贝叶斯关系网络（BRNet）和因果生成机制来减轻LLM幻觉对事实信息的影响，促进评估数据集的自动创建。基于MemSim，我们生成了一个日常生活场景中的数据集，名为MemDaily，并进行了大量的实验来评估我们方法的有效性。我们还提供了一个基准，用于使用 MemDaily 数据集评估基于 LLM 的代理中的不同记忆机制。为了使研究社区受益，我们在 https://github.com/nuster1128/MemSim 发布了我们的项目。

1万亿代币（1TT）平台：大型语言模型中高效数据共享和补偿的新颖框架

分类： 计算和语言, 人工智能

作者： Chanjun Park, Hyunsoo Ha, Jihoo Kim, Yungi Kim, Dahyun Kim, Sukyung Lee, Seonghoon Yang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20149v1

摘要： 在本文中，我们提出了 1 万亿代币平台（1TT 平台），这是一个新颖的框架，旨在通过透明和公平的利润分享机制促进高效的数据共享。该平台促进了数据贡献者（提供非公开数据集）和数据消费者（利用这些数据集来增强自己的服务）之间的协作。数据贡献者以货币形式获得补偿，获得数据消费者服务产生的收入的一部分。数据消费者承诺根据预定的利润分享安排与贡献者分享部分收入。通过采用透明的利润分享模式来激励大规模数据共享，1TT 平台创建了一个协作环境来推动 NLP 和 LLM 技术的进步。

非英语小且不平衡数据集中放射学文本的分类

分类： 计算和语言, 人工智能

作者： Vincent Beliveau, Helene Kaas, Martin Prener, Claes N. Ladefoged, Desmond Elliott, Gitte M. Knudsen, Lars H. Pinborg, Melanie Ganz

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20147v1

摘要： 医学领域的自然语言处理 (NLP) 在涉及非英语语言的小型数据集、标记样本很少和类别不平衡的实际应用中可能表现不佳。对于如何解决这个问题尚未达成共识。我们使用丹麦语癫痫患者磁共振图像的放射学报告的三个数据集评估了一组 NLP 模型，包括类似 BERT 的转换器、使用句子转换器的少样本学习 (SetFit) 和提示大型语言模型 (LLM)。低资源语言。我们的结果表明，在放射学报告的目标领域中预训练的类似 BERT 的模型目前为这种情况提供了最佳性能。值得注意的是，与类似 BERT 的模型相比，SetFit 和 LLM 模型的表现较差，其中 LLM 的表现最差。重要的是，所研究的模型都不够准确，无法在没有任何监督的情况下进行文本分类。然而，它们显示出数据过滤的潜力，这可以减少所需的手动标记量。

归纳链接预测的重新评估

分类： 人工智能, 机器学习

作者： Simon Ott, Christian Meilicke, Heiner Stuckenschmidt

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20130v1

摘要： 在本文中，我们表明当前用于归纳链接预测的评估协议存在严重缺陷，因为它依赖于对一小组随机采样的负实体中的真实实体进行排名。由于否定集的大小有限，一个简单的基于规则的基线可以实现最先进的结果，它只是根据实体类型的有效性将实体排名较高。作为这些见解的结果，我们使用通常应用于传导设置的链路预测协议在几个基准上重新评估当前的归纳链路预测方法。由于一些归纳方法在这种情况下评估时会遇到可扩展性问题，因此我们提出并另外应用了一种改进的采样协议，该协议不会遇到上述问题。我们的评估结果与迄今为止报告的结果有很大不同。

对超大语言模型进行积极的训练后压缩

分类： 计算和语言, 人工智能

作者： Zining Zhang, Yao Chen, Bingsheng He, Zhenjie Zhang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20094v1

摘要： 大型语言模型 (LLM) 的规模和复杂性不断增加，对其在个人计算机和移动设备上的部署提出了挑战。积极的训练后模型压缩对于减小模型的大小是必要的，但它通常会导致显着的准确性损失。为了应对这一挑战，我们提出了一种新颖的网络修剪技术，该技术利用超过 0.7 的稀疏性和少于 8 位的量化。我们的方法可以在几个小时内压缩流行的大语言模型，同时保持相对较小的准确性损失。在实验评估中，我们的方法展示了实际部署的有效性和潜力。通过在国内设备上提供大语言模型，我们的工作可以促进具有广泛影响的自然语言处理应用的新时代。

用于不规则时间序列预测的连续时间线性位置嵌入

分类： 机器学习, 人工智能

作者： Byunghyun Kim, Jae-Gil Lee

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20092v1

摘要： 不规则采样时间序列预测在实际应用中普遍存在，其特点是区间不均匀。然而，之前的研究主要集中在常规时间序列预测上，通常依赖于变压器架构。为了扩展转换器来处理不规则的时间序列，我们解决了表示数据时间信息的位置嵌入问题。我们提出了 CTLPE，一种学习连续线性函数来编码时间信息的方法。通过学习连续时间函数和简洁的位置表示，解决了不规则时间序列、不一致的观察模式和不规则时间间隙的两个挑战。此外，通过学习基于神经控制微分方程的位置嵌入，线性连续函数在经验上显示出优于其他连续函数，并且在理论上支持理想位置嵌入的属性。 CTLPE 在各种不规则采样时间序列数据集上的性能优于现有技术，展示了其增强的功效。

使用无监督认知的知识发现

分类： 机器学习, 人工智能

作者： Alfredo Ibias, Hector Antona, Guillem Ramirez-Miranda, Enric Guinovart

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20064v1

摘要： 知识发现是理解和解释数据集以及查找其组件之间的潜在关系的关键。无监督认知是一种新颖的无监督学习算法，专注于对学习数据进行建模。本文提出了三种在已训练的无监督认知模型上执行知识发现的技术。具体来说，我们提出了一种模式挖掘技术、一种基于先前模式挖掘技术的特征选择技术以及一种基于先前特征选择技术的降维技术。最终目标是区分相关和不相关的特征，并使用它们构建一个模型，从中提取有意义的模式。我们通过实证实验评估了我们的建议，发现它们克服了知识发现领域的最先进技术。

评估和解释零样本跨语言新闻情绪分析的训练策略

分类： 计算和语言, 人工智能

作者： Luka Andrenšek, Boshko Koloski, Andraž Pelicon, Nada Lavrač, Senja Pollak, Matthew Purver

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20054v1

摘要： 我们研究零样本跨语言新闻情绪检测，旨在开发强大的情绪分类器，可以在没有目标语言训练数据的情况下跨多种语言部署。我们以几种资源较少的语言引入了新颖的评估数据集，并尝试了一系列方法，包括使用机器翻译；使用大型语言模型进行上下文学习；以及各种中间培训制度，包括利用段落级信息的新颖任务目标 POA。我们的结果表明，与现有技术相比有了显着改进，上下文学习通常能提供最佳性能，而新颖的 POA 方法则提供了一种具有竞争力的替代方案，且计算开销低得多。我们还表明，语言相似性本身不足以预测跨语言迁移的成功，但语义内容和结构的相似性同样重要。

GUNDAM：将大型语言模型与图形理解结合起来

分类： 人工智能, 计算和语言, 机器学习

作者： Sheng Ouyang, Yulan Hu, Ge Chen, Yong Liu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20053v1

摘要： 大型语言模型 (LLM) 在处理文本数据方面取得了令人印象深刻的成果，这引发了人们对将这些模型应用于文本数据（例如图形）之外的领域的兴趣。在图学习领域，人们越来越有兴趣利用大语言模型来理解和操作图结构数据。现有的研究主要集中在具有丰富文本特征的图，例如知识图或文本属性图，利用大语言模型处理文本的能力，但不足以解决图结构问题。这项工作的具体目的是评估和增强大语言模型理解和利用图数据本身固有的结构知识的能力，而不是仅仅关注富含文本内容的图。为了实现这一目标，我们引入了 \textbf{G}raph \textbf{U}对 \textbf{N}自然语言 \textbf{D}riven \textbf{A}nalytical \textbf{M}odel (\model) 的理解。该模型使大语言模型能够更好地理解和参与图数据的结构，使他们能够利用图的结构本身来执行复杂的推理任务。我们对图推理基准的实验评估不仅证实了 \model~ 优于 SOTA 基线进行比较。但也揭示了影响大语言模型图推理能力的关键因素。此外，我们还提供了理论分析，说明推理路径如何增强大语言模型的推理能力。

减轻推荐系统大型语言模型的倾向偏差

分类： 信息检索, 人工智能

作者： Guixian Zhang, Guan Yuan, Debo Cheng, Lin Liu, Jiuyong Li, Shichao Zhang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20052v1

摘要： 大型语言模型（LLM）的快速发展为推荐系统创造了新的机会，特别是通过利用这些模型生成的辅助信息（例如项目的描述和分析）。然而，将这些辅助信息与历史交互中的协作信息结合起来会带来重大挑战。大语言模型内部的固有偏见可能会扭曲推荐，从而导致扭曲且可能不公平的用户体验。另一方面，倾向偏差导致辅助信息以这样的方式对齐：它往往倾向于表示低维子空间中的所有输入，从而导致一种称为维度崩溃的现象，这严重限制了推荐系统捕获信息的能力。用户偏好和行为。为了解决这些问题，我们引入了一个名为 Counterfactual LLMRecommendation (CLLMR) 的新颖框架。具体来说，我们提出了一种基于频谱的辅助信息编码器，它将历史交互中的结构信息隐式嵌入到辅助信息表示中，从而规避了维度崩溃的风险。此外，我们的 CLLMR 方法探索了基于 LLM 的推荐系统中固有的因果关系。通过利用反事实推理，我们抵消了大语言模型带来的偏见。大量实验表明，我们的 CLLMR 方法持续增强了各种推荐模型的性能。

超越分数：基于 RAG 的模块化系统，用于带反馈的自动简答评分

分类： 计算和语言, 人工智能

作者： Menna Fateen, Bo Wang, Tsunenori Mine

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20042v1

摘要： 自动简答评分 (ASAS) 有助于减轻教育工作者的评分负担，但通常缺乏详细、可解释的反馈。带有反馈的 ASAS 中的现有方法 (ASAS-F) 依赖于使用有限数据集微调语言模型，这是资源密集型的，并且难以跨上下文进行泛化。最近使用大型语言模型 (LLM) 的方法侧重于评分，而无需进行大量微调。然而，他们往往严重依赖即时工程，要么无法生成详细的反馈，要么没有对其进行充分评估。在本文中，我们提出了一种基于模块化检索增强生成的 ASAS-F 系统，该系统可以在严格的零样本和少样本学习场景中对答案进行评分并生成反馈。我们设计的系统能够适应各种教育任务，而无需使用自动提示生成框架进行大量的提示工程。结果显示，与微调相比，未见过的问题的评分准确性提高了 9%，从而提供了可扩展且经济高效的解决方案。

通过动态策略融合实现个性化

分类： 人工智能, 机器学习

作者： Ajsal Shereef Palattuparambil, Thommen George Karimpanal, Santu Rana

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20016v1

摘要： 深度强化学习（RL）策略虽然在任务奖励方面是最优的，但可能与人类用户的个人偏好不一致。为了确保这种一致性，一个简单的解决方案是使用编码用户特定偏好的奖励函数来重新训练代理。然而，这样的奖励函数通常不容易获得，因此，从头开始重新训练代理可能会非常昂贵。我们提出了一种更实用的方法 - 在人类反馈的帮助下，使已经训练有素的策略适应用户的特定需求。为此，我们通过轨迹级反馈推断用户的意图，并通过基于理论的动态策略融合方法将其与训练有素的任务策略相结合。由于我们的方法收集人类对用于学习任务策略的相同轨迹的反馈，因此它不需要与环境进行任何额外的交互，从而使其成为一种零样本方法。我们在许多环境中凭经验证明，我们提出的动态策略融合方法始终如一地实现预期任务，同时满足用户特定的需求。

使用不完整数据进行稳健的多模态情感分析

分类： 计算和语言, 人工智能, 多媒体

作者： Haoyu Zhang, Wenbin Wang, Tianshu Yu

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20012v1

摘要： 多模态情感分析（MSA）领域最近出现了一个寻求解决数据不完整性问题的新兴方向。认识到语言模态通常包含密集的情感信息，我们将其视为主导模态，并提出一种创新的语言主导的抗噪声学习网络（LNLN）来实现强大的 MSA。所提出的 LNLN 具有主导模态校正（DMC）模块和基于主导模态的多模态学习（DMML）模块，通过确保主导模态表示的质量来增强模型在各种噪声场景下的鲁棒性。除了有条理的设计之外，我们还在随机数据丢失的情况下进行了全面的实验，在几个流行的数据集（\textit{例如} MOSI、MOSEI 和 SIMS）上利用多样化且有意义的设置，与传统的数据集相比，提供了额外的均匀性、透明度和公平性文献中已有的评价。根据经验，LNLN 始终优于现有基准，在这些具有挑战性和广泛的评估指标中表现出卓越的性能。

利用大型语言模型构建定制信息和以领域为中心的知识图谱

分类： 人工智能, 计算和语言

作者： Frank Wawrzik, Matthias Plaue, Savan Vekariya, Christoph Grimm

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20010v1

摘要： 在本文中，我们提出了一种基于知识图的新颖方法，以提供对结构化信息的及时访问，以实现可操作的技术智能，并改进网络物理系统规划。我们的框架包含文本挖掘过程，其中包括信息检索、关键短语提取、语义网络创建和主题图可视化。在这个数据探索过程之后，我们采用了选择性知识图构建（KGC）方法，该方法由电子和创新本体支持的管道支持，以网络物理系统为重点进行多目标决策。我们将我们的方法应用于汽车电气系统领域来演示该方法，该方法是可扩展的。我们的结果表明，我们的构建过程在类识别、关系构建和正确的“子类”分类方面优于 GraphGPT 以及具有预定义数据集的 bi-LSTM 和转换器 REBEL 数倍。此外，我们概述了推理应用程序并提供与维基数据的比较，以显示该方法的差异和优点。

时间序列分类中多源迁移学习的基于 Shapelet 距离测量的模型选择

分类： 机器学习, 人工智能

作者： Jiseok Lee, Brian Kenji Iwana

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20005v1

摘要： 迁移学习是一种常见的做法，可以减少训练神经网络所需的大量数据。它是通过使用源数据集预训练模型并针对目标任务对其进行微调来执行的。然而，并非每个源数据集都适合每个目标数据集，尤其是时间序列。在本文中，我们提出了一种选择和使用多个数据集进行时间序列分类迁移学习的新方法。具体来说，我们的方法将多个数据集组合为一个源数据集，用于预训练神经网络。此外，为了选择多个源，我们的方法基于 shapelet 发现来测量数据集的可转移性，以实现有效的源选择。虽然传统的可转移性测量需要相当多的时间来预训练所有可能的源以选择每种可能的架构的源，但我们的方法可以通过单个简单的计算重复用于每种可能的架构。使用所提出的方法，我们证明可以提高时间卷积神经网络（CNN）在时间序列数据集上的性能。

影响函数适用于大型语言模型吗？

分类： 计算和语言, 人工智能

作者： Zhe Li, Wei Zhao, Yige Li, Jun Sun

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19998v1

摘要： 影响函数旨在量化单个训练数据点对模型预测的影响。尽管人们对传统机器学习模型中的影响函数进行了广泛的研究，但它们在大型语言模型（LLM）中的应用受到限制。在这项工作中，我们进行了系统研究来解决一个关键问题：影响力功能对大语言模型有用吗？具体来说，我们评估了多个任务的影响函数，发现它们在大多数设置中始终表现不佳。我们的进一步研究表明，它们的不良表现可归因于：（1）由于 LLM 的规模而估计 iHVP 分量时不可避免的近似误差，（2）微调期间的不确定收敛，以及，更根本的是，（3）定义本身，因为模型参数的变化不一定与 LLM 行为的变化相关。因此，我们的研究表明需要采用替代方法来识别有影响力的样本。为了支持未来的工作，我们的代码可在 https://github.com/plumprc/Failures-of-Influence-Functions-in-LLMs 上获取。

减轻大型语言模型的后门威胁：进步和挑战

分类： 密码学和安全, 人工智能, 计算和语言, 机器学习, 系统与控制, 系统与控制

作者： Qin Liu, Wenjie Mo, Terry Tong, Jiashu Xu, Fei Wang, Chaowei Xiao, Muhao Chen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19993v1

摘要： 大型语言模型 (LLM) 的进步对各个领域产生了重大影响，包括网络搜索、医疗保健和软件开发。然而，随着这些模型的扩展，它们变得更容易受到网络安全风险，特别是后门攻击。通过利用 LLM 强大的记忆能力，攻击者可以通过操纵一小部分训练数据轻松地将后门注入 LLM 中，每当隐藏的后门被预定义的触发器激活时，就会导致下游应用程序出现恶意行为。此外，指令调整和基于人类反馈的强化学习（RLHF）等新兴学习范式加剧了这些风险，因为它们严重依赖众包数据和人类反馈，而这些数据和人类反馈并未得到完全控制。在本文中，我们对大语言模型开发或推理过程中出现的大语言模型新后门威胁进行了全面调查，并介绍了减轻大语言模型后门威胁的防御和检测策略的最新进展。我们还概述了应对这些威胁的主要挑战，并强调了未来研究的领域。

指纹质量和人口统计的大规模操作研究

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Javier Galbally, Aleksandrs Cepilovs, Ramon Blanco-Gonzalo, Gillian Ormiston, Oscar Miguel-Hurtado, Istvan Sz. Racz

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19992v1

摘要： 尽管一些初步研究表明，指纹识别技术在小数据集上的性能对于某些人口群体存在一定程度的偏差，但仍然没有足够的证据来了解某些因素（例如性别、年龄或性别）的影响。手指类型可能会影响指纹质量，进而影响指纹匹配准确性。目前的工作解决了这个仍在研究中的主题，涉及一个包含近 16,000 个主题的 10 次打印印象的大型操作数据数据库。得出的结果进一步深入了解了指纹质量和人口统计数据的依赖性，并表明基于指纹的识别系统对于不同人群实际上存在一定程度的性能差异。基于实验评估，该工作指出了基于数据驱动证据的新观察结果，提供了合理的假设来解释这些观察结果，并得出了有助于减少观察到的指纹质量差异的潜在后续行动的结论。这样，当前的论文可以被视为对进一步提高生物识别技术的算法公平性和平等性的贡献。

竞赛：语言模型中跨度概率一致性测试的框架

分类： 计算和语言, 人工智能

作者： Eitan Wagner, Yuli Slavutsky, Omri Abend

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19984v1

摘要： 尽管语言模型分数通常被视为概率，但它们作为概率估计器的可靠性主要是通过校准来研究的，而忽略了其他方面。特别是，尚不清楚语言模型是否对于为单词跨度分配联合概率的不同方式产生相同的值。我们的工作引入了一个新颖的框架，ConTestS（跨度一致性测试），涉及统计测试来评估可互换的完成和调节顺序之间的分数一致性。我们对发布后的真实数据和合成数据进行实验，以消除训练效果。我们的研究结果表明，掩码语言模型（MLM）和自回归模型都表现出不一致的预测，其中自回归模型表现出更大的差异。较大的传销往往会产生更一致的预测，而自回归模型则显示出相反的趋势。此外，对于这两种模型类型，预测熵提供了对真实单词跨度可能性的洞察，因此可以帮助选择最佳解码策略。我们的分析揭示的不一致之处，以及它们与预测熵的联系以及模型类型之间的差异，可以为解决这些局限性的未来研究提供有用的指导。

通过标准化流嵌入知识图

分类： 机器学习, 人工智能

作者： Changyi Xiao, Xiangnan He, Yixin Cao

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19977v1

摘要： 知识图嵌入（KGE）的关键是选择合适的表示空间，例如逐点欧几里得空间和复向量空间。在本文中，我们提出了嵌入的统一视角，并从群论的角度将不确定性引入KGE。我们的模型可以合并现有模型（即通用性），确保计算易于处理（即效率）并享受复杂随机变量的表达能力（即表达性）。核心思想是我们将实体/关系嵌入为对称群的元素，即集合的排列。不同集合的排列可以反映嵌入的不同属性。并且对称群的群运算很容易计算。具体来说，我们表明许多现有模型、点向量的嵌入可以被视为对称群的元素。为了反映不确定性，我们首先将实体/关系嵌入为一组随机变量的排列。排列可以将简单的随机变量转换为复杂的随机变量以获得更大的表达能力，称为归一化流。然后，我们通过测量两个标准化流的相似性来定义评分函数，即 NFE。我们构建了几个实例化模型并证明它们能够学习逻辑规则。实验结果证明了引入不确定性和我们的模型的有效性。该代码可在 https://github.com/changyi7231/NFE 获取。

属性文本引导终身人员重新识别的遗忘补偿

分类： 计算机视觉和模式识别, 人工智能

作者： Shiben Liu, Huijie Fan, Qiang Wang, Weihong Ren, Yandong Tang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19954v1

摘要： 终身人员重新识别（LReID）旨在不断从非平稳数据中学习以匹配不同环境中的个体。每个任务都会受到照明和人员相关信息（例如姿势和服装）变化的影响，从而导致任务方面的领域差距。当前的 LReID 方法侧重于特定于任务的知识，而忽略域间隙内的内在任务共享表示，从而限制了模型性能。弥合任务领域的差距对于提高抗遗忘和泛化能力至关重要，特别是在训练期间访问有限的旧课程时。为了解决这些问题，我们提出了一种新颖的属性文本引导遗忘补偿（ATFC）模型，该模型探索了 LReID 的身份相关信息的文本驱动全局表示和无身份信息的属性相关局部表示。由于缺乏配对的文本图像数据，我们设计了一个属性文本生成器（ATG）来为每个实例动态生成文本描述符。然后，我们引入文本引导聚合网络（TGA）来探索每个身份和知识转移的鲁棒文本驱动的全局表示。此外，我们提出了一种属性补偿网络（ACN）来研究与属性相关的局部表示，它区分相似的身份并弥合领域差距。最后，我们开发了属性防遗忘（AF）损失和知识转移（KT）损失，以最小化领域差距并实现知识转移，从而提高模型性能。大量实验表明，我们的 ATFC 方法实现了卓越的性能，在所见数据集上的平均 mAP/R-1 优于现有的 LReID 方法超过 9.0$%$/7.4$%$。

最弱环节定律：大型语言模型的交叉能力

分类： 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19951v1

摘要： 大型语言模型（LLM）的开发和评估主要关注个人能力。然而，这忽视了现实世界任务通常所需的不同类型专业知识的多种能力的交集，我们称之为交叉能力。为了系统地探索这个概念，我们首先定义七个核心单独功能，然后将它们配对形成七个常见的交叉功能，每个功能都由手动构建的分类法支持。在这些定义的基础上，我们引入了 CrossEval，这是一个包含 1,400 个人工注释提示的基准测试，其中每个个体和交叉能力有 100 个提示。为了确保评估的可靠性，我们邀请专家注释者评估 4,200 个模型响应，收集 8,400 个人工评分并附有详细解释作为参考示例。我们的研究结果表明，在静态评估和增强特定能力的尝试中，当前的大语言模型始终表现出“最弱环节法则”，即跨能力表现受到最弱环节的显着限制。具体来说，在 17 个模型的 58 个交叉能力得分中，有 38 个得分低于所有个体能力，而 20 个得分介于强弱之间，但更接近较弱的能力。这些结果凸显了大语言模型在跨能力任务中表现不佳的问题，使得识别和改进最薄弱的能力成为未来研究的关键优先事项，以优化复杂、多维场景中的表现。

多功能扩散规划器的任务无关预训练和任务引导微调

分类： 机器学习, 人工智能

作者： Chenyou Fan, Chenjia Bai, Zhao Shan, Haoran He, Yang Zhang, Zhen Wang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19949v1

摘要： 扩散模型已经证明了其在多任务轨迹建模方面的能力。然而，现有的多任务规划器或策略通常依赖于通过多任务模仿进行的特定于任务的演示，或者需要特定于任务的奖励标签来通过强化学习（RL）促进策略优化。为了应对这些挑战，我们的目标是开发一种多功能的扩散规划器，它可以利用包含与任务无关的次优轨迹的大规模劣质数据，并能够快速适应特定任务。在本文中，我们提出了 \textbf{SODP}，一个两阶段框架，利用 \textbf{S}ub-\textbf{O}ptimal 数据来学习 \textbf{D}iffusion \textbf{P}lanner，其中可推广用于各种下游任务。具体来说，在预训练阶段，我们训练一个基础扩散规划器，通过对多任务轨迹的通用分布进行建模来提取通用规划能力，这可能是次优的并且具有广泛的数据覆盖范围。然后，对于下游任务，我们采用基于强化学习的微调和特定于任务的奖励来快速细化扩散规划器，其目标是生成具有更高特定于任务的回报的动作序列。包括 Meta-World 和 Adroit 在内的多任务领域的实验结果表明，SODP 的性能优于最先进的方法，只需少量数据即可进行奖励引导微调。

JaPOC：使用优惠券的日本 OCR 后校正基准

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Masato Fujitake

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19948v1

摘要： 在本文中，我们创建基准并评估 OCR（光学字符识别）系统中日本凭证纠错方法的有效性。对于自动化处理来说，正确识别扫描的凭证文本（例如发票上的公司名称）至关重要。然而，由于邮票等噪声的存在，完美的识别变得很复杂。因此，正确纠正错误的 OCR 结果至关重要。然而，目前还没有公开的日语 OCR 纠错基准，并且方法也没有得到充分研究。在本研究中，我们测量了现有服务对日语优惠券的文本识别准确性，并开发了 OCR 后校正基准。然后，我们提出了使用语言模型进行纠错的简单基线，并验证了所提出的方法是否可以有效地纠正这些错误。在实验中，所提出的纠错算法显着提高了整体识别精度。

正和公平：利用人口特征在不牺牲群体收益的情况下实现公平的人工智能结果

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 计算机与社会

作者： Samia Belhadj, Sanguk Park, Ambika Seth, Hesham Dar, Thijs Kooi

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19940v1

摘要： 医疗人工智能的公平性越来越被认为是医疗保健服务的一个重要方面。虽然大多数先前关于公平性的工作都强调平等绩效的重要性，但我们认为，公平性的降低可能是有害的，也可能是无害的，具体取决于变化的类型以及敏感属性的使用方式。为此，我们引入了正和公平的概念，该概念指出，绩效的提高导致更大的群体差异是可以接受的，只要它不以牺牲个体子群体的绩效为代价。这允许使用与疾病相关的敏感属性来提高性能，而不影响公平性。我们通过比较在训练阶段不同使用种族属性的四个 CNN 模型来说明这个想法。结果表明，从图像中删除所有人口统计编码有助于缩小不同子组之间的性能差距，而利用种族属性作为模型的输入可以提高整体性能，同时扩大子组之间的差异。然后，通过我们的正和公平概念，从集体利益的角度来看待这些较大的差距，以区分有害和无害的差异。

论OpenAI o1模型的规划能力：可行性、最优性和泛化性

分类： 人工智能, 机器学习, 机器人技术

作者： Kevin Wang, Junbo Li, Neel P. Bhatt, Yihan Xi, Qiang Liu, Ufuk Topcu, Zhangyang Wang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19924v2

摘要： 大型语言模型 (LLM) 的最新进展展示了它们执行复杂推理任务的能力，但它们在规划方面的有效性仍未得到充分探索。在本研究中，我们评估了 OpenAI o1 模型在各种基准任务中的规划能力，重点关注三个关键方面：可行性、最优性和通用性。通过对约束繁重的任务（例如，$\textit{Barman}$、$\textit{Tyreworld}$）和空间复杂环境（例如，$\textit{Termes}$、$\textit{Floortile}$）进行实证评估，我们强调了 o1-preview 在自我评估和约束跟踪方面的优势，同时还确定了决策和内存管理方面的瓶颈，特别是在需要强大空间推理的任务中。我们的结果表明，o1-preview 在遵守任务约束和管理结构化环境中的状态转换方面优于 GPT-4。然而，该模型通常会生成具有冗余操作的次优解决方案，并且难以在空间复杂的任务中有效地进行泛化。这项试点研究为大语言模型的规划局限性提供了基础见解，为未来改善基于大语言模型规划的内存管理、决策和泛化的研究提供了关键方向。

在代币范围内扩展最优 LR

分类： 机器学习, 人工智能, 计算和语言

作者： Johan Bjorck, Alon Benhaim, Vishrav Chaudhary, Furu Wei, Xia Song

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19913v1

摘要： 最先进的大语言模型由扩展提供动力——扩展模型大小、数据集大小和集群大小。为了最大的运行而广泛调整超参数在经济上是不可行的。相反，必须从较小的实验中推断或 \textit{transferred} 近似最佳的超参数。 Yang 等人研究了跨模型大小的超参数传递。然而，跨数据集大小（或令牌范围）的超参数传输尚未得到研究。为了解决这个问题，我们对 LLM 训练中的最佳学习率 (LR) 如何取决于令牌范围进行了大规模的实证研究。我们首先证明最佳 LR 会随着令牌范围的变化而显着变化——更长的训练需要更小的 LR。其次，我们证明最佳 LR 遵循缩放定律，并且可以通过我们的缩放定律从较短的视野中准确估计较长视野的最佳 LR。我们还提供了在代币范围内转移 LR 的经验法则，与当前实践相比，开销为零。最后，我们提供了 LLama-1 使用过高 LR 的证据，并估计了由此造成的性能影响。因此，我们认为跨数据大小的超参数传输是 LLM 训练的一个重要且被忽视的组成部分。

UniSumEval：迈向大语言模型统一、细粒度、多维度的总结评估

分类： 计算和语言, 人工智能

作者： Yuho Lee, Taewon Yun, Jason Cai, Hang Su, Hwanjun Song

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19898v2

摘要： 现有的摘要质量评估基准通常缺乏多样化的输入场景，专注于狭隘定义的维度（例如，忠实度），并且与主观和粗粒度的注释方案作斗争。为了解决这些缺点，我们创建了 UniSumEval 基准，它扩展了输入上下文的范围（例如域、长度）并提供细粒度的多维注释。我们在数据创建中使用人工智能辅助，识别潜在的致幻输入文本，并帮助人类注释者降低细粒度注释任务的难度。通过 UniSumEval，我们将九个最新语言模型作为摘要器进行基准测试，提供对它们在不同输入上下文和评估维度上的性能的见解。此外，我们对 SOTA 自动总结评估器进行了彻底的比较。我们的基准数据将在 https://github.com/DISL-Lab/UniSumEval-v1.0 上提供。

TRANSAGENT：基于大语言模型的代码翻译多代理系统

分类： 软件工程, 人工智能

作者： Zhiqiang Yuan, Weitong Chen, Hanlin Wang, Kai Yu, Xin Peng, Yiling Lou

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19894v2

摘要： 代码翻译将代码从一种编程语言转换为另一种编程语言，同时保持其原有功能，这对于软件迁移、系统重构和跨平台开发至关重要。传统的基于规则的方法依赖于手动编写的规则，这可能非常耗时，并且通常会导致代码可读性较差。为了克服这个问题，开发了基于学习的方法，利用并行数据来训练自动代码翻译模型。最近，大型语言模型 (LLM) 的进步进一步促进了基于学习的代码翻译。尽管前景光明，LLM 翻译的程序仍然存在各种质量问题（例如语法错误和语义错误）。特别是，当仅提供相应的错误消息时，大语言模型很难自我调试这些错误。在这项工作中，我们提出了一种新颖的基于LLM的多代理系统TRANSAGENT，它通过四个基于LLM的代理（包括初始代码翻译器、语法错误修复器）之间的协同作用来修复语法错误和语义错误，从而增强了基于LLM的代码翻译、代码对齐器和语义错误修复器。 TRANSAGENT的主要思想是首先根据目标程序和源程序之间的执行对齐来定位目标程序中的错误代码块，这样可以缩小修复空间，从而降低修复难度。为了评估 TRANSAGENT，我们首先根据最近的编程任务构建一个新的基准，以减轻潜在的数据泄漏问题。在我们的基准测试中，TRANSAGENT 在翻译效果和效率方面均优于最新的基于 LLM 的代码翻译技术 UniTrans；此外，我们对不同大语言模型的评估显示了 TRANSAGENT 的泛化性，我们的消融研究显示了每种药物的贡献。

RouterDC：基于查询的路由器，通过双重对比学习来组装大型语言模型

分类： 机器学习, 人工智能, 计算和语言

作者： Shuhao Chen, Weisen Jiang, Baijiong Lin, James T. Kwok, Yu Zhang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19886v1

摘要： 最近的研究表明，组装多个现成的大型语言模型（LLM）可以利用它们的互补能力。为了实现这一点，路由是一种很有前途的方法，它学习路由器为每个查询选择最合适的 LLM。然而，当多个 LLM 对查询表现良好时，现有的路由模型就无效了。为了解决这个问题，在本文中，我们提出了一种称为基于查询的对偶对比学习路由器（RouterDC）的方法。 RouterDC 模型由编码器和 LLM 嵌入组成，我们提出了两种对比学习损失来训练 RouterDC 模型。实验结果表明，RouterDC 在组装 LLM 方面是有效的，并且在分布内 (+2.76%) 和分布外 (+1.90%) 任务上大大优于各个表现最好的 LLM 以及现有路由方法。源代码可在 https://github.com/shuhao02/RouterDC 获取。

SWIM：短窗 CNN 与 Mamba 集成，用于基于脑电图的听觉空间注意力解码

分类： 音频和语音处理, 人工智能, 声音, 信号处理

作者： Ziyang Zhang, Andrew Thwaites, Alexandra Woolgar, Brian Moore, Chao Zhang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19884v1

摘要： 在复杂的听觉环境中，人类听觉系统具有非凡的能力，能够专注于特定的说话者而忽略其他人。在这项研究中，提出了一种名为 SWIM 的新模型，它是一种与 Mamba 集成的短窗卷积神经网络 (CNN)，用于从脑电图 (EEG) 信号中识别听觉注意力轨迹（左或右），而不依赖于语音包络。 SWIM 由两部分组成。第一个是短窗口 CNN (SW$\text{CNN}$)，它充当短期 EEG 特征提取器，并在留一说话者设置中实现了 84.9% 的最终准确率。广泛使用的 KUL 数据集。这一改进归功于改进的 CNN 结构、数据增强、多任务训练和模型组合的使用。第二部分 Mamba 是一个序列模型，首先应用于听觉空间注意力解码，以利用先前 SW$\text{CNN}$ 时间步骤的长期依赖性。通过SW$_\text{CNN}$和Mamba的联合训练，所提出的SWIM结构同时使用了短期和长期信息，达到了86.2%的准确率，与传统模型相比，分类误差相对减少了31.0%。以前的最先进的结果。源代码可在 https://github.com/windowso/SWIM-ASAD 获取。

机器翻译中重复抑制的对比标记学习与相似度衰减

分类： 计算和语言, 人工智能

作者： Huangyu Dai, Ben Chen, Kaidi Chen, Ying Han, Zihan Liang, Wen Jiang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19877v1

摘要： 对于跨语言对话和贸易，神经机器翻译 (NMT) 至关重要，但仍面临着生成内容单调和重复的持续挑战。即使出现了大型语言模型 (LLM)，依赖于惩罚文本冗余或标记重复出现的传统解决方案也显示出有限的功效，特别是对于具有固有冗余的长篇文章和电子商务描述。本文通过信息熵的视角研究了文本重复的根本原因，将该现象归因于输入文本中不确定性的增加。为了解决这个问题，引入了一种名为“相似度衰减对比令牌学习”（CTSD）的新颖算法，该算法根据不同的注意力权重和令牌间距离动态调节令牌的抑制。此外，还编译并发布了由在线真实商品的标题文本组成的电子商务数据集，该数据集容易受到幻觉翻译的影响，以对算法进行基准测试。广泛的评估表明，CTSD 在精度和通用性方面显着优于现有方法。额外的在线 A/B 测试强调了其实用价值，显示用户参与度和转化率显着提高。值得注意的是，该方法已在全球最大的B2B电商平台阿里巴巴的8个多语种网站满流量落地。

TSI：一种用于时间序列预测的多视图表示学习方法

分类： 机器学习, 人工智能

作者： Wentao Gao, Ziqi Xu, Jiuyong Li, Lin Liu, Jixue Liu, Thuc Duy Le, Debo Cheng, Yanchang Zhao, Yun Chen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19871v1

摘要： 随着实际应用（例如用电规划）对长序列时间序列预测的需求不断增长，时间序列预测的重要性在各个领域变得越来越重要。该领域内表征学习的最新进展凸显了这一点。本研究引入了一种新颖的时间序列预测多视图方法，该方法创新地将趋势和季节表示与基于独立成分分析 (ICA) 的表示相结合。认识到现有方法在表示复杂和高维时间序列数据方面的局限性，本研究通过结合 TS（趋势和季节性）和 ICA（独立成分）视角来解决这一挑战。这种方法提供了对时间序列数据的整体理解，超越了经常错过细微差别的非线性关系的传统模型。 TSI 模型的有效性通过对各种基准数据集的全面测试得到证明，它显示出优于当前最先进模型的性能，特别是在多元预测方面。该方法不仅提高了预测的准确性，而且通过提供对时间序列数据的更深入的理解，对该领域做出了重大贡献。以ICA为视角的研究为时间序列预测的进一步探索和方法论进步奠定了基础，为研究和实际应用开辟了新的途径。

逆流学习：一种生物学上可行的深度学习双网络方法

分类： 机器学习, 人工智能, 神经和进化计算

作者： Chia-Hsiang Kao, Bharath Hariharan

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19841v1

摘要： 尽管误差反向传播在神经网络中得到广泛应用，但因其缺乏生物学合理性而受到批评，受到诸如向后锁定问题和重量传输问题等问题的困扰。这些限制促使研究人员探索更多生物学上合理的学习算法，这些算法可能有助于揭示生物神经系统如何适应和学习。受生物系统中观察到的逆流交换机制的启发，我们提出了逆流学习（CCL），这是一种在神经网络中进行信用分配的生物学合理框架。该框架采用前馈网络来处理输入数据，并采用反馈网络来处理目标，每个网络通过反并行信号传播来增强另一个网络。通过利用来自反馈网络底层的信息丰富的信号来指导前馈网络顶层的更新，反之亦然，CCL 能够实现源输入到目标输出的同步转换以及这些转换的动态相互影响。使用多层感知器和卷积神经网络在 MNIST、FashionMNIST、CIFAR10 和 CIFAR100 数据集上的实验结果表明，CCL 实现了与其他生物学上合理的算法相当的性能，同时提供了更符合生物学的学习机制。此外，我们展示了我们的方法对自动编码器任务的适用性，强调了其无监督表示学习的潜力。我们的工作为受生物学启发且合理的学习算法提供了方向，提供了神经网络中学习和适应的替代机制。

ForecastBench：人工智能预测能力的动态基准

分类： 机器学习, 人工智能, 计算和语言

作者： Ezra Karger, Houtan Bastani, Chen Yueh-Han, Zachary Jacobs, Danny Halawi, Fred Zhang, Philip E. Tetlock

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19839v1

摘要： 对未来事件的预测是明智决策的重要输入。机器学习 (ML) 系统具有大规模提供预测的潜力，但没有框架可以评估 ML 系统在标准化预测问题集上的准确性。为了解决这一差距，我们引入 ForecastBench：一种动态基准，用于评估 ML 系统在自动生成并定期更新的 1,000 个预测问题集上的准确性。为了避免任何数据泄露的可能性，ForecastBench 仅包含有关未来事件的问题，这些问题在提交时尚无已知答案。我们通过收集专家（人类）预测者、公众和大语言模型对基准问题的随机子集（N = 200）的预测来量化当前机器学习系统的能力。虽然大语言模型在许多基准上都取得了超人的表现，但他们在这方面的表现较差：专家预测者的表现优于表现最好的大语言模型（p 值 <= 0.01）。我们在 www.forecastbench.org 的公共排行榜上显示系统和人类分数。

用于分散式无标记运动规划的图神经网络的通用性

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Shreyas Muthusamy, Damian Owerko, Charilaos I. Kanatsoulis, Saurav Agarwal, Alejandro Ribeiro

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19829v1

摘要： 无标签运动规划涉及将一组机器人分配到目标位置，同时确保避免碰撞，旨在最大限度地减少总行驶距离。该问题构成了探索、监视和运输等应用中多机器人系统的重要组成部分。我们在分散的设置中解决这个问题，其中每个机器人只知道其 $k$-最近的机器人和 $k$-最近的目标的位置。这种场景结合了组合分配和连续空间运动规划的元素，对传统的集中式方法提出了重大的可扩展性挑战。为了克服这些挑战，我们提出了一种通过图神经网络（GNN）学习的去中心化策略。 GNN 使机器人能够确定 (1) 与邻居交流哪些信息以及 (2) 如何将接收到的信息与本地观察结果相结合以做出决策。我们使用集中式匈牙利算法作为专家策略的模仿学习来训练 GNN，并使用强化学习进一步对其进行微调，以避免碰撞并提高性能。广泛的实证评估证明了我们方法的可扩展性和有效性。在 100 个机器人上训练的 GNN 策略可以推广到最多 500 个机器人的场景，平均比最先进的解决方案高 8.6%，并且显着超越贪婪的去中心化方法。这项工作为解决可扩展性很重要的环境中的多机器人协调问题奠定了基础。

通过领域适应对广告排名模型进行反事实评估

分类： 信息检索, 人工智能, H.3.3; I.2.6

作者： Mohamed A. Radwan, Himaghna Bhattacharjee, Quinn Lanners, Jiasheng Zhang, Serkan Karakulak, Houssam Nassif, Murat Ali Bayir

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19824v1

摘要： 我们提出了一种适应领域的奖励模型，该模型与离线 A/B 测试系统一起用于评估排名模型。这种方法有效地衡量了大规模广告推荐系统中排名模型变化的奖励，在这种系统中，像 IPS 这样的无模型方法是不可行的。我们的实验表明，所提出的技术优于普通 IPS 方法和使用非广义奖励模型的方法。

OrganiQ：缓解 NISQ-Era 机器上量子生成对抗网络的经典资源瓶颈

分类： 量子物理学, 人工智能

作者： Daniel Silver, Tirthak Patel, Aditya Ranjan, William Cutler, Devesh Tiwari

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19823v1

摘要： 在硬件能力快速进步的推动下，量子机器学习已成为人们感兴趣的研究领域。最近，量子图像生成已经产生了有希望的结果。然而，先前的量子图像生成技术依赖于经典神经网络，限制了它们的量子潜力和图像质量。为了克服这个问题，我们引入了 OrganiQ，这是第一个能够在不使用经典神经网络的情况下生成高质量图像的量子 GAN。

Qompose：一种为中性原子量子架构选择最佳算法特定布局的技术

分类： 量子物理学, 人工智能

作者： Daniel Silver, Tirthak Patel, Devesh Tiwari

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19820v1

摘要： 随着量子计算架构的成熟，研究具有独特优势的新技术非常重要。在这项工作中，我们提出了 Qompose，一种中性原子量子计算框架，用于在中性原子的二维拓扑上有效地组成量子电路。 Qompose 为任何给定电路选择高效的拓扑，以便通过高效的并行性和整体保真度来优化执行长度。我们的广泛评估表明，Qompose 对于大量随机生成的量子电路和一系列现实世界基准（包括 VQE、ISING 和 QAOA）是有效的。

使用自适应温度缩放来校准语言模型

分类： 机器学习, 人工智能, 计算和语言

作者： Johnathan Xie, Annie S. Chen, Yoonho Lee, Eric Mitchell, Chelsea Finn

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19817v1

摘要： 大型语言模型 (LLM) 的有效性不仅通过其生成准确输出的能力来衡量，还通过其校准来衡量，即其置信度分数反映其输出正确的概率的程度。虽然无监督预训练已被证明可以产生具有良好校准条件概率的大语言模型，但最近的研究表明，在通过人类反馈强化学习（RLHF）进行微调后，这些模型的校准显着下降。在这项工作中，我们引入了自适应温度缩放（ATS），这是一种事后校准方法，可以为每个令牌预测预测温度缩放参数。预测的温度值根据令牌级特征进行调整，并适合标准的监督微调 (SFT) 数据集。 ATS 的自适应特性解决了 RLHF 微调后可能发生的不同程度的校准偏移。与之前的校准方法相比，ATS 将三个下游自然语言评估基准的校准提高了 10-50% 以上，并且不妨碍 RLHF 的性能改进。

扎根课程学习

分类： 机器人技术, 人工智能

作者： Linji Wang, Zifan Xu, Peter Stone, Xuesu Xiao

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19816v1

摘要： 机器人强化学习 (RL) 的真实世界数据成本高昂，导致模拟器的广泛使用。尽管在为模拟器构建更好的动力学模型以与现实世界相匹配方面进行了大量工作，但模拟与现实世界之间还存在另一个经常被忽视的不匹配问题，即可用训练任务的分配。现有的课程学习技术进一步加剧了这种不匹配，这些技术会自动改变模拟任务的分配，而不考虑其与现实世界的相关性。考虑到这些挑战，我们认为机器人强化学习的课程学习需要以现实世界的任务分配为基础。为此，我们提出了扎根课程学习（GCL），它将课程中的模拟任务分布与现实世界保持一致，并明确考虑给予机器人的任务以及机器人过去的表现。我们使用 BARN 数据集在复杂的导航任务上验证 GCL，与最先进的 CL 方法和人类专家设计的课程相比，成功率分别提高了 6.8% 和 6.5%。这些结果表明，GCL 可以通过在自适应课程中将现实世界中的模拟任务分配作为基础来提高学习效率和导航性能。

模型可以从示例中学习技能构成吗？

分类： 计算和语言, 人工智能, 机器学习

作者： Haoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19808v1

摘要： 随着大型语言模型（LLM）变得越来越先进，它们表现出组合泛化的能力——以训练期间未遇到的新颖方式组合所学技能的能力——已经引起了人们的广泛关注。这种类型的泛化，特别是在训练数据之外的场景中，在人工智能安全和一致性的研究中也引起了极大的兴趣。最近的一项研究引入了 SKILL-MIX 评估，其中模型的任务是撰写一个简短的段落，展示指定的 $k$ 语言技能元组的使用。虽然小型模型即使在 $k=3$ 的情况下也很难进行组合，但像 GPT-4 这样的大型模型在 $k=5$ 和 $6$ 的情况下表现得相当不错。在本文中，我们采用类似于 SKILL-MIX 的设置来评估较小模型从示例中学习组合泛化的能力。 GPT-4 利用多种语言技能（包括修辞、文学、推理、心理理论和常识）来生成显示 $k$ 技能随机子集的文本样本。随后对这些组合技能文本的 7B 和 13B 参数模型进行微调，以增加 $k$ 的值，揭示了以下发现：（1）对 $k=2$ 和 $3$ 技能的组合进行训练导致了能够使用 $k=4$ 和 $5$ 技能撰写文本，尽管模型在训练期间从未见过此类示例。 (2) 当技能类别分为训练组和保留组时，模型在测试期间使用保留技能撰写文本的能力显着提高，尽管在微调过程中只看到了训练技能，这说明了训练方法的有效性，即使与之前的模型相比看不见的技能。这项研究还表明，将技能丰富（可能是合成的）文本纳入训练中可以大大增强模型的组合能力。

PALM：音频语言模型的少样本提示学习

分类： 声音, 人工智能, 音频和语音处理

作者： Asif Hanif, Maha Tufail Agro, Mohammad Areeb Qazi, Hanan Aldarmaki

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19806v1

摘要： 受视觉语言模型 (VLM) 进步的启发，音频语言模型 (ALM) 最近在零样本音频识别任务中取得了显着的成功，该任务将音频波形的特征与特定于类的文本提示特征相匹配。考虑到零样本性能对手工制作的文本提示的选择的敏感性，已经为 VLM 开发了许多提示学习技术。我们探索了这些方法在 ALM 中的功效，并提出了一种新方法，即音频语言模型中的提示学习 (PALM)，它优化了文本编码器分支的特征空间。与在输入空间中工作的现有方法不同，我们的方法可以提高训练效率。我们在 11 个音频识别数据集（涵盖各种语音处理任务）上展示了我们的方法的有效性，并将结果与几次学习设置中的三个基线进行了比较。我们的方法与其他方法相当或优于其他方法，同时计算要求较低。代码可在 https://asif-hanif.github.io/palm/ 获取

CRScore：代码声明和异味中代码审查评论的自动评估的基础

分类： 软件工程, 人工智能, 计算和语言

作者： Atharva Naik, Marcus Alenius, Daniel Fried, Carolyn Rose

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19801v1

摘要： 自动代码审查任务最近引起了机器学习社区的广泛关注。然而，当前的评论评论评估指标依赖于与给定代码更改的人工编写参考进行比较（也称为差异），即使代码审查是一对多问题，例如具有许多“有效评论”的生成和总结为了一个差异。为了解决这些问题，我们开发了 CRScore——一种无参考指标，用于衡量评论质量的维度，如简洁性、全面性和相关性。我们设计 CRScore 的方式是根据大语言模型和静态分析器在代码中检测到的声明和潜在问题来评估评论。我们证明，CRScore 可以生成有效、细粒度的评论质量分数，与人类判断最一致（Spearman 相关性为 0.54），并且比基于参考的指标更敏感。我们还发布了包含 2.6k 个人工注释的评论质量分数的语料库，用于机器生成的评论和 GitHub 评论，以支持自动化指标的开发。

黎曼猜想的交叉熵优化分析及推理

分类： 人工智能, 计算工程、金融和科学

作者： Kevin Li, Fulu Li

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19790v1

摘要： 在本文中，我们提出了一个用于分析黎曼假设[27]的新颖框架，该框架由三个关键部分组成：a）具有交叉熵优化和推理的概率建模； b) 大数定律的应用； c) 数学归纳法的应用。分析主要借助交叉熵优化的概率建模和稀有事件模拟技术进行推理。大数定律[2,3,6]的应用和数学归纳法的应用使得黎曼猜想的分析自成一体，完整，确保了黎曼猜想的猜想覆盖了整个复平面。我们还讨论了使用大型语言模型（LLM）进行增强的 top-p 采样进行推理，其中下一个 token 预测不仅基于当前轮中每个可能 token 的估计概率，还基于多个 token 之间的累积路径概率。 top-k 思想链 (CoT) 路径。交叉熵优化和推理的概率建模可能非常适合黎曼假设的分析，因为黎曼 Zeta 函数本质上处理的是复数序列的无限分量之和。我们希望本文的分析能够为黎曼猜想的一些见解提供一些启发。本文介绍的框架和技术，结合强化学习 (RL) 大型语言模型 (LLM) 中的思想链 (CoT) 或思想图 (DoT) 推理的最新进展 [1,7,18,21, 24, 34, 39-41]，可以为黎曼假设的最终证明铺平道路[27]。

复杂非线性系统的自适应事件触发强化学习控制

分类： 机器学习, 人工智能, 系统与控制, 系统与控制

作者： Umer Siddique, Abhinav Sinha, Yongcan Cao

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19769v1

摘要： 在本文中，我们提出了一种针对连续时间非线性系统的自适应事件触发强化学习控制，该系统受到有限不确定性的影响，其特征是复杂的相互作用。具体而言，所提出的方法能够联合学习控制策略和通信策略，从而减少单独学习或仅学习其中之一时的参数数量和计算开销。通过用代表整个轨迹表现的累积奖励来增强状态空间，我们表明可以准确有效地确定触发条件，而不需要显式学习触发条件，从而产生自适应非平稳策略。最后，我们提供了几个数值例子来证明所提出方法的有效性。

迈向稳健的提取式问答模型：重新思考训练方法

分类： 计算和语言, 人工智能

作者： Son Quoc Tran, Matt Kretchmar

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19766v1

摘要： 本文提出了一种新颖的训练方法来提高提取问答（EQA）模型的鲁棒性。先前的研究表明，现有模型在使用包含无法回答的问题的 EQA 数据集进行训练时，表现出严重缺乏针对分布变化和对抗性攻击的鲁棒性。尽管如此，在 EQA 训练数据集中包含无法回答的问题对于确保现实世界的可靠性至关重要。我们提出的训练方法包括用于 EQA 问题的新颖损失函数，并挑战了众多 EQA 数据集中存在的隐含假设。使用我们的方法训练的模型保持域内性能，同时在域外数据集上实现显着改进。这使得所有测试集的总体 F1 分数提高了 5.7。此外，我们的模型对两种类型的对抗性攻击表现出显着增强的鲁棒性，与默认模型相比，性能仅下降约三分之一。

平衡尺度：解决二元分类中类别不平衡的综合研究

分类： 机器学习, 人工智能, 机器学习, I.2.6; I.5.1; I.5.2; I.2.m

作者： Mohamed Abdelhamid, Abhyuday Desai

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19751v1

摘要： 二元分类任务中的类别不平衡仍然是机器学习中的一个重大挑战，通常会导致少数类别的表现不佳。本研究全面评估了三种广泛使用的处理类别不平衡的策略：合成少数过采样技术（SMOTE）、类别权重调整和决策阈值校准。我们将这些方法与 15 个不同的机器学习模型和来自不同领域的 30 个数据集的无干预基线场景进行比较，总共进行了 9,000 次实验。尽管我们的研究还跟踪了其他 9 个指标的结果，包括 F2 分数、精确度、召回率、Brier 分数、PR-AUC 和 AUC，但主要使用 F1 分数评估表现。我们的结果表明，所有三种策略通常都优于基线，其中决策阈值校准成为最一致有效的技术。然而，我们观察到跨数据集表现最佳的方法存在很大差异，这凸显了针对特定问题测试多种方法的重要性。这项研究为处理不平衡数据集的从业者提供了宝贵的见解，并强调在评估类不平衡处理技术时需要进行特定于数据集的分析。

PEAR：与位置嵌入无关的注意力重新加权增强了检索增强生成，且推理开销为零

分类： 计算和语言, 人工智能

作者： Tao Tan, Yining Qian, Ang Lv, Hongzhan Lin, Songhao Wu, Yongbo Wang, Feng Wang, Jingtong Wu, Xin Lu, Rui Yan

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19745v1

摘要： 通过检索增强生成 (RAG) 增强的大型语言模型 (LLM) 引入了一种新的网络搜索范式。然而，大语言模型有限的情境意识降低了他们在 RAG 任务上的表现。现有的增强上下文感知的方法通常效率低下，在推理过程中会产生时间或内存开销，并且许多方法都是针对特定位置嵌入而定制的。在本文中，我们提出了位置嵌入不可知的注意力重新加权（PEAR），它以零推理开销增强了 LLM 的上下文感知。具体来说，在专注于上下文复制的代理任务中，我们首先检测抑制模型上下文感知的头，从而降低 RAG 性能。为了削弱这些头部的影响，我们用可学习的系数重新加权它们的输出。 LLM（具有冻结参数）通过调整这些系数来优化，以最大限度地减少代理任务的损失。因此，系数被优化为小于 1 的值，从而降低了它们抑制 RAG 性能的趋势。在推理过程中，无论手头的具体任务是什么，优化的系数都是固定的，以重新加权这些头。与以前的方法相比，我们提出的 PEAR 具有两个主要优势：(1) 在内存使用或推理时间方面，它引入了零额外推理开销，同时在各种 RAG 任务的准确性和效率方面优于竞争基准。 (2)独立于位置嵌入算法，确保更广泛的适用性。

具有剩余几何增强的基于统一梯度的机器遗忘

分类： 机器学习, 人工智能

作者： Zhehao Huang, Xinwen Cheng, JingHao Zheng, Haoran Wang, Zhengbao He, Tao Li, Xiaolin Huang

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19732v1

摘要： 机器去学习（MU）的出现是为了增强深度神经网络的隐私性和可信度。近似 MU 是一种适用于大型模型的实用方法。我们对近似 MU 的研究从识别最速下降方向开始，将输出 Kullback-Leibler 散度最小化为参数邻域内的精确 MU。这个探测方向分解为三个组成部分：加权遗忘梯度上升、微调保留梯度下降和权重显着性矩阵。这种从欧几里得度量导出的分解涵盖了大多数现有的基于梯度的 MU 方法。然而，由于忽略了输出概率空间的几何结构，遵循欧几里得空间可能会导致次优迭代轨迹。我们建议将不可学习的更新嵌入到由剩余几何体渲染的流形中，并结合来自剩余数据的二阶 Hessian 矩阵。它有助于防止有效忘记学习干扰保留的表现。然而，计算大型模型的二阶 Hessian 矩阵是很棘手的。为了有效地利用 Hessian 调制的优势，我们提出了一种快慢参数更新策略来隐式逼近最新的显着未学习方向。我们的方法不受特定模式的限制，可适应计算机视觉遗忘任务，包括分类和生成。大量的实验验证了我们的功效和效率。值得注意的是，我们的方法使用 DiT 在 ImageNet 上成功执行类遗忘，并使用 DDPM 在 CIFAR-10 上仅用 50 个步骤就忘记了一个类，而之前的方法需要数千个步骤。

用于安全热泵控制的约束强化学习

分类： 机器学习, 人工智能, 系统与控制, 系统与控制

作者： Baohe Zhang, Lilli Frison, Thomas Brox, Joschka Bödecker

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19716v1

摘要： 约束强化学习 (RL) 已成为 RL 中的一个重要研究领域，其中将约束与奖励相结合对于提高各种控制任务的安全性和性能至关重要。在建筑物供暖系统的背景下，在保持居民热舒适度的同时优化能源效率可以直观地表述为一个约束优化问题。然而，用强化学习来解决它可能需要大量数据。因此，准确且多功能的模拟器受到青睐。在本文中，我们提出了一种新颖的建筑模拟器 I4B，它提供了不同用途的接口，并将名为“具有线性平滑对数屏障函数的约束 Soft Actor-Critic”（CSAC-LB）的无模型约束 RL 算法应用于供热优化问题。针对基线算法的基准测试证明了 CSAC-LB 在数据探索、约束满足和性能方面的效率。

InfantCryNet：用于智能分析婴儿哭声的数据驱动框架

分类： 声音, 人工智能, 计算机视觉和模式识别, 机器学习, 音频和语音处理

作者： Mengze Hong, Chen Jason Zhang, Lingxiao Yang, Yuanfeng Song, Di Jiang

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19689v1

摘要： 了解婴儿哭声的含义对于年轻父母照顾新生儿来说是一个重大挑战。背景噪音的存在和标记数据的缺乏给开发能够检测哭泣并分析其根本原因的系统带来了实际挑战。在本文中，我们提出了一种新颖的数据驱动框架“InfantCryNet”来完成这些任务。为了解决数据稀缺的问题，我们采用预先训练的音频模型将先验知识纳入我们的模型中。我们建议使用统计池和多头注意力池技术来更有效地提取特征。此外，还应用知识蒸馏和模型量化来提高模型效率并减小模型尺寸，更好地支持移动设备中的工业部署。对现实数据集的实验证明了所提出的框架的卓越性能，其分类精度比最先进的基线高出 4.4%。模型压缩在不影响性能的情况下有效地将模型大小减少了 7%，在精度仅降低 8% 的情况下减少了高达 28%，为模型选择和系统设计提供了实用的见解。

基于拉曼光谱的网络海洋鱼类生化成分分析的机器学习

分类： 机器学习, 人工智能, 信号处理

作者： Yun Zhou, Gang Chen, Bing Xue, Mengjie Zhang, Jeremy S. Rooney, Kirill Lagutin, Andrew MacKenzie, Keith C. Gordon, Daniel P. Killeen

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19688v1

摘要： 快速准确地检测鱼类中的生化成分是一项至关重要的现实任务，有助于海产品行业中高价值产品的最佳利用和提取。拉曼光谱通过使用机器学习回归模型将拉曼光谱与生化参考数据相关联，为快速、非破坏性地分析鱼类的生化成分提供了一种有前途的解决方案。本文研究了不同的回归模型来解决此任务，并提出了一种新的卷积神经网络（CNN）设计，用于联合预测水、蛋白质和脂质产量。据我们所知，我们是第一个利用 CNN 基于非常小的拉曼光谱数据集来分析鱼类生化成分的成功研究。我们的方法将定制的 CNN 架构与全面的数据准备过程相结合，有效缓解数据极度稀缺带来的挑战。结果表明，我们的 CNN 可以显着优于两种最先进的 CNN 模型和多种传统机器学习模型，为鱼类生化成分的准确和自动化分析铺平道路。

指令嵌入：指令对任务识别的潜在表示

分类： 计算和语言, 人工智能

作者： Yiwei Li, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Xinglin Wang, Boyuan Pan, Heda Wang, Yao Hu, Kan Li

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19680v1

摘要： 指令数据对于提高大型语言模型 (LLM) 的能力以达到人类水平的表现至关重要。 LIMA 最近的研究表明，对齐本质上是一个过程，其中模型利用预先训练的知识和技能，调整指令的交互风格或格式来解决各种任务。因此，对于教学数据来说，最重要的是它所代表的任务，而不是具体的语义和知识信息。指令的潜在表示在一些与指令相关的任务（例如数据选择和演示检索）中发挥作用。然而，它们始终源自文本嵌入，包含影响任务类别表示的整体语义信息。在这项工作中，我们引入了一个新的概念——指令嵌入，并构建了指令嵌入基准（IEB）用于其训练和评估。然后，我们提出了一种基线基于提示的指令嵌入（PIE）方法，使表示更加关注任务。 PIE 以及 IEB 上的其他嵌入方法和两个设计任务的评估证明了其在准确识别任务类别方面的卓越性能。此外，指令嵌入在四个下游任务中的应用展示了其对指令相关任务的有效性和适用性。

查看细节说清楚：通过病理线索驱动的表征学习生成脑 CT 报告

分类： 计算机视觉和模式识别, 人工智能

作者： Chengxin Zheng, Junzhong Ji, Yanzhao Shi, Xiaodan Zhang, Liangqiong Qu

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19676v2

摘要： 脑CT报告的生成对于帮助医生诊断颅脑疾病具有重要意义。最近的研究集中于处理视觉和文本病理特征之间的一致性，以提高报告的连贯性。然而，存在一些挑战：1）冗余视觉表示：3D 扫描中大量不相关的区域会分散模型对显着视觉上下文的注意力。 2）转移的语义表示：有限的医学语料库导致模型难以将学习到的文本表示转移到生成层。本研究引入了病理线索驱动的表示学习（PCRL）模型，以根据病理线索构建跨模式表示，并自然地调整它们以准确生成报告。具体来说，我们从分割区域、病理实体和报告主题的角度构建病理线索，以充分掌握视觉病理模式并学习跨模态特征表示。为了适应文本生成任务的表示，我们通过使用具有任务定制指令的统一大语言模型（LLM）来弥合表示学习和报告生成之间的差距。这些精心设计的指令使大语言模型能够跨任务灵活地进行微调，并顺利地传输用于报告生成的语义表示。实验表明我们的方法优于以前的方法并实现了 SoTA 性能。我们的代码可在“https://github.com/Chauncey-Jheng/PCRL-MRG”获取。

整数二次规划的局部搜索

分类： 人工智能

作者： Xiang He, Peng Lin, Shaowei Cai

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19668v1

摘要： 整数二次规划（IQP）是运筹学中的一个重要问题。局部搜索是解决难题的有力方法，但用于 IQP 求解的局部搜索算法的研究仍处于早期阶段。本文开发了一种用于求解通用 IQP 的高效局部搜索求解器，称为 LS-IQCQP。我们为 IQP 提出了四个新的局部搜索算子，可以处理目标函数、约束或两者中的二次项。此外，还引入了两种模式的局部搜索算法，利用新设计的评分函数来增强搜索过程。在标准 IQP 基准 QPLIB 和 MINLPLIB 上进行实验，将 LS-IQCQP 与几种最先进的 IQP 求解器进行比较。实验结果表明，LS-IQCQP 与最强大的商业求解器 Gurobi 具有竞争力，并且优于其他最先进的求解器。此外，LS-IQCQP还创造了6项QPLIB和MINLPLIB开放实例的新记录。

大型语言模型能否像专业人士一样分析图表？基准、数据集和模型

分类： 计算和语言, 人工智能

作者： Xin Li, Weize Chen, Qizhi Chu, Haopeng Li, Zhaojun Sun, Ran Li, Chen Qian, Yiwei Wei, Zhiyuan Liu, Chuan Shi, Maosong Sun, Cheng Yang

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19667v1

摘要： 从社交网络到生物研究和推荐系统，分析图表的需求在各个领域都无处不在。因此，启用大型语言模型（LLM）处理图形的能力是迈向更高级通用智能的重要一步。然而，当前关于图分析的大语言模型基准要求模型直接对描述图拓扑的提示进行推理，因此仅限于只有几十个节点的小图。相比之下，人类专家通常基于流行的库编写程序来解决任务，因此可以处理不同尺度的图。为此，一个问题自然而然地出现了：大语言模型可以像专业人士一样分析图表吗？在本文中，我们介绍了 ProGraph，这是一个手动制作的基准测试，包含 3 类图形任务。该基准期望基于编程的解决方案，而不是直接对原始输入进行推理。我们的研究结果表明，当前大语言模型的表现并不令人满意，最好的模型仅达到 36% 的准确率。为了弥补这一差距，我们提出了 LLM4Graph 数据集，其中包括爬取的文档和基于 6 个广泛使用的图库的自动生成的代码。通过通过文档检索增强闭源 LLM 并在代码上微调开源 LLM，我们发现其准确性绝对提高了 11-32%。我们的结果强调了大语言模型处理结构化数据的能力仍处于探索之中，并显示了 LLM4Graph 在提高大语言模型图分析能力方面的有效性。基准测试、数据集和增强的开源模型可在 https://github.com/BUPT-GAMMA/ProGraph 上获取。

识别大型语言模型中的知识编辑类型

分类： 计算和语言, 人工智能

作者： Xiaopeng Li, Shangwen Wang, Shezheng Song, Bin Ji, Huijun Liu, Shasha Li, Jun Ma, Jie Yu

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19663v2

摘要： 知识编辑已成为更新大语言模型（LLM）知识的有效技术，近年来引起了越来越多的关注。然而，缺乏有效的措施来防止恶意滥用该技术，这可能导致大语言模型中的有害编辑。这些恶意修改可能会导致大语言模型生成有毒内容，误导用户采取不当行动。面对这一风险，我们引入了一项新任务——知识编辑类型识别（KETI），旨在识别大语言模型中不同类型的编辑，从而在遇到非法编辑时及时向用户发出警报。作为此任务的一部分，我们提出 KETIBench，其中包括涵盖最流行的有毒类型的五种有害编辑，以及一种良性事实编辑。我们开发了四种经典分类模型和三种基于 BERT 的模型作为开源和闭源大语言模型的基线标识符。我们在涉及两种模型和三种知识编辑方法的 42 项试验中的实验结果表明，所有七个基线标识符都实现了良好的识别性能，突出了在大语言模型中识别恶意编辑的可行性。额外的分析表明，标识符的性能独立于知识编辑方法的可靠性，并表现出跨域泛化，从而能够识别来自未知来源的编辑。所有数据和代码均可在 https://github.com/xpq-tech/KETI 中获取。警告：本文包含有毒文本示例。

使用心理测量量表评估和操纵预训练语言模型中的潜在结构

分类： 计算和语言, 人工智能

作者： Maor Reuben, Ortal Slobodin, Aviad Elyshar, Idan-Chaim Cohen, Orna Braun-Lewensohn, Odeya Cohen, Rami Puzis

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19655v1

摘要： 最近在大型语言模型中发现了类人的人格特征，提出了这样的假设：它们的（已知且尚未发现的）偏见符合人类潜在的心理构造。虽然大型对话模型可能会被欺骗来回答心理测量问卷，但由于目前缺乏适当的心理测量方法，因此无法评估数千个经过其他任务训练的更简单变压器的潜在心理结构。在这里，我们展示了如何将标准心理问卷重新表述为自然语言推理提示，并且我们提供了一个代码库来支持任意模型的心理测量评估。我们使用 88 个公开可用的模型作为样本，证明了与人类心理健康相关的结构（包括焦虑、抑郁和连贯感）的存在，这些结构符合人类心理学的标准理论，并显示出类似的相关性和缓解策略。使用心理工具解释和纠正语言模型性能的能力可以促进更可解释、更可控和更值得信赖的模型的开发。

从以自我为中心的交互中奠定 3D 场景可供性

分类： 计算机视觉和模式识别, 人工智能

作者： Cuiyu Liu, Wei Zhai, Yuhang Yang, Hongchen Luo, Sen Liang, Yang Cao, Zheng-Jun Zha

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19650v1

摘要： 接地 3D 场景可供性旨在定位 3D 环境中的交互区域，这对于实体智能体与周围环境的智能交互至关重要。大多数现有方法通过基于静态几何结构和视觉外观将语义映射到 3D 实例来实现这一点。这种被动策略限制了智能体主动感知和参与环境的能力，使其依赖于预定义的语义指令。相比之下，人类通过观察和模仿他人如何与周围环境互动来发展复杂的互动技能。为了赋予模型这样的能力，我们引入了一项新颖的任务：从以自我为中心的交互中建立 3D 场景可供性，其目标是根据以自我为中心的交互视频来识别 3D 场景中相应的可供性区域。这项任务面临着跨多个源的空间复杂性和对齐复杂性的挑战。为了应对这些挑战，我们提出了以自我为中心的交互驱动的 3D 场景可供性基础 (Ego-SAG) 框架，该框架利用交互意图来指导模型关注交互相关的子区域，并通过双向调整来自不同来源的可供性特征。查询解码器机制。此外，我们还引入了以自我为中心的视频 3D 场景功能可供性数据集 (VSAD)，涵盖了广泛的常见交互类型和不同的 3D 环境来支持此任务。 VSAD 上的大量实验验证了所提出任务的可行性和我们方法的有效性。

用于车辆动力学模型估计的微调混合物理信息神经网络

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Shiming Fang, Kaiyan Yu

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19647v1

摘要： 准确的动态建模对于自动驾驶赛车至关重要，尤其是在高速和敏捷的操纵过程中，精确的运动预测对于安全至关重要。传统的参数估计方法面临着局限性，例如依赖初始猜测、劳动密集型拟合程序和复杂的测试设置。另一方面，纯粹数据驱动的机器学习方法很难捕获固有的物理约束，并且通常需要大型数据集才能获得最佳性能。为了应对这些挑战，本文引入了微调混合动力学（FTHD）方法，该方法集成了有监督和无监督的物理信息神经网络（PINN），将基于物理的建模与数据驱动技术相结合。 FTHD 使用较小的训练数据集对预训练的深度动力学模型 (DDM) 进行微调，与 Deep Pacejka 模型 (DPM) 等最先进的方法相比，提供了卓越的性能，并且性能优于原始 DDM。此外，FTHD (EKF-FTHD) 中嵌入了扩展卡尔曼滤波器 (EKF)，可有效管理嘈杂的现实世界数据，确保准确的去噪，同时保留车辆的基本物理特性。所提出的 FTHD 框架通过使用基于 BayesRace 物理的模拟器的规模模拟和 Indy Autonomous Challenge 的全面真实世界实验进行了验证。结果表明，即使数据减少，混合方法也能显着提高参数估计精度，并且优于现有模型。 EKF-FTHD 通过对现实世界数据进行去噪，同时保持物理洞察力来增强稳健性，代表了高速自动驾驶赛车的车辆动力学建模的显着进步。

BadHMP：针对人体运动预测的后门攻击

分类： 计算机视觉和模式识别, 人工智能

作者： Chaohui Xu, Si Wang, Chip-Hong Chang

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19638v1

摘要： 根据过去的观测结果在亚秒级范围内精确预测未来人体运动对于各种安全关键型应用至关重要。迄今为止，只有一项研究检查了人体运动预测对逃避攻击的脆弱性。在本文中，我们提出了 BadHMP，这是第一个专门针对人体运动预测的后门攻击。我们的方法包括通过在骨骼的一只手臂中嵌入局部后门触发器来生成中毒训练样本，使选定的关节保持相对静止或遵循历史时间步长中的预定义运动。随后，将未来序列全局修改为目标序列，并遍历整个训练数据集以选择最适合中毒的样本。我们精心设计的后门触发器和目标保证了中毒样本的平滑性和自然性，使它们足够隐蔽，可以逃避模型训练器的检测，同时保持中毒模型在对未污染序列的预测保真度方面不引人注目。即使中毒样品注射率较低，也可以通过设计的输入序列成功激活目标序列。两个数据集（Human3.6M 和 CMU-Mocap）和两个网络架构（LTD 和 HRI）上的实验结果证明了 BadHMP 的高保真性、有效性和隐秘性。我们的攻击针对微调防御的鲁棒性也得到了验证。

用于剩余使用寿命预测的图神经网络调查：方法、评估和未来趋势

分类： 机器学习, 人工智能

作者： Yucheng Wang, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19629v1

摘要： 剩余使用寿命 (RUL) 预测是预测和健康管理 (PHM) 的一个重要方面，旨在预测系统的未来状态，以便及时维护并防止意外故障。虽然现有的深度学习方法已显示出前景，但它们往往难以充分利用复杂系统固有的空间信息，从而限制了它们在 RUL 预测中的有效性。为了应对这一挑战，最近的研究探索了使用图神经网络 (GNN) 对空间信息进行建模，以实现更准确的 RUL 预测。本文对应用于 RUL 预测的 GNN 技术进行了全面回顾，总结了现有方法并为未来的研究提供了指导。我们首先提出了一种基于 GNN 适应 RUL 预测阶段的新分类法，将方法系统地分为四个关键阶段：图构建、图建模、图信息处理和图读出。通过以这种方式组织该领域，我们强调了 GNN 流程每个阶段的独特挑战和考虑因素。此外，我们对各种最先进的 (SOTA) GNN 方法进行了全面评估，确保实验设置一致以进行公平比较。这种严格的分析对不同方法的优缺点产生了有价值的见解，为该领域的研究人员和从业者提供了实验指南。最后，我们确定并讨论了几个可以进一步推进该领域的有前途的研究方向，强调 GNN 彻底改变 RUL 预测和提高 PHM 策略有效性的潜力。基准测试代码可在 GitHub 中找到：https://github.com/Frank-Wang-oss/GNN\_RUL\_Benchmarking。

调制干预偏好优化 (MIPO)：保持简单，精炼困难

分类： 计算和语言, 人工智能, 机器学习

作者： Cheolhun Jang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17545v2

摘要： 偏好优化方法通常以训练有素的 SFT 模型作为参考模型开始训练。在RLHF和DPO中，在偏好优化过程中使用正则化项来防止策略模型与参考模型的分布偏离太远，从而避免产生异常响应。当参考模型已经与给定数据良好对齐或仅需要轻微调整时，此方法可以生成良好对齐的模型。但是，如果参考模型与给定数据不对齐并且需要与其当前状态存在显着偏差，则正则化项实际上可能会阻碍模型对齐。在本研究中，我们提出\textbf{调制干预偏好优化（MIPO）}来解决这个问题。 MIPO 根据给定数据与参考模型的一致性程度来调整参考模型的干预程度。如果数据一致，则会增加干预，以防止政策模型与参考模型出现显着偏离。相反，如果对准较差，则干扰会减少，以便于进行更广泛的训练。我们在 Alpaca Eval 2.0 和 MT-Bench 中使用 Mistral-7B 和 Llama3-8B 比较 MIPO 和 DPO 的性能。实验结果表明，MIPO 在各种评估场景中始终优于 DPO。

乳房 X 线摄影中对比语言图像预训练的多视图和多尺度对齐

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Yuexi Du, John Onofrey, Nicha C. Dvornek

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18119v1

摘要： 对比语言图像预训练 (CLIP) 在医学图像分析中显示出前景，但需要大量数据和计算资源。由于这些限制，现有的 CLIP 在医学成像中的应用主要集中在胸部 X 射线等具有丰富图像报告数据的模式，而许多其他重要模式尚未得到充分探索。在这里，我们提出将完整的 CLIP 模型首次应用于乳房 X 线摄影，由于标记数据稀缺、感兴趣区域较小的高分辨率图像以及数据不平衡，这提出了重大挑战。我们首先开发一个专门的乳腺X线摄影监督框架，利用其多视图特性。此外，我们设计了一个对称局部对齐模块，以更好地关注高分辨率图像中的细节特征。最后，我们针对使用医学知识预先训练的大型语言模型采用了参数高效的微调方法，以解决数据限制。我们的多视图和多尺度对齐 (MaMA) 方法在两个大型现实世界乳腺 X 线摄影数据集 EMBED 和 RSNA-Mammo 上的三个不同任务上均优于最先进的基线，与最大基线。

无需寻找犀牛即可找到犀牛：利用南非犀牛栖息地的多模态图像进行主动学习

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Lucia Gordon, Nikhil Behari, Samuel Collier, Elizabeth Bondi-Kelly, Jackson A. Killian, Catherine Ressijac, Peter Boucher, Andrew Davies, Milind Tambe

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18104v1

摘要： 地球上许多迷人的巨型动物都受到人类活动的威胁，尤其是犀牛，由于非洲的偷猎危机，犀牛面临灭绝的危险。监测犀牛的活动对于保护犀牛至关重要，但不幸的是事实证明这很困难，因为犀牛难以捉摸。因此，我们不是追踪犀牛，而是提出了一种绘制公共排便地点地图的新方法，称为“垃圾堆”，它提供了有关犀牛空间行为的信息，这对反偷猎、管理和重新引入工作有价值。本文通过构建分类器，在被动和主动学习环境中使用遥感热图像、RGB 和 LiDAR 图像来检测犀牛堆，从而首次绘制犀牛堆位置图。由于数据集中的极端类别不平衡，现有的主动学习方法表现不佳，因此我们设计了 MultimodAL，这是一种主动学习系统，采用排序技术和多模态，通过被动学习模型实现具有竞争力的性能，标签数量减少 94%。因此，当在类似大小的数据集上使用时，我们的方法可以节省超过 76 小时的标记时间。出乎意料的是，我们的垃圾堆地图显示，犀牛垃圾堆并不是随机分布在整个景观中的。相反，它们是聚集在一起的。因此，护林员应针对中等密度高的地区，加强反偷猎工作，符合联合国目标 15.7。

用于卫星组装、集成和测试的人工智能增强现实

分类： 计算机视觉和模式识别, 人工智能, 68T05, 68U20, I.2.1; H.5.2; I.4.8; I.2.10

作者： Alvaro Patricio, Joao Valente, Atabak Dehban, Ines Cadilha, Daniel Reis, Rodrigo Ventura

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18101v1

摘要： 人工智能 (AI) 和增强现实 (AR) 的集成将通过提高精度、最大限度地减少人为错误并提高洁净室环境中的操作效率来改变卫星组装、集成和测试 (AIT) 流程。本文介绍了欧洲航天局 (ESA) 项目“卫星 AIT 中的 AI for AR”的技术描述，该项目结合了实时计算机视觉和 AR 系统，在卫星组装过程中为技术人员提供帮助。该系统利用 Microsoft HoloLens 2 作为 AR 接口，提供上下文感知指令和实时反馈，解决 AIT 工作流程中对象识别和 6D 姿态估计的复杂性。所有AI模型的准确率均超过70%，其中检测模型的准确率超过95%，表现出较高的性能和可靠性。这项工作的一个关键贡献在于有效利用合成数据来训练 AR 应用中的 AI 模型，解决在高度动态的卫星环境中获取真实世界数据集的重大挑战，以及创建用于自动识别的分段任意模型标签 (SAMAL)，有助于对真实数据进行自动注释，速度比人工注释快 20 倍。研究结果证明了人工智能驱动的增强现实系统在自动化关键卫星组装任务方面的功效，为航天工业的未来创新奠定了基础。

EfficientCrackNet：一种轻量级的裂纹分割模型

分类： 计算机视觉和模式识别, 人工智能

作者： Abid Hasan Zim, Aquib Iqbal, Zaid Al-Huda, Asad Malik, Minoru Kuribayash

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18099v1

摘要： 由于强度不均匀性、复杂的拓扑结构、低对比度和噪声背景等固有的复杂性，裂缝检测，特别是路面图像的裂缝检测，在计算机视觉领域提出了巨大的挑战。自动裂缝检测对于维持重要基础设施（包括建筑物、人行道和桥梁）的结构完整性至关重要。现有的轻量级方法经常面临计算效率低下、裂纹模式复杂和背景困难等挑战，导致检测不准确和实际应用不切实际。为了解决这些限制，我们提出了 EfficientCrackNet，这是一种结合了卷积神经网络（CNN）和变压器的轻量级混合模型，用于精确的裂纹分割。 EfficientCrackNet 集成了深度可分离卷积 (DSC) 层和 MobileViT 块来捕获全局和局部特征。该模型采用边缘提取方法（EEM），无需预训练即可实现高效裂纹边缘检测，并采用超轻量子空间注意力模块（ULSAM）来增强特征提取。在三个基准数据集 Crack500、DeepCrack 和 GAPs384 上进行的大量实验表明，与现有轻量级模型相比，EfficientCrackNet 实现了卓越的性能，同时仅需要 0.26M 参数和 0.483 FLOPs (G)。所提出的模型在精度和计算效率之间提供了最佳平衡，优于最先进的轻量级模型，并为现实世界的裂纹分割提供了稳健且适应性强的解决方案。

DiffSSC：使用去噪扩散概率模型完成语义 LiDAR 扫描

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Helin Cao, Sven Behnke

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18092v1

摘要： 感知系统在自动驾驶中发挥着至关重要的作用，它结合了多个传感器和相应的计算机视觉算法。 3D LiDAR 传感器广泛用于捕获车辆周围环境的稀疏点云。然而，由于这些点云的稀疏性和缺乏语义，此类系统很难感知场景中的遮挡区域和间隙。为了应对这些挑战，语义场景完成 (SSC) 在给定原始 LiDAR 测量的情况下联合预测场景中未观察到的几何形状和语义，旨在获得更完整的场景表示。基于扩散模型在图像生成和超分辨率任务中的良好结果，我们提出通过在点和语义空间中分别实现噪声和去噪扩散过程来将其扩展到 SSC。为了控制生成，我们采用语义 LiDAR 点云作为条件输入，并设计局部和全局正则化损失来稳定去噪过程。我们评估了我们在自动驾驶数据集上的方法，我们的方法优于 SSC 的最新方法。

GSON：具有大型多模态模型的基于群组的社交导航框架

分类： 机器人技术, 人工智能

作者： Shangyi Luo, Ji Zhu, Peng Sun, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18084v1

摘要： 随着以人为本的环境中服务机器人和自动驾驶车辆数量的增长，它们的要求不仅仅是导航到目的地。他们还必须考虑动态的社会环境，并确保共享空间中他人的尊重和舒适，这对感知和规划提出了重大挑战。在本文中，我们提出了一种基于群体的社交导航框架 GSON，通过提高大型多模态模型（LMM）的视觉推理能力，使移动机器人能够感知和利用周围的社交群体。对于感知，我们应用视觉提示技术来零样本提取行人之间的社会关系，并将结果与强大的行人检测和跟踪管道相结合，以缓解 LMM 推理速度低的问题。考虑到感知结果，规划系统旨在避免扰乱当前的社会结构。我们采用基于社会结构的中层规划器作为全局路径规划和局部运动规划之间的桥梁，以保留全局背景和反应响应。该方法在涉及复杂社会结构理解和推理的现实移动机器人导航任务上得到了验证。实验结果证明了系统在这些场景中与几个基线相比的有效性。

SKT：将状态感知关键点轨迹与机器人服装操作的视觉语言模型相集成

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18082v1

摘要： 由于服装的多样性和可变形性，自动化服装操作对辅助机器人技术提出了重大挑战。传统方法通常需要为每种服装类型提供单独的模型，这限制了可扩展性和适应性。相比之下，本文提出了一种使用视觉语言模型（VLM）的统一方法来改进各种服装类别的关键点预测。通过解释视觉和语义信息，我们的模型使机器人能够使用单个模型管理不同的服装状态。我们使用先进的模拟技术创建了一个大规模的合成数据集，无需大量的真实数据即可进行可扩展的训练。实验结果表明，基于VLM的方法显着提高了关键点检测精度和任务成功率，为机器人服装操作提供了更灵活和通用的解决方案。此外，这项研究还强调了 VLM 在单一框架内统一各种服装操作任务的潜力，为未来家庭自动化和辅助机器人领域的更广泛应用铺平了道路。

在遵循自然语言指令之前推断人类的意图

分类： 人工智能, 计算和语言, 机器学习

作者： Yanming Wan, Yue Wu, Yiping Wang, Jiayuan Mao, Natasha Jaques

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18073v1

摘要： 为了让人工智能代理对人类有所帮助，它们应该能够遵循自然语言指令来完成人类环境中的日常合作任务。然而，真正的人类指令本质上具有歧义性，因为人类说话者假设对其隐藏的目标和意图有足够的先验知识。标准语言基础和规划方法无法解决此类歧义，因为它们没有将人类内部目标建模为环境中额外的部分可观察因素。我们提出了一个新的框架，即遵循社交和具体推理指令（FISER），旨在在协作具体任务中更好地遵循自然语言指令。我们的框架对人类目标和意图进行明确的推断作为中间推理步骤。我们实现了一组基于 Transformer 的模型，并通过具有挑战性的基准 HandMeThat 对其进行评估。我们凭经验证明，在制定行动计划之前使用社会推理来明确推断人类意图优于纯粹的端到端方法。我们还将我们的实现与强大的基线进行比较，包括在最大的可用预训练语言模型上进行思想链提示，并发现 FISER 在所调查的具体社会推理任务上提供了更好的性能，达到了最先进的水平递给我。

FreeEdit：使用多模式指令进行无掩模基于参考的图像编辑

分类： 计算机视觉和模式识别, 人工智能

作者： Runze He, Kai Ma, Linjiang Huang, Shaofei Huang, Jialin Gao, Xiaoming Wei, Jiao Dai, Jizhong Han, Si Liu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18071v1

摘要： 在图像编辑中引入用户指定的视觉概念非常实用，因为这些概念比基于文本的描述更准确地传达用户的意图。我们提出了 FreeEdit，这是一种实现这种基于参考的图像编辑的新颖方法，它可以根据用户友好的语言指令准确地从参考图像中再现视觉概念。我们的方法利用多模式指令编码器对语言指令进行编码以指导编辑过程。这种定位编辑区域的隐式方式消除了手动编辑蒙版的需要。为了增强参考细节的重建，我们引入了解耦残差参考注意力（DRRA）模块。该模块旨在以残差方式将细节提取器提取的细粒度参考特征集成到图像编辑过程中，而不干扰原始的自注意力。鉴于现有数据集不适合基于参考的图像编辑任务，特别是由于构建包含参考图像的图像三元组的困难，我们使用新开发的两次重画方案策划了一个高质量的数据集 FreeBench。 FreeBench 包含编辑前后的图像、详细的编辑说明以及维护编辑对象身份的参考图像，包括对象添加、替换和删除等任务。通过在FreeBench上进行阶段性训练并进行质量调优，FreeEdit通过便捷的语言指令实现高质量的零镜头编辑。我们进行了大量的实验来评估 FreeEdit 在多种任务类型中的有效性，证明了它相对于现有方法的优越性。该代码可在以下位置获取：https://freeedit.github.io/。

使用概念图进行可视化数据诊断和消除偏差

分类： 计算机视觉和模式识别, 人工智能

作者： Rwiddhi Chakraborty, Yinong Wang, Jialu Gao, Runkai Zheng, Cheng Zhang, Fernando De la Torre

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18055v1

摘要： 当今深度学习模型的广泛成功归功于规模和复杂性显着的广泛数据集的管理。然而，此类模型在训练过程中经常会出现数据固有的偏差，从而导致预测不可靠。因此，诊断和消除数据集偏差是确保模型性能可靠的必要条件。在本文中，我们提出了 CONBIAS，这是一种用于诊断和减轻视觉数据集中概念共现偏差的新颖框架。 CONBIAS 将视觉数据集表示为概念的知识图，从而能够对虚假概念共现进行细致分析，以发现整个数据集中的概念不平衡。此外，我们表明，通过采用一种新颖的基于派系的概念平衡策略，我们可以减轻这些不平衡，从而提高下游任务的性能。大量实验表明，与最先进的方法相比，基于 CONBIAS 增强的平衡概念分布的数据增强提高了跨多个数据集的泛化性能。我们将公开我们的代码和数据。

DualAD：自动驾驶推理的双层规划

分类： 机器人技术, 人工智能

作者： Dingrui Wang, Marc Kaufeld, Johannes Betz

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18053v1

摘要： 我们提出了一种新颖的自动驾驶框架 DualAD，旨在模仿人类在驾驶过程中的推理。 DualAD 包含两层：底层基于规则的运动规划器，用于处理需要最少推理的日常驾驶任务；上层具有基于规则的文本编码器，可将驾驶场景从绝对状态转换为文本描述。然后，该文本由大型语言模型 (LLM) 处理以做出驾驶决策。当检测到潜在危险时，上层会干预底层的决策，模仿人类在危急情况下的推理。闭环实验表明，使用零样本预训练模型的 DualAD 明显优于缺乏推理能力的基于规则的运动规划器。我们的实验还强调了文本编码器的有效性，这大大增强了模型的场景理解。此外，集成的 DualAD 模型随着更强大的大语言模型而得到改进，表明该框架有进一步增强的潜力。我们公开提供代码和基准。

解释解释

分类： 人工智能, 多代理系统, 机器人技术

作者： Sergei Nirenburg, Marjorie McShane, Kenneth W. Goodman, Sanjay Oruganti

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18052v1

摘要： 解释是人们对高风险人工智能系统充满信心的关键。然而，基于机器学习的系统——几乎涵盖了当前所有的人工智能——无法解释，因为它们通常是黑匣子。可解释的人工智能（XAI）运动通过重新定义“解释”来解决这个问题。以人为中心的可解释人工智能（HCXAI）运动识别了用户以解释为导向的需求，但由于其对机器学习的承诺而无法满足这些需求。为了获得在关键领域工作的真人所需的解释，我们必须重新思考如何处理人工智能。我们描述了一种开发认知代理的混合方法，该方法使用基于知识的基础设施，并在适用时通过机器学习获得的数据进行补充。这些代理将充当人类的助手，对人类机器人团队的决策和行动承担最终责任。我们使用演示系统的引擎盖下面板来说明此类代理的解释潜力，在该演示系统中，一组模拟机器人协作完成人类分配的搜索任务。

重温一切：通过图像片段检索进行视觉地点识别

分类： 计算机视觉和模式识别, 人工智能, 信息检索, 机器学习, 机器人技术

作者： Kartik Garg, Sai Shubodh Puligilla, Shishir Kolathaya, Madhava Krishna, Sourav Garg

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18049v1

摘要： 准确识别重访的地点对于实体智能体的定位和导航至关重要。尽管摄像机视点和场景外观存在很大差异，但这要求视觉表示清晰。现有的视觉位置识别管道对“整个”图像进行编码并搜索匹配项。这对匹配从不同相机视角拍摄的同一地点的两幅图像提出了根本性的挑战：“重叠部分的相似性可能会被不重叠部分的不同性所支配”。我们通过编码和搜索“图像片段”而不是整个图像来解决这个问题。我们建议使用开放集图像分割将图像分解为“有意义的”实体（即事物和东西）。这使我们能够创建一种新颖的图像表示形式，作为连接一个片段与其相邻片段的多个重叠子图的集合，称为“超级片段”。此外，为了有效地将这些超级分段编码为紧凑的向量表示，我们提出了一种新颖的特征聚合分解表示。我们表明，检索这些部分表示比典型的基于整个图像的检索具有显着更高的识别召回率。我们基于分段的方法被称为 SegVLAD，它在各种基准数据集上设置了新的最先进的就地识别，同时适用于通用和任务专用图像编码器。最后，我们通过在对象实例检索任务上评估我们的方法来展示我们的方法“重新访问任何东西”的潜力，该任务通过它们的共同目标连接了两个不同的研究领域：视觉位置识别和对象目标导航。识别特定于某个地点的目标对象。源代码：https://github.com/AnyLoc/Revisit-Anything。

HARMONIC：人机团队的认知和控制协作

分类： 机器人技术, 人工智能, 多代理系统

作者： Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18047v1

摘要： 本文提出了一种多机器人规划和协作的新颖方法。我们展示了人机团队中机器人的认知策略，其中结合了元认知、自然语言交流和可解释性。该系统采用 HARMONIC 架构，灵活地集成整个团队的认知和控制能力。我们通过模拟实验评估我们的方法，该实验涉及一组异构机器人（UGV 和无人机）和人类的联合搜索任务。我们详细介绍了系统对复杂的现实场景的处理、具有不同功能的机器人之间的有效动作协调以及自然的人机通信。这项工作表明，机器人推理计划、目标和态度以及为行动和决策提供解释的能力是现实人机协作的重要先决条件。

IFCap：用于零镜头字幕的类图像检索和基于频率的实体过滤

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者： Soeun Lee, Si-Woo Kim, Taewhan Kim, Dong-Jin Kim

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18046v1

摘要： 图像字幕的最新进展探索了纯文本训练方法，以克服配对图像文本数据的局限性。然而，现有的纯文本训练方法经常忽视训练期间使用文本数据与推理期间使用图像之间的模态差距。为了解决这个问题，我们提出了一种称为类图像检索的新颖方法，它将文本特征与视觉相关特征对齐，以缩小模态差距。我们的方法通过设计一个将检索到的标题与输入特征集成的融合模块，进一步提高了生成标题的准确性。此外，我们引入了基于频率的实体过滤技术，可显着提高字幕质量。我们将这些方法集成到一个统一的框架中，我们将其称为 IFCap（$\textbf{I}$mage-like Retrieval 和 $\textbf{F}$requency-based Entity Filtering for Zero-shot $\textbf{Cap} $tioning）。通过广泛的实验，我们简单而强大的方法已经证明了其有效性，与基于纯文本训练的零镜头字幕相比，在图像字幕和视频字幕方面都远远优于最先进的方法。

HARMONIC：解释性认知机器人的框架

分类： 机器人技术, 人工智能, 人机交互, 多代理系统

作者： Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18037v1

摘要： 我们提出了 HARMONIC，一个用于实现认知机器人的框架，它将通用机器人转变为能够进行复杂决策、自然沟通和人类水平解释的值得信赖的队友。该框架支持用于高级决策的战略（认知）层与用于低级控制和执行的战术（机器人）层之间的互操作性。我们描述了该框架的核心功能和我们的初始实现，其中 HARMONIC 部署在参与多机器人搜索和检索任务的模拟 UGV 和无人机上。

大型语言模型中代码的组合难度——概率视角

分类： 人工智能, 计算和语言

作者： Yotam Wolf, Binyamin Rothberg, Dorin Shteyman, Amnon Shashua

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18028v1

摘要： 将大型语言模型 (LLM) 用于代码生成等复杂分析任务的常见做法是在模型的上下文窗口内对整个任务的解决方案进行采样。先前的工作表明，模型上下文（思想链）内的子任务分解有利于解决此类任务。在这项工作中，我们指出了大语言模型在同一上下文窗口中执行多个子任务的能力的限制——上下文中的组合难度，指出了大语言模型多智能体系统中分配分解问题的优势。组合物的硬度通过生成复杂性指标来量化，即采样至少一个正确解决方案所需的 LLM 生成数。我们发现，在相同上下文中解决组合问题的生成复杂度与在多个代理之间分配问题的生成复杂度之间存在差距，该差距随着解决方案的长度呈指数级增长。我们从理论上证明了我们的结果，并从经验上证明了它们。

关于人工智能安全的机器遗忘的对抗性观点

分类： 机器学习, 人工智能, 计算和语言, 密码学和安全

作者： Jakub Łucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tramèr, Javier Rando

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18025v1

摘要： 大型语言模型经过微调可以拒绝有关危险知识的问题，但这些保护措施通常可以被绕过。遗忘方法旨在完全消除模型中的危险功能，并使对手无法访问它们。这项工作从对抗性的角度挑战了遗忘和传统安全培训后之间的根本区别。我们证明，现有的越狱方法（之前被报道对防止遗忘无效），如果仔细应用，是可以成功的。此外，我们开发了各种自适应方法来恢复大多数被认为是未学习的能力。例如，我们表明，对 10 个不相关的示例进行微调或删除激活空间中的特定方向可以恢复使用 RMU（一种最先进的遗忘方法）编辑的模型的最危险功能。我们的研究结果对当前遗忘方法的稳健性提出了挑战，并质疑它们相对于安全培训的优势。

传输解开的表示：弥合合成图像和真实图像之间的差距

分类： 计算机视觉和模式识别, 人工智能

作者： Jacopo Dapueto, Nicoletta Noceti, Francesca Odone

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18017v1

摘要： 开发有意义且有效的表示来分离数据生成机制的基本结构对于表示学习至关重要。然而，由于相关的生成因素、分辨率以及对真实图像标签的访问有限，解缠结表示学习尚未完全显示出其在真实图像上的潜力。特别是后者，我们研究了利用合成数据来学习适用于真实数据的通用解缠结表示的可能性，讨论了微调的效果以及传输后保留了解缠结的哪些属性。我们提供了广泛的实证研究来解决这些问题。此外，我们提出了一种新的可解释的基于干预的指标，来衡量表示中编码因素的质量。我们的结果表明，某种程度的解开，将表示从合成数据转移到真实数据，是可能且有效的。

Role-RL：在线长上下文处理和角色强化学习，帮助不同的大语言模型发挥最佳角色

分类： 人工智能

作者： Lewei He, Tianyu Shi, Pengran Huang, Bingzhi Chen, Qianglong Chen, Jiahui Pan

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18014v1

摘要： 由于其实现复杂性、训练效率和数据稀疏性，具有长上下文处理的大型语言模型（LLM）仍然具有挑战性。为了解决这个问题，当我们处理无限长度的文档时，提出了一种名为在线长上下文处理（OLP）的新范式，这通常发生在各种流媒体的信息接收和组织中，例如自动新闻报道、实时电子直播等。商业和病毒式短视频。而且，在爆发式增长的情况下，当我们试图从众多LLM中选择最合适的LLM时，常常会遇到一个困境，即追求出色的表现、实惠的价格和较短的响应延迟。鉴于此，我们还开发了角色强化学习（Role-RL），根据不同的LLM的实际表现，自动将不同的LLM部署到OLP管道中各自的角色中。在我们的 OLP-MINI 数据集上进行了大量的实验，发现采用 Role-RL 框架的 OLP 达到了 OLP 基准，平均召回率为 93.2%，LLM 成本节省了 79.4%。代码和数据集可在以下网址公开获取：https://anonymous.4open.science/r/Role-RL。

使用大型语言模型控制工业自动化系统

分类： 系统与控制, 人工智能, 人机交互, 多代理系统, 机器人技术, 系统与控制

作者： Yuchen Xia, Nasser Jazdi, Jize Zhang, Chaitanya Shah, Michael Weyrich

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18009v1

摘要： 传统的工业自动化系统需要专门的专业知识来操作和复杂的重新编程以适应新的流程。大型语言模型提供的智能使其更加灵活且易于使用。然而，大语言模型在工业环境中的应用尚未得到充分探索。本文介绍了一个集成大语言模型以实现工业自动化系统端到端控制的框架。该框架的核心是针对工业任务设计的代理系统、结构化的提示方法以及为LLM推理提供实时数据的事件驱动的信息建模机制。该框架为大语言模型提供不同上下文语义级别的实时事件，使他们能够解释信息、生成生产计划并控制自动化系统上的操作。它还支持结构化数据集创建，以便对大语言模型的下游应用程序进行微调。我们的贡献包括正式的系统设计、概念验证实施以及生成用于 LLM 微调和测试的特定任务数据集的方法。这种方法使自动化系统更具适应性，可以响应自发事件，同时允许通过自然语言更轻松地进行操作和配置，从而实现更直观的人机交互。我们在 GitHub 上提供演示视频和详细数据：https://github.com/YuchenXia/LLM4IAS

使用扩散进行联合定位和规划

分类： 机器人技术, 人工智能, 机器学习

作者： L. Lao Beyer, S. Karaman

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17995v1

摘要： 扩散模型已成功应用于机器人问题，例如操纵和车辆路径规划。在这项工作中，我们通过考虑在已知但任意的 2D 环境中联合执行全局定位和路径规划的问题，探索它们在端到端导航（包括感知和规划）中的应用。特别是，我们引入了一种扩散模型，该模型在给定以自我为中心的激光雷达扫描、任意地图和所需目标位置的情况下，在全局参考系中生成无碰撞路径。为此，我们在 SE(2) 的路径空间中实现扩散，并描述如何根据障碍物和传感器观测来调节去噪过程。在我们的评估中，我们表明，所提出的调节技术能够泛化到外观与训练环境有很大不同的真实地图，证明我们的模型准确描述模糊解决方案的能力，并运行广泛的模拟实验，展示我们的模型作为实时、端到端本地化和规划堆栈。

CRoP：上下文相关的鲁棒静态人类感知个性化

分类： 人工智能

作者： Sawinder Kaur, Avery Gump, Jingyu Xin, Yi Xiao, Harshit Sharma, Nina R Benway, Jonathan L Preston, Asif Salekin

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17994v1

摘要： 深度学习和物联网的进步带来了多样化的人类传感应用。然而，受各种因素或环境影响的人类感知的不同模式，由于自然分布变化而对通用神经网络模型的性能提出了挑战。为了解决这个问题，个性化为个人用户定制模型。然而，大多数个性化研究忽视了感知数据中用户内部的异质性，限制了用户内部的普遍性。这种限制在临床应用中尤其重要，因为有限的数据可用性阻碍了普遍性和个性化。值得注意的是，用户内部的感知属性预计会因治疗进展等外部因素而发生变化，从而使挑战进一步复杂化。这项工作介绍了 CRoP，这是一种新颖的静态个性化方法，使用现成的预训练模型和修剪来优化个性化和普遍化。 CRoP 在四个人类感知数据集（其中两个来自现实世界的健康领域）中显示出卓越的个性化有效性和用户内稳健性，突出了其实际和社会影响。此外，为了支持 CRoP 的泛化能力和设计选择，我们通过梯度内积分析、消融研究以及与最先进基线的比较来提供经验证明。

HydraViT：堆叠头以实现可扩展的 ViT

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Janek Haberer, Ali Hojjat, Olaf Landsiedel

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17978v1

摘要： 视觉变换器（ViTs）的架构，特别是多头注意力（MHA）机制，对硬件提出了很高的要求。在具有不同限制的设备（例如手机）上部署 ViT 需要多种不同尺寸的模型。然而，这种方法有局限性，例如单独训练和存储每个所需的模型。本文介绍了 HydraViT，这是一种通过堆叠注意力头来解决这些限制的新颖方法，以实现可扩展的 ViT。通过在训练期间反复改变每层嵌入维度的大小以及 MHA 中相应的注意力头数量，HydraViT 引入了多个子网络。因此，HydraViT 实现了跨广泛硬件环境的适应性，同时保持性能。我们的实验结果证明了 HydraViT 在实现具有多达 10 个子网的可扩展 ViT 方面的功效，涵盖了广泛的资源限制。 HydraViT 达到 5 p.p.在相同的 GMAC 和高达 7 p.p 的情况下，准确度更高。与基线相比，ImageNet-1K 上相同吞吐量的准确性更高，使其成为硬件可用性多样化或随时间变化的场景的有效解决方案。源代码可在 https://github.com/ds-kiel/HydraViT 获取。

通过对比语言模型的注意力来增强知识学习中难以捉摸的线索

分类： 人工智能

作者： Jian Gao, Xiao Zhang, Ji Wu, Miao Li

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17954v1

摘要： 因果语言模型在预训练过程中从通用文本语料库中获取大量知识，但知识学习的效率并不理想，尤其是在从知识密集且规模较小的语料库中学习时。缺陷可能来自语言模型难以捕获的长距离依赖关系，以及训练文本中共现模式的过度拟合和分散注意力的线索。为了解决这些问题，本文提出了一种在语言模型预训练过程中增强知识学习的方法，通过增强语言模型本身发现的文本中难以捉摸但重要的线索。我们发现，较大的语言模型更关注不明显但重要的线索，而较小的语言模型往往会忽略这些线索。因此，我们可以通过对比大小语言模型的注意力权重来识别这些线索。我们使用识别出的线索作为指导，对训练文本执行 token-dropout 数据增强，并观察到小型和大型模型在事实记忆中的性能都有显着提升。这表明，性能较高和性能较低的语言模型之间的行为对比包含了知识学习的重要线索，并且可以“放大”以直接提高知识学习效率。

通过对比知识蒸馏对大语言模型进行从弱到强的后门攻击

分类： 密码学和安全, 人工智能, 计算和语言

作者： Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17946v1

摘要： 尽管大型语言模型 (LLM) 因其卓越的功能而得到广泛应用，但已被证明容易受到后门攻击。这些攻击通过毒害训练样本和全参数微调，将有针对性的漏洞引入 LLM。然而，这种后门攻击是有限的，因为它们需要大量的计算资源，特别是随着 LLM 规模的增加。此外，参数高效微调（PEFT）提供了一种替代方案，但受限的参数更新可能会阻碍触发器与目标标签的对齐。在本研究中，我们首先验证PEFT后门攻击在实现可行性能方面可能会遇到挑战。为了解决这些问题并提高PEFT后门攻击的有效性，我们提出了一种基于对比知识蒸馏的从弱到强的新型后门攻击算法（W2SAtack）。具体来说，我们通过全参数微调对小规模语言模型进行毒害，以充当教师模型。然后，教师模型通过对比知识蒸馏（使用 PEFT）将后门秘密转移到大规模学生模型中。理论分析表明，W2SAtack 有潜力增强后门攻击的有效性。我们展示了 W2SAtack 在四种语言模型、四种后门攻击算法和两种不同架构的教师模型的分类任务上的卓越性能。实验结果表明，针对 PEFT 的后门攻击成功率接近 100%。

论翻译技术术语：机器翻译首字母缩略词的翻译工作流程

分类： 计算和语言, 人工智能, 机器学习

作者： Richard Yue, John E. Ortega, Kenneth Ward Church

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17943v1

摘要： 专业翻译人员将文档从源语言 (SL) 翻译为目标语言 (TL) 的典型工作流程并不总是关注自然语言处理 (NLP) 中的许多语言模型所做的事情 - 预测一系列单词中的下一个单词的话。据报道，英语和法语等高资源语言使用 BLEU 和 COMET 等通用测量指标可以实现接近人类的同等水平，但我们发现遗漏了一个重要的步骤：技术术语（特别是首字母缩略词）的翻译。一些最先进的机器翻译系统（例如公开可用的谷歌翻译）在处理首字母缩略词时可能会出现错误 - 在我们的研究结果中，错误率高达 50%。本文通过提出 SL-TL (FR-EN) 翻译工作流程的额外步骤来解决 MT 系统的首字母缩写词消歧问题，我们首先提供一个新的首字母缩略词语料库供公众使用，然后尝试基于搜索的阈值算法，该算法可实现近 10与 Google Translate 和 OpusMT 相比增加了 %。

使用深度学习方法从翻译记忆库预测锚定文本以进行机器翻译

分类： 计算和语言, 人工智能, 机器学习

作者： Richard Yue, John E. Ortega

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17939v1

摘要： 翻译记忆库 (TM) 是称为计算机辅助翻译 (CAT) 工具的专业翻译工具的支柱。为了使用 CAT 工具执行翻译，翻译人员使用 TM 收集与所需翻译片段类似的翻译。许多 CAT 工具提供模糊匹配算法来定位 TM 中与 s' 距离较近的片段。找到两个相似片段后，CAT 工具将呈现平行片段 (s, t)，其中包含一个源语言片段及其目标语言翻译。此外，CAT 工具包含模糊匹配修复 (FMR) 技术，该技术将自动使用 TM 中的并行片段来创建新的 TM 条目，其中包含原始版本的修改版本，并考虑到它将是 s' 的翻译。大多数 FMR 技术使用机器翻译作为“修复”那些必须修改的单词的方法。在本文中，我们展示了对于大部分锚定单词，我们可以使用基于机器学习方法的其他技术，例如 Word2Vec。 BERT，甚至 ChatGPT。具体来说，我们表明，对于遵循连续词袋 (CBOW) 范式的锚定词，Word2Vec、BERT 和 GPT-4 可用于实现类似的结果，在某些情况下，比神经机器翻译更好的结果从法语到英语的锚定词。

智能能源管理：由深度学习和物联网组成的剩余使用寿命预测和充电自动化系统

分类： 机器学习, 人工智能, 系统与控制, 系统与控制

作者： Biplov Paneru, Bishwash Paneru, DP Sharma Mainali

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17931v1

摘要： 电池剩余使用寿命（RUL）是了解电池剩余寿命和是否需要充电的重要参数。该研究项目的目标是为电池 RUL 数据集开发基于机器学习的模型。开发了不同的机器学习模型来对车辆的 RUL 进行分类，并模拟 IoT（物联网）概念来实现充电系统的自动化和管理任何故障对齐。绘制的图表描绘了使用 Blynk IoT 平台的各种车辆参数之间的关系。结果表明，所开发的 catboost、多层感知器 (MLP)、门控循环单元 (GRU) 和混合模型可以将 RUL 分为三类，准确率提高 99%。使用 tkinter GUI 馈送数据，用于模拟基于人工智能 (AI) 的充电，并且通过 pyserial 后端，可以将数据输入 Esp-32 微控制器，以便根据模型的预测实现充电放电。此外，借助物联网系统，可以断开、监控和分析充电以实现自动化。结果表明，在MLP模型、catboost模型上可以获得99%的准确度，在GRU模型上也可以获得类似的准确度，最终可以通过用于自动化充电和能量的模型进行预测来进行基于继电器的触发。节约机制。通过展示基于 Blynk 平台的示例性监控和自动化现象，我们进一步展示了监控参数和自动化系统的创新方法。

开创文本到图像知识编辑的可靠评估：利用细粒度数据集和创新标准

分类： 计算和语言, 人工智能

作者： Hengrui Gu, Kaixiong Zhou, Yili Wang, Ruobing Wang, Xin Wang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17928v1

摘要： 在预训练期间，文本到图像 (T2I) 扩散模型将事实知识编码到其参数中。这些参数化的事实可以生成真实的图像，但随着时间的推移它们可能会变得过时，从而歪曲世界的当前状态。知识编辑技术旨在有针对性地更新模型知识。然而，面对编辑数据集不足和评估标准不可靠带来的双重挑战，T2I知识编辑的发展遇到了有效泛化注入知识的困难。在这项工作中，我们设计了一个 T2I 知识编辑框架，全面跨越三个阶段：首先，我们策划一个数据集 \textbf{CAKE}，包括释义和多对象测试，以对知识泛化进行更细粒度的评估。其次，我们提出了一种新颖的标准，\textbf{自适应CLIP阈值}，以在当前标准下有效过滤掉错误的成功图像并实现可靠的编辑评估。最后，我们介绍 \textbf{MPE}，一种简单但有效的 T2I 知识编辑方法。 MPE 无需调整参数，而是精确识别并编辑调节文本提示的过时部分以适应最新知识。 MPE（基于上下文学习）的直接实现比以前的模型编辑器表现出更好的整体性能。我们希望这些努力能够进一步促进对 T2I 知识编辑方法的忠实评估。

通过深度强化学习在简化的城市流程中导航

分类： 人工智能

作者： Federica Tonti, Jean Rabault, Ricardo Vinuesa

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17922v1

摘要： 城市环境中无人机 (UAV) 数量的不断增加需要采取一种策略，在能源效率和降噪方面最大限度地减少其对环境的影响。为了减少这些担忧，需要开发预测模型和优化飞行计划的新策略，例如通过深度强化学习（DRL）。我们的目标是开发能够在城市环境中实现无人机自主导航的 DRL 算法，同时考虑到建筑物和其他无人机的存在，优化轨迹以减少能量消耗和噪音。这是通过流体流动模拟来实现的，流体模拟代表无人机导航的环境，并将无人机训练为与城市环境交互的代理。在这项工作中，我们考虑由带有障碍物的二维流场表示的域，理想情况下代表建筑物，从三维高保真数值模拟中提取。所提出的方法使用 PPO+LSTM 单元，通过重现一个简单但基本的导航问题（即 Zermelo 问题）进行了验证，该问题涉及一艘在湍流中航行的船只，从起点行驶到目标位置，优化弹道。当前的方法相对于简单的 PPO 和 TD3 算法都有显着的改进，PPO+LSTM 训练策略的成功率 (SR) 为 98.7%，崩溃率 (CR) 为 0.1%，优于两者PPO（SR=75.6%，CR=18.6%）和TD3（SR=77.4%，CR=14.5%）。这是迈向 DRL 策略的第一步，该策略将使用实时信号在三维流场中引导无人机，使导航在飞行时间方面高效并避免对车辆造成损坏。

PhantomLiDAR：针对 LiDAR 的跨模态信号注入攻击

分类： 信号处理, 人工智能, 新兴技术, 系统与控制, 系统与控制

作者： Zizhi Jin, Qinhong Jiang, Xuancun Lu, Chen Yan, Xiaoyu Ji, Wenyuan Xu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17907v1

摘要： LiDAR（光检测和测距）是自动驾驶的关键传感器，可提供精确的 3D 空间信息。以往针对激光雷达系统的信号攻击主要利用激光信号。在本文中，我们研究了跨模态信号注入攻击的可能性，即注入故意电磁干扰（IEMI）来操纵激光雷达输出。我们的见解是，激光雷达的内部模块，即激光接收电路、监控传感器和光束控制模块，即使经过严格的电磁兼容性（EMC）测试，仍然可以与 IEMI 攻击信号耦合并导致LiDAR 系统的故障。基于上述攻击面，我们提出了 PhantomLiDAR 攻击，该攻击通过点干扰、点注入、点移除甚至 LiDAR 关机等方式操纵 LiDAR 输出。我们通过在五个 COTS LiDAR 系统上进行的模拟和真实实验来评估和证明 PhantomLiDAR 的有效性。我们还在现实世界的移动场景中进行可行性实验。我们提供可在传感器级别和车辆系统级别实施的潜在防御措施，以减轻与 IEMI 攻击相关的风险。视频演示可以在 https://sites.google.com/view/phantomlidar 上观看。

学会热爱形成性数学评估中的边缘案例：使用 AMMORE 数据集和思维链提示提高评分准确性

分类： 人工智能

作者： Owen Henkel, Hannah Horne-Robinson, Maria Dyshel, Nabil Ch, Baptiste Moreau-Pernet, Ralph Abood

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17904v1

摘要： 本文介绍了 AMMORE，这是一个来自 Rori（多个非洲国家学生使用的学习平台）的 53,000 个数学开放式问答对的新数据集，并进行了两项实验来评估使用大型语言模型 (LLM) 对特别具有挑战性的评分学生回答。 AMMORE 数据集支持各种潜在分析，并为研究学生在未充分研究的现实世界教育背景下的数学习得提供了重要资源。在实验 1 中，我们使用各种 LLM 驱动的方法，包括零样本、少样本和思维链提示，对基于规则的分类器无法准确评分的 1% 的学生答案进行评分。我们发现，效果最好的方法——思想链提示——准确地对这些边缘情况进行了 92% 的评分，有效地将评分的整体准确性从 98.7% 提高到 99.9%。在实验 2 中，我们的目标是通过将基于 LLM 的最佳方法生成的成绩传递给贝叶斯知识追踪 (BKT) 模型（该模型估计学生对特定课程的掌握程度），更好地了解评分准确性提高的相应有效性。我们发现，单个问题级别的模型准确性相对适度的提高可能会导致对学生掌握程度的估计发生重大变化。当前用于对学生进行评分的基于规则的分类器的答案对已完成课程中 6.9% 的学生的掌握状态进行了错误分类，而使用 LLM 思维链方法，这一错误分类率已降至 2.6% 的学生。总而言之，这些发现表明大语言模型可能是对 K-12 数学教育中的开放式问题进行评分的宝贵工具，有可能鼓励在形成性评估中更广泛地采用开放式问题。

通过自我监督表征重新审视情感言语和音乐中的声学相似性

分类： 音频和语音处理, 人工智能, 计算和语言, 多媒体, 声音

作者： Yujia Sun, Zeyu Zhao, Korin Richmond, Yuanchao Li

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17899v1

摘要： 语音和音乐的情感识别由于声学重叠而具有相似之处，这引发了人们对在这些领域之间转移知识的兴趣。然而，鉴于语音和音乐的 SSL 模型很少应用于跨领域研究，语音和音乐之间共享的声学线索，特别是那些由自监督学习 (SSL) 模型编码的线索，在很大程度上仍未得到探索。在这项工作中，我们重新审视情感语音和音乐之间的声学相似性，首先分析语音情感识别 (SER) 和音乐情感识别 (MER) 的 SSL 模型的分层行为。此外，我们通过比较两阶段微调过程中的几种方法来执行跨域适应，研究利用音乐进行 SER 和利用语音进行 MER 的有效方法。最后，我们使用 Frechet 音频距离来探索个体情感的情感语音和音乐之间的声学相似性，揭示语音和音乐 SSL 模型中的情感偏差问题。我们的研究结果表明，虽然语音和音乐 SSL 模型确实捕获了共享的声学特征，但由于其训练策略和领域特殊性，它们的行为可能会根据不同的情绪而变化。此外，参数高效的微调可以通过利用彼此的知识来增强 SER 和 MER 性能。这项研究为情感语音和音乐之间的声学相似性提供了新的见解，并强调了跨领域泛化改进 SER 和 MER 系统的潜力。

为什么公司“民主化”人工智能：开源软件捐赠案例

分类： 计算机与社会, 人工智能, 软件工程

作者： Cailean Osborne

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17876v1

摘要： 当公司向非营利基金会捐赠人工智能开源软件（OSS）或发布人工智能模型等时，他们声称人工智能（AI）“民主化”，但这个术语是什么意思以及他们为什么这样做？随着人工智能对社会和经济的影响不断增强，了解人工智能民主化努力背后的商业激励对于确保这些努力服务于商业议程之外的更广泛利益至关重要。为此，本研究采用混合方法来调查向 Linux 基金会捐赠 43 个 AI OSS 的商业激励措施。它对研究和实践都做出了贡献。它为人工智能民主化的个人和组织的社会、经济和技术激励提供了分类。特别是，它强调了 OSS 项目的治理和控制权民主化（即从一家公司到开放治理）作为下游目标的结构推动者的作用，例如吸引外部贡献者、降低开发成本和影响行业标准等。此外，OSS 捐赠通常受到公司内个人开发人员的支持，这凸显了自下而上的激励措施对人工智能民主化的重要性。该分类法提供了一个框架和工具包，用于识别其他人工智能民主化工作的激励措施，例如人工智能模型的发布。本文最后讨论了未来的研究方向。

DarkSAM：愚弄“分段任何模型”以实现“不分段”

分类： 人工智能

作者： Ziqi Zhou, Yufei Song, Minghui Li, Shengshan Hu, Xianlong Wang, Leo Yu Zhang, Dezhong Yao, Hai Jin

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17874v1

摘要： 分段任意模型（SAM）最近因其对未见过的数据和任务的出色泛化而受到广泛关注。尽管前景广阔，但 SAM 的脆弱性，尤其是普遍对抗性扰动 (UAP) 的脆弱性尚未得到彻底研究。在本文中，我们提出了 DarkSAM，这是第一个针对 SAM 的无提示通用攻击框架，包括基于语义解耦的空间攻击和基于纹理失真的频率攻击。我们首先将 SAM 的输出分为前景和背景。然后，我们设计了阴影目标策略来获取图像的语义蓝图作为攻击目标。 DarkSAM 致力于通过从空间和频率域的图像中提取和破坏关键对象特征来欺骗 SAM。在空间域中，我们破坏图像中前景和背景的语义来混淆 SAM。在频域，我们通过扭曲图像的高频成分（即纹理信息）进一步增强攻击有效性。因此，使用单个 UAP，DarkSAM 使 SAM 无法使用不同的提示来分割不同图像中的对象。 SAM及其两个变体模型的四个数据集的实验结果证明了DarkSAM强大的攻击能力和可迁移性。

GPU 张量核心上大型语言模型的高效任意精度加速

分类： 机器学习, 人工智能, 硬件架构

作者： Shaobo Ma, Chao Fang, Haikuo Shao, Zhongfeng Wang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17870v1

摘要： 大型语言模型（LLM）已得到广泛应用，但在高效推理方面面临挑战。虽然量化方法降低了计算需求，但有限的 GPU Tensor Core 支持和低效的内存管理阻碍了任意精度的超低位量化，导致加速效果不佳。为了应对这些挑战，我们提出了一种针对任意精度大语言模型的综合加速方案。其核心是，我们引入了一种新颖的双极-INT数据格式，该格式有利于并行计算并支持对称量化，有效减少数据冗余。在此基础上，我们实现了一种任意精度矩阵乘法方案，可以在位级别分解和恢复矩阵，从而实现灵活的精度，同时最大限度地提高 GPU Tensor Core 利用率。此外，我们开发了一种有效的矩阵预处理方法，可以优化后续计算的数据布局。最后，我们设计了一个面向数据恢复的内存管理系统，该系统战略性地利用快速共享内存，显着提高内核执行速度并最大限度地减少内存访问延迟。实验结果证明了我们方法的有效性，与 NVIDIA 的 CUTLASS 相比，矩阵乘法的速度提高了 13 倍。当集成到 LLM 中时，我们实现了高达 6.7 倍的推理加速。这些改进显着提高了大语言模型的推理效率，使大语言模型的应用范围更广、反应更灵敏。

实施北欧-波罗的海联邦健康数据网络：案例报告

分类： 计算机与社会, 人工智能, 计算和语言, 机器学习

作者： Taridzo Chomutare, Aleksandar Babic, Laura-Maria Peltonen, Silja Elunurm, Peter Lundberg, Arne Jönsson, Emma Eneling, Ciprian-Virgil Gerstenberger, Troels Siggaard, Raivo Kolde, Oskar Jerdhaf, Martin Hansson, Alexandra Makhlysheva, Miroslav Muzny, Erik Ylipää, Søren Brunak, Hercules Dalianis

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17865v1

摘要： 背景：跨境医疗保健数据的集中收集和处理带来了重大挑战，包括隐私问题、数据异构性和法律障碍。为了应对其中一些挑战，我们成立了一个跨学科联盟，开发一个由五个国家的六个机构组成的联合健康数据网络，以促进北欧-波罗的海在健康数据二次利用方面的合作。本报告的目的是提供对我们开发该网络的经验的早期见解。方法：我们使用混合方法，结合实验设计和实施科学来评估影响我们网络实施的因素。结果：从技术上讲，我们的实验表明，与集中式模拟相比，网络运行时性能没有显着下降。结论：虽然使用跨学科方法有可能解决与建立此类协作网络相关的挑战，但我们的研究结果将焦点转向了不确定的监管环境和巨大的运营成本。

用于冷启动和缺失模态场景推荐的多模态单分支嵌入网络

分类： 信息检索, 人工智能, 机器学习, 多媒体

作者： Christian Ganhör, Marta Moscati, Anna Hausberger, Shah Nawaz, Markus Schedl

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17864v1

摘要： 大多数推荐系统采用协同过滤（CF）并根据过去的集体交互提供推荐。因此，当交互很少或没有交互时，CF 算法的性能会下降，这种情况称为冷启动。为了解决这个问题，以前的工作依赖于利用协作数据和用户或项目的辅助信息的模型。与多模态学习类似，这些模型旨在将协作表示和内容表示结合在共享嵌入空间中。在这项工作中，我们提出了一种多模态推荐的新技术，依赖于多模态单分支嵌入网络进行推荐（SiBraR）。利用权重共享，SiBraR 在不同模态上使用相同的单分支嵌入网络对交互数据以及多模态辅助信息进行编码。这使得 SiBraR 在缺少模态的情况下（包括冷启动）非常有效。我们对来自三个不同推荐领域（音乐、电影和电子商务）的大规模推荐数据集进行了广泛的实验，并提供了多模态内容信息（音频、文本、图像、标签和交互），结果表明 SiBraR 的性能显着优于 CF 以及在冷启动场景中具有最先进的基于内容的RS，并且在热场景中具有竞争力。我们表明，SiBraR 的建议在缺失模态场景中是准确的，并且该模型能够将不同模态映射到共享嵌入空间的同一区域，从而减少模态差距。

航天器姿态传感器多元时间序列中基于机器学习与基于深度学习的异常检测

分类： 机器学习, 人工智能

作者： R. Gallon, F. Schiemenz, A. Krstova, A. Menicucci, E. Gill

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17841v1

摘要： 在航天器故障检测、隔离和恢复 (FDIR) 的框架中，基于人工智能的新方法不断涌现，以克服传统阈值检查通常带来的限制。本研究旨在表征航天器姿态传感器多元时间序列中卡住值检测问题的两种不同方法。分析揭示了两种方法的性能差异，同时评论了它们对不同场景的可解释性和泛化性。

使用因果机制转变检测和测量混杂因素

分类： 人工智能

作者： Abbavaram Gowtham Reddy, Vineeth N Balasubramanian

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17840v1

摘要： 检测和测量数据的混杂效应是因果推理的一个关键挑战。现有方法经常假设因果充分性，而忽略未观察到的混杂变量的存在。因果充分性既不现实，又无法通过经验检验。此外，现有方法对潜在的因果生成过程做出了强有力的参数假设，以保证混杂变量的可识别性。放宽因果充分性和参数假设，并利用因果发现和混杂分析与非独立同分布的最新进展。根据数据，我们提出了一种检测和测量混杂因素的综合方法。我们考虑混杂的各种定义，并引入量身定制的方法来实现三个目标：（i）检测和测量一组变量之间的混杂，（ii）分离观察到的和未观察到的混杂效应，以及（iii）了解之间混杂偏差的相对强度不同的变量集。我们提出了混杂度量的有用属性，并提出了满足这些属性的度量。实证结果支持了理论分析。

作为零样本无损梯度压缩器的语言模型：走向通用神经参数先验模型

分类： 机器学习, 人工智能

作者： Hui-Po Wang, Mario Fritz

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17836v1

摘要： 尽管统计先验模型在各个领域得到广泛使用，但此类神经网络梯度模型长期以来一直被忽视。固有的挑战源于它们的高维结构和复杂的相互依赖性，这使得有效建模变得复杂。在这项工作中，我们展示了大型语言模型（LLM）在零样本设置中充当梯度先验的潜力。我们通过考虑无损梯度压缩（分布式学习中的关键应用）来检查该属性，这在很大程度上取决于精确的概率建模。为了实现这一目标，我们引入了 LM-GC，这是一种将 LLM 与算术编码相结合的新颖方法。我们的技术将普通渐变转换为类似文本的格式，与普通表示相比，令牌效率提高了 38 倍。我们确保这种数据转换与普通梯度的结构和大语言模型普遍认可的符号保持紧密一致。我们的实验表明，LM-GC 超越了现有最先进的无损压缩方法，在各种数据集和架构中将压缩率提高了 10% 至 17.2%。此外，我们的方法显示出与有损压缩技术（例如量化和稀疏化）的良好兼容性。这些发现凸显了大语言模型作为有效处理梯度模型的巨大潜力。我们将在发布后发布源代码。

通过集成值指导进行推理时语言模型对齐

分类： 计算和语言, 人工智能

作者： Zhixuan Liu, Zhanhui Zhou, Yuanfu Wang, Chao Yang, Yu Qiao

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17819v1

摘要： 大型语言模型通常会进行微调以符合人类偏好，但调整大型模型的计算量很大且复杂。在这项工作中，我们引入了 $\textit{Integrated Value Guidance}$ (IVG)，一种使用隐式和显式值函数分别在 token 和 chunk 级别指导语言模型解码的方法，纯粹在推理时有效地对齐大型语言模型。这种方法规避了直接微调的复杂性，并且优于传统方法。根据经验，我们展示了 IVG 在各种任务中的多功能性。在受控情感生成和摘要任务中，我们的方法使用基于 $\texttt{gpt2}$ 的值函数的推理时间指导显着改善了大型模型的对齐。此外，在更具挑战性的指令跟踪基准 AlpacaEval 2.0 中，我们表明，专门调整的和现成的值函数都大大提高了大型模型相对于 $\texttt{gpt-4-turbo}$ 的长度控制获胜率（例如，$19.51% \rightarrow 26.51%$ 对于 $\texttt{Mistral-7B-Instruct-v0.2}$ 和 $25.58% \rightarrow 33.75%$ 对于 $\texttt{Mixtral-8x7B-Instruct-v0 .1}$ 有 Tulu 指导）。

DREAMS：一个 Python 框架，用于训练深度学习模型，并为医疗和健康应用提供模型卡报告

分类： 人工智能

作者： Rabindra Khadka, Pedro G Lind, Anis Yazidi, Asma Belhadi

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17815v1

摘要： 脑电图（EEG）数据为研究人员和临床医生提供了一种实时观察大脑活动的非侵入性方法。深度学习技术与脑电图数据的集成显着提高了识别有意义模式的能力，为临床和研究目的带来了宝贵的见解。然而，到目前为止，大多数为脑电图数据分析而设计的框架要么过于关注预处理，要么过于关注深度学习方法，这使得它们对临床医生和开发者社区的使用都存在问题。此外，诸如伦理考虑、偏见、不确定性以及用于脑电图数据分析的人工智能模型固有的局限性等关键问题经常被忽视，这对负责任地实施这些技术构成了挑战。在本文中，我们介绍了一个专为脑电图数据处理、模型训练和报告生成而定制的综合深度学习框架。虽然以供人工智能开发人员进一步调整和开发的方式构建，但它能够通过模型卡向开发人员和临床医生报告结果和具体使用信息。通过这种方式，我们讨论了该框架在未来如何为临床研究人员和开发人员提供创建透明且负责任的人工智能模型以进行脑电图数据分析和诊断所需的工具。

自监督偏好优化：通过偏好程度意识增强您的语言模型

分类： 计算和语言, 人工智能

作者： Jian Li, Haojing Huang, Yujia Zhang, Pengfei Xu, Xi Chen, Rui Song, Lida Shi, Jingwen Wang, Hao Xu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17791v1

摘要： 最近，人们对用大型语言模型 (LLM) 的人类反馈 (RLHF) 方法取代强化学习中的奖励模型产生了浓厚的兴趣，例如直接偏好优化 (DPO) 及其变体。这些方法通常在成对样本上使用二元交叉熵机制，即分别根据首选或不首选的响应最小化和最大化损失。然而，虽然这种训练策略省略了奖励模型，但它也忽略了不同响应中不同的偏好程度。我们假设这是阻碍大语言模型充分理解人类偏好的关键因素。为了解决这个问题，我们提出了一种新颖的自监督偏好优化（SPO）框架，该框架结合对齐损失构建了自监督偏好程度损失，从而帮助大语言模型提高理解偏好程度的能力。在不同任务的两个广泛使用的数据集上进行了大量的实验。结果表明，SPO 可以与现有的偏好优化方法无缝集成，并显着提高其性能，以实现最先进的性能。我们还进行详细分析，以提供对 SPO 的全面见解，从而验证其有效性。代码可在 https://github.com/lijian16/SPO 获取。

使用 Transformer 和卷积架构并行预测进行眼科生物标志物检测

分类： 人工智能

作者： Md. Touhidul Islam, Md. Abtahi Majeed Chowdhury, Mahmudul Hasan, Asif Quadir, Lutfa Aktar

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17788v1

摘要： 眼科疾病是一个重大的全球健康问题，需要使用先进的精确诊断工具。光学相干断层扫描 (OCT) 图像可提供高分辨率的视网膜横截面图像，已成为眼科的关键成像方式。传统上，医生从此类诊断图像中手动检测各种疾病和生物标志物。近年来，深度学习技术已广泛用于医疗诊断任务，从而实现快速、精确的诊断。本文提出了一种使用卷积神经网络 (CNN) 和 Vision Transformer 组合进行眼科生物标志物检测的新方法。虽然 CNN 适合在图像的局部上下文中提取特征，但 Transformer 因其从图像的全局上下文中提取特征的能力而闻名。综合使用这两种技术使我们能够充分利用这两种技术。我们的方法已在 OLIVES 数据集上实施，从 OCT 图像中检测 6 个主要生物标志物，并显示数据集上的宏观平均 F1 分数显着提高。

通过多模态混合对比学习利用共享关系进行多模态分类

分类： 计算机视觉和模式识别, 人工智能

作者： Raja Kumar, Raghav Singhal, Pranamya Kulkarni, Deval Mehta, Kshitij Jadhav

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17777v1

摘要： 深度多模态学习通过利用对比学习来捕获跨模态的明确的一对一关系，从而取得了显着的成功。然而，现实世界的数据通常表现出超越简单的成对关联的共享关系。我们提出了 M3CoL，一种多模态混合对比学习方法，用于捕获多模态数据中固有的细微共享关系。我们的主要贡献是基于混合的对比损失，它通过将一种模态的混合样本与其他模态的相应样本对齐来学习鲁棒的表示，从而捕获它们之间的共享关系。对于多模态分类任务，我们引入了一个框架，该框架将融合模块与单模态预测模块集成在一起，以在训练期间进行辅助监督，并辅以我们提出的基于 Mixup 的对比损失。通过对不同数据集（N24News、ROSMAP、BRCA 和 Food-101）的广泛实验，我们证明 M3CoL 有效捕获共享的多模态关系并跨领域进行泛化。它在 N24News、ROSMAP 和 BRCA 上的性能优于最先进的方法，同时在 Food-101 上实现了相当的性能。我们的工作强调了学习共享关系对于稳健的多模式学习的重要性，为未来的研究开辟了有希望的途径。

NLP 解释中的忠实性和对抗性敏感性的概念

分类： 计算和语言, 人工智能

作者： Supriya Manna, Niladri Sett

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17774v1

摘要： 忠诚度可以说是评估可解释人工智能可靠性的最关键指标。在自然语言处理中，当前的忠实度评估方法充满了差异和偏差，往往无法捕捉模型的真实推理。我们引入对抗敏感性作为一种新颖的可信度评估方法，重点关注模型受到对抗性攻击时解释者的响应。我们的方法通过捕获对对抗性输入变化的敏感性来解释解释者的忠实度。这项工作解决了现有评估技术的重大局限性，此外，还从一个关键但尚未充分探索的范例中量化了忠实度。

受到攻击的联邦学习：改进批量图像的梯度反转

分类： 密码学和安全, 人工智能

作者： Luiz Leite, Yuri Santo, Bruno L. Dalmazo, André Riker

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17767v1

摘要： 联邦学习 (FL) 已成为一种能够保护用户数据隐私的机器学习方法。应用 FL，客户端在本地数据集上训练机器学习模型，中央服务器聚合来自客户端的学习参数，在不共享用户数据的情况下训练全局机器学习模型。然而，最先进的技术显示了几种促进对 FL 系统攻击的方法。例如，反转或泄漏梯度攻击可以高精度找到 FL 训练阶段使用的本地数据集。本文提出了一种称为反馈混合梯度深度泄漏（DLG-FB）的方法，考虑到通常存在于批量图像中的空间相关性，该方法能够改进反梯度攻击。执行的评估显示，攻击成功率和每个被攻击图像的迭代次数分别提高了 19.18% 和 48.82%。

置信区间揭晓：我们准备好迎接现实世界的医学成像人工智能了吗？

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Evangelia Christodoulou, Annika Reinke, Rola Houhou, Piotr Kalinowski, Selen Erkan, Carole H. Sudre, Ninon Burgos, Sofiène Boutaj, Sophie Loizillon, Maëlys Solal, Nicola Rieke, Veronika Cheplygina, Michela Antonelli, Leon D. Mayer, Minu D. Tizabi, M. Jorge Cardoso, Amber Simpson, Paul F. Jäger, Annette Kopp-Schneider, Gaël Varoquaux, Olivier Colliot, Lena Maier-Hein

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17763v1

摘要： 医学成像正在引领医疗保健的人工智能转型。绩效报告是确定哪些方法应转化为临床实践的关键。通常，广泛的结论只是从平均绩效值中得出的。在本文中，我们认为这种常见做法通常是一种误导性的简化，因为它忽略了性能可变性。我们的贡献是三重的。 (1) 分析 2023 年发表的所有 MICCAI 分割论文（n = 221），我们首先观察到超过 50% 的论文根本没有评估性能变异性。此外，只有一篇 (0.5%) 论文报告了模型性能的置信区间 (CI)。（2）为了解决报告瓶颈，我们表明分割论文中未报告的标准差（SD）可以通过平均 Dice 相似系数（DSC）的二阶多项式函数来近似。基于之前 56 个 MICCAI 挑战赛的外部验证数据，我们证明这种近似可以使用出版物中提供的信息准确地重建方法的 CI。 (3) 最后，我们围绕 MICCAI 2023 分割论文的平均 DSC 重建了 95% CI。中位 CI 宽度为 0.03，比排名第一和第二的方法之间的中位性能差距大三倍。对于超过 60% 的论文，排名第二的方法的平均性能在排名第一的方法的 CI 范围内。我们的结论是，当前的出版物通常没有提供足够的证据来支持哪些模型有可能转化为临床实践。

将层次语义融入蕴涵树解释的迭代生成模型

分类： 计算和语言, 人工智能

作者： Qin Wang, Jianzhou Feng, Yiming Xu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17757v1

摘要： 明显且逻辑地展示从证据到答案的推理路线对于可解释的问答（QA）非常重要。蕴涵树在结构上展现了线条，这与大规模语言模型中的自解释原则不同。现有方法很少考虑树结构内层次结构之间和内部句子的语义关联，这很容易出现明显的组合错误。在这项工作中，我们提出了一种在控制器生成器（HiSCG）框架下集成句子层次语义的架构来解释答案。 HiSCG 设计了假设和事实之间的层次映射，区分树结构中涉及的事实，并优化单步蕴涵。据我们所知，我们是第一个注意到同一层和相邻层之间句子的层次语义以产生改进的人。所提出的方法在 EntailmentBank 数据集的所有三种设置上都实现了可比较的性能。两个域外数据集的泛化结果也证明了我们方法的有效性。

安全：在无意识的情况下进行语义感知的具体对话，以实现机器人的终身学习

分类： 机器人技术, 人工智能, 计算和语言

作者： Rimvydas Rubavicius, Peter David Fagan, Alex Lascarides, Subramanian Ramamoorthy

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17755v1

摘要： 本文讨论了一个具有挑战性的交互式任务学习场景，我们称之为无意识重排：在机器人不知道解决指示任务的关键概念的情况下操纵刚体环境。我们提出了 SECURE，这是一种交互式任务学习框架，旨在通过使用具体对话修复有缺陷的领域模型来解决此类问题。通过对话，机器人发现并学会利用不可预见的可能性。使用 SECURE，机器人不仅可以在犯错误时从用户的纠正反馈中学习，而且还可以学习做出战略对话决策，以揭示有关解决指示任务的新概念的有用证据。这些能力共同使机器人能够利用新获得的知识泛化到后续任务。我们证明，具有语义意识的机器人——也就是说，它在学习和推理过程中利用句子和话语语义的逻辑结果——比缺乏这种能力的机器人更有效地学习在无意识的情况下解决重排问题。

用于保护去中心化联邦学习的拜占庭稳健聚合

分类： 机器学习, 人工智能

作者： Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17754v1

摘要： 联邦学习 (FL) 作为一种分布式机器学习方法出现，通过在设备上本地训练 AI 模型来解决隐私问题。去中心化联合学习 (DFL) 通过消除中央服务器来扩展 FL 范式，从而通过避免单点故障来增强可扩展性和鲁棒性。然而，DFL 在优化安全性方面面临着重大挑战，因为文献中提出的大多数拜占庭鲁棒算法都是为集中式场景设计的。在本文中，我们提出了一种新颖的拜占庭鲁棒聚合算法来增强去中心化联合学习环境的安全性，称为 WFAgg。该提案通过采用多个过滤器来识别和减轻拜占庭攻击，同时处理动态去中心化拓扑的不利条件和强度鲁棒性。实验结果证明了所提出的算法在存在各种拜占庭攻击场景的情况下保持模型准确性和收敛性的有效性，优于最先进的集中式拜占庭鲁棒聚合方案（例如Multi-Krum或Clustering）。这些算法在集中式和分散式场景中针对独立同分布图像分类问题进行评估。

AlterMOMA：具有替代模态掩蔽的相机-LiDAR 融合模型的融合冗余修剪

分类： 计算机视觉和模式识别, 人工智能

作者： Shiqi Sun, Yantao Lu, Ning Liu, Bo Jiang, JinChao Chen, Ying Zhang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17728v1

摘要： 相机-激光雷达融合模型显着增强自动驾驶的感知性能。融合机制利用了每种模式的优点，同时最大限度地减少了它们的缺点。此外，在实践中，相机-激光雷达融合模型利用预先训练的主干网络进行高效训练。然而，我们认为，由于融合机制的性质，直接将单模态预训练相机和 LiDAR 主干加载到相机-LiDAR 融合模型中会引入跨模态的类似特征冗余。不幸的是，现有的剪枝方法是针对单模态模型明确开发的，因此，它们很难有效地识别相机-激光雷达融合模型中的这些特定冗余参数。在本文中，为了解决相机-激光雷达融合模型的上述问题，我们提出了一种新颖的剪枝框架替代模态掩蔽剪枝（AlterMOMA），该框架在每种模态上采用替代掩蔽并识别冗余参数。具体来说，当一种模态参数被屏蔽（停用）时，被屏蔽主干中特征的缺失迫使模型重新激活另一模态主干先前的冗余特征。因此，可以通过重新激活过程来识别这些冗余特征和相关冗余参数。冗余参数可以通过我们提出的重要性评分评估函数替代评估（AlterEva）进行修剪，该函数基于对某些模态参数激活和停用时损失变化的观察。在 nuScene 和 KITTI 数据集上进行的广泛实验（涵盖不同的任务、基线模型和剪枝算法）表明，AlterMOMA 优于现有的剪枝方法，实现了最先进的性能。

使用机器人终生体验的分层表示进行情景记忆语言化

分类： 机器人技术, 人工智能

作者： Leonard Bärmann, Chad DeChant, Joana Plewnia, Fabian Peller-Konrad, Daniel Bauer, Tamim Asfour, Alex Waibel

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17702v1

摘要： 机器人经验的语言化，即对机器人过去的总结和问答，是改善人机交互的关键能力。以前的工作应用基于规则的系统或微调的深度模型来表达短（几分钟长）的情景数据流，限制了泛化和可转移性。在我们的工作中，我们应用大型预训练模型来通过零个或很少的示例来解决这项任务，并特别关注用语言表达一生的经历。为此，我们从情景记忆（EM）中派生出一个树状数据结构，较低级别代表原始感知和本体感觉数据，较高级别将事件抽象为自然语言概念。给定从经验流构建的这种分层表示，我们应用大型语言模型作为代理来交互式搜索给定用户查询的 EM，动态扩展（最初折叠）树节点以查找相关信息。即使扩展到数月的机器人经验数据，该方法也能保持较低的计算成本。我们在模拟家用机器人数据、人类以自我为中心的视频和现实世界的机器人录音上评估我们的方法，证明其灵活性和可扩展性。

MoJE：越狱专家与朴素表格分类器的结合，作为即时攻击的防护

分类： 密码学和安全, 人工智能, 机器学习

作者： Giandomenico Cornacchia, Giulio Zizzo, Kieran Fraser, Muhammad Zaid Hamed, Ambrish Rawat, Mark Purcell

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17699v1

摘要： 大型语言模型 (LLM) 在各种应用程序中的激增凸显了对强大的安全措施来阻止潜在越狱攻击的迫切需要。这些攻击利用了大语言模型内的漏洞，危及数据完整性和用户隐私。护栏是针对此类威胁的重要保护机制，但现有模型在检测准确性和计算效率方面往往存在不足。本文主张防止大语言模型越狱攻击的重要性，并强调输入护栏在保护这些模型中的作用。我们推出 MoJE（越狱专家混合体），这是一种新颖的护栏架构，旨在超越现有最先进护栏的当前限制。通过采用简单的语言统计技术，MoJE 擅长检测越狱攻击，同时在模型推理过程中保持最小的计算开销。通过严格的实验，MoJE 展示了卓越的性能，能够在不影响良性提示的情况下检测 90% 的攻击，从而增强了大语言模型针对越狱攻击的安全性。

GPT-4在大学生设计作业评分及反馈中的应用：一项探索性研究

分类： 人工智能, 1.2.6

作者： Qian Huang, Thijs Willems, King Wang Poon

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17698v1

摘要： 本研究旨在调查 GPT-4 是否能够有效地为设计类大学生的作业评分并提供有用的反馈。在设计教育中，作业没有单一的正确答案，通常涉及解决开放式设计问题。设计项目的这种主观性质经常会导致评分问题，因为不同的评分者之间的评分可能会有所不同，例如来自工程背景或建筑背景的讲师。本研究采用迭代研究方法来开发定制 GPT，目的是获得更可靠的结果，并测试它是否能为设计专业的学生提供建设性的反馈。研究结果包括：首先，通过几轮迭代，GPT 和人类评分者之间的相互可靠性达到了教育工作者普遍接受的水平。这表明，通过为GPT提供准确的提示，并不断迭代构建自定义GPT，可以有效地对学生的设计作业进行评分，成为人类评分者的可靠补充。其次，GPT不同时间评分的内部信度在0.65到0.78之间。这表明，在充分的指导下，自定义 GPT 可以给出一致的结果，这是对学生进行评分的前提条件。由于一致性和可比性是确保教育评估可靠性的两个主要规则，因此本研究着眼于是否可以开发符合这两个规则的定制 GPT。我们通过测试自定义 GPT 是否可以为学生提供有用的反馈并反思教育工作者如何开发和迭代自定义 GPT 以充当补充评估者来完成本文。

MIO：多模式代币的基础模型

分类： 计算和语言, 人工智能, 机器学习

作者： Zekun Wang, King Zhu, Chunpu Xu, Wangchunshu Zhou, Jiaheng Liu, Yibo Zhang, Jiashuo Wang, Ning Shi, Siyu Li, Yizhi Li, Haoran Que, Zhaoxiang Zhang, Yuanxing Zhang, Ge Zhang, Ke Xu, Jie Fu, Wenhao Huang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17692v1

摘要： 在本文中，我们介绍了 MIO，这是一种基于多模态令牌构建的新型基础模型，能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。虽然大语言模型（LLM）和多模态大语言模型（MM-LLM）的出现通过其多功能能力推动了通用人工智能的进步，但它们仍然缺乏真正的任意理解和生成。最近，GPT-4o 的发布展示了any-to-any LLM 在复杂的现实世界任务中的巨大潜力，实现了图像、语音和文本的全方位输入和输出。然而，它是闭源的，不支持多模态交错序列的生成。为了解决这一差距，我们提出了 MIO，它使用因果多模态建模对跨四种模态的离散标记的混合进行训练。 MIO 经历了四个阶段的训练过程：(1) 对齐预训练，(2) 交错预训练，(3) 语音增强预训练，(4) 对各种文本、视觉、图像等进行全面监督微调。和演讲任务。我们的实验结果表明，与之前的双模态基线、任意模型基线、甚至特定模态基线相比，MIO 表现出有竞争力的、在某些情况下更优越的性能。此外，MIO 还展示了其任意功能固有的高级功能，例如交错视频文本生成、视觉思维链推理、视觉指南生成、教学图像编辑等。

无需特权信息即可有效消除偏见

分类： 机器学习, 人工智能

作者： Mateo Espinosa Zarlenga, Swami Sankaranarayanan, Jerone T. A. Andrews, Zohreh Shams, Mateja Jamnik, Alice Xiang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17691v1

摘要： 通过经验风险最小化训练的深度神经网络通常会在群体之间表现出显着的性能差异，特别是当群体和任务标签虚假相关时（例如“草地背景”和“奶牛”）。旨在解决此问题的现有偏差缓解方法通常依赖于组标签进行训练或验证，或者需要广泛的超参数搜索。这样的数据和计算要求阻碍了这些方法的实际部署，特别是当数据集太大而无法进行分组注释、计算资源有限并且模型是通过已经很复杂的管道进行训练时。在本文中，我们提出了有针对性的偏差缓解增强（TAB），这是一个简单的无超参数框架，它利用辅助模型的整个训练历史来识别虚假样本，并生成一个组平衡的训练集，从中可以构建鲁棒的模型接受培训。我们表明，TAB 在没有任何组信息或模型选择的情况下改善了最差组的性能，在保持整体准确性的同时优于现有方法。

使用神经集散度的具有一般成本的图形编辑距离

分类： 机器学习, 人工智能

作者： Eeshaan Jain, Indradyumna Roy, Saswat Meher, Soumen Chakrabarti, Abir De

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17687v1

摘要： 图编辑距离 (GED) 根据将一个图转换为另一个图的最小成本编辑序列来衡量两个给定图之间的（不）相似性。然而，GED 的精确计算是 NP-Hard，这最近激发了 GED 估计神经方法的设计。但是，它们没有明确考虑具有不同成本的编辑操作。作为回应，我们提出了 GRAPHEDX，一种神经 GED 估计器，可以处理为四种编辑操作（即边删除、边添加、节点删除和节点添加）指定的一般成本。我们首先将 GED 呈现为包含这四种成本的二次分配问题 (QAP)。然后，我们将每个图表示为一组节点和边嵌入，并使用它们来设计一系列神经集散度代理。我们将每个操作对应的 QAP 术语替换为它们的替代项。计算此类神经集散度需要对齐两个图的节点和边。我们使用 Gumbel-Sinkhorn 排列生成器学习这些对齐方式，另外还确保节点和边对齐彼此一致。此外，这些对齐可以识别节点对之间边缘的存在和不存在。在各种编辑成本设置下对多个数据集进行的实验表明，GRAPHEDX 在预测误差方面始终优于最先进的方法和启发式方法。

小型医疗数据集的聚类潜在空间中的人工数据点生成

分类： 人工智能, 机器学习

作者： Yasaman Haghbin, Hadi Moradi, Reshad Hosseini

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17685v1

摘要： 机器学习的增长趋势之一是数据生成技术的使用，因为机器学习模型的性能取决于训练数据集的数量。然而，在许多医疗应用中，由于资源限制，收集大型数据集具有挑战性，这会导致过度拟合和泛化能力差。本文介绍了一种新方法，即集群潜在空间中的人工数据点生成（AGCL），旨在通过合成数据生成来增强小型医疗数据集的分类性能。 AGCL 框架涉及特征提取、K 均值聚类、基于类分离度量的聚类评估，以及从具有不同类表示的聚类生成合成数据点。该方法利用面部表情数据应用于帕金森病筛查，并在多个机器学习分类器中进行评估。实验结果表明，与基线、GN 和 kNNMTD 相比，AGCL 显着提高了分类精度。 AGCL 在不同情绪的多数投票中取得了最高的总体测试准确率 83.33% 和交叉验证准确率 90.90%，证实了其在增强小数据集方面的有效性。

保留合成表格数据中的逻辑和函数依赖性

分类： 机器学习, 人工智能

作者： Chaithra Umesh, Kristian Schultz, Manjunath Mahendra, Saparshi Bej, Olaf Wolkenhauer

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17684v1

摘要： 属性之间的依赖性是表格数据的一个常见方面。然而，现有的表格数据生成算法在生成合成数据时是否保留这些依赖性还有待探索。除了现有的函数依赖关系概念之外，我们在本文中还介绍了属性之间的逻辑依赖关系概念。此外，我们提供了一种量化表格数据中属性之间的逻辑依赖关系的方法。利用这种方法，我们比较了几种最先进的合成数据生成算法，并测试了它们保留对几个公开可用数据集的逻辑和功能依赖性的能力。我们证明，当前可用的合成表格数据生成算法在生成合成数据集时并不能完全保留函数依赖性。此外，我们还表明一些表格合成数据生成模型可以保留属性间的逻辑依赖关系。我们对最先进技术的回顾和比较揭示了开发特定任务的合成表格数据生成模型的研究需求和机会。

使用 ChatGPT 进行药物处方中的零次和少量命名实体识别和文本扩展

分类： 计算和语言, 人工智能

作者： Natthanaphop Isaradech, Andrea Riedel, Wachiranun Sirikul, Markus Kreuzthaler, Stefan Schulz

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17683v1

摘要： 简介：药物处方通常采用自由文本形式，包括两种语言的混合、本地品牌名称以及各种特殊的格式和缩写。大型语言模型 (LLM) 已显示出根据输入提示生成文本的良好能力。我们使用 ChatGPT 3.5 自动构建和扩展出院摘要中的药物声明，从而使人们和机器更容易解释它们。方法：命名实体识别（NER）和文本扩展（EX）在零次和少次设置中使用不同的提示策略。手动注释和整理了 100 份药物声明。 NER 性能是通过使用严格匹配和部分匹配来衡量的。对于 EX 任务，两位专家通过评估原始语句和扩展语句之间的语义等价性来解释结果。模型性能通过精度、召回率和 F1 分数来衡量。结果：对于 NER，表现最好的提示在测试集中达到了 0.94 的平均 F1 分数。对于 EX，few-shot 提示在其他提示中表现出优越的性能，平均 F1 得分为 0.87。结论：我们的研究表明，使用 ChatGPT 在自由文本药物声明中的 NER 和 EX 任务具有良好的性能。与零样本基线相比，几次样本方法可以防止系统产生幻觉，这在处理安全相关的药物数据时是不可接受的。

解释瓶颈模型

分类： 人工智能, 计算机视觉和模式识别, 机器学习

作者： Shin'ya Yamaguchi, Kosuke Nishida

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17663v1

摘要： 最近基于概念的可解释模型已经成功地通过预定义的概念集提供了有意义的解释。然而，由于用于解释的概念数量有限，对预定义概念的依赖限制了应用。本文提出了一种新颖的可解释深度神经网络，称为解释瓶颈模型（XBM）。 XBM 在没有预定义概念的情况下根据输入生成文本解释，然后利用预先训练的视觉语言编码器-解码器模型根据生成的解释来预测最终任务。为了同时实现目标任务性能和解释质量，我们通过目标任务损失来训练 XBM，并通过从冻结的预训练解码器中蒸馏来惩罚解释解码器的正则化。我们的实验（包括与最先进的概念瓶颈模型的比较）证实，XBM 无需预先定义的概念集即可提供准确且流畅的自然语言解释。代码可在 https://github.com/yshinya6/xbm/ 获取。

基于模糊的方法通过功能近红外光谱预测人类交互

分类： 人工智能, 神经元和认知

作者： Xiaowei Jiang, Liang Ou, Yanan Chen, Na Ao, Yu-Cheng Chang, Thomas Do, Chin-Teng Lin

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17661v1

摘要： 本文介绍了一种基于模糊的注意力（模糊注意力层）机制，这是一种新颖的计算方法，可增强心理学研究中神经模型的可解释性和有效性。所提出的模糊注意力层机制作为神经网络层集成到 Transformer 编码器模型中，以方便通过神经信号分析复杂的心理现象，例如功能性近红外光谱 (fNIRS) 捕获的信号。通过利用模糊逻辑，模糊注意力层能够学习和识别可解释的神经活动模式。此功能解决了使用 Transformer 时的一个重大挑战：在确定哪些特定大脑活动对特定预测最有贡献时缺乏透明度。我们的实验结果表明，参与涉及手持的社交互动的受试者的 fNIRS 数据表明，模糊注意力层不仅学习可解释的神经活动模式，而且还增强了模型性能。此外，学习到的模式可以更深入地了解人际接触和情感交流的神经关联。我们的模型的应用在破译人类社会行为的微妙复杂性方面显示出了巨大的潜力，从而为社会神经科学和心理人工智能领域做出了重大贡献。

分层端到端自动驾驶：纯电动汽车感知与深度强化学习相结合

分类： 人工智能

作者： Siyi Lu, Lei He, Shengbo Eben Li, Yugong Luo, Jianqiang Wang, Keqiang Li

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17659v1

摘要： 端到端自动驾驶提供了传统模块化管道的简化替代方案，将感知、预测和规划集成在一个框架内。虽然深度强化学习 (DRL) 最近在该领域获得了关注，但现有方法往往忽视了 DRL 特征提取和感知之间的关键联系。在本文中，我们通过将 DRL 特征提取网络直接映射到感知阶段来弥补这一差距，从而通过语义分割实现更清晰的解释。通过利用鸟瞰图（BEV）表示，我们提出了一种新颖的基于 DRL 的端到端驾驶框架，该框架利用多传感器输入来构建对环境的统一三维理解。这种基于 BEV 的系统提取关键环境特征并将其转换为 DRL 的高级抽象状态，从而促进更明智的控制。广泛的实验评估表明，我们的方法不仅增强了可解释性，而且在自动驾驶控制任务中显着优于最先进的方法，将碰撞率降低了 20%。

用于声音事件检测自监督学习的基于原型的掩蔽音频模型

分类： 声音, 人工智能, 音频和语音处理

作者： Pengfei Cai, Yan Song, Nan Jiang, Qing Gu, Ian McLoughlin

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17656v1

摘要： 声音事件检测 (SED) 的一个重大挑战是有效利用未标记数据，因为注释成本较高，标记数据的可用性有限。半监督算法依靠标记数据从未标记数据中学习，其性能受到前者的质量和大小的限制。在本文中，我们介绍了基于原型的掩蔽音频模型（PMAM）算法，用于 SED 中的自监督表示学习，以更好地利用未标记数据。具体来说，语义丰富的帧级伪标签是根据基于高斯混合模型（GMM）的原型分布建模构建的。这些伪标签监督基于 Transformer 的掩蔽音频模型的学习，其中采用二元交叉熵损失而不是广泛使用的 InfoNCE 损失，以提供来自不同原型的独立损失贡献，这在多个模型的真实场景中非常重要。标签可能适用于无监督数据框。最后阶段的微调仅使用少量标记数据即可产生性能非常高的 SED 模型。在使用 DESED 任务的同类测试中，我们的方法取得了 62.5% 的 PSDS1 分数，超越了当前最先进的模型，并证明了所提出技术的优越性。

AssistantX：人类协作环境中由大语言模型支持的主动助理

分类： 机器人技术, 人工智能, 多代理系统

作者： Nan Sun, Bo Mao, Yongchang Li, Lumeng Ma, Di Guo, Huaping Liu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17655v1

摘要： 人类居住环境中对智能助手的需求不断增长，推动了自主机器人系统的重大研究。然而，传统的服务机器人和虚拟助手由于动态推理和交互的能力有限，尤其是在需要人类协作时，在执行现实世界的任务时遇到了困难。大型语言模型的最新发展为改进这些系统开辟了新途径，实现更复杂的推理和自然交互功能。在本文中，我们介绍了 AssistantX，这是一种由大语言模型支持的主动助理，旨在在物理办公环境中自主操作。与传统服务机器人不同，AssistantX 利用新颖的多代理架构 PPDR4X，提供先进的推理能力和全面的协作意识。通过有效地弥合虚拟操作和物理交互之间的差距，AssistantX 在管理复杂的现实场景方面展示了强大的性能。我们的评估强调了该架构的有效性，表明 AssistantX 可以响应明确的指令，主动从内存中检索补充信息，并主动寻求团队成员的协作以确保成功完成任务。更多详细信息和视频可以在 https://assistantx-agent.github.io/AssistantX/ 找到。

FactorSim：通过因式分解表示的生成模拟

分类： 人工智能, 机器人技术

作者： Fan-Yun Sun, S. I. Harini, Angela Yi, Yihan Zhou, Alex Zook, Jonathan Tremblay, Logan Cross, Jiajun Wu, Nick Haber

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17652v1

摘要： 根据自然语言输入、用户输入或任务文档生成模拟来训练游戏和机器人中的智能代理，仍然是一个开放式挑战。现有方法侧重于这一挑战的部分内容，例如生成奖励函数或任务超参数。与之前的工作不同，我们引入了 FACTORSIM，它可以根据语言输入生成完整的代码模拟，可用于训练代理。利用编码模拟特有的结构模块化，我们建议使用分解的部分可观察马尔可夫决策过程表示，它允许我们减少生成的每个步骤中的上下文依赖性。为了进行评估，我们引入了一个生成模拟基准，用于评估生成的模拟代码在促进强化学习设置中的零样本迁移方面的准确性和有效性。我们表明，FACTORSIM 在生成有关即时对齐（例如准确性）、零样本传输能力和人工评估的模拟方面优于现有方法。我们还展示了它在生成机器人任务方面的有效性。

用于肿瘤临床操作的数字孪生生态系统

分类： 人工智能, 计算和语言

作者： Himanshu Pandey, Akhil Amod, Shivang, Kshitij Jaggi, Ruchi Garg, Abheet Jain, Vinayak Tantia

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17650v1

摘要： 人工智能 (AI) 和大型语言模型 (LLM) 在彻底改变医疗保健方面具有重大前景，尤其是在临床应用方面。与此同时，对复杂系统进行建模和仿真的数字孪生技术在增强患者护理方面获得了广泛关注。然而，尽管实验临床环境取得了进步，人工智能和数字孪生在简化临床操作方面的潜力在很大程度上仍未得到开发。本文介绍了一种专门为增强肿瘤临床操作而设计的新型数字孪生框架。我们建议整合多个专业数字双胞胎，例如医疗必需品双胞胎、护理导航双胞胎和临床病史双胞胎，以提高工作流程效率并根据每位患者的独特数据为其提供个性化护理。此外，通过综合多个数据源并将其与国家综合癌症网络 (NCCN) 指南保持一致，我们创建了动态癌症护理路径，这是一个不断发展的知识库，使这些数字双胞胎能够提供精确、量身定制的临床建议。

人工智能代表双重关注：确保隐私和战略自我披露

分类： 人工智能, 计算机与社会

作者： Xi Chen, Zhiyang Zhang, Fangkai Yang, Xiaoting Qin, Chao Du, Xi Cheng, Hangxin Liu, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17642v1

摘要： 基于大型语言模型 (LLM) 的人工智能代表越来越多地用来代表用户行事，通过对话界面协助他们完成各种任务。尽管它们具有优势，但人们仍然担心隐私泄露的潜在风险，特别是在涉及社交互动的场景中。虽然现有的研究重点是通过限制人工智能代表对敏感用户信息的访问来保护隐私，但许多社交场景需要披露私人详细信息才能达到预期的结果，因此需要在隐私保护和披露之间取得平衡。为了应对这一挑战，我们进行了一项试点研究，调查用户对各种社会关系和任务场景中人工智能代表的偏好，然后提出一种新颖的人工智能代表系统，该系统能够实现具有隐私意识的自我披露。我们的用户研究表明，拟议的人工智能代表战略性地保护隐私，开创了其在多样化和动态社交互动中的使用。

T3：一种新颖的零样本迁移学习框架，针对目标任务对辅助任务进行迭代训练

分类： 计算和语言, 人工智能

作者： Xindi Tong, Yujin Zhu, Shijian Fan, Liang Xu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17640v1

摘要： 长文本摘要对于有效处理大量信息逐渐变得至关重要，但由于开源训练数据集的不足和上下文细节处理的高要求，对于 GPT 和 LLaMA 系列等大型语言模型 (LLM) 来说仍然具有挑战性。为了解决这个问题，我们设计了一种新颖的零样本迁移学习框架，缩写为T3，在目标任务的辅助任务上迭代训练基线LLM，其中前者应该拥有更丰富的数据资源，并与目标任务共享结构或语义相似性。后者。在实践中，T3以问答为辅助任务来处理长文本摘要任务，并在BBC摘要、NarraSum、FairytaleQA和NLQuAD数据集上进一步验证了其有效性，在ROUGE上的提升高达近14%与三个基线 LLM 相比，BLEU 提高了 35%，Factscore 提高了 16%，展示了其更多辅助目标任务组合的潜力。

P4Q：学习在视觉语言模型中提示量化

分类： 计算机视觉和模式识别, 人工智能

作者： Huixin Sun, Runqi Wang, Yanjing Li, Xianbin Cao, Xiaolong Jiang, Yao Hu, Baochang Zhang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17634v1

摘要： 大规模预训练视觉语言模型（VLM）在各种视觉和多模态任务中得到了突出的应用，但由于对训练样本和计算资源的要求过高，在下游应用平台上部署 VLM 仍然具有挑战性。 VLM的微调和量化可以大幅降低样本和计算成本，这是迫切需要的。量化有两种流行的范式，量化感知训练（QAT）可以有效地量化大规模VLM，但会产生巨大的训练成本，而低位训练后量化（PTQ）则遭受显着的性能下降。我们提出了一种平衡微调和量化的方法，名为“Prompt for Quantization”（P4Q），其中我们设计了一个轻量级架构，利用对比损失监督来增强 PTQ 模型的识别性能。我们的方法可以有效地减少由低位量化引起的图像特征和文本特征之间的差距，基于可学习的提示来重新组织文本表示和低位适配器来重新调整图像和文本特征的分布。我们还引入了基于余弦相似性预测的蒸馏损失，以使用全精度教师来蒸馏量化模型。大量的实验结果表明，我们的 P4Q 方法优于现有技术，甚至达到了与其全精度同行相当的结果。例如，我们的 8 位 P4Q 理论上可以将 CLIP-ViT/B-32 压缩 4 $\times$，同时达到 66.94% Top-1 精度，比可学习提示微调全精度模型高 2.24% ImageNet 数据集上的附加参数可以忽略不计。

通过交互感知图注意机制进行手部物体重建

分类： 计算机视觉和模式识别, 人工智能

作者： Taeyun Woo, Tae-Kyun Kim, Jinah Park

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17629v1

摘要： 由于对高级视觉计算的需求不断增长，估计手和物体的姿势已成为一个重要的研究领域。主要挑战涉及理解和重建手和物体如何相互作用，例如接触和物理合理性。现有的方法通常采用图神经网络来合并手和物体网格的空间信息。然而，这些方法没有充分利用图的潜力，而无需修改手图和对象图内部和之间的边。我们提出了一种基于图的细化方法，该方法结合了交互感知图注意机制来解释手与物体的交互。使用边，我们在各个图内和不同图之间密切相关的节点之间建立连接。实验证明了我们提出的方法的有效性，在物理合理性领域有了显着的改进。

Neural P$^3$M：几何 GNN 的远程交互建模增强器

分类： 机器学习, 人工智能

作者： Yusong Wang, Chaoran Cheng, Shaoning Li, Yuxuan Ren, Bin Shao, Ge Liu, Pheng-Ann Heng, Nanning Zheng

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17622v1

摘要： 几何图神经网络（GNN）已成为分子几何建模的强大工具。然而，它们在有效捕获大分子系统中的长程相互作用方面遇到了限制。为了应对这一挑战，我们引入了 Neural P$^3$M，这是一种几何 GNN 的多功能增强器，通过将网格点与原子合并并以可训练的方式重新成像传统数学运算来扩展其功能范围。神经 P$^3$M 在广泛的分子系统中表现出灵活性，并在预测能量和力方面表现出卓越的准确性，在 MD22 数据集等基准上表现出色。在与各种架构集成的同时，它还在 OE62 数据集上实现了 22% 的平均改进。

基于狄利克雷的开集注释从粗到细的示例选择

分类： 人工智能

作者： Ye-Wen Wang, Chen-Chen Zong, Ming-Kun Xie, Sheng-Jun Huang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17607v1

摘要： 主动学习（AL）通过从未标记的数据中选择最有价值的示例而取得了巨大的成功。然而，它们通常在涉及开放集噪声的实际场景中恶化，这被作为开放集注释（OSA）进行研究。在本文中，我们将这种恶化归因于基于softmax的平移不变性引起的不可靠预测，并相应地提出了一种基于狄利克雷的粗到细示例选择（DCFS）策略。我们的方法引入了基于单纯形的证据深度学习（EDL），通过同时考虑基于证据的数据和分布不确定性来打破平移不变性并区分已知和未知类别。此外，通过两个分类器头生成的模型差异来识别硬已知类示例，我们分别放大和减轻未知类和已知类的模型差异。最后，我们将差异与不确定性结合起来，形成一个两阶段策略，从已知类别中选择信息最丰富的示例。对各种开放率数据集的大量实验表明，DCFS 实现了最先进的性能。

开放数字版权执行框架 (ODRE)：从描述性政策到可执行政策

分类： 密码学和安全, 人工智能

作者： Andrea Cimmino, Juan Cano-Benito, Raúl García-Castro

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17602v1

摘要： 从集中式平台到分散式生态系统（例如数据空间），共享数据已成为首要挑战。因此，数据使用策略的定义在这些领域变得至关重要，凸显了有效的策略执行机制的必要性。开放数字版权语言（ODRL）是一种W3C标准本体，旨在描述数据使用策略，但它缺乏内置的执行能力，限制了其实际应用。本文介绍了开放数字版权执行（ODRE）框架，其目标是为ODRL提供执行能力。 ODRE 框架提出了一种表达 ODRL 策略的新颖方法，该方法将 ODRL 的描述性本体术语与允许行为规范（例如动态数据处理或功能评估）的其他语言集成。该框架包括 ODRL 策略的执行算法以及 Python 和 Java 中的两个开源实现。 ODRE 框架还旨在支持 ODRL 未来扩展到特定领域场景。此外，还报告了 ODRE、ODRL 的当前局限性和当前的挑战。最后，为了展示实施的执行能力、性能和可扩展性特征，进行了多项实验并取得了积极的结果。

TA-Cleaner：一种用于多模态对比学习的细粒度文本对齐后门防御策略

分类： 计算机视觉和模式识别, 人工智能

作者： Yuan Xun, Siyuan Liang, Xiaojun Jia, Xinwei Liu, Xiaochun Cao

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17601v1

摘要： 用于多模态对比学习的预训练大型模型（例如 CLIP）已被业界广泛认为非常容易受到数据中毒后门攻击。这给下游模型训练带来了重大风险。为了应对此类潜在威胁，与使用增强数据重新训练大型模型相比，微调提供了更简单、更有效的防御选择。在监督学习领域，微调防御策略可以取得优异的防御性能。然而，在无监督和半监督领域，我们发现当CLIP面临一些复杂的攻击技术时，现有的微调防御策略CleanCLIP在防御性能上存在一定的局限性。其文本增强的同义词替换不足以增强文本特征空间。为了弥补这个弱点，我们通过提出一个细粒度的 \textbf{T}ext \textbf{A}lignment \textbf{C}leaner (TA-Cleaner) 来切断后门触发器的特征连接来改进它。我们在 CleanCLIP 的每个 epoch 中随机选择一些样本进行正负潜文本生成，并将潜文本与图像对齐以加强文本自我监督。我们评估了 TA-Cleaner 针对六种攻击算法的有效性，并在 ImageNet1K 上进行了全面的零样本分类测试。我们的实验结果表明，TA-Cleaner 在基于微调的防御技术中实现了最先进的防御能力。即使面对新颖的攻击技术 BadCLIP，我们的 TA-Cleaner 的性能也优于 CleanCLIP，将 Top-1 和 Top-10 的 ASR 分别降低了 52.02% 和 63.88%。

直播视频流的主客观体验质量评估研究

分类： 多媒体, 人工智能, 图像和视频处理

作者： Zehao Zhu, Wei Sun, Jun Jia, Wei Wu, Sibin Deng, Kai Li, Ying Chen, Xiongkuo Min, Jia Wang, Guangtao Zhai

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17596v1

摘要： 近年来，视频直播在各种社交媒体平台上广泛流行。体验质量 (QoE) 反映了最终用户的满意度和整体体验，对于媒体服务提供商优化大规模实时压缩和传输策略以实现感知上最佳的速率失真权衡起着至关重要的作用。尽管已经提出了许多视频点播 (VoD) 的 QoE 指标，但在开发实时视频流的 QoE 指标方面仍然存在重大挑战。为了弥补这一差距，我们对实时视频流的主观和客观 QoE 评估进行了全面研究。对于主观 QoE 研究，我们引入了第一个直播视频流 QoE 数据集，TaoLive QoE，它由从真实直播中收集的 42 美元源视频和由于各种流媒体失真（包括传统流媒体失真）而降级的 1,155 美元相应失真视频组成例如压缩、停顿，以及直播特定的失真，例如跳帧、可变帧速率等。随后，进行了一项人类研究，以得出 TaiLive QoE 数据集中视频的主观 QoE 分数。对于客观的 QoE 研究，我们在 TaiLive QoE 数据集以及 VoD 场景的公开 QoE 数据集上对现有 QoE 模型进行了基准测试，强调当前模型难以准确评估视频 QoE，尤其是直播内容。因此，我们提出了一种端到端的 QoE 评估模型，Tao-QoE，它集成了多尺度语义特征和基于光流的运动特征来预测回顾性 QoE 分数，消除了对统计服务质量 (QoS) 特征的依赖。

深层流形第 1 部分：神经网络流形剖析

分类： 机器学习, 人工智能

作者： Max Y. Ma, Gen-Hua Shi

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17592v1

摘要： 基于数值流形方法原理，我们开发了神经网络流形的数学框架：Deep Manifold，并发现神经网络：1）是正向和逆向相结合的数值计算； 2）具有接近无限的自由度； 3）学习能力随深度呈指数增长； 4）具有自进展边界条件； 5）存在训练隐藏瓶颈。我们还定义了两个概念：神经网络学习空间和深层流形空间，并引入了两个概念：神经网络内在路径和不动点。我们提出三个基本问题：1）。培训完成的定义是什么； 2）。其中是深度学习收敛点（神经网络不动点）； 3）。在给定负时间的情况下，训练数据中的令牌时间戳的重要性在逆问题中至关重要。

通过自我知识指导改进快速对抗训练

分类： 计算机视觉和模式识别, 人工智能

作者： Chengze Jiang, Junkai Wang, Minjing Dong, Jie Gui, Xinli Shi, Yuan Cao, Yuan Yan Tang, James Tin-Yau Kwok

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17589v1

摘要： 对抗性训练在防御对抗性攻击方面取得了显着的进步。其中，快速对抗训练（FAT）因其能够用更少的计算资源实现竞争鲁棒性而受到关注。现有的FAT方法通常采用统一的策略，平等地优化所有训练数据，而不考虑不同示例的影响，这导致优化不平衡。然而，这种不平衡在 FAT 领域仍未得到探索。在本文中，我们对 FAT 中的不平衡问题进行了全面的研究，并观察到他们的表现存在明显的阶级差异。这种差异可以从干净准确度和稳健准确度之间的一致性角度来体现。基于分析，我们主要将观察到的错位和差异归因于 FAT 中的不平衡优化，这促使我们自适应地优化不同的训练数据以增强鲁棒性。具体来说，我们考虑了差异和失调。首先，我们引入自我知识引导的正则化，它根据每个类别的训练状态为每个类别分配不同的正则化权重，从而减轻类别差异。此外，我们提出了自我知识引导的标签松弛，它根据训练精度调整标签松弛，减轻错位并提高鲁棒性。通过结合这些方法，我们制定了自我知识引导 FAT（SKG-FAT），利用训练过程中自然生成的知识来增强对抗鲁棒性，而不影响训练效率。对四个标准数据集的大量实验表明，SKG-FAT 提高了鲁棒性并保持了有竞争力的干净精度，优于最先进的方法。

多模式银行数据集：通过事件序列了解客户需求

分类： 机器学习, 人工智能

作者： Mollaev Dzhambulat, Alexander Kostin, Postnova Maria, Ivan Karpukhin, Ivan A Kireev, Gleb Gusev, Andrey Savchenko

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17587v1

摘要： 金融组织收集大量有关客户的数据，这些数据通常具有时间（顺序）结构，并且是从各种来源（模式）收集的。由于隐私问题，没有大规模的开源事件序列多模态数据集，这极大地限制了该领域的研究。在本文中，我们提出了工业规模的公开多模式银行数据集 MBD，其中包含超过 150 万个具有多种模式的企业客户：9.5 亿笔银行交易、1B 个地理位置事件、500 万个技术支持对话嵌入以及每月汇总购买四家银行的产品。所有条目均根据真实的专有银行数据进行了适当的匿名处理。使用该数据集，我们引入了一个新颖的基准，该基准包含两个业务任务：营销活动（下个月的购买预测）和客户匹配。我们提供的数值结果证明了我们的多模态基线相对于每项任务的单模态技术的优越性。因此，所提出的数据集可以开辟新的视角，并促进实际重要的事件序列大规模多模态算法的未来发展。 HuggingFace 链接：https://huggingface.co/datasets/ai-lab/MBD Github 链接：https://github.com/Dzhambo/MBD

让量子蠕变：通过逐步替换经典组件来设计量子神经网络模型

分类： 量子物理学, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Peiyong Wang, Casey. R. Myers, Lloyd C. L. Hollenberg, Udaya Parampalli

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17583v1

摘要： 人工智能（AI）以其乘数效应和在多个领域的广泛应用，可能成为量子计算的重要应用。由于现代人工智能系统通常建立在神经网络之上，因此量子神经网络的设计成为将量子计算集成到人工智能中的关键挑战。为了更细粒度地描述量子组件对神经网络性能的影响，我们提出了一个框架，其中经典神经网络层逐渐被具有相同类型输入和输出的量子层取代，同时保持量子层的流动。层与层之间的信息保持不变，这与当前量子神经网络的大多数研究不同，后者倾向于端到端的量子模型。我们从一个简单的三层经典神经网络开始，没有任何归一化层或激活函数，并逐渐将经典层更改为相应的量子版本。我们在 MNIST、FashionMNIST 和 CIFAR-10 数据集等图像分类数据集上进行数值实验，以证明系统引入量子组件带来的性能变化。通过这个框架，我们的研究为未来量子神经网络模型的设计提供了新的思路，在这种模型中，寻找利用经典世界和量子世界优势的方法和框架可能会更有利。

使用大型语言模型对 SEC 10-K 文件进行系统分析的可扩展数据驱动框架

分类： 人工智能

作者： Syed Affan Daimi, Asma Iqbal

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17581v1

摘要： 在纽约证券交易所上市的公司数量呈指数级增长，这给必须定期监控和评估大量公司的业绩和战略转变的市场分析师、交易员和股东带来了重大挑战。人们越来越需要一种快速、经济高效且全面的方法来评估绩效并有效地检测和比较许多公司的战略变化。我们提出了一种新颖的数据驱动方法，利用大型语言模型 (LLM) 根据 SEC 10-K 文件系统地分析和评估公司的绩效。这些文件提供了有关公司财务业绩和战略方向的详细年度报告，是评估公司健康各个方面（包括信心、环境可持续性、创新和劳动力管理）的丰富数据来源。我们还引入了用于提取和预处理 10-K 文件的自动化系统。该系统可以准确识别和分割 SEC 概述的所需部分，同时还隔离包含公司关键信息的关键文本内容。然后，这些整理的数据将被输入 Cohere 的 Command-R+ LLM，以生成各种绩效指标的定量评级。随后对这些评级进行处理和可视化，以提供可行的见解。然后，所提出的方案在交互式 GUI 上实现，作为运行数据管道和创建可视化的无代码解决方案。该应用程序展示评级结果并提供公司业绩的同比比较。

使用 GraphRAG 增强结构化数据检索：足球数据案例研究

分类： 信息检索, 人工智能, 数据库, H.2; H.3; E.1; E.2

作者： Zahra Sepasdar, Sushant Gautam, Cise Midoglu, Michael A. Riegler, Pål Halvorsen

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17580v1

摘要： 从大型且复杂的数据集中提取有意义的见解提出了重大挑战，特别是在确保检索信息的准确性和相关性方面。传统的数据检索方法（例如顺序搜索和基于索引的检索）在处理复杂且互连的数据结构时通常会失败，从而导致输出不完整或误导性。为了克服这些限制，我们引入了 Structured-GraphRAG，这是一个多功能框架，旨在增强自然语言查询中跨结构化数据集的信息检索。 Structured-GraphRAG 利用多个知识图，以结构化格式表示数据并捕获实体之间的复杂关系，从而实现更细致、更全面的信息检索。这种基于图形的方法通过以结构化格式提供响应来降低语言模型输出中出现错误的风险，从而提高结果的可靠性。我们通过将 Structured-GraphRAG 的性能与最近发布的使用传统检索增强生成的方法进行比较，证明了 Structured-GraphRAG 的有效性。我们的研究结果表明，Structured-GraphRAG 显着提高了查询处理效率并减少了响应时间。虽然我们的案例研究重点关注足球数据，但该框架的设计具有广泛的适用性，为数据分析和增强跨各种结构化领域的语言模型应用程序提供了强大的工具。

GPT博士在校园咨询：了解高等教育学生对大语言模型辅助的心理健康服务的看法

分类： 人机交互, 人工智能

作者： Owen Xingjian Zhang, Shuyao Zhou, Jiayi Geng, Yuhan Liu, Sunny Xun Liu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17572v1

摘要： 为了应对大学生面临的日益严重的心理健康挑战，我们试图了解他们对如何利用人工智能应用，特别是大型语言模型（LLM）来增强他们的心理健康的看法。通过对十名不同的学生进行试点访谈，我们探讨了他们对在五个虚构场景中使用大语言模型的看法：一般信息查询、初步筛选、重塑患者与专家的动态、长期护理和后续护理。我们的研究结果显示，学生对大语言模型的接受程度因情况而异，参与者强调了潜在的好处，例如主动参与和个性化的后续护理，以及担忧，包括培训数据和情感支持的限制。这些见解告诉我们如何设计和实施人工智能技术，以有效支持和增强学生的心理健康，特别是在大语言模型可以补充传统方法的情况下，同时保持同理心并尊重个人偏好。

在多标签分类模型中显示许多标签：对抗性示例的实证研究

分类： 人工智能

作者： Yujiang Liu, Wenjian Luo, Zhijian Chen, Muhammad Luqman Naseem

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17568v1

摘要： 随着深度神经网络（DNN）的快速发展，它们已被应用于众多领域。然而，研究表明 DNN 容易受到对抗性示例的影响，在多标签领域同样如此。为了进一步研究多标签对抗示例，我们引入了一种新型攻击，称为“显示许多标签”。此攻击的目标是最大化分类器预测结果中包含的标签数量。在我们的实验中，我们选择了九种攻击算法，并在“显示许多标签”下评估它们的性能。其中八种攻击算法是从多类环境适应多标签环境的，而其余一种是专门为多标签环境设计的。我们选择 ML-LIW 和 ML-GCN 作为目标模型，并在四个流行的多标签数据集上训练它们：VOC2007、VOC2012、NUS-WIDE 和 COCO。当每种算法显示八种不同场景下的预期标签数量时，我们记录其成功率。实验结果表明，在“显示多个标签”的情况下，迭代攻击的表现明显优于一步攻击。此外，可以显示数据集中的所有标签。

潜在扩散模型的像素空间后训练

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Christina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu, Sam Tsai, Peter Vajda, Zijian He, Jialiang Wang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17565v1

摘要： 近年来，潜在扩散模型（LDM）在图像生成领域取得了重大进展。 LDM 的一大优势是能够在压缩的潜在空间中运行，从而实现更高效的培训和部署。然而，尽管有这些优势，LDM 的挑战仍然存在。例如，据观察，LDM 常常无法完美地生成高频细节和复杂的成分。我们假设这些缺陷的原因之一是 LDM 的所有预训练和后训练都是在潜在空间中完成的，其空间分辨率通常比输出图像低 8 × 8 美元。为了解决这个问题，我们建议在训练后过程中添加像素空间监督，以更好地保留高频细节。实验表明，添加像素空间目标可以在视觉和视觉领域最先进的 DiT 转换器和 U-Net 扩散模型上显着提高监督质量微调和基于偏好的后期训练。质量和视觉缺陷指标，同时保持相同的文本对齐质量。

三点掩蔽

分类： 计算机视觉和模式识别, 人工智能

作者： Jiaming Liu, Linghe Kong, Yue Wu, Maoguo Gong, Hao Li, Qiguang Miao, Wenping Ma, Can Qin

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17547v1

摘要： 现有的3D掩模学习方法在有限数据下遇到性能瓶颈，我们的目标是克服这个限制。在本文中，我们介绍了一种名为 TPM 的三点掩模方案，它作为掩模自动编码器预训练的可扩展框架，以实现 3D 点云的多掩模学习。具体来说，我们通过两个额外的掩模选择（即中掩模和低掩模）来增强基线，因为我们的核心见解是对象的恢复过程可以以多种方式体现。以前的高掩蔽方案侧重于捕获全局表示，但缺乏细粒度的恢复能力，因此生成的预训练权重在微调过程中往往发挥有限的作用。在所提出的 TPM 的支持下，可用的方法可以表现出更灵活和准确的完成能力，使预训练阶段的潜在自动编码器能够考虑单个 3D 对象的多种表示。此外，还提出了一种支持向量机引导的权重选择模块，在微调阶段用最佳权重填充下游网络的编码器参数，最大限度地提高线性精度，并有助于获取新对象的复杂表示。大量实验表明，配备所提出的 TPM 的四个基线在各种下游任务上实现了全面的性能改进。

调制干预偏好优化 (MIPO)：抓住简单，完善困难

分类： 计算和语言, 人工智能, 机器学习

作者： Cheolhun Jang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17545v1

论低秩适应与差分隐私之间的隐含关系

分类： 机器学习, 人工智能, 计算和语言

作者： Saber Malekmohammadi, Golnoosh Farnadi

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17538v1

摘要： 自然语言处理的一个重要方法涉及对通用领域数据进行大规模预训练，然后适应特定任务或领域。随着模型尺寸的增大，对所有参数进行全面微调变得越来越不切实际。为了解决这个问题，人们提出了一些用于语言模型低秩任务适应的方法，例如洛拉和弗洛拉。这些方法保持预训练模型权重固定，并将可训练的低秩分解矩阵合并到变压器架构的某些层（称为适配器）中。与完全微调所有参数相比，这种方法显着减少了下游任务所需的可训练参数的数量。在这项工作中，我们从数据隐私的角度来研究低阶适应。我们从理论上证明，LoRA 和 FLoRA 中使用的低秩自适应相当于将一些随机噪声注入到来自完全微调的适配器参数的批量梯度中，并且我们量化了注入噪声的方差。通过在噪声分布和具有相同方差的高斯分布之间的总变异距离上建立 Berry-Esseen 类型界限，我们表明 LoRA 和 FLoRA 的动态非常接近差分隐私完全微调适配器，这表明这种低秩适应隐式地为微调数据提供了隐私。最后，使用 Johnson-Lindenstrauss 引理，我们表明，当通过梯度裁剪增强时，低秩自适应几乎等同于具有固定噪声尺度的差分私有完全微调适配器。

畅所欲言：只提示自我奖励的在线偏好优化

分类： 人工智能

作者： Ruijie Xu, Zhihan Liu, Yongfei Liu, Shipeng Yan, Zhaoran Wang, Zhi Zhang, Xuming He

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17534v1

摘要： 我们解决了来自人类反馈的在线强化学习（RLHF）的挑战，重点关注自我奖励对齐方法。在在线 RLHF 中，获取反馈需要与环境交互，当使用额外的奖励模型或 GPT-4 API 时，这可能会代价高昂。当前的自我奖励方法在很大程度上依赖于判别器的判断能力，这对于大型模型是有效的，但转移到较小的模型具有挑战性。为了解决这些限制，我们提出了一种新颖的、仅提示的自我奖励在线算法，该算法可以在不依赖判断能力的情况下生成偏好数据集。此外，我们对正例和负例之间的最优性差距采用细粒度的算术控制，在训练的后期阶段生成更多的硬负例，以帮助模型更好地捕捉微妙的人类偏好。最后，我们对两个基础模型 Mistral-7B 和 Mistral-Instruct-7B 进行了广泛的实验，显着提升了参考模型的性能，AlpacaEval 2.0 的长度控制胜率达到了 34.5%。

SimVG：具有解耦多模态融合的视觉基础的简单框架

分类： 计算机视觉和模式识别, 人工智能

作者： Ming Dai, Lingfeng Yang, Yihao Xu, Zhenhua Feng, Wankou Yang

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17531v1

摘要： 视觉接地是一项常见的视觉任务，涉及将描述性句子接地到图像的相应区域。大多数现有方法使用独立的图像文本编码，并应用复杂的手工模块或编码器-解码器架构来进行模态交互和查询推理。然而，在处理复杂的文本表达时，它们的性能显着下降。这是因为前一种范式仅利用有限的下游数据来适应多模态特征融合。因此，只有在文字表达比较简单的情况下才有效。相比之下，鉴于文本表达的广泛多样性和下游训练数据的独特性，现有的从视觉语言上下文中提取多模态内容的融合模块尚未得到充分研究。在本文中，我们提出了一个简单而强大的基于变压器的框架 SimVG，用于视觉基础。具体来说，我们通过利用现有的多模态预训练模型并结合额外的对象标记来促进下游任务和预训练任务的深度集成，将视觉语言特征融合与下游任务解耦。此外，我们在多分支同步学习过程中设计了一种动态权重平衡蒸馏方法，以增强更简单分支的表示能力。该分支仅由轻量级MLP组成，简化了结构并提高了推理速度。在 RefCOCO/+/g、ReferIt、Flickr30K 和 GRefCOCO 6 个广泛使用的 VG 数据集上进行的实验证明了 SimVG 的优越性。最后，所提出的方法不仅提高了效率和收敛速度，而且在这些基准上获得了新的最先进的性能。代码和模型可在 \url{https://github.com/Dmmm1997/SimVG} 获取。

用于辐射松树枝检测和距离测量的无人机立体视觉：集成 SGBM 和分割模型

分类： 计算机视觉和模式识别, 人工智能

作者： Yida Lin, Bing Xue, Mengjie Zhang, Sam Schofield, Richard Green

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17526v1

摘要： 由于放射松树的高度很高且生长环境充满挑战，因此人工修剪辐射松树会带来重大的安全风险。为了解决这些风险，本研究建议开发一种基于无人机的修剪系统，配备专门的修剪工具和立体视觉相机，能够精确检测和修剪树枝。采用YOLO和Mask R-CNN等深度学习算法来确保准确的分支检测，同时集成半全局匹配算法以提供可靠的距离估计。这些技术之间的协同作用有助于精确识别分支位置，并实现高效、有针对性的修剪。实验结果表明，YOLO和SGBM的结合实现使得无人机能够准确地检测树枝并测量它们与无人机的距离。这项研究不仅提高了修剪作业的安全性和效率，而且为农业和林业自动化中无人机技术的进步做出了重大贡献，为环境管理的进一步创新奠定了基础框架。

EAGLE：以自我为中心的聚合语言视频引擎

分类： 计算机视觉和模式识别, 人工智能

作者： Jing Bi, Yunlong Tang, Luchuan Song, Ali Vosoughi, Nguyen Nguyen, Chenliang Xu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17523v1

摘要： 以自我为中心的视频分析的快速发展为从第一人称视角理解人类活动和意图带来了新的见解。尽管取得了这些进展，但动作识别、过程学习和时刻检索等任务的碎片化，加上不一致的注释和孤立的模型开发，阻碍了对视频内容的整体解释。为此，我们引入了 EAGLE（以自我为中心的聚合语言视频引擎）模型和 EAGLE-400K 数据集，以提供集成各种以自我为中心的视频理解任务的统一框架。 EAGLE-400K 是为自我中心视频量身定制的 \textit{first} 大规模指令调整数据集，具有 400K 个不同样本，可增强从活动识别到过程知识学习的广泛任务。此外，EAGLE 是一种强大的视频多模态大语言模型（MLLM），旨在有效捕获空间和时间信息。此外，我们提出了一组评估指标，旨在促进对 MLLM 的全面评估，以实现以自我为中心的视频理解。我们广泛的实验证明了 EAGLE 相对于现有模型的卓越性能，突显了其平衡特定任务理解与整体视频解释的能力。通过 EAGLE，我们的目标是为现实场景中的研究机会和实际应用铺平道路。

使用预先训练的视觉语言模型和黑盒优化进行机器人环境状态识别

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Kento Kawaharazuka, Yoshiki Obinata, Naoaki Kanazawa, Kei Okada, Masayuki Inaba

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17519v1

摘要： 为了让机器人能够在不同的环境中自主导航和操作，它们必须识别环境的状态。另一方面，环境状态识别传统上涉及针对每个要识别的状态定制的不同方法。在这项研究中，我们通过预先训练的大规模视觉语言模型，通过口语对机器人进行统一的环境状态识别。我们应用视觉问答和图像到文本检索，这是视觉语言模型的任务。我们证明，通过我们的方法，不仅可以识别房间门是否打开/关闭，还可以识别透明门是否打开/关闭以及水槽中的水是否在流动，而无需训练神经网络或手动编程。此外，通过基于黑盒优化从准备好的文本集中选择合适的文本，可以提高识别精度。对于每个状态识别，只需要改变文本集及其权重，无需准备多个不同的模型和程序，并且方便源代码和计算机资源的管理。我们通过实验证明了我们方法的有效性，并将其应用于移动机器人 Fetch 的识别行为。

语言模型的多指定检测器水印

分类： 密码学和安全, 人工智能

作者： Zhengan Huang, Gongxian Zeng, Xin Mu, Yu Wang, Yue Yu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17518v1

摘要： 在本文中，我们发起了针对大型语言模型（LLM）的\emph{多指定检测器水印（MDDW）}的研究。该技术允许模型提供者从具有两个关键属性的 LLM 生成带水印的输出：（i）只有特定的（可能是多个）指定的检测器才能识别水印，以及（ii）普通用户的输出质量没有明显的下降。我们形式化了 MDDW 的安全定义，并提出了一个使用多指定验证者签名 (MDVS) 为任何 LLM 构建 MDDW 的框架。认识到 LLM 输出的重大经济价值，我们引入了可索赔性作为 MDDW 的可选安全功能，使模型提供者能够在指定的检测器设置中声明 LLM 输出的所有权。为了支持可索赔的 MDDW，我们提出了一种通用转换，将任何 MDVS 转换为可索赔的 MDVS。我们对 MDDW 方案的实施突出了其相对于现有方法的先进功能和灵活性，以及令人满意的性能指标。

基于数据集蒸馏的非独立同分布数据的混合联邦学习

分类： 机器学习, 人工智能

作者： Xiufang Shi, Wei Zhang, Mincheng Wu, Guangyi Liu, Zhenyu Wen, Shibo He, Tejal Shah, Rajiv Ranjan

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17517v1

摘要： 在联邦学习中，客户端数据的异构性对模型训练的性能有很大影响。此过程中的许多异质性问题是由非独立同分布（Non-IID）数据引起的。本研究重点关注标签分布偏差问题。为了解决这个问题，我们提出了一种名为 HFLDD 的混合联邦学习框架，它集成了数据集蒸馏来生成近似独立且均匀分布（IID）的数据，从而提高模型训练的性能。特别是，我们将客户端划分为异构集群，其中集群内不同客户端之间的数据标签不平衡，而不同集群之间的数据标签平衡。簇头从相应的簇成员收集数据，并与服务器协作进行模型训练。这种训练过程就像传统联邦学习对IID数据的训练过程一样，因此有效地减轻了Non-IID数据对模型训练的影响。此外，我们将我们提出的方法与公共数据集上的典型基线方法进行比较。实验结果表明，当数据标签严重不平衡时，所提出的 HFLDD 在测试精度和通信成本方面都优于基线方法。

使用人工智能技术对尖峰信号数据进行功能分类：综述

分类： 人工智能, 机器学习, 神经元和认知

作者： Danial Sharifrazi, Nouman Javed, Javad Hassannataj Joloudari, Roohallah Alizadehsani, Prasad N. Paradkar, Ru-San Tan, U. Rajendra Acharya, Asim Bhatti

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17516v1

摘要： 如今，人类大脑神经元的活动非常重要。通过分析脑电图 (EEG) 等信号数据来评估神经元行为，这可以为科学家提供有关疾病和人机交互的宝贵信息。研究人员在评估这些信号时面临的困难之一是存在大量尖峰数据。尖峰是信号数据的重要组成部分，可能由于重要的生物标志物或电极运动等物理问题而发生。因此，区分尖峰的类型很重要。从这里开始，尖峰分类概念开始。此前，研究人员手动对尖峰进行分类。手动分类不够精确，因为它涉及广泛的分析。因此，人工智能 (AI) 被引入神经科学，以帮助临床医生正确对尖峰进行分类。这篇综述讨论了人工智能在尖峰分类中的重要性和用途，重点关注神经活动噪声的识别。该任务分为三个主要部分：预处理、分类和评估。介绍了现有方法并确定了它们的重要性。该评论还强调了对更高效算法的需求。主要目标是为未来的研究提供尖峰分类的视角，并提供对所涉及的方法和问题的全面理解。该综述为未来的研究整理了尖峰分类领域的材料。在这项工作中，从不同的数据库中提取了大量的研究。然后使用 PRISMA 相关的研究指南来选择论文。然后，选择基于使用机器学习和深度学习方法进行有效预处理的尖峰分类的研究。

从新闻到预测：将基于 LLM 的时间序列预测中的事件分析与反思相结合

分类： 人工智能

作者： Xinlei Wang, Maike Feng, Jing Qiu, Jinjin Gu, Junhua Zhao

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17515v1

摘要： 本文介绍了一种使用大型语言模型 (LLM) 和生成代理来增强时间序列预测的新方法。以语言为媒介，我们的方法自适应地将各种社会事件集成到预测模型中，使新闻内容与时间序列波动保持一致，以获得丰富的见解。具体来说，我们利用基于 LLM 的代理迭代过滤掉不相关的新闻，并采用类人推理和反思来评估预测。这使得我们的模型能够分析复杂的事件，例如突发事件和社会行为的变化，并不断完善新闻的选择逻辑和代理输出的稳健性。通过使用时间序列数据编译选定的新闻，我们对 LLaMa2 预训练模型进行了微调。结果表明，预测准确性显着提高，并表明通过有效利用非结构化新闻数据，时间序列预测可能发生范式转变。

差分隐私正则化：通过损失函数正则化保护训练数据

分类： 机器学习, 人工智能, 密码学和安全, 神经和进化计算

作者： Francisco Aguilera-Martínez, Fernando Berzal

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17144v1

摘要： 训练基于神经网络的机器学习模型需要大量数据集，其中可能包含敏感信息。然而，模型不应暴露这些数据集中的私人信息。差分私有 SGD [DP-SGD] 需要修改标准随机梯度下降 [SGD] 算法来训练新模型。在这篇简短的论文中，提出了一种新颖的正则化策略，以更有效的方式实现相同的目标。

大视觉语言模型的图像注意力提示

分类： 计算机视觉和模式识别, 人工智能

作者： Runpeng Yu, Weihao Yu, Xinchao Wang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17143v1

摘要： 与大型语言模型（LLM）相比，大型视觉语言模型（LVLM）还可以接受图像作为输入，从而展示出更有趣的涌现能力，并在各种视觉语言任务上展示出令人印象深刻的性能。在大语言模型文本提示的推动下，人们探索了视觉提示来增强大语言模型感知视觉信息的能力。然而，以前的视觉提示技术仅处理视觉输入，而不考虑文本查询，限制了模型遵循文本指令完成任务的能力。为了填补这一空白，在这项工作中，我们提出了一种名为“图像注意力提示”的新提示技术，它只是简单地将文本查询引导的注意力热图叠加在原始输入图像上，并有效增强了各种任务的 LVLM。具体来说，我们使用 CLIP 等辅助模型根据文本查询生成输入图像的注意力热图。然后热图只需乘以原始图像的像素值即可获得 LVLM 的实际输入图像。对各种视觉语言基准的广泛实验验证了我们技术的有效性。例如，图像上的注意力提示在 MM-Vet 和 LLaVA-Wild 基准上分别将 LLaVA-1.5 提高了 3.8% 和 2.9%。

FineZip：突破大型语言模型的极限，实现实用的无损文本压缩

分类： 计算和语言, 人工智能, 机器学习

作者： Fazal Mittu, Yihuan Bu, Akshat Gupta, Ashok Devireddy, Alp Eren Ozdarendeli, Anant Singh, Gopala Anumanchipalli

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17141v1

摘要： 虽然语言建模目标已被证明与压缩密切相关，但令人惊讶的是现代大语言模型并未在实际文本压缩系统中采用。在本文中，我们对神经网络和基于变压器的压缩技术进行了深入分析来回答这个问题。我们将传统文本压缩系统与神经网络和基于 LLM 的文本压缩方法进行比较。尽管基于 LLM 的系统明显优于传统的压缩方法，但它们非常不切实际。具体来说，LLMZip（一种使用 Llama3-8B 的最新文本压缩系统）需要 9.5 天才能压缩 10 MB 的文本，尽管压缩率有了巨大改进。为了克服这个问题，我们提出了 FineZip——一种基于 LLM 的新型文本压缩系统，它结合了在线记忆和动态上下文的思想，可以极大地减少压缩时间。 FineZip 可以在大约 4 小时内压缩上述语料库，而需要 9.5 天，比 LLMZip 和类似性能提高了 54 倍。 FineZip 大幅优于传统算法压缩方法，将压缩率提高约 50%。通过这项工作，我们向大语言模型实现无损文本压缩迈出了第一步。虽然 FineZip 朝着这个方向迈出了重要一步，但大语言模型仍然不是大规模文本压缩的可行解决方案。我们希望我们的工作为未来解决这一问题的研究和创新铺平道路。

将每个应用程序变成一个代理：通过基于 API 优先的 LLM 代理实现高效的人机交互

分类： 人工智能

作者： Junting Lu, Zhiyang Zhang, Fangkai Yang, Jue Zhang, Lu Wang, Chao Du, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17140v1

摘要： 多模态大语言模型 (MLLM) 使基于 LLM 的代理能够直接与应用程序用户界面 (UI) 交互，从而提高代理在复杂任务中的性能。然而，由于大量的顺序 UI 交互，这些代理通常会遇到高延迟和低可靠性的问题。为了解决这个问题，我们提出了 AXIS，这是一种基于 LLM 的新颖代理框架，优先考虑通过应用程序编程接口 (API) 进行的操作，而不是 UI 操作。该框架还通过自动探索应用程序来促进 API 的创建和扩展。我们在 Office Word 上的实验表明，与人类相比，AXIS 将任务完成时间减少了 65%-70%，认知工作量减少了 38%-53%，同时保持了 97%-98% 的准确度。我们的工作为大语言模型时代的应用程序提供商提供了新的人机交互 (HACI) 框架和全新的 UI 设计原则。它还探索了将每个应用程序转变为代理的可能性，为以代理为中心的操作系统（Agent OS）铺平了道路。

Blox-Net：使用 VLM 监督、物理模拟和具有重置功能的机器人进行机器人装配生成式设计

分类： 机器人技术, 人工智能, 机器学习

作者： Andrew Goldberg, Kavish Kondap, Tianshuang Qiu, Zehan Ma, Letian Fu, Justin Kerr, Huang Huang, Kaiyuan Chen, Kuan Fang, Ken Goldberg

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17126v1

摘要： 生成式人工智能系统在创建文本、代码和图像方面表现出了令人印象深刻的能力。受到工业“装配设计”丰富研究历史的启发，我们引入了一个新问题：机器人装配生成设计（GDfRA）。任务是根据自然语言提示（例如“长颈鹿”）和可用物理组件（例如 3D 打印块）的图像生成组件。输出是一个装配体、这些组件的空间排列以及机器人构建该装配体的指令。输出必须 1) 类似于所需的物体，2) 由带有吸力夹具的 6 DoF 机器人臂可靠地组装。然后，我们介绍了 Blox-Net，这是一个 GDfRA 系统，它将生成视觉语言模型与计算机视觉、模拟、扰动分析、运动规划和物理机器人实验中的成熟方法相结合，以最少的人类监督来解决一类 GDfRA 问题。 Blox-Net 在其设计的组件的“可识别性”方面达到了 63.5% 的 Top-1 准确度（例如，通过 VLM 判断类似于长颈鹿）。这些设计在自动扰动重新设计后，由机器人可靠地组装，仅在组装前重置期间通过人工干预，在 10 次连续组装迭代中实现了近乎完美的成功。令人惊讶的是，从文字（“长颈鹿”）到可靠的物理组装的整个设计过程是在零人工干预的情况下完成的。

通过自主决策进行航天器防撞在轨服务

分类： 人工智能

作者： Susmitha Patnala, Adam Abdin

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17125v1

摘要： 这项研究开发了一种基于人工智能的自主在轨服务（OOS）任务实施方案，以协助航天器避碰机动（CAM）。我们提出了一种经过强化学习 (RL) 训练的自主“服务程序”，可以自动检测目标卫星与空间碎片之间的潜在碰撞、与濒危卫星交会对接，并执行最佳 CAM。强化学习模型集成了碰撞风险估计、卫星规格和碎片数据，以生成用于 OOS 交会和碰撞预防的最佳机动矩阵。我们采用交叉熵算法来有效地找到最优决策策略。初步结果证明了自主机器人 OOS 用于防撞服务的可行性，重点关注一颗服务航天器对一颗濒危卫星的场景。然而，将航天器交会和最佳 CAM 相结合会带来极大的复杂性。我们通过案例研究讨论了成功实施该框架的设计挑战和关键参数。

对每个示例进行编程：像专家一样大规模提升预训练数据质量

分类： 计算和语言, 人工智能, 机器学习

作者： Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17115v1

摘要： 大型语言模型预训练传统上依赖人类专家制定启发式方法来提高语料库质量，从而导致迄今为止开发出许多规则。然而，这些规则缺乏灵活性，无法有效地解决个别示例的独特特征。与此同时，对每个例子应用定制的规则对于人类专家来说是不切实际的。在本文中，我们证明，即使是参数少至 0.3B 的小型语言模型，也可以表现出与人类专家相当的数据精炼能力。我们引入了Programming Every Examples (ProX)，这是一种新颖的框架，它将数据细化视为一项编程任务，使模型能够通过大规模地为每个单独的示例生成和执行细粒度操作（例如字符串规范化）来细化语料库。实验结果表明，在 ProX 整理的数据上预训练的模型在各种下游基准测试中的性能优于原始数据或通过其他选择方法过滤的数据超过 2%。其有效性涵盖各种模型大小和预训练语料库，包括 C4、RedPajama-V2 和 FineWeb。此外，ProX 在特定领域的持续预训练中表现出巨大的潜力：在没有特定领域设计的情况下，在 OpenWebMath 上经过 ProX 改进的训练模型优于人工设计的基于规则的方法，平均准确率比 Mistral-7B 提高了 7.6%，提高了 14.6% Llama-2-7B 为 20.3%，CodeLlama-7B 为 20.3%，全部在 10B 令牌内，可与在 200B 令牌上训练的 Llemma-7B 等模型相媲美。进一步的分析强调，ProX 显着节省了训练失败次数，为高效的 LLM 预训练提供了一条有希望的途径。我们正在开源 ProX，拥有超过 100B 的语料库、模型，并共享所有训练和实施细节，以实现可重复的研究和未来的创新。代码：https://github.com/GAIR-NLP/ProX

揭示多模式基础模型中的本体论承诺

分类： 计算机视觉和模式识别, 人工智能

作者： Mert Keser, Gesina Schwalbe, Niki Amini-Naieni, Matthias Rottmann, Alois Knoll

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17109v1

摘要： 本体论承诺，即使用的概念、关系和假设，是定性推理 (QR) 模型的基石。然而，处理原始输入的最先进技术是深度神经网络 (DNN)，如今通常基于多模态基础模型。它们会自动学习丰富的概念表示和各自的推理。不幸的是，学到的定性知识是不透明的，妨碍了对可用 QR 模型的轻松检查、验证或适应。到目前为止，可以将预定义的概念与 DNN 的潜在表示相关联，但可提取的关系大多仅限于语义相似性。作为用于 DNN 验证和验证的 QR 的下一步：具体来说，我们提出了一种方法，从给定的叶概念集的多模态 DNN 中提取学习的超类层次结构。在底层，我们 (1) 使用 DNN 的文本输入模态获得叶概念嵌入； (2) 对它们应用层次聚类，利用 DNN 通过向量距离编码语义相似性； (3)使用来自QR的可用本体中的搜索来标记这样获得的父概念。初步评估研究表明，可以从最先进的基础模型中提取有意义的本体类层次结构。此外，我们还演示了如何针对给定本体验证 DNN 的学习表示。最后，我们讨论了二维码未来潜在的应用。

累加器感知的训练后量化

分类： 机器学习, 人工智能, 离散数学

作者： Ian Colbert, Fabian Grob, Giuseppe Franco, Jinjie Zhang, Rayan Saab

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17092v1

摘要： 最近的几项研究调查了低精度累积，报告了各种平台上吞吐量、功率和面积的改进。然而，随附的提案仅考虑了量化感知训练（QAT）范例，其中模型通过循环量化从头开始进行微调或训练。随着模型规模不断增大，QAT 技术变得越来越昂贵，这推动了最近训练后量化（PTQ）研究的激增。据我们所知，我们的研究标志着 PTQ 设置中累加器感知量化的首次正式研究。为了弥补这一差距，我们引入了 AXE，这是一种累加器感知扩展的实用框架，旨在为现有的分层 PTQ 算法提供避免溢出的保证。我们从理论上激励 AX 并通过在两种最先进的 PTQ 算法（GPFQ 和 OPTQ）之上实现它来证明其灵活性。我们进一步推广 AX，首次支持多阶段累积，为全面数据路径优化和扩展到大型语言模型 (LLM) 打开了大门。我们跨图像分类和语言生成模型评估 AX，并观察到累加器位宽和模型精度之间的权衡相对于基线方法的显着改进。

Ctrl-GenAug：医学序列分类的可控生成增强

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Xinrui Zhou, Yuhao Huang, Haoran Dou, Shijing Chen, Ao Chang, Jia Liu, Weiran Long, Jian Zheng, Erjiao Xu, Jie Ren, Ruobing Huang, Jun Cheng, Wufeng Xue, Dong Ni

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17091v1

摘要： 在医学领域，大规模数据集的有限可用性和劳动密集型注释过程阻碍了深度模型的性能。基于扩散的生成增强方法为这个问题提供了一种有前途的解决方案，已被证明可以有效推进下游医学识别任务。然而，现有的工作缺乏足够的语义和顺序可操纵性来应对具有挑战性的视频/3D序列生成，并且忽视了噪声合成样本的质量控制，导致合成数据库不可靠并严重限制了下游任务的性能。在这项工作中，我们提出了 Ctrl-GenAug，一种新颖且通用的生成增强框架，它能够实现高度语义和顺序定制的序列合成并抑制错误合成的样本，以帮助医学序列分类。具体来说，我们首先设计了一个多模态条件引导序列生成器，用于可控地合成诊断促进样本。集成了顺序增强模块，以增强生成样本的时间/立体相干性。然后，我们提出了一种噪声合成数据过滤器，以抑制语义和顺序级别上的不可靠情况。使用在 3 个范式上训练的 11 个网络，对 3 个医学数据集进行了广泛的实验，全面分析了 Ctrl-GenAug 的有效性和通用性，特别是在代表性不足的高风险人群和域外条件下。

SEN12-WATER：水文应用的新数据集及其基准

分类： 图像和视频处理, 人工智能, 机器学习

作者： Luigi Russo, Francesco Mauro, Alessandro Sebastianelli, Paolo Gamba, Silvia Liberata Ullo

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17087v1

摘要： 气候变化和日益严重的干旱给世界各地的水资源管理带来了重大挑战。这些问题导致严重的水资源短缺，威胁到生态系统、农业和人类社区。为了推进应对这些挑战，我们提出了一个新的数据集 SEN12-WATER，以及使用新颖的端到端深度学习 (DL) 框架进行主动干旱相关分析的基准。该数据集被识别为时空数据立方体，集成了 SAR 偏振、高程、斜率和多光谱光学波段。我们的深度学习框架能够分析和估计感兴趣的水库随时间的水损失，通过检查水量等物理量的时间变化，揭示对干旱分析的水动态的重要见解。我们的方法利用了所提出的数据集的多时空和多模态特征，实现了强有力的概括并增进了对干旱的理解，有助于气候变化的抵御能力和可持续水资源管理。所提出的框架包括从 SAR 数据中去除斑点噪声、通过 U-Net 架构进行水体分割、时间序列分析以及时间分布式卷积神经网络 (TD-CNN) 的预测能力。）。结果通过专用传感器和（定制的）指标在地面获取的地面实况数据进行验证，例如精度、召回率、并集交集、均方误差、结构相似性指数测量和峰值信噪比。

感知度量对流派分类的音乐表征学习的影响

分类： 声音, 人工智能, 计算机视觉和模式识别, 机器学习, 音频和语音处理

作者： Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez, Valero Laparra, Jesus Malo

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17069v1

摘要： 自然信号的主观质量可以用客观感知指标来近似。感知指标旨在近似人类观察者的感知行为，通常反映自然信号和神经通路中发现的结构。使用感知指标作为损失函数训练的模型可以从这些指标中保存的结构中捕获感知上有意义的特征。我们证明，在学习分类器时，使用从经过感知损失训练的自动编码器中提取的特征可以提高音乐理解任务（即流派分类）的性能，而不是直接使用这些指标作为距离。这一结果表明，当使用感知指标作为表示学习的损失函数时，可以改进对新信号的泛化。

VPTQ：大型语言模型的极低位向量训练后量化

分类： 人工智能

作者： Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17066v1

摘要： 扩展模型大小对大型语言模型 (LLM) 的部署和推理提出了巨大挑战。由于 LLM 权重的冗余，最近的研究重点是将仅权重量化推向极低位（甚至低至 2 位）。它降低了内存需求，优化了存储成本，并降低了推理过程中的内存带宽需求。然而，由于数值表示的限制，传统的基于标量的权重量化很难实现如此极端的低位。最近针对大语言模型的矢量量化 (VQ) 的研究证明了通过使用查找表将矢量压缩为索引来实现极低位模型量化的潜力。在本文中，我们介绍了用于 LLM 极低比特量化的矢量训练后量化 (VPTQ)。我们使用二阶优化来制定LLM VQ问题，并通过求解优化来指导我们的量化算法设计。我们使用与通道无关的二阶优化来进一步细化权重，以实现粒度 VQ。此外，通过分解优化问题，我们提出了一种简单有效的码本初始化算法。我们还扩展了 VPTQ 以支持残差和异常值量化，从而提高了模型精度并进一步压缩了模型。我们的实验结果表明，2 位时，VPTQ 与 SOTA 相比，在 LLaMA-2 上降低了模型量化困惑 $0.01$-$0.34$，在 Mistral-7B 上降低了 $0.38$-$0.68$，在 LLaMA-3 上降低了 $4.41$-$7.34$，平均在 QA 任务上，LLaMA-2 的准确度平均提高了 $0.79$-$1.5%$，Mistral-7B 的准确度提高了 $1%$，LLaMA-3 的准确度平均提高了 $11$-$22%$。我们只利用了 $10.4$-$18.6%$ 的量化算法执行时间，与 SOTA 相比，推理吞吐量增加了 $1.6$-$1.8\times$。

计算病理学领域泛化算法的基准测试

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Neda Zamanitajeddin, Mostafa Jahanifar, Kesi Xu, Fouzia Siraj, Nasir Rajpoot

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17063v1

摘要： 深度学习模型在计算病理学 (CPath) 任务中显示出巨大的前景，但由于领域转移，当应用于看不见的数据时，其性能往往会受到影响。解决这个问题需要域泛化（DG）算法。然而，缺乏对 CPath 上下文中的 DG 算法的系统评估。本研究旨在通过 7,560 次交叉验证运行，对 30 个 DG 算法在 3 个不同难度的 CPath 任务上的有效性进行基准测试。我们使用统一且强大的平台来评估这些算法，结合特定于模态的技术和最新进展，例如预训练的基础模型。我们广泛的交叉验证实验提供了对各种 DG 策略的相对性能的见解。我们观察到，自我监督学习和染色增强始终优于其他方法，凸显了预训练模型和数据增强的潜力。此外，我们引入了一个新的泛癌肿瘤检测数据集（HISTOPANTUM）作为未来研究的基准。这项研究为研究人员为 CPath 任务选择合适的 DG 方法提供了宝贵的指导。

DRIM：从不完整的多模式医疗数据中学习解开的表示

分类： 人工智能, 机器学习

作者： Lucas Robinet, Ahmad Berjaoui, Ziad Kheil, Elizabeth Cohen-Jonathan Moyal

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17055v1

摘要： 现实生活中的医疗数据通常是多模式且不完整的，这推动了对能够有效集成这些数据的高级深度学习模型的日益增长的需求。组织病理学切片、MRI 和遗传数据等多种模式的使用为改善预后预测和揭示新的治疗途径提供了前所未有的机会。对比学习广泛用于从多模式任务中的配对数据中导出表示，它假设不同的视图包含相同的任务相关信息，并且仅利用共享信息。在处理医疗数据时，这种假设变得具有限制性，因为每种模式还包含与下游任务相关的特定知识。我们引入了 DRIM，这是一种新的多模式方法，尽管数据稀疏，但仍可以捕获这些共享和独特的表示。更具体地说，给定一组模态，我们的目标是为每个模态编码一个表示，该表示可以分为两个部分：一个封装跨模态常见的患者相关信息，另一个封装模态特定的细节。这是通过增加不同患者模式之间的共享信息，同时最大限度地减少每种模式内共享和独特组件之间的重叠来实现的。我们的方法在神经胶质瘤患者生存预测任务上优于最先进的算法，同时对缺失的模式具有鲁棒性。为了提高可重复性，代码在 https://github.com/Lucas-rbnt/DRIM 上公开提供

使用大语言模型将医患互动实时转录并总结为印度尼西亚的 ePuskesmas

分类： 人工智能, 计算和语言, 声音, 音频和语音处理

作者： Azmul Asmar Irfan, Nur Ahmad Khatim, Mansur M. Arief

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17054v1

摘要： 导致 Puskesmas 效率低下的关键问题之一是医患互动非常耗时。医生需要进行彻底的会诊，包括诊断患者的病情、提供治疗建议以及将详细的记录记录到病历中。在语言背景不同的地区，医生常常不得不提出澄清问题，从而进一步延长了这个过程。虽然诊断至关重要，但通常可以使用人工智能实现转录和总结自动化，以提高时间效率并帮助医生提高护理质量并实现早期诊断和干预。本文提出了一种使用本地化大语言模型 (LLM) 来转录、翻译和总结医患对话的解决方案。我们利用 Whisper 模型进行转录，并使用 GPT-3 将它们汇总为 ePuskemas 医疗记录格式。该系统作为现有网络浏览器扩展的附加组件实现，允许医生在交谈时填写患者表格。通过利用该解决方案进行实时转录、翻译和摘要，医生可以缩短患者护理的周转时间，同时提高记录的质量，使未来的就诊变得更加详细和富有洞察力。这项创新解决了印度尼西亚设施过度拥挤和医疗保健提供者的行政负担等挑战。我们相信，该解决方案将帮助医生节省时间、提供更好的护理并生成更准确的医疗记录，这是迈向现代化医疗保健并确保患者即使在资源有限的情况下也能获得及时、高质量护理的重要一步。

ControlCity：基于多模态扩散模型的方法，用于精确的地理空间数据生成和城市形态分析

分类： 计算机视觉和模式识别, 人工智能

作者： Fangshuo Zhou, Huaxia Li, Rui Hu, Sensen Wu, Hailin Feng, Zhenhong Du, Liuchang Xu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17049v1

摘要： 志愿者地理信息（VGI）以其种类丰富、体量大、更新快、来源多样等特点，成为地理空间数据的重要来源。然而，来自 OSM 等平台的 VGI 数据在不同数据类型之间表现出显着的质量异质性，尤其是城市建筑数据。为了解决这个问题，我们提出了一种多源地理数据转换解决方案，利用可访问且完整的 VGI 数据来协助生成城市建筑足迹数据。我们还采用多模式数据生成框架来提高准确性。首先，我们介绍了用于构建“图像-文本-元数据构建足迹”数据集的管道，该数据集主要基于道路网络数据并辅以其他多模态数据。然后我们提出 ControlCity，一种基于多模态扩散模型的地理数据转换方法。该方法首先使用预先训练的文本到图像模型来对齐文本、元数据和建筑足迹数据。改进后的 ControlNet 进一步集成了道路网络和土地使用图像，生成精细的建筑足迹数据。在全球 22 个城市进行的实验表明，ControlCity 成功模拟了真实的城市建筑模式，实现了最先进的性能。具体来说，我们的方法的平均 FID 得分为 50.94，与领先方法相比，误差减少了 71.01%，MIoU 得分为 0.36，提高了 38.46%。此外，我们的模型在城市形态迁移、零样本城市生成和空间数据完整性评估等任务中表现出色。在零样本城市任务中，我们的方法准确地预测并生成了类似的城市结构，表现出很强的泛化性。这项研究证实了我们的方法在生成城市建筑足迹数据和捕捉复杂城市特征方面的有效性。

GeoBiked：具有几何特征和自动标记技术的数据集，可在工程设计中实现深度生成模型

分类： 计算机视觉和模式识别, 人工智能

作者： Phillip Mueller, Sebastian Mueller, Lars Mikelsons

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17045v1

摘要： 我们提供了一个用于在工程设计中启用深度生成模型（DGM）的数据集，并提出了利用大规模基础模型来自动化数据标记的方法。 GeoBiked 包含 4 355 张自行车图像，并带有结构和技术特征注释，用于研究两种自动标记技术：利用图像生成模型中的综合潜在特征（超特征）来检测几何对应关系（例如，自行车的位置）结构图像中的轮中心）以及为结构图像生成不同的文本描述。 GPT-4o 是一种视觉语言模型 (VLM)，被指示分析图像并生成与系统提示一致的各种描述。通过将技术图像表示为扩散超特征，可以在它们之间绘制几何对应关系。通过呈现多个带注释的源图像，提高了未见样本中几何点的检测精度。 GPT-4o 具有足够的能力来生成技术图像的准确描述。仅以图像为基础的一代会导致多样化的描述，但会引起幻觉，而以分类标签为基础会限制多样性。使用两者作为输入可以平衡创造力和准确性。成功使用超特征进行几何对应表明这种方法可用于技术图像中的一般点检测和注释任务。使用 VLM 用文本描述标记此类图像是可能的，但取决于模型检测功能、仔细的提示工程和输入信息的选择。在工程设计中应用基础模型在很大程度上尚未被探索。我们的目标是通过数据集来弥合这一差距，以探索该领域的训练、微调和调节 DGM，并提出引导基础模型处理技术图像的方法。

如何连接语音基础模型和大型语言模型？什么重要，什么不重要

分类： 计算和语言, 人工智能, 机器学习

作者： Francesco Verdini, Pierfrancesco Melucci, Stefano Perna, Francesco Cariaggi, Marco Gaido, Sara Papi, Szymon Mazurek, Marek Kasztelnik, Luisa Bentivogli, Sébastien Bratières, Paolo Merialdo, Simone Scardapane

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17044v1

摘要： 大型语言模型 (LLM) 取得的卓越性能推动了研究工作，将其用于广泛的任务和输入模式。在语音转文本 (S2T) 任务中，新兴的解决方案包括通过适配器模块将语音基础模型 (SFM) 编码器的输出投影到 LLM 嵌入空间中。然而，目前还没有研究研究下游任务性能在多大程度上取决于每个组件（SFM、适配器、LLM），也没有研究适配器的最佳设计是否取决于所选的 SFM 和 LLM。为了填补这一空白，我们在两个广泛使用的 S2T 任务（即自动语音识别和语音翻译）上评估了 5 个适配器模块、2 个 LLM（Mistral 和 Llama）和 2 个 SFM（Whisper 和 SeamlessM4T）的组合。我们的结果表明，SFM 在下游性能中发挥着关键作用，而适配器的选择具有中等影响，并且取决于 SFM 和 LLM。

大型语言模型中的反事实令牌生成

分类： 机器学习, 人工智能, 计算和语言

作者： Ivi Chatzi, Nina Corvelo Benz, Eleni Straitouri, Stratis Tsirtsis, Manuel Gomez-Rodriguez

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17027v1

摘要： “当然，我很高兴为您编写一个故事：莱拉船长站在她值得信赖的船只大漩涡之怒的掌舵处，凝视着一望无际的大海。[...]当莱拉意识到痛苦的事实——她为了转瞬即逝的财富牺牲了一切，失去了船员、家人和她自己的爱。”虽然这个由大型语言模型生成的故事很吸引人，但人们可能会想——如果模型选择“梅夫船长”作为主角，故事会如何展开？我们无从得知。最先进的大型语言模型是无状态的——它们不维护内部存储器或状态。根据提示，他们使用自回归过程生成一系列标记作为输出。因此，他们无法推理出他们过去生成的代币的反事实替代品。在这项工作中，我们的目标是通过此功能来增强它们。为此，我们开发了一个基于 Gumbel-Max 结构因果模型的代币生成因果模型。与普通令牌生成相比，我们的模型允许任何大型语言模型几乎免费执行反事实令牌生成，实现起来非常简单，并且不需要任何微调或即时工程。我们在 Llama 3 8B-instruct 上实现我们的模型，并对反事实生成的文本进行定性和定量分析。最后，我们展示了反事实令牌生成在偏差检测中的应用，揭示了关于大型语言模型构建的世界模型的有趣见解。

人工智能驱动的风险意识调度主动碎片清除任务

分类： 人工智能

作者： Antoine Poupon, Hugo de Rohan Willner, Pierre Nikitits, Adam Abdin

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17012v1

摘要： 近地轨道（LEO）碎片的扩散对太空可持续性和航天器安全构成了重大威胁。主动碎片清除（ADR）已成为解决这一问题的一种有前景的方法，利用轨道转运飞行器（OTV）促进碎片脱轨，从而降低未来的碰撞风险。然而，ADR 任务非常复杂，需要准确的规划才能使任务在经济上可行且在技术上有效。此外，这些服务任务需要高水平的自主能力，以便根据不断变化的轨道条件和不断变化的任务要求进行规划。本文开发了一种基于深度强化学习 (DRL) 的自主决策规划模型，用于训练 OTV 规划最佳的碎片清除顺序。结果表明，使用所提出的框架，智能体可以找到最佳的任务计划，并学会自主更新计划，以包括对具有高碰撞风险的碎片的风险处理。

模型可以而且应该拥抱人类生成数学的交流本质

分类： 人工智能, 计算和语言

作者： Sasha Boguraev, Ben Lipkin, Leonie Weissweiler, Kyle Mahowald

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17005v1

摘要： 数学是由人为人构建的：正如自然语言语料库不仅反映命题，还反映语言使用者的交际目标一样，训练模型所依据的数学数据不仅反映理想化的数学实体，还反映丰富的交际意图。虽然以纯粹符号的方式对待数学有重要的优势，但我们在这里假设将数学视为情境语言交流有好处，并且语言模型非常适合这一目标，但方式尚未得到充分认识。我们通过两个案例研究来说明这些观点。首先，我们进行了一项实验，发现语言模型以类似人类的方式解释等号——为以不同方式排列的相同基础方程生成系统不同的文字问题。其次，我们发现语言模型更喜欢以自然主义方式对证明进行排序，即使其他顺序在逻辑上是等效的。我们提倡人工智能系统能够学习并代表人类生成的数学中潜在的交流意图。

INT-FlashAttention：为 INT8 量化启用 Flash Attention

分类： 机器学习, 人工智能

作者： Shimao Chen, Zirui Liu, Zhiying Wu, Ce Zheng, Peizhuang Cong, Zihan Jiang, Lei Su, Tong Yang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16997v1

摘要： 作为大型语言模型（LLM）的基础，自注意力模块面临着序列长度方面的二次时间和内存复杂性的挑战。 FlashAttention 通过利用 GPU 内存层次结构来加速注意力计算并减少其内存使用量。一个有前途的研究方向是将 FlashAttention 与量化方法相结合。本文介绍了INT-FlashAttention，这是第一个兼容FlashAttention前向工作流程的INT8量化架构，它显着提高了FlashAttention在Ampere GPU上的推理速度。我们使用完全 INT8 激活和通用矩阵乘法 (GEMM) 内核来实现 INT-FlashAttention 原型，使其成为第一个具有完全 INT8 输入的注意力算子。作为通用的 token 级训练后量化框架，INT-FlashAttention 还兼容 INT4 等其他数据格式。实验结果表明，与标准 FlashAttention 相比，INT-FlashAttention 的推理速度提高了 72%，量化误差降低了 82%。 FP16 和 FP8 数据格式。

在预训练大型语言模型时利用多样性进行重要数据选择

分类： 人工智能

作者： Chi Zhang, Huaping Zhong, Kuan Zhang, Chengliang Chai, Rui Wang, Xinlin Zhuang, Tianyi Bai, Jiantao Qiu, Lei Cao, Ye Yuan, Guoren Wang, Conghui He

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16986v1

摘要： 考虑到大规模可用训练语料库的质量差异，数据选择在预训练大型语言模型中具有重要意义。为了实现这一目标，研究人员目前正在研究使用数据影响力来衡量数据实例的重要性，即，高影响力分数表明将此实例合并到训练集中可能会提高模型性能。因此，他们选择分数最高的 top-$k$ 实例。然而，这种方法有一些局限性。 (1)计算所有可用数据的影响是耗时的。（2）所选数据实例不够多样化，这可能会阻碍预训练模型有效泛化到各种下游任务的能力。在本文中，我们介绍了 \texttt{Quad}，这是一种数据选择方法，通过利用数据影响力来考虑质量和多样性，以实现最先进的预训练结果。特别是，注意到注意力层捕获了广泛的语义细节，我们采用了注意力层的加速 $iHVP$ 计算方法，增强了我们评估数据影响的能力，即其质量。为了多样性，\texttt{Quad} 将数据集聚类为每个集群内的相似数据实例和不同集群之间的不同实例。对于每个集群，如果我们选择从中选择数据，我们会采取一些样本来评估影响，以防止处理所有实例。为了确定选择哪些簇，我们利用经典的多臂老虎机方法，将每个簇视为一个手臂。这种方法有利于具有高影响力实例的集群（确保高质量）或选择频率较低的集群（确保多样性），从而在质量和多样性之间取得良好的平衡。

AXCEL：使用大语言模型自动进行可解释一致性评估

分类： 人工智能, 计算和语言

作者： P Aditya Sreekar, Sahil Verma, Suransh Chopra, Sarik Ghazarian, Abhishek Persad, Narayanan Sadagopan

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16984v1

摘要： 大型语言模型 (LLM) 在工业界和学术界广泛用于各种任务，但评估生成的文本响应的一致性仍然是一个挑战。 ROUGE 和 BLEU 等传统指标与人类判断的相关性较弱。使用自然语言推理 (NLI) 的更复杂的指标已显示出改进的相关性，但实施起来很复杂，由于跨域泛化性差，需要特定领域的培训，并且缺乏可解释性。最近，出现了使用大语言模型作为评估者的基于提示的指标；虽然它们更容易实施，但仍然缺乏可解释性，并且依赖于特定任务的提示，这限制了它们的普遍性。这项工作介绍了使用大语言模型 (AXCEL) 的自动可解释一致性评估，这是一种基于提示的一致性度量，它通过提供详细的推理和查明不一致的文本范围来提供一致性分数的解释。 AXCEL 也是一个通用指标，可以在不更改提示的情况下应用于多个任务。 AXCEL 在检测摘要不一致、自由文本生成和数据到文本转换任务不一致方面均优于非提示和基于提示的最先进 (SOTA) 指标，提高了 8.7%、自由文本生成提高了 6.2%、数据到文本转换任务提高了 29.4%。我们还评估了基础大语言模型对基于提示的指标性能的影响，并使用最新的大语言模型重新校准了基于提示的 SOTA 指标，以进行公平比较。此外，我们还表明 AXCEL 使用开源大语言模型展示了强大的性能。

迈向以用户为中心的以人为中心的可解释人工智能的训练数据归因研究

分类： 人机交互, 人工智能, 机器学习

作者： Elisa Nguyen, Johannes Bertram, Evgenii Kortukov, Jean Y. Song, Seong Joon Oh

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16978v1

摘要： 虽然可解释人工智能（XAI）的目标是让人工智能对人类易于理解和有用，但它因过于依赖形式主义和解决方案而受到批评，更多地关注数学的合理性而不是用户的需求。受设计思维的启发，我们提出了这种自下而上方法的替代方案：XAI 研究社区应采用自上而下、以用户为中心的视角，以确保用户相关性。我们用 XAI 的一个相对年轻的子领域——训练数据归因（TDA）来说明这一点。随着 TDA 研究的激增和竞争的加剧，该领域面临着重复相同解决方案主义模式的风险。我们与不同的人工智能从业者群体进行了一项需求调查研究，以确定与 TDA 相关的潜在用户需求。通过访谈 (N=10) 和系统调查 (N=31)，我们发现了目前在很大程度上被忽视的新 TDA 任务。我们邀请 TDA 和 XAI 社区考虑这些新颖的任务并提高其研究成果的用户相关性。

解码大语言模型：社会技术影响、约束和新出现问题的系统概述

分类： 计算和语言, 人工智能

作者： Zeyneb N. Kaya, Souvick Ghosh

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16974v1

摘要： 近年来，大型语言模型（LLM）的能力取得了快速进步，极大地改变了自然语言处理（NLP）和人工智能（AI）领域以理解人类语言并与之交互。因此，在这项工作中，我们对文献进行了系统的调查，以确定大语言模型发展的突出主题和方向、影响和局限性。我们的研究结果阐明了大语言模型研究的目标、方法、局限性和未来方向。它包括负责任的发展考虑、算法改进、道德挑战以及大语言模型发展的社会影响。总体而言，本文对大语言模型的当前研究进行了严格而全面的概述，并确定了未来发展的潜在方向。本文重点介绍了可能对社会产生积极影响的应用领域以及道德考虑。

用于动态设备上 LLM 个性化的自适应自我监督学习策略

分类： 计算和语言, 人工智能, 机器学习

作者： Rafael Mendoza, Isabella Cruz, Richard Liu, Aarav Deshmukh, David Williams, Jesscia Peng, Rohan Iyer

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16973v1

摘要： 大型语言模型 (LLM) 彻底改变了我们与技术交互的方式，但它们针对个人用户偏好的个性化仍然是一个重大挑战，特别是在设备上的应用程序中。传统方法通常严重依赖标记数据集，并且可能会占用大量资源。为了解决这些问题，我们提出了自适应自我监督学习策略（ASLS），它利用自我监督学习技术来动态个性化大语言模型。该框架包括用于收集交互数据的用户分析层和用于实时模型微调的神经适应层。这种创新方法可以从用户反馈中持续学习，从而使模型能够生成与用户特定上下文密切相关的响应。 ASLS 的自适应机制最大限度地减少了计算需求并提高了个性化效率。各种用户场景的实验结果说明了 ASLS 在提高用户参与度和满意度方面的卓越性能，突显了其将 LLM 重新定义为高度响应和上下文感知的设备上系统的潜力。

知情的深层层次分类：一种非标准分析启发的方法

分类： 人工智能, 机器学习, 逻辑, 03H10, 68T07, I.2.5; I.2.6

作者： Lorenzo Fiaschi, Marco Cococcioni

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16956v1

摘要： 这项工作提出了一种解决深层分层分类任务的新方法，即根据以严格的父子结构组织的多个标签对数据进行分类的问题。它由一个多输出深度神经网络组成，在每个输出层之前配备有特定的投影算子。这种架构的设计被称为词典编纂混合深度神经网络（LH-DNN），通过结合来自不同且相距遥远的研究领域的工具：词典编纂多目标优化、非标准分析和深度学习，已经成为可能。为了评估该方法的有效性，将所得网络与 CIFAR10、CIFAR100 上的 B-CNN（一种专为分层分类任务量身定制的卷积神经网络）进行了比较（在 CIFAR10、CIFAR100 上最初和最近提出，然后被采用和调整用于多个现实世界的应用程序）和 Fashion-MNIST 基准。有证据表明，在学习参数、训练周期和计算时间大幅减少的情况下，LH-DNN 可以实现可比的甚至优越的性能，特别是在层次关系的学习中，而不需要临时的损失函数加权值。

通过基于不确定性的扩散自适应规划进行动态避障

分类： 机器人技术, 人工智能, 机器学习

作者： Vineet Punyamoorty, Pascal Jutras-Dubé, Ruqi Zhang, Vaneet Aggarwal, Damon Conover, Aniket Bera

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16950v1

摘要： 通过将强化学习视为序列建模问题，最近的工作已经能够使用生成模型（例如扩散模型）进行规划。虽然这些模型可以有效地预测确定性环境中的长视野状态轨迹，但它们在具有移动障碍物的动态环境中面临挑战。有效的避免碰撞需要持续监控和自适应决策。虽然在每个时间步重新规划可以确保安全，但由于重叠状态序列的重复预测，它引入了大量的计算开销——对于以其密集的迭代采样过程而闻名的扩散模型来说，这一过程的成本特别高。我们提出了一种自适应生成规划方法，该方法根据动作预测的不确定性动态调整重新规划频率。我们的方法最大限度地减少了频繁、计算昂贵且冗余的重新规划的需要，同时保持了强大的防撞性能。在实验中，与长视野规划相比，我们的平均轨迹长度增加了 13.5%，平均奖励增加了 12.7%，这表明碰撞率降低，安全导航环境的能力提高。

制定人工智能议程——来自ChatGPT时代瑞典的证据

分类： 人工智能, 计算机与社会

作者： Bastiaan Bruinsma, Annika Fredén, Kajsa Hansson, Moa Johansson, Pasko Kisić-Merino, Denitsa Saynova

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16946v1

摘要： 本文考察了 ChatGPT 发布前后瑞典人工智能 (AI) 元辩论的发展情况。从议程设置理论的角度来看，我们认为，主导这场争论的是政党政治之外的精英——即政客们在面对这种快速发展时相对沉默。我们还认为，近年来争论变得更加实质性和风险导向。为了调查这一说法，我们利用了 2010 年代初至今的精英级文件的原始数据集，其中使用了瑞典多家主要报纸上发表的专栏文章。通过对这些材料进行定性内容分析，我们的初步发现支持了这样的预期：学术界而非政治精英正在主导这场辩论。

Go-SLAM：使用高斯泼溅 SLAM 进行接地对象分割和定位

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 图形

作者： Phu Pham, Dipam Patel, Damon Conover, Aniket Bera

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16944v1

摘要： 我们介绍了 Go-SLAM，这是一种新颖的框架，它利用 3D 高斯 Splatting SLAM 来重建动态环境，同时在场景表示中嵌入对象级信息。该框架采用先进的对象分割技术，为每个高斯图分配一个与其代表的对象相对应的唯一标识符。因此，我们的系统促进了开放词汇查询，允许用户使用自然语言描述来定位对象。此外，该框架还具有最佳路径生成模块，可以考虑障碍物和环境不确定性，计算机器人朝向查询对象的有效导航路径。各种场景设置的综合评估证明了我们的方法在提供高保真场景重建、精确的对象分割、灵活的对象查询和高效的机器人路径规划方面的有效性。这项工作代表着在弥合 3D 场景重建、语义对象理解和实时环境交互之间的差距方面又向前迈出了一步。

使用多视图扩散模型在高斯泼溅中生成对象插入

分类： 计算机视觉和模式识别, 人工智能, 图形

作者： Hongliang Zhong, Can Wang, Jingbo Zhang, Jing Liao

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16938v1

摘要： 生成新对象并将其插入到 3D 内容中是实现多功能场景重建的一种引人注目的方法。现有的方法依赖于 SDS 优化或单视图修复，通常很难产生高质量的结果。为了解决这个问题，我们提出了一种以高斯分布为代表的 3D 内容中对象插入的新方法。我们的方法引入了一种多视图扩散模型，称为 MVInpainter，它建立在预先训练的稳定视频扩散模型的基础上，以促进视图一致的对象修复。在 MVInpainter 中，我们结合了基于 ControlNet 的条件注入模块，以实现受控且更可预测的多视图生成。生成多视图修复结果后，我们进一步提出了一种掩模感知 3D 重建技术，以从这些稀疏修复视图中细化高斯泼溅重建。通过利用这些制造技术，我们的方法产生不同的结果，确保视图一致且和谐的插入，并产生更好的对象质量。大量的实验表明我们的方法优于现有方法。

多视图伪标签的语音半监督认知状态分类

分类： 音频和语音处理, 人工智能, 计算和语言, 多媒体, 声音

作者： Yuanchao Li, Zixing Zhang, Jing Han, Peter Bell, Catherine Lai

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16937v1

摘要： 缺乏标记数据是语音分类任务中的一个常见挑战，特别是那些需要广泛主观评估的任务，例如认知状态分类。在这项工作中，我们提出了一个半监督学习（SSL）框架，引入了一种新颖的多视图伪标记方法，该方法利用声学和语言特征来选择最可信的数据来训练分类模型。在声学上，使用 Frechet 音频距离将未标记数据与标记数据进行比较，该距离是根据多个音频编码器生成的嵌入计算得出的。在语言上，大型语言模型被提示修改自动语音识别转录并根据我们提出的特定任务知识预测标签。当两个来源的伪标签对齐时，就会识别出高置信度数据，而不匹配的数据将被视为低置信度数据。然后训练双峰分类器以迭代地标记低置信度数据，直到满足预定义的标准。我们在情绪识别和痴呆症检测任务上评估我们的 SSL 框架。实验结果表明，与仅使用 30% 标记数据的完全监督学习相比，我们的方法实现了有竞争力的性能，并且显着优于两个选定的基线。

研究 OCR 敏感神经元以提高历史文献中的实体识别

分类： 计算和语言, 人工智能

作者： Emanuela Boros, Maud Ehrmann

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16934v1

摘要： 本文研究了 Transformer 架构中 OCR 敏感神经元的存在及其对历史文档的命名实体识别 (NER) 性能的影响。通过分析响应干净和嘈杂文本输入的神经元激活模式，我们识别并中和 OCR 敏感神经元，以提高模型性能。基于两种开放访问大型语言模型（Llama2 和 Mistral），实验证明了 OCR 敏感区域的存在，并显示了历史报纸和经典评论的 NER 性能改进，突出了定向神经元调制在提高模型在噪声方面的性能的潜力文本。

量子经典情感分析

分类： 人工智能

作者： Mario Bifulco, Luca Roversi

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16928v1

摘要： 在本研究中，我们最初研究了混合经典量子分类器 (HCQC) 在情感分析中的应用，将其性能与经典 CPLEX 分类器和 Transformer 架构进行了比较。我们的研究结果表明，虽然 HCQC 在分类精度方面相对于 Transformer 表现不佳，但它收敛到相当好的近似解所需的时间要少得多。该实验还揭示了 HCQC 中的一个关键瓶颈，其架构部分未被 D-Wave 属性公开。为了解决这一限制，我们提出了一种基于 QUBO 模型代数分解的新算法，该算法提高了量子处理单元分配给解决问题任务的时间。

用于监考在线考试的人工智能辅助视线检测

分类： 人工智能, 人机交互

作者： Yong-Siang Shih, Zach Zhao, Chenhao Niu, Bruce Iberg, James Sharpnack, Mirza Basim Baig

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16923v1

摘要： 对于高风险的在线考试，检测潜在的违规行为以确保考试的安全性非常重要。在本研究中，我们研究了检测考生是否将目光从屏幕上移开的任务，因为这种行为可能表明考生正在咨询外部资源。对于异步监考，考试视频由监考人员录制和审查。然而，当考试时间较长时，监考人员观看整个考试视频以确定考生移开视线的确切时刻可能会很乏味。我们提出了一种人工智能辅助凝视检测系统，它允许监考人员在不同的视频帧之间导航，并发现考生看向相似方向的视频帧。该系统使监考人员能够更有效地识别视频中的可疑时刻。提出了一个评估框架来针对纯人类和纯机器学习监考来评估系统，并进行用户研究以收集监考人员的反馈，旨在证明系统的有效性。

跨语言语音情感识别：人类与自我监督模型

分类： 音频和语音处理, 人工智能, 计算和语言, 人机交互, 声音

作者： Zhichen Han, Tianqi Geng, Hui Feng, Jiahong Yuan, Korin Richmond, Yuanchao Li

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16920v1

摘要： 利用自我监督学习 (SSL) 模型进行语音情感识别 (SER) 已被证明是有效的，但探索跨语言场景的研究有限。本研究对人类表现和 SSL 模型进行了比较分析，首先进行了分层分析，并探索了单语言、跨语言和迁移学习环境中的参数高效微调策略。我们进一步比较模型和人类在话语和片段级别的 SER 能力。此外，我们还通过人工评估研究方言对跨语言 SER 的影响。我们的研究结果表明，通过适当的知识迁移，模型可以适应目标语言并达到与母语人士相当的性能。我们还证明了方言对没有语言和副语言背景的个体的 SER 的显着影响。此外，人类和模型在不同的情绪下表现出不同的行为。这些结果为 SSL 模型的跨语言 SER 功能提供了新的见解，强调了它们与人类情感感知的相似性和差异。

告诉我你不知道的事情：通过表示空间分析和编辑增强角色扮演代理的拒绝能力

分类： 人工智能

作者： Wenhao Liu, Siyu An, Junru Lu, Muling Wu, Tianlong Li, Xiaohua Wang, Xiaoqing Zheng, Di Yin, Xing Sun, Xuanjing Huang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16913v1

摘要： 角色扮演代理 (RPA) 在各种应用程序中表现出了卓越的性能，但它们常常难以识别并适当响应与其角色扮演知识相冲突的困难查询。为了调查 RPA 在面对不同类型的冲突请求时的表现，我们开发了一个评估基准，其中包括上下文知识冲突请求、参数知识冲突请求和非冲突请求，以评估 RPA 识别冲突和拒绝适当回答的能力过度拒绝。通过广泛的评估，我们发现大多数 RPA 对于不同的冲突请求表现出显着的性能差距。为了阐明原因，我们对各种冲突场景下的 RPA 进行了深入的代表性分析。我们的研究结果揭示了模型转发表示中存在拒绝区域和直接响应区域，从而影响 RPA 的最终响应行为。因此，我们引入了一种轻量级的表示编辑方法，可以方便地将冲突的请求转移到拒绝区域，从而提高模型的拒绝准确性。实验结果验证了我们的编辑方法的有效性，提高了 RPA 拒绝冲突请求的能力，同时保持了其一般的角色扮演能力。

增强时间敏感性和推理以进行时间敏感的问答

分类： 计算和语言, 人工智能

作者： Wanqi Yang, Yanda Li, Meng Fang, Ling Chen

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16909v1

摘要： 时间敏感问答 (TSQA) 要求有效利用特定的时间上下文（包含多个随时间变化的事实）来解决时间敏感问题。这不仅需要解析问题中的时间信息，还需要识别和理解随时间变化的事实以生成准确的答案。然而，当前的大型语言模型对时间信息的敏感性仍然有限，时间推理能力也不足。在本文中，我们提出了一种新的框架，通过时间信息感知嵌入和粒度对比强化学习来增强时间意识和推理。四个 TSQA 数据集的实验结果表明，我们的框架在 TSQA 任务中显着优于现有的 LLM，这标志着在弥合机器和人类时间理解和推理之间的性能差距方面向前迈出了一步。

用于高效多视图聚类的判别锚学习

分类： 机器学习, 人工智能

作者： Yalan Qin, Nan Pu, Hanzhou Wu, Nicu Sebe

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16904v1

摘要： 多视图聚类旨在研究跨视图的互补信息并发现底层结构。为了解决现有方法相对较高的计算成本，最近提出了基于锚的工作。即使具有可接受的聚类性能，这些方法也倾向于将多个视图的原始表示映射到基于原始数据集的固定共享图。然而，大多数研究忽略了学习锚点的判别特性，这破坏了所构建模型的表示能力。此外，通过简单地学习共享锚图而不考虑视图特定锚的质量，忽略了跨视图锚之间的互补信息的保证。在本文中，我们提出了多视图聚类的判别锚学习（DALMC）来处理上述问题。我们根据原始数据集学习有区别的视图特定特征表示，并根据这些表示从不同视图构建锚点，这提高了共享锚点图的质量。将判别性特征学习和共识锚图构建集成到一个统一的框架中，相互改进以实现细化。来自多个视图的最佳锚点和共识锚点图是通过正交约束学习的。我们给出了一种迭代算法来处理所提出的问题。对不同数据集的大量实验表明了我们的方法与其他方法相比的有效性和效率。

走向水下伪装目标跟踪：SAM 和 SAM 2 的实验评估

分类： 计算机视觉和模式识别, 人工智能

作者： Chunhui Zhang, Li Liu, Guanjie Huang, Hao Wen, Xi Zhou, Yanfeng Wang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16902v1

摘要： 在过去的十年中，视觉对象跟踪方面取得了重大进展，这主要归功于大规模训练数据集的可用性。然而，现有的跟踪数据集主要集中在露天场景，这极大地限制了水下环境中目标跟踪的发展。为了解决这个问题，我们向前迈出了一步，提出了第一个大规模水下伪装目标跟踪数据集，即 UW-COT。基于所提出的数据集，本文对几种先进的视觉对象跟踪方法以及图像和视频分割的最新进展进行了实验评估。具体来说，我们比较了分段任意模型 (SAM) 及其更新版本 SAM 2 在具有挑战性的水下环境中的性能。我们的研究结果强调了 SAM 2 相对 SAM 的改进，展示了其处理水下伪装物体复杂性的增强能力。与当前先进的视觉目标跟踪方法相比，最新的视频分割基础模型SAM 2也表现出显着的优势，为开发更有效的水下场景跟踪技术提供了宝贵的见解。该数据集可在 \color{magenta}{https://github.com/983632847/Awesome-Multimodal-Object-Tracking} 访问。

大语言模型的实践和社会基础路线图

分类： 机器人技术, 人工智能, 计算和语言, 人机交互, I.2.7; I.2.9; J.4; F.3.2; D.3.1

作者： Sara Incao, Carlo Mazzola, Giulia Belgiovine, Alessandra Sciutti

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16900v1

摘要： 大型语言模型 (LLM) 和机器人系统的融合带来了机器人领域的变革范式，不仅在通信领域提供了无与伦比的功能，而且在多模式输入处理、高级推理和计划生成等技能方面也提供了无与伦比的功能。将大语言模型知识扎根于实证世界被认为是发挥机器人学大语言模型效率的重要途径。然而，通过多模式方法或机器人的身体将大语言模型的表征与外部世界连接起来并不足以让他们理解他们正在操作的语言的含义。这项工作从人类身上汲取灵感，提请人们关注智能体掌握和体验世界的三个必要要素。大语言模型的基础路线图被设想为以主动身体系统作为体验环境的参考点，为与外部世界进行连贯、自我相关的互动而提供的时间结构化体验，以及获得共同基础的共享体验的社交技能。

心内超声心动图成像中人工智能驱动的视图引导系统

分类： 人工智能

作者： Jaeyoung Huh, Paul Klein, Gareth Funka-Lea, Puneet Sharma, Ankur Kapoor, Young-Ho Kim

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16898v1

摘要： 心内超声心动图 (ICE) 是一种用于电生理学 (EP) 和结构性心脏病 (SHD) 干预的重要成像方式，可提供心脏内部的实时、高分辨率视图。尽管有其优点，但有效操作 ICE 导管需要大量专业知识，这可能会导致结果不一致，尤其是经验不足的操作员。为了应对这一挑战，我们提出了一种具有人机反馈的人工智能驱动的闭环视图引导系统，旨在帮助用户在无需专业知识的情况下导航 ICE 成像。我们的方法对空间坐标系中任意视图和临床定义的 ICE 视图之间的相对位置和方向向量进行建模，指导用户如何操纵 ICE 导管随着时间的推移从当前视图过渡到所需视图。该系统以闭环配置运行，不断预测和更新必要的导管操作，确保无缝集成到现有的临床工作流程中。通过基于模拟的评估证明了所提出系统的有效性，在 6532 个测试数据集上实现了 89% 的成功率，突显了其提高 ICE 成像程序的准确性和效率的潜力。

重新审视太空任务规划：强化学习引导的多碎片交会方法

分类： 机器学习, 人工智能, 机器人技术

作者： Agni Bandyopadhyay, Guenther Waxenegger-Wilfing

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16882v1

摘要： 这项研究介绍了深度强化学习 (RL) 领域的掩码近端策略优化 (PPO) 算法的新颖应用，用于确定最有效的空间碎片访问序列，根据 Izzo 对个体交会的适应，利用兰伯特求解器。目的是优化访问所有给定残骸的顺序，以获得整个任务中最短的交会总时间。制定了神经网络 (NN) 策略，并针对具有不同碎片场的模拟太空任务进行了训练。训练后，神经网络使用 Izzo 对兰伯特机动的调整来计算近似最佳路径。性能是根据任务规划中的标准启发法进行评估的。强化学习方法通过优化碎片交会序列，显着提高了规划效率，与遗传算法和贪婪算法相比，总任务时间分别平均减少了约{10.96%}和{13.66%}。该模型平均以最快的计算速度确定了各种模拟场景中最省时的碎片访问序列。这种方法标志着在加强空间碎片清除任务规划战略方面向前迈出了一步。

使用 AI 研究代理自动增强交通模型

分类： 人工智能

作者： Xusen Guo, Xinxi Yang, Mingxing Peng, Hongliang Lu, Meixin Zhu, Hai Yang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16876v1

摘要： 开发高效的交通模型对于优化交通系统至关重要，但目前的方法仍然耗时且由于依赖手动流程而容易出现人为错误。传统的工作流程涉及详尽的文献综述、公式优化和迭代测试，导致研究效率低下。为此，我们引入了交通研究代理（TR-Agent），这是一种人工智能驱动的系统，旨在通过迭代闭环过程自主开发和完善交通模型。具体来说，我们将研究流程分为四个关键阶段：想法生成、理论制定、理论评估和迭代优化；构建TR-Agent，并具有四个相应的模块：想法生成器、代码生成器、评估器和分析器。这些模块协同工作，从外部资源检索知识，产生新颖的想法，实现和调试模型，最后在评估数据集上对其进行评估。此外，系统根据迭代反馈不断完善这些模型，提高研究效率和模型性能。实验结果表明，TR-Agent 在多个交通模型中实现了显着的性能提升，包括用于跟车的智能驾驶员模型 (IDM)、MOBIL 变道模型和 Lighthill-Whitham-Richards (LWR) 交通流模型。此外，TR-Agent 还提供了对其优化的详细解释，使研究人员能够轻松验证和构建其改进。这种灵活性使该框架成为交通及其他领域研究人员的强大工具。为了进一步支持研究和合作，我们开源了实验中使用的代码和数据，促进更广泛的访问并促进该领域的持续进步。

道德和可扩展的自动化：业务应用程序的治理和合规框架

分类： 人工智能, 机器学习

作者： Haocheng Lin

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16872v1

摘要： 人工智能在商业中的普及对道德原则、治理和法律合规性提出了重大挑战。尽管企业已将人工智能嵌入到日常流程中，但他们缺乏统一的方法来减轻其潜在风险。本文介绍了一个框架，确保人工智能必须是道德的、可控的、可行的和可取的。平衡这些因素可确保框架的设计能够解决其权衡问题，例如平衡性能与可解释性。成功的框架为企业提供实用建议，以满足金融和医疗保健等行业的监管要求，在这些领域，遵守 GDPR 和欧盟人工智能法案等标准至关重要。不同的案例研究通过将人工智能整合到学术和实践环境中来验证该框架。例如，大型语言模型是生成模拟对环境问题态度的综合意见的经济有效的替代方案。这些案例研究表明，拥有结构化框架如何能够提高透明度并保持绩效水平，如合成分布和预期分布之间的一致性所示。这种一致性可以使用 Chi 检验分数、标准化互信息和 Jaccard 指数等指标进行量化。未来的研究应进一步探索该框架在不同工业环境中的实证验证，确保模型的可扩展性和适应性。

使用大语言模型的启发式多目标进化

分类： 人工智能

作者： Shunyu Yao, Fei Liu, Xi Lin, Zhichao Lu, Zhenkun Wang, Qingfu Zhang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16867v1

摘要： 启发式方法通常用于解决各种搜索和优化问题。设计启发式通常需要利用领域知识进行繁琐的手工制作。最近的工作利用大型语言模型（LLM）强大的语言和编码能力将其纳入自动启发式搜索中。然而，现有的研究侧重于目标问题的最优性能作为唯一目标，而忽略了在实践中至关重要的其他标准，例如效率和可扩展性。为了应对这一挑战，我们建议将启发式搜索建模为多目标优化问题，并考虑引入除最佳性能之外的其他实用标准。由于搜索空间的复杂性，传统的多目标优化方法难以有效地处理多目标启发式搜索。我们提出了第一个基于 LLM 的多目标启发式搜索框架，启发式多目标进化 (MEoH)，它以零样本的方式集成 LLM，生成一组非支配的启发式搜索，以满足多个设计标准。我们设计了一种新的优势相异机制，用于有效的群体管理和选择，其中结合了搜索空间中的代码相异性和目标空间中的优势。 MEoH 在两个著名的组合优化问题中得到了证明：在线装箱问题 (BPP) 和旅行商问题 (TSP)。结果表明，在一次运行中会自动生成各种精英启发法，提供比现有方法更多的权衡选项。它成功实现了具有竞争力或卓越的性能，同时将效率提高了多达 10 倍。此外，我们还观察到多目标搜索为启发式设计引入了新颖的见解，并导致了不同启发式的发现。

语言模型在现代医疗保健中的作用：全面回顾

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Amna Khalid, Ayma Khalid, Umar Khalid

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16860v1

摘要： 大语言模型（LLM）在医疗保健中的应用因其处理复杂医疗数据并为临床决策提供见解的能力而受到广泛关注。这些模型在理解和生成自然语言方面表现出了强大的能力，这对于医疗文档、诊断和患者互动至关重要。这篇综述考察了语言模型从早期阶段到当前最先进的大语言模型的发展轨迹，强调了它们在医疗保健应用中的优势，并讨论了数据隐私、偏见和道德考虑等挑战。探讨了大语言模型在加强医疗保健服务方面的潜力，以及确保其道德和有效融入医疗实践的必要步骤。

定量论证法律调解纠纷解决

分类： 人工智能

作者： Xiao Chi

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16854v1

摘要： 调解常常被视为谈判的延伸，而没有考虑到规范和事实在法律调解中发挥的独特作用。此外，当前针对不断变化的变量更新论点可接受性的方法经常需要引入新的论点或删除现有的论点，这在法律纠纷的决策过程中可能效率低下且繁琐。在本文中，我们的贡献有两个。首先，我们引入了QuAM（定量论证调解）框架，该框架在确定调解目标的可接受性时，整合了当事人的知识和调解员的知识，包括事实和法律规范。其次，我们开发了一种新的形式主义来模拟目标论证的可接受性和分配给与该论证相关的变量的值之间的关系。我们使用现实世界的法律调解作为运行示例来说明我们的方法。

通过认知建模揭示人工智能基准中的假设

分类： 人工智能, 计算和语言

作者： Jonathan H. Rystrøm, Kenneth C. Enevoldsen

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16849v1

摘要： 文化人工智能基准通常依赖于有关测量结构的隐含假设，导致模糊的表述，有效性较差且相互关系不明确。我们建议使用明确的认知模型作为结构方程模型来揭示这些假设。以跨语言对齐迁移为例，我们展示了这种方法如何回答关键研究问题并识别丢失的数据集。该框架从理论上为基准构建奠定了基础，并指导数据集开发以改进构建测量。通过拥抱透明度，我们迈向更严格、累积性的人工智能评估科学，挑战研究人员批判性地检查他们的评估基础。

OffRIPP：基于强化学习的离线信息路径规划

分类： 机器人技术, 人工智能

作者： Srikar Babu Gadipudi, Srujan Deolasee, Siva Kailas, Wenhao Luo, Katia Sycara, Woojun Kim

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16830v1

摘要： 信息路径规划（IPP）是机器人技术中的一项关键任务，智能体必须设计路径来收集有关目标环境的有价值的信息，同时遵守资源限制。强化学习 (RL) 已被证明对 IPP 有效，但它需要环境交互，这在实践中存在风险且成本高昂。为了解决这个问题，我们提出了一种基于 RL 的离线 IPP 框架，该框架可以优化信息增益，而无需在训练期间进行实时交互，通过避免交互来提供安全性和成本效益，以及在执行过程中提供卓越的性能和快速计算 - 关键强化学习的优点。我们的框架利用批量约束强化学习来减少外推错误，使代理能够从任意算法生成的预先收集的数据集中学习。我们通过广泛的模拟和真实实验来验证该框架。数值结果表明我们的框架优于基线，证明了所提出方法的有效性。

人工智能方法在现代力控制造机器人任务中的作用

分类： 机器人技术, 人工智能

作者： Vincenzo Petrone, Enrico Ferrentino, Pasquale Chiacchio

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16828v1

摘要： 本立场文件探讨了在先进制造（工业 4.0 的基石）范围内将人工智能 (AI) 集成到力控机器人任务中。人工智能在增强机器人操纵器（第四次工业革命的关键驱动力）方面的作用正在迅速导致智能制造领域的重大创新。本文的目的是在实际的力控制应用中构建这些创新 - 例如去毛刺、抛光和装配任务，如钉孔 (PiH) - 凸显了维持高质量生产标准的必要性。通过报告最新的基于人工智能的方法，本文对它们进行了对比，并确定了未来研究中需要解决的当前挑战。分析最后展望了未来的研究方向，强调需要通用的性能指标来验证人工智能技术、集成各种增强功能以实现性能优化，以及在相关场景中验证它们的重要性。这些未来的方向旨在与已采用的方法保持一致，以便与制造标准兼容，从而提高人工智能驱动方法在学术和工业环境中的相关性。

使用时间离散隐式 Runge-Kutta PINN 学习相空间流

分类： 机器学习, 人工智能, 数值分析, 动力系统, 数值分析

作者： Álvaro Fernández Corral, Nicolás Mendoza, Armin Iske, Andrey Yachmenev, Jochen Küpper

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16826v1

摘要： 我们提出了一个计算框架，用于使用高阶隐式龙格库塔物理信息神经网络（IRK-PINN）方案获得非线性耦合微分方程组的多维相空间解。建立在最初求解取决于坐标的场微分方程的基础工作的基础上 [J.计算。物理。 378, 686 (2019)]，我们使该方案适应坐标被视为函数的上下文。这种修改使我们能够有效地求解外部场中粒子的运动方程。我们的方案对于明确的时间无关和周期性场特别有用。我们应用这种方法成功地求解了中心力场中的质量粒子和周期性电场中的带电粒子的运动方程。

部分可观测性下深度强化学习的状态空间层的不确定性表示

分类： 机器学习, 人工智能

作者： Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16824v1

摘要： 部分可观测性下的最优决策需要对环境隐藏状态的不确定性进行推理。然而，大多数强化学习架构使用序列模型处理部分可观察性，这些模型没有内部机制将不确定性纳入其隐藏状态表示中，例如循环神经网络、确定性状态空间模型和变压器。受强化学习概率世界模型进展的启发，我们提出了一个独立的卡尔曼滤波器层，该层在线性状态空间模型中执行封闭式高斯推理，并在无模型架构中进行端到端训练，以最大化回报。与高效的线性循环层类似，卡尔曼滤波器层使用并行扫描处理顺序数据，该并行扫描随序列长度呈对数缩放。根据设计，卡尔曼滤波器层是标准无模型架构中其他循环层的直接替代品，但重要的是它们包括用于潜在状态表示的概率过滤的显式机制。在具有部分可观测性的各种任务中进行的实验表明，卡尔曼滤波器层在不确定性推理是决策关键的问题上表现出色，优于其他有状态模型。

XAI 引导的不平衡数据集绝缘子异常检测

分类： 计算机视觉和模式识别, 人工智能

作者： Maximilian Andreas Hoefler, Karsten Mueller, Wojciech Samek

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16821v1

摘要： 电网是众多行业的重要组成部分，为工业流程和技术无缝输送电能，使其安全可靠的运行不可或缺。然而，由于地形复杂或气候条件恶劣，电力线可能很难检查。因此，越来越多地部署无人机来检查电力线路，从而产生大量的视觉数据流，需要快速、准确的处理。深度学习方法在这项任务中已广泛流行，事实证明它是故障检测中的宝贵资产。特别是，绝缘子缺陷的检测对于预测电力线故障至关重要，因为它们的故障可能导致传输中断。因此，持续维护和严格检查绝缘子部件非常有意义。在这项工作中，我们提出了一种新颖的管道来解决这一任务。我们利用最先进的对象检测来检测并随后对单个绝缘子异常进行分类。我们的方法通过微调方法解决了数据集挑战，例如不平衡和运动模糊图像，该方法使我们能够通过提高异常绝缘体的分类精度来改变模型的分类焦点。此外，我们还采用可解释的人工智能工具来精确定位和解释异常情况。这种提出的方法有助于异常检测领域，特别是基于视觉的工业检查和预测性维护。我们将缺陷检测精度显着提高了 13%，同时还提供了模型错误分类和定位质量的详细分析，展示了我们的方法在实际数据上的潜力。

PeerArg：大语言模型的论证性同行评审

分类： 人工智能

作者： Purin Sukpanichnant, Anna Rapberger, Francesca Toni

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16813v1

摘要： 同行评审是确定提交给科学会议或期刊的论文质量的重要过程。然而，它是主观的并且容易产生偏见。已经进行了几项研究来应用 NLP 技术来支持同行评审，但它们基于黑盒技术，并且其输出难以解释和信任。在本文中，我们提出了一种新颖的管道来支持和理解同行评审的评审和决策过程：将大语言模型与知识表示方法相结合的 PeerArg 系统。 PeerArg 输入一组论文评论并输出论文接受预测。我们评估了 PeerArg 管道在三个不同数据集上的性能，并与一种新颖的端到端 LLM 进行比较，该 LLM 使用少量学习来预测给定评论的论文接受度。结果表明，end-2-end LLM 能够预测审稿中论文的接受程度，但 PeerArg 管道的变体优于该 LLM。

大型语言模型预测 2024 年印度夏季季风降雨量高于正常水平

分类： 人工智能, 机器学习, 应用领域

作者： Ujjawal Sharma, Madhav Biyani, Akhil Dev Suresh, Debi Prasad Bhuyan, Saroj Kanta Mishra, Tanmoy Chakraborty

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16799v1

摘要： 全印度夏季季风降雨 (AISMR) 的可靠预测对于该国制定明智的决策至关重要，影响着数十亿人的生活。然而，由于各种多尺度因素的复杂相互作用以及季风系统固有的变化性，AISMR的精确模拟一直是一个持续的挑战。这项研究的重点是调整和微调最新的 LLM 模型 PatchTST，以在三个月的时间内准确预测 AISMR。经过微调的 PatchTST 模型使用历史 AISMR 数据、Ni~no3.4 指数和印度洋偶极子分类值进行训练，其性能优于几种流行的神经网络模型和统计模型。这个经过微调的 LLM 模型的 RMSE 百分比极低，为 0.07%，Spearman 相关性为 0.976。这尤其令人印象深刻，因为它比性能最佳的神经网络模型准确率高出近 80%。模型预测2024年季风偏多，6月至9月全国累计降雨量921.6毫米。

用于 OOD 泛化和检测的可扩展集成多样化

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Alexander Rubinstein, Luca Scimeca, Damien Teney, Seong Joon Oh

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16797v1

摘要： 训练多样化的模型集合具有多种实际应用，例如为模型选择提供更好的分布外 (OOD) 泛化能力，以及通过贝叶斯原理检测 OOD 样本。现有的多样化集成训练方法鼓励模型对提供的 OOD 样本产生分歧。然而，该方法的计算成本很高，并且需要充分分离的 ID 和 OOD 示例，因此它仅在小规模设置中进行了演示。 $\textbf{Method.}$ 这项工作提出了一种适用于不需要 OOD 样本的大规模设置（例如 ImageNet）的可扩展集成多样化（SED）方法。相反，SED 会即时识别困难训练样本，并鼓励集成成员对这些样本提出不同意见。为了改善扩展，我们展示了如何避免模型之间详尽的成对分歧的现有方法中昂贵的计算。 $\textbf{结果。}$ 我们通过在 ImageNet 上进行实验来评估多样化的好处。首先，对于 OOD 泛化，我们观察到多种设置的多样化带来了巨大的好处，包括输出空间（经典）集成和权重空间集成（模型汤）。其次，对于 OOD 检测，我们将集合假设的多样性转化为一种新颖的不确定性得分估计器，该估计器超越了大量 OOD 检测基线。代码可在此处获取：https://github.com/AlexanderRubinstein/diverse-universe-public。

强化学习的符号状态划分

分类： 机器学习, 人工智能

作者： Mohsen Ghaffari, Mahsa Varshosaz, Einar Broch Johnsen, Andrzej Wąsowski

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16791v1

摘要： 表格强化学习方法不能直接在连续状态空间上运行。该问题的一种解决方案是划分状态空间。良好的划分可以在学习过程中进行泛化，并更有效地利用先前的经验。因此，学习过程变得更快并产生更可靠的策略。然而，划分引入了近似，这在状态分量之间存在非线性关系的情况下特别有害。理想的划分应该尽可能粗，同时捕获给定问题的状态空间的关键结构。这项工作通过符号执行从环境动态中提取分区。我们表明，符号划分提高了环境行为方面的状态空间覆盖范围，并允许强化学习在稀疏奖励方面表现更好。我们评估符号状态空间划分的精度、可扩展性、学习代理性能和学习策略的状态空间覆盖范围。

通过特征归因增强人工智能回归任务中的特征选择和可解释性

分类： 机器学习, 人工智能, 68, I.2.0

作者： Alexander Hinterleitner, Thomas Bartz-Beielstein, Richard Schulz, Sebastian Spengler, Thomas Winter, Christoph Leitenmeier

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16787v1

摘要： 可解释人工智能（XAI）的研究正在不断增加，旨在使深度学习模型更加透明。大多数 XAI 方法侧重于证明人工智能 (AI) 系统在安全相关应用中做出的决策的合理性。然而，使用这些方法来提高深度学习算法的性能和鲁棒性的关注相对较少。此外，许多现有的 XAI 工作主要解决分类问题。在本研究中，我们研究了特征归因方法在回归问题的输入数据中过滤掉无信息特征的潜力，从而提高预测的准确性和稳定性。我们引入了一个特征选择管道，它将集成梯度与 k 均值聚类相结合，从初始数据空间中选择一组最佳变量。为了验证这种方法的有效性，我们将其应用于现实世界的工业问题——涡轮机械开发过程中的叶片振动分析。

通过自上而下的测试用例生成和多轮交互实现大型语言模型的整体自动化红队

分类： 计算和语言, 人工智能, 密码学和安全

作者： Jinchuan Zhang, Yan Zhou, Yaxin Liu, Ziming Li, Songlin Hu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16783v1

摘要： 自动红队是识别大型语言模型 (LLM) 中不一致行为的有效方法。然而，现有方法通常主要关注提高攻击成功率，而忽视了全面测试用例覆盖的需求。此外，这些方法大多数仅限于单轮红队，无法捕捉现实世界人机交互的多轮动态。为了克服这些限制，我们提出了 HARM（整体自动化红队），它使用基于可扩展、细粒度风险分类的自上而下的方法来扩大测试用例的多样性。我们的方法还利用新颖的微调策略和强化学习技术，以类似人类的方式促进多轮对抗性探测。实验结果表明，我们的框架可以更系统地理解模型漏洞，并为对齐过程提供更有针对性的指导。

LLaMa-SciQ：用于回答科学 MCQ 的教育聊天机器人

分类： 人工智能

作者： Marc-Antoine Allard, Matin Ansaripour, Maria Yuffa, Paul Teiletche

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16779v1

摘要： 大型语言模型 (LLM) 经常难以完成需要数学推理的任务，尤其是多项选择题 (MCQ)。为了解决这个问题，我们开发了 LLaMa-SciQ，这是一个教育聊天机器人，旨在帮助大学生解决和理解 STEM 领域的 MCQ。我们首先根据人类偏好对模型进行微调和调整。在比较了 Mistral-7B 和 LLaMa-8B 的性能后，我们选择后者作为基础模型，因为它具有更高的评估精度。为了进一步提高准确性，我们实施检索增强生成（RAG）并应用量化来压缩模型，减少推理时间并提高学生的可访问性。对于数学推理，LLaMa-SciQ 在 GSM8k 数据集上实现了 74.5% 的准确率，在 MATH 数据集上实现了 30% 的准确率。然而，RAG 不会提高性能，甚至会降低性能，这可能是由于检索器问题或模型对上下文不熟悉造成的。尽管如此，量化模型的性能仅损失了 5%，显示出显着的效率提升。

超级水平集和指数衰减：稳定神经网络训练的协同方法

分类： 机器学习, 人工智能

作者： Jatin Chaudhary, Dipak Nidhi, Jukka Heikkonen, Haari Merisaari, Rajiv Kanth

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16769v1

摘要： 本文的目的是通过开发有效集成指数衰减和先进的防过度拟合策略的动态学习率算法来增强神经网络的优化过程。我们的主要贡献是建立了一个理论框架，在该框架中我们证明了优化景观在我们的算法的影响下表现出由李亚普诺夫稳定性原理定义的独特稳定性特征。具体来说，我们证明了损失函数的超层集在自适应学习率的影响下始终是连接的，从而确保了一致的训练动态。此外，我们建立了这些超级集的“等连通性”属性，它在不同的训练条件和时期保持一致的稳定性。本文有助于对神经网络中动态学习率机制的理论理解，也为开发更高效、更可靠的神经优化技术铺平了道路。本研究旨在在神经网络训练的背景下形式化并验证损失函数作为超水平集的等连通性，为自适应机器学习算法的未来研究开辟新的途径。我们利用以前的理论发现提出了可以有效处理复杂和高维数据环境的训练机制，特别是在需要高精度和可靠性的应用程序中。

MaViLS，视频到幻灯片对齐的基准数据集，利用语音、OCR 和视觉特征的多模态对齐算法评估基线精度

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 图像和视频处理

作者： Katharina Anderer, Andreas Reich, Matthias Wölfel

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16765v1

摘要： 本文提出了一个用于将讲座视频与相应幻灯片对齐的基准数据集，并介绍了一种利用语音、文本和图像特征的新颖的多模态算法。与 SIFT (0.56) 相比，它的平均准确度为 0.82，同时速度提高了约 11 倍。该算法使用动态规划来尝试确定最佳的幻灯片顺序。结果表明，惩罚幻灯片转换可以提高准确性。通过光学字符识别（OCR）获得的特征对高匹配精度的贡献最大，其次是图像特征。研究结果强调，音频转录本身就可以为对齐提供有价值的信息，并且在缺乏 OCR 数据的情况下是有益的。不同讲座之间的匹配准确性的差异凸显了与视频质量和讲座风格相关的挑战。新颖的多模态算法展示了对其中一些挑战的鲁棒性，强调了该方法的潜力。

用于无线电资源管理的离线和分布式强化学习

分类： 机器学习, 人工智能, 多代理系统

作者： Eslam Eldeeb, Hirley Alves

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16764v1

摘要： 强化学习（RL）已被证明在未来智能无线网络中具有广阔的前景。无线资源管理（RRM）采用在线强化学习，取代了传统方案。然而，由于它依赖于与环境的在线交互，因此在在线交互不可行的实际问题中，它的作用变得有限。此外，传统的强化学习在现实随机环境中的不确定性和风险面前表现不佳。通过这种方式，我们针对 RRM 问题提出了一种离线分布式强化学习方案，能够使用静态数据集进行离线训练，而无需与环境进行任何交互，并使用回报的分布来考虑不确定性的来源。仿真结果表明，所提出的方案优于传统的资源管理模型。此外，它是唯一超越在线 RL 的方案，并且比在线 RL 获得了 $16 %$ 的收益。

GB-RVFL：随机神经网络和粒度球计算的融合

分类： 机器学习, 人工智能

作者： M. Sajid, A. Quadir, M. Tanveer

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16735v1

摘要： 随机向量函数链接（RVFL）网络是一种突出的分类模型，具有很强的泛化能力。然而，RVFL 统一处理所有样本，忽略它们是纯样本还是噪声样本，并且由于需要反转整个训练矩阵，其可扩展性受到限制。为了解决这些问题，我们提出了颗粒球 RVFL（GB-RVFL）模型，该模型使用颗粒球（GB）作为输入而不是训练样本。该方法仅需要 GB 中心矩阵的逆，从而增强了可扩展性，并通过 GB 的粗粒度提高了针对噪声和异常值的鲁棒性。此外，RVFL 忽略了数据集的几何结构。为了解决这个问题，我们提出了图嵌入 GB-RVFL（GE-GB-RVFL）模型，该模型融合了粒度计算和图嵌入（GE）来保留 GB 的拓扑结构。所提出的 GB-RVFL 和 GE-GB-RVFL 模型在 KEEL、UCI、NDC 和生物医学数据集上进行了评估，证明了与基线模型相比的卓越性能。

非平稳 BERT：探索增强型 IMU 数据以实现稳健的人类活动识别

分类： 人工智能, 计算机视觉和模式识别

作者： Ning Sun, Yufei Wang, Yuwei Zhang, Jixiang Wan, Shenyue Wang, Ping Liu, Xudong Zhang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16730v1

摘要： 由于移动设备的普及以及需要观察用户的日常活动数据以实现更好的人机交互，人类活动识别（HAR）受到了研究人员的极大关注。在这项工作中，我们收集了一个名为 OPPOHAR 的人类活动识别数据集，由手机 IMU 数据组成。为了促进 HAR 系统在手机中的应用并实现用户特定的活动识别，我们提出了一种称为非平稳 BERT 的新型轻量级网络，采用两阶段训练方法。我们还提出了一种简单而有效的数据增强方法来探索 IMU 中的加速器和陀螺仪数据之间更深层次的关系。该网络在各种活动识别数据集上实现了最先进的性能测试，数据增强方法证明了其广泛的适用性。

基于多数据集分类的深度学习框架，用于医疗保健中的电子健康记录和预测分析

分类： 人工智能

作者： Syed Mohd Faisal Malik, Md Tabrez Nafis, Mohd Abdul Ahad, Safdar Tanweer

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16721v1

摘要： 在当代医疗保健中，为了保护患者数据，电子健康记录已成为宝贵的存储库，为利用深度学习技术进行预测分析创造了巨大的机会。通过整合深度学习技术对不同数据集进行分类，视网膜眼底图像、肝硬化阶段和心脏病诊断预测已显示出有希望的结果。这项研究提出了一种新颖的深度学习预测分析框架，通过预处理来自三个不同来源的数据来对多个数据集进行分类。提出了一种结合残差网络和人工神经网络的混合深度学习模型，用于检测心脏病、肝硬化和视网膜疾病等急慢性疾病，其性能优于现有模型。数据集准备涉及分类数据转换、降维和缺失数据合成等方面。使用分类数据集的缩放器变换和图像数据集的 ResNet 架构可以有效地执行特征提取。由此产生的特征被集成到统一的分类模型中。经过严格的实验和评估，视网膜眼底图像、肝硬化分期和心脏病诊断预测的准确率分别达到 93%、99% 和 95%。通过对 F1 分数、精确度和召回率指标的详细分析，证明了所提出方法的有效性。这项研究对方法和实验进行了全面的探索，提供了电子健康记录中深度学习预测分析的深入知识。

通过简单的参数高效修改进行视觉语言模型微调

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习, 机器人技术

作者： Ming Li, Jike Zhong, Chenxin Li, Liuzhuozheng Li, Nie Lin, Masashi Sugiyama

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16718v1

摘要： 微调视觉语言模型（VLM）的最新进展见证了提示调整和适配器调整的成功，而对固有参数的经典模型微调似乎被忽视了。人们相信，用少量样本来微调 VLM 的参数会破坏预先训练的知识，因为微调 CLIP 模型甚至会降低性能。在本文中，我们重新审视了这一观点，并提出了一个新的视角：微调特定参数而不是全部参数将揭示经典模型微调在 VLM 上的威力。通过我们细致的研究，我们提出了 ClipFit，这是一种简单而有效的方法来微调 CLIP，而不引入任何额外参数的开销。我们证明，仅通过微调特定偏差项和归一化层，ClipFit 就可以将零样本 CLIP 的性能提高 7.27% 平均调和平均精度。最后，为了了解 CLIPFit 中的微调如何影响预训练模型，我们进行了广泛的实验分析。内部参数和表示的变化。我们发现低级文本偏差层和第一层归一化层的变化比其他层大得多。该代码可在 \url{https://github.com/minglllli/CLIPFit} 获取。

Pix2Next：利用 Vision Foundation 模型进行 RGB 到 NIR 图像转换

分类： 计算机视觉和模式识别, 人工智能

作者： Youngwan Jin, Incheol Park, Hanbin Song, Hyeongjin Ju, Yagiz Nalcakan, Shiho Kim

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16706v1

摘要： 本文提出了 Pix2Next，这是一种新颖的图像到图像转换框架，旨在解决从 RGB 输入生成高质量近红外 (NIR) 图像的挑战。我们的方法在编码器-解码器架构中利用最先进的视觉基础模型（VFM），结合交叉注意机制来增强特征集成。该设计捕获详细的全局表示并保留基本的光谱特征，将 RGB 到 NIR 转换视为不仅仅是一个简单的域转移问题。多尺度 PatchGAN 判别器确保在各种细节级别生成真实的图像，而精心设计的损失函数将全局上下文理解与局部特征保留结合起来。我们在 RANUS 数据集上进行了实验，展示了 Pix2Next 在定量指标和视觉质量方面的优势，与现有方法相比，FID 分数提高了 34.81%。此外，我们通过使用生成的 NIR 数据来增强有限的真实 NIR 数据集来展示下游对象检测任务的改进性能，从而展示了 Pix2Next 的实用性。所提出的方法无需额外的数据采集或注释工作即可扩展 NIR 数据集，从而有可能加速基于 NIR 的计算机视觉应用的进步。

低位大语言模型综述：基础知识、系统和算法

分类： 人工智能, 计算和语言, 机器学习

作者： Ruihao Gong, Yifu Ding, Zining Wang, Chengtao Lv, Xingyu Zheng, Jinyang Du, Haotong Qin, Jinyang Guo, Michele Magno, Xianglong Liu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16694v1

摘要： 大型语言模型 (LLM) 在自然语言处理方面取得了显着的进步，在各种任务中展现了卓越的性能。然而，昂贵的内存和计算要求对其实际部署提出了重大挑战。低位量化已成为通过减少模型参数、激活和梯度的位宽来缓解这些挑战的关键方法，从而减少内存使用和计算需求。本文对专为大语言模型量身定制的低比特量化方法进行了全面的调查，涵盖基本原理、系统实现和算法策略。首先概述了低位 LLM 的基本概念和新数据格式，然后回顾了跨各种硬件平台促进低位 LLM 的框架和系统。然后，我们对大语言模型高效低位训练和推理的技术和工具包进行分类和分析。最后，我们讨论了低位大语言模型的未来趋势和潜在进步。我们从基础、系统和算法角度进行的系统概述可以为未来通过低位量化提高大语言模型的效率和适用性的工作提供有价值的见解和指导。

CaBRNet，一个用于开发和评估基于案例的推理模型的开源库

分类： 人工智能

作者： Romain Xu-Darme, Aymeric Varasse, Alban Grastien, Julien Girard, Zakaria Chihani

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16693v1

摘要： 在可解释的人工智能领域，人们致力于设计可自我解释的模型，作为事后方法的更有原则的替代方案，事后方法试图在模型不透明地做出决策后解释决策。然而，这一富有成效的研究路线存在着共同的缺点：缺乏可重复性、不可行的比较、标准不同。在本文中，我们提出了 CaBRNet，这是一种用于基于案例的推理网络的开源、模块化、向后兼容的框架：https://github.com/aiser-team/cabrnet。

布局校正器：缓解离散扩散模型中的布局粘连现象

分类： 计算机视觉和模式识别, 人工智能, 图形, 机器学习

作者： Shoma Iwai, Atsuki Osanai, Shunsuke Kitada, Shinichiro Omachi

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16689v1

摘要： 布局生成是一项将和谐布局与以类别、位置和大小等属性为特征的元素合成的任务。人类设计师尝试放置和修改元素来创建美观的布局，但是，我们观察到当前的离散扩散模型 (DDM) 在生成后很难纠正不和谐的布局。在本文中，我们首先对 DDM 中的布局粘连现象提供了新颖的见解，然后提出了一种简单而有效的布局评估模块 Layout-Corrector，它与现有的 DDM 结合使用来解决布局粘连问题。我们提出了一个基于学习的模块，能够识别布局中的不和谐元素，考虑到以复杂组成为特征的整体布局和谐。在生成过程中，Layout-Corrector 会评估生成布局中每个 token 的正确性，将得分较低的 token 重新初始化为未生成状态。然后，DDM 使用高分令牌作为线索重新生成协调令牌。 Layout-Corrector 经过常见基准测试，与各种最先进的 DDM 结合使用时，可以持续提高布局生成性能。此外，我们的广泛分析表明，布局校正器 (1) 成功识别错误标记，(2) 有助于控制保真度与多样性之间的权衡，(3) 显着减轻与快速采样相关的性能下降。

MSI-Agent：将多尺度洞察力融入具体代理中，以实现卓越的规划和决策

分类： 人工智能, 计算和语言

作者： Dayuan Fu, Biqing Qi, Yihuai Gao, Che Jiang, Guanting Dong, Bowen Zhou

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16686v1

摘要： 长期记忆对于智能体来说非常重要，其中洞察力起着至关重要的作用。然而，不相关洞察力的出现和一般洞察力的缺乏会极大地破坏洞察力的有效性。为了解决这个问题，在本文中，我们引入了多尺度洞察代理（MSI-Agent），这是一种体现代理，旨在通过有效地总结和利用不同尺度的洞察来提高大语言模型的规划和决策能力。 MSI 通过体验选择器、洞察生成器和洞察选择器来实现这一目标。利用由三部分组成的管道，MSI 可以生成特定于任务的高级见解，将其存储在数据库中，然后使用其中的相关见解来帮助决策。我们的实验表明，在通过 GPT3.5 进行规划时，MSI 优于另一种洞察策略。此外，我们还深入研究了选择种子经验和见解的策略，旨在为LLM提供更有用和相关的见解，以便更好地做出决策。我们的观察还表明，MSI 在面对域转移场景时表现出更好的鲁棒性。

擦除然后纠正：一种无需培训的参数编辑方法，可实现经济高效的图遗忘

分类： 机器学习, 人工智能

作者： Zhe-Rui Yang, Jindong Han, Chang-Dong Wang, Hao Liu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16684v1

摘要： 图解学习旨在消除经过训练的图神经网络 (GNN) 中特定节点、边或属性的影响，这在涉及隐私、偏见或数据过时的应用程序中至关重要。然而，现有的图去学习技术通常需要对剩余数据进行额外的训练，从而导致巨大的计算成本，特别是对于大规模图。为了应对这些挑战，我们提出了一种两阶段免训练方法，即擦除然后纠正（ETR），旨在实现高效且可扩展的图取消学习，同时保留模型效用。具体来说，我们首先建立一个理论基础，表明对未学习样本至关重要的掩蔽参数可以实现有效的遗忘。基于这一见解，擦除阶段策略性地编辑模型参数，以消除未学习样本的影响及其对相互关联节点的传播影响。为了进一步确保 GNN 的实用性，纠正阶段设计了一种梯度近似方法来估计模型在剩余数据集上的梯度，然后用于增强模型性能。总体而言，ETR 无需额外训练或完整训练数据访问即可实现图解学习，从而显着减少计算开销并保护数据隐私。对七个公共数据集的广泛实验证明了 ETR 在模型实用性、遗忘效率和遗忘有效性方面始终如一的优越性，使其成为应对现实世界图遗忘挑战的有前途的解决方案。

TSBP：通过测试时自引导边界框传播改进组织学图像中的对象检测

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Tingting Yang, Liang Xiao, Yizhe Zhang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16678v1

摘要： 通常应用全局阈值（例如 0.5）来确定对象检测任务的最终结果中应包含哪些边界框。较高的阈值可以减少误报，但可能会导致漏掉大部分真报。较低的阈值可以提高检测召回率，但也可能导致更多误报。因此，使用应用于所有候选边界框的预设全局阈值（例如 0.5）可能会导致次优解决方案。在本文中，我们提出了一种测试时自引导边界框传播（TSBP）方法，利用地球移动器距离（EMD）来增强组织学图像中的对象检测。 TSBP 利用高置信度的边界框来影响低置信度的边界框，利用它们之间的视觉相似性。这种传播机制使得能够以可控、可解释和鲁棒的方式选择边界框，这超越了使用简单阈值和不确定性校准方法的有效性。重要的是，与校准方法不同，TSBP 不需要额外的标记样本来进行模型训练或参数估计。我们对组织学图像中的腺体检测和细胞检测任务进行实验。结果表明，我们提出的 TSBP 与最先进的基于深度学习的检测网络结合使用时，显着改善了检测结果。与不确定性校准等其他方法相比，TSBP 可以在不使用额外标记样本的情况下产生更稳健、更准确的目标检测预测。代码可在 https://github.com/jwhgdeu/TSBP 获取。

GraphLoRA：跨图迁移学习的结构感知对比低秩适应

分类： 机器学习, 人工智能

作者： Zhe-Rui Yang, Jindong Han, Chang-Dong Wang, Hao Liu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16670v1

摘要： 图神经网络（GNN）在处理电子商务和社交网络等各个领域的一系列图分析任务方面表现出了卓越的能力。尽管 GNN 具有多功能性，但它在可转移性方面面临着重大挑战，限制了它们在实际应用中的实用性。现有的 GNN 迁移学习研究忽视了各种图数据集之间分布的差异，在不同分布之间迁移时面临着挑战。如何有效地将训练有素的 GNN 应用于具有不同特征和结构分布的新图仍然是一个尚未探索的问题。受到低秩适应（LoRA）在使大型语言模型适应各种领域方面的成功的启发，我们提出了 GraphLoRA，这是一种有效且参数高效的方法，用于将训练有素的 GNN 转移到不同的图领域。具体来说，我们首先提出了一种结构感知最大平均差异（SMMD）来对齐源图和目标图之间不同的节点特征分布。此外，我们通过在预先训练的 GNN 旁边注入一个小型可训练的 GNN 来引入低秩适应，有效地弥合结构分布差距，同时减轻灾难性遗忘。此外，还提出了结构感知正则化目标，以增强预训练的 GNN 对具有稀缺监督标签的目标图的适应性。对六个真实世界数据集的大量实验证明了 GraphLoRA 通过仅调整 20% 的参数来针对 11 个基线的有效性，即使跨不同的图域也是如此。该代码可在 https://anonymous.4open.science/r/GraphLoRA 获取。

用于实时无人机跟踪的渐进式表示学习

分类： 计算机视觉和模式识别, 人工智能

作者： Changhong Fu, Xiang Lei, Haobo Zuo, Liangliang Yao, Guangze Zheng, Jia Pan

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16652v1

摘要： 视觉目标跟踪极大地促进了无人机（UAV）的自主应用。然而，在复杂的动态环境中，当面临纵横比变化和遮挡时，学习用于无人机跟踪的鲁棒对象表示尤其具有挑战性。这些挑战严重改变了物体的原始信息。为了解决上述问题，本文提出了一种新颖的用于无人机跟踪的渐进表示学习框架，即 PRL-Track。具体来说，PRL-Track分为粗表示学习和细表示学习。对于粗表示学习，两个依赖外观和语义信息的创新调节器旨在减轻外观干扰并捕获语义信息。此外，为了精细表示学习，开发了一种新的分层建模生成器来交织粗略对象表示。详尽的实验表明，所提出的 PRL-Track 在三个权威的无人机跟踪基准测试中具有出色的性能。实际测试表明，所提出的 PRL-Track 在配备边缘智能相机的典型无人机平台上实现了每秒 42.6 帧的卓越跟踪性能。代码、模型和演示视频可在 \url{https://github.com/vision4robotics/PRL-Track} 获取。

通过几何对齐进行多任务学习中的任务添加

分类： 机器学习, 人工智能

作者： Soorin Yim, Dae-Woong Jeong, Sung Moon Ko, Sumin Lee, Hyunseung Kim, Chanhui Lee, Sehui Han

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16645v1

摘要： 在有限的数据上训练深度学习模型同时保持泛化性是分子特性预测的基本挑战之一。一种有效的解决方案是将从丰富的数据集中提取的知识转移到数据稀缺的数据集中。最近，引入了一种称为几何对齐传输编码器（GATE）的新颖算法，该算法通过对齐特定于任务的潜在空间的几何形状来使用软参数共享。然而，由于计算成本的原因，GATE 在扩展到多个任务方面面临着限制。在本研究中，我们提出了一种 GATE 任务添加方法，以提高有限数据下目标任务的性能，同时最大限度地降低计算复杂度。它是通过在大型数据集上进行有监督的多任务预训练，然后为每个目标任务添加和训练特定于任务的模块来实现的。我们的实验证明了 GATE 的任务添加策略比传统的多任务方法具有优越的性能，并且计算成本相当。

训练语言模型通过自我对弈赢得辩论提高法官准确性

分类： 计算和语言, 人工智能, I.2.0; I.2.6

作者： Samuel Arnesen, David Rein, Julian Michael

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16636v1

摘要： 我们通过训练模型来与自我对弈生成的数据进行辩论，从而测试辩论作为一种可扩展监督方法的稳健性。在长上下文阅读理解任务中，我们发现基于语言模型的评估器在判断为赢得辩论而优化的模型时能够更准确地回答问题。相比之下，我们发现在没有对手辩手在场的情况下训练说服法官的咨询模型不存在这种关系。在我们的辩论模型和新颖的咨询基线之间的定量和定性比较中，我们发现证据表明辩论训练鼓励更有力和信息更丰富的论点，这表明它可以帮助为难以直接评估的任务提供高质量的监督。

思想判断：大语言模型二元逻辑推理的法庭

分类： 人工智能

作者： Sungjune Park, Daeseon Choi

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16635v1

摘要： 本文提出了一种称为思维判断（JoT）的新型即时工程技术，专为二元逻辑推理任务量身定制。 JoT 采用三个角色$\unicode{x2014}$律师、检察官和法官$\unicode{x2014}$来促进模型进行更可靠和准确的推理。在这个框架中，法官使用高$\unicode{x2010}$级别的模型，而律师和检察官使用低$\unicode{x2010}$级别的模型。这种结构有助于法官更好地理解律师和检察官的反应，从而做出更准确的判断。 BigBenchHard 和 Winogrande 等大型语言模型 (LLM) 基准数据集上的实验结果表明，JoT 在二进制逻辑推理方面优于现有方法，包括 Chain of Thought (CoT) 和 Self$\unicode{x2010}$Consistency (SC)任务。此外，在真实的$\unicode{x2010}$世界任务中，例如假新闻检测和垃圾短信检测，JoT 与现有技术相比显示出可比或改进的性能。 JoT 显着提高了二元推理任务中模型的准确性和可靠性，并显示出跨各个领域的实际适用性的潜力。未来的研究应该旨在进一步扩大 JoT 的适用性，并优化其实现，以真正解决$\unicode{x2010}$世界问题$\unicode{x2010}$。

具有平均池化的随机子采样

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Bum Jun Kim, Sang Woo Kim

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16630v1

摘要： 深度神经网络的正则化一直是在不出现过拟合问题的情况下实现更高泛化性能的一个重要问题。虽然流行的 Dropout 方法提供了正则化效果，但它会导致输出中属性不一致，这可能会降低深度神经网络的性能。在这项研究中，我们提出了一个称为随机平均池化的新模块，它在池化中融入了类似 Dropout 的随机性。我们描述了随机子采样和平均池的属性，并利用它们来设计一个没有任何不一致问题的模块。随机平均池实现了正则化效果，不会因不一致问题而导致任何潜在的性能下降，并且可以轻松插入现有的深度神经网络架构中。实验表明，用随机平均池化替换现有的平均池化可以在各种任务、数据集和模型中产生一致的改进。

用于深度学习的升腾 HiFloat8 格式

分类： 机器学习, 人工智能, 硬件架构

作者： Yuanyong Luo, Zhongxing Zhang, Richard Wu, Hu Liu, Ying Jin, Kai Zheng, Minmin Wang, Zhanying He, Guipeng Hu, Luyao Chen, Tianchi Hu, Junsong Wang, Minqi Chen, Mikhaylov Dmitry, Korviakov Vladimir, Bobrin Maxim, Yuhao Hu, Guanfu Chen, Zeyi Huang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16626v1

摘要： 本初步白皮书提出了一种用于深度学习的新型 8 位浮点数据格式 HiFloat8（简称 HiF8）。 HiF8 具有锥度精度。对于普通值编码，它提供 7 个带 3 位尾数的指数、8 个带 2 位尾数的指数和 16 个带 1 位尾数的指数。对于非正规或次正规值编码，它将动态范围扩展了 7 个额外的 2 次方，从 31 个二进制数扩展到 38 个二进制数（请注意，FP16 涵盖 40 个二进制数）。同时，HiF8 对除正零和负零仅由一种位模式表示之外的所有特殊值进行编码。得益于精度和动态范围之间更好的平衡，HiF8可以同时用于AI训练的前向和后向传递。在本文中，我们将描述HiF8的定义和舍入方法，以及尝试性的训练和推理解决方案。为了展示 HiF8 格式的功效，还将展示对各种神经网络（包括传统神经网络和大型语言模型（LLM））的大量模拟结果。

各就各位，准备好，预测！对级联的连续时间动态进行建模以进行信息流行度预测

分类： 人工智能

作者： Xin Jing, Yichen Jing, Yuhuan Lu, Bangchao Deng, Sikun Yang, Dingqi Yang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16623v1

摘要： 信息流行度预测在各个领域都很重要，但也具有挑战性，包括病毒式营销和新闻推荐。准确预测信息流行度的关键在于巧妙地对信息级联观察事件（例如推文的转发）背后的底层时间信息扩散过程进行建模。为此，大多数现有方法要么采用循环网络来捕获从第一个到最后一个观察事件的时间动态，要么开发基于自激点过程的统计模型来进行预测。然而，信息扩散本质上是一个复杂的连续时间过程，具有不规则观察到的离散事件，使用循环网络将其过于简单化，因为它们无法捕获事件之间的不规则时间间隔，或者使用自激点过程，因为它们缺乏捕获事件之间的不规则的灵活性。复杂的扩散过程。在此背景下，我们提出了ConCat，对级联的连续时间动态进行建模以进行信息流行度预测。一方面，它利用神经常微分方程（ODE）根据级联图和顺序事件信息对连续时间内级联的不规则事件进行建模。另一方面，它将级联事件视为由条件强度函数参数化的神经时间点过程（TPP），这也有利于流行度预测任务。我们进行了大量的实验，在三个真实数据集上评估 ConCat。结果表明，与最先进的基线相比，ConCat 实现了卓越的性能，在三个数据集上比性能最佳的基线提高了 2.3%-33.2%。

大语言模型的蕴涵驱动隐私政策分类

分类： 人工智能

作者： Bhanuka Silva, Dishanika Denipitiyage, Suranga Seneviratne, Anirban Mahanti, Aruna Seneviratne

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16621v1

摘要： 虽然许多在线服务为最终用户提供隐私政策，以供其阅读和了解正在收集哪些个人数据，但这些文档通常冗长而复杂。结果，绝大多数用户根本不阅读它们，导致在不知情的情况下收集数据。人们已经做出了一些尝试，通过总结隐私政策、为关键部分提供自动注释或标签，或者提供聊天界面来提出特定问题，从而使隐私政策更加用户友好。随着大型语言模型 (LLM) 的最新进展，我们有机会开发更有效的工具来解析隐私策略并帮助用户做出明智的决策。在本文中，我们提出了一种基于蕴涵驱动的大语言模型框架，将隐私政策的段落分类为易于用户理解的有意义的标签。结果表明，我们的框架优于传统的 LLM 方法，F1 分数平均提高了 11.2%。此外，我们的框架提供了本质上可解释且有意义的预测。

优化蒙特卡罗树搜索以增强 FrozenLake 环境中的决策能力

分类： 人工智能

作者： Esteban Aldana Guerra

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16620v1

摘要： 蒙特卡洛树搜索 (MCTS) 是解决复杂决策问题的强大算法。本文提出了一种应用于 FrozenLake 环境的优化 MCTS 实现，这是一种以随机转换为特征的经典强化学习任务。该优化利用累积奖励和访问计数表以及树的上置信界 (UCT) 公式，从而在不稳定的网格世界中实现高效学习。我们将我们的实现与其他决策算法（包括带有策略和 Q-Learning 的 MCTS）进行基准测试，并对它们的性能进行详细比较。结果表明，我们的优化方法有效地最大化了奖励和成功率，同时最小化了收敛时间，优于基线方法，特别是在具有固有随机性的环境中。

CasFT：利用动态线索驱动扩散模型进行信息流行度预测的未来趋势建模

分类： 人工智能

作者： Xin Jing, Yichen Jing, Yuhuan Lu, Bangchao Deng, Xueqin Chen, Dingqi Yang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16619v1

摘要： 在线社交平台上多样化信息的快速传播促使学术界和工业界认识到预测内容流行度的重要性，这可能使推荐系统和战略决策等广泛的应用受益。最近的工作主要集中在提取给定观察期内信息传播过程中固有的时空模式，以预测其在未来一段时间内的受欢迎程度。然而，这些工作往往忽视了未来的流行趋势，因为未来的流行度可能呈指数级增长或停滞，从而给预测性能带来不确定性。此外，如何将从观察到的扩散过程中学到的前期动态转化为未来趋势仍然是一个尚未探索的挑战。在此背景下，我们提出了CasFT，它利用观察到的信息级联和通过神经常微分方程提取的动态线索作为条件，通过扩散模型指导未来流行度增加趋势的生成。然后将这些生成的趋势与观察到的信息级联中的时空模式相结合，以做出最终的流行度预测。对三个真实世界数据集进行的大量实验表明，与最先进的方法相比，CasFT 显着提高了预测准确性，在不同数据集上的预测精度提高了 2.2%-19.3%。

实际应用中的声明引导文本后门攻击

分类： 计算和语言, 人工智能, 密码学和安全

作者： Minkyoo Song, Hanna Kim, Jaehan Kim, Youngjin Jin, Seungwon Shin

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16618v1

摘要： 自然语言处理的最新进展和大型语言模型的使用增加暴露了新的安全漏洞，例如后门攻击。以前的后门攻击需要在模型分发后进行输入操作才能激活后门，这在实际应用中造成了限制。为了解决这一差距，我们引入了一种新颖的声明引导后门攻击（CGBA），它通过利用固有的文本声明作为触发器来消除此类操作的需要。 CGBA 利用声明提取、聚类和有针对性的训练来欺骗模型，使其在目标声明上出现错误行为，而不影响其在干净数据上的性能。 CGBA 在各种数据集和模型中展示了其有效性和隐蔽性，显着增强了实际后门攻击的可行性。我们的代码和数据将在 https://github.com/PaperCGBA/CGBA 上提供。

ECG-图像数据库：具有真实世界成像和扫描伪影的心电图图像数据集；计算机心电图图像数字化和分析的基础

分类： 定量方法, 人工智能, 图像和视频处理, 信号处理

作者： Matthew A. Reyna, Deepanshi, James Weigle, Zuzana Koscova, Kiersten Campbell, Kshama Kodthalu Shivashankara, Soheil Saghafi, Sepideh Nikookar, Mohsen Motie-Shirazi, Yashar Kiarashi, Salman Seyedi, Gari D. Clifford, Reza Sameni

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16612v1

摘要： 我们引入了 ECG 图像数据库，这是一个由 ECG 时间序列数据生成的大型且多样化的心电图 (ECG) 图像集合，其中包含真实世界的扫描、成像和物理伪影。我们使用 ECG-Image-Kit（一个开源 Python 工具包）从原始心电图时间序列生成 12 导联心电图打印输出的逼真图像。这些图像包括数字和物理生成的真实扭曲，例如噪声、皱纹、污渍和透视偏移。该工具包应用于 PTB-XL 数据库中的 977 条 12 导联心电图记录和 Emory Healthcare 的 1,000 条心电图记录，以创建高保真合成心电图图像。这些独特的图像使用 ECG-Image-Kit 进行程序扭曲，并受到浸泡、染色和霉菌生长等物理效果的影响，然后在各种照明条件下进行扫描和摄影，以创建真实世界的文物。生成的数据集包括 35,595 个软件标记的心电图图像，具有广泛的成像伪影和失真。该数据集提供了真实的时间序列数据和图像，为开发用于心电图数字化和分类的机器和深度学习模型提供了参考。图像的质量各不相同，从干净纸张的清晰扫描到退化纸张的嘈杂照片，使得开发更通用的数字化算法成为可能。 ECG 图像数据库满足了对纸质和非数字心电图进行数字化以进行计算机分析的关键需求，为开发能够将心电图图像转换为时间序列的强大机器和深度学习模型奠定了基础。该数据集旨在作为心电图数字化和计算机注释工作的参考。 ECG-Image-Database 在 2024 年 PhysioNet Challenge 中用于 ECG 图像数字化和分类。

评估和增强大型语言模型以进行学术出版物的新颖性评估

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Ethan Lin, Zhiyuan Peng, Yi Fang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16605v1

摘要： 最近的研究主要从语义角度，使用认知科学的基准来评估大语言模型（LLM）的创造力/新颖性。然而，在评估大语言模型时，获取学术出版物中的新颖性在很大程度上是一个尚未探索的领域。在本文中，我们引入了学术新颖性基准（SchNovel）来评估大语言模型评估学术论文新颖性的能力。 SchNovel 包含从 arXiv 数据集中抽取的六个领域的 15000 对论文，发表日期相隔 2 到 10 年。在每一对中，最近发表的论文被认为更新颖。此外，我们提出了 RAG-Novelty，它通过利用相似论文的检索来模拟人类审稿人的审稿过程来评估新颖性。大量实验深入了解了不同大语言模型评估新颖性的能力，并证明 RAG-Novelty 优于最新的基线模型。

用于分割学习的混合量子神经网络

分类： 量子物理学, 人工智能

作者： Hevish Cowlessur, Chandra Thapa, Tansu Alpcan, Seyit Camtepe

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16593v1

摘要： 量子机器学习 (QML) 是一个新兴的研究领域，具有分布式协作学习的潜在应用，例如分割学习 (SL)。 SL 允许资源受限的客户端与服务器协作训练 ML 模型，减少计算开销，并通过避免原始数据共享来实现数据隐私。尽管已经研究了具有 SL 的 QML，但在客户缺乏量子计算能力的资源受限环境中，该问题仍然存在。此外，SL中客户端和服务器之间的数据隐私泄露会给服务器端带来重构攻击的风险。为了解决这些问题，我们提出了混合量子分裂学习（HQSL），这是混合 QML 在 SL 中的应用。 HQSL 使经典客户端能够使用混合量子服务器训练模型并减少重建攻击。此外，我们还引入了一种新颖的量子位高效数据加载技术，用于在 HQSL 中设计量子层，从而最大限度地减少量子位数量和电路深度。在五个数据集上的实验证明了 HQSL 相对于经典模型的可行性和增强分类性能的能力。值得注意的是，HQSL 在 Fashion-MNIST 数据集的准确性和 F1 分数方面平均提高了 3% 以上，在 Speech Commands 数据集的两个指标方面平均提高了 1.5% 以上。我们将这些研究扩展到多达 100 个客户，从而证实了 HQSL 的可扩展性。此外，我们引入了基于噪声的防御机制来应对服务器端的重建攻击。总体而言，HQSL 使传统客户能够与混合量子服务器协作训练其模型，利用量子优势，同时提高模型性能和安全性，以抵御与数据隐私泄漏相关的重建攻击。

MambaJSCC：具有广义状态空间模型的自适应深度联合源通道编码

分类： 信息论, 人工智能, 机器学习, 信息论

作者： Tong Wu, Zhiyong Chen, Meixia Tao, Yaping Sun, Xiaodong Xu, Wenjun Zhang, Ping Zhang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16592v1

摘要： 用于深度联合源通道编码（JSCC）的轻量级且高效的神经网络模型对于语义通信至关重要。在本文中，我们提出了一种新颖的 JSCC 架构，名为 MambaJSCC，它以较低的计算和参数开销实现了最先进的性能。 MambaJSCC 利用带有通道自适应的视觉状态空间模型（VSSM-CA）块作为通过无线通道传输图像的骨干，其中 VSSM-CA 主要由广义状态空间模型（GSSM）和零参数、零参数组成。计算信道自适应方法（CSI-ReST）。我们设计了GSSM模块，利用可逆矩阵变换来表达广义扫描扩展操作，并从理论上证明两个GSSM模块可以有效捕获全局信息。我们发现 GSSM 天生具有适应通道的能力，这是一种内源智能。基于此，我们设计了CSI-ReST方法，该方法将信道状态信息（CSI）注入到GSSM的初始状态中以利用其本机响应，并将信道状态信息注入到剩余状态中以减轻CSI遗忘，从而在不引入额外计算的情况下实现有效的信道自适应和参数开销。实验结果表明，MambaJSCC 不仅在各种场景下优于现有的 JSCC 方法（例如 SwinJSCC），而且还显着减少了参数大小、计算开销和推理延迟。

AutoSTF：用于经济高效的自动时空预测的解耦神经架构搜索

分类： 机器学习, 人工智能

作者： Tengfei Lyu, Weijia Zhang, Jinliang Deng, Hao Liu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16586v1

摘要： 时空预测是各种智慧城市应用的重要组成部分，例如交通优化、能源管理和社会经济分析。最近，已经提出了几种自动时空预测方法来自动搜索最佳神经网络架构以捕获复杂的时空依赖性。然而，现有的自动化方法面临着昂贵的神经架构搜索开销，这阻碍了它们的实际使用以及更细粒度的各种时空算子的进一步探索。在本文中，我们提出了 AutoSTF，一种解耦的自动神经架构搜索框架，用于经济高效的自动化时空预测。从效率的角度来看，我们首先将混合搜索空间解耦为时间空间和空间空间，并分别设计表示压缩和参数共享方案以减轻参数爆炸。解耦的时空搜索不仅加快了模型优化过程，而且为更有效的时空依赖建模留下了新的空间。从有效性的角度来看，我们提出了一种多补丁传输模块来联合捕获多粒度时间依赖性并扩展空间搜索空间以实现更细粒度的逐层空间依赖性搜索。对八个数据集的大量实验证明了 AutoSTF 在准确性和效率方面的优越性。具体来说，与最先进的自动时空预测方法相比，我们提出的方法实现了高达 13.48 倍的加速，同时保持了最佳的预测精度。

通过人类偏好景观的不确定性感知主动学习，在室外环境中进行反应式多机器人导航

分类： 机器人技术, 人工智能

作者： Chao Huang, Wenshuo Zang, Carlo Pinciroli, Zhi Jane Li, Taposh Banerjee, Lili Su, Rui Liu

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16577v1

摘要： 与单个机器人相比，多机器人系统（MRS）由于存在多个具有不同能力的成员，可以更有效地执行任务。然而，由于不确定性和各种障碍（例如，构建集群和树），在广泛的现实环境中部署 MRS 仍然具有挑战性。由于对环境不确定性对性能的影响了解有限，MRS无法灵活调整其行为（例如，组队、负载共享、轨迹规划）以确保环境适应和任务完成。在这项工作中，设计了一种新颖的联合偏好景观学习和行为调整框架（PLBA）。 PLBA 将实时人类指导有效地集成到 MRS 协调中，并利用具有变化输出噪声的稀疏变分高斯过程，通过利用环境特征之间的空间相关性来快速评估人类偏好。然后，基于优化的行为调整方法可以安全地使 MRS 行为适应环境。为了验证PLBA在MRS行为适应方面的有效性，设计了洪水灾害搜救任务。 20位人类用户根据从与“任务质量”、“任务进度”、“机器人安全”相关的MRS行为中获得的人类偏好，提供了1764条反馈。预测精度和适应速度结果表明了PLBA在偏好学习和MRS行为适应方面的有效性。

通过微调弱标签上的轻量级大语言模型，增强放射学报告中的疾病检测

分类： 人工智能

作者： Yishu Wei, Xindi Wang, Hanley Ong, Yiliang Zhou, Adam Flanders, George Shih, Yifan Peng

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16563v1

摘要： 尽管在将大型语言模型（LLM）应用于医学领域方面取得了重大进展，但仍有一些限制阻碍了它们的实际应用。其中包括模型大小的限制和缺乏特定于队列的标记数据集。在这项工作中，我们研究了通过使用合成标签对数据集进行微调来改进轻量级 LLM（例如 Llama 3.1-8B）的潜力。两个任务通过组合各自的指令数据集来联合训练。当任务特定合成标签的质量相对较高时（例如，由 GPT4-o 生成），Llama 3.1-8B 在开放式疾病检测任务上取得了令人满意的性能，微 F1 得分为 0.91。相反，当与任务相关的合成标签的质量相对较低时（例如，来自 MIMIC-CXR 数据集），微调后的 Llama 3.1-8B 能够超越其嘈杂的教师标签（微 F1 分数为 0.67 vs. 0.63）当根据策划的标签进行校准时，表明模型具有强大的内在基础能力。这些发现证明了利用合成标签微调大语言模型的潜力，为医学领域大语言模型专业化的未来研究提供了有希望的方向。

用于高效 LLM 推理的动态宽度推测光束解码

分类： 人工智能

作者： Zongyue Qin, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16560v1

摘要： 大型语言模型 (LLM) 在众多现实任务中表现出了出色的性能。然而，这些模型的自回归性质使得推理过程缓慢且成本高昂。推测性解码已成为一种有前途的解决方案，利用较小的辅助模型来起草未来的令牌，然后由较大的模型同时验证，从而实现 1-2 倍的加速。尽管推测解码与多项式采样匹配相同的分布，但多项式采样本身很容易产生次优输出，而波束采样被广泛认为可以通过在每一步维护多个候选序列来产生更高质量的结果。本文探讨了推测解码与波束采样的新颖集成。然而，存在四个关键挑战：（1）如何根据小模型的草图序列从较大模型的分布生成多个序列； (2)如何动态优化波束数量以平衡效率和精度； (3)如何高效地并行验证多个草案； (4) 如何解决波束采样固有的额外内存成本。为了应对这些挑战，我们提出了动态宽度推测波束解码（DSBD）。具体来说，我们首先介绍一种新颖的草案和验证方案，该方案根据小模型的光束采样轨迹生成遵循大模型分布的多个序列。然后，我们引入了一种自适应机制，可以根据上下文动态调整波束数量，从而优化效率和效果。此外，我们扩展了基于树的并行验证以同时处理多棵树，从而加速了验证过程。最后，我们说明了对算法的简单修改，以减轻波束采样的内存开销......

揭秘 LLM 开源项目中的问题、原因和解决方案

分类： 软件工程, 人工智能

作者： Yangxiao Cai, Peng Liang, Yifei Wang, Zengyang Li, Mojtaba Shahin

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16559v1

摘要： 随着大型语言模型（LLM）的进步，越来越多的开源软件项目正在使用LLM作为其核心功能组件。尽管大语言模型的研究和实践引起了相当大的兴趣，但没有专门的研究探讨大语言模型开源项目的从业者面临的挑战、这些挑战的原因以及潜在的解决方案。为了填补这一研究空白，我们进行了实证研究，了解从业者在开发和使用LLM开源软件时遇到的问题、这些问题的可能原因以及潜在的解决方案。我们收集了15个LLM开源软件的所有已关闭问题满足我们要求的项目和标记问题。然后，我们从标记的问题中随机选取 994 个问题作为样本进行数据提取和分析，以了解普遍存在的问题、其根本原因和潜在的解决方案。我们的研究结果表明，（1）模型问题是从业者面临的最常见问题，（2）模型问题、配置和连接问题以及特征和方法问题被认为是问题最常见的原因，（3）优化模型是解决问题的主要方法。根据研究结果，我们为 LLM 开源项目的从业者和研究人员提供了启示。

用于语篇级文学翻译的上下文感知和风格相关的增量解码框架

分类： 人工智能

作者： Yuanchang Luo, Jiaxin Guo, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhanglin Wu, Zhiqiang Rao, Shaojun Li, Jinlong Yang, Hao Yang

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16539v1

摘要： 本报告概述了我们针对 WMT24 语篇级文学翻译任务的方法，重点关注受限轨道中的中英语言对。由于文学作品固有的微妙含义、惯用表达和复杂的叙事结构，翻译文学文本提出了重大挑战。为了应对这些挑战，我们利用了 Chinese-Llama2 模型，该模型通过持续预训练 (CPT) 和监督微调 (SFT) 的结合专门针对此任务进行了增强。我们的方法包括一个新颖的增量解码框架，该框架确保每个句子的翻译都考虑到其更广泛的上下文，从而保持整个文本的连贯性和一致性。这种方法允许模型捕获长期依赖性和风格元素，生成忠实保留原始文学质量的翻译。我们的实验证明了句子级和文档级 BLEU 分数的显着改进，强调了我们提出的框架在解决文档级文学翻译的复杂性方面的有效性。

用于 YOLO 目标检测的无源域适应

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Simon Varailhon, Masih Aminbeidokhti, Marco Pedersoli, Eric Granger

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16538v1

摘要： 无源域适应（SFDA）是对象检测中的一个具有挑战性的问题，出于隐私和效率原因，预训练的源模型无需使用任何源域数据即可适应新的目标域。大多数最先进的 SFDA 对象检测方法都是针对 Faster-RCNN 提出的，Faster-RCNN 是一种已知具有高计算复杂性的检测器。本文重点介绍现实世界视觉系统的域适应技术，特别是以其快速基线和实际应用而闻名的 YOLO 系列单次检测器。我们提出的 SFDA 方法 - 无源 YOLO (SF-YOLO) - 依赖于师生框架，在该框架中，学生接收具有学习的、特定于目标域的增强的图像，从而允许仅使用未标记的目标数据来训练模型，并且无需特征对齐。在没有标签的情况下使用平均教师架构进行自我训练的一个挑战是，由于噪声或漂移的伪标签，准确性迅速下降。为了解决这个问题，引入了师生沟通机制，以帮助稳定训练并减少模型选择对带注释的目标数据的依赖。尽管它很简单，但我们的方法在几个具有挑战性的基准数据集上与最先进的检测器具有竞争力，甚至有时优于使用源数据进行适应的方法。

使用在线轴估计和基于 SAM2 的跟踪进行铰接式对象操纵

分类： 机器人技术, 人工智能, 图形, 机器学习

作者： Xi Wang, Tianxing Chen, Qiaojun Yu, Tianling Xu, Zanxin Chen, Yiting Fu, Cewu Lu, Yao Mu, Ping Luo

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16287v1

摘要： 铰接式对象操纵需要精确的对象交互，其中必须仔细考虑对象的轴。先前的研究采用交互式感知来操纵铰接式物体，但通常开环方法常常会忽视交互动态。为了解决这一限制，我们提出了一种闭环管道，将交互式感知与分段 3D 点云的在线轴估计相结合。我们的方法利用任何交互式感知技术作为交互式感知的基础，诱导轻微的物体移动来生成不断变化的动态场景的点云帧。然后使用 Segment Anything Model 2 (SAM2) 对这些点云进行分割，然后遮盖物体的移动部分，以进行精确的运动在线轴估计，指导后续的机器人动作。我们的方法显着提高了涉及铰接物体的操纵任务的精度和效率。模拟环境中的实验表明，我们的方法优于基线方法，特别是在需要精确的基于轴控制的任务中。项目页面：https://hytidel.github.io/video-tracking-for-axis-estimation/。

Fields of The World：全球农田边界分割的机器学习基准数据集

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Hannah Kerner, Snehal Chaudhari, Aninda Ghosh, Caleb Robinson, Adeel Ahmad, Eddie Choi, Nathan Jacobs, Chris Holmes, Matthias Mohr, Rahul Dodhia, Juan M. Lavista Ferres, Jennifer Marcus

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16252v1

摘要： 农田边界是农业监测和评估的基础数据集，但手动收集的成本很高。从遥感图像中自动提取田野边界的机器学习（ML）方法可以帮助实现全球范围内对这些数据集的需求。然而，当前用于字段实例分割的机器学习方法缺乏足够的地理覆盖范围、准确性和泛化能力。此外，由于缺乏代表全球农业领域多样性的标记数据集，改进机器学习方法的研究受到限制。我们推出了 Fields of The World (FTW)——一个新颖的 ML 基准数据集，用于跨越四大洲（欧洲、非洲、亚洲和南美洲）24 个国家的农田实例分割。 FTW 比之前的数据集大一个数量级，包含 70,462 个样本，每个样本都包含实例和语义分割掩模，并与多日期、多光谱 Sentinel-2 卫星图像配对。我们为新的 FTW 基准提供了基线模型的结果，表明在 FTW 上训练的模型在坚持国家/地区比未使用不同数据集进行预训练的模型具有更好的零样本和微调性能，并且显示出积极的定性FTW 模型在现实场景中的零样本结果——在埃塞俄比亚上空的 Sentinel-2 场景上运行。

LLM Echo Chamber：个性化和自动化的虚假信息

分类： 人工智能, 计算机与社会

作者： Tony Ma

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16241v1

摘要： 最近的进展展示了 GPT4 和 Llama2 等大型语言模型在摘要、翻译和内容审阅等任务中的能力。然而，它们的广泛使用引起了人们的担忧，特别是大语言模型有可能大规模传播有说服力的、人性化的错误信息，这可能会严重影响公众舆论。本研究探讨了这些风险，重点关注大语言模型将错误信息传播为事实的能力。为了调查这一点，我们建立了大语言模型回声室，这是一个模拟社交媒体聊天室的受控数字环境，错误信息经常在聊天室中传播。在回声室中，个人只与志同道合的人互动，这进一步巩固了信念。通过研究在这种环境下传播错误信息的恶意机器人，我们可以更好地理解这种现象。我们回顾了当前的大语言模型，探讨了错误信息风险，并应用了 sota 微调技术。使用 Microsoft phi2 模型，并使用我们的自定义数据集进行微调，我们生成了有害内容来创建回声室。这种设置经过 GPT4 的说服力和危害性评估，揭示了围绕大语言模型的道德问题，并强调需要采取更强有力的措施来防范错误信息。

标签增强数据集蒸馏

分类： 计算机视觉和模式识别, 人工智能

作者： Seoungyoon Kang, Youngsun Lim, Hyunjung Shim

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16239v1

摘要： 传统的数据集蒸馏主要关注图像表示，而往往忽视标签的重要作用。在本研究中，我们引入了标签增强数据集蒸馏（LADD），这是一种新的数据集蒸馏框架，通过标签增强来增强数据集蒸馏。 LADD 对每个合成图像进行子采样，生成额外的密集标签以捕获丰富的语义。这些密集标签仅需要增加 2.5% 的存储（ImageNet 子集），具有显着的性能优势，提供强大的学习信号。我们的标签生成策略可以补充现有的数据集蒸馏方法，从而显着提高其训练效率和性能。实验结果表明，LADD 在计算开销和准确性方面优于现有方法。凭借三种高性能数据集蒸馏算法，LADD 的准确率平均提高了 14.9%，取得了显着的进步。此外，我们的方法的有效性在各种数据集、蒸馏超参数和算法中得到了证明。最后，我们的方法提高了蒸馏数据集的跨架构鲁棒性，这在应用场景中很重要。

通过对挖掘的规则进行廉价排序来有效学习概率逻辑模型

分类： 人工智能

作者： Jonathan Feldstein, Dominic Phillips, Efthymia Tsamoura

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16238v1

摘要： 概率逻辑模型是神经符号人工智能的核心组成部分，对于需要高度可解释性的任务来说，它本身就是重要的模型。与神经网络不同，逻辑模型通常是利用领域专业知识手工制作的，这使得其开发成本高昂且容易出错。虽然有些算法可以从数据中学习逻辑模型，但它们通常非常昂贵，限制了它们在现实世界中的适用性。在这项工作中，我们引入了逻辑规则的精确度和召回率，并将其组成定义为规则效用——一种评估逻辑模型预测能力的经济高效的衡量标准。此外，我们还介绍了 SPECTRUM，这是一个可扩展的框架，用于从关系数据中学习逻辑模型。其可扩展性源自线性时间算法，该算法挖掘数据中的循环结构，以及第二种算法，该算法使用廉价的效用度量，有效地对从这些结构构建的规则进行排名。此外，我们对所学逻辑模型的效用得出了理论保证。因此，SPECTRUM 在现实数据集上学习更准确的逻辑模型的速度比以前的方法快几个数量级。

使用生存变压器、极限梯度提升和 Cox 比例风险模型预测轻度认知障碍的恶化

分类： 机器学习, 人工智能, 神经和进化计算

作者： Henry Musto, Daniel Stamate, Doina Logofatu, Daniel Stahl

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16231v1

摘要： 该论文提出了一种生存变压器和极端梯度增强模型的新方法，利用 ADNI 队列中的代谢组学数据来预测轻度认知障碍 (MCI) 个体的认知恶化。通过利用先进的机器学习和基于变压器的技术应用于生存分析，所提出的方法突出了这些技术在阿尔茨海默氏痴呆症更准确的早期检测和干预方面的潜力。这项研究还强调了非侵入性生物标志物和创新建模工具在提高痴呆症风险评估准确性方面的重要性，为临床实践和患者护理提供新途径。全面的蒙特卡洛模拟程序由 100 次重复的嵌套交叉验证组成，其中模型经过训练和评估，表明基于 Transformer 和 XGBoost 的生存机器学习模型实现了最高的平均 C 指数性能，即 0.85 和 0.8，分别优于传统的生存分析 Cox 比例风险模型，该模型的平均 C 指数为 0.77。此外，根据蒙特卡洛模拟中获得的C-Index性能的标准差，我们确定上述两种生存机器学习模型都比传统的统计模型更稳定。

如果经过校准，微调就很好

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Zheda Mai, Arpita Chowdhury, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Vardaan Pahuja, Tanya Berger-Wolf, Song Gao, Charles Stewart, Yu Su, Wei-Lun Chao

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16223v1

摘要： 微调可以说是为下游应用定制预训练模型（例如基础模型）的最直接方法，但它也存在丢失模型在预训练中学到的宝贵知识的风险。例如，对能够识别大量类别的预训练分类器进行微调以掌握手头的类别子集会大大降低模型在之前学习的其他类别中的准确性。因此，当遇到微调数据之外的类时，很难进一步使用微调模型。在本文中，我们系统地剖析了这个问题，旨在回答一个基本问题：“微调模型中损坏了什么？”令我们惊讶的是，我们发现微调模型并没有忘记模型之间的关系。其他类也不会降低识别这些类的功能。相反，微调后的模型通常会为这些其他类产生更具区分性的特征，即使它们在微调期间丢失了！ {真正影响准确性的是微调类和其他类之间的差异 logit 尺度}，这意味着简单的后处理校准将恢复预训练模型的能力，同时揭示与之前相比的特征改进所有课程。我们进行了广泛的实证研究，以证明我们研究结果的稳健性，并提供其背后的初步解释，为未来的理论分析提出新的方向。我们的代码可在 https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrate 获取。

使用大型语言模型增强对话式 UI 中的链接数据检索

分类： 信息检索, 人工智能, 计算和语言

作者： Omar Mussa, Omer Rana, Benoît Goossens, Pablo Orozco-Terwengel, Charith Perera

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16220v1

摘要： 尽管最近在各个领域广泛采用大型语言模型（LLM），但它们在提取和探索关联数据（LD）和资源描述框架（RDF）三元组方面丰富信息系统的潜力尚未得到广泛探索。本文研究了 LLM 在现有系统中的集成，强调通过生成更准确的 SPARQL 查询而不需要模型重新训练来增强会话用户界面 (UI) 及其数据提取功能。通常，会话式 UI 模型需要通过引入新数据集或更新进行重新训练，从而限制了其作为通用提取工具的功能。我们的方法通过将大语言模型纳入对话式 UI 工作流程来解决这一限制，显着增强其有效理解和处理用户查询的能力。通过利用大语言模型先进的自然语言理解能力，我们的方法改进了使用传统聊天机器人的 Web 系统中的 RDF 实体提取。这种集成促进了更加细致和上下文感知的交互模型，对于处理 RDF 数据集和链接开放数据 (LOD) 端点中经常遇到的复杂查询模式至关重要。该方法的评估显示系统表达能力和用户查询响应的准确性显着增强，表明该领域未来研究的一个有希望的方向。这项调查不仅强调了大语言模型在增强现有信息系统方面的多功能性，而且还为进一步探索其在网络信息系统更专业领域的潜在应用奠定了基础。

聚类中面向问题的 AutoML

分类： 机器学习, 人工智能

作者： Matheus Camilo da Silva, Gabriel Marques Tavares, Eric Medvet, Sylvio Barbon Junior

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16218v1

摘要： 面向问题的 AutoML 聚类 (PoAC) 框架通过解决传统 AutoML 解决方案的缺点，引入了一种新颖、灵活的方法来自动执行聚类任务。传统方法通常依赖于预定义的内部聚类有效性指数（CVI）和静态元特征，限制了它们在不同聚类任务中的适应性和有效性。相比之下，PoAC 在聚类问题、CVI 和元特征之间建立了动态连接，允许用户根据任务的特定上下文和目标自定义这些组件。 PoAC 的核心采用了在先前聚类数据集和解决方案的大型元知识库上训练的代理模型，使其能够推断新聚类管道的质量并为未见过的数据集合成最佳解决方案。与许多受固定评估指标和算法集限制的 AutoML 框架不同，PoAC 与算法无关，可以无缝适应不同的聚类问题，无需额外的数据或重新训练。实验结果表明，PoAC 不仅在各种数据集上优于最先进的框架，而且在数据可视化等特定任务上也表现出色，并突出了其根据数据集复杂性动态调整管道配置的能力。

面部表情增强 TTS：结合面部表征和情绪强度以实现自适应语音

分类： 声音, 人工智能, 音频和语音处理

作者： Yunji Chu, Yunseob Shim, Unsang Park

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16203v1

摘要： 我们提出了 FEIM-TTS，这是一种创新的零样本文本转语音 (TTS) 模型，可合成具有情感表达能力的语音，与面部图像对齐并按情感强度进行调制。利用深度学习，FEIM-TTS 超越了传统的 TTS 系统，可以解释面部线索并调整情感细微差别，而不依赖于标记数据集。为了解决稀疏的视听情感数据问题，该模型使用 LRS3、CREMA-D 和 MELD 数据集进行训练，证明了其适应性。 FEIM-TTS 具有生成高质量、与说话者无关的语音的独特能力，使其适合为虚拟角色创建适应性强的语音。此外，FEIM-TTS 显着增强了视力障碍或视力障碍人士的可访问性。通过将情感细微差别整合到 TTS 中，我们的模型为网络漫画提供了动态且引人入胜的听觉体验，让视障用户能够更充分地享受这些叙述。综合评估证明其在调节情感和强度、促进情感语音合成和可访问性方面的熟练程度。示例可在以下网址获取：https://feim-tts.github.io/。

CJEval：使用中国初中考试数据评估大型语言模型的基准

分类： 人工智能

作者： Qian-Wen Zhang, Haochen Wang, Fang Li, Siyu An, Lingfeng Qiao, Liangcai Gao, Di Yin, Xing Sun

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16202v2

摘要： 在线教育平台通过提供动态的数字基础设施，极大地改变了教育资源的传播方式。随着这种转变的进一步增强，大型语言模型（LLM）的出现提高了这些平台的智能水平。然而，当前的学术基准为现实行业场景提供的指导有限。出现这种限制是因为教育应用程序需要的不仅仅是测试问题的回答。为了弥补这一差距，我们推出了 CJEval，这是一个基于中国初中考试评估的基准。 CJEval 包含 26,136 个样本，涵盖四个应用级教育任务，涵盖十个科目。这些样本不仅包括问题和答案，还包括题型、难度、知识概念、答案解释等详细注释。通过利用这个基准，我们评估了大语言模型的潜在应用，并通过对各种教育任务进行微调，对其表现进行了全面分析。广泛的实验和讨论凸显了大语言模型在教育领域应用的机遇和挑战。

利用估计的可迁移性而不是人类直觉来选择文本排序中的模型

分类： 人工智能

作者： Jun Bai, Zhuofan Chen, Zhenzi Li, Hanhua Hong, Jianfei Zhang, Chen Li, Chenghua Lin, Wenge Rong

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16198v1

摘要： 文本排名取得了显着进步，这要归功于预训练语言模型 (PLM) 增强的双编码器的使用。鉴于可用 PLM 的激增，为给定数据集选择最有效的 PLM 已成为一项不小的挑战。作为人类直觉和强力微调的有前途的替代方案，可转移性估计（TE）已成为模型选择的有效方法。然而，当前的 TE 方法主要是为分类任务而设计的，其估计的可迁移性可能与文本排序的目标不太相符。为了应对这一挑战，我们建议将预期排名计算为可转移性，明确反映模型的排名能力。此外，为了减轻各向异性并结合训练动态，我们自适应地缩放各向同性句子嵌入以产生准确的预期排名分数。我们得出的方法，自适应排名可转移性（AiRTran），可以有效地捕获模型之间的细微差异。在跨各种文本排名数据集的具有挑战性的模型选择场景中，它比以前的面向分类的 TE 方法、人类直觉和 ChatGPT 有了显着的改进，并且只消耗了很少的时间。

具有函数逼近的上下文强盗的二阶界限

分类： 机器学习, 人工智能, 机器学习

作者： Aldo Pacchiano

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16197v1

摘要： 许多工作已经开发了具有函数逼近的上下文强盗的无悔算法，其中上下文-动作对的平均奖励属于函数类。尽管解决这个问题的方法有很多，但其中一个越来越重要的方法是使用基于乐观原理的算法，例如乐观最小二乘法。可以看出，该算法的后悔程度是 eluder 维数（函数类复杂性的统计度量）、函数类大小的对数和时间范围的乘积的平方根。不幸的是，即使每次奖励的测量噪声的方差都在变化并且非常小，乐观最小二乘算法的遗憾也会随着时间范围的平方根而变化。在这项工作中，我们是第一个开发算法，该算法满足缩放的后悔边界，不是用时间范围的平方根，而是用函数逼近的上下文强盗设置中测量方差之和的平方根，当方差为未知。这些界限概括了用于在上下文线性问题中导出二阶界限的现有技术。

使用大型语言模型完成网络知识

分类： 密码学和安全, 人工智能, J.7; H.3.3

作者： Braden K Webb, Sumit Purohit, Rounak Meyur

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16176v1

摘要： 物联网 (IoT) 与网络物理系统 (CPS) 的集成扩大了网络攻击面，引入了新的复杂威胁，有可能利用新兴漏洞。由于网络安全知识不完整且过时，评估 CPS 的风险变得越来越困难。这凸显了迫切需要更明智的风险评估和缓解策略。虽然以前的工作依赖于基于规则的自然语言处理（NLP）工具来映射漏洞、弱点和攻击模式，但大型语言模型（LLM）的最新进展提供了一个独特的机会，可以通过改进推理来增强网络攻击知识的完成，推理、总结能力。我们应用嵌入模型来封装有关攻击模式和对抗技术的信息，并使用向量嵌入生成它们之间的映射。此外，我们提出了一种基于检索增强生成（RAG）的方法，该方法利用预先训练的模型在威胁模式的不同分类法之间创建结构化映射。此外，我们使用小型手工标记数据集将所提出的基于 RAG 的方法与基线标准二元分类模型进行比较。因此，所提出的方法提供了一个全面的框架来解决网络攻击知识图谱完成的挑战。

像玩乐高一样合并 LoRA：通过按等级聚类将 LoRA 的模块化推向极致

分类： 机器学习, 人工智能, 计算和语言

作者： Ziyu Zhao, Tao Shen, Didi Zhu, Zexi Li, Jing Su, Xuwu Wang, Kun Kuang, Fei Wu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16167v1

摘要： 由于其模块化设计和在 Huggingface 等平台上的广泛可用性，低秩适应 (LoRA) 已成为一种流行的技术，可将大型语言模型 (LLM) 微调到各个领域。这种模块化激发了人们对组合多个 LoRA 以增强 LLM 功能的兴趣。然而，现有的 LoRA 组合方法主要侧重于需要额外训练的特定于任务的适应，并且当前的模型合并技术往往无法充分利用 LoRA 的模块化特性，导致参数干扰和性能下降。在本文中，我们研究了以更细粒度拆卸和重新组装多个 LoRA 的可行性，类似于组装乐高积木。我们引入了最小语义单元（MSU）的概念，其中LoRA中每个等级对应的参数作为独立的单元。这些 MSU 展示了排列不变性和级联求和等价属性，支持灵活组合以创建新的 LoRA。基于这些见解，我们提出了 LoRA-LEGO 框架。该框架通过将来自不同 LoRA 的 MSU 分组为 $k$ 集群来进行按等级参数聚类。每个集群的质心作为一个代表性的 MSU，能够组装一个调整后的等级为 $k$ 的合并 LoRA。此外，我们应用双重重新加权策略来优化合并后的 LoRA 的规模。跨各种基准的实验表明，我们的方法在 LoRA 合并方面优于现有方法。

EnIGMA：应对 CTF 挑战的增强型交互式生成模型代理

分类： 人工智能

作者： Talor Abramovich, Meet Udeshi, Minghao Shao, Kilian Lieret, Haoran Xi, Kimberly Milner, Sofija Jancheska, John Yang, Carlos E. Jimenez, Farshad Khorrami, Prashanth Krishnamurthy, Brendan Dolan-Gavitt, Muhammad Shafique, Karthik Narasimhan, Ramesh Karri, Ofir Press

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16165v1

摘要： 尽管语言模型（LM）代理在许多领域展现出越来越大的潜力，但由于设计简单且缺乏该领域的基本功能，它们在网络安全方面的成功受到限制。我们推出了 EnIGMA，一种用于自主解决夺旗 (CTF) 挑战的 LM 代理。 EnIGMA 引入了新的代理计算机接口 (ACI)，以提高 CTF 挑战的成功率。我们建立了新颖的交互式代理工具概念，使 LM 代理能够运行应对这些挑战所必需的交互式命令行实用程序。 EnIGMA 对来自三个不同基准的 350 多个 CTF 挑战进行的实证分析表明，提供一组强大的新工具并演示其用法有助于 LM 解决复杂问题并在 NYU CTF 和 Intercode 上取得最先进的结果CTF 基准。最后，我们讨论了有关 ACI 设计和代理在网络安全任务中的行为的见解，这些见解强调了为 LM 代理调整现实世界工具的必要性。

在事物中看到面孔：幻想性视错觉模型和数据集

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 信息检索, 机器学习

作者： Mark Hamilton, Simon Stent, Vasha DuTell, Anne Harrington, Jennifer Corbett, Ruth Rosenholtz, William T. Freeman

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16143v1

摘要： 人类视觉系统经过精心调整，可以检测各种形状和大小的面部。虽然这带来了明显的生存优势，例如有更好的机会在灌木丛中发现未知的捕食者，但它也会导致虚假的面部检测。 “面部幻想性错觉”描述了在随机刺激中对面部结构的感知：看到咖啡渍中的面部或天空中的云彩。在本文中，我们从计算机视觉的角度研究面部空想性视错觉。我们提出了一个“事物中的面孔”的图像数据集，由五千张带有人类注释的幻想面孔的网络图像组成。使用该数据集，我们检查了最先进的人脸检测器表现出空想性视错觉的程度，并发现人类和机器之间存在显着的行为差距。我们发现，人类在进化过程中需要检测动物面孔以及人类面孔，这可能在一定程度上解释了这一差距。最后，我们提出了图像中空想性视错觉的简单统计模型。通过对人类受试者和我们的空想性面部检测器的研究，我们确认了我们的模型关于哪些图像条件最有可能诱发空想性幻想的关键预测。数据集和网站：https://aka.ms/faces-in-things

HA-FGOVD：通过显式线性组合突出显示细粒度属性以进行开放词汇对象检测

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 多媒体

作者： Yuqi Ma, Mengyin Liu, Chao Zhu, Xu-Cheng Yin

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16136v1

摘要： 开放词汇目标检测（OVD）模型由于其广泛的训练数据和大量参数而被认为是大型多模态模型（LMM）。主流OVD模型优先考虑对象的粗粒度类别，而不是关注其细粒度的属性，例如颜色或材质，因此无法识别具有某些属性的对象。然而，OVD 模型是在具有丰富属性词的大规模图像文本对上进行预训练的，其潜在特征空间可以将全局文本特征表示为细粒度属性标记的线性组合，而无需突出显示它们。因此，我们在本文中提出了一种适用于冻结主流 OVD 模型的通用且显式的方法，通过突出显式线性空间中的细粒度属性来增强其属性级检测能力。首先，利用大语言模型来突出显示输入文本中的属性词作为零样本提示任务。其次，通过策略性地调整标记掩码，OVD 模型的文本编码器提取全局文本和属性特定特征，然后将其显式组合为线性空间中的两个向量，以形成用于检测任务的新属性突出显示特征，其中相应标量是手工制作或学习的，用于重新调整两个向量的权重。值得注意的是，这些标量可以在不同的 OVD 模型之间无缝转移，这证明了这种显式线性组合是通用的。对 FG-OVD 数据集的实证评估表明，我们提出的方法统一改进了各种主流模型的细粒度属性级 OVD，并实现了新的最先进性能。

练习过程中对语言学习的内隐评估与外显测试一样准确

分类： 人工智能, 计算和语言, 计算机与社会

作者： Jue Hou, Anisia Katinskaia, Anh-Duc Vu, Roman Yangarber

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16133v1

摘要： 学习者的熟练程度评估是智能辅导系统（ITS）的重要组成部分。我们在计算机辅助语言学习中使用项目反应理论（IRT）来评估学生在两种情况下的能力：测试课程和练习课程中的练习。对各种技能进行详尽的测试可以提供熟练程度的详细情况，但由于多种原因可能是不可取的。因此，我们首先的目标是用高效但准确的自适应测试取代详尽的测试。我们使用从不完美条件下的详尽测试中收集的学习者数据来训练 IRT 模型来指导自适应测试。使用真实学习者数据进行的模拟和实验证实了这种方法是高效且准确的。其次，我们探讨是否可以直接从练习的实践背景中准确地估计学习者的能力，而无需进行测试。我们将从练习中收集的学习者数据转换为可用于 IRT 建模的形式。这是通过将练习链接到{\em语言结构}来完成的；然后，构建体在 IRT 中被视为“项目”。我们展示了对数千名学习者进行的大规模研究的结果。我们将教师对学生能力的评估作为“基本事实”，比较从测试中获得的估计值与从练习中获得的估计值。实验证实IRT模型可以根据练习产生准确的能力估计。

分析评估代理能力的概率方法

分类： 人工智能

作者： Axel Højmark, Govind Pimpale, Arjun Panickssery, Marius Hobbhahn, Jérémy Scheurer

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16125v1

摘要： 为了降低人工智能系统的风险，我们需要准确评估它们的能力。在很少显示功能的情况下，这尤其困难。芳等人。提出了两种方法，旨在更好地估计人工智能代理成功完成给定任务的概率。里程碑方法将任务分解为子任务，旨在提高总体成功率估计，而专家 best-of-N 方法则利用人类指导作为模型独立性能的代理。我们对这些方法作为蒙特卡罗估计量的分析表明，虽然与朴素蒙特卡罗采样相比，它们都有效地减少了方差，但它们也引入了偏差。实验结果表明，由于其限制性假设，里程碑方法低估了许多现实世界任务的真实解决率。由于重新加权因子存在固有缺陷，专家的 N 最佳方法在所有任务中表现出更严重的低估。为了提高人工智能代理在困难任务上的能力估计的准确性，我们建议未来的工作应该利用蒙特卡洛估计器的丰富文献。

MOSS：为 AI 代理启用代码驱动的进化和上下文管理

分类： 软件工程, 人工智能, 计算和语言

作者： Ming Zhu, Yi Zhou

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16120v1

摘要： 开发由大型语言模型 (LLM) 支持的人工智能代理在实现真正的图灵完整性和自适应、代码驱动的进化方面面临着重大挑战。当前的方法通常独立于其运行时上下文生成代码，严重依赖 LLM 的内存，这会导致效率低下并限制适应性。沙箱环境中的手动协议开发进一步限制了代理的自主适应性。至关重要的是，在多轮交互中实现代码和上下文的一致性并确保每次交互中局部变量的隔离仍然是一个未解决的问题。我们引入了 MOSS（面向 llM 的操作系统模拟），这是一种新颖的框架，它通过将代码生成与动态上下文管理系统集成来解决这些挑战。 MOSS 通过使用一种跨交互维护 Python 上下文的机制来确保一致性和适应性，包括局部变量的隔离和运行时完整性的保存。该框架的核心是采用控制反转 (IoC) 容器与装饰器相结合来强制执行最少知识原则，从而允许代理专注于抽象接口而不是具体实现。这有利于新工具和库的无缝集成，支持运行时实例替换，并降低提示复杂性，为代理提供“所见即所得”环境。通过一系列案例研究，我们展示了该框架如何提高代理开发的效率和能力，并强调其在迈向能够通过代码进化的图灵完备代理方面的优势。

使用方案场景：医疗领域发言者隐私保护威胁模型规范

分类： 音频和语音处理, 人工智能, 密码学和安全, 声音

作者： Mehtab Ur Rahman, Martha Larson, Louis ten Bosch, Cristian Tejedor-García

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16106v1

摘要： 语音录音越来越频繁地用于检测和监测疾病，从而导致隐私问题。除了密码学之外，语音保护还可以通过扰动、解开和重新合成等方法来解决，这些方法可以消除说话者的敏感信息，留下医学分析所需的信息。为了开发这种隐私保护方法，需要对有关医疗环境和医疗专业人员需求的假设进行清晰且系统的规范。在本文中，我们提出了一种使用场景方案，其中包含攻击者模型和保护者模型，其中攻击者模型描述了必须捍卫说话者隐私的对手，而保护者模型则指定了防御。我们讨论该方案与之前有关语音隐私的工作的联系。最后，我们提出了一个特定使用场景的具体示例，以及一组关于保护说话者数据免受性别推断攻击，同时保持帕金森病检测实用性的实验。

神经形态无人机检测：事件 RGB 多模态方法

分类： 计算机视觉和模式识别, 人工智能

作者： Gabriele Magrini, Federico Becattini, Pietro Pala, Alberto Del Bimbo, Antonio Porta

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16099v1

摘要： 近年来，无人机检测迅速成为人们极为关注的话题：快速移动的封闭尺寸物体有可能被用于恶意目的甚至恐怖袭击，这引起了人们对精确且有弹性的检测和识别系统的必要性的关注。这样的元素。虽然基于 RGB 数据的物体检测存在大量文献和工作，但认识到这种模式应用于无人机检测时的局限性也很重要。检测无人机确实带来了一些挑战，例如快速移动的物体和具有高动态范围的场景，或者更糟糕的是，照明水平稀缺。另一方面，神经形态相机可以在 RGB 相机面临挑战的情况下保留精确且丰富的时空信息。它们能够适应高速移动的物体和稀缺的照明设置，而当场景中的物体静止时，它们容易快速丢失信息。在这种背景下，我们提出了一种将两个领域集成在一起的新颖模型，利用多模式数据来充分利用两个领域的优点。为此，我们还发布了 NeRDD（神经形态 RGB 无人机检测），这是一种新颖的时空同步事件 RGB 无人机检测数据集，包含超过 3.5 小时的多模式注释记录。

健康领域的数字化转型：人工智能如何提高卫生系统的绩效

分类： 机器学习, 人工智能, 计算机与社会, 人机交互

作者： África Periáñez, Ana Fernández del Río, Ivan Nazarov, Enric Jané, Moiz Hassan, Aditya Rastogi, Dexian Tang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16098v1

摘要： 移动医疗有可能彻底改变医疗保健服务和患者参与。在这项工作中，我们讨论如何将人工智能集成到数字健康应用程序中（重点关注供应链、患者管理和能力建设等用例），从而改善卫生系统和公共卫生绩效。我们提出了一个人工智能和强化学习平台，允许提供适应性干预措施，其影响可以通过实验和实时监控来优化。该系统可以集成多个数据源和数字健康应用程序。该平台可以灵活地连接到各种移动医疗应用程序和数字设备，并根据过去的数据和预测发送个性化建议，可以显着提高数字工具对卫生系统结果的影响。特别讨论了资源匮乏环境中这种方法对健康结果的影响可能更具决定性的潜力。然而，该框架同样适用于提高不存在短缺问题的卫生系统的效率。

从像素到文字：通过交互式自然语言处理利用人脸识别的可解释性

分类： 计算机视觉和模式识别, 人工智能, 计算机与社会, 机器学习

作者： Ivan DeAndres-Tame, Muhammad Faisal, Ruben Tolosana, Rouqaiah Al-Refai, Ruben Vera-Rodriguez, Philipp Terhörst

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16089v1

摘要： 随着深度学习的发展，人脸识别（FR）取得了显着进步，在多种应用中实现了高精度。然而，这些系统缺乏可解释性，引发了人们对其问责制、公平性和可靠性的担忧。在本研究中，我们提出了一个交互式框架，通过结合与模型无关的可解释人工智能（XAI）和自然语言处理（NLP）技术来增强FR模型的可解释性。所提出的框架能够通过交互式聊天机器人准确回答用户的各种问题。特别是，我们提出的方法生成的解释采用自然语言文本和视觉表示的形式，例如可以描述不同的面部区域如何影响两张面孔之间的相似性度量。这是通过自动分析输出的人脸图像显着性热图和 BERT 问答模型来实现的，为用户提供了一个有助于全面理解 FR 决策的界面。所提出的方法是交互式的，允许用户提出问题以根据用户的背景知识获得更精确的信息。更重要的是，与之前的研究相比，我们的解决方案并没有降低人脸识别性能。我们通过不同的实验证明了该方法的有效性，强调了其使 FR 系统更具可解释性和用户友好性的潜力，特别是在决策透明度至关重要的敏感应用中。

评估神经网络的简化级别：超参数配置对复杂性和敏感性的影响

分类： 机器学习, 人工智能

作者： Huixin Guan

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16086v1

摘要： 本文提出了一项实验研究，重点是了解不同超参数配置下神经网络的简化特性，特别研究对 Lempel Ziv 复杂性和灵敏度的影响。通过调整激活函数、隐藏层和学习率等关键超参数，本研究评估了这些参数如何影响网络输出的复杂性及其对输入扰动的鲁棒性。使用 MNIST 数据集进行的实验旨在深入了解超参数、复杂性和敏感性之间的关系，有助于对神经网络中这些概念有更深入的理论理解。

跨主题 fNIRS 情绪识别的在线多级对比表示蒸馏

分类： 人机交互, 人工智能

作者： Zhili Lai, Chunmei Qing, Junpeng Tan, Wanxiang Luo, Xiangmin Xu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16081v1

摘要： 利用功能性近红外光谱 (fNIRS) 信号进行情绪识别是理解人类情绪的重大进步。然而，由于该领域人工智能数据和算法的缺乏，目前的研究面临以下挑战：1）便携式可穿戴设备对轻量化模型有更高的要求； 2）不同主体生理、心理的客观差异加剧了情绪识别的难度。为了应对这些挑战，我们提出了一种新颖的跨主题 fNIRS 情感识别方法，称为在线多级对比表示蒸馏框架（OMCRD）。具体来说，OMCRD 是一个专为多个轻量级学生网络之间相互学习而设计的框架。它对每个子网络使用多级 fNIRS 特征提取器，并使用生理信号进行多视图情感挖掘。所提出的主体间交互对比表示（IS-ICR）促进了学生模型之间交互的知识转移，增强了跨主体情感识别性能。可以选择最佳的学生网络并将其部署在可穿戴设备上。一些实验结果表明，OMCRD 在情感感知和情感意象任务中取得了最先进的结果。

利用专家组合来改进语音深度伪造检测

分类： 声音, 人工智能, 音频和语音处理

作者： Viola Negroni, Davide Salvi, Alessandro Ilic Mezza, Paolo Bestagini, Stefano Tubaro

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16077v1

摘要： 语音深度伪造对个人安全和内容真实性构成重大威胁。文献中已经提出了几种检测器，这些系统必须面临的主要挑战之一是对看不见的数据进行泛化，以识别各种数据集中的虚假信号。在本文中，我们介绍了一种使用专家混合架构来增强语音深度伪造检测性能的新颖方法。专家混合框架非常适合语音深度伪造检测任务，因为它能够专门处理不同的输入类型并有效地处理数据可变性。与传统的单一模型或集成方法相比，这种方法提供了卓越的泛化能力和对未见数据的适应性。此外，其模块化结构支持可扩展的更新，使其能够更灵活地管理 Deepfake 技术不断发展的复杂性，同时保持高检测精度。我们提出了一种高效、轻量级的门控机制，为每个输入动态分配专家权重，优化检测性能。多个数据集的实验结果证明了我们提出的方法的有效性和潜力。

实现稳健的对象检测：通过模块不一致分析识别和删除后门

分类： 计算机视觉和模式识别, 人工智能

作者： Xianda Zhang, Siyuan Liang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16057v1

摘要： 广泛用于安全关键型应用程序的对象检测模型很容易受到后门攻击，当特定模式触发时，会导致有针对性的错误分类。现有的后门防御技术主要是为图像分类器等更简单的模型设计的，通常无法有效地检测和删除对象检测器中的后门。基于后门攻击导致本地模块（例如区域提议网络（RPN）和分类头）行为之间显着不一致的观察，我们提出了一种针对对象检测模型量身定制的后门防御框架。通过量化和分析这些不一致之处，我们开发了一种检测后门的算法。我们发现不一致的模块通常是后门行为的主要来源，从而导致了一种删除方法，该方法可以定位受影响的模块，重置其参数，并在小型干净数据集上微调模型。使用最先进的两级目标检测器进行的大量实验表明，我们的方法与微调基线相比，后门去除率提高了 90%，同时将干净数据的准确性损失限制在 4% 以下。据我们所知，这项工作提出了第一种解决两阶段对象检测模型中后门检测和删除的方法，推动了保护这些复杂系统免受后门攻击的领域。

用于人脸识别的对抗性水印

分类： 计算机视觉和模式识别, 人工智能

作者： Yuguang Yao, Anil Jain, Sijia Liu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16056v1

摘要： 水印是将标识符（即水印消息）嵌入数字图像中以维护所有权并监控未经授权的更改的基本技术。在人脸识别系统中，水印在确保数据完整性和安全性方面发挥着关键作用。然而，对手可能会干扰水印过程，从而严重损害识别性能。我们探索水印和人脸识别模型的对抗性攻击之间的相互作用。我们的研究结果表明，虽然水印或输入级扰动单独对识别精度的影响可以忽略不计，但水印和扰动的综合影响可能导致对抗性水印攻击，从而显着降低识别性能。具体来说，我们引入了一种新颖的威胁模型，即对抗性水印攻击，它在没有水印的情况下仍然是隐秘的，从而允许图像最初被正确识别。然而，一旦应用水印，攻击就会被激活，导致识别失败。我们的研究揭示了一个以前未被识别的漏洞：对抗性扰动可以利用水印消息来逃避人脸识别系统。在 CASIA-WebFace 数据集上进行评估，我们提出的对抗性水印攻击将人脸匹配准确度降低了 67.2%（$\ell_\infty$ 范数测量扰动强度为 ${2}/{255}$），而当强度为 $\ell_\infty$ 时，人脸匹配准确度降低了 95.9% ${4}/{255}$。

全身末端执行器姿态跟踪

分类： 机器人技术, 人工智能, 机器学习, 系统与控制, 系统与控制

作者： Tifanny Portela, Andrei Cramariuc, Mayank Mittal, Marco Hutter

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16048v1

摘要： 将操纵与腿式机器人的移动性相结合对于广泛的机器人应用至关重要。然而，将手臂与移动底座集成显着增加了系统的复杂性，使得精确的末端执行器控制具有挑战性。现有的基于模型的方法通常受到建模假设的限制，导致鲁棒性有限。与此同时，最近的强化学习（RL）实现将手臂的工作空间限制在机器人前面，或者仅跟踪位置以获得不错的跟踪精度。在这项工作中，我们通过引入全身强化学习公式来解决这些限制，该公式用于在粗糙、非结构化地形的大型工作空间中进行末端执行器姿势跟踪。我们提出的方法涉及机器人初始配置和末端执行器姿势命令的地形感知采样策略，以及基于游戏的课程来扩展机器人的操作范围。我们在带有六自由度机械臂的 ANYmal 四足机器人上验证了我们的方法。通过我们的实验，我们表明学习控制器可以在大工作空间内实现精确的命令跟踪，并适应不同的地形，例如楼梯和斜坡。部署后，它的姿态跟踪误差为 2.64 厘米和 3.64 度，优于现有的竞争基准。

LTNtorch：逻辑张量网络的 PyTorch 实现

分类： 人工智能

作者： Tommaso Carraro, Luciano Serafini, Fabio Aiolli

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16045v1

摘要： 逻辑张量网络（LTN）是一种神经符号框架，有效地结合了深度学习和逻辑推理。特别是，LTN 允许定义逻辑知识库并将其用作神经模型的目标。这使得通过逻辑推理进行学习成为可能，因为通过最小化由一组表达有关学习任务的事实的逻辑公式组成的损失函数来优化模型的参数。该框架通过梯度下降优化进行学习。模糊逻辑是经典逻辑的一种放松，允许区间 [0,1] 内的连续真值，使这种学习成为可能。具体来说，LTN的训练包括三个步骤。首先，（1）使用训练数据来为公式奠定基础。然后，（2）评估公式，并计算损失函数。最后，（3）通过逻辑计算图反向传播梯度，并改变神经模型的权重，从而最大限度地满足知识库。 LTNtorch 是逻辑张量网络的完整记录和测试的 PyTorch 实现。本文介绍了 LTN 的形式化以及 LTNtorch 如何实现它。此外，它还提供了一个基本的二元分类示例。

Time-MoE：由专家组成的十亿级时间序列基础模型

分类： 机器学习, 人工智能

作者： Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16040v1

摘要： 过去几十年来，时间序列预测的深度学习取得了重大进展。然而，尽管大规模预训练在语言和视觉领域取得了成功，但预训练时间序列模型的规模仍然有限，并且运行成本很高，阻碍了在实际应用中开发更强大的预测模型。为此，我们引入了 Time-MoE，这是一种可扩展且统一的架构，旨在预训练更大、能力更强的预测基础模型，同时降低推理成本。通过利用稀疏专家混合 (MoE) 设计，Time-MoE 通过仅激活每个预测的网络子集来提高计算效率，从而在保持高模型容量的同时减少计算负载。这使得 Time-MoE 能够有效地扩展，而不会相应增加推理成本。 Time-MoE 包含一系列仅解码器变压器模型，这些模型以自回归方式运行，并支持具有不同输入上下文长度的灵活预测范围。我们在新引入的大规模数据 Time-300B 上对这些模型进行了预训练，该数据跨越 9 个领域，涵盖超过 3000 亿个时间点。我们首次将时间序列基础模型扩展至 24 亿个参数，显着提高了预测精度。我们的结果验证了时间序列预测背景下训练标记和模型大小的缩放法则的适用性。与具有相同数量的激活参数或等效计算预算的密集模型相比，我们的模型始终大幅优于它们。这些进步使 Time-MoE 成为最先进的解决方案，能够以卓越的功能、效率和灵活性应对现实世界的时间序列预测挑战。

扎根计算与意识：探索机器和其他生物体意识的框架

分类： 神经元和认知, 人工智能

作者： Ryan Williams

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16036v1

摘要： 计算模型是理解意识的重要工具，但它本身就足够了吗？本文讨论了意识本体论基础的必要性，并介绍了一个将计算描述扎根于本体论基础的形式框架。利用这种技术，演示了一种用于估计两个系统之间的定性体验差异的方法。该框架对意识计算理论具有广泛的适用性。

色调映射图像的深度色度压缩

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Xenios Milidonis, Francesco Banterle, Alessandro Artusi

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16032v1

摘要： 由于智能设备的使用不断增加以及对高质量输出的需求，高动态范围 (HDR) 图像的获取正在蓬勃发展。广泛的研究重点是开发使用传统和基于深度学习的色调映射算子来减少 HDR 图像亮度范围的方法，以实现在传统 8 位和 10 位数字显示器上的精确再现。然而，这些方法通常无法考虑可能位于目标显示器色域之外的像素，从而导致可见的色彩失真或色彩剪切伪影。先前的研究表明，色域管理步骤可确保所有像素保持在目标色域内。然而，此类方法的计算成本很高，并且无法部署在计算资源有限的设备上。我们提出了一种生成对抗网络，用于快速可靠地对 HDR 色调映射图像进行色度压缩。我们设计了一个损失函数，考虑生成图像的色调属性以提高颜色准确性，并在广泛的图像数据集上训练模型。定量实验表明，所提出的模型在颜色精度方面优于最先进的图像生成和增强网络，而主观研究表明，生成的图像在视觉方面与传统色度压缩方法产生的图像相当或优于传统色度压缩方法产生的图像质量。此外，该模型实现了实时性能，显示出在计算资源有限的设备上部署的良好结果。

通过渲染功能和视觉语言模型桥接环境和语言

分类： 人工智能

作者： Theo Cachet, Christopher R. Dance, Olivier Sigaud

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16024v1

摘要： 视觉语言模型 (VLM) 在基础语言方面具有巨大潜力，从而使语言条件代理 (LCA) 能够执行文本指定的各种任务。这激发了基于强化学习 (RL) 的 LCA 研究，通过渲染环境图像并使用 VLM 评估这些图像来给予奖励。如果采用单任务强化学习，这种方法会受到为每个新任务训练策略所需的成本和时间的限制。多任务强化学习 (MTRL) 是一种自然的替代方案，但需要精心设计的训练任务语料库，并且并不总是可靠地推广到新任务。因此，本文提出了一种构建 LCA 问题的新颖分解方法：首先找到一个对于描述任务的文本具有较高 VLM 分数的环境配置；然后使用（预训练的）目标条件策略来达到该配置。我们还探索了对基于 VLM 的 LCA 的速度和质量的一些增强，特别是使用蒸馏模型，以及从多个角度评估配置，以解决单个 2D 视图中固有的模糊性。我们在类人环境中展示了我们的方法，表明它导致 LCA 在零样本泛化方面优于 MTRL 基线，并且在训练期间不需要任何文本任务描述或其他形式的特定于环境的注释。视频和交互式演示可在 https://europe.naverlabs.com/text2control 找到

人工智能可能存在认知偏差：基于大语言模型的批次相关性评估中阈值启动的探索性研究

分类： 计算和语言, 人工智能

作者： Nuo Chen, Jiqun Liu, Xiaoyu Dong, Qijiong Liu, Tetsuya Sakai, Xiao-Ming Wu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16022v1

摘要： 认知偏差是思维中的系统性偏差，会导致非理性判断和有问题的决策，在各个领域得到了广泛的研究。最近，大型语言模型（LLM）表现出了先进的理解能力，但可能会从其训练数据中继承人类偏见。虽然大语言模型的社会偏见已得到充分研究，但认知偏见受到的关注较少，现有研究侧重于特定场景。在各种决策背景下，认知偏差对大语言模型的更广泛影响仍未得到充分探索。我们调查了大语言模型是否受到相关性判断中阈值启动效应的影响，这是信息检索（IR）界的一项核心任务和广泛讨论的研究主题。当暴露于某些刺激无意识地影响随后的行为和决定时，就会发生启动效应。我们的实验采用了 TREC 2019 深度学习段落轨迹集合中的 10 个主题，并测试了不同文档相关性分数、批次长度和 LLM 模型（包括 GPT-3.5、GPT-4、LLaMa2-13B 和 LLaMa2-70B）下的 AI 判断。结果表明，如果较早的文档具有较高的相关性，则大语言模型倾向于对较晚的文档给予较低的分数，反之亦然，无论使用何种组合和模型。我们的研究结果表明，大语言模型的判断与人类的判断类似，也受到阈值启动偏差的影响，并建议研究人员和系统工程师在设计、评估和审核 IR 任务中的大语言模型时应考虑潜在的类人认知偏差以及更远的地方。

人类人工智能：人类在下一代人工智能发展中的作用

分类： 人工智能, 神经元和认知

作者： Suayb S. Arslan

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16001v1

摘要： 人类智能是最明显、最容易获得的推理来源形式，由生物硬件承载，已经进化和完善了数千年，今天将自己定位为创造新的人工形式，并准备自我设计其前进的进化道路。从基础模型的出现开始，人类和人工智能相互作用的速度已经超过了任何预期的定量数字。密切的接触导致两种情报都受到各种方式的影响，这自然会导致复杂的融合，值得密切关注。在下文中，我们将探讨人类和机器智能之间的相互作用，重点关注人类在开发道德、负责任和强大的智能系统中发挥的关键作用。我们稍微深入研究了受神经科学和人类认知基础机制启发的实施的有趣方面。此外，我们提出了未来的前景，利用共生设计的优势，为下一代人工智能的发展提出以人为本的方向。我们最终完成了这份不断发展的文件，其中包含一些想法和尚未得到更广泛社区解决的开放问题。

NovelAI Diffusion V3 中 SDXL 的改进

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Juan Ossa, Eren Doğan, Alex Birch, F. Johnson

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15997v1

摘要： 在这份技术报告中，我们记录了在训练我们最先进的动漫图像生成模型 NovelAI Diffusion V3 的过程中对 SDXL 所做的更改。

DataGpt-SQL-7B：用于文本到 SQL 的开源语言模型

分类： 人工智能

作者： Lixia Wu, Peng Li, Junhong Lou, Lei Fu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15985v1

摘要： 在解决将自然语言查询转换为 SQL 命令的关键作用时，我们提出了一套紧凑、微调的模型和自我完善机制，以使非专家用户的数据访问和分析民主化，从而减轻与闭源大型数据库相关的风险。语言模型。具体来说，我们构建了超过 20K 样本的 Text-to-SQL 数据集以及偏好数据集，以提高 SQL 生成领域的效率。为了进一步确保代码的有效性，模型中集成了代码校正器。我们的系统 DataGpt-sql 在 Spider-dev 上分别达到了 87.2% 的准确率，展示了我们的解决方案在文本到 SQL 转换任务中的有效性。我们的代码、数据和模型可以在 \url{https://github.com/CainiaoTechAi/datagpt-sql-7b} 获取

利用无监督学习进行经济有效的视觉异常检测

分类： 计算机视觉和模式识别, 人工智能

作者： Yunbo Long, Zhengyang Ling, Sam Brook, Duncan McFarlane, Alexandra Brintrup

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15980v1

摘要： 传统的基于机器学习的视觉检测系统需要大量的数据收集和重复的模型训练来提高准确性。这些系统通常需要昂贵的相机、计算设备和重要的机器学习专业知识，这会给中小型企业带来沉重负担。本研究探索利用无监督学习方法与预训练模型和低成本硬件来创建具有成本效益的视觉异常检测系统。该研究旨在开发一种低成本的视觉异常检测解决方案，使用最少的数据进行模型训练，同时保持通用性和可扩展性。该系统利用 Anomalib 的无监督学习模型，并通过 openVINO 部署在经济实惠的 Raspberry Pi 硬件上。结果表明，该系统仅使用10张正常产品图像，即可在短短90秒内在Raspberry Pi上完成异常缺陷训练和推理，实现了超过0.95的F1宏观分数。虽然该系统对照明、产品定位或背景等环境变化稍微敏感，但它仍然是中小型制造商工厂自动化检查的一种快速且经济的方法

使用互信息最小化方法来区分年龄和身份，以进行跨年龄说话人验证

分类： 声音, 人工智能, 音频和语音处理

作者： Fengrun Zhang, Wangjin Zhou, Yiming Liu, Wang Geng, Yahui Shan, Chen Zhang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15974v1

摘要： 人们对跨年龄说话人验证（CASV）的研究兴趣日益浓厚。然而，由于老化导致声音存在很大的个体差异，现有的说话人验证系统在CASV中表现不佳。在本文中，我们提出了一种基于互信息（MI）最小化的 CASV 解缠结表示学习框架。在我们的方法中，训练骨干模型以将身份和年龄相关的嵌入从说话者信息中分离出来，并训练 MI 估计器以通过 MI 最小化来最小化年龄和身份相关嵌入之间的相关性，从而获得年龄不变的嵌入扬声器嵌入。此外，通过利用正样本和负样本之间的年龄差距，我们提出了一种老化感知的 MI 最小化损失函数，使骨干模型能够更多地关注年龄差距较大的声音变化。实验结果表明，该方法在Vox-CA的多个Cross-Age测试集上优于其他方法。

多视图分类的边缘设备协同计算

分类： 机器学习, 人工智能, 分布式、并行和集群计算, 网络和互联网架构

作者： Marco Palena, Tania Cerquitelli, Carla Fabiana Chiasserini

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15973v1

摘要： 受物联网 (IoT) 设备激增和深度学习领域快速发展的推动，人们越来越有兴趣将传统上由云处理的深度学习计算推至网络边缘以交付更快地响应最终用户，减少云的带宽消耗，并解决隐私问题。然而，要在边缘充分实现深度学习，仍然需要解决两个主要挑战：（i）如何在资源受限的设备上满足深度学习的高资源要求，以及（ii）如何利用多个设备的可用性空间相关数据流，以提高深度学习的有效性并提高应用程序级性能。为了解决上述挑战，我们探索边缘的协作推理，其中边缘节点和终端设备通过利用不同的方式来分割计算和融合数据来共享相关数据和推理计算负担。除了传统的集中式和分布式边缘端设备协同推理方案外，我们还引入了选择性方案，通过有效减少数据冗余来减少带宽资源消耗。作为参考场景，我们专注于网络系统中的多视图分类，其中传感节点可以捕获重叠的视场。所提出的方案在准确性、节点计算开销、通信开销、推理延迟、鲁棒性和噪声敏感性方面进行了比较。实验结果强调，选择性协作方案可以在上述性能指标之间实现不同的权衡，其中一些方案可以节省大量通信成本（相对于集中推理，传输数据的节省从 18% 到 74%），同时仍然保持推理准确性远高于90%。

创造良性摩擦：确定利益相关者对工作推荐解释的要求

分类： 人机交互, 人工智能

作者： Roan Schellingerhout, Francesco Barile, Nava Tintarev

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15971v1

摘要： 主要通过职位推荐系统 (JRS) 在招聘中越来越多地使用信息检索，这会对求职者、招聘人员和公司产生巨大影响。因此，最近的立法机构已确定此类系统具有高风险。这要求 JRS 值得信赖且透明，让利益相关者能够了解提出具体建议的原因。为了满足这一要求，需要确定利益相关者的确切偏好和需求。为此，我们使用现实的、基于任务的混合设计用户研究 (n=30) 评估了一个可解释的工作推荐系统，其中利益相关者必须根据模型的解释做出决策。这种混合方法评估由两个客观指标（正确性和效率）以及三个主观指标（信任、透明度和有用性）组成。每个参与者对这些指标进行两次评估，一次使用真实解释，一次使用随机解释。该研究包括在执行适合每个利益相关者群体的任务时遵循有声思考协议的定性分析。我们发现，向利益相关者提供真实的解释并不能显着提高决策速度和准确性。我们的结果显示，在所有利益相关者类型的系统感知信任、有用性和透明度方面，真实解释优于随机解释的趋势并不显着。我们确定，利益相关者从与解释的互动中获益更多，因为解释是能够提供健康摩擦的决策支持，而不是之前假设的说服工具。

逆约束强化学习中可证明有效的探索

分类： 机器学习, 人工智能

作者： Bo Yue, Jian Li, Guiliang Liu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15963v1

摘要： 为了在复杂环境中获得最优约束，逆约束强化学习（ICRL）试图以数据驱动的方式从专家演示中恢复这些约束。现有的 ICRL 算法从交互式环境中收集训练样本。然而，这些采样策略的功效和效率仍然未知。为了弥补这一差距，我们引入了一个具有可证明效率的战略探索框架。具体来说，我们为 ICRL 问题定义了一个可行的约束集，并研究专家政策和环境动态如何影响约束的最优性。受我们的发现的启发，我们提出了两种探索性算法，通过 1）动态减少成本估计的有界总误差和 2）策略性地约束探索策略来实现有效的约束推理。这两种算法在理论上都具有易于处理的样本复杂性。我们凭经验证明了我们的算法在各种环境下的性能。

ASD-Diffusion：使用扩散模型检测异常声音

分类： 声音, 人工智能, 音频和语音处理

作者： Fengrun Zhang, Xiang Xie, Kai Guo

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15957v1

摘要： 无监督异常声音检测（ASD）旨在设计一种可推广的方法，可用于在仅给出正常声音时检测异常。本文提出了基于扩散模型的异常声音检测（ASD-Diffusion），用于现实工厂中的 ASD。在我们的流程中，声学特征中的异常从其噪声损坏特征重建为近似正常模式。其次，提出了一种后处理异常过滤算法来检测重建后与原始输入存在显着偏差的异常。此外，引入去噪扩散隐式模型，通过更长的去噪过程采样间隔来加快推理速度。所提出的方法在应用扩散模型作为一种新方案方面具有创新性。 DCASE 2023 挑战任务 2 开发集上的实验结果优于基线 7.75%，证明了该方法的有效性。

历史轨迹辅助零阶联邦优化

分类： 机器学习, 人工智能

作者： Xiaoyu He, Chenlin Wu, Zike Li, Zibin Zheng

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15955v2

摘要： 联邦学习是一种分布式学习框架，使客户能够单独训练模型并上传模型更新以进行聚合。本地训练过程严重依赖分布式梯度下降技术。在梯度信息不可用的情况下，需要根据零阶信息来估计梯度，这通常涉及计算沿各向同性随机方向的有限差分。该方法存在较高的估计误差，因为在各向同性采样过程中可能会忽略客观景观的几何特征。在这项工作中，我们提出了一种非各向同性采样方法来改进梯度估计过程。我们的方法中的梯度是在由解决方案的历史轨迹跨越的子空间中估计的，旨在鼓励探索有前途的区域，从而提高收敛性。我们在零阶联合设置中实现了这种方法，并表明收敛速度与现有的一致，同时在通信或本地计算中没有引入显着的开销。与几种常用的零阶联合优化算法相比，我们的建议的有效性在几个数值实验中得到了验证。

TSFeatLIME：增强单变量时间序列预测可解释性的在线用户研究

分类： 人工智能

作者： Hongnan Ma, Kevin McAreavey, Weiru Liu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15950v1

摘要： 时间序列预测虽然在各种应用中都至关重要，但通常采用人类难以理解的复杂模型。有效的可解释人工智能技术对于弥合模型预测和用户理解之间的差距至关重要。本文提出了一个框架 - TSFeatLIME，它扩展了 TSLIME，专门用于解释单变量时间序列预测。 TSFeatLIME 将辅助特征集成到代理模型中，并考虑查询时间序列与生成样本之间的成对欧氏距离，以提高代理模型的保真度。然而，这种解释对人类的有用性仍然是一个悬而未决的问题。为了解决这个问题，我们通过两个交互界面对 160 名参与者进行了一项用户研究，旨在衡量来自不同背景的个体如何模拟或预测治疗组和对照组的模型输出变化。我们的结果表明，TSFeatLIME 框架下的代理模型能够更好地模拟考虑距离的黑盒行为，而不会牺牲准确性。此外，用户研究表明，这些解释对于没有计算机科学背景的参与者来说明显更有效。

自动测试生成，以评估工具增强的 LLM 作为对话式 AI 代理

分类： 计算和语言, 人工智能, 机器学习

作者： Samuel Arcadinho, David Aparicio, Mariana Almeida

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15934v1

摘要： 工具增强的大语言模型是创建人工智能代理的一种很有前景的方法，它可以进行真实的对话、遵循程序并调用适当的函数。然而，由于可能对话的多样性，评估它们具有挑战性，并且现有数据集仅关注单一交互和函数调用。我们提出了一个测试生成管道来评估大语言模型作为对话式人工智能代理的能力。我们的框架使用大语言模型来生成基于用户定义的程序的各种测试。为此，我们使用中间图来限制 LLM 测试生成器产生不基于输入过程的幻觉内容的倾向，并强制执行可能对话的高覆盖率。此外，我们还提出了 ALMITA，这是一个手动策划的数据集，用于评估客户支持中的人工智能代理，并用它来评估现有的大语言模型。我们的结果表明，虽然工具增强的大语言模型在单次交互中表现良好，但他们往往难以处理完整的对话。虽然我们的重点是客户支持，但我们的方法是通用的，并且能够为不同领域提供人工智能代理。

西班牙资源匮乏语言的多语言迁移和领域适应

分类： 计算和语言, 人工智能

作者： Yuanchang Luo, Zhanglin Wu, Daimeng Wei, Hengchao Shang, Zongyao Li, Jiaxin Guo, Zhiqiang Rao, Shaojun Li, Jinlong Yang, Yuhao Xie, Jiawei Zheng Bin Wei, Hao Yang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15924v1

摘要： 本文介绍了华为翻译服务中心（HW-TSC）在（WMT 2024）西班牙低资源语言翻译任务的提交情况。我们参与了三个翻译任务：西班牙语到阿拉贡语（es-arg）、西班牙语到阿兰语（es-arn）和西班牙语到阿斯图里亚斯语（es-ast）。对于这三个翻译任务，我们在训练深度transformer-big架构的基础上，使用多语言迁移、正则化dropout、正向翻译和反向翻译、labse去噪、转导集成学习等训练策略来训练神经机器翻译（NMT）模型。通过使用这些增强策略，我们提交的作品在最终评估中取得了有竞争力的结果。

黑暗中的规划：大语言模型-无需专家的符号规划流程

分类： 人工智能

作者： Sukai Huang, Nir Lipovetzky, Trevor Cohn

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15915v1

摘要： 大型语言模型（LLM）在解决自然语言描述的规划任务方面表现出了希望，但直接使用它们常常会导致推理不一致和产生幻觉。虽然混合大语言模型-符号规划管道已成为一种更强大的替代方案，但它们通常需要广泛的专家干预来完善和验证生成的行动模式。它不仅限制了可扩展性，而且还引入了潜在的偏见解释，因为单个专家对模糊自然语言描述的解释可能与用户的实际意图不一致。为了解决这个问题，我们提出了一种新颖的方法，该方法构建一个动作模式库来生成多个候选者，考虑到自然语言描述的多种可能解释。我们进一步引入了语义验证和排名模块，可以自动过滤和排名生成的模式和计划，无需专家参与。实验表明，我们的流程在规划方面比直接大语言模型规划方法保持着优越性。这些发现证明了完全自动化的端到端 LLM 符号规划器的可行性，无需专家干预，为更广泛的受众参与人工智能规划提供了可能性，而无需领域专业知识的先决条件。

使用大型语言模型和移动应用程序通过先进的人体植物交互增强基于物联网的植物健康监测

分类： 人工智能

作者： Kriti Agarwal, Samhruth Ananthanarayanan, Srinitish Srinivasan, Abirami S

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15910v1

摘要： 本文介绍了一种新型植物通信应用程序的开发，该应用程序允许植物使用实时传感器数据和人工智能驱动的语言模型与人类“对话”。该系统利用土壤传感器跟踪湿度、温度和养分水平，将这些数据输入 Gemini API，在其中进行处理并转化为有关植物健康和“情绪”的自然语言见解。该应用程序使用 Flutter、Firebase 和 ThingSpeak 开发，提供具有实时交互功能的无缝用户体验。通过促进人与植物的连接，该系统增强了植物护理实践，促进可持续性，并在个人和农业环境中引入了人工智能和物联网技术的创新应用。本文探讨了人工智能驱动的工厂通信的技术架构、系统集成和更广泛的影响。

通过领域数据库知识注入增强大型语言模型的文本到 SQL 功能

分类： 计算和语言, 人工智能

作者： Xingyu Ma, Xin Tian, Lingxiang Wu, Xuepeng Wang, Xueming Tang, Jinqiao Wang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15907v1

摘要： 文本到 SQL 是语义解析中的一个子任务，随着大型语言模型 (LLM) 的发展，它取得了快速进展。然而，由于幻觉问题和缺乏特定领域的数据库知识（例如表模式和单元格值），大语言模型面临着挑战。因此，他们在生成表名、列以及将值与 SQL 语句中的正确列进行匹配时可能会出错。本文介绍了一种知识注入的方法，通过结合先验知识来增强大语言模型理解模式内容的能力。这种方法提高了他们在文本到 SQL 任务中的性能。实验结果表明，对 LLM 进行特定领域数据库知识的预训练并在下游文本到 SQL 任务上对其进行微调，可以显着改善各种模型的执行匹配 (EX) 和精确匹配 (EM) 指标。这有效地减少了生成列名以及将值与列匹配时的错误。此外，知识注入模型可以应用于许多下游文本到 SQL 任务，证明了本文提出的方法的通用性。

通过专家混合增强语音条件大语言模型来促进语码转换 ASR

分类： 声音, 人工智能, 音频和语音处理

作者： Fengrun Zhang, Wang Geng, Hukai Huang, Cheng Yi, He Qu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15905v1

摘要： 在本文中，我们介绍了一种与基于专家混合 (MoE) 的连接器集成的语音调节大语言模型 (LLM)，以解决自动语音识别 (ASR) 中的代码切换 (CS) 挑战。具体来说，我们提出了一种插入和删除中断令牌（IDIT）机制，以更好地将LLM的文本生成能力转移到语音识别任务。我们还提供了一个具有 MoE 架构的连接器，可以有效地管理多种语言。为了进一步加强多位专家的协作并利用大语言模型的理解能力，我们提出了一种两阶段渐进训练策略：1）解冻连接器并由语言专业专家进行训练，以将语音表示映射到文本空间。 2) 连接器和 LLM LoRA 适配器使用建议的 IDIT 机制进行训练，并且所有专家都被激活来学习一般表示。实验结果表明，我们的方法显着优于最先进的模型，包括端到端和大规模音频语言模型。

关于人工智能的五个问答

分类： 人工智能

作者： Alberto Prieto, Beatriz Prieto

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15903v1

摘要： 人工智能（AI）的快速发展在社会上引起了很多争议，但往往没有科学依据。正如其他新兴技术的发展一样，例如 20 世纪初电力的引入，人工智能既令人着迷，又令人恐惧。遵循哲学家 R.W. Emerson 的建议：建议知识是恐惧的解毒剂；本文旨在为人工智能知识的传播做出贡献。为此，它反思了以下问题：人工智能的起源、未来可能的演变、表达情感的能力、相关的威胁和危险以及人工智能奇点的概念。

学习一般政策的对称性和表达要求

分类： 人工智能

作者： Dominik Drexler, Simon Ståhlberg, Blai Bonet, Hector Geffner

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15892v1

摘要： 状态对称性在规划和总体规划中发挥着重要作用。在第一种情况下，状态对称性可以用来减少搜索的大小；第二，减少训练集的大小。然而，在总体规划的情况下，区分非对称状态（即表示非同构关系结构的状态）也很重要。然而，虽然一阶逻辑的语言可以区分非对称状态，但用于表示和学习一般策略的语言和架构却不能。特别是，最近学习一般策略的方法使用从描述逻辑导出或通过图神经网络（GNN）学习的状态特征，这些特征已知受到 C_2（具有两个变量和计数的一阶逻辑）的表达能力的限制。在这项工作中，我们解决了检测规划和广义规划中的对称性的问题，并使用结果来评估学习各种规划领域的一般策略的表达要求。为此，我们将规划状态映射到普通图，运行现成的算法来确定两个状态相对于目标是否同构，并运行着色算法来确定逻辑计算或通过 GNN 计算的 C_2 特征是否区分非同构状态。对称性检测会带来更有效的学习，而未能检测到非对称性会导致在某些领域根本无法学习一般策略。

通过迁移学习实现资源匮乏的印度语言的机器翻译进步

分类： 计算和语言, 人工智能

作者： Bin Wei, Jiawei Zhen, Zongyao Li, Zhanglin Wu, Daimeng Wei, Jiaxin Guo, Zhiqiang Rao, Shaojun Li, Yuanchang Luo, Hengchao Shang, Jinlong Yang, Yuhao Xie, Hao Yang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15879v1

摘要： 本文介绍了华为翻译中心（HW-TSC）向WMT24印度语言机器翻译（MT）共享任务提交的情况。为了为资源匮乏的印度语言开发可靠的机器翻译系统，我们采用了两种不同的知识转移策略，同时考虑到语言脚本的特征以及印度语言现有开源模型的支持。对于阿萨姆语和曼尼普尔语，我们对现有的 IndicTrans2 开源模型进行了微调，以实现英语和这些语言之间的双向翻译。对于 Khasi (kh) 和 Mizo (mz)，我们使用这四种语言对的双语数据以及额外的约 8kw 英语-孟加拉语双语数据训练了一个多语言模型作为基线，所有这些都具有某些共同的语言特征。随后进行微调，以实现英语和卡西语以及英语和米佐语之间的双向翻译。我们的迁移学习实验取得了令人印象深刻的结果：在各自的测试集上，en-as 的 BLEU 为 23.5，en-mn 的 BLEU 为 31.8，as-en 的 BLEU 为 36.2，mn-en 的 BLEU 为 47.9。同样，多语言模型迁移学习实验也取得了令人印象深刻的成果，在各自的测试集上，en-kh 获得了 19.7 BLEU，en-mz 获得了 32.8 BLEU，kh-en 获得了 16.1 BLEU，mz-en 获得了 33.9 BLEU。这些结果不仅凸显了迁移学习技术对于低资源语言的有效性，而且还有助于提高低资源印度语言的机器翻译能力。

美杜莎耳边的低语：基于 Transformer 的 ASR 的多头高效解码

分类： 音频和语音处理, 人工智能, 机器学习, 声音

作者： Yael Segal-Feldman, Aviv Shamsian, Aviv Navon, Gill Hetz, Joseph Keshet

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15869v1

摘要： 基于大型变压器的模型在语音转录和翻译方面具有巨大的潜力。它们的自注意力机制和并行处理使它们能够捕获音频序列中的复杂模式和依赖性。然而，这种潜力也伴随着挑战，因为这些大型且计算密集型的模型导致推理速度缓慢。人们提出了各种优化策略来提高性能，包括高效的硬件利用率和算法增强。在本文中，我们介绍了 Whisper-Medusa，这是一种新颖的方法，旨在提高处理速度，同时对字错误率 (WER) 的影响最小。所提出的模型通过每次迭代预测多个令牌来扩展 OpenAI 的 Whisper 架构，从而将延迟减少 50%。我们展示了 Whisper-Medusa 在不同学习设置和数据集上的有效性。

In-Context Ensemble 改进了视频语言模型，以实现从人类演示中理解低级工作流程

分类： 人工智能

作者： Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15867v2

摘要： 标准操作程序 (SOP) 为基于视频演示的业务软件工作流程定义了低级、分步的书面指南。 SOP 是实现端到端软件工作流程自动化的关键一步。手动创建 SOP 可能非常耗时。大型视频语言模型的最新进展提供了通过分析人类演示记录来自动生成 SOP 的潜力。然而，当前的大型视频语言模型面临着零样本 SOP 生成的挑战。我们探索使用视频语言模型进行情境学习以生成 SOP。我们报告说，上下文学习有时有助于 SOP 生成的视频语言模型。然后，我们提出了一种上下文集成学习，以进一步增强模型在 SOP 生成中的能力。

BeSimulator：大型语言模型驱动的基于文本的行为模拟器

分类： 机器人技术, 人工智能, 计算和语言

作者： Jianan Wang, Bin Li, Xueying Wang, Fu Li, Yunlong Wu, Juan Chen, Xiaodong Yi

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15865v1

摘要： 传统的机器人模拟器专注于物理过程建模和真实渲染，通常面临计算成本高、效率低和适应性有限的问题。为了解决这个问题，我们提出机器人学中的行为模拟，以强调检查机器人的行为逻辑并在机器人动作的结果与真实场景之间实现充分的一致性。在本文中，我们介绍了 BeSimulator，这是一种由大语言模型驱动的模块化新颖框架，作为在基于文本的环境中进行行为模拟的尝试。通过构建基于文本的虚拟环境并进行语义级仿真，BeSimulator 可以跨场景泛化并实现长视野复杂仿真。受人类认知过程的启发，它采用“考虑-决定-捕获-转移”方法，称为行为模拟链，擅长分析行动可行性和状态转换。此外，BeSimulator 还采用代码驱动推理来实现算术运算并增强可靠性，并集成反射反馈来完善模拟。基于我们手动构建的基于行为树的模拟基准 BTSIMBENCH，我们的实验表明，与基线相比，行为模拟的性能显着提高，范围从 14.7% 到 26.6%。

用于对话理解的零样本开放词汇管道

分类： 计算和语言, 人工智能

作者： Abdulfattah Safa, Gözde Gül Şahin

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15861v1

摘要： 对话状态跟踪 (DST) 对于理解用户需求并在面向任务的对话中执行适当的系统操作至关重要。大多数现有的 DST 方法都设计为在预定义的本体中工作，并假设黄金域标签的可用性，难以适应新的插槽值。虽然基于大型语言模型 (LLM) 的系统显示出有希望的零样本 DST 性能，但它们要么需要大量的计算资源，要么性能低于现有的经过全面训练的系统，从而限制了它们的实用性。为了解决这些限制，我们提出了一种零样本、开放词汇系统，将域分类和 DST 集成在单个管道中。我们的方法包括将 DST 重新制定为能力较差模型的问答任务，并为适应性更强的模型采用自我完善提示。我们的系统不依赖于本体中定义的固定槽值，允许系统动态适应。我们将我们的方法与现有的 SOTA 进行比较，结果表明，与以前的方法相比，它在 Multi-WOZ 2.1 等数据集上的联合目标精度 (JGA) 提高了 20%，同时对 LLM API 的请求减少了 90%。

基于神经网络的控制辨识：近似线性化模型

分类： 系统与控制, 人工智能, 系统与控制

作者： Maxime Thieffry, Alexandre Hache, Mohamed Yagoubi, Philippe Chevrel

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15858v1

摘要： 这项工作提出了一种面向控制的辨识方案，用于非线性系统的高效控制设计和稳定性分析。神经网络用于识别离散时间非线性状态空间模型，以近似非线性系统的时域输入输出行为。该网络的构建使得识别的模型可以通过反馈近似线性化，从而确保控制律从学习阶段就可以简单地遵循。经过辨识和准线性化程序后，线性控制理论就可以设计鲁棒控制器并研究闭环系统的稳定性。该方法的有效性和趣味性在整篇论文中对系统识别的流行基准进行了说明。

自适应学习然后测试：统计上有效且高效的超参数选择

分类： 机器学习, 人工智能, 信息论, 机器学习, 信息论, 方法

作者： Matteo Zecchin, Osvaldo Simeone

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15844v1

摘要： 我们引入了自适应学习然后测试（aLTT），这是一种有效的超参数选择程序，可为人工智能模型的总体风险提供有限样本统计保证。现有的先学习后测试 (LTT) 技术依赖于传统的基于 p 值的多重假设检验 (MHT)，而 aLTT 与此不同，aLTT 通过利用电子流程来实现顺序数据相关的 MHT 并提前终止。因此，aLTT 可以减少测试轮次，特别适合测试成本较高或存在安全风险的场景。除了保持统计有效性之外，在离线强化学习的在线策略选择和工程系统的超参数调整等应用中，aLTT 被证明可以实现与 LTT 相同的性能，而只需要一小部分测试轮次。

从被动观看到主动学习：AI视频助手赋能数字课堂主动参与

分类： 人工智能

作者： Anna Bodonhelyi, Enkeleda Thaqi, Süleyman Özdel, Efe Bozkir, Enkelejda Kasneci

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15843v1

摘要： 在在线教育中，创新工具对于提高学习成果至关重要。 SAM（与 AI Mentor 一起学习）是一个先进的平台，它将教育视频与由大型语言模型提供支持的上下文感知聊天界面集成在一起。 SAM 鼓励学生实时提出问题并探索不清楚的概念，提供个性化、针对具体情况的帮助，包括公式、幻灯片和图像的解释。在一项涉及 140 名参与者的众包用户研究中，通过知识前和知识后测试对 SAM 进行了评估，并将使用 SAM 的组与对照组进行了比较。结果表明，SAM 用户获得了更大的知识增益，答案准确率为 96.8%。参与者还对 SAM 的可用性和有效性提供了积极的反馈。 SAM 的主动学习方法不仅可以提高学习成果，还使学生能够完全掌控自己的教育体验，代表了在线学习工具的一个充满希望的未来方向。

微调大型问答语言模型的实证见解

分类： 计算和语言, 人工智能

作者： Junjie Ye, Yuming Yang, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15825v1

摘要： 大型语言模型 (LLM) 通过对大量数据集进行预训练来编码广泛的世界知识，然后可以针对问答 (QA) 任务进行微调。然而，针对质量保证任务对大语言模型进行微调的有效策略在很大程度上仍未得到探索。为了解决这一差距，我们根据预训练的大语言模型记忆的知识范围对监督微调（SFT）数据进行分类，并进行了一系列实证分析。我们的实验涉及来自三个不同模型系列的四位大语言模型，重点关注三个关键因素：SFT 所需的数据量、不同 SFT 数据集对模型性能的影响以及不同大语言模型的数据要求有何不同。结果表明，SFT 阶段仅需 60 个数据点就可以激活预训练期间编码的知识，使 LLM 能够执行 QA 任务。此外，具有不同内存级别数据的 SFT 对 LLM 性能有显着影响，最佳数据集根据微调的特定模型而有所不同。未来的研究将更深入地研究这些现象背后的机制。

SwiftDossier：为大语言模型和代理人量身定制的药物发现自动档案

分类： 人工智能, 68T07, 92C50, 68T09, I.2.7; J.3

作者： Gabriele Fossi, Youssef Boulaimen, Leila Outemzabet, Nathalie Jeanray, Stephane Gerart, Sebastien Vachenc, Joanna Giemza, Salvatore Raieli

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15817v1

摘要： 人工智能算法的进步将其应用扩展到生物医学领域等多个领域。包括大型语言模型 (LLM) 在内的人工智能系统在药物发现方面尤其具有优势，这是一个非常漫长且昂贵的过程。然而，大语言模型本身缺乏对特定领域的深入了解，可能会产生事实上不正确的信息。此外，他们无法执行需要使用外部工具的更复杂的操作。我们的工作主要集中在这两个问题上。首先，我们展示先进的 RAG 系统的实施如何帮助大语言模型为药物发现相关问题提供更准确的答案。结果表明，使用 RAG 系统的大语言模型生成的答案在质量上优于不使用 RAG 的模型生成的答案。其次，我们展示了如何使用大语言模型创建自动目标档案，并将其与外部工具结合起来，他们可以使用外部工具执行更复杂的任务来收集数据，例如访问数据库和执行代码。结果是一个可用于生产的目标档案，其中包含汇总为 PDF 和 PowerPoint 演示文稿的获取信息。

AsthmaBot：用于哮喘患者支持的多模式、多语言检索增强生成

分类： 人工智能, 计算和语言

作者： Adil Bahaj, Mounir Ghogho

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15815v1

摘要： 在环境和生活方式因素的推动下，全球哮喘发病率有所上升。获得即时医疗服务的机会有限，特别是在发展中国家，因此需要自动化支持系统。像 ChatGPT（聊天生成预训练变压器）和 Gemini 这样的大型语言模型总体上具有先进的自然语言处理能力，特别是问题回答能力，但是，它们很容易产生实际上不正确的响应（即幻觉）。检索增强生成系统，集成精选文档，可以提高大型语言模型的性能并减少幻觉的发生率。我们推出 AsthmaBot，这是一种用于哮喘支持的多语言、多模式检索增强生成系统。对哮喘相关常见问题数据集的评估显示了 AsthmaBot 的功效。 AsthmaBot 增加了交互式和直观的界面，集成了不同的数据模式（文本、图像、视频），使其可供更多公众使用。 AsthmaBot 可通过 \url{asthmabot.datanets.org} 在线获取。

基于示例的交互式解释可提高卫生专业人员使用人工智能进行人机协作决策的能力

分类： 人机交互, 人工智能, 机器学习

作者： Min Hun Lee, Renee Bao Xuan Ng, Silvana Xinyi Choo, Shamala Thilarajah

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15814v1

摘要： 越来越多的研究探索人工智能解释在用户决策阶段的使用，以实现人机协作决策。然而，之前的研究发现了过度依赖“错误”人工智能输出的问题。在本文中，我们提出了基于示例的交互式解释，以提高医疗专业人员对人工智能的了解，以便他们在人工智能辅助决策过程中更好地依赖人工智能。我们实施了一个基于人工智能的决策支持系统，该系统利用神经网络来评估中风后幸存者练习的质量和基于交互式示例的解释，系统地显示来自人工智能训练集的测试/任务样本的最近邻域模型来帮助用户使用人工智能模型。为了调查基于示例的交互式解释的效果，我们与领域专家、卫生专业人员进行了一项研究，以评估他们的表现和对人工智能的依赖。与在决策支持期间仅提供基于特征的解释相比，我们在入职期间基于交互式示例的解释帮助医疗专业人员更好地依赖人工智能，并做出更高比例的“正确”决策和更低的“错误”决策比例阶段。我们的研究讨论了协助用户使用人工智能进行人机协作决策的新挑战。

分割任务中无监督域适应的逐层模型合并

分类： 计算机视觉和模式识别, 人工智能, 多媒体

作者： Roberto Alcover-Couso, Juan C. SanMiguel, Marcos Escudero-Viñolo, Jose M Martínez

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15813v1

摘要： 合并多个模型的参数已重新成为增强任务性能和鲁棒性的有效策略，但先前的工作受到集成创建和推理的高成本的限制。在本文中，我们利用大量可免费访问的训练模型来引入一种免费的模型合并方法。它专注于合并模型的分层集成，旨在保持特定于任务的最终层的独特性，同时统一主要与特征提取相关的初始层。这种方法可确保所有层的参数一致性，这对于提高性能至关重要。此外，它还有助于知识的无缝集成，从而能够有效合并来自不同数据集和任务的模型。具体来说，我们研究了它在无监督域适应（UDA）中的适用性，这是一个未探索的模型合并、语义和全景分割领域。实验结果表明，在合并来自不同数据集的相同架构模型 ($\uparrow 2.6%$ mIoU) 和具有共享主干的不同架构模型 ($\uparrow 6.8%$ mIoU) 时，UDA 得到了显着改进，且无需额外成本。此外，合并语义和全景分割模型可将 mPQ 提高 $\uparrow 7%$。这些发现在各种 UDA 策略、架构和数据集上得到了验证。

CLSP：用于代理状态表示的高保真对比语言状态预训练

分类： 人工智能

作者： Fuxian Huang, Qi Zhang, Shaopeng Zhai, Jie Wang, Tianyi Zhang, Haoran Zhang, Ming Zhou, Yu Liu, Yu Qiao

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15806v1

摘要： 随着人工智能的快速发展，多模态学习已成为一个重要的研究领域。对于智能代理来说，状态是与图像、视频和语言等常见模式一起传递精确信息的重要模式。随着强化学习和多模态大语言模型的广泛采用，这一点变得尤其明显。然而，国家形态的表征仍然滞后于发展。为此，我们提出了一种高保真对比语言状态预训练（CLSP）方法，该方法可以将状态信息准确地编码为强化学习和多模态大语言模型的通用表示。具体来说，我们首先设计一个基于分类的预训练任务，用粗粒度信息训练编码器。接下来，我们构建状态和语言描述的数据对，利用预训练的编码器来初始化 CLSP 编码器。然后，我们部署对比学习来训练 CLSP 编码器以有效地表示精确的状态信息。此外，我们还使用随机傅里叶特征（RFF）方法增强了数字信息的表示，以实现高保真映射。大量的实验证明了我们的表示具有卓越的精度和泛化能力，在文本状态检索、强化学习导航任务和多模态大语言模型理解方面取得了出色的成果。

建立通用的天然气需求预测大规模基础模型

分类： 机器学习, 人工智能

作者： Xinxing Zhou, Jiaqi Ye, Shubao Zhao, Ming Jin, Zhaoxiang Hou, Chengyi Yang, Zengxiang Li, Yanlong Wen, Xiaojie Yuan

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15794v1

摘要： 在全球能源战略背景下，准确的天然气需求预测对于确保高效的资源配置和运营规划至关重要。传统的预测方法难以应对不同行业和商业领域日益复杂和多变的天然气消费模式。为了应对这些挑战，我们提出了第一个专门为天然气需求预测量身定制的基础模型。基础模型以其跨任务和数据集泛化的能力而闻名，为传统方法的局限性提供了强大的解决方案，例如针对不同客户群需要单独的模型及其有限的泛化能力。我们的方法利用对比学习来提高现实场景中的预测准确性，特别是通过解决历史消费数据中的噪声以及类似数据样本的潜在错误分类等问题，这可能导致表示质量下降，从而导致准确性下降下游预测任务。通过将先进的噪声过滤技术集成到对比学习框架中，我们的模型提高了学习表示的质量，从而实现更准确的预测。此外，该模型在预训练过程中进行了针对特定行业的微调，使其能够更好地捕捉各行业天然气消耗的独特特征。我们使用新奥集团的大规模数据集进行了广泛的实验，其中包括来自多个地区的 10,000 多个工业、商业和福利相关客户的数据。我们的模型优于现有最先进的方法，与最佳可用模型相比，MSE 相对提高了 3.68%，MASE 相对提高了 6.15%。

小语言模型：调查、测量和见解

分类： 计算和语言, 人工智能, 机器学习

作者： Zhenyan Lu, Xiang Li, Dongqi Cai, Rongjie Yi, Fangming Liu, Xiwen Zhang, Nicholas D. Lane, Mengwei Xu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15790v1

摘要： 尽管小语言模型 (SLM) 在现代智能设备中得到广泛采用，但与主要部署在数据中心和云环境中的大语言模型 (LLM) 相比，其受到的学术关注要少得多。在研究人员不断提高大语言模型追求通用人工智能的能力的同时，SLM 研究的目标是让机器智能在日常任务中更容易获得、更经济、更高效。我们专注于具有 100M-5B 参数的基于 Transformer 的纯解码器语言模型，调查了 59 个最先进的开源 SLM，从架构、训练数据集和训练算法这三个轴分析了它们的技术创新。此外，我们还评估他们在各个领域的能力，包括常识推理、情境学习、数学和编码。为了进一步了解其设备上运行时成本，我们对它们的推理延迟和内存占用进行了基准测试。通过对基准数据的深入分析，我们为推进该领域的研究提供了宝贵的见解。

用于多类型犯罪预测的时空混合图专家

分类： 机器学习, 人工智能

作者： Ziyang Wu, Fan Liu, Jindong Han, Yuxuan Liang, Hao Liu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15764v1

摘要： 随着各类犯罪持续威胁公共安全和经济发展，预测多种犯罪的发生对于采取有效的预防措施变得越来越重要。尽管人们做出了广泛的努力，但大多数都忽视了不同犯罪类别的异质性，未能解决空间分布不平衡的问题。在这项工作中，我们提出了一种用于集体多类型犯罪预测的时空混合图专家（ST-MoGE）框架。为了增强模型识别不同时空依赖性并减轻不同犯罪类别时空异质性引起的潜在冲突的能力，我们引入了一个注意门控混合图专家（MGE）模块来捕获独特和共享的特征每个犯罪类别的犯罪模式。然后，我们提出跨专家对比学习（CECL）来更新 MGE，并迫使每个专家专注于特定的模式建模，从而减少混合和冗余。此外，为了解决空间分布不平衡的问题，我们提出了一种分层自适应损失重新加权（HALR）方法来消除数据稀缺区域的偏差和学习不足。为了评估我们方法的有效性，我们对两个现实世界的犯罪数据集进行了全面的实验，并将我们的结果与 12 个高级基线进行比较。实验结果证明了我们方法的优越性。

IRSC：检索增强生成场景中通过语义理解进行信息检索的零样本评估基准

分类： 信息检索, 人工智能

作者： Hai Lin, Shaoxiong Zhan, Junyou Su, Haitao Zheng, Hui Wang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15763v1

摘要： 在使用大型语言模型 (LLM) 的检索增强生成 (RAG) 任务中，检索信息的质量对于最终输出至关重要。本文介绍了用于评估嵌入模型在多语言 RAG 任务中性能的 IRSC 基准。该基准包含五个检索任务：查询检索、标题检索、段落部分检索、关键词检索和摘要检索。我们的研究解决了目前 RAG 场景中嵌入模型缺乏全面测试和有效比较方法的问题。我们引入了新的指标：语义理解相似度指数 (SSCI) 和检索能力竞赛指数 (RCCI)，并评估了 Snowflake-Arctic、BGE、GTE 和 M3E 等模型。我们的贡献包括：1) IRSC 基准，2) SSCI 和 RCCI 指标，以及 3) 对嵌入模型的跨语言局限性的见解。 IRSC 基准测试旨在增强对 RAG 任务中准确检索系统的理解和开发。所有代码和数据集均可在以下位置获取：https://github.com/Jasaxion/IRSC\_Benchmark

TFG：扩散模型的统一免培训指南

分类： 机器学习, 人工智能

作者： Haotian Ye, Haowei Lin, Jiaqi Han, Minkai Xu, Sheng Liu, Yitao Liang, Jianzhu Ma, James Zou, Stefano Ermon

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15761v1

摘要： 给定无条件扩散模型和感兴趣的目标属性的预测器（例如分类器），免训练指导的目标是生成具有所需目标属性的样本，而无需额外的训练。现有方法虽然在各种单独的应用中有效，但通常缺乏理论基础和对广泛基准的严格测试。结果，他们甚至可能在简单的任务上失败，并且将它们应用于新问题不可避免地变得困难。本文介绍了一种新颖的算法框架，将现有方法作为特例，将免训练指导的研究统一到与算法无关的设计空间的分析中。通过理论和实证研究，我们提出了一种高效且有效的超参数搜索策略，可以轻松应用于任何下游任务。我们对 7 个扩散模型的 16 个任务和 40 个目标进行了系统基准测试，平均性能提高了 8.5%。我们的框架和基准为免训练的条件生成提供了坚实的基础。

杂技机器人的阶段性奖励塑造：一种约束多目标强化学习方法

分类： 机器人技术, 人工智能

作者： Dohyeong Kim, Hyeokjin Kwon, Junseok Kim, Gunmin Lee, Songhwai Oh

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15755v1

摘要： 随着强化学习（RL）解决的任务复杂性的增加，奖励函数的定义也变得非常复杂。我们引入了一种强化学习方法，旨在通过直观的策略简化奖励塑造过程。最初，我们在约束多目标强化学习 (CMORL) 框架内定义多个奖励和成本函数，而不是由各种项组成的单个奖励函数。对于涉及连续复杂运动的任务，我们将任务分为不同的阶段，并为每个阶段定义多个奖励和成本。最后，我们介绍了一种实用的 CMORL 算法，该算法根据这些奖励最大化目标，同时满足成本定义的约束。所提出的方法已在模拟和现实环境中的各种杂技任务中成功得到验证。此外，与现有的 RL 和约束 RL 算法相比，它已被证明能够成功执行任务。我们的代码可在 https://github.com/rllab-snu/Stage-Wise-CMORL 获取。

使用离线强化学习算法开发和验证肝素剂量策略

分类： 机器学习, 人工智能

作者： Yooseok Lim, Inbeom Park, Sujee Lee

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15753v1

摘要： 重症监护病房 (ICU) 中适当的药物剂量对于患者的生存至关重要。肝素在 ICU 中用于治疗血栓形成和抑制血液凝固，由于其复杂性和对各种因素的敏感性（包括患者临床特征、基础医疗状况和潜在的药物相互作用），需要谨慎给药。不正确的剂量可能会导致严重的并发症，例如中风或过度出血。为了应对这些挑战，本研究提出了一种基于强化学习（RL）的个性化最佳肝素剂量策略，可根据患者个体情况在治疗范围内可靠地指导剂量决策。实施批量约束策略是为了最大限度地减少离线 RL 环境中的分布外错误，并将 RL 与现有临床医生策略有效集成。使用加权重要性抽样（一种非政策评估方法）评估政策的有效性，并使用 t-SNE 探讨状态表示和 Q 值之间的关系。使用重症监护医疗信息市场 III (MIMIC-III) 数据库进行定量和定性分析，证明了所提议的基于 RL 的药物政策的有效性。该研究利用先进的机器学习技术和广泛的临床数据，增强了肝素的给药实践，并为开发复杂的医学决策支持工具奠定了先例。

生成式人工智能在电动汽车互联网中的作用

分类： 机器学习, 人工智能, 新兴技术

作者： Hanwen Zhang, Dusit Niyato, Wei Zhang, Changyuan Zhao, Hongyang Du, Abbas Jamalipour, Sumei Sun, Yiyang Pei

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15750v1

摘要： 随着生成人工智能（GenAI）模型的进步，其生成内容的能力显着增强，从而在数据生成和预测领域得到广泛应用。此外，GenAI拥有强大的数据建模和分析能力，从多方面增强了电动汽车互联网（IoEV）的应用。在本文中，我们调查和调查了 GenAI 在 IoEV 中的应用。具体来说，我们将 IoEV 的 GenAI 分为四个不同的层，即电动汽车的电池层、个体电动汽车（EV）层、带电动汽车的智能电网层和安全层。我们首先介绍车联网应用各层中使用的各种 GenAI 技术。随后，总结了可用于训练 GenAI 模型的公共数据集。最后，我们为未来的方向提供建议。这项调查不仅对 GenAI 在车联网中不同层的应用进行了分类，而且通过强调每一层内的设计和实施挑战，为研究人员和从业者提供了宝贵的资源。此外，它还为未来的研究方向提供了路线图，通过集成先进的 GenAI 技术来开发更强大、更高效的 IoEV 系统。

STEM 领域多模式答题卡的自动评估

分类： 人工智能

作者： Rajlaxmi Patil, Aditya Ashutosh Kulkarni, Ruturaj Ghatage, Sharvi Endait, Geetanjali Kale, Raviraj Joshi

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15749v1

摘要： 在教育领域，技术的融合带来了一个变革时代，重塑了传统的学习范式。这种演变的核心是评分过程的自动化，特别是在涵盖科学、技术、工程和数学的 STEM 领域。独特的挑战，从定量分析到手写图表的解释。为了应对这些挑战，本研究致力于通过使用人工智能（AI）实施自动化评估技术来开发高效可靠的评分方法。我们的贡献在于两个关键领域：首先，开发了一个强大的系统，用于评估 STEM 中的文本答案，利用先进算法和自然语言处理技术来利用示例答案进行精确比较和评分。专注于增强图表评估，特别是在 STEM 背景下的流程图，通过使用大语言模型 (LLM) 将图表转换为文本表示以进行细致的评估。通过弥合视觉表示和语义之间的差距，我们的方法确保了准确的评估，同时最大限度地减少了人工干预。通过集成诸如用于文本、提取的 CRAFT 和用于对象检测的 YoloV5 等模型，并与 LLM（例如用于文本提取的 Mistral-7B）相结合，文本评估，我们的方法有助于对多模式答卷进行全面评估。本文详细介绍了我们所遇到的方法、挑战、结果和影响，强调了人工智能驱动的方法在彻底改变 STEM 教育评分实践方面的潜力。

训练神经网络的模块化有助于可解释性

分类： 机器学习, 人工智能

作者： Satvik Golechha, Dylan Cope, Nandi Schoots

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15747v1

摘要： 提高网络可解释性的一种方法是通过可聚类性，即将模型分成可以独立研究的不相交的聚类。我们发现预训练的模型是高度不可聚类的，因此使用“网格损失”函数来训练模型更加模块化，该函数鼓励形成非交互集群。使用自动可解释性测量，我们表明我们的方法可以找到学习 CIFAR-10 标签的不同、不相交和较小电路的簇。我们的方法为使神经网络更容易解释提供了一个有希望的方向。

物联网边缘设备上的实时行人检测：一种轻量级深度学习方法

分类： 人工智能, 计算机视觉和模式识别, 网络和互联网架构

作者： Muhammad Dany Alfikri, Rafael Kaliski

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15740v1

摘要： 人工智能 (AI) 已成为我们日常生活不可或缺的一部分。计算机视觉已经发展到可以发挥安全关键作用，在智能交通系统中检测道路交叉口的行人，并向车辆交通发出潜在碰撞警报。集中计算分析摄像头反馈并为附近车辆生成警报。然而，实时应用程序面临着延迟、有限的数据传输速度和生命损失风险等挑战。边缘服务器为实时应用程序提供了潜在的解决方案，提供本地化的计算和存储资源以及更低的响应时间。不幸的是，边缘服务器的处理能力有限。轻量级深度学习 (DL) 技术使边缘服务器能够利用压缩的深度神经网络 (DNN) 模型。该研究探索在人工智能物联网 (AIoT) 边缘设备上实现轻量级深度学习模型。部署基于优化的 You Only Look Once (YOLO) 的深度学习模型来进行实时行人检测，并使用消息队列遥测传输 (MQTT) 协议将检测事件传输到边缘服务器。仿真结果表明，优化后的YOLO模型能够实现实时行人检测，推理速度快至147毫秒，帧率达到2.3帧/秒，准确率达到78%，较基线模型有显着提升。

EvoFA：脑电图情绪识别的可进化快速适应

分类： 机器学习, 人工智能

作者： Ming Jin, Danni Zhang, Gangming Zhao, Changde Du, Jinpeng Li

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15733v1

摘要： 基于脑电图（EEG）的情绪识别因其准确性和客观性而获得了巨大的关注。然而，脑电图信号的非平稳性质会导致分布随着时间的推移而漂移，导致模型重复使用时性能严重下降。尽管近年来提出了许多领域适应（DA）方法来解决这个问题，但它们对大量目标数据进行校准的依赖将其限制在离线场景中，从而导致它们不适合实时应用。为了应对这一挑战，本文提出了可进化快速适应（EvoFA），这是一种针对脑电图数据量身定制的在线自适应框架。 EvoFA通过两阶段泛化过程将Few-Shot Learning（FSL）的快速适应和Domain Adaptation（DA）的分布匹配有机地结合在一起。在训练阶段，构建了一个强大的基础元学习模型以实现强泛化。在测试阶段，设计的可演化元适应模块在与模型无关的元学习框架内迭代地将目标（测试）数据的边际分布与不断演化的源（训练）数据对齐，使模型能够学习测试与训练数据相关的数据并提高在线测试性能。实验结果表明，EvoFA 与基本 FSL 方法和之前的在线方法相比取得了显着的改进。 EvoFA 的推出为在现实世界应用中更广泛地采用基于脑电图的情感识别铺平了道路。我们的代码将在发布后发布。

从自动驾驶的潜在世界模型中学习多个概率决策

分类： 机器人技术, 人工智能

作者： Lingyu Xiao, Jiang-Jiang Liu, Sen Yang, Xiaofan Li, Xiaoqing Ye, Wankou Yang, Jingdong Wang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15730v1

摘要： 自回归世界模型在矢量化场景理解中表现出强大的泛化能力，但由于不确定性建模和自我欺骗的不足，在推导动作时遇到了困难。在本文中，我们通过制定多个概率假设来应对这些挑战，从而探索从自回归世界模型中得出决策的可行性。我们提出 LatentDriver，一个框架将环境的下一个状态和自我车辆的可能动作建模为混合分布，然后从中导出确定性控制信号。通过结合混合模型，可以捕捉决策的随机性质。此外，通过向世界模型提供从分布中采样的中间动作，可以缓解自我欺骗问题。最近发布的闭环基准测试 Waymax 上的实验结果表明，LatentDriver 超越了最先进的强化学习和模仿学习方法，达到了专家级的性能。代码和模型将在 https://github.com/Sephirex-X/LatentDriver 上提供。

密集联想记忆中的顺序学习

分类： 神经和进化计算, 人工智能

作者： Hayden McAlister, Anthony Robins, Lech Szymanski

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15729v1

摘要： 顺序学习涉及按顺序学习任务，并且对大多数神经网络来说都具有挑战性。生物神经网络经常克服顺序学习的挑战，甚至能够在任务之间向前和向后传递知识。人工神经网络通常完全无法在任务之间传递性能，并且经常遭受性能下降或对先前任务的灾难性遗忘。联想记忆模型已被用来研究生物神经网络和人工神经网络由于生物联系和灵感而存在的差异，其中霍普菲尔德网络可能是研究最多的模型。密集联想记忆，或现代霍普菲尔德网络，概括了霍普菲尔德网络，允许更大的容量和原型学习行为，同时仍然保留联想记忆结构。我们研究了密集联想记忆在顺序学习问题中的性能，并对网络中的各种顺序学习技术进行了基准测试。我们对顺序学习空间（特别是 Hopfield 网络和联想记忆）进行了实质性回顾，并详细描述了我们实施的技术。我们还在顺序学习的背景下对经典记忆和密集联想记忆进行了比较，并讨论了可能影响密集联想记忆作为研究生物神经网络工具的效用的生物学灵感的背离。我们展示了我们的发现，并表明现有的顺序学习方法可以应用于密集联想记忆以提高顺序学习性能。

LLM-Cure：基于 LLM 的竞争对手用户评论分析以增强功能

分类： 软件工程, 人工智能, 信息检索

作者： Maram Assi, Safwat Hassan, Ying Zou

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15724v1

摘要： 移动应用市场的指数级增长凸显了持续创新和快速响应用户需求的重要性。由于用户满意度对于移动应用程序 (app) 的成功至关重要，因此开发人员通常依赖用户评论，这些评论代表用户反馈，包括评级和评论来确定需要改进的领域。然而，大量的用户评论给手动分析带来了挑战，需要自动化方法。现有的自动化方法要么只分析目标应用程序的评论，忽略与竞争对手相似功能的比较，要么无法提供功能增强的建议。为了解决这些差距，我们提出了一种基于大型语言模型（LLM）的竞争性用户评论分析（用于功能增强）（LLM-Cure），这是一种由 LLM 支持的方法，可以自动生成移动应用程序功能改进的建议。更具体地说，LLM-Cure 通过应用 LLM 来识别评论中的特征并对其进行分类。当用户评论中收到投诉时，LLM-Cure 会在与投诉相关的竞争应用程序中策划高评价（4 星和 5 星）评论，并针对目标应用程序提出潜在的改进建议。我们根据 70 个热门 Android 应用程序的 1,056,739 条评论对 LLM-Cure 进行评估。我们的评估表明，LLM-Cure 在为评论分配特征方面显着优于最先进的方法，F1 分数提高了 13%，召回率提高了 16%，准确率提高了 11%。此外，LLM-Cure 还展示了其为解决用户投诉提供建议的能力。我们使用反映目标移动应用程序功能更改的发行说明来验证建议。 LLM-Cure 所提供建议的平均实施率为 73%，令人鼓舞。

工业物联网数据异构性下表面缺陷分类的对抗性联合共识学习

分类： 机器学习, 人工智能, 信号处理

作者： Jixuan Cui, Jun Li, Zhen Mei, Yiyang Ni, Wen Chen, Zengxiang Li

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15711v1

摘要： 数据稀缺的挑战阻碍了深度学习在工业表面缺陷分类（SDC）中的应用，因为出于隐私问题，很难从工业物联网（IIoT）中的各个实体收集和集中足够的训练数据。联邦学习 (FL) 提供了一种解决方案，支持跨客户进行协作式全局模型训练，同时维护隐私。然而，性能可能会因数据异构性（客户端之间数据分布的差异）而受到影响。在本文中，我们提出了一种新颖的个性化 FL (PFL) 方法，称为对抗性联合共识学习 (AFedCL)，以应对 SDC 中不同客户端之间数据异构性的挑战。首先，我们开发了一种动态共识构建策略，以减轻数据异构性造成的性能下降。通过对抗性训练，来自不同客户的本地模型利用全局模型作为桥梁来实现分布对齐，从而缓解全局知识遗忘的问题。作为对这一策略的补充，我们提出了一种共识感知聚合机制。它根据不同客户在全局知识学习中的功效为其分配聚合权重，从而增强全局模型的泛化能力。最后，我们设计了自适应特征融合模块，以进一步提高全局知识利用效率。针对每个客户逐步调整个性化融合权重，以最佳平衡全局和局部特征，适合他们个人的全局知识学习效率。与 FedALA 等最先进的 FL 方法相比，所提出的 AFedCL 方法在三个 SDC 数据集上的准确度提高了高达 5.67%。

使用 GRFM-Net 自动调整双足运动 MPC，实现高效的模拟到真实的传输

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Qianzhong Chen, Junheng Li, Sheng Cheng, Naira Hovakimyan, Quan Nguyen

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15710v1

摘要： 双足运动控制对于人形机器人导航复杂的、以人为中心的环境至关重要。虽然基于优化的控制设计在集成人形机器人的复杂模型方面很受欢迎，但它们通常需要劳动密集型的手动调整。在这项工作中，我们使用 DiffTune 解决双足运动控制中参数选择的挑战，DiffTune 是一种基于模型的自动调整方法，利用差分编程进行有效的参数学习。主要困难在于平衡模型保真度和可微性。我们使用低保真可微分模型来解决这一难题，并通过地面反作用力和力矩网络 (GRFM-Net) 进行增强，以捕获 MPC 命令与实际控制效果之间的差异。我们在硬件实验中使用 GRFM-Net 验证了 DiffTune 学习到的参数，这证明了与基线参数相比，多目标设置中参数的最优性，与专家调整的相比，总损失减少了高达 40.5$%$参数。结果证实了 GRFM-Net 在缩小仿真与真实差距、提高仿真学习参数到真实硬件的可迁移性方面的有效性。

使用大语言模型改善基于文本的社区安全报告中的情感支持传递

分类： 人机交互, 人工智能

作者： Yiren Liu, Yerong Li, Ryan Mayfield, Yun Huang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15706v1

摘要： 情感支持是事件报告期间社区成员和警察调度员之间沟通的一个重要方面。然而，人们对如何通过基于文本的系统提供情感支持缺乏了解，特别是在各种非紧急情况下。在这项研究中，我们分析了两年的聊天日志，其中包含来自 130 个高等教育机构的 8,239 起事件的 57,114 条消息。我们的实证研究结果显示，调度员提供的情感支持存在显着差异，受到事件类型、服务时间的影响，并且多个组织的支持随着时间的推移明显下降。为了提高情感支持的一致性和质量，我们开发并实施了一个微调的大型语言模型（LLM），名为dispatcherLLM。我们通过将其生成的响应与使用真实聊天消息的人类调度员和其他现成模型的响应进行比较来评估 DispatcherLLM。此外，我们还进行了人工评估，以评估 DispatcherLLM 提供的支持的感知有效性。这项研究不仅为基于文本的调度系统中的情感支持提供了新的实证理解，而且还证明了生成式人工智能在改善服务交付方面的巨大潜力。

dnaGrinder：轻量级、大容量的基因组基础模型

分类： 基因组学, 人工智能, 计算工程、金融和科学, 计算和语言

作者： Qihang Zhao, Chi Zhang, Weixiong Zhang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15697v1

摘要： 理解和解释基因组序列中编码的复杂信息的任务仍然是生物学研究和临床应用中的巨大挑战。在此背景下，大型语言模型研究的最新进展导致了纯编码器和纯解码器基础模型的开发，旨在解码 DNA 序列中的复杂信息。然而，仍然存在一些问题，特别是关于基因组序列固有的远程依赖性的有效管理、核苷酸变异的有效表示以及与大型模型架构和广泛的预训练数据集相关的相当大的计算成本。当前的基因组基础模型经常面临一个关键的权衡：性能平庸的较小模型与性能改进的大型模型。为了应对这些挑战，我们引入了 dnaGrinder，一种独特且高效的基因组基础模型。 dnaGrinder 擅长管理基因组序列内的远程依赖性，同时在不影响性能的情况下最大限度地降低计算成本。它获得的结果不仅可与领先的 DNA 模型（如 Nucleotide Transformer 和 DNABERT-2）相媲美，而且往往优于领先的 DNA 模型。此外，dnaGrinder 专为在工作站级 GPU 上轻松微调而设计，可容纳超过 17,000 个令牌的输入长度。在单个高性能 GPU 上，它支持超过 140,000 个标记的序列，使其成为基础生物研究和临床应用的高效且易于访问的工具。

实现专家混合支持 6G 网络的可信语义通信

分类： 网络和互联网架构, 人工智能, 密码学和安全

作者： Jiayi He, Xiaofeng Luo, Jiawen Kang, Hongyang Du, Zehui Xiong, Ci Chen, Dusit Niyato, Xuemin Shen

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15695v1

摘要： 语义通信 (SemCom) 在 6G 网络中发挥着关键作用，为未来的高效通信提供了可行的解决方案。基于深度学习 (DL) 的语义编解码器进一步提高了这种效率。然而，深度学习模型容易受到安全威胁（例如对抗性攻击）的影响，这给 SemCom 系统的实际应用带来了重大挑战。这些漏洞使攻击者能够篡改消息并窃听私人信息，尤其是在无线通信场景中。尽管现有的防御措施试图解决特定的威胁，但它们通常无法同时处理多种异构攻击。为了克服这一限制，我们引入了一种新颖的基于专家混合 (MoE) 的 SemCom 系统。该系统由门控网络和多名专家组成，每个专家专门应对不同的安全挑战。门控网络根据用户定义的安全要求自适应地选择合适的专家来对抗异构攻击。多位专家协作完成语义通信任务，同时满足用户的安全需求。车载网络的案例研究证明了基于 MoE 的 SemCom 系统的功效。仿真结果表明，所提出的基于 MoE 的 SemCom 系统可以有效缓解并发异构攻击，并且对下游任务准确性的影响最小。

通过基于人工干预的强化学习实现机器人消化内窥镜的安全导航

分类： 机器人技术, 人工智能

作者： Min Tan, Yushun Tao, Boyun Zheng, GaoSheng Xie, Lijuan Feng, Zeyang Xia, Jing Xiong

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15688v1

摘要： 随着自动化机器人消化内窥镜（RDE）的应用不断增加，确保在非结构化且狭窄的消化道中安全高效地导航已成为一项关键挑战。现有的自动化强化学习导航算法，由于缺乏必要的人为干预，常常会导致潜在的危险碰撞，这极大地限制了 RDE 在实际临床实践中的安全性和有效性。为了解决这个限制，我们提出了一种基于人工干预（HI）的近端策略优化（PPO）框架，称为 HI-PPO，它结合了专家知识来增强 RDE 的安全性。具体来说，我们引入了增强勘探机制（EEM）来解决标准 PPO 勘探效率低的问题。此外，还实施奖惩调整（RPA）来惩罚初始干预期间的不安全行为。此外，行为克隆相似性（BCS）作为辅助目标被包含在内，以确保代理模仿专家的行为。在模拟平台上跨不同解剖结肠段进行的比较实验表明，我们的模型有效且安全地引导 RDE。

大语言模型对精神疾病的综合评价

分类： 人工智能

作者： Abdelrahman Hanafi, Mohammed Saad, Noureldin Zahran, Radwa J. Hanafy, Mohammed E. Fouda

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15687v1

摘要： 大型语言模型在包括医疗保健在内的各个领域都显示出了前景。在这项研究中，我们使用社交媒体数据在心理健康任务的背景下对大语言模型进行了全面评估。我们探索了各种 LLM（包括 GPT-4、Llama 3、Gemini 等）在二元疾病检测、疾病严重程度评估和精神病学知识评估等任务上的零样本 (ZS) 和少样本 (FS) 能力。我们的评估涉及 33 个模型，测试跨任务的 9 个主要提示模板。主要研究结果表明，GPT-4 和 Llama 3 等模型在二元无序检测中表现出卓越的性能，在某些数据集上的准确率高达 85%。此外，即时工程在提高模型性能方面发挥了至关重要的作用。值得注意的是，Mixtral 8x22b 模型的性能提升超过 20%，而 Gemma 7b 的性能也有类似的提升。在疾病严重程度评估任务中，我们观察到 FS 学习显着提高了模型的准确性，凸显了上下文示例在复杂评估中的重要性。值得注意的是，Phi-3-mini 模型表现出性能的大幅提升，从 ZS 学习转向 FS 学习时，平衡精度提高了 6.80% 以上，平均误差下降了近 1.3。在精神病学知识任务中，最新模型的表现普遍优于较旧、较大的模型，Llama 3.1 405b 的准确率达到 91.2%。尽管结果令人鼓舞，但我们的分析发现了一些挑战，包括跨数据集性能的可变性以及需要仔细的提示工程。此外，许多大语言模型提供者施加的道德守卫阻碍了准确评估其绩效的能力，因为他们往往不回应潜在的敏感查询。

通过正交性约束减轻跨语言嵌入中的语义泄漏

分类： 计算和语言, 人工智能

作者： Dayeon Ki, Cheonbok Park, Hyunjoong Kim

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15664v1

摘要： 准确对齐跨语言句子嵌入中的上下文表示是有效并行数据挖掘的关键。实现这种对齐的常见策略包括解开从多语言预训练模型派生的句子嵌入中的语义和语言。然而，我们发现当前的解纠缠表示学习方法存在语义泄漏问题——我们引入这个术语来描述大量特定于语言的信息无意中泄漏到语义表示中的情况。这阻碍了语义和语言表示的有效解开，使得检索独特地表示句子含义的嵌入变得困难。为了应对这一挑战，我们提出了一个新的训练目标，即正交约束学习（ORACLE），专门用于强制语义和语言嵌入之间的正交性。 ORACLE 建立在两个组件之上：类内集群和类间分离。通过跨语言检索和语义文本相似性任务的实验，我们证明使用 ORACLE 目标进行训练可以有效减少语义泄漏并增强嵌入空间内的语义对齐。

用于股票时间序列预测的双路自适应相关时空倒置变压器

分类： 机器学习, 人工智能

作者： Wenbo Yan, Ying Tan

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15662v1

摘要： 时空图神经网络（STGNN）在各种时间序列预测任务中取得了显着的成功。然而，由于股票预测任务中缺乏明确且固定的空间关系，许多 STGNN 无法在该领域有效执行。虽然一些 STGNN 从时间序列中学习空间关系，但它们往往缺乏全面性。研究表明，与使用时间步作为标记相比，使用特征变化作为标记对时间序列进行建模会揭示完全不同的信息。为了更全面地从库存数据中提取动态空间信息，我们提出了一种双路径自适应相关时空逆变换器（DPA-STIFormer）。 DPA-STIFormer 通过特征的不断变化作为代币对每个节点进行建模，并引入双向自适应融合机制。该机制将节点编码分解为时间和特征表示，同时从双路径方法中提取不同的空间相关性，并提出一种双路径门控机制来融合这两类相关信息。对四个股票市场数据集进行的实验展示了最先进的结果，验证了该模型在发现潜在时间相关模式方面的卓越能力。

ReLEP：现实世界长期具体规划的新颖框架

分类： 机器人技术, 人工智能

作者： Siyuan Liu, Jiawei Du, Sicheng Xiang, Zibo Wang, Dingsheng Luo

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15658v1

摘要： 现实世界的长期具体规划支撑着具体人工智能。为了完成长期任务，智能体需要将抽象指令分解为详细的步骤。先前的工作主要依赖 GPT-4V 将任务分解为预定义的操作，由于 GPT-4V 对较大技能组的理解有限，这限制了任务的多样性。因此，我们提出了 ReLEP，这是现实世界长期具体规划的突破性框架，它可以完成广泛的日常任务。其核心是一个经过微调的大视觉语言模型，该模型根据输入指令和场景图像将计划制定为技能函数序列。这些功能选自精心设计的技能库。 ReLEP 还配备了用于计划和状态调用的内存模块，以及用于跨机器人类型的多功能性的机器人配置模块。此外，我们提出了一种半自动数据生成管道来解决数据集稀缺问题。八项日常具体任务的现实离线实验表明，ReLEP 能够完成长期具体任务，并且优于其他最先进的基线方法。

M^2PT：零样本指令学习的多模态提示调整

分类： 人工智能, 计算和语言, 机器学习

作者： Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui, Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu Huang, Qifan Wang, Dongfang Liu

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15657v2

摘要： 多模态大型语言模型 (MLLM) 在广泛的领域中表现出了卓越的性能，并且越来越重视增强其针对各种模态中未见过的任务的零样本泛化能力。指令调优已成为通过在不同的多模态任务上微调预训练模型来实现零样本泛化的有效策略。随着 MLLM 规模的不断增长，参数高效的微调变得越来越重要。然而，大多数现有的参数有效方法仅关注单一模态，并且常常忽略微调过程中的多模态特征。在这项工作中，我们引入了一种新颖的多模式提示调整 (M$^2$PT) 方法，用于有效地调整 MLLM 的指令。 M$^2$PT 在微调过程中有效地将视觉和文本提示分别集成到视觉编码器和语言处理器中，促进跨模态特征的提取和对齐。各种多模式评估数据集的实证结果表明，与几个最先进的基线相比，我们的方法具有卓越的性能。一套全面的消融研究验证了我们即时设计的有效性和我们方法的效率。

Synatra：将间接知识转化为大规模数字代理的直接演示

分类： 人工智能

作者： Tianyue Ou, Frank F. Xu, Aman Madaan, Jiarui Liu, Robert Lo, Abishek Sridhar, Sudipta Sengupta, Dan Roth, Graham Neubig, Shuyan Zhou

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15637v1

摘要： 大语言模型现在可以充当与数字环境交互并完成特定目标（例如安排在线会议）的自主代理。然而，准确性仍远不能令人满意，部分原因是缺乏大规模、直接的数字任务演示。从人类那里获取有监督的数据成本高昂，而通过探索或强化学习的自动数据收集依赖于复杂的环境和内容设置，导致数据集缺乏对各种场景的全面覆盖。另一方面，有丰富的知识可以间接帮助完成任务，例如为人类消费而创建的在线教程。在这项工作中，我们提出了 Synatra，一种有效地将这种间接知识转化为大规模直接监督的方法。我们定义了不同类型的间接知识，并仔细研究了获取间接知识的可用来源、编码直接演示结构的方法，以及最终将间接知识转化为直接演示的方法。我们使用 10 万个此类综合创建的演示来微调 7B CodeLlama，并证明所得代理在三个基于 Web 的任务基准 Mind2Web、MiniWoB++ 和 WebArena 上超越了所有同等大小的模型，并在 WebArena 和 Mind2Web 上超越了 GPT-3.5。此外，虽然事实证明，合成演示的成本仅为人类演示的 3%（每次 0.031 美元），但我们表明，合成演示比从有限领域收集的相同数量的人类演示更有效。

通过骨干网自蒸馏实现个性化联邦学习

分类： 机器学习, 人工智能, 密码学和安全, 计算机视觉和模式识别

作者： Pengju Wang, Bochao Liu, Dan Zeng, Chenggang Yan, Shiming Ge

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15636v1

摘要： 在实际场景中，联邦学习经常需要使用异构数据为每个客户端训练个性化模型。本文提出了一种骨干自蒸馏方法来促进个性化联邦学习。在这种方法中，每个客户端训练其本地模型，并且仅将骨干权重发送到服务器。然后聚合这些权重以创建全局骨干网，并将其返回给每个客户端进行更新。然而，由于共同的代表性，客户的本地骨干缺乏个性化。为了解决这个问题，每个客户端进一步进行主干自蒸馏，以全局主干为教师，传递知识来更新本地主干。这个过程涉及学习两个组成部分：用于共同表示的共享骨干和用于本地个性化的私有头部，从而实现有效的全球知识转移。广泛的实验以及与 12 种最先进方法的比较证明了我们方法的有效性。

使用生成人工智能对稀疏多维学习绩效数据进行数据增强

分类： 机器学习, 人工智能

作者： Liang Zhang, Jionghao Lin, John Sabatini, Conrad Borchers, Daniel Weitekamp, Meng Cao, John Hollander, Xiangen Hu, Arthur C. Graesser

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15631v1

摘要： 学习表现数据描述了自适应学习（例如智能辅导系统（ITS））中的正确和错误答案或解决问题的尝试。由于自适应项目选择，在大多数实际应用中，学习性能数据往往高度稀疏（80%(\sim)90% 缺失观察值）。这种数据稀疏性给使用学习者模型有效预测未来表现以及探索有关学习的新假设带来了挑战。本文提出了一个系统框架，用于增强学习者数据，以解决学习绩效数据中的数据稀疏问题。首先，学习绩效被表示为学习者的问题、答案和尝试的三维张量，捕获学习过程中的纵向知识状态。其次，使用张量分解方法对收集的学习者数据的稀疏张量中的缺失值进行插补，从而将插补建立在基于实际观察预测缺失性能值的知识追踪任务上。第三，使用生成学习模式的模块。这项研究对比了两种形式的生成人工智能 (AI)，包括生成对抗网络 (GAN) 和生成预训练变压器 (GPT)，以生成与不同学习者数据集群相关的数据。我们在为成人阅读理解 (ARC) 开发的 AutoTutor 课程中的成人识字数据集上测试了这种方法。我们发现：（1）与其他没有数据增强的知识追踪技术相比，张量分解提高了追踪和预测知识掌握的性能，显示出这种插补方法的相对保真度更高，（2）基于 GAN 的模拟显示出更高的整体稳定性与 GPT 相比，基于不同模拟样本大小的差异评估的统计偏差更少。

Safe Guard：用于社交虚拟现实中基于语音的实时仇恨言论检测的大语言模型代理

分类： 音频和语音处理, 人工智能, 声音

作者： Yiwen Xu, Qinyang Hou, Hongyu Wan, Mirjana Prpa

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15623v1

摘要： 在本文中，我们提出了 Safe Guard，这是一种 LLM 代理，用于检测社交 VR (VRChat) 中基于语音的交互中的仇恨言论。我们的系统利用 Open AI GPT 和音频特征提取来实现实时语音交互。我们贡献了系统设计和系统评估，证明了我们的方法在检测仇恨言论方面的能力，并与当前可用的方法相比减少了误报。我们的结果表明基于 LLM 的代理在创建更安全的虚拟环境方面具有潜力，并为 LLM 驱动的审核方法的进一步发展奠定了基础。

GReDP：一种更稳健的差分私人训练方法，具有梯度保持降噪功能

分类： 密码学和安全, 人工智能

作者： Haodi Wang, Tangyu Jiang, Yu Guo, Chengjun Cai, Cong Wang, Xiaohua Jia

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11663v2

摘要： 深度学习模型由于能够表示高度依赖于训练集和程序的层次特征，因此在各个地区得到了广泛采用。因此，保护训练过程和深度学习算法对于隐私保护至关重要。尽管差分隐私（DP）作为一种强大的密码原语在深度学习训练中取得了令人满意的结果，但现有方案在保留模型效用方面仍然存在不足，即它们要么调用高噪声尺度，要么不可避免地损害原始梯度。为了解决上述问题，在本文中，我们提出了一种更强大的 DP 训练方法，称为 GReDP。具体来说，我们在频域中计算模型梯度，并采用一种新方法来降低噪声水平。与之前的工作不同，与 DPSGD [1] 相比，我们的 GReDP 仅需要一半的噪声尺度，同时保持所有梯度信息完整。我们从理论上和实证上对我们的方法进行了详细分析。实验结果表明，我们的 GReDP 在所有模型和训练设置上始终优于基线。

Vista3D：揭开单个图像的 3D 暗面

分类： 计算机视觉和模式识别, 人工智能, 计算机科学与博弈论, 多媒体

作者： Qiuhong Shen, Xingyi Yang, Michael Bi Mi, Xinchao Wang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12193v1

摘要： 我们开始了一项古老的探索：仅仅通过瞥见物体的可见部分来揭示物体隐藏的维度。为了解决这个问题，我们推出了 Vista3D，这是一个可以在短短 5 分钟内实现快速且一致的 3D 生成的框架。 Vista3D 的核心是两阶段方法：粗略阶段和精细阶段。在粗略阶段，我们使用高斯分布从单个图像快速生成初始几何形状。在精细阶段，我们直接从学习的高斯分布中提取有符号距离函数（SDF），并使用可微等值面表示对其进行优化。此外，它通过使用具有两个独立隐式函数的解缠结表示来捕获对象的可见和模糊方面，从而提高了生成质量。此外，它还通过角度扩散先验合成来协调 2D 扩散先验和 3D 感知扩散先验的梯度。通过广泛的评估，我们证明 Vista3D 有效地维持了生成的 3D 对象的一致性和多样性之间的平衡。演示和代码将在 https://github.com/florinshen/Vista3D 上提供。

DynaMo：视觉运动控制的域内动力学预训练

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12192v1

摘要： 模仿学习已被证明是训练复杂视觉运动策略的有力工具。然而，当前的方法通常需要数百到数千次专家演示才能处理高维视觉观察。数据效率低下的一个关键原因是视觉表示主要要么是在域外数据上进行预训练，要么是通过行为克隆目标直接进行训练。在这项工作中，我们提出了 DynaMo，一种用于学习视觉表示的新的域内自监督方法。给定一组专家演示，我们在一系列图像嵌入上共同学习潜在逆动力学模型和正向动力学模型，预测潜在空间中的下一帧，无需增强、对比采样或访问地面真实动作。重要的是，DynaMo 不需要任何域外数据，例如互联网数据集或跨实体数据集。在一组六个模拟和真实环境中，我们表明，与之前的自监督学习目标和预训练表示相比，使用 DynaMo 学习的表示显着提高了下游模仿学习性能。使用 DynaMo 的收益适用于各种策略类别，例如行为转换器、扩散策略、MLP 和最近邻居。最后，我们消除了 DynaMo 的关键组件并衡量其对下游政策绩效的影响。机器人视频的最佳观看方式是 https://dynamo-ssl.github.io

Qwen2-VL：增强视觉语言模型在任何分辨率下对世界的感知

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12191v1

摘要： 我们推出了 Qwen2-VL 系列，这是之前 Qwen-VL 型号的高级升级版，重新定义了视觉处理中传统的预定分辨率方法。 Qwen2-VL引入了朴素动态分辨率机制，使模型能够将不同分辨率的图像动态处理成不同数量的视觉标记。这种方法使模型能够生成更高效、更准确的视觉表示，与人类感知过程紧密结合。该模型还集成了多模态旋转位置嵌入（M-RoPE），促进文本、图像和视频之间位置信息的有效融合。我们采用统一的范式来处理图像和视频，增强模型的视觉感知能力。为了探索大型多模态模型的潜力，Qwen2-VL 研究了大型视觉语言模型 (LVLM) 的缩放定律。通过扩展模型大小（2B、8B 和 72B 参数版本）和训练数据量，Qwen2-VL 系列实现了极具竞争力的性能。值得注意的是，Qwen2-VL-72B 模型在各种多模态基准测试中取得了与 GPT-4o 和 Claude3.5-Sonnet 等领先模型相当的结果，优于其他通用模型。代码可在 \url{https://github.com/QwenLM/Qwen2-VL} 获取。

去CoT还是不去CoT？思维链主要有助于数学和符号推理

分类： 计算和语言, 人工智能, 机器学习

作者： Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12183v1

摘要： 通过提示进行思维链 (CoT) 是从大型语言模型 (LLM) 中引出推理能力的事实上的方法。但这种额外的“思考”对于什么类型的任务真正有帮助呢？为了分析这一点，我们使用 CoT 进行了涵盖 100 多篇论文的定量荟萃分析，并对 14 个模型的 20 个数据集进行了我们自己的评估。我们的结果表明，CoT 主要在涉及数学或逻辑的任务上提供强大的性能优势，而在其他类型的任务上则获得较小的收益。在 MMLU 上，直接生成没有 CoT 的答案会导致与 CoT 几乎相同的准确性，除非问题或模型的响应包含等号，表示符号运算和推理。根据这一发现，我们通过分离计划和执行并与工具增强的大语言模型进行比较来分析 CoT 在这些问题上的行为。 CoT 的大部分收益来自于改进符号执行，但相对于使用符号求解器来说，它的性能较差。我们的结果表明 CoT 可以有选择地应用，在保持性能的同时节省推理成本。此外，他们建议需要超越基于提示的 CoT，转向新的范例，更好地利用整个 LLM 应用范围的中间计算。

计算动力系统

分类： 计算复杂度, 人工智能, 形式语言和自动机理论, 动力系统

作者： Jordan Cotler, Semon Rezchikov

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12179v1

摘要： 我们研究平滑、有限维动力系统的计算复杂性理论。在之前工作的基础上，我们给出了模拟图灵机的平滑动力系统的定义。然后我们证明，“混沌”动力系统（更准确地说，Axiom A 系统）和“可积”动力系统（更一般地说，保测系统）无法稳健地模拟通用图灵机，尽管此类机器可以通过其他类型的系统稳健地模拟。动力系统。随后，我们表明，任何可以编码为结构稳定的一维动态系统的图灵机都必须具有可判定的停止问题，并且在它确实停止的情况下具有显式的时间复杂度限制。更广泛地说，我们的工作阐明了一台“机器”模拟另一台机器的含义，并强调定义低复杂性“编码器”和“解码器”以在模拟动态和被模拟系统之间进行转换的必要性。我们强调计算动力系统的概念如何引发计算复杂性理论、动力系统理论和实代数几何的交叉问题。

约束下分类器的归纳解释：复杂性和属性

分类： 人工智能, 68T01, 68Q17, I.2.4

作者： Martin Cooper, Leila Amgoud

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12154v1

摘要： 溯因解释（AXp）广泛用于理解分类器的决策。当特征独立时，现有的定义是合适的。然而，我们表明，忽略特征之间存在的约束可能会导致冗余或多余 AXp 数量的爆炸。我们提出了三种新的解释类型，它们考虑了约束，并且可以从整个特征空间或样本（例如数据集）生成。它们基于解释覆盖的关键概念，即解释的实例集。我们证明覆盖范围足够强大，可以丢弃多余的 AXp。对于每种类型，我们分析寻找解释的复杂性并研究其形式属性。最终结果是具有不同复杂性和不同形式保证的不同形式 AXp 的目录。

解码风格：LLM 的高效微调，用于图像引导的偏好服装推荐

分类： 信息检索, 人工智能, 机器学习

作者： Najmeh Forouzandehmehr, Nima Farrokhsiar, Ramin Giahi, Evren Korpeoglu, Kannan Achan

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12150v1

摘要： 个性化服装推荐仍然是一个复杂的挑战，需要对时尚兼容性的理解和趋势意识。本文提出了一种新颖的框架，该框架利用大型语言模型（LLM）的表达能力来完成这项任务，通过微调和直接反馈集成来减轻其“黑匣子”和静态性质。我们通过使用多模态大语言模型（MLLM）的图像字幕来弥合项目描述中的项目视觉文本差距。这使得大语言模型能够从人工策划的时尚图像中提取风格和颜色特征，形成个性化推荐的基础。大语言模型在精选时尚图像的开源 Polyvore 数据集上进行了有效的微调，优化了其推荐时尚服装的能力。采用使用负面例子的直接偏好机制来增强大语言模型的决策过程。这创建了一个自我增强的人工智能反馈循环，根据季节性时尚趋势不断完善建议。我们的框架在 Polyvore 数据集上进行了评估，证明了其在两个关键任务中的有效性：填空和补充项目检索。这些评估强调了该框架生成时尚、符合趋势的服装建议的能力，并通过直接反馈不断改进。评估结果表明，我们提出的框架显着优于基础大语言模型，创造了更具凝聚力的服装。这些任务中性能的提高强调了所提出的框架通过准确建议增强购物体验的潜力，证明了其相对于基于普通大语言模型的服装生成的有效性。

羚羊：一群优质的零样本语音生成模型

分类： 声音, 人工智能, 音频和语音处理

作者： EverestAI, :, Sijin Chen, Yuan Feng, Laipeng He, Tianwei He, Wendi He, Yanni Hu, Bin Lin, Yiting Lin, Pengfei Tan, Chengwei Tian, Chen Wang, Zhicheng Wang, Ruoye Xie, Jingjing Yin, Jianhao Ye, Jixun Yao, Quanlei Yan, Yuguang Yang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12139v1

摘要： 随着大数据和大语言模型时代的到来，零镜头个性化快速定制已成为显着趋势。在本报告中，我们介绍了Takin AudioLLM，一系列专为有声读物制作而设计的技术和模型，主要包括Takin TTS、Takin VC和Takin Morphing。这些模型能够实现零样本语音生成，生成与真实人类语音几乎没有区别的高质量语音，并方便个人根据自己的需求定制语音内容。具体来说，我们首先介绍 Takin TTS，这是一种神经编解码器语言模型，它建立在增强型神经语音编解码器和多任务训练框架的基础上，能够以零样本的方式生成高保真自然语音。对于Takin VC，我们提倡采用有效的内容和音色联合建模方法来提高说话人的相似度，同时提倡基于条件流匹配的解码器以进一步增强其自然性和表现力。最后，我们提出了Takin Morphing系统，具有高度解耦和先进的音色和韵律建模方法，使个人能够以精确可控的方式定制自己喜欢的音色和韵律的语音制作。大量实验验证了我们的 Takin AudioLLM 系列模型的有效性和稳健性。详细demo请参考https://takinaudiollm.github.io。

GRIN：梯度信息 MoE

分类： 计算和语言, 人工智能, 机器学习

作者： Liyuan Liu, Young Jin Kim, Shuohang Wang, Chen Liang, Yelong Shen, Hao Cheng, Xiaodong Liu, Masahiro Tanaka, Xiaoxia Wu, Wenxiang Hu, Vishrav Chaudhary, Zeqi Lin, Chenruidong Zhang, Jilong Xue, Hany Awadalla, Jianfeng Gao, Weizhu Chen

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12136v1

摘要： 由于通过专家路由进行稀疏计算，有选择地仅激活一小部分专家模块，因此专家混合 (MoE) 模型比密集模型更有效地扩展。然而，稀疏计算对传统的训练实践提出了挑战，因为离散专家路由阻碍了标准反向传播，从而阻碍了基于梯度的优化，而后者是深度学习的基石。为了更好地追求 MoE 的扩展能力，我们引入了 GRIN（GRadient-INformed MoE 训练），它结合了专家路由的稀疏梯度估计，并配置模型并行性以避免令牌丢失。将 GRIN 应用于自回归语言建模，我们开发了一个 top-2 16$\times$3.8B MoE 模型。我们的模型仅具有 6.6B 激活参数，其性能优于 7B 密集模型，并且与在相同数据上训练的 14B 密集模型的性能相匹配。对不同任务的广泛评估表明，GRIN 具有显着提高 MoE 效率的潜力，在 MMLU 上获得 79.4 分，在 HellaSwag 上获得 83.7 分，在 HumanEval 上获得 74.4 分，在 MATH 上获得 58.9 分。

具有任意特征的线性时差学习几乎肯定收敛

分类： 机器学习, 人工智能

作者： Jiuqi Wang, Shangtong Zhang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12135v1

摘要： 线性函数逼近的时间差分（TD）学习，简称线性TD，是强化学习中经典且强大的预测算法。虽然众所周知，线性 TD 几乎肯定会收敛到一个唯一点，但这种收敛传统上需要假设逼近器使用的特征是线性无关的。然而，这种线性独立性假设在许多实际场景中并不成立。这项工作是第一个在不需要线性独立特征的情况下建立几乎确定的线性 TD 收敛的工作。事实上，我们不对这些功能做出任何假设。我们证明了近似值函数收敛到一个唯一点并且权重迭代收敛到一个集合。我们还建立了权重迭代局部稳定性的概念。重要的是，我们不需要引入任何其他额外的假设，也不需要对线性TD算法进行任何修改。我们分析的关键是线性 TD 平均 ODE 的有界不变集的新颖表征。

BERT-VBD：越南语多文档摘要框架

分类： 计算和语言, 人工智能

作者： Tuan-Cuong Vuong, Trang Mai Xuan, Thien Van Luong

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12134v1

摘要： 为了应对多文档摘要（MDS）的挑战，人们提出了多种方法，涵盖提取式摘要技术和抽象摘要技术。然而，每种方法都有其自身的局限性，因此单独依赖其中一种方法效果较差。一种新兴且有前途的策略涉及提取和抽象摘要方法的协同融合。尽管该领域的研究较多，但对组合方法的研究仍然很少，特别是在越南语语言处理的背景下。本文提出了一种新颖的越南 MDS 框架，该框架利用集成了提取和抽象技术的两部分管道架构。第一个组件采用提取方法来识别每个文档中的关键句子。这是通过修改预训练的 BERT 网络来实现的，该网络使用孪生和三元组网络结构导出语义上有意义的短语嵌入。第二个组件利用VBD-LLaMA2-7B-50b模型进行抽象摘要，最终生成最终摘要文档。我们提出的框架表现出了积极的性能，在 VN-MDS 数据集上获得了 39.6% 的 ROUGE-2 分数，并且优于最先进的基线。

Qwen2.5-数学技术报告：通过自我完善迈向数学专家模型

分类： 计算和语言, 人工智能, 机器学习

作者： An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12122v1

摘要： 在本报告中，我们提出了一系列数学专用的大型语言模型：Qwen2.5-Math 和 Qwen2.5-Math-Instruct-1.5B/7B/72B。 Qwen2.5系列的核心创新在于将自我提升的理念融入到从训练前、训练后到推理的整个流程中：（1）在训练前阶段，Qwen2-Math-Instruct用于生成大规模、高质量的数学数据。（2）在训练后阶段，我们通过对Qwen2-Math-Instruct进行大量采样来开发奖励模型（RM）。然后将该 RM 应用于监督微调 (SFT) 中的数据迭代演化。有了更强的SFT模型，就可以迭代地训练和更新RM，进而指导下一轮SFT数据迭代。在最终的 SFT 模型上，我们采用终极 RM 进行强化学习，从而产生了 Qwen2.5-Math-Instruct。 (3)此外，在推理阶段，使用RM来指导采样，优化模型的性能。 Qwen2.5-Math-Instruct支持中文和英文，并具有先进的数学推理能力，包括思维链（CoT）和工具集成推理（TIR）。我们在 GSM8K、MATH、GaoKao、AMC23 和 AIME24 等 10 个中英文数学数据集上评估我们的模型，涵盖了从小学水平到数学竞赛问题的一系列困难。

Pareto 数据框架：使用最小可行数据 (MVD) 实现资源高效决策的步骤

分类： 机器学习, 人工智能, 声音, 音频和语音处理

作者： Tashfain Ahmed, Josh Siegel

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12112v1

摘要： 本文介绍了 Pareto 数据框架，这是一种识别和选择在嵌入式系统、移动设备和物联网 (IoT) 设备等受限平台上启用机器学习应用程序所需的最小可行数据 (MVD) 的方法。我们证明，战略性数据缩减可以保持高性能，同时显着降低带宽、能源、计算和存储成本。该框架确定最小可行数据 (MVD)，以在资源受限的环境中优化效率，而不牺牲性能。它解决了物联网应用中常见的低效做法，例如传感器的过度配置和精度过高以及信号的过度采样，并提出了可扩展的解决方案以实现最佳传感器选择、信号提取和传输以及数据表示。实验方法证明了在下采样、量化和截断后有效的声学数据表征，以模拟保真度降低的传感器以及网络和存储约束；结果表明，性能可保持高达 95%，采样率降低 75%，位深度和剪辑长度降低 50%，这意味着成本和资源的大幅减少。这些发现对约束系统的设计和开发具有影响。该论文还讨论了该框架的更广泛影响，包括在物联网应用和农业、运输和制造业等领域实现先进人工智能技术民主化的潜力，以改善访问并倍增数据驱动见解的好处。

基于生成心理测量学和大型语言模型来衡量人类和人工智能的价值

分类： 计算和语言, 人工智能

作者： Haoran Ye, Yuhang Xie, Yuanyi Ren, Hanjun Fang, Xin Zhang, Guojie Song

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12106v1

摘要： 人类价值观及其衡量是长期存在的跨学科探究。人工智能的最新进展引发了人们对该领域的新兴趣，大型语言模型（LLM）作为价值衡量的工具和主题而出现。这项工作介绍了价值生成心理测量学（GPV），这是一种基于大语言模型、数据驱动的价值测量范式，理论上基于文本显示的选择性感知。我们首先对 LLM 进行微调，以实现准确的感知级别价值测量，并验证 LLM 将文本解析为感知的能力，形成 GPV 管道的核心。将 GPV 应用于人类撰写的博客，我们证明了其稳定性、有效性以及相对于现有心理工具的优越性。然后，将 GPV 扩展到 LLM 价值测量，我们通过以下方式推进当前技术：1）一种心理测量方法，根据其可扩展和自由格式的输出来测量 LLM 值，从而实现特定于上下文的测量； 2）测量范式的比较分析，表明现有方法的响应偏差； 3）尝试连接LLM价值观及其安全性，揭示不同价值体系的预测能力以及各种价值观对LLM安全性的影响。通过跨学科的努力，我们的目标是利用人工智能进行下一代心理测量，并利用心理测量实现价值一致的人工智能。

IMRL：集成视觉、物理、时间和几何表示以增强食物采集

分类： 机器人技术, 人工智能

作者： Rui Liu, Zahiruddin Mahammad, Amisha Bhaskar, Pratap Tokekar

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12092v1

摘要： 机器人辅助喂养对于改善饮食障碍患者的生活质量具有重大前景。然而，在不同条件下获取不同的食物并将其推广到看不见的食物提出了独特的挑战。依赖于从视觉线索（例如颜色、形状和纹理）衍生的表面几何信息（例如边界框和姿势）的现有方法通常缺乏适应性和鲁棒性，特别是当食物具有相似的物理特性但视觉外观不同时。我们采用模仿学习（IL）来学习食物获取策略。现有方法采用 IL 或强化学习 (RL) 来学习基于现成图像编码器（例如 ResNet-50）的策略。然而，这种表示方法并不稳健，并且很难在不同的收购场景中进行概括。为了解决这些局限性，我们提出了一种新的方法，IMRL（集成多维表示学习），它集成了视觉、物理、时间和几何表示，以增强 IL 在食物采集中的鲁棒性和泛化性。我们的方法捕获食物类型和物理特性（例如固体、半固体、颗粒、液体和混合物），对采集动作的时间动态进行建模，并引入几何信息来确定最佳舀取点并评估碗的饱满度。 IMRL 使 IL 能够根据上下文自适应调整舀取策略，从而提高机器人处理不同食物采集场景的能力。在真实机器人上进行的实验证明了我们的方法对各种食物和碗配置的稳健性和适应性，包括对不可见设置的零样本泛化。与表现最佳的基线相比，我们的方法将成功率提高了 35%$。

实现可解释的终末期肾病 (ESRD) 预测：利用行政索赔数据和可解释的人工智能技术

分类： 机器学习, 人工智能

作者： Yubo Li, Saba Al-Sayouri, Rema Padman

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12087v1

摘要： 本研究探讨了利用行政索赔数据并结合先进的机器学习和深度学习技术来预测慢性肾脏病 (CKD) 向终末期肾病 (ESRD) 进展的潜力。我们分析一家主要健康保险组织提供的全面的 10 年数据集，使用随机森林和 XGBoost 等传统机器学习方法以及长短期记忆 (LSTM) 等深度学习方法开发多个观察窗口的预测模型）网络。我们的研究结果表明，LSTM 模型，特别是具有 24 个月观察窗口的模型，在预测 ESRD 进展方面表现出卓越的性能，优于文献中的现有模型。我们进一步应用 SHapley Additive exPlanations (SHAP) 分析来增强可解释性，深入了解个体特征对个体患者水平预测的影响。这项研究强调了利用行政索赔数据进行 CKD 管理和预测 ESRD 进展的价值。

PAD-FT：通过数据净化和微调来防御后门攻击

分类： 密码学和安全, 人工智能, 计算机视觉和模式识别

作者： Yukai Xu, Yujie Gu, Kouichi Sakurai

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12072v1

摘要： 后门攻击对深度神经网络构成重大威胁，特别是随着最近的进展导致植入变得越来越微妙，使防御变得更具挑战性。现有的防御机制通常依赖于额外的干净数据集作为标准参考，并涉及重新训练辅助模型或微调整个受害者模型。然而，这些方法通常计算成本昂贵，并且在实际应用中并不总是可行。在本文中，我们提出了一种新颖且轻量级的防御机制，称为 PAD-FT，它不需要额外的干净数据集，并且仅微调模型的一小部分来消毒受害者模型。为了实现这一目标，我们的方法首先引入一个简单的数据净化过程，以从中毒的训练数据集中识别和选择最有可能的干净数据。然后，将自净化的干净数据集用于激活裁剪和仅微调受害者模型的最后一个分类层。通过集成数据净化、激活剪切和分类器微调，我们的 PAD-FT 机制在多种后门攻击方法和数据集上表现出卓越的有效性，这一点经过大量的实验评估得到证实。

通用机器人学习框架

分类： 机器人技术, 人工智能

作者： Jiahuan Yan, Zhouyang Hong, Yu Zhao, Yu Tian, Yunxin Liu, Travis Davies, Luhui Hu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12061v1

摘要： 基于模仿的机器人学习由于其可迁移性和泛化性的理论潜力，最近在机器人领域获得了极大的关注。然而，它在硬件和数据收集方面仍然非常昂贵，并且在现实环境中部署它需要对机器人进行细致的设置和精确的实验条件。在本文中，我们提出了一种低成本的机器人学习框架，该框架既易于复制又可转移到各种机器人和环境。我们证明，可部署的模仿学习甚至可以成功应用于工业级机器人，而不仅仅是昂贵的协作机器人手臂。此外，我们的结果表明，多任务机器人学习可以通过简单的网络架构和比以前认为必要的更少的演示来实现。由于当前的评估方法在现实世界的操作任务中几乎是主观的，因此我们提出了投票积极率（VPR）——一种新颖的评估策略，可以提供更客观的绩效评估。我们对各种自行设计的任务的成功率进行了广泛的比较，以验证我们的方法。为了促进协作并支持机器人学习社区，我们开源了所有相关数据集和模型检查点，可在 Huggingface.co/ZhiChengAI 上获取。

PARAPHRASUS：评估释义检测模型的综合基准

分类： 计算和语言, 人工智能, I.2.7

作者： Andrianos Michail, Simon Clematide, Juri Opitz

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12060v1

摘要： 确定两个文本是否是释义的任务长期以来一直是自然语言处理中的一个挑战。然而，流行的释义概念往往相当简单化，只提供了对广泛的释义现象的有限看法。事实上，我们发现在释义数据集中评估模型可能会导致其真实语义理解的不确定性。为了缓解这个问题，我们发布了释义，这是一个为释义检测模型的多维评估和更精细的模型选择而设计的基准。我们发现细粒度评估镜头下的释义检测模型表现出无法通过单个分类数据集捕获的权衡。

同步思考和说话的大语言模型双层训练和解码

分类： 计算和语言, 人工智能, 机器学习

作者： Ningyuan Xi, Xiaoyu Wang, Yetao Wu, Teng Chen, Qingqing Gu, Jinxian Qu, Zhonglin Jiang, Yong Chen, Luo Ji

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12059v1

摘要： 大型语言模型可以合理地理解和生成人类表达，但可能缺乏周密的思考和推理机制。最近有一些增强语言模型思维能力的研究，但大多数都不是数据驱动或基于训练的。在本文中，我们受到自然世界认知机制的启发，设计了一种名为 TaS 的新颖模型架构，使其能够首先考虑想法，然后根据查询表达响应。我们设计了多个管道来注释或从提示响应样本中生成思维内容，然后在充当思维层的中间层添加语言头。我们通过思想增强数据训练语言模型，成功地让思维层自动生成合理的思想，最终输出更合理的反应。定性示例和定量结果都验证了 TaS 的有效性和性能。我们的代码可在 https://anonymous.4open.science/r/TadE 上获取。

随着时间的推移神经计算和学习的统一框架

分类： 机器学习, 人工智能

作者： Stefano Melacci, Alessandro Betti, Michele Casoni, Tommaso Guidi, Matteo Tiezzi, Marco Gori

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12038v1

摘要： 本文提出了哈密顿学习，这是一种新颖的统一框架，用于“随着时间的推移”使用神经网络进行学习，即以在线方式从可能无限的数据流中学习，而无需访问未来的信息。现有的工作侧重于简化的设置，其中流具有已知的有限长度或被分割成更小的序列，利用统计机器学习中完善的学习策略。在本文中，利用最优控制理论的工具，从头开始重新思考随着时间的推移学习的问题，从而产生了神经计算和学习的时间动态的统一视图。哈密顿学习基于微分方程：(i) 无需外部软件求解器即可积分； (ii) 在前馈和循环网络中推广基于梯度的学习的既定概念； (iii) 接受新颖的观点。通过实验证明它如何恢复基于梯度的学习，将其与开箱即用的优化器进行比较，并描述它如何足够灵活以从完全局部计算方案切换到部分/非局部计算方案，展示了所提出的框架，可能分布在多个设备上，并且反向传播无需存储激活。哈密顿学习很容易实现，可以帮助研究人员以有原则和创新的方式解决随着时间的推移学习的问题。

状态空间模型的拓扑深度学习：简单复形的 Mamba 方法

分类： 机器学习, 人工智能

作者： Marco Montagna, Simone Scardapane, Lev Telyatnikov

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12033v1

摘要： 基于消息传递（MP）机制的图神经网络是处理图结构数据的主要方法。然而，它们本质上仅限于对成对交互进行建模，因此很难明确捕获具有 $n$-body 关系的系统的复杂性。为了解决这个问题，拓扑深度学习已成为使用各种拓扑域（例如单纯形和细胞复合体）研究和建模高阶相互作用的有前途的领域。虽然这些新领域提供了强大的表示，但它们也带来了新的挑战，例如通过高阶 MP 有效地建模高阶结构之间的相互作用。同时，结构化状态空间序列模型已被证明对于序列建模是有效的，并且最近通过将节点的邻域编码为序列而适用于图数据，从而避免了 MP 机制。在这项工作中，我们提出了一种新颖的架构，旨在使用单纯复形进行操作，利用 Mamba 状态空间模型作为其骨干。我们的方法根据相邻单元生成节点序列，从而实现所有高阶结构之间的直接通信，无论其等级如何。我们广泛验证了我们的模型，证明与为单纯复形开发的最先进模型相比，它实现了具有竞争力的性能。

协作代码生成模型的前景和危险：平衡有效性和记忆

分类： 软件工程, 人工智能, 机器学习

作者： Zhi Chen, Lingxiao Jiang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12020v1

摘要： 在快速发展的机器学习领域，由于隐私和法律问题，使用来自不同地点和组织的数据集训练模型面临着巨大的挑战。探索能够利用分布式和孤立数据集中有价值的知识的有效协作培训设置变得越来越重要。这项研究调查了影响代码下一个标记预测中协作训练方法有效性的关键因素，以及生成代码的正确性和实用性，证明了此类方法的前景。此外，我们还评估了不同参与者在各种协作训练环境中的训练数据记忆情况，包括集中式、联合式和增量训练，强调了它们泄露数据的潜在风险。我们的研究结果表明，代码数据集的大小和多样性是影响协作训练代码模型成功的关键因素。我们表明，与集中训练相比，联邦学习实现了具有竞争力的性能，同时提供了更好的数据保护，生成代码中较低的记忆率就证明了这一点。然而，联邦学习仍然可以从隐藏的训练数据中生成逐字代码片段，这可能会侵犯隐私或版权。我们的研究进一步探讨了增量学习的有效性和记忆模式，强调了引入个体参与者数据集的顺序。我们还认为跨组织克隆是集中式和联合学习场景中的普遍挑战。我们的研究结果强调了推理过程中数据泄露的持续风险，即使训练数据仍然不可见。最后，我们为从业者和研究人员提出了优化多源数据集的建议，推动跨组织协作向前发展。

在对象操作的生成世界模型中表示位置信息

分类： 机器人技术, 人工智能

作者： Stefano Ferraro, Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Sai Rajeswar

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12005v2

摘要： 对象操纵能力是区分实体代理与世界互动的基本技能，尤其是在机器人领域。在这种情况下，预测与物体交互结果的能力至关重要。虽然基于模型的控制方法已开始用于处理操纵任务，但它们在准确操纵对象方面面临着挑战。当我们分析这种限制的原因时，我们通过当前世界模型表示关键位置信息的方式确定了性能不佳的原因，特别是关于目标定位任务的目标规范。我们引入了一种通用方法，使基于世界模型的代理能够有效地解决对象定位任务。我们提出了这种方法对于生成世界模型的两个偏向：位置条件（PCP）和潜在条件（LCP）策略学习。特别是，LCP 采用以对象为中心的潜在表示，可以显式捕获目标指定的对象位置信息。这自然会导致多模式功能的出现，从而能够通过空间坐标或视觉目标来指定目标。我们的方法在多个操纵环境中经过严格评估，与当前基于模型的控制方法相比，显示出良好的性能。

将数据置于离线多智能体强化学习的中心

分类： 机器学习, 人工智能, 多代理系统

作者： Claude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12001v1

摘要： 离线多智能体强化学习（MARL）是一个令人兴奋的研究方向，它使用静态数据集来寻找多智能体系统的最优控制策略。尽管该领域从定义上来说是数据驱动的，但迄今为止，在实现最先进结果的过程中，人们一直忽视了数据。我们首先通过调查文献来证实这一说法，展示大多数作品如何在没有一致方法的情况下生成自己的数据集，并提供有关这些数据集特征的稀疏信息。然后，我们通过算法性能与所使用的数据集的紧密耦合的显着示例来说明为什么忽略数据的性质是有问题的，这需要为该领域的实验奠定一个共同的基础。作为回应，我们在提高离线 MARL 的数据使用和数据意识方面迈出了一大步，做出了三个关键贡献：（1）生成新颖数据集的明确指南； (2) 对 80 多个现有数据集进行标准化，托管在公共可用的存储库中，使用一致的存储格式和易于使用的 API； (3) 一套分析工具，使我们能够更好地理解这些数据集，帮助进一步开发。

加性特征归因方法：流体动力学和传热的可解释人工智能综述

分类： 流体动力学, 人工智能

作者： Andrés Cremades, Sergio Hoyas, Ricardo Vinuesa

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11992v1

摘要： 近年来，数据驱动方法在流体力学中的使用急剧增加，因为它们能够适应湍流的复杂性和多尺度性质，以及在大规模模拟或实验测试中检测模式。为了解释训练过程中模型中生成的关系，需要将数值属性分配给输入特征。一个重要的例子是附加特征归因方法。这些可解释性方法将输入特征与模型预测联系起来，提供基于模型线性公式的解释。 SHapley 加法解释（SHAP 值）被制定为唯一可能的解释，为理解模型提供了独特的解决方案。在本手稿中，提出了附加特征归因方法，展示了文献中的四种常见实现：内核 SHAP、树 SHAP、梯度 SHAP 和深度 SHAP。然后，介绍了附加特征归因方法的主要应用，将其分为三个主要组：湍流建模、流体力学基础以及流体动力学和传热中的应用问题。这篇综述表明，可解释性技术，特别是附加特征归因方法，对于在流体力学领域实现可解释且符合物理的深度学习模型至关重要。

AlignBot：通过家用机器人的微调，将 VLM 支持的定制任务规划与用户提醒结合起来

分类： 机器人技术, 人工智能, 信息检索

作者： Zhaxizhuoma, Pengan Chen, Ziniu Wu, Jiawei Sun, Dong Wang, Peng Zhou, Nieqing Cao, Yan Ding, Bin Zhao, Xuelong Li

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11905v1

摘要： 本文介绍了 AlignBot，这是一种新颖的框架，旨在通过有效地与用户提醒保持一致来优化由 VLM 驱动的家用机器人的定制任务规划。在家庭环境中，由于提醒的数量有限、多样性和多模式性质，使任务计划与用户提醒保持一致提出了重大挑战。为了应对这些挑战，AlignBot 采用了经过微调的 LLaVA-7B 模型，作为 GPT-4o 的适配器。该适配器模型将多种形式的用户提醒（例如个性化偏好、纠正指导和上下文帮助）内化为结构化指令格式的提示，提示 GPT-4o 生成定制的任务计划。此外，AlignBot还集成了动态检索机制，可以选择与任务相关的历史成功案例作为GPT-4o的提示，进一步提高任务规划的准确性。为了验证 AlignBot 的有效性，我们在真实的家庭环境中进行了实验，这些环境是在实验室内构建的，以复制典型的家庭环境。包含来自志愿者提醒的 1,500 多个条目的多模式数据集用于培训和评估。结果表明，AlignBot 显着改进了定制任务规划，通过解释和与用户提醒进行协调，优于现有的由 LLM 和 VLM 驱动的规划器，与普通 GPT-4o 基线的 21.6% 相比，成功率达到 86.8%，提高了 65%效率提高四倍以上。补充材料可在以下网址获取：https://yding25.com/AlignBot/

寻找主观真相：收集200万票进行Gen-AI模型综合评估

分类： 计算机视觉和模式识别, 人工智能

作者： Dimitrios Christodoulou, Mads Kuhlmann-Jørgensen

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11904v1

摘要： 有效评估文本到图像模型的性能很困难，因为它本质上需要主观判断和人类偏好，因此很难比较不同的模型并量化现有技术。利用 Rapidata 的技术，我们提出了一个高效的注释框架，该框架从多样化的全球注释者池中获取人类反馈。我们的研究收集了 4,512 张图像中超过 200 万条注释，评估了四种著名模型（DALL-E 3、Flux.1、MidJourney 和 Stable Diffusion）的风格偏好、连贯性和文本到图像对齐。我们证明，我们的方法使得基于大量注释者对图像生成模型进行全面排名是可行的，并表明多样化的注释者人口统计数据反映了世界人口，从而显着降低了偏见的风险。

DocMamba：使用状态空间模型进行高效文档预训练

分类： 计算和语言, 人工智能

作者： Pengfei Hu, Zhenrong Zhang, Jiefeng Ma, Shuhang Liu, Jun Du, Jianshu Zhang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11887v1

摘要： 近年来，丰富的视觉文档理解引起了越来越多的关注。基于 Transformer 的预训练模型已成为主流方法，在该领域带来了显着的性能提升。然而，自注意力机制的二次计算复杂性阻碍了其处理长文档的效率和能力。在本文中，我们提出了 DocMamba，一个基于状态空间模型的新颖框架。它旨在将计算复杂性降低到线性，同时保留全局建模功能。为了进一步增强其在文档处理中的有效性，我们引入了分段优先双向扫描（SFBS）来捕获连续的语义信息。实验结果表明，DocMamba 在 FUNSD、CORD 和 SORIE 等下游数据集上取得了最新的结果，同时显着提高了速度并减少了内存使用。值得注意的是，HRDoc 上的实验证实了 DocMamba 的长度外推潜力。该代码将在线提供。

从多阶段接触丰富操作的多模态演示学习任务规划

分类： 机器人技术, 人工智能

作者： Kejia Chen, Zheng Shen, Yue Zhang, Lingyun Chen, Fan Wu, Zhenshan Bing, Sami Haddadin, Alois Knoll

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11863v1

摘要： 大型语言模型 (LLM) 在长范围操作任务的任务规划中越来越受欢迎。为了提高大语言模型生成计划的有效性，视觉演示和在线视频已被广泛采用来指导规划过程。然而，对于涉及微妙动作但丰富接触交互的操作任务，仅靠视觉感知可能不足以让大语言模型充分解释演示。此外，视觉数据提供了与力相关的参数和条件的有限信息，这对于真实机器人的有效执行至关重要。在本文中，我们介绍了一种情境学习框架，该框架结合了来自人类演示的触觉和力-扭矩信息，以增强大语言模型为新任务场景生成计划的能力。我们提出了一个引导推理管道，它将每种模式依次集成到一个全面的任务计划中。然后，该任务计划将用作新任务配置中规划的参考。对两种不同顺序操作任务的真实世界实验证明了我们的框架在提高大语言模型对多模式演示的理解和提高整体规划性能方面的有效性。

检索、注释、评估、重复：利用多模式大语言模型进行大规模产品检索评估

分类： 信息检索, 人工智能, 计算和语言, 新兴技术, 人机交互

作者： Kasra Hosseini, Thomas Kober, Josip Krapac, Roland Vollgraf, Weiwei Cheng, Ana Peleteiro Ramallo

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11860v1

摘要： 由于大量训练有素的人类注释者的可用性有限，大规模评估生产级检索系统是一项至关重要但具有挑战性的任务。大型语言模型 (LLM) 有潜力解决这一扩展问题，并为人类完成大量注释任务提供可行的替代方案。在本文中，我们提出了一个在大规模电子商务环境中评估产品搜索引擎的框架，利用多模式大语言模型（i）为单个查询生成定制的注释指南，以及（ii）执行后续注释任务。我们的方法通过在大型电子商务平台上的部署进行了验证，展示了与人工注释相当的质量，显着减少了时间和成本，有助于快速发现问题，并为大规模生产级质量控制提供了有效的解决方案。

MEOW：记忆监督的大语言模型通过颠倒的事实忘记了学习

分类： 计算和语言, 人工智能

作者： Tianle Gu, Kexin Huang, Ruilin Luo, Yuanqi Yao, Yujiu Yang, Yan Teng, Yingchun Wang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11844v1

摘要： 大型语言模型 (LLM) 可以记住敏感信息，引发人们对潜在滥用的担忧。 LLM Unlearning 是一种从训练有素的 LLM 中删除这些信息的事后方法，为减轻这些风险提供了一个有前景的解决方案。然而，以前的实践面临三个关键挑战： 1. 效用：成功的忘却往往会导致不相关任务的灾难性崩溃。 2. 效率：许多方法要么涉及添加类似大小的模型，这会减慢遗忘或推理的速度，要么需要保留难以获得的数据。 3. 鲁棒性：即使有效的方法仍然可能通过提取技术泄漏数据。为了应对这些挑战，我们提出了 MEOW，一种简单而有效的基于梯度下降的取消学习方法。具体来说，我们使用离线大语言模型来生成一组颠倒的事实。然后，我们设计了一个新的指标 MEMO 来量化大语言模型的记忆力。最后，根据 MEMO 提供的信号，我们选择最合适的一组反转事实，并基于它们对模型进行微调。我们使用 Llama2-7B-Chat 和 Phi-1.5B 在常用的 unlearn 基准 ToFU 上评估 MEOW，并在 NLU 和 NLG 任务上进行测试。结果表明 MEOW 的遗忘质量显着提高，而模型效用没有显着损失。同时，MEOW 在 NLU 或 NLG 能力上并没有表现出明显的下降，甚至在 NLU 性能上还有轻微的提升。

DPI-TTS：文本转语音中快速收敛和风格时间建模的定向补丁交互

分类： 声音, 人工智能, 音频和语音处理

作者： Xin Qi, Ruibo Fu, Zhengqi Wen, Tao Wang, Chunyu Qiang, Jianhua Tao, Chenxing Li, Yi Lu, Shuchen Shi, Zhiyong Wang, Xiaopeng Wang, Yuankun Xie, Yukun Liu, Xuefei Liu, Guanjun Li

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11835v1

摘要： 近年来，语音扩散模型发展迅速。除了广泛使用的 U-Net 架构之外，基于 Transformer 的模型（例如 Diffusion Transformer (DiT)）也受到了关注。然而，当前的 DiT 语音模型将 Mel 声谱图视为一般图像，忽略了语音的特定声学特性。为了解决这些限制，我们提出了一种称为文本转语音定向补丁交互 (DPI-TTS) 的方法，该方法建立在 DiT 的基础上，可以在不影响准确性的情况下实现快速训练。值得注意的是，DPI-TTS 采用从低频到高频、逐帧渐进式推理方法，该方法与声学特性更紧密地结合，从而增强生成语音的自然度。此外，我们引入了一种细粒度风格时间建模方法，进一步提高了说话者风格的相似性。实验结果表明，我们的方法将训练速度提高了近 2 倍，并且显着优于基线模型。

优化家具行业的车间调度：考虑机器设置、批次变异性和内部物流的强化学习方法

分类： 人工智能, 机器学习, 系统与控制, 系统与控制

作者： Malte Schneevogt, Karsten Binninger, Noah Klarmann

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11820v1

摘要： 本文探讨了深度强化学习在家具行业的潜在应用。为了提供广泛的产品组合，大多数家具制造商都组织为车间，这最终导致车间调度问题（JSSP）。 JSSP 的重点是扩展传统模型，以更好地表示现实生产环境的复杂性。现有方法经常无法考虑关键因素，例如机器设置时间或不同的批量大小。提出了一个模型的概念，该模型提供更高级别的信息细节以提高调度准确性和效率。该概念引入了将 DRL 集成到生产计划中，特别适合家具行业等批量生产行业。该模型通过包含作业量、缓冲区管理、运输时间和机器设置时间，将传统方法扩展到 JSSP。这使得能够更精确地预测和分析生产流程和过程，适应现实世界制造过程中固有的可变性和复杂性。强化学习代理学习优化调度决策。它在离散的行动空间内运行，根据详细的观察做出决策。奖励函数指导代理的决策过程，从而促进高效的调度并满足生产期限。讨论了实现 RL 代理的两种集成策略：适合低自动化环境的情景规划和适合高度自动化工厂的连续规划。虽然间歇式规划可以用作独立的解决方案，但连续规划方法需要将代理与 ERP 和制造执行系统集成。这种集成可以根据动态变化实时调整生产计划。

EFCM：压缩模型的高效微调，用于在医学图像分析中部署大型模型

分类： 计算机视觉和模式识别, 人工智能

作者： Shaojie Li, Zhaoshuo Diao

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11817v1

摘要： 医学领域深度学习大型模型的最新发展在医学图像分析和诊断方面表现出了卓越的性能，但其大量的参数导致了记忆和推理延迟的挑战。知识蒸馏提供了一种解决方案，但由于高分辨率病理图像和幻灯片级别标签，幻灯片级别梯度无法反向传播以进行学生模型更新。本研究提出了一种压缩模型的高效微调（EFCM）框架，分为两个阶段：无监督特征蒸馏和微调。在蒸馏阶段，提出了特征投影蒸馏（FPD）和TransScan模块，用于自适应感受野调整，以增强学生模型的知识吸收能力。在滑动级微调阶段，比较了三种策略（Reuse CLAM、Retrain CLAM 和 End2end Train CLAM (ETC)）。在与三个大型医学模型相关的 11 个下游数据集上进行了实验：用于视网膜的 RETFound、用于胸部 X 射线的 MRM 和用于组织病理学的 BROW。实验结果表明，EFCM框架显着提高了处理幻灯片级病理图像问题的准确性和效率，有效解决了部署大型医学模型的挑战。具体来说，与大型模型 BROW 相比，它在 TCGA-NSCLC 和 TCGA-BRCA 数据集上实现了 ACC 增加 4.33% 和 AUC 增加 5.2%。模型推理效率的分析凸显了蒸馏微调方法的高效率。

EventAug：基于事件的学习的多方面时空数据增强方法

分类： 计算机视觉和模式识别, 人工智能

作者： Yukun Tian, Hao Chen, Yongjian Deng, Feihong Shen, Kepan Liu, Wei You, Ziyang Zhang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11813v1

摘要： 由于其低延迟和高动态范围，事件摄像机在广泛的领域取得了巨大的成功。然而，社区面临着数据缺乏和多样性有限等挑战，常常导致过度拟合和特征学习不足。值得注意的是，事件社区中对数据增强技术的探索仍然很少。这项工作旨在通过引入名为 EventAug 的系统增强方案来丰富时空多样性来解决这一差距。特别是，我们首先提出多尺度时间积分（MSTI）来使对象的运动速度多样化，然后引入空间显着事件掩模（SSEM）和时间显着事件掩模（TSEM）来丰富对象变体。我们的 EventAug 可以促进模型学习更丰富的运动模式、对象变体和局部时空关系，从而提高模型对不同移动速度、遮挡和动作中断的鲁棒性。实验结果表明，我们的增强方法在不同的任务和骨干网中始终取得了显着的改进（例如，DVS128 手势的准确度提高了 4.87%）。我们的代码将向该社区公开。

潜在指纹增强可实现准确的细节检测

分类： 计算机视觉和模式识别, 人工智能

作者： Abdul Wahab, Tariq Mahmood Khan, Shahzaib Iqbal, Bandar AlShammari, Bandar Alhaqbani, Imran Razzak

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11802v1

摘要： 基于部分指纹和污迹指纹（通常称为指纹或潜在指纹）来识别嫌疑人是指纹识别领域的重大挑战。尽管固定长度嵌入在识别滚动指纹和拍击指纹方面显示出有效性，但匹配潜在指纹的方法主要集中在基于局部细节的嵌入，未能充分利用全局表示来实现匹配目的。因此，增强潜在指纹对于确保法医调查的可靠识别至关重要。当前的方法通常优先考虑恢复脊线图案，而忽略了对于准确指纹识别至关重要的精细宏观细节。为了解决这个问题，我们提出了一种新颖的方法，该方法使用生成对抗网络（GAN）通过结构化的指纹生成方法重新定义潜在指纹增强（LFE）。通过在生成过程中直接优化细节信息，该模型生成增强的潜在指纹，对地面实况实例表现出卓越的保真度。这使得识别性能显着提高。我们的框架集成了细节位置和方向场，确保保留局部和结构指纹特征。对两个公开可用的数据集进行的广泛评估证明了我们的方法相对于现有最先进技术的主导地位，突显了其在法医应用中显着提高潜在指纹识别准确性的潜力。

法律领域大型语言模型的现实性

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Rajaa El Hamdani, Thomas Bonald, Fragkiskos Malliaros, Nils Holzenberger, Fabian Suchanek

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11798v1

摘要： 本文在现实的使用场景中研究了大型语言模型（LLM）作为法律领域知识库的事实：我们允许答案中存在可接受的变化，并让模型在不确定时放弃回答。首先，我们设计了有关判例法和立法的各种事实问题的数据集。然后，我们使用该数据集在不同的评估方法下评估多个大语言模型，包括精确匹配、别名匹配和模糊匹配。我们的结果表明，在别名和模糊匹配方法下，性能显着提高。此外，我们探讨了弃权和上下文示例的影响，发现这两种策略都提高了精确度。最后，我们证明，对法律文件进行额外的预训练（如 SaulLM 所示）可进一步将事实精度从 63% 提高到 81%。

通过桥蒸馏进行高效的低分辨率人脸识别

分类： 计算机视觉和模式识别, 人工智能, 多媒体

作者： Shiming Ge, Shengwei Zhao, Chenyu Li, Yu Zhang, Jia Li

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11786v1

摘要： 野外人脸识别现在正朝着轻量级模型、快速推理速度和分辨率自适应能力的方向发展。在本文中，我们提出了一种桥式蒸馏方法，将在私有高分辨率人脸上预训练的复杂人脸模型转变为用于低分辨率人脸识别的轻量级模型。在我们的方法中，这种跨数据集分辨率适应的知识转移问题是通过两步蒸馏来解决的。第一步，我们进行跨数据集蒸馏，将先验知识从私有高分辨率人脸转移到公共高分辨率人脸，并生成紧凑且有区别的特征。第二步，进行分辨率适应蒸馏，通过多任务学习进一步将先验知识转移到合成的低分辨率人脸。通过学习低分辨率人脸表示并模仿适应的高分辨率知识，可以构建一个轻量级的学生模型，在识别低分辨率人脸方面具有高效率和有希望的准确性。实验结果表明，学生模型仅用 0.21M 参数和 0.057MB 内存，在识别低分辨率人脸方面表现出色。同时，其速度在 GPU、CPU 和手机上分别达到每秒 14,705、约 934 和 763 个面孔。

提炼通道以实现高效深度跟踪

分类： 计算机视觉和模式识别, 人工智能

作者： Shiming Ge, Zhao Luo, Chunhui Zhang, Yingying Hua, Dacheng Tao

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11785v1

摘要： 深度跟踪器在视觉跟踪方面已被证明是成功的。通常，这些跟踪器采用最佳的预训练深度网络来表示来自某些固定层的具有多通道特征的所有不同对象。所采用的深度网络通常经过训练，可以从对象分类中使用的大量数据中提取丰富的知识，因此它们能够很好地表示通用对象。然而，这些网络过于复杂，无法表示特定的移动对象，导致泛化能力差以及计算和内存成本较高。本文提出了一种称为通道蒸馏的新颖通用框架，以促进深度跟踪器的发展。为了验证通道蒸馏的有效性，我们以判别相关滤波器（DCF）和ECO为例。我们证明，集成的公式可以将特征压缩、响应图生成和模型更新转化为统一的能量最小化问题，以自适应地选择信息丰富的特征通道，从而提高动态跟踪移动物体的效率。通道蒸馏可以准确地提取好的通道，减轻噪声通道的影响并普遍减少通道数量，并自适应地推广到不同的通道和网络。由此产生的深度跟踪器准确、快速且内存需求低。对流行基准的广泛实验评估清楚地证明了我们框架的有效性和普遍性。

SnO$_2$ 薄膜特征的智能数据驱动 GRU 预测器

分类： 材料科学, 人工智能, F.2.2; I.2.7

作者： Faiza Bouamra, Mohamed Sayah, Labib Sadek Terrissa, Noureddine Zerhouni

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11782v1

摘要： 在材料物理学中，表征技术对于获取有关物理特性以及结构、电子、磁性、光学、介电和光谱特性的材料数据至关重要。然而，对于许多材料来说，确保可用性和安全可及性并不总是那么容易和充分保证。此外，建模和仿真技术的使用需要大量的理论知识，此外还需要昂贵的计算时间和巨大的复杂性。因此，使用不同技术同时分析多个样品的材料对于工程师和研究人员来说仍然非常具有挑战性。值得注意的是，尽管 X 射线衍射风险很大，但它是众所周知且广泛使用的表征技术，它从晶体 1d、2d 或 3d 材料的结构特性中收集数据。我们在本文中提出了一种用于门控循环单元模型的智能 GRU，用于预测氧化锡 SnO$_2$(110) 薄膜的结构特征或性能。事实上，薄膜样品经过实验精心设计和管理，然后使用收集的数据字典生成 AI（人工智能）GRU 模型，用于氧化锡 SnO$_2$(110) 薄膜结构性能表征。

用道义逻辑论证理论解释非单调规范推理

分类： 人工智能

作者： Zhe Yu, Yiwei Lu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11780v1

摘要： 在我们前期的研究中，我们提供了一个基于论证理论的推理系统（LeSAC），为设计者在设计过程中提供法律支持。在此基础上，本文探讨了如何为设计师提供与其法律相关的设计决策的有效解释。我们通过指定规范以及在规范背景下证明行为合理性的关键法律或道德原则来扩展以前提供解释的系统。考虑到一阶逻辑具有很强的表达能力，本文采用带有道义算子和偏好的一阶道义逻辑系统。我们通过对自动驾驶背景下的两个案例进行建模来说明在 LeSAC 下引入道义逻辑和设计解释的优点和必要性。特别地，本文还讨论了更新后的LeSAC保证合理性的要求，并证明了定义良好的LeSAC可以满足基于规则的论证框架的合理性假设。这确保了系统能够为复杂的设计决策提供连贯的、合法有效的解释。

用于少样本类增量学习的知识适应网络

分类： 计算机视觉和模式识别, 人工智能

作者： Ye Wang, Yaxiong Wang, Guoshuai Zhao, Xueming Qian

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11770v1

摘要： 少镜头类增量学习（FSCIL）旨在使用少量样本增量识别新类，同时保持先前学习类的性能。解决这一挑战的有效方法之一是构建原型进化分类器。尽管大多数现有方法取得了进步，但分类器权重只是使用平均特征进行初始化。由于新类别的表征薄弱且存在偏见，我们认为这种策略不是最优的。在本文中，我们从两个方面来解决这个问题。首先，由于基础模型的发展，我们采用基础模型 CLIP 作为网络基础，为每个类别提供通用表示。其次，为了生成更可靠和更全面的实例表示，我们提出了一个知识适配器（KA）模块，该模块从训练数据中总结特定于数据的知识并将其融合到通用表示中。此外，为了将从基础课程中学到的知识调整到即将到来的课程中，我们通过模拟实际的 FSCIL 提出了一种增量伪情节学习（IPEL）机制。总而言之，我们提出的方法被称为知识适应网络（KANet），在广泛的数据集（包括 CIFAR100、CUB200 和 ImageNet-R）上实现了具有竞争力的性能。

一张地图即可找到所有内容：用于零样本多对象导航的实时开放词汇映射

分类： 机器人技术, 人工智能

作者： Finn Lukas Busch, Timon Homberger, Jesús Ortega-Peimbert, Quantao Yang, Olov Andersson

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11764v1

摘要： 在复杂环境中有效搜索物体的能力是许多现实世界机器人应用的基础。开放词汇视觉模型的最新进展带来了语义信息对象导航方法，使机器人无需事先训练即可搜索任意对象。然而，到目前为止，这些零样本方法对于每个连续查询都将环境视为未知。在本文中，我们引入了零射击多目标导航的新基准，允许机器人利用从先前搜索中收集的信息来更有效地找到新目标。为了解决这个问题，我们构建了一个专为实时对象搜索而定制的可重用的开放词汇特征图。我们进一步提出了一种概率语义图更新，可以减少语义特征提取中常见的错误来源，并利用这种语义不确定性进行知情的多对象探索。我们在模拟以及在 Jetson Orin AGX 上实时运行的真实机器人上评估了一组对象导航任务的方法。我们证明它在单目标和多目标导航任务上都优于现有的最先进方法。其他视频、代码和多对象导航基准将在 https://finnbsch.github.io/OneMap 上提供。

综合自治系统的不断演化的符号表示

分类： 人工智能, 符号计算

作者： Gabriele Sartor, Angelo Oddi, Riccardo Rasconi, Vieri Giuliano Santucci, Rosa Meo

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11756v1

摘要： 最近，人工智能系统在各种任务中取得了显着的进展。深度强化学习（DRL）是代理学习低级状态空间中的策略以解决高度复杂任务的有效工具。研究人员将内在动机（IM）引入到强化学习机制中，它可以模拟智能体的好奇心，鼓励智能体探索环境中有趣的领域。事实证明，这一新功能对于使代理能够在没有特定目标的情况下学习策略至关重要。然而，尽管 DRL 智能是通过子符号模型出现的，但仍然需要某种抽象来理解代理收集的知识。为此，最近的研究中使用了经典的规划形式主义来明确表示自主代理获取的知识并有效地实现外在目标。尽管经典规划通常表现出有限的表达能力，但 PPDDL 在审查自主系统收集的知识、建立明确的因果关系方面表现出了有用性，并且可以用来找到一个计划来达到智能体在其体验期间面临的任何状态。这项工作提出了一种新的架构，实现了一个开放式学习系统，能够从头开始将其经验合成为 PPDDL 表示，并随着时间的推移进行更新。在没有预先定义的目标和任务集的情况下，系统集成了内在动机，以自我导向的方式探索环境，利用在其经验中获得的高级知识。系统探索环境并迭代地：(a) 发现选项，(b) 使用选项探索环境，(c) 抽象收集的知识，以及 (d) 计划。本文提出了一种替代方法来实现开放式学习架构，利用低级和高级表示来扩展其知识，形成良性循环。

NPAT 零空间预测对抗训练走向零恶化

分类： 机器学习, 人工智能, 密码学和安全

作者： Hanyi Hu, Qiao Han, Kui Chen, Yao Yang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11754v1

摘要： 为了减轻神经网络对对抗性攻击的敏感性，对抗性训练已成为一种普遍且有效的防御策略。从本质上讲，这种对策会带来一种权衡，因为它牺牲了模型处理正常样本的准确性。为了协调这种权衡，我们率先将零空间投影纳入对抗训练中，并提出了两种创新的基于零空间投影的对抗训练（NPAT）算法来解决样本生成和梯度优化问题，称为零空间投影数据增强（NPDA））和零空间投影梯度下降（NPGD），以搜索总体最优解决方案，从而增强鲁棒性，泛化性能几乎为零。利用封闭式零空间投影仪将对抗样本和扰动限制在决策边界的零空间内，有效减轻来自不可靠特征的攻击威胁。随后，我们在 CIFAR10 和 SVHN 数据集上进行了实验，结果表明我们的方法可以与对抗训练方法无缝结合，并获得相当的鲁棒性，同时保持接近高精度模型的泛化能力。

探索自闭症儿童的注视模式：聚类、可视化和预测

分类： 计算机视觉和模式识别, 人工智能, 人机交互

作者： Weiyan Shi, Haihong Zhang, Jin Yang, Ruiqing Ding, YongWei Zhu, Kenny Tsu Wei Choo

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11744v1

摘要： 自闭症谱系障碍 (ASD) 显着影响儿童的社交和沟通能力，眼动追踪通常通过识别相关的非典型凝视模式作为诊断工具。传统方法需要手动识别注视模式中的兴趣区域，从而降低了 ASD 受试者注视行为分析的性能。为了解决这一局限性，我们提出了一种新方法来自动分析自闭症儿童的凝视行为，具有极高的准确性。具体来说，我们首先应用并优化七种聚类算法来自动对凝视点进行分组，以将自闭症谱系障碍受试者与典型发育中的同龄人进行比较。随后，我们提取 63 个重要特征来完整描述模式。这些特征可以描述 ASD 诊断和注视模式之间的相关性。最后，利用这些特征作为先验知识，我们训练多个预测机器学习模型，根据他们的注视行为来预测和诊断 ASD。为了评估我们的方法，我们将我们的方法应用于三个 ASD 数据集。实验和可视化结果证明了聚类算法在分析自闭症儿童独特注视模式方面的改进。此外，这些预测机器学习模型在用于 ASD 诊断的自动构建注视点特征领域实现了最先进的预测性能 ($81%$ AUC)。我们的代码可在 \url{https://github.com/username/projectname} 获取。

HARP：用于多智能体强化学习的人辅助重组与排列不变批评

分类： 机器学习, 人工智能, 人机交互, 多代理系统

作者： Huawen Hu, Enze Shi, Chenxi Yue, Shuocun Yang, Zihao Wu, Yiwei Li, Tianyang Zhong, Tuo Zhang, Tianming Liu, Shu Zhang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11741v1

摘要： 人机循环强化学习集成了人类专业知识，以加速代理学习并在复杂领域提供关键指导和反馈。然而，许多现有方法侧重于单代理任务，并且在训练过程中需要持续的人工参与，这显着增加了人工工作量并限制了可扩展性。在本文中，我们提出了 HARP（具有排列不变批评的人工辅助重组），这是一种专为面向群体的任务而设计的多智能体强化学习框架。 HARP 将自动代理重组与部署期间的战略人工协助相结合，使非专家能够以最少的干预提供有效的指导。在训练期间，代理动态调整其分组以优化协作任务的完成。部署后，它们会积极寻求人类帮助，并利用排列不变组批评家来评估和完善人类建议的分组，从而允许非专家用户贡献有价值的建议。在多种协作场景中，我们的方法能够利用非专家的有限指导并提高性能。该项目可以在 https://github.com/huawen-hu/HARP 找到。

InverseMeetInsert：通过引导扩散模型中的几何累积反演进行鲁棒的真实图像编辑

分类： 计算机视觉和模式识别, 人工智能

作者： Yan Zheng, Lemeng Wu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11734v1

摘要： 在本文中，我们介绍了 Geometry-Inverse-Meet-Pixel-Insert（GEO 的缩写），这是一种用途广泛的图像编辑技术，旨在满足本地和全球范围内的定制用户需求。我们的方法无缝集成文本提示和图像提示，以产生多样化且精确的编辑结果。值得注意的是，我们的方法无需训练即可运行，并且由两个关键贡献驱动：（i）一种新颖的几何累积损失，可增强 DDIM 反演以忠实地保留像素空间几何形状和布局，以及（ii）一种创新的增强图像提示技术，将用于纯文本反演的像素级编辑与用于标准无分类器反演的潜在空间几何指导相结合。利用公开的稳定扩散模型，我们的方法对各种图像类型和具有挑战性的提示编辑场景进行了广泛的评估，始终如一地为真实图像提供高保真编辑结果。

GUNet：用于稳定和多样性姿势生成的图卷积网络联合扩散模型

分类： 计算机视觉和模式识别, 人工智能

作者： Shuowen Liang, Sisi Li, Qingyun Wang, Cen Zhang, Kaiquan Zhu, Tian Yang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11689v1

摘要： 姿态骨架图像是姿态可控图像生成的重要参考。为了丰富骨骼图像的来源，最近的工作研究了基于自然语言的姿势骨骼的生成。这些方法基于 GAN。然而，利用各种文本输入执行多样化、结构正确且美观的人体姿势骨架生成仍然具有挑战性。为了解决这个问题，我们提出了一个以 GUNet 作为主要模型的框架，PoseDiffusion。它是第一个基于扩散模型的生成框架，还包含一系列基于稳定扩散模型微调的变体。 PoseDiffusion 展示了几个优于现有方法的所需属性。 1）正确的骨骼。 GUNet 是 PoseDiffusion 的去噪模型，旨在合并图形卷积神经网络。它能够在训练过程中引入骨骼信息来学习人体骨骼的空间关系。 2）多样性。我们将骨架的关键点解耦并分别表征它们，并使用交叉注意力来引入文本条件。实验结果表明，PoseDiffusion 在文本驱动姿势骨架生成的稳定性和多样性方面优于现有的 SoTA 算法。定性分析进一步证明了其在稳定扩散中可控生成的优越性。

利用基于深度学习的机会 CT 成像检测未确诊的医疗状况

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Asad Aali, Andrew Johnston, Louis Blankemeier, Dave Van Veen, Laura T Derry, David Svec, Jason Hom, Robert D. Boutin, Akshay S. Chaudhari

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11686v1

摘要： 腹部计算机断层扫描 (CT) 扫描在临床环境中经常进行。机会性 CT 涉及重新利用常规 CT 图像来提取诊断信息，是检测肌肉减少症、肝脂肪变性和腹水等诊断不足的疾病的新兴工具。这项研究利用深度学习方法来促进准确的诊断和临床记录。我们分析了 2,674 例住院患者 CT 扫描，以确定影像表型（源自机会性 CT 扫描的特征）与其放射学报告和 ICD 编码中的相应文档之间的差异。通过我们的分析，我们发现，通过机会成像或放射学报告诊断为肌肉减少症、肝脂肪变性和腹水的扫描中，只有 0.5%、3.2% 和 30.7% 是 ICD 编码的。我们的研究结果表明，机会性 CT 有潜力提高诊断精度和风险调整模型的准确性，从而推动精准医疗的进步。

基于超图的多模态交互关系推理运动生成

分类： 机器人技术, 人工智能, 机器学习, 多代理系统

作者： Keshu Wu, Yang Zhou, Haotian Shi, Dominique Lord, Bin Ran, Xinyue Ye

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11676v1

摘要： 现实世界驾驶环境的复杂性，其特点是多辆车辆之间及其未来可能的状态之间动态和多样化的相互作用，这对准确预测车辆的运动状态和处理预测中固有的不确定性提出了相当大的挑战。应对这些挑战需要全面的建模和推理，以捕获车辆之间的隐含关系以及相应的不同行为。本研究引入了自动驾驶车辆 (AV) 运动预测的集成框架，利用新型关系超图交互通知神经运动生成器 (RHINO) 来解决这些复杂性。 RHINO 通过集成多尺度超图神经网络来利用基于超图的关系推理，对多辆车之间的分组交互及其多模式驾驶行为进行建模，从而提高运动预测的准确性和可靠性。使用真实世界数据集的实验验证证明了该框架在提高预测准确性和在动态交通场景中促进社会意识自动驾驶方面具有卓越的性能。

使用证据权重 (WoE) 实现可解释的目标识别：以人为本的方法

分类： 人工智能

作者： Abeer Alshehri, Amal Abdulrahman, Hajar Alamri, Tim Miller, Mor Vered

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11675v1

摘要： 目标识别（GR）涉及从一系列观察中推断出代理未观察到的目标。这是具有多种应用的人工智能中的一个关键问题。传统上，GR 是通过“推断最佳解释”或溯因来解决的，其中关于智能体目标的假设被生成为对观察到的行为最合理的解释。或者，一些方法通过确保代理的行为符合观察者的期望或使决策背后的推理更加透明来增强可解释性。在这项工作中，我们解决了一个不同的挑战：以人类可以理解的方式解释GR过程。我们引入并评估了目标识别（GR）代理的可解释模型，该模型基于人类行为解释背后的理论框架和认知过程。借鉴两项人类主体研究的见解，我们提出了一个以人类为中心的遗传资源解释的概念框架。使用这个框架，我们开发了可解释的目标识别（XGR）模型，该模型可以生成“为什么”和“为什么不”问题的解释。我们通过八个 GR 基准和三项用户研究对模型进行计算评估。第一项研究评估了在推箱子游戏领域内生成类人解释的效率，第二项研究检查了同一领域中感知的可解释性，第三项研究评估了模型在非法捕鱼检测中辅助决策的有效性。结果表明，与基线模型相比，XGR 模型显着增强了用户的理解、信任和决策能力，凸显了其改善人类与智能体协作的潜力。

预测随机游戏中不经意的对手

分类： 人工智能, 系统与控制, 系统与控制, I.2.8; F.4.3

作者： Shadi Tasdighi Kalat, Sriram Sankaranarayanan, Ashutosh Trivedi

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11671v1

摘要： 我们提出了一种方法，用于系统地预测并发随机游戏中 \emph{oblivious} 环境所采用的行动和策略，同时最大化奖励函数。我们的主要贡献在于合成一个有限的\emph{信息状态机}，其字母范围涵盖环境的行为。自动机的每个状态都映射到关于环境所使用的策略的信念状态。我们引入了一致性的概念，保证我们的自动机跟踪的信念状态与通过完整历史知识获得的精确信念状态保持在固定距离内。我们提供了检查自动机一致性的方法和一种综合方法，在成功终止后会产生这样的机器。我们展示了信息状态机如何产生 MDP，该 MDP 作为计算最优策略的起点，以最大化在游戏中定义的奖励函数。我们对基准示例进行了实验评估，包括白内障手术和家具组装等任务的人类活动数据，其中我们的方法成功地预测了环境的政策和行动，以最大化回报。

具有掩模降噪机制的代理聚合器，用于组织病理学全玻片图像分析

分类： 计算机视觉和模式识别, 人工智能

作者： Xitong Ling, Minxi Ouyang, Yizhi Wang, Xinrui Chen, Renao Yan, Hongbo Chu, Junru Cheng, Tian Guan, Sufang Tian, Xiaoping Liu, Yonghong He

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11664v1

摘要： 组织病理学分析是医学诊断的金标准。整个幻灯片图像 (WSI) 的准确分类和感兴趣区域 (ROI) 定位可以帮助病理学家进行诊断。 WSI 的十亿像素分辨率和缺乏细粒度注释使得直接分类和分析具有挑战性。在弱监督学习中，多实例学习 (MIL) 为 WSI 分类提供了一种有前景的方法。普遍的策略是使用注意力机制来衡量实例分类的重要性。然而，注意力机制无法捕获实例间信息，并且自注意力导致计算复杂度成二次方。为了应对这些挑战，我们提出了 AMD-MIL，一种具有掩模降噪机制的代理聚合器。代理令牌充当查询和计算实例重要性的密钥之间的中间变量。从代理聚合值映射的屏蔽和去噪矩阵，动态屏蔽低贡献表示并消除噪声。 AMD-MIL 通过调整特征表示、捕获癌症中的微转移以及提高可解释性来实现更好的注意力分配。对 CAMELYON-16、CAMELYON-17、TCGA-KIDNEY 和 TCGA-LUNG 进行的大量实验表明，AMD-MIL 优于最先进的方法。

GReDP：一种更稳健的差分隐私训练方法，具有梯度保持降噪功能

分类： 密码学和安全, 人工智能

作者： Haodi Wang, Tangyu Jiang, Yu Guo, Xiaohua Jia, Chengjun Cai

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11663v1

Few-Shot Class-非独立同分布分散数据的增量学习

分类： 机器学习, 人工智能

作者： Cuiwei Liu, Siang Xu, Huaijun Qiu, Jing Zhang, Zhi Liu, Liang Zhao

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11657v1

摘要： 小样本类增量学习对于开发可扩展和自适应的智能系统至关重要，因为它使模型能够以最少的注释数据获取新类，同时保护之前积累的知识。尽管如此，现有方法以集中方式处理连续数据流，限制了它们在优先考虑数据隐私和安全的场景中的适用性。为此，本文引入了联合少样本类增量学习，这是一种去中心化机器学习范式，旨在从分布在多个客户端的稀缺数据中逐步学习新类。在这种学习范式中，客户端在本地使用新类更新其模型，同时保护数据隐私，然后将模型更新传输到中央服务器，并在其中进行全局聚合。然而，这种范式面临着一些问题，例如小样本学习的困难、灾难性遗忘和数据异构性。为了应对这些挑战，我们提出了一个综合数据驱动框架，该框架利用重放缓冲区数据来维护现有知识并促进新知识的获取。在此框架内，开发了一个噪声感知生成重放模块，以平衡新数据和重放数据来微调本地模型，同时生成新类的合成数据，以进一步扩展未来任务的重放缓冲区。此外，设计了特定于类的加权聚合策略，通过基于合成数据上的局部模型性能自适应地聚合特定于类的参数来解决数据异质性。这可以实现有效的全局模型优化，而无需直接访问客户数据。三个广泛使用的数据集的综合实验强调了所引入框架的有效性和卓越性。

如何利用人工智能构建虚拟细胞：优先事项和机遇

分类： 定量方法, 人工智能, 机器学习, 神经元和认知

作者： Charlotte Bunne, Yusuf Roohani, Yanay Rosen, Ankit Gupta, Xikun Zhang, Marcel Roed, Theo Alexandrov, Mohammed AlQuraishi, Patricia Brennan, Daniel B. Burkhardt, Andrea Califano, Jonah Cool, Abby F. Dernburg, Kirsty Ewing, Emily B. Fox, Matthias Haury, Amy E. Herr, Eric Horvitz, Patrick D. Hsu, Viren Jain, Gregory R. Johnson, Thomas Kalil, David R. Kelley, Shana O. Kelley, Anna Kreshuk, Tim Mitchison, Stephani Otte, Jay Shendure, Nicholas J. Sofroniew, Fabian Theis, Christina V. Theodoris, Srigokul Upadhyayula, Marc Valer, Bo Wang, Eric Xing, Serena Yeung-Levy, Marinka Zitnik, Theofanis Karaletsos, Aviv Regev, Emma Lundberg, Jure Leskovec, Stephen R. Quake

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11654v1

摘要： 细胞可以说是生命的最小单位，是理解生物学的核心。准确的细胞建模对于这种理解以及确定疾病的根本原因非常重要。人工智能 (AI) 的最新进展与生成大规模实验数据的能力相结合，为细胞建模提供了新的机会。在这里，我们提出了人工智能驱动的虚拟细胞的愿景，其中不同条件下细胞和细胞系统的稳健表示是直接从跨测量和尺度的不断增长的生物数据中学习的。我们讨论了人工智能虚拟细胞所需的功能，包括生成跨尺度的生物实体的通用表示，以及促进可解释的计算机实验，以使用虚拟仪器预测和理解它们的行为。我们进一步解决实现这一愿景的挑战、机遇和要求，包括数据需求、评估策略以及社区标准和参与，以确保生物学准确性和广泛实用性。我们设想未来人工智能虚拟细胞将帮助识别新的药物靶点、预测细胞对扰动的反应以及规模假设探索。通过包括学术界、慈善事业以及生物制药和人工智能行业在内的生物医学生态系统的开放科学合作，对细胞机制和相互作用的全面预测性理解是可以实现的。

量化大型模型的艺术与科学：全面概述

分类： 机器学习, 人工智能

作者： Yanshu Wang, Tong Yang, Xiyan Liang, Guoan Wang, Hanning Lu, Xu Zhe, Yaoming Li, Li Weitao

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11650v1

摘要： 本文全面概述了与量化大规模神经网络模型相关的原理、挑战和方法。随着神经网络向更大、更复杂的架构发展以解决日益复杂的任务，计算和能源成本显着上升。我们探讨了模型大小增长的必要性和影响，强调了性能优势以及计算挑战和环境考虑因素。核心重点是模型量化，作为通过减小模型大小和提高效率而不显着影响准确性来缓解这些挑战的基本方法。我们深入研究了各种量化技术，包括训练后量化 (PTQ) 和量化感知训练 (QAT)，并分析了几种最先进的算法，例如 LLM-QAT、PEQA(L4Q)、ZeroQuant、SmoothQuant ，以及其他。通过比较分析，我们研究了这些方法如何解决异常值、重要性加权和激活量化等问题，最终有助于更可持续和更容易地部署大规模模型。

基于胸部 X 射线图像的结核病分类的少样本学习方法

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： A. A. G. Yogi Pramana, Faiz Ihza Permana, Muhammad Fazil Maulana, Dzikri Rahadian Fudholi

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11644v1

摘要： 结核病（TB）是由结核分枝杆菌引起的，主要影响肺部。早期检测对于提高治疗效果和降低传播风险至关重要。人工智能 (AI)，特别是通过胸部 X 光图像分类，可以协助结核病检测。然而，结核病胸部 X 射线数据集中的类别不平衡给准确分类带来了挑战。在本文中，我们提出了一种使用原型网络算法的几次学习（FSL）方法来解决这个问题。我们比较了 ResNet-18、ResNet-50 和 VGG16 在 TBX11K 胸部 X 射线数据集特征提取方面的性能。实验结果表明，ResNet-18 的分类精度为 98.93%，ResNet-50 的分类精度为 98.60%，VGG16 的分类精度为 33.33%。这些发现表明，所提出的方法在缓解数据不平衡方面优于其他方法，这对于疾病分类应用特别有益。

通过基于大语言模型的检测来打击电话诈骗：我们的立场如何？

分类： 密码学和安全, 人工智能, 计算机与社会, I.2.0

作者： Zitong Shen, Kangzhong Wang, Youqian Zhang, Grace Ngai, Eugene Y. Fu

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11643v1

摘要： 电话诈骗对个人和社区构成重大威胁，造成巨大的经济损失和精神困扰。尽管人们不断努力打击这些诈骗，但诈骗者仍在不断调整和完善他们的策略，因此探索创新对策势在必行。这项研究探讨了大型语言模型 (LLM) 在检测欺诈电话方面的潜力。通过分析诈骗者和受害者之间的对话动态，基于 LLM 的检测器可以在潜在的诈骗发生时识别它们，为用户提供即时保护。虽然这些方法展示了有希望的结果，但我们也承认有偏见的数据集、相对较低的召回率和幻觉的挑战，必须解决这些挑战才能进一步推进该领域

使用简单 SIR 模型解决流行病规划问题的度量混合规划方法

分类： 人工智能

作者： Ari Gestetner, Buser Say

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11631v1

摘要： 大流行是一种疾病在大范围内传播，可能给社会带来毁灭性的健康、经济和社会损失。因此，研究有效的流行病缓解策略可以对社会产生重大的积极影响。可以使用分区模型（例如易感感染者移除 (SIR) 模型）对大流行进行数学描述。在本文中，我们将 SIR 模型的解方程扩展到具有锁定的状态转换模型。我们基于此状态转换模型形式化了度量混合规划问题，并使用度量混合规划器来解决它。我们通过添加有效的不等式来提高度量混合规划器的运行时有效性，并在各种具有挑战性的设置下从理论上和实验上证明我们的方法的成功。

HRA：元启发式优化算法排名的多标准框架

分类： 神经和进化计算, 人工智能, 表现

作者： Evgenia-Maria K. Goula, Dimitris G. Sotiropoulos

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11617v1

摘要： 元启发式算法对于解决不同领域的复杂优化问题至关重要。然而，由于通常涉及广泛的性能指标和问题维度，对这些算法进行比较和评级仍然存在困难。另一方面，非参数统计方法和事后测试非常耗时，特别是当我们只需要识别许多算法中表现最好的算法时。分层排名聚合 (HRA) 算法旨在根据元启发式算法在许多标准和维度上的性能对元启发式算法进行有效排名。 HRA 采用分层框架，首先收集各种基准功能和维度的绩效指标。每个性能指标都采用基于排名的归一化，以确保可比性，并应用稳健的 TOPSIS 聚合在多个层次结构级别上组合这些排名，从而得出算法的综合排名。我们的研究使用 CEC 2017 竞赛的数据来证明 HRA 框架的稳健性和有效性。它检查了 30 个基准函数，并在四个不同维度的五个性能指标上评估了 13 种元启发式算法的性能。本演示强调了 HRA 通过简化从业者对某些优化问题最合适算法的选择来增强对各种算法的比较优缺点的解释的潜力。

利用人工智能数据驱动的全球天气模型进行气候归因：对 2017 年奥罗维尔大坝极端大气河的分析

分类： 大气和海洋物理, 人工智能

作者： Jorge Baño-Medina, Agniv Sengupta, Allison Michaelis, Luca Delle Monache, Julie Kalansky, Duncan Watson-Parris

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11605v1

摘要： 人工智能数据驱动模型（Graphcast、Pangu Weather、Fourcastnet 和 SFNO）由于推理时间短，可用于基于故事情节的气候归因，这可以加快研究事件的数量，并在公众关注度提高时提供实时归因。该分析以 2017 年 2 月导致北加州奥罗维尔大坝溢洪道事件的极端大气河流事件为框架。过去和未来的模拟是通过分别用工业化前和 21 世纪末的温度气候变化信号扰动初始条件来生成的。将模拟结果与动态模型的结果进行比较，该模型代表了两种气候环境下看似合理的伪现实。总体而言，人工智能模型显示出令人鼓舞的结果，预计与工业化前相比，目前奥罗维尔大坝的综合水蒸气含量将增加 5-6%，与动力学模型一致。每个测试的人工智能模型都揭示了不同的地势-湿度-温度依赖性，为理解归因响应的物理性提供了有价值的信息。然而，人工智能模型倾向于模拟比动态模型想象的伪现实更弱的归因值，这表明外推能力有所下降，特别是对于 21 世纪末的政权。与动态模型中超过 20 名成员的集成不同，使用 AI 模型生成的大型集成（> 500 名成员）产生了具有统计学意义的当今到工业化前的归因结果。该分析强调了人工智能模型进行归因分析的潜力，同时强调了可解释人工智能的未来工作方向，以增强对这些工具的信心，从而实现可靠的实时归因研究。

No Saved Kaleidosope：具有 Python 语法的 100% Jitted 神经网络编码语言

分类： 机器学习, 人工智能, 编程语言, 68T07, D.3; I.2; I.4; I.7

作者： Augusto Seben da Rosa, Marlon Daniel Angeli, Jorge Aikes Junior, Alef Iury Ferreira, Lucas Rafael Gris, Anderson da Silva Soares, Arnaldo Candido Junior, Frederico Santos de Oliveira, Gabriel Trevisan Damke, Rafael Teixeira Sousa

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11600v1

摘要： 我们开发了一个 jitted 编译器，用于使用 C++、LLVM 和 Cuda 训练人工神经网络。它具有面向对象的特性、强类型、用于数据预处理的并行工作器、表达式的 Pythonic 语法、类似 PyTorch 的模型声明和自动微分。我们实现了缓存和池化机制来管理 VRAM、用于高性能矩阵乘法的 cuBLAS 和用于卷积层的 cuDNN。我们在 ImageNet 上使用残差卷积神经网络进行实验，达到了相似的速度，但性能下降了。此外，GRU 网络实验显示了类似的准确性，但我们的编译器在该任务中降低了速度。然而，我们的编译器在 CIFAR-10 基准测试中展示了令人鼓舞的结果，其中我们达到了与 PyTorch 相同的性能和大约相同的速度。我们将代码公开在：https://github.com/NoSavedDATA/NoSavedKaleidscope

迈向公平 RAG：公平排名对检索增强一代的影响

分类： 信息检索, 人工智能, 计算和语言

作者： To Eun Kim, Fernando Diaz

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11598v1

摘要： 现在，许多语言模型通过检索功能增强其响应，从而导致检索增强生成（RAG）系统的广泛采用。然而，尽管检索是 RAG 的核心组成部分，但该领域的许多研究都忽视了公平排名的广泛工作，忽视了考虑所有相关利益相关者的重要性。本文首次对 RAG 系统与公平排名相结合进行系统评估。我们特别关注衡量 RAG 系统使用的排名中每个相关项目的公平曝光度（即项目方公平性），旨在促进相关项目提供商的公平增长。为了深入了解 RAG 背景下的项目公平性、排名质量和生成质量之间的关系，我们分析了九个不同的 RAG 系统，这些系统在七个不同的数据集中包含公平排名。我们的研究结果表明，尽管总体趋势是在确保公平性和保持系统有效性之间进行权衡，但具有公平排名的 RAG 系统可以保持高水平的发电质量，并且在许多情况下甚至优于传统的 RAG 系统。我们相信，我们的见解为负责任和公平的 RAG 系统奠定了基础，并为未来的研究开辟了新的途径。我们在 https://github.com/kimdanny/Fair-RAG 公开发布我们的代码库和数据集。

自对比前向前向算法

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 新兴技术, 神经和进化计算

作者： Xing Chen, Dongshu Liu, Jeremie Laydevant, Julie Grollier

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11593v1

摘要： 前向-前向 (FF) 算法是一种最新的纯前向模式学习方法，可局部和逐层更新权重，并支持监督学习和无监督学习。这些功能使其成为类脑学习、低功耗硬件神经网络和大型模型中的分布式学习等应用的理想选择。然而，虽然 FF 在书面数字识别任务上表现出了希望，但它在自然图像和时间序列上的性能仍然是一个挑战。一个关键的限制是需要为对比学习生成高质量的反例，特别是在目前缺乏通用解决方案的无监督任务中。为了解决这个问题，我们受自监督对比学习的启发，引入了自我对比前向（SCFF）方法。 SCFF 生成适用于不同数据集的正例和负例，超越了现有的本地前向算法，在 MNIST (MLP: 98.7%)、CIFAR-10 (CNN: 80.75%) 和 STL-10 (CNN: 77.3%) 上的无监督分类精度。此外，SCFF 是第一个支持循环神经网络 FF 训练的技术，为更复杂的任务以及连续时间视频和文本处理打开了大门。

ProSLM：用于可解释的基于领域特定知识的问答的 Prolog 协同语言模型

分类： 计算和语言, 人工智能, I.2

作者： Priyesh Vakharia, Abigail Kufeldt, Max Meyers, Ian Lane, Leilani Gilpin

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11589v1

摘要： 神经符号方法可以通过结合可解释的符号表示来增加不透明神经系统的鲁棒性。然而，以前的方法并未使用形式逻辑来将查询置于上下文中并验证大型语言模型 (LLM) 的输出。我们提出 \systemname{}，一种新颖的神经符号框架，以提高大语言模型在问答任务中的鲁棒性和可靠性。我们为 \systemname{} 提供特定领域的知识库、逻辑推理系统以及与现有大语言模型的集成。该框架具有两种功能：(1) 上下文收集：为给定查询生成可解释且相关的上下文；(2) 验证：根据知识库 (KB) 确认和验证语句的事实准确性。我们的工作开辟了神经符号生成人工智能文本验证和用户个性化的新领域。

定量超声中零差-K分布的不确定度分解与误差范围检测

分类： 信号处理, 人工智能, 图像和视频处理, 医学物理, 机器学习

作者： Dorsa Ameri, Ali K. Z. Tehrani, Ivan M. Rosado-Mendez, Hassan Rivaz

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11583v1

摘要： 最近使用贝叶斯神经网络 (BNN) 解决了定量超声 (QUS) 中的均差 K 分布（HK 分布）参数估计问题。 BNN 已被证明可以显着减少基于散斑统计的 QUS 的计算时间，而不会影响准确性和精度。此外，它们还提供特征不确定性的估计，这可以指导临床医生对报告的特征值的信任。贝叶斯建模中的总体预测不确定性可以分解为认知（模型参数的不确定性）和任意（数据固有的不确定性）部分。通过分解预测不确定性，我们可以深入了解导致总体不确定性的因素。在本研究中，我们提出了一种方法来计算由 BNN 估计的 HK 分布参数（$\alpha$ 和 $k$）在模拟和实验数据中的认知和任意不确定性。此外，我们还研究了预测误差与两种不确定性之间的关系，揭示了这些不确定性与 HK 参数误差之间的相互作用。

使用基于策略梯度的深度强化学习自动制定头颈癌质子 PBS 治疗计划

分类： 定量方法, 人工智能, 机器学习

作者： Qingqing Wang, Chang Chang

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11576v1

摘要： 头颈 (H&N) 癌症的质子笔形束扫描 (PBS) 治疗计划是一项耗时且需要经验的任务，涉及大量计划目标。深度强化学习（DRL）最近被引入前列腺癌、肺癌和宫颈癌的调强放射治疗和近距离放射治疗的规划过程中。然而，现有的方法建立在 Q 学习框架和临床指标的加权线性组合的基础上，可扩展性和灵活性较差，并且只能调整离散行动空间中有限数量的规划目标。我们提出了一种使用近端策略优化 (PPO) 算法和基于剂量分布的奖励函数的自动治疗计划模型，用于 H&N 癌症的质子 PBS 治疗计划。具体来说，使用一组经验规则根据目标体积和危及器官（OAR）及其相关的规划目标创建辅助规划结构。这些规划目标被输入内部优化引擎以生成现场监控单元 (MU) 值。开发了使用 PPO 训练的决策政策网络，以迭代调整连续行动空间中涉及的规划目标参数，并使用基于剂量分布的新型奖励函数完善 PBS 治疗计划。与人工生成的计划相比，该模型生成的 Proton H&N 治疗计划显示出改善的 OAR 保护，具有相同或更好的目标覆盖范围。此外，针对肝癌的额外实验表明，所提出的方法可以成功推广到其他治疗部位。据我们所知，这是第一个基于 DRL 的自动治疗计划模型，能够在 H&N 癌症方面实现人类水平的表现。

通过人类反馈对语言、言语和视觉任务进行偏好调整：一项调查

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习, 音频和语音处理

作者： Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11564v1

摘要： 偏好调整是将深度生成模型与人类偏好结合起来的关键过程。这项调查全面概述了偏好调整和人类反馈整合方面的最新进展。本文分为三个主要部分：1）引言和预备知识：介绍强化学习框架、偏好调整任务、模型和跨各种模式的数据集：语言、语音和视觉，以及不同的政策方法，2）深入研究每种偏好调整方法：详细分析偏好调整中使用的方法，3）应用、讨论和未来方向：探索偏好调整在下游任务中的应用，包括不同模态的评估方法，并对未来的研究方向进行了展望。我们的目标是提出偏好调整和模型对齐的最新方法，增强研究人员和从业者对该领域的理解。我们希望鼓励该领域的进一步参与和创新。

组织学图像中轴突和髓磷脂分割的多域数据聚合

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Armand Collin, Arthur Boschet, Mathieu Boudreau, Julien Cohen-Adad

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11552v1

摘要： 量化组织学图像中的轴突和髓磷脂特性（例如轴突直径、髓磷脂厚度、g 比）可以提供有关神经退行性疾病引起的微观结构变化的有用信息。自动组织分割是这些数据集的重要工具，因为单个染色切片可以包含多达数千个轴突。深度学习的进步使得这项任务快速可靠，开销最小，但由于组织学训练数据的差异，由一个研究小组训练的深度学习模型几乎无法被其他小组使用。这部分是由于主体多样性（不同的身体部位、物种、遗传学、病理学）以及现代显微成像技术的范围导致图像特征（即对比度、分辨率）的广泛变化。迫切需要让神经科学研究人员能够使用人工智能来促进和加速他们的工作流程，但公开可用的模型很少且维护不善。我们的方法是聚合来自多种成像方式（明场、电子显微镜、拉曼光谱）和物种（小鼠、大鼠、兔子、人类）的数据，以创建用于轴突和髓磷脂分割的开源、耐用的工具。我们的通才模型使研究人员更容易处理他们的数据，并且可以进行微调以在特定领域获得更好的性能。我们研究了不同聚合方案的好处。这种多域分割模型比单模态专用学习器表现更好 (p=0.03077)，对分布外数据具有更好的泛化能力，并且更易于使用和维护。重要的是，我们将分割工具打包到维护良好的开源软件生态系统中（请参阅https://github.com/axondeepseg/axondeepseg）。

小语言模型在短篇创意写作中可以超越人类：一项将 SLM 与人类和 LLM 进行比较的研究

分类： 计算和语言, 人工智能

作者： Guillermo Marco, Luz Rello, Julio Gonzalo

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11547v1

摘要： 在本文中，我们评估了微调小语言模型 (SLM) BART Large 的创意小说写作能力，并将其性能与人类和两个大型语言模型 (LLM)：GPT-3.5 和 GPT-4o 进行比较。我们的评估包括两个实验：(i) 人类评估，读者将 SLM 生成的故事与人类编写的故事进行比较，以及 (ii) 定性语言分析，比较不同模型生成的故事的文本特征。在第一个实验中，我们要求 68 名参与者根据语法、相关性、创造力和吸引力等维度对模型和人类生成的短篇故事进行评分。 BART Large 在除创造力之外的大多数方面都优于人类作家，其总体得分为 2.11，而人类书写文本的总体得分为 1.85，提高了 14%。在第二个实验中，定性分析显示，虽然 GPT-4o 表现出近乎完美的内部和外部连贯性，但它往往会产生更可预测的叙述，只有 3% 的故事被认为是小说。相比之下，BART 的故事中有 15% 被认为是新颖的，这表明尽管模型尺寸较小，但创造力较高。这项研究提供了定量和定性的见解，了解模型大小和微调如何影响创意写作任务中创造力、流畅性和连贯性之间的平衡。

NCT-CRC-HE：并非所有组织病理学数据集都同样有用

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Andrey Ignatov, Grigory Malivenko

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11546v1

摘要： 过去几年，人们提出了许多基于深度学习的解决方案用于组织病理学图像分析。虽然它们通常表现出极高的准确性，但一个关键问题是它们的精度是否可能受到与组织病理学无关但由显微镜图像处理和预处理引起的低级图像特性的影响。在本文中，我们分析了许多先前工作中使用的流行的 NCT-CRC-HE-100K 结直肠癌数据集，并表明该数据集和获得的结果都可能受到数据特定偏差的影响。最突出的数据集问题是不适当的颜色归一化、不同类别之间严重的 JPEG 伪影不一致以及由于不正确的图像动态范围处理而导致的组织样本完全损坏。我们表明，即使是每张图像仅使用 3 个特征（红色、绿色和蓝色强度）的最简单模型，在这个 9 类数据集上也能表现出超过 50% 的准确度，而使用未明确捕获细胞形态特征的颜色直方图可产生超过 82% 的准确度。此外，我们还表明，基本的 EfficientNet-B0 ImageNet 预训练模型可以在此数据集上实现超过 97.7% 的准确率，优于之前为此任务开发的所有解决方案，包括专用的基础组织病理学模型和大细胞形态感知神经网络。 NCT-CRC-HE 数据集是公开的，可以免费用于复制所提供的结果。本文使用的代码和预训练模型可在 https://github.com/gmalivenko/NCT-CRC-HE-experiments 获取

使用多智能体思想树验证器智能体改进 LLM 推理

分类： 人工智能

作者： Fatemeh Haji, Mazal Bethany, Maryam Tabar, Jason Chiang, Anthony Rios, Peyman Najafirad

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11527v1

摘要： 多智能体策略已成为一种有前途的方法，通过在问题解决过程中分配专门的角色来增强大型语言模型（LLM）的推理能力。同时，思想树（ToT）方法已经显示出通过探索不同的推理路径来改进复杂问答任务的推理的潜力。多智能体推理的一个关键限制是“推理者”智能体对推理路径的浅层探索。虽然 ToT 策略可以帮助缓解这个问题，但它们可能会产生有缺陷的推理分支，这可能会损害最终答案的可信度。为了利用多代理推理和 ToT 策略的优势，我们引入了一种将基于 ToT 的推理代理与思想验证代理相结合的新颖方法。多个 Reasoner 代理并行运行，利用 ToT 探索不同的推理路径。然后，思想验证器会仔细检查这些路径，仅当推理器的推理有效时才考虑推理器的结论。该方法通过丢弃错误的推理路径来实现更稳健的投票策略，从而增强系统处理需要系统且值得信赖的推理的任务的能力。在 GSM8K 数据集上进行评估时，我们的方法表现出比现有技术更优越的性能，在四个大语言模型中平均优于标准 ToT 策略 5.6%。

曼巴融合：通过提问学习行动

分类： 计算机视觉和模式识别, 人工智能

作者： Zhikang Dong, Apoorva Beedu, Jason Sheinkopf, Irfan Essa

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11513v1

摘要： 视频语言模型 (VLM) 对于泛化不同任务和使用语言提示来增强学习至关重要。虽然基于 Transformer 的架构实际上已成为视觉语言训练的主流，但它们面临着二次计算复杂性、高 GPU 内存使用率以及长期依赖困难等挑战。为了解决这些限制，我们引入了 MambaVL，这是一种新颖的模型，它利用选择性状态空间模态融合的最新进展来有效捕获远程依赖性并学习视觉和语言数据的联合表示。 MambaVL 在两种模式之间利用共享的状态转换矩阵，允许模型从场景中的多个角度捕获有关动作的信息。此外，我们提出了一个问答任务，有助于引导模型找到相关线索。这些问题提供了有关行动、对象和环境背景的关键信息，从而提高绩效。因此，MambaVL 在 Epic-Kitchens-100 数据集上的动作识别方面实现了最先进的性能，并且在动作预期方面优于基线方法。

FedNE：用于降维的代理辅助联合邻居嵌入

分类： 机器学习, 人工智能

作者： Ziwei Li, Xiaoqi Wang, Hong-You Chen, Han-Wei Shen, Wei-Lun Chao

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11509v1

摘要： 联邦学习 (FL) 已迅速发展成为一种有前途的范式，它可以在分布式参与者之间进行协作模型训练，而无需交换其本地数据。尽管其在计算机视觉、图形学习和自然语言处理等领域有着广泛的应用，但开发一种可以有效地用于在 FL 背景下可视化数据的数据投影模型至关重要，但仍然没有得到充分的探索。邻域嵌入（NE）是可视化复杂高维数据的一项重要技术，但协作学习联合 NE 模型很困难。关键的挑战在于目标函数，因为像 NE 这样的有效可视化算法需要计算数据对之间的损失函数。在本文中，我们介绍了 \textsc{FedNE}，这是一种将 \textsc{FedAvg} 框架与对比 NE 技术集成在一起的新颖方法，无需任何可共享数据的要求。为了解决客户端间排斥的缺乏（这对于全局嵌入空间的对齐至关重要），我们开发了一个替代损失函数，每个客户端都可以学习并相互共享。此外，我们提出了一种数据混合策略来增强本地数据，旨在缓解由本地 $k$NN 图构建的不可见邻居和错误邻居的问题。我们对合成数据集和真实数据集进行了全面的实验。结果表明，与几种基线方法相比，我们的 \textsc{FedNE} 可以有效地保留邻域数据结构并增强全局嵌入空间中的对齐。

语言模型中的平等语言表示：一切都始于分词器

分类： 计算和语言, 人工智能, I.2.7

作者： Menan Velayuthan, Kengatharaiyer Sarveswaran

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11501v1

摘要： 分词器充当人类语言和语言模型潜在空间之间的桥梁，影响语言在这些模型中的表示方式。由于以英语为中心的大语言模型 (LLM) 非常受欢迎，人们正在努力将其适应其他语言。然而，我们证明，从标记化的角度来看，并非所有标记化器都能为泰米尔语、僧伽罗语和印地语等复杂脚本语言提供公平的表示，这主要是由于预标记化方法的选择。我们进一步表明，在实现这些复杂脚本语言的平等表示方面，预标记化比标记化算法本身发挥着更关键的作用。为了解决这个问题，我们通过合并字素对字节对编码（BPE）算法进行了改进，我们将其称为字素对编码（GPE）。我们的实验表明，对于复杂的脚本，基于字素的字符提取优于字节级分词器。我们通过泰米尔语、僧伽罗语和印地语的实验验证了这种方法。

多文档接地多轮合成对话生成

分类： 计算和语言, 人工智能

作者： Young-Suk Lee, Chulaka Gunasekara, Danish Contractor, Ramón Fernandez Astudillo, Radu Florian

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11500v1

摘要： 我们介绍了一种基于多文档的多轮合成对话生成技术，该技术融合了三个主要思想。首先，我们使用由思想链 (CoT) 提示生成的分类驱动的用户查询来控制整个对话流。其次，我们通过模仿现实世界中检索器的使用来支持生成多文档基础对话框，以便在用户每次打开对话框后更新基础文档。第三，我们应用LLM作为法官来过滤掉答案不正确的查询。人工对合成对话数据的评估表明，数据是多样的、连贯的，并且包括大部分正确的答案。对可回答查询的人工和自动评估都表明，在合成对话上进行微调的模型始终优于在四个公开可用的多回合文档基础基准测试集上对现有人类生成的训练数据进行微调的模型。

增强、删除和交换：提高大语言模型字幕的多样性，以实现高效的音乐文本表示学习

分类： 声音, 人工智能, 计算和语言, 音频和语音处理

作者： Ilaria Manco, Justin Salamon, Oriol Nieto

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11498v1

摘要： 音频文本对比模型已成为音乐表征学习的强大方法。然而，尽管他们在实证上取得了成功，但人们对关键设计选择对通过该框架学习的音乐文本表示质量的影响知之甚少。在这项工作中，我们在有限的数据和计算预算的限制下公开了这些设计选择，并基于三个轴的经验观察对其影响建立了更扎实的理解：基本编码器的选择、训练数据的管理水平、以及文本增强的使用。我们发现数据管理是资源受限场景中音乐文本对比训练的最重要因素。受这种见解的启发，我们引入了两种新颖的技术：增强视图丢弃和文本交换，它们增加了训练中文本输入的多样性和描述性。通过我们的实验，我们证明这些可以有效地提高不同预训练方案、模型架构和下游数据分布的性能，而不会产生更高的计算成本或需要额外的训练数据。

超越算法公平：开发和部署符合道德的人工智能决策支持工具的指南

分类： 人工智能, 计算机与社会, 机器学习

作者： Rosemarie Santa Gonzalez, Ryan Piansky, Sue M Bae, Justin Biddle, Daniel Molzahn

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11489v1

摘要： 人工智能 (AI) 与优化的集成为提高工程系统的效率、可靠性和弹性带来了巨大希望。由于许多工程系统的网络性质，在这个交叉点上道德地部署方法提出了与其他人工智能设置不同的挑战，从而推动了针对人工智能优化的道德准则的制定。本文强调需要超越公平驱动的算法，系统地解决跨越建模、数据管理、结果分析和基于优化的决策支持工具实施阶段的道德决策。因此，本文通过电力系统以及供应链和物流的案例研究，确定了在人工智能和优化交叉点部署算法时所需的道德考虑。本文的目的不是提供一套规定性的规则，而是旨在培养研究人员的反思和意识，并鼓励在决策过程的每一步考虑道德影响。

使用 PocketNet 对宫颈肿瘤进行两阶段分割

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Awj Twam, Megan Jacobsen, Rachel Glenn, Ann Klopp, Aradhana M. Venkatesan, David Fuentes

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11456v1

摘要： 宫颈癌仍然是全球女性中第四大最常见的恶性肿瘤。1同步放化疗 (CRT) 是局部晚期宫颈癌的主要确定性治疗方案，包括外照射和近距离放射治疗。2放疗治疗计划的组成部分是常规轮廓确定子宫颈水平的目标肿瘤、相关的妇科解剖结构和邻近的危险器官 (OAR)。然而，手动绘制这些结构的轮廓既费时又费力，并且与已知的观察者间变异性相关，可能会影响治疗结果。虽然已经开发了多种工具来使用计算机断层扫描 (CT) 图像自动分割 OAR 和高风险临床肿瘤体积 (HR-CTV)，3,4,5,6 使用常规方法开发基于深度学习的肿瘤分割工具T2 加权 (T2w) 磁共振成像 (MRI) 解决了未满足的临床需求，以改善解剖结构和宫颈癌的常规轮廓，从而提高放射治疗计划的质量和一致性。这项工作应用了一种新颖的深度学习模型 (PocketNet) 在 T2w MRI 上分割子宫颈、阴道、子宫和肿瘤。通过 5 倍交叉验证对数据进行训练时，对 PocketNet 架构的性能进行了评估。 PocketNet 的肿瘤分割平均 Dice-Sorensen 相似系数 (DSC) 超过 70%，器官分割平均 Dice-Sorensen 相似系数 (DSC) 超过 80%。这些结果表明，PocketNet 对于对比协议的变化具有鲁棒性，可提供可靠的 ROI 分割。

TTT-Unet：通过生物医学图像分割的测试时训练层增强 U-Net

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Rong Zhou, Zhengqing Yuan, Zhiling Yan, Weixiang Sun, Kai Zhang, Yiwei Li, Yanfang Ye, Xiang Li, Lifang He, Lichao Sun

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11299v2

摘要： 生物医学图像分割对于准确诊断和分析各种疾病至关重要。然而，卷积神经网络 (CNN) 和 Transformer（该任务最常用的架构）由于 CNN 固有的局部性和 Transformer 的计算复杂性，很难有效地捕获远程依赖关系。为了解决这一限制，我们引入了 TTT-Unet，这是一种新颖的框架，它将测试时训练 (TTT) 层集成到传统的 U-Net 架构中以进行生物医学图像分割。 TTT-Unet在测试期间动态调整模型参数，增强模型捕获局部和远程特征的能力。我们在多个医学成像数据集上评估 TTT-Unet，包括 CT 和 MR 图像中的 3D 腹部器官分割、内窥镜图像中的器械分割以及显微镜图像中的细胞分割。结果表明，TTT-Unet 在所有任务中始终优于最先进的基于 CNN 和 Transformer 的分割模型。代码可在 https://github.com/rongzhou7/TTT-Unet 获取。

AraDiCE：大语言模型方言和文化能力的基准

分类： 计算和语言, 人工智能, 68T50, F.2.2; I.2.7

作者： Basel Mousi, Nadir Durrani, Fatema Ahmad, Md. Arid Hasan, Maram Hasanain, Tameem Kabbani, Fahim Dalvi, Shammur Absar Chowdhury, Firoj Alam

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11404v1

摘要： 阿拉伯语具有丰富的方言多样性，但在大型语言模型中的代表性仍然严重不足，特别是在方言变体方面。我们通过引入七个方言合成数据集以及现代标准阿拉伯语 (MSA) 来解决这一差距，这些数据集是使用机器翻译 (MT) 与人工后期编辑相结合创建的。我们推出 AraDiCE，阿拉伯方言和文化评估基准。我们评估大语言模型的方言理解和生成，特别关注资源匮乏的阿拉伯方言。此外，我们还推出了首个细粒度基准，旨在评估海湾、埃及和黎凡特地区的文化意识，为大语言模型评估提供了一个新颖的维度。我们的研究结果表明，虽然 Jais 和 AceGPT 等阿拉伯语特定模型在方言任务上优于多语言模型，但方言识别、生成和翻译方面仍然存在重大挑战。这项工作提供了约 45,000 个经过编辑的样本，这是一个文化基准，并强调了定制培训对于提高大语言模型在捕捉不同阿拉伯方言和文化背景的细微差别方面的表现的重要性。我们将发布本研究中策划的方言翻译模型和基准。

NVLM：开放前沿级多模式大语言模型

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 机器学习, 多媒体

作者： Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11402v1

摘要： 我们推出了 NVLM 1.0，这是一系列前沿级多模态大语言模型 (LLM)，可在视觉语言任务上取得最先进的结果，可与领先的专有模型（例如 GPT-4o）和开放获取相媲美型号（例如 Llama 3-V 405B 和 InternVL 2）。值得注意的是，在多模式训练后，NVLM 1.0 在其 LLM 主干上显示出改进的纯文本性能。在模型设计方面，我们对仅解码器的多模态 LLM（例如 LLaVA）和基于交叉注意力的模型（例如 Flamingo）进行了全面比较。基于这两种方法的优点和缺点，我们提出了一种新颖的架构，可以提高训练效率和多模态推理能力。此外，我们还为基于图块的动态高分辨率图像引入了一维图块标记设计，这显着提高了多模态推理和 OCR 相关任务的性能。关于训练数据，我们精心策划并提供有关多模式预训练和监督微调数据集的详细信息。我们的研究结果表明，即使在所有架构的预训练阶段，数据集质量和任务多样性也比规模更重要。值得注意的是，我们为 NVLM-1.0 模型开发了生产级多模态，使它们能够在视觉语言任务中表现出色，同时与 LLM 主干相比，保持甚至提高纯文本性能。为了实现这一目标，我们精心制作了高质量的纯文本数据集，并将其与大量多模态数学和推理数据一起集成到多模态训练中，从而增强了跨模态的数学和编码能力。为了推进该领域的研究，我们正在发布模型权重，并将为社区开源代码：https://nvlm-project.github.io/。

LLM-Agent-UMF：基于LLM的代理统一建模框架，用于无缝集成多个主动/被动核心代理

分类： 软件工程, 人工智能, 密码学和安全, 多代理系统

作者： Amine B. Hassouna, Hana Chaari, Ines Belhaj

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11393v1

摘要： 基于LLM的代理中的工具集成克服了独立LLM和传统代理能力有限的困难。然而，这些技术的结合以及几个最先进作品中提出的增强功能遵循非统一的软件架构，导致缺乏模块化。事实上，他们主要关注功能而忽略了代理内组件边界的定义。这导致了研究人员之间术语和架构上的歧义，我们在本文中通过提出一个统一的框架来解决这一问题，该框架从功能和软件架构的角度为基于 LLM 的代理开发奠定了明确的基础。我们的框架 LLM-Agent-UMF（基于 LLM 的代理统一建模框架）清楚地区分了代理的不同组件，将 LLM 和工具与新引入的元素分开：核心代理，扮演代理的角色代理的中央协调器，由五个模块组成：规划、记忆、配置文件、行动和安全，后者在以前的工作中经常被忽视。核心主体内部结构的差异使我们将它们分为被动型和主动型的分类。在此基础上，我们结合各种个体代理的独特特征，提出了不同的多核代理架构。出于评估目的，我们将此框架应用于精选的最先进代理，从而证明其与其功能的一致性并澄清了被忽视的架构方面。此外，我们通过将独特的代理集成到混合主动/被动核心代理系统中，彻底评估了我们提出的四种架构。该分析提供了对潜在改进的清晰见解，并强调了特定药物组合所涉及的挑战。

多样化和征服：以多样性为中心的数据选择与迭代细化

分类： 计算和语言, 人工智能

作者： Simon Yu, Liangyu Chen, Sara Ahmadian, Marzieh Fadaee

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11378v1

摘要： 在指令数据上微调大型语言模型对于增强预训练知识和提高指令跟踪能力至关重要。随着教学数据集的激增，选择最佳数据进行有效训练变得越来越重要。这项工作解决了这样的问题：我们如何确定有效训练的最佳数据子集？虽然现有的研究经常强调子集选择的实例质量等局部标准，但我们认为专注于数据多样性的全局方法更为重要。我们的方法采用 k 均值聚类来确保所选子集有效地代表完整数据集。我们提出了一种受主动学习技术启发的迭代细化方法，用于从集群中重新采样实例，重新评估每个集群的重要性并在每次训练迭代中采样权重。这种方法减少了异常值的影响，并自动过滤掉包含低质量数据的集群。通过对自然语言推理、一般世界知识、代码和数学推理任务的广泛评估，并通过对不同系列的模型进行微调，我们观察到了一致的改进，比随机选择提高了 7%，比状态提高了 3.8% - 最先进的采样方法。我们的工作强调了在微调大语言模型以提高广泛评估任务的绩效时多样性优先抽样的重要性。我们的代码可在 https://github.com/for-ai/iterative-data-selection 获取。

Multi-OCT-SelfNet：将自我监督学习与多源数据融合相结合，以增强多类视网膜疾病分类

分类： 计算机视觉和模式识别, 人工智能

作者： Fatema-E- Jannat, Sina Gholami, Jennifer I. Lim, Theodore Leng, Minhaj Nur Alam, Hamed Tabkhi

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11375v1

摘要： 在医疗领域，由于隐私问题，获取大型数据集带来了重大挑战。尽管如此，开发用于视网膜疾病诊断的强大深度学习模型需要大量的训练数据集。在较小的数据集上有效泛化的能力仍然是一个持续的挑战。数据的稀缺对可扩展的医疗人工智能解决方案的实际实施构成了重大障碍。为了解决这个问题，我们结合了广泛的数据源，通过让其更深入地理解多模态数据集的数据表示来提高性能和对新数据的泛化，并开发了一个基于大型语言模型的自监督框架（大语言模型），SwinV2 获得对多模态数据集表示的更深入理解，增强模型推断新数据的能力，以使用光学相干断层扫描 (OCT) 图像检测眼部疾病。我们采用两阶段训练方法，自我监督预训练，并对下游监督分类器进行微调。在使用不同编码器主干的三个数据集上进行的消融研究，没有数据融合，数据可用性设置较低，并且没有自我监督的预训练场景，突出了我们方法的稳健性。我们的研究结果证明了在这些不同条件下的一致性能，与基线模型 ResNet-50 相比，展示了卓越的泛化能力。

CORE-Bench：通过计算再现性代理基准提高已发表研究的可信度

分类： 计算和语言, 人工智能, 多代理系统

作者： Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11363v1

摘要： 人工智能代理有潜力帮助用户完成各种后续任务，包括进行科学研究。为了刺激有用代理的开发，我们需要具有挑战性的基准，但更重要的是，直接对应于现实世界中感兴趣的任务。本文介绍了这样一个基准，旨在衡量人工智能代理在解决科学研究中一个关键但令人惊讶的挑战性方面的准确性：计算再现性。这项任务是科学过程的基础，涉及使用提供的代码和数据重现研究结果。我们推出了 CORE-Bench（计算再现性代理基准），这是一个由 270 项任务组成的基准，基于三个学科（计算机科学、社会科学和医学）的 90 篇科学论文。 CORE-Bench 中的任务由三个难度级别组成，包括纯语言任务和视觉语言任务。我们提供了一个评估系统，以快速且可并行的方式测量代理的准确性，与顺序实施相比，每次运行可以节省数天的评估时间。我们评估了两种基准代理：通用 AutoGPT 和称为 CORE-Agent 的任务特定代理。我们使用两种底层语言模型测试了这两种变体：GPT-4o 和 GPT-4o-mini。最好的智能体在最困难的任务上达到了 21% 的准确率，显示出在自动化日常科学任务方面还有巨大的改进空间。拥有能够重现现有工作的智能体是构建能够进行新颖研究并能够验证和提高其他研究智能体性能的智能体的必要步骤。我们希望 CORE-Bench 能够提高可重复性状态并刺激未来研究代理的发展。

人工智能建议使写作趋向西方风格并减少文化差异

分类： 人机交互, 人工智能

作者： Dhruv Agarwal, Mor Naaman, Aditya Vashistha

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11360v1

摘要： 大型语言模型 (LLM) 越来越多地集成到日常产品和服务中，例如编码工具和写作助手。随着这些嵌入式人工智能应用程序在全球范围内部署，人们越来越担心这些应用程序背后的人工智能模型优先考虑西方价值观。本文研究了当以西方为中心的人工智能模型向来自不同文化背景的用户提供写作建议时会发生什么。我们对来自印度和美国的 118 名参与者进行了一项跨文化对照实验，他们在有或没有人工智能建议的情况下完成了基于文化的写作任务。我们的分析表明，与印度人相比，人工智能为美国人带来了更大的效率提升。此外，人工智能的建议引导印度参与者采用西方的写作风格，不仅改变了书写内容，还改变了书写方式。这些发现表明，以西方为中心的人工智能模型使写作同质化为西方规范，减少了区分文化表达的细微差别。

RenderWorld：具有自监督 3D 标签的世界模型

分类： 计算机视觉和模式识别, 人工智能

作者： Ziyang Yan, Wenzhen Dong, Yihua Shao, Yuhang Lu, Liu Haiyang, Jingwen Liu, Haozhe Wang, Zhe Wang, Yan Wang, Fabio Remondino, Yuexin Ma

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11356v1

摘要： 仅视觉的端到端自动驾驶不仅比激光雷达视觉融合更具成本效益，而且比传统方法更可靠。为了实现经济且强大的纯视觉自动驾驶系统，我们提出了 RenderWorld，这是一种仅视觉的端到端自动驾驶框架，它使用基于自监督高斯的 Img2Occ 模块生成 3D 占用标签，然后通过以下方式对标签进行编码： AM-VAE，并使用世界模型进行预测和规划。 RenderWorld采用Gaussian Splatting来表示3D场景并渲染2D图像，与基于NeRF的方法相比，大大提高了分割精度并减少了GPU内存消耗。通过应用 AM-VAE 分别对空气和非空气进行编码，RenderWorld 实现了更细粒度的场景元素表示，从而在自回归世界模型的 4D 占用预测和运动规划方面实现了最先进的性能。

基于实时机器学习的流式细胞术检测急性髓系白血病系统的临床验证

分类： 组织和器官, 人工智能, 机器学习

作者： Lauren M. Zuromski, Jacob Durtschi, Aimal Aziz, Jeffrey Chumley, Mark Dewey, Paul English, Muir Morrison, Keith Simmon, Blaine Whipple, Brendan O'Fallon, David P. Ng

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11350v1

摘要： 流式细胞术中的机器学习 (ML) 模型有可能降低错误率、提高重现性并提高临床实验室的效率。虽然已经提出了许多用于流式细胞术数据的机器学习模型，但很少有研究描述此类模型的临床部署。在临床实验室中实现机器学习模型的潜在收益不仅需要准确的模型，还需要用于自动推理、错误检测、分析和监控以及结构化数据提取的基础设施。在这里，我们描述了用于检测急性髓系白血病 (AML) 的 ML 模型，以及支持临床实施的基础设施。我们的基础设施利用云的弹性和可扩展性进行模型推理、基于 Kubernetes 的工作流系统（提供模型再现性和资源管理）以及从全文报告中提取结构化诊断的系统。我们还描述了我们的模型监控和可视化平台，这是确保模型持续准确性的基本要素。最后，我们对周转时间的影响进行了部署后分析，并将生产准确性与原始验证统计数据进行了比较。

OmniGen：统一图像生成

分类： 计算机视觉和模式识别, 人工智能

作者： Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11340v1

摘要： 在这项工作中，我们介绍了 OmniGen，一种用于统一图像生成的新扩散模型。与流行的扩散模型（例如稳定扩散）不同，OmniGen 不再需要 ControlNet 或 IP-Adapter 等附加模块来处理不同的控制条件。 OmniGenis 具有以下特点： 1）统一：OmniGen 不仅展示了文本到图像的生成功能，而且本质上支持其他下游任务，例如图像编辑、主题驱动生成和视觉条件生成。此外，OmniGen 可以通过将经典计算机视觉任务转换为图像生成任务来处理它们，例如边缘检测和人体姿势识别。 2）简单性：OmniGen的架构高度简化，无需额外的文本编码器。此外，与现有的扩散模型相比，它更加用户友好，可以通过指令完成复杂的任务，而不需要额外的预处理步骤（例如人体姿势估计），从而显着简化图像生成的工作流程。 3）知识转移：通过以统一格式学习，OmniGen可以有效地跨不同任务转移知识，管理看不见的任务和领域，并展示新颖的能力。我们还探讨了模型的推理能力和思想链机制的潜在应用。这项工作代表了通用图像生成模型的首次尝试，但仍然存在一些未解决的问题。我们将在 https://github.com/VectorSpaceLab/OmniGen 上开源相关资源，以促进该领域的进步。

肥皂：使用 Adam 改进和稳定洗发水

分类： 机器学习, 人工智能

作者： Nikhil Vyas, Depen Morwani, Rosie Zhao, Itai Shapira, David Brandfonbrener, Lucas Janson, Sham Kakade

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11321v1

摘要： 越来越多的证据表明，在深度学习优化任务中，Shampoo（一种高阶预处理方法）比 Adam 更有效。然而，与 Adam 相比，Shampoo 的缺点包括额外的超参数和计算开销，Adam 只更新一阶矩和二阶矩量的运行平均值。这项工作在 Shampoo（以 1/2 幂实现）和 Adafactor（Adam 的内存高效近似）之间建立了正式联系，表明 Shampoo 相当于在 Shampoo 预处理器的特征基础上运行 Adafactor。这种见解导致设计出一种更简单且计算效率更高的算法：$\textbf{S}$hampo$\textbf{O}$，其中 $\textbf{A}$dam 在 $\textbf{P}$reconditioner 的特征基中 (肥皂）。关于提高 Shampoo 的计算效率，最直接的方法是简单地减少计算 Shampoo 的特征分解的频率。不幸的是，正如我们的经验结果所示，这会导致性能下降，并且随着频率的增加而恶化。 SOAP 通过不断更新第二时刻的运行平均值来减轻这种退化，就像 Adam 所做的那样，但是是在当前（缓慢变化的）坐标基础上。此外，由于 SOAP 相当于在旋转空间中运行 Adam，因此与 Adam 相比，它只引入了一个额外的超参数（预处理频率）。我们通过 360m 和 660m 大小的模型对语言模型预训练的 SOAP 进行实证评估。在大批量方案中，与 AdamW 相比，SOAP 将迭代次数减少了 40% 以上，挂钟时间减少了 35% 以上，与 Shampoo 相比，这两个指标均提高了约 20%。 SOAP 的实现可以在 https://github.com/nikhilvyas/SOAP 上找到。

MSDNet：通过 Transformer 引导原型进行少样本语义分割的多尺度解码器

分类： 计算机视觉和模式识别, 人工智能

作者： Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11316v1

摘要： 少镜头语义分割解决了仅用少量带注释的示例来分割查询图像中的对象的挑战。然而，许多先前最先进的方法要么必须丢弃复杂的局部语义特征，要么遭受高计算复杂度的困扰。为了应对这些挑战，我们提出了一种基于 Transformer 架构的新的少样本语义分割框架。我们的方法引入了空间变换器解码器和上下文掩码生成模块，以提高支持图像和查询图像之间的关系理解。此外，我们引入了多尺度解码器，通过以分层方式合并不同分辨率的特征来细化分割掩模。此外，我们的方法集成了中间编码器阶段的全局特征，以提高上下文理解，同时保持轻量级结构以降低复杂性。性能和效率之间的这种平衡使我们的方法能够在 1-shot 和 5-shot 设置中在 $PASCAL-5^i$ 和 $COCO-20^i$ 等基准数据集上实现最先进的结果。值得注意的是，我们的模型仅包含 150 万个参数，在克服现有方法的局限性的同时展现了具有竞争力的性能。 https://github.com/amirrezafateh/MSDNet

TTT-Unet：通过测试时训练层增强 U-Net 以进行生物医学图像分割

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Rong Zhou, Zhengqing Yuan, Zhiling Yan, Weixiang Sun, Kai Zhang, Yiwei Li, Yanfang Ye, Xiang Li, Lifang He, Lichao Sun

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11299v1

EIA：针对通用网络代理的环境注入攻击导致隐私泄露

分类： 密码学和安全, 人工智能, 计算和语言, 机器学习

作者： Zeyi Liao, Lingbo Mo, Chejian Xu, Mintong Kang, Jiawei Zhang, Chaowei Xiao, Yuan Tian, Bo Li, Huan Sun

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11295v1

摘要： 多面手网络代理发展迅速，并展现出非凡的潜力。然而，与这些相关的安全风险是前所未有的，迄今为止几乎尚未被探索过。在这项工作中，我们的目标是通过对对抗环境中通用网络代理的隐私风险进行首次研究来缩小这一差距。首先，我们提出一个威胁模型，讨论对抗目标、约束和攻击场景。特别是，我们考虑两种类型的对抗目标：窃取用户的特定个人身份信息（PII）或窃取整个用户请求。为了实现这些目标，我们提出了一种新颖的攻击方法，称为环境注入攻击（EIA）。这种攻击会注入旨在很好地适应代理运行的不同环境的恶意内容，导致它们执行意外的操作。这项工作专门针对隐私场景实例化了 EIA。它将恶意 Web 元素与有说服力的指令一起插入，误导 Web 代理泄露私人信息，并可以进一步利用 CSS 和 JavaScript 功能来保持隐秘性。我们从 Mind2Web 数据集中收集了涉及现实网站上不同 PII 类别的 177 个操作步骤，并使用迄今为止最强大的通用 Web 代理框架之一 SeeAct 进行了广泛的实验。结果表明，EIA 在窃取用户特定 PII 方面实现了高达 70% 的 ASR。窃取完整的用户请求更具挑战性，但 EIA 的宽松版本仍然可以实现 16% 的 ASR。尽管有这些令人担忧的结果，但值得注意的是，通过仔细的人工检查仍然可以检测到攻击，这凸显了高度自治和安全性之间的权衡。这导致我们详细讨论了 EIA 在不同级别的人类监督下的功效以及对通用网络代理防御的影响。

导航流程挖掘：使用 pm4py 的案例研究

分类： 人工智能

作者： Ali Jlidi, László Kovács

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11294v1

摘要： 流程挖掘技术已成为分析事件数据以深入了解业务流程的强大工具。在本文中，我们使用 Python 中的 pm4py 库对道路交通精细管理流程进行了全面分析。我们首先导入事件日志数据集并探索其特征，包括活动和流程变体的分布。通过过滤和统计分析，我们发现流程执行中的关键模式和变化。随后，我们应用各种流程挖掘算法，包括 Alpha Miner、Induction Miner 和 Heuristic Miner，从事件日志数据中发现流程模型。我们将发现的模型可视化，以了解流程中的工作流程结构和依赖关系。此外，我们还讨论了每种挖掘方法在捕获底层过程动态方面的优势和局限性。我们的研究结果揭示了道路交通精细管理流程的效率和有效性，为流程优化和决策提供了宝贵的见解。这项研究展示了 pm4py 在促进流程挖掘任务方面的实用性及其分析现实业务流程的潜力。

用于车辆路径问题的神经网络

分类： 人工智能

作者： László Kovács, Ali Jlidi

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11290v1

摘要： 车辆路线问题是关于优化车辆路线以满足特定地点的客户的需求。路线图由多个级别的仓库和客户位置组成。多年来已经开发了几种优化方法，其中大多数基于某种类型的经典启发式：遗传算法、模拟退火、禁忌搜索、蚁群优化、萤火虫算法。机器学习的最新发展提供了一个新的工具集，即丰富的神经网络家族，用于解决复杂的问题。神经网络的主要应用领域是分类和回归领域。路径优化可以被视为神经网络的新挑战。本文首先分析了神经网络工具的适用性，然后详细介绍了一种新颖的图形神经网络模型。基于测试实验的效率分析表明了所提出的神经网络架构的适用性。

通过基于图的上下文知识三元组建模进行文本生成的零资源幻觉检测

分类： 计算和语言, 人工智能

作者： Xinyue Fang, Zhen Huang, Zhiliang Tian, Minghui Fang, Ziyi Pan, Quntian Fang, Zhihua Wen, Hengyue Pan, Dongsheng Li

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11283v2

摘要： 大语言模型获得了卓越的表现，但却遭受了幻觉的困扰。大多数关于检测幻觉的研究都集中在正确答案简短而具体的问题上，这些问题很容易检查其真实性。具有开放式答案的文本生成的幻觉检测更具挑战性。一些研究人员使用外部知识来检测生成文本中的幻觉，但很难访问特定场景的外部资源。最近关于在没有外部资源的情况下检测长文本中的幻觉的研究对多个采样输出之间进行了一致性比较。为了处理长文本，研究人员将长文本分成多个事实，并单独比较每对事实的一致性。然而，这些方法（1）很难实现多个事实之间的对齐； (2)忽略多个上下文事实之间的依赖关系。在本文中，我们提出了一种用于文本生成的基于图的上下文感知（GCA）幻觉检测，它对齐知识事实并在一致性比较中考虑上下文知识三元组之间的依赖关系。特别是，为了对齐多个事实，我们进行了面向三元组的响应分割来提取多个知识三元组。为了对上下文知识三元组（事实）之间的依赖关系进行建模，我们将上下文三元组构造成图形，并通过 RGCN 的消息传递和聚合来增强三元组的交互。为了避免长文本中知识三元组的遗漏，我们通过重构知识三元组进行基于LLM的反向验证。实验表明，我们的模型增强了幻觉检测并优于所有基线。

机器学习和理论负载——现象学解释

分类： 人工智能, I.2.0

作者： Alberto Termine, Emanuele Ratti, Alessandro Facchini

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11277v1

摘要： 近年来，机器学习（ML）方法在科学研究中的传播引发了关于理论负担的讨论。更具体地说，理论负载问题已重新成为关于 ML 模型 (MLM) 和 ML 建模策略是否以及如何受到使用和实施 ML 的科学领域的领域理论（例如物理、化学、生物学）影响的问题。， ETC）。一方面，一些人认为传统（机器学习之前）和机器学习辅助科学之间没有区别。在这两种情况下，理论在现象分析以及模型构建和使用中都发挥着重要且不可避免的作用。其他人则认为机器学习方法和模型是独立于理论的，在某些情况下甚至是与理论无关的。在本文中，我们认为这两种立场都过于简单化，并且没有增进我们对机器学习方法和领域理论之间相互作用的理解。具体来说，我们对机器学习辅助科学中的理论负载进行了分析。我们的分析表明，虽然 MLM 的构建可以相对独立于领域理论，但这些模型在给定特定领域内的实际实现和解释仍然依赖于基本理论假设和背景知识。

语音翻译中语言扩展的任务算法

分类： 计算和语言, 人工智能

作者： Yao-Fei Cheng, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, Wen Shen Teo, Siddhant Arora, Shinji Watanabe

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11274v1

摘要： 大语言模型 (LLM) 的最新进展引起了人们对语音文本多模态基础模型的兴趣，在基于指令的语音翻译 (ST) 方面取得了出色的性能。然而，由于需要结合新数据集和以前的数据集进行重新训练，因此从现有的指令调整 ST 系统扩展语言对成本高昂。我们建议通过使用任务算术合并在新语言对上训练的模型和现有模型来扩展新的语言对。我们发现直接应用任务算法进行ST会导致合并模型无法遵循指令；因此，生成不正确语言的翻译。为了消除语言混乱，我们提出了一种合并附加语言控制模型的增强任务算术方法。它经过训练，可以按照说明生成正确的目标语言标记。我们的实验表明，我们提出的语言控制模型可以通过消除语言混乱来实现语言扩展。在我们的 MuST-C 和 CoVoST-2 实验中，BLEU 分数分别提高了 4.66 和 4.92。此外，我们还证明了我们的任务算术框架的使用可以扩展到既不可用配对 ST 训练数据也不可用预训练 ST 模型的语言对。我们首先通过任务类比从机器翻译（MT）系统合成ST系统，然后将合成的ST系统合并到现有的ST模型中。

LOLA——开源的大规模多语言大语言模型

分类： 计算和语言, 人工智能, 机器学习

作者： Nikit Srivastava, Denis Kuchelev, Tatiana Moteu, Kshitij Shetty, Michael Röder, Diego Moussallem, Hamada Zahera, Axel-Cyrille Ngonga Ngomo

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11272v2

摘要： 本文提出了 LOLA，这是一种使用稀疏的 Mixture-of-Experts Transformer 架构对 160 多种语言进行训练的大规模多语言大型语言模型。我们的架构和实施选择解决了利用语言多样性的挑战，同时保持效率并避免多语言的常见陷阱。我们对评估结果的分析显示了在自然语言生成和理解任务中的竞争表现。此外，我们还演示了学习的专家路由机制如何利用隐式系统发育语言模式来潜在地减轻多语言的诅咒。我们深入研究训练过程、分析数据集，并对模型的优点和局限性进行平衡探索。作为一种开源模型，LOLA 提高了可重复性，并为未来的研究奠定了坚实的基础。我们的研究结果使得计算高效的多语言模型的开发成为可能，并且跨语言具有强大的、可扩展的性能。

将强化学习和模型预测控制与微电网应用相集成

分类： 系统与控制, 人工智能, 机器学习, 系统与控制

作者： Caio Fabio Oliveira da Silva, Azita Dabiri, Bart De Schutter

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11267v1

摘要： 这项工作提出了一种集成强化学习和模型预测控制（MPC）的方法，以有效解决混合逻辑动力系统中的有限范围最优控制问题。对具有离散和连续决策变量的此类系统进行基于优化的控制需要在线求解混合整数二次或线性程序，而这会受到维数灾难的影响。我们的方法旨在通过有效地解耦离散变量的决策和连续变量的决策来缓解这个问题。此外，为了减轻由于预测范围而导致的可能动作数量的组合增长，我们构思了解耦 Q 函数的定义，以使学习问题更容易处理。使用强化学习将MPC控制器的在线优化问题从混合整数线性（二次）程序减少为线性（二次）程序，大大减少了计算时间。基于真实世界数据的微电网仿真实验表明，该方法显着减少了MPC方法的在线计算时间，并且生成的策略具有较小的最优性差距和较高的可行性。

家庭之声：用于声音事件检测的去除语音的住宅音频数据集

分类： 声音, 人工智能, 音频和语音处理

作者： Gabriel Bibbó, Thomas Deacon, Arshdeep Singh, Mark D. Plumbley

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11262v1

摘要： 本文提出了一个住宅音频数据集，以支持智能家居应用的声音事件检测研究，旨在促进老年人的福祉。该数据集是通过在 8 位年龄在 55-80 岁的参与者的家中部署为期 7 天的录音系统来构建的。通过详细的平面图和建筑材料信息记录声学特性，以便复制用于 AI 模型部署的录音环境。开发了一种新颖的自动语音删除管道，使用预先训练的音频神经网络来检测和删除包含口语语音的片段，同时保留包含其他声音事件的片段。生成的数据集由符合隐私要求的录音组成，可准确捕捉住宅空间内的声景和日常生活活动。该论文详细介绍了数据集创建方法、利用级联模型架构的语音去除管道，以及对声音标签分布的分析以验证语音去除过程。该数据集支持专门为家庭应用量身定制的声音事件检测模型的开发和基准测试。

通过侧通道强化学习攻击切片网络

分类： 密码学和安全, 人工智能

作者： Wei Shao, Chandra Thapa, Rayne Holland, Sarah Ali Siddiqui, Seyit Camtepe

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11258v1

摘要： 5G 和未来 6G 网络中的网络切片将支持在共享物理基础设施上创建多个虚拟化网络。这种创新方法能够提供定制网络来适应特定的业务类型或行业用户，从而提供更加定制和高效的服务。然而，网络切片中的共享内存和缓存引入了尚未完全解决的安全漏洞。在本文中，我们介绍了一种专门为网络切片环境设计的基于强化学习的侧通道缓存攻击框架。与传统的缓存攻击方法不同，我们的框架利用强化学习来动态识别和利用存储敏感信息（例如身份验证密钥和用户注册数据）的缓存位置。我们假设一个切片网络受到损害，并演示攻击者如何诱导另一个共享切片发送注册请求，从而估计关键数据的缓存位置。通过将缓存定时通道攻击制定为攻击切片和受害者切片之间的强化学习驱动的猜测游戏，我们的模型有效地探索了可能的操作，以查明包含敏感信息的内存块。实验结果展示了我们的方法的优越性，在准确识别敏感数据的存储位置方面实现了约 95% 至 98% 的成功率。这种高准确度凸显了共享网络切片环境中的潜在风险，并强调需要采取强有力的安全措施来防范此类高级侧通道攻击。

快速分析 OpenAI O1-Preview 模型解决随机 K-SAT 问题：LLM 自己解决问题还是调用外部 SAT 求解器？

分类： 计算和语言, 无序系统和神经网络, 人工智能

作者： Raffaele Marino

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11232v1

摘要： 在这篇手稿中，我对 OpenAI O1-preview 模型在解决随机 K-SAT 实例方面的性能进行了分析，其中 K$\in {2,3,4}$ 作为 $\alpha=M/N$ 的函数，其中 $ M$ 是子句的数量，$N$ 是可满足问题的变量的数量。我证明该模型可以调用外部 SAT 求解器来求解实例，而不是直接求解它们。尽管使用外部求解器，该模型仍将错误的分配报告为输出。此外，我提出并提出了一项分析，以量化 OpenAI O1 预览模型在输出布尔可满足性问题的分配时是否表现出智能火花或仅进行随机猜测。

学习神经音频编解码器中的源解缠结

分类： 声音, 人工智能, 机器学习, 音频和语音处理

作者： Xiaoyu Bie, Xubo Liu, Gaël Richard

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11228v1

摘要： 神经音频编解码器通过有效地将连续音频信号转换为离散令牌，显着改进了音频压缩。这些编解码器保留了高质量的声音，并通过在这些令牌上训练的生成模型来实现复杂的声音生成。然而，现有的神经编解码器模型通常是在大型、无差异的音频数据集上进行训练，忽略了语音、音乐和环境声音效果等声音领域之间的本质差异。这种疏忽使数据建模变得复杂，并对声音产生的可控性提出了额外的挑战。为了解决这些问题，我们引入了源分离神经音频编解码器（SD-Codec），这是一种结合了音频编码和源分离的新颖方法。通过联合学习音频再合成和分离，SD-Codec 明确地将来自不同域的音频信号分配给不同的码本（离散表示集）。实验结果表明，SD-Codec 不仅保持了有竞争力的再合成质量，而且在分离结果的支持下，证明了潜在空间中不同源的成功解开，从而增强了音频编解码器的可解释性，并为音频生成过程提供了潜在的更精细的控制。

SDP：具有可学习的通道方式膜阈值的机器人操作的尖峰扩散策略

分类： 机器人技术, 人工智能

作者： Zhixing Hou, Maoxu Gao, Hang Yu, Mengyu Yang, Chio-In Ieong

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11195v1

摘要： 本文介绍了一种用于机器人操作的尖峰扩散策略（SDP）学习方法，通过将尖峰神经元和可学习通道薄膜阈值（LCMT）集成到扩散策略模型中，从而提高计算效率并在评估任务中实现高性能。具体来说，所提出的 SDP 模型采用 U-Net 架构作为尖峰神经网络 (SNN) 内扩散学习的骨干。它战略性地在尖峰卷积运算和泄漏积分与激发 (LIF) 节点之间放置剩余连接，从而防止尖峰状态中断。此外，我们引入了时间编码块和时间解码块，以时间步 $T_S$ 相互转换静态和动态数据，从而能够以尖峰格式在 SNN 内传输数据。此外，我们提出 LCMT 能够自适应采集膜电位阈值，从而匹配不同通道的膜电位和放电速率的条件，避免手动设置和调整超参数的繁琐过程。使用 SNN 时间步长 $T_S=4$ 评估七个不同任务的 SDP 模型，我们获得了与 ANN 对应模型相当的结果，并且收敛速度比基线 SNN 方法更快。这一改进伴随着 45 纳米硬件上估计的动态能耗降低了 94.3%。

迈向合乎道德的个人人工智能应用：具有长期记忆的人工智能助手的实际考虑

分类： 计算机与社会, 人工智能, 人机交互

作者： Eunhae Lee

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11192v1

摘要： 个人人工智能伴侣和助手是长期记忆 (LTM) 功能日益增长的应用领域之一。个人人工智能伴侣和助手能够保留过去的交互并结合其背景，并适应用户的偏好，有望彻底改变我们与人工智能交互的方式，并有望成为个人和专业环境中不可或缺的一部分。然而，这一进步带来了新的挑战和漏洞，需要仔细考虑这些系统的部署和广泛使用。本文的目标是探索使用整体评估方法构建和部署具有 LTM 功能的个人 AI 应用程序的更广泛影响。这将通过三种方式完成：1）审查大型语言模型中 LTM 的技术基础，2）调查当前的个人人工智能伴侣和助手，3）分析部署和使用这些应用程序的关键考虑因素和影响。

SuperCoder2.0：探索大语言模型作为自主程序员可行性的技术报告

分类： 软件工程, 人工智能

作者： Anmol Gautam, Kishore Kumar, Adarsh Jha, Mukunda NS, Ishaan Bhola

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11190v1

摘要： 我们推出 SuperCoder2.0，这是一种先进的自主系统，旨在通过人工智能增强软件开发。该系统将人工智能原生开发方法与智能代理相结合，以实现完全自主编码。关键重点领域包括具有错误输出回溯的重试机制、使用抽象语法树 (ast) 解析进行全面的代码重写和替换以最大程度地减少 linting 问题、用于检索增强生成的代码嵌入技术，以及注重解决问题的本地化方法而不是识别特定的行号。该方法采用三步分层搜索空间缩减方法进行代码库导航和错误定位：利用检索增强生成（RAG）和存储库文件级映射来识别候选文件，（2）使用文件级示意图，以及 (3) 提取这些文件中的“相关位置”。代码编辑是通过由 CodeGeneration 和 CodeEditing 组成的两部分模块执行的，该模块在不同温度值下生成多个解决方案，并替换整个方法或类以保持代码完整性。反馈循环执行存储库级测试用例来验证和完善解决方案。在 SWE-bench Lite 数据集上进行的实验证明了 SuperCoder2.0 的有效性，在前 5 名候选者中的 84.33% 的情况下实现了正确的文件本地化，并成功解决了 34% 的测试实例。这一性能使 SuperCoder2.0 在 SWE 基准排行榜上排名全球第四。该系统处理不同存储库和问题类型的能力凸显了其作为自主软件开发多功能工具的潜力。未来的工作将集中于完善代码编辑过程并探索先进的嵌入模型以改进自然语言到代码的映射。

通过自监督图转换器识别大脑网络中有影响力的节点

分类： 神经元和认知, 人工智能

作者： Yanqing Kang, Di Zhu, Haiyang Zhang, Enze Shi, Sigang Yu, Jinru Wu, Xuhui Wang, Xuan Liu, Geng Chen, Xi Jiang, Tuo Zhang, Shu Zhang

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11174v1

摘要： 研究脑网络中的影响节点（I节点）在脑成像领域具有重要意义。大多数现有研究将大脑连接中心视为 I 节点。然而，这种方法严重依赖于图论的先验知识，这可能会忽视大脑网络的内在特征，特别是当其架构尚未完全理解时。相比之下，自监督深度学习可以直接从数据中学习有意义的表示。这种方法能够探索大脑网络的 I 节点，这也是当前研究中所缺乏的。本文提出了一种基于图变换器（SSGR-GT）的自监督图重建框架来识别I节点，该框架具有三个主要特征。首先，作为一个自监督模型，SSGR-GT提取了脑节点对重建的重要性。其次，SSGR-GT 使用 Graph-Transformer，它非常适合从脑图中提取特征，结合局部和全局特征。第三，I节点的多模态分析使用基于图的融合技术，结合功能性和结构性大脑信息。我们获得的 I 节点分布在上额叶、外侧顶叶和外侧枕叶等关键区域，在不同的实验中总共识别出 56 个 I 节点。这些 I 节点比其他区域涉及更多的大脑网络，具有更长的纤维连接，并且在结构连接中占据更中心的位置。它们还在功能和结构网络中表现出强大的连接性和高节点效率。此外，I 节点与结构和功能丰富俱乐部之间存在显着重叠。这些发现增强了我们对大脑网络内 I 节点的理解，并为未来进一步了解大脑工作机制的研究提供了新的见解。

提高视觉增强语言模型的效率

分类： 计算和语言, 人工智能

作者： Paula Ontalvilla, Aitor Ormazabal, Gorka Azkune

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11148v1

摘要： 尽管自回归语言模型 (LM) 的性能令人印象深刻，但事实证明，由于报告偏差，LM 缺乏视觉知识，即它们对视觉世界及其属性了解不多。为了用视觉知识增强 LM，现有的解决方案通常依赖于显式图像，需要耗时的检索或图像生成系统。本文表明，视觉增强 LM 并不需要显式图像。相反，我们使用从著名的 CLIP 多模态系统获得的基于视觉的文本表示。为了公平比较，我们修改了 VALM（一种使用图像检索和表示的视觉增强型 LM），以直接处理基于视觉的文本表示。我们将这个新模型命名为 BLIND-VALM。我们表明，BLIND-VALM 在视觉语言理解 (VLU)、自然语言理解 (NLU) 和语言建模任务方面的性能与 VALM 相当，尽管它的效率更高、更简单。我们还表明，在 VALM 的计算预算内扩展我们的模型，无论是增加模型还是预训练语料库大小，我们在所有评估任务上都优于 VALM。

使用潜在扩散模型进行高分辨率语音恢复

分类： 声音, 人工智能, 机器学习, 音频和语音处理

作者： Tushar Dhyani, Florian Lux, Michele Mancusi, Giorgio Fabbro, Fritz Hohl, Ngoc Thang Vu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11145v1

摘要： 传统的语音增强方法通常通过关注单一类型的失真来过度简化恢复任务。处理多种失真的生成模型经常难以应对电话重建和高频谐波，导致呼吸和喘息伪影，从而降低重建语音的清晰度。这些模型对计算的要求也很高，并且许多解决方案仅限于在宽带频率范围内产生输出，这限制了它们对专业应用的适用性。为了应对这些挑战，我们提出了 Hi-ResLDM，这是一种基于潜在扩散的新颖生成模型，旨在消除多重失真并将语音录音恢复到录音室质量，以 48kHz 采样。我们将 Hi-ResLDM 与利用 GAN 和条件流匹配 (CFM) 组件的最先进方法进行基准测试，展示了在重新生成高频带细节方面的卓越性能。 Hi-ResLDM 不仅在非侵入性指标方面表现出色，而且在人类评估方面也一直受到青睐，并且在侵入性评估方面表现出竞争力，使其成为高分辨率语音恢复的理想选择。

使用完全辛映射学习广义哈密顿量

分类： 机器学习, 人工智能

作者： Harsh Choudhary, Chandan Gupta, Vyacheslav kungrutsev, Melvin Leok, Georgios Korpas

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11138v1

摘要： 许多重要的物理系统都可以描述为哈密顿系统的演化，哈密顿系统具有保守的重要性质，即在整个演化过程中能量守恒。物理信息神经网络，特别是哈密顿神经网络已经作为一种将结构归纳偏差纳入神经网络模型的机制而出现。通过确保保持物理不变性，该模型比标准神经网络表现出明显更好的样本复杂性和分布外精度。因此，从系统的样本观测中学习哈密顿量作为其典型变量（通常是位置和速度）的函数，成为系统识别和系统行为长期预测的一项关键任务。然而，为了真正保持哈密顿系统的长期物理守恒性质，必须使用辛积分器来进行系统模拟的前向传播。虽然辛方案已在文献中使用，但迄今为止它们仅限于简化为显式算法的情况，其中包括可分离哈密顿量或增强不可分离哈密顿量的情况。我们将其扩展到广义不可分哈密顿量，并注意到辛积分器的自伴性质，我们通过 ODE 求解器绕过了计算密集型反向传播。我们证明该方法对噪声具有鲁棒性，并且当从噪声观测中采样状态变量时，可以提供系统哈密顿量的良好近似。在数值结果中，我们展示了该方法有关哈密顿重构和守恒的性能，表明其对于不可分离系统的特殊优势。

使用蒸馏辅助可学习方法的无梯度事后可解释性

分类： 人工智能, 计算机视觉和模式识别, 机器学习, 图像和视频处理

作者： Debarpan Bhattacharya, Amir H. Poorjam, Deepak Mittal, Sriram Ganapathy

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11123v1

摘要： 人工智能 (AI) 的最新进展，随着多个仅具有查询访问权限的大型模型的发布，为以事后无梯度方式解释深度模型提供了强有力的理由。在本文中，我们提出了一个名为蒸馏辅助可解释性（DAX）的框架，该框架试图在与模型无关的无梯度应用程序中生成基于显着性的解释。 DAX 方法在具有掩码生成网络和蒸馏网络的可学习设置中提出了解释问题。掩模生成网络学习生成乘法器掩模，以找到输入的显着区域，而学生蒸馏网络旨在近似黑盒模型的局部行为。我们提出使用局部扰动的输入样本对 DAX 框架中的两个网络进行联合优化，目标来自对黑盒模型的输入输出访问。我们在分类设置中跨不同模式（图像和音频）广泛评估 DAX，使用一组不同的评估（与地面实况的交集、基于删除和基于主观人类评估的测量），并将其与 9 美元的不同基准进行基准测试。方法。在这些评估中，DAX 在所有模式和评估指标上都显着优于现有方法。

用于分布外意图检测的基于多样性的信道原型学习

分类： 计算和语言, 人工智能

作者： Bo Liu, Liming Zhan, Yujie Feng, Zexin Lu, Chengqiang Xie, Lei Xue, Xiao-Ming Wu, Albert Y. S. Lam

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11114v1

摘要： 在面向任务的对话系统领域，强大的意图检测机制必须有效处理现实场景中遇到的畸形话语。本研究提出了一种针对大型语言模型 (LLM) 的新颖微调框架，旨在增强分布内 (ID) 意图分类和分布外 (OOD) 意图检测，该框架利用与从 ID 类名称派生的原型进行语义匹配。通过利用 LLM 的高度可区分的表示，我们使用基于多样性的提示调整方法为每个 ID 类构建语义原型。我们在具有挑战性的 OOD 环境中严格测试我们的框架，其中 ID 和 OOD 类在语义上接近但又不同，称为 \emph{near} OOD 检测。为了进行彻底的评估，我们将我们的方法与流行的微调方法进行基准测试。实验结果表明，我们的方法在少样本 ID 意图分类和近 OOD 意图检测任务中表现出了卓越的性能。

MonoKAN：经过认证的单调柯尔莫哥洛夫-阿诺德网络

分类： 机器学习, 人工智能, 神经和进化计算, 68T07, 68T05, 41A15

作者： Alejandro Polo-Molina, David Alfaya, Jose Portela

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11078v1

摘要： 人工神经网络 (ANN) 通过有效识别模式和解决复杂问题，显着推进了各个领域的发展。尽管取得了这些进步，它们的可解释性仍然是一个严峻的挑战，特别是在透明度和问责制至关重要的应用程序中。为了解决这个问题，可解释的人工智能（XAI）在揭开人工神经网络的神秘面纱方面取得了进展，但仅凭可解释性往往是不够的。在某些应用中，模型预测必须符合专家提出的要求，有时以部分单调性约束为例。虽然在传统多层感知器（MLP）的文献中发现了单调方法，但它们在实现可解释性和经过认证的部分单调性方面仍然面临困难。最近，基于参数化为样条的可学习激活函数的柯尔莫哥洛夫-阿诺德网络 (KAN) 架构被提议作为 MLP 的更可解释的替代方案。在此基础上，我们引入了一种名为 MonoKAN 的新型 ANN 架构，它基于 KAN 架构，在增强可解释性的同时实现了经过认证的部分单调性。为了实现这一目标，我们采用三次 Hermite 样条，它通过一组简单的条件保证单调性。此外，通过在这些样条的线性组合中使用正权重，我们确保网络保持输入和输出之间的单调关系。我们的实验表明，MonoKAN 不仅增强了可解释性，而且还提高了大多数基准的预测性能，优于最先进的单调 MLP 方法。

RoMath：罗马尼亚语数学推理基准

分类： 计算和语言, 人工智能

作者： Adrian Cosma, Ana-Maria Bucur, Emilian Radoi

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11074v1

摘要： 数学长期以来一直通过自然语言来表达，主要是为了人类的理解。随着机械化数学和证明助手的兴起，理解非正式数学文本的需求日益增长，但大多数现有基准仅关注英语，而忽视其他语言。本文介绍了RoMath，一个罗马尼亚数学推理基准套件，包含三个数据集：RoMath-Baccalaureate、RoMath-Competitions 和 RoMath-Synthetic，涵盖了一系列数学领域和难度级别，旨在改进非英语语言模型并促进多语言人工智能发展。通过关注罗马尼亚语这种具有独特语言特征的低资源语言，RoMath 解决了以英语为中心的模型的局限性，并强调除了简单的自动翻译之外还需要专用资源。我们对几种开放权重语言模型进行了基准测试，强调了为代表性不足的语言创建资源的重要性。我们提供代码和数据集。

使用 Parquet 数据集格式和回归算法的混合精度训练来改善机器学习碳足迹

分类： 机器学习, 人工智能

作者： Andrew Antonopoulos

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11071v1

摘要： 这项研究是我的硕士学位论文的第二部分，比较了使用逗号分隔值 (CSV) 和 parquet 数据集格式与默认浮点（32 位）和 Nvidia 混合精度（16 位和 32 位）的功耗，同时训练回归 ML 模型。构建与第一部分相同的定制 PC（专用于分类测试和分析）来执行实验，并选择不同的 ML 超参数（例如批量大小、神经元和历元）来构建深度神经网络网络（DNN）。使用 DNN 默认超参数值的基准测试作为参考，而实验则使用不同设置的组合。结果记录在Excel中，并选择描述性统计来计算组间平均值并使用图表和表格进行比较。当使用混合精度与特定超参数相结合时，结果是积极的。与基准测试相比，优化回归模型将功耗降低了 7 至 11 瓦。回归结果表明，虽然混合精度有助于改善功耗，但我们必须仔细考虑超参数。大量的批量大小和神经元会对功耗产生负面影响。然而，这项研究需要推论统计，特别是方差分析和 T 检验，来比较平均值之间的关系。结果显示回归测试的平均值与接受的 H0 之间没有统计显着性。因此，选择不同的 ML 技术和 Parquet 数据集格式不会改善计算功耗和整体 ML 碳足迹。然而，使用 GPU 集群进行更广泛的实施可以显着增加样本大小，因为它是一个重要因素，并且可以改变统计分析的结果。

量化指令调整大型语言模型的综合评估：高达 405B 的实验分析

分类： 计算和语言, 人工智能

作者： Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11055v1

摘要： 先前的研究工作使用有限的指标（例如困惑度或一些基本知识任务和旧数据集）评估了量化的大语言模型。此外，最近的大型模型（例如高达 405B 的 Llama 3.1）尚未经过彻底检查。本文评估了指令调整的 LLM 在 7B 到 405B 模型上跨各种量化方法（GPTQ、AWQ、SmoothQuant 和 FP8）的性能。我们使用 13 个基准来评估六种任务类型的表现：常识问答、知识和语言理解、指令遵循、幻觉检测、数学和对话。我们的主要发现表明，(1) 将较大的 LLM 量化为与较小的 FP16 LLM 相似的大小，通常在大多数基准测试中表现更好，除了幻觉检测和指令遵循之外； (2) 不同的量化方法、模型大小和位宽，性能差异很大，仅权重方法通常在较大的模型中产生更好的结果； (3) 任务难度不会显着影响量化导致的精度下降； (4) MT-Bench评估方法对近期表现出色的大语言模型的歧视能力有限。

针对未对齐的二元分类器的逻辑警报

分类： 机器学习, 人工智能, 62G99 (Primary), 14Q99 (Secondary), I.2.3

作者： Andrés Corrada-Emmanuel, Ilya Parker, Ramesh Bharadwaj

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11052v1

摘要： 如果两个特工的决定不一致，我们可能会怀疑他们都不是正确的。这种直觉被形式化用于评估已执行二元分类任务的代理。他们在联合测试中的同意和分歧使我们能够建立与他们的回答在逻辑上一致的唯一团体评估。这是通过建立一组公理（代数关系）来完成的，所有二元响应器的评估都必须普遍遵守这些公理。对于大小为 N 的每个整体来说，一套完整的此类公理是可能的。 $N = 1, 2$ 的公理用于构造一个完全逻辑警报 - 可以仅使用未标记的数据证明至少一个整体成员发生故障的警报。讨论了这种方法与正式软件验证的相似之处及其在最近的安全保障人工智能议程中的实用性。

D2Vformer：一种基于时间位置嵌入的灵活时间序列预测模型

分类： 机器学习, 人工智能

作者： Xiaobao Song, Hao Wang, Liwei Deng, Yuxin He, Wenming Cao, Chi-Sing Leungc

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11024v1

摘要： 时间位置嵌入捕获时间步的位置信息，通常作为辅助输入来增强时间序列模型的预测能力。然而，现有模型在捕获复杂的时间位置信息和有效利用这些嵌入方面表现出局限性。为了解决这些限制，本文提出了一种称为 D2Vformer 的新颖模型。与依赖 RNN 或 Transformer 的典型预测方法不同，该方法可以直接处理预测序列与输入序列不相邻或其长度动态变化的场景。与传统方法相比，D2Vformer无疑节省了大量的训练资源。在 D2Vformer 中，Date2Vec 模块使用时间戳信息和特征序列来生成时间位置嵌入。随后，D2Vformer 引入了一个新的融合块，该融合块利用注意力机制来探索输入序列和预测序列的嵌入之间时间位置的相似性，从而基于这种相似性生成预测。通过对六个数据集的大量实验，我们证明了 Date2Vec 优于其他时间位置嵌入方法，并且 D2Vformer 在固定长度和可变长度预测任务中都超越了最先进的方法。

GEIC：具有大型语言模型的通用多语言命名实体识别

分类： 计算和语言, 人工智能

作者： Hanjun Luo, Yingbin Jin, Xuecheng Liu, Tong Shang, Ruizhe Chen, Zuozhu Liu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11022v2

摘要： 大型语言模型 (LLM) 已在许多自然语言处理任务中取代了传统方法。尽管如此，在命名实体识别（NER）中，现有的基于 LLM 的方法与基线相比表现不佳，并且需要更多的计算资源，限制了它们的应用。在本文中，我们介绍了基于生成的提取和上下文分类（GEIC）的任务，旨在利用大语言模型的先验知识和自注意力机制来完成 NER 任务。然后，我们提出了 CascadeNER，这是一种通用的多语言 GEIC 框架，用于少样本和零样本 NER。 CascadeNER采用模型级联的方式，利用两个小参数LLM独立进行提取和分类，减少资源消耗，同时提高准确性。我们还介绍了 AnythingNER，这是第一个专为大语言模型设计的 NER 数据集，包括 8 种语言、155 种实体类型和新颖的动态分类系统。实验表明，CascadeNER 在低资源和细粒度场景上实现了最先进的性能，包括 CrossNER 和 FewNERD。我们的工作是公开的。

使用 3D 扩散模型的合成数据生成增强患者 CT 扫描中股骨骨转移的分割

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Emile Saillard, Aurélie Levillain, David Mitton, Jean-Baptiste Pialat, Cyrille Confavreux, Hélène Follet, Thomas Grenier

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11011v1

摘要： 目的：骨转移对患者的生活质量有重大影响，并且骨转移的大小和位置各异，使其分割复杂。手动分割非常耗时，而且专家分割会受到操作员可变性的影响，这使得在 CT 扫描上获得准确且可重复的骨转移分割成为一项具有挑战性但又重要的任务。材料和方法：深度学习方法可以有效地处理分割任务，但需要大量数据集以及专家手动分割来概括新图像。我们提出了一种使用 3D 去噪扩散概率模型 (DDPM) 的自动化数据合成流程，以增强对患者 CT 扫描体积中股骨转移的分割。我们使用 29 个现有病变以及 26 个健康股骨来创建新的逼真的合成转移图像，并训练 DDPM 以提高模拟体积的多样性和真实性。我们还研究了手动分割的操作员变异性。结果：我们创建了 5675 个新卷，然后在真实数据和合成数据上训练 3D U-Net 分割模型以比较分割性能，并根据训练中使用的合成数据量评估模型的性能。结论：我们的结果表明，使用合成数据训练的分割模型优于仅在真实体积上训练的分割模型，并且在考虑操作员可变性时这些模型表现特别好。

具有屏蔽音频标记建模和语义知识蒸馏的单阶段 TTS

分类： 声音, 人工智能, 音频和语音处理, 信号处理

作者： Gerard I. Gállego, Roy Fejgin, Chunghsin Yeh, Xiaoyu Liu, Gautam Bhattacharya

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11003v1

摘要： 音频标记建模已成为语音合成的强大框架，采用语义标记的两阶段方法仍然很流行。在本文中，我们的目标是通过引入语义知识蒸馏方法来简化这一过程，该方法可以在单个阶段生成高质量的语音。与单阶段基线相比，我们提出的模型提高了语音质量、清晰度和说话者相似度。尽管两级系统在清晰度方面仍然领先，但我们的模型在提供可比较的语音质量的同时显着缩小了差距。这些发现展示了单阶段模型通过更紧凑和简化的架构实现高效、高质量 TTS 的潜力。

增强音频语言模型的低资源语言和指令跟随能力

分类： 计算和语言, 人工智能, 声音, 音频和语音处理

作者： Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong, Kasima Tharnpipitchai, Kunat Pipatanakul

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10999v1

摘要： 音频语言模型可以理解音频输入并根据指令执行一系列与音频相关的任务，例如语音识别和音频字幕，其中指令通常是文本提示。音频语言模型主要是从预先训练的音频编码器和大型语言模型（LLM）初始化的。尽管这些预先训练的组件是为了支持多种语言而开发的，但音频语言模型主要是根据英语数据进行训练的，这可能会限制它们的可用性，仅用于英语指令或英语语音输入。首先，本文以泰语为例，研究了现有音频语言模型在服务不足的语言中的性能。本文表明，尽管音频语言模型建立在多语言主干之上，但它并未表现出对低资源语言的跨语言涌现能力。其次，本文研究了用于开发针对目标语言和英语优化的音频语言模型的数据混合。此外。本文将音频理解和语音指令跟踪功能集成到一个统一的模型中。我们的实验提供了对数据混合的见解，以增强低资源语言和英语的指令跟踪能力。我们的模型 Typhoon-Audio 大大优于现有的开源音频语言模型，并且在英语和泰语方面可与最先进的 Gemini-1.5-Pro 相媲美。

少即是多：高效多模式大语言模型的简单而有效的令牌减少方法

分类： 计算和语言, 人工智能, 多媒体

作者： Dingjie Song, Wenjun Wang, Shunian Chen, Xidong Wang, Michael Guan, Benyou Wang

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10994v1

摘要： 多模态大语言模型（MLLM）的快速发展在各个领域取得了显着的性能。然而，这一进步伴随着这些模型的资源消耗的大幅激增。我们通过引入一种新方法来解决这一紧迫问题，即使用 CLIP Metric (TRIM) 进行代币减少，旨在提高 MLLM 的效率而不牺牲其性能。受视觉问答（VQA）任务中人类注意力模式的启发，TRIM 提出了关于图像标记的选择和缩减的全新视角。 TRIM 方法已在 12 个数据集上进行了广泛测试，结果表明计算开销显着减少，同时保持了一致的性能水平。这项研究标志着高效 MLLM 开发的关键一步，促进高性能模型的更容易获得和可持续性。

GOSt-MT：机器翻译中与职业相关的性别偏见的知识图

分类： 计算和语言, 人工智能

作者： Orfeas Menis Mastromichalakis, Giorgos Filandrianos, Eva Tsouparopoulou, Dimitris Parsanoglou, Maria Symeonaki, Giorgos Stamou

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10989v1

摘要： 机器翻译 (MT) 系统中的性别偏见带来了重大挑战，往往会导致有害的刻板印象的强化。特别是在劳动领域，职业经常与特定性别不准确地联系起来，这种偏见使传统的性别陈规定型观念长期存在，对社会产生重大影响。解决这些问题对于确保机器翻译系统的公平和准确至关重要。本文介绍了一种通过创建 GOSt-MT（机器翻译性别和职业统计）知识图来研究与职业相关的性别偏见的新方法。 GOSt-MT 集成了来自现实世界劳动力数据和 MT 培训中使用的文本语料库的全面性别统计数据。该知识图可以对英语、法语和希腊语中的性别偏见进行详细分析，有助于识别持续存在的刻板印象和需要干预的领域。通过提供一个结构化框架来了解劳动力市场和机器翻译系统中职业如何性别化，GOSt-MT 致力于使机器翻译系统更加公平并减少自动翻译中的性别偏见。

对业务流程模型的控制流重构攻击

分类： 数据库, 人工智能, 软件工程

作者： Henrik Kirchmann, Stephan A. Fahrenkrog-Petersen, Felix Mannhardt, Matthias Weidlich

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10986v1

摘要： 流程模型可以从包含业务流程的原样数据的事件日志自动生成。虽然此类模型概括了特定的、记录的流程执行的控制流，但它们通常还用行为统计数据进行注释，例如执行频率。基于此，一旦发布模型，就可以重建有关原始流程执行的某些见解，以便外部方可以提取有关业务流程的机密信息。这项工作是第一个基于过程模型对此类重建尝试进行实证研究的工作。为此，我们提出了不同的播放策略，从进程树重建控制流，并可能利用频率注释。为了评估这种对流程模型的重建攻击的潜在成功率，以及发布它们所带来的风险，我们将重建的流程执行与几个真实世界数据集的原始日志的执行进行比较。

基于能量的抗体优化和增强筛选的主动学习

分类： 生物分子, 人工智能, 机器学习, 定量方法

作者： Kairi Furui, Masahito Ohue

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10964v2

摘要： 蛋白质-蛋白质结合亲和力的准确预测和优化对于治疗性抗体的开发至关重要。虽然基于机器学习的预测方法$\Delta\Delta G$适合大规模突变体筛选，但它们很难在没有现有结合物的情况下预测多个突变对靶标的影响。基于能量函数的方法虽然更准确，但耗时且不适合大规模筛选。为了解决这个问题，我们提出了一种主动学习工作流程，可以有效地训练深度学习模型来学习特定目标的能量函数，结合了两种方法的优点。我们的方法将 RDE-Network 深度学习模型与 Rosetta 基于能量函数的 Flex ddG 相结合，以有效地探索突变体。在针对 HER2 结合曲妥珠单抗突变体的案例研究中，我们的方法显着提高了随机选择的筛选性能，并证明了无需实验 $\Delta\Delta G$ 数据即可识别具有更好结合特性的突变体的能力。该工作流程通过结合机器学习、基于物理的计算和主动学习来推进计算抗体设计，以实现更高效的抗体开发。

多功能增量学习：迈向与类别和领域无关的增量学习

分类： 计算机视觉和模式识别, 人工智能

作者： Min-Yeong Park, Jae-Ho Lee, Gyeong-Moon Park

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10956v1

摘要： 增量学习（IL）旨在从顺序输入任务中积累知识，同时克服灾难性遗忘。现有的 IL 方法通常假设传入任务仅具有类或域的增量，分别称为类 IL (CIL) 或域 IL (DIL)。在这项工作中，我们考虑了一个更具挑战性和现实性但尚未充分探索的 IL 场景，称为多功能增量学习 (VIL)，其中模型不知道哪些类或域将在下一个任务中增加。在提出的VIL场景中，模型面临类内域混淆和域间类混淆，这使得模型无法在不干扰已学知识的情况下积累新知识。为了解决这些问题，我们提出了一个简单而有效的 IL 框架，名为带有适应移位控制的增量分类器（ICON）。基于可学习模块的移位，我们设计了一种称为基于聚类的适应移位控制（CAST）的新颖正则化方法来控制模型，以避免与先前学习的知识混淆，从而更有效地积累新知识。此外，我们引入了增量分类器（IC），它扩展其输出节点以解决与单个类相对应的不同域的覆盖问题，同时保持先前的知识。我们对三个基准进行了广泛的实验，展示了我们的方法在所有场景中的有效性，特别是在下一个任务可以随机改变的情况下。我们的实现代码可在 https://github.com/KHU-AGI/VIL 获取。

研究大型语言模型中的上下文忠实度：记忆强度和证据风格的作用

分类： 计算和语言, 人工智能

作者： Yuepei Li, Kang Zhou, Qiao Qiao, Bach Nguyen, Qing Wang, Qi Li

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10955v1

摘要： 检索增强生成 (RAG) 通过将外部信息纳入响应生成过程来改进大型语言模型 (LLM)。然而，大语言模型的背景忠实度如何以及哪些因素影响大语言模型的背景忠实度在很大程度上仍未得到探索。在这项研究中，我们调查了记忆强度和证据呈现对大语言模型对外部证据接受度的影响。我们引入了一种通过测量大语言模型对同一问题的不同释义的回答的差异来量化大语言模型的记忆强度的方法，这是以前的工作没有考虑到的。我们还生成各种风格的证据来评估不同风格的证据的效果。使用两个数据集进行评估：包含热门问题的 Natural Questions (NQ) 和包含长尾问题的 popQA。我们的结果表明，对于记忆强度较高的问题，大语言模型更有可能依赖内部记忆，特别是对于 GPT-4 等较大的大语言模型。另一方面，与简单的重复或添加细节相比，提供转述的证据显着提高了大语言模型的接受度。

Contrasformer：用于神经退行性疾病识别的大脑网络对比变压器

分类： 机器学习, 人工智能, 神经元和认知

作者： Jiaxing Xu, Kai He, Mengcheng Lan, Qingtian Bian, Wei Li, Tieying Li, Yiping Ke, Miao Qiao

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10944v1

摘要： 了解神经系统疾病是神经科学的一个基本问题，这通常需要对源自功能磁共振成像 (fMRI) 数据的大脑网络进行分析。尽管图神经网络（GNN）和图转换器在各个领域都很流行，但将它们应用于大脑网络仍面临挑战。具体来说，数据集受到子群体之间分布变化和节点身份忽视引起的噪音的严重影响，两者都阻碍了疾病特定模式的识别。为了应对这些挑战，我们提出了 Contrasformer，一种新颖的对比大脑网络 Transformer。它生成一个先验知识增强的对比图，通过双流注意力机制来解决子群体之间的分布变化。带有身份嵌入的交叉注意力突出了节点的身份，三个辅助损失确保了组的一致性。在针对 4 种不同疾病的 4 个功能性脑网络数据集进行评估后，Contrasformer 的准确度提高了 10.8%，优于最先进的脑网络方法，这证明了其在神经系统疾病识别方面的功效。案例研究说明了其可解释性，特别是在神经科学的背景下。本文提供了一种分析大脑网络的解决方案，为神经系统疾病提供了有价值的见解。我们的代码可在 \url{https://github.com/AngusMonroe/Contrasformer} 获取。

使用混合量子机器学习方法早期检测冠心病

分类： 机器学习, 人工智能

作者： Mehroush Banday, Sherin Zafar, Parul Agarwal, M Afshar Alam, Abubeker K M

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10932v1

摘要： 冠心病（CHD）是一种严重的心脏病，因此早期诊断至关重要，因为它可以提高治疗效果并节省医疗费用。量子计算和机器学习（ML）技术的盛行发展可能会给冠心病诊断的性能带来实际的改善。量子机器学习 (QML) 因其更高的性能和功能而受到各个学科的极大关注。医疗保健行业的巨大飞跃将提高处理能力并优化多种模型。 QML 技术具有预测心脏病并有助于早期检测的潜力。为了预测冠心病的风险，本文提出了一种利用基于 QML 分类器的集成机器学习模型的混合方法。我们的方法具有处理多维医疗数据的独特能力，通过在多步骤推理框架中融合量子和经典机器学习算法，保证了该方法的稳健性。心脏病和死亡率的显着上升影响着全世界的人类健康和全球经济。降低心脏病发病率和死亡率需要及早发现心脏病。在这项研究中，混合方法利用具有量子计算能力的技术来解决传统机器学习算法无法解决的复杂问题，并最大限度地减少计算费用。所提出的方法已在 Raspberry Pi 5 图形处理单元 (GPU) 平台上开发，并在广泛的数据集上进行了测试，该数据集集成了来自 CHD 患者和健康对照的临床和成像数据。与经典机器学习模型相比，所提出的用于 CHD 的混合 QML 模型的准确性、灵敏度、F1 分数和特异性要高得多。

KALE：一种通过异构图增强的艺术品图像字幕系统

分类： 计算机视觉和模式识别, 人工智能

作者： Yanbei Jiang, Krista A. Ehinger, Jey Han Lau

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10921v1

摘要： 探索美术绘画所传达的叙事是图像字幕中的一个挑战，其目标是生成不仅能够精确表示视觉内容，而且能够深入解释艺术品含义的描述。对于艺术品图像来说，这项任务尤其复杂，因为不同的艺术流派和风格对它们的解释和审美原则各不相同。针对这一点，我们提出了用于艺术作品精化的 KALE 知识增强视觉语言模型，这是一种通过将艺术作品元数据集成为附加知识来增强现有视觉语言模型的新颖方法。 KALE 以两种方式整合元数据：首先作为直接文本输入，其次通过多模式异构知识图。为了优化图表示的学习，我们引入了一种新的跨模式对齐损失，可以最大化图像与其相应元数据之间的相似性。实验结果表明，与跨多个艺术作品数据集的现有最先进作品相比，KALE 取得了强劲的性能（特别是在使用 CIDEr 进行评估时）。该项目的源代码可在 https://github.com/Yanbei-Jiang/Artwork-Interpretation 获取。

GenCRF：增强型意图驱动信息检索的生成聚类和重构框架

分类： 信息检索, 人工智能, 计算和语言

作者： Wonduk Seo, Haojie Zhang, Yueyang Zhang, Changhao Zhang, Songyao Duan, Lixin Su, Daiting Shi, Jiashu Zhao, Dawei Yin

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10909v1

摘要： 查询重构是信息检索（IR）中的一个众所周知的问题，旨在通过自动修改用户的输入查询来提高单个搜索的成功完成率。最近的方法利用大型语言模型（LLM）来改进查询重构，但通常会产生有限和冗余的扩展，可能会限制它们捕获不同意图的有效性。在本文中，我们提出了 GenCRF：一种生成聚类和重构框架，首次在检索阶段基于多个差异化、生成良好的查询自适应地捕获不同的意图。 GenCRF 利用 LLM 使用自定义提示从初始查询生成变量查询，然后将它们聚类成组以清楚地表示不同的意图。此外，该框架探索将不同的意图查询与创新的加权聚合策略相结合，以优化检索性能，并关键地集成了一种新颖的查询评估奖励模型（QERM），以通过反馈循环完善流程。 BEIR 基准的实证实验表明，GenCRF 实现了最先进的性能，在 nDCG@10 上比之前的查询重构 SOTA 提高了 12%。这些技术可以适用于各种大语言模型，显着提高检索器的性能并推进信息检索领域的发展。

WaterQualityNeT：使用混合深度学习模型预测尼泊尔季节性水质

分类： 机器学习, 人工智能

作者： Biplov Paneru, Bishwash Paneru

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10898v1

摘要： 确保安全和未受污染的供水取决于对水质的监测，特别是在尼泊尔等水源易受污染的发展中国家。本文提出了一种混合深度学习模型，用于使用具有许多水质参数的小型数据集来预测尼泊尔的季节性水质。该模型集成了卷积神经网络 (CNN) 和递归神经网络 (RNN)，以利用数据中的时间和空间模式。结果表明，与传统方法相比，预测准确性显着提高，为主动控制水质提供了可靠的工具。使用 WQI 参数将人们分为好组、差组和一般组的模型在测试中的执行率为 92%。同样，使用回归分析预测 WQI 值时，R2 得分为 0.97，均方根误差为 2.87。此外，还构建了一个同时使用回归和分类方法的多功能应用程序来预测 WQI 值。

摇晃假货：通过有源探针实时检测 Deepfake 视频

分类： 计算机视觉和模式识别, 人工智能, 密码学和安全

作者： Zhixin Xie, Jun Luo

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10889v1

摘要： 实时深度换脸是一种生成式人工智能，能够在视频中“创建”不存在的内容（例如，将一个人的脸与另一个人交换脸）。非常不幸的是，它被滥用来制作深度伪造视频（在网络会议、视频通话和身份验证期间）用于恶意目的，包括金融诈骗和政治错误信息。 Deepfake检测作为针对deepfake的对策，引起了学术界的广泛关注，但现有的工作通常依赖于学习被动特征，这些特征可能在可见的数据集之外表现不佳。在本文中，我们提出了 SFake，一种新的实时 Deepfake 检测方法，创新性地利用了 Deepfake 模型无法适应物理干扰的能力。具体来说，SFake 主动发送探针来触发智能手机上的机械振动，从而实现镜头的可控功能。因此，SFake 根据面部区域与探测模式的一致性来确定面部是否被 Deepfake 交换。我们实现了 SFake，在自建数据集上评估其有效性，并将其与其他六种检测方法进行比较。结果表明，SFake 优于其他检测方法，具有更高的检测精度、更快的处理速度和更低的内存消耗。

SIFToM：遵循心理理论的强有力的口头指导

分类： 机器人技术, 人工智能, 人机交互, 多代理系统

作者： Lance Ying, Jason Xinyu Liu, Shivam Aarya, Yizirui Fang, Stefanie Tellex, Joshua B. Tenenbaum, Tianmin Shu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10849v1

摘要： 口头语言指令在代理协作中无处不在。然而，在人机协作中，人类语音的识别准确性往往受到各种语音和环境因素的影响，例如背景噪声、说话者的口音和发音错误。当面对嘈杂或陌生的听觉输入时，人类利用上下文和先验知识来消除刺激的歧义并采取务实的行动，这一过程在认知科学中被称为自上而下的处理。我们提出了一种认知启发模型，即通过心理理论进行语音指令（SIFToM），通过推断人类的目标和联合计划作为语音感知和理解的先验，使机器人能够在不同的语音条件下务实地遵循人类指令。我们在模拟家庭实验 (VirtualHome 2) 中测试 SIFToM。结果表明，SIFToM 模型的性能优于最先进的语音和语言模型，在执行具有挑战性的语音指令任务时接近人类水平的准确性。然后，我们在用于早餐准备任务的移动机械手上展示其任务规划级别的能力。

3DFacePolicy：具有扩散策略的语音驱动 3D 面部动画

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 多媒体, 声音, 音频和语音处理

作者： Xuanmeng Sha, Liyun Zhang, Tomohiro Mashita, Yuki Uranishi

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10848v1

摘要： 音频驱动的 3D 面部动画在研究和应用开发方面都取得了沉浸式进展。最新的方法主要集中在基于Transformer的方法和基于扩散的方法，然而，生成的动画与真实人脸的生动性和情感表达之间仍然存在差距。为了解决这个限制，我们提出了 3DFacePolicy，一种用于 3D 面部动画预测的扩散策略模型。该方法通过使用扩散策略而不是每帧生成面部来预测 3D 面部模板上的 3D 顶点轨迹，从而生成可变且逼真的人类面部运动。它以音频和顶点状态作为观察来预测顶点轨迹并模仿真实的人类面部表情，从而保持人类情感的连续和自然流动。实验表明，我们的方法在可变和动态面部运动合成中是有效的。

PDMX：用于符号音乐处理的大规模公共领域 MusicXML 数据集

分类： 声音, 人工智能, 机器学习, 多媒体, 音频和语音处理

作者： Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick, Julian McAuley

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10831v1

摘要： 最近，生成式人工智能音乐系统的爆炸式增长引起了人们对数据版权、音乐家音乐许可以及开源人工智能与大型知名公司之间冲突的众多担忧。这些问题凸显了对公开可用的、无版权的音乐数据的需求，而这些数据却严重短缺，特别是符号音乐数据。为了缓解这个问题，我们推出了 PDMX：一个从乐谱共享论坛 MuseScore 收集的超过 25 万个公共领域 MusicXML 乐谱的大型开源数据集，使其成为据我们所知最大的可用无版权符号音乐数据集。 PDMX还包含大量标签和用户交互元数据，使我们能够有效地分析数据集并过滤高质量的用户生成的分数。鉴于我们的数据收集过程提供的额外元数据，我们进行多轨音乐生成实验，评估 PDMX 的不同代表性子集如何导致下游模型中的不同行为，以及如何将用户评分统计数据用作数据质量的有效衡量标准。示例可以在 https://pnlong.github.io/PDMX.demo/ 找到。

挑战公平：全面探讨大语言模型推荐中的偏见

分类： 信息检索, 人工智能, 新兴技术, 机器学习

作者： Shahnewaz Karim Sakib, Anindya Bijoy Das

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10825v1

摘要： 基于大语言模型（LLM）的推荐系统通过深入分析内容和用户行为，提供比传统系统更全面的推荐。然而，这些系统经常表现出偏见，偏向主流内容，同时由于训练数据的偏差而边缘化非传统选项。这项研究调查了偏见与基于大语言模型的推荐系统之间的复杂关系，重点关注不同人口和文化群体的音乐、歌曲和书籍推荐。通过对不同的大语言模型模型进行综合分析，本文评估了偏见对推荐结果的影响。我们的研究结果表明，偏见在这些系统中根深蒂固，即使是像即时工程这样更简单的干预措施也可以显着减少偏见，凸显了这个问题的普遍性。此外，交叉身份和社会经济地位等背景信息等因素进一步放大了这些偏见，表明在不同群体之间创建公平建议所面临的挑战的复杂性和深度。

PReLU：异或问题的另一种单层解决方案

分类： 神经和进化计算, 人工智能, 机器学习

作者： Rafael C. Pinto, Anderson R. Tavares

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10821v1

摘要： 本文证明了使用参数修正线性单元（PReLU）激活的单层神经网络可以解决异或问题，这是一个迄今为止被忽视的简单事实。我们将此解决方案与多层感知器 (MLP) 和增长余弦单元 (GCU) 激活函数进行比较，并解释为什么 PReLU 能够实现此功能。我们的结果表明，单层 PReLU 网络可以在更广泛的学习率范围内实现 100% 的成功率，同时仅使用三个可学习参数。

模型告诉自己去哪里：忠诚度与自动注意力引导的结合

分类： 计算和语言, 人工智能

作者： Qingru Zhang, Xiaodong Yu, Chandan Singh, Xiaodong Liu, Liyuan Liu, Jianfeng Gao, Tuo Zhao, Dan Roth, Hao Cheng

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10790v1

摘要： 大型语言模型 (LLM) 在各种现实任务中表现出了卓越的性能。然而，他们常常难以完全理解和有效利用他们的输入上下文，从而导致不忠实或产生幻觉的响应。对于较长或包含分散注意力的信息的上下文，这种难度会增加，这可能会分散大语言模型充分捕获重要证据的注意力。为了解决这个问题，许多作品使用提示来帮助大语言模型更忠实地利用上下文信息。例如，迭代提示分两个步骤突出关键信息，首先要求大语言模型识别重要的上下文，然后得出相应的答案。然而，提示方法仅限于在标记空间中隐式突出显示关键信息，这通常不足以完全引导模型的注意力。为了更可靠地提高模型的可信度，我们提出了 AutoPASTA，一种自动识别关键上下文信息并通过控制大语言模型注意力分数来明确突出显示它的方法。与提示一样，AutoPASTA 在推理时应用，不需要更改任何模型参数。我们在开卷 QA 上的实验表明，AutoPASTA 有效地使模型能够掌握必要的上下文信息，从而显着提高模型的可信度和性能，例如 LLAMA3-70B-Instruct 的平均改进为 7.95%。代码将在 https://github.com/QingruZhang/AutoPASTA 公开提供。

深度学习模型对视觉识别任务中的部分对象遮挡是否具有鲁棒性？

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Kaleb Kassaw, Francesco Luzi, Leslie M. Collins, Jordan M. Malof

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10775v1

摘要： 包括卷积神经网络 (CNN) 在内的图像分类模型在各种分类任务中表现良好，但在部分遮挡的情况下（即物体被相机视图部分覆盖的情况）却表现不佳。提高遮挡下性能的方法，包括数据增强、基于部分的聚类和更强大的架构，包括 Vision Transformer (ViT) 模型，在某种程度上已经对其在部分遮挡下对对象进行分类的能力进行了评估。然而，这些方法的评估在很大程度上依赖于包含人工遮挡的图像，这些图像通常是计算机生成的，因此标记成本低廉。此外，方法很少相互比较，许多方法都是与早期的、现已过时的深度学习模型进行比较。我们基于最近开发的遮挡视频实例分割 (OVIS) 数据集 (arXiv:2102.01558) 贡献了遮挡下图像识别 (IRUO) 数据集。 IRUO 利用真实世界和人工遮挡图像来测试和基准测试领先方法对视觉识别任务中部分遮挡的鲁棒性。此外，我们还使用 IRUO 的图像贡献了一项人体研究的设计和结果，该研究评估了多个遮挡级别和类型的人体分类性能。我们发现，与早期基于 CNN 的模型相比，现代基于 CNN 的模型在遮挡图像上的识别精度有所提高，并且基于 ViT 的模型在遮挡图像上比基于 CNN 的模型更准确，仅比人类准确度稍差。我们还发现，某些类型的遮挡，包括弥漫性遮挡，即通过栅栏和树叶等遮挡物中的“孔”看到相关物体，与人类相比，尤其是那些具有 CNN 主干的模型，会大大降低深度识别模型的准确性。

VulnLLMEval：软件漏洞检测和修补中评估大型语言模型的框架

分类： 软件工程, 人工智能

作者： Arastoo Zibaeirad, Marco Vieira

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10756v1

摘要： 大型语言模型 (LLM) 在代码翻译等任务中表现出了良好的前景，引发了人们对其自动化软件漏洞检测 (SVD) 和修补 (SVP) 潜力的兴趣。为了进一步研究这一领域，建立一个基准对于评估大语言模型在这些任务中的优势和局限性至关重要。尽管大语言模型有能力，但关于大语言模型是否能够准确分析复杂的漏洞并生成适当的补丁的问题仍然存在。本文介绍了 VulnLLMEval，这是一个旨在评估 LLM 在识别和修补 C 代码漏洞方面的性能的框架。我们的研究包括从 Linux 内核中提取的 307 个现实世界漏洞，创建了一个精心策划的数据集，其中包括易受攻击的代码和已修补的代码。该数据集基于真实代码，为评估 SVD 和 SVP 任务中的 LLM 表现提供了多样化且具有代表性的测试平台，为严格评估提供了坚实的基础。我们的结果表明，大语言模型常常难以区分易受攻击的代码和修补过的代码。此外，在 SVP 任务中，这些模型往往会过度简化代码，产生的解决方案可能无法在不进一步细化的情况下直接使用。

AutoSafeCoder：通过静态分析和模糊测试保护 LLM 代码生成的多代理框架

分类： 软件工程, 人工智能

作者： Ana Nunez, Nafis Tanveer Islam, Sumit Kumar Jha, Peyman Najafirad

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10737v1

摘要： 使用大型语言模型 (LLM) 自动代码生成的最新进展使我们更接近完全自动化的安全软件开发。然而，现有的方法通常依赖于单个代理来生成代码，这很难生成安全、无漏洞的代码。传统的大语言模型程序综合主要关注功能的正确性，常常忽略运行时发生的关键动态安全影响。为了应对这些挑战，我们提出了 AutoSafeCoder，这是一个多代理框架，它利用 LLM 驱动的代理通过持续协作进行代码生成、漏洞分析和安全增强。该框架由三个代理组成：负责代码生成的编码代理、识别漏洞的静态分析器代理以及使用基于突变的模糊测试方法执行动态测试以检测运行时错误的模糊测试代理。我们的贡献重点是通过在 LLM 代码生成期间将动态和静态测试集成到迭代过程中来确保多代理代码生成的安全性，从而提高安全性。使用 SecurityEval 数据集的实验表明，与基线 LLM 相比，代码漏洞减少了 13%，且功能没有受到影响。

在线语言处理中预期和响应的广义测量

分类： 计算和语言, 人工智能, 信息论, 信息论

作者： Mario Giulianelli, Andreas Opedal, Ryan Cotterell

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10728v1

摘要： 我们基于对增量语言环境的预期延续的模拟，介绍了在线语言处理中预测不确定性的经典信息论测量的概括。我们的框架提供了预期和响应措施的正式定义，并为实验者提供了定义新的、更具表现力的措施的工具，超越了标准的下一个符号熵和惊喜。虽然从语言模型中提取这些标准量很方便，但我们证明，使用蒙特卡罗模拟来估计替代响应和预期措施在经验上是有回报的：与人类完形填空概率的意外相比，我们的广义公式的新特例表现出增强的预测能力ELAN、LAN 和 N400 振幅，以及在预测读取时间方面具有更大的互补性和令人惊讶的结果。

用于角色精灵生成的缺失数据插补 GAN

分类： 计算机视觉和模式识别, 人工智能, 图形

作者： Flávio Coutinho, Luiz Chaimowicz

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10721v1

摘要： 创建和更新具有跨越不同动画和姿势的许多帧的像素艺术角色精灵需要时间，并且很快就会变得重复。然而，这可以部分自动化，让艺术家能够专注于更具创造性的任务。在这项工作中，我们专注于根据面向其他三个方向的图像创建目标姿势的像素艺术角色精灵。我们通过将问题描述为缺失数据插补任务，提出了一种新颖的角色生成方法。我们提出的生成对抗网络模型接收所有可用域中的角色图像并生成缺失姿势的图像。我们在缺少一张、两张和三张图像的场景中评估了我们的方法，当有更多图像可用时，取得了与现有技术相似或更好的结果。我们还评估了拟议的更改对基础架构的影响。

自注意力限制了基于 Transformer 的模型的工作记忆容量

分类： 计算和语言, 人工智能, 神经元和认知

作者： Dongyu Gong, Hantao Zhang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10715v1

摘要： 最近关于基于 Transformer 的大语言模型 (LLM) 的研究揭示了其工作记忆容量的惊人限制，类似于人类行为研究中发现的情况。具体来说，随着 N 的增加，这些模型在 N 回任务上的性能显着下降。然而，对于为什么会出现这种现象，仍然缺乏机械解释。受行为科学中的执行注意力理论的启发，我们假设基于 Transformer 的模型中的自我注意机制可能是其工作记忆容量限制的原因。为了检验这个假设，我们训练了普通的解码器 Transformer 来执行 N-back 任务，并发现注意力分数在训练过程中逐渐聚集到 N-back 位置，这表明模型通过学习一种策略来关注 N-back 位置来掌握任务。当前位置和N-back位置之间的关系。重要的是，我们发现注意力分数矩阵的总熵随着 N 的增加而增加，这表明注意力分数的分散可能是 N-back 任务中观察到的容量限制的原因。

用于词级口吃语音检测的自监督语音模型

分类： 音频和语音处理, 人工智能, 计算和语言, 声音

作者： Yi-Jen Shih, Zoi Gkalitsiou, Alexandros G. Dimakis, David Harwath

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10704v1

摘要： 口吃的临床诊断需要由有执照的言语病理学家进行评估。然而，这个过程非常耗时，并且需要临床医生接受过口吃和流畅性障碍方面的培训和经验。不幸的是，只有一小部分言语病理学家表示愿意与口吃者一起工作，这不足以适应全世界 8000 万口吃者的情况。开发用于检测口吃言语的机器学习模型将使口吃的普遍和自动化筛查成为可能，使语言病理学家能够识别并跟踪最有可能被诊断为口吃言语障碍的患者。该领域之前的研究主要集中在话语级检测上，这对于以口吃的单词级注释为常态的临床环境来说是不够的。在这项研究中，我们整理了一个带有单词级注释的口吃语音数据集，并引入了利用自监督语音模型的单词级口吃语音检测模型。我们的评估表明，我们的模型在单词级口吃语音检测方面超越了以前的方法。此外，我们对我们的方法进行了广泛的消融分析，深入了解了采用自监督语音模型进行口吃语音检测的最重要方面。

模型在环 (MILO)：利用大语言模型加速多模式 AI 数据注释

分类： 人机交互, 人工智能, 计算和语言, 机器学习

作者： Yifan Wang, David Stevens, Pranay Shah, Wenwen Jiang, Miao Liu, Xu Chen, Robert Kuo, Na Li, Boying Gong, Daniel Lee, Jiabo Hu, Ning Zhang, Bob Kamma

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10702v1

摘要： 对人工智能训练数据不断增长的需求已将数据注释转变为一个全球性行业，但依赖人工注释者的传统方法通常耗时、劳动密集型，并且容易出现质量不一致的情况。我们提出了模型在环（MILO）框架，它将 AI/ML 模型集成到注释过程中。我们的研究引入了一种协作范式，利用了专业人类注释者和大型语言模型 (LLM) 的优势。通过使用大语言模型作为预注释和实时助手，并对注释者的反应进行判断，MILO 实现了人类注释者和大语言模型之间的有效交互模式。关于多模式数据注释的三项实证研究证明了 MILO 在减少处理时间、提高数据质量和增强注释者体验方面的功效。我们还引入了高质量的标准，用于对开放式注释进行灵活的评估和细粒度的反馈。 MILO 框架对于加速 AI/ML 开发、减少对人类注释的依赖以及促进人类和机器价值之间更好的一致性具有重要意义。

Playground v3：利用深度融合大型语言模型改进文本到图像的对齐

分类： 计算机视觉和模式识别, 人工智能, 图形

作者： Bingchen Liu, Ehsan Akhgari, Alexander Visheratin, Aleks Kamko, Linmiao Xu, Shivam Shrirao, Joao Souza, Suhail Doshi, Daiqing Li

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10695v1

摘要： 我们推出了 Playground v3 (PGv3)，这是我们最新的文本到图像模型，它在多个测试基准中实现了最先进的 (SoTA) 性能，在图形设计能力方面表现出色，并引入了新功能。与依赖于 T5 或 CLIP 文本编码器等预训练语言模型的传统文本到图像生成模型不同，我们的方法将大型语言模型 (LLM) 与一种新颖的结构完全集成，该结构专门利用仅解码器的 LLM 中的文本条件。此外，为了提高图像字幕质量，我们开发了一个内部字幕生成器，能够生成不同细节级别的字幕，丰富文本结构的多样性。我们还引入了新的基准 CapsBench 来评估详细的图像字幕性能。实验结果表明，PGv3 在文本提示依从性、复杂推理和准确文本渲染方面表现出色。用户偏好研究表明，我们的模型对于常见的设计应用（例如贴纸、海报和徽标设计）具有超人类的图形设计能力。此外，PGv3 引入了新功能，包括精确的 RGB 颜色控制和强大的多语言理解。

将可重用的多机器人规划策略编码为抽象超图

分类： 机器人技术, 人工智能, 多代理系统

作者： Khen Elimelech, James Motes, Marco Morales, Nancy M. Amato, Moshe Y. Vardi, Lydia E. Kavraki

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10692v1

摘要： 多机器人任务规划（MR-TP）是寻找机器人团队完成任务时应采取的离散行动计划。此类问题的复杂性随着机器人数量和任务复杂性呈指数级增长，这使得它们对在线解决方案具有挑战性。为了在系统的生命周期内加速 MR-TP，这项工作着眼于结合两项最新进展：（i）可分解状态空间超图（DaSH），一种基于超图的新型框架，可有效建模和解决 MR-TP 问题；和 \mbox{(ii) 抽象学习}，一种能够从个人规划经验中自动提取通用规划策略以供以后重用的技术。具体来说，我们希望扩展这种最初为单机器人规划设计的策略学习技术，以使用基于超图的 MR-TP 来有益于多机器人规划。

MotIF：运动指令微调

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Minyoung Hwang, Joey Hejna, Dorsa Sadigh, Yonatan Bisk

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10683v1

摘要： 虽然许多机器人任务的成功只能通过观察最终状态及其与初始状态的差异来确定（例如，如果拿起一个苹果），但许多任务需要观察机器人的完整运动才能正确确定成功。例如，梳理头发需要根据头发的轮廓和类型进行重复的抚摸。之前的工作经常使用现成的视觉语言模型（VLM）作为成功检测器；然而，当成功取决于完整的轨迹时，VLM 很难做出正确的判断，原因有两个。首先，现代 VLM 仅在单帧上进行训练，无法捕获完整轨迹上的变化。其次，即使我们提供具有多个帧聚合输入的最先进的 VLM，由于缺乏机器人数据，它们仍然无法检测到成功。我们的关键想法是使用抽象表示来微调 VLM，这些抽象表示能够捕获轨迹级信息，例如通过在最终图像上叠加关键点轨迹来捕获机器人所采取的路径。我们提出了运动指令微调（MotIF），这是一种使用上述抽象表示来微调 VLM 的方法，以在语义上为机器人在环境中的行为奠定基础。为了对机器人运动理解的 VLM 进行基准测试和微调，我们引入了 MotIF-1K 数据集，其中包含 13 个任务类别的 653 个人类和 369 个机器人演示。 MotIF 根据轨迹的图像观察、任务指令和运动描述来评估机器人运动的成功程度。我们的模型在精确度上明显优于最先进的 VLM 至少两倍，在召回率上显着优于最先进的 VLM 至少两倍，并概括了未见过的运动、任务和环境。最后，我们展示了 MotIF 在改进和终止机器人规划以及根据任务和运动描述如何对齐轨迹进行排序方面的实际应用。项目页面：https://motif-1k.github.io

连续环境中的多智能体路径查找

分类： 多代理系统, 人工智能

作者： Kristýna Janovská, Pavel Surynek

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10680v1

摘要： 我们解决了连续环境中多智能体寻路的变体（CE-MAPF），其中智能体沿着平滑曲线组移动。代理之间的碰撞通过空间域中的回避来解决。这项工作提出了一种新的基于连续环境冲突的搜索（CE-CBS）算法。 CE-CBS 将用于高级搜索框架的基于冲突的搜索 (CBS) 与用于低级路径规划的 RRT* 相结合。 CE-CBS 算法在不同 CE-MAPF 实例的不同设置下进行了测试。实验结果表明，CE-CBS 具有竞争力。到其他考虑 MAPF 中连续方面的算法，例如具有连续时间的 MAPF。

使用深度强化学习消除安全社交导航的不确定性

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Daniel Flögel, Marcos Gómez Villafañe, Joshua Ransiek, Sören Hohmann

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10655v1

摘要： 自主移动机器人越来越多地应用于行人较多的环境中，其中安全导航和适当的人机交互至关重要。虽然深度强化学习 (DRL) 能够实现社会整合的机器人行为，但在新颖或扰动的场景中仍然存在挑战，以表明政策何时以及为何不确定。决策中未知的不确定性可能会导致碰撞或人体不适，这也是安全和风险意识导航仍然是一个悬而未决的问题的原因之一。这项工作引入了一种新颖的方法，它将任意、认知和预测不确定性估计集成到基于 DRL 的导航框架中，以进行决策中的不确定性估计。因此，我们将观察相关方差 (ODV) 和 dropout 合并到近端策略优化 (PPO) 算法中。对于不同类型的扰动，我们比较了深度集成和蒙特卡罗 Dropout (MC-Dropout) 估计策略不确定性的能力。在不确定的决策情况下，我们建议将机器人的社交行为改为保守的避免碰撞。结果表明，ODV-PPO 算法收敛速度更快，泛化能力更好，并消除了任意和认知不确定性。此外，MC-Dropout 方法对扰动更敏感，并且能够更好地将不确定性类型与扰动类型相关联。通过所提出的安全动作选择方案，机器人可以在扰动环境中导航并减少碰撞。

通过因果变压器进行预测性自我监督的逻辑综合优化

分类： 人工智能, 机器学习

作者： Raika Karimi, Faezeh Faez, Yingxue Zhang, Xing Li, Lei Chen, Mingxuan Yuan, Mahdi Biparva

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10653v1

摘要： 现代硬件设计受益于高级逻辑门提供的抽象，简化了逻辑电路的实现。逻辑综合优化 (LSO) 在电子设计自动化 (EDA) 工作流程中的一个抽象级别上运行，目标是在最终布局中的尺寸和速度等性能指标方面改进逻辑电路。该领域的最新趋势表明人们对利用机器学习 (ML) 进行 EDA 越来越感兴趣，特别是通过利用基于策略的强化学习 (RL) 方法进行 ML 引导的逻辑合成。尽管取得了这些进步，但现有模型仍面临过度拟合和有限等挑战。泛化，归因于受限的公共电路和图编码器的表达能力限制。为了解决这些障碍并解决数据稀缺问题，我们引入了 LSOformer，这是一种利用自回归变压器模型和预测 SSL 来预测结果质量 (QoR) 轨迹的新颖方法。 LSOformer 集成了交叉注意力模块，以合并来自电路图和优化序列的见解，从而提高 QoR 指标的预测准确性。实验研究验证了 LSOformer 的有效性，展示了其在 QoR 预测任务中相对于基线架构的卓越性能，在感应设置中，它在 EPFL、OABCD 和专有电路数据集上分别实现了 5.74%、4.35% 和 17.06% 的改进。

探索关键短语选择的微调生成模型：俄语案例研究

分类： 计算和语言, 人工智能, 机器学习, 68T50, I.2.7; I.7.m; H.3.3

作者： Anna Glazkova, Dmitry Morozov

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10640v2

摘要： 关键词选择在学术文本领域发挥着关键作用，有助于高效的信息检索、摘要和索引。在这项工作中，我们探索了如何将基于微调的生成变压器模型应用于俄语科学文本中关键短语选择的特定任务。我们试验了四种不同的生成模型，例如 ruT5、ruGPT、mT5 和 mBART，并评估了它们在域内和跨域设置中的性能。这些实验是对来自四个领域的俄罗斯科学摘要文本进行的：数学和计算机科学、历史、医学和语言学。与俄语的三个关键短语提取基线相比，使用生成模型（即 mBART）带来了领域内性能的提升（BERTScore 高达 4.9%，ROUGE-1 高达 9.0%，F1-score 高达 12.2%）。尽管跨域使用的结果明显较低，但它们仍然在某些情况下表现出了超越基线性能的能力，强调了该研究领域进一步探索和完善的巨大潜力。

柯尔莫哥洛夫-阿诺德变压器

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 神经和进化计算

作者： Xingyi Yang, Xinchao Wang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10594v1

摘要： Transformer 是现代深度学习的基石。传统上，这些模型依赖多层感知器 (MLP) 层来混合通道之间的信息。在本文中，我们介绍了柯尔莫哥洛夫-阿诺德变换器（KAT），这是一种用柯尔莫哥洛夫-阿诺德网络（KAN）层取代 MLP 层的新颖架构，以增强模型的表达能力和性能。然而，将 KAN 集成到 Transformer 中并不是一件容易的事，尤其是在扩大规模时。具体来说，我们确定了三个关键挑战：（C1）基础功能。 KAN 中使用的标准 B 样条函数并未针对现代硬件上的并行计算进行优化，导致推理速度较慢。 (C2) 参数和计算效率低下。 KAN 需要每个输入输出对都有一个独特的函数，这使得计算量非常大。 (C3)权重初始化。 KAN 中权重的初始化特别具有挑战性，因为它们具有可学习的激活函数，这对于实现深度神经网络的收敛至关重要。为了克服上述挑战，我们提出了三个关键解决方案：（S1）理性基础。我们用有理函数替换 B 样条函数，以提高与现代 GPU 的兼容性。通过在 CUDA 中实现这一点，我们实现了更快的计算。 (S2) KAN 组。我们通过一组神经元共享激活权重，以在不牺牲性能的情况下减少计算负载。 (S3) 保持方差的初始化。我们仔细初始化激活权重，以确保跨层保持激活方差。通过这些设计，KAT 可以有效地进行扩展，并轻松超越传统的基于 MLP 的变压器。

CSKV：长上下文场景下 KV 缓存的训练高效通道收缩

分类： 机器学习, 人工智能, 计算和语言

作者： Luning Wang, Shiyao Li, Xuefei Ning, Zhihang Yuan, Shengen Yan, Guohao Dai, Yu Wang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10593v1

摘要： 大型语言模型（LLM）已被广泛采用来处理长上下文任务。然而，键值（KV）缓存的巨大内存开销在长上下文场景中带来了巨大的挑战。现有的免训练KV缓存压缩方法通常侧重于量化和令牌剪枝，这些方法具有压缩限制，并且过度稀疏会导致严重的性能下降。其他方法设计的新架构具有较少的 KV 开销，但需要大量的训练开销。为了解决上述两个缺点，我们进一步探索通道维度的冗余，并应用训练成本较小的架构级设计。因此，我们引入 CSKV，一种用于 KV 缓存压缩的训练高效通道收缩技术：（1）我们首先分析 KV 缓存的奇异值分布，揭示沿通道维度的显着冗余和压缩潜力。基于这一观察，我们建议对键层和值层使用低秩分解并存储低维特征。（2）为了保持模型性能，我们引入了双分支KV缓存，包括基于窗口的全精度KV缓存和低精度压缩KV缓存。 (3) 为了降低训练成本，我们最小化压缩 KV 缓存的逐层重建损失，而不是重新训练整个 LLM。大量实验表明，CSKV 可以在保持模型长上下文能力的同时，将 KV 缓存的内存开销降低 80%。此外，我们表明我们的方法可以与量化无缝结合，进一步减少内存开销，实现高达 95% 的压缩率。

离线强化学习学习调度作业车间调度

分类： 机器学习, 人工智能

作者： Jesse van Remmerden, Zaharah Bukhsh, Yingqian Zhang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10589v1

摘要： 作业车间调度问题（JSSP）是一个复杂的组合优化问题。人们对使用在线强化学习 (RL) 进行 JSSP 越来越感兴趣。虽然在线强化学习可以快速找到可接受的解决方案，尤其是对于较大的问题，但它产生的结果质量低于约束编程 (CP) 等传统方法。在线强化学习的一个显着缺点是它无法从现有数据中学习，例如从 CP 生成的解决方案，需要从头开始训练，导致样本效率低下，无法从更优化的示例中学习。我们引入了用于学习调度的离线强化学习 (Offline-LD)，这是一种解决这些限制的 JSSP 新颖方法。 Offline-LD 针对可屏蔽动作空间采用两种基于 CQL 的 Q 学习方法（mQRDQN 和离散 mSAC），为离散 SAC 引入新的熵奖励修改，并通过预处理利用奖励标准化。我们的实验表明，Offline-LD 在生成实例和基准实例上都优于在线 RL。通过在数据集中引入噪声，我们获得了与从专家数据集中获得的结果相似或更好的结果，这表明更多样化的训练集是更好的选择，因为它包含反事实信息。

抗体开发的对手塑造

分类： 种群与进化, 人工智能, 计算机科学与博弈论, 多代理系统, 92-08, I.2.1; J.3

作者： Sebastian Towers, Aleksandra Kalisz, Alicia Higueruelo, Francesca Vianello, Ming-Han Chloe Tsai, Harrison Steel, Jakob N. Foerster

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10588v1

摘要： 抗病毒疗法通常是针对当前病毒株而设计或进化的。在学习方面，这对应于短视的最佳反应，即不考虑对手可能的自适应动作。然而，治疗引起的选择性压力作用于病毒抗原，导致突变株的出现，而最初的治疗会降低其疗效。为了激励我们的工作，我们考虑的抗体设计不仅针对当前的病毒株，还针对病毒在所述抗体施加的进化压力下可能进化成的各种未来可能的变体。基于抗体和病毒抗原之间结合的计算模型（Absolut！框架），我们设计并实现了病毒进化逃逸的遗传模拟。至关重要的是，这使得我们的抗体优化算法能够考虑并影响病毒的整个逃逸曲线，即引导（或“塑造”）病毒进化。这是受到对手塑造的启发，在一般求和学习中，对手塑造考虑了共同玩家的适应，而不是做出短视的最佳反应。因此，我们将优化的抗体称为塑造者。在我们的模拟中，我们证明我们的整形器针对当前和模拟的未来病毒变体，优于以短视方式选择的抗体。此外，我们还发现，与近视抗体相比，塑造者对病毒施加了特定的进化压力。总而言之，与近视的对应物相比，塑造者改变了病毒株的进化轨迹，并最大限度地减少了病毒的逃逸。虽然这是一个简单的模型，但我们希望我们提出的范例能够通过模拟工具功能的快速进步，在未来发现更好的长寿命疫苗和抗体疗法。

使用 SAR 和光学卫星图像支持科特迪瓦森林砍伐监测的深度学习工具

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Gabriele Sartor, Matteo Salis, Stefano Pinardi, Ozgur Saracik, Rosa Meo

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.11186v1

摘要： 森林砍伐因其对周围环境的强烈影响而变得越来越重要，特别是在人口经济条件较差、农业是主要收入来源的发展中国家。例如，在科特迪瓦，可可生产是最赚钱的活动，协助用新的可可种植园取代部分古老森林的情况并不罕见。为了监测此类有害活动，可以利用卫星来识别森林的消失，以防止其扩大其利益范围。在本研究中，森林-非森林图（FNF）已被用作基于哨兵图像输入的模型的地面实况。对不同年份的最先进模型 U-Net、Attention U-Net、Segnet 和 FCN32 进行比较，结合 Sentinel-1、Sentinel-2 和云概率来创建森林/非森林分割。尽管科特迪瓦缺乏森林覆盖数据集并且部分被哨兵图像覆盖，但它证明了使用开放数据集创建对该地区的森林和非森林像素进行分类的模型来预测可能发生森林砍伐的地方的可行性。尽管森林砍伐研究的很大一部分是在可见光波段进行的，但仍采用 SAR 采集来克服经常被云覆盖的区域的 RGB 图像的限制。最后，采用最有前景的模型来估计 2019 年至 2020 年间砍伐的森林面积。

交互式口语对话系统的高效自学习框架

分类： 音频和语音处理, 人工智能, 计算和语言, 声音

作者： Hitesh Tulsiani, David M. Chan, Shalini Ghosh, Garima Lalwani, Prabhat Pandey, Ankish Bansal, Sri Garimella, Ariya Rastrow, Björn Hoffmeister

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10515v1

摘要： 语音助手等对话系统有望与用户进行复杂、不断发展的对话。不幸的是，此类应用中部署的传统自动语音识别（ASR）系统通常经过训练以独立识别每个回合，并且缺乏适应对话上下文或合并用户反馈的能力。在这项工作中，我们介绍了对话系统中 ASR 的通用框架，该框架不仅可以从单轮话语中学习，而且可以随着时间的推移学习如何适应多轮对话中存在的显式监督和隐式用户反馈。我们通过利用学生-教师学习和情境感知对话处理方面的进步，并使用 Ohm（一种新的在线硬负挖掘方法）设计对比自我监督方法来实现这一目标。我们表明，与传统训练相比，利用我们的新框架可以使现实世界对话系统的相对 WER 减少近 10%，而公共合成数据的相对 WER 减少高达 26%。

MusicLIME：可解释的多模式音乐理解

分类： 声音, 人工智能, 机器学习, 音频和语音处理

作者： Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis, Giorgos Stamou

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10496v1

摘要： 多模态模型对于音乐理解任务至关重要，因为它们捕获音频和歌词之间复杂的相互作用。然而，随着这些模型变得越来越普遍，对可解释性的需求也随之增长——了解这些系统如何做出决策对于确保公平、减少偏见和培养信任至关重要。在本文中，我们介绍了 MusicLIME，一种为多模态音乐模型设计的与模型无关的特征重要性解释方法。传统的单模态方法单独分析每种模态而不考虑它们之间的相互作用，通常会导致不完整或误导性的解释，而与此不同的是，MusicLIME 揭示了音频和歌词特征如何相互作用并有助于预测，从而提供模型决策的整体视图。此外，我们通过将局部解释聚合为全局解释来增强局部解释，为用户提供更广泛的模型行为视角。通过这项工作，我们致力于提高多模态音乐模型的可解释性，使用户能够做出明智的选择，并促进更加公平、公正和透明的音乐理解系统。

Flash STU：快速光谱变换单元

分类： 机器学习, 人工智能

作者： Y. Isabel Liu, Windsor Nguyen, Yagiz Devre, Evan Dogariu, Anirudha Majumdar, Elad Hazan

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10489v2

摘要： 本文描述了频谱变换单元的高效、开源 PyTorch 实现。我们研究多种模式的序列预测任务，包括语言、机器人和模拟动力系统。我们发现，对于相同的参数数量，STU 及其变体在各种模式下都优于 Transformer 以及其他领先的状态空间模型。

预训练的视觉语言模型是否编码对象状态？

分类： 计算机视觉和模式识别, 人工智能

作者： Kaleb Newman, Shijie Wang, Yuan Zang, David Heffren, Chen Sun

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10488v1

摘要： 对于理解物理世界（例如因果关系）的视觉语言模型（VLM）来说，第一步是捕获视觉世界的时间动态，例如对象的物理状态如何随时间演变（例如整个将苹果切成苹果片）。我们的论文旨在研究在网络规模数据上预训练的 VLM 是否能够学习对对象状态进行编码，而对象状态可以通过零样本文本提示来提取。我们策划了一个对象状态识别数据集 ChangeIt-Frames，并评估了九个开源 VLM，包括使用对比和生成目标训练的模型。我们观察到，虽然这些最先进的视觉语言模型可以可靠地执行对象识别，但它们始终无法准确地区分对象的物理状态。通过大量的实验，我们确定了 VLM 需要改进的三个领域，以更好地编码对象状态，即对象本地化的质量、将概念与对象绑定的架构以及学习对象状态上有区别的视觉和语言编码器的目标。数据和代码已发布。

探索用于人脸验证的 3D 人脸重建和融合方法：视频监控案例研究

分类： 计算机视觉和模式识别, 人工智能

作者： Simone Maurizio La Cava, Sara Concas, Ruben Tolosana, Roberto Casula, Giulia Orrù, Martin Drahansky, Julian Fierrez, Gian Luca Marcialis

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10481v1

摘要： 3D 人脸重建 (3DFR) 算法基于针对不同应用场景量身定制的特定假设。当采集条件（例如拍摄对象与摄像机的距离或摄像机的特性）与预期不同时（视频监控中通常会发生这种情况），这些假设限制了它们的使用。此外，3DFR 算法遵循各种策略来解决从 2D 数据重建 3D 形状的问题，例如统计模型拟合、光度立体或深度学习。在本研究中，我们探索了代表 SOTA 的三种 3DFR 算法的应用，并采用每种算法作为人脸验证系统的模板集生成器。每个系统提供的分数通过分数级融合进行组合。我们表明，当在距相机和相机特性（跨距离和跨相机设置）从未见过的距离进行测试时，不同 3DFR 算法引起的互补性可以提高性能，从而鼓励对多种基于 3DFR 的方法进行进一步研究。

MacDiff：具有掩模条件扩散的统一骨架建模

分类： 计算机视觉和模式识别, 人工智能

作者： Lehong Wu, Lilang Lin, Jiahang Zhang, Yiyang Ma, Jiaying Liu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10473v1

摘要： 事实证明，自监督学习对于基于骨架的人类行为理解是有效的。然而，以前的工作要么依赖于遭受假阴性问题的对比学习，要么基于学习太多不必要的低级线索的重建，导致下游任务的表示有限。最近，生成学习取得了巨大进展，这自然是对一般底层数据分布进行建模的一项具有挑战性但有意义的借口任务。然而，生成模型的表示学习能力尚未得到充分探索，特别是对于空间稀疏和时间冗余的骨架。为此，我们提出蒙蔽条件扩散（MacDiff）作为人体骨骼建模的统一框架。我们第一次利用扩散模型作为有效的骨架表示学习器。具体来说，我们根据语义编码器提取的表示来训练扩散解码器。将随机掩码应用于编码器输入以引入信息瓶颈并消除骨架的冗余。此外，我们从理论上证明，我们的生成目标涉及对比学习目标，该目标将屏蔽视图和噪声视图对齐。同时，它还强制表示以补充噪声视图，从而获得更好的泛化性能。 MacDiff 在表征学习基准上实现了最先进的性能，同时保持了生成任务的能力。此外，我们利用扩散模型进行数据增强，显着增强了标记数据稀缺场景中的微调性能。我们的项目位于 https://lehongwu.github.io/ECCV24MacDiff/。

HiFi-CS：使用视觉语言模型实现机器人抓取的开放词汇视觉基础

分类： 机器人技术, 人工智能

作者： Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri, Farshad Khorrami

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10419v1

摘要： 通过自然语言与人类交互的机器人可以解锁许多应用程序，例如参考抓取合成（RGS）。给定文本查询，RGS 确定稳定的抓取姿势以操纵机器人工作空间中的参考对象。 RGS 包括两个步骤：视觉基础和抓取姿势估计。最近的研究利用强大的视觉语言模型（VLM）在现实世界的机器人执行中为自由流动的自然语言提供视觉基础。然而，缺乏在复杂、混乱的环境中与同一对象的多个实例的比较。本文介绍了 HiFi-CS，其特点是分层应用特征线性调制 (FiLM) 来融合图像和文本嵌入，增强机器人抓取中遇到的复杂属性富文本查询的视觉基础。视觉基础将 2D/3D 空间中的对象与自然语言输入相关联，并在两种场景下进行研究：封闭词汇和开放词汇。 HiFi-CS 采用轻量级解码器与冻结 VLM 相结合，在封闭词汇设置中优于竞争基线，同时尺寸缩小 100 倍。我们的模型可以有效地指导诸如 GroundedSAM 之类的开放集目标检测器来增强开放词汇性能。我们使用 7-DOF 机械臂通过现实世界的 RGS 实验验证了我们的方法，在 15 个桌面场景中实现了 90.33% 的视觉接地精度。我们将我们的代码库包含在补充材料中。

用于以硬件效率实现色散补偿的几何聚类

分类： 信号处理, 人工智能

作者： Geraldo Gomes, Pedro Freire, Jaroslaw E. Prilepsky, Sergei K. Turitsyn

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10416v1

摘要： 功率效率仍然是现代光纤通信系统中的一个重大挑战，推动了降低数字信号处理计算复杂性的努力，特别是在色散补偿（CDC）算法中。虽然已经提出了各种降低复杂性的策略，但许多策略缺乏必要的硬件实现来验证其优势。本文对相干接收器的 CDC 滤波器中的抽头重叠效应进行了理论分析，介绍了一种基于此概念的新型时域集群均衡器 (TDCE) 技术，并提出了用于验证的现场可编程门阵列 (FPGA) 实现。我们开发了一种创新的 TDCE 并行化方法，并在硬件中实现了长达 640 公里的光纤长度。还与相同条件下最先进的频域均衡器 (FDE) 进行了公平的比较。我们的研究结果强调，在确定硬件复杂性和能源效率方面，包括并行化和内存管理在内的实施策略与计算复杂性一样重要。尽管计算复杂度较高，但与 FDE 相比，拟议的 TDCE 硬件实现可节省高达 70.7% 的能源和 71.4% 的乘法器使用量。

基于即时学习和 BERT 集成的知识增强疾病诊断方法

分类： 计算和语言, 人工智能

作者： Zhang Zheng

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10403v1

摘要： 本文提出了一种基于即时学习框架的知识增强疾病诊断方法。该方法从与临床病例相关的外部知识图中检索结构化知识，对其进行编码，并将其注入到提示模板中，以增强语言模型对任务的理解和推理能力。我们在三个公共数据集：CHIP-CTC、IMCS上进行了实验-V2-NER 和 KUAKE-QTR。结果表明，所提出的方法在多个评估指标上显着优于现有模型，在 CHIP-CTC 数据集上的 F1 分数提高了 2.4%，在 IMCS-V2-NER 数据集上提高了 3.1%，在 KUAKE-QTR 上提高了 4.2%数据集。此外，消融研究证实了知识注入模块的关键作用，因为删除该模块会导致 F1 分数显着下降。实验结果表明，该方法不仅有效提高了疾病诊断的准确性，而且增强了预测的可解释性，为临床诊断提供更可靠的支持和证据。

MOST：MR 重建通过持续学习优化多个下游任务

分类： 图像和视频处理, 人工智能

作者： Hwihun Jeong, Se Young Chun, Jongho Lee

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10394v1

摘要： 基于深度学习的磁共振（MR）重建方法专注于生成高质量图像，但它们经常忽视对利用重建图像的下游任务（例如分割）的影响。级联单独训练的重建网络和下游任务网络已被证明会由于错误传播和训练数据集之间的域间隙而导致性能下降。为了缓解这个问题，针对单个下游任务提出了面向下游任务的重建优化。将这种优化扩展到多任务场景并不简单。在这项工作中，我们将这种优化扩展到顺序引入多个下游任务，并证明可以通过部署持续学习（MOST）来针对多个下游任务优化单个 MR 重建网络。基于重放的持续学习和图像引导损失的大多数综合技术，以克服灾难性遗忘。对比实验表明，MOST 的性能优于无微调的重建网络、具有朴素微调的重建网络以及传统的持续学习方法。这一进步使得单个 MR 重建网络能够应用于多个下游任务。源代码可在：https://github.com/SNU-LIST/MOST

使用自适应信息调制促进大语言模型代理人之间的合作

分类： 人工智能, 计算和语言, 计算机与社会, 计算机科学与博弈论

作者： Qiliang Chen, Alireza, Ilami, Nunzio Lore, Babak Heydari

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10372v1

摘要： 本文介绍了一种新颖的框架，将 LLM 代理作为人类战略行为的代理与强化学习 (RL) 相结合，使这些代理参与团队环境中不断发展的战略交互。我们的方法通过使用战略 LLM 代理 (SLA) 扩展了传统的基于代理的模拟，并通过亲社会促进 RL 代理 (PPA) 引入动态和自适应治理，该代理调节网络中代理之间的信息访问，优化社会福利并促进亲社会社会行为。通过迭代博弈（包括囚徒困境）的验证，我们证明 SLA 代理表现出微妙的战略适应能力。 PPA 代理有效地学习调整信息透明度，从而提高合作率。该框架提供了对人工智能介导的社会动态的重要见解，有助于在现实团队环境中部署人工智能。

具有反事实对比学习的鲁棒图像表示

分类： 计算机视觉和模式识别, 人工智能

作者： Mélanie Roschewitz, Fabio De Sousa Ribeiro, Tian Xia, Galvin Khara, Ben Glocker

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10365v1

摘要： 对比预训练可以显着提高模型泛化能力和下游性能。然而，学习到的表示的质量很大程度上取决于用于生成正对的数据增强策略。正对比对应保留语义意义，同时丢弃与数据采集领域相关的不需要的变化。传统的对比管道试图通过预定义的通用图像变换来模拟域转移。然而，这些并不总是模仿医学成像的现实和相关领域变化，例如扫描仪差异。为了解决这个问题，我们在此引入反事实对比学习，这是一种新颖的框架，利用因果图像合成的最新进展来创建忠实捕捉相关领域变化的对比正对。我们的方法针对两个既定的对比目标（SimCLR 和 DINO-v2），在包含胸部 X 线摄影和乳房 X 线摄影数据的五个数据集上进行了评估，在采集偏移的鲁棒性方面优于标准对比学习。值得注意的是，反事实对比学习在分布内和外部数据集上都实现了卓越的下游性能，特别是对于使用训练集中代表性不足的扫描仪获取的图像。进一步的实验表明，所提出的框架超越了习得转变，通过反事实对比学习训练的模型大大提高了跨生物性别的亚组表现。

Point2Graph：用于机器人导航的基于点云的端到端 3D 开放词汇场景图

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Yifan Xu, Ziming Luo, Qianwei Wang, Vineet Kamat, Carol Menassa

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10350v1

摘要： 当前的开放词汇场景图生成算法高度依赖 3D 场景点云数据和姿势 RGB-D 图像，因此在 RGB-D 图像或相机姿势不易获得的场景中应用有限。为了解决这个问题，我们提出了 Point2Graph，一种新颖的基于点云的端到端 3D 开放词汇场景图生成框架，其中消除了对 RGB-D 图像系列的要求。该分层框架包含房间和对象检测/分割以及开放词汇分类。对于房间层，我们利用基于几何的边界检测算法与基于学习的区域检测相结合的优势来分割房间，并创建用于开放词汇房间分类的“Snap-Lookup”框架。此外，我们还为对象层创建了一个端到端管道，以仅基于 3D 点云数据来检测和分类 3D 对象。我们的评估结果表明，我们的框架在广泛使用的真实场景数据集上优于当前最先进的（SOTA）开放词汇对象和房间分割和分类算法。

大语言模型增强去噪推荐的硬样本识别

分类： 信息检索, 人工智能

作者： Tianrui Song, Wenshuo Chao, Hao Liu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10343v1

摘要： 通常用于构建推荐系统的隐式反馈不可避免地会遇到由于误点击和位置偏差等因素而产生的噪音。先前的研究试图通过根据差异模式（例如较高的损失值）识别噪声样本，并通过样本丢弃或重新加权来减轻噪声，从而缓解这一问题。尽管取得了进展，我们观察到现有的方法很难区分硬样本和噪声样本，因为它们经常表现出相似的模式，从而限制了它们在去噪建议方面的有效性。为了应对这一挑战，我们提出了一种大型语言模型增强型硬样本去噪（LLMHD）框架。具体来说，我们构建了一个基于 LLM 的评分器来评估项目与用户偏好的语义一致性，这是根据总结的历史用户交互进行量化的。所得分数用于评估样本的逐点或成对训练目标的硬度。为了确保效率，我们引入了基于方差的样本剪枝策略，在评分之前过滤潜在的硬样本。此外，我们提出了一个迭代偏好更新模块，旨在不断完善总结的用户偏好，该偏好可能由于误报的用户-项目交互而产生偏差。对三个现实世界数据集和四个骨干推荐器的广泛实验证明了我们方法的有效性。

使用最密集重叠子图在超图神经网络中进行超边建模

分类： 机器学习, 人工智能, 社交和信息网络

作者： Mehrad Soltani, Luis Rueda

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10340v1

摘要： 超图通过引入超边来解决传统图的局限性。图边仅连接两个节点，而超边则沿其边连接任意数量的节点。此外，超图神经网络 (HGNN) 中的底层消息传递机制采用顶点-超边-顶点的形式，这使得 HGNN 能够捕获和利用比传统图神经网络 (GNN) 更丰富、更复杂的结构信息。最近，出现了重叠子图的想法。这些子图可以捕获有关顶点子组的更多信息，而不限制一个顶点仅属于一组，从而允许顶点属于多个组或子图。此外，图聚类中最重要的问题之一是找到最密集的重叠子图（DOS）。在本文中，我们提出了一种通过聚合贪婪枚举（DOSAGE）算法来解决 DOS 问题的方法，作为增强生成最密集重叠子图的过程的新方法，从而增强超图的鲁棒构造。标准基准测试的实验表明，DOSAGE 算法在节点分类任务上显着优于 HGNN 和其他六种方法。

区分大语言模型的 20 个问题游戏

分类： 计算和语言, 人工智能

作者： Gurvan Richardeau, Erwan Le Merrer, Camilla Penzo, Gilles Tredan

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10338v1

摘要： 与 20 个问题游戏并行，我们提出了一种方法来确定放置在黑盒上下文中的两个大型语言模型 (LLM) 是否相同。目标是使用一小组（良性）二元问题，通常少于 20 个。我们将问题形式化，并首先使用从已知基准数据集中随机选择的问题建立基线，在 20 个问题内实现近 100% 的准确性。在显示该问题的最佳边界后，我们引入了两种有效的提问启发式方法，能够通过针对同一任务使用一半的问题来区分 22 个大语言模型。这些方法在隐秘性方面具有显着的优势，因此受到怀疑模型泄露的审计员或版权所有者的兴趣。

InfoDisent：通过信息解缠来解释图像分类模型

分类： 计算机视觉和模式识别, 人工智能

作者： Łukasz Struski, Jacek Tabor

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10329v1

摘要： 理解图像分类网络做出的决策是深度学习研究的一个关键领域。该任务传统上分为两种不同的方法：事后方法和内在方法。事后方法（例如 GradCam）旨在通过识别网络关注的图像区域来解释预训练模型的决策。然而，这些方法只提供了高层概述，因此很难完全理解网络的决策过程。相反，内在方法（如原型零件模型）可以更详细地理解网络预测，但受到特定架构、训练方法和数据集的限制。在本文中，我们介绍了 InfoDisent，这是一种结合了两种方法优点的混合模型。通过利用信息瓶颈，InfoDisent 解开了预训练深度网络最后一层中的信息，从而将分类决策分解为基本的、可理解的原子组件。与标准原型零件方法不同，InfoDisent 可以解释预先训练的分类网络的决策，并用于做出分类决策，类似于内在模型。我们在 ImageNet、CUB-200-2011、Stanford Cars 和 Stanley Dogs 等基准数据集上针对卷积和 Transformer 主干验证了 InfoDisent 的有效性。

SEAL：通过技能支持的对手学习来生成闭环场景，实现安全自动驾驶

分类： 机器人技术, 人工智能, 机器学习

作者： Benjamin Stoler, Ingrid Navarro, Jonathan Francis, Jean Oh

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10320v1

摘要： 随着自动驾驶 (AD) 技术在现实世界中的普及程度不断提高，自动驾驶 (AD) 系统和组件的验证和确认变得越来越重要。安全关键场景生成是通过闭环训练强化 AD 策略的关键方法。然而，现有的场景生成方法依赖于简单化的目标，导致过度攻击性或非反应性的对抗行为。为了生成多样化的对抗性但现实的场景，我们提出了 SEAL，这是一种场景扰动方法，它利用学习的评分函数和对抗性、类人技能。海豹突击队扰动的场景比 SOTA 基线更现实，导致在现实世界、分布内和分布外场景中自我任务成功率提高了 20% 以上。为了方便未来的研究，我们发布了我们的代码和工具：https://github.com/cmubig/SEAL

了解你的极限！通过自我意识优化机器人的行为

分类： 机器人技术, 人工智能

作者： Esteve Valls Mascaro, Dongheui Lee

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10308v1

摘要： 随着人形机器人从实验室过渡到现实世界环境，对于非专家用户来说，实现机器人控制的民主化至关重要。最近的人机模仿算法专注于高精度地跟踪参考人类运动，但它们容易受到参考运动质量的影响，并且需要人类操作员简化其运动以匹配机器人的能力。相反，我们认为机器人应该理解参考运动并使其适应其自身的能力，从而促进操作员的任务。为此，我们引入了一种深度学习模型，可以预测机器人在模仿给定参考时的表现。然后，我们的系统可以根据高级任务命令生成多个参考，为每个参考分配一个分数，并选择最佳参考来实现所需的机器人行为。我们的自我意识模型 (SAW) 根据各种标准对潜在的机器人行为进行排名，例如跌倒可能性、对参考运动的遵守情况以及平滑度。我们将先进的运动生成、机器人控制和 SAW 集成到一个独特的系统中，确保机器人针对任何任务命令都能实现最佳行为。例如，SAW 可以以 99.29% 的准确率预测跌倒。有关更多信息，请查看我们的项目页面：https://evm7.github.io/Self-AWare

如何在化学和材料科学领域进行有影响力的人工智能研究

分类： 机器学习, 材料科学, 人工智能, 化学物理

作者： Austin Cheng, Cher Tian Ser, Marta Skreta, Andrés Guzmán-Cordero, Luca Thiede, Andreas Burger, Abdulrahman Aldossary, Shi Xuan Leong, Sergio Pablo-García, Felix Strieth-Kalthoff, Alán Aspuru-Guzik

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10304v1

摘要： 机器学习已经普遍触及许多科学领域。化学和材料科学也不例外。尽管机器学习已经产生了巨大的影响，但它仍然没有充分发挥其潜力或成熟度。从这个角度来看，我们首先概述了化学中各种问题的当前应用。然后，我们讨论机器学习研究人员如何看待和处理该领域的问题。最后，我们提供了在研究化学机器学习时最大化影响力的考虑因素。

关于合成纹理数据集：挑战、创建和管理

分类： 计算机视觉和模式识别, 人工智能

作者： Blaine Hoak, Patrick McDaniel

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10297v1

摘要： 纹理对机器学习模型的影响一直是一个持续的研究，特别是在纹理偏差/学习、可解释性和鲁棒性方面。然而，由于缺乏大量且多样化的纹理数据，这些工作的发现受到限制，因为更全面的评估还不可行。图像生成模型能够提供大规模的数据创建，但利用这些模型进行纹理合成尚未得到探索，并且在创建准确的纹理图像和验证这些图像方面都带来了额外的挑战。在这项工作中，我们引入了一种可扩展的方法和相应的新数据集，用于生成能够支持广泛的基于纹理的任务的高质量、多样化的纹理图像。我们的管道包括：（1）从一系列描述符中开发提示作为文本到图像模型的输入，（2）采用和调整稳定扩散管道来生成和过滤相应的图像，以及（3）进一步过滤直至最高质量的图像。通过此，我们创建了提示纹理数据集 (PTD)，这是一个包含 362,880 个纹理图像的数据集，涵盖 56 个纹理。在生成图像的过程中，我们发现图像生成管道中的 NSFW 安全过滤器对纹理高度敏感（并标记了高达 60% 的纹理图像），揭示了这些模型中的潜在偏差，并在使用时提出了独特的挑战纹理数据。通过标准指标和人工评估，我们发现我们的数据集是高质量且多样化的。

MGSA：用于知识图到文本生成的多粒度图结构注意力

分类： 计算和语言, 人工智能

作者： Shanshan Wang, Chun Zhang, Ning Zhang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10294v1

摘要： 知识图到文本生成任务旨在将结构化知识图转换为连贯且人类可读的自然语言文本。该领域最近的工作重点是通过合并图结构信息来捕获知识图的复杂结构细节，从而增强预训练语言模型（PLM）。然而，大多数这些方法往往只捕获单粒度结构信息，要么集中在原始图中实体之间的关系，要么集中在同一实体内或不同实体之间的单词之间的关系。这种狭隘的关注导致了一个重大的局限性：仅关注实体级结构的模型无法捕获单词之间细微的语义关系，而仅关注单词级结构的模型则忽略了原始整个实体之间更广泛的关系。为了克服这些限制，本文引入了基于 PLM 的多粒度图结构注意力（MGSA）。该模型架构的编码器具有实体级结构编码模块、字级结构编码模块以及合成来自这两种结构的信息的聚合模块。这种多粒度结构编码方法使得模型能够同时捕获实体级和词级结构信息，提供对知识图的结构信息更全面的理解，从而显着提高生成文本的质量。我们使用两个广泛认可的 KG 到文本生成基准数据集 WebNLG 和 EventNarrative 对 MGSA 模型进行了广泛的评估，它始终优于仅依赖于单粒度结构信息的模型，这证明了我们方法的有效性。

神经形态自旋电子学

分类： 材料科学, 介观和纳米物理, 其他凝聚态物质, 人工智能

作者： Atreya Majumdar, Karin Everschor-Sitte

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10290v1

摘要： 神经形态自旋电子学结合了神经形态计算和自旋电子学这两个先进技术领域，创建了受大脑启发的高效计算系统，利用了电子自旋的独特属性。在本书的章节中，我们首先介绍这两个领域——神经形态计算和自旋电子学，然后介绍神经形态自旋电子学。我们讨论神经形态自旋电子学的具体例子，包括基于波动的计算、人工神经网络和储层计算，强调它们彻底改变计算效率和功能的潜力。

ReflectDiffu：通过 RL 扩散框架在情感意图感染和模仿之间进行反思，以产生移情反应

分类： 人工智能, 计算和语言, 机器学习

作者： Jiahao Yuan, Zixiang Di, Zhiqing Cui, Guisong Yang, Usman Naseem

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10289v1

摘要： 产生同理心反应需要将情感和意图动态整合起来，以促进有意义的互动。现有的研究要么忽视了情感和意图之间复杂的相互作用，导致同理心的可控性不佳，要么求助于大型语言模型（LLM），这会产生大量的计算开销。在本文中，我们介绍了 ReflectDiffu，一个用于生成同理心响应的轻量级综合框架。该框架结合了情感传染来增强情感表达力，并采用情感推理面具来查明关键情感元素。此外，它将意图模仿整合到强化学习中，以便在扩散过程中进行细化。通过利用意图的两次反映探索-采样-纠正的机制，ReflectDiffu 巧妙地将情感决策转化为精确的意图行动，从而解决因情感误识别而导致的共情反应错位。通过反思，该框架将情绪状态映射到意图，显着增强反应同理心和灵活性。综合实验表明，ReflectDiffu 在相关性、可控性和信息量方面优于现有模型，在自动评估和人工评估中均取得了最先进的结果。

DreamHead：通过分层扩散学习时空对应，用于音频驱动的头部说话合成

分类： 多媒体, 人工智能, 声音, 音频和语音处理

作者： Fa-Ting Hong, Yunfei Liu, Yu Li, Changyin Zhou, Fei Yu, Dan Xu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10281v1

摘要： 音频驱动的头部说话合成致力于从提供的音频中生成逼真的视频肖像。这项任务已经探索了以其卓越的质量和强大的泛化能力而闻名的扩散模型。然而，利用扩散模型在时间音频线索和相应的空间面部表情之间建立稳健的对应关系仍然是头部说话的生成中的重大挑战。为了弥补这一差距，我们提出了 DreamHead，这是一个分层扩散框架，它可以学习头部合成中的时空对应关系，而不会影响模型的内在质量和适应性。~~DreamHead 学习从音频中预测密集的面部标志作为中间信号，以对空间和时间进行建模。时间对应。~~具体来说，首先设计音频到地标扩散的第一层次，以在给定音频序列信号的情况下预测时间上平滑且准确的地标序列。然后，进一步提出了地标到图像扩散的第二个层次，通过对密集的面部地标和外观之间的空间对应关系进行建模来生成空间一致的面部肖像视频。大量实验表明，所提出的 DreamHead 可以通过设计的分层扩散有效地学习时空一致性，并为多个身份生成高保真音频驱动的头部说话视频。

认知内核：面向通用自动驾驶仪的开源代理系统

分类： 人工智能

作者： Hongming Zhang, Xiaoman Pan, Hongwei Wang, Kaixin Ma, Wenhao Yu, Dong Yu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10277v1

摘要： 我们引入认知内核，这是一个开源代理系统，旨在实现通用自动驾驶仪的目标。与副驾驶系统主要依靠用户提供必要的状态信息（例如任务描述）并通过回答问题或自动完成内容来协助用户不同，自动驾驶系统必须独立完成从开始到结束的任务，这要求系统获取积极地陈述来自环境的信息。为了实现这一目标，自动驾驶系统应该能够理解用户意图，主动从各种现实世界来源收集必要的信息，并做出明智的决策。认知内核采用以模型为中心的设计。在我们的实现中，中央策略模型（经过微调的 LLM）使用原子操作的组合来启动与环境的交互，例如打开文件、单击按钮、将中间结果保存到内存或调用 LLM 本身。这与广泛使用的以环境为中心的设计不同，其中具有预定义操作的特定于任务的环境是固定的，并且策略模型仅限于从给定的选项集中选择正确的操作。我们的设计促进了跨各种来源的无缝信息流，并提供了更大的灵活性。我们在三个用例中评估我们的系统：实时信息管理、私有信息管理和长期内存管理。结果表明，在这些场景中，认知内核比其他闭源系统实现了更好或相当的性能。认知内核完全 Docker 化，确保每个人都可以私密且安全地部署它。我们开源该系统和骨干模型，以鼓励进一步研究大语言模型驱动的自动驾驶系统。

推荐系统中的因果发现：示例与讨论

分类： 信息检索, 人工智能

作者： Emanuele Cavenaghi, Fabio Stella, Markus Zanker

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10271v1

摘要： 因果关系越来越受到人工智能和机器学习社区的关注。本文给出了使用因果图对推荐系统问题进行建模的示例。具体来说，我们通过将开源数据集中的观察数据与先验知识相结合来完成因果发现任务，以学习因果图。由此产生的因果图表明，只有少数变量有效影响分析的反馈信号。这与机器学习社区最近的趋势形成鲜明对比，即在神经网络等大规模模型中包含越来越多的变量。

多类别分类增强个性化菜谱推荐

分类： 信息检索, 人工智能, 机器学习

作者： Harish Neelam, Koushik Sai Veerella

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10267v1

摘要： 本文旨在解决多样化烹饪偏好领域个性化食谱推荐的挑战。问题领域涉及食谱推荐，利用关联分析和分类等技术。关联分析探索不同成分之间的关系和联系，以增强用户体验。同时，分类方面涉及根据用户定义的成分和偏好对食谱进行分类。该论文的一个独特之处是考虑了属于多个类别的食谱和成分，认识到烹饪组合的复杂性。这就需要一种复杂的分类和推荐方法，确保系统适应菜谱分类的性质。该论文不仅寻求推荐食谱，还探索实现准确和个性化推荐的过程。

FGR-Net：基于深度重建学习的可解释眼底图像分级能力分类

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Saif Khalid, Hatem A. Rashwan, Saddam Abdulwahab, Mohamed Abdel-Nasser, Facundo Manuel Quiroga, Domenec Puig

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10246v1

摘要： 视网膜疾病诊断计算机辅助设计 (CAD) 系统的性能取决于所筛查的视网膜图像的质量。因此，已经开展了许多研究来评估和评估此类视网膜图像的质量。然而，他们中的大多数人没有研究所开发模型的准确性与用于区分可分级和不可分级视网膜图像的可解释性方法的可视化质量之间的关系。因此，本文提出了一种名为 FGR-Net 的新颖框架，通过将自动编码器网络与分类器网络合并来自动评估和解释底层眼底图像质量。 FGR-Net 模型还通过可视化提供可解释的质量评估。特别地，FGR-Net使用深度自动编码器来重建输入图像，以便基于自监督学习来提取输入眼底图像的视觉特征。然后将自动编码器提取的特征输入深度分类器网络，以区分可分级和不可分级的眼底图像。使用不同的可解释性方法对 FGR-Net 进行了评估，这表明自动编码器是迫使分类器关注眼底图像的相关结构（例如中央凹、视盘和突出血管）的关键因素。此外，可解释性方法可以为眼科医生提供视觉反馈，以了解我们的模型如何评估眼底图像的质量。实验结果表明，FGR-Net 优于最先进的质量评估方法，准确率为 89%，F1 分数为 87%。

对冲并不是您所需要的全部：随意输入下在线学习的简单基线

分类： 机器学习, 人工智能

作者： Himanshu Buckchash, Momojit Biswas, Rohit Agarwal, Dilip K. Prasad

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10242v1

摘要： 处理随机流数据（例如来自边缘设备的数据）是一个具有挑战性的问题。随着时间的推移，传入的数据会变得不一致，丢失、错误或新的输入会重新出现。因此，它需要可靠的模型。最近解决这个问题的方法依赖于基于对冲的解决方案，并且需要特殊的元素，如辅助 dropout、分叉架构和复杂的网络设计。我们观察到，对冲可以简化为加权残差连接的特殊情况；这促使我们用简单的自注意力来近似它。在这项工作中，我们提出了 HapNet，这是一个可扩展的简单基线，不需要在线反向传播，并且可以适应不同的输入类型。所有现有方法都仅限于使用固定窗口进行缩放；然而，我们引入了一个更复杂的可变窗口缩放问题，其中数据变得位置不相关，并且无法通过现有方法解决。我们证明所提出的方法的变体甚至可以适用于这种复杂的场景。我们在五个基准上广泛评估了所提出的方法，并发现了具有竞争力的性能。

NEUSIS：复杂无人机搜索任务中自主感知、推理和规划的组合神经符号框架

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Zhixi Cai, Cristian Rojas Cardenas, Kevin Leo, Chenyuan Zhang, Kal Backman, Hanbing Li, Boying Li, Mahsa Ghorbanali, Stavya Datta, Lizhen Qu, Julian Gutierrez Santiago, Alexey Ignatiev, Yuan-Fang Li, Mor Vered, Peter J Stuckey, Maria Garcia de la Banda, Hamid Rezatofighi

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10196v1

摘要： 本文解决了无人机自主搜索任务的问题，其中无人机必须根据在带有禁区的大型、易发生危险的环境中的简要描述，在时限内找到特定的感兴趣实体（EOI）。无人机必须利用有限且不确定的信息进行感知、推理并做出决策。我们提出了 NEUSIS，一种组合神经符号系统，专为现实场景中可解释的无人机搜索和导航而设计。 NEUSIS 集成了神经符号视觉感知、推理和基础 (GRiD) 来处理原始感官输入，维护用于环境表示的概率世界模型，并使用分层规划组件 (SNaC) 进行高效的路径规划。使用 AirSim 和 Unreal Engine 模拟城市搜索任务的实验结果表明，NEUSIS 在成功率、搜索效率和 3D 定位方面优于最先进的 (SOTA) 视觉语言模型和 SOTA 搜索规划模型。这些结果证明了我们的组合神经符号方法在处理复杂的真实场景方面的有效性，使其成为搜索任务中自主无人机系统的有前景的解决方案。

GPS 失效环境下空中机器人路径规划的相对定位

分类： 机器人技术, 人工智能

作者： Farzad Sanati

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10193v1

摘要： 众所周知，智能空中机器人最有用的应用之一是丛林火灾监测和预测行动，在澳大利亚有时被称为无人机（UAV）。一群自主无人机/无人机被编程为使用机载传感器实时观察火灾参数，这对于减少火灾对生命的威胁非常有价值。然而，在关键的丛林大火条件下，例如偏远地区和恶劣天气条件下，GPS 信号也可能不可靠，自主无人机在定位和导航方面面临着严峻的挑战。本文讨论了无人机自主导航中最重要的因素之一，即初始定位，有时也称为定位。本文提供的解决方案将使一组自主无人机能够建立与其行动基地的相对位置，以便能够在受丛林大火影响的地区开始团队搜索和侦察，并在没有帮助的情况下找到返回基地的路GPS 信号。

通过不流畅检测增强自动语音识别模型

分类： 计算和语言, 人工智能

作者： Robin Amann, Zhaolin Li, Barbara Bruno, Jan Niehues

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10177v2

摘要： 言语不流利通常发生在会话和自发言语中。然而，标准自动语音识别 (ASR) 模型很难准确识别这些不流畅之处，因为它们通常是在流利的转录本上进行训练的。目前的研究主要集中在检测文字记录中的不流畅之处，而忽略了它们在演讲中的确切位置和持续时间。此外，以前的工作通常需要模型微调并解决有限类型的不流畅问题。在这项工作中，我们提出了一种仅推理的方法来增强任何 ASR 模型，使其能够检测开放集不流畅。我们首先证明 ASR 模型难以转录言语不流畅。接下来，这项工作提出了一种改进的基于连接主义时间分类（CTC）的强制对齐算法，用于预测单词级时间戳，同时有效捕获不流利的语音。此外，我们开发了一个模型，将时间戳之间的对齐间隙分类为包含不流畅的语音或沉默。该模型的准确率达到 81.62%，F1 分数达到 80.07%。我们在 disfluent 数据集上测试对齐间隙检测和分类的增强管道。我们的结果表明，我们捕获了转录最初遗漏的 74.13% 的单词，证明了该管道对于下游任务的潜力。

jina-embeddings-v3：带有任务 LoRA 的多语言嵌入

分类： 计算和语言, 人工智能, 信息检索, 68T50, I.2.7

作者： Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10173v2

摘要： 我们推出了 jina-embeddings-v3，这是一种具有 5.7 亿个参数的新型文本嵌入模型，在多语言数据和长上下文检索任务上实现了最先进的性能，支持高达 8192 个标记的上下文长度。该模型包括一组特定于任务的低秩适应 (LoRA) 适配器，用于生成用于查询文档检索、聚类、分类和文本匹配的高质量嵌入。此外，Matryoshka 表示学习被集成到训练过程中，允许灵活截断嵌入维度而不影响性能。对 MTEB 基准的评估表明，jina-embeddings-v3 在英语任务上优于 OpenAI 和 Cohere 的最新专有嵌入，同时在所有多语言任务中与 multilingual-e5-large-instruct 相比实现了卓越的性能。

跨地区的算法行为：对 YouTube 搜索美国和南非之间的 COVID-19 错误信息进行地理位置审计

分类： 计算机与社会, 人工智能, 人机交互

作者： Hayoung Jung, Prerna Juneja, Tanushree Mitra

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10168v1

摘要： 尽管 YouTube 是在线查找健康相关信息的不可或缺的工具，但它仍因向全球用户传播 COVID-19 错误信息而面临批评。然而，之前的审计研究主要在北半球背景下调查 YouTube，往往忽视了南半球。为了弥补这一差距，我们在 YouTube 上进行了为期 10 天的基于地理位置的全面审核，以比较美国 (US) 和南非 (SA) 这两个受新冠肺炎疫情严重影响的国家，搜索结果中 COVID-19 错误信息的流行程度。分别在北半球和南半球大流行。对于每个国家/地区，我们选择了 3 个地理位置并放置了傀儡或模拟“真实”用户的机器人，这些傀儡在 10 天内收集了按 4 个搜索过滤器排序的 48 个搜索查询的搜索结果，产生了 915K 个结果的数据集。我们发现，排名前 10 的搜索结果中有 31.55% 包含 COVID-19 错误信息。在前 10 名搜索结果中，南非的机器人面临的错误信息搜索结果明显多于美国同行。总体而言，我们的研究强调了两国 YouTube 搜索算法行为的对比，强调该平台需要在全球不同地区一致监管算法行为。

RLHF 中分配奖励模型的分位数回归

分类： 机器学习, 人工智能, 计算和语言

作者： Nicolai Dorka

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10164v1

摘要： 基于人类反馈的强化学习 (RLHF) 已成为通过使用奖励模型使大型语言模型 (LLM) 与人类偏好保持一致的关键方法。然而，传统的奖励模型通常会生成点估计，这过度简化了人类价值观和偏好的多样性和复杂性。在本文中，我们介绍了分位数奖励模型（QRM），这是一种新颖的奖励建模方法，它学习奖励的分布而不是单个标量值。我们的方法使用分位数回归来估计偏好的完整的、潜在的多模态分布，从而提供更强大和更细致的偏好表示。这种分布式方法可以更好地捕捉人类价值观的多样性，解决标签噪声，并通过将它们建模为分布中的不同模式来适应相互冲突的偏好。我们的实验结果表明，QRM 在 RewardBench 上的表现优于传统的点估计模型。此外，我们证明了分布估计提供的额外信息可以在下游应用中利用，例如风险意识强化学习，从而导致 LLM 政策产生更少的极端负面反应。我们的代码和模型发布在 https://github.com/Nicolinho/QRM。

SplatSim：使用高斯泼溅的 RGB 操作策略的零射击 Sim2Real 传输

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Mohammad Nomaan Qureshi, Sparsh Garg, Francisco Yandun, David Held, George Kantor, Abhishesh Silwal

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10161v1

摘要： 由于合成和真实世界视觉数据之间存在显着的域转移，Sim2Real 传输，特别是依赖 RGB 图像的操作策略，仍然是机器人技术中的一个关键挑战。在本文中，我们提出了 SplatSim，这是一种新颖的框架，它利用 Gaussian Splatting 作为主要渲染基元来减少基于 RGB 的操作策略的 Sim2Real 差距。通过在模拟器中用高斯 Splats 替换传统的网格表示，SplatSim 可以生成高度逼真的合成数据，同时保持模拟的可扩展性和成本效益。我们通过在 SplatSim 中训练操纵策略并以零样本的方式将其部署在现实世界中来证明我们框架的有效性，实现了 86.25% 的平均成功率，而在现实世界数据上训练的策略的平均成功率为 97.5%。

AutoPET 挑战 III：测试用于从全身 PET/CT 图像中进行 FDG 和 PSMA 病变分割的广义 Dice 焦点损失训练的 3D 残差 UNet 的鲁棒性

分类： 计算机视觉和模式识别, 人工智能, 医学物理

作者： Shadab Ahamed

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10151v1

摘要： PET/CT 扫描中癌性病变的自动分割是定量图像分析中至关重要的第一步。然而，由于病变大小、形状和放射性示踪剂吸收的变化，训练深度学习模型进行高精度分割特别具有挑战性。这些病变可以出现在身体的不同部位，通常靠近也表现出大量吸收的健康器官，使任务变得更加复杂。因此，为常规 PET/CT 图像分析创建有效的分割模型具有挑战性。在本研究中，我们利用 3D Residual UNet 模型并采用 Generalized Dice Focal Loss 函数在 AutoPET Challenge 2024 数据集上训练模型。我们进行了 5 倍交叉验证，并使用来自五倍的模型的平均集成技术。在Task-1的初步测试阶段，平均集合的平均Dice相似系数（DSC）为0.6687，平均假阴性体积（FNV）为10.9522 ml，平均假阳性体积（FPV）为2.9684 ml。有关该算法的更多详细信息可以在我们的 GitHub 存储库中找到：https://github.com/ahxmeds/autosegnet2024.git。训练代码已通过存储库共享：https://github.com/ahxmeds/autopet2024.git。

LLMs4OL 2024 概述：第一届本体学习大型语言模型挑战赛

分类： 计算和语言, 人工智能

作者： Hamed Babaei Giglou, Jennifer D'Souza, Sören Auer

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10146v1

摘要： 本文概述了 LLMs4OL 2024，第一版本体学习大型语言模型挑战赛。 LLMs4OL 是与第 23 届国际语义网络会议 (ISWC) 同期举办的一项社区发展计划，旨在探索大型语言模型 (LLM) 在本体学习 (OL) 中的潜力，本体学习 (OL) 是利用结构化知识增强网络以提高互操作性的重要过程。通过利用大语言模型，该挑战赛旨在促进对 OL 的理解和创新，与语义网络的目标保持一致，以创建一个更加智能和用户友好的网络。在本文中，我们概述了 2024 年版 LLMs4OL 挑战赛并总结了贡献。

在没有领域知识的情况下实现可解释的自动化数据质量增强

分类： 数据库, 人工智能, 机器学习, 62H30, 68P99, H.2.7; H.2.8; I.2.1

作者： Djibril Sarr

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10139v1

摘要： 在大数据时代，确保数据集的质量在各个领域变得越来越重要。我们提出了一个综合框架，旨在自动评估和纠正任何给定数据集中的数据质量问题，无论其具体内容如何，重点关注文本和数字数据。我们的主要目标是解决三种基本类型的缺陷：缺席、冗余和不连贯。我们方法的核心是对可解释性和可解释性的严格要求，确保识别和纠正数据异常背后的基本原理是透明且易于理解的。为了实现这一目标，我们采用了一种将统计方法与机器学习算法相结合的混合方法。事实上，通过利用统计技术和机器学习，我们在准确性和可解释性之间取得了平衡，使用户能够信任和理解评估过程。认识到与自动化数据质量评估过程相关的挑战，特别是在时间效率和准确性方面，我们采取了务实的策略，仅在必要时采用资源密集型算法，同时尽可能支持更简单、更高效的解决方案。通过对公开提供的数据集进行实际分析，我们说明了在尝试提高数据质量同时保持可解释性时出现的挑战。我们展示了我们的方法在检测和纠正缺失值、重复和印刷错误方面的有效性，以及在我们工作设定的约束下实现统计异常值和逻辑错误的类似准确性所需解决的挑战。

迈向海洋数字孪生平台：地中海西南部 Mar Menor 沿海泻湖生态系统建模

分类： 计算机与社会, 人工智能

作者： Yu Ye, Aurora González-Vidal, Alejandro Cisterna-García, Angel Pérez-Ruzafa, Miguel A. Zamora Izquierdo, Antonio F. Skarmeta

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10134v1

摘要： 沿海海洋生态系统面临着人类活动和气候变化带来的越来越大的压力，需要先进的监测和建模方法来进行有效管理。本文开创了海洋数字孪生平台的开发，旨在对穆尔西亚地区的 Mar Menor 沿海泻湖生态系统进行建模。该平台利用人工智能来模拟复杂的水文和生态模型，促进假设情景的模拟，以预测生态系统对各种压力源的反应。我们整合公共来源的不同数据集，构建泻湖动态的全面数字表示。该平台的模块化设计可实现利益相关者的实时参与和海洋管理方面的明智决策。我们的工作有助于通过创新的数字孪生技术推进海洋科学的持续讨论。

StruEdit：结构化输出实现大型语言模型的快速、准确的知识编辑

分类： 计算和语言, 人工智能

作者： Baolong Bi, Shenghua Liu, Yiwei Wang, Lingrui Mei, Hongcheng Gao, Junfeng Fang, Xueqi Cheng

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10132v1

摘要： 作为首选的现代问答工具，大型语言模型 (LLM) 有望提供包含最新知识的答案。为了实现这种理想的问答系统，在自然语言输出中定位并编辑过时的知识是流行知识编辑方法的一般目标。然而，这个目标具有挑战性，因为确定推理步骤中要编辑哪些标记以及确保修改后的推理链的连贯性都是艰巨的任务。我们认为这些挑战源于自然语言输出的非结构化性质。为了解决上述挑战，我们提出了 $\textbf{Stru}$ctural $\textbf{Edit}$ing ($\textbf{StruEdit}$)，这是一种改进的知识编辑基线。我们首先提示大语言模型产生由推理三元组组成的结构化输出。然后，StruEdit 会删除任何可能过时的知识，并在一个步骤中用最新信息有效地重新填充结构化输出。实验结果表明，与其他知识编辑方法相比，StruEdit 始终能够以最低的延迟提供最高的准确性。

工业6.0：生成式人工智能和异构机器人群驱动的新一代工业

分类： 机器人技术, 人工智能

作者： Artem Lykov, Miguel Altamirano Cabrera, Mikhail Konenkov, Valerii Serpiva, Koffivi Fid`ele Gbagbe, Ali Alabbas, Aleksey Fedoseev, Luis Moreno, Muhammad Haris Khan, Ziang Guo, Dzmitry Tsetserukou

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10106v1

摘要： 本文提出了工业6.0的概念，介绍了世界上第一个完全自动化的生产系统，该系统根据用户提供的自然语言描述自主处理整个产品设计和制造过程。通过利用生成式人工智能，该系统可实现生产关键环节的自动化，包括产品蓝图设计、零部件制造、物流和装配。一群异构的机器人通过与大型语言模型 (LLM) 集成，每个机器人都配备了单独的人工智能，协调生产过程。该机器人系统包括机械臂、送货无人机和能够生成装配蓝图的 3D 打印机。该系统使用商业和开源大语言模型进行评估，通过 API 和本地部署发挥作用。一项用户研究表明，该系统将平均生产时间缩短至 119.10 分钟，明显优于人类专家开发团队的平均生产时间 528.64 分钟（改进系数为 4.4）。此外，在产品蓝图阶段，该系统比人类 CAD 操作员前所未有地超越了 47 倍，在 0.5 分钟内完成了任务，而此前的任务时间为 23.5 分钟。这一突破代表着朝着完全自主制造的重大飞跃。

检索增强生成系统的可信度：一项调查

分类： 信息检索, 人工智能, 计算和语言

作者： Yujia Zhou, Yan Liu, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Zheng Liu, Chaozhuo Li, Zhicheng Dou, Tsung-Yi Ho, Philip S. Yu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10102v1

摘要： 检索增强生成（RAG）已迅速发展成为大型语言模型（LLM）开发的关键范例。虽然该领域当前的大部分研究都集中在性能优化，特别是在准确性和效率方面，但 RAG 系统的可信度仍然是一个仍在探索的领域。从积极的角度来看，RAG 系统有望通过为大语言模型提供来自大量外部数据库的有用且最新的知识来增强大语言模型，从而缓解长期存在的幻觉问题。但从消极的角度来看，如果检索到的信息不恰当或利用不当，RAG 系统就会面临生成不良内容的风险。为了解决这些问题，我们提出了一个统一的框架，从六个关键维度评估 RAG 系统的可信度：事实性、稳健性、公平性、透明度、问责制和隐私。在此框架内，我们全面回顾了每个维度的现有文献。此外，我们还建立了六个维度的评估基准，对多种专有和开源模型进行综合评估。最后，我们根据调查结果确定了未来研究的潜在挑战。通过这项工作，我们的目标是为未来的研究奠定结构化基础，并为增强 RAG 系统在实际应用中的可信度提供实用见解。

用于最优传输的地面度量学习的黎曼方法

分类： 机器学习, 人工智能

作者： Pratik Jawanpuria, Dai Shi, Bamdev Mishra, Junbin Gao

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10085v1

摘要： 最优传输（OT）理论在机器学习和信号处理应用中引起了广泛关注。 OT 定义了源数据点和目标数据点的概率分布之间的距离概念。影响基于 OT 的距离的一个关键因素是源数据点和目标数据点所在的嵌入空间的地面度量。在这项工作中，我们建议学习一个由对称正定矩阵参数化的合适的潜在基础度量。我们使用对称正定矩阵的丰富黎曼几何来共同学习 OT 距离以及地面度量。实证结果说明了学习度量在基于 OT 的领域适应中的有效性。

DAE-Fuse：用于多模态图像融合的自适应判别自动编码器

分类： 计算机视觉和模式识别, 人工智能

作者： Yuchen Guo, Ruoxiang Xu, Rongcheng Li, Zhenghao Wu, Weifeng Su

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10080v1

摘要： 多模态图像融合旨在将来自不同成像模态的互补数据信息集成到单个图像中。现有方法通常会生成丢失细粒度语义信息的模糊融合图像，或者生成从输入中感知裁剪的不自然融合图像。在这项工作中，我们提出了一种新颖的两阶段判别自动编码器框架，称为 DAE-Fuse，它可以生成清晰且自然的融合图像。在对抗性特征提取阶段，我们在编码器-解码器架构中引入了两个判别块，提供了额外的对抗性损失，以便通过重建源图像更好地指导特征提取。而这两个判别块在注意力引导的跨模态融合阶段进行了调整，以区分融合输出和源输入之间的结构差异，为结果注入更多自然性。对公共红外-可见光、医学图像融合和下游目标检测数据集的大量实验证明了我们的方法在定量和定性评估方面的优越性和普遍性。

LLM-DER：一种基于大语言模型的中文煤化工领域命名实体识别方法

分类： 计算和语言, 人工智能

作者： Le Xiao, Yunfei Xu, Jing Zhao

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10077v1

摘要： 特定领域命名实体识别（NER）的目标是识别特定领域的实体及其类别，为构建领域知识图谱提供了重要支持。目前，基于深度学习的方法在NER任务中被广泛使用且有效，但由于对大规模标记数据的依赖。因此，特定领域中标记数据的稀缺性将限制其应用。因此，许多研究开始引入few-shot方法并取得了一些成果。然而，特定领域的实体结构往往比较复杂，目前的few-shot方法很难适应具有复杂特征的NER任务。以中国煤化工领域为例，存在多个实体共享的复杂结构单个实体以及同一对实体的多个关系，这会影响少样本条件下的NER任务。在本文中，我们提出了一种基于大型语言模型（LLM）的实体识别框架LLM-DER，用于领域特定实体识别问题，通过LLM生成包含实体类型的关系列表，并设计合理性和一致性评估方法来去除错误识别的实体，从而丰富了实体信息，可以有效解决领域中的复杂结构实体识别问题。本文在 Resume 数据集和自建煤化工数据集 Coal 上的实验结果表明，LLM-DER 在特定领域实体识别方面表现出色，不仅优于现有的 GPT-3.5-turbo 基线，而且也超过了完全监督的基线，验证了其在实体识别方面的有效性。

通过口语理解任务提高人与人对话总结的可信度

分类： 计算和语言, 人工智能

作者： Eunice Akani, Benoit Favre, Frederic Bechet, Romain Gemignani

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10070v1

摘要： 对话摘要旨在为多个说话者之间的对话提供简洁、连贯的摘要。尽管语言模型的最新进展增强了这一过程，但由于需要理解说话者的互动并捕获相关信息，准确而忠实地总结对话仍然具有挑战性。事实上，用于对话摘要的抽象模型可能会生成包含不一致之处的摘要。我们建议使用为在人机对话系统中执行口语理解（SLU）而提出的语义信息来进行面向目标的人机对话，以获得有关任务的语义上更忠实的摘要。这项研究介绍了三个关键贡献：首先，我们提出探索如何合并任务相关信息来增强摘要过程，从而获得语义上更准确的摘要。然后，我们引入了一种基于任务语义的新评估标准。最后，我们提出了一个新的数据集版本，其中增加了标准化的注释数据，用于面向任务的对话摘要的研究。该研究使用 DECODA 语料库（呼叫中心的法语口语对话集合）评估这些方法。结果表明，即使单词错误率不同，将模型与任务相关信息集成也可以提高摘要准确性。

通过生成多样化且难以区分的合成异常来增强异常检测

分类： 机器学习, 人工智能

作者： Hyuntae Kim, Changhee Lee

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10069v1

摘要： 无监督异常检测是一项艰巨的任务，因为它仅依赖训练数据中的正态模式来识别测试期间未见的异常。最近的方法侧重于利用特定领域的变换或扰动从正常样本中生成合成异常。这里的目标是通过学习区分正常样本和这些精心设计的异常来深入了解正态模式。然而，当特定领域的转换没有明确指定时（例如在表格数据中），或者当区分它们变得微不足道时，这些方法通常会遇到限制。为了解决这些问题，我们引入了一种新颖的与领域无关的方法，该方法采用一组条件扰动器和鉴别器。扰动器被训练以生成依赖于输入的扰动，随后用于构造合成异常，并且训练鉴别器以将正常样本与正常样本区分开来。我们通过两个关键策略确保生成的异常既多样化又难以区分：i）引导扰动彼此正交；ii）限制扰动保持接近正常样本。在对现实世界数据集的实验中，我们证明了我们的方法相对于最先进的基准的优越性，这不仅在图像数据中很明显，而且在表格数据中也很明显，在表格数据中，特定于域的转换不容易实现。此外，我们凭经验证实了我们的方法对半监督设置的适应性，证明了其合并监督信号以进一步增强异常检测性能的能力。

MindGuard：通过 Edge LLM 实现无障碍且无 Sitgma 的心理健康急救

分类： 计算和语言, 人工智能, 人机交互

作者： Sijie Ji, Xinzhe Zheng, Jiawei Sun, Renqi Chen, Wei Gao, Mani Srivastava

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10064v1

摘要： 精神健康障碍是全世界最普遍的疾病之一，影响近四分之一的人。尽管影响广泛，但干预率仍低于 25%，这主要是由于诊断和干预都需要患者的大力配合。治疗率低背后的核心问题是耻辱感，这阻碍了超过一半的受影响者寻求帮助。本文介绍了 MindGuard，这是一种易于使用、无耻辱且专业的移动心理保健系统，旨在提供心理健康急救。 MindGuard 的核心是一个创新的边缘大语言模型，配备专业的心理健康知识，将客观的移动传感器数据与主观生态瞬时评估记录无缝集成，以提供个性化的筛查和干预对话。我们使用跨越四年的开放数据集和涉及 20 个受试者的各种移动设备的实际部署，对 MindGuard 进行了广泛的评估，为期两周。值得注意的是，MindGuard 取得了与 GPT-4 相当的结果，并且模型大小是其同类产品的 10 倍以上。我们相信，MindGuard 为移动大语言模型应用程序铺平了道路，通过用日常生活中的被动综合监控取代自我报告和干预对话，可能会彻底改变心理保健实践，从而确保可获取且无耻辱的心理健康支持。

GlobalMapNet：矢量化全球高精地图构建的在线框架

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Anqi Shi, Yuze Cai, Xiangyu Chen, Jian Pu, Zeyu Fu, Hong Lu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10063v2

摘要： 高清 (HD) 地图对于自动驾驶系统至关重要。传统上，采用昂贵且劳动密集型的管道来构建高清地图，其可扩展性受到限制。近年来，众包和在线地图作为两种替代方法出现，但它们各自都有局限性。在本文中，我们提供了一种新颖的方法，即全球地图构建，来直接生成矢量化全球地图，结合了众包和在线地图的优点。我们介绍 GlobalMapNet，这是第一个用于矢量化全球高清地图构建的在线框架，它更新和利用自我车辆上的全球地图。为了从头开始生成全局地图，我们建议 GlobalMapBuilder 不断匹配和合并局部地图。我们设计了一种新的算法——Map NMS，来删除重复的地图元素并生成干净的地图。我们还提出 GlobalMapFusion 来聚合历史地图信息，提高预测的一致性。我们在两个广泛认可的数据集 Argoverse2 和 nuScenes 上检查 GlobalMapNet，表明我们的框架能够生成全球一致的结果。

自然环境中头部定向的音频驱动强化学习

分类： 声音, 人工智能, 音频和语音处理

作者： Wessel Ledder, Yuzhen Qin, Kiki van der Heijden

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10048v1

摘要： 尽管近年来音频信号处理领域的深度强化学习（DRL）方法取得了实质性进展，但用于人机交互背景下的导航、视线控制和头部方向控制等任务的音频驱动 DRL 却很少受到关注。在这里，我们提出了一种音频驱动的 DRL 框架，在该框架中，我们利用深度 Q 学习来开发一个自主代理，该代理在基于立体声语音记录的声学环境中面向说话者。我们的结果表明，当在消声环境（即无混响）中对语音片段进行训练时，智能体学会了以近乎完美的水平执行任务。自然声学环境中混响的存在影响了代理的性能，尽管该代理的性能仍然大大优于基线、随机作用的代理。最后，我们量化了所提出的 DRL 方法在自然声学环境中的泛化程度。我们的实验表明，在中或高混响环境中训练的代理学习的策略可以推广到低混响环境，但在消声或低混响环境中训练的代理学习的策略不能推广到中或高混响环境。总而言之，这项研究展示了音频驱动的 DRL 在头部方向控制等任务中的潜力，并强调了对训练策略的需求，这些策略能够在现实世界的音频驱动的 DRL 应用程序的环境中实现稳健的泛化。

论思维图

分类： 计算和语言, 人工智能, 机器学习

作者： Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10038v1

摘要： 我们引入了思维图 (DoT)，这是一个框架，它将大型语言模型 (LLM) 中的迭代推理建模为在单个模型中构建有向无环图 (DAG)。与将推理表示为线性链或树的传统方法不同，DoT 将命题、批评、改进和验证组织成内聚的 DAG 结构，使模型能够探索复杂的推理路径，同时保持逻辑一致性。图中的每个节点对应一个已被提出、批评、完善或验证的命题，使大语言模型能够通过自然语言反馈迭代地改进其推理。通过利用自动回归下一个令牌预测和特定于角色的令牌，DoT 促进提出想法和批判性评估它们之间的无缝过渡，提供比二进制信号更丰富的反馈。此外，我们使用拓扑理论形式化了 DoT 框架，提供了确保推理过程中逻辑一致性和健全性的数学基础。这种方法增强了单个大语言模型内的训练和推理过程，消除了对多个模型或外部控制机制的需要。 DoT 为设计下一代推理专用模型提供了概念框架，强调训练效率、强大的推理能力和理论基础。该代码可在 https://github.com/diagram-of-thought/diagram-of-thought 获取。

GPT-O1 能消灭所有 bug 吗？ QuixBugs 上 GPT-Family 大语言模型的评估

分类： 软件工程, 人工智能

作者： Haichuan Hu, Ye Shang, Guolin Xu, Congqing He, Quanjun Zhang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10033v2

摘要： 大语言模型长期以来在自动程序修复（APR）方面表现出了显着的有效性，OpenAI 的 ChatGPT 是该领域使用最广泛的模型之一。通过GPT系列模型的不断迭代和升级，其修复Bug的性能已经达到了最先进的水平。然而，很少有工作比较不同版本的 GPT 系列模型在 APR 上的有效性和变化。在这项工作中，受到最近公开发布的 GPT-o1 模型的启发，我们进行了第一项研究来比较不同版本的 GPT 系列模型在 APR 中的有效性。我们在 APR 上评估了最新版本的 GPT 系列模型（即 O1-preview 和 O1-mini）、GPT-4o 以及 ChatGPT 的历史版本的性能。我们从多个评估角度（包括修复成功率、修复成本、响应长度和行为模式）对 QuixBugs 基准上的四种 GPT 系列模型与其他大语言模型和 APR 技术进行了实证研究。结果表明，O1 的修复能力超过了之前的 GPT 系列模型，成功修复了基准测试中的全部 40 个错误。我们的工作可以为进一步深入探索GPT系列模型在APR中的应用奠定基础。

AttnMod：基于注意力的新艺术风格

分类： 计算机视觉和模式识别, 人工智能

作者： Shih-Chieh Su

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10028v1

摘要： 想象一下，一位人类艺术家看着扩散模型生成的照片，并希望用它创作一幅画。艺术家可能想要强调照片中物体的某些特征，某些颜色需要分散，某些轮廓需要扭曲，或者场景的某些部分需要具体化。这些意图可以被视为在去噪扩散过程中对从文本提示到 UNet 的交叉注意力的修改。这项工作提出了 AttnMod，以改变注意力，从现有的扩散模型中创建新的自发艺术风格。研究了不同设置下的风格创建行为。

E2Map：使用语言模型进行自我反思机器人导航的体验和情感地图

分类： 机器人技术, 人工智能

作者： Chan Kim, Keonwoo Kim, Mintaek Oh, Hanbi Baek, Jiyang Lee, Donghwi Jung, Soojin Woo, Younkyung Woo, John Tucker, Roya Firoozi, Seung-Woo Seo, Mac Schwager, Seong-Woo Kim

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10027v1

摘要： 大型语言模型（LLM）在引导实体代理执行一系列任务（包括机器人操作和导航）的语言指令方面显示出巨大的潜力。然而，现有的方法主要是针对静态环境而设计的，并且没有利用代理自身的经验来完善其初始计划。鉴于现实环境本质上是随机的，与静态场景不同，仅基于大语言模型一般知识的初始计划可能无法实现其目标。为了解决这一局限性，本研究引入了经验与情感地图（E2Map），它不仅集成了大语言模型知识，还集成了代理的现实世界经验，从人类情感反应中汲取灵感。所提出的方法通过根据代理的经验更新 E2Map 来实现一次性行为调整。我们在随机导航环境（包括模拟和现实场景）中的评估表明，与现有的基于 LLM 的方法相比，所提出的方法显着提高了随机环境中的性能。代码和补充材料可在 https://e2map.github.io/ 获取。

AceParse：用于学术文献解析的具有多种结构化文本的综合数据集

分类： 计算和语言, 人工智能

作者： Huawei Ji, Cheng Deng, Bo Xue, Zhouyang Jin, Jiaxin Ding, Xiaoying Gan, Luoyi Fu, Xinbing Wang, Chenghu Zhou

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10016v1

摘要： 随着以数据为中心的人工智能的发展，重点已经从模型驱动方法转向提高数据质量。学术文献作为关键类型之一，主要以 PDF 格式存储，在进一步处理之前需要解析为文本。然而，由于缺乏涵盖各种文本结构的数据集，解析学术文献中的各种结构化文本仍然具有挑战性。在本文中，我们介绍了 AceParse，这是第一个综合数据集，旨在支持解析各种结构化文本，包括公式、表格、列表、算法和嵌入数学表达式的句子。基于AceParse，我们微调了一个多模态模型，命名为AceParser，它可以准确解析学术文献中的各种结构化文本。该模型在 F1 分数方面比之前最先进的模型高 4.1%，在 Jaccard 相似度方面比之前的最先进模型高 5%，展示了多模态模型在学术文献解析中的潜力。我们的数据集可在 https://github.com/JHW5981/AceParse 获取。

HALO：幻觉分析和学习优化为大语言模型提供检索增强背景以指导临床决策

分类： 计算和语言, 人工智能

作者： Sumera Anjum, Hanzhi Zhang, Wenjun Zhou, Eun Jin Paek, Xiaopeng Zhao, Yunhe Feng

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10011v1

摘要： 大型语言模型 (LLM) 具有显着先进的自然语言处理任务，但它们很容易产生不准确或不可靠的响应，这种现象称为幻觉。在健康和医学等关键领域，这些幻觉可能会带来严重的风险。本文介绍了 HALO，这是一种新颖的框架，旨在通过专注于幻觉的检测和缓解来提高医疗问答 (QA) 系统的准确性和可靠性。我们的方法使用大语言模型生成给定查询的多种变体，并从外部开放知识库检索相关信息以丰富上下文。我们利用最大边际相关性评分来对检索到的上下文进行优先级排序，然后将其提供给大语言模型以生成答案，从而降低产生幻觉的风险。 LangChain 的集成进一步简化了这一流程，导致开源和商业 LLM 的准确性显着而强劲的提高，例如 Llama-3.1（从 44％到 65％）和 ChatGPT（从 56％到 70％））。该框架强调了解决医疗质量保证系统中的幻觉、最终改善临床决策和患者护理的至关重要性。开源 HALO 位于：https://github.com/ResponsibleAILab/HALO。

SelECT-SQL：文本到 SQL 的自校正集成思想链

分类： 计算和语言, 人工智能

作者： Ke Shen, Mayank Kejriwal

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10007v1

摘要： 近年来，文本到SQL（将自然语言提出的问题自动转换为形式SQL查询的问题）已成为自然语言处理和数据管理研究交叉领域的一个重要问题。大型语言模型 (LLM) 在现成的性能中使用时提供了令人印象深刻的性能，但仍远远低于预期的专家级性能。当需要对数据库模式、问题和 SQL 子句有细致入微的了解才能进行正确的文本到 SQL 转换时，错误的可能性尤其大。我们推出了 SelECT-SQL，这是一种新颖的情境学习解决方案，它使用思想链 (CoT) 提示、自我纠正和集成方法的算法组合，在具有挑战性的问题上产生新的最先进的结果文本到 SQL 基准测试。具体来说，当使用 GPT-3.5-Turbo 作为基础 LLM 进行配置时，SelECT-SQL 在 Spider 排行榜的开发集上实现了 84.2% 的执行准确率，超过了其他基于 GPT-3.5-Turbo 的基线解决方案的最佳结果 (81.1%) ，以及排行榜上报告的 GPT-4 结果的峰值性能（83.5%）。

FreeMark：深度神经网络的非侵入式白盒水印

分类： 密码学和安全, 人工智能, 机器学习

作者： Yuzhang Chen, Jiangnan Zhu, Yujie Gu, Minoru Kuribayashi, Kouichi Sakurai

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09996v1

摘要： 深度神经网络（DNN）在现实世界的应用中取得了巨大的成功。然而，保护其知识产权 (IP) 仍然极具挑战性。现有的用于 IP 保护的 DNN 水印通常需要修改 DNN 模型，这降低了模型性能并限制了其实用性。本文介绍了 FreeMark，一种新颖的 DNN 水印框架，它利用密码学原理，而不改变原始主机 DNN 模型，从而避免模型性能的任何降低。与传统的 DNN 水印方法不同，FreeMark 创新性地使用梯度下降从预生成的水印向量和宿主模型生成密钥。这些用于从模型的激活值中提取水印的密钥由受信任的第三方安全地存储，从而能够从可疑模型中可靠地提取水印。大量实验表明，FreeMark有效抵御各种水印去除攻击，同时保持较高的水印容量。

情感分析综合研究：从基于规则到现代大语言模型系统

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互

作者： Shailja Gupta, Rajesh Ranjan, Surya Narayan Singh

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09989v1

摘要： 本文对人工智能 (AI) 和大型语言模型 (LLM) 背景下的情感分析进行了全面的调查。情感分析是自然语言处理 (NLP) 的一个重要方面，已经从传统的基于规则的方法显着发展到先进的深度学习技术。这项研究考察了情感分析的历史发展，强调了从基于词典和基于模式的方法到更复杂的机器学习和深度学习模型的转变。讨论了关键挑战，包括处理双语文本、检测讽刺和解决偏见。本文回顾了最先进的方法，确定了新兴趋势，并概述了推动该领域发展的未来研究方向。通过综合当前的方法并探索未来的机会，本调查旨在彻底了解人工智能和大语言模型背景下的情绪分析。

退伍军人事务部国家医疗保健系统中基于人工智能的机会性冠状动脉钙筛查

分类： 计算机视觉和模式识别, 人工智能

作者： Raffi Hagopian, Timothy Strebel, Simon Bernatz, Gregory A Myers, Erik Offerman, Eric Zuniga, Cy Y Kim, Angie T Ng, James A Iwaz, Sunny P Singh, Evan P Carey, Michael J Kim, R Spencer Schaefer, Jeannie Yu, Amilcare Gentili, Hugo JWL Aerts

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09968v1

摘要： 冠状动脉钙（CAC）可以高度预测心血管事件。虽然美国每年进行数百万次胸部 CT 扫描，但 CAC 并未从非心脏目的扫描中进行常规量化。使用 446 个专家分割开发了一种深度学习算法，可自动量化非造影、非门控 CT 扫描 (AI-CAC) 上的 CAC。我们的研究与之前的工作不同，因为我们利用了退伍军人事务部国家医疗保健系统（来自 98 个医疗中心）的成像数据，捕获了成像协议、扫描仪和患者的广泛异质性。将非门控扫描的 AI-CAC 性能与临床标准 ECG 门控 CAC 评分进行比较。非门控 AI-CAC 在 795 名配对门控扫描患者中区分零与非零以及小于 100 与 100 或更高的 Agatston 评分，准确度分别为 89.4% (F1 0.93) 和 87.3% (F1 0.89)非门控 CT 扫描后一年内。非门控 AI-CAC 可预测 10 年全因死亡率（CAC 0 组与 >400 组：25.4% 与 60.2%，Cox HR 3.49，p < 0.005）以及复合首次卒中、MI、或死亡（CAC 0 组与 >400 组：33.5% 与 63.8%，Cox HR 3.00，p < 0.005）。在 8,052 名低剂量肺癌筛查 CT (LDCT) 患者的筛查数据集中，3,091/8,052 人 (38.4%) 的 AI-CAC >400。四位心脏病专家对超过 400 名 AI-CAC 患者的随机样本的 LDCT 图像进行了定性审查，并证实 527/531 (99.2%) 将从降脂治疗中受益。据我们所知，这是第一个在国家医疗保健系统中开发的非门控 CT CAC 算法，采用多种成像协议，无需过滤心脏内硬件，并与强门控 CT 参考进行比较。我们报告了相对于之前的 CAC 算法的卓越性能，该算法是针对包含心脏内硬件的患者的配对门控扫描进行评估的。

约束多目标强化学习的离线适应框架

分类： 机器学习, 人工智能

作者： Qian Lin, Zongkai Liu, Danying Mo, Chao Yu

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09958v1

摘要： 近年来，多目标强化学习（RL）研究取得了重大进展，其目的是通过结合对每个目标的偏好来平衡多个目标。在大多数现有研究中，必须在部署过程中提供特定的偏好，以明确指示所需的策略。然而，设计这些偏好在很大程度上取决于人类的先验知识，这些知识通常是通过对具有预期行为的高性能演示进行广泛观察而获得的。在这项工作中，我们针对多目标强化学习问题提出了一个简单而有效的离线适应框架，没有假设手工设计的目标偏好，而是仅给出了一些演示来隐式地表明预期策略的偏好。此外，我们证明，即使安全阈值未知，我们的框架也可以通过利用安全演示自然地扩展以满足对安全关键目标的限制。离线多目标和安全任务的实证结果证明了我们的框架能够推断出符合真实偏好的政策，同时满足所提供的演示所暗示的约束。

深度图异常检测：调查和新视角

分类： 机器学习, 人工智能

作者： Hezhe Qiao, Hanghang Tong, Bo An, Irwin King, Charu Aggarwal, Guansong Pang

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09957v1

摘要： 图异常检测（GAD）旨在识别异常图实例（节点、边、子图或图），由于其在广泛应用中的重要性，近年来引起了越来越多的关注。深度学习方法，特别是图神经网络（GNN），由于其捕获图数据中复杂结构和/或节点属性的强大能力，已成为 GAD 的一个有前途的范例。考虑到针对基于 GNN 的 GAD 提出了大量方法，总结现有 GAD 研究中的方法和发现至关重要，以便我们能够找到解决开放式 GAD 问题的有效模型设计。为此，在这项工作中，我们的目标是对 GAD 的深度学习方法进行全面回顾。现有的 GAD 调查侧重于特定任务的讨论，因此很难理解现有方法的技术见解及其在解决 GAD 中的一些独特挑战方面的局限性。为了填补这一空白，我们首先讨论 GAD 中的问题复杂性及其带来的挑战，然后从三个新颖的方法论角度对当前的深度 GAD 方法进行系统回顾，包括 GNN 主干设计、GAD 代理任务设计和图异常措施。为了加深讨论，我们进一步提出了这三个视角下 13 个细粒度方法类别的分类，以提供对模型设计及其功能的更深入的见解。为了便于实验和验证，我们还总结了一系列广泛使用的 GAD 数据集和实证比较。我们进一步讨论多个悬而未决的问题，以激发未来更多高质量的研究。 https://github.com/mala-lab/Awesome-Deep-Graph-Anomaly-Detection 提供了持续更新的数据集存储库、算法代码链接和经验比较。

利用机器学习对感应电机进行故障分析和预测性维护

分类： 机器学习, 人工智能

作者： Kavana Venkatesh, Neethi M

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09944v1

摘要： 感应电机是最重要的电气设备之一，广泛应用于各行各业。本文提出了一种使用三相电压和电流作为输入来对感应电机故障进行故障检测和分类的机器学习模型。这项工作的目的是保护重要的电气元件，并通过早期检测和诊断来防止异常事件的进展。这项工作提出了一种快进人工神经网络模型来检测一些常见的电气故障，如过压、欠压、单相、不平衡电压、过载、接地故障。提出了一个单独的无模型监控系统，其中电机本身就像一个传感器，唯一的监控信号是给予电机的输入。针对故障和健康状况设置电流和电压值的限制，这是由分类器完成的。来自 0.33 HP 感应电机的实时数据用于训练和测试神经网络。如此开发的模型分析特定时刻给出的电压和电流值，并将数据分类为无故障或特定故障。然后将该模型与真实电机连接，以准确检测和分类故障，以便采取进一步的必要措施。

现代大型语言模型的数据污染检测：限制、不一致和 Oracle 挑战

分类： 计算和语言, 人工智能

作者： Vinay Samuel, Yue Zhou, Henry Peng Zou

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09927v1

摘要： 随着大型语言模型取得越来越令人印象深刻的结果，人们开始质疑这种性能是来自泛化性还是仅仅来自数据记忆。因此，已经提出了许多数据污染检测方法。然而，这些方法通常通过传统基准和早期大语言模型进行验证，因此在评估最先进的大语言模型对更具挑战性的基准的污染时，其有效性存在不确定性。为了解决这一差距并对 SOTA LLM 污染状态和检测方法稳健性进行双重调查，我们在现代 LLM 评估中经常使用的八个具有挑战性的数据集上使用四个最先进的 LLM 评估了五种污染检测方法。我们的分析表明：（1）当前的方法在假设和实际应用中存在很大的局限性； (2) 检测指令微调和答案增强过程中引入的污染存在显着困难； (3) SOTA 污染检测技术之间的一致性有限。这些发现凸显了高级大语言模型中污染检测的复杂性，以及对稳健和普遍的污染评估进行进一步研究的迫切需要。我们的代码可在 https://github.com/vsamuel2003/data-contamination 获取。

SFR-RAG：迈向忠实于背景的大语言模型

分类： 计算和语言, 人工智能

作者： Xuan-Phi Nguyen, Shrey Pandit, Senthil Purushwalkam, Austin Xu, Hailin Chen, Yifei Ming, Zixuan Ke, Silvio Savarese, Caiming Xong, Shafiq Joty

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09916v1

摘要： 检索增强生成（RAG）是一种将外部上下文信息与大型语言模型（LLM）集成以提高事实准确性和相关性的范式，已成为生成人工智能的关键领域。 RAG申请中使用的大语言模型需要忠实、完整地理解所提供的上下文和用户的问题，避免产生幻觉，处理无法回答、反事实或其他低质量和不相关的上下文，执行复杂的多跳推理并产生可靠的引文。在本文中，我们介绍了 SFR-RAG，这是一种小型大语言模型，经过指令调整，重点是基于上下文的生成和幻觉最小化。我们还推出了 ContextualBench，这是一个新的评估框架，编译了多个流行且多样化的 RAG 基准，例如 HotpotQA 和 TriviaQA，具有一致的 RAG 设置，以确保模型评估的可重复性和一致性。实验结果表明，我们的 SFR-RAG-9B 模型优于 Command-R+ (104B) 和 GPT-4o 等领先基线，在 ContextualBench 的 7 个基准测试中的 3 个中以明显更少的参数实现了最先进的结果。该模型还被证明能够适应上下文信息的改变，并且在相关上下文被删除时表现得适当。此外，SFR-RAG 模型在一般指令跟踪任务和函数调用功能方面保持了具有竞争力的性能。

REG：使用基于视觉的检测和分割模型，用于泰国高速公路道路资产检测的精细广义焦点损失

分类： 计算机视觉和模式识别, 人工智能

作者： Teerapong Panboonyuen

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09877v2

摘要： 本文介绍了一种新颖的框架，用于使用先进的精细广义焦点损失 (REG) 公式来检测和分割泰国高速公路上的关键道路资产。所提出的方法集成到最先进的基于视觉的检测和分割模型中，有效地解决了类别不平衡以及定位小型、代表性不足的道路元素的挑战，包括展馆、人行天桥、信息标志、单臂杆、公交车停车站、警告标志和混凝土护栏。为了提高检测和分割的准确性，采用多任务学习策略，跨多个任务优化 REG。通过纳入空间上下文调整项（考虑道路资产的空间分布）和概率细化（捕获复杂环境（例如变化的照明条件和杂乱的背景）中的预测不确定性），进一步增强了 REG。我们严格的数学公式表明，REG 通过对难以检测的实例应用自适应权重，同时降低更容易的示例的权重，最大限度地减少定位和分类错误。实验结果表明，性能大幅提升，mAP50 达到 80.34，F1 分数达到 77.87，显着优于传统方法。这项研究强调了先进的损失函数细化的能力，以提高道路资产检测和分割的鲁棒性和准确性，从而有助于改善道路安全和基础设施管理。有关数学背景和相关方法的深入讨论，请参阅 \url{https://github.com/kaopanboonyuen/REG} 上提供的先前工作。

Lyapunov 函数 (CALF) 的评论家：一种无模型、确保稳定性的代理

分类： 机器人技术, 人工智能, 优化与控制

作者： Pavel Osinenko, Grigory Yaremenko, Roman Zashchitin, Anton Bolychev, Sinan Ibrahim, Dmitrii Dobriborsci

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09869v1

摘要： 这项工作提出并展示了一种名为 Critic As Lyapunov Function (CALF) 的新型强化学习代理，它是无模型的并确保在线环境，换句话说，动态系统稳定性。在线意味着在每个学习阶段，所述环境都是稳定的。正如移动机器人模拟器的案例研究所证明的那样，这极大地提高了整体学习性能。 CALF 的基本演员-评论家方案类似于 SARSA。后者在我们的研究中没有显示出达到目标的任何成功。然而，其修改版本（此处称为 SARSA-m）确实在某些学习场景中取得了成功。尽管如此，CALF 的表现仍然远远优于上述方法。 CALF 还被证明可以改善为其提供的标称稳定剂。总之，所提出的代理可以被认为是将经典控制与强化学习融合的可行方法。它的并发方法大多是离线的或基于模型的，例如将模型预测控制融合到代理中的方法。

潜在空间的动力学操纵

分类： 计算机视觉和模式识别, 人工智能

作者： Diego Porres

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09867v1

摘要： 许多生成模型的潜在空间充满了未开发的山谷和山脉。到目前为止，用于探索它们的大多数工具仅限于图形用户界面（GUI）。虽然可以使用专用硬件来完成此任务，但我们表明，从实时 RGB 摄像机输入中提取预先训练的卷积神经网络 (CNN) 的简单特征可以很好地通过场景中的简单变化来操纵潜在空间，具有巨大的改进空间。我们将这种新范例命名为 Visual-reactive Interpolation，完整代码可以在 https://github.com/PDillis/stylegan3-fun 找到。

构建歌唱风格字幕数据集

分类： 计算和语言, 人工智能, 机器学习, 声音, 音频和语音处理

作者： Hyunjong Ok, Jaeho Lee

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09866v1

摘要： 歌声合成和转换已成为语音生成的重要子领域，导致对提示条件生成的大量需求。与普通语音数据不同，生成歌声需要理解各种相关的声音和音乐特征，例如歌手的声调或情感表达。然而，现有的用于语音生成的开源音频文本数据集往往仅捕获非常有限的属性范围，通常会丢失音频的音乐特征。为了填补这一空白，我们引入了 S2Cap，这是一个具有多种属性的音频文本对数据集。 S2Cap 由成对的文本提示和音乐音频样本组成，具有广泛的声音和音乐属性，包括音高、音量、节奏、情绪、歌手的性别和年龄、音乐流派和情感表达。利用 S2Cap，我们提出了一种用于歌唱风格字幕的有效新颖基线算法。歌唱风格字幕是与语音生成相关的任务，语音生成生成声音特征的文本描述，这是我们首先建议的。首先，为了减轻音频编码器和文本解码器之间的错位，我们提出了一种名为 CRESCENDO 的新颖机制，它利用正对相似性学习来同步预训练音频编码器的嵌入空间，以获得与文本编码器相似的嵌入。我们还使用歌手的声音来监督模型，该声音通过伴奏进行分离。这种监督使模型能够更准确地捕捉声音特征，从而改进歌唱风格字幕，更好地反映歌手的风格。数据集和代码可在 \bulurl{https://github.com/HJ-Ok/S2cap} 获取。

从因果角度研究图机器学习的分布外泛化

分类： 机器学习, 人工智能

作者： Jing Ma

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09858v1

摘要： 图机器学习（GML）已成功应用于广泛的任务。尽管如此，GML 在泛化分布外 (OOD) 数据方面面临着重大挑战，这引发了对其更广泛适用性的担忧。最近的进展强调了因果驱动方法在克服这些泛化挑战方面的关键作用。与主要依赖统计依赖性的传统 GML 方法不同，以因果关系为中心的策略深入研究数据生成和模型预测的底层因果机制，从而显着提高 GML 在不同环境下的泛化能力。本文对涉及因果关系的 GML 泛化的最新进展进行了全面回顾。我们阐明了利用因果关系增强图模型泛化的基本概念，并对各种方法进行分类，提供了其方法论及其之间的联系的详细描述。此外，我们还探索了将因果关系纳入可信 GML 的其他相关重要领域，例如解释、公平性和鲁棒性。最后，本文讨论了未来潜在的研究方向，旨在阐明因果关系在增强图机器学习可信度方面的持续发展和未来潜力。

用于可控 RNA 序列生成的潜在扩散模型

分类： 机器学习, 人工智能, 定量方法

作者： Kaixuan Huang, Yukang Yang, Kaidi Fu, Yanyi Chu, Le Cong, Mengdi Wang

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09828v1

摘要： 本文提出了 RNAdiffusion，一种用于生成和优化离散 RNA 序列的潜在扩散模型。 RNA 是生物过程中一种特别动态且用途广泛的分子。 RNA序列表现出高度的变异性和多样性，其特点是长度可变、三维结构灵活、功能多样。我们利用预训练的 BERT 型模型将原始 RNA 编码为 token 级的具有生物学意义的表示。 Q-Former 用于将这些表示压缩为固定长度的潜在向量集，并使用经过训练的自回归解码器从这些潜在变量重建 RNA 序列。然后，我们在这个潜在空间内开发一个连续扩散模型。为了实现优化，我们训练奖励网络来根据潜在变量估计 RNA 的功能特性。我们在后向扩散过程中采用基于梯度的指导，旨在生成经过优化以获得更高奖励的 RNA 序列。经验实验证实，RNAdiffusion 生成的非编码 RNA 与各种生物指标的自然分布一致。我们对 mRNA 非翻译区 (UTR) 的扩散模型进行了微调，并优化了样品序列以提高蛋白质翻译效率。我们的引导扩散模型有效地生成了具有高平均核糖体负载 (MRL) 和翻译效率 (TE) 的多样化 UTR 序列，超过了基线。这些结果为 RNA 序列功能关系、蛋白质合成和增强治疗性 RNA 设计的研究带来了希望。

机器人错误对人类教学动力的影响

分类： 机器人技术, 人工智能, 人机交互

作者： Jindan Huang, Isaac Sheidlower, Reuben M. Aronson, Elaine Schaertl Short

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09827v1

摘要： 人机循环学习越来越受欢迎，特别是在机器人领域，因为它利用人类关于现实世界任务的知识来促进代理学习。当人们指导机器人时，他们会自然地调整自己的教学行为以响应机器人性能的变化。虽然当前的研究主要集中在从算法的角度整合人类教学动态，但从以人为中心的角度理解这些动态是一个尚未充分探索的基本问题。解决这个问题将增强机器人学习和用户体验。因此，本文探讨了影响人类教学动态性的一个潜在因素：机器人错误。我们进行了一项用户研究，以调查机器人错误的存在和严重程度如何影响人类教学动态的三个维度：反馈粒度、反馈丰富度和教学时间，无论是在强制选择还是开放式教学环境中。结果表明，人们倾向于花更多的时间来教有错误的机器人，对机器人轨迹的特定部分提供更详细的反馈，并且机器人的错误会影响老师对反馈方式的选择。我们的研究结果为设计有效的交互式学习界面和优化算法以更好地理解人类意图提供了宝贵的见解。

GP-GPT：用于基因表型作图的大型语言模型

分类： 计算和语言, 人工智能

作者： Yanjun Lyu, Zihao Wu, Lu Zhang, Jing Zhang, Yiwei Li, Wei Ruan, Zhengliang Liu, Xiaowei Yu, Chao Cao, Tong Chen, Minheng Chen, Yan Zhuang, Xiang Li, Rongjie Liu, Chao Huang, Wentao Li, Tianming Liu, Dajiang Zhu

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09825v1

摘要： 预训练的大语言模型（LLM）由于在自然语言处理方面的成功而在生物医学领域引起了越来越多的关注。然而，多源基因组学数据的复杂特征和异质性在将这些模型应用于生物信息学和生物医学领域时提出了重大挑战。为了应对这些挑战，我们提出了 GP-GPT，这是第一个用于遗传表型知识表示和基因组学关系分析的专用大语言模型。我们的模型在一个综合语料库上分两个阶段进行微调，该语料库由超过 3,000,000 个基因组学、蛋白质组学和医学遗传学术语组成，这些术语源自多个大规模验证的数据集和科学出版物。 GP-GPT 能够熟练地准确检索医学遗传学信息并执行常见的基因组学分析任务，例如基因组学信息检索和关系确定。跨领域特定任务的比较实验表明，GP-GPT 的性能优于最先进的 LLM，包括 Llama2、Llama3 和 GPT-4。这些结果凸显了 GP-GPT 增强遗传疾病关系研究并促进基因组学和医学遗传学领域准确有效分析的潜力。我们的研究证明了生物因子实体在 GP-GPT 中的表征的微妙变化，这表明了应用大语言模型推进基因表型研究的机会。

大型语言模型的因果推理：一项调查

分类： 计算和语言, 人工智能

作者： Jing Ma

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09822v1

摘要： 因果推理一直是医学和经济学等不同领域的关键挑战，需要人类知识、数学推理和数据挖掘能力的复杂整合。自然语言处理 (NLP) 的最新进展，特别是随着大型语言模型 (LLM) 的出现，为传统因果推理任务带来了有希望的机会。本文回顾了大语言模型应用于因果推理的最新进展，涵盖了跨越不同因果关系层次的各种任务。我们总结了主要的因果问题和方法，并比较了它们在不同因果场景下的评估结果。此外，我们讨论了主要发现并概述了未来研究的方向，强调了将大语言模型纳入推进因果推理方法的潜在影响。

Famba-V：具有跨层令牌融合的快速视觉 Mamba

分类： 计算机视觉和模式识别, 人工智能

作者： Hui Shen, Zhongwei Wan, Xin Wang, Mi Zhang

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09808v1

摘要： Mamba 和 Vision Mamba (Vim) 模型已经显示出它们作为基于 Transformer 架构的方法的替代方案的潜力。这项工作引入了 Fast Mamba for Vision (Famba-V)，这是一种跨层令牌融合技术，可提高 Vim 模型的训练效率。 Famba-V 的关键思想是基于一套跨层策略来识别和融合不同 Vim 层之间的相似令牌，而不是简单地在现有工作提出的所有层上统一应用令牌融合。我们评估了 Famba-V 在 CIFAR-100 上的性能。我们的结果表明，Famba-V 能够通过减少训练时间和训练期间的峰值内存使用来提高 Vim 模型的训练效率。此外，所提出的跨层策略使 Famba-V 能够提供卓越的准确性与效率权衡。这些结果共同证明 Famba-V 是一种很有前途的 Vim 模型效率增强技术。

使用深度嵌入检测视频中的异常事件

分类： 计算机视觉和模式识别, 人工智能

作者： Darshan Venkatrayappa

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09804v1

摘要： 由于可能事件的多样性，监控视频中的异常事件检测或异常检测目前是一个挑战。由于训练时缺乏异常事件，异常检测需要设计无监督的学习方法。在这项工作中，我们提出了一种用于视频异常检测的无监督方法，旨在使用混合架构联合优化深度神经网络的目标和异常检测任务。最初，卷积自动编码器以无监督的方式进行预训练，融合了深度、运动和外观特征。在第二步中，我们利用预训练自动编码器的编码器部分并提取融合输入的嵌入。现在，我们联合训练/微调编码器以将嵌入映射到超级中心。因此，正常数据的嵌入落在超级中心附近，而异常数据的嵌入则远离超级中心。

具有约束重新加权深度矩阵分解的多次旋转平均

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Shiqi Li, Jihua Zhu, Yifan Xie, Naiwen Hu, Mingchen Zhu, Zhongyu Li, Di Wang

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09790v1

摘要： 多次旋转平均在计算机视觉和机器人领域中起着至关重要的作用。传统的基于优化的方法基于某些噪声假设来优化非线性成本函数，而以前的大多数基于学习的方法在监督训练过程中需要地面实况标签。认识到手工制作的噪声假设在所有现实场景中可能并不合理，本文提出了一种有效的旋转平均方法，以学习的方式挖掘数据模式，同时避免标签的要求。具体来说，我们应用深度矩阵分解来直接解决无约束线性空间中的多次旋转平均问题。对于深度矩阵分解，我们设计了一个神经网络模型，该模型具有明确的低秩和对称性，以更好地适应多次旋转平均的背景。同时，我们利用基于生成树的边缘过滤来抑制旋转异常值的影响。更重要的是，我们还采用了重新加权方案和动态深度选择策略来进一步提高鲁棒性。我们的方法综合了基于优化和基于学习的方法的优点。各种数据集的实验结果验证了我们提出的方法的有效性。

BEnDEM：一种基于自举去噪能量匹配的玻尔兹曼采样器

分类： 机器学习, 人工智能, 计算, 机器学习

作者： RuiKang OuYang, Bo Qiang, José Miguel Hernández-Lobato

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09787v1

摘要： 开发一种能够从玻尔兹曼分布生成独立同分布（IID）样本的高效采样器是科学研究中的一个关键挑战，例如分子动力学。在这项工作中，我们打算学习给定能量函数的神经采样器，而不是从玻尔兹曼分布采样的数据。通过学习噪声数据的能量，我们提出了一种基于扩散的采样器，即基于能量的去噪能量匹配，理论上与相关工作相比，它具有更低的方差和更高的复杂性。此外，EnDEM 应用了一种新颖的引导技术来平衡偏差和方差。我们在二维 40 高斯混合模型 (GMM) 和 4 粒子双阱势 (DW-4) 上评估 EnDEM 和 BEnDEM。实验结果表明，BEnDEM 可以实现最先进的性能，同时更加稳健。

基于大型语言模型的生成纠错：语音识别、说话人标记和情绪识别的挑战和基线

分类： 计算和语言, 人工智能, 机器学习, 声音, 音频和语音处理

作者： Chao-Han Huck Yang, Taejin Park, Yuan Gong, Yuanchao Li, Zhehuai Chen, Yen-Ting Lin, Chen Chen, Yuchen Hu, Kunal Dhawan, Piotr Żelasko, Chao Zhang, Yun-Nung Chen, Yu Tsao, Jagadeesh Balam, Boris Ginsburg, Sabato Marco Siniscalchi, Eng Siong Chng, Peter Bell, Catherine Lai, Shinji Watanabe, Andreas Stolcke

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09785v2

摘要： 鉴于生成式人工智能技术的最新进展，一个关键问题是大型语言模型 (LLM) 如何使用来自冻结的预训练自动语音识别 (ASR) 模型的文本解码结果来增强声学建模任务。为了探索语音处理语言建模的新功能，我们引入了生成语音转录纠错（GenSEC）挑战。该挑战包括三个 ASR 后语言建模任务：(i) ASR 后转录校正、(ii) 说话者标记和 (iii) 情感识别。这些任务旨在模拟未来基于 LLM 的代理处理基于语音的界面，同时通过利用开放的预训练语言模型或基于代理的 API 来保持广大受众的可访问性。我们还讨论了基线评估的见解，以及设计未来评估的经验教训。

利用深度学习和先进的数据预处理技术增强 PET/CT 成像中的病灶分割

分类： 计算机视觉和模式识别, 人工智能

作者： Jiayi Liu, Qiaoyi Xue, Youdan Feng, Tianming Xu, Kaixin Shen, Chuyun Shen, Yuhang Shi

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09784v1

摘要： 全球癌症负担不断升级，凸显了肿瘤学领域对精确诊断工具的迫切需求。这项研究利用 AutoPET 挑战 III 中的 900 项全身 FDG-PET/CT 和 600 项 PSMA-PET/CT 研究数据集，采用深度学习来增强 PET/CT 成像中的病变分割。我们有条不紊的方法包括强大的预处理和数据增强技术，以确保模型的稳健性和通用性。我们研究了非零归一化和修改对数据增强管道的影响，例如引入 RandGaussianSharpen 和调整 Gamma 变换参数。本研究旨在促进 PET/CT 成像预处理和增强策略的标准化，从而潜在地提高癌症患者的诊断准确性和个性化管理。我们的代码将开源并可在 https://github.com/jiayiliu-pku/DC2024 上获取。

多示踪剂环境下全身 PET/CT 的自动病灶分割

分类： 计算机视觉和模式识别, 人工智能

作者： Qiaoyi Xue, Youdan Feng, Jiayi Liu, Tianming Xu, Kaixin Shen, Chuyun Shen, Yuhang Shi

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09766v1

摘要： 本研究探索了 FDG 和 PSMA PET/CT 图像中病灶自动分割的工作流程。由于 FDG 和 PSMA 之间的图像特性存在显着差异，因此需要专门的预处理步骤。利用YOLOv8进行数据分类，FDG和PSMA图像在输入分割模型之前分别进行预处理，旨在提高病变分割精度。该研究的重点是评估多示踪剂 PET 图像自动分割工作流程的性能。研究结果预计将为加强诊断工作流程和患者特定的治疗计划提供重要见解。我们的代码将开源并可在 https://github.com/jiayiliu-pku/AP2024 上获取。

ELMI：交互式智能手语翻译歌词手语

分类： 人机交互, 人工智能, 计算和语言, H.5.2; I.2.8

作者： Suhyeon Yoo, Khai N. Truong, Young-Ho Kim

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09760v1

摘要： 聋哑人和听力正常的歌曲手语者在视频共享平台上变得普遍，但将歌曲翻译成手语仍然很麻烦且难以实现。我们的形成性研究揭示了歌曲签名者面临的挑战，包括翻译中的语义、句法、表达和节奏考虑。我们推出 ELMI，这是一种易于使用的歌曲签名工具，可帮助将歌词翻译成手语。 ELMI 使用户能够逐行编辑注释，并实时同步歌词突出显示和音乐视频片段。用户还可以与大型语言模型驱动的人工智能聊天，讨论含义、注释、表情和时机。通过对 13 名歌曲签名者进行的探索性研究，我们研究了 ELMI 如何促进他们的工作流程以及歌曲签名者如何利用和接收 LLM 驱动的聊天进行翻译。参与者们成功采用 ELMI 进行签名，并进行了积极的讨论。他们还报告说，他们的翻译信心和独立性有所提高，发现 ELMI 令人鼓舞、具有建设性且信息丰富。我们讨论了在文化敏感的歌曲签名翻译中利用大语言模型的设计含义。

探索 MLLM 的低级知觉幻觉

分类： 计算机视觉和模式识别, 人工智能

作者： Yinan Sun, Zicheng Zhang, Haoning Wu, Xiaohong Liu, Weisi Lin, Guangtao Zhai, Xiongkuo Min

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09748v1

摘要： 多模态大语言模型（MLLM）的快速发展对工业和日常生活的各个方面产生了重大影响，展示了令人印象深刻的视觉感知和理解能力。然而，这些模型也表现出幻觉，这限制了它们作为人工智能系统的可靠性，特别是在涉及低级视觉感知和理解的任务中。我们认为，幻觉源于这些模型缺乏明确的自我意识，这直接影响了它们的整体表现。在本文中，我们的目标是定义和评估 MLLM 在低级视觉感知和理解任务中的自我意识。为此，我们提出了 QL-Bench，这是一个模拟人类对低级视觉反应的基准设置，通过与清晰度和照明等低级属性相关的视觉问题回答来研究低级视觉感知中的自我意识。具体来说，我们构建了 LLSAVisionQA 数据集，其中包含 2,990 个单图像和 1,999 个图像对，每个图像都附有一个关于其低级特征的开放式问题。通过对 15 个 MLLM 的评估，我们证明虽然一些模型表现出强大的低级视觉能力，但它们的自我意识仍然相对不发达。值得注意的是，对于同一模型，简单的问题通常比复杂的问题得到更准确的回答。然而，在解决更具挑战性的问题时，自我意识似乎会有所提高。我们希望我们的基准能够激发进一步的研究，特别是关注增强 MLLM 在涉及低级视觉感知和理解的任务中的自我意识。

政治内容文本注释中大语言模型的基准测试：使用毒性和不文明行为数据进行概念验证

分类： 计算和语言, 人工智能, 68T50 (Primary) 91F10, 91F20 (Secondary)

作者： Bastián González-Bustamante

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09741v1

摘要： 本文对 OpenAI 的 GPT 和许多开源 LLM 对政治内容执行注释任务的能力进行了基准测试。我们使用了一个包含超过三百万次数字交互的新颖抗议事件数据集，并创建了一个黄金标准，其中包括由人类编码员注释的有关社交媒体上的毒性和不文明行为的真实标签。我们在基准测试中纳入了 Google 的 Perspective 算法，该算法与 GPT 一起在各自的 API 中使用，而开源 LLM 则部署在本地。研究结果表明，使用较宽松阈值的 Perspective API、GPT-4o 和 Nous Hermes 2 Mixtral 优于其他 LLM 的零样本分类注释。此外，Nous Hermes 2 和 Mistral OpenOrca 具有较少的参数，能够以高性能执行任务，是有吸引力的选择，可以在性能、实施成本和计算时间之间提供良好的权衡。使用设置不同温度水平的实验的辅助结果表明，尽管 GPT 往往不仅表现出出色的计算时间，而且总体上也表现出良好的可靠性水平，但只有开源 LLM 才能确保注释的完全可重复性。

从挑战和陷阱到建议和机遇：在医疗保健领域实施联邦学习

分类： 机器学习, 人工智能

作者： Ming Li, Pengcheng Xu, Junjie Hu, Zeyu Tang, Guang Yang

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09727v1

摘要： 联合学习在实现跨多个中心的大规模医疗保健研究和协作方面具有巨大潜力，同时确保数据隐私和安全不受影响。尽管最近的许多研究建议或利用基于联邦学习的医疗保健方法，但仍不清楚哪些方法具有潜在的临床实用性。这篇综述论文考虑并分析了截至 2024 年 5 月的最新研究，这些研究描述了基于联邦学习的医疗保健方法。经过彻底审查后，我们发现绝大多数由于其方法学缺陷和/或潜在偏见（包括但不限于隐私问题、泛化问题和沟通成本）而不适合临床使用。因此，医疗保健领域联邦学习的有效性受到严重影响。为了克服这些挑战，我们提供了建议和有希望的机会，可以用来解决这些问题并提高医疗保健联合学习中模型开发的质量。

类人推理的自动控制：探索空中交通代理所体现的语言模型

分类： 人工智能, 计算和语言

作者： Justas Andriuškevičius, Junzi Sun

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09717v1

摘要： 语言模型的最新发展为空中交通管制研究创造了新的机遇。当前的重点主要是基于文本和语言的用例。然而，这些语言模型可能会在空中交通管制领域产生更大的潜在影响，因为它们能够以具体代理的形式与空中交通环境进行交互。它们还提供类似语言的推理能力来解释其决策，这一直是实施自动空中交通管制的重大障碍。本文研究了基于语言模型的代理的应用，该代理具有函数调用和学习能力，可以在无需人工干预的情况下解决空中交通冲突。这项研究的主要组成部分是基础大型语言模型、允许代理与模拟器交互的工具以及一个新概念——经验库。这项研究的一个创新部分是经验库，它是一个向量数据库，它存储智能体从与模拟和语言模型的交互中学到的综合知识。为了评估基于语言模型的代理的性能，我们测试了开源和闭源模型。我们的研究结果揭示了基于语言模型的代理的各种配置之间的性能显着差异。性能最佳的配置能够解决几乎所有 120 种情况（除了一种迫在眉睫的冲突情况），其中包括同时处理最多四架飞机。最重要的是，代理能够提供有关交通状况和冲突解决策略的人类水平的文本解释。

探索现实世界仓库优化问题的实用性：基于 Quantun 退火器的公式和初步结果

分类： 新兴技术, 人工智能

作者： Eneko Osaba, Esther Villar-Rodriguez, Antón Asla

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09706v1

摘要： 在当前的 NISQ 时代，研究人员和实践者面临的主要挑战之一在于如何以最高效和创新的方式将量子计算和经典计算结合起来。在本文中，我们提出了一种称为仓库优化问题的量子初始化的机制，该机制采用 D-Wave 的量子退火器。该模块经过专门设计，可以嵌入到现有的经典软件中，专门用于优化现实世界的工业问题。我们通过针对经典版本软件的两阶段实验初步测试了所实现的机制。

奖励低廉的 GFlowNet 预训练

分类： 机器学习, 人工智能, 生物分子

作者： Mohit Pandey, Gopeshh Subbaraj, Emmanuel Bengio

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09702v1

摘要： 生成流网络（GFlowNets）是一类生成模型，最近出现作为通过学习非标准化奖励分布来生成多样化和高质量分子结构的合适框架。以前在这个方向上的工作通常通过使用预定义的分子片段作为构建块来限制探索，从而限制了可以访问的化学空间。在这项工作中，我们介绍了原子 GFlowNets (A-GFNs)，这是一种利用单个原子作为构建块来更全面地探索类药物化学空间的基础生成模型。我们提出了一种使用离线类药物分子数据集的无监督预训练方法，该方法将 A-GFN 置于廉价但信息丰富的分子描述符上，例如药物可能性、拓扑极性表面积和合成可及性分数。这些特性作为代理奖励，引导 A-GFN 进入具有理想药理学特性的化学空间区域。我们通过实施目标条件微调过程来进一步推进我们的方法，该过程调整 A-GFN 以针对特定目标属性进行优化。在这项工作中，我们在 ZINC15 离线数据集上预训练 A-GFN，并采用稳健的评估指标来显示我们的方法与药物设计中其他相关基线方法相比的有效性。

使用全局 SDP 边界训练安全神经网络

分类： 机器学习, 人工智能, 优化与控制

作者： Roman Soletskyi, David "davidad" Dalrymple

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09687v1

摘要： 本文提出了一种使用半定规划（SDP）进行验证的具有形式安全保证的神经网络训练新方法。我们的方法侧重于验证大型高维输入区域的安全性，解决专注于对抗鲁棒性边界的现有技术的局限性。我们在 Adversarial Spheres 数据集上引入了一种基于 ADMM 的精确神经网络分类器训练方案，可在输入维度高达 $d=40$ 的情况下实现可证明的完美召回。这项工作推动了高维系统可靠神经网络验证方法的开发，并在安全强化学习策略中具有潜在应用。

马科维茨的机器剖析：均值方差投资组合优化的决策聚焦学习

分类： 投资组合管理, 人工智能

作者： Junhyeong Lee, Inwoo Tae, Yongjae Lee

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09684v1

摘要： 马科维茨通过均值-方差优化（MVO）框架奠定了投资组合理论的基础。然而，MVO 的有效性取决于对资产回报的预期回报、方差和协方差的精确估计，而这些通常是不确定的。机器学习模型在估计不确定参数方面变得越来越有用，并且此类模型经过训练可以最大限度地减少预测误差，例如均方误差 (MSE)，它统一处理跨资产的预测误差。最近的研究指出，这种方法会导致决策不理想，并提出了以决策为中心的学习（DFL）作为解决方案，整合预测和优化来改善决策结果。虽然研究表明 DFL 具有提高投资组合绩效的潜力，但 DFL 如何修改 MVO 预测模型的详细机制仍有待探索。本研究旨在探讨 DFL 如何调整股票收益预测模型来优化 MVO 决策，解决“MSE 平等对待所有资产的误差，但 DFL 如何不同地减少不同资产的误差？”的问题。回答这个问题将为构建有效投资组合的最佳股票回报预测提供重要的见解。

超声心动图中主动脉瓣狭窄分类的可靠多视图学习和适形预测

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Ang Nan Gu, Michael Tsang, Hooman Vaseli, Teresa Tsang, Purang Abolmaesumi

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09680v1

摘要： 超声引导诊断的根本问题是所获取的图像通常是 3D 解剖结构的 2D 横截面，可能会丢失重要的解剖细节。这种限制导致超声心动图检查面临挑战，例如心脏瓣膜可视化不佳或心室缩短。临床医生必须以固有的不确定性来解释这些图像，这是机器学习的热门标签中不存在的细微差别。我们提出了针对不确定性的重新训练（RT4U），这是一种以数据为中心的方法，用于向训练集中的弱信息输入引入不确定性。这种简单的方法可以合并到现有最先进的主动脉瓣狭窄分类方法中，以进一步提高其准确性。当与保形预测技术相结合时，RT4U 可以生成自适应大小的预测集，保证高精度地包含地面真实类别。我们在三个不同的数据集上验证了 RT4U 的有效性：公共 (TMED-2) 和私有 AS 数据集，以及源自 CIFAR-10 的玩具数据集。结果显示所有数据集都有所改善。

ExploreSelf：通过大型语言模型的自适应指导促进用户驱动的对个人挑战的探索和反思

分类： 人机交互, 人工智能, 计算和语言, H.5.2; I.2.7

作者： Inhwa Song, SoHyun Park, Sachin R. Pendse, Jessica Lee Schleider, Munmun De Choudhury, Young-Ho Kim

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09662v2

摘要： 事实证明，用语言表达压力经历可以改善身心健康，但人们在努力组织自己的思想和情绪时常常会脱离写作干预。反思性提示已被用来提供指导，大型语言模型 (LLM) 已证明具有提供定制指导的潜力。当前的系统常常限制用户引导其思考的灵活性。因此，我们推出了 ExploreSelf，这是一款由大语言模型驱动的应用程序，旨在帮助用户控制他们的反思之旅。 ExploreSelf 允许用户通过动态生成的问题获得自适应支持。通过对 19 名参与者进行的探索性研究，我们研究了参与者如何使用 ExploreSelf 探索和反思个人挑战。我们的研究结果表明，参与者重视指导性支持和控制反思之旅的自由之间的平衡，从而实现更深入的参与和洞察。基于我们的发现，我们讨论了设计大语言模型驱动的工具的影响，这些工具通过有效的反思实践促进用户赋权。

阚诉用于离线强化学习的 MLP

分类： 机器学习, 人工智能

作者： Haihong Guo, Fengxin Li, Jiao Li, Hongyan Liu

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09653v1

摘要： 柯尔莫哥洛夫-阿诺德网络（KAN）是机器学习领域新兴的神经网络架构。研究界对 KAN 是否可以成为常用的多层感知 (MLP) 的有希望的替代品非常感兴趣。各个领域的实验表明，基于 KAN 的机器学习可以实现与基于 MLP 的方法相当（甚至更好）的性能，但参数规模要小得多，并且更易于解释。在本文中，我们探讨了将 KAN 纳入离线强化学习 (RL) 的参与者和评论家网络中。我们在离线 RL 的经典 D4RL 基准上评估了各种基于 KAN 和 MLP 的保守 Q 学习 (CQL) 的性能、参数规模和训练效率。我们的研究表明，KAN 可以用更少的参数实现接近常用 MLP 的性能。这为我们提供了根据离线强化学习任务的要求选择基础网络的选项。

声学小样本分类的自监督学习

分类： 声音, 人工智能, 音频和语音处理

作者： Jingyong Liang, Bernd Meyer, Issac Ning Lee, Thanh-Toan Do

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09647v1

摘要： 标记数据有限，自我监督学习是减少标记要求的最重要方法之一。虽然它在图像领域得到了广泛的探索，但迄今为止在声学领域尚未受到同样多的关注。然而，减少标签是许多声学应用的关键要求。特别是在生物声学领域，很少有足够的标签可用于完全监督学习。这导致了声学识别器的广泛使用，这些识别器已经针对生物声学任务的不相关数据进行了预训练。我们认为，对实际任务数据进行训练并将自监督预训练与少样本分类相结合是一种优越的方法，即使只有少数标签可用，也能够提供高精度。为此，我们引入并评估了一种新架构，该架构将基于 CNN 的预处理与基于状态空间模型 (SSM) 的特征提取相结合。这种组合的动机是基于 CNN 的网络单独难以有效地捕获时间信息，这对于声学信号的分类至关重要。另一方面，SSM，特别是 S4 和 Mamba，已被证明具有捕获序列数据中的远程依赖性的出色能力。我们使用实际任务数据的对比学习来预训练该架构，并随后使用极少量的标记数据进行微调。我们评估了该提议架构在标准基准测试和实际数据上的（$n$-shot，$n$-class）分类的性能。我们的评估表明，它在少样本分类问题上优于最先进的架构。

COSCO：用于少样本多元时间序列分类的锐度感知训练框架

分类： 机器学习, 人工智能, 神经和进化计算

作者： Jesus Barreda, Ashley Gomez, Ruben Puga, Kaixiong Zhou, Li Zhang

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09645v1

摘要： 多元时间序列分类是一项具有广泛应用领域的重要任务。最近，深度神经网络（DNN）在时间序列分类方面取得了最先进的性能。然而，它们通常需要大量专家标记的训练数据集，这在实践中可能不可行。在少样本设置中，即训练数据中每类只有有限数量的样本，DNN 的测试准确性显着下降，泛化能力较差。在本文中，我们建议从优化和损失函数的角度解决这些问题。具体来说，我们提出了一种名为 COSCO 的新学习框架，由锐度感知最小化（SAM）优化和原型损失函数组成，以提高 DNN 在少样本设置下处理多元时间序列分类问题的泛化能力。我们的实验证明我们提出的方法优于现有的基线方法。我们的源代码位于：https://github.com/JRB9/COSCO。

AACessTalk：通过情境指导和卡片推荐促进最少言语自闭症儿童与家长之间的沟通

分类： 人机交互, 人工智能, H.5.2; I.2.7

作者： Dasom Choi, SoHyun Park, Kyungah Lee, Hwajung Hong, Young-Ho Kim

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09641v2

摘要： 由于最低限度语言自闭症 (MVA) 儿童通过很少的言语和非语言暗示与父母交流，父母常常很难鼓励孩子表达微妙的情感和需求，并抓住他们微妙的信号。我们推出了 AACessTalk，这是一种基于平板电脑、以人工智能为媒介的通信系统，可促进 MVA 儿童和家长之间有意义的交流。 AACessTalk 为家长提供实时指导，让孩子参与对话，并反过来向孩子推荐上下文词汇卡。通过对 11 位 MVA 儿童家长进行为期两周的部署研究，我们研究了 AACessTalk 如何促进日常对话练习和相互参与。我们的研究结果显示，所有二人组的参与度都很高，导致对话和轮流的频率增加。 AACessTalk 还鼓励家长探索自己的互动策略，并赋予孩子更多的沟通自主权。我们讨论了设计技术对父母与 MVA 儿童互动中平衡沟通动态的影响。

复杂背景自然场景图像文本检测的新颖框架

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 图像和视频处理

作者： Basavaraj Kaladagi, Jagadeesh Pujari

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09635v1

摘要： 从相机图像中识别文本是一个众所周知的难题，因为从多样化和复杂的背景中进行文本检测很困难。在本文中，我们提出了一种新颖且有效的方法，使用小波变换从具有复杂背景的图像中检测文本区域。该框架使用灰度形式的原始图像的小波变换，然后进行子带滤波。然后使用区域的质心应用区域聚类技术，进一步将边界框拟合到每个区域，从而识别文本区域。这种方法比以前的方法更加复杂和高效，因为它不遵循文本的特定字体大小，因此使其具有通用性。用于实验目的的样本集由 50 张具有不同背景的图像组成。考虑具有边缘突出的图像。此外，我们的方法可以轻松地针对不同范围的应用进行定制。

基于 LLM 的对话状态跟踪的置信度估计

分类： 计算和语言, 人工智能

作者： Yi-Jyun Sun, Suvodip Dey, Dilek Hakkani-Tur, Gokhan Tur

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09629v1

摘要： 估计模型对其输出的置信度对于基于大型语言模型 (LLM) 的对话式 AI 系统至关重要，特别是对于减少幻觉和防止过度依赖。在这项工作中，我们对方法进行了详尽的探索，包括为开放权重和封闭权重大语言模型提出的方法，旨在量化和利用模型不确定性来提高大语言模型生成的响应的可靠性，特别关注对话状态跟踪（DST）面向任务的对话系统（TODS）。无论模型类型如何，经过良好校准的置信度分数对于处理不确定性至关重要，从而提高模型性能。我们评估了四种基于 softmax、原始标记得分、语言化置信度以及这些方法的组合来估计置信度得分的方法，使用曲线下面积 (AUC) 指标来评估校准，AUC 越高表明校准效果越好。我们还通过针对封闭模型提出的自探测机制来增强这些功能。此外，我们使用针对 DST 任务进行微调的开放权重模型来评估这些方法，从而实现卓越的联合目标精度（JGA）。我们的研究结果还表明，微调开放权重 LLM 可以提高 AUC 性能，表明更好的置信度校准。

AnySkin：用于机器人触摸的即插即用皮肤感应

分类： 机器人技术, 人工智能

作者： Raunaq Bhirangi, Venkatesh Pattabiraman, Enes Erciyes, Yifeng Cao, Tess Hellebrekers, Lerrel Pinto

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08276v1

摘要： 虽然触觉感知被广泛认为是一种重要且有用的感知方式，但与视觉和本体感觉等其他感知方式相比，它的使用显得相形见绌。 AnySkin 解决了阻碍触觉传感使用的关键挑战——多功能性、可替换性和数据可重用性。 AnySkin 基于 ReSkin 的简单设计，并将传感电子设备与传感接口分离，简化了集成，使其像戴上手机壳和连接充电器一样简单。此外，AnySkin 是第一个未经校准的触觉传感器，具有学习操作策略的跨实例通用性。总而言之，这项工作做出了三个关键贡献：首先，我们介绍了一种简化的制造工艺和设计工具，用于创建无粘合剂、耐用且易于更换的磁性触觉传感器；其次，我们使用 AnySkin 传感器来表征滑倒检测和策略学习；第三，我们演示了在 AnySkin 的一个实例上训练的模型到新实例的零样本泛化，并将其与流行的现有触觉解决方案（如 DIGIT 和 ReSkin）进行比较。https://any-skin.github.io/

从视频进行手-物体交互预训练

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Himanshu Gaurav Singh, Antonio Loquercio, Carmelo Sferrazza, Jane Wu, Haozhi Qi, Pieter Abbeel, Jitendra Malik

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08273v1

摘要： 我们提出了一种从 3D 手-物体交互轨迹中学习一般机器人操作先验的方法。我们构建了一个框架，使用野外视频来生成感觉运动机器人轨迹。我们通过在共享 3D 空间中举起人手和被操纵物体并将人类动作重新定位到机器人动作来实现这一点。对这些数据的生成建模为我们提供了一个与任务无关的基本策略。该策略捕获了一般但灵活的操纵先验。我们凭经验证明，通过强化学习（RL）和行为克隆（BC）来微调该策略，可以实现对下游任务的样本高效适应，同时与之前的方法相比提高了鲁棒性和泛化性。定性实验位于：\url{https://hgaurav2k.github.io/hop/}。

FlashSplat：2D 到 3D 高斯喷射分割的最佳解决方案

分类： 计算机视觉和模式识别, 人工智能, 图形, 多媒体

作者： Qiuhong Shen, Xingyi Yang, Xinchao Wang

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08270v1

摘要： 这项研究解决了从 2D 掩模准确分割 3D 高斯溅射的挑战。传统方法通常依赖迭代梯度下降来为每个高斯分配一个唯一的标签，从而导致冗长的优化和次优解决方案。相反，我们提出了一个简单但全局最优的 3D-GS 分割求解器。我们方法的核心见解是，通过重建的 3D-GS 场景，2D 掩模的渲染本质上是关于每个高斯标签的线性函数。因此，最优标签分配可以通过封闭形式的线性规划来解决。该解决方案利用喷射过程的 alpha 混合特性进行单步优化。通过将背景偏差纳入我们的目标函数中，我们的方法在 3D 分割中表现出卓越的抗噪声鲁棒性。值得注意的是，我们的优化在 30 秒内完成，比现有最好的方法快约 50 倍。大量的实验证明了我们的方法在分割各种场景方面的效率和鲁棒性，以及它在对象去除和修复等下游任务中的优越性能。演示和代码将在 https://github.com/florinshen/FlashSplat 上提供。

Windows Agent Arena：大规模评估多模式操作系统代理

分类： 人工智能

作者： Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08264v1

摘要： 大型语言模型 (LLM) 显示出作为计算机代理的巨大潜力，可以在需要规划和推理的多模式任务中提高人类生产力和软件可访问性。然而，在现实环境中测量代理性能仍然是一个挑战，因为：（i）大多数基准测试仅限于特定模式或领域（例如纯文本、网络导航、问答、编码）和（ii）完整的基准评估速度很慢（按顺序）考虑到任务的多步骤顺序性质。为了应对这些挑战，我们引入了 Windows Agent Arena：一个可复制的通用环境，专门关注 Windows 操作系统 (OS)，代理可以在真实的 Windows 操作系统中自由操作，并使用相同范围的应用程序、工具和 Web人类用户在解决任务时可以使用的浏览器。我们采用 OSWorld 框架（Xie 等人，2024）来跨代表性领域创建 150 多个不同的 Windows 任务，这些任务需要代理在规划、屏幕理解和工具使用方面的能力。我们的基准测试具有可扩展性，可以在 Azure 中无缝并行化，从而在短短 20 分钟内完成完整的基准评估。为了演示 Windows Agent Arena 的功能，我们还引入了一种新的多模式代理 Navi。我们的代理在 Windows 域中的成功率达到 19.5%，而无人协助的人类成功率为 74.5%。 Navi 还在另一个流行的基于网络的基准测试 Mind2Web 上展示了强大的性能。我们对 Navi 的性能进行广泛的定量和定性分析，并提供有关使用 Windows Agent Arena 进行代理开发和数据生成的未来研究机会的见解。网页：https://microsoft.github.io/WindowsAgentArena 代码：https://github.com/microsoft/WindowsAgentArena

LoRID：用于对抗性纯化的低阶迭代扩散

分类： 机器学习, 人工智能, 密码学和安全

作者： Geigh Zollicoffer, Minh Vu, Ben Nebgen, Juan Castorena, Boian Alexandrov, Manish Bhattarai

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08255v1

摘要： 这项工作对基于扩散的净化方法进行了信息论检查，这是利用扩散模型消除对抗性示例中的恶意扰动的最先进的对抗性防御。通过从理论上表征与基于马尔可夫的扩散纯化相关的固有纯化误差，我们引入了 LoRID，这是一种新颖的低阶迭代扩散纯化方法，旨在消除具有低固有纯化误差的对抗性扰动。 LoRID 以多级净化过程为中心，该过程在扩散模型的早期时间步利用多轮扩散去噪循环，并集成塔克分解（矩阵分解的扩展），以消除高噪声下的对抗性噪声政权。因此，LoRID 增加了有效扩散时间步长并克服了强大的对抗性攻击，在白盒和黑盒设置下在 CIFAR-10/100、CelebA-HQ 和 ImageNet 数据集上实现了卓越的鲁棒性性能。

OmniQuery：根据上下文增强捕获的多模式内存以实现个人问答

分类： 人机交互, 人工智能

作者： Jiahao Nick Li, Zhuohao Jerry Zhang, Jiaju Ma

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08250v1

摘要： 人们经常通过照片、屏幕截图和视频来捕捉回忆。虽然现有的基于人工智能的工具可以使用自然语言查询这些数据，但它们大多只支持检索单个信息，例如照片中的某些对象，并且很难回答更复杂的查询，这些查询涉及解释事件序列等相互关联的记忆。我们进行了为期一个月的日记研究，以收集实际的用户查询，并生成必要的上下文信息的分类，以便与捕获的记忆集成。然后我们介绍 OmniQuery，这是一种新颖的系统，能够回答需要提取和推断上下文信息的复杂的个人记忆相关问题。 OmniQuery 通过整合来自多个互连记忆的分散上下文信息来增强单个捕获的记忆，检索相关记忆，并使用大语言模型 (LLM) 来综合答案。在人工评估中，我们展示了 OmniQuery 的有效性，准确率为 71.5%，并且它的表现优于传统的 RAG 系统，在 74.5% 的情况下获胜或平局。

IFAdapter：用于生成文本到图像的实例特征控制

分类： 计算机视觉和模式识别, 人工智能

作者： Yinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08240v1

摘要： 虽然文本到图像 (T2I) 扩散模型擅长生成具有视觉吸引力的单个实例图像，但它们很难准确定位和控制多个实例的特征生成。引入布局到图像（L2I）任务是为了通过将边界框合并为空间控制信号来解决定位挑战，但它在生成精确的实例特征方面仍然存在不足。为此，我们提出了实例特征生成（IFG）任务，旨在确保生成的实例中的位置准确性和特征保真度。为了解决 IFG 任务，我们引入了实例功能适配器 (IFAdapter)。 IFAdapter 通过合并额外的外观标记并利用实例语义图将实例级特征与空间位置对齐来增强特征描述。 IFAdapter 作为即插即用模块来引导扩散过程，使其能够适应各种社区模型。为了进行评估，我们贡献了 IFG 基准并开发了验证管道，以客观地比较模型生成具有准确定位和特征的实例的能力。实验结果表明，IFAdapter 在定量和定性评估方面均优于其他模型。

Source2Synth：基于真实数据源的合成数据生成和管理

分类： 计算和语言, 人工智能

作者： Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08239v1

摘要： 大型语言模型仍然难以应对利用结构化数据、复杂推理或工具使用的挑战性场景。在本文中，我们提出了 Source2Synth：一种新方法，可用于教授大语言模型新技能，而无需依赖昂贵的人工注释。 Source2Synth 将自定义数据源作为输入，并通过基于现实世界数据源的中间推理步骤生成合成数据点。 Source2Synth 通过根据其可回答性丢弃低质量的一代来提高数据集质量。我们通过将这种方法应用于两个具有挑战性的领域来证明其通用性：我们测试多跳问答（MHQA）中的推理能力，以及表格问答（TQA）中的工具使用。与微调基准相比，我们的方法将 WikiSQL 上的 TQA 性能提高了 25.51%，将 HotPotQA 上的 MHQA 性能提高了 22.57%。

LLM蜜罐：利用大型语言模型作为高级交互式蜜罐系统

分类： 密码学和安全, 人工智能, 计算和语言, 机器学习, 网络和互联网架构, 68T50, 68M10, I.2.7; D.4.6; K.6.5

作者： Hakan T. Otal, M. Abdullah Canbaz

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08234v1

摘要： 网络威胁的快速发展需要创新的解决方案来检测和分析恶意活动。蜜罐是一种旨在引诱攻击者并与其交互的诱饵系统，已成为网络安全的关键组成部分。在本文中，我们提出了一种使用大型语言模型（LLM）创建逼真的交互式蜜罐系统的新颖方法。通过在攻击者生成的命令和响应的不同数据集上微调预先训练的开源语言模型，我们开发了一个能够与攻击者进行复杂交互的蜜罐。我们的方法涉及几个关键步骤：数据收集和处理、快速工程、模型选择以及监督微调以优化模型的性能。通过相似性指标和实时部署进行的评估表明，我们的方法有效地生成了准确且信息丰富的响应。结果凸显了大语言模型彻底改变蜜罐技术的潜力，为网络安全专业人员提供了检测和分析恶意活动的强大工具，从而增强了整体安全基础设施。

通过深度强化学习优化核聚变反应堆设计

分类： 等离子体物理, 人工智能, 机器学习

作者： Jinsu Kim, Jaemin Seo

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08231v1

摘要： 这项研究探索了深度强化学习（DRL）的应用来优化核聚变反应堆的设计。 DRL 可以有效地解决稳态操作的多重物理和工程约束带来的挑战性问题。开发了聚变反应堆设计计算和适用于 DRL 并行化的优化代码。所提出的框架能够找到满足运行要求同时降低建筑成本的最佳反应堆设计。 DRL 现在简化了聚变反应堆的多目标设计优化，这表明所提出的框架在推进未来反应堆的高效和可持续设计方面具有巨大潜力。

光子量子计算机

分类： 量子物理学, 人工智能, 硬件架构

作者： M. AbuGhanem

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08229v1

摘要： 在追求可扩展和容错的量子计算架构的过程中，基于光子的量子计算机已成为领先的前沿领域。本文全面概述了由行业领先企业开发的光子量子计算的进展，研究了当前的性能、架构设计以及开发大规模容错光子量子计算机的策略。它还强调了最近利用光子技术独特优势的突破性实验，强调了它们的变革潜力。这篇评论抓住了噪声中尺度量子 (NISQ) 时代光子量子计算的关键时刻，为光子量子计算机如何重塑量子计算的未来提供了见解。

CliquePH：通过 Clique 图上的持久同源获得图神经网络的高阶信息

分类： 机器学习, 人工智能

作者： Davide Buffelli, Farzin Soleymani, Bastian Rieck

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08217v1

摘要： 图神经网络已经成为图分类、节点分类等图学习任务从业者的默认选择。然而，流行的图神经网络模型仍然难以捕获高阶信息，即超越成对交互的信息。最近的工作表明，持久同源性（拓扑数据分析的一种工具）可以用图神经网络无法捕获的拓扑信息来丰富图神经网络。计算此类特征对于维度 0（连通分量）和维度 1（循环）非常有效。然而，当涉及高阶结构时，它的扩展性不好，复杂度为$O(n^d)$，其中$n$是节点数，$d$是结构的阶数。在这项工作中，我们介绍了一种新颖的方法，该方法可以提取图中有关高阶结构的信息，同时仍然使用高效的低维持久同源算法。在标准基准数据集上，我们表明我们的方法可以使测试准确性提高高达 $31%$。

LT3SD：用于 3D 场景扩散的潜在树

分类： 计算机视觉和模式识别, 人工智能

作者： Quan Meng, Lei Li, Matthias Nießner, Angela Dai

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08215v1

摘要： 我们提出了 LT3SD，一种用于大规模 3D 场景生成的新型潜在扩散模型。扩散模型的最新进展在 3D 对象生成方面显示出令人印象深刻的结果，但在扩展到 3D 场景时在空间范围和质量方面受到限制。为了生成复杂多样的 3D 场景结构，我们引入了潜在树表示，以从粗到细的层次结构有效地编码低频几何图形和高频细节。然后，我们可以在这个潜在 3D 场景空间中学习生成扩散过程，在每个分辨率级别对场景的潜在组件进行建模。为了合成不同大小的大型场景，我们在场景补丁上训练扩散模型，并通过跨多个场景补丁的共享扩散生成来合成任意大小的输出 3D 场景。通过大量实验，我们展示了 LT3SD 在大规模、高质量无条件 3D 场景生成以及部分场景观察的概率完成方面的功效和优势。

是什么让迷宫看起来像迷宫？

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者： Joy Hsu, Jiayuan Mao, Joshua B. Tenenbaum, Noah D. Goodman, Jiajun Wu

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08202v1

摘要： 人类视觉理解的一个独特方面是能够灵活解释抽象概念：获取解释其象征意义的提升规则，将它们置于熟悉和不熟悉的上下文中，并对它们进行预测或推理。虽然现成的视觉语言模型擅长对图像进行字面解释（例如，识别树枝等对象类别），但它们仍然难以理解这种视觉抽象（例如，树枝的排列如何形成）迷宫的墙壁）。为了应对这一挑战，我们引入了深度模式基础（DSG），这是一个利用视觉抽象的显式结构化表示进行基础和推理的框架。 DSG 的核心是模式——抽象概念的依赖图描述，将抽象概念分解为更原始级别的符号。 DSG 使用大型语言模型来提取模式，然后通过视觉语言模型将模式的具体组件分层地抽象到图像上。扎根模式用于增强视觉抽象理解。我们在新的视觉抽象数据集上系统地评估 DSG 和不同的推理方法，该数据集由抽象概念的各种真实世界图像以及人类标记的相应问答对组成。我们证明 DSG 显着提高了视觉语言模型的抽象视觉推理性能，并且是朝着人类对视觉抽象的理解迈出的一步。

AudioBERT：音频知识增强语言模型

分类： 计算和语言, 人工智能, 声音, 音频和语音处理

作者： Hyunjong Ok, Suho Yoo, Jaeho Lee

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08199v1

摘要： 最近的研究发现，在纯文本数据集上预训练的语言模型通常缺乏基本的视觉知识，例如日常物体的颜色。受这一观察的启发，我们询问在 \textit{听觉} 知识方面是否存在类似的缺点。为了回答这个问题，我们构建了一个名为 AuditoryBench 的新数据集，其中包含两个用于评估听觉知识的新颖任务。根据我们使用基准的分析，我们发现语言模型也严重缺乏听觉知识。为了解决这个限制，我们提出了 AudioBERT，这是一种通过基于检索的方法来增强 BERT 听觉知识的新方法。首先，我们检测提示中的听觉知识跨度，以有效地查询我们的检索模型。然后，我们将音频知识注入到 BERT 中，并在需要音频知识时开启低秩自适应以实现有效的自适应。我们的实验证明 AudioBERT 非常有效，在 AuditoryBench 上实现了卓越的性能。数据集和代码可在 \bulurl{https://github.com/HJ-Ok/AudioBERT} 获取。

微调大型语言模型以进行实体匹配

分类： 计算和语言, 人工智能, 机器学习, 68T50, I.2.7

作者： Aaron Steiner, Ralph Peeters, Christian Bizer

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08185v1

摘要： 生成式大语言模型 (LLM) 是用于实体匹配的预训练语言模型的有前途的替代方案，因为它们具有较高的零样本性能以及泛化到未见过的实体的能力。现有的使用大语言模型进行实体匹配的研究主要集中在即时工程和情境学习上。本文探讨了微调大语言模型用于实体匹配的潜力。我们沿着两个维度分析微调：1）训练示例的表示，我们尝试向训练集中添加不同类型的 LLM 生成的解释，2）使用 LLM 选择和生成训练示例。除了源数据集上的匹配性能之外，我们还研究了微调如何影响模型泛化到其他域内数据集以及跨主题域的能力。我们的实验表明，微调显着提高了较小模型的性能，而较大模型的结果则参差不齐。微调还可以提高对域内数据集的泛化，同时损害跨域传输。我们表明，在训练集中添加结构化解释对四分之三的 LLM 的性能产生积极影响，而所提出的示例选择和生成方法仅提高了 Llama 3.1 8B 的性能，同时降低了 GPT-4o Mini 的性能。

建立基于图的网络流量分析基础模型

分类： 机器学习, 人工智能, 密码学和安全, 网络和互联网架构

作者： Louis Van Langendonck, Ismael Castell-Uroz, Pere Barlet-Ros

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08111v1

摘要： 基础模型在各个研究领域都显示出了巨大的前景。此类模型的潜在应用是计算机网络流量分析，其中这些模型可以掌握网络流量动态的复杂性，并以最少的微调适应任何特定任务或网络环境。以前的方法使用了标记化的十六进制数据包数据和大型语言转换器模型的模型架构。我们在流程层面提出了一种新的、高效的基于图的替代方案。我们的方法将网络流量表示为动态时空图，采用自监督链接预测预训练任务来捕获该网络图框架中的空间和时间动态。为了评估我们方法的有效性，我们针对三个不同的下游网络任务进行了几次学习实验：入侵检测、流量分类和僵尸网络分类。与从头开始训练相比，根据我们的预训练基础进行微调的模型平均性能提高了 6.87%，这证明了它们在预训练期间有效学习一般网络流量动态的能力。这一成功表明了大规模版本作为可操作基础模型的潜力。

CLC-UKET 数据集：英国就业法庭的基准案件结果预测

分类： 计算和语言, 人工智能

作者： Huiyuan Xie, Felix Steffek, Joana Ribeiro de Faria, Christine Carter, Jonathan Rutherford

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08098v1

摘要： 本文通过制定预测英国就业法庭 (UKET) 案件结果的基准，探讨了技术创新与诉诸司法的交叉点。为了解决大量手动注释的挑战，该研究采用大型语言模型（LLM）进行自动注释，从而创建了 CLC-UKET 数据集。该数据集包含大约 19,000 个 UKET 案例及其元数据。全面的法律注释涵盖事实、主张、先例参考、法定参考、案件结果、原因和管辖权代码。在 CLC-UKET 数据的帮助下，我们检查了 UKET 中的多类病例结果预测任务。收集人类预测是为了建立模型比较的性能参考。基线模型的经验结果表明，经过微调的 Transformer 模型在 UKET 预测任务上优于零样本和少样本 LLM。零样本大语言模型的性能可以通过将任务相关信息集成到少样本示例中来增强。我们希望 CLC-UKET 数据集以及人工注释和实证研究结果能够成为就业相关争议解决的宝贵基准。

TravelAgent：个性化旅行规划的人工智能助手

分类： 人工智能, 计算和语言

作者： Aili Chen, Xuyang Ge, Ziquan Fu, Yanghua Xiao, Jiangjie Chen

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08069v1

摘要： 随着全球旅游业的扩张和人工智能技术的进步，智能旅游规划服务已成为重要的研究热点。在多维度约束的动态现实旅行场景中，支持用户自动创建实用的定制旅行行程的服务必须满足三个关键目标：合理性、全面性和个性化。然而，具有基于规则的组合或基于 LLM 的规划方法的现有系统很难完全满足这些标准。为了克服这些挑战，我们推出了 TravelAgent，这是一个由大型语言模型 (LLM) 提供支持的旅行规划系统，旨在提供基于动态场景的合理、全面和个性化的旅行行程。 TravelAgent 包含四个模块：工具使用模块、推荐模块、规划模块和内存模块。我们通过人类和模拟用户评估 TravelAgent 的性能，通过三个标准展示其整体有效性，并确认个性化推荐的准确性。

人工智能加速发现高临界温度超导体

分类： 超导, 材料科学, 人工智能, 计算物理

作者： Xiao-Qi Han, Zhenfeng Ouyang, Peng-Jie Guo, Hao Sun, Ze-Feng Gao, Zhong-Yi Lu

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08065v1

摘要： 新型超导材料的发现，特别是那些表现出高临界温度 ($T_c$) 的超导材料，一直是凝聚态物理领域中一个充满活力的研究领域。传统方法主要依靠物理直觉在现有数据库中寻找潜在的超导体。然而，已知的材料仅触及材料领域内广泛可能性的表面。在这里，我们开发了一个人工智能搜索引擎，集成了深度模型预训练和微调技术、扩散模型和基于物理的方法（例如第一原理电子结构计算），用于发现高$T_c$超导体。利用这个 AI 搜索引擎，我们获得了 74 种动态稳定材料，其临界温度由 AI 模型根据非常小的样本集预测为 $T_c \geq$ 15 K。值得注意的是，这些材料不包含在任何现有数据集中。此外，我们分析了数据集和个别材料的趋势，包括 B$_4$CN$_3$ 和 B$_5$CN$_2$，其 $T_c$ 分别为 24.08 K 和 15.93 K。我们证明人工智能技术可以发现一组新的高$T_c$超导体，概述其加速发现具有目标特性的材料的潜力。

释放蠕虫并提取数据：使用越狱在规模和严重性上升级针对基于 RAG 的推理的攻击结果

分类： 密码学和安全, 人工智能

作者： Stav Cohen, Ron Bitton, Ben Nassi

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08045v1

摘要： 在本文中，我们展示了通过越狱 GenAI 模型的能力，攻击者可以在严重性和规模上升级针对基于 RAG 的 GenAI 应用程序的攻击结果。在本文的第一部分中，我们表明攻击者可以将 RAG 成员推理攻击和 RAG 实体提取攻击升级为 RAG 文档提取攻击，从而导致比现有攻击更严重的结果。我们评估了三种提取方法获得的结果、所采用的五种嵌入算法的类型和大小的影响、提供的上下文的大小以及 GenAI 引擎。我们表明，攻击者可以提取 Q&A 聊天机器人 RAG 使用的数据库中存储的 80%-99.8% 的数据。在本文的第二部分中，我们表明攻击者可以将 RAG 数据中毒攻击的规模从损害单个 GenAI 支持的应用程序升级到损害整个 GenAI 生态系统，从而造成更大范围的损害。这是通过制作一个对抗性的自我复制提示来完成的，该提示会触发生态系统内计算机蠕虫的连锁反应，并迫使每个受影响的应用程序执行恶意活动并损害其他应用程序的 RAG。我们评估了蠕虫病毒在 GenAI 驱动的电子邮件助手的 GenAI 生态系统中创建有关用户的机密数据提取链的性能，并分析了蠕虫病毒的性能如何受到上下文大小、对抗性自我复制提示的影响。使用的嵌入算法的类型和大小以及传播中的跳数。最后，我们回顾并分析了保护基于 RAG 的推理的护栏并讨论了权衡。

边向图指令神经网络

分类： 机器学习, 人工智能, 数值分析, 数值分析, 05C21, 65D15, 68T07, 90C35

作者： Francesco Della Santa, Antonio Mastropietro, Sandra Pieraccini, Francesco Vaccarino

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08023v1

摘要： 最近通过图指令神经网络（GINN）解决了图节点上的多任务回归问题，这是一种很有前景的架构，属于消息传递图神经网络的子集。在这项工作中，我们讨论了图指令（GI）层的局限性，并形式化了一种新颖的边缘 GI（EWGI）层。我们讨论了 EWGI 层的优点，并提供了数值证据，表明 EWGINN 在具有混沌连接的图结构输入数据（如从 Erdos-R'enyi 图推断的数据）上比 GINN 表现更好。

从不同的演示中学习因果不变的奖励函数

分类： 机器学习, 人工智能

作者： Ivan Ovinnikov, Eugene Bykovets, Joachim M. Buhmann

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08012v1

摘要： 逆强化学习方法旨在基于专家演示数据集检索马尔可夫决策过程的奖励函数。此类演示的普遍稀缺性和异构来源可能导致学习的奖励函数吸收数据中的虚假相关性。因此，当在环境动态的分布变化下根据获得的奖励函数训练策略时，这种适应通常会表现出对专家数据集的行为过度拟合。在这项工作中，我们探索了一种基于因果不变性原理的逆强化学习方法的新颖正则化方法，其目标是改进奖励函数的泛化。通过将这种正则化应用于学习任务的精确和近似公式，我们在转移设置中使用恢复的奖励函数进行训练时展示了卓越的策略性能

通过可学习的多尺度嵌入和注意力机制增强少镜头图像分类

分类： 计算机视觉和模式识别, 人工智能

作者： Fatemeh Askari, Amirreza Fateh, Mohammad Reza Mohammadi

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07989v1

摘要： 在少样本分类的背景下，目标是使用有限数量的样本训练分类器，同时保持令人满意的性能。然而，传统的基于度量的方法在实现这一目标方面表现出一定的局限性。这些方法通常依赖于查询特征和支持特征之间的单个距离值，从而忽略了浅层特征的贡献。为了克服这一挑战，我们在本文中提出了一种新颖的方法。我们的方法涉及利用多输出嵌入网络将样本映射到不同的特征空间。该方法在不同阶段提取特征向量，使模型能够捕获全局特征和抽象特征。通过利用这些不同的特征空间，我们的模型提高了其性能。此外，采用自注意力机制可以提高每个阶段特征的细化，从而产生更稳健的表示并提高整体性能。此外，为每个阶段分配可学习的权重显着提高了性能和结果。我们对 MiniImageNet 和 FC100 数据集进行了全面评估，特别是在 5-way 1-shot 和 5-way 5-shot 场景中。此外，我们还执行了从 MiniImageNet 到 CUB 数据集的跨域任务，在测试域中实现了高精度。这些评估证明了我们提出的方法与最先进的方法相比的有效性。 https://github.com/FatemehAskari/MSENet

人工智能控制游戏：人工智能部署协议的安全评估模型

分类： 人工智能, 机器学习

作者： Charlie Griffin, Louis Thomson, Buck Shlegeris, Alessandro Abate

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07985v1

摘要： 为了评估不受信任的 AI 部署协议的安全性和有用性，AI Control 使用了协议设计者和对手之间的红队练习。本文介绍了人工智能控制游戏，这是一种红队演习的正式决策模型，是一种多目标、部分可观察的随机博弈。我们还介绍了在人工智能控制游戏中寻找最佳协议的方法，将其简化为一组零和部分可观察的随机游戏。我们将形式主义应用于建模、评估和综合协议，以将不可信语言模型部署为编程助手，重点关注可信监控协议，该协议使用较弱的语言模型和有限的人工协助。最后，我们通过展示现有环境中实证研究的改进、评估新环境中的协议以及分析建模假设如何影响协议的安全性和有用性来证明形式主义的实用性。

ProbTalk3D：使用 VQ-VAE 进行非确定性情绪可控语音驱动 3D 面部动画合成

分类： 计算机视觉和模式识别, 人工智能

作者： Sichun Wu, Kazi Injamamul Haque, Zerrin Yumak

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07966v1

摘要： 音频驱动的 3D 面部动画合成一直是学术界和工业界关注的活跃研究领域。虽然这一领域取得了有希望的结果，但最近的方法主要集中在口型同步和身份控制上，忽视了情绪和情绪控制在生成过程中的作用。这主要是由于缺乏情感丰富的面部动画数据和能够同时合成语音动画和情感表达的算法。此外，大多数模型都是确定性的，这意味着给定相同的音频输入，它们会产生相同的输出运动。我们认为，情感和非决定论对于生成多样化且情感丰富的面部动画至关重要。在本文中，我们提出了 ProbTalk3D 一种非确定性神经网络方法，使用两阶段 VQ-VAE 模型和情感丰富的面部动画数据集 3DMEAD 进行情感可控语音驱动的 3D 面部动画合成。通过客观、定性地评估结果以及感知用户研究，我们对我们的模型与最近的 3D 面部动画合成方法进行了广泛的比较分析。我们重点介绍了几个更适合评估随机输出的客观指标，并使用野外数据和地面实况数据进行主观评估。据我们所知，这是第一个非确定性 3D 面部动画合成方法，结合了丰富的情感数据集和带有情感标签和强度级别的情感控制。我们的评估表明，与最先进的情绪控制、确定性和非确定性模型相比，所提出的模型实现了卓越的性能。我们建议观看补充视频以进行质量判断。整个代码库是公开的（https://github.com/uuembodiedsocialai/ProbTalk3D/）。

来自端到端可微分仿真的自动驾驶车辆控制器

分类： 人工智能, 机器人技术

作者： Asen Nachkov, Danda Pani Paudel, Luc Van Gool

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07965v1

摘要： 目前学习自动驾驶汽车（AV）控制器的方法主要集中在行为克隆。仅根据精确的历史数据进行训练，生成的代理通常很难概括新的场景。模拟器提供了超越离线数据集的机会，但它们仍然被视为复杂的黑匣子，仅用于更新全局模拟状态。因此，这些强化学习算法速度缓慢、样本效率低下且与先验无关。在这项工作中，我们利用可微分模拟器并设计了一种分析策略梯度 (APG) 方法来在大规模 Waymo 开放运动数据集上训练 AV 控制器。我们提出的框架将可微分模拟器带入端到端训练循环，其中环境动态的梯度可以作为有用的先验知识，帮助代理学习更扎实的策略。我们将此设置与循环架构相结合，可以在长模拟轨迹上有效地传播时间信息。这种 APG 方法使我们能够学习稳健、准确和快速的策略，同时只需要广泛可用的专家轨迹，而不是稀缺的专家动作。我们与行为克隆进行比较，发现动态性能和对噪声的鲁棒性有了显着改进，并且总体上更加直观的类人处理。

WirelessAgent：智能无线网络的大型语言模型代理

分类： 网络和互联网架构, 人工智能, 机器学习

作者： Jingwen Tong, Jiawei Shao, Qiong Wu, Wei Guo, Zijian Li, Zehong Lin, Jun Zhang

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07964v1

摘要： 由于规模和复杂性不断扩大，无线网络日益面临挑战。这些挑战凸显了对先进人工智能驱动策略的需求，特别是在即将到来的 6G 网络中。在本文中，我们介绍 WirelessAgent，这是一种利用大型语言模型 (LLM) 开发能够管理无线网络中复杂任务的 AI 代理的新颖方法。它可以通过高级推理、多模态数据处理和自主决策来有效提高网络性能。此后，我们展示了 WirelessAgent 在网络切片管理方面的实际适用性和优势。实验结果表明，WirelessAgent能够准确理解用户意图，有效分配切片资源，并始终保持最佳性能。

使用机器学习快速估计极端质量比励磁参数

分类： 计算物理, 天体物理学仪器和方法, 人工智能

作者： Bo Liang, Hong Guo, Tianyu Zhao, He wang, Herik Evangelinelis, Yuxiang Xu, Chang liu, Manjia Liang, Xiaotong Wei, Yong Yuan, Peng Xu, Minghui Du, Wei-Liang Qian, Ziren Luo

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07957v1

摘要： 极端质量比吸气（EMRI）信号由于其低频特性和高度复杂的波形，占据了具有众多变量的高维参数空间，对引力波（GW）天文学提出了重大挑战。鉴于其较长的吸气时间尺度和较低的信噪比，EMRI 信号需要延长观察期。由于由多个局部最大值以及似然函数固有的平坦区域和脊引起的非局部参数简并性，参数估计变得特别具有挑战性。当采用传统的匹配滤波和随机采样方法时，这些因素导致参数分析的时间复杂度异常高。为了应对这些挑战，本研究利用最近开发的基于 ODE 神经网络的流匹配技术，将机器学习应用于 EMRI 信号的贝叶斯后验估计。我们的方法证明计算效率比传统的马尔可夫链蒙特卡罗（MCMC）方法快几个数量级，同时保持参数估计的无偏性。我们证明机器学习技术有潜力有效处理与 EMRI 信号相关的庞大参数空间，涉及多达 17 个参数。此外，据我们所知，这是将机器学习（特别是连续归一化流（CNF））应用于 EMRI 信号分析的第一个实例。我们的研究结果凸显了机器学习在 EMRI 波形分析中的巨大潜力，为天基引力波检测和引力波天文学的发展提供了新的视角。

强化学习发现高效的去中心化图路径搜索策略

分类： 机器学习, 人工智能, 多代理系统, 社交和信息网络

作者： Alexei Pisacane, Victor-Alexandru Darvariu, Mirco Musolesi

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07932v1

摘要： 图路径搜索是一个经典的计算机科学问题，最近通过强化学习（RL）来解决，因为它有超越现有方法的潜力。现有的强化学习技术通常假设网络的全局视图，这不适合大规模、动态和隐私敏感的设置。社交网络中的搜索因其众多的应用而受到特别关注。受到实验社会学开创性工作的启发，该工作表明在社交网络中分散而有效的搜索是可能的，我们将问题描述为配备有限网络局部视图的多个代理之间的协作任务。我们提出了一种用于图路径搜索的多代理方法，该方法成功地利用了同质性和结构异质性。我们在合成和现实世界的社交网络上进行的实验表明，我们的模型显着优于学习和启发式基线。此外，我们的结果表明，可以使用奖励驱动学习来构建有意义的图形导航嵌入。

用于去混合地震数据的卷积神经网络方法

分类： 地球物理学, 人工智能

作者： Jing Sun, Sigmund Slang, Thomas Elboth, Thomas Larsen Greiner, Steven McDonald, Leiv-J Gelius

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07930v1

摘要： 出于经济和效率的原因，地震数据的混合采集变得越来越普遍。地震去混合方法始终需要大量计算，并且通常由多个处理步骤组成。此外，参数设置并不总是微不足道的。基于机器学习的处理有可能显着减少处理时间并改变地震去混合的执行方式。我们提出了一种基于数据驱动的深度学习的方法，用于快速高效的地震去混合。混合数据从公共源到公共通道域进行排序，以将混合噪声的特征从相干事件转换为不相干分布。根据地震数据的特殊性，设计了卷积神经网络（CNN），进行反混合，其结果与传统工业反混合算法的结果相当。为了确保真实性，混合是通过数字方式进行的，并且仅使用现场地震数据，包括超过20000个训练样例。网络训练和验证后，可以近乎实时地执行地震去混合。实验还表明，初始信噪比（SNR）是控制最终去混合结果质量的主要因素。该网络还被证明具有鲁棒性和适应性，首先使用经过训练的模型对来自不同地质区域的新数据集进行去混合，延迟时间设置略有不同，然后对数据顶部混合噪声的镜头进行去混合。

衡量神经架构训练效率的框架

分类： 机器学习, 人工智能

作者： Eduardo Cueto-Mendoza, John D. Kelleher

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07925v1

摘要： 测量神经网络系统开发的效率是一个开放的研究问题。本文提出了一个测量神经架构训练效率的实验框架。为了演示我们的方法，我们分析了卷积神经网络和贝叶斯等效网络在 MNIST 和 CIFAR-10 任务上的训练效率。我们的结果表明，训练效率随着训练的进行而衰减，并且对于给定的神经模型和学习任务，训练效率会因不同的停止标准而变化。我们还发现训练停止标准、训练效率、模型大小和训练效率之间存在非线性关系。此外，我们还说明了过度训练对衡量神经架构训练效率的潜在混杂影响。关于不同架构之间的相对训练效率，我们的结果表明 CNN 在两个数据集上都比 BCNN 更有效。更一般地说，随着学习任务变得更加复杂，不同架构之间训练效率的相对差异变得更加明显。

Tidal MerzA：通过强化学习将情感建模和自主代码生成相结合

分类： 人机交互, 人工智能, 声音, 音频和语音处理

作者： Elizabeth Wilson, György Fazekas, Geraint Wiggins

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07918v1

摘要： 本文介绍了 Tidal-MerzA，这是一种新颖的系统，专为人类和机器代理在实时编码背景下的协作表演而设计，特别关注音乐模式的生成。 Tidal-MerzA 融合了两个基础模型：ALCAA（情感实时编码自主代理）和 Tidal Fuzz（一种计算框架）。通过将情感建模与计算生成相结合，该系统利用强化学习技术在 TidalCycles 框架内动态调整音乐作曲参数，确保模式的情感品质和语法的正确性。 Tidal-MerzA 的开发引入了两种不同的代理：一种专注于生成用于音乐表达的迷你乐谱字符串，另一种专注于通过强化学习将音乐与目标情感状态保持一致。这种方法增强了实时编码实践的适应性和创造性潜力，并允许探索人机创造性交互。 Tidal-MerzA 推进了计算音乐生成领域的发展，提出了一种将人工智能融入艺术实践的新颖方法。

InterACT：使用分层注意力变压器进行双手操作的相互依赖性感知动作分块

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Andrew Lee, Ian Chuang, Ling-Yuan Chen, Iman Soltani

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07914v1

摘要： 我们提出了 InterACT：具有分层注意力变换器的相互依赖性感知动作分块，这是一种用于双手操作的新型模仿学习框架，它集成了分层注意力以捕获双臂关节状态和视觉输入之间的相互依赖性。 InterACT 由分层注意力编码器和多臂解码器组成，两者都旨在增强信息聚合和协调。编码器通过分段和跨分段注意机制处理多模态输入，而解码器利用同步块来细化单个动作预测，提供对应方的预测作为上下文。我们对各种模拟和现实世界的双手操作任务进行的实验表明，InterACT 的性能明显优于现有方法。详细的消融研究验证了我们工作的关键组成部分的贡献，包括 CLS 代币、跨段编码器和同步块的影响。

UGAD：利用频率指纹的通用生成人工智能探测器

分类： 计算机视觉和模式识别, 人工智能

作者： Inzamamul Alam, Muhammad Shahid Muneer, Simon S. Woo

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07913v1

摘要： 在五角大楼伪造爆炸图像之后，辨别真实图像和假图像的能力变得前所未有的重要。我们的研究引入了一种新颖的多模态方法，用于在扩散模型等新一代方法的激增中检测人工智能生成的图像。我们的方法 UGAD 包含三个关键检测步骤：首先，我们将 RGB 图像转换为 YCbCr 通道，并应用积分径向操作来强调显着的径向特征。其次，空间傅里叶提取操作用于空间移位，利用预先训练的深度学习网络进行最佳特征提取。最后，深度神经网络分类阶段使用softmax通过密集层处理数据进行分类。我们的方法显着提高了区分真实图像和人工智能生成图像的准确性，与现有最先进的方法相比，准确性提高了 12.64%，AUC 提高了 28.43%。

利用图同构网络增强跨市场推荐系统：个性化用户体验的新方法

分类： 信息检索, 人工智能, 机器学习

作者： Sümeyye Öztürk, Ahmed Burak Ercan, Resul Tugay, Şule Gündüz Öğüdücü

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07850v1

摘要： 在当今全球化商业世界中，跨市场推荐系统 (CMR) 对于跨不同细分市场提供个性化用户体验至关重要。然而，传统的推荐算法在处理市场特殊性和数据稀疏性方面存在困难，尤其是在新兴市场中。在本文中，我们提出了 CrossGR 模型，该模型利用图同构网络（GIN）来改进 CMR 系统。它在 NDCG@10 和 HR@10 指标方面优于现有基准，证明了其在处理不同细分市场方面的适应性和准确性。 CrossGR模型适应性强且准确，非常适合处理跨市场推荐任务的复杂性。其稳健性通过不同评估时间范围内的一致性能得到证明，表明其满足不断变化的市场趋势和用户偏好的潜力。我们的研究结果表明，GIN 代表了 CMR 的一个有前途的方向，为全球电子商务动态格局中更复杂、个性化和上下文感知的推荐系统铺平了道路。

模态缺失的深度多模态学习的综合综述

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Renjie Wu, Hu Wang, Hsiang-Ting Chen

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07825v2

摘要： 在多模态模型训练和推理过程中，由于传感器限制、成本限制、隐私问题、数据丢失以及时空因素，数据样本可能会错过某些模态并导致模型性能受损。本调查概述了缺失模态的多模态学习 (MLMM) 的最新进展，重点关注深度学习技术。这是第一个全面的调查，涵盖了历史背景以及 MLMM 和标准多模态学习设置之间的区别，随后详细分析了当前的 MLMM 方法、应用程序和数据集，最后讨论了该领域的挑战和潜在的未来方向。

通过加权聚合进行空中联合学习

分类： 信息论, 人工智能, 机器学习, 信息论

作者： Seyed Mohammad Azimi-Abarghouyi, Leandros Tassiulas

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07822v1

摘要： 本文介绍了一种利用无线计算的新联邦学习方案。该方案的一个新颖特征是建议在聚合期间采用自适应权重，这一方面在其他无线方案中被视为预定义的。这可以减轻无线信道条件对学习性能的影响，而不需要发送器侧的信道状态信息（CSIT）。我们提供了一种数学方法，在计算异质性和一般损失函数的背景下导出所提出方案的收敛界限，并辅以设计见解。因此，我们提出聚合成本指标和有效的算法来找到聚合的优化权重。最后，通过数值实验，验证了所提出方案的有效性。即使面临信道条件和设备异构性带来的挑战，所提出的方案仍优于其他无线策略，与使用 CSIT 的方案相比，精度提高了 15%，与不使用 CSIT 的方案相比，精度提高了 30%。

在支持物联网的相机陷阱中对野生动物模型进行原位微调以实现高效适应

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Mohammad Mehdi Rastikerdar, Jin Huang, Hui Guan, Deepak Ganesan

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07796v1

摘要： 通过相机陷阱进行野生动物监测已成为生态学中的重要工具，但由于领域转移和资源限制，用于设备上动物分类的机器学习模型的部署面临着重大挑战。本文介绍了 WildFit，这是一种新颖的方法，可以协调实现高域泛化性能和确保相机陷阱应用的高效推理这两个相互冲突的目标。 WildFit 利用持续的后台感知模型微调来部署针对当前位置和时间窗口定制的 ML 模型，使其能够在新环境中保持强大的分类准确性，而无需大量计算资源。这是通过背景感知数据合成来实现的，该数据合成通过将背景图像与来自源域的动物图像混合来生成代表新域的训练图像。我们通过背景漂移检测和类分布漂移检测进一步增强微调效果，从而优化合成数据的质量并提高泛化性能。我们对多个相机陷阱数据集的广泛评估表明，与传统方法相比，WildFit 在分类精度和计算效率方面取得了显着提高。

用于半监督医学图像分割的拉格朗日对偶和复合多注意力变压器

分类： 计算机视觉和模式识别, 人工智能

作者： Fuchen Zheng, Quanjun Li, Weixuan Li, Xuhang Chen, Yihang Dong, Guoheng Huang, Chi-Man Pun, Shoujun Zhou

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07793v1

摘要： 医学图像分割是语义分割在医疗保健领域的一个重要应用，通过专门的计算机视觉技术已经取得了显着的进步。虽然基于深度学习的医学图像分割对于辅助医学诊断至关重要，但缺乏多样化的训练数据会导致长尾问题。此外，大多数先前的混合 CNN-ViT 架构在卷积神经网络不同层中组合各种注意力的能力有限。为了解决这些问题，我们提出了拉格朗日对偶一致性（LDC）损失，与边界感知对比损失相结合，作为半监督学习的总体训练目标，以缓解长尾问题。此外，我们还引入了 CMAformer，这是一种新颖的网络，可以协同 ResUNet 和 Transformer 的优势。 CMAformer 中的交叉注意力模块有效地整合了空间注意力和通道注意力，以实现多尺度特征融合。总的来说，我们的结果表明，CMAformer 与特征融合框架和新的一致性损失相结合，在半监督学习集成中表现出很强的互补性。我们在多个公共医学图像数据集上取得了最先进的结果。示例代码位于：\url{https://github.com/lzeeorno/Lagrange-Duality-and-CMAformer}。

ASSNet：用于微肿瘤和多器官分割的自适应语义分割网络

分类： 计算机视觉和模式识别, 人工智能

作者： Fuchen Zheng, Xinyi Chen, Xuhang Chen, Haolun Li, Xiaojiao Guo, Guoheng Huang, Chi-Man Pun, Shoujun Zhou

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07779v1

摘要： 医学图像分割是计算机视觉中的一项关键任务，有助于自动描绘解剖结构和病理，为临床医生的诊断、治疗计划和疾病监测提供支持。值得注意的是，采用基于移位窗口的自注意力的 Transformer 已表现出卓越的性能。然而，它们对局部窗口注意力的依赖限制了局部和全局上下文信息的融合，这对于分割微肿瘤和微型器官至关重要。为了解决这个限制，我们提出了自适应语义分割网络（ASSNet），这是一种变压器架构，可以有效地集成局部和全局特征以实现精确的医学图像分割。 ASSNet 包含一个基于 Transformer 的 U 形编码器-解码器网络。编码器利用跨五个分辨率的移位窗口自注意力来提取多尺度特征，然后通过跳跃连接将其传播到解码器。我们在编码器中引入了增强的多层感知器，以在特征提取期间显式地建模远程依赖关系。认识到传统对称编码器-解码器设计的限制，我们提出了一种自适应特征融合（AFF）解码器来补充我们的编码器。该解码器包含三个关键组件：长程依赖 (LRD) 块、多尺度特征融合 (MFF) 块和自适应语义中心 (ASC) 块。这些组件协同促进解码器提取的多尺度特征的有效融合，同时捕获远程依赖性并细化对象边界。对多种医学图像分割任务（包括多器官、肝脏肿瘤和膀胱肿瘤分割）的综合实验表明 ASSNet 取得了最先进的结果。代码和模型可在以下位置获取：\url{https://github.com/lzeeorno/ASSNet}。

通过增强直接反馈对齐训练尖峰神经网络

分类： 神经和进化计算, 人工智能, 机器学习

作者： Yongbo Zhang, Katsuma Inoue, Mitsumasa Nakajima, Toshikazu Hashimoto, Yasuo Kuniyoshi, Kohei Nakajima

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07776v1

摘要： 尖峰神经网络 (SNN) 是受大脑中真实神经元机制启发的模型，通过使用离散动作电位或尖峰来传输和表示信息。信息处理的稀疏、异步特性使 SNN 具有很高的能源效率，从而使 SNN 成为在神经形态设备中实现神经网络的有前途的解决方案。然而，SNN 神经元的不可微性质使得训练它们成为一个挑战。当前基于误差反向传播（BP）和精确设计代理梯度的 SNN 训练方法难以实现，并且在生物学上不可信，阻碍了 SNN 在神经形态设备上的实现。因此，使用物理上可行且生物学上合理的方法来训练 SNN 非常重要。在本文中，我们建议使用增强直接反馈对齐 (aDFA)（一种基于随机投影的无梯度方法）来训练 SNN。该方法仅需要训练期间前向过程的部分信息，因此易于实现并且在生物学上是合理的。我们系统地论证了所提出的 aDFA-SNNs 方案的可行性，提出其有效工作范围，并利用遗传算法分析其性能良好的设置。我们还分析了 SNN 关键特征对该方案的影响，从而证明了其相对于 BP 和传统直接反馈对齐的优越性和稳定性。我们的方案可以在无需准确了解所使用系统的先验知识的情况下实现有竞争力的性能，从而为物理训练 SNN 提供有价值的参考。

针对协作多智能体深度强化学习的时空隐形后门攻击

分类： 人工智能, 密码学和安全

作者： Yinbo Yu, Saihao Yan, Jiajia Liu

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07775v1

摘要： 最近的研究表明，协作多智能体深度强化学习（c-MADRL）正面临后门攻击的威胁。一旦观察到后门触发器，它将执行导致失败或恶意目标的异常操作。然而，现有提出的后门存在几个问题，例如，固定视觉触发模式缺乏隐秘性，后门是由附加网络训练或激活的，或者所有代理都带有后门。为此，在本文中，我们提出了一种针对 c-MADRL 的新型后门攻击，该攻击通过仅将后门嵌入单个代理中来攻击整个多代理团队。首先，我们引入对手的时空行为模式作为后门触发器，而不是手动注入的固定视觉模式或即时状态，并控制攻击持续时间。该方法可以保证注入后门的隐蔽性和实用性。其次，我们通过奖励反向和训练过程中单方面指导的方式破解了后门智能体原有的奖励功能，以确保其对整个团队产生不利影响。我们在流行的 c-MADRL 环境 SMAC 中评估了对两种经典 c-MADRL 算法 VDN 和 QMIX 的后门攻击。实验结果表明，我们的后门攻击能够达到较高的攻击成功率（91.6%），同时保持较低的干净性能方差率（3.7%）。

用于说话人验证的预训练模型多层特征的通用池化方法

分类： 音频和语音处理, 人工智能

作者： Jin Sob Kim, Hyun Joon Park, Wooseok Shin, Sung Won Han

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07770v1

摘要： 自动说话人验证（ASV）研究的最新进展是通过利用大规模预训练网络取得的。在本研究中，我们分析了这种范式的方法，并因此强调了层间信息处理的重要性。因此，我们提出了一种利用 ASV 预训练模型的多层性质的新方法，该方法包括层/帧级网络以及每层和帧轴的两步池化架构。具体来说，我们让卷积架构直接处理一堆层输出。然后，我们提出了一种基于通道注意力的方案来衡量层重要性并压缩最具代表性值的层级别。最后，对帧级表示的仔细统计产生了单个向量说话人嵌入。使用通用数据环境和不同的预训练模型设计了比较实验来验证所提出的方法。实验结果证明了该方法在利用预训练架构时使用多层输出的稳定性。然后，我们验证了所提出的 ASV 后端结构（涉及分层操作）与传统方法相比在性能改进和成本效率方面的优越性。消融研究显示了所提出的层间处理如何帮助最大限度地利用预训练模型的优势。

重新构想线性探测：迁移学习中的柯尔莫哥洛夫-阿诺德网络

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Sheng Shen, Rabih Younes

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07763v1

摘要： 本文介绍了柯尔莫哥洛夫-阿诺德网络 (KAN)，作为迁移学习中传统线性探测方法的增强。线性探测通常应用于预训练模型的最后一层，但由于无法对数据中的复杂关系进行建模而受到限制。为了解决这个问题，我们建议用 KAN 代替线性探测层，KAN 利用基于样条的表示来近似复杂的函数。在本研究中，我们将 KAN 与在 ImageNet 上预训练的 ResNet-50 模型集成，并评估其在 CIFAR-10 数据集上的性能。我们执行系统的超参数搜索，重点关注网格大小和样条度 (k)，以优化 KAN 的灵活性和准确性。我们的结果表明，KAN 始终优于传统的线性探测，在一系列配置中实现了准确性和泛化性的显着提高。这些发现表明，KAN 为迁移学习中的传统线性探测技术提供了更强大、适应性更强的替代方案。

与人机协作的相关性

分类： 机器人技术, 人工智能

作者： Xiaotong Zhang, Dingcheng Huang, Kamal Youcef-Toumi

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07753v1

摘要： 有效的人机协作（HRC）要求机器人拥有类似人类的智能。受人类在复杂环境中选择性处理和过滤元素的认知能力的启发，本文引入了一种称为“相关性”的新概念和场景理解方法。它识别场景中的相关组件。为了准确有效地量化相关性，我们开发了一个基于事件的框架，可以选择性地触发相关性确定，以及基于结构化场景表示的概率方法。仿真结果表明，相关性框架和方法可以准确预测一般 HRC 设置的相关性，达到 0.99 的精度和 0.94 的召回率。相关性可广泛应用于 HRC 的多个领域，与谷物任务的纯粹规划相比，任务规划时间缩短 79.56%，将物体检测器的感知延迟减少高达 26.53%，将 HRC 安全性提高高达 13.50%，并减少HRC查询量同比增长75.36%。现实世界的演示展示了相关性框架智能地协助人类完成日常任务的能力。

视频问答的自上而下活动表示学习

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Yanan Wang, Shuichiro Haruta, Donghuo Zeng, Julio Vizcarra, Mori Kurokawa

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07748v1

摘要： 捕获复杂的分层人类活动，从原子动作（例如，拿起一件礼物、走到沙发上、打开礼物）到上下文事件（例如，庆祝圣诞节），对于实现高性能视频问答 (VideoQA) 至关重要。最近的工作扩展了多模态模型（例如 CLIP、LLaVA）来处理连续视频序列，增强了模型的时间推理能力。然而，这些方法通常无法捕获可以分解为在相对长期序列上非连续分布的多个原子动作的上下文事件。在本文中，为了利用 CLIP 模型的空间视觉上下文表示能力来获得视频中上下文事件的非连续视觉表示，我们将长期视频序列转换为空间图像域，并对多模态模型 LLaVA 进行微调VideoQA 任务。我们的方法在 STAR 任务上取得了有竞争力的表现，特别是在 NExTQA 任务上的准确率达到 78.4%，比当前最先进的分数高出 2.8 分。

视频问答的多对象事件图表示学习

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Yanan Wang, Shuichiro Haruta, Donghuo Zeng, Julio Vizcarra, Mori Kurokawa

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07747v1

摘要： 视频问答 (VideoQA) 是一项预测有关给定视频的问题的正确答案的任务。该系统必须理解从视频中提取的对象之间的空间和时间关系，以执行因果和时间推理。虽然之前的工作重点是使用基于变压器的方法对单个对象的运动进行建模，但在捕获涉及多个对象的复杂场景（例如，“一个男孩正在将球扔进篮筐”）时，它们会出现问题。我们提出了一种称为 CLanG 的对比语言事件图表示学习方法来解决这一限制。为了捕获与多个对象相关的事件表示，我们的方法采用多层 GNN 集群模块进行对抗性图表示学习，从而实现问题文本与其相关多对象事件图之间的对比学习。我们的方法优于强大的基线，在两个具有挑战性的 VideoQA 数据集 NExT-QA 和 TGIF-QA-R 上实现了高达 2.2% 的准确率提高。特别是，它在处理因果和时间问题方面比基线好 2.8%，凸显了它在推理多个基于对象的事件方面的优势。

应用于计算机视觉问题的迁移学习：当前进展、局限性和机遇的调查

分类： 计算机视觉和模式识别, 人工智能

作者： Aaryan Panda, Damodar Panigrahi, Shaswata Mitra, Sudip Mittal, Shahram Rahimi

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07736v1

摘要： 计算机视觉（CV）领域面临着挑战。最初，它依赖于手工制作的特征和基于规则的算法，导致准确性有限。机器学习 (ML) 的引入带来了进步，特别是迁移学习 (TL)，它通过重用预先训练的模型来解决各种 CV 问题。 TL 需要更少的数据和计算，同时提供几乎相同的准确性，使其成为 CV 领域的一项突出技术。我们的研究重点是 TL 开发以及 CV 应用程序如何使用它来解决现实世界的问题。我们讨论最近的发展、局限性和机遇。

GRE^2-MDCL：通过多维对比学习增强图表示嵌入

分类： 机器学习, 人工智能

作者： Kaizhe Fan, Quanjun Li

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07725v1

摘要： 图表示学习已成为在将节点映射到向量表示时保留图拓扑的强大工具，从而实现各种下游任务，例如节点分类和社区检测。然而，当前大多数图神经网络模型都面临着需要大量标记数据的挑战，这限制了它们在标记数据稀缺的现实场景中的实际适用性。为了应对这一挑战，研究人员探索了图对比学习（GCL），它利用增强的图数据和对比学习技术。虽然很有希望，但现有的 GCL 方法常常难以有效捕获局部和全局图结构，并平衡节点级和图级表示之间的权衡。在这项工作中，我们提出了通过多维对比学习增强图表示嵌入（GRE2-MDCL）。我们的模型引入了一种新颖的三重网络架构，以多头注意力 GNN 为核心。 GRE2-MDCL 首先使用 SVD 和 LAGNN 技术全局和局部增强输入图。然后，它构建多维对比损失，结合跨网络、跨视图和邻居对比来优化模型。在基准数据集 Cora、Citeseer 和 PubMed 上进行的大量实验表明，GRE2-MDCL 实现了最先进的性能，平均准确率分别为 82.5%、72.5% 和 81.6%。可视化进一步显示了更紧密的簇内聚合和更清晰的簇间边界，突出了我们的框架在改进基线 GCL 模型方面的有效性。

推进内窥镜检查中无监督单眼深度估计的深度任意模型

分类： 计算机视觉和模式识别, 人工智能

作者： Bojian Li, Bo Liu, Jinghua Yue, Fugen Zhou

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07723v1

摘要： 深度估计是 3D 重建的基石，在微创内窥镜手术中发挥着至关重要的作用。然而，当前大多数深度估计网络依赖于传统的卷积神经网络，其捕获全局信息的能力受到限制。基础模型为增强深度估计提供了一种有前景的途径，但目前可用的模型主要是在自然图像上进行训练，导致应用于内窥镜图像时性能不佳。在这项工作中，我们为深度任意模型引入了一种新颖的微调策略，并将其与基于内在的无监督单目深度估计框架集成。我们的方法包括基于随机向量的低秩适应技术，这提高了模型对不同尺度的适应性。此外，我们提出了一个基于深度可分离卷积的残差块，以补偿变压器捕获高频细节（例如边缘和纹理）的有限能力。我们在 SCARED 数据集上的实验结果表明，我们的方法实现了最先进的性能，同时最大限度地减少了可训练参数的数量。在微创内窥镜手术中应用这种方法可以显着提高这些手术的精度和安全性。

FIReStereo：用于视觉退化环境中 UAS 深度感知的森林红外立体数据集

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Devansh Dhrafani, Yifei Liu, Andrew Jong, Ukcheol Shin, Yao He, Tyler Harp, Yaoyu Hu, Jean Oh, Sebastian Scherer

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07715v1

摘要： 在视觉退化的环境中强大的深度感知对于自主航空系统至关重要。热像仪可捕获红外辐射，对视觉退化具有很强的鲁棒性。然而，由于缺乏大规模数据集，热像仪用于无人机系统（UAS）深度感知的用途在很大程度上仍未得到探索。本文提出了用于自主航空感知应用的立体热深度感知数据集。该数据集由立体热图像、LiDAR、IMU 和在白天、夜晚、雨和烟雾等不同条件下在城市和森林环境中捕获的地面真实深度图组成。我们对代表性立体深度估计算法进行基准测试，深入了解其在退化条件下的性能。在我们的数据集上训练的模型可以很好地推广到看不见的烟雾条件，突出了立体热成像对于深度感知的鲁棒性。我们的目标是增强机器人在灾难场景中的感知，从而允许在以前无法到达的区域进行探索和操作。数据集和源代码可在 https://firestereo.github.io 获取。

通过模块噪声攻击端到端自动驾驶

分类： 机器学习, 人工智能

作者： Lu Wang, Tianyuan Zhang, Yikai Han, Muyang Fang, Ting Jin, Jiaqi Kang

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07706v1

摘要： 随着深度神经网络最近的突破，自动驾驶中的许多任务都表现出了卓越的性能。然而，深度学习模型容易受到对抗性攻击，给自动驾驶系统带来重大安全风险。目前，端到端架构由于其跨不同任务的协作性质而成为自动驾驶的主要解决方案。然而，对抗性攻击对此类模型的影响仍然相对未经探索。在本文中，我们首次对模块化端到端自动驾驶模型进行全面的对抗安全研究。我们充分考虑了模型推理过程中的潜在漏洞，并通过模块级噪声注入设计了通用攻击方案。我们对全栈自动驾驶模型进行了大规模实验，并证明我们的攻击方法优于以前的攻击方法。我们相信我们的研究将为确保自动驾驶系统的安全性和可靠性提供新的见解。

超单调对齐搜索

分类： 音频和语音处理, 人工智能

作者： Junhyeok Lee, Hyeongju Kim

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07704v1

摘要： 单调对齐搜索 (MAS) 由 Glow-TTS 引入，是 TTS 中最流行的算法之一，用于估计文本和语音之间的未知对齐。由于该算法需要通过缓存所有路径来用动态规划来搜索最可能的对齐，因此该算法的时间复杂度为$O(T \times S)$。 Glow-TTS的作者在CPU上运行这个算法，虽然他们提到很难并行化，但我们发现MAS可以在文本长度维度上并行化，并且CPU执行会消耗大量时间用于设备间复制。因此，我们实现了 Triton 内核和 PyTorch JIT 脚本来在 GPU 上加速 MAS，而无需设备间复制。因此，Super-MAS Triton 内核在极端长度的情况下速度提高了 72 倍。该代码可在 \url{https://github.com/supertone-inc/super-monotonic-align} 获取。

DSBench：数据科学代理距离成为数据科学专家还有多远？

分类： 人工智能, 计算和语言

作者： Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07703v1

摘要： 大型语言模型（LLM）和大型视觉语言模型（LVLM）已经展示了令人印象深刻的语言/视觉推理能力，点燃了为购物助理或人工智能软件工程师等目标应用构建代理的最新趋势。最近，人们提出了许多数据科学基准来研究它们在数据科学领域的表现。然而，由于设置的简化，现有的数据科学基准与现实世界的数据科学应用程序相比仍然存在不足。为了弥补这一差距，我们引入了 DSBench，这是一个综合基准测试，旨在评估具有实际任务的数据科学代理。该基准包括 466 个数据分析任务和 74 个数据建模任务，这些任务来自 Eloquence 和 Kaggle 竞赛。 DSBench 通过包含长上下文、多模式任务背景、使用大型数据文件和多表结构进行推理以及执行端到端数据建模任务来提供真实的设置。我们对最先进的 LLM、LVLM 和代理的评估表明，他们在大多数任务上都遇到困难，最好的代理只能解决 34.12% 的数据分析任务，并实现 34.74% 的相对性能差距 (RPG)。这些发现强调需要进一步开发更实用、更智能、更自主的数据科学代理。

俄罗斯-乌克兰战争期间 Telegram 上的信息叙事检测和演化建模

分类： 社交和信息网络, 人工智能

作者： Patrick Gerard, Svitlana Volkova, Louis Penafiel, Kristina Lerman, Tim Weninger

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07684v1

摘要： 2022 年 2 月俄罗斯联邦全面入侵乌克兰后，亲俄和亲乌克兰的网络社区中出现了大量信息叙述。随着冲突的进展，信息叙述也在不断发展，不断适应和影响当地和全球社区的看法和态度。不断发展的信息环境 (IE) 的这种动态性质强调了充分了解叙述如何演变和影响在线社区的迫切需要。然而，现有的研究往往无法捕捉信息叙事的演变，忽视了叙事的流动性和驱动其演变的内部机制。认识到这一点，我们引入了一种新颖的方法，旨在模拟叙事演变并揭示驱动它们的潜在机制。在这项工作中，我们对 Telegram 上的各个社区进行了比较话语分析，涵盖了入侵后的最初三个月。首先，我们发现亲俄罗斯和亲乌克兰社区之间的叙述和看法存在巨大差异。然后，我们更深入地探讨每个群体的流行叙述，确定关键主题并研究推动其演变的潜在机制。最后，我们探讨可能影响叙事发展和传播的影响和因素。

开放词汇遥感图像语义分割

分类： 计算机视觉和模式识别, 人工智能

作者： Qinglong Cao, Yuntian Chen, Chao Ma, Xiaokang Yang

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07683v1

摘要： 开放词汇图像语义分割 (OVS) 旨在将图像分割成跨一组开放类别的语义区域。现有的 OVS 方法通常依赖于基础视觉语言模型，并利用相似性计算来处理 OVS 任务。然而，这些方法主要针对自然图像，并难以应对遥感图像的独特特征，例如快速变化的方向和显着的尺度变化。这些挑战使地球视觉中的 OVS 任务变得复杂，需要专门的方法。为了解决这一困境，我们从独特的遥感特征中汲取灵感，提出了第一个专为遥感图像设计的 OVS 框架。特别是，为了解决不同的方向，我们引入了旋转聚合相似度计算模块，该模块生成方向自适应相似度图作为初始语义图。这些地图随后在空间和分类层面上进行细化，以生成更准确的语义地图。此外，为了管理显着的尺度变化，我们将多尺度图像特征集成到上采样过程中，从而产生最终的尺度感知语义掩模。为了推进地球视觉中的 OVS 并鼓励可重复的研究，我们建立了第一个用于遥感图像的开源 OVS 基准，包括四个公共遥感数据集。该基准的大量实验证明我们提出的方法实现了最先进的性能。所有代码和数据集均可在 https://github.com/caoql98/OVRS 获取。

基于话语重写的无监督对话主题切分模型

分类： 计算和语言, 人工智能

作者： Xia Hou, Qifeng Li, Tongliang Li

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07672v1

摘要： 对话主题分割在各类对话建模任务中起着至关重要的作用。最先进的无监督 DTS 方法通过相邻话语匹配和伪分割从会话数据中学习主题感知的话语表示，以进一步挖掘未标记会话关系中的有用线索。然而，在多轮对话中，话语经常存在共指或遗漏，导致直接使用这些话语进行表示学习可能会对相邻话语匹配任务中的语义相似度计算产生负面影响。为了充分利用对话关系中的有用线索，本研究提出了一种新颖的无监督对话主题分割方法，该方法将话语重写（UR）技术与无监督学习算法相结合，通过重写对话来有效地利用无标签对话中的有用线索。为了恢复共同指称和省略的单词。与现有的无监督模型相比，所提出的话语重写主题分割模型（UR-DTS）显着提高了主题分割的准确性。主要发现是，DialSeg711 的性能在绝对错误分数和 WD 方面提高了约 6%，在绝对错误分数方面达到了 11.42%，在 WD 方面达到了 12.97%。在 Doc2Dial 上，绝对错误分数和 WD 分别提高了约 3% 和 2%，导致 SOTA 的绝对错误分数达到 35.17%，WD 达到 38.49%。这表明该模型在捕捉对话主题的细微差别以及利用未标记对话的有用性和挑战方面非常有效。

通过图灵测试：生活在图灵未来

分类： 人工智能, 计算机与社会

作者： Bernardo Gonçalves

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07656v1

摘要： 世界上已经出现了基于预训练模型、变压器的机器，也称为生成人工智能，因为它们能够生成各种类型的内容，包括文本、图像、音频和合成数据。无需借助预先编程或特殊技巧，它们的智力就会随着从经验中学习而增长，并且对于普通人来说，它们可以在对话中表现得像人类一样。这意味着它们可以通过图灵测试，而我们现在生活在许多可能的图灵未来之一，其中机器可以通过它们无法通过的东西。然而，图灵想象的能够通过模仿测试的学习机器是受低能量人类皮层自然发育启发的机器。他们会像人类孩子一样长大，自然地学会欺骗观察者的能力。图灵希望这些“儿童机器”能够强大到足以对社会和自然产生影响。

行人意图预测中的特征重要性：情境感知综述

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术, 图像和视频处理

作者： Mohsen Azarmi, Mahdi Rezaei, He Wang, Ali Arabian

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07645v1

摘要： 使用计算机视觉和深度神经网络预测自动驾驶车辆行人过路意图的最新进展令人鼓舞。然而，DNN 的黑盒性质给理解模型如何工作以及输入特征如何影响最终预测带来了挑战。这种可解释性的缺乏限制了对模型性能的信任，并阻碍了对特征选择、表示和模型优化的明智决策；从而影响该领域未来研究的有效性。为了解决这个问题，我们引入了上下文感知排列特征重要性（CAPFI），这是一种专为行人意图预测而定制的新颖方法。 CAPFI 通过利用细分的场景上下文，通过有针对性的改组来减轻特征值的随机性，从而实现对特征重要性的更多可解释性和可靠评估。这样做的目的是减少方差并防止排列过程中重要性分数的偏差估计。我们将行人意图估计 (PIE) 数据集分为 16 个可比较的上下文集，测量每个上下文中用于意图预测的五个不同神经网络架构的基线性能，并使用 CAPFI 评估输入特征的重要性。我们观察到不同背景特征的模型之间存在细微差别。该研究揭示了行人边界框和自我车辆速度在预测行人意图中的关键作用，以及通过跨上下文排列评估的速度特征造成的潜在预测偏差。我们提出了一种替代特征表示，通过考虑邻近变化率来渲染动态行人车辆运动，从而增强输入特征对意图预测的贡献。这些发现强调了上下文特征及其多样性对于开发准确且稳健的意图预测模型的重要性。

我们可以依靠大语言模型吗？固定效应谬误和 GPT-4 功能的主张

分类： 人工智能, 计算和语言, 机器学习

作者： Thomas Ball, Shuo Chen, Cormac Herley

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07638v1

摘要： 在本文中，我们探讨了大语言模型能力的评估。我们展示了 GPT-4 在几个确定性任务上的性能测量结果；每个任务都涉及基本计算，并采用从大量明确定义的总体中提取的某些元素作为输入参数（例如，对列表中的元素进行计数、将两个 k 位数字相乘等）。我们检查每个任务的多个条件并进行足够的试验，以便可以检测到统计上显着的差异。这使我们能够研究任务准确性对查询短语和输入参数总体的敏感性。我们发现，任务提示或输入群体中看似微不足道的修改可能会产生远远大于抽样效应所能解释的差异。例如，简单的列表计数任务的性能随查询短语和列表长度的不同而变化，而且还随列表的组成（即要计数的事物）和对象频率（例如，当一个元素占总数时成功）而变化。列表的 $\approx$ 50% 与它占 $\approx$ 70% 等时不同）。我们得出的结论是，量化大语言模型能力的努力很容易屈服于语言固定效应谬误，即实验观察结果被不适当地概括为超出了数据支持的范围。结果似乎是，基于与人类互动而形成的直觉对于哪些输入修改应该对大语言模型表现“没有影响”形成了非常不可靠的指导。

电力系统中的天气信息概率预测和场景生成

分类： 机器学习, 人工智能, 机器学习, 应用领域

作者： Hanyu Zhang, Reza Zandehshahvar, Mathieu Tanneau, Pascal Van Hentenryck

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07637v1

摘要： 由于其固有的随机性和不确定性，可再生能源（RES）并入电网带来了重大挑战，因此需要开发可靠、高效的预测新技术。本文提出了一种结合概率预测和高斯联结函数的方法，用于高维环境中负荷、风能和太阳能的日前预测和场景生成。通过结合天气协变量和恢复时空相关性，该方法提高了 RES 概率预报的可靠性。广泛的数值实验比较了不同时间序列模型的有效性，并使用来自中部大陆独立系统运营商 (MISO) 的真实世界和高维数据集的综合指标来评估性能。结果强调了天气信息的重要性，并证明了高斯关联函数在生成真实场景方面的有效性，所提出的天气信息时间融合变压器（WI-TFT）模型显示出卓越的性能。

可分割配置性能学习

分类： 软件工程, 人工智能

作者： Jingzhi Gong, Tao Chen, Rami Bahsoon

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07629v1

摘要： 机器/深度学习模型已被广泛采用来预测软件系统的配置性能。然而，一个关键但尚未解决的挑战是如何满足从配置景观继承的稀疏性：配置选项（特征）的影响和数据样本的分布是高度稀疏的。在本文中，我们提出了一种与模型无关且稀疏鲁棒的框架，用于预测配置性能，称为 DaL，基于通过“分而学习”构建模型的可分学习的新范式。为了处理样本稀疏性，来自配置景观的样本被分为遥远的部分，我们为每个部分构建一个稀疏局部模型，例如正则化层次交互神经网络，以处理特征稀疏性。然后，新给定的配置将被分配给最终预测的正确划分模型。此外，DaL 自适应地确定系统所需的最佳划分数量和样本大小，而无需任何额外的训练或分析。来自 12 个现实世界系统和 5 组训练数据的实验结果表明，与最先进的方法相比，DaL 在 60 个案例中的 44 个案例中的表现不比最佳对应方法差，并且性能提升高达 1.61 倍准确性;需要更少的样本来达到相同/更好的精度；并产生可接受的培训开销。特别是，调整参数 d 的机制可以在 76.43% 的单次运行中达到最佳值。结果还证实，可分割学习的范式比集成学习等其他类似范式更适合预测配置性能。实际上，DaL 在使用不同的全局模型作为底层局部模型时极大地改进了它们，这进一步增强了其灵活性。

隐马尔可夫模型序列分类的集成方法

分类： 机器学习, 人工智能

作者： Maxime Kawawa-Beaudan, Srijan Sood, Soham Palande, Ganapathy Mani, Tucker Balch, Manuela Veloso

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07619v1

摘要： 我们提出了一种使用隐马尔可夫模型（HMM）的集成方法进行序列分类的轻量级方法。由于其简单性、可解释性和效率，HMM 在数据集不平衡或较小的场景中具有显着的优势。这些模型在金融和生物学等领域特别有效，这些领域的传统方法难以应对高特征维度和不同的序列长度。我们基于集成的评分方法可以比较任何长度的序列，并提高不平衡数据集的性能。本研究重点关注二元分类问题，特别是在数据不平衡的情况下，其中负类占多数（例如正常数据），正类占少数（例如异常数据），通常具有极端的分布偏差。我们提出了一种新的 HMM 集成训练方法，可推广到多类问题并支持分类和异常检测。我们的方法使用随机数据子集来拟合不同模型的特定类别组，并比较各个类别的可能性以产生综合分数，从而实现较高的平均精度和 AUC。此外，我们将我们的方法与基于神经网络的方法（例如卷积神经网络（CNN）和长短期记忆网络（LSTM））进行比较，强调了 HMM 在数据稀缺环境中的效率和鲁棒性。在现实世界用例的推动下，我们的方法在各种基准测试中展示了强大的性能，为不同的应用程序提供了灵活的框架。

了解基础模型：我们回到 1924 年了吗？

分类： 人工智能, 机器学习

作者： Alan F. Smeaton

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07618v1

摘要： 本立场文件探讨了人工智能基础模型 (FM) 的快速发展及其对智能和推理的影响。它检查了 FM 的特征，包括它们在大量数据集上的训练以及使用嵌入空间来捕获语义关系。本文讨论了 FM 推理能力的最新进展，我们认为这不能归因于模型大小的增加，而是归因于新的训练技术，它产生了像 grokking 这样的学习现象。它还解决了 FM 基准测试的挑战，并将其结构与人脑进行比较。我们认为，虽然 FM 在推理和知识表示方面显示出有希望的发展，但理解其内部工作原理仍然是一个重大挑战，类似于神经科学领域为理解人类大脑功能所做的持续努力。尽管 FM 和人脑结构之间存在一些相似之处，但存在根本差异，因此我们不要进行直接比较或期望神经科学能够立即洞察 FM 功能。

深度学习正则化对离线强化学习中参与者的作用

分类： 机器学习, 人工智能

作者： Denis Tarasov, Anja Surina, Caglar Gulcehre

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07606v1

摘要： 深度学习正则化技术，例如 \emph{dropout}、\emph{layer normalization} 或 \emph{权重衰减}，在现代人工神经网络的构建中被广泛采用，通常会带来更稳健的训练过程和改进的泛化能力能力。然而，在\emph{强化学习}（RL）领域，这些技术的应用受到限制，通常应用于价值函数估计器\citep{hiraoka2021dropout，smith2022walk}，并可能导致有害影响。这个问题在离线强化学习设置中更为明显，它与监督学习更加相似，但受到的关注较少。最近的连续离线强化学习研究表明，虽然我们可以构建足够强大的批评者网络，但行动者网络的泛化仍然是一个瓶颈。在这项研究中，我们凭经验证明，将标准正则化技术应用于离线 RL actor-critic 算法中的 actor 网络，可以在两种算法和三个不同的连续 D4RL 域中平均获得 6% 的改进。

神经天气预报的高效本地化适应：中东和北非地区的案例研究

分类： 机器学习, 人工智能, 大气和海洋物理

作者： Muhammad Akhtar Munir, Fahad Shahbaz Khan, Salman Khan

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07585v1

摘要： 准确的天气和气候模型对于科学进步和保护社区免受环境风险至关重要。传统方法严重依赖数值天气预报 (NWP) 模型，该模型模拟地球系统中的能量和物质流。然而，繁重的计算要求和低效率限制了数值天气预报的适用性，从而迫切需要增强的建模技术。基于神经网络的模型已成为有前途的替代方案，利用数据驱动的方法来预测大气变量。在这项工作中，我们专注于有限区域建模，并专门针对局部区域级下游任务训练我们的模型。作为案例研究，我们考虑中东和北非地区，因为其独特的气候挑战，准确的本地化天气预报对于管理水资源、农业和减轻极端天气事件的影响至关重要。这种有针对性的方法使我们能够根据感兴趣区域的独特条件定制模型的功能。我们的研究旨在验证集成参数高效微调（PEFT）方法的有效性，特别是低秩适应（LoRA）及其变体，以提高预测准确性以及训练速度、计算资源利用率和内存效率特定地区的天气和气候建模。

DS-ViT：用于阿尔茨海默病早期诊断中跨任务蒸馏的双流视觉变压器

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别, 68T07, 92C55 (Primary) 93C85 (Secondary)

作者： Ke Chen, Yifeng Wang, Yufei Zhou, Haohan Wang

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07584v1

摘要： 在阿尔茨海默病诊断领域，分割和分类任务本质上是相互关联的。在这些任务的模型之间共享知识可以显着提高训练效率，特别是在训练数据稀缺的情况下。然而，由于任务的不同性质和不同的模型架构，传统的知识蒸馏技术常常难以弥合分割和分类之间的差距。为了应对这一挑战，我们提出了一种双流管道，以促进跨任务和跨架构知识共享。我们的方法引入了双流嵌入模块，该模块统一了分割和分类模型的特征表示，使这些特征的维度集成能够指导分类模型。我们在用于阿尔茨海默病诊断的多个 3D 数据集上验证了我们的方法，证明了分类性能的显着改进，尤其是在小型数据集上。此外，我们利用患者脑质量萎缩之前拍摄的图像，通过残余时间注意机制扩展了我们的流程，以进行早期诊断。这一进展有望在轻度和无症状阶段提前大约六个月进行诊断，为干预提供关键时间。

使用深度递归神经网络和卷积神经网络进行视频中的暴力检测

分类： 计算机视觉和模式识别, 人工智能

作者： Abdarahmane Traoré, Moulay A. Akhloufi

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07581v1

摘要： 近年来，暴力和异常行为检测研究的兴趣日益浓厚，这主要是由于全球大城市犯罪率的上升。在这项工作中，我们提出了一种用于暴力检测的深度学习架构，它结合了循环神经网络（RNN）和二维卷积神经网络（2D CNN）。除了视频帧之外，我们还使用使用捕获的序列计算的光流。 CNN提取每一帧的空间特征，而RNN提取时间特征。光流的使用可以对场景中的运动进行编码。所提出的方法达到了与最先进技术相同的水平，有时甚至超过了它们。它在3个数据库上进行了验证，取得了良好的结果。

使用对话式人工智能 (CAI) 系统客观评估想法的新颖数学框架

分类： 人工智能, 53A45, I.2.7; G.3

作者： B. Sankar, Dibakar Sen

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07578v1

摘要： 产品设计创新的需求需要丰富的构思阶段。使用 GPT（生成式预训练变压器）等大型语言模型 (LLM) 的对话式人工智能 (CAI) 系统已被证明在增强人类创造力方面卓有成效，提供了许多新颖且多样化的想法。尽管在构思数量上取得了成功，但对这些想法的定性评估仍然具有挑战性，并且传统上依赖于专家的人类评估。这种方法存在人为判断错误、偏见和监督等局限性。为了解决这一差距，我们的研究引入了一个用于自动分析的综合数学框架，以客观地评估 CAI 系统和/或人类产生的大量想法。该框架对于缺乏选择有前途想法的经验的新手设计师特别有利。通过将想法转换为更高维的向量，并使用 UMAP、DBSCAN 和 PCA 等工具定量测量它们之间的多样性，该方法提供了一种可靠且客观的方法来选择最有前途的想法，从而提高构思阶段的效率。

逆约束强化学习综述：定义、进展和挑战

分类： 机器学习, 人工智能

作者： Guiliang Liu, Sheng Xu, Shicheng Liu, Ashish Gaurav, Sriram Ganapathi Subramanian, Pascal Poupart

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07569v1

摘要： 逆约束强化学习（ICRL）的任务是从演示数据中推断专家代理遵循的隐式约束。 ICRL作为一个新兴的研究课题，近年来受到了广泛的关注。本文对 ICRL 的最新进展进行了分类调查。它可以为机器学习研究人员和从业者以及寻求理解 ICRL 的定义、进展和重要挑战的初学者提供全面的参考。我们首先正式定义问题并概述有助于跨各种场景进行约束推断的算法框架。这些包括确定性或随机环境、演示有限的环境以及多个代理。对于每种情况，我们都会说明关键挑战，并介绍一系列解决这些问题的基本方法。这项调查涵盖了用于评估 ICRL 代理的离散、虚拟和现实环境。我们还深入研究了 ICRL 最相关的应用，例如自动驾驶、机器人控制和运动分析。为了促进持续研究，我们在调查结束时讨论了 ICRL 中未解决的关键问题，这些问题可以有效地在理论理解和实际工业应用之间架起桥梁。

用于高效医疗保健调度的机器学习和约束编程

分类： 人工智能

作者： Aymen Ben Said, Malek Mouhoub

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07547v1

摘要： 解决组合优化问题涉及在优化某些目标的同时满足一组硬约束。在这种情况下，可以使用精确或近似方法。虽然精确方法可以保证最佳解决方案，但它们通常会带来指数级的运行时间，而不像近似方法那样以牺牲解决方案质量来换取更好的运行时间。在这种背景下，我们解决护士调度问题（NSP）。 NSP 包括在规划范围内将护士分配到每日轮班，以便满足工作量限制，同时优化医院成本和护士偏好。为了解决 NSP，我们提出了隐式和显式方法。在隐式求解方法中，我们依靠使用历史数据的机器学习方法，通过可能嵌入学习模式中的约束和目标来学习和生成新的解决方案。为了量化使用隐式方法捕获嵌入约束和目标的质量，我们依靠 Frobenius 范数，这是一种用于计算生成的解决方案和历史数据之间的平均误差的质量度量。由于约束和目标在生成的解决方案中可能不具体可见，为了补偿与隐式方法相关的不确定性，我们提出了一种替代的显式方法，首先使用约束满足问题（CSP）框架对 NSP 进行建模。然后，我们开发随机局部搜索方法和新的分支限界算法，该算法通过约束传播技术和变量/值排序启发法进行了增强。由于我们的隐式方法可能无法保证生成的解决方案的可行性或最优性，因此我们提出了一种数据驱动的方法来被动地学习 NSP 作为约束网络。学习到的约束网络被表述为 CSP，然后将使用我们之前列出的方法进行求解。

“我的成绩错了！”：用于评估学生论文的交互式反馈的可争议人工智能框架

分类： 人工智能, 人机交互

作者： Shengxin Hong, Chang Cai, Sixuan Du, Haiyue Feng, Siyuan Liu, Xiuyi Fan

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07453v1

摘要： 交互式反馈（反馈在教师和学生之间双向流动）比传统的单向反馈更有效。然而，它往往过于耗时，无法在教育实践中广泛使用。虽然大型语言模型 (LLM) 具有自动反馈的潜力，但它们在交互式环境中的推理和交互方面遇到了困难。本文介绍了 CAELF，一种可竞争的人工智能授权 LLM 框架，用于自动化交互式反馈。 CAELF 允许学生通过将多智能体系统与计算论证相结合来查询、挑战和澄清他们的反馈。论文首先由多个助教代理（TA Agent）进行评估，然后教师代理通过正式推理汇总评估结果以生成反馈和成绩。学生可以进一步参与反馈以加深他们的理解。对 500 篇批判性思维论文和用户研究的案例研究表明，CAELF 显着改善了互动反馈，增强了大语言模型的推理和互动能力。这种方法提供了一种很有前途的解决方案，可以克服限制教育环境中交互式反馈采用的时间和资源障碍。

更多的空值：负责任的缺失值插补的基准

分类： 人工智能, 计算机与社会, 机器学习

作者： Falaah Arif Khan, Denys Herasymuk, Nazar Protsiv, Julia Stoyanovich

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07510v1

摘要： 我们提出了 Shades-of-NULL，这是负责任的缺失值插补的基准。我们的基准包括最先进的插补技术，并将其嵌入到机器学习开发生命周期中。我们模拟真实的缺失场景，超越鲁宾经典的完全随机缺失（MCAR）、随机缺失（MAR）和非随机缺失（MNAR），包括多机制缺失（当不同的缺失模式在数据中共存时））和缺失变化（当缺失机制在训练和测试之间发生变化时）。我们工作的另一个关键新颖之处是，我们根据根据生成的数据进行训练和测试的模型的预测性能、公平性和稳定性，对输入器进行整体评估。我们使用 Shades-of-NULL 进行了一项涉及 20,952 个实验管道的大规模实证研究，并发现，虽然没有针对所有缺失类型的单一最佳性能插补方法，但在比较更简单的插补器性能时，确实出现了有趣的性能模式与更复杂的缺失场景相比。此外，虽然预测性能、公平性和稳定性可以被视为正交，但我们确定了它们之间的权衡，这些权衡是由于缺失场景、输入器的选择以及在数据后训练的模型架构的组合而产生的。插补。我们将 Shades-of-NULL 公开，并希望使研究人员能够在合理且具有社会意义的缺失场景中，在广泛的评估指标上全面、严格地评估新的缺失值插补方法。

引入扰动能力分数 (PS) 以增强 ML-NIDS 对抗规避对抗攻击的鲁棒性

分类： 密码学和安全, 人工智能, 机器学习

作者： Mohamed elShehaby, Ashraf Matrawy

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07448v1

摘要： 本文提出了一种新颖的扰动能力评分（PS），可用于识别问题空间中攻击者可以轻松操纵的网络入侵检测系统（NIDS）功能。我们证明，使用 PS 为基于 ML 的 NIDS 仅选择不可扰动的特征可以保持检测性能，同时增强针对对抗性攻击的鲁棒性。

SUPER：评估代理在研究存储库中设置和执行任务的能力

分类： 人工智能, 计算和语言, 软件工程

作者： Ben Bogin, Kejuan Yang, Shashank Gupta, Kyle Richardson, Erin Bransom, Peter Clark, Ashish Sabharwal, Tushar Khot

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07440v1

摘要： 鉴于大型语言模型 (LLM) 在编写代码方面取得了重大进展，它们现在可以用于自动重现研究存储库的结果吗？这种能力将给研究界带来福音，帮助研究人员验证、理解和扩展先前的工作。为了实现这一目标，我们引入了 SUPER，这是第一个旨在评估大语言模型在研究存储库中设置和执行任务的能力的基准。 SUPER旨在捕捉使用机器学习 (ML) 和自然语言处理 (NLP) 研究库的研究人员所面临的现实挑战。我们的基准测试由三个不同的问题集组成：45 个带有注释专家解决方案的端到端问题、152 个从专家集中导出的专注于特定挑战（例如配置训练器）的子问题以及 602 个自动生成的更大规模问题发展。我们引入了各种评估措施来评估任务的成功和进展，在可用时使用黄金解决方案或在其他情况下使用近似值。我们表明，最先进的方法很难解决这些问题，而最佳模型 (GPT-4o) 只能解决 16.3% 的端到端集和 46.1% 的场景。这说明了这项任务的挑战，并表明 SUPER 可以作为社区取得和衡量进展的宝贵资源。

综合持续预训练

分类： 机器学习, 人工智能, 计算和语言, 机器学习

作者： Zitong Yang, Neil Band, Shuangping Li, Emmanuel Candès, Tatsunori Hashimoto

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07431v1

摘要： 对大规模非结构化互联网文本的预训练使语言模型能够获取大量的世界知识。然而，这种知识获取的数据效率很低——为了学习给定的事实，必须对模型进行数百到数千种不同表示的训练。当将预训练模型适应特定领域文档的小型语料库时，这提出了挑战，其中每个事实可能很少出现或仅出现一次。我们建议通过综合持续预训练来弥补这一差距：使用小型特定领域语料库来合成更适合学习的大型语料库，然后对合成语料库进行持续预训练。我们使用 EntiGraph 实例化该提案，EntiGraph 是一种合成数据增强算法，可从源文档中提取显着实体，然后通过绘制采样实体之间的连接来生成不同的文本。使用 EntiGraph 进行综合持续预训练使语言模型能够回答问题并遵循与源文档相关的通用指令，而无需访问它们。相反，如果源文档在推理时可用，我们表明通过我们的方法获得的知识与检索增强生成相结合。为了更好地理解这些结果，我们构建了一个简单的 EntiGraph 数学模型，并展示了合成数据增强如何“重新排列”知识以实现更高效的数据学习。

用于列表推荐的时间抽象的分层强化学习

分类： 信息检索, 人工智能, 机器学习

作者： Luo Ji, Gao Liu, Mingyang Yin, Hongxia Yang, Jingren Zhou

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07416v1

摘要： 现代列表推荐系统需要考虑长期用户感知和短期兴趣变化。强化学习可以应用于推荐来研究此类问题，但也存在搜索空间大、用户反馈稀疏和交互延迟长的问题。受分层强化学习最新进展的推动，我们提出了一种名为 mccHRL 的新颖框架，为列表推荐提供不同级别的时间抽象。在分层框架内，高级代理研究用户感知的演变，而低级代理通过将过程建模为顺序决策问题来产生项目选择策略。我们认为，这样的框架对会话外上下文和会话内上下文有明确定义的分解，分别由高级代理和低级代理编码。为了验证这一论点，我们实现了基于模拟器的环境和基于工业数据集的实验。结果表明，与几个众所周知的基线相比，我们的方法显着提高了性能。数据和代码已公开。

SoK：医疗人工智能的安全和隐私风险

分类： 密码学和安全, 人工智能, 机器学习

作者： Yuanhaur Chang, Han Liu, Evin Jaff, Chenyang Lu, Ning Zhang

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07415v1

摘要： 技术与医疗保健的融合开创了一个新时代，以人工智能和机器学习为动力的软件系统已成为医疗产品和服务的重要组成部分。虽然这些进步为提高患者护理和医疗保健提供效率带来了巨大希望，但它们也将敏感的医疗数据和系统完整性暴露给潜在的网络攻击。本文探讨了人工智能/机器学习应用在医疗保健领域带来的安全和隐私威胁。通过对一系列医疗领域的现有研究进行彻底检查，我们发现在理解针对医疗人工智能系统的对抗性攻击方面存在重大差距。通过概述医疗环境的特定对抗性威胁模型并识别易受攻击的应用领域，我们为未来调查人工智能驱动的医疗系统的安全性和弹性的研究奠定了基础。通过对不同威胁模型的分析以及不同医疗领域对抗性攻击的可行性研究，我们对快速发展的人工智能医疗保健技术领域对网络安全研究的迫切需求提供了令人信服的见解。

坚固的步行机器人：学习在微小陷阱中的敏捷运动

分类： 机器人技术, 人工智能

作者： Shaoting Zhu, Runhan Huang, Linzhan Mou, Hang Zhao

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07409v2

摘要： 四足机器人在实际应用中必须表现出强大的行走能力。在这项工作中，我们提出了一种新颖的方法，使四足机器人能够通过各种小障碍物或“微小陷阱”。现有的方法通常依赖于外部感受传感器，这对于检测如此微小的陷阱来说可能不可靠。为了克服这一限制，我们的方法仅关注本体感受输入。我们引入了一个两阶段训练框架，结合了接触编码器和分类头来学习不同陷阱的隐式表示。此外，我们设计了一组量身定制的奖励函数，以提高训练的稳定性和目标跟踪任务的部署简易性。为了有利于进一步的研究，我们为微小陷阱任务设计了一个新的基准。模拟和现实环境中的大量实验证明了我们方法的有效性和鲁棒性。项目页面：https://robust-robot-walker.github.io/

CLNX：桥接代码和自然语言，用于 C/C++ 漏洞贡献提交识别

分类： 密码学和安全, 人工智能, 68M25

作者： Zeqing Qin, Yiwei Wu, Lansheng Han

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07407v1

摘要： 大型语言模型 (LLM) 在漏洞识别方面显示出了巨大的前景。由于过去十年中 C/C++ 占开源软件 (OSS) 漏洞的一半，并且 OSS 的更新主要通过提交进行，因此增强大语言模型识别 C/C++ 漏洞贡献提交 (VCC) 的能力至关重要。然而，目前的研究主要集中在海量代码数据集上对大语言模型进行进一步的预训练，这是资源密集型的，并且带来了效率挑战。在本文中，我们增强了基于 BERT 的 LLM 以轻量级方式识别 C/C++ VCC 的能力。我们建议 CodeLinguaNexus (CLNX) 作为促进 C/C++ 程序和大语言模型之间沟通的桥梁。基于提交，CLNX 有效地将源代码转换为更自然的表示形式，同时保留关键细节。具体来说，CLNX 首先应用结构级自然化来分解复杂程序，然后应用令牌级自然化来解释复杂符号。我们在 25,872 个 C/C++ 函数及其提交的公共数据集上评估 CLNX。结果表明，CLNX 显着提高了大语言模型在识别 C/C++ VCC 方面的性能。此外，配备 CLNX 的 CodeBERT 实现了最先进的技术，并识别了现实世界中的 38 个 OSS 漏洞。

多模态对比学习中要调整什么？

分类： 机器学习, 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Benoit Dufumier, Javiera Castillo-Navarro, Devis Tuia, Jean-Philippe Thiran

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07402v1

摘要： 人类通过多感官整合来感知世界，混合不同方式的信息来适应他们的行为。对比学习为多模式自我监督学习提供了一个有吸引力的解决方案。事实上，通过将每种模态视为同一实体的不同视图，它学会了在共享表示空间中对齐不同模态的特征。然而，这种方法本质上是有限的，因为它只能学习模态之间共享或冗余的信息，而多模态交互可以以其他方式出现。在这项工作中，我们介绍了 CoMM，一种对比多模态学习策略，它能够在单个多模态空间中实现模态之间的通信。我们建议通过最大化这些多模态特征的增强版本之间的互信息来对齐多模态表示，而不是施加跨模态或模内约束。我们的理论分析表明，共享的、协同的和独特的信息术语自然地从这个公式中产生，使我们能够估计超越冗余的多模态相互作用。我们在受控环境和一系列现实环境中测试 CoMM：在前者中，我们证明 CoMM 有效地捕获模态之间的冗余、独特和协同信息。在后者中，CoMM 学习复杂的多模态交互，并在六个多模态基准上取得了最先进的结果。

唤醒幻灯片：通过语言模型协调实现免调优、知识调控的人工智能辅导系统

分类： 计算和语言, 人工智能, 人机交互

作者： Daniel Zhang-Li, Zheyuan Zhang, Jifan Yu, Joy Lim Jia Yin, Shangqing Tu, Linlu Gong, Haohua Wang, Zhiyuan Liu, Huiqin Liu, Lei Hou, Juanzi Li

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07372v1

摘要： 大量预先存在的幻灯片是承载讲座知识的丰富而重要的材料。然而，由于幻灯片内容的多模态性和教学行为的异构性，有效利用讲座幻灯片为学生服务是很困难的。我们研究的问题是发现将幻灯片转换为交互式讲座的有效设计。我们开发了Slide2Lecture，这是一种免调整且知识调节的智能辅导系统，它可以（1）有效地将输入的讲座幻灯片转换为由一组异构教学动作组成的结构化教学议程； (2) 创建和管理交互式讲座，生成满足学生学习需求的响应式交互，同时调节交互以遵循教学行为。 Slide2Lecture 包含一个完整的管道，供学习者获得学习幻灯片的交互式课堂体验。对于教师和开发人员来说，Slide2Lecture 可以进行定制，以满足个性化需求。注释者和学生的评估表明，Slide2Lecture 的性能优于其他实现。 Slide2Lecture的在线部署已在3K讲座中与学生进行了超过20万次互动。我们在 https://anonymous.4open.science/r/slide2lecture-4210/ 中开源了 Slide2Lecture 的实现。

演示：SGCode：用于安全生成代码的灵活提示优化系统

分类： 密码学和安全, 人工智能

作者： Khiem Ton, Nhi Nguyen, Mahmoud Nazzal, Abdallah Khreishah, Cristian Borcea, NhatHai Phan, Ruoming Jin, Issa Khalil, Yelong Shen

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07368v1

摘要： 本文介绍了 SGCode，这是一种灵活的提示优化系统，用于使用大型语言模型 (LLM) 生成安全代码。 SGCode 将最新的即时优化方法与大语言模型集成在一个可通过前端和后端 API 访问的统一系统中，使用户能够 1) 生成没有漏洞的安全代码，2) 审查和共享安全分析，以及 3)轻松从一种即时优化方法切换到另一种，同时提供有关模型和系统性能的见解。我们使用 PromSec 在 AWS 服务器上填充 SGCode，这是一种通过将 LLM 和安全工具与轻量级生成对抗图神经网络相结合来优化提示的方法，以检测和修复生成代码中的安全漏洞。大量实验表明，SGCode 作为一种公共工具是实用的，可以深入了解模型实用性、安全代码生成和系统成本之间的权衡。与提示大语言模型相比，SGCode 只有边际成本。 SGCode 位于：http://3.131.141.63:8501/。

使用强大的编码器保护视觉语言模型，防止越狱和对抗性攻击

分类： 计算机视觉和模式识别, 人工智能

作者： Md Zarif Hossain, Ahmed Imteaj

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07353v1

摘要： 在多模式大数据集上训练的大型视觉语言模型 (LVLM) 通过在视觉语言任务中表现出色，显着推进了人工智能的发展。然而，这些模型仍然容易受到对抗性攻击，特别是越狱攻击，这些攻击绕过安全协议并导致模型生成误导性或有害的响应。该漏洞源于大语言模型固有的敏感性和视觉模式引入的扩大的攻击面。我们提出了 Sim-CLIP+，这是一种新颖的防御机制，它利用 Siamese 架构对 CLIP 视觉编码器进行对抗性微调。这种方法最大限度地提高了受干扰样本和干净样本之间的余弦相似度，从而促进对抗性操作的恢复能力。 Sim-CLIP+ 提供即插即用解决方案，允许作为强大的视觉编码器无缝集成到现有的 LVLM 架构中。与之前的防御不同，我们的方法不需要对 LVLM 进行结构修改，并且计算开销最小。 Sim-CLIP+ 展示了针对基于梯度的对抗攻击和各种越狱技术的有效性。我们针对三种不同的越狱攻击策略评估 Sim-CLIP+，并使用标准下游数据集（包括用于图像字幕的 COCO 和用于视觉问答的 OKVQA）执行干净的评估。大量实验表明，Sim-CLIP+ 保持了较高的清洁精度，同时显着提高了针对基于梯度的对抗攻击和越狱技术的鲁棒性。我们的代码和强大的视觉编码器可在 https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-attack.git 上获取。

使用分布式异构数据进行学习的联合印象

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 分布式、并行和集群计算

作者： Sana Ayromlou, Atrin Arya, Armin Saadat, Purang Abolmaesumi, Xiaoxiao Li

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07351v1

摘要： 标准的基于深度学习的分类方法在现实世界的临床应用中可能并不总是实用，因为它们需要集中收集所有样本。联邦学习 (FL) 提供了一种范例，可以从跨客户端的分布式数据集进行学习，而不需要它们共享数据，这有助于缓解隐私和数据所有权问题。在佛罗里达州，由于各中心的数据收集协议和患者人口统计数据各不相同，由数据异质性引起的次优收敛在来自不同健康中心的数据中很常见。通过本研究的实验，我们表明数据异构性会导致本地训练期间出现灾难性遗忘现象。我们提出 FedImpres，它通过恢复将全局信息表示为联合印象的合成数据来减轻灾难性遗忘。为了实现这一目标，我们提炼了每轮沟通中产生的全局模型。随后，我们将合成数据与本地数据一起使用，以增强本地训练的泛化能力。大量实验表明，所提出的方法在包含标签不平衡和域移位的 BloodMNIST 和 Retina 数据集上均实现了最先进的性能，分类精度提高了高达 20%。

在线决策 MetaMorphFormer：基于休闲 Transformer 的通用具身智能强化学习框架

分类： 机器学习, 人工智能, 机器人技术

作者： Luo Ji, Runji Lin

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07341v1

摘要： 运动控制领域的交互式人工智能是一个有趣的话题，特别是当通用知识适应多种任务和通用环境时。尽管借助 Transformer 在强化学习（RL）领域做出了越来越多的努力，但其中大多数可能受到离线训练管道的限制，从而阻碍了探索和泛化能力。为了解决这个限制，我们提出了在线决策MetaMorphFormer（ODM）的框架，旨在通过统一的模型架构实现自我意识、环境识别和行动规划。在认知和行为心理学的驱动下，ODM代理能够向他人学习，认识世界，并根据自己的经验实践自己。 ODM 还可以应用于具有多关节主体、位于不同环境中的任意代理，并使用大规模预训练数据集进行不同类型任务的训练。通过使用预先训练的数据集，ODM 可以快速预热并学习执行所需任务所需的知识，同时目标环境继续强化通用策略。通过大量的在线实验以及少样本和零样本环境测试来验证ODM的性能和泛化能力。我们的研究结果有助于实体和认知领域的通用人工智能研究。代码、结果和视频示例可以在网站 \url{https://rlodm.github.io/odm/} 上找到。

通过元发现预测游戏平衡变化影响的框架

分类： 人工智能, 机器学习

作者： Akash Saravanan, Matthew Guzdial

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07340v1

摘要： 元游戏是超越游戏规则的知识集合。在 Pok'emon 或英雄联盟等竞争性团队游戏中，它指的是玩家群体中当前占主导地位的角色和/或策略集。开发者对游戏平衡的改变可能会对这些元角色产生巨大且不可预见的后果。预测平衡变化影响的框架可以帮助开发人员做出更明智的平衡决策。在本文中，我们提出了这样一个元发现框架，利用强化学习来自动测试平衡变化。我们的结果证明了我们能够以高精度预测《Pok'emon Showdown》（一系列竞争性 Pok'emon 等级的集合）中平衡变化结果的能力。

解释、辩论、对齐：语言模型泛化的从弱到强的框架

分类： 人工智能, 计算和语言

作者： Mehrdad Zakershahrak, Samira Ghodratnama

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07335v1

摘要： 人工智能系统的快速发展将人工智能对齐的挑战带到了研究的前沿，特别是在复杂的决策和任务执行方面。随着这些系统在复杂问题上超越人类水平的表现，确保它们与人类价值观、意图和道德准则保持一致变得至关重要。基于之前人类与智能体协调的解释生成工作，我们解决了多智能体系统和人类-人工智能团队的更复杂的动态问题。本文介绍了一种在语言模型背景下通过弱到强泛化来进行模型对齐的新方法。我们提出了一个框架，其中强大的模型可以促进较弱模型的改进，从而弥合解释生成和模型对齐之间的差距。我们的方法形式化为促进函数，允许将功能从高级模型转移到能力较差的模型，而无需直接访问大量的训练数据。我们的结果表明，这种基于促进的方法不仅可以增强模型性能，还可以深入了解模型对齐的本质以及人工智能系统可扩展监督的潜力。

端到端自动驾驶的模块式自适应对抗训练

分类： 计算机视觉和模式识别, 人工智能

作者： Tianyuan Zhang, Lu Wang, Jiaqi Kang, Xinwei Zhang, Siyuan Liang, Yuwei Chen, Aishan Liu, Xianglong Liu

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07321v1

摘要： 深度学习的最新进展显着改进了自动驾驶（AD）模型，特别是集成感知、预测和规划阶段的端到端系统，实现了最先进的性能。然而，这些模型仍然容易受到对抗性攻击，人类难以察觉的扰动可能会扰乱决策过程。虽然对抗性训练是增强模型针对此类攻击的鲁棒性的有效方法，但之前没有研究关注其在端到端 AD 模型中的应用。在本文中，我们迈出了端到端 AD 模型对抗训练的第一步，并提出了一种新颖的模块式自适应对抗训练（MA2T）。然而，将传统的对抗训练扩展到这种情况是非常重要的，因为模型中的不同阶段具有不同的目标并且紧密相连。为了应对这些挑战，MA2T首先引入了Module-wise Noise Injection，即在不同模块的输入之前注入噪声，以整体目标而不是每个独立模块损失为指导来针对训练模型。此外，我们引入了动态权重累积适应，它结合了累积权重变化，根据每个模块的贡献（累积减少率）自适应地学习和调整每个模块的损失权重，以实现更好的平衡和稳健的训练。为了证明我们防御的有效性，我们在白盒和黑盒攻击下跨多个端到端 AD 模型对广泛使用的 nuScenes 数据集进行了广泛的实验，其中我们的方法大幅优于其他基线（+ 5-10%）。此外，我们通过 CARLA 模拟环境中的闭环评估来验证防御的稳健性，显示出即使针对自然腐败的抵御能力也有所提高。

MEDIC：建立评估临床应用大语言模型的综合框架

分类： 计算和语言, 人工智能

作者： Praveen K Kanithi, Clément Christophe, Marco AF Pimentel, Tathagata Raha, Nada Saadi, Hamza Javed, Svetlana Maslenkova, Nasir Hayat, Ronnie Rajan, Shadab Khan

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07314v1

摘要： 用于医疗保健应用的大型语言模型 (LLM) 的快速发展引发了人们对超越 USMLE 等经常引用的基准进行整体评估的呼声，以更好地反映现实世界的表现。虽然现实世界的评估是有价值的效用指标，但它们往往落后于大语言模型的发展速度，可能导致研究结果在部署后就过时了。这种时间上的脱节需要进行全面的前期评估，以指导特定临床应用的模型选择。我们推出 MEDIC，这是一个评估大语言模型临床能力五个关键维度的框架：医学推理、道德和偏见、数据和语言理解、情境学习和临床安全。 MEDIC 采用新颖的交叉检查框架，可量化大语言模型在覆盖范围和幻觉检测等领域的表现，而无需参考输出。我们应用 MEDIC 来评估大语言模型在医学问答、安全性、总结、笔记生成和其他任务方面的能力。我们的结果显示了模型大小、基线与医学微调模型之间的性能差异，并且对需要特定模型强度（例如低幻觉或较低推理成本）的应用程序的模型选择有影响。 MEDIC 的多方面评估揭示了这些性能权衡，弥合了医疗保健环境中理论能力和实际实施之间的差距，确保识别出最有前途的模型并适应不同的医疗保健应用。

使用扩散先验探索用户级梯度反演

分类： 机器学习, 人工智能, 密码学和安全, 计算机视觉和模式识别, 机器学习

作者： Zhuohang Li, Andrew Lowy, Jing Liu, Toshiaki Koike-Akino, Bradley Malin, Kieran Parsons, Ye Wang

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07291v1

摘要： 我们探索用户级梯度反转作为分布式学习中的新攻击面。我们首先调查现有的攻击，针对他们在训练数据重建之外推断私人信息的能力。由于现有方法重建质量较低，我们提出了一种新颖的梯度反转攻击，该攻击将去噪扩散模型用作强图像先验，以增强大批量设置中的恢复。与旨在重建单个样本并在大批量和图像尺寸下遭受损失的传统攻击不同，我们的方法旨在恢复捕获与底层用户相对应的敏感共享语义信息的代表性图像。我们对面部图像的实验证明了我们的方法能够恢复真实的面部图像以及私人用户属性。

使用生成代理创建调查数据报告的提示表

分类： 人工智能, 计算和语言, 机器学习

作者： Joris Veerbeek, Nicholas Diakopoulos

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07286v1

摘要： 本文介绍了一种使用生成式人工智能代理来创建调查数据报告提示表的系统。我们的系统采用了三个专业代理——分析师、记者和编辑——来协作从数据集中生成和完善提示。我们使用真实世界的调查故事验证了这种方法，表明与没有代理的基线模型相比，我们基于代理的系统通常会生成更具新闻价值和准确的见解，尽管不同故事之间存在一些差异。我们的研究结果凸显了生成人工智能为调查数据报告提供线索的潜力。

仇恨宣传：多代理大语言模型对阿拉伯模因的多模态分析

分类： 计算和语言, 人工智能, 68T50, F.2.2; I.2.7

作者： Firoj Alam, Md. Rafiul Biswas, Uzair Shah, Wajdi Zaghouani, Georgios Mikros

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07246v1

摘要： 过去十年，社交媒体平台被用于信息传播和消费。虽然发布的大部分内容是为了促进公民新闻和公众意识，但也有一些内容是为了误导用户。在文本、图像和视频等不同内容类型中，迷因（覆盖在图像上的文本）尤其普遍，可以作为宣传、仇恨和幽默的强大工具。在当前的文献中，人们一直在努力单独检测模因中的此类内容。然而，对其交叉点的研究非常有限。在这项研究中，我们使用基于大语言模型的多代理方法探索模因中的宣传和仇恨之间的交叉点。我们用粗粒度和细粒度的仇恨标签扩展了宣传模因数据集。我们的发现表明模因中的宣传和仇恨之间存在关联。我们提供详细的实验结果，可以作为未来研究的基线。我们将向社区公开提供实验资源。

基于 LLM 的可追踪知识图中语句的验证

分类： 人工智能, 机器学习

作者： Daniel Adam, Tomáš Kliegr

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07507v1

摘要： 本文提出了一种使用 LLM 验证 RDF 三元组的方法，重点是提供可追踪的参数。由于大语言模型目前无法可靠地识别用于构建对用户查询的响应的信息的来源，因此我们的方法是完全避免使用内部大语言模型事实知识。相反，经过验证的 RDF 语句会与通过网络搜索或维基百科检索到的外部文档块进行比较。为了评估此工作流程在生物科学内容上的可能应用，我们评估了 BioRED 数据集中的 1,719 个正面陈述以及相同数量的新生成的负面陈述。结果准确率为 88%，召回率为 44%。这表明该方法需要人工监督。我们在 Wikidata 上演示了该方法，其中使用 SPARQL 查询来自动检索需要验证的语句。总体而言，结果表明大语言模型可用于知识图谱中语句的大规模验证，这是一项以前由于人工注释成本而无法实现的任务。

自动驾驶的行为克隆模型现实检验

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Mustafa Yildirim, Barkin Dagda, Vinal Asodia, Saber Fallah

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07218v1

摘要： 自动驾驶车辆感知系统的最新进展应用于现实世界的自动驾驶车辆控制时效果如何？虽然许多基于视觉的自动驾驶车辆系统已经在模拟环境中进行了训练和评估，但这些系统明显缺乏现实世界的验证。本文通过介绍最先进的感知系统的现实验证来解决这一差距，该系统利用行为克隆（BC）进行横向控制，处理原始图像数据以预测转向命令。该数据集是使用比例研究车辆收集的，并在各种轨道设置上进行了测试。实验结果表明，这些方法能够以较低的误差范围实时预测转向角，这表明其在实际应用中具有广阔的前景。

通过缝合预训练块进行联邦学习的异构感知协调

分类： 机器学习, 人工智能

作者： Shichen Zhan, Yebo Wu, Chunlin Tian, Yan Zhao, Li Li

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07202v1

摘要： 联邦学习 (FL) 协调多个设备协作训练共享模型，同时保护数据隐私。然而，训练过程中的大内存占用和高能耗使低端设备无法利用自己的数据为全局模型做出贡献，这严重恶化了现实场景中的模型性能。在本文中，我们提出了 FedStitch，这是一种用于具有预训练块的异构联邦学习的分层协调框架。与从头开始训练全局模型的传统方法不同，对于新任务，FedStitch 通过拼接预训练块来组成全局模型。具体来说，每个参与的客户端根据其本地数据从由预训练模型的块组成的候选池中选择最合适的块。然后服务器聚合用于拼接的最佳块。该过程不断迭代，直到生成新的缝合网络。除了新的训练范式外，FedStitch 还包含以下三个核心组件：1）RL 加权聚合器，2）部署在服务器端的搜索空间优化器，3）部署在每个参与客户端的本地能量优化器。 RL加权聚合器有助于在非IID场景中选择正确的块，而搜索空间优化器在拼接过程中不断减小候选块池的大小。同时，本地能源优化器旨在在保证整体训练进度的同时，最大限度地减少每个客户端的能源消耗。结果表明，与现有方法相比，FedStitch 将模型准确率提高了 20.93%。同时，它在学习过程中实现了高达8.12%的加速，将内存占用减少了高达79.5%，并且最多实现了89.41%的节能。

ThermalGaussian：热 3D 高斯溅射

分类： 计算机视觉和模式识别, 人工智能

作者： Rongfeng Lu, Hangyu Chen, Zunjie Zhu, Yuhang Qin, Ming Lu, Le Zhang, Chenggang Yan, Anke Xue

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07200v1

摘要： 热成像技术对于军事和其他监控摄像头用户尤其有价值。最近提出了一些基于神经辐射场 (NeRF) 的方法，用于从一组热图像和 RGB 图像中重建 3D 热场景。然而，与 NeRF 不同的是，3D 高斯泼溅 (3DGS) 因其快速训练和实时渲染而盛行。在这项工作中，我们提出了 ThermalGaussian，这是第一个能够以 RGB 和热模态渲染高质量图像的热 3DGS 方法。我们首先校准 RGB 相机和热感相机，以确保两种模式准确对齐。随后，我们使用配准图像来学习多模态 3D 高斯函数。为了防止任何单一模态的过度拟合，我们引入了几个多模态正则化约束。我们还开发了适合热模态物理特性的平滑约束。此外，我们还贡献了一个名为 RGBT-Scenes 的真实世界数据集，由手持式热红外相机捕获，有助于未来热场景重建的研究。我们进行了全面的实验，表明ThermalGaussian实现了热图像的真实感渲染，并提高了RGB图像的渲染质量。通过提出的多模态正则化约束，我们还将模型的存储成本降低了 90%。代码和数据集将被发布。

车载网络异常检测调查

分类： 机器学习, 人工智能, 信号处理

作者： Övgü Özdemir, M. Tuğberk İşyapar, Pınar Karagöz, Klaus Werner Schmidt, Demet Demir, N. Alpay Karagöz

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07505v1

摘要： 现代车辆配备了电子控制单元 (ECU)，用于控制重要的车辆功能，包括安全关键操作。 ECU 通过车载通信总线交换信息，其中控制器局域网（CAN 总线）是迄今为止最广泛的代表。车辆物理部件可能出现的问题或恶意攻击可能会导致CAN流量异常，从而影响车辆的正确运行。因此，检测此类异常对于车辆安全至关重要。本文回顾了车载网络（尤其是 CAN 总线）异常检测的研究。我们的主要重点是评估用于 CAN 总线异常检测的方法以及此类分析中使用的数据集。为了让读者更全面地了解该主题，我们首先简要回顾基于时间序列的异常检测的相关研究。然后，我们对最新的基于深度学习的技术以及 CAN 总线异常检测的传统技术进行了广泛的调查。我们的全面分析深入研究了车载网络中使用的异常检测算法，特别关注它们的学习范式、固有的优点和缺点，以及它们应用于 CAN 总线数据集时的功效。最后，我们强调 CAN 总线异常检测中的挑战和开放研究问题。

网络欺骗：最新技术、趋势和开放挑战

分类： 密码学和安全, 人工智能, 计算机科学与博弈论

作者： Pedro Beltrán López, Manuel Gil Pérez, Pantaleone Nespoli

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07194v1

摘要： 人们对网络安全的兴趣日益浓厚，设计和实施各种网络欺骗 (CYDEC) 机制的文章显着增加。这一趋势反映出迫切需要新的战略来有效应对网络威胁。自出现以来，CYDEC 凭借其主动和反应能力，已成为针对攻击者的创新防御手段，并在众多现实场景中得到应用。尽管 CYDEC 投入了大量工作，但文献仍然存在显着差距。特别是，还没有（i）对 CYDEC 特征的主要组成部分进行全面分析，（ii）涵盖所有类型解决方案的通用分类，也没有（iii）对各种背景下的文献现状进行调查。本文旨在通过详细回顾构成 CYDEC 的主要特征来填补这些空白，开发一个全面的分类法。此外，还回顾了用于生成 CYDEC 的不同框架，提出了更全面的框架。研究和比较了文献中使用 CYDEC 的现有解决方案，无论是没有人工智能 (AI) 还是有人工智能。最后，讨论了当前最显着的趋势，并为未来的研究提供了一系列悬而未决的挑战。

Neural MP：多面手神经运动规划器

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Murtaza Dalal, Jiahui Yang, Russell Mendonca, Youssef Khaky, Ruslan Salakhutdinov, Deepak Pathak

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05864v1

摘要： 当前的运动规划范例从头开始为每个新问题生成解决方案，这会消耗大量的时间和计算资源。对于复杂、杂乱的场景，运动规划方法通常需要几分钟才能产生解决方案，而人类可以利用他们之前的经验在几秒钟内准确、安全地达到任何目标。我们寻求通过大规模应用数据驱动学习来解决运动规划问题来实现同样的目标。我们的方法在模拟中构建大量复杂场景，从运动规划器收集专家数据，然后将其提炼成反应性通才策略。然后，我们将其与轻量级优化相结合，以获得现实世界部署的安全路径。我们对现实世界中四种不同环境中具有随机姿势、场景和障碍的 64 个运动规划任务的方法进行了全面评估，结果表明运动规划成功率比真实世界的状态提高了 23%、17% 和 79%。艺术采样、优化和基于学习的规划方法。视频结果可在 mihdalal.github.io/neuralmotionplanner 获取

及时的闭环交通模拟

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Shuhan Tan, Boris Ivanovic, Yuxiao Chen, Boyi Li, Xinshuo Weng, Yulong Cao, Philipp Krähenbühl, Marco Pavone

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05863v1

摘要： 仿真是安全高效的自动驾驶开发的基石。仿真系统的核心应该产生真实的、反应性的、可控的流量模式。在本文中，我们提出了 ProSim，一种多模式提示闭环交通仿真框架。 ProSim 允许用户给出一组复杂的数字、分类或文本提示来指示每个代理的行为和意图。然后，ProSim 以闭环方式推出交通场景，对每个代理与其他交通参与者的交互进行建模。我们的实验表明，ProSim 在给定不同用户提示的情况下实现了较高的提示可控性，同时在没有给出提示的情况下在 Waymo Sim Agents Challenge 中达到了有竞争力的表现。为了支持提示交通模拟的研究，我们创建了 ProSim-Instruct-520k，这是一个多模式提示场景配对驾驶数据集，包含超过 1000 万个文本提示，适用于超过 52 万个真实驾驶场景。我们将在 https://ariostgx.github.io/ProSim 发布 ProSim 的代码以及 ProSim-Instruct-520k 的数据和标注工具。

量子强化学习 (QRL) 简介

分类： 量子物理学, 人工智能, 新兴技术, 机器学习, 神经和进化计算

作者： Samuel Yen-Chi Chen

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05846v1

摘要： 量子计算（QC）和机器学习（ML）的最新进展引发了人们对这两个前沿领域整合的极大兴趣。在各种机器学习技术中，强化学习 (RL) 因其解决复杂的顺序决策问题的能力而脱颖而出。强化学习已经在经典机器学习社区中取得了巨大的成功。现在，新兴的量子强化学习 (QRL) 领域寻求通过结合量子计算原理来增强 RL 算法。本文为更广泛的人工智能和机器学习社区介绍了这个令人兴奋的领域。

在真理发现定量双极论证框架中应用归因解释

分类： 人工智能

作者： Xiang Yin, Nico Potyka, Francesca Toni

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05831v1

摘要： 在渐进语义下解释论证的强度正受到越来越多的关注。例如，文献中的各种研究通过计算定量双极论证框架（QBAF）中论点或边缘的归因分数来提供解释。这些解释称为参数归因解释 (AAE) 和关系归因解释 (RAE)，通常采用基于删除和基于 Shapley 的技术来计算归因分数。虽然 AAE 和 RAE 已被证明在非循环 QBAF 的多种应用中非常有用，但它们对于循环 QBAF 的应用在很大程度上仍未得到探索。此外，现有的应用往往只关注 AAE 或 RAE，但不直接比较它们。在本文中，我们将 AAE 和 RAE 应用于真相发现 QBAF (TD-QBAF)，它评估来源（例如网站）及其声明（例如病毒的严重性）的可信度，并具有复杂的周期。我们发现 AAE 和 RAE 都可以提供有趣的解释，并且可以提供重要且令人惊讶的见解。

软件测试的未来：人工智能驱动的测试用例生成和验证

分类： 软件工程, 人工智能

作者： Mohammad Baqar, Rajat Khanda

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05808v1

摘要： 软件测试是软件开发生命周期 (SDLC) 中的关键阶段，确保产品在发布前满足必要的功能、性能和质量基准。尽管自动化取得了进步，生成和验证测试用例的传统方法仍然面临重大挑战，包括时间延长、人为错误、测试覆盖不完整以及人工干预的高成本。这些限制通常会导致产品发布延迟和未检测到的缺陷，从而影响软件质量和用户满意度。将人工智能（AI）集成到软件测试中为这些持续存在的挑战提供了一个有前景的解决方案。人工智能驱动的测试方法可以自动创建全面的测试用例，动态适应变化，并利用机器学习来识别代码库中的高风险区域。这种方法提高了回归测试效率，同时扩大了整体测试覆盖范围。此外，人工智能驱动的工具可以实现持续测试和自我修复测试用例，显着减少人工监督并加速反馈循环，最终实现更快、更可靠的软件发布。本文探讨了人工智能在改进测试用例生成和验证方面的变革潜力，重点关注其提高测试过程效率、准确性和可扩展性的能力。它还解决了与采用人工智能进行测试相关的关键挑战，包括对高质量训练数据的需求、确保模型透明度以及保持自动化和人工监督之间的平衡。通过案例研究和实际应用的示例，本文说明了人工智能如何显着提高传统和现代软件系统的测试效率。

大语言模型中对标中文知识矫正

分类： 计算和语言, 人工智能, 信息检索, 机器学习

作者： Tianhe Lu, Jizhan Fang, Yunzhi Yao, Xin Xu, Ningyu Zhang, Huajun Chen

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05806v1

摘要： 虽然大型语言模型 (LLM) 表现出卓越的生成能力，但它们并非没有缺陷，尤其是在幻觉方面。当大语言模型应用于特定语言和领域时，这个问题更加明显。例如，大语言模型在处理中国古诗词、谚语或成语时，由于缺乏具体知识，可能会产生无意义的信息。为此，本文提出了一个通过知识编辑纠正大语言模型中文知识的基准。具体来说，我们引入了一个新的中文数据集CKnowEdit，通过从各种来源收集七种类型的知识，包括经典文本、成语和百度贴吧若知吧的内容，从而解释了中文固有的独特的复调、对偶和逻辑结构。语言。通过对该数据集的分析，我们揭示了当前大语言模型在掌握中文方面面临的挑战。此外，我们对该数据集上最先进的知识编辑技术的评估揭示了中文知识纠正的巨大进步空间。代码和数据集可在 https://github.com/zjunlp/EasyEdit 获取。

通过人类响应时间增强基于偏好的线性强盗

分类： 机器学习, 人工智能, 人机交互, 计量经济学, 机器学习

作者： Shen Li, Yuyang Zhang, Zhaolin Ren, Claire Liang, Na Li, Julie A. Shah

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05798v1

摘要： 二元人类选择反馈因其简单性而广泛应用于交互式偏好学习，但它提供的有关偏好强度的信息有限。为了克服这一限制，我们利用与偏好强度成反比的人类响应时间作为补充信息。我们的工作将 EZ 扩散模型（该模型联合模拟人类选择和响应时间）集成到基于偏好的线性老虎机中。我们引入了一种计算高效的效用估计器，它使用选择和响应时间将效用估计问题重新表述为线性回归问题。与传统的仅选择估计器的理论和实证比较表明，对于具有强烈偏好的查询（“简单”查询），仅选择提供的信息有限，而响应时间提供了有关偏好强度的有价值的补充信息。因此，结合响应时间可以使简单的查询变得更加有用。我们在固定预算最佳臂识别问题中展示了这一优势，通过基于三个真实世界数据集的模拟，一致地显示了在纳入响应时间时的加速学习。

利用对象先验进行点跟踪

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Bikram Boote, Anh Thai, Wenqi Jia, Ozgur Kara, Stefan Stojanov, James M. Rehg, Sangmin Lee

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05786v1

摘要： 点跟踪是计算机视觉中的一个基本问题，在增强现实和机器人技术中有着广泛的应用。当预测点离开其所属的对象并落在背景或另一个对象上时，会发生长期点跟踪中的常见故障模式。我们认为这是在学习跟踪时未能正确捕捉对象性属性。为了解决先前工作的这一局限性，我们提出了一种新颖的对象正则化方法，该方法通过迫使点留在对象实例的边界内来引导点了解对象先验。通过在训练时捕获对象性线索，我们避免了在测试期间计算对象掩码的需要。此外，我们利用上下文注意力来增强特征表示，以更有效地捕获特征级别的对象性。因此，我们的方法在三点跟踪基准上实现了最先进的性能，并且我们通过消融研究进一步验证了我们组件的有效性。源代码位于：https://github.com/RehgLab/tracking_objectness

NeurLZ：基于科学数据的误差控制神经学习增强有损压缩性能

分类： 分布式、并行和集群计算, 人工智能

作者： Wenqi Jia, Youyuan Liu, Zhewen Hu, Jinzhen Wang, Boyuan Zhang, Wei Niu, Junzhou Huang, Stavros Kalafatis, Sian Jin, Miao Yin

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05785v2

摘要： 大规模科学模拟会生成大量数据集，这对存储和 I/O 提出了重大挑战。虽然传统的有损压缩技术可以提高性能，但平衡压缩率、数据质量和吞吐量仍然很困难。为了解决这个问题，我们提出了 NeurLZ，一种新颖的基于跨领域学习和错误控制的科学数据压缩框架。通过集成跳过 DNN 模型、跨领域学习和错误控制，我们的框架旨在大幅提高有损压缩性能。我们的贡献有三方面：（1）我们设计了一个轻量级的跳跃模型，以提供高保真细节保留，进一步提高预测准确性。（2）我们采用跨领域学习方法显着提高数据预测精度，从而大幅提高压缩比。 (3)我们开发了一种错误控制方法，根据用户要求提供严格的错误界限。我们在几个现实世界的 HPC 应用数据集上评估了 NeurLZ，包括 Nyx（宇宙学模拟）、Miranda（大湍流模拟）和 Hurricane（天气模拟）。实验表明，与现有最佳方法相比，我们的框架在相同数据失真的情况下实现了高达 90% 的比特率相对降低。

从机器到音乐家的创造力和视觉交流：通过机器人相机分享乐谱

分类： 人机交互, 人工智能, 计算机视觉和模式识别, 机器人技术

作者： Ross Greer, Laura Fleig, Shlomo Dubnov

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05773v1

摘要： 本文通过在“Guided Harmony”音乐游戏中实现机器人摄像头来探索视觉传达和音乐交互的整合。我们的目标是研究人类音乐家和机器人系统之间的共同创作行为。我们的研究探索了即兴游戏等现有方法，并将这些概念扩展到包括使用 PTZ 摄像机的机器人参与。机器人系统解释并响应音乐家的非语言提示，创造协作和自适应的音乐体验。这个最初的案例研究强调了直观视觉沟通渠道的重要性。我们还提出了未来的研究方向，包括完善视觉提示工具包的参数和数据收集方法，以进一步了解人机协同创造力。我们的研究结果有助于更广泛地理解机器智能在增强人类创造力方面的作用，特别是在音乐环境中。

来自功能磁共振成像的证据支持语言模型中的两阶段抽象过程

分类： 计算和语言, 人工智能

作者： Emily Cheng, Richard J. Antonello

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05771v1

摘要： 研究一再证明，从大型语言模型中提取的中间隐藏状态能够预测测量到的大脑对自然语言刺激的反应。然而，对于实现如此高预测性能的表示属性知之甚少。为什么中间层而不是输出层最有能力完成这种独特且高度通用的传输任务？在这项工作中，我们展示了功能磁共振成像中语言编码模型的证据支持大语言模型中存在两阶段抽象过程。我们使用多种学习方法来表明，这种抽象过程在训练语言模型的过程中自然出现，并且随着训练的继续，该抽象过程的第一个“组合”阶段被压缩为更少的层。最后，我们证明了分层编码性能与大语言模型表示的内在维度之间的紧密对应关系。我们给出的初步证据表明，这种对应关系主要源自大语言模型的固有组合性，而不是它们的下一个单词预测属性。

ReL-SAR：使用卷积变换器和 BYOL 进行骨架动作识别的表示学习

分类： 计算机视觉和模式识别, 人工智能

作者： Safwen Naimi, Wassim Bouachir, Guillaume-Alexandre Bilodeau

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05749v1

摘要： 为了提取鲁棒且可泛化的骨架动作识别特征，通常需要大量精心策划的数据，这是一项具有挑战性的任务，受到注释和计算成本的阻碍。因此，无监督表示学习对于利用未标记的骨架数据至关重要。在这项工作中，我们研究了用于骨架动作识别的无监督表示学习。为此，我们设计了一个名为 ReL-SAR 的轻量级卷积变换框架，利用卷积层和注意力层的互补性对骨架序列中的空间和时间线索进行联合建模。我们还对骨骼关节使用选择排列策略，以确保从骨骼数据中获得更多信息描述。最后，我们利用 Bootstrap Your Own Latent (BYOL) 从未标记的骨架序列数据中学习稳健的表示。我们在有限大小的数据集上取得了非常有竞争力的结果：MCAD、IXMAS、JHMDB 和 NW-UCLA，这表明我们提出的方法在性能和计算效率方面相对于最先进的方法的有效性。为了确保可重复性和可重用性，包括所有实现参数的源代码位于：https://github.com/SafwenNaimi/Representation-Learning-for-Skeleton-Action-Recognition-with-Convolutional-Transformers-and-BYOL

使用结构化对话人工智能 (CAI) 系统的新颖创意生成工具

分类： 人机交互, 人工智能, I.2; J.6

作者： B. Sankar, Dibakar Sen

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05747v1

摘要： 本文提出了一种新颖的对话式人工智能主动构思界面，作为创意生成工具，帮助新手设计师减轻常见的初始延迟和构思瓶颈。它是一种动态、交互式和上下文响应的方法，积极涉及人工智能 (AI) 中自然语言处理 (NLP) 领域的大型语言模型 (LLM)，为不同的设计问题生成潜在想法的多种陈述。将此类人工智能模型与创意相结合，创建了我们所说的主动创意场景，这有助于促进持续的基于对话的交互、上下文敏感的对话和丰富的创意生成。我们与 30 名新手设计师进行了一项试点研究，使用传统方法和基于 CAI 的新界面针对给定问题产生想法。专家小组使用流畅性、新颖性和多样性等关键参数对结果进行定性比较。研究结果证明了所提出的工具在产生多产、多样化和新颖的想法方面的有效性。通过为每个构思阶段融入即时设计的结构化对话风格来增强界面，使其统一且对设计人员来说更加方便。人们发现，这种结构化 CAI 界面的最终响应更加简洁，并且与后续设计阶段（即概念化）保持一致。因此，本文确立了在创意产品设计过程的早期结构不良阶段使用生成式人工智能（Gen-AI）的丰富潜力。

基于LLM的异构数据问答系统和基准

分类： 数据库, 人工智能

作者： Achille Fokoue, Srideepika Jayaraman, Elham Khabiri, Jeffrey O. Kephart, Yingjie Li, Dhruv Shah, Youssef Drissi, Fenno F. Heath III, Anu Bhamidipaty, Fateh A. Tipu, Robert J. Baseman

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05735v1

摘要： 在许多工业环境中，用户希望提出的问题可以在结构化数据源（例如电子表格、数据库、API 或其组合）中找到答案。通常，用户不知道如何识别或访问正确的数据源。如果必须组合多个（并且可能是孤立的）数据源来得出答案，那么这个问题会更加复杂。最近，各种利用大型语言模型 (LLM) 的文本到 SQL 应用程序通过允许用户以自然语言提问来解决其中一些问题。然而，这些应用程序在现实的工业环境中仍然不切实际，因为它们无法应对典型的此类环境的数据源异构性。在本文中，我们通过引入 siwarex 平台来解决异构性问题，该平台支持对数据库和 API 的无缝自然语言访问。为了证明 siwarex 的有效性，我们通过用数据检索 API 替换其中的一些表来扩展流行的 Spider 数据集和基准。我们发现 siwarex 在应对数据源异构性方面做得很好。我们修改后的 Spider 基准测试很快将提供给研究界

我的车说了什么？自动驾驶汽车解释错误、背景和个人特征影响舒适度、可靠性、满意度和驾驶信心

分类： 人机交互, 人工智能

作者： Robert Kaufman, Aaron Broukhim, David Kirsh, Nadir Weibel

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05731v1

摘要： 对自动驾驶汽车 (AV) 决策的解释可能会建立信任，但解释可能包含错误。在模拟驾驶研究（n = 232）中，我们测试了自动驾驶汽车解释错误、驾驶环境特征（感知到的伤害和驾驶难度）以及个人特征（之前的信任和专业知识）如何影响乘客依赖自动驾驶汽车的舒适度、对自动驾驶汽车的偏好控制、对 AV 能力的信心以及解释满意度。错误会对所有结果产生负面影响。令人惊讶的是，尽管驾驶方式相同，但解释错误却降低了自动驾驶汽车驾驶能力的评分。严重性和潜在危害放大了错误的负面影响。环境伤害和驾驶难度直接影响结果评级并影响错误与结果之间的关系。先前的信任和专业知识与结果评级呈正相关。结果强调需要准确、上下文适应和个性化的 AV 解释来培养信任、依赖、满意度和信心。最后，我们提出了值得信赖的 AV 解释系统的设计、研究和部署建议。

具有话语感知理解指导的视觉基础对话中的引用表达生成

分类： 计算和语言, 人工智能, 计算机视觉和模式识别

作者： Bram Willemsen, Gabriel Skantze

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05721v1

摘要： 我们提出了一种在基于视觉的对话中生成指称表达（REG）的方法，该方法旨在产生既具有区分性又适合话语的指称表达（RE）。我们的方法构成了一个两阶段的过程。首先，我们将 REG 建模为文本和图像条件下一个标记预测任务。 RE 是根据其先前的语言上下文和所指对象的视觉表示自动生成的。其次，我们建议使用话语感知理解指导作为生成和重新排序策略的一部分，通过该策略，使用我们的 REG 模型生成的候选 RE 根据其依赖于话语的歧视力进行重新排序。我们的人类评估结果表明，我们提出的两阶段方法可以有效地生成有判别性的 RE，与使用贪婪解码生成的 RE 相比，在重新排序的 RE 的文本图像检索准确性方面具有更高的性能。

pFedGPA：用于个性化联合学习的基于扩散的生成参数聚合

分类： 机器学习, 人工智能

作者： Jiahao Lai, Jiaqi Li, Jian Xu, Yanru Wu, Boshi Tang, Siqi Chen, Yongfeng Huang, Wenbo Ding, Yang Li

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05701v1

摘要： 联邦学习 (FL) 提供了一种去中心化的模型训练方法，其中数据保留在本地，并且仅在客户端和中央服务器之间共享模型参数。传统方法，例如联合平均 (FedAvg)，线性聚合这些参数，这些参数通常在异构数据分布上进行训练，可能忽略了参数空间的复杂、高维性质。这可能会导致聚合模型的性能下降。虽然个性化 FL 方法可以在一定程度上缓解异构数据问题，但线性聚合的局限性仍未解决。为了缓解这个问题，我们研究了扩散模型的生成方法，并提出了一种新颖的个性化 FL 生成参数聚合框架，\texttt{pFedGPA}。在此框架中，我们在服务器上部署扩散模型来整合不同的参数分布，并提出一种参数反演方法来有效地为每个客户端生成一组个性化参数。这种反演方法将上传的参数转换为潜在代码，然后通过去噪采样进行聚合以产生最终的个性化参数。通过使用高容量扩散模型对客户端模型参数对特定数据分布的依赖性进行编码，\texttt{pFedGPA}可以有效地将所有客户端模型参数的整体分布的复杂性与每个单独客户端参数的复杂性解耦分配。我们的实验结果一致证明了所提出的方法在多个数据集上的卓越性能，超越了基线方法。

MANA-Net：通过新闻加权减轻聚合情绪同质化，增强市场预测

分类： 机器学习, 人工智能, 计算工程、金融和科学, 计算金融

作者： Mengyu Wang, Tiejun Ma

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05698v1

摘要： 人们普遍认为，从新闻数据中提取市场情绪有利于市场预测。然而，现有的使用金融情绪的方法仍然过于简单，依靠等权重和静态聚合来管理来自多个新闻项目的情绪。这导致了一个被称为“聚合情绪同质化”的关键问题，我们通过对来自行业实践的大型财经新闻数据集的分析对此进行了探索。当聚合大量情绪时，会发生这种现象，导致表征向情绪分布的平均值收敛，从而平滑独特且重要的信息。因此，聚合的情绪表示失去了新闻数据的很多预测价值。为了解决这个问题，我们引入了市场注意力加权新闻聚合网络（MANA-Net），这是一种利用动态市场新闻注意力机制来聚合新闻情绪以进行市场预测的新颖方法。 MANA-Net 了解新闻情绪与价格变化的相关性，并为各个新闻项目分配不同的权重。通过将新闻聚合步骤集成到市场预测网络中，MANA-Net 允许直接针对预测进行优化的可训练情绪表示。我们使用 S&P 500 和 NASDAQ 100 指数以及 2003 年至 2018 年的财经新闻来评估 MANA-Net。实验结果表明，MANA-Net 优于各种近期市场预测方法，将损益提高 1.1%，每日夏普比率提高0.252。

RegNLP 实践：通过自动信息检索和答案生成促进合规性

分类： 计算和语言, 人工智能, 计算工程、金融和科学, 新兴技术, 信息检索

作者： Tuba Gokhan, Kexin Wang, Iryna Gurevych, Ted Briscoe

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05677v1

摘要： 由政府监管机构发布的监管文件制定了组织必须遵守的规则、指南和标准，以确保法律合规性。这些文件的特点是长度、复杂性和频繁更新，解释起来具有挑战性，需要组织投入大量时间和专业知识以确保持续合规。监管自然语言处理 (RegNLP) 是一个多学科子领域，旨在简化访问监管规则和义务的理解和解释。我们为 RegNLP 定义自动问题段落生成任务，创建包含来自阿布扎比全球市场 (ADGM) 金融监管文件集合的 27,869 个问题的 ObliQA 数据集，设计基线监管信息检索和答案生成系统，并使用 RePAS 对其进行评估，一种新颖的评估指标，用于测试生成的答案是否准确捕获所有相关义务并避免矛盾。

使用端到端 ASR 模型评估实时转录

分类： 声音, 人工智能, 计算和语言, I.2.7

作者： Carlos Arriaga, Alejandro Pozo, Javier Conde, Alvaro Alonso

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05674v1

摘要： 自动语音识别 (ASR) 或语音转文本 (STT) 在过去几年中取得了巨大发展。基于管道的传统架构已被联合端到端（E2E）架构所取代，该架构简化了模型训练过程。此外，新的人工智能训练方法，例如弱监督学习，减少了模型训练对高质量音频数据集的需求。然而，尽管取得了所有这些进步，但对实时转录的研究却很少甚至没有。在实时场景中，音频不是预先录制的，输入的音频必须分段才能由ASR系统处理。为了达到实时要求，这些片段必须尽可能短，以减少延迟。然而，音频在任何时候都不能被分割，因为将话语分割成两个单独的片段会生成不正确的转录。此外，较短的片段为 ASR 模型提供的上下文较少。因此，有必要设计和测试不同的分割算法，以优化转录结果的质量和延迟。在本文中，使用不同的 ASR 模型评估了三种音频分割算法，以确定它们对转录质量和端到端延迟的影响。这些算法包括固定间隔分段、语音活动检测 (VAD) 和带反馈的分段。将结果与没有音频碎片的相同模型的性能进行比较，以确定这种划分的效果。结果表明，VAD 分片提供了最好的质量和最高的延迟，而固定间隔分片提供了最低的质量和最低的延迟。新提出的反馈算法将 WER 增加 2-4% 换取了 VAD 分割延迟 1.5-2 秒的减少。

通过先验数据拟合网络进行零样本异常值检测：模型选择已成为过去！

分类： 机器学习, 人工智能

作者： Yuchen Shen, Haomin Wen, Leman Akoglu

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05672v1

摘要： 异常值检测 (OD) 拥有大量文献，因为它在环境监测、网络安全、金融和医学等领域有着广泛的应用。作为一项本质上无监督的任务，模型选择是没有标签监督的 OD（算法和超参数选择）的关键瓶颈。有很多技术可供选择——包括经典算法和深度神经架构——虽然有几项研究报告了它们的超参数敏感性，但关于无监督模型选择的文献却很少——限制了 OD 在实践中的有效使用。在本文中，我们提出了 FoMo-0D，用于零/0 次 OD 探索一个变革性的新方向，完全绕过模型选择的障碍（！），从而开辟新天地。 FoMo-0D 背后的基本思想是先验数据拟合网络，最近由 Muller 等人 (2022) 提出，它在从先验数据分布中综合生成的大量数据上训练 Transformer 模型。本质上，FoMo-0D 是一个针对表格数据的零/0-shot OD 的预训练基础模型，它可以在推理时直接预测任何测试数据的（异常值/异常值）标签，只需一次前向传递 -不再需要选择算法/架构、调整其相关的超参数，甚至在给定新的 OD 数据集时训练任何模型参数。针对 26 种基线方法对 57 个公共基准数据集进行的广泛实验表明，FoMo-0D 在统计上与排名前 2 的基线没有什么不同，同时显着优于大多数基线，每个测试样本的平均推理时间为 7.7 毫秒。

嵌入式平台上的实时人体动作识别

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Ruiqi Wang, Zichen Wang, Peiqi Gao, Mingzhen Li, Jaehwan Jeong, Yihang Xu, Yejin Lee, Lisa Connor, Chenyang Lu

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05662v1

摘要： 随着计算机视觉和深度学习的进步，基于视频的人体动作识别（HAR）已经变得实用。然而，由于计算管道的复杂性，在实时视频流上运行 HAR 会在嵌入式平台上产生过多的延迟。这项工作通过四个贡献解决了 HAR 的实时性能挑战：1) 一项实验研究，确定标准光流 (OF) 提取技术是最先进的 HAR 管道中的延迟瓶颈，2) 一项探索标准和深度学习 OF 提取方法之间的延迟与精度权衡，这凸显了对新颖、高效的运动特征提取器的需求，3) 集成运动特征提取器 (IMFE) 的设计，这是一种新颖的单次神经网络运动特征提取架构，延迟显着改善，4）开发RT-HARE，一个专为嵌入式平台定制的实时HAR系统。在 Nvidia Jetson Xavier NX 平台上的实验结果表明，RT-HARE 能够以每秒 30 帧的视频帧速率实现实时 HAR，同时提供高水平的识别精度。

通过局部轨迹调制对通用技能进行交互式增量学习

分类： 机器学习, 人工智能, 机器人技术

作者： Markus Knauer, Alin Albu-Schäffer, Freek Stulp, João Silvério

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05655v1

摘要： 多年来，从演示中学习（LfD）的泛化问题受到了相当多的关注，特别是在运动原语的背景下，出现了多种方法。最近，两种重要的方法得到了认可。一种方法利用通过点通过调节演示轨迹来局部调整技能，另一种方法则依赖于所谓的任务参数化模型，该模型使用概率的乘积来编码相对于不同坐标系的运动，以进行泛化。虽然前者非常适合精确的局部调制，但后者旨在泛化工作空间的大区域，并且通常涉及多个对象。通过同时利用这两种方法来解决泛化质量问题很少受到关注。在这项工作中，我们提出了一种交互式模仿学习框架，该框架同时利用轨迹分布的局部和全局调制。在内核化运动原语（KMP）框架的基础上，我们引入了来自直接人类纠正反馈的技能调节的新颖机制。我们的方法特别利用了通过点的概念，以增量和交互方式1）提高本地模型的准确性，2）在执行过程中向任务添加新对象，3）将技能扩展到未提供演示的区域。我们使用扭矩控制、7 自由度、DLR SARA 机器人在轴承环加载任务中评估我们的方法。

通过标签传播进行重播整合以实现连续对象检测

分类： 计算机视觉和模式识别, 人工智能

作者： Riccardo De Monte, Davide Dalle Pezze, Marina Ceccon, Francesco Pasti, Francesco Paissan, Elisabetta Farella, Gian Antonio Susto, Nicola Bellotto

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05650v1

摘要： 目标检测是一个与机器人和自动驾驶等许多应用高度相关的计算机视觉问题。持续学习（CL）考虑了一种模型在保留先前获得的知识的同时增量学习新信息的设置。这是特别具有挑战性的，因为深度学习模型在训练新数据时往往会灾难性地忘记旧知识。特别是，与用于分类的 CL 相比，目标检测的持续学习 (CLOD) 带来了额外的困难。在 CLOD 中，之前任务中的图像可能包含未知的类，这些类可能会在未来的任务中重新出现并标记。这些缺失的注释会导致基于重放的方法出现任务干扰问题。因此，文献中的大多数作品都集中在基于蒸馏的方法上。然而，这些方法只有在任务之间的类有很强的重叠时才有效。为了解决当前方法的问题，我们提出了一种解决 CLOD 的新技术，称为用于对象检测的带有标签传播的重放合并（RCLPOD）。基于重放方法，我们的解决方案通过增强缓冲存储器样本来避免任务干扰问题。我们的方法根据 CLOD 文献中的现有技术进行了评估，证明了其在 VOC 和 COCO 等既定基准上的卓越性能。

用于高分辨率树高估计的 3D-SAR 层析成像和机器学习

分类： 计算机视觉和模式识别, 人工智能

作者： Grace Colverd, Jumpei Takami, Laura Schade, Karol Bot, Joseph A. Gallego-Mejia

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05636v1

摘要： 准确估算森林生物量对于全球碳循环建模和减缓气候变化至关重要。树高是生物量计算的关键因素，可以使用合成孔径雷达 (SAR) 技术进行测量。本研究应用机器学习从两种 SAR 产品中提取森林高度数据：单视复合 (SLC) 图像和断层扫描立方体，为欧空局生物质卫星任务做准备。我们使用 TomoSense 数据集（包含来自德国埃菲尔国家公园的 SAR 和 LiDAR 数据）来开发和评估高度估计模型。我们的方法包括经典方法、使用 3D U-Net 的深度学习以及贝叶斯优化技术。通过测试各种 SAR 频率和极化，我们为未来的高度和生物量建模建立了基线。表现最佳的模型预测森林高度在 2.82m 以内，树冠的平均绝对误差在 30m 左右，从而提高了我们测量全球碳储量和支持气候行动的能力。

班级增量学习的联合输入和输出协调

分类： 机器学习, 人工智能

作者： Shuai Wang, Yibing Zhan, Yong Luo, Han Hu, Wei Yu, Yonggang Wen, Dacheng Tao

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05620v1

摘要： 由于严重的灾难性遗忘，渐进式学习并非易事。尽管在增量学习过程中存储旧任务的少量数据是一种可行的解决方案，但当前的策略仍然没有1）充分解决类偏差问题，2）减轻新旧任务之间的相互干扰，3）考虑任务中的阶级偏见问题。这促使我们提出联合输入和输出协调（JIOC）机制来解决这些问题。该机制根据输出分数的梯度为不同类别的数据分配不同的权重，并利用知识蒸馏（KD）来减少新旧任务输出之间的相互干扰。所提出的机制是通用且灵活的，并且可以合并到使用内存存储的不同增量学习方法中。大量的实验表明我们的机制可以显着提高它们的性能。

Adapted-MoE：专家与异常检测测试时间自适应的混合

分类： 计算机视觉和模式识别, 人工智能

作者： Tianwu Lei, Silin Chen, Bohan Wang, Zhengkai Jiang, Ningmu Zou

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05611v1

摘要： 大多数基于正常样本表示来区分异常的无监督异常检测方法最近取得了显着的进展。然而，现有的方法仅学习单个决策边界来区分训练数据集中的样本，忽略了正常样本即使在现实世界中同一类别的特征分布的变化。此外，没有考虑到测试集和训练集之间仍然存在分布偏差。因此，我们提出了一个Adapted-MoE，它包含一个路由网络和一系列专家模型，通过分而治之的方式处理同类别样本的多个分布。具体来说，我们提出了一种基于表示学习的路由网络，将相同类别的样本路由到子类特征空间中。然后，利用一系列专家模型来学习各种正常样本的表示并构造多个独立的决策边界。我们提出测试时间自适应，以消除未见过的测试样本表示与专家模型学习的特征分布之间的偏差。我们的实验是在一个数据集上进行的，该数据集提供了三个类别的多个子类，即纹理 AD 基准。 Adapted-MoE显着提高了基线模型的性能，I-AUROC和P-AUROC分别提高了2.18%-7.20%和1.57%-16.30%，优于当前最先进的方法。我们的代码可在 https://github.com/ 获取。

SynMorph：使用配对样本生成合成面部变形数据集

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Haoyu Zhang, Raghavendra Ramachandra, Kiran Raja, Christoph Busch

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05595v1

摘要： 人脸变形攻击检测（MAD）算法已成为克服人脸识别系统漏洞的关键。为了解决由于隐私问题和限制而缺乏大规模和公开可用的数据集的问题，在这项工作中，我们提出了一种新方法来生成具有 2450 个身份和超过 100k 变形的合成面部变形数据集。所提出的合成人脸变形数据集因其高质量样本、不同类型的变形算法以及单一和差分变形攻击检测算法的泛化而独一无二。在实验中，我们应用人脸图像质量评估和漏洞分析，从生物特征样本质量和人脸识别系统上的变形攻击潜力的角度来评估所提出的合成人脸变形数据集。结果以现有的 SOTA 合成数据集和代表性的非合成数据集为基准，并表明与 SOTA 相比有所改进。此外，我们设计了不同的协议并研究了使用所提出的合成数据集来训练变形攻击检测算法的适用性。

ExDDI：用自然语言解释药物相互作用预测

分类： 计算和语言, 人工智能

作者： Zhaoyue Sun, Jiazheng Li, Gabriele Pergola, Yulan He

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05592v1

摘要： 预测未知的药物相互作用 (DDI) 对于提高用药安全性至关重要。以前在 DDI 预测方面的工作通常集中在二元分类或预测 DDI 类别上，缺乏可以增强对这些预测的信任的解释性见解。在这项工作中，我们建议为 DDI 预测生成自然语言解释，使模型能够在进行预测的同时揭示潜在的药效学和药代动力学机制。为此，我们从 DDInter 和 DrugBank 收集了 DDI 解释，并开发了各种模型进行广泛的实验和分析。我们的模型可以为已知药物之间的未知 DDI 提供准确的解释。本文为DDI预测领域贡献了新的工具，为进一步研究生成DDI预测的解释奠定了坚实的基础。

MemoRAG：通过记忆启发的知识发现迈向下一代 RAG

分类： 计算和语言, 人工智能

作者： Hongjin Qian, Peitian Zhang, Zheng Liu, Kelong Mao, Zhicheng Dou

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05591v2

摘要： 检索增强生成（RAG）利用检索工具访问外部数据库，从而通过优化上下文来提高大语言模型（LLM）的生成质量。然而，现有的检索方法存在固有的局限性，因为它们只能在明确陈述的查询和格式良好的知识之间进行相关性匹配，而无法处理涉及模糊信息需求或非结构化知识的任务。因此，现有的 RAG 系统主要适用于简单的问答任务。在这项工作中，我们提出了 MemoRAG，一种由长期记忆支持的新型检索增强生成范式。 MemoRAG采用双系统架构。一方面，它采用轻量级但远程的LLM来形成数据库的全局内存。一旦提出任务，它就会生成草稿答案，提示检索工具在数据库中查找有用的信息。另一方面，它利用昂贵但富有表现力的大语言模型，根据检索到的信息生成最终答案。在此总体框架的基础上，我们通过增强其线索机制和记忆能力来进一步优化 MemoRAG 的性能。在我们的实验中，MemoRAG 在各种评估任务中都实现了卓越的性能，包括传统 RAG 失败的复杂任务和 RAG 通常应用的简单任务。

可解释的责任共享作为任务和运动规划的启发式

分类： 机器人技术, 人工智能

作者： Arda Sarp Yenicesu, Sepehr Nourmohammadi, Berk Cicek, Ozgur S. Oguz

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05586v1

摘要： 本文介绍了一种名为可解释责任共享（IRS）的新型任务和运动规划（TAMP）启发式方法，它通过利用人类构建的环境和固有偏差来提高家用机器人的规划效率。 IRS 利用家庭环境中常见的辅助物品（例如托盘和水罐），系统地整合这些元素来简化和优化任务执行。该启发式植根于责任共享（RS）的新概念，其中辅助对象与具体代理共享任务的责任，将复杂的任务划分为可管理的子问题。这种划分不仅反映了人类的使用模式，而且还帮助机器人在人类空间内更有效地导航和操作。通过集成优化规则综合 (ORS) 进行决策，IRS 确保辅助对象的使用既具有战略性又具有上下文感知性，从而提高了机器人规划的可解释性和有效性。对各种家务任务进行的实验表明，IRS 通过减少任务执行所需的工作量并增强整体决策过程，显着优于传统方法。这种方法不仅符合人类直觉方法，而且提供了适应不同家庭环境的可扩展解决方案。代码可在 https://github.com/asyncs/IRS 获取。

潜在 3D 脑 MRI 反事实

分类： 计算机视觉和模式识别, 人工智能

作者： Wei Peng, Tian Xia, Fabio De Sousa Ribeiro, Tomas Bosschieter, Ehsan Adeli, Qingyu Zhao, Ben Glocker, Kilian M. Pohl

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05585v1

摘要： 结构性脑部 MRI 研究中的样本数量通常太少，无法正确训练深度学习模型。生成模型通过有效地学习数据分布和生成高保真 MRI 来解决这个问题。然而，他们很难在训练数据定义的分布之外生成多样化的高质量数据。解决该问题的一种方法是使用为 3D 体积反事实开发的因果模型。然而，在高维空间中准确建模因果关系是一项挑战，因此这些模型通常生成质量较低的 3D 脑部 MRIS。为了应对这些挑战，我们提出了一种两阶段方法，在潜在空间内构建结构因果模型（SCM）。在第一阶段，我们采用 VQ-VAE 来学习 MRI 体积的紧凑嵌入。随后，我们将因果模型集成到这个潜在空间中，并使用封闭式广义线性模型（GLM）执行三步反事实过程。我们对现实世界的高分辨率 MRI 数据 (1mm) 进行的实验表明，我们的方法可以生成高质量的 3D MRI 反事实。

通过图结构自对比学习对 MLP 上的图结构信息进行建模

分类： 机器学习, 人工智能

作者： Lirong Wu, Haitao Lin, Guojiang Zhao, Cheng Tan, Stan Z. Li

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05573v1

摘要： 近年来，图神经网络（GNN）在处理图相关任务方面取得了巨大成功。然而，大多数现有的 GNN 都是基于消息传递来执行特征聚合和转换，其中结构信息通过每层的图卷积与节点特征耦合来明确参与前向传播。因此，细微的特征噪声或结构扰动可能会导致严重的错误传播，导致鲁棒性极差。在本文中，我们重新思考图结构信息在图数据训练中所扮演的角色，并发现消息传递并不是建模结构信息的唯一途径。受此启发，我们提出了一个简单但有效的图结构自对比（GSSC）框架，无需消息传递即可学习图结构信息。所提出的框架纯粹基于多层感知器（MLP），其中结构信息仅作为先验知识隐式合并，以指导监督信号的计算，取代 GNN 中的显式消息传播。具体来说，它首先应用结构稀疏化来去除邻域中潜在的无信息或噪声边缘，然后在稀疏邻域中执行结构自对比以学习鲁棒的节点表示。最后，结构稀疏化和自对比被表述为双层优化问题并在统一框架中求解。大量的实验已经定性和定量地证明，GSSC 框架可以产生真正令人鼓舞的性能，并且比其他领先竞争对手具有更好的泛化性和鲁棒性。

论Sigmoid与tanh模糊通用灰色认知图的收敛性

分类： 系统与控制, 人工智能, 系统与控制

作者： Xudong Gao, Xiao Guang Gao, Jia Rong, Ni Li, Yifeng Niu, Jun Chen

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05565v1

摘要： 模糊一般灰色认知图（FGGCM）和模糊灰色认知图（FGCM）是模糊认知图（FCM）在不确定性方面的扩展。 FGGCM允许对具有多个区间的一般灰数进行处理，使FCM能够更好地解决不确定的情况。尽管许多文献已经讨论了FCM和FGCM的收敛性，但FGGCM的收敛性尚未得到彻底探讨。本文旨在填补这一研究空白。首先，给出了一般灰数空间及其向量空间的度量，并利用明可夫斯基不等式进行了证明。利用柯西序列是收敛序列的特点，证明了这两个空间的完备性。在此前提下，利用Banach不动点定理和Browder-Gohde-Kirk不动点定理，结合Lagrange中值定理和Cauchy不等式，推导了使用tanh和sigmoid函数作为激活时FGGCM收敛到唯一不动点的充分条件功能。还单独给出了 FGGCM 的核和灰度收敛到唯一不动点的充分条件。最后，基于Web Experience和土木工程FCM，通过将权重修改为一般灰数，设计了相应的以sigmoid和tanh为激活函数的FGGCM。通过与FCM和FGCM收敛定理的比较，验证了本文提出定理的有效性。还证明了FCM的收敛定理是本文提出的定理的特例。 FGGCM的收敛性研究对于指导FGGCM的学习算法具有重要意义，是设计具有特定不动点的FGGCM所需要的，为FGGCM在控制、预测、决策支持等领域的应用奠定了坚实的理论基础系统。

LEROjD：激光雷达扩展仅雷达物体检测

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Patrick Palmer, Martin Krüger, Stefan Schütte, Richard Altendorfer, Ganesh Adam, Torsten Bertram

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05564v1

摘要： 准确的 3D 物体检测对于自动驾驶至关重要。虽然激光雷达传感器非常适合这项任务，但它们价格昂贵，并且在恶劣天气条件下存在局限性。 3+1D 成像雷达传感器提供了一种经济高效、强大的替代方案，但由于分辨率低和测量噪声高而面临挑战。现有的3+1D成像雷达数据集包括雷达和激光雷达数据，可实现跨模态模型改进。尽管在推理过程中不应使用激光雷达，但它可以帮助训练仅雷达物体检测器。我们探索了两种将知识从激光雷达转移到雷达域和仅雷达目标检测器的策略：1. 连续激光雷达点云稀疏的多阶段训练，2. 跨模式知识蒸馏。在多阶段过程中，研究了三种稀疏方法。我们的结果显示，通过多阶段训练，平均精度显着提高高达 4.2 个百分点；通过使用教师的权重初始化学生，知识蒸馏可显着提高高达 3.9 个百分点。这些方法的主要好处是它们适用于其他 3D 对象检测网络，而无需改变其架构，正如我们通过在两个不同的对象检测器上分析它所展示的那样。我们的代码位于 https://github.com/rst-tu-dortmund/lerojd

CauseJudger：通过大语言模型进行溯因逻辑推理来识别原因

分类： 人工智能

作者： Jinwei He, Feng Lu

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05559v1

摘要： 大型语言模型（LLM）已被用于解决各种推理任务，包括常识、算术和演绎任务。然而，由于逆向思维模式的困难和不相关的前提，如何确定溯因逻辑推理中原因的真实性仍有待探索。受假设和验证方法以及人类思维过程中不相关信息识别的启发，我们提出了一种新的大语言模型溯因逻辑推理框架CauseJudger（CJ），通过将思维从逆向思维转变为正向思维并去除不相关信息来识别可能原因的真实性。此外，我们还为决策任务构建了一个名为 CauseLogics 的溯因逻辑推理数据集，其中包含 200,000 个不同推理长度的任务。我们的实验通过整体实验和消融实验以及对我们的数据集和重建的公共数据集的案例研究展示了 CJ 的效率。值得注意的是，CJ 的实现非常高效，只需要两次调用 LLM。其影响是深远的：当使用 gpt-3.5 时，CJ 与 Zero-Shot-CoT 相比，最大正确性提高了 41%。此外，利用 gpt-4，CJ 在所有数据集上获得了超过 90% 的准确率。

透视面具：重新思考验证码的对抗性示例

分类： 计算机视觉和模式识别, 人工智能

作者： Yahya Jabary, Andreas Plesner, Turlan Kuzhagaliyev, Roger Wattenhofer

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05558v1

摘要： 现代验证码严重依赖于视觉任务，这些任务对计算机来说很难，但对人类来说很容易。然而，图像识别模型的进步对此类验证码构成了重大威胁。通过生成一些隐藏良好的“随机”噪声并将其添加到图像中或隐藏图像中的对象，这些模型很容易被愚弄。然而，这些方法是特定于模型的，因此不能帮助验证码欺骗所有模型。我们在这项工作中表明，通过允许对图像进行更重大的更改，同时保留语义信息并保持其可由人类解决，我们可以欺骗许多最先进的模型。具体来说，我们证明，通过添加不同强度的掩模，所有模型的 Accuracy @ 1 (Acc@1) 下降了 50% 以上，而视觉变换器等据说稳健的模型的 Acc@1 下降了 80%。点。因此，这些面具可以有效地欺骗现代图像分类器，从而表明机器还没有赶上人类。

SciAgents：通过多智能体智能图形推理自动化科学发现

分类： 人工智能, 无序系统和神经网络, 材料科学, 计算和语言, 机器学习

作者： Alireza Ghafarollahi, Markus J. Buehler

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05556v1

摘要： 人工智能的一个关键挑战是创建能够通过探索新领域、识别复杂模式以及揭示大量科学数据中以前未见过的联系来自主推进科学理解的系统。在这项工作中，我们提出了 SciAgents，这是一种利用三个核心概念的方法：（1）使用大规模本体知识图来组织和互连不同的科学概念，（2）一套大型语言模型（LLM）和数据检索工具，以及（3）具有原位学习能力的多智能体系统。 SciAgents 应用于受生物启发的材料，揭示了以前被认为无关的隐藏的跨学科关系，实现了超越传统人类驱动研究方法的规模、精度和探索能力。该框架自动生成和完善研究假设，阐明潜在机制、设计原理和意想不到的材料特性。通过以模块化方式集成这些功能，智能系统可以产生重大发现，批判和改进现有假设，检索有关现有研究的最新数据，并突出其优点和局限性。我们的案例研究证明了可扩展的能力，可以结合生成人工智能、本体表示和多智能体建模，利用类似于生物系统的“智能群”。这为材料发现提供了新途径，并通过解锁自然的设计原理加速了先进材料的开发。

HMAFlow：通过分层运动场对齐学习更准确的光流

分类： 计算机视觉和模式识别, 人工智能

作者： Dianbo Ma, Kousuke Imamura, Ziyan Gao, Xiangjie Wang, Satoshi Yamane

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05531v1

摘要： 光流估计是一项基本且长期存在的视觉任务。在这项工作中，我们提出了一种称为 HMAFlow 的新颖方法，以改进这些困难场景中的光流估计，尤其是小物体。所提出的模型主要由两个核心组件组成：分层运动场对齐（HMA）模块和相关自注意（CSA）模块。此外，我们通过采用多尺度相关搜索（MCS）层来重建 4D 成本卷，并用使用多个搜索范围的搜索策略替换常见成本卷中的平均池化。实验结果表明，与其他最先进的方法相比，我们的模型实现了最佳的泛化性能。具体来说，与 RAFT 相比，我们的方法在 Sintel 在线基准测试的 clean pass 和 Final pass 上分别实现了 14.2% 和 3.4% 的相对误差降低。在 KITTI 测试基准上，HMAFlow 在 Fl-all 指标上分别以 6.8% 和 7.7% 的相对优势超越 RAFT 和 GMA。为了方便未来的研究，我们的代码将在 https://github.com/BooTurbo/HMAFlow 上提供。

使用二次无约束二元优化对论证问题进行编码

分类： 量子物理学, 人工智能

作者： Marco Baioletti, Francesco Santini

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05524v1

摘要： 在本文中，我们开发了一种将抽象论证中的几个 NP 完全问题编码为二次无约束二元优化（QUBO）问题的方法。在这种形式中，QUBO 问题的解决方案涉及最小化二元变量 (0/1) 上的二次函数，其中系数可以由对称方阵（或等效的上三角版本）表示。通过 QUBO 公式，开发新的计算架构（例如量子和数字退火器）成为可能。更传统的方法包括开发近似求解器，在这种情况下，用于解决内在的复杂性。我们进行了测试来证明论证和论证集执行中经典问题的正确性和适用性。在测试过程中，我们将我们的方法与文献中的其他两个近似求解器进行了比较。在最后的实验中，我们在本地机器上使用了模拟退火算法。此外，我们还测试了 D-Wave Ocean SDK 和 Leap Quantum Cloud Service 的量子退火器。

大型语言模型中的调和推理

分类： 计算和语言, 人工智能, 声音

作者： Anna Kruspe

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05521v1

摘要： 大型语言模型 (LLM) 变得非常流行，并用于许多不同的目的，包括艺术中的创造性任务。然而，这些模型有时在执行特定的推理任务时遇到困难，尤其是那些涉及逻辑思维和计数的任务。本文着眼于大语言模型在处理音乐任务（例如从音程中找出音符以及识别和弦和音阶）时的理解和推理能力。我们测试了 GPT-3.5 和 GPT-4o，看看它们如何处理这些任务。我们的结果表明，虽然大语言模型在音程方面做得很好，但他们在处理更复杂的任务（例如识别和弦和音阶）时遇到了困难。这指出了当前大语言模型能力的明显局限性，并表明我们需要在哪些方面进行改进，这有助于改善他们在艺术和其他复杂领域的思考和工作方式。我们还为所描述的任务提供自动生成的基准数据集。

使用机器学习进行灯塔光传感器的故障检测

分类： 机器学习, 人工智能

作者： Michael Kampouridis, Nikolaos Vastardis, George Rayment

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05495v1

摘要： 灯塔通过向危险区域（如危险的海岸线、浅滩、珊瑚礁和岩石）发出信号，以及帮助入港和空中导航，在确保海上安全方面发挥着至关重要的作用。这是通过使用根据一天中的时间激活或停用的光敏电阻传感器来实现的。然而，一个重要的问题是这些传感器的潜在故障，导致灯的操作时间逐渐错位。本文介绍了一种基于机器学习的创新方法，用于自动检测此类故障。我们评估了四种不同的算法：决策树、随机森林、极限梯度提升和多层感知器。我们的研究结果表明，多层感知器是最有效的，能够检测小至 10-15 分钟的时间差异。这种精度使其成为自动检测灯塔光传感器故障的高效工具。

Elsevier Arena：化学/生物学/健康基础大语言模型的人类评估

分类： 计算和语言, 人工智能

作者： Camilo Thorne, Christian Druckenbrodt, Kinga Szarkowska, Deepika Goyal, Pranita Marajan, Vijay Somanath, Corey Harper, Mao Yan, Tony Scerri

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05486v1

摘要： 目前无法通过自动化基准评估来全面评估大型语言模型的质量和功能。相反，需要对自然语言生成文献中的传统定性技术进行扩展的人类评估。最近的一项最佳实践是使用 A/B 测试框架，该框架捕获人类评估者对特定模型的偏好。在本文中，我们描述了爱思唯尔进行的一项针对生物医学领域（健康、生物学、化学/药理学）的人体评估实验。其中，将一个大型但不是大规模（8.8B 参数）的仅解码器基础 Transformer 在相对较小（135B 令牌）但精心策划的 Elsevier 数据集上进行训练，与 OpenAI 的 GPT-3.5-turbo 和 Meta 的基础 7B 参数 Llama 2 模型进行比较反对多个标准。结果表明，即使 IRR 分数普遍较低，人们对 GPT-3.5-turbo 以及具有对话能力的模型的偏好也非常大，并且是在非常大的数据集上进行训练的。但同时表明，对于规模较小的模型，在较小但精心策划的训练集上进行训练可能会在生物医学领域产生可行的替代方案。

CRADLE-VAE：通过基于反事实推理的伪像解缠增强单细胞基因微扰模型

分类： 机器学习, 人工智能, 基因组学, 定量方法

作者： Seungheun Baek, Soyon Park, Yan Ting Chok, Junhyun Lee, Jueon Park, Mogan Gim, Jaewoo Kang

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05484v2

摘要： 预测细胞对各种扰动的反应是药物发现和个性化治疗的关键焦点，深度学习模型在这一努力中发挥着重要作用。单细胞数据集包含可能妨碍此类模型的可预测性的技术工件，这引起了该领域高度重视的质量控制问题。为了解决这个问题，我们提出了 CRADLE-VAE，这是一种专为单细胞基因扰动建模而定制的因果生成框架，并通过基于反事实推理的工件解缠来增强。在整个训练过程中，CRADLE-VAE 对单细胞数据集中存在的技术工件和扰动效应的潜在潜在分布进行建模。它采用反事实推理，通过调节潜在的基底空间来有效地解开这些伪影，并学习强大的特征来生成质量更高的细胞响应数据。实验结果表明，这种方法不仅提高了治疗效果估计性能，还提高了生成质量。 CRADLE-VAE 代码库可在 https://github.com/dmis-lab/CRADLE-VAE 上公开获取。

Proto-OOD：利用原型特征相似性增强 OOD 对象检测

分类： 计算机视觉和模式识别, 人工智能

作者： Junkun Chen, Jilin Mei, Liang Chen, Fangzhou Zhao, Yu Hu

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05466v1

摘要： 目标检测器的训练样本有限通常会导致分布外 (OOD) 目标检测的精度较低。我们观察到，同一类的特征向量往往在特征空间中紧密聚集，而不同类的特征向量则更加分散。这一见解激励我们利用特征相似性进行 OOD 检测。借鉴小样本学习中普遍存在的原型概念，我们引入了一种为此目的而设计的新颖的网络架构——Proto-OOD。 Proto-OOD 通过对比损失增强原型代表性，并通过评估输入特征和原型之间的相似性来识别 OOD 数据。它使用负嵌入生成器来创建负嵌入，然后用于训练相似性模块。当使用 Pascal VOC 作为 ID 数据集和 MS-COCO 作为 OOD 数据集时，Proto-OOD 在 MS-COCO 数据集中实现了显着较低的 FPR95，并在 Pascal VOC 数据集上实现了较高的 mAP。此外，我们还确定了现有评估指标的局限性，并提出了增强的评估协议。

将论证框架的扩展可视化为分层图

分类： 人机交互, 人工智能

作者： Martin Nöllenburg, Christian Pirker, Anna Rapberger, Stefan Woltran, Jules Wulms

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05457v1

摘要： 论证框架（AF）的可视化对于实现论证工具的广泛适用性至关重要。然而，它们的可视化通常仅被视为计算语义和标准图形表示工具的附带部分。我们引入了一种新的可视化技术，该技术将 AF 与扩展（作为输入的一部分）一起绘制为 3 层图形布局。我们的技术支持用户更轻松地探索可视化 AF、更好地理解扩展并验证计算语义的算法。为了优化此布局的视觉清晰度和美观性，我们建议尽量减少 3 层绘图中的边缘交叉。我们通过精确的基于 ILP 的方法来实现这一点，但也提出了一种快速启发式管道。通过定量评估，我们表明启发式方法即使对于大型实例也是可行的，同时在大多数情况下产生的交叉数量最多是最佳绘图的两倍。

强化学习的半事实解释

分类： 人工智能

作者： Jasmina Gajcin, Jovan Jeromela, Ivana Dusparic

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05435v1

摘要： 强化学习（RL）是一种学习范式，其中代理通过反复试验从其环境中学习。深度强化学习 (DRL) 算法使用神经网络表示代理的策略，使其决策难以解释。解释 DRL 代理的行为对于提高用户信任、增加参与度并促进与现实生活任务的集成是必要的。半事实解释旨在通过提供“即使”场景来解释结果，例如“即使汽车移动速度慢两倍，它仍然必须转向以避免碰撞”。半事实帮助用户了解不同因素对结果的影响并支持资源的优化。虽然在心理学领域得到了广泛的研究，甚至在监督学习中得到了应用，但半事实尚未被用来解释强化学习系统的决策。在这项工作中，我们开发了第一种为 RL 代理生成半事实解释的方法。我们首先定义 RL 中理想的半事实解释的五个属性，然后介绍 SGRL-Rewind 和 SGRL-Advance，这是第一个在 RL 中生成半事实解释的算法。我们在两个标准 RL 环境中评估算法，发现它们生成的半事实更容易达到，更好地代表代理的策略，并且与基线相比更多样化。最后，我们进行并分析用户研究，以评估参与者对代理行为的半事实解释的看法。

深度强化学习中的状态新颖性引导行动持久性

分类： 机器学习, 人工智能

作者： Jianshu Hu, Paul Weng, Yutong Ban

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05433v1

摘要： 虽然深度强化学习（DRL）是一种强大且有前途的方法，但仍然存在样本效率低下的问题，可以通过采用更复杂的技术来解决探索-利用困境来显着改善这一问题。其中一种技术依赖于动作持久性（即，在多个步骤中重复一个动作）。然而，之前利用动作持久性的工作要么应用固定策略，要么学习额外的价值函数（或策略）来选择重复次数。在本文中，我们提出了一种根据状态空间当前探索状态动态调整动作持久性的新方法。这样，我们的方法不需要额外的价值函数或策略的训练。此外，使用重复概率的平滑调度可以在探索和利用之间实现更有效的平衡。此外，我们的方法可以无缝集成到各种基本探索策略中，以纳入时间持久性。最后，对不同 DMControl 任务的大量实验表明，我们的状态新颖性引导动作持久性方法显着提高了样本效率。

AD-Net：基于注意力的扩张卷积残差网络，具有引导解码器，用于稳健的皮肤病变分割

分类： 计算机视觉和模式识别, 人工智能

作者： Asim Naveed, Syed S. Naqvi, Tariq M. Khan, Shahzaib Iqbal, M. Yaqoob Wani, Haroon Ahmed Khan

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05420v1

摘要： 在用于皮肤癌治疗和早期诊断的计算机辅助诊断工具中，皮肤病变分割非常重要。然而，由于外观、对比度、纹理和模糊病变边界的固有变化，实现精确分割具有挑战性。这项研究提出了一种利用扩张卷积残差网络的鲁棒方法，该方法结合了基于注意力的空间特征增强块（ASFEB）并采用了引导解码器策略。在每个扩张卷积残差块中，扩张卷积被用来以不同的扩张率拓宽感受野。为了改善编码器的空间特征信息，我们在跳跃连接中采用了基于注意力的空间特征增强块。我们提出的方法中的 ASFEB 结合了从平均和最大池化操作获得的特征图。然后使用全局平均池化和卷积运算的主动结果对这些组合特征进行加权。此外，我们还采用了引导解码器策略，其中每个解码器块都使用单独的损失函数进行优化，以增强所提出的 AD-Net 中的特征学习过程。与同类方法相比，所提出的 AD-Net 需要更少的模型参数，因此具有显着的优势。参数的减少直接影响训练所需的标记数据的数量，从而促进训练过程中更快的收敛。使用四个公共基准数据集评估了所提出的 AD-Net 的有效性。我们进行了 Wilcoxon 符号秩检验来验证 AD-Net 的效率。结果表明，即使没有实施数据增强策略，我们的方法在性能上也优于其他尖端方法。

CipherDM：用于扩散模型采样的安全三方推理

分类： 密码学和安全, 人工智能, 计算机视觉和模式识别

作者： Xin Zhao, Xiaojun Chen, Xudong Chen, He Li, Tingyu Fan, Zhendong Zhao

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05414v1

摘要： 扩散模型（DM）在图像生成方面实现了最先进的合成结果，并已应用于各个领域。然而，DM在使用过程中有时会严重侵犯用户隐私，隐私保护成为刻不容缓的问题。直接在 DM 中使用安全多方计算 (MPC) 等传统隐私计算方案面临着巨大的计算和通信挑战。为了解决这些问题，我们提出了 CipherDM，这是第一个将 MPC 技术应用于 DM 进行安全采样的新颖、多功能和通用框架，它可以广泛应用于多个基于 DM 的任务。我们彻底分析采样延迟分解，找到耗时的部分，并设计相应的安全 MPC 协议来计算非线性激活，包括 SoftMax、SiLU 和 Mish。 CipherDM 使用 MNIST 数据集在流行架构（DDPM、DDIM）上以及扩散器部署的 SD 上进行评估。与直接在 SPU 上实现相比，我们的方法将运行时间提高了约 1.084\times \sim 2.328\times，并将通信成本降低了约 1.212\times \sim 1.791\times。

多模态复合编辑和检索综述

分类： 计算机视觉和模式识别, 人工智能, 信息检索, 多媒体

作者： Suyan Li, Fuxiang Huang, Lei Zhang

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05405v1

摘要： 在现实世界中，信息在不同模式中丰富且多样，理解和利用各种数据类型来改进检索系统是研究的重点。多模态复合检索集成了文本、图像和音频等多种模态，以提供更准确、个性化和上下文相关的结果。为了更深入地理解这一有前景的方向，本次调查深入探讨了多模态复合编辑和检索，涵盖图文复合编辑、图文复合检索和其他多模态复合检索。在这次调查中，我们系统地整理了应用场景、方法、基准、实验和未来方向。多模态学习是大模型时代的一个热门话题，PAMI 杂志上也发表了一些关于多模态学习和带有 Transformer 的视觉语言模型的调查。据我们所知，本次调查是对多模态复合检索文献的第一次全面综述，是对现有综述的多模态融合的及时补充。为了帮助读者快速跟踪该领域，我们构建了本次调查的项目页面，可以在https://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrieval找到。

HyperSMOTE：一种基于超图的不平衡节点分类过采样方法

分类： 机器学习, 人工智能

作者： Ziming Zhao, Tiehua Zhang, Zijian Yi, Zhishu Shen

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05402v1

摘要： 与传统图相比，超图由于其建模和提取节点间高阶关系的卓越能力，越来越多地用于单模态和多模态数据场景。然而，当前的超图模型正面临与不平衡数据相关的挑战，因为这种不平衡可能导致模型对更普遍的类别产生偏差。虽然 GraphSMOTE 等现有技术提高了图数据中少数样本的分类精度，但在解决超图的独特结构时仍然存在不足。受 SMOTE 概念的启发，我们提出 HyperSMOTE 作为缓解超图学习中类别不平衡问题的解决方案。该方法涉及两步过程：首先合成少数类节点，然后将节点集成到原始超图中。我们根据少数类及其邻居的样本合成新节点。同时，为了解决将新节点集成到超图的问题，我们基于原始超图关联矩阵训练解码器，以自适应地将增广节点与超边相关联。我们对 Cora、Cora-CA 和 Citeseer 等多个单模态数据集以及多模态对话数据集 MELD 进行了广泛的评估，以验证 HyperSMOTE 的有效性，结果显示准确率平均性能提升分别为 3.38% 和 2.97% 。

FacialFlowNet：利用多样化数据集和分解模型推进面部光流估计

分类： 计算机视觉和模式识别, 人工智能

作者： Jianzhi Lu, Ruian He, Shili Zhou, Weimin Tan, Bo Yan

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05396v1

摘要： 面部运动在传达高度和意图方面发挥着至关重要的作用，面部光流提供了其动态和详细的表示。然而，数据集和现代基线的稀缺阻碍了面部光流研究的进展。本文提出了FacialFlowNet（FFN），一种新型的大规模面部光流数据集，以及分解面部流模型（DecFlow），这是第一个能够分解面部流的方法。 FFN 包含 9,635 个身份和 105,970 个图像对，为详细的面部和头部运动分析提供了前所未有的多样性。 DecFlow 具有面部语义感知编码器和分解流解码器，擅长准确估计面部流并将其分解为头部和表情组件。综合实验表明，FFN 显着提高了各种光流方法的面部流估计精度，端点误差 (EPE) 降低了 11%（从 3.91 降至 3.48）。此外，DecFlow 与 FFN 结合使用时，在合成场景和现实场景中都优于现有方法，从而增强了面部表情分析。分解后的表情流使微表情识别准确率大幅提升18%（从69.1%提高到82.1%）。这些贡献代表了面部运动分析和光流估计方面的重大进步。可以找到代码和数据集。

颠覆 VLM：比较 Transformer 和结构化状态空间模型以进行视觉和语言建模

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Georgios Pantazopoulos, Malvina Nikandrou, Alessandro Suglia, Oliver Lemon, Arash Eshghi

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05395v1

摘要： 本研究探索用 Mamba 取代视觉语言模型 (VLM) 中的 Transformer，Mamba 是一种最新的结构化状态空间模型 (SSM)，在序列建模中表现出良好的性能。我们在受控条件下测试了高达 3B 参数的模型，结果表明基于 Mamba 的 VLM 在字幕、问答和阅读理解方面优于基于 Transformers 的 VLM。然而，我们发现变形金刚在视觉基础方面取得了更好的性能，并且性能差距随着规模的扩大而扩大。我们探索了两个假设来解释这种现象：1）任务无关的视觉编码对隐藏状态更新的影响，2）从上下文多模态检索的角度执行视觉基础的困难。我们的结果表明，任务感知编码在基础上产生的性能增益最小，然而，Transformers 在上下文多模态检索方面显着优于 Mamba。总体而言，Mamba 在正确输出依赖于图像摘要的任务中表现出了良好的性能，但在需要从上下文中检索显式信息时却表现不佳。

构建具有大型语言模型的鲁棒知识密集型问答模型

分类： 计算和语言, 人工智能

作者： Hong Xingyun Hong, Shao Yan Shao, Wang Zhilin Wang, Duan Manni Duan, Jin Xiongnan

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05385v2

摘要： LLM的发展极大地增强了问答的智能性和流畅性，而检索增强的出现使模型能够更好地利用外部信息。然而，检索信息中存在的噪声和错误对大语言模型的稳健性提出了挑战。在这项工作中，为了评估模型在多种干扰下的性能，我们首先基于机器阅读理解数据集构建一个数据集，模拟各种场景，包括关键信息缺失、噪声和冲突。为了解决由外部噪声信息引起的模型精度下降的问题，我们提出了一种基于数据增强的微调方法来增强LLM对噪声的鲁棒性。此外，利用对比学习方法来保持模型对外部信息的辨别能力。我们对现有的 LLM 和我们的方法进行了实验，结果通过 GPT-4 进行了评估，这表明我们提出的方法提高了模型的鲁棒性，同时增强了模型的判别能力。

一看再看：提炼混合顺序关系知识以进行跨分辨率图像识别

分类： 计算机视觉和模式识别, 人工智能, 多媒体

作者： Shiming Ge, Kangkai Zhang, Haolin Liu, Yingying Hua, Shengwei Zhao, Xin Jin, Hao Wen

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05384v1

摘要： 尽管最近的深度模型在许多图像识别任务中取得了巨大成功，但直接应用它们来识别低分辨率图像可能会由于分辨率下降期间丢失信息细节而导致准确性较低。然而，对于熟悉相应高分辨率图像的主体来说，这些图像仍然可以识别。受此启发，我们提出了一种师生学习方法，通过混合顺序关系知识蒸馏促进低分辨率图像识别。该方法涉及三个流：教师流经过预训练以高精度识别高分辨率图像，学生流通过模仿教师的行为学习识别低分辨率图像，引入额外的助理流作为桥梁来帮助知识通过教师传递给学生。为了提取足够的知识以减少准确性损失，学生的学习受到多重损失的监督，这保留了各种顺序关系结构的相似性。通过这种方式，可以有效增强恢复熟悉的低分辨率图像丢失细节的能力，从而实现更好的知识迁移。关于度量学习、低分辨率图像分类和低分辨率人脸识别任务的大量实验表明了我们方法的有效性，同时采用了简化的模型。

用于视频异常检测的深度学习：回顾

分类： 计算机视觉和模式识别, 人工智能

作者： Peng Wu, Chengyu Pan, Yuting Yan, Guansong Pang, Peng Wang, Yanning Zhang

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05383v1

摘要： 视频异常检测（VAD）旨在发现视频中偏离正常现象的行为或事件。作为计算机视觉领域的一项长期任务，VAD 已经取得了很多良好的进展。深度学习时代，随着能力和容量不断增长的架构爆炸式增长，针对VAD任务的各种基于深度学习的方法不断涌现，大大提高了检测算法的泛化能力，拓宽了应用场景。因此，如此众多的方法和大量的文献使得全面的调查成为迫切的需要。在本文中，我们提出了广泛而全面的研究综述，涵盖了五个不同类别，即半监督、弱监督、全监督、无监督和开放集监督 VAD，并且我们还深入研究了最新的 VAD 工作基于预训练的大型模型，弥补了过去评论仅关注半监督 VAD 和基于小模型的方法的局限性。对于不同监督级别的VAD任务，我们构建了一个组织良好的分类法，深入讨论了不同类型方法的特征，并展示了它们的性能比较。此外，本次审查还涉及涵盖所有上述 VAD 任务的公共数据集、开源代码和评估指标。最后，我们为 VAD 社区提供了几个重要的研究方向。

PersonaTalk：在视觉配音中关注您的角色

分类： 计算机视觉和模式识别, 人工智能, 图形

作者： Longhao Zhang, Shuang Liang, Zhipeng Ge, Tianshu Hu

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05379v1

摘要： 对于音频驱动的视觉配音来说，在合成准确的唇形同步的同时维护和突出演讲者的角色仍然是一个相当大的挑战。现有方法无法捕捉说话者独特的说话风格或保留面部细节。在本文中，我们提出了 PersonaTalk，一个基于注意力的两阶段框架，包括几何构造和面部渲染，用于高保真和个性化的视觉配音。在第一阶段，我们提出了一种风格感知的音频编码模块，通过交叉注意层将说话风格注入到音频特征中。然后，使用风格化的音频特征来驱动扬声器的模板几何形状以获得口型同步的几何形状。在第二阶段，引入双注意力面部渲染器来渲染目标几何形状的纹理。它由两个并行的交叉注意力层组成，即 Lip-Attention 和 Face-Attention，分别从不同的参考帧中采样纹理来渲染整个脸部。通过我们的创新设计，可以很好地保留复杂的面部细节。综合实验和用户研究证明了我们在视觉质量、口型同步准确性和角色保留方面优于其他最先进方法的优势。此外，作为一个个人通用框架，PersonaTalk 可以像最先进的个人特定方法一样实现有竞争力的表现。项目页面：https://grisoon.github.io/PersonaTalk/。

KARGEN：使用大型语言模型生成知识增强的自动放射学报告

分类： 计算机视觉和模式识别, 人工智能

作者： Yingshu Li, Zhanyu Wang, Yunyi Liu, Lei Wang, Lingqiao Liu, Luping Zhou

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05370v1

摘要： 本研究利用大型语言模型 (LLM) 强大的叙事生成、逻辑推理和常识知识集成功能，深入研究如何利用 LLM 来增强自动放射学报告生成 (R2Gen)。尽管大语言模型拥有丰富的知识，但在这些大型模型中针对 R2Gen 等特定任务有效触发相关知识提出了严峻的研究挑战。本文介绍了 KARGEN，一种基于大语言模型的知识增强型自动化放射学报告生成框架。该框架利用冻结的大语言模型生成报告，集成知识图来解锁大语言模型内的胸部疾病相关知识，从而增强生成报告的临床实用性。这是通过利用知识图以设计的方式提取与疾病相关的特征来实现的。由于放射学报告包含正常和疾病相关的发现，因此提取的图形增强的疾病相关特征与区域图像特征相结合，关注这两个方面。我们探索了两种融合方法来自动优先考虑并选择最相关的特征。大语言模型利用融合的特征来生成对疾病更敏感且质量更高的报告。我们的方法在 MIMIC-CXR 和 IU-Xray 数据集上展示了有希望的结果。

BAMDP 塑造：内在动机和奖励塑造的统一理论框架

分类： 机器学习, 人工智能

作者： Aly Lidayan, Michael Dennis, Stuart Russell

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05358v1

摘要： 内在动机（IM）和奖励塑造是通过添加伪奖励来指导强化学习（RL）代理探索的常见方法。然而，设计这些奖励具有挑战性，而且它们可能会违反直觉地损害绩效。为了解决这个问题，我们将它们描述为贝叶斯自适应马尔可夫决策过程 (BAMDP) 中的奖励塑造，该过程通过将 RL 过程制定为通过经验更新可能的 MDP 的先验，从而形式化探索的价值。 RL 算法可以被视为 BAMDP 策略；我们没有尝试直接通过求解 BAMDP 来找到最优算法，而是在理论框架中使用它来理解伪奖励如何指导次优算法。通过将 BAMDP 状态值分解为收集到的信息值加上物理状态的先验值，我们展示了伪奖励如何通过补偿 RL 算法对这两项的错误估计来提供帮助，从而产生一种新的 IM 和奖励塑造类型接近。我们仔细地将基于势的整形定理扩展到 BAMDP，以证明当伪奖励是 BAMDP 基于势的整形函数（BAMPF）时，它们保留了 RL 算法的最优或近似最优行为；否则，它们甚至会破坏最佳学习器。最后，我们通过将环境假设表达为 BAMDP 状态的潜在函数，来指导如何设计或将现有伪奖励转换为 BAMPF。

TriplePlay：利用 CLIP 增强联邦学习，提高非独立同分布数据和资源效率

分类： 机器学习, 人工智能

作者： Ahmed Imteaj, Md Zarif Hossain, Saika Zaman, Abdur R. Shahid

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05347v1

摘要： 以 CLIP 为代表的预训练模型的快速发展和复杂性的增加，为隐私保护人工智能的关键组成部分联邦学习 (FL) 带来了重大机遇和挑战。这项研究深入探讨了在 FL 框架中集成 CLIP 等大型基础模型的复杂性，以增强跨异构数据环境的隐私性、效率和适应性。它专门解决了非独立同分布数据分布、利用此类复杂模型的计算和通信开销以及数据集中类的倾斜表示所带来的挑战。我们提出了 TriplePlay，一个集成 CLIP 作为适配器的框架，以增强 FL 在不同数据分布上的适应性和性能。这种方法解决了长尾分布挑战，确保公平性，同时通过量化和低秩适应技术减少资源需求。我们的模拟结果表明，TriplePlay 有效降低了 GPU 使用成本并加快了学习过程，在减少通信开销的情况下实现了收敛。

GDFlow：使用基于 NCDE 的标准化流程进行高级驾驶员辅助系统的异常检测

分类： 机器学习, 人工智能

作者： Kangjun Lee, Minha Kim, Youngho Jun, Simon S. Woo

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05346v1

摘要： 对于电动汽车，高级驾驶员辅助系统 (ADAS) 中的自适应巡航控制 (ACC) 旨在根据驾驶条件、道路坡度、预定义的减速强度和用户制动模式来辅助制动。然而，ADAS开发过程中收集的驾驶数据普遍有限且缺乏多样性。这种缺陷会导致不同用户的制动迟缓或过猛。至关重要的是，有必要有效识别异常情况，例如 ADAS 中意外或不一致的制动模式，特别是考虑到处理来自现实世界电动汽车的未标记、有限且嘈杂的数据集的挑战。为了解决 ADAS 中的上述挑战，我们提出了图神经控制微分方程归一化流 (GDFlow)，该模型利用归一化流 (NF) 和神经控制微分方程 (NCDE) 来连续学习正常驾驶模式的分布。与传统的聚类或异常检测算法相比，我们的方法有效地捕获来自不同传感器数据的时空信息，并更准确地模拟驾驶模式的连续变化。此外，我们引入了基于分位数的最大似然目标，以改进分布边界附近正常数据的似然估计，从而增强模型区分正常模式和异常模式的能力。我们使用从现代 IONIQ5 和 GV80EV 收集的真实电动汽车驾驶数据来验证 GDFlow，与不同车辆类型和驾驶员的四种数据集配置的六个基线相比，实现了最先进的性能。此外，我们的模型在四个时间序列基准数据集中优于最新的异常检测方法。与现有方法相比，我们的方法在推理时间方面表现出卓越的效率。

提前退出卷积神经网络

分类： 计算机视觉和模式识别, 人工智能

作者： Edanur Demir, Emre Akbas

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05336v1

摘要： 本文旨在开发一种降低卷积神经网络（CNN）推理过程中计算成本的方法。传统上，输入数据通过固定的神经网络架构。然而，简单的例子可以在处理的早期阶段进行分类，而传统的网络没有考虑到这一点。在本文中，我们介绍了“早期退出 CNN”（简称 EENet），它通过在某些退出位置停止推理过程来根据输入调整其计算成本。在 EENet 中，有许多退出块，每个退出块由一个置信分支和一个 softmax 分支组成。置信度分支计算在该位置退出（即停止推理过程）的置信度分数；而softmax分支输出分类概率向量。两个分支都是可学习的，并且它们的参数是独立的。在 EENet 的训练过程中，除了经典的分类损失之外，还考虑了推理的计算成本。因此，网络会根据输入调整其许多置信分支，从而减少简单示例的计算量。推理的工作方式与传统的前馈网络相同，但是，当置信分支的输出大于某个阈值时，该特定示例的推理就会停止。 EENets 的思想适用于可用的 CNN 架构，例如 ResNets。通过对 MNIST、SVHN、CIFAR10 和 Tiny-ImageNet 数据集的综合实验，我们表明早期退出 (EE) ResNet 与非 EE 版本实现了相似的精度，同时将计算成本降低到原始版本的 20%。代码可在 https://github.com/eksuas/eenets.pytorch 获取

基于多模态深度学习的房价预测方法

分类： 机器学习, 人工智能, 计算机视觉和模式识别, I.2.7; I.2.10

作者： Md Hasebul Hasan, Md Abid Jahan, Mohammed Eunus Ali, Yuan-Fang Li, Timos Sellis

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05335v1

摘要： 房价的准确预测是住宅房地产行业的一个重要方面，受到广泛利益相关者的极大关注。然而，预测房价是一项复杂的任务，因为房屋特征、位置、社区等因素会影响显着的可变性。尽管人们多次尝试利用各种算法（包括最近的深度学习技术）来准确预测房价，但现有方法未能考虑文本和视觉特征等多种因素。本文通过综合整合特征、文本描述、地理空间邻域和房屋图像等属性来解决这一差距，这些属性通常显示在房价预测系统的房地产列表中。具体来说，我们提出了一种多模式深度学习方法，利用不同类型的数据来学习更准确的房屋表示。特别是，我们学习原始房屋属性、地理空间邻域的联合嵌入，最重要的是从代表房屋的文本描述和图像中学习；最后使用下游回归模型根据这个共同学习的嵌入向量来预测房价。我们对真实数据集的实验结果表明，除了原始属性和地理空间嵌入之外，房屋广告描述的文本嵌入和房屋图片的图像嵌入可以显着提高房价预测的准确性。相关源代码和数据集可通过以下 URL 公开访问：https://github.com/4P0N/mhpp

异构搜索空间的样本高效贝叶斯优化与迁移学习

分类： 机器学习, 人工智能

作者： Aryan Deshwal, Sait Cakmak, Yuhou Xia, David Eriksson

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05325v1

摘要： 贝叶斯优化 (BO) 是一种对黑盒函数进行样本高效优化的强大方法。然而，在功能评估很少的情况下，BO 的成功应用可能需要从历史实验中传输信息。这些相关实验可能不具有完全相同的可调参数（搜索空间），从而激发了对异构搜索空间进行迁移学习的 BO 的需求。在本文中，我们为此设置提出了两种方法。第一种方法利用具有条件内核的高斯过程（GP）模型在不同搜索空间之间传输信息。我们的第二种方法将缺失的参数视为 GP 模型的超参数，可以与其他 GP 超参数联合推断或设置为固定值。我们证明这两种方法在几个基准问题上表现良好。

使用源自机器特定滤波器组的谱时调制表示进行机器异常声音检测

分类： 声音, 人工智能

作者： Kai Li, Khalid Zaman, Xingfeng Li, Masato Akagi, Masashi Unoki

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05319v1

摘要： 及早发现工厂机械故障在工业应用中至关重要。在机器异常声音检测（ASD）中，不同的机器根据其物理特性表现出独特的振动频率范围。同时，人类听觉系统擅长跟踪机器声音的时间和频谱动态。因此，将人类听觉系统的计算听觉模型与机器特定属性相结合可能是解决机器 ASD 的有效方法。我们首先使用费希尔比（F-ratio）量化了四种类型机器的频率重要性。然后使用量化的频率重要性来设计特定于机器的非均匀滤波器组（NUFB），该滤波器组提取对数非均匀频谱（LNS）特征。设计的 NUFB 在 F 比相对较高的频率区域具有更窄的带宽和更高的滤波器分布密度。最后，提出了从 LNS 特征导出的频谱和时间调制表示。这些提出的 LNS 特征和调制表示被输入到基于自动编码器神经网络的 ASD 检测器中。信噪比 (SNR) 为 6 dB 的故障工业机器调查和检查数据集训练集的量化结果表明，不同机器的正常声音和异常声音之间的区分信息在频率上的编码不均匀领域。通过使用 NUFB 突出显示这些重要的频率区域，LNS 功能可以在各种 SNR 条件下使用 AUC（接收器工作特性曲线下的面积）指标显着提高性能。此外，调制表示可以进一步提高性能。具体来说，时间调制对风扇、泵和滑块有效，而频谱调制对阀门特别有效。

Tele-LLM：一系列电信专用大型语言模型

分类： 信息论, 人工智能, 机器学习, 信息论

作者： Ali Maatouk, Kenny Chirino Ampudia, Rex Ying, Leandros Tassiulas

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05314v1

摘要： 大型语言模型（LLM）的出现对各个领域产生了重大影响，从自然语言处理到医学和金融等领域。然而，尽管大语言模型迅速普及，但其在电信领域的应用仍然有限，通常依赖于缺乏特定领域专业化的通用模型。这种专业化的缺乏导致表现不佳，特别是在处理电信特定技术术语及其相关数学表示时。本文首先创建并传播 Tele-Data（从相关来源整理的电信材料综合数据集）和 Tele-Eval（针对该领域定制的大规模问答数据集）来解决这一差距。通过广泛的实验，我们探索了使大语言模型适应电信领域的最有效的培训技术，从检查各个电信方面的专业知识分工到采用参数高效的技术。我们还研究了不同大小的模型在适应过程中的行为方式，并分析了它们的训练数据对此行为的影响。利用这些发现，我们开发并开源了 Tele-LLM，这是第一系列语言模型，参数范围从 1B 到 8B 参数，专为电信量身定制。我们的评估表明，这些模型在 Tele-Eval 上的表现优于通用模型，同时保留了之前获得的功能，从而避免了灾难性的遗忘现象。

具有符号梯度的神经网络潜在空间的封闭式解释

分类： 机器学习, 人工智能

作者： Zakaria Patel, Sebastian J. Wetzel

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05305v1

摘要： 许多科学领域已经证明，自动编码器或暹罗网络等人工神经网络在其潜在空间中编码有意义的概念。然而，不存在一个全面的框架来在没有先验知识的情况下以人类可读的形式检索这些信息。为了提取这些概念，我们引入了一个框架，用于在人工神经网络的潜在空间中寻找神经元的封闭形式解释。解释框架基于将经过训练的神经网络嵌入到编码相同概念的函数的等价类中。我们通过找到由符号搜索空间定义的等价类和人类可读方程之间的交集来解释这些神经网络。该方法通过从连体神经网络的潜在空间中检索矩阵不变量和动力系统守恒量来证明。

移动边缘网络中资源高效的生成式 AI 模型部署

分类： 机器学习, 人工智能

作者： Yuxin Liang, Peng Yang, Yuanyuan He, Feng Lyu

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05303v1

摘要： 人工智能生成内容（AIGC）的蓬勃发展标志着内容创作和生产的变革时代。与基于云的解决方案相比，边缘服务器在托管 AIGC 服务方面具有诱人的优势，例如减少服务延迟和回程流量负载。然而，边缘可用资源的稀缺给部署生成式人工智能模型带来了重大挑战。本文通过表征典型生成式 AI 模型的资源和延迟需求，发现预加载阶段存储和 GPU 内存的消耗以及以 I/O 延迟为代表的模型切换延迟非常显着且各不相同跨模型。这些多维耦合因素使得难以做出有效的边缘模型部署决策。因此，我们提出了一个协作式边缘云框架，旨在正确管理边缘的生成式人工智能模型部署。具体来说，我们将考虑模型异构特征的边缘模型部署问题制定为优化问题，并提出一种模型级决策选择算法来解决它。它支持池化资源共享，并优化边缘生成人工智能模型部署中的资源消耗和延迟之间的权衡。仿真结果验证了所提出算法与基线相比的有效性，证明了其通过提供特征感知模型部署决策来降低总体成本的潜力。

TERD：保护扩散模型免受后门攻击的统一框架

分类： 密码学和安全, 人工智能, 机器学习

作者： Yichuan Mo, Hui Huang, Mingjie Li, Ang Li, Yisen Wang

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05294v1

摘要： 扩散模型在图像生成方面取得了显着的成功，但它们仍然非常容易受到后门攻击，当出现预定义的触发器时，后门攻击会产生特定的不良输出，从而损害其完整性。在本文中，我们研究了如何保护扩散模型免受这种危险的威胁。具体来说，我们提出了 TERD，一种后门防御框架，它为当前攻击构建统一的建模，这使我们能够得出可访问的逆转损失。进一步采用触发反转策略：通过从先验分布采样的噪声对触发进行初始近似，然后通过差分多步采样器进行细化。此外，通过反向触发，我们提出从噪声空间进行后门检测，引入第一个用于扩散模型的后门输入检测方法，以及计算反向分布和良性分布之间的 KL 散度的新颖模型检测算法。广泛的评估表明，TERD 在不同分辨率的数据集上确保了 100% 的真阳性率 (TPR) 和真阴性率 (TNR)。 TERD 还展示了对其他基于随机微分方程 (SDE) 的模型的良好适应性。我们的代码可在 https://github.com/PKU-ML/TERD 获取。

Instagram 上的 Mpox 叙事：Mpox 上 Instagram 帖子的带标签多语言数据集，用于情绪、仇恨言论和焦虑分析

分类： 机器学习, 人工智能, 计算和语言, 计算机与社会, 社交和信息网络, I.2.7; I.2.8; I.5.4; K.4.2; H.2.8; I.2.6

作者： Nirmalya Thakur

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05292v1

摘要： 目前，世界各地正在爆发MPOX疫情，世界卫生组织已将其宣布为国际关注的突发公共卫生事件。之前与社交媒体挖掘相关的工作都没有专注于开发有关 MPOX 爆发的 Instagram 帖子数据集。本文提出的工作旨在弥补这一研究空白，并为此领域做出两项科学贡献。首先，它提供了一个包含 60,127 个关于 mpox 的 Instagram 帖子的多语言数据集，发布时间为 2022 年 7 月 23 日至 2024 年 9 月 5 日。该数据集可在 https://dx.doi.org/10.21227/7fvc-y093 上获取，包含 Instagram有关 mpox 的帖子有 52 种语言版本。对于每个帖子，帖子 ID、帖子描述、发布日期、语言和帖子的翻译版本（使用 Google Translate API 执行英语翻译）在数据集中作为单独的属性呈现。开发该数据集后，进行了情绪分析、仇恨言论检测以及焦虑或压力检测。该过程包括将每个帖子分类为（i）情绪类别之一，即恐惧、惊讶、喜悦、悲伤、愤怒、厌恶或中性，（ii）仇恨或不仇恨，以及（iii）检测到的焦虑/压力或未检测到焦虑/压力。这些结果在数据集中作为单独的属性呈现。其次，本文介绍了情绪分析、仇恨言论分析以及焦虑或压力分析的结果。观察到情绪类别（恐惧、惊讶、喜悦、悲伤、愤怒、厌恶和中性）的变化分别为 27.95%、2.57%、8.69%、5.94%、2.69%、1.53% 和 50.64%。在仇恨言论检测方面，95.75%的帖子不包含仇恨内容，其余4.25%的帖子包含仇恨内容。最后，72.05%的帖子没有表现出任何焦虑/压力，其余27.95%的帖子表现出某种形式的焦虑/压力。

寻找并解决表格问答的推理

分类： 计算和语言, 人工智能

作者： Ruya Jiang, Chun Wang, Weihong Deng

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05286v1

摘要： 基于表格的问答 (TQA) 涉及根据表格数据回答问题。表结构和问题逻辑的复杂性使得这项任务即使对于大型语言模型（LLM）来说也很困难。本文通过利用大语言模型的推理能力来提高 TQA 性能。受人类如何解决 TQA 任务的启发，我们提出了一个“查找并解决”流程，指示大语言模型首先查找相关信息，然后回答问题。这两个阶段在推理层面进行集成，并且它们的思维链 (CoT) 路径被集成到连贯的搜索求解 CoT (SS-CoT) 中。此外，我们还提出了从管道中提炼出来的紧凑型单阶段 TQA 求解提示。实验表明，在In-Context Learning设置下，以SS-CoT路径的样本作为演示，TQA求解提示可以有效指导LLM解决复杂的TQA任务，从而提高性能和可靠性。我们的结果强调了正确激发大语言模型推理能力在解决复杂的 TQA 任务中的重要性。

论语言模型中真理与政治偏见的关系

分类： 计算和语言, 人工智能

作者： Suyash Fulay, William Brannon, Shrestha Mohanty, Cassandra Overney, Elinor Poole-Dayan, Deb Roy, Jad Kabbara

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05283v1

摘要： 语言模型对齐研究通常试图确保模型不仅有益且无害，而且真实且公正。然而，同时优化这些目标可能会掩盖改进某一方面对其他方面的影响。在这项工作中，我们重点分析语言模型对齐和政治学中两个重要概念之间的关系：\textit{真实性}和\textit{政治偏见}。我们在各种流行的真实性数据集上训练奖励模型，并随后评估其政治偏见。我们的研究结果表明，优化这些数据集的真实性奖励模型往往会导致左倾政治偏见。我们还发现现有的开源奖励模型（即在标准人类偏好数据集上训练的模型）已经表现出类似的偏差，并且对于较大的模型，偏差更大。这些结果提出了关于用于表示真实性的数据集以及哪些语言模型捕获真实与政治之间关系的重要问题。

RotCAtt-TransUNet++：用于复杂心脏分割的新型深度神经网络

分类： 计算机视觉和模式识别, 人工智能

作者： Quoc-Bao Nguyen-Le, Tuan-Hy Le, Anh-Triet Do, Quoc-Huy Trinh

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05280v1

摘要： 心血管疾病是全球主要的健康问题，对全球死亡率造成重大影响。准确分割心脏医学成像数据对于降低与这些疾病相关的死亡率至关重要。然而，当前最先进的 (SOTA) 神经网络，包括基于 CNN 和基于 Transformer 的方法，在捕获片间连接和片内细节方面面临挑战，特别是在具有复杂、长距离的数据集中沿 z 轴的细节，如冠状动脉。现有方法还难以区分非心脏成分和心肌，导致分割不准确和“喷射”现象。为了解决这些问题，我们引入了 RotCAtt-TransUNet++，这是一种专为复杂心脏结构的稳健分割而设计的新颖架构。我们的方法通过编码器中的多尺度特征聚合和嵌套跳过连接来增强全局上下文建模。变压器层有助于捕获切片内的交互，而旋转注意机制则处理切片间的连接。通道方式的交叉注意门集成了多尺度信息和解码器特征，有效地弥合了语义差距。多个数据集的实验结果表明，其性能优于当前方法，实现了近乎完美的冠状动脉和心肌注释。消融研究证实，我们的旋转注意机制通过在语义维度空间中转换嵌入的矢量化补丁，显着提高了分割精度。

BrainDecoder：基于风格的脑电图信号视觉解码

分类： 计算机视觉和模式识别, 人工智能

作者： Minsuk Choi, Hiroshi Ishikawa

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05279v1

摘要： 从脑电图 (EEG) 中解码视觉刺激的神经表征可以为大脑活动和认知提供有价值的见解。深度学习的最新进展显着增强了脑电图视觉解码领域，主要集中于重建视觉刺激的语义内容。在本文中，我们提出了一种新颖的视觉解码管道，除了恢复内容之外，还强调重建主体所观看图像的风格，例如颜色和纹理。与以前的方法不同，这种“基于风格”的方法分别在图像和文本的 CLIP 空间中学习，有助于从脑电图信号中更细致地提取信息。我们还使用比以前使用的更简单的标题进行文本对齐，我们发现这种方法效果更好。定量和定性评估都表明，我们的方法更好地保留了视觉刺激的风格，并从神经信号中提取了更细粒度的语义信息。值得注意的是，它在定量结果方面取得了显着改进，并在流行的 Brain2Image 数据集上树立了新的最先进水平。

短期和长期人员重新识别的解开表示

分类： 计算机视觉和模式识别, 人工智能

作者： Chanho Eom, Wonkyung Lee, Geon Lee, Bumsub Ham

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05277v1

摘要： 我们解决人员重新识别（reID）的问题，即给定感兴趣人员的查询图像，从大型数据集中检索人员图像。一个关键的挑战是学习对类内变化稳健的人表示，因为不同的人可能具有相同的属性，并且人的外表看起来不同，例如，随着观点的变化。最近的 reID 方法侧重于学习仅针对特定变化因素（例如人体姿势）进行区分的人特征，这也需要相应的监督信号（例如姿势注释）。为了解决这个问题，我们建议将人物图像分解为与身份相关和不相关的特征。与身份相关的特征包含对指定特定人有用的信息（例如，服装），而与身份无关的特征则包含其他因素（例如，人体姿势）。为此，我们提出了一种新的生成对抗网络，称为身份洗牌 GAN (IS-GAN)。它通过身份洗牌技术从人物图像中分离出与身份相关和不相关的特征，该技术仅利用识别标签而无需任何辅助监督信号。我们限制与身份无关的特征的分布，或者鼓励与身份相关和不相关的特征不相关，从而促进解开过程。实验结果验证了 IS-GAN 的有效性，在标准 reID 基准（包括 Market-1501、CUHK03 和 DukeMTMC-reID）上显示出最先进的性能。我们进一步证明了在长期 reID 任务中解开人物表征的优势，在 Celeb-reID 数据集上设定了新的技术水平。

从样本中学习子模测序

分类： 机器学习, 人工智能

作者： Jing Yuan, Shaojie Tang

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05265v1

摘要： 本文解决了顺序子模最大化问题：选择序列中的项目并对其进行排序以优化某些复合子模函数。与之前的大多数工作（假设可以访问效用函数）相比，我们假设只给出了一组样本。每个样本都包含随机的项目序列及其相关效用。我们提出了一种算法，给定从两级均匀分布中抽取的多项式多个样本，可以实现依赖于各个子模函数曲率的近似比。我们的结果适用于各种现实场景，例如在线零售平台中对产品进行排名，在这些场景中通常不可能获得效用函数的完整知识。我们的算法在这种情况下给出了一个经验上有用的解决方案，从而证明有限的数据在测序任务中可以发挥很大的作用。从技术角度来看，我们的结果通过从优化集合函数到序列相关函数的推广，扩展了“样本优化”的先前工作。

迈向自动化机器学习研究

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Shervin Ardeshir

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05258v1

摘要： 本文探讨了一种自上而下的方法，在大型语言模型 (LLM) 的推动下，通过组件级创新来自动化机器学习研究的增量进展。我们的框架系统地生成新颖的组件，验证其可行性，并根据现有基线评估其性能。这种方法的一个关键区别在于这些新颖组件的生成方式。与传统的 AutoML 和 NAS 方法不同，传统的 AutoML 和 NAS 方法通常依赖于对预定义的硬编码基础组件进行自下而上的组合搜索，我们的方法利用 LLM 中嵌入的跨领域知识来提出可能不限于任何硬编码预定义的新组件放。通过结合奖励模型来优先考虑有希望的假设，我们的目标是提高假设生成和评估过程的效率。我们希望这种方法能够提供新的探索途径，并为该领域正在进行的对话做出贡献。

FedFT：通过频率空间变换提高联邦学习的通信性能

分类： 分布式、并行和集群计算, 人工智能

作者： Chamath Palihawadana, Nirmalie Wiratunga, Anjana Wijekoon, Harsha Kalutarage

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05242v1

摘要： 通信效率是联邦学习（FL）中广泛认可的研究问题，最近的工作重点是开发客户端和服务器之间模型参数的高效压缩、分布和聚合技术。特别是在分布式系统中，平衡计算成本和通信效率的需求非常重要。然而，现有的方法通常局限于特定的应用并且通用性较差。在本文中，我们介绍了 FedFT（联合频率空间变换），这是一种在 FL 设置中传达模型参数的简单而有效的方法。 FedFT 使用离散余弦变换 (DCT) 来表示频率空间中的模型参数，从而实现高效压缩并减少通信开销。 FedFT 与各种现有的 FL 方法和神经架构兼容，其线性特性消除了联合聚合期间多次转换的需要。这种方法对于分布式解决方案至关重要，可以解决这些环境固有的数据隐私、互操作性和能源效率等基本挑战。我们使用三个最先进的 FL 基线（FedAvg、FedProx、FedSim）进行比较研究，证明了 FedFT 方法在四个数据集上的通用性。我们的结果表明，与在频率空间中表示整个模型相比，使用 FedFT 表示频率空间中通信轮次之间模型参数的差异会产生更紧凑的表示。这可以减少通信开销，同时保持可比的准确度水平，在某些情况下甚至可以提高准确度。我们的结果表明，每个客户的减少幅度可以为 5% 到 30%，具体取决于数据集。

类别不平衡和公平性的综合表格数据生成：比较研究

分类： 机器学习, 人工智能

作者： Emmanouil Panagiotou, Arjun Roy, Eirini Ntoutsi

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05215v1

摘要： 由于其数据驱动的性质，机器学习 (ML) 模型很容易受到从数据继承的偏差的影响，尤其是在类和组不平衡普遍存在的分类问题中。类别不平衡（在分类目标中）和群体不平衡（在性别或种族等受保护属性中）可能会破坏机器学习的实用性和公平性。尽管类和组不平衡在现实世界的表格数据集中通常是一致的，但解决这种情况的方法有限。虽然大多数方法使用插值等过采样技术来减轻不平衡，但合成表格数据生成方面的最新进展提供了希望，但尚未为此目的进行充分探索。为此，本文使用最先进的合成表格数据生成模型和各种采样策略进行比较分析，以解决类别和群体不平衡问题。四个数据集的实验结果证明了生成模型在减轻偏差方面的有效性，为这一方向的进一步探索创造了机会。

ICML 拓扑深度学习挑战 2024：超越图域

分类： 机器学习, 人工智能

作者： Guillermo Bernárdez, Lev Telyatnikov, Marco Montagna, Federica Baccini, Mathilde Papillon, Miquel Ferriol-Galmés, Mustafa Hajij, Theodore Papamarkou, Maria Sofia Bucarelli, Olga Zaghen, Johan Mathe, Audun Myers, Scott Mahan, Hansen Lillemark, Sharvaree Vadgama, Erik Bekkers, Tim Doster, Tegan Emerson, Henry Kvinge, Katrina Agate, Nesreen K Ahmed, Pengfei Bai, Michael Banf, Claudio Battiloro, Maxim Beketov, Paul Bogdan, Martin Carrasco, Andrea Cavallo, Yun Young Choi, George Dasoulas, Matouš Elphick, Giordan Escalona, Dominik Filipiak, Halley Fritze, Thomas Gebhart, Manel Gil-Sorribes, Salvish Goomanee, Victor Guallar, Liliya Imasheva, Andrei Irimia, Hongwei Jin, Graham Johnson, Nikos Kanakaris, Boshko Koloski, Veljko Kovač, Manuel Lecha, Minho Lee, Pierrick Leroy, Theodore Long, German Magai, Alvaro Martinez, Marissa Masden, Sebastian Mežnar, Bertran Miquel-Oliver, Alexis Molina, Alexander Nikitin, Marco Nurisso, Matt Piekenbrock, Yu Qin, Patryk Rygiel, Alessandro Salatiello, Max Schattauer, Pavel Snopov, Julian Suk, Valentina Sánchez, Mauricio Tec, Francesco Vaccarino, Jonas Verhellen, Frederic Wantiez, Alexander Weers, Patrik Zajec, Blaž Škrlj, Nina Miolane

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05211v1

摘要： 本文介绍了 ICML 拓扑深度学习挑战赛的第二版，该挑战赛在 ICML 2024 ELLIS 基于几何的表示学习和生成建模 (GRaM) 研讨会上主办。挑战集中在不同离散拓扑域中表示数据的问题，以弥合拓扑深度学习（TDL）和其他类型的结构化数据集（例如点云、图）之间的差距。具体来说，参与者被要求设计和实现拓扑提升，即不同数据结构和拓扑域之间的映射——如超图或单纯/单元/组合复合体。此次挑战赛收到了 52 份满足所有要求的参赛作品。本文介绍了挑战的主要范围，并总结了主要结果和发现。

基于影响力的归因可以被操纵

分类： 机器学习, 人工智能

作者： Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05208v2

摘要： 影响函数是一种标准工具，用于以有原则的方式将预测归因于训练数据，并广泛应用于数据评估和公平性等应用中。在这项工作中，我们提出了操纵基于影响力的归因的现实激励措施，并调查这些归因是否可以被对手系统性地篡改。我们证明这确实是可能的，并通过向后友好的实现提供有效的攻击。我们的工作对对抗性环境下基于影响力的归因的可靠性提出了质疑。

SEF：一种通过移动神经网络中的误差函数来计算预测区间的方法

分类： 机器学习, 人工智能, 机器学习

作者： E. V. Aretos, D. G. Sotiropoulos

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05206v1

摘要： 当今时代，神经网络（NN）应用于机器人、医学、工程等各个科学领域。然而，神经网络本身的预测包含一定程度的不确定性，在做出任何决定之前必须始终考虑到这一点。这就是为什么许多研究人员专注于开发不同的方法来量化神经网络预测的不确定性。其中一些方法基于通过神经网络为所请求的目标值生成预测区间 (PI)。本文提出的SEF（Shifting the Error Function）方法就是属于此类方法的一种新方法。所提出的方法涉及对单个神经网络进行三次训练，从而生成给定问题的估计以及相应的上限和下限。该方法的一个关键方面是根据初始网络的估计计算参数，然后将其集成到其他两个网络的损失函数中。这种创新流程有效地产生了 PI，从而形成了稳健且高效的不确定性量化技术。为了评估我们方法的有效性，使用两个合成数据集对 SEF、PI3NN 和 PIVEN 方法之间成功生成 PI 的情况进行了比较。

关于混合增强及其他方面的调查

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Xin Jin, Hongyu Zhu, Siyuan Li, Zedong Wang, Zicheng Liu, Chang Yu, Huafeng Qin, Stan Z. Li

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05202v1

摘要： 随着深度神经网络在过去十年中取得了令人兴奋的突破，当大量标记数据不可用时，数据增强作为正则化技术引起了越来越多的关注。在现有的增强中，Mixup 和相关的数据混合方法被广泛采用，它们凸地组合选定的样本和相应的标签，因为它们通过生成依赖于数据的虚拟数据来产生高性能，同时轻松迁移到各个领域。这项调查对基本混合方法及其应用进行了全面回顾。我们首先详细阐述具有混合增强的训练管道作为包含模块的统一框架。重新制定的框架可以包含各种混合方法并提供直观的操作程序。然后，我们系统地研究了混合增强在视觉下游任务上的应用、各种数据模态以及混合的一些分析和定理。同时，我们总结了混合研究的现状和局限性，并指出了有效和高效的混合增强的进一步工作。这项调查可以为研究人员提供混合方法的最新技术水平，并在混合领域提供一些见解和指导作用。包含此调查的在线项目可在 \url{https://github.com/Westlake-AI/Awesome-Mixup} 上找到。

多跳推理中看似合理的干扰因素：大型语言模型是否有细心的读者？

分类： 计算和语言, 人工智能, I.2.7

作者： Neeladri Bhuiya, Viktor Schlegel, Stefan Winkler

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05197v1

摘要： 最先进的大型语言模型（LLM）被认为具有越来越多的不同能力，从阅读理解、高级数学和推理技能到拥有科学知识。在本文中，我们重点关注它们的多跳推理能力：识别和集成来自多个文本源的信息的能力。鉴于对现有多跳推理基准中存在简化线索的担忧，这允许模型规避推理要求，我们着手调查大语言模型是否倾向于利用此类简化线索。我们发现证据表明，它们确实规避了执行多跳推理的要求，但它们这样做的方式比有关其微调预训练语言模型 (PLM) 前身的报道更微妙。受这一发现的启发，我们提出了一个具有挑战性的多跳推理基准，通过生成看似合理的多跳推理链，最终导致不正确的答案。我们评估了多个开放和专有的最先进的大语言模型，发现它们执行多跳推理的性能受到影响，当出现这种看似合理的替代方案时，F1 分数相对下降高达 45%。我们进行了更深入的分析，并发现证据表明，虽然大语言模型倾向于忽略误导性的词汇线索，但误导性的推理路径确实提出了重大挑战。

对 Web 应用程序代码生成的前沿语言模型进行基准测试的见解

分类： 软件工程, 人工智能

作者： Yi Cui

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05177v1

摘要： 本文介绍了在 WebApp1K 基准测试上评估 16 个前沿大型语言模型 (LLM) 的见解，该测试套件旨在评估 LLM 生成 Web 应用程序代码的能力。结果表明，虽然所有模型都拥有相似的基础知识，但它们的性能因犯错误的频率而有所不同。通过分析代码行（LOC）和故障分布，我们发现编写正确的代码比生成错误的代码更复杂。此外，即时工程在减少特定情况之外的错误方面效果有限。这些发现表明，LLM 编码的进一步进步应强调模型可靠性和错误最小化。

OneGen：大语言模型的高效一次性统一生成和检索

分类： 计算和语言, 人工智能, 数据库, 信息检索, 机器学习

作者： Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05152v1

摘要： 尽管大型语言模型（LLM）最近取得了进步，显着增强了各种 NLP 任务的生成能力，但 LLM 在直接处理检索任务方面仍然面临限制。然而，许多实际应用需要检索和生成的无缝集成。本文介绍了一种新颖且高效的一次性生成和检索框架（OneGen），旨在提高大语言模型在需要生成和检索的任务上的性能。所提出的框架通过合并自回归生成的检索标记，弥合了传统上独立的生成和检索训练方法。这使得单个大语言模型能够在统一的前向传递中同时处理这两项任务。我们对两种不同类型的复合任务（RAG 和实体链接）进行了实验，以验证 OneGen 在训练和推理方面的可插入性、有效性和效率。此外，我们的结果表明，在同一上下文中集成生成和检索可以保留大语言模型的生成能力，同时提高检索性能。据我们所知，OneGen 是第一个使大语言模型能够在生成过程中进行向量检索的公司。

QuantFactor REINFORCE：利用方差有限的 REINFORCE 挖掘稳定的公式 Alpha 因子

分类： 计算金融, 人工智能, 机器学习

作者： Junjie Zhao, Chengxi Zhang, Min Qin, Peng Yang

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05144v1

摘要： 阿尔法因子挖掘的目标是从资产的历史金融市场数据中发现投资机会的指示性信号。基于深度学习的阿尔法因子挖掘方法已被证明是强大的，但缺乏可解释性，使得它们在风险敏感的实际市场中不可接受。公式形式的阿尔法因子更容易解释，因此受到市场参与者的青睐，而搜索空间很复杂，需要强有力的探索方法。最近，提出了一种利用深度强化学习生成公式α因子的有前途的框架，并迅速获得了学术界和工业界的研究热点。本文首先认为，最初采用的策略训练方法，即近端策略优化（PPO），在α因子挖掘的背景下面临着几个重要问题，导致无法有效地探索公式的搜索空间。在此，提出了一种基于众所周知的 REINFORCE 算法的新型强化学习。鉴于底层状态转换函数遵循狄拉克分布，该框架内的马尔可夫决策过程表现出最小的环境变化，使得 REINFORCE 算法比 PPO 更合适。新的专用基线旨在理论上减少 REINFORCE 常见的高方差。此外，引入信息比率作为奖励塑造机制，以鼓励稳定的阿尔法因子的产生，更好地适应市场波动的变化。对各类真实资产数据的实验评估表明，所提算法与资产收益的相关性提高了3.83%，与最新的α因子挖掘方法相比，获得超额收益的能力更强，很好地满足了理论结果。

EdaCSC：两种用于中文拼写纠正的简单数据增强方法

分类： 计算和语言, 人工智能

作者： Lei Sheng, Shuai-Shuai Xu

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05105v1

摘要： 中文拼写纠正（CSC）旨在检测和纠正中文句子中因语音或视觉相似性而引起的拼写错误。虽然当前的 CSC 模型集成了拼音或字形特征并取得了显着的进步，但在处理包含多个拼写错误的句子时仍然面临挑战，并且在现实场景中容易出现过度校正。与现有的以模型为中心的方法相比，我们提出了两种数据增强方法来解决这些限制。首先，我们通过将长句子分割成较短的句子或减少具有多个拼写错误的句子中的拼写错误来扩充数据集。随后，我们采用不同的训练过程来选择最佳模型。 SIGHAN 基准的实验评估证明了我们的方法相对于大多数现有模型的优越性，在 SIGHAN15 测试集上实现了最先进的性能。

基于形状算子局部估计的自适应$k$-最近邻分类器

分类： 机器学习, 人工智能, 信息论, 信息论

作者： Alexandre Luís Magalhães Levada, Frank Nielsen, Michel Ferreira Cardia Haddad

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05084v1

摘要： $k$-最近邻 ($k$-NN) 算法是最流行的非参数分类方法之一。然而，一个相关的限制涉及邻居 $k$ 数量的定义。该参数对分类器的多个属性产生直接影响，例如偏差-方差权衡、决策边界的平滑度、噪声鲁棒性和类不平衡处理。在本文中，我们引入了一种新的自适应$k$-最近邻（$kK$-NN）算法，该算法探索样本的局部曲率以自适应地定义邻域大小。其基本原理是，曲率低的点可能具有较大的邻域（局部，切线空间很好地近似基础数据形状），而曲率高的点可能具有较小的邻域（局部，切线空间是松散近似）。我们通过根据局部协方差矩阵和局部 Hessian 矩阵计算局部形状算子的近似值来估计局部高斯曲率。许多现实世界数据集的结果表明，与已建立的 $k$-NN 方法和另一种自适应 $k$-NN 算法相比，新的 $kK$-NN 算法具有更高的平衡精度。当训练数据中的样本数量有限时，这一点尤其明显，这表明考虑到许多相关情况，$kK$-NN 能够用更少的数据学习更多的判别函数。

PIP：通过不相关探测问题的注意模式检测大型视觉语言模型中的对抗性示例

分类： 计算机视觉和模式识别, 人工智能

作者： Yudong Zhang, Ruobing Xie, Jiansheng Chen, Xingwu Sun, Yu Wang

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05076v1

摘要： 大视觉语言模型 (LVLM) 已经展示了其强大的多模式功能。然而，它们也面临严重的安全问题，因为对手可以通过使用精心设计的对抗性示例来引发 LVLM 的鲁棒性问题。因此，LVLM 迫切需要对抗性示例的检测工具，以防止错误响应。在这项工作中，我们首先发现 LVLM 在提出探索性问题时表现出对干净图像的规则注意模式。我们提出了一种名为 PIP 的非常规方法，它利用一个随机选择的不相关探测问题（例如，“有时钟吗？”）的注意力模式来区分对抗性示例和干净示例。无论待测图像及其对应的问题是什么，PIP只需要对待测图像和探测问题进行一次额外的推理，即可成功检测对抗样本。即使在黑盒攻击和开放数据集场景下，我们的 PIP 加上简单的 SVM，仍然可以实现超过 98% 的召回率和超过 90% 的准确率。我们的 PIP 是首次尝试通过简单的不相关的探测问题来检测对 LVLM 的对抗性攻击，从而有助于对 LVLM 进行更深入的理解和反思。该代码可在 https://github.com/btzyd/pip 获取。

包裹储物柜的动态需求管理

分类： 人工智能

作者： Daniela Sailer, Robert Klein, Claudius Steinhardt

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05061v1

摘要： 为了追求更可持续和更具成本效益的最后一英里，包裹储物柜已经在包裹递送领域站稳了脚跟。为了充分发挥其潜力并同时确保客户满意度，成功管理储物柜的有限容量至关重要。这具有挑战性，因为从提供商的角度来看，未来的交付请求和取货时间是随机的。作为回应，我们建议动态控制储物柜是否作为可用的交付选项提供给每个传入的客户，目标是最大化按优先级加权的服务请求数量。此外，我们考虑了不同的隔间尺寸，这需要第二种类型的决策，因为必须分配计划交付的包裹。我们将问题形式化为无限范围的顺序决策问题，并发现由于维数的诅咒，精确的方法很难处理。有鉴于此，我们开发了一个解决方案框架，该框架协调了植根于顺序决策分析和强化学习的多种算法技术，即成本函数近似和离线训练的参数值函数近似以及截断的在线推出。我们结合这些技术的创新方法使我们能够解决两种决策类型之间的紧密相互关系。作为一般方法论的贡献，我们通过改进版本的经验回放来增强价值函数近似的训练，该版本强化了价值函数的结构。我们的计算研究表明，我们的方法比短视基准高出 13.7%，比行业启发政策高出 12.6%。

领域广义异常声音检测的深度通用表示

分类： 声音, 人工智能, 音频和语音处理

作者： Phurich Saengthong, Takahiro Shinozaki

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05035v1

摘要： 开发可靠的异常声音检测 (ASD) 系统需要具有对噪声的鲁棒性、对域转换的适应能力以及在有限训练数据下的有效性能。当前的领先方法依赖于每种目标机器类型的大量标记数据来使用异常值暴露（OE）技术来训练特征提取器，但它们在目标域上的性能仍然不是最佳的。在本文中，我们提出了 \textit{GenRep}，它利用来自鲁棒的大规模预训练特征提取器的通用特征表示，并结合 kNN 来实现域广义 ASD，而无需进行微调。 \textit{GenRep} 结合了 MemMixup，这是一种使用最近的源样本增强目标内存库的简单方法，并与域标准化技术相结合，以解决源域和目标域之间的不平衡问题。 \textit{GenRep} 优于基于 OE 的最佳方法，无需标记数据，在 DCASE2023T2 评估集上的官方得分为 73.79%，并在有限数据场景下表现出鲁棒性。该代码是开源的。

通过多维嵌入的自适应鲁棒注意力进行顺序推荐

分类： 信息检索, 人工智能, 机器学习

作者： Linsey Pang, Amir Hossein Raffiee, Wei Liu, Keld Lundgaard

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05022v1

摘要： 顺序推荐模型使用自注意力机制实现了最先进的性能。后来发现，在预测下一个项目时，不仅仅使用项目 ID 和位置嵌入可以显着提高准确性。在最近的文献中，据报道，嵌入时间上下文内核的多维内核可以捕获用户不同的行为模式，从而显着提高性能。在本研究中，我们通过引入具有分层噪声注入（LNI）正则化的混合注意机制，进一步提高了顺序推荐模型的鲁棒性和泛化性。我们将我们提出的模型称为自适应鲁棒顺序推荐框架（ADRRec），并通过大量实验证明我们的模型优于现有的自注意力架构。

用于多模态情感分析的音频引导融合技术

分类： 声音, 人工智能, 音频和语音处理

作者： Pujin Shi, Fei Gao

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05007v1

摘要： 在本文中，我们提出了 MER2024 中半监督学习轨道（MER-SEMI）的解决方案。首先，为了增强特征提取器在情感分类任务上的性能，我们使用标记数据对视频和文本特征提取器（特别是 CLIP-vit-large 和 Baichuan-13B）进行了微调。这种方法有效地保留了视频中传达的原始情感信息。其次，我们提出了一种音频引导变压器（AGT）融合机制，该机制利用了 Hubert-large 的鲁棒性，在融合通道间和通道内信息方面表现出卓越的有效性。第三，为了提高模型的准确性，我们通过使用高置信度的未标记数据作为伪标签来迭代地应用自监督学习。最后，通过黑盒探测，我们发现训练集和测试集之间的数据分布不平衡。因此，我们采用基于先验知识的投票机制。结果证明了我们策略的有效性，最终为我们赢得了 MER-SEMI 赛道的第三名。

通过多计划探索和反馈驱动的细化生成代码的结对编程框架

分类： 软件工程, 人工智能

作者： Huan Zhang, Wei Cheng, Yuhan Wu, Wei Hu

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05001v1

摘要： 大型语言模型（LLM）在代码生成方面取得了令人印象深刻的性能。尽管之前的研究通过提示技术和代码细化增强了大语言模型，但由于严格的解决方案计划，他们仍然难以解决复杂的编程问题。在本文中，我们利用结对编程实践提出了 PairCoder，一种基于 LLM 的新型代码生成框架。 PairCoder 包含两个协作的 LLM 代理，即用于高级规划的 Navigator 代理和用于具体实施的 Driver 代理。导航器负责提出有前景的解决方案，选择当前最优方案，并根据执行反馈指导下一轮迭代。 Driver遵循Navigator的指导进行初始代码生成、代码测试和细化。这种交错和迭代的工作流程涉及多计划探索和基于反馈的细化，模仿结对程序员的协作。我们使用开源和闭源 LLM 在各种代码生成基准上评估 PairCoder。大量的实验结果证明了 PairCoder 的卓越准确性，与直接提示大语言模型相比，pass@1 的相对提高了 12.00%-162.43%。

用高阶数值差分方法增强卷积神经网络

分类： 机器学习, 人工智能, 计算机视觉和模式识别

作者： Qi Wang, Zijun Gao, Mingxiu Sui, Taiyuan Mei, Xiaohan Cheng, Iris Li

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.04977v1

摘要： 随着深度学习技术在实际应用中的兴起，卷积神经网络（CNN）已经能够帮助人类解决许多现实世界的问题。为了提高 CNN 的性能，人们探索了多种网络架构。其中一些架构是基于研究人员随着时间的推移积累的经验而设计的，而另一些则是通过神经架构搜索方法设计的。上述方法对CNN的改进是相当显着的，但大多数改进方法在现实中都受到模型大小和环境的限制，很难完全实现改进的性能。近年来研究发现，许多CNN结构可以用常微分方程的离散化来解释。这意味着我们可以使用高阶数值差分方法设计理论上支持的深层网络结构。需要注意的是，之前的CNN模型结构大多基于低阶数值方法。因此，考虑到线性多步数值差分法的精度高于前向欧拉法，本文提出一种基于线性多步法的叠加方案。该方案在不增加模型尺寸的情况下增强了ResNet的性能，并与Runge-Kutta方案进行了比较。实验结果表明，本文提出的堆叠方案的性能优于现有的堆叠方案（ResNet和HO-ResNet），并且具有扩展到其他类型神经网络的能力。

HYDRA：混合数据复用和运行时层可配置 DNN 加速器

分类： 硬件架构, 人工智能, 图像和视频处理

作者： Sonu Kumar, Komal Gupta, Gopal Raut, Mukul Lokhande, Santosh Kumar Vishvakarma

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.04976v1

摘要： 深度神经网络 (DNN) 在边缘节点执行高效计算方面面临许多挑战，这主要是由于巨大的硬件资源需求。文章提出了 HYDRA、混合数据复用和运行时层可配置 DNN 加速器来克服这些缺点。这项工作提出了一种层复用方法，该方法通过改进的融合乘法累加（FMA）进一步在单层执行中重用单个激活函数。所提出的方法以迭代模式工作，以重用相同的硬件并以可配置的方式执行不同的层。所提出的架构与最先进的作品相比，功耗降低了 90% 以上，资源利用率提高了 35.21 TOPSW。所提出的架构减少了带宽、AF 和层架构所需的区域开销 (N-1) 倍。这项工作表明 HYDRA 架构支持最佳 DNN 计算，同时提高资源受限的边缘设备的性能。

通过隐式重新参数化梯度使用 Beta 策略的软 Actor-Critic

分类： 机器学习, 人工智能, 62M45, I.2.8; I.2.6; I.5.1

作者： Luca Della Libera

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.04971v1

摘要： 深度强化学习的最新进展在广泛的复杂任务中取得了令人印象深刻的成果，但样本效率低仍然是现实世界部署的主要障碍。软演员批评家（SAC）通过结合随机策略优化和离策略学习来缓解这个问题，但它的适用性仅限于可以通过重新参数化技巧计算梯度的分布。这一限制排除了几个重要的例子，例如 beta 分布，由于其有界支持，它被证明可以提高高维连续控制问题中 actor-critic 算法的收敛速度。为了解决这个问题，我们研究了隐式重新参数化的使用，这是一种扩展可重新参数化分布类的强大技术。特别是，我们使用隐式重新参数化梯度在模拟机器人运动环境中使用 beta 策略来训练 SAC，并将其性能与常见基线进行比较。实验结果表明，β 策略是一种可行的替代方案，因为它优于正常策略，并且与 SAC 首选的压缩正常策略相当。该代码可从 https://github.com/lucadellalib/sac-beta 获取。

通过神经元交互和临近预报网络加速训练

分类： 机器学习, 人工智能, 机器学习

作者： Boris Knyazev, Abhinav Moudgil, Guillaume Lajoie, Eugene Belilovsky, Simon Lacoste-Julien

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04434v1

摘要： 当使用可学习的更新规则代替经典的自适应优化器（例如 Adam）时，可以加速神经网络训练。然而，可学习的更新规则的训练和使用可能成本高昂且不稳定。最近提出的一种更简单的加速训练方法是使用 Adam 进行大部分优化步骤，并定期每隔几个步骤使用即时预测（预测未来）参数。我们通过神经元交互和临近预报（NiNo）网络改进了这种方法。 NiNo 利用神经元连接和图形神经网络，通过从多个任务的一组训练轨迹中以监督方式学习，更准确地预测参数。我们表明，在某些网络中，例如 Transformers，神经元连接性并非微不足道。通过精确地建模神经元连接，我们让 NiNo 在视觉和语言任务中将 Adam 训练速度提高高达 50%。

研究领域知识组织系统调查：资源与挑战

分类： 数字图书馆, 人工智能, 信息检索

作者： Angelo Salatino, Tanay Aggarwal, Andrea Mannocci, Francesco Osborne, Enrico Motta

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04432v1

摘要： 知识组织系统 (KOS)，例如术语列表、同义词库、分类法和本体论，在信息分类、管理和检索中发挥着基础作用。在学术领域，KOS经常被用来表示研究领域及其关系，主要目的是对研究文章、学术课程、专利、书籍、科学场所、领域专家、资助、软件、实验材料和其他一些相关产品进行分类代理。这些研究领域的结构化表示被许多学术领域广泛接受，事实证明，它们可以有效地增强基于人工智能的系统的能力：i) 增强相关文档的可检索性，ii) 支持先进的分析解决方案来量化学术研究的影响，以及 iii) 分析并预测研究动态。本文旨在对当前学科的 KOS 进行全面的调查。我们根据五个主要维度对 45 个 KOS 进行了分析和比较：范围、结构、管理、使用以及与其他 KOS 的链接。我们的结果揭示了在范围、规模、质量和使用方面非常异构的情况，强调需要更综合的解决方案来代表跨学术领域的研究知识。最后，我们讨论了主要挑战和最有希望的未来方向。

用于低功耗皮层内脑机接口的混合尖峰神经网络

分类： 机器学习, 人工智能, 神经元和认知

作者： Alexandru Vasilache, Jann Krausse, Klaus Knobloch, Juergen Becker

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04428v1

摘要： 皮质内脑机接口（iBMI）有可能通过恢复截瘫患者的日常活动能力来显着改善他们的生活。然而，由于庞大的硬件和布线，当前的 iBMI 受到可扩展性和移动性的限制。无线 iBMI 提供了一种解决方案，但受到数据速率有限的限制。为了克服这一挑战，我们正在研究用于无线 iBMI 中嵌入式神经解码的混合尖峰神经网络。该网络由基于时间卷积的压缩、随后的循环处理和最终插值回原始序列长度组成。作为循环单元，我们探索门控循环单元 (GRU)、泄漏积分激发 (LIF) 神经元以及两者的组合 - 尖峰 GRU (sGRU)，并分析它们在准确性、足迹和激活稀疏性方面的差异。为此，我们在“非人类灵长类动物利用多通道感觉运动皮层电生理学达到”数据集上训练解码器，并使用 NeuroBench 框架对其进行评估，针对 IEEE BioCAS 神经解码大挑战赛的两个赛道。我们的方法在根据多通道初级运动皮层记录预测灵长类动物到达运动的速度方面实现了高精度，同时保持了少量的突触操作，超过了 NeuroBench 框架中当前的基线模型。这项工作凸显了混合神经网络在促进无线 iBMI 方面的潜力，该无线 iBMI 具有高解码精度，并大幅增加了受监控神经元的数量，为更先进的神经修复技术铺平了道路。

RLPF：利用 LLM 进行用户总结的预测反馈强化学习

分类： 计算和语言, 人工智能, 机器学习

作者： Jiaxing Wu, Lin Ning, Luyang Liu, Harrison Lee, Neo Wu, Chao Wang, Sushant Prakash, Shawn O'Banion, Bradley Green, Jun Xie

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04421v1

摘要： 由 LLM 支持的个性化代理系统采用大型语言模型 (LLM) 来根据用户过去的活动来预测用户的行为。然而，由于其固有的噪声和数据的长度，它们的有效性通常取决于有效利用广泛、长期的用户历史数据的能力。现有的预训练大语言模型可能会生成简洁的摘要，但缺乏下游任务的必要上下文，从而阻碍了它们在个性化系统中的实用性。为了应对这些挑战，我们引入了预测反馈强化学习（RLPF）。 RLPF 对 LLM 进行微调，以生成简洁的、人类可读的用户摘要，并针对下游任务性能进行了优化。通过最大限度地提高生成摘要的有用性，RLPF 可以有效地提取大量用户历史数据，同时保留下游任务的基本信息。我们的实证评估表明，外在下游任务效用和内在摘要质量均显着提高，在下游任务性能方面超越基线方法高达 22%，并在事实性、抽象性和可读性方面实现高达 84.59% 的胜率。 RLPF 还实现了上下文长度显着减少 74%，同时提高了 19 个未见过的任务和/或数据集中的 16 个的性能，展示了其通用性。这种方法通过有效地将冗长、嘈杂的用户历史转换为信息丰富且人类可读的表示形式，为增强 LLM 个性化提供了一种有前景的解决方案。

背包约束下非单调子模最大化的改进并行算法

分类： 人工智能

作者： Tan D. Tran, Canh V. Pham, Dung T. K. Ha, Phuong N. H. Pham

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04415v1

摘要： 这项工作提出了一种有效的并行算法，用于在大小为 $n$ 的地面集上背包约束问题下的非单调子模最大化。我们的算法将现有并行算法的最佳逼近因子从 $8+\epsilon$ 提高到 $7+\epsilon$，自适应复杂度为 $O(\log n)$。我们方法的关键思想是创建一个新的替代阈值算法框架。该策略在恒定数量的序列轮次内交替构造两个不相交的候选解决方案。然后，该算法在不牺牲自适应复杂度的情况下提高了解决方案质量。对收入最大化、图像摘要和最大加权切割这三个应用程序的广泛实验研究表明，我们的算法不仅显着提高了解决方案质量，而且还需要对最先进的算法具有相对适应性。

Open-MAGVIT2：一个实现自回归视觉生成民主化的开源项目

分类： 计算机视觉和模式识别, 人工智能

作者： Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04410v1

摘要： 我们推出 Open-MAGVIT2，这是一系列范围从 300M 到 1.5B 的自回归图像生成模型。 Open-MAGVIT2 项目产生了 Google MAGVIT-v2 分词器的开源复制品，这是一种具有超大码本（即 $2^{18}$ 代码）的分词器，并实现了最先进的重建性能（1.17 rFID）在 ImageNet 上为 256 美元\乘以 256 美元。此外，我们探索了它在普通自回归模型中的应用并验证了可扩展性。为了辅助自回归模型对超大词汇量进行预测，我们通过非对称令牌分解将其分解为两个不同大小的子词汇表，并进一步引入“下一个子令牌预测”来增强子令牌交互以更好地生成质量。我们发布所有模型和代码，以促进自回归视觉生成领域的创新和创造力。

HiSC4D：使用可穿戴 IMU 和 LiDAR 在大尺度空间中进行以人为中心的交互和 4D 场景捕获

分类： 计算机视觉和模式识别, 人工智能, 图形, 多媒体

作者： Yudi Dai, Zhiyong Wang, Xiping Lin, Chenglu Wen, Lan Xu, Siqi Shen, Yuexin Ma, Cheng Wang

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04398v1

摘要： 我们推出HiSC4D，一种新颖的以人为中心的交互和4D场景捕捉方法，旨在准确高效地创建动态数字世界，包含大规模的室内外场景、多样化的人体动作、丰富的人与人交互以及人与环境互动。通过利用安装在人体上的 IMU 和头戴式 LiDAR，HiSC4D 可以在不受约束的空间中捕获以自我为中心的人体运动，而无需外部设备和预先构建的地图。这为各种环境中以人为本的交互和 4D 场景捕捉提供了极大的灵活性和可访问性。考虑到 IMU 可以捕捉人体空间不受限制的姿势，但长时间使用容易发生漂移，而 LiDAR 全局定位稳定，但局部位置和方向粗糙，HiSC4D 采用联合优化方法，协调所有传感器并利用环境线索，为大场景的长期捕捉带来可喜的结果。为了促进大场景中以自我为中心的人类交互的研究并促进下游任务，我们还提供了一个数据集，包含 4 个大场景（200 到 5,000 $m^2$）中的 8 个序列，提供 36k 帧带有 SMPL 注释的精确 4D 人体运动以及动态场景、31k 帧的裁剪人体点云以及环境的场景网格。篮球馆、商业街等多种场景，以及日常问候、一对一打篮球、导游等具有挑战性的人体动作，展示了HiSC4D的有效性和泛化能力。数据集和代码将发布在 www.lidar humanmotion.net/hisc4d 上，可用于研究目的。

问答密集视频活动

分类： 计算机视觉和模式识别, 人工智能, 多媒体

作者： Hangyu Qin, Junbin Xiao, Angela Yao

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04388v1

摘要： 多模态大语言模型（MLLM）在单事件视频问答中表现出了出色的性能。在本文中，我们提出了问答密集视频事件，这是一项新颖的任务，需要回答和扎根长视频中的密集事件问题，从而挑战 MLLM 忠实地理解和推理长时间内发生的多个事件。为了促进研究，我们构建了 DeVE-QA - 一个数据集，包含有关 10.6K 长视频上的 26K 事件的 78K 问题。然后，我们进行基准测试并表明，擅长单事件 QA 的现有 MLLM 很难在 DeVE-QA 中表现良好。为了改进，我们提出了 DeVi，一种新颖的免训练 MLLM 方法，它突出了分层字幕模块、时间事件记忆模块和自一致性检查模块，分别用于检测、上下文化和记忆以及长视频中的密集事件用于回答问题。大量实验表明，DeVi 在回答密集事件问题和扎根相关视频时刻方面表现出色。与现有的MLLM相比，它在DeVE-QA和NExT-GQA上的G(round)QA精度分别显着提高了4.1%和3.7%。

扫描仪域转移对医学成像深度学习性能的影响：实验研究

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Gregory Szumel, Brian Guo, Darui Lu, Rongze Gui, Tingyu Wang, Nicholas Konz, Maciej A. Mazurowski

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04368v1

摘要： 目的：使用不同扫描仪和协议获取的医学图像在外观上可能存在很大差异。这种扫描仪域转移现象可能会导致深度神经网络的性能下降，这些神经网络是根据一台扫描仪获取的数据进行训练并在另一台扫描仪上进行测试的。这个重要的实际问题已得到广泛认可，但是，还没有跨不同模式和诊断任务对该问题进行系统研究。材料和方法：在本文中，我们提出了一项广泛的实验研究，评估扫描仪域移位对不同自动诊断任务的卷积神经网络性能的影响。我们通过常见的放射学方式评估这种现象，包括 X 射线、CT 和 MRI。结果：我们发现来自不同扫描仪的数据的网络性能几乎总是比同一扫描仪数据的网络性能差，并且我们量化了不同数据集的性能下降程度。值得注意的是，我们发现平均而言，这种下降对于 MRI 来说最严重，对于 X 射线来说是中等的，而对于 CT 来说则相当小，我们将其归因于 CT 采集系统的标准化性质，而 MRI 或 X 射线中不存在这种标准化性质。我们还研究了如何将不同数量的目标域数据注入训练集中，以及向训练数据添加噪声，如何有助于泛化。结论：我们的结果提供了广泛的实验证据，并量化了不同模式的深度学习中扫描仪域转移引起的性能下降程度，目的是指导未来开发用于医学图像分析的稳健深度学习模型。

针对结构化普法夫设置的可证明超参数调整

分类： 机器学习, 人工智能, 机器学习

作者： Maria-Florina Balcan, Anh Tuan Nguyen, Dravyansh Sharma

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04367v1

摘要： 数据驱动的算法设计自动使算法适应特定的应用领域，从而获得更好的性能。在参数化算法的背景下，此方法涉及使用从目标应用程序域的问题分布中提取的问题实例来调整算法参数。虽然经验证据支持数据驱动算法设计的有效性，但为多个参数化系列提供理论保证仍然具有挑战性。这是由于其相应效用函数的复杂行为造成的，这些函数通常允许分段和不连续结构。在这项工作中，我们提出了完善的框架，为分布式和在线学习环境中的参数化数据驱动算法设计问题提供学习保证。对于分布式学习设置，我们引入了 Pfaffian GJ 框架，它是经典 GJ 框架的扩展，能够为计算涉及 Pfaffian 函数的函数类提供学习保证。与 GJ 框架仅限于以有理函数为特征的计算的函数类不同，我们提出的框架可以处理涉及普法夫函数的函数类，这些函数类更加通用和广泛适用。然后，我们表明，对于许多感兴趣的参数化算法，它们的效用函数具有精致的分段结构，可以使用我们提出的框架自动转化为学习保证。对于在线学习设置，我们提供了一种新工具来验证损失函数序列的分散特性。这个充分条件允许对分段结构损失函数序列进行无悔学习，其中分段结构涉及普法夫转移边界。

用于上下文感知识别的连接启发网络

分类： 计算机视觉和模式识别, 人工智能, 图像和视频处理, I.2; I.4; I.5; J.3; J.6

作者： Gianluca Carloni, Sara Colantonio

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04360v1

摘要： 本文的目的有三个。我们通过广泛的文献综述向人工智能从业者介绍人类视觉系统；我们提出了一种新颖的生物驱动神经网络用于图像分类；最后，我们提出了一个新的即插即用模块来模拟上下文感知。我们专注于整合生物大脑中发现的电路图案来解决视觉识别的效果。我们的卷积架构受到人类皮层和皮层下流连接的启发，我们实现了自下而上和自上而下的调制，模仿视觉和认知区域之间广泛的传入和传出连接。我们的上下文注意力模块简单有效，可以与任何前馈神经网络集成。它根据特征图对场景的因果影响来推断乘以特征图的权重，对图像中不同对象的共现进行建模。我们将模块放置在不同的瓶颈处，以将分层上下文感知注入模型中。我们通过基准数据的图像分类实验验证了我们的建议，并发现通过类激活所产生的解释的性能和稳健性得到了一致的改进。我们的代码可在 https://github.com/gianlucarloni/CoCoReco 获取。

迈向大规模细粒度网页指纹识别

分类： 密码学和安全, 人工智能

作者： Xiyuan Zhao, Xinhao Deng, Qi Li, Yunpeng Liu, Zhuotao Liu, Kun Sun, Ke Xu

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04341v1

摘要： 网站指纹 (WF) 攻击可以通过分析加密的流量模式来有效识别 Tor 客户端访问的网站。现有的攻击主要集中于识别不同的网站，但当应用于识别细粒度的网页时，尤其是在区分同一网站的不同子页面时，其准确性会急剧下降。网页指纹 (WPF) 攻击面临高度相似的流量模式和更大规模的网页的挑战。此外，客户端经常同时访问多个网页，这增加了从混淆的流量中提取每个网页的流量模式的难度。在本文中，我们提出了 Oscar，一种基于多标签度量学习的 WPF 攻击，通过转换特征空间从混淆的流量中识别不同的网页。 Oscar 可以提取各种网页之间的细微差异，甚至是那些具有相似流量模式的网页。特别是，Oscar 结合了基于代理和基于样本的度量学习损失，从混淆的流量中提取网页特征并识别多个网页。我们对 Oscar 进行了原型设计，并使用从现实世界中 1,000 个受监控网页和 9,000 多个不受监控网页收集的流量来评估其性能。 Oscar 证明，与最先进的攻击相比，多标签指标 Recall@5 提高了 88.6%。

AGR：大语言模型中减轻偏见的年龄组公平奖励

分类： 机器学习, 人工智能, 计算和语言

作者： Shuirong Cao, Ruoxi Cheng, Zhiqiang Wang

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04340v1

摘要： 大语言模型可能会表现出年龄偏见，导致不同年龄段的个人受到不平等待遇。尽管许多研究已经解决了种族和性别偏见，但年龄偏见仍然很少被探讨。年龄偏差的指令调整和偏好数据集的缺乏阻碍了其检测和测量，并且现有的微调方法很少解决与年龄相关的公平性。在本文中，我们构建了 RLHF 的年龄偏差偏好数据集和指令调整数据集。我们引入了 ARG，一种年龄公平奖励，以减少不同年龄组的大语言模型的回答质量差异。大量的实验表明，这种奖励可以显着提高反应准确性并减少不同年龄组的表现差异。我们的源代码和数据集可在匿名 \href{https://anonymous.4open.science/r/FairRLHF-D445/readme.md}{link} 中获取。

学习与检索：上下文示例在大语言模型回归中的作用

分类： 计算和语言, 人工智能, I.2.7

作者： Aliakbar Nafar, Kristen Brent Venable, Parisa Kordjamshidi

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04318v1

摘要： 生成式大语言模型（LLM）能够成为上下文学习者。然而，上下文学习（ICL）的潜在机制仍然是一个主要的研究问题，并且关于模型如何利用 ICL 的实验研究结果并不总是一致的。在这项工作中，我们提出了一个评估上下文学习机制的框架，我们声称该框架是通过关注回归任务来检索内部知识和从上下文示例中学习的结合。首先，我们证明大语言模型可以对现实世界的数据集进行回归，然后设计实验来衡量大语言模型检索其内部知识与从上下文示例中学习的程度。我们认为这个过程介于这两个极端之间。我们根据各种因素（例如有关任务的先验知识以及上下文示例提供的信息的类型和丰富性）对触发这些机制的程度进行深入分析。我们聘请了三位大语言模型并利用多个数据集来证实我们研究结果的稳健性。我们的结果揭示了如何设计提示，利用上下文示例中的元学习，并根据要解决的问题促进知识检索。

通过深度碰撞概率场在不确定性下安全高效的路径规划

分类： 机器人技术, 人工智能

作者： Felix Herrmann, Sebastian Zach, Jacopo Banfi, Jan Peters, Georgia Chalvatzaki, Davide Tateo

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04306v1

摘要： 估计机器人与环境障碍物或其他移动主体之间的碰撞概率对于确保路径规划期间的安全至关重要。这是许多应用场景中现代规划算法的重要组成部分，例如自动驾驶，其中噪声传感器感知障碍物。虽然存在许多方法，但它们要么提供过于保守的碰撞概率估计，要么由于其基于采样的性质而需要大量计算。为了解决这些问题，我们引入了深度碰撞概率场，这是一种基于神经的方法，用于计算具有任意单峰不确定性分布的任意物体的碰撞概率。我们的方法通过在训练步骤中采样来降低碰撞概率的计算密集型估计，从而允许在规划期间快速神经网络推断约束。在大量实验中，我们表明深度碰撞概率场可以为规划产生相当准确的碰撞概率（高达 10^{-3}），并且我们的方法可以轻松插入标准路径规划方法中，以在二维上规划安全路径包含不确定的静态和动态障碍物的地图。其他材料、代码和视频可在 https://sites.google.com/view/ral-dcpf 上获取。

CoxKAN：用于可解释、高性能生存分析的 Kolmogorov-Arnold 网络

分类： 机器学习, 人工智能

作者： William Knottenbelt, Zeyu Gao, Rebecca Wray, Woody Zhidong Zhang, Jiashuai Liu, Mireia Crispin-Ortuzar

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04290v1

摘要： 生存分析是统计学的一个分支，用于对特定事件发生之前的时间进行建模，广泛应用于医学、工程、金融和许多其他领域。在选择生存模型时，通常需要在性能和可解释性之间进行权衡，其中基于深度学习的黑盒模型可以实现最高性能。这是医学等领域的一个主要问题，因为从业者不愿意盲目地相信黑盒模型来做出重要的患者决策。最近提出柯尔莫哥洛夫-阿诺德网络 (KAN) 作为多层感知器 (MLP) 的可解释且准确的替代方案。我们引入 CoxKAN，这是一种 Cox 比例风险 Kolmogorov-Arnold 网络，用于可解释的高性能生存分析。我们在 4 个合成数据集和 9 个真实医学数据集上评估了所提出的 CoxKAN。综合实验表明，CoxKAN 准确地恢复了危险函数的可解释符号公式，并有效地执行了自动特征选择。对 9 个真实数据集的评估表明，CoxKAN 始终优于 Cox 比例风险模型，并取得优于或可与调整的 MLP 相媲美的性能。此外，我们发现 CoxKAN 可以识别预测变量之间复杂的相互作用，而使用现有的生存方法很难识别这些相互作用，并自动找到符号公式，揭示重要生物标志物对患者风险的精确影响。

使用大型语言模型生成真实的多智能体知识工作数据集

分类： 人工智能, 计算和语言

作者： Desiree Heim, Christian Jilek, Adrian Ulges, Andreas Dengel

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04286v1

摘要： 当前公开的知识工作数据集合缺乏多样性、广泛的注释以及有关用户及其文档的上下文信息。这些问题阻碍了知识工作辅助系统的客观和可比的数据驱动评估和优化。由于在现实生活中收集此类数据需要大量资源以及数据审查的必要性，收集这样的数据集似乎几乎是不可能的。因此，我们提出了一个可配置的多智能体知识工作数据集生成器。该系统模拟代理之间的协作知识工作，生成大型语言模型生成的文档和随附的数据跟踪。此外，生成器会在知识图中捕获其配置中给出的或在模拟过程中创建的所有背景信息。最后，可以利用和共享生成的数据集，而无需担心隐私或机密性。本文介绍了我们的方法的设计和愿景，并重点关注使用大型语言模型生成真实的知识工作文档。我们的研究涉及人类评估者，他们评估了 53% 的生成文档和 74% 的真实文档是否真实，这证明了我们方法的潜力。此外，我们分析了参与者评论中提到的真实性标准，并详细阐述了针对已识别的常见问题的潜在改进。

用于清晰边缘检测的循环像素差分网络

分类： 计算机视觉和模式识别, 人工智能

作者： Changsong Liu, Wei Zhang, Yanyan Liu, Mingyang Li, Wenlin Li, Yimeng Fan, Xiangnan Bai, Liang Zhangd

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04272v1

摘要： 边缘检测作为计算机视觉的一项基本任务，越来越受到人们的关注。深度学习的出现极大地推动了这一领域的发展。然而，最近基于深度学习的方法依赖于大规模预训练权重，无法从头开始训练，解决这个问题的研究非常有限。本文提出了一种新颖的循环像素差分卷积（CPDC），它将图像梯度信息与现代卷积运算有效地结合起来。基于CPDC，我们开发了一个名为CPD-Net的U型编码器-解码器模型，它是一个纯粹的端到端网络。此外，为了解决大多数现有方法产生的边缘厚度问题，我们构建了多尺度信息增强模块（MSEM）来增强模型的判别能力，从而生成清晰干净的轮廓图。在三个标准基准上进行的综合实验表明，我们的方法在 BSDS500 数据集 (ODS=0.813)、NYUD-V2 (ODS=0.760) 和 BIPED 数据集 (ODS=0.898) 上实现了具有竞争力的性能。我们的方法为解决边缘检测中的这些挑战提供了一个新颖的视角。

特定领域基础模型概述：关键技术、应用和挑战

分类： 人工智能, 计算和语言

作者： Haolong Chen, Hanzhi Chen, Zijian Zhao, Kaifeng Han, Guangxu Zhu, Yichen Zhao, Ying Du, Wei Xu, Qingjiang Shi

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04267v1

摘要： ChatGPT 和其他基于基础模型的产品在人类语言理解方面的出色表现促使学术界和工业界探索如何针对特定行业和应用场景定制这些模型。这个过程称为特定领域基础模型的定制，解决了通用模型的局限性，通用模型可能无法完全捕获特定领域数据的独特模式和要求。尽管它很重要，但关于构建特定领域基础模型的全面概述论文却明显缺乏，而通用模型的资源却有大量。为了弥补这一差距，本文及时、全面地概述了定制特定领域基础模型的方法。它介绍了基本概念，概述了总体架构，并调查了构建特定领域模型的关键方法。此外，本文还讨论了可以从这些专门模型中受益的各个领域，并强调了未来的挑战。通过这一概述，我们旨在为不同领域的研究人员和从业者开发自己的定制基础模型提供有价值的指导和参考。

Hermes：边缘设备上大型模型的内存高效管道推理

分类： 分布式、并行和集群计算, 人工智能, 机器学习

作者： Xueyuan Han, Zinuo Cai, Yichu Zhang, Chongxin Fan, Junhan Liu, Ruhui Ma, Rajkumar Buyya

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04249v1

摘要： 近年来，基于Transformer的大型模型的应用取得了众多成功。然而，大型模型参数的指数增长给边缘部署带来了巨大的内存挑战。先前解决这一挑战的工作主要集中在优化模型结构和采用内存交换方法。但前者降低了推理精度，后者增加了推理延迟。本文介绍了 PIPELOAD，一种新颖的内存高效管道执行机制。它通过合并动态内存管理来减少内存使用，并通过采用并行模型加载来最大限度地减少推理延迟。基于 PIPELOAD 机制，我们提出了 Hermes，这是一个针对边缘设备上的大型模型推理进行优化的框架。我们在不同大小的基于 Transformer 的模型上评估 Hermes。我们的实验表明，与 BERT 和 ViT 模型的最先进的管道机制相比，Hermes 的推理速度提高了 4.24 倍，内存消耗降低了 86.7%；对于 BERT 和 ViT 模型，Hermes 的推理速度提高了 2.58 倍，内存消耗降低了 90.3%。 GPT 风格的模型。

WarpAdam：基于元学习方法的新 Adam 优化器

分类： 机器学习, 人工智能, 信息检索

作者： Chengxi Pan, Junshang Chen, Jingrui Ye

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04244v1

摘要： 优化算法的优化选择对于训练深度学习模型至关重要。 Adam 优化器因其高效性和广泛的适用性而受到广泛关注。然而，为了增强优化器跨不同数据集的适应性，我们提出了一种创新的优化策略，将元学习中的“扭曲梯度下降”概念集成到 Adam 优化器中。在传统的 Adam 优化器中，梯度用于计算梯度均值和方差的估计，随后更新模型参数。我们的方法引入了一个可学习的失真矩阵，表示为 P，用于线性变换梯度。此转换会在每次迭代期间稍微调整梯度，使优化器能够更好地适应不同的数据集特征。通过学习适当的失真矩阵 P，我们的方法旨在自适应地调整不同数据分布上的梯度信息，从而提高优化性能。我们的研究通过理论见解和实证评估展示了这种新颖方法的潜力。各种任务和数据集的实验结果验证了我们的优化器在适应性方面集成了“扭曲梯度下降”概念的优越性。此外，我们探索了训练适应矩阵 P 的有效策略，并确定了该方法可以产生最佳结果的场景。总之，本研究引入了一种创新方法，将元学习中的“扭曲梯度下降”概念与 Adam 优化器相结合。通过在优化器中引入可学习的失真矩阵 P，我们的目标是增强模型在不同数据分布上的泛化能力，从而为深度学习优化领域开辟新的可能性。

SPACE：基于 Python 的模拟器，用于评估分散式多机器人任务分配算法

分类： 机器人技术, 人工智能, 多代理系统

作者： Inmo Jang

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04230v1

摘要： 群体机器人技术探索多个机器人的协调以实现集体目标，其中集体决策是核心焦点。这个过程涉及分散的机器人自主地做出本地决策并进行沟通，这会影响整体的紧急行为。在现实场景中使用数百个或更多机器人测试这种去中心化算法通常是不切实际的，这凸显了对有效模拟工具的需求。我们提出了 SPACE（群体规划和控制评估），这是一种基于 Python 的模拟器，旨在支持分散式多机器人任务分配（MRTA）算法的研究、评估和比较。 SPACE 允许用户将决策算法作为 Python 插件实现，通过直观的 GUI 轻松构建代理行为树，并利用对代理间通信和本地任务感知的内置支持，从而简化了核心算法开发。为了展示其实用性，我们在模拟器中实现和评估 CBBA 和 GRAPE，比较它们在不同指标上的性能，特别是在动态引入任务的场景中。该评估显示了 SPACE 在对 MRTA 算法进行严格和标准化比较方面的有用性，有助于支持该领域的未来研究。

推进多器官疾病护理：分层多智能体强化学习框架

分类： 人工智能, 机器学习

作者： Daniel J. Tan, Qianyi Xu, Kay Choong See, Dilruk Perera, Mengling Feng

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04224v1

摘要： 多器官疾病由于同时影响多个器官系统而提出了重大挑战，需要复杂和适应性的治疗策略。尽管人工智能驱动的医疗决策支持系统最近取得了进展，但现有的解决方案仅限于单个器官系统。他们常常忽视器官系统之间复杂的依赖性，从而无法提供在实践中有用的整体治疗建议。我们提出了一种新颖的分层多智能体强化学习（HMARL）框架来应对这些挑战。该框架为每个器官系统使用专用代理，并通过明确的代理间通信渠道进行动态建模，从而实现跨器官的协调治疗策略。此外，我们引入了双层状态表示技术，以在不同层次上了解患者状况，从而提高治疗的准确性和相关性。通过对脓毒症（一种复杂的多器官疾病）管理进行广泛的定性和定量评估，我们的方法证明了其学习有效治疗政策的能力，从而显着提高患者的生存率。该框架标志着临床决策支持系统的重大进步，开创了多器官治疗建议的综合方法。

GST：使用高斯泼溅变压器从单张图像中获得精确的 3D 人体

分类： 计算机视觉和模式识别, 人工智能

作者： Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04196v1

摘要： 从单眼图像重建逼真的 3D 人体模型在创意产业、人机界面和医疗保健领域具有重要应用。我们的工作基于 3D 高斯分布 (3DGS)，这是一种由高斯混合组成的场景表示。从单个输入图像预测人类的此类混合具有挑战性，因为它是具有严格物理约束的不均匀密度（与输入像素具有多对一关系）。同时，它需要灵活地适应各种衣服和姿势。我们的主要观察结果是，标准化人体网格（例如 SMPL）的顶点可以为高斯提供足够的密度和近似的初始位置。然后，我们可以训练一个 Transformer 模型来联合预测这些位置以及其他高斯属性和 SMPL 参数的相对较小的调整。我们凭经验证明，这种组合（仅使用多视图监督）可以实现从单个图像快速推断 3D 人体模型，而无需测试时间优化、昂贵的扩散模型或 3D 点监督。我们还表明，它可以通过更好地拟合考虑衣服和其他变化的人体模型来改进 3D 姿势估计。该代码可在项目网站 https://abdullahamdi.com/gst/ 上获取。

通过概率关系模型实现保护隐私的关系数据合成

分类： 人工智能, 数据库, 机器学习

作者： Malte Luttermann, Ralf Möller, Mattis Hartwig

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04194v1

摘要： 概率关系模型提供了一种完善的形式来结合一阶逻辑和概率模型，从而允许表示关系域中对象之间的关系。与此同时，人工智能领域需要越来越多的关系训练数据来执行各种机器学习任务。然而，由于隐私问题、数据保护法规、高成本等原因，收集现实世界的数据通常具有挑战性。为了缓解这些挑战，生成合成数据是一种有前途的方法。在本文中，我们解决了通过概率关系模型生成综合关系数据的问题。特别是，我们提出了一个从关系数据库到概率关系模型的成熟管道，然后可以使用该管道从其底层概率分布中采样新的合成关系数据点。作为我们提出的管道的一部分，我们引入了一种学习算法，从给定的关系数据库构建概率关系模型。

GALLa：图形对齐的大型语言模型，用于改进源代码理解

分类： 计算和语言, 人工智能

作者： Ziyin Zhang, Hang Yu, Shijie Li, Peng Di, Jianguo Li, Rui Wang

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04183v1

摘要： 编程语言拥有丰富的语义信息，例如由图形表示的数据流，并且无法从源代码的表面形式中获得。最近的代码语言模型已扩展到数十亿个参数，但仅将源代码建模为文本标记，而忽略任何其他结构信息。相反，对代码结构信息进行编码的模型会对 Transformer 架构进行修改，从而限制了它们的规模以及与预训练的 LLM 的兼容性。在这项工作中，我们利用 GALLa - 图对齐大型语言模型，实现了两全其美。 GALLa利用图神经网络和跨模态对齐技术将代码的结构信息注入LLM中，作为微调期间的辅助任务。该框架既与模型无关，又与任务无关，因为它可以应用于任何代码下游任务的任何代码LLM，并且仅在训练时需要来自与微调数据无关的语料库的结构图数据，同时不产生任何成本在基线大语言模型的推理时间。使用大小从 350M 到 8B 不等的 4 个不同基线 LLM 进行的 5 个代码任务上的实验验证了 GALLa 的有效性，证明了相对于基线的持续改进，即使对于 LLaMA3 等强大的模型也是如此。

神经多元回归中神经崩溃的普遍性

分类： 机器学习, 人工智能

作者： George Andriopoulos, Zixuan Dong, Li Guo, Zifan Zhao, Keith Ross

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04180v1

摘要： 最近，人们发现神经网络在分类问题训练的最后阶段表现出神经崩溃（NC）。我们凭经验表明，模仿学习和其他应用中采用的多元回归表现出神经回归崩溃（NRC），这是一种新的神经崩溃形式：（NRC1）最后一层特征向量崩溃到由 $n$ 跨越的子空间特征向量的主成分，其中 $n$ 是目标的维度（对于单变量回归，$n=1$）；（NRC2）最后一层特征向量也折叠到最后一层权重向量所跨越的子空间； (NRC3) 权重向量的 Gram 矩阵收敛到取决于目标协方差矩阵的特定函数形式。在凭经验确定 (NRC1)-(NRC3) 在各种数据集和网络架构中的普遍性后，我们通过在无约束特征模型 (UFM) 的背景下对回归任务进行建模来解释这些现象，其中最后一个当最小化损失函数时，层特征向量被视为自由变量。我们表明，当 UFM 模型中的正则化参数严格为正时，(NRC1)-(NRC3) 也会作为 UFM 优化问题的解出现。我们还表明，如果正则化参数等于零，则不会发生崩溃。据我们所知，这是在回归背景下对神经崩溃的第一个实证和理论研究。这一扩展具有重要意义，不仅因为它将神经崩溃的适用性扩大到一类新的问题，还因为它表明神经崩溃现象可能是深度学习中的普遍行为。

从计算到裁决：检验LLM法官的数学推理任务

分类： 计算和语言, 人工智能

作者： Andreas Stephan, Dawei Zhu, Matthias Aßenmacher, Xiaoyu Shen, Benjamin Roth

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04168v1

摘要： 为了减少对人工注释的需求，人们提出了大型语言模型（LLM）作为其他候选模型质量的评判者。通常通过衡量摘要或机器翻译等生成任务与人类判断的相关性来评估大语言模型法官。相比之下，我们研究的是大语言模型法官的数学推理任务。这些任务需要多步推理，并且其解决方案的正确性是可验证的，从而能够更加客观地进行评估。我们进行了详细的性能分析，发现所使用的法官大多无法提高任务性能，但能够选择更好的模型。我们的分析揭示了判断表现与候选模型任务表现之间存在很强的相关性。我们观察到，即使答案不正确，法官也倾向于选择更高质量的模型。此外，我们表明可以使用统计数据（例如各个模型的任务表现）来预测判断表现。在消融中，我们交换或掩盖候选人的答案，并观察到法官经常保留原始判决，这提供了法官将写作风格纳入其判决的证据。总之，我们发现判断中的规律性可以使用统计措施来量化，并提供利用它们的各种角度。

上下文是关键：使用 Vision Transformer 进行上下文学习的后门攻击

分类： 密码学和安全, 人工智能

作者： Gorka Abad, Stjepan Picek, Lorenzo Cavallaro, Aitor Urbieta

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04142v1

摘要： 由于训练成本高昂，大型模型 (LM) 从业者通常使用从不受信任的来源下载的预训练模型，这可能会导致模型受损。上下文学习是 LM 根据提示或上下文执行多项任务的能力。这可能会引发新的攻击，例如根据模型的提示方式进行动态行为的后门攻击。在本文中，我们利用视觉转换器（ViT）的能力根据提示执行不同的任务。然后，通过数据中毒，我们调查了两种新的威胁：i）特定于任务的后门，其中攻击者选择要攻击的目标任务，并且在存在触发器的测试时只有选定的任务受到损害。同时，任何其他任务都不会受到影响，即使使用触发器进行提示也是如此。我们成功地攻击了每个测试模型，目标任务降级高达 89.90%。 ii）我们概括了攻击，允许后门影响\emph{any}任务，甚至是在训练阶段看不见的任务。我们的攻击在每个测试模型上都取得了成功，最多实现了 $13\times$ 的降级。最后，我们研究了提示和微调作为从模型中删除后门的技术的稳健性。我们发现这些方法存在不足，在最好的情况下，将退化从 89.90% 减少到 73.46%。

置信度文档 OCR 错误检测

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Arthur Hemmer, Mickaël Coustaty, Nicola Bartolo, Jean-Marc Ogier

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04117v1

摘要： 光学字符识别 (OCR) 继续面临影响后续应用的精度挑战。为了解决这些错误，我们探索了 OCR 置信度分数在增强 OCR 后错误检测方面的实用性。我们的研究涉及分析不同 OCR 系统的置信度分数和错误率之间的相关性。我们开发了 ConfBERT，这是一种基于 BERT 的模型，它将 OCR 置信度分数合并到令牌嵌入中，并提供可选的噪声调整预训练阶段。我们的实验结果表明，整合 OCR 置信度分数可以增强错误检测能力。这项工作强调了 OCR 置信度分数在提高检测准确性方面的重要性，并揭示了商业和开源 OCR 技术之间在性能方面的巨大差异。

用于大型语言模型中代码生成的多编程语言集成

分类： 计算和语言, 人工智能

作者： Tengfei Xue, Xuefeng Li, Tahir Azim, Roman Smirnov, Jianhui Yu, Arash Sadrieh, Babak Pahlavan

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04114v1

摘要： 大型语言模型 (LLM) 显着改进了代码生成，特别是在一次性代码生成方面。然而，大多数现有方法仅专注于以单一编程语言生成代码，而忽视了利用大语言模型多语言功能的潜力。大语言模型在不同语言上有不同的错误模式，这表明可以通过利用这些多语言输出来开发更强大的方法。在这项研究中，我们提出了多编程语言集成（MPLE），这是一种基于集成的新颖方法，利用跨多种编程语言的代码生成来提高整体性能。通过将每个特定于语言的代码生成过程视为单个“弱专家”并有效地集成其输出，我们的方法可以减少特定于语言的错误和偏差。这种多语言集成策略利用了不同编程语言的互补优势，使模型能够生成更准确、更健壮的代码。我们的方法可以与反射算法和蒙特卡洛树搜索等常用技术无缝集成，以进一步提高代码生成质量。实验结果表明，我们的框架在现有基准（HumanEval 和 HumanEval-plus）上持续将基线性能提高了 17.92%，在 HumanEval 基准上的准确率达到了 96.25%，取得了新的最先进结果。各种LLM模型。代码将在 https://github.com/NinjaTech-AI/MPLE 发布

大语言模型可以产生新颖的研究想法吗？ 100 多名 NLP 研究人员参与的大规模人体研究

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互, 机器学习

作者： Chenglei Si, Diyi Yang, Tatsunori Hashimoto

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04109v1

摘要： 大型语言模型 (LLM) 的最新进展激发了人们对其加速科学发现潜力的乐观态度，越来越多的作品提出了自动生成和验证新想法的研究代理。尽管如此，没有任何评估表明大语言模型系统可以迈出产生新颖的专家级想法的第一步，更不用说执行整个研究过程了。我们通过建立一个实验设计来解决这个问题，该设计可以评估研究想法的生成，同时控制混杂因素，并在 NLP 专家研究人员和大语言模型创意代理之间进行首次面对面比较。通过招募超过 100 名 NLP 研究人员来撰写新颖的想法，并对 LLM 和人类的想法进行盲审，我们获得了关于当前 LLM 研究构思能力的第一个具有统计意义的结论：我们发现 LLM 生成的想法被认为更新颖（p < 0.05））比人类专家的想法强，但可行性稍弱。通过仔细研究我们的代理基线，我们发现了构建和评估研究代理时存在的开放性问题，包括大语言模型自我评估的失败及其生成缺乏多样性。最后，我们承认人类对新颖性的判断可能很困难，即使是专家也是如此，并提出了一种端到端的研究设计，招募研究人员将这些想法落实到完整的项目中，使我们能够研究这些新颖性和可行性判断是否会导致研究结果的有意义的差异。

MixNet：古典与现代方法的结合，实现运动想象脑电图分类的综合流程

分类： 机器学习, 人工智能, 计算机视觉和模式识别, 人机交互, 信号处理

作者： Phairot Autthasan, Rattanaphon Chaisaen, Huy Phan, Maarten De Vos, Theerawit Wilaiprasitporn

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04104v1

摘要： 深度学习 (DL) 的最新进展显着影响了基于运动想象 (MI) 的脑机接口 (BCI) 系统，增强了脑电图 (EEG) 信号的解码。然而，大多数研究都难以识别 MI 任务期间受试者之间的歧视模式，从而限制了 MI 分类性能。在本文中，我们提出了 MixNet，这是一种新颖的分类框架，旨在通过利用 MI 数据中的频谱空间信号以及名为 MIN2Net 的多任务学习架构来进行分类，从而克服这一限制。这里，频谱空间信号是使用 MI 数据上的滤波器组公共空间模式 (FBCSP) 方法生成的。由于多任务学习架构用于分类任务，因此每个任务中的学习可能表现出不同的泛化率和跨任务的潜在过度拟合。为了解决这个问题，我们实现了自适应梯度混合，同时调节多个损失权重，并根据每个任务的泛化/过度拟合倾向调整学习速度。六个不同数据大小的基准数据集的实验结果表明，MixNet 在与主题相关和与主题无关的设置中始终优于所有最先进的算法。最后，低密度脑电图 MI 分类结果表明，MixNet 优于所有最先进的算法，为物联网 (IoT) 应用提供了有希望的影响，例如基于低密度蒙太奇的轻型便携式脑电图可穿戴设备。

图拓扑在生物医学知识图补全模型性能中的作用

分类： 机器学习, 人工智能, 定量方法

作者： Alberto Cattaneo, Stephen Bonner, Thomas Martynec, Carlo Luschi, Ian P Barrett, Daniel Justus

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04103v1

摘要： 知识图补全已越来越多地被用作生物医学研究中多项任务的有用方法，例如药物重新利用或药物靶点识别。为此，多年来已经提出了各种数据集和知识图嵌入模型。然而，人们对使数据集对给定任务有用的属性知之甚少，尽管知识图嵌入模型的理论属性已被很好地理解，但它们在该领域的实际用途仍然存在争议。我们对公开的生物医学知识图的拓扑特性进行了全面的调查，并建立了与实际应用中观察到的准确性的联系。通过发布所有模型预测和一套新的分析工具，我们邀请社区以我们的工作为基础，继续增进对这些关键应用程序的理解。

带有噪声门的贝叶斯网络智能辅导系统

分类： 人工智能

作者： Alessandro Antonucci, Francesca Mangili, Claudio Bonesana, Giorgia Adorni

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04102v1

摘要： 诸如贝叶斯网络之类的有向图形模型通常用于实现能够以纯自动方式与学习者实时交互的智能辅导系统。在处理此类模型时，出于多种原因，限制参数数量可能很重要。首先，由于这些模型通常基于专业知识，因此需要引出的大量参数可能会阻止从业者采用它们。此外，模型参数的数量会影响推理的复杂性，而实时反馈需要快速计算查询。我们提倡使用具有不确定性的逻辑门来对辅导系统使用的底层贝叶斯网络中的条件概率表进行紧凑参数化。我们讨论要导出的模型参数的语义以及在该领域应用这种方法所需的假设。我们还推导出专用的推理方案来加速计算。

SDformerFlow：用于基于事件的光流估计的时空 swin spikeformer

分类： 计算机视觉和模式识别, 人工智能

作者： Yi Tian, Juan Andrade-Cetto

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04082v1

摘要： 事件摄像机生成异步且稀疏的事件流，捕获光强度的变化。与传统的基于帧的相机相比，它们具有显着的优势，例如更高的动态范围和极快的数据速率，这使得它们在涉及快速运动或具有挑战性的照明条件的场景中特别有用。尖峰神经网络 (SNN) 具有类似的异步和稀疏特性，非常适合处理来自事件摄像机的数据。受到变压器和尖峰驱动变压器（spikeformers）在其他计算机视觉任务中的潜力的启发，我们提出了两种用于事件相机的快速、鲁棒光流估计的解决方案：STTFlowNet 和 SDformerFlow。 STTFlowNet 采用 U 形人工神经网络 (ANN) 架构，具有时空平移窗口自注意力 (swin) 变压器编码器，而 SDformerFlow 则展示了其完全尖峰对应物，结合了 swin 尖峰形成器编码器。此外，我们提出了具有不同神经元模型的尖峰版本的两种变体。我们的工作是第一个利用尖峰形成器进行密集光流估计的工作。我们使用监督学习对所有模型进行端到端训练。我们的结果在 DSEC 和 MVSEC 数据集上的基于 SNN 的事件光流方法中产生了最先进的性能，并且与等效的 ANN 相比，功耗显着降低。

UI-JEPA：通过屏幕上的用户活动主动感知用户意图

分类： 计算和语言, 人工智能, 人机交互, 机器学习

作者： Yicheng Fu, Raviteja Anantha, Prabal Vashisht, Jianpeng Cheng, Etai Littwin

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04081v1

摘要： 从一系列用户界面 (UI) 操作中生成用户意图是全面理解 UI 的核心挑战。多模态大语言模型 (MLLM) 的最新进展在这一领域取得了实质性进展，但它们对广泛的模型参数、计算能力和高延迟的需求使得它们对于需要低延迟或高延迟的轻量级设备上解决方案的场景来说不切实际。隐私。此外，缺乏高质量数据集也阻碍了此类轻量级模型的开发。为了应对这些挑战，我们提出了 UI-JEPA，这是一种新颖的框架，它采用屏蔽策略，通过自我监督学习从未标记的数据中学习抽象 UI 嵌入，并结合针对用户意图预测进行微调的 LLM 解码器。我们还引入了两个新的基于 UI 的多模态数据集，“Intent in the Wild”（IIW）和“Intent in the Tame”（IIT），专为少样本和零样本 UI 理解任务而设计。 IIW 包含 219 个意图类别的 1.7K 视频，而 IIT 包含 10 个类别的 914 个视频。我们为这些数据集建立了第一个基线，表明使用 JEPA 式目标学习的表示与 LLM 解码器相结合，可以实现与最先进的大型 MLLM 性能相匹配的用户意图预测，但显着降低了注释和部署资源。通过意图相似度得分来衡量，UI-JEPA 的性能分别比 GPT-4 Turbo 和 Claude 3.5 Sonnet 好 10.0% 和 7.2%（两个数据集的平均值）。值得注意的是，UI-JEPA 在 IIW 数据集中的计算成本降低了 50.5 倍，延迟提高了 6.6 倍，从而实现了性能提升。这些结果强调了 UI-JEPA 的有效性，突出了其轻量级、高性能 UI 理解的潜力。

AnyMatch——使用小型语言模型进行高效的零样本实体匹配

分类： 计算和语言, 人工智能, 数据库

作者： Zeyu Zhang, Paul Groth, Iacer Calixto, Sebastian Schelter

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04073v1

摘要： 实体匹配（EM）是确定两个记录是否引用相同的现实世界实体的问题，这在数据集成中至关重要，例如对于产品目录或地址数据库。许多 EM 方法的一个主要缺点是它们依赖于标记的示例。因此，我们专注于零样本实体匹配的挑战性设置，其中对于看不见的目标数据集没有可用的标记示例。最近，大型语言模型（LLM）在零样本 EM 方面显示出了有希望的结果，但它们的低吞吐量和高部署成本限制了它们的适用性和可扩展性。我们使用 AnyMatch 重新审视零样本 EM 问题，AnyMatch 是一种在迁移学习设置中进行微调的小型语言模型。我们提出了几种新颖的数据选择技术来为我们的模型生成微调数据，例如，通过 AutoML 过滤器选择困难的对进行匹配，通过生成额外的属性级示例，以及通过控制数据中的标签不平衡。我们对模型的预测质量和部署成本进行了广泛的评估，并与九个基准数据集上的十三个基线进行比较。我们发现，尽管参数大小较小，AnyMatch 仍提供了有竞争力的预测质量：它总体上实现了第二高的 F1 分数，并且优于其他几种使用具有数千亿参数的模型的方法。此外，我们的方法还具有显着的成本效益：AnyMatch 的平均预测质量与采用专有万亿参数模型 GPT-4 的最先进方法 MatchGPT 相比，误差在 4.4% 以内，但 AnyMatch 需要的参数少四个数量级推理成本降低了 3,899 倍（以每 1,000 个代币计算）。

解释基于软约束的规范中的抢占的论证方法

分类： 人工智能

作者： Wachara Fungwacharakorn, Kanae Tsushima, Hiroshi Hosobe, Hideaki Takeda, Ken Satoh

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04065v1

摘要： 尽管已经探索了基于软约束的规范的各个方面，但理解抢占仍然具有挑战性。抢占是指当新信息出现时，高层规范凌驾于低层规范的情况。为了解决这个问题，我们提出了一个推导状态论证框架（DSA-framework）。 DSA 框架结合了派生状态来解释抢占是如何基于不断发展的情境知识而产生的。基于 DSA 框架，我们提出了一种解释抢占的论证方法。我们正式证明，在局部最优性下，DSA 框架可以解释为什么一个结果是由逻辑约束层次表示的基于软约束的规范所强制或禁止的。

D4：基于文本引导扩散模型的域自适应数据增强，用于葡萄园芽检测

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Kentaro Hirahara, Chikahito Nakane, Hajime Ebisawa, Tsuyoshi Kuroda, Yohei Iwaki, Tomoyoshi Utsumi, Yuichiro Nomura, Makoto Koike, Hiroshi Mineno

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04060v1

摘要： 在农业领域，使用对象检测模型进行植物表型分析正在引起人们的关注。然而，由于注释的难度和领域的多样性，收集创建通用和高精度模型所需的训练数据极具挑战性。此外，很难在不同作物之间传输训练数据，尽管已经开发出了针对特定环境、条件或作物有效的机器学习模型，但它们无法广泛应用于实际领域。在本研究中，我们提出了一种用于葡萄园芽检测的生成数据增强方法（D4）。 D4 使用预训练的文本引导扩散模型，该模型基于从无人地面车辆或其他方式收集的视频数据中剔除的大量原始图像以及少量带注释的数据集。所提出的方法生成具有适合目标域的背景信息的新注释图像，同时保留对象检测所需的注释信息。此外，D4克服了农业中训练数据的缺乏，包括注释的困难和领域的多样性。我们证实，这种生成数据增强方法将 BBox 检测任务的平均精度提高了 28.65%，将葡萄园枝条检测的关键点检测任务的平均精度提高了 13.73%。我们的生成数据增强方法 D4 有望同时解决农业训练数据生成的成本和领域多样性问题，并提高检测模型的泛化性能。

使用大型语言模型完善维基数据分类法

分类： 人工智能, 计算和语言, 信息检索

作者： Yiwen Peng, Thomas Bonald, Mehwish Alam

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04056v1

摘要： 由于其协作性质，维基数据以其复杂的分类而闻名，经常出现一些问题，例如实例和类之间的模糊性、某些分类路径的不准确、循环的存在以及类之间的高度冗余。手动清理此分类非常耗时，并且容易出现错误或主观决定。我们推出了 WiKC，这是使用大型语言模型 (LLM) 和图挖掘技术的组合自动清理的维基数据分类的新版本。分类法上的操作，例如切割链接或合并类别，是在开源大语言模型的零样本提示的帮助下执行的。细化分类法的质量是从内在和外在的角度评估的，针对后者的实体类型任务，显示了 WiKC 的实际兴趣。

初步了解针对 KV 泄漏的高效、安全的设备上 LLM 推理

分类： 密码学和安全, 人工智能

作者： Huan Yang, Deyu Zhang, Yudong Zhao, Yuanchun Li, Yunxin Liu

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04040v1

摘要： 由于其在隐私保护方面的优势，在终端设备上运行大语言模型最近引起了极大的关注。随着轻量级 LLM 模型和专门设计的 GPU 的出现，设备上的 LLM 推理已经实现了必要的准确性和性能指标。然而，我们发现 GPU 上的 LLM 推理可能会泄露隐私敏感的中间信息，特别是 KV 对。攻击者可以利用这些 KV 对来重建整个用户对话，从而导致重大漏洞。现有的解决方案，例如完全同态加密 (FHE) 和可信执行环境 (TEE)，要么计算过于密集，要么资源有限。为了解决这些问题，我们设计了 KV-Shield，它分两个阶段运行。在初始化阶段，它对权重矩阵进行排列，使得所有KV对都相应地排列。在运行时阶段，注意力向量被逆排列以确保层输出的正确性。所有与排列相关的操作都在 TEE 内执行，确保不安全的 GPU 无法访问原始 KV 对，从而阻止会话重建。最后，我们从理论上分析了KV-Shield的正确性、优点和开销。

BFA-YOLO：用于多视图建筑立面附件检测的平衡多尺度物体检测网络

分类： 计算机视觉和模式识别, 人工智能

作者： Yangguang Chen, Tong Wang, Guanzhou Chen, Kun Zhu, Xiaoliang Tan, Jiaqi Wang, Hong Xie, Wenlin Zhou, Jingyi Zhao, Qing Wang, Xiaolong Luo, Xiaodong Zhang

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04025v1

摘要： 门、窗、阳台、空调机组、广告牌和玻璃幕墙等建筑立面附件的检测在众多应用中发挥着关键作用。建筑立面附件检测有助于建筑信息模型 (BIM) 施工并满足细节级别 3 (LOD3) 标准。然而，它面临着物体分布不均匀、小物体检测困难、背景干扰等挑战。为了解决这些问题，我们提出了 BFA-YOLO，一种用于检测多视图图像中的立面附件的模型。 BFA-YOLO融合了三项创新：用于解决分布不均匀的特征平衡主轴模块（FBSM）、旨在改善小物体检测的目标动态对齐任务检测头（TDATH）以及位置记忆增强自注意力机制（PMESA）为了对抗背景干扰，每个组件都经过专门设计来解决其相应的挑战。深度网络模型的检测效果很大程度上取决于数据集的特征。现有的与建筑立面相关的开源数据集受到视角单一、图像池较小和类别覆盖不完整的限制。我们提出了一种构建立面附件检测数据集的新方法，并构建了用于立面附件检测的 BFA-3D 数据集。 BFA-3D数据集具有多视图、标签准确、类别多样、分类详细的特点。在多视图 BFA-3D 和街景 Facade-WHU 数据集上，BFA-YOLO 在 mAP@0.5 上分别超过 YOLOv8 1.8% 和 2.9%。这些结果强调了 BFA-YOLO 在检测立面附件方面的卓越性能。

寻找有效的预处理方法和基于 CNN 的架构，在语音情感识别中具有有效的通道关注

分类： 声音, 人工智能, 音频和语音处理

作者： Byunggun Kim, Younghun Kwon

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04007v1

摘要： 语音情感识别（SER）通过计算机模型对语音中的人类情感进行分类。最近，随着深度学习技术的适应，SER 的性能稳步提高。然而，与许多使用语音数据的领域不同，SER 模型中用于训练的数据不足。这会导致神经网络训练过度拟合，导致性能下降。事实上，成功的情绪识别需要有效的预处理方法和有效利用权重参数数量的模型结构。在本研究中，我们建议使用具有不同频率时间分辨率的八个数据集版本来寻找有效的情感语音预处理方法。我们提出了一种具有高效通道注意力（ECA）的 6 层卷积神经网络（CNN）模型，以追求高效的模型结构。特别是，位置良好的 ECA 块只需几个参数即可改进通道特征表示。利用交互式情感二元运动捕捉（IEMOCAP）数据集，提高情感语音预处理中的频率分辨率可以提高情感识别性能。另外，深度卷积层之后的ECA可以有效增加通道特征表示。因此，可以获得最好的结果（79.37UA 79.68WA），超过了之前SER模型的性能。此外，为了弥补情感语音数据的缺乏，我们尝试了多种预处理数据方法，这些方法增强了使用来自一个样本的所有不同设置进行预处理的可训练数据。在实验中，我们可以达到最高的结果（80.28UA 80.46WA）。

nVIDIA H100 GPU 上的机密计算：性能基准研究

分类： 分布式、并行和集群计算, 人工智能, 表现

作者： Jianwei Zhu, Hang Yin, Shunfan Zhou

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.03992v1

摘要： 本报告评估了在 NVIDIA H100 GPU 上启用可信执行环境 (TEE) 对大型语言模型 (LLM) 推理任务的性能影响。我们对各种模型和令牌长度的 TEE 模式引入的开销进行了基准测试，重点关注通过 PCIe 进行 CPU-GPU 数据传输造成的瓶颈。我们的结果表明，虽然 GPU 内的计算开销最小，但总体性能损失主要是由于数据传输造成的。对于大多数典型的 LLM 查询，开销保持在 5% 以下，较大的模型和较长的序列的开销接近于零。

用于增强医学成像叙事生成的 FODA-PG：正常和异常属性的自适应区分

分类： 计算机视觉和模式识别, 人工智能

作者： Kai Shu, Yuzhuo Jia, Ziyang Zhang, Jiechao Gao

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.03947v1

摘要： 自动医学成像叙述生成旨在通过直接从放射图像生成准确的临床描述来减轻放射科医生的工作量。然而，与通用图像字幕任务相比，医学图像中微妙的视觉细微差别和特定领域的术语提出了重大挑战。现有的方法常常忽视正常和异常结果之间的重要区别，导致性能不佳。在这项工作中，我们提出了 FODA-PG，一种新颖的细粒度器官疾病自适应分区图框架，通过领域自适应学习解决这些限制。 FODA-PG 根据疾病相关属性的临床意义和位置将其分为不同的“疾病特异性”和“无疾病”类别，从而构建放射学结果的精细图形表示。这种自适应分区使我们的模型能够捕获正常状态和病理状态之间的细微差别，从而减轻数据偏差的影响。通过将这种细粒度的语义知识集成到基于变压器的强大架构中，并为其有效性提供严格的数学论证，FODA-PG 可以生成精确且临床一致的报告，并具有增强的泛化能力。对 IU-Xray 和 MIMIC-CXR 基准的大量实验证明了我们的方法相对于最先进方法的优越性，强调了领域适应在医疗报告生成中的重要性。

HUMOS：以体型为条件的人体运动模型

分类： 计算机视觉和模式识别, 人工智能

作者： Shashank Tripathi, Omid Taheri, Christoph Lassner, Michael J. Black, Daniel Holden, Carsten Stoll

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03944v1

摘要： 生成逼真的人体运动对于许多计算机视觉和图形应用至关重要。人体形状和尺寸的多样性极大地影响了人们的移动方式。然而，大多数现有的运动模型都忽略了这些差异，依赖于标准化的平均身体。这导致不同体型的运动一致，而运动与他们的身体特征不匹配，限制了多样性。为了解决这个问题，我们引入了一种新方法来开发基于身体形状的生成运动模型。我们证明，通过应用循环一致性、直观物理和稳定性约束，可以使用不成对的数据来训练这个模型，这些约束捕获了身份和运动之间的关系。由此产生的模型生成多样化的、物理上合理的、动态稳定的人体运动，这些运动在数量和质量上都比当前最先进的方法更加真实。更多详细信息请访问我们的项目页面 https://CarstenEpic.github.io/humos/。

利用大语言模型进行跨城市 OD 流量预测

分类： 人工智能

作者： Chenyang Yu, Xinpeng Xie, Yan Huang, Chenxi Qiu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03937v1

摘要： 了解和预测出发地-目的地 (OD) 流量对于城市规划和交通管理至关重要。传统的 OD 预测模型虽然在单个城市内有效，但由于交通条件、城市布局和社会经济因素的不同，在不同城市应用时往往面临局限性。在本文中，通过采用大型语言模型（LLM），我们引入了一种跨城市 OD 流量预测的新方法。我们的方法利用大语言模型先进的语义理解和情境学习能力来弥合具有不同特征的城市之间的差距，为准确的 OD 流量预测提供强大且适应性强的解决方案，并且可以从一个城市转移到另一个城市。我们的新颖框架涉及四个主要组成部分：从源城市收集 OD 训练数据集、对 LLM 进行指令调整、预测目标城市中的目的地 POI，以及识别与预测目的地 POI 最匹配的位置。我们引入了一种新的损失函数，在训练过程中集成了 POI 语义和行程距离。通过从人员流动和 POI 数据中提取高质量的语义特征，该模型可以理解城市空间内的空间和功能关系，并捕获个人与各种 POI 之间的交互。大量的实验结果证明了我们的方法在跨城市 OD 流量预测方面优于最先进的基于学习的方法。

壁剪应力量化的深度学习方法：从数值训练到零样本实验应用

分类： 流体动力学, 人工智能

作者： Esther Lagemann, Julia Roeb, Steven L. Brunton, Christian Lagemann

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03933v1

摘要： 壁剪切应力动力学的准确量化对于基础和应用研究中的各种应用（从人类健康到飞机设计和优化）具有重要意义。尽管实验测量技术和后处理算法取得了重大进展，但在适当的空间域内具有足够空间分辨率的时间解析壁剪应力动力学仍然是一个难以实现的目标。为了解决这一差距，我们引入了一种深度学习架构，该架构从湍流壁边界流的对数层中摄取壁平行速度场，并输出具有相同空间分辨率和域大小的相应二维壁剪切应力场。从物理角度来看，我们的框架充当代理模型，封装了高能外层流动结构影响控制壁剪应力动力学的各种机制。该网络在统一数据集上以监督方式进行训练，该数据集包括统计一维湍流通道和空间发展的湍流边界层流的直接数值模拟，摩擦雷诺数范围为 390 至 1,500。我们展示了从粒子图像测速测量获得的实验速度场的零样本适用性，并使用雷诺数的微柱剪应力传感器通过同步壁剪应力测量来验证壁剪应力估计的物理精度到 2,000。总之，所提出的框架为从容易获得的速度测量中提取难以获得的实验壁剪切应力信息奠定了基础，从而促进了各种实验应用的进步。

生成系统在历史摄影管理中的作用：加泰罗尼亚档案馆案例研究

分类： 计算机视觉和模式识别, 人工智能

作者： Èric Śanchez, Adrià Molina, Oriol Ramos Terrades

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03911v1

摘要： 在自动化摄影管理中使用图像分析是遗产机构日益增长的趋势。这些工具减轻了与新数据源的手动和昂贵注释相关的人力成本，同时促进通过在线索引和搜索引擎快速访问公民身份。然而，可用的标签和描述工具通常是围绕现代英语照片设计的，忽略了少数民族语言的历史语料库，每种语言都表现出内在的特殊性。本研究的主要目的是研究生成系统在历史来源描述中的定量贡献。这是通过将加泰罗尼亚档案中的历史照片的字幕任务作为案例研究来实现的。我们的研究结果为从业者提供了基于视觉适应和语言邻近性的字幕模型迁移学习的工具和方向。

混合自治流量协调的多代理路径查找

分类： 机器人技术, 人工智能, 多代理系统

作者： Han Zheng, Zhongxia Yan, Cathy Wu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03881v1

摘要： 在不断发展的城市交通格局中，联网自动驾驶车辆 (CAV) 与人力驾驶车辆 (HDV) 的预期整合为自动驾驶系统带来了一系列复杂的挑战和机遇。虽然机器人技术的最新进展已经产生了针对代理协调任务量身定制的多代理路径查找 (MAPF) 算法，其特点是简化的运动学和对代理行为的完全控制，但这些解决方案不适用于无法控制的 HDV 必须与 CAV 共存并交互的混合流量环境。为了解决这一差距，我们提出了基于行为预测运动学优先级的搜索（BK-PBS），它利用离线训练的条件预测模型来预测 HDV 对 CAV 操作的响应，将这些见解集成到基于优先级的搜索（PBS）中，其中 A * 搜索在运动基元上进行以适应运动学约束。我们将 BK-PBS 与基于规则的汽车跟随模型和强化学习导出的 CAV 规划算法进行比较。通过对 CAV 渗透率和交通密度的不同场景下的高速公路合流场景进行全面模拟，BK-PBS 在降低碰撞率和提高系统级行驶延迟方面优于这些基线。我们的工作直接适用于多人多机器人协调的许多场景。

展示广告的成本控制：理论与实践

分类： 计算机科学与博弈论, 人工智能, 机器学习

作者： Anoop R Katti, Rui C. Gonçalves, Rinchin Iakovlev

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03874v1

摘要： 在展示广告中，广告商希望在预算和每次结果成本的限制下实现营销目标。这通常被表述为在约束下最大化总效用的优化问题。优化是在双空间中以在线方式进行的 - 对于传入的广告拍卖，使用最佳出价公式进行出价，假设双变量的最佳值；根据之前拍卖的结果，双变量以在线方式更新。虽然这种方法在理论上是合理的，但在实践中，双变量并不是从一开始就是最优的，而是随着时间的推移而收敛。具体来说，对于成本约束，收敛是渐近的。结果，我们发现成本控制是无效的。在这项工作中，我们分析了最优出价公式的缺点，并提出了偏离理论推导的修改。我们模拟各种实际场景并研究两种算法的成本控制行为。通过对真实数据的大规模评估，我们表明所提出的修改将成本违规减少了 50%，从而实现了比理论投标公式更好的成本控制。

MetaBGM：动态音轨转换，实现具有环境感知和个性化的连续多场景体验

分类： 声音, 人工智能, 人机交互, 多媒体, 音频和语音处理

作者： Haoxuan Liu, Zihao Wang, Haorong Hong, Youwei Feng, Jiaxin Yu, Han Diao, Yunfei Xu, Kejun Zhang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03844v1

摘要： 本文介绍了 MetaBGM，这是一个用于生成适应动态场景和实时用户交互的背景音乐的开创性框架。我们将多场景定义为环境背景的变化，例如游戏设置或电影场景的过渡。为了解决将后端数据转换为音频生成模型的音乐描述文本的挑战，MetaBGM 采用了一种新颖的两阶段生成方法，将连续的场景和用户状态数据转换为这些文本，然后将其输入到音频生成模型中以进行实时处理。时间配乐创作。实验结果表明，MetaBGM 可以有效地为交互式应用程序生成上下文相关的动态背景音乐。

人工智能预测旋转双黑洞合并的高阶波模式

分类： 广义相对论和量子宇宙学, 天体物理学仪器和方法, 人工智能, 68T10, 85-08, 83C35, 83C57, I.2

作者： Victoria Tiki, Kiet Pham, Eliu Huerta

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03833v1

摘要： 我们提出了一种受物理启发的变压器模型，该模型可以预测准圆形、旋转、非进动二元黑洞合并所发出的高阶波模式的非线性动力学。该模型从跨越 $ t \in [-5000\textrm{M}, -100\textrm{M}) $ 的输入时间序列开始，预测从合并前阶段到振铃的波形演变。合并事件，定义为包括 $l = |m| 的波形的峰值幅度= 2$ 模式，发生在 $ t = 0\textrm{M} $。然后，转换器生成时间范围 $t \in [-100\textrm{M}, 130\textrm{M}] $ 的预测。我们使用 NRHybSur3dq8 模型生成训练、评估和测试集，考虑由质量比 $ q \in [1, 8] $ 定义的信号流形；自旋分量 $ s^z_{{1,2}} \in [-0.8, 0.8] $;模式高达 $l \leq 4$，包括 $(5,5)$ 模式，但不包括 $(4,0)$ 和 $(4,1)$ 模式；和倾角 $\theta \in [0, \pi]$。我们在 14,440,761 个波形上训练了模型，使用 Delta 超级计算机中的 16 个 NVIDIA A100 GPU 在 15 小时内完成了训练。我们在 DeltaAI 超级计算机中使用 4 个 H100 GPU，在 7 小时内使用 840,000 个波形的测试集计算真实波形和预测波形之间的重叠，发现测试集的平均值和中值重叠分别为 0.996 和 0.997。此外，我们还进行了可解释性研究，以阐明我们的变压器模型利用的波形特征来产生准确的预测。用于这项工作的科学软件随本手稿一起发布。

PARCO：学习并行自回归策略以实现高效的多智能体组合优化

分类： 多代理系统, 人工智能

作者： Federico Berto, Chuanbo Hua, Laurin Luttmann, Jiwoo Son, Junyoung Park, Kyuree Ahn, Changhyun Kwon, Lin Xie, Jinkyoo Park

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03811v1

摘要： 路由和调度等多智能体组合优化问题具有很大的实际意义，但由于其 NP 难组合性质、对可能智能体数量的硬约束以及难以优化的目标函数，也带来了挑战。本文介绍了 PARCO（并行自回归组合优化），这是一种通过采用并行自回归解码通过强化学习来学习多智能体组合问题的快速代理求解器的新方法。我们提出了一种具有多指针机制的模型，可以有效地解码不同代理同时做出的多个决策，并通过基于优先级的冲突处理方案进行增强。此外，我们设计了专门的通信层，可以实现有效的代理协作，从而丰富决策。我们在路由和调度中的代表性多智能体组合问题中评估了 PARCO，并证明我们学习的求解器在解决方案质量和速度方面提供了与经典和神经基线相比具有竞争力的结果。我们在 https://github.com/ai4co/parco 公开提供我们的代码。

您的代码大语言模型表现如何？利用高质量数据进行代码指令调优

分类： 软件工程, 人工智能, 计算和语言, 机器学习

作者： Yejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03810v1

摘要： 最近，人们对研究如何构建更好的代码指令调整数据越来越感兴趣。然而，我们观察到使用这些数据集训练的代码模型在 HumanEval 上表现出高性能，但在 LiveCodeBench 等其他基准测试上表现较差。经过进一步调查，我们发现许多数据集存在严重的数据泄露问题。在清理大部分泄露数据后，一些知名的高质量数据集表现不佳。这一发现揭示了一个新的挑战：确定哪个数据集真正符合高质量代码指令数据的条件。为了解决这个问题，我们提出了一种有效的代码数据修剪策略来选择好的样本。我们的方法基于三个维度：教学复杂性、响应质量和教学多样性。根据我们选择的数据，我们提出了 XCoder，这是一个从 LLaMA3 中微调的模型系列。我们的实验表明，XCoder 使用更少的训练数据实现了新的最先进的性能，这验证了我们数据策略的有效性。此外，我们对数据构成进行了全面分析，发现现有的代码数据集根据其构建方法具有不同的特征，这为未来的代码LLM提供了新的见解。我们的模型和数据集发布在 https://github.com/banksy23/XCoder

Mpox Screen Lite：人工智能驱动的设备上离线 Mpox 筛查，用于资源匮乏的非洲 Mpox 应急响应

分类： 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者： Yudara Kularathne, Prathapa Janitha, Sithira Ambepitiya

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03806v1

摘要： 背景：2024 年的 Mpox 疫情，在非洲尤其严重，出现了 1b 分支，凸显了资源有限地区诊断能力的严重差距。本研究旨在开发和验证人工智能 (AI) 驱动的 Mpox 设备端筛查工具，旨在在资源匮乏的环境中离线运行。方法：我们开发了一个基于 YOLOv8n 的深度学习模型，在 2,700 张图像（Mpox、其他皮肤状况和正常皮肤各 900 张）上进行训练，包括合成数据。该模型在 360 张图像上进行了验证，并在 540 张图像上进行了测试。使用 1,500 张独立图像进行了更大规模的外部验证。性能指标包括准确度、精确度、召回率、F1 分数、灵敏度和特异性。结果：该模型在最终测试集中表现出较高的准确性 (96%)。对于 Mpox 检测，它实现了 93% 的精确度、97% 的召回率和 95% 的 F1 分数。 Mpox 检测的灵敏度和特异性分别为 97% 和 96%。在更大规模的外部验证中，性能保持一致，证实了模型的稳健性和普遍性。解读：这种人工智能驱动的筛查工具为资源有限环境中的 Mpox 检测提供了快速、准确且可扩展的解决方案。其离线功能和跨不同数据集的高性能表明改善 Mpox 监测和管理的巨大潜力，特别是在缺乏传统诊断基础设施的地区。

用于提高人工智能项目数据准备度的探索性可视化分析

分类： 方法, 人工智能

作者： Mattias Tiger, Daniel Jakobsson, Anders Ynnerman, Fredrik Heintz, Daniel Jönsson

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03805v1

摘要： 我们展示了使用可视化分析方法提高人工智能项目异构数据的数据准备度的经验和教训。提高数据准备水平涉及了解数据及其使用环境，这些挑战非常适合可视化分析。为此，我们提供了数据准备方面和适合不同数据类型的可视化分析技术之间的映射。我们使用定义的映射来提高涉及时变数据（包括数字、分类和文本）的用例中的数据就绪级别。除了映射之外，我们还扩展了数据就绪概念，以更好地考虑任务和解决方案的各个方面，并明确解决数据收集期间的分布变化。我们报告了使用所提出的视觉分析技术来帮助未来人工智能项目提高数据准备水平的经验。

通过深度状态空间建模对原始信号进行实时语音增强

分类： 声音, 人工智能, 机器学习, 音频和语音处理

作者： Yan Ru Pei, Ritik Shrivastava, FNU Sidharth

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03377v2

摘要： 我们提出了 aTENNuate，一种简单的深度状态空间自动编码器，配置用于以端到端方式进行高效的在线原始语音增强。网络的性能主要根据原始语音去噪进行评估，并对超分辨率和去量化等任务进行额外评估。我们在 VoiceBank + DEMAND 和 Microsoft DNS1 综合测试集上对 aTENNuate 进行基准测试。该网络在 PESQ 分数、参数计数、MAC 和延迟方面优于以前的实时去噪模型。即使作为原始波形处理模型，该模型也能保持干净信号的高保真度，同时将可听伪影降至最低。此外，即使噪声输入被压缩至 4000Hz 和 4 位，该模型仍保持高性能，这表明在资源匮乏的环境中具有一般语音增强功能。代码可在 github.com/Brainchip-Inc/aTENNuate 获取

Lexicon3D：探索复杂 3D 场景理解的视觉基础模型

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习, 机器人技术

作者： Yunze Man, Shuhong Zheng, Zhipeng Bao, Martial Hebert, Liang-Yan Gui, Yu-Xiong Wang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03757v1

摘要： 复杂的 3D 场景理解越来越受到关注，场景编码策略在这一成功中发挥着至关重要的作用。然而，各种场景的最佳场景编码策略仍不清楚，特别是与基于图像的对应策略相比。为了解决这个问题，我们提出了一项全面的研究，探索用于 3D 场景理解的各种视觉编码模型，确定每个模型在不同场景中的优势和局限性。我们的评估涵盖七个视觉基础编码器，包括基于图像、基于视频和 3D 基础模型。我们在四个任务中评估这些模型：视觉语言场景推理、视觉基础、分割和配准，每个任务都侧重于场景理解的不同方面。我们的评估得出了重要结论：DINOv2 表现出卓越的性能，视频模型在对象级任务中表现出色，扩散模型有利于几何任务，语言预训练模型在语言相关任务中显示出意想不到的局限性。这些见解挑战了一些传统的理解，提供了利用视觉基础模型的新颖视角，并强调在未来的视觉语言和场景理解任务中需要更灵活的编码器选择。

WildVis：用于野外百万级聊天日志的开源可视化工具

分类： 计算和语言, 人工智能, 人机交互, 信息检索, 机器学习

作者： Yuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03753v1

摘要： 现实世界对话数据的可用性不断增加，为研究人员研究用户与聊天机器人的交互提供了令人兴奋的机会。然而，这些数据的庞大数量使得手动检查单个对话变得不切实际。为了克服这一挑战，我们推出了 WildVis，这是一种交互式工具，可以实现快速、多功能和大规模的对话分析。 WildVis 根据标准列表在文本和嵌入空间中提供搜索和可视化功能。为了管理百万级数据集，我们实施了优化，包括搜索索引构建、嵌入预计算和压缩以及缓存，以确保在几秒钟内响应用户交互。我们通过三个案例研究展示了 WildVis 的实用性：促进聊天机器人滥用研究、可视化和比较跨数据集的主题分布以及描述特定于用户的对话模式。 WildVis 是开源的，可扩展，支持额外的数据集以及定制的搜索和可视化功能。

LLM-CI：评估语言模型中的上下文完整性规范

分类： 机器学习, 人工智能, 密码学和安全, 计算机与社会

作者： Yan Shvartzshnaider, Vasisht Duddu, John Lacalamita

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03735v1

摘要： 大型语言模型（LLM）在记住从互联网上抓取的部分训练数据的同时，也可能会无意中编码社会偏好和规范。随着这些模型被整合到社会技术系统中，它们编码的规范与社会期望保持一致至关重要。这些规范可能因模型、超参数、优化技术和数据集而异。这尤其具有挑战性，因为提示的敏感性$-$提示的微小变化会产生不同的响应，从而使现有的评估方法不可靠。需要一个涵盖各种模型、优化和数据集的综合框架，以及评估编码规范的可靠方法。我们提出了 LLM-CI，这是第一个评估 LLM 中编码的隐私规范的开源框架。 LLM-CI 使用基于上下文完整性的阶乘插图方法来评估不同上下文和 LLM 的编码规范。我们提出了多提示评估方法，通过仅评估在多个变体中产生一致响应的提示的规范来解决提示敏感性。使用 LLM-CI 和我们提出的方法，我们使用先前工作中的 IoT 和 COPPA 插图数据集全面评估 LLM，检查模型属性（例如超参数、容量）和优化策略（例如对齐、量化）的影响。

用自然语言进行规划改进了大语言模型搜索代码生成

分类： 机器学习, 人工智能, 计算和语言

作者： Evan Wang, Federico Cassano, Catherine Wu, Yunfeng Bai, Will Song, Vaskar Nath, Ziwen Han, Sean Hendryx, Summer Yue, Hugh Zhang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03733v1

摘要： 虽然扩展训练计算已经导致大型语言模型 (LLM) 的显着改进，但扩展推理计算尚未产生类似的收益。我们假设核心缺失部分是缺乏多样化的 LLM 输出，由于模型重复采样高度相似但不正确的代，导致搜索效率低下。我们凭经验证明，可以通过搜索用自然语言解决问题的候选计划来缓解这种多样性的缺乏。基于这一见解，我们提出了 PLANSEARCH，这是一种新颖的搜索算法，它在 HumanEval+、MBPP+ 和 LiveCodeBench（竞争性编码的无污染基准）上显示出强大的结果。 PLANSEARCH 生成关于问题的一系列不同的观察结果，然后使用这些观察结果来构建解决问题的计划。通过用自然语言搜索计划而不是直接搜索代码解决方案，与基线搜索方法相比，PLANSEARCH 探索了更加多样化的潜在解决方案。在 Claude 3.5 Sonnet 之上使用 PLANSEARCH 在 LiveCodeBench 上实现了 77.0% 的最先进的 pass@200，优于没有搜索时获得的最佳分数 (pass@1 = 41.4%) 和使用标准重复采样 (pass@ 200 = 60.6%）。最后，我们表明，在所有分析的模型、搜索算法和基准测试中，我们可以准确预测搜索带来的性能增益，作为生成想法的多样性的直接函数。

一种具有差异隐私的分级文本保护机制

分类： 计算和语言, 人工智能

作者： Qingwen Fu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03707v1

摘要： 文章介绍了一种基于BERT预训练模型提取不同重要程度单词的方法，并证明了该方法的有效性。本文还讨论了对不同重要性的单词保持相同的扰动结果对整体文本效用的影响。该方法可应用于长文本保护。

通过零样本新颖视图合成进行视图不变策略学习

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Stephen Tian, Blake Wulfe, Kyle Sargent, Katherine Liu, Sergey Zakharov, Vitor Guizilini, Jiajun Wu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03685v1

摘要： 大规模视觉运动政策学习是开发通用操纵系统的一种有前途的方法。然而，可以在不同的实施例、环境和观察方式上部署的策略仍然难以捉摸。在这项工作中，我们研究了如何使用来自世界大规模视觉数据的知识来解决可概括性操作的一个变异轴：观察视角。具体来说，我们研究单图像新颖的视图合成模型，该模型通过给定单个输入图像从备用相机视点渲染同一场景的图像来学习 3D 感知场景级先验。为了实际应用到不同的机器人数据，这些模型必须进行零样本操作，对看不见的任务和环境执行视图合成。我们在一个简单的数据增强方案中对视图合成模型进行实证分析，我们称之为视图合成增强（VISTA），以了解它们从单视点演示数据中学习视点不变策略的能力。在评估使用我们的方法对分布外摄像机视点训练的策略的稳健性时，我们发现它们在模拟和现实世界的操纵任务中都优于基线。视频和其他可视化效果可在 https://s-tian.github.io/projects/vista 上找到。

TRACE-cs：课程安排问题中对比解释的可信推理

分类： 人工智能

作者： Stylianos Loukas Vasileiou, William Yeoh

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03671v1

摘要： 我们提出了 TRACE-cs，这是一种新颖的混合系统，它将符号推理与大型语言模型 (LLM) 相结合，以解决调度问题中的对比查询。 TRACE-cs 利用 SAT 求解技术对调度约束进行编码并生成用户查询的解释，同时利用 LLM 将用户查询处理为逻辑子句，并将符号求解器生成的解释细化为自然语言句子。通过集成这些组件，我们的方法展示了将符号方法与大语言模型相结合的潜力，以创建具有正确性保证的可解释的人工智能代理。

一种高维过程漂移检测基准方法

分类： 机器学习, 人工智能, 机器学习

作者： Edgar Wolf, Tobias Windisch

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03669v1

摘要： 工艺曲线是来自制造工艺的多变量有限时间序列数据。本文研究了过程曲线漂移的机器学习方法。引入了一种以受控方式综合生成过程曲线的理论框架，以便对用于过程漂移检测的机器学习算法进行基准测试。引入了称为曲线下时间区域的评估分数，它可以量化机器学习模型揭示属于漂移段的曲线的程度。最后，一项基准研究比较了使用所介绍的框架生成的合成数据的流行机器学习方法。

通过与人类脑电图共同训练对象识别模型，在对抗鲁棒性方面取得有限但一致的收益

分类： 机器学习, 人工智能, 人机交互

作者： Manshan Guo, Bhavin Choksi, Sari Sadiya, Alessandro T. Gifford, Martina G. Vilas, Radoslaw M. Cichy, Gemma Roig

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03646v1

摘要： 与人类视觉相比，人工神经网络（ANN）仍然相对容易受到对抗性攻击。为了解决这一漏洞，人们努力将归纳偏差从人脑转移到人工神经网络，通常是通过训练人工神经网络表示来匹配其生物对应物。以前的工作依赖于在非自然条件下（麻醉动物）使用侵入性技术从大脑特定区域获取的啮齿动物或灵长类动物的大脑数据，以及缺乏多样性和自然性的刺激数据集。在这项工作中，我们探讨了将模型表示与人类脑电图对一组丰富的现实世界图像的响应对齐是否可以提高人工神经网络的鲁棒性。具体来说，我们在分类和脑电图预测的双重任务上训练了 ResNet50-backbone 模型；并评估了他们的脑电图预测准确性和对抗性攻击的鲁棒性。我们观察到网络的脑电图预测准确性（通常在刺激发生后 100 毫秒左右最高）与其对抗稳健性的增益之间存在显着相关性。尽管效果大小有限，但不同随机初始化的效果是一致的，并且对于架构变体来说是稳健的。我们进一步梳理了各个脑电图通道的数据，并观察到顶枕区电极的最强贡献。人类脑电图在此类任务中的实用性为未来的努力开辟了途径，这些努力可以在不同的刺激条件下扩展到更大的数据集，并有望产生更强的效果。

多模态喉镜视频分析辅助诊断声带麻痹

分类： 声音, 人工智能, 音频和语音处理

作者： Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Faya Liang, Ming Li

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03597v1

摘要： 本文介绍了喉镜多模态分析系统（MASL），该系统结合音频和视频数据，自动从喉视频频闪视频中提取关键片段和指标以进行临床评估。 MASL 将声门检测与关键词识别相结合，以分析患者发声并优化视频亮点，以便更好地检查声带运动。该系统包括一个选通视频提取模块，该模块通过分析色调、饱和度和值波动来识别帧。 MASL 还为声带麻痹检测提供了有效的指标，采用 U-Net 进行两阶段声门分割过程，然后进行基于扩散的细化以减少误报。 MASL 不是声门区域波形，而是从声门罩估计前声门角波形 (AGAW)，评估左右声带以检测单侧声带麻痹 (UVFP)。通过比较 AGAW 方差，MASL 可以区分左侧和右侧麻痹。对公共和现实世界数据集的消融研究和实验验证了 MASL 的分割模块，并证明了其为 UVFP 诊断提供可靠指标的能力。

您只需要 100 个实例：通过在几个实例上进行测试来预测新的 LLM 在未见数据上的成功

分类： 计算和语言, 人工智能, 机器学习

作者： Lorenzo Pacchiardi, Lucy G. Cheke, José Hernández-Orallo

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03563v1

摘要： 预测大语言模型在单个任务实例上的性能对于确保其在高风险应用程序中的可靠性至关重要。为此，一种可能性是在一组任务实例上评估所考虑的大语言模型，并训练评估者根据实例的特征预测其表现。然而，这种方法需要在足够大的任务实例集上评估每个新的大语言模型，以培训专门针对它的评估员。在这项工作中，我们利用之前测试的大语言模型的评估结果来减少预测新大语言模型表现所需的评估数量。在实践中，我们建议在一小组参考实例上测试新的 LLM，并训练一个通用评估器，该评估器根据前者在参考集上的性能和感兴趣实例的特征来预测 LLM 在实例上的性能。我们对 HELM-Lite 和 KindsOfReasoning 进行实证研究，这是我们引入的现有推理数据集的集合，我们在其中评估所有经过指令微调的 OpenAI 模型，直到 2024 年 1 月版本的 GPT4。当预测与用于训练通用评估器的分布相同的实例的性能时，我们发现这实现了与在全套实例上训练的 LLM 特定评估器相当的性能。此外，我们发现随机选择参考实例的效果与我们测试的一些高级选择方法一样好。然而，对于分布外的情况，没有出现明显的赢家，并且整体表现较差，这表明大语言模型的固有可预测性较低。

DKDM：任何架构的扩散模型的无数据知识蒸馏

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Qianlong Xiang, Miao Zhang, Yuzhang Shang, Jianlong Wu, Yan Yan, Liqiang Nie

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03550v1

摘要： 扩散模型 (DM) 在各个领域都表现出了卓越的生成能力，但在部署过程中却受到缓慢的推理速度和高计算需求的阻碍。加速 DM 的最常见方法是减少生成过程中的去噪步骤数量，这是通过更快的采样求解器或知识蒸馏 (KD) 来实现的。与之前的方法相比，我们提出了一种新颖的方法，将大型预训练 DM 的功能转移到更快的架构。具体来说，我们以一种独特的方式使用 KD 来压缩 DM，将其生成能力提炼成更快速的变体。此外，考虑到源数据对于当前的生成模型来说要么无法访问，要么太大而无法存储，我们引入了一种新的范式，用于在没有源数据的情况下进行蒸馏，称为扩散模型的无数据知识蒸馏（DKDM）。一般来说，我们建立的 DKDM 框架包含两个主要组成部分：1）DKDM 目标，使用预训练 DM 生成的合成去噪数据来优化更快的 DM，无需源数据；2）动态迭代蒸馏方法，灵活组织去噪数据的合成，防止它因生成缓慢而减慢优化过程。据我们所知，这是使用 KD 以无数据方式将 DM 提炼到任何架构中的首次尝试。重要的是，我们的 DKDM 与大多数现有的加速方法正交，例如去噪步骤减少、量化和剪枝。实验表明，我们的 DKDM 能够生成速度提高 2 倍的 DM，并且性能与基线保持一致。值得注意的是，我们的 DKDM 使预训练的 DM 能够充当训练新 DM 的“数据集”。

预测准确性和可靠性：分布变化下的分类和对象定位

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Fabian Diet, Moussa Kassem Sbeyti, Michelle Karg

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03543v1

摘要： 自然分布偏移会导致卷积神经网络 (CNN) 的感知性能恶化。这种对现实世界交通数据的全面分析解决了：1) 研究自然分布变化和天气增强对检测质量和置信度估计的影响，2) 评估分类和对象定位的模型性能，以及 3) 对两种常见的不确定性进行基准测试量化方法 - 集合和蒙特卡罗 (MC) Dropout 的不同变体 - 在自然和接近自然的分布变化下。为此，我们从公开的自动驾驶数据集中整理了一个新颖的数据集。分布内 (ID) 数据基于单个对象的剪切图，类和边界框注释均可用。六个分布变化数据集涵盖恶劣天气场景、模拟雨雾、极端情况和分布外数据。对分布偏移下的 CNN 进行粒度分析可以量化不同类型的偏移对任务性能和置信度估计的影响：ConvNeXt-Tiny 比 EfficientNet-B0 更稳健；大雨对分类的影响强于定位，与大雾相反；将 MC-Dropout 集成到选定的层中仅具有增强任务性能和置信度估计的潜力，其中这些层的识别取决于分布偏移的类型和所考虑的任务。

LMLT：用于图像超分辨率的从低到高的多级视觉转换器

分类： 计算机视觉和模式识别, 人工智能

作者： Jeongsoo Kim, Jongho Nang, Junsuk Choe

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03516v1

摘要： 最近基于 Vision Transformer (ViT) 的图像超分辨率方法已经展现出令人印象深刻的性能。然而，它们的复杂性很高，导致推理时间和内存使用量很高。此外，使用窗口自注意力（WSA）的 ViT 模型在处理窗口外的区域时面临挑战。为了解决这些问题，我们提出了从低到高的多级变压器（LMLT），它利用每个头不同特征尺寸的注意力。 LMLT沿着通道维度划分图像特征，逐渐减小较低头部的空间尺寸，并对每个头部应用自注意力。这种方法有效地捕获本地和全球信息。通过将低头的结果整合到高头的结果中，LMLT 克服了自注意力中的窗口边界问题。大量实验表明，我们的模型显着减少了推理时间和 GPU 内存使用量，同时保持甚至超越了最先进的基于 ViT 的图像超分辨率方法的性能。我们的代码可在 https://github.com/jwgdmkj/LMLT 获取。

尽管质量评级积极，但人工智能生成的新闻的披露增加了参与度，但并没有减少厌恶感

分类： 计算机与社会, 人工智能

作者： Fabrizio Gilardi, Sabrina Di Lorenzo, Juri Ezzaini, Beryl Santa, Benjamin Streiff, Eric Zurfluh, Emma Hoes

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03500v1

摘要： 人工智能（AI）的进步导致其在包括新闻业在内的许多领域得到应用。一个关键问题是公众对人工智能生成内容的看法。这项预先注册的研究调查了（i）人工智能辅助和人工智能生成的新闻文章与人类生成的新闻文章的感知质量，（ii）披露人工智能参与生成这些新闻文章是否会影响他们的参与度，以及（iii）这种意识是否影响未来阅读人工智能生成文章的意愿。我们对来自瑞士德语区的 599 名参与者进行了一项受试者间调查实验，他们评估了新闻文章的可信度、可读性和专业性。这些文章要么由记者撰写（对照组），要么由人工智能重写（人工智能辅助组），或者完全由人工智能生成（人工智能生成组）。我们的结果表明，所有新闻文章，无论是由记者还是人工智能撰写，都被认为具有相同的质量。当治疗组的参与者随后意识到人工智能参与生成文章时，他们比对照组的参与者表达了更高的参与（即继续阅读）文章的意愿。然而，他们未来并不太愿意阅读人工智能生成的新闻。这些结果表明，新闻媒体对人工智能使用的厌恶并不是主要源于质量缺乏，而且通过披露人工智能的使用，记者可以吸引更多人直接参与他们的内容，至少在短期内是这样。

改善深贝叶斯医学图像分割中的不确定性-误差对应性

分类： 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习

作者： Prerak Mody, Nicolas F. Chaves-de-Plaza, Chinmay Rao, Eleftheria Astrenidou, Mischa de Ridder, Nienke Hoekstra, Klaus Hildebrandt, Marius Staring

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03470v1

摘要： 在医学图像分割中越来越多地使用深度学习等自动化工具，缓解了手动轮廓绘制的瓶颈。这已将体力劳动转变为自动轮廓的质量评估 (QA)，其中包括检测错误并纠正错误。半自动 QA 的一个潜在解决方案是使用深度贝叶斯不确定性来推荐潜在错误区域，从而减少错误检测所花费的时间。以前的工作已经研究了不确定性和误差之间的对应关系，但是，没有进行任何工作来改进贝叶斯不确定性图的“效用”，使其仅存在于不准确的区域中，而不存在于准确的区域中。我们的工作使用准确性与不确定性（AvU）损失来训练 FlipOut 模型，这使得不确定性仅出现在不准确的区域中。我们将此方法应用于两个放射治疗身体部位的数据集，参见头颈 CT 和前列腺 MR 扫描。使用接受者操作特征 (ROC) 和精确召回 (PR) 曲线根据体素不准确性评估不确定性热图（即预测熵）。数值结果表明，与贝叶斯基线相比，所提出的方法成功地抑制了准确体素的不确定性，并且不准确体素也存在类似的不确定性。重现实验的代码可在 https://github.com/prerakmody/bayesuncertainty-error-correspondence 找到

表征图神经网络中注意力机制的大规模激活

分类： 机器学习, 人工智能

作者： Lorenzo Bini, Marco Sorbi, Stephane Marchand-Maillet

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03463v1

摘要： 图神经网络（GNN）在使用图结构对数据进行有效建模方面变得越来越流行。最近，注意力机制已被集成到 GNN 中，以提高其捕获复杂模式的能力。本文提出了第一个全面的研究，揭示了这种整合的一个关键的、未经探索的后果：注意力层内大规模激活（MA）的出现。我们介绍了一种检测和分析 MA 的新方法，重点关注不同图转换器架构中的边缘特征。我们的研究使用基准数据集评估各种 GNN 模型，包括 ZINC、TOX21 和 PROTEINS。主要贡献包括 (1) 在 GNN 中建立注意力机制和 MA 生成之间的直接联系，(2) 基于激活率分布开发可靠的 MA 定义和检测方法，(3) 引入显式偏差项 (EBT) 作为潜在的对策，并将其作为对抗框架进行探索，以根据 MA 的存在或不存在来评估模型的稳健性。我们的研究结果强调了注意力诱导的 MA 在不同架构（例如 GraphTransformer、GraphiT 和 SAN）中的普遍性和影响。该研究揭示了注意力机制、模型架构、数据集特征和 MA 出现之间复杂的相互作用，为开发更强大、更可靠的图模型提供了重要的见解。

多少数据才算足够的数据？微调内部翻译的大型语言模型：跨多个数据集大小的性能评估

分类： 计算和语言, 人工智能

作者： Inacio Vieira, Will Allred, Seamus Lankford, Sheila Castilho Monteiro De Sousa, Andy Way

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03454v1

摘要： 仅解码器的大语言模型由于能够从广泛的数据集中学习并生成高质量的翻译，因此在机器翻译方面表现出了令人印象深刻的表现。然而，大语言模型常常难以应对特定组织翻译所需的细微差别和风格。在这项研究中，我们探索了微调大型语言模型 (LLM)（特别是 Llama 3 8B Instruct）的有效性，利用翻译记忆库 (TM) 作为提高准确性和效率的宝贵资源。我们研究了使用软件领域特定组织的 TM 微调 Llama 3 模型的影响。我们的实验涵盖了不同资源水平的语言的五个翻译方向（英语到巴西葡萄牙语、捷克语、德语、芬兰语和韩语）。我们分析不同大小的训练数据集（1k 到 207k 片段），以评估它们对翻译质量的影响。我们为每个训练集微调单独的模型，并根据自动指标、BLEU、chrF++、TER 和 COMET 评估其性能。我们的研究结果表明，在所有指标上使用更大的数据集可以提高翻译性能。平均而言，相对于基线模型，在最大训练集上，BLEU 和 COMET 分数分别增加了 13 分和 25 分。值得注意的是，当仅对 1k 和 2k 示例进行微调时，与基线模型相比，性能会下降；然而，随着训练数据集大小的增加，我们观察到了显着的改进。该研究强调了将翻译硕士与大语言模型相结合，创建适合企业特定需求的定制翻译模型的潜力，从而提高翻译质量并缩短周转时间。这种方法为寻求利用 TM 和 LLM 获得最佳翻译结果的组织（尤其是在较小的领域）提供了宝贵的见解。

微调大型语言模型以适应领域：探索训练策略、扩展、模型合并和协同能力

分类： 计算和语言, 材料科学, 人工智能

作者： Wei Lu, Rachel K. Luu, Markus J. Buehler

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03444v1

摘要： 材料科学和工程等领域应用的大型语言模型 (LLM) 的进步取决于微调策略的开发，使模型适应专业的技术能力。在这项工作中，我们探讨了持续预训练（CPT）、监督微调（SFT）和各种基于偏好的优化方法（包括直接偏好优化（DPO）和比值比偏好优化（ORPO））对微调的影响。调整了LLM表现。我们的分析显示了这些策略如何影响模型结果，并揭示了多个微调模型的合并可以导致超越父模型的单独贡献的能力的出现。我们发现模型合并带来了父模型无法单独实现的新功能，从而提高了特定领域评估的性能。介绍了不同模型架构的实验，包括 Llama 3.1 8B 和 Mistral 7B 模型，其中观察到了类似的行为。为了探索结果是否也适用于更小的模型，我们使用了一个具有 17 亿个参数的小型 LLM，并表明非常小的 LLM 不一定具有模型合并下的新兴功能，这表明模型扩展可能是一个关键组成部分。在人类和人工智能模型之间开放式但一致的聊天对话中，我们的评估揭示了对不同模型变体如何执行的详细见解，并表明最小的模型在推理深度、创造力、清晰度和定量等关键标准上获得了高智力分数精确。其他实验包括基于不同的生物材料设计概念开发图像生成提示，以基于生物材料启发的建筑原理创建新的微观结构、建筑概念和城市设计。

KiloBot：一种用于大规模部署感知引导工业机械手的编程语言

分类： 机器人技术, 人工智能, 编程语言

作者： Wei Gao, Jingqiang Wang, Xinv Zhu, Jun Zhong, Yue Shen, Youshuang Ding

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03439v1

摘要： 我们希望工业机器人能够通过摄像头和感知管道来处理非结构化环境。与重放离线制作轨迹的传统工业机器人相比，这些感知引导的工业应用需要在线行为规划。除了感知和规划算法之外，部署感知引导的机械手还需要在集成方面付出大量努力。一种方法是用传统语言（例如Python）编写脚本来构建规划问题并与其他算法模块和外部设备进行集成。虽然 Python 脚本对于少数机器人和应用程序来说是可行的，但大规模部署感知引导的操作（例如，2000 多个客户站点中的 10000 多个机器人工作站）变得棘手。为了解决这一挑战，我们提出了一种用于感知引导操作应用程序的领域特定语言（DSL）。为了扩大部署规模，我们的 DSL 提供：1）一个易于访问的接口，用于构建和解决在实际应用中很重要的任务和运动规划（TAMP）问题的子类； 2) 一种实施灵活控制流的机制，以执行集成并满足不同工业应用的定制需求。结合直观的图形编程前端，我们的 DSL 主要由没有传统编程语言编码经验的机器操作员使用。在几个小时的培训内，操作员能够使用我们的 DSL 编排有趣的复杂操作行为。广泛的实际部署证明了我们方法的有效性。

用于优化表面检测轮廓传感器轨迹的强化学习方法

分类： 机器人技术, 人工智能

作者： Sara Roos-Hoefgeest, Mario Roos-Hoefgeest, Ignacio Alvarez, Rafael C. González

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03429v1

摘要： 制造过程中高精度表面缺陷检测对于确保质量控制至关重要。激光三角测量轮廓传感器是此过程的关键，可提供详细且准确的直线表面测量。为了实现完整、精确的表面扫描，需要传感器和工件之间精确的相对运动。控制传感器姿态以保持与表面的最佳距离和相对方向至关重要。确保整个扫描过程中轮廓分布均匀也很重要。本文提出了一种基于强化学习 (RL) 的新颖方法来优化轮廓测量传感器的机器人检查轨迹。基于 Boustropedon 扫描方法，我们的技术动态调整传感器位置和倾斜，以保持最佳方向和距表面的距离，同时还确保一致的轮廓距离，以实现均匀和高质量的扫描。利用基于零件 CAD 模型的模拟环境，我们复制了真实世界的扫描条件，包括传感器噪声和表面不规则性。这种基于仿真的方法可实现基于 CAD 模型的离线轨迹规划。主要贡献包括状态空间、动作空间和奖励函数的建模，专门为使用轮廓测量传感器的检查应用而设计。我们使用近端策略优化 (PPO) 算法来有效地训练 RL 代理，展示其利用轮廓测量传感器优化检查轨迹的能力。为了验证我们的方法，我们进行了几次实验，在模拟中的各个部分上测试了在特定训练件上训练的模型。此外，我们还通过执行从 CAD 模型离线生成的优化轨迹进行了实际实验，以使用 UR3e 机械臂模型检查零件。

KAN 在黑暗中看到

分类： 计算机视觉和模式识别, 人工智能

作者： Aoxiang Ning, Minglong Xue, Jinhong He, Chengyun Song

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03404v1

摘要： 由于光照不均匀和噪声影响，现有的弱光图像增强方法难以拟合正常图像和弱光图像之间复杂的非线性关系。最近提出的柯尔莫哥洛夫-阿诺德网络（KAN）具有基于样条的卷积层和可学习的激活函数，可以有效地捕获非线性依赖性。在本文中，我们设计了基于KAN的KAN-Block，并创新地将其应用于低光图像增强。该方法有效缓解了当前方法受线性网络结构限制和缺乏可解释性的限制，进一步展示了 KAN 在低级视觉任务中的潜力。鉴于当前低光图像增强方法的感知较差以及逆扩散过程的随机性，我们进一步引入频域感知来进行视觉定向增强。大量的实验证明了我们的方法在基准数据集上的竞争性能。该代码位于：https://github.com/AXNing/KSID}{https://github.com/AXNing/KSID。

游戏开始：作为 RL 实验者走向语言模型

分类： 人工智能, 机器人技术

作者： Jingwei Zhang, Thomas Lampe, Abbas Abdolmaleki, Jost Tobias Springenberg, Martin Riedmiller

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03402v1

摘要： 我们提出了一种代理架构，可以自动执行部分常见的强化学习实验工作流程，以实现对具体代理的控制域的自动掌握。为此，它利用 VLM 来执行人类实验者通常需要的一些功能，包括监控和分析实验进度、根据代理过去的成功和失败提出新任务、将任务分解为序列子任务（技能），并检索执行技能 - 使我们的系统能够构建自动化的学习课程。我们相信，这是在强化学习的整个实验周期中利用 VLM 的系统的首批提案之一。我们提供该系统的第一个原型，并检查当前模型和技术达到所需自动化水平的可行性。为此，我们使用标准的 Gemini 模型，无需额外的微调，为语言条件的 Actor-Critic 算法提供技能课程，以引导数据收集，从而帮助学习新技能。以这种方式收集的数据被证明对于学习和迭代改进机器人领域的控制策略很有用。对系统建立不断增长的技能库以及判断这些技能培训进度的能力的额外检查也显示出有希望的结果，这表明所提出的架构为完全自动化掌握任务和领域提供了潜在的秘诀对于具体代理人。

大语言模型的硬件加速：全面调查和比较

分类： 硬件架构, 人工智能

作者： Nikoletta Koilia, Christoforos Kachris

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03384v1

摘要： 大型语言模型 (LLM) 已成为自然语言处理任务的强大工具，以其理解和生成类人文本的能力彻底改变了该领域。在本文中，我们对使用硬件加速器加速大型语言模型的变压器网络的多项研究工作进行了全面的调查。该调查介绍了已提出的框架，然后对技术、处理平台（FPGA、ASIC、内存中、GPU）、加速比、能源效率、性能（GOP）和每个框架的能源效率（GOPs/W）。比较的主要挑战是每个提出的方案都是在不同的工艺技术上实现的，因此很难进行公平的比较。本文的主要贡献在于，我们推断了相同技术的性能和能源效率的结果，以进行公平的比较；一个是理论的，一个是实践的。我们在多个 FPGA 芯片上实现了部分 LLM，将结果外推到相同的工艺技术，然后对性能进行公平的比较。

CogniDual 框架：在双系统理论框架内自训练大型语言模型以改善认知任务

分类： 计算和语言, 人工智能

作者： Yongxin Deng, Xihe Qiu, Xiaoyu Tan, Chao Qu, Jing Pan, Yuan Cheng, Yinghui Xu, Wei Chu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03381v1

摘要： 认知心理学研究感知、注意力、记忆、语言、解决问题、决策和推理。卡尼曼的双系统理论阐明了人类决策过程，区分了快速、直观的系统 1 和深思熟虑、理性的系统 2。最近的进展将大型语言模型 (LLM) 定位为强大的工具，在各种认知方面接近人类水平的熟练程度任务。尽管如此，大语言模型中是否存在类似于人类认知的双系统框架仍有待探索。本研究引入了大语言模型认知双重框架（CFLLM），旨在评估大语言模型是否可以通过自我训练，从刻意演绎演变成直觉反应，从而模拟人类获取和掌握新信息的过程。我们的研究结果揭示了大语言模型反应生成背后的认知机制，增强了我们对其认知心理学能力的理解。实际上，自训练模型可以对某些查询提供更快的响应，从而减少推理过程中的计算需求。

通过深度状态空间建模增强原始语音

分类： 声音, 人工智能, 机器学习, 音频和语音处理

作者： Yan Ru Pei, Ritik Shrivastava, FNU Sidharth

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03377v1

通过自然语言处理利用大型语言模型，实时提供可解释的机器学习对精神恶化的预测

分类： 计算和语言, 人工智能, 机器学习

作者： Francisco de Arriba-Pérez, Silvia García-Méndez

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03375v1

摘要： 据官方估计，全球有 5000 万人受到痴呆症的影响，并且这个数字每年以 1000 万新患者的速度增加。如果没有治愈方法，临床预测和早期干预是延缓其进展的最有效方法。为此，可以利用人工智能和计算语言学进行自然语言分析、个性化评估、监测和治疗。然而，传统方法需要更多的语义知识管理和可解释性能力。此外，使用大型语言模型（LLM）进行认知衰退诊断仍然很少，尽管这些模型代表了使用智能系统进行临床与患者沟通的最先进方式。因此，我们利用大语言模型在聊天机器人解决方案中使用最新的自然语言处理 (NLP) 技术，实时提供可解释的机器学习认知衰退预测。利用语言概念特征进行适当的自然语言分析。通过可解释性，我们的目标是消除模型的潜在偏差，并提高其帮助临床工作者做出诊断决策的潜力。更详细地说，所提出的管道由以下部分组成：（i）采用基于 NLP 的提示工程进行数据提取； (ii) 基于流的数据处理，包括特征工程、分析和选择； (iii) 实时分类； (iv) 可解释性仪表板，提供预测结果的视觉和自然语言描述。所有评估指标的分类结果均超过 80%，其中精神退化类别的召回值约为 85%。总而言之，我们为这项工作贡献了一个负担得起的、灵活的、非侵入性的、个性化的诊断系统。

Sketch：简化 LLM 操作的工具包

分类： 计算和语言, 人工智能

作者： Xin Jiang, Xiang Li, Wenjia Ma, Xuezhi Fang, Yiqun Yao, Naitong Yu, Xuying Meng, Peng Han, Jing Li, Aixin Sun, Yequan Wang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03346v1

摘要： 以GPT家族为代表的大型语言模型（LLM）取得了令人瞩目的成功。大语言模型的特点在于它们能够通过生成方法来适应广泛的任务。然而，其输出格式的灵活性给控制和利用模型输出带来了挑战，从而限制了大语言模型在各个领域的应用。在这项工作中，我们推出了 Sketch，这是一个创新工具包，旨在简化跨不同领域的大语言模型操作。 Sketch 包含以下组件：（1）一套包含各种 NLP 任务的任务描述模式和提示模板； (2) 一个用户友好的交互式流程，用于构建针对各种 NLP 任务量身定制的结构化输出 LLM 服务； (3) 用于输出格式控制的开源数据集，以及数据集构建工具； (4) 基于 LLaMA3-8B-Instruct 的开源模型，能够熟练理解并遵守输出格式化指令。我们预计这一举措将为LLM用户带来相当大的便利，实现各种应用程序“即插即用”的目标。 Sketch 的组件将在 https://github.com/cofe-ai/Sketch 上逐步开源。

基于 YOLO-PPA 的自动驾驶巡航控制高效交通标志检测

分类： 计算机视觉和模式识别, 人工智能

作者： Jingyu Zhang, Wenqing Zhang, Chaoyi Tan, Xiangtian Li, Qianyi Sun

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03320v1

摘要： 在自动驾驶系统中高效、准确地检测交通标志非常重要。然而，距离越远，交通标志就越小。现有的目标检测算法很难检测到这些小尺度的标志。此外，车辆上嵌入式设备的性能限制了检测模型的规模。为了解决这些挑战，本文提出了一种基于YOLO PPA的交通标志检测算法。 GTSDB数据集上的结果表明，与原始YOLO相比，该方法推理效率提高了11.2%。 mAP 50 也提高了 93.2%，这证明了所提出的 YOLO PPA 的有效性。

语言建模的 N 元语法预测和词差异表示

分类： 计算和语言, 人工智能

作者： DongNyeong Heo, Daniela Noemi Rim, Heeyoul Choi

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03295v1

摘要： 因果语言模型 (CLM) 是支撑近期大型语言模型 (LLM) 取得巨大成功的基础框架。尽管取得了成功，但下一个单词预测的训练方法存在潜在风险，导致模型过度关注句子中的局部依赖关系。虽然之前的研究已经被引入来同时预测未来 N 个单词，但它们主要应用于诸如掩码语言建模 (MLM) 和神经机器翻译 (NMT) 等任务。在本研究中，我们为 CLM 任务引入了一个简单的 N-gram 预测框架。此外，我们在 N-gram 预测框架的基础上引入词差异表示（WDR）作为模型训练期间的替代和上下文目标表示。为了进一步提高下一个单词预测的质量，我们提出了一种融合未来 N 个单词预测结果的集成方法。涵盖 CLM 和 NMT 任务的多个基准数据集的实证评估证明了我们提出的方法相对于传统 CLM 的显着优势。

LLM 检测器仍然达不到现实世界：LLM 生成的类似新闻的短帖子案例

分类： 计算和语言, 人工智能, 密码学和安全, 机器学习, I.2.7; K.6.5

作者： Henrique Da Silva Gameiro, Andrei Kucharavy, Ljiljana Dolamic

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03291v1

摘要： 随着广泛可用的强大的大语言模型的出现，大型语言模型（LLM）产生的虚假信息已成为一个主要问题。从历史上看，LLM 检测器一直被誉为一种解决方案，但它们在现实世界中的有效性仍有待证明。在本文中，我们重点关注信息操作中的一个重要设置——由中等复杂的攻击者生成的类似新闻的短帖子。我们证明现有的 LLM 检测器，无论是零样本还是专门训练的，都还没有准备好在该环境中实际使用。所有经过测试的零样本探测器的性能与之前的基准测试不一致，并且非常容易受到采样温度升高的影响，这是最近的基准测试中没有的微不足道的攻击。可以开发出一种针对 LLM 和看不见的攻击进行泛化的专门训练的检测器，但它无法泛化到新的人类编写的文本。我们认为，前者表明需要针对特定领域的基准测试，而后者则表明在对抗性规避弹性和对参考人类文本的过度拟合之间进行权衡，两者都需要在基准测试中进行评估，但目前尚不存在。我们认为，这建议重新考虑当前的 LLM 检测器基准测试方法，并提供一个动态可扩展的基准测试来允许它 (https://github.com/Reliable-Information-Lab-HEVS/dynamic_llm_ detector_benchmark)。

iText2KG：使用大型语言模型构建增量知识图

分类： 人工智能, 计算和语言, 信息检索

作者： Yassir Lairgi, Ludovic Moncla, Rémy Cazabet, Khalid Benabdeslem, Pierre Cléau

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03284v1

摘要： 大多数可用数据都是非结构化的，这使得访问有价值的信息变得困难。自动构建知识图（KG）对于构建数据并使其可访问至关重要，从而使用户能够有效地搜索信息。 KG 还有助于洞察、推理和推理。传统的 NLP 方法（例如命名实体识别和关系提取）是信息检索的关键，但也面临局限性，包括使用预定义实体类型和需要监督学习。当前的研究利用了大型语言模型的功能，例如零次或几次学习。然而，未解决的和语义重复的实体和关系仍然构成挑战，导致图表不一致并需要大量的后处理。此外，大多数方法都是与主题相关的。在本文中，我们提出了 iText2KG，一种无需后处理即可增量、主题无关的知识图谱构建方法。这种即插即用、零样本的方法适用于广泛的知识图谱构建场景，包括四个模块：文档蒸馏器、增量实体提取器、增量关系提取器、图集成器和可视化。与基线方法相比，我们的方法在以下三种情况下表现出了卓越的性能：将科学论文转换为图表、将网站转换为图表、将简历转换为图表。

ChartMoE：用于高级图表理解的专家连接器的混合

分类： 人工智能, 计算和语言, 计算机视觉和模式识别

作者： Zhengzhuo Xu, Bowen Qu, Yiyan Qi, Sinan Du, Chengjin Xu, Chun Yuan, Jian Guo

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03277v1

摘要： 自动图表理解对于内容理解和文档解析至关重要。多模态大语言模型 (MLLM) 通过特定领域的对齐和微调在图表理解方面表现出了卓越的能力。然而，对齐训练在图表领域的应用仍未得到充分探索。为了解决这个问题，我们提出了 ChartMoE，它采用专家混合 (MoE) 架构来取代传统的线性投影仪来弥合模态差距。具体来说，我们通过不同的对齐任务训练多个线性连接器，这些任务被用作不同专家的基础初始化参数。此外，我们还引入了 ChartMoE-Align，这是一个包含超过 900K 个图表-表格-JSON-代码四元组的数据集，用于执行三个对齐任务（图表-表格/JSON/代码）。结合vanilla连接器，我们以四种不同的方式初始化不同的专家，并采用高质量的知识学习来进一步细化MoE连接器和LLM参数。大量的实验证明了 MoE 连接器和我们的初始化策略的有效性，例如，ChartMoE 在 ChartQA 基准上将之前最先进的精度从 80.48% 提高到 84.64%。

大型语言模型攻防方法的最新进展

分类： 密码学和安全, 人工智能

作者： Jing Cui, Yishi Xu, Zhewei Huang, Shuchang Zhou, Jianbin Jiao, Junge Zhang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03274v1

摘要： 大型语言模型 (LLM) 通过其先进的文本处理和生成功能彻底改变了人工智能和机器学习。然而，它们的广泛部署引起了重大的安全性和可靠性问题。深度神经网络中已存在的漏洞，加上新兴的威胁模型，可能会损害安全评估并产生错误的安全感。鉴于 LLM 安全领域的广泛研究，我们相信总结当前状况将有助于研究界更好地了解当前形势并为未来发展提供信息。本文回顾了当前关于大语言模型漏洞和威胁的研究，并评估了当代防御机制的有效性。我们分析了有关攻击向量和模型弱点的最新研究，提供对攻击机制和不断变化的威胁形势的见解。我们还研究了当前的防御策略，强调了它们的优点和局限性。通过对比攻击和防御方法的进步，我们发现了研究差距并提出了增强大语言模型安全性的未来方向。我们的目标是增进对大语言模型安全挑战的理解，并指导开发更强大的安全措施。

战略思维链：通过策略启发指导大语言模型的准确推理

分类： 人工智能, 计算和语言, 人机交互

作者： Yu Wang, Shiwan Zhao, Zhihu Wang, Heyuan Huang, Ming Fan, Yubo Zhang, Zhixing Wang, Haijun Wang, Ting Liu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03271v1

摘要： 思想链 (CoT) 范式已成为增强大型语言模型 (LLM) 推理能力的关键方法。然而，尽管 CoT 方法被广泛采用并取得了成功，但由于它们无法始终如一地确保生成的推理路径的质量，从而导致推理性能不佳，因此经常表现出不稳定。为了应对这一挑战，我们提出了\textbf{战略思想链}（SCoT），这是一种新颖的方法，旨在通过在生成中间推理步骤之前整合战略知识来提高大语言模型的绩效。 SCoT 在单个提示中采用两阶段方法：首先引出有效的问题解决策略，然后用于指导生成高质量的 CoT 路径和最终答案。我们在八个具有挑战性的推理数据集上进行的实验证明了显着的改进，包括使用 Llama3-8b 模型在 GSM8K 数据集上提高了 21.05%，在 TrackingObjects 数据集上分别提高了 24.13%。此外，我们扩展了 SCoT 框架，开发了一种具有自动匹配演示的小样本方法，产生了更强大的结果。这些发现强调了 SCoT 的功效，强调了其在复杂推理任务中大幅提高大语言模型表现的潜力。

骨骼不可能是三角形：通过协作误差修正准确高效的椎骨关键点估计

分类： 计算机视觉和模式识别, 人工智能

作者： Jinhee Kim, Taesung Kim, Jaegul Choo

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03261v1

摘要： 交互式关键点估计方法的最新进展提高了准确性，同时最大限度地减少了用户干预。然而，这些方法需要用户输入进行纠错，这在不准确的关键点密集聚集或重叠的椎骨关键点估计中成本高昂。我们引入了一种新颖的方法 KeyBot，专门用于识别和纠正现有模型中的重大和典型错误，类似于用户修订。通过表征典型错误类型并使用模拟错误进行训练，KeyBot 有效地纠正了这些错误，并显着减少了用户工作量。对三个公共数据集的全面定量和定性评估证实，KeyBot 显着优于现有方法，在交互式椎骨关键点估计方面实现了最先进的性能。源代码和演示视频位于：https://ts-kim.github.io/KeyBot/

搜索树：通过搜索对黑盒系统进行决策树策略综合

分类： 人工智能, 机器学习

作者： Emir Demirović, Christian Schilling, Anna Lukina

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03260v1

摘要： 决策树由于其可解释性，作为（动态）系统的控制策略很有吸引力。不幸的是，构建或综合此类政策是一项具有挑战性的任务。以前的方法是通过模仿神经网络策略、近似通过形式综合获得的表格策略、采用强化学习或将问题建模为混合整数线性程序来实现这一点。然而，这些工作可能需要访问难以获得的准确策略或正式的环境模型（在正式综合的范围内），并且可能无法对最终树策略的质量或规模提供保证。相比之下，我们提出了一种在给定黑盒环境和规范以及树谓词离散化的情况下综合最优决策树策略的方法，其中最优性是根据实现目标的步骤数来定义的。我们的方法是一种专门的搜索算法，它系统地探索给定离散化下的决策树（指数级大）空间。关键部分是一种新颖的修剪机制，可以显着减少搜索空间。我们的方法代表了一种概念上新颖的方法，即使对于具有黑盒规范的黑盒环境，也可以综合具有最优性保证的小型决策树策略。

通过纵向研究了解 LLM 发展：来自 Open Ko-LLM 排行榜的见解

分类： 计算和语言, 人工智能

作者： Chanjun Park, Hyeonwoo Kim

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03257v1

摘要： 本文进行了超过 11 个月的纵向研究，以解决 Open Ko-LLM 排行榜先前研究的局限性，这些研究依赖于只有五个月的有限观察期的实证研究。通过延长分析持续时间，我们的目标是更全面地了解韩国大语言模型（LLM）的开发进展。我们的研究以三个主要研究问题为指导：（1）随着时间的推移，在开放 Ko-LLM 排行榜上提高跨不同任务的 LLM 表现的具体挑战是什么？ (2) 模型大小如何影响各种基准的任务性能相关性？ (3) Open Ko-LLM 排行榜上的排行榜排名模式如何随时间变化？通过分析这一时期的 1,769 个模型，我们的研究对大语言模型的持续进步和评估框架的演变性质进行了全面检查。

E2CL：基于探索的实体代理纠错学习

分类： 计算和语言, 人工智能

作者： Hanlin Wang, Chak Tou Leong, Jian Wang, Wenjie Li

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03256v1

摘要： 语言模型在知识利用和推理方面表现出越来越强的能力。然而，当在具体环境中作为代理应用时，它们经常会遇到固有知识与环境知识之间的不一致，从而导致不可行的行动。传统的环境对齐方法，例如专家轨迹的监督学习和强化学习，分别在覆盖环境知识和实现高效收敛方面面临局限性。受人类学习的启发，我们提出了基于探索的纠错学习（E2CL），这是一种新颖的框架，利用探索引起的错误和环境反馈来增强基于 LM 的代理的环境对齐。 E2CL 结合了教师指导和无教师的探索，以收集环境反馈并纠正错误行为。代理学习提供反馈和自我纠正，从而增强其对目标环境的适应性。 Virtualhome 环境中的评估表明，经过 E2CL 训练的智能体优于通过基线方法训练的智能体，并表现出卓越的自我纠正能力。

深度 CNN 的粒球表示学习与标签噪声学习

分类： 计算机视觉和模式识别, 人工智能

作者： Dawei Dai, Hao Zhu, Shuyin Xia, Guoyin Wang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03254v1

摘要： 在实际场景中，无论是手动还是自动标注，训练数据中都不可避免地会产生标签噪声，这会影响深度CNN模型的有效性。流行的解决方案需要数据清理或设计额外的优化来惩罚带有错误标签的数据，从而增强模型的稳健性。然而，这些方法的代价是在训练过程中削弱甚至丢失一些数据。众所周知，内容是图像的固有属性，不会随着注释的变化而改变。在本研究中，我们提出了一种可以嵌入到 CNN 模型中的通用颗粒球计算 (GBC) 模块，其中分类器最终预测颗粒球 ($gb$) 样本的标签，而不是每个单独样本的标签。具体来说，考虑分类任务：（1）在前向过程中，我们在特征级别将输入样本分割为$gb$样本，每个样本可以对应多个不同数量的样本并共享一个标签； (2)在反向传播过程中，我们修改GBC模块的梯度分配策略，使其能够正常传播； (3)我们制定经验回放政策，以确保训练过程的稳定性。实验表明，所提出的方法无需额外数据或优化即可提高 CNN 模型的鲁棒性。

用于物理信息神经网络的 DiffGrad

分类： 机器学习, 人工智能, 计算物理

作者： Jamshaid Ul Rahman, Nimra

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03239v1

摘要： 物理信息神经网络 (PINN) 被认为是解决基于偏微分方程的高度非线性问题的最先进工具。尽管应用范围广泛，PINN 仍遇到一些性能挑战，包括与效率、计算成本最小化和准确性提高相关的问题。 Burgers 方程是流体动力学中的基本方程，广泛用于 PINN，它通过 Adam 优化器提供灵活的结果，而无需考虑过去的梯度。本文介绍了一种通过将 DiffGrad 与 PINN 相结合来求解 Burgers 方程的新颖策略，该方法利用当前梯度和前一个梯度之间的差异来增强性能。使用 Adam、Adamax、RMSprop 和 DiffGrad 等优化器进行全面的计算分析，以评估和比较它们的有效性。我们的方法包括以不同的时间间隔在空间上可视化解决方案，以证明网络的准确性。结果表明，与其他优化器相比，DiffGrad 不仅提高了解决方案的准确性，而且还减少了训练时间。

大语言模型的内容审核：从准确性到合法性

分类： 计算机与社会, 人工智能, 新兴技术, 人机交互, 机器学习

作者： Tao Huang

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03219v1

摘要： LLM（大语言模型）的一种趋势应用是将其用于在线平台中的内容审核。目前关于该应用程序的大多数研究都集中在准确性指标上，即大语言模型对内容做出正确决策的程度。本文认为准确性是不够的并且具有误导性，因为它没有掌握简单情况和困难情况之间的区别，以及在实现更高准确性时不可避免的权衡。仔细考察就会发现，内容审核是平台治理的一个组成部分，其关键是获得和增强合法性。大语言模型的主要目标不是使审核决策正确，而是使其合法化。在这方面，本文提出了从单一准确性基准到基于合法性的评估 LLM 主持人绩效框架的范式转变。该框架建议，对于简单的案例，关键是确保准确性、速度和透明度，而对于困难的案例，重要的是合理的理由和用户参与。在此框架下进行检验，LLM 的真正潜力并不是准确性的提高。相反，LLM可以在其他四个方面做出更好的贡献：从简单案例中筛选困难案例，为审核决策提供高质量的解释，帮助人类审稿人获得更多上下文信息，并以更具互动性的方式促进用户参与。本文利用法律和社会科学的规范理论来批判性地评估新技术的应用，试图重新定义大语言模型在内容审核中的作用，并重新引导该领域的相关研究。

xLAM：一系列大型动作模型，为人工智能代理系统提供支持

分类： 计算和语言, 人工智能, 机器学习

作者： Jianguo Zhang, Tian Lan, Ming Zhu, Zuxin Liu, Thai Hoang, Shirley Kokane, Weiran Yao, Juntao Tan, Akshara Prabhakar, Haolin Chen, Zhiwei Liu, Yihao Feng, Tulika Awalgaonkar, Rithesh Murthy, Eric Hu, Zeyuan Chen, Ran Xu, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03215v1

摘要： 由大型语言模型（LLM）驱动的自主代理引起了人们的广泛研究兴趣。然而，由于高质量代理数据集的稀缺以及该领域缺乏标准协议，开源社区在开发代理任务的专用模型方面面临着许多挑战。我们推出并公开发布了 xLAM，这是一系列专为 AI 代理任务设计的大型动作模型。 xLAM 系列包括五个具有密集和专家混合架构的模型，参数范围从 1B 到 8x22B，使用可扩展、灵活的管道进行训练，该管道统一、增强和综合不同的数据集，以增强 AI 代理在不同环境下的通用性和性能。环境。我们的实验结果表明，xLAM 在多个代理能力基准测试中始终如一地提供卓越的性能，特别是在 Berkeley 函数调用排行榜上排名第一，在工具使用方面优于 GPT-4、Claude-3 和许多其他模型。通过发布 xLAM 系列，我们的目标是提高自主 AI 代理的开源 LLM 的性能，从而有可能加速进展并使代理任务的高性能模型的访问民主化。模型可在 https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4 获取

TC-LLaVA：重新思考从图像到视频理解的迁移，考虑时间因素

分类： 计算机视觉和模式识别, 人工智能

作者： Mingze Gao, Jingyu Liu, Mingda Li, Jiangtao Xie, Qingbin Liu, Bo Zhao, Xi Chen, Hui Xiong

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03206v1

摘要： 多模态大语言模型 (MLLM) 显着提高了各种图像语言应用程序的性能。最近，人们对将图像预训练的 MLLM 用于视频相关任务越来越感兴趣。然而，大多数努力都集中在增强视觉编码器和投影仪组件上，而核心部分大型语言模型（LLM）仍然相对未得到充分探索。在本文中，我们提出了两种策略，通过改进 LLM 中的层间注意力计算来增强模型在视频理解任务中的能力。具体来说，第一种方法侧重于使用时间感知双 RoPE 增强旋转位置嵌入 (RoPE)，它引入时间位置信息来增强 MLLM 的时间建模能力，同时保留视觉和文本标记的相对位置关系。第二种方法涉及使用逐帧块因果注意掩模增强注意掩模，这是一种简单而有效的方法，可以扩大视频帧内和视频帧之间的视觉标记交互，同时保持因果推理机制。基于这些提出的方法，我们将 LLaVA 应用于视频理解任务，并将其命名为 Temporal-Considered LLaVA (TC-LLaVA)。我们的 TC-LLaVA 仅在视频相关数据集上进行监督微调 (SFT)，就在各种视频理解基准上实现了最先进的性能。

用于低资源情感分类中数据增强的扩散 LM 的有效部署

分类： 计算和语言, 人工智能

作者： Zhuowei Chen, Lianxi Wang, Yuben Wu, Xinfeng Liao, Yujia Tian, Junyang Zhong

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03203v1

摘要： 情感分类（SC）经常面临资源匮乏的挑战，例如特定领域的上下文、不平衡的标签分布和少镜头场景。扩散语言模型（LM）用于文本数据增强（DA）的潜力尚未被开发，而且文本DA方法很难平衡新样本的多样性和一致性。大多数 DA 方法要么执行逻辑修改，要么使用语言模型重新表述原始序列中不太重要的标记。在 SC 的背景下，强烈的情感标记可能对整个序列的情绪产生关键作用。因此，与重新表述不太重要的上下文相反，我们提出 DiffusionCLS 利用扩散 LM 来捕获领域内知识并通过重建与标签相关的强标记来生成伪样本。这种方法确保了一致性和多样性之间的平衡，避免引入噪声并增强数据集的关键特征。 DiffusionCLS 还包含一个抗噪声训练目标，以帮助模型泛化。实验证明了我们的方法在各种低资源场景（包括特定领域和领域通用问题）中的有效性。消融研究证实了我们框架模块的有效性，可视化研究突出了最佳部署条件，强化了我们的结论。

绕过达西防御：难以区分的通用对抗性触发器

分类： 计算和语言, 人工智能, I.2.7

作者： Zuquan Peng, Yuanyuan He, Jianbing Ni, Ben Niu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03183v1

摘要： 用于自然语言处理 (NLP) 的神经网络 (NN) 分类模型容易受到通用对抗触发器 (UAT) 攻击，该攻击会触发模型对任何输入生成特定预测。 DARCY 借用“蜜罐”的概念来诱饵多个陷门，有效检测 UAT 生成的对抗样本。不幸的是，我们发现了一种新的 UAT 生成方法，称为 IndisUAT，它生成触发器（即令牌）并使用它们来制作对抗性示例，其特征分布与检测层随机选择类别中的良性示例的特征分布无法区分。达西。生成的对抗性示例会导致 DARCY 保护模型中预测结果的最大损失。同时，所产生的触发器在文本生成、文本推理和阅读理解的黑盒模型中有效。最后，NN模型下针对NLP任务的评估结果表明，IndisUAT方法可以有效规避DARCY并渗透其他防御。例如，IndisUAT 可以使 DARCY 的检测真阳性率降低至少 40.8% 和 90.6%，在 RNN 和 CNN 模型中分别降低准确率至少 33.3% 和 51.6%。 IndisUAT 将 BERT 对抗性防御模型的准确性降低了至少 34.0%，并使 GPT-2 语言模型即使在非种族背景下也能输出种族主义输出。

InfraLib：为大规模基础设施管理启用强化学习和决策

分类： 人工智能, 机器学习, 系统与控制, 系统与控制

作者： Pranay Thangeda, Trevor S. Betz, Michael N. Grussing, Melkior Ornik

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03167v1

摘要： 基础设施系统的有效管理对于经济稳定、可持续性和公共安全至关重要。然而，由于系统规模庞大、组件随机恶化、部分可观测性和资源限制，基础设施管理面临着挑战。虽然强化学习 (RL) 等数据驱动方法为优化管理策略提供了一条有前景的途径，但由于缺乏合适的模拟环境，它们在基础设施中的应用受到了限制。我们介绍 InfraLib，一个用于建模和分析基础设施管理问题的综合框架。 InfraLib 采用分层随机方法对基础设施系统及其恶化进行真实建模。它支持实用功能，例如对组件不可用性、周期性预算和灾难性故障进行建模。为了促进研究，InfraLib 提供了用于专家数据收集、模拟驱动分析和可视化的工具。我们通过对现实世界道路网络的案例研究和包含 100,000 个组件的综合基准来展示 InfraLib 的功能。

通过对话持续学习技能和任务

分类： 机器人技术, 人工智能, 计算和语言

作者： Weiwei Gu, Suresh Kondepudi, Lixiao Huang, Nakul Gopalan

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03166v1

摘要： 持续和交互式的机器人学习是一个具有挑战性的问题，因为机器人与人类用户在一起，他们希望机器人学习新的技能，以永远以样本效率解决新的任务。在这项工作中，我们提出了一个机器人框架，可以通过与人类用户的自然语言对话交互来查询和学习视觉运动机器人技能和任务相关信息。以前的方法要么专注于提高遵循指令的代理的性能，要么被动地学习新的技能或概念。相反，我们使用对话与语言技能基础嵌入相结合来查询或确认用户请求的技能和/或任务。为了实现这一目标，我们为我们的代理开发并集成了三个不同的组件。首先，我们提出了一种新颖的视觉运动控制策略 ACT with Low Rank Adaptation (ACT-LoRA)，它使得现有的 SoTA ACT 模型能够执行少样本连续学习。其次，我们开发了一个对齐模型，将跨技能实施例的演示投影到共享嵌入中，使我们知道何时向用户提出问题和/或演示。最后，我们集成了现有的大语言模型来与人类用户交互，以执行扎根的交互式持续技能学习来解决任务。我们的 ACT-LoRA 模型在仅通过 5 次新技能演示进行训练时，就能以 100% 的准确率学习新的微调技能，同时在 RLBench 数据集中的预训练技能仍保持 74.75% 的准确率，而其他模型则明显落后。我们还对 8 名受试者进行了人类受试者研究，以展示我们组合框架的持续学习能力。我们在三明治制作任务中实现了 75% 的成功率，真实的机器人从参与者数据中学习，表明机器人可以使用我们的方法通过与非专家用户的对话来学习新技能或任务知识。

图论辩论：一种灵活可靠的大型语言模型推理框架

分类： 计算和语言, 人工智能, I.2.4

作者： Jie Ma, Zhitao Gao, Qi Chai, Wangchun Sun, Pinghui Wang, Hongbin Pei, Jing Tao, Lingyun Song, Jun Liu, Chen Zhang, Lizhen Cui

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03155v1

摘要： 由于缺乏相关知识，大型语言模型（LLM）在现实应用中可能会产生幻觉。相比之下，知识图包含广泛的多关系结构，存储大量符号事实。因此，大语言模型与知识图的集成已被广泛探索，知识图问答（KGQA）作为集成的关键试金石。该任务要求大语言模型通过从知识图中检索相关三元组来回答自然语言问题。然而，现有方法面临两个重大挑战：\textit{过长的推理路径分散了答案生成的注意力}和\textit{阻碍路径细化的假阳性关系}。在本文中，我们提出了一种迭代交互式 KGQA 框架，该框架利用大语言模型的交互式学习能力来执行图推理和辩论（DoG）。具体来说，DoG 采用子图聚焦机制，允许大语言模型在每个推理步骤后进行答案尝试，从而减轻冗长推理路径的影响。另一方面，DoG利用多角色辩论团队逐步简化复杂问题，减少误报关系的影响。这种辩论机制保证了推理过程的可靠性。五个公共数据集的实验结果证明了我们的架构的有效性和优越性。值得注意的是，DoG 在 WebQuestions 和 GrailQA 上的准确率分别比最先进的方法 ToG 提高了 23.7% 和 9.1%。此外，在上述数据集上与各种大语言模型进行的集成实验凸显了 DoG 的灵活性。代码可在 \url{https://github.com/reml-group/DoG} 获取。

弥补早期痴呆症检测的差距：通过机器学习增强诊断模型的途径

分类： 机器学习, 人工智能

作者： Juan A. Berrios Moya

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03147v1

摘要： 全球快速老龄化趋势导致包括阿尔茨海默氏病在内的痴呆症病例增加，凸显了对早期准确诊断方法的迫切需要。传统的诊断技术，如认知测试、神经影像学和生物标志物分析，在敏感性、可及性和成本方面面临着巨大的限制，特别是在早期阶段。本研究探讨了机器学习 (ML) 作为一种变革性方法的潜力，通过利用 ML 模型分析和整合复杂的多模态数据集（包括认知评估、神经影像和遗传信息）来增强早期痴呆症检测。对现有文献进行了全面回顾，以评估各种机器学习模型，包括监督学习、深度学习以及集成学习和变压器模型等先进技术，评估其准确性、可解释性和临床整合潜力。研究结果表明，虽然机器学习模型在提高诊断精度和实现早期干预方面显示出巨大的前景，但其普遍性、可解释性和道德部署方面仍然存在挑战。这项研究最后概述了旨在增强机器学习模型在痴呆症检测中的临床实用性的未来方向，强调跨学科合作和道德上合理的框架，以改善阿尔茨海默病和其他形式痴呆症的早期检测和干预策略。

后门防御、可学习性和混淆

分类： 机器学习, 人工智能, 密码学和安全

作者： Paul Christiano, Jacob Hilton, Victor Lecomte, Mark Xu

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03077v1

摘要： 我们通过攻击者和防御者之间的博弈引入了针对后门的可防御性的正式概念。在这个游戏中，攻击者修改一个函数，使其在称为“触发器”的特定输入上表现不同，而在其他地方几乎表现相同。然后，防御者尝试在评估时检测触发点。如果防御者以足够高的概率成功，则该功能类被认为是可防御的。使防御成为可能的攻击者的关键约束是攻击者的策略必须适用于随机选择的触发器。我们的定义很简单，没有明确提及学习，但我们证明它与可学习性密切相关。在计算无界的设置中，我们使用 Hanneke 等人的投票算法。（2022）表明防御性本质上是由函数类的 VC 维度决定的，与 PAC 可学习性的方式非常相似。在计算有界的设置中，我们使用类似的论点来证明高效的 PAC 可学习性意味着高效的防御性，但反之则不然。另一方面，我们使用不可区分性混淆来表明多项式大小电路的类别不能有效防御。最后，我们将多项式大小的决策树作为一个自然的例子，其防御比学习更容易。因此，我们将有效防御性视为有效可学习性和混淆之间的一个值得注意的中间概念。

MobileUNETR：用于高效医学图像分割的轻量级端到端混合视觉转换器

分类： 计算机视觉和模式识别, 人工智能

作者： Shehan Perera, Yunus Erzurumlu, Deepak Gulati, Alper Yilmaz

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03062v1

摘要： 皮肤癌分割对医学图像分析提出了重大挑战。许多现有的解决方案（主要基于 CNN）都面临着缺乏全局上下文理解的问题。或者，一些方法诉诸大规模 Transformer 模型来弥合全局上下文差距，但代价是模型大小和计算复杂性。最后，许多基于 Transformer 的方法主要依赖于基于 CNN 的解码器，忽视了基于 Transformer 的解码模型的优势。认识到这些限制，我们通过引入 MobileUNETR 来满足高效轻量级解决方案的需求，该解决方案旨在克服与 CNN 和 Transformer 相关的性能限制，同时最小化模型大小，为高效图像分割迈出了有希望的一步。 MobileUNETR 有 3 个主要功能。 1) MobileUNETR 由轻量级混合 CNN-Transformer 编码器组成，有助于以有效的方式平衡局部和全局上下文特征提取； 2）一种新颖的混合解码器，在解码阶段同时利用不同分辨率的低级和全局特征来准确生成掩模； 3）超越大型复杂的架构，MobileUNETR 实现了 300 万个参数和 1.3 GFLOP 计算复杂度的卓越性能，从而使参数和 FLOPS 分别减少了 10 倍和 23 倍。我们在四个公开的皮肤病变分割数据集（包括 ISIC 2016、ISIC 2017、ISIC 2018 和 PH2 数据集）上进行了大量实验，以验证我们提出的方法的有效性。该代码将在以下位置公开提供：https://github.com/OSUPCVLab/MobileUNETR.git

更好地验证解释与不正确性和分布外检测的应用

分类： 机器学习, 人工智能

作者： Min Wu, Xiaofu Li, Haoze Wu, Clark Barrett

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03060v1

摘要： VeriX（Verified eXplainability，arXiv：2212.01051）是一个为机器学习模型输出生成最佳验证解释的系统，我们在此基础上推出了 VeriX+，它显着提高了验证解释的大小和生成时间。我们引入了基于绑定传播的敏感度技术来改进大小，以及基于二分搜索的遍历和置信度排名来改进时间——这两种技术是正交的，可以单独或一起使用。我们还展示了如何使 QuickXplain (Junker 2004) 算法适应我们的设置，以在大小和时间之间进行权衡。标准基准的实验评估表明这两个指标都有显着改进，例如，GTSRB 数据集的大小减少了 38%，MNIST 的时间减少了 90%。我们还探索了经过验证的解释的应用，并表明解释大小对于错误检测和分布外检测都是有用的代理。

您的生成模型可以检测分布外协变量偏移吗？

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Christiaan Viviers, Amaan Valiuddin, Francisco Caetano, Lemar Abdi, Lena Filatova, Peter de With, Fons van der Sommen

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03043v1

摘要： 检测分布外 (OOD) 传感数据和协变量分布偏移旨在识别具有不同高级图像统计数据的新测试示例，以捕获、正常和分布内 (ID) 集。现有的 OOD 检测文献主要关注语义转移，而对于协变量转移几乎没有达成共识。生成模型以无监督的方式捕获 ID 数据，使它们能够有效地识别显着偏离此学习分布的样本，而不管下游任务如何。在这项工作中，我们通过涉及各种模型的广泛分析阐明了生成模型检测和量化特定领域协变量变化的能力。为此，我们推测，仅通过对高频信号相关和独立的细节进行建模就足以检测大多数发生的感觉故障（全局信号统计中的异常和偏差）。我们提出了一种用于 OOD 检测的新方法 CovariateFlow，专门针对使用条件归一化流 (cNF) 的协变量异方差高频图像分量而定制。我们在 CIFAR10 与 CIFAR10-C 和 ImageNet200 与 ImageNet200-C 上的结果通过准确检测 OOD 协变量偏移证明了该方法的有效性。这项工作有助于提高成像系统的保真度，并在存在协变量偏移的情况下帮助机器学习模型进行 OOD 检测。

基于大型语言模型的软件工程代理：调查

分类： 软件工程, 人工智能

作者： Junwei Liu, Kaixin Wang, Yixuan Chen, Xin Peng, Zhenpeng Chen, Lingming Zhang, Yiling Lou

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02977v1

摘要： 大型语言模型（LLM）的最新进展塑造了人工智能代理的新范式，即基于 LLM 的代理。与独立的大语言模型相比，基于大语言模型的代理通过增强大语言模型感知和利用外部资源和工具的能力，大大扩展了大语言模型的多功能性和专业知识。迄今为止，基于LLM的代理已在软件工程（SE）领域得到应用并显示出显着的效果。多个智能体和人类交互之间的协同作用为解决复杂的现实世界SE问题带来了进一步的希望。在这项工作中，我们对基于 LLM 的 SE 代理进行了全面、系统的调查。我们收集了 106 篇论文，并从 SE 和 Agent 两个角度对它们进行分类。此外，我们还讨论了这一关键领域的开放挑战和未来方向。本次调查的存储库位于 https://github.com/FudanSELab/Agent4SE-Paper-List。

大语言模型中的幻觉检测：快速且节省内存的微调模型

分类： 机器学习, 人工智能, 计算和语言

作者： Gabriel Y. Arteaga, Thomas B. Schön, Nicolas Pielawski

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02976v1

摘要： 在自动驾驶汽车、医疗或保险等高风险环境中实施人工智能时，不确定性估计是一个必要的组成部分。近年来，大型语言模型（LLM）越来越受欢迎，但它们容易产生幻觉，在高风险环境中可能会造成严重伤害。尽管大语言模型取得了成功，但其训练和运行成本高昂：它们需要大量计算和内存，阻碍了集成方法在实践中的使用。在这项工作中，我们提出了一种新颖的方法，可以对大语言模型集成进行快速且记忆友好的训练。我们证明，由此产生的集成可以检测幻觉，并且在实践中是一种可行的方法，因为只需要一个 GPU 来进行训练和推理。

RoboTwin：具有生成数字孪生的双臂机器人基准（早期版本）

分类： 机器人技术, 人工智能, 计算和语言

作者： Yao Mu, Tianxing Chen, Shijia Peng, Zanxin Chen, Zeyu Gao, Yude Zou, Lunkai Lin, Zhiqiang Xie, Ping Luo

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02920v1

摘要： 双臂机器人的有效协作及其工具使用能力是机器人技术进步中日益重要的领域。这些技能在扩展机器人在不同的现实环境中操作的能力方面发挥着重要作用。然而，专业培训数据的缺乏阻碍了进展。本文介绍了 RoboTwin，这是一种新颖的基准数据集，它将现实世界的远程操作数据与数字孪生的合成数据相结合，专为双臂机器人场景而设计。使用 COBOT Magic 平台，我们收集了有关工具使用和人机交互的各种数据。我们提出了一种创新方法，使用人工智能生成的内容创建数字孪生，将 2D 图像转换为详细的 3D 模型。此外，我们利用大型语言模型来生成专家级训练数据和面向功能的特定任务姿势序列。我们的主要贡献是：1）RoboTwin 基准数据集，2）高效的真实到模拟管道，以及 3）使用语言模型自动生成专家级数据。这些进步旨在解决机器人训练数据的短缺问题，有可能加速开发更强大、更通用的机器人系统，以适应广泛的现实世界应用。项目页面位于 https://robotwin-benchmark.github.io/early-version/

UC-NeRF：来自内窥镜稀疏视图的不确定性感知条件神经辐射场

分类： 计算机视觉和模式识别, 人工智能

作者： Jiaxin Guo, Jiangliu Wang, Ruofeng Wei, Di Kang, Qi Dou, Yun-hui Liu

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02917v1

摘要： 可视化手术场景对于在微创手术中揭示内部解剖结构至关重要。新颖的视图合成是一项重要的技术，可提供几何和外观重建，增强手术场景的理解、规划和决策。尽管神经辐射场（NeRF）取得了令人印象深刻的成就，但由于内窥镜稀疏视图和显着的光度不一致等两个挑战，将其直接应用于手术场景却产生了令人不满意的结果。在本文中，我们提出了用于新颖视图合成的不确定性感知条件 NeRF，以解决稀疏手术视图中严重的形状-辐射模糊问题。 UC-NeRF 的核心是结合多视图不确定性估计来调节神经辐射场，以自适应地对严重的光度不一致进行建模。具体来说，我们的 UC-NeRF 首先以多视图立体网络的形式构建一致性学习器，从稀疏视图建立几何对应关系并生成不确定性估计和特征先验。在神经渲染中，我们设计了一个基础自适应 NeRF 网络来利用不确定性估计来明确处理光度不一致。此外，采用不确定性引导的几何蒸馏来增强几何学习。 SCARED 和 Hamlyn 数据集上的实验证明了我们在渲染外观和几何形状方面的卓越性能，始终优于当前最先进的方法。我们的代码将在 \url{https://github.com/wrld/UC-NeRF} 发布。

掩蔽扩散模型是秘密的与时间无关的掩蔽模型并利用不准确的分类采样

分类： 机器学习, 人工智能, 计算和语言

作者： Kaiwen Zheng, Yongxin Chen, Hanzi Mao, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02908v1

摘要： 由于其优于其他离散扩散模型的卓越性能，掩模扩散模型（MDM）已成为离散数据生成建模的热门研究主题，并且在语言建模任务方面可与自回归模型（ARM）相媲美。最近在简化掩蔽扩散框架方面所做的努力进一步导致与连续空间扩散模型以及更有原则的训练和采样方法的结合。然而，在本文中，我们揭示了 MDM 的训练和采样理论上都不受时间变量（可以说是扩散模型的关键特征）的影响，而是相当于屏蔽模型。采样方面的联系是由我们提出的首次命中采样器（FHS）绘制的。具体来说，我们表明 FHS 理论上相当于 MDM 的原始生成过程，同时显着减轻了耗时的分类采样并实现了 20 倍的加速。此外，我们的研究挑战了之前关于 MDM 在生成困惑方面可以超越 ARM 的说法。我们第一次发现了一个潜在的数值问题，即使使用 32 位浮点精度，也会导致分类采样不准确。我们表明，数值问题在理论和经验上都降低了有效温度，导致先前文献中对 MDM 发电结果的不公平评估。

LongLLaVA：通过混合架构将多模态 LLM 有效扩展至 1000 张图像

分类： 计算和语言, 人工智能, 计算机视觉和模式识别, 多媒体

作者： Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02889v1

摘要： 扩展多模态大语言模型（MLLM）的长上下文功能对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及到一系列系统优化，包括模型架构、数据构建和训练策略，特别是解决诸如 \textit{图像增多导致性能下降}和 \textit{高计算成本}等挑战。在本文中，我们将模型架构调整为 Mamba 和 Transformer 块的混合，利用多个图像之间的时间和空间依赖性来进行数据构建，并采用渐进式训练策略。发布的模型 \textbf{LongLLaVA}~(\textbf{Long}-Context \textbf{L}arge \textbf{L}anguage \textbf{a}nd \textbf{V}ision \textbf{A}ssistant) 是第一个混合MLLM，它在效率和效果之间取得了更好的平衡。 LongLLaVA 不仅在各种基准测试中取得了有竞争力的结果，而且还保持了高吞吐量和低内存消耗。特别是，它可以在单个 A100 80GB GPU 上处理近千张图像，在广泛的任务中显示出良好的应用前景。

多流深度学习框架通过 Rey 复杂图形测试预测轻度认知障碍

分类： 计算机视觉和模式识别, 人工智能

作者： Junyoung Park, Eun Hyun Seo, Sunjun Kim, SangHak Yi, Kun Ho Lee, Sungho Won

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02883v1

摘要： 雷伊复杂图形测试 (RCFT) 等绘图测试广泛用于评估视觉空间技能和记忆等认知功能，使其成为检测轻度认知障碍 (MCI) 的宝贵工具。尽管它们很实用，但基于这些测试的现有预测模型常常受到样本量小和缺乏外部验证等限制，从而削弱了它们的可靠性。我们开发了一个多流深度学习框架，它集成了两个不同的处理流：使用原始 RCFT 图像的基于多头自注意力的空间流和采用先前开发的自动评分系统的评分流。我们的模型根据韩国队列中 1,740 名受试者的数据进行训练，并在来自韩国的 222 名受试者的外部医院数据集上进行验证。所提出的多流模型在外部验证中表现出优于基线模型（AUC = 0.872，准确度 = 0.781）的性能。空间流和评分流的集成使模型能够从原始图像中捕获复杂的视觉细节，同时还合并结构化评分数据，这些数据共同增强了其检测细微认知障碍的能力。这种双重方法不仅提高了预测准确性，还提高了模型的稳健性，使其在不同的临床环境中更加可靠。我们的模型对临床环境具有实际意义，可以作为早期 MCI 筛查的经济有效的工具。

可配置的基础模型：从模块化的角度构建大语言模型

分类： 人工智能, 计算和语言, 机器学习

作者： Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02877v1

摘要： 大语言模型的进步最近暴露了与计算效率和持续可扩展性相关的挑战，因为它们需要巨大的参数，使得这些模型在计算资源有限的设备和需要各种能力的场景上的应用和演进变得越来越繁琐。受人脑模块化的启发，越来越多的人倾向于将大语言模型分解为众多功能模块，从而允许使用部分模块进行推理并动态组装模块来处理复杂的任务，例如专家混合。为了强调模块化方法的固有效率和可组合性，我们创造了术语“brick”来表示每个功能模块，将模块化结构指定为可配置的基础模型。在本文中，我们对可配置基础模型的构建、利用和限制进行了全面的概述和研究。我们首先将模块形式化为紧急砖块（在预训练阶段出现的功能神经元分区）和定制砖块（通过额外的训练后构建的砖块，以提高大语言模型的能力和知识）。基于不同的功能块，我们进一步提出了四种面向块的操作：检索和路由、合并、更新和增长。这些操作允许根据指令动态配置 LLM 以处理复杂的任务。为了验证我们的观点，我们对广泛使用的大语言模型进行了实证分析。我们发现 FFN 层遵循神经元功能专门化和功能神经元分区的模块化模式。最后，我们强调了未来研究的几个悬而未决的问题和方向。总体而言，本文旨在为现有大语言模型研究提供全新的模块化视角，并激发未来创建更高效、可扩展的基础模型。

用于城市驾驶的混合模仿学习运动规划器

分类： 机器人技术, 人工智能, 机器学习

作者： Cristian Gariboldi, Matteo Corno, Beng Jin

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02871v1

摘要： 随着 nuPlan 和 Argoverse 等开源数据集的发布，围绕基于学习的规划器的研究在过去几年中得到了广泛传播。现有系统在模仿人类驾驶员行为方面表现出了出色的能力，但它们难以保证安全的闭环驾驶。相反，基于优化的规划器在短期规划场景中提供了更高的安全性。为了应对这一挑战，在本文中，我们提出了一种新颖的混合运动规划器，它集成了基于学习和基于优化的技术。最初，多层感知器 (MLP) 生成类似人类的轨迹，然后通过基于优化的组件对其进行细化。该组件不仅可以最大限度地减少跟踪误差，还可以计算运动学上可行且与障碍物和道路边界无碰撞的轨迹。我们的模型有效地平衡了安全性和人性化，减轻了这些目标中固有的权衡。我们通过模拟实验验证我们的方法，并通过将其部署在现实世界的自动驾驶车辆中进一步证明其有效性。

生物信息学检索增强数据 (BRAD) 数字助理

分类： 人工智能, 信息检索, 软件工程

作者： Joshua Pickard, Marc Andrew Choi, Natalie Oliven, Cooper Stansbury, Jillian Cwycyshyn, Nicholas Galioto, Alex Gorodetsky, Alvaro Velasquez, Indika Rajapakse

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02864v1

摘要： 我们展示了生物信息学检索增强数据（BRAD）数字助理的原型。 BRAD 集成了一套工具来处理从代码执行到在线搜索的各种生物信息学任务。我们通过 (1) 通过检索增强生成 (RAG) 改进问答，(2) BRAD 运行和编写复杂软件管道的能力，以及 (3) BRAD 在个人和团队之间组织和分配任务的能力来展示 BRAD 的能力的代理商。我们使用 BRAD 实现生物信息学工作流程的自动化，执行从基因富集和搜索档案到自动代码生成和运行生物标志物识别管道的任务。 BRAD 是朝着开发由独立循环驱动的实验室数字孪生的最终目标迈出的一步，用于假设生成和数字生物学实验的测试。

糟糕，我再次采样：重新解释少样本学习中的置信区间

分类： 机器学习, 人工智能, 机器学习, 68T06, I.2; I.4; I.5; G.3

作者： Raphael Lafargue, Luke Smith, Franck Vermet, Mathias Löwe, Ian Reid, Vincent Gripon, Jack Valmadre

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02850v1

摘要： 在少样本学习 (FSL) 中计算置信区间 (CI) 的主要方法是基于对任务进行替换采样，即允许相同的样本出现在多个任务中。这使得 CI 具有误导性，因为它考虑了采样器的随机性，但没有考虑数据本身。为了量化这个问题的严重程度，我们对使用替换和不使用替换计算的 CI 进行了比较分析。这些揭示了主要方法的显着低估。这一观察结果要求重新评估我们如何解释置信区间以及 FSL 比较研究中得出的结论。我们的研究表明，使用配对测试可以部分解决这个问题。此外，我们还探索了通过策略性地对特定大小的任务进行抽样来进一步减小 CI（的大小）的方法。我们还引入了一个新的优化基准，可以在 https://github.com/RafLaf/FSL-benchmark-again 访问

R2GQA：检索器-阅读器-生成器问答系统，支持学生理解高等教育法律法规

分类： 计算和语言, 人工智能

作者： Phuc-Tinh Pham Do, Duy-Ngoc Dinh Cao, Khanh Quoc Tran, Kiet Van Nguyen

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02840v1

摘要： 在本文中，我们提出了 R2GQA 系统，一个检索器-阅读器-生成器问答系统，由三个主要组件组成：文档检索器、机器阅读器和答案生成器。检索器模块采用先进的信息检索技术从法律法规文档数据集中提取文章的上下文。机器阅读器模块利用最先进的自然语言理解算法来理解检索到的文档并提取答案。最后，生成器模块将提取的答案综合为针对学生有关法律法规问题的简洁且信息丰富的答案。此外，我们还构建了大学培训法规领域的 ViRHE4QA 数据集，包含 9,758 个问答对，并经过严格的构建过程。这是更高监管领域的第一个越南数据集，具有各种类型的答案，包括提取的和抽象的。此外，R2GQA系统是第一个用越南语提供抽象答案的系统。本文讨论了 ViRHE4QA 数据集上 R2GQA 系统中每个模块的设计和实现，重点介绍了它们的功能和交互。此外，我们提出的实验结果证明了所提出的系统在支持学生理解高等教育环境中的法律法规方面的有效性和实用性。总的来说，R2GQA 系统和 ViRHE4QA 数据集有望为相关研究做出重大贡献，并帮助学生浏览复杂的法律文件和法规，使他们能够做出明智的决策并有效遵守机构政策。我们的数据集可用于研究目的。

通过大型语言模型的少样本学习探索加密货币讨论中的情绪动态和预测行为

分类： 计算和语言, 人工智能, 计算工程、金融和科学, 机器学习

作者： Moein Shahiki Tash, Zahra Ahani, Mohim Tash, Olga Kolesnikova, Grigori Sidorov

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02836v1

摘要： 本研究利用先进的自然语言处理技术，对加密货币相关讨论中的预测陈述、希望演讲和遗憾检测行为进行分析。我们引入了一种名为“预测语句”的新颖分类方案，将评论分为预测增量、预测减量、预测中性或非预测类别。我们采用先进的大型语言模型 GPT-4o，探索五种著名加密货币的情绪动态：Cardano、Binance、Matic、Fantom 和 Ripple。我们的分析揭示了预测情绪的不同模式，Matic 表现出明显更高的乐观预测倾向。此外，我们还调查希望和遗憾情绪，揭示这些情绪和预测行为之间微妙的相互作用。尽管遇到了数据量和资源可用性方面的限制，但我们的研究报告了有关加密货币市场内投资者行为和情绪趋势的宝贵发现，为战略决策和未来的研究工作提供了信息。

时变偏微分方程的混合 FEM-PINN 方法

分类： 数值分析, 人工智能, 数值分析

作者： Xiaodong Feng, Haojiong Shangguan, Tao Tang, Xiaoliang Wan, Tao Zhou

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02810v1

摘要： 在这项工作中，我们提出了一种通过将时间有限元方法与深度神经网络相结合来求解演化偏微分方程（PDE）的混合数值方法。与传统的基于深度学习的公式（其中神经网络是在时空域上定义的）相比，我们的方法在时间方向上利用有限元基函数，其中空间相关系数被定义为神经网络的输出。然后，我们在时间方向上应用伽辽金或搭配投影，以获得在 PINN 框架中近似的空间相关系数的偏微分方程组。这种混合公式的优点是双重的：避免了时间方向积分的统计误差，并且神经网络的输出可以被视为一组简化的空间基函数。为了进一步缓解高维度和低规律性的困难，我们开发了一种自适应采样策略来细化训练集。更具体地说，我们使用显式密度模型来近似由 PDE 残差引起的分布，然后使用学习的密度模型给出的新的时间相关随机样本来增强训练集。我们提出的方法的有效性和效率已通过一系列数值实验得到证明。

面向智能交通系统的基于边缘的数据湖架构

分类： 数据库, 人工智能, 网络和互联网架构

作者： Danilo Fernandes, Douglas L. L. Moura, Gean Santos, Geymerson S. Ramos, Fabiane Queiroz, Andre L. L. Aquino

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02808v1

摘要： 城市化的快速发展凸显了对创新解决方案的需求，以提高交通效率和安全性。在此背景下，智能交通系统（ITS）成为一种有前景的解决方案。然而，分析和处理ITS产生的海量、复杂的数据给传统的数据处理系统带来了巨大的挑战。这项工作提出了一种基于边缘的数据湖架构，以有效地集成和分析来自 ITS 的复杂数据。该架构提供可扩展性、容错性和性能，改善决策并增强创新服务，打造更智能的交通生态系统。我们通过分析三个不同的用例来证明该架构的有效性：(i) 车辆传感器网络、(ii) 移动网络和 (iii) 驾驶员识别应用。

治理军民两用技术：国际安全协议案例研究和人工智能治理经验教训

分类： 计算机与社会, 人工智能

作者： Akash R. Wasil, Peter Barnett, Michael Gerovitch, Roman Hauksson, Tom Reed, Jack William Miller

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02779v1

摘要： 国际人工智能治理协议和机构可能在减少先进人工智能带来的全球安全风险方面发挥重要作用。为了为此类协议和机构的设计提供信息，我们对历史和当代国际安全协议进行了案例研究。我们特别关注围绕双重用途技术的安排，审查核安全、化学武器、生物安全和出口管制方面的协议。对于每项协议，我们都审查了四个关键领域：(a) 目的、(b) 核心权力、(c) 治理结构和 (d) 违规情况。从这些案例研究中，我们为国际人工智能协议和治理机构的设计汲取了经验教训。我们讨论了强有力的核查方法、平衡国家间权力的战略、适应快速技术变革的机制、管理透明度和安全之间权衡的方法、参与激励以及有效的执行机制的重要性。

一种基于增量偏好启发的方法，用于学习多标准排序中潜在的非单调偏好

分类： 人工智能

作者： Zhuolin Li, Zhen Zhang, Witold Pedrycz

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02760v1

摘要： 本文介绍了一种新颖的基于增量偏好启发的方法，用于学习多标准排序（MCS）问题中潜在的非单调偏好，使决策者能够逐步提供分配示例偏好信息。具体来说，我们首先构建一个基于最大边际优化的模型，以在增量偏好引发过程的每次迭代中对潜在的非单调偏好和不一致的分配示例偏好信息进行建模。利用基于最大裕度优化的模型的最优目标函数值，我们设计了信息量测量方法和问题选择策略，以在主动学习的不确定性采样框架内确定每次迭代中信息量最大的替代方案。一旦满足终止标准，则可以通过使用两个优化模型来确定非参考备选方案的排序结果，即基于最大裕度优化的模型和复杂度控制优化模型。随后，考虑到不同的终止标准，开发了两种基于增量偏好引发的算法来学习潜在的非单调偏好。最终，我们将所提出的方法应用于信用评级问题，以阐明详细的实施步骤，并在人工和现实数据集上进行计算实验，以将所提出的问题选择策略与几种基准策略进行比较。

常规决策过程的易于处理的离线学习

分类： 机器学习, 人工智能, 形式语言和自动机理论

作者： Ahana Deb, Roberto Cipollone, Anders Jonsson, Alessandro Ronca, Mohammad Sadegh Talebi

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02747v1

摘要： 这项工作研究了一类称为常规决策过程 (RDP) 的非马尔可夫环境中的离线强化学习 (RL)。在 RDP 中，未来观察和过去交互奖励的未知依赖性可以通过一些隐藏的有限状态自动机来捕获。因此，许多 RDP 算法首先使用自动机学习技术重建这种未知的依赖关系。在本文中，我们证明可以克服先前 RDP 离线 RL 算法（尤其是 RegORL）的两个强大限制。这可以通过引入两种原始技术来实现：开发基于形式语言的新伪度量，消除对 $L_\infty^\mathsf{p}$-可区分性参数的有问题的依赖，以及采用 Count- Min-Sketch (CMS)，而不是简单的计数。前者减少了语言理论术语复杂性较低的环境中所需的样本数量。后者减轻了长期规划范围的内存需求。我们推导了与每种技术相关的 PAC 样本复杂度界限，并通过实验验证了该方法。

为 PostNL 创建基于 Gen-AI 的追踪助理 MVP (SuperTracy)

分类： 人工智能

作者： Mohammad Reshadati

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02711v1

摘要： 生成式人工智能领域的发展为企业带来了很多机会，例如提高客户服务和自动化任务的效率。荷兰最大的包裹和电子商务公司 PostNL 希望利用生成式人工智能来增强围绕包裹追踪的通信。在实习期间，我们创建了一个最小可行产品 (MVP)，以展示使用生成式 AI 技术的价值、增强包裹跟踪、分析包裹的行程并能够以易于理解的方式进行交流。主要目标是开发一个基于大语言模型的内部系统，减少对外部平台的依赖，并在公司内部建立专门的生成式人工智能团队的可行性。这种基于大语言模型的多代理系统旨在构建包裹旅程故事并以更高的效率和准确性识别物流中断。该研究涉及部署复杂的人工智能驱动的通信系统、采用检索增强生成（RAG）来提高响应精度，以及优化针对特定领域任务定制的大型语言模型（LLM）。 MVP 成功实现了一个多代理开源 LLM 系统，称为 SuperTracy。 SuperTracy 能够自主管理广泛的用户查询并改进内部知识处理。结果和评估证明了技术创新和可行性，特别是在包裹追踪的通信方面，超出了最初的预期。这些进步凸显了人工智能驱动的物流解决方案的潜力，为 PostNL 运营框架内进一步完善和更广泛实施提供了许多机会。

结合志同道合的同伴来克服基于会话的社交推荐中的朋友数据稀疏性

分类： 社交和信息网络, 人工智能

作者： Chunyan An, Yunhan Li, Qiang Yang, Winston K. G. Seah, Zhixu Li, Conghao Yanga

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02702v1

摘要： 基于会话的社交推荐 (SSR) 利用在线网络内的社交关系来增强基于会话的推荐 (SR) 的性能。然而，现有的SSR算法经常遇到“朋友数据稀疏”的挑战。此外，社交网络好友的购买偏好与目标用户的购买偏好之间可能存在显着差异，从而降低了好友相对于目标用户自身偏好的影响力。为了应对这些挑战，本文引入了“志同道合的同行”（LMP）的概念，表示根据历史会话其偏好与目标用户当前会话一致的用户。据我们所知，这是第一个使用 LMP 来增强 SSR 中社会影响力建模的工作。这种方法不仅缓解了好友数据稀疏的问题，而且还有效地合并了与目标用户具有相似偏好的用户。我们提出了一种名为 Transformer Encoder with Graph Attention AggregatorRecommendation (TEGAARec) 的新颖模型，其中包括 TEGAA 模块和基于 GAT 的社交聚合模块。 TEGAA模块捕获并融合目标用户和LMP用户的长期和短期兴趣。同时，设计了基于GAT的社交聚合模块，以加权方式聚合目标用户的动态兴趣和社交影响力。对四个真实世界数据集的广泛实验证明了我们提出的模型的有效性和优越性，并且进行了消融研究以说明 TEGAARec 中每个组件的贡献。

用于增强车间调度问题神经局部搜索的决策转换器

分类： 人工智能, 机器学习

作者： Constantin Waubert de Puiseau, Fabian Wolz, Merlin Montag, Jannik Peters, Hasan Tercan, Tobias Meisen

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02697v1

摘要： 几十年来，作业车间调度问题（JSSP）及其求解算法一直受到学术界和工业界的广泛关注。近年来，机器学习 (ML) 在推进现有的 JSSP 解决方案和构建新的 JSSP 启发式解决方案方面发挥着越来越重要的作用，旨在在更短的计算时间内找到更好的解决方案。在本文中，我们建立在最先进的深度强化学习（DRL）代理之上，称为神经局部搜索（NLS），它可以高效且有效地控制 JSSP 上的大型局部邻域搜索。特别是，我们开发了一种在经过训练的 NLS 代理所采取的搜索轨迹上训练决策变换器 (DT) 算法的方法，以进一步改进学习的决策序列。我们的实验表明，DT 成功地学习了与 NLS 代理本身不同的本地搜索策略，并且在许多情况下比 NLS 代理本身更有效。就解决方案质量和搜索所需的可接受计算时间之间的权衡而言，DT 在可接受较长计算时间的应用场景中尤其优越。在这种情况下，它通过每步更好的决策质量来弥补每个搜索步骤所需的较长推理时间，这是由较大的神经网络架构引起的。因此，DT 通过 ML 增强搜索实现了解决 JSSP 的最先进结果。

人工智能和机器学习在软件测试中的作用

分类： 软件工程, 人工智能

作者： Ahmed Ramadan, Husam Yasin, Burhan Pektas

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02693v1

摘要： 人工智能 (AI) 和机器学习 (ML) 对包括软件开发在内的各个行业产生了重大影响。软件测试是软件开发生命周期（SDLC）的重要组成部分，保证软件产品的质量和可靠性。传统上，软件测试是一个劳动密集型过程，需要大量的手动工作。然而，人工智能和机器学习的出现通过引入自动化和智能决策能力改变了这一格局。人工智能和机器学习技术通过自动执行测试用例生成、测试执行和结果分析等复杂任务来提高软件测试的效率和有效性。这些技术减少了测试所需的时间并提高了缺陷检测的准确性，最终带来更高质量的软件。人工智能可以通过分析历史数据和识别模式来预测潜在的故障区域，从而实现更有针对性和更高效的测试。本文通过回顾现有文献、分析当前工具和技术并提供案例研究来证明这些技术的实际优势，探讨了人工智能和机器学习在软件测试中的作用。文献综述全面概述了软件测试中人工智能和机器学习应用的进展，重点介绍了各种研究的关键方法和发现。对当前工具的分析展示了流行的人工智能驱动测试工具的功能，例如 Eggplant AI、Test.ai、Selenium、Appvance、Applitools Eyes、Katalon Studio 和 Tricentis Tosca，每个工具都提供独特的功能和优势。本文包含的案例研究说明了人工智能和机器学习在软件测试中的实际应用，显示了测试效率、准确性和整体软件质量的显着提高。

大语言模型辅助视觉分析：机遇与挑战

分类： 人机交互, 人工智能

作者： Maeve Hutchinson, Radu Jianu, Aidan Slingsby, Pranava Madhyastha

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02691v1

摘要： 我们探索将大语言模型 (LLM) 集成到视觉分析 (VA) 系统中，以通过直观的自然语言交互来转变其功能。我们调查了这个新兴领域的当前研究方向，研究了大语言模型如何集成到数据管理、语言交互、可视化生成和语言生成过程中。我们强调大语言模型为 VA 带来的新可能性，特别是他们如何改变通常用例之外的 VA 流程。我们特别强调构建新的可视化语言模型，允许访问广泛的领域知识、多模式交互和指导机会。最后，我们仔细考虑了在 VA 任务中使用当前大语言模型的突出挑战。我们在本文中的讨论旨在指导未来研究大语言模型辅助 VA 系统的研究人员，并帮助他们在开发这些系统时克服常见的障碍。

解混因果关系感知参数高效微调，提高大语言模型解决问题的能力

分类： 计算和语言, 人工智能, 机器学习

作者： Ruoyu Wang, Xiaoxuan Li, Lina Yao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02686v1

摘要： 大型语言模型（LLM）在处理基于人类指令的各种任务方面表现出了显着的效率，但最近的研究表明，这些模型往往无法在涉及推理的问题（例如数学或物理问题）上取得令人满意的结果。这种现象通常归因于这些模型是否能够真正理解文本中嵌入的知识，或者只是学习复制令牌分布而没有真正理解内容的不确定性。在本文中，我们深入研究了这个问题，旨在增强大语言模型的推理能力。首先，我们通过在注意力和表示级别可视化文本生成过程来调查模型是否具有真正的推理能力。然后，我们将大语言模型的推理过程制定为因果框架，为我们在可视化中观察到的问题提供了正式的解释。最后，基于这个因果框架，我们提出了去混杂因果适应（DCA），这是一种新颖的参数高效微调（PEFT）方法，通过鼓励模型提取一般问题解决技能并应用这些技能来增强模型的推理能力针对不同问题的技巧。实验表明，我们的方法在多个基准测试中始终优于基线，并且仅使用 120 万个可调参数，我们就获得了与其他微调方法更好或相当的结果。这证明了我们的方法在提高大语言模型整体准确性和可靠性方面的有效性和效率。

RouterRetriever：探索路由相对于多个专家嵌入模型的优势

分类： 信息检索, 人工智能

作者： Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02685v1

摘要： 信息检索方法通常依赖于在 MSMARCO 等大型通用领域数据集上训练的单个嵌入模型。虽然这种方法可以产生具有合理整体性能的检索器，但在特定领域数据上训练的模型通常会在各自的领域内产生更好的结果。虽然信息检索领域的先前工作已经通过多任务训练解决了这个问题，但组合多个特定领域专家检索器的主题仍然未被探索，尽管它在语言模型生成中很受欢迎。在这项工作中，我们引入了 RouterRetriever，这是一种检索模型，它利用多个特定领域的专家以及路由机制来为每个查询选择最合适的专家。它重量轻，无需额外培训即可轻松添加或删除专家。对 BEIR 基准的评估表明，RouterRetriever 的性能优于 MSMARCO 训练的模型（+2.1 绝对 nDCG@10）和多任务训练的模型（+3.2）。这是通过采用我们的路由机制来实现的，该机制超越了语言建模中常用的其他路由技术（平均+1.8）。此外，即使没有数据集的特定专家，这种好处也可以很好地推广到其他数据集。据我们所知，RouterRetriever 是第一个展示在检索任务中使用多个特定领域专家嵌入模型与有效路由相对于单个通用嵌入模型的优势的工作。

使用 LSTM 和 GRU 的神经网络对亚马逊地区的活跃火灾进行建模

分类： 机器学习, 人工智能, 应用领域

作者： Ramon Tavares

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02681v1

摘要： 这项研究提出了一种综合方法，用于对巴西亚马逊 AQUA_M-T 卫星检测到的火灾点的历史时间序列进行建模和预测。该方法利用混合循环神经网络 (RNN) 模型，结合长短期记忆 (LSTM) 和门控循环单元 (GRU) 架构来预测每日检测到的火点的每月累积量。数据摘要显示，随着时间的推移，季节性变化是一致的，年度最大和最小火点值往往在每年的同一时期重复出现。主要目标是通过严格的统计分析来验证预测是否捕捉到了这种固有的季节性。该方法涉及仔细的数据准备、模型配置以及使用两个种子的交叉验证进行训练，确保数据很好地推广到测试集和验证集，并确认模型参数的收敛。结果表明，混合 LSTM 和 GRU 模型在预测未来 12 个月方面提供了更高的准确性，证明了其在捕获复杂时间模式和对观察到的时间序列进行建模方面的有效性。这项研究极大地促进了深度学习技术在环境监测中的应用，特别是在火点预测中。除了提高预测准确性之外，所提出的方法还突出了适应其他时间序列预测挑战的潜力，为机器学习和自然现象预测的研究和开发开辟了新的途径。关键词：时间序列预测、循环神经网络、深度学习。

认识论视角下的独立约束解缠表征学习

分类： 机器学习, 人工智能

作者： Ruoyu Wang, Lina Yao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02672v1

摘要： 解缠表示学习旨在通过训练数据编码器来识别数据生成过程中具有语义意义的潜在变量，从而提高深度学习方法的可解释性。然而，对于解纠缠表示学习的目标，目前还没有达成普遍接受的定义共识。特别是，关于潜在变量是否应该相互独立存在大量讨论。在本文中，我们首先通过在认识论和解缠表征学习之间建立概念桥梁来研究这些关于潜在变量之间相互关系的争论。然后，受这些跨学科概念的启发，我们引入了一个两级潜在空间框架，为之前关于这个问题的争论提供了一个通用的解决方案。最后，我们提出了一种通过在生成对抗网络（GAN）框架内集成互信息约束和独立约束来进行解纠缠表示学习的新方法。实验结果表明，我们提出的方法在定量和定性评估方面始终优于基线方法。该方法在多个常用指标上表现出强大的性能，并展示了解开各种语义因素的强大能力，从而提高了可控生成的质量，从而有利于算法的可解释性。

用于机器人导航的因果感知变压器网络

分类： 机器人技术, 人工智能, 机器学习

作者： Ruoyu Wang, Yao Liu, Yuanjiang Cao, Lina Yao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02669v1

摘要： 机器学习算法的最新进展引起了人们对开发多功能嵌入式人工智能系统越来越大的兴趣。然而，该领域当前的研究揭示了改进的机会。首先，直接采用 RNN 和 Transformer 往往会忽略 Embodied AI 和传统顺序数据建模之间的具体差异，从而可能限制其在 Embodied AI 任务中的性能。其次，对特定于任务的配置（例如预训练的模块和特定于数据集的逻辑）的依赖损害了这些方法的通用性。为了解决这些限制，我们首先从因果关系的角度探索嵌入式人工智能任务和其他顺序数据任务之间的独特差异，提出一个因果框架来阐明嵌入式人工智能传统顺序方法的不足。通过利用这种因果视角，我们提出了用于导航的因果感知变压器（CAT）网络，其特点是因果理解模块，以增强模型的环境理解能力。同时，我们的方法没有特定于任务的归纳偏差，并且可以以端到端的方式进行训练，这增强了该方法在各种上下文中的通用性。实证评估表明，我们的方法在一系列设置、任务和模拟环境中始终超越基准性能。广泛的消融研究表明，性能提升可归因于因果理解模块，该模块展示了强化学习和监督学习环境中的有效性和效率。

PoseTalk：基于文本和音频的姿势控制和运动细化，用于一次性头部说话的生成

分类： 计算机视觉和模式识别, 人工智能, 多媒体

作者： Jun Ling, Yiwen Wang, Han Xue, Rong Xie, Li Song

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02657v1

摘要： 虽然以前的音频驱动头部说话生成 (THG) 方法通过驱动音频生成头部姿势，但生成的姿势或嘴唇无法与音频很好地匹配或不可编辑。在这项研究中，我们提出了 \textbf{PoseTalk}，这是一种 THG 系统，可以根据文本提示和音频自由生成口型同步的头部说话视频，并具有自由头部姿势。我们方法的核心见解是使用头部姿势来连接视觉、语言和音频信号。首先，我们建议从音频和文本提示生成姿势，其中音频提供头部运动的短期变化和节奏对应，文本提示描述头部运动的长期语义。为了实现这一目标，我们设计了一种姿势潜在扩散（PLD）模型，用于根据姿势潜在空间中的文本提示和音频提示生成潜在运动。其次，我们观察到一个损失不平衡问题：嘴唇区域的损失占姿势和嘴唇引起的总重建损失的不到 4%，使得优化倾向于头部运动而不是嘴唇形状。为了解决这个问题，我们提出了一种基于细化的学习策略，使用两个级联网络（即 CoarseNet 和 RefineNet）合成自然对话视频。 CoarseNet 估计粗略运动以生成新颖姿势的动画图像，而 RefineNet 则专注于通过从低分辨率到高分辨率逐步估计嘴唇运动来学习更精细的嘴唇运动，从而提高嘴唇同步性能。实验表明，与纯文本或纯音频相比，我们的姿势预测策略实现了更好的姿势多样性和真实性，并且我们的视频生成器模型在合成具有自然头部运动的谈话视频方面优于最先进的方法。项目：https://junleen.github.io/projects/posetalk。

OpenFact 在 CheckThat！ 2024 年：结合多种攻击方法来生成有效的对抗性文本

分类： 计算和语言, 人工智能

作者： Włodzimierz Lewoniewski, Piotr Stolarski, Milena Stróżyna, Elzbieta Lewańska, Aleksandra Wojewoda, Ewelina Księżniak, Marcin Sawiński

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02649v2

摘要： 本文介绍了 CheckThat! 的实验和结果！ CLEF 2024 实验室任务 6：使用对抗性示例进行可信度评估的稳健性 (InCrediblAE)。该任务的主要目标是在五个问题领域生成对抗性示例，以评估广泛使用的文本分类方法（微调 BERT、BiLSTM 和 RoBERTa）在应用于可信度评估问题时的鲁棒性。本研究探讨了集成学习在增强自然语言处理（NLP）模型的对抗性攻击中的应用。我们在跨各种错误信息任务的五个数据集上系统地测试和改进了几种对抗性攻击方法，包括 BERT-Attack、遗传算法、TextFooler 和 CLARE。通过开发 BERT-Attack 的修改版本和混合方法，我们在攻击效率方面取得了显着提高。我们的结果证明了修改和组合多种方法来创建更复杂和更有效的对抗性攻击策略的潜力，有助于开发更强大和更安全的系统。

使用探索性代理评估环境

分类： 人工智能, 人机交互

作者： Bobby Khaleque, Mike Cook, Jeremy Gow

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02632v1

摘要： 探索是许多视频游戏的关键部分。我们研究了如何使用探索性代理来为程序生成的游戏关卡（5 个引人入胜的关卡和 5 个不引人入胜的关卡）的设计提供反馈。我们扩展了先前研究中引入的框架，该框架对探索动机进行建模，并引入了用于评估环境探索潜力的适应度函数。我们的研究表明，我们的探索代理可以清楚地区分参与度和不参与度。研究结果表明，我们的代理有潜力成为评估程序生成水平的有效工具，就探索而言。这项工作通过提供关于如何评估和优化游戏环境以促进玩家探索的新见解，为人工智能驱动的游戏设计领域的不断发展做出了贡献。

AdvSecureNet：用于对抗性机器学习的 Python 工具包

分类： 计算机视觉和模式识别, 人工智能, 密码学和安全, 机器学习

作者： Melih Catal, Manuel Günther

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02629v1

摘要： 机器学习模型很容易受到对抗性攻击。已经开发了多种工具来研究这些漏洞，但它们通常缺乏全面的功能和灵活性。我们推出了 AdvSecureNet，这是一个基于 PyTorch 的对抗性机器学习工具包，它是第一个原生支持用于攻击、防御和评估的多 GPU 设置的工具包。它是第一个同时支持 CLI 和 API 接口以及外部 YAML 配置文件的工具包，以增强多功能性和可重复性。该工具包包括多种攻击、防御和评估指标。遵循严格的软件工程实践，确保高代码质量和可维护性。该项目作为 GitHub 上的开源项目提供，网址为 https://github.com/melihcatal/advsecurenet，并可通过 PyPI 安装。

SurgTrack：真实手术器械的无 CAD 3D 跟踪

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Wenwu Guo, Jinlin Wu, Zhen Chen, Qingxiang Zhao, Miao Xu, Zhen Lei, Hongbin Liu

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02598v1

摘要： 基于视觉的手术导航因其无创、经济、灵活的优势而受到越来越多的关注。特别是，基于视觉的导航系统的一个关键要素是跟踪手术器械。与 2D 仪器跟踪方法相比，3D 仪器跟踪在临床实践中具有更广泛的价值，但由于纹理较弱、遮挡以及缺乏用于 3D 配准的计算机辅助设计 (CAD) 模型，因此也更具挑战性。为了解决这些挑战，我们提出了 SurgTrack，这是一种两阶段 3D 仪器跟踪方法，适用于无 CAD 且强大的实际应用。在第一个配准阶段，我们结合了仪器有符号距离场 (SDF)，对仪器的 3D 表示进行建模，实现了无需 CAD 的 3D 配准。因此，我们可以通过将视频流与注册的SDF模型进行匹配来获得仪器在3D空间中的位置和方向。在第二跟踪阶段，我们设计了姿势图优化模块，利用姿势内存池的历史跟踪结果来优化跟踪结果并提高遮挡鲁棒性。此外，我们还收集了 Instrument3D 数据集来全面评估手术器械的 3D 跟踪。大量的实验验证了我们的 SurgTrack 的优越性和可扩展性，其性能显着改进，超越了最先进的技术。代码和数据集可在 https://github.com/wenwucode/SurgTrack 获取。

AlignGroup：学习并调整团体共识与成员偏好以进行团体推荐

分类： 信息检索, 人工智能

作者： Jinfeng Xu, Zheyu Chen, Jinze Li, Shuo Yang, Hewei Wang, Edith C. -H. Ngai

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02580v1

摘要： 群体活动是人类社会的重要行为，为群体提供个性化推荐称为群体推荐任务。现有的方法通常可以分为两种推断群体偏好的策略：1）通过聚合成员的个性化偏好来确定群体偏好，2）通过捕获群体成员在共同妥协后的一致决策来推断群体共识。然而，前者缺乏群体层面的考虑，而后者则忽视了个体用户的细粒度偏好。为此，我们提出了一种新颖的群体推荐方法AlignGroup，该方法注重群体共识和群体成员的个人偏好来推断群体决策。具体来说，AlignGroup 通过精心设计的超图神经网络探索群体共识，该网络可以有效地学习群体内和群体间的关系。此外，AlignGroup 创新性地利用自我监督的对齐任务，通过将群体共识与成员的共同偏好相结合来捕捉细粒度的群体决策。对两个真实世界数据集的大量实验验证了我们的 AlignGroup 在组推荐任务和用户推荐任务上都优于最先进的技术，并且优于大多数基线的效率。

使用图像扩散模型解决视频逆问题

分类： 计算机视觉和模式识别, 人工智能, 机器学习

作者： Taesung Kwon, Jong Chul Ye

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02574v1

摘要： 最近，基于扩散模型的逆问题求解器（DIS）已成为解决逆问题的最先进方法，包括图像超分辨率、去模糊、修复等。然而，它们在视频逆问题中的应用由于训练视频扩散模型的挑战，时空退化在很大程度上仍未得到探索。为了解决这个问题，我们在这里引入了一种创新的视频逆求解器，它仅利用图像扩散模型。具体来说，通过从最近的分解扩散采样器（DDS）的成功中汲取灵感，我们的方法将视频的时间维度视为图像扩散模型的批次维度，并解决由以下公式得出的去噪时空批次内的时空优化问题：每个图像扩散模型。此外，我们引入了一种批次一致的扩散采样策略，通过同步图像扩散模型中的随机噪声分量来鼓励批次间的一致性。我们的方法协同地将批次一致采样与每个反向扩散步骤中去噪时空批次的同步优化相结合，从而为视频逆问题提供了一种新颖且高效的扩散采样策略。实验结果表明，我们的方法有效地解决了视频逆问题中的各种时空退化，实现了最先进的重建。项目页面：https://solving-video-inverse.github.io/main/

通过基于规则的人工智能和大型语言模型推进网络事件时间线分析

分类： 密码学和安全, 人工智能, 新兴技术, 机器学习

作者： Fatma Yasmine Loumachi, Mohamed Chahine Ghanem

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02572v1

摘要： 时间线分析 (TA) 是数字取证 (DF) 中时间线取证 (TF) 的关键部分，主要侧重于检查和分析从事件日志、文件元数据和其他相关数据派生的时间数字工件（例如时间戳）以关联事件网络事件造成的结果并重建其时间顺序。传统工具通常难以有效处理 DF 调查和事件响应 (IR) 过程中获取的大量和各种数据。本文提出了一种新颖的框架 GenDFIR，它将基于规则的人工智能 (R-BAI) 算法与大型语言模型 (LLM) 相结合，以推进和自动化 TA 流程。我们的方法包括两个主要阶段 (1) 我们使用 R-BAI 根据预定义的规则识别和选择异常数字制品。 (2) 然后，在检索增强生成 (RAG) 代理的帮助下，将选定的工件转换为嵌入，供 LLM 进行处理。因此，大语言模型利用其能力对文物执行自动化 TA 并预测潜在的事件场景。为了验证我们的框架，我们使用跨综合网络事件模拟场景的各种指标来评估 GenDFIR 性能、效率和可靠性。本文提出了概念验证，其中的研究结果证明了将 R-BAI 和大语言模型结合起来进行助教的巨大潜力。这种新颖的方法凸显了生成式人工智能（GenAI）（特别是大语言模型）的力量，并为高级威胁检测和事件重建开辟了新途径，代表着该领域向前迈出了重要一步。

多即是多：大型语言模型中的加法偏差

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互

作者： Luca Santagata, Cristiano De Nobili

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02569v1

摘要： 在本文中，我们研究了大型语言模型（LLM）中加性偏差的存在，与在人类中观察到的认知偏差进行了类比，即个体倾向于支持加性变化而不是减性变化。通过一系列受控实验，我们测试了各种 LLM，包括 GPT-3.5 Turbo、Claude 3.5 Sonnet、Mistral、Math$\Sigma$tral 和 Llama 3.1，其任务旨在测量其加法修改与减法修改的倾向。我们的研究结果表明，所有测试模型都显着偏好附加变化。例如，在回文创建任务中，Llama 3.1 在 97.85% 的情况下倾向于添加字母而不是删除字母。同样，在乐高塔平衡任务中，GPT-3.5 Turbo 在 76.38% 的情况下选择添加一块砖，而不是移除一块。在文本摘要任务中，当被要求改进自己或他人的写作时，Mistral 7B 在 59.40% 至 75.10% 的情况下生成了更长的摘要。这些结果表明，与人类类似，大语言模型表现出明显的加性偏差，这在大规模使用大语言模型时可能会产生影响。添加剂偏差可能会增加资源使用和环境影响，从而因过度消费和浪费而导致更高的经济成本。在大语言模型的开发和应用中应考虑这种偏见，以确保平衡和有效的解决问题的方法。

持续学习的视觉语言导航

分类： 人工智能, 机器人技术

作者： Zhiyuan Li, Yanfeng Lv, Ziqin Tu, Di Shang, Hong Qiao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02561v1

摘要： 视觉语言导航 (VLN) 是嵌入式智能中的一个关键领域，要求代理根据自然语言指令在 3D 环境中导航。传统的 VLN 研究重点是提高环境理解和决策准确性。然而，当代理部署在新环境中时，这些方法通常会表现出显着的性能差距，这主要是由于训练数据的多样性有限。扩展数据集以覆盖更广泛的环境是不切实际且成本高昂的。我们提出了带有持续学习的视觉语言导航（VLNCL）范例来应对这一挑战。在这种范式中，代理逐步学习新环境，同时保留以前获得的知识。 VLNCL 使智能体能够维护环境记忆并提取相关知识，从而可以快速适应新环境，同时保留现有信息。我们引入了一种新颖的双循环场景重放方法（Dual-SR），其灵感来自于与 VLN 代理集成的大脑记忆重放机制。这种方法有助于巩固过去的经验并增强新任务的泛化能力。通过利用多场景内存缓冲区，代理可以有效地组织和重播任务记忆，从而增强其快速适应新环境并减轻灾难性遗忘的能力。我们的工作开创了 VLN 代理的持续学习，引入了新颖的实验设置和评估指标。我们通过广泛的评估证明了我们方法的有效性，并为 VLNCL 范式建立了基准。与现有持续学习和 VLN 方法的比较实验显示出显着的改进，在持续学习能力方面实现了最先进的性能，并突显了我们的方法在保留先验知识的同时实现快速适应的潜力。

具有跨分辨率关系对比蒸馏的低分辨率物体识别

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 多媒体

作者： Kangkai Zhang, Shiming Ge, Ruixin Shi, Dan Zeng

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02555v1

摘要： 由于缺乏信息细节，识别低分辨率图像中的物体是一项具有挑战性的任务。最近的研究表明，知识蒸馏方法可以通过对齐跨分辨率表示，有效地将知识从高分辨率教师模型转移到低分辨率学生模型。然而，这些方法在适应识别对象在训练图像和测试图像之间表现出显着表示差异的情况方面仍然面临局限性。在这项研究中，我们提出了一种跨分辨率关系对比蒸馏方法来促进低分辨率对象识别。我们的方法使学生模型能够模仿训练有素的教师模型的行为，从而在识别高分辨率对象方面提供高精度。为了提取足够的知识，学生的学习受到对比关系蒸馏损失的监督，这保留了对比表示空间中各种关系结构的相似性。通过这种方式，可以有效增强恢复熟悉的低分辨率对象丢失的细节的能力，从而实现更好的知识迁移。对低分辨率物体分类和低分辨率人脸识别的大量实验清楚地证明了我们方法的有效性和适应性。

周界识别的顺序决策模型

分类： 人工智能

作者： Ayal Taitler

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02549v2

摘要： 周界识别涉及确定指定区域或区域的边界，需要对交通流进行监控、控制或优化。存在各种方法和技术来准确定义这些周界；然而，它们通常需要专门的设备、精确的绘图或全面的数据来有效地描述问题。在这项研究中，我们提出了一个用于周边搜索的顺序决策框架，旨在实时高效运行，并且只需要公开访问的信息。我们将周界搜索概念化为游戏代理和人工环境之间的游戏，其中代理的目标是通过顺序改进当前周界来确定最佳周界。我们详细介绍了游戏模型，并讨论了其在确定最佳周界定义方面的适应性。最终，我们通过现实场景展示了该模型的功效，强调了相应最佳周界的识别。

通过大型多模态模型了解 eGFR 轨迹和肾功能下降

分类： 机器学习, 人工智能

作者： Chih-Yuan Li, Jun-Ting Wu, Chan Hsu, Ming-Yen Lin, Yihuang Kang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02530v1

摘要： 估计的肾小球滤过率（eGFR）是临床实践中肾功能的重要指标。尽管使用临床和实验室数据的传统方程和机器学习 (ML) 模型可以估计 eGFR，但准确预测未来的 eGFR 水平仍然是肾病学家和 ML 研究人员面临的重大挑战。最近的进展表明，大型语言模型 (LLM) 和大型多模态模型 (LMM) 可以作为各种应用程序的强大基础模型。本研究利用由 50 名患者的实验室和临床值组成的数据集，研究了 LMM 预测未来 eGFR 水平的潜力。通过整合各种提示技术和 LMM 组合，我们的研究结果表明，这些模型在与 eGFR 轨迹的精确提示和视觉表示相结合时，可提供与现有 ML 模型相当的预测性能。这项研究扩展了基础模型的应用，并为未来研究利用这些模型解决复杂的医学预测挑战提出了途径。

Cog-GA：基于大型语言模型的连续环境中视觉语言导航的生成代理

分类： 人工智能, 机器人技术

作者： Zhiyuan Li, Yanfeng Lu, Yao Mu, Hong Qiao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02522v1

摘要： 连续环境中的视觉语言导航 (VLN-CE) 代表了嵌入式人工智能的前沿，要求智能体仅在自然语言指令的指导下在无界 3D 空间中自由导航。这项任务在多模态理解、空间推理和决策方面提出了独特的挑战。为了应对这些挑战，我们引入了 Cog-GA，这是一种基于大语言模型 (LLM) 的生成代理，专为 VLN-CE 任务而定制。 Cog-GA 采用双管齐下的策略来模拟类人的认知过程。首先，它构建了一个认知图，整合了时间、空间和语义元素，从而促进了大语言模型空间记忆的发展。其次，Cog-GA采用航路点预测机制，战略性地优化探索轨迹，以最大限度地提高导航效率。每个路径点都附有双通道场景描述，将环境线索分类为“什么”和“哪里”流作为大脑。这种分离增强了智能体的注意力集中，使其能够辨别相关的空间信息以进行导航。反思机制通过捕获先前导航经验的反馈来补充这些策略，促进持续学习和适应性重新规划。对 VLN-CE 基准进行的广泛评估验证了 Cog-GA 的最先进性能和模拟类人导航行为的能力。这项研究对战略性和可解释的 VLN-CE 药物的开发做出了重大贡献。

持续扩散器（CoD）：通过体验排练掌握持续离线强化学习

分类： 机器学习, 人工智能

作者： Jifeng Hu, Li Shen, Sili Huang, Zhejian Yang, Hechang Chen, Lichao Sun, Yi Chang, Dacheng Tao

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02512v1

摘要： 人工神经网络，尤其是最近的基于扩散的模型，在游戏、控制和 QA 系统中表现出了显着的优越性，其中训练任务的数据集通常是静态的。然而，在现实世界的应用中，例如强化学习 (RL) 的机器人控制，任务正在发生变化，并且新任务按顺序出现。这种情况对训练能够适应任务变化并保留所获得知识的智能体提出了可塑性与稳定性权衡的新挑战。鉴于此，我们提出了一种基于排练的连续扩散模型，称为连续扩散器（CoD），赋予扩散器快速适应（可塑性）和持久保留（稳定性）的能力。具体来说，我们首先构建一个离线基准测试，其中包含来自多个领域的 90 个任务。然后，我们通过顺序建模和条件生成来训练每个任务的 CoD 以做出决策。接下来，我们保留以前数据集的一小部分作为排练缓冲区并重播它以保留所获得的知识。对一系列任务的大量实验表明，CoD 可以实现有希望的可塑性与稳定性权衡，并且在大多数任务上优于现有的基于扩散的方法和其他代表性基线。

CoAst：基于跨轮估值的联邦学习免验证贡献评估

分类： 机器学习, 人工智能

作者： Hao Wu, Likun Zhang, Shucheng Li, Fengyuan Xu, Sheng Zhong

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02495v1

摘要： 在联邦学习（FL）过程中，由于每个参与者持有的数据不同，因此需要弄清楚哪个参与者对模型性能的贡献更高。有效的贡献评估有助于激励数据所有者参与 FL 培训。根据是否需要验证数据集，该领域的研究工作可以分为两个方向。基于验证的方法需要使用代表性的验证数据来衡量模型的准确性，这在实际的 FL 场景中很难获得。现有的免验证方法在单轮训练中根据局部模型和全局模型的参数和梯度来评估贡献，这很容易受到模型训练的随机性的影响。在这项工作中，我们提出了 CoAst，这是一种无需访问任何验证数据即可评估 FL 参与者贡献的实用方法。 CoAst的核心思想涉及两个方面：一是通过权值量化只统计模型参数中最重要的部分，二是根据当前局部参数与全局参数更新的相似度进行跨轮估值。随后的几轮沟通。大量实验表明，CoAst 具有与现有基于验证的方法相当的评估可靠性，并且优于现有的免验证方法。

NeuroSpex：具有跨模态注意力的神经引导说话人提取

分类： 声音, 人工智能, 音频和语音处理

作者： Dashanka De Silva, Siqi Cai, Saurav Pahuja, Tanja Schultz, Haizhou Li

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02489v1

摘要： 在听觉注意力的研究中，人们发现，参与的言语和引发的神经反应之间存在着很强的相关性，可以通过脑电图（EEG）来测量。因此，可以使用脑电图信号中可用的注意力信息来通过计算指导提取鸡尾酒会中的目标说话者。在本文中，我们提出了一种神经引导的说话人提取模型，即 NeuroSpex，使用听者的脑电图响应作为唯一的辅助参考线索，从单耳语音混合物中提取有人参与的语音。我们提出了一种新颖的脑电图信号编码器来捕获注意力信息。此外，我们提出了一种交叉注意（CA）机制来增强语音特征表示，生成说话人提取掩模。公开数据集上的实验结果表明，我们提出的模型在各种评估指标上都优于两个基线模型。

通过元初始化提高零样本跨数据集单图像室内深度的通用性

分类： 计算机视觉和模式识别, 人工智能

作者： Cho-Ying Wu, Yiqi Zhong, Junying Wang, Ulrich Neumann

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02486v1

摘要： 室内机器人依靠深度来执行导航或障碍物检测等任务，单图像深度估计被广泛用于辅助感知。大多数室内单图像深度预测不太关注模型对未见过的数据集的通用性，而是关注系统部署的野外鲁棒性。这项工作利用基于梯度的元学习来获得零样本跨数据集推理的更高通用性。与研究最多的与显式类别标签相关的图像分类元学习不同，对于与对象排列和场景组成方面高度变化的室内环境相关的连续深度值，不存在显式任务边界。我们提出了细粒度任务，将每个 RGB-D 小批量视为元学习公式中的一个任务。我们首先证明我们的方法在有限数据上产生了更好的先验（RMSE 最大为 27.8%）。然后，对元学习初始化的微调始终优于没有元方法的基线。针对泛化，我们提出了零样本跨数据集协议，并验证了我们的元初始化所带来的更高的泛化性，作为许多现有深度估计方法的简单而有用的插件。深度学习和元学习交叉点的工作可能会推动这两项研究更接近机器人和机器感知的实际应用。

对机器学习辅助可视化的对抗性攻击

分类： 密码学和安全, 人工智能, 人机交互, 机器学习, 机器学习

作者： Takanori Fujiwara, Kostiantyn Kucher, Junpeng Wang, Rafael M. Martins, Andreas Kerren, Anders Ynnerman

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02485v1

摘要： ML4VIS 的研究探讨了如何使用机器学习 (ML) 技术来生成可视化，该领域正在快速发展，具有很高的社会影响力。然而，与任何采用 ML 流程的计算管道一样，ML4VIS 方法很容易受到一系列特定于 ML 的对抗性攻击。这些攻击可以操纵可视化生成，导致分析师被欺骗并损害他们的判断。由于缺乏可视化和机器学习角度的综合，当前的 ML4VIS 文献在很大程度上忽视了这一安全方面。为了弥补这一差距，我们使用可视化和机器学习视角的整体视角来研究机器学习辅助可视化在对抗性攻击中的潜在漏洞。我们首先确定机器学习辅助可视化中独特的攻击面（即攻击入口点）。然后我们举例说明五种不同的对抗性攻击。这些示例突出了考虑攻击面和多种不同对手能力时可能攻击的范围。我们的结果表明，对手可以通过系统地识别对机器学习推理有影响的输入属性来引发各种攻击，例如创建任意和欺骗性的可视化。根据我们对攻击面特征和攻击示例的观察，我们强调了全面研究安全问题和防御机制的重要性，这是 ML4VIS 社区的紧迫呼吁。

TASAR：骨骼动作识别的可转移攻击

分类： 计算机视觉和模式识别, 人工智能

作者： Yunfeng Diao, Baiqi Wu, Ruixuan Zhang, Ajian Liu, Xingxing Wei, Meng Wang, He Wang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02483v1

摘要： 骨骼序列作为人类行为的结构良好的表示，在人类活动识别（HAR）中至关重要。对抗性骨骼序列的可转移性使得能够在现实世界的 HAR 场景中进行攻击，例如自动驾驶、智能监控和人机交互。然而，现有的基于骨架的 HAR (S-HAR) 攻击表现出较弱的对抗性可转移性，因此不能被视为真正的基于转移的 S-HAR 攻击。更重要的是，这次失败的原因尚不清楚。在本文中，我们通过损失表面的透镜研究了这种现象，发现其清晰度导致了S-HAR的可传递性差。受这一观察的启发，我们假设并凭经验验证，平滑崎岖的损失景观可能会提高 S-HAR 中的对抗性可转移性。为此，我们提出了第一个基于转移的骨骼动作识别攻击，TASAR。 TASAR 探索平滑模型后验，无需重新训练预训练的代理，这是通过新的训练后双贝叶斯优化策略实现的。此外，与之前独立处理每一帧并忽略序列内时间一致性的基于传输的攻击不同，TASAR 将运动动力学纳入贝叶斯攻击梯度中，有效地破坏了 S-HAR 的时空一致性。为了详尽地评估现有方法和我们的方法的有效性，我们构建了第一个大规模鲁棒S-HAR基准，包括7个S-HAR模型、10个攻击方法、3个S-HAR数据集和2个防御模型。大量结果证明了 TASAR 的优越性。我们的基准可以轻松比较未来的研究，并提供补充材料中的代码。

使用可微分 DSP 进行快速、高质量和参数高效的发音合成

分类： 音频和语音处理, 人工智能, 声音

作者： Yisi Liu, Bohan Yu, Drake Lin, Peter Wu, Cheol Jun Cho, Gopala Krishna Anumanchipalli

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02451v1

摘要： 诸如电磁发音描记术 (EMA) 之类的发音轨迹提供了声道滤波器的低维表示，并已被用作语音合成的自然、基础特征。可微分数字信号处理 (DDSP) 是一种参数高效的音频合成框架。因此，将低维EMA特征与DDSP相结合可以显着提高语音合成的计算效率。在本文中，我们提出了一种快速、高质量且参数高效的 DDSP 发音声码器，可以根据 EMA、F0 和响度合成语音。我们结合了多种技术来解决谐波/噪声不平衡问题，并添加多分辨率对抗性损失以获得更好的合成质量。我们的模型实现了 6.67% 的转录单词错误率 (WER) 和 3.74 的平均意见得分 (MOS)，与最先进的 (SOTA) 基线相比分别提高了 1.63% 和 0.16。我们的 DDSP 声码器在推理过程中比 CPU 上的基线快 4.9 倍，并且只需 0.4M 参数即可生成质量相当的语音，而 SOTA 需要 9M 个参数。

标准化会丢失什么？探索多语言 ASR 模型评估中的陷阱

分类： 计算和语言, 人工智能, 人机交互, 68T50, 91F20, 68T10, I.2.1; I.2.7

作者： Kavya Manohar, Leena G Pillai

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02449v1

摘要： 本文探讨了评估多语言自动语音识别 (ASR) 模型的陷阱，特别关注印度语言脚本。我们研究了领先的 ASR 模型（包括 OpenAI Whisper、Meta 的 MMS、Seamless 和 Assembly AI 的 Conformer）所采用的文本规范化例程，以及它们对性能指标的意外影响。我们的研究表明，当前的文本规范化实践虽然旨在通过消除拼写、标点符号和特殊字符变化等不一致来标准化 ASR 输出以进行公平比较，但在应用于印度文字时存在根本性缺陷。通过使用文本相似性评分和深入的语言检查进行实证分析，我们证明这些缺陷导致印度语言的性能指标人为夸大。最后，我们建议转向开发利用本地语言专业知识的规范化例程，确保对多语言 ASR 模型进行更稳健和准确的评估。

使用分层模型使用图像检测韩国食品

分类： 计算机视觉和模式识别, 人工智能

作者： Hoang Khanh Lam, Kahandakanaththage Maduni Pramuditha Perera

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02448v1

摘要： 为有饮食限制的韩国美食爱好者提供了一个解决方案，以便在食用前识别韩国食品。只需上传菜品的清晰照片，人们就可以知道自己吃的是什么。图像处理技术与机器学习相结合帮助提出了这个解决方案。

大型语言模型作为定制环境多目标强化学习的有效奖励函数搜索器

分类： 机器学习, 人工智能, 计算和语言, 系统与控制, 系统与控制

作者： Guanwen Xie, Jingzehua Xu, Yiyuan Yang, Shuai Zhang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02428v1

摘要： 利用大型语言模型（LLM）来设计奖励函数展示了巨大的潜力。然而，在具有复杂自定义环境和多种要求的强化学习（RL）任务中实现奖励函数的有效设计和改进提出了相当大的挑战。在本文中，我们使大语言模型成为有效的白盒搜索者，突出了他们先进的语义理解能力。具体来说，我们为每个明确的用户需求生成奖励组件，并使用奖励批评家来识别正确的代码形式。然后，LLM 为奖励组件分配权重以平衡其值，并根据训练日志分析器提供的上下文迭代搜索和优化这些权重，同时自适应地确定搜索步长。我们将该框架应用于水下信息收集 RL 任务，无需直接人类反馈或奖励示例（零样本）。奖励批评者只需对每个需求提供一次反馈即可成功纠正奖励代码，有效防止在汇总提供奖励函数反馈时可能出现的不可挽回的错误。权重的有效初始化使得无需权重搜索即可获取Pareto解集中的不同奖励函数。即使在权重相差 100 倍的情况下，也只需不到四次迭代即可获得满足用户需求的解决方案。该框架还可以很好地处理使用 GPT-3.5 Turbo 的大多数提示，因为它不需要高级的数值理解或计算。

通过基于 GPU 的混合压缩加速大型语言模型训练

分类： 分布式、并行和集群计算, 人工智能

作者： Lang Xu, Quentin Anthony, Qinghua Zhou, Nawras Alnaasan, Radha R. Gulhane, Aamir Shafi, Hari Subramoni, Dhabaleswar K. Panda

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02423v1

摘要： 数据并行（DP）、张量并行（TP）和管道并行（PP）是广泛采用的三种策略，用于实现快速高效的大型语言模型（LLM）训练。然而，这些方法依赖于数据密集型通信例程来收集、聚合和重新分配梯度、激活和其他重要的模型信息，这会带来巨大的开销。 MPI 库与基于 GPU 的压缩库共同设计，已被证明可以显着减小消息大小，并利用互连带宽，从而提高训练效率，同时保持可接受的准确性。在这项工作中，我们研究了使用 3D 并行性和 ZeRO 优化的分布式 LLM 训练背景下压缩辅助 MPI 集体的功效。我们在 Lassen 超级计算机上扩展至 192 个 V100 GPU。首先，我们在所有集合中启用了原生压缩方案，并观察到 GPT-NeoX-20B 训练的每个 GPU TFLOPS 增加了 22.5%，每秒样本数增加了 23.6%。尽管如此，这种策略忽略了每个并行度中通信的消息之间存在稀疏性差异，从而引入更多错误并导致训练损失下降。因此，我们针对每个并行维度结合了混合压缩设置，并相应地调整了压缩强度（arXiv：2301.02654）。，我们在执行 DP All-reduce 时对梯度进行积极的压缩，在 TP 和 PP 中传递激活、优化器状态和模型参数时，我们采用较温和的压缩来保持精度。使用调整后的混合压缩方案，我们展示了 17.3% 的提高。每个 GPU TFLOPS 和每秒样本数增加 12.7%，同时达到基线损失收敛。

抽象文本摘要：最新技术、挑战和改进

分类： 计算和语言, 人工智能, 机器学习

作者： Hassan Shakil, Ahmad Farooq, Jugal Kalita

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02413v1

摘要： 这项调查特别关注抽象文本摘要的领域，而不是提取技术，提供了全面的概述，深入探讨了最先进的技术、普遍的挑战和前瞻性的研究方向。我们将这些技术分为传统的序列到序列模型、预训练的大型语言模型、强化学习、分层方法和多模态摘要。与之前没有详细研究技术的复杂性、可扩展性和比较的工作不同，本次审查采用了一种全面的方法，涵盖最先进的方法、挑战、解决方案、比较、局限性，并列出了未来的改进——为研究人员提供了广泛的了解。概述以推进抽象概括研究。我们提供跨技术分类的重要比较表 - 提供对模型复杂性、可扩展性和适当应用程序的见解。该论文强调了意义表示不足、事实一致性、可控文本摘要、跨语言摘要和评估指标等挑战。提出了利用知识整合和其他创新策略的解决方案来应对这些挑战。本文最后强调了新兴的研究领域，如事实不一致、特定领域、跨语言、多语言和长文档摘要，以及处理噪声数据。我们的目标是为研究人员和从业者提供该领域的结构化概述，使他们能够更好地了解当前形势并确定进一步研究和改进的潜在领域。

通过判别生成蒸馏学习保护隐私的学生网络

分类： 机器学习, 人工智能, 密码学和安全

作者： Shiming Ge, Bochao Liu, Pengju Wang, Yong Li, Dan Zeng

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02404v1

摘要： 虽然深度模型已被证明可以成功地从大量注释良好的数据中学习丰富的知识，但它们在实际部署中可能会带来隐私泄露风险。有必要在高实用性和强隐私性之间找到有效的权衡。在这项工作中，我们提出了一种判别生成蒸馏方法来学习隐私保护深度模型。我们的关键思想是以模型为桥梁，从私人数据中提取知识，然后通过两个流将其转移到学习学生网络。首先，判别流分别在私有数据上训练基线分类器，并在多个不相交的私有子集上训练一组教师。然后，生成流将分类器作为固定的判别器，并以无数据的方式训练生成器。之后，生成器用于生成大量合成数据，这些数据进一步用于训练变分自动编码器（VAE）。在这些合成数据中，其中一些被输入到教师集合中，通过差分私有聚合来查询标签，而大多数数据被嵌入到经过训练的 VAE 中以重建合成数据。最后，进行半监督的学生学习，以同时处理两项任务：教师通过对少数私人标记的合成数据进行蒸馏来传递知识，以及通过对许多重建合成数据的正切正态对抗正则化来增强知识。通过这种方式，我们的方法可以控制私有数据的查询成本，并以统一的方式减轻准确性下降，从而形成保护隐私的学生模型。大量的实验和分析清楚地表明了所提出方法的有效性。

经济生产力的扩展法则：大语言模型辅助翻译的实验证据

分类： 普通经济学, 人工智能, 经济学

作者： Ali Merali

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02391v1

摘要： 本文推导了“规模法则”——用于大型语言模型 (LLM) 的训练计算量与其性能之间的经验关系——以实现经济成果。在一项预先注册的实验中，300 名专业翻译人员完成了 1800 项任务，并获得了 13 个具有不同模型训练计算规模（或对照）的大语言模型之一的访问权限。我们的结果表明，模型扩展大大提高了生产力：模型计算量每增加 10 倍，翻译人员完成任务的速度就会加快 12.3%，获得 0.18 s.d. 的效率。成绩更高，每分钟收入增加 16.1%（包括奖金）。此外，对于低技能工人来说，模型扩展带来的收益要高得多，他们的任务完成速度提高了 4 倍。这些结果意味着前沿模型的进一步扩展（目前估计每年增长 4 倍）可能会产生重大的经济影响。

视觉决策的神经动力学模型：向人类专家学习

分类： 神经和进化计算, 人工智能, 计算机视觉和模式识别, 神经元和认知

作者： Jie Su, Fang Cai, Shu-Kuo Zhao, Xin-Yi Wang, Tian-Yi Qian, Da-Hui Wang, Bo Hong

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02390v1

摘要： 揭示生物智能的基本神经关联、开发数学模型和进行计算模拟对于推进人工智能 (AI) 新范式至关重要。在这项研究中，我们使用神经动力学建模方法实现了一个全面的视觉决策模型，涵盖从视觉输入到行为输出。受灵长类动物背侧视觉通路关键组成部分的启发，我们的模型不仅与人类行为密切相关，而且反映了灵长类动物的神经活动，并达到了与卷积神经网络（CNN）相当的准确性。此外，磁共振成像（MRI）还确定了与感知决策任务表现相关的关键神经影像特征，例如结构连接和功能连接。引入了基于神经影像的微调方法并将其应用于该模型，从而导致与受试者之间观察到的行为变化相一致的性能改进。与经典的深度学习模型相比，我们的模型依赖于生物神经网络的结构特征而不是大量的训练数据，更准确地复制了生物智能的行为表现，并表现出增强的抗干扰能力。

3D 场景中的多模态情景推理

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Xiongkun Linghu, Jiangyong Huang, Xuesong Niu, Xiaojian Ma, Baoxiong Jia, Siyuan Huang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02389v1

摘要： 态势感知对于理解和推理具体 AI 代理中的 3D 场景至关重要。然而，现有的情境理解数据集和基准在数据模式、多样性、规模和任务范围方面受到限制。为了解决这些限制，我们提出了多模态情境问答 (MSQA)，这是一种大规模多模态情境推理数据集，利用 3D 场景图和视觉语言模型 (VLM) 在各种现实世界中进行可扩展收集3D 场景。 MSQA 包括 9 个不同问题类别的 251K 个定位问答对，涵盖 3D 场景中的复杂场景。我们在基准测试中引入了一种新颖的交错多模态输入设置，为情况和问题描述提供文本、图像和点云，解决了之前单模态约定（例如文本）中的歧义。此外，我们还设计了多模式情景下一步导航 (MSNN) 基准来评估模型的导航情景推理。对 MSQA 和 MSNN 的综合评估凸显了现有视觉语言模型的局限性，并强调了处理多模态交错输入和情境建模的重要性。数据扩展和跨域传输的实验进一步证明了利用 MSQA 作为预训练数据集来开发更强大的情境推理模型的有效性。

大语言模型和认知科学：相似性、差异性和挑战的综合回顾

分类： 人工智能, 计算和语言

作者： Qian Niu, Junyu Liu, Ziqian Bi, Pohsun Feng, Benji Peng, Keyu Chen

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02387v2

摘要： 这篇全面的综述探讨了大型语言模型 (LLM) 和认知科学的交叉点，研究了 LLM 和人类认知过程之间的异同。我们分析了评估大语言模型认知能力的方法，并讨论了它们作为认知模型的潜力。该评论涵盖了大语言模型在各个认知领域的应用，强调了认知科学研究所获得的见解。我们评估大语言模型的认知偏差和局限性，以及提出的提高其表现的方法。研究了大语言模型与认知架构的集成，揭示了增强人工智能（AI）能力的有希望的途径。确定了关键挑战和未来的研究方向，强调需要不断完善大语言模型，以更好地与人类认知保持一致。这篇评论对大语言模型在增进我们对人工智能和人类智能的理解方面的现状和未来潜力提供了一个平衡的视角。

用于虚拟现实应用的单图像珊瑚模型生成

分类： 计算机视觉和模式识别, 人工智能, 图形, 人机交互, 多媒体

作者： Jie Fu, Shun Fu, Mick Grierson

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02376v1

摘要： 随着VR技术的快速发展，对高质量3D模型的需求不断增加。传统方法在大规模定制中难以满足效率和质量的要求。本文介绍了一种深度学习框架，可从单个图像生成高精度 3D 珊瑚模型。该框架使用 Coral 数据集提取几何和纹理特征，执行 3D 重建，并优化设计和材料混合。先进的优化和多边形计数控制确保形状精度、细节保留和各种复杂性的灵活输出，满足高质量渲染和实时交互需求。该项目采用可解释人工智能（XAI），将人工智能生成的模型转换为交互式“艺术品”，在 VR 和 XR 中观看效果最佳。这增强了模型可解释性和人机协作。 VR交互中实时反馈显示珊瑚种类、栖息地等信息，丰富用户体验。生成的模型在细节、视觉质量和效率方面超越了传统方法。这项研究为VR 3D内容创作提供了一种智能方法，降低了制作门槛，促进了VR的广泛应用。此外，集成 XAI 为 AI 生成的视觉内容提供了新的见解，并推进了 3D 视觉可解释性的研究。

大型语言模型是否具有情感敏感度？

分类： 计算和语言, 人工智能

作者： Yang Liu, Xichou Zhu, Zhou Shen, Yi Liu, Min Li, Yujun Chen, Benzi John, Zhenzhen Ma, Tao Hu, Zhiyang Xu, Wei Luo, Junhui Wang

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02370v1

摘要： 大型语言模型（LLM）最近展示了其在语言理解方面的非凡能力。然而，如何全面评估LLM的情感能力仍然是一个挑战。本文研究了大语言模型检测文本模式中的情绪并对其做出反应的能力。随着大语言模型与各种应用程序的集成不断增加，理解它们对情绪基调的敏感性变得非常重要，因为它会影响用户体验和情绪驱动任务的效率。我们进行了一系列实验来评估几位著名大语言模型在识别和适当应对积极、消极和中性情绪等情绪方面的表现。通过各种情绪基准对模型的输出进行分析，并将其响应与人类评估进行比较。我们的发现表明，尽管大语言模型表现出对情绪的基本敏感性，但其准确性和一致性存在很大差异，强调需要进一步增强其培训过程，以更好地捕捉微妙的情绪线索。以我们的研究结果为例，在某些情况下，模型可能会错误地将强烈积极的情绪归类为中性，或者无法识别文本中的讽刺或讽刺。这种错误分类凸显了情感分析的复杂性以及模型需要改进的领域。另一方面是，不同的大语言模型在同一组数据上可能有不同的表现，具体取决于其架构和训练数据集。这种差异需要更深入地研究导致性能差异的因素以及如何优化它们。

NUDGE：用于检索的嵌入的轻量级非参数微调

分类： 机器学习, 人工智能, 计算和语言, 信息检索

作者： Sepanta Zeighami, Zac Wellmer, Aditya Parameswaran

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02343v1

摘要： 来自预训练嵌入模型的密集向量嵌入的 $k$-最近邻搜索（$k$-NN 检索）是文本和图像以及检索增强生成 (RAG) 管道的主要检索方法。在实践中，应用程序开发人员经常微调嵌入，以提高其对现有数据集和查询工作负载的准确性。现有的方法要么对预训练模型本身进行微调，要么更有效地但以牺牲准确性为代价，训练适配器模型来转换预训练模型的输出。我们提出了 NUDGE，这是一系列新颖的非参数嵌入微调方法，它们比两组现有方法都更加准确和高效。 NUDGE 直接修改数据记录的嵌入，以最大限度地提高 $k$-NN 检索的准确性。我们对 NUDGE 的非参数方法进行了全面的理论和实验研究。我们表明，即使潜在的问题是 NP-Hard，约束变化也可以有效地解决。这些约束还确保了嵌入的变化是适度的，避免了预训练过程中学到的语义的巨大扭曲。在五个预训练模型和九个标准文本和图像检索数据集的实验中，NUDGE 在几分钟内运行，并且通常比现有的微调方法将 NDCG@10 提高 10% 以上。平均而言，与微调预训练模型和训练适配器相比，NUDGE 的准确度提高了 3.3 倍和 4.3 倍，运行速度分别提高了 200 倍和 3 倍。

指导机器人超声检查师：通过稀疏专家的反馈学习机器人超声检查

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Deepak Raina, Mythra V. Balakuntala, Byung Wook Kim, Juan Wachs, Richard Voyles

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02337v1

摘要： 超声因其无创、无辐射、实时成像等优点而被广泛应用于临床干预和诊断。然而，由于操作员需要大量的培训和专业知识，这种灵巧程序的可及性受到限制。机器人超声（RUS）为解决这一限制提供了可行的解决方案；尽管如此，达到人类水平的熟练程度仍然具有挑战性。 RUS 探索了从演示中学习 (LfD) 方法，该方法从离线演示数据集中学习策略，以编码专家超声医师的心理模型。然而，迄今为止，尚未探索在 RUS 培训期间专家的积极参与（即辅导）。教练以提高人类训练的效率和表现而闻名。本文提出了 RUS 的辅导框架，以增强其绩效。该框架将 DRL（自我监督实践）与通过辅导提供的稀疏专家反馈相结合。 DRL 采用离策略 Soft Actor-Critic (SAC) 网络，并根据图像质量评级进行奖励。专家的辅导被建模为部分可观察马尔可夫决策过程（POMDP），它根据专家的修正更新策略参数。对模型的验证研究表明，辅导将学习率提高了 $25%$，将高质量图像采集的数量提高了 $74.5%$。

Arctic-SnowCoder：揭秘代码预训练中的高质量数据

分类： 计算和语言, 人工智能

作者： Yuxiang Wei, Hojae Han, Rajhans Samdani

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02326v1

摘要： 最近的研究越来越多地表明，高质量的数据对于语言模型的有效预训练至关重要。然而，“高质量”的准确定义仍未得到充分探索。着眼于代码领域，我们介绍了Arctic-SnowCoder-1.3B，这是一种数据高效的基础代码模型，通过三个阶段逐步细化数据在555B令牌上进行预训练：（1）使用500B标准质量代码令牌进行一般预训练，通过基础预处理过滤、去重和去污，(2) 使用 50B 高质量标记继续进行预训练，这些标记是由 BERT 风格的质量注释器从第一阶段选择的，经过训练可以区分好代码和随机数据，使用从高质量代码文件中抽取的正例，以及来自 Magicoder 和 StarCoder2-Instruct 的指令数据，以及 (3) 使用 Llama-3.1-70B 使用第二阶段数据作为种子创建的 5B 合成数据增强预训练，采用 Magicoder 方法进行预训练。尽管在有限的数据集上进行了训练，Arctic-SnowCoder 在 BigCodeBench（一个专注于实际和具有挑战性的编程任务的编码基准）上实现了最先进的性能，与在不超过 1T 令牌上训练的类似大小的模型相比，表现优于 Phi- 1.5-1.3B 提高 36%。在所有评估的基准中，Arctic-SnowCoder-1.3B 击败了在 1T 代币上预训练的 StarCoderBase-3B。此外，它与在数万亿代币上训练的领先小型基本代码模型的性能相匹配。例如，Arctic-SnowCoder-1.3B 在评估函数级代码生成的基准 HumanEval+ 上超越了在超过 3.3T 代币上进行预训练的 StarCoder2-3B，并在 BigCodeBench 上保持竞争力。我们的评估提供了全面的分析，证明 Arctic-SnowCoder 的各种设计选择是合理的。最重要的是，我们发现高质量数据的关键在于其与下游应用分布的一致性。

TimeDiT：用于时间序列基础模型的通用扩散变压器

分类： 机器学习, 人工智能

作者： Defu Cao, Wen Ye, Yizhou Zhang, Yan Liu

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02322v1

摘要： 随着文本和视频数据基础模型构建的最新进展，人们对时间序列基础模型的兴趣激增。利用时间自回归生成 Transformer 架构开发了一系列模型，其有效性已在大型语言模型中得到证明。虽然实证结果很有希望，但几乎所有现有的时间序列基础模型都仅在精心策划的与文本非常相似的“基准”数据集上进行了测试。然而，现实世界的时间序列呈现出独特的挑战，例如跨域的可变通道大小、缺失值以及由于现实世界数据的多分辨率性质而变化的信号采样间隔。此外，时间自回归解码的单向性质限制了领域知识的结合，例如表示为偏微分方程（PDE）的物理定律。为了应对这些挑战，我们引入了时间扩散变换器（TimeDiT），这是一种时间序列的通用基础模型，采用去噪扩散范式而不是时间自回归生成。 TimeDiT 利用 Transformer 架构来捕获时间依赖性，并采用扩散过程来生成高质量的候选样本，而无需通过新颖的掩蔽方案和通道对齐策略对目标分布施加严格的假设。此外，我们提出了一种免微调的模型编辑策略，允许在采样过程中无缝集成外部知识，而无需更新任何模型参数。对预测、插补和异常检测等各种任务进行的大量实验证明了 TimeDiT 的有效性。

关于记忆对瞬态偏微分方程建模的好处

分类： 机器学习, 人工智能

作者： Ricardo Buitrago Ruiz, Tanya Marwah, Albert Gu, Andrej Risteski

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02313v1

摘要： 数据驱动技术已成为解决偏微分方程 (PDE) 的传统数值方法的有前途的替代方案。这些技术经常为许多感兴趣的偏微分方程系列提供计算成本和准确性之间的更好权衡。对于时间相关的偏微分方程，现有的方法通常将偏微分方程视为马尔可夫系统，即系统的演化仅取决于“当前状态”，而不取决于过去的状态。然而，输入信号的失真（例如，由于离散化或低通滤波）可能导致失真信号的演变成为非马尔可夫式。在这项工作中，受模型简化理论的启发，我们研究了具有记忆的架构对偏微分方程建模的影响：也就是说，当过去的状态被明确地用于预测未来时。我们介绍了记忆神经算子（MemNO），这是一个基于最新 SSM 架构和傅立叶神经算子（FNO）的网络。我们对各种感兴趣的 PDE 系列进行了实证证明，当在低分辨率网格上给出输入时，MemNO 显着优于没有记忆的基线，在未见过的 PDE 上实现了 6 倍以上的误差减少。通过理论和实验的结合，我们表明，当偏微分方程的解具有高频傅里叶分量（例如低粘度流体动力学）时，记忆的效果尤其显着，并且它还增加了对观测噪声的鲁棒性。

用于 2024 年受控歌声 Deepfake 检测 (CtrSVDD) 挑战赛的语音基础模型集成

分类： 音频和语音处理, 人工智能, 声音

作者： Anmol Guragain, Tianchi Liu, Zihan Pan, Hardik B. Sailor, Qiongqiong Wang

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02302v1

摘要： 这项工作详细介绍了我们在受控歌声 Deepfake 检测 (CtrSVDD) 的评估集上实现领先系统的方法，该系统的汇集等错误率 (EER) 为 1.79%。生成式人工智能模型的快速发展对检测人工智能生成的深度伪造歌声提出了重大挑战，吸引了越来越多的研究关注。 2024 年歌声 Deepfake 检测 (SVDD) 挑战赛旨在解决这一复杂的任务。在这项工作中，我们探索了集成方法，利用语音基础模型来开发强大的歌声反欺骗系统。我们还引入了一种新颖的挤压和激励聚合（SEA）方法，该方法高效且有效地集成了语音基础模型的表示特征，超越了我们其他单独系统的性能。评估结果证实了我们的方法在检测深度伪造歌声方面的有效性。这些代码可以在 https://github.com/Anmol2059/SVDD2024 访问。

通过循环开发和确定（CAIRDD）系统对创意人工智能进行初步开发和评估

分类： 人工智能, 人机交互

作者： Jeremy Straub, Zach Johnson

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02291v1

摘要： 计算机系统创造力是通向通用人工智能（AGI）之路的关键一步。然而，由于人类创造力尚未被完全理解，因此很难在软件中开发这种能力。大型语言模型（LLM）提供了创造力和感知能力的复制品，但实际上既没有创造力也没有感知能力。虽然大语言模型创造了真正的新内容，但在某些情况下——例如有害的幻觉——无意中，他们刻意的创造力被一些人认为与人类的不匹配。为了应对这一挑战，本文提出了一种通过概念注入和细化的迭代过程来增强大语言模型输出创造力的技术。介绍了通过循环开发和确定 (CAIRDD) 系统开发创意人工智能的初步工作，并对关键系统组件的功效进行了评估。

生化前列腺癌复发预测：快与慢思考

分类： 计算机视觉和模式识别, 人工智能, 68T10, I.5.4

作者： Suhang You, Sanyukta Adap, Siddhesh Thakur, Bhakti Baheti, Spyridon Bakas

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02284v1

摘要： 前列腺癌生化复发的时间对于前列腺切除术后患者进展的预后监测至关重要，从而评估手术的疗效。在这项工作中，我们建议通过两阶段“快速思考和慢速思考”策略来利用多实例学习来预测复发时间 (TTR)。第一个（“快速思考”）阶段找到与生化复发最相关的 WSI 区域，第二个（“慢速思考”）阶段利用更高分辨率的补丁来预测 TTR。我们的方法显示，内部验证的平均 C 指数 ($Ci$) 为 0.733 ($\theta=0.059$)，LEOPARD 挑战验证集的平均 C 指数 ($Ci$) 为 0.603$。事后注意力可视化显示最关注的区域有助于 TTR 预测。

针对关键任务应用的强化学习卫星星座重新配置和重新分配任务

分类： 机器学习, 人工智能, 系统与控制, 系统与控制

作者： Hassan El Alami, Danda B. Rawat

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02270v1

摘要： 由于用户需求的增加、运营成本的降低和技术的进步，卫星星座应用的发展正在迅速推进。然而，现有文献中存在一个重大空白，涉及卫星星座内的重新配置和重新分配问题，这是我们研究的主要焦点。在这项工作中，我们严格评估卫星故障对星座性能和相关任务要求的影响。为了促进这种分析，我们引入了 GPS 卫星星座的系统建模方法，从而能够研究性能动态和任务分配策略，特别是在关键任务操作期间发生卫星故障的情况下。此外，我们还引入强化学习 (RL) 技术，特别是 Q 学习、策略梯度、深度 Q 网络 (DQN) 和近端策略优化 (PPO)，用于管理卫星星座，解决卫星发射后重新配置和重新分配任务所带来的挑战失败。我们的结果表明，DQN 和 PPO 在平均奖励、任务完成率和响应时间方面取得了有效的成果。

基于动作的 ADHD 视频诊断

分类： 计算机视觉和模式识别, 人工智能

作者： Yichun Li, Yuxing Yang, Syed Nohsen Naqvi

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02261v1

摘要： 注意力缺陷多动障碍（ADHD）会导致各个领域的严重损害。 ADHD 的早期诊断和治疗可以显着改善生活质量和功能。最近，机器学习方法提高了 ADHD 诊断过程的准确性和效率。然而，现有方法所需的设备和训练有素的人员的成本通常是巨大的。因此，我们首次将基于视频的帧级动作识别网络引入 ADHD 诊断中。我们还记录了一个真实的多模态 ADHD 数据集，并从视频模态中提取三个动作类以进行 ADHD 诊断。整个过程数据已报告给CNTW-NHS基金会信托基金，将由医疗顾问/专业人士审核并适时公开。

NoiseAttack：通过高斯白噪声进行的规避样本特定多目标后门攻击

分类： 计算机视觉和模式识别, 人工智能, 密码学和安全, 机器学习

作者： Abdullah Arafat Miah, Kaan Icer, Resit Sendag, Yu Bi

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02251v1

摘要： 使用第三方数据进行深度学习开发时，后门攻击构成重大威胁。在这些攻击中，数据可以被操纵，导致经过训练的模型在应用特定触发模式时行为不当，从而为对手提供未经授权的优势。虽然大多数现有工作侧重于设计可见和不可见的触发模式来毒害受害者类别，但它们通常会在后门攻击成功后产生单个目标类别，这意味着受害者类别只能根据以下条件转换为另一个类别：对手的预定义值。在本文中，我们通过引入一种新颖的特定于样本的多目标后门攻击来解决这个问题，即NoiseAttack。具体来说，我们采用具有各种功率谱密度（PSD）的高斯白噪声（WGN）作为我们的底层触发器，再加上独特的训练策略来执行后门攻击。这项工作是同类中第一个发起视觉后门攻击的工作，旨在以最少的输入配置生成多个目标类。此外，我们广泛的实验结果表明，NoiseAttack 可以针对流行的网络架构和数据集实现较高的攻击成功率，并绕过最先进的后门检测方法。我们的源代码和实验可在 https://github.com/SiSL-URI/NoiseAttack/tree/main 获取。

FastVoiceGrad：具有对抗性条件扩散蒸馏的基于扩散的一步语音转换

分类： 声音, 人工智能, 机器学习, 音频和语音处理, 机器学习

作者： Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02245v1

摘要： 基于扩散的语音转换 (VC) 技术（例如 VoiceGrad）因其在语音质量和说话人相似性方面的高 VC 性能而引起了人们的兴趣。然而，一个显着的限制是多步反向扩散导致的推理速度慢。因此，我们提出了 FastVoiceGrad，一种新颖的基于扩散的 VC，它将迭代次数从几十次减少到一次，同时继承了基于多步扩散的 VC 的高 VC 性能。我们使用对抗性条件扩散蒸馏（ACDD）获得模型，利用生成对抗网络和扩散模型的能力，同时重新考虑采样中的初始状态。对单次任意对任意 VC 的评估表明，FastVoiceGrad 的 VC 性能优于或堪比之前基于多步扩散的 VC，同时提高了推理速度。音频样本可在 https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/ 获取。

时间顺序保留的基于最优传输的 ASR 跨模态知识迁移学习

分类： 声音, 人工智能, 计算和语言, 音频和语音处理

作者： Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02239v2

摘要： 事实证明，将语言知识从预训练语言模型 (PLM) 转移到声学模型可以极大地提高自动语音识别 (ASR) 的性能。然而，由于跨模态中的异构特征分布，设计用于语言和声学序列之间的特征对齐和知识转移的有效模型仍然是一项具有挑战性的任务。最佳传输（OT）可以有效地测量概率分布差异，在声学和语言模态之间调整和转移知识方面具有巨大的潜力。尽管如此，原始的 OT 将声学和语言特征序列视为对齐的两个无序集合，并在 OT 耦合估计期间忽略时间顺序信息。因此，需要一个耗时的预训练阶段来学习声学和语言表示之间的良好对齐。在本文中，我们提出了一种基于时间顺序保留 OT (TOT) 的 ASR 跨模态对齐和知识转移 (CAKT) (TOT-CAKT)。在 TOT-CAKT 中，声学序列的局部相邻帧被平滑地映射到语言序列的相邻区域，在特征对齐和匹配中保留它们的时间顺序关系。借助 TOT-CAKT 模型框架，我们使用预训练的中文 PLM 进行普通话 ASR 实验，以进行语言知识迁移。我们的结果表明，与几种采用语言知识迁移的最先进模型相比，所提出的 TOT-CAKT 显着提高了 ASR 性能，并解决了原始基于 OT 的方法在 ASR 顺序特征对齐方面的弱点。

A+AI：对社会的威胁、补救措施和治理

分类： 计算机与社会, 人工智能

作者： Don Byrd

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02219v1

摘要： 本文档重点关注人工智能 (AI) 给社会带来的威胁，尤其是近期威胁。这里讨论的大多数威胁都可能来自任何算法过程，而不仅仅是人工智能；此外，定义人工智能是出了名的困难。出于这两个原因，重要的是要考虑“A+AI”：算法和人工智能。除了威胁之外，本文还讨论了针对这些威胁的对策，并包含一个表格，显示哪些对策可能会减轻哪些威胁。深思熟虑的治理可以在不严重阻碍进展的情况下管理风险；事实上，它很可能会通过减少可能发生的社会混乱来加速进步。该文件列出了政府应尽快采取的具体行动，即： * 要求美国所有可访问的社交媒体平台向用户提供其帐户由公民拥有的验证，并显示每个帐户的验证状态 * 制定法规要求所有使用 A+AI 创建或重大修改的产品均应明确标记；限制使用生成式人工智能来创造人物肖像；并要求生成式人工智能软件的创建者披露用于训练其软件的材料，并对使用的任何受版权保护材料的创建者进行补偿 * 资助一项旨在减轻威胁的研究紧急项目 * 资助教育活动以提高对威胁的认识

关于将意识描述为超复杂系统状态的启发式方法以及机器意识的可能性（德语版）

分类： 人工智能, 交换代数, 应用物理, 08A99, I.2.0

作者： Ralf Otte

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02100v1

摘要： 本文提出了一种启发式观点，表明每个人所经历的内在意识状态都有一个物理但想象的超复杂基础。超复杂的描述是必要的，因为意识的某些过程原则上无法物理测量，但仍然存在。基于理论考虑，作为对所谓双复代数的数学研究的结果，有可能以有针对性的方式在机器上生成和使用超复杂系统状态。机器上存在超复杂系统状态的假设已经得到高度复杂人工智能系统令人惊讶的性能的支持。然而，这还有待证实。特别是，缺乏将此类系统与其他系统区分开的实验数据，这就是为什么这个问题将在后面的文章中解决。本文描述了已开发的双复代数以及这些发现在机器上生成超复能量状态的可能应用。在文献中，这种系统状态通常被称为机器意识。这篇文章使用数学考虑来解释如何生成人工意识以及这会给此类人工智能系统带来哪些优势。

制作您的数据集：通过语料库检索和扩充生成特定于任务的综合数据集

分类： 计算和语言, 人工智能, 机器学习

作者： Ingo Ziegler, Abdullatif Köksal, Desmond Elliott, Hinrich Schütze

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02098v1

摘要： 为专门任务构建高质量数据集是一个耗时且资源密集的过程，通常需要专门的领域知识。我们提出了语料库检索和微调增强（CRAFT），这是一种生成合成数据集的方法，给出了少量用户编写的少数镜头来演示要执行的任务。考虑到少数几个例子，我们使用大规模公共网络爬行语料库和基于相似性的文档检索来查找其他相关的人类编写的文档。最后，指令调整的大语言模型（LLM）将检索到的文档增强为自定义格式的任务样本，然后可用于微调。我们证明，CRAFT 可以有效地为四种不同的任务生成大规模的特定任务训练数据集：生物学问答（QA）、医学 QA 和常识 QA 以及总结。我们的实验表明，基于 CRAFT 的模型在 QA 任务上优于或达到与一般大语言模型相当的性能，而基于 CRAFT 的摘要模型比在人工管理数据上训练的模型高出 46 个偏好点。

DepthCrafter：为开放世界视频生成一致的长深度序列

分类： 计算机视觉和模式识别, 人工智能, 图形

作者： Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02095v1

摘要： 尽管静态图像的单目深度估计取得了重大进展，但估计开放世界中的视频深度仍然具有挑战性，因为开放世界视频在内容、运动、相机运动和长度方面极其多样化。我们提出了 DepthCrafter，这是一种创新方法，用于生成时间一致的长深度序列，其中包含开放世界视频的复杂细节，而不需要任何补充信息，例如相机姿势或光流。 DepthCrafter 通过我们精心设计的三阶段训练策略和编译的配对视频深度数据集，从预先训练的图像到视频扩散模型训练视频到深度模型，从而实现了开放世界视频的泛化能力。我们的训练方法使模型能够一次性生成可变长度的深度序列（最多 110 帧），并从真实的合成数据集中获取精确的深度细节和丰富的内容多样性。我们还提出了一种推理策略，通过分段估计和无缝拼接来处理极长的视频。对多个数据集的综合评估表明，DepthCrafter 在零镜头设置下的开放世界视频深度估计中实现了最先进的性能。此外，DepthCrafter 还促进了各种下游应用，包括基于深度的视觉效果和条件视频生成。

在口腔健康临床试验中部署的在线强化学习算法

分类： 人工智能, 人机交互

作者： Anna L. Trella, Kelly W. Zhang, Hinal Jajal, Inbal Nahum-Shani, Vivek Shetty, Finale Doshi-Velez, Susan A. Murphy

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02069v1

摘要： 牙科疾病是一种普遍存在的慢性病，会带来巨大的经济负担、个人痛苦和全身性疾病风险增加。尽管人们普遍建议每天刷牙两次，但由于健忘和脱离等因素，对推荐的口腔自我护理行为的遵守情况仍然不够理想。为了解决这个问题，我们开发了 Oralytics，这是一种移动医疗干预系统，旨在补充临床医生为有牙科疾病风险的边缘人群提供的预防性护理。 Oralytics 采用在线强化学习算法来确定提供鼓励口腔自我保健行为的干预提示的最佳时间。我们已在一项注册临床试验中部署了 Oralytics。该部署需要精心设计，以应对美国临床试验环境特有的挑战。在本文中，我们 (1) 重点介绍了应对这些挑战的 RL 算法的关键设计决策，以及 (2) 进行重采样分析以评估算法设计决策。 Oralytics 的第二阶段（随机对照试验）计划于 2025 年春季开始。

OLMoE：开放专家混合语言模型

分类： 计算和语言, 人工智能, 机器学习

作者： Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02060v1

摘要： 我们引入 OLMoE，这是一种完全开放、最先进的语言模型，利用稀疏专家混合 (MoE)。 OLMoE-1B-7B 有 70 亿个 (B) 参数，但每个输入令牌仅使用 1B。我们在 5 万亿个代币上对其进行预训练，并进一步对其进行调整以创建 OLMoE-1B-7B-Instruct。我们的模型优于具有类似活动参数的所有可用模型，甚至超过了 Llama2-13B-Chat 和 DeepSeekMoE-16B 等较大模型。我们展示了关于 MoE 训练的各种实验，分析了模型中的路由，显示了高度专业化，并开源了我们工作的所有方面：模型权重、训练数据、代码和日志。

通过自适应实例关系蒸馏进行低分辨率人脸识别

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 多媒体

作者： Ruixin Shi, Weijia Guo, Shiming Ge

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02049v1

摘要： 由于缺少信息细节，低分辨率人脸识别是一项具有挑战性的任务。最近基于知识蒸馏的方法已经证明，高分辨率线索可以通过适当的知识转移很好地指导低分辨率人脸识别。然而，由于训练和测试人脸的分布差异，学习到的模型往往适应性较差。为了解决这个问题，我们将知识转移过程分为蒸馏和适应步骤，并提出了一种适应性强的实例关系蒸馏方法来促进低分辨率人脸识别。在该方法中，学生在实例级别和关系级别上从高分辨率教师那里提取知识，提供足够的跨分辨率知识迁移。然后，学习过的学生可以在推理中通过自适应批量标准化来识别低分辨率人脸。通过这种方式，可以有效增强恢复熟悉的低分辨率人脸丢失细节的能力，从而实现更好的知识迁移。对低分辨率人脸识别的大量实验清楚地证明了我们方法的有效性和适应性。

AllWeatherNet：恶劣天气和弱光条件下自动驾驶的统一图像增强

分类： 计算机视觉和模式识别, 人工智能

作者： Chenghao Qian, Mahdi Rezaei, Saeed Anwar, Wenjing Li, Tanveer Hussain, Mohsen Azarmi, Wei Wang

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02045v1

摘要： 雪、雨、夜间、雾等恶劣条件给自动驾驶感知系统带来了挑战。现有方法在改进语义分割等基本计算机视觉任务方面效果有限，并且通常只关注一种特定条件，例如除雨或将夜间图像转换为白天图像。为了解决这些限制，我们提出了一种方法来改善因此类不利条件而降低的视觉质量和清晰度。我们的方法 AllWeather-Net 利用新颖的分层架构来增强所有不利条件下的图像。该架构通过区分每个级别的补丁来合并三个语义级别的信息：场景、对象和纹理。此外，我们引入了一种规模化照明感知注意力机制（SIAM），指导学习对自动驾驶感知至关重要的道路元素。 SIAM 表现出稳健性，不受天气条件或环境场景变化的影响。 AllWeather-Net 有效地将图像转换为正常天气和白天场景，展示了卓越的图像增强效果，并随后增强了语义分割的性能，训练域中的 mIoU 提高了高达 5.3%。我们还通过将模型应用于未见过的领域而无需重新训练来展示其泛化能力，实现了高达 3.9% 的 mIoU 改进。代码可访问：https://github.com/Jumponthemoon/AllWeatherNet。

BEAVER：文本到 SQL 的企业基准

分类： 计算和语言, 人工智能, 数据库

作者： Peter Baile Chen, Fabian Wenz, Yi Zhang, Moe Kayali, Nesime Tatbul, Michael Cafarella, Çağatay Demiralp, Michael Stonebraker

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02038v1

摘要： 现有的文本到 SQL 基准测试主要是使用网络上公开可用的表以及包含问题和 SQL 语句对的人工生成的测试来构建的。它们通常会显示出非常好的结果，并让人们认为大语言模型在文本到 SQL 任务方面是有效的。在本文中，我们将现成的大语言模型应用于包含企业数据仓库数据的基准。在这种环境下，即使使用标准的即时工程和 RAG 技术，大语言模型的表现也很差。正如我们将要展示的，性能不佳的原因主要归因于三个特征：（1）公共大语言模型无法在企业数据仓库上进行培训，因为它们主要位于“暗网”中，（2）企业表的模式比(3) 面向业务的问题通常更加复杂，需要对多个表进行联接和聚合。因此，我们提出了一个新的数据集 BEAVER，它源自真实的企业数据仓库以及我们从实际用户历史记录中收集的自然语言查询及其正确的 SQL 语句。我们使用最近的大语言模型评估了这个数据集，并证明了他们在这项任务上表现不佳。我们希望这个数据集将有助于未来的研究人员构建更复杂的文本到 SQL 系统，从而可以更好地处理这一类重要的数据。

TransDAE：分层 Transformer 中的双重注意力机制，用于高效医学图像分割

分类： 计算机视觉和模式识别, 人工智能, 68T07

作者： Bobby Azad, Pourya Adibfar, Kaiqun Fu

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02018v1

摘要： 在医疗保健领域，医学图像分割对于准确的疾病诊断和制定有效的治疗策略至关重要。早期检测可以极大地帮助控制疾病并有可能阻止其进展。机器学习，特别是深度卷积神经网络，已成为解决分割挑战的一种有前景的方法。 U-Net 等传统方法使用编码块进行局部表示建模，使用解码块来揭示语义关系。然而，这些模型经常难以处理纹理和形状显着变化的多尺度对象，并且它们经常无法捕获输入数据中的远程依赖性。为序列到序列预测而设计的 Transformer 已被提议作为替代方案，利用全局自注意力机制。然而，由于细节不足，它们有时可能缺乏精确的定位。为了克服这些限制，我们引入了 TransDAE：一种新颖的方法，它重新构想了自注意力机制，以包括整个特征空间中的空间和通道关联，同时保持计算效率。此外，TransDAE 通过跨尺度交互模块增强了跳跃连接路径，促进了特征重用并提高了定位精度。值得注意的是，即使不依赖预先训练的权重，TransDAE 在 Synaps 多器官数据集上的性能也优于现有的最先进方法。

高等教育中的人工智能治理：十大大学指导案例研究

分类： 人机交互, 人工智能

作者： Chuhao Wu, He Zhang, John M. Carroll

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02017v1

摘要： 生成式人工智能引起了高等教育利益相关者的极大关注。它为个性化学习和辅导支持带来了新的机会，同时也对学术诚信提出了挑战，并导致了道德问题。因此，管理高等教育机构 (HEIs) 内负责任的人工智能使用变得越来越重要。领先的大学已经发布了关于生成人工智能的指南，大多数大学都试图负责任地接受这项技术。本研究通过关注这些指南中所示的负责任的人工智能治理策略，提供了一个新的视角。通过对美国14所知名大学的案例研究，我们从其人工智能指南中识别出人工智能的多单位治理、人工智能的角色特定治理以及人工智能治理的学术特征。讨论了这些策略和特征的优点和潜在局限性。研究结果为指导高等教育机构及其他机构负责任地使用人工智能提供了实际意义。

当数字孪生遇上 6G：概念、障碍和研究前景

分类： 网络和互联网架构, 人工智能, 分布式、并行和集群计算

作者： Wenshuai Liu, Yaru Fu, Zheng Shi, Hong Wang

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02008v1

摘要： 数字孪生技术与新兴的 6G 网络的融合既带来了挑战，也带来了大量的研究机会。本文探讨了数字孪生和 6G 之间的潜在协同作用，强调了关键挑战并提出了它们集成的基本原则。我们讨论了 6G 网络背景下数字孪生的独特需求和功能，例如可持续部署、实时同步、无缝迁移、预测分析和闭环控制。此外，我们还确定了利用数字孪生和人工智能来增强 6G 各个方面的研究机会，包括网络优化、资源分配、安全性和智能服务提供。本文旨在促进数字孪生和 6G 交叉领域的进一步研究和创新，为未来的变革性应用和服务铺平道路。

vec2wav 2.0：通过离散令牌声码器推进语音转换

分类： 音频和语音处理, 人工智能, 声音

作者： Yiwei Guo, Zhihan Li, Junjie Li, Chenpeng Du, Hankun Wang, Shuai Wang, Xie Chen, Kai Yu

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01995v1

摘要： 我们提出了一种新的语音离散令牌声码器 vec2wav 2.0，它推进了语音转换 (VC)。我们使用语音自监督模型中的离散标记作为源语音的内容特征，并将 VC 视为提示声编码任务。为了修正内容标记中说话者音色的损失，vec2wav 2.0 利用 WavLM 功能来提供强大的音色相关信息。提出了一种新颖的自适应 Snake 激活函数，以更好地将音色纳入波形重建过程。通过这种方式，vec2wav 2.0 学会根据不同的参考提示适当地改变扬声器的音色。此外，vec2wav 2.0 不需要任何监督数据即可进行有效训练。实验结果表明，vec2wav 2.0 在任意 VC 的音频质量和说话人相似度方面远远优于所有其他基线。消融研究验证了所提出的技术所产生的效果。此外，vec2wav 2.0即使只在单语语料库上训练，也能实现有竞争力的跨语言VC。因此，vec2wav 2.0 表明音色只能由语音令牌声码器来操纵，从而推动了 VC 和语音合成的前沿。

QueryCheetah：快速自动发现针对基于查询的系统的属性推断攻击

分类： 密码学和安全, 人工智能

作者： Bozhidar Stevanoski, Ana-Maria Cretu, Yves-Alexandre de Montjoye

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01992v1

摘要： 基于查询的系统（QBS）是共享数据的关键方法之一。 QBS 允许分析师从私有受保护的数据集中请求汇总信息。攻击是确保 QBS 真正保护隐私的关键部分。然而，攻击的开发和测试非常耗费人力，无法应对日益复杂的系统。自动化方法已被证明是有前途的，但目前计算量极大，限制了它们在实践中的适用性。我们在此提出 QueryCheetah，这是一种快速有效的方法，用于自动发现针对 QBS 的隐私攻击。我们在属性推断攻击上实例化 QueryCheetah，并证明它能够发现比以前的方法更强大的攻击，同时比最先进的自动化方法快 18 倍。然后，我们展示 QueryCheetah 如何允许系统开发人员彻底评估隐私风险，包括各种攻击者的优势和目标个人。最后，我们展示了如何开箱即用地使用 QueryCheetah 来查找更大语法中的攻击以及围绕临时防御的变通方法。

通过对主动推理代理中的非线性传感器进行高斯近似来规划避免模糊状态

分类： 系统与控制, 人工智能, 机器人技术, 系统与控制, 机器学习

作者： Wouter M. Kouw

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01974v1

摘要： 在自然界中，主动推理主体必须了解对世界的观察如何代表主体的状态。在工程中，传感器背后的物理原理通常是相当准确的，并且测量函数可以合并到生成模型中。当测量函数是非线性时，变换后的变量通常用高斯分布来近似，以确保易于推理。我们表明，对测量函数的曲率敏感的高斯近似（例如二阶泰勒近似）会产生状态相关的模糊度项。这会导致对状态的偏好，基于从观察中推断状态的准确程度。我们通过机器人导航实验证明了这种偏好，其中智能体规划轨迹。

通过防御感知架构后门利用大型语言模型的漏洞

分类： 密码学和安全, 人工智能, 硬件架构

作者： Abdullah Arafat Miah, Yu Bi

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01952v1

摘要： 深度神经网络 (DNN) 长期以来一直被认为容易受到后门攻击。通过在微调过程中提供中毒的训练数据，攻击者可以将后门植入受害者模型中。这使得满足特定文本触发模式的输入样本能够被分类为攻击者选择的目标标签。虽然这种黑盒攻击在计算机视觉和自然语言处理（NLP）领域已经得到了很好的探索，但依赖白盒攻击原理的后门攻击几乎没有得到彻底的研究。在本文中，我们迈出了第一步，介绍了一种新型后门攻击，它将自身隐藏在底层模型架构中。具体来说，我们 pcricKet1996!提议设计独立的后门模块，其中包含两个功能：触发检测和噪声注入。模型架构层的附加模块可以检测输入触发标记的存在，并使用高斯噪声修改层权重以干扰基线模型的特征分布。我们在五个不同的大型语言数据集上使用两种模型架构设置进行了广泛的实验来评估我们的攻击方法。我们证明了大型语言模型上的免训练架构后门构成了真正的威胁。与最先进的工作不同，它可以经受住严格的微调和再训练过程，并且可以逃避基于输出概率的防御方法（即 BDDR）。所有代码和数据均可用 https://github.com/SiSL-URI/Arch_Backdoor_LLM。

论分子力学与机器学习力场之间的设计空间

分类： 化学物理, 人工智能, 机器学习, 生物物理学, 计算物理

作者： Yuanqing Wang, Kenichiro Takaba, Michael S. Chen, Marcus Wieder, Yuzhi Xu, Tong Zhu, John Z. H. Zhang, Arnav Nagle, Kuang Yu, Xinyan Wang, Daniel J. Cole, Joshua A. Rackers, Kyunghyun Cho, Joe G. Greener, Peter Eastman, Stefano Martiniani, Mark E. Tuckerman

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01931v2

摘要： 一个像量子力学 (QM) 一样精确、像分子力学 (MM) 一样快的力场，可以足够有效、足够有意义地模拟生物分子系统，从而获得定量见解，这是生物物理学家最热切的梦想之一——然而，这个梦想不会很快实现。机器学习力场（MLFF）代表了朝着这个方向的有意义的努力，其中可微分神经函数被参数化以适应从头能量，并且通过自动微分来适应力。我们认为，到目前为止，MLFF 模型的实用性不再受到准确性的瓶颈，而主要受到其速度（以及稳定性和泛化性）的瓶颈，因为许多最近的变体在有限的化学空间上早已超过了化学准确性1$ kcal/mol——这是一个经验阈值，超过这个阈值，现实的化学预测是可能的——尽管仍然比 MM 慢。希望激发更快的探索和设计，尽管可能稍微不太准确的 MLFF，在这篇综述中，我们将注意力集中在 MM 和 ML 力场之间的设计空间（速度与精度的权衡）。在简要回顾了两种力场的构建模块之后，我们讨论了力场开发社区现在面临的期望属性和挑战，调查了为使 MM 力场更准确和 ML 力场更快而付出的努力，并展望了下一代 MLFF 可能会是什么样子。

综合股票指数（CEI）：生物识别偏差评估的定义和应用

分类： 计算机视觉和模式识别, 人工智能

作者： Imanol Solano, Alejandro Peña, Aythami Morales, Julian Fierrez, Ruben Tolosana, Francisco Zamora-Martinez, Javier San Agustin

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01928v1

摘要： 我们提出了一种新颖的指标，旨在量化机器学习模型的偏见行为以及其他应用程序。作为其核心，该度量由分数分布之间的新相似性度量组成，该度量平衡了它们的一般形状和尾部概率。从这个意义上说，我们提出的指标可能在许多应用领域有用。在这里，我们重点关注并将其应用于人脸识别系统的操作评估，特别关注量化人口统计偏差；我们的指标特别有用的应用程序。近年来，生物识别系统中的人口统计偏差和公平性话题引起了广泛关注。这些系统的使用已在社会中广泛传播，引发了人们对这些系统对待不同人群的程度的担忧。预防和减轻人口统计偏差的一个相关步骤是首先检测并量化它们。传统上，人们研究了两种方法来量化机器学习文献中人群之间的差异：1）测量错误率的差异，2）测量识别分数分布的差异。我们提出的综合股票指数（CEI）权衡了两种方法，结合了分布尾部的误差和一般分布形状的误差。这一新指标非常适合现实世界的场景，根据 NIST FRVT 评估进行测量，涉及高性能系统和真实的人脸数据库，包括广泛的协变量和人口统计群体。我们首先展示现有指标的局限性，以正确评估现实设置中是否存在偏差，然后提出我们的新指标来解决这些限制。我们使用两个最先进的模型和四个广泛使用的数据库测试了所提出的指标，显示了其克服先前偏差指标的主要缺陷的能力。

从基础到规划：网络代理的基准瓶颈

分类： 人工智能, 多代理系统

作者： Segev Shlomov, Ben wiesel, Aviad Sela, Ido Levy, Liane Galanti, Roy Abitbol

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01927v1

摘要： 通用的基于网络的代理对于与复杂的网络环境交互越来越重要，但它们在现实世界的网络应用程序中的性能仍然很差，即使使用最先进的前沿模型，其准确性也极低。我们观察到这些代理可以分解为两个主要部分：规划和基础。然而，大多数现有研究将这些代理视为黑匣子，专注于阻碍有意义的改进的端到端评估。我们加深了规划和基础组件之间的区别，并通过在 Mind2Web 数据集上完善实验来进行新颖的分析。我们的工作分别为每个组件提出了一个新的基准，识别限制代理性能的瓶颈和痛点。与普遍的假设相反，我们的研究结果表明接地并不是一个重要的瓶颈，可以用当前的技术有效地解决。相反，主要的挑战在于规划组件，这是性能下降的主要根源。通过这一分析，我们提供了新的见解并展示了提高网络代理能力的实用建议，为更可靠的代理铺平了道路。

GradINN：梯度通知神经网络

分类： 机器学习, 人工智能

作者： Filippo Aglietti, Francesco Della Santa, Andrea Piano, Virginia Aglietti

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01914v1

摘要： 我们提出了梯度知情神经网络（GradINNs），这是一种受物理知情神经网络（PINNs）启发的方法，可用于有效地近似各种物理系统，这些系统的底层控制方程完全未知或无法定义，这是一个条件这在复杂的工程问题中经常遇到。 GradINN 利用有关系统梯度的先验信念来约束预测函数在所有输入维度上的梯度。这是通过使用两个神经网络来实现的：一个对目标函数进行建模，另一个辅助网络表达先验信念，例如平滑度。定制的损失函数可以训练第一个网络，同时强制从辅助网络派生的梯度约束。我们展示了 GradINN 的优势，特别是在低数据情况下，以及跨越非时间相关系统（弗里德曼函数、斯托克斯流）和时间相关系统（Lotka-Volterra、伯格方程）的各种问题。在所有测试场景中，实验结果展示了与标准神经网络和类似 PINN 的方法相比的强大性能。

LUK：利用大型语言模型的专业知识增强日志理解能力

分类： 软件工程, 人工智能

作者： Lipeng Ma, Weidong Yang, Sihang Jiang, Ben Fei, Mingjie Zhou, Shuhao Li, Bo Xu, Yanghua Xiao

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01909v1

摘要： 日志在为系统监控和故障排除提供重要信息方面发挥着关键作用。近年来，随着预训练语言模型（PLM）和大型语言模型（LLM）在自然语言处理（NLP）中的成功，较小的PLM（如BERT）和LLM（如ChatGPT）已成为当前日志处理的主流方法。分析。虽然LLM拥有丰富的知识，但其高计算成本和不稳定的性能使得LLM无法直接分析日志。相比之下，即使计算资源有限，较小的 PLM 也可以针对特定任务进行微调，从而更加实用。然而，由于专业知识有限，这些规模较小的 PLM 在全面理解日志方面面临挑战。为了更好地利用大语言模型嵌入的知识来理解日志，本文引入了一种名为 LUK 的新型知识增强框架，该框架从大语言模型中获取专业知识，以在较小的 PLM 上增强日志理解能力。具体来说，我们设计了一个基于大语言模型的多专家协作框架，由不同的角色组成，以获取专家知识。此外，我们提出了两个新颖的预训练任务，以利用专家知识增强日志预训练。 LUK 在不同的日志分析任务上取得了最先进的结果，并且广泛的实验表明可以更有效地利用大语言模型的专业知识来理解日志。

一项评估 ABiMed（用于药物审查和复方用药管理的临床决策支持系统）的随机模拟试验

分类： 人工智能, 人机交互, J.3

作者： Abdelmalek Mouazer, Sophie Dubois, Romain Léguillon, Nada Boudegzdame, Thibaud Levrard, Yoann Le Bars, Christian Simon, Brigitte Séroussi, Julien Grosjean, Romain Lelong, Catherine Letord, Stéfan Darmoni, Karima Sedki, Pierre Meneton, Rosy Tsopra, Hector Falcoff, Jean-Baptiste Lamy

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01903v1

摘要： 背景：药物审查是由药剂师对患者进行的结构化访谈，旨在优化药物治疗。在实践中，药物审查是一项长期且需要认知能力的任务，需要特定的知识。临床实践指南已经提出，但其应用却很乏味。方法：我们基于 STOPP/START v2 指南的实施以及使用表格、图表和花形符号对汇总药物知识的可视化呈现，设计了 ABiMed，这是一种用于药物审查的临床决策支持系统。我们在一项随机模拟试验中与 39 名社区药剂师一起评估了 ABiMed，每位药剂师对两名未使用 ABiMed 的虚构患者和另外两名使用 ABiMed 的虚构患者进行药物审查。我们记录了药剂师发现的问题、提出的干预措施、响应时间、感知的可用性和评论。药剂师的药物审查与专家设计的黄金标准进行比较。结果：借助 ABiMed，药剂师在药物审查期间发现的相关药物相关问题增加了 1.6 倍 (p=1.1e-12)，并提出了更好的干预措施 (p=9.8e-9)，而无需更多时间 (p=0.56)。系统可用性量表得分为82.7，评级为“优秀”。药剂师在评论中赞赏 ABiMed 的视觉效果及其将当前治疗方法与拟议治疗方法进行比较的能力。多因素分析显示，根据药剂师的年龄或性别，ABiMed 提供的支持在发现问题的百分比或拟议干预措施的质量方面没有差异。结论：使用智能可视化临床决策支持系统可以帮助药剂师进行药物审评。我们的主要观点是在临床条件下验证系统。

3D-LEX v1.0：美国手语和荷兰手语的 3D 词典

分类： 计算机视觉和模式识别, 人工智能, 计算和语言

作者： Oline Ranum, Gomer Otterspeer, Jari I. Andersen, Robert G. Belleman, Floris Roelofsen

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01901v1

摘要： 在这项工作中，我们提出了一种在 3D 中捕获手语的有效方法，介绍了 3D-LEX v1.0 数据集，并详细介绍了语音属性的半自动注释方法。我们的程序集成了三种动作捕捉技术，包括高分辨率 3D 姿势、3D 手形和深度感知面部特征，并实现每 10 秒一个手势的平均采样率。这包括展示标志示例、执行和记录标志以及存档捕获的时间。 3D-LEX 数据集包括来自美国手语的 1,000 个手语和来自荷兰手语的另外 1,000 个手语。我们通过提出一种直接从 3D-LEX 生成手形注释的简单方法来展示数据集实用程序。我们为美国手语的 1,000 个手势制作手形标签，并在手势识别任务中评估这些标签。与不使用手形注释的情况相比，这些标签将光泽度识别准确度提高了 5%，比使用专家注释的情况提高了 1%。我们的动作捕捉数据支持对标志特征的深入分析，并有助于从任何角度生成 2D 投影。 3D-LEX 集合已与现有手语基准和语言资源保持一致，以支持 3D 感知手语处理的研究。

制作有效的长上下文多跳指令数据集的基本因素是什么？见解和最佳实践

分类： 计算和语言, 人工智能

作者： Zhi Chen, Qiguang Chen, Libo Qin, Qipeng Guo, Haijun Lv, Yicheng Zou, Wanxiang Che, Hang Yan, Kai Chen, Dahua Lin

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01893v1

摘要： 具有扩展上下文窗口的大型语言模型 (LLM) 的最新进展显着改进了信息提取、问题回答和复杂规划场景等任务。为了在长上下文任务中取得成功，人们做了大量的工作来通过合成数据来增强模型的长上下文能力。现有方法通常利用自指令框架来生成指令调整数据，以更好地提高长上下文能力。然而，我们的初步实验表明，生成的样本中只有不到 35% 是多跳的，超过 40% 的样本质量较差，限制了全面理解和进一步研究。为了提高合成数据的质量，我们提出了多代理交互式多跳生成（MIMG）框架，结合了质量验证代理、单跳问题生成代理、多问题采样策略和多跳问题并购代理。该框架提高了数据质量，高质量、多跳、多样化的数据比例超过85%。此外，我们通过跨各种模型的广泛实验，系统地研究文档选择、问题合并和验证技术的策略。我们的研究结果表明，我们合成的高质量长上下文指令数据显着提高了模型性能，甚至超越了基于大量人工注释数据训练的模型。我们的代码位于：https://github.com/WowCZ/LongMIT。

CyberHost：利用区域码本注意力驯服音频驱动的头像扩散模型

分类： 计算机视觉和模式识别, 人工智能

作者： Gaojie Lin, Jianwen Jiang, Chao Liang, Tianyun Zhong, Jiaqi Yang, Yanbo Zheng

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01876v2

摘要： 基于扩散的视频生成技术取得了显着进步，促进了人类动画研究的激增。然而，这些研究大多数仅限于相同模态的驾驶环境，跨模态的人体动画仍然相对未得到充分探索。在本文中，我们介绍了一种端到端音频驱动的人体动画框架，可确保手部完整性、身份一致性和自然运动。 CyberHost的关键设计是Region Codebook Attention机制，它通过将细粒度的局部特征与学习的运动模式先验相结合来提高面部和手部动画的生成质量。此外，我们还开发了一套人类先验引导的训练策略，包括身体运动图、手部清晰度评分、姿势对齐参考特征和局部增强监督，以改善合成结果。据我们所知，CyberHost 是第一个端到端音频驱动的人体扩散模型，能够促进人体范围内的零镜头视频生成。大量的实验表明，CyberHost 在数量和质量方面都超越了以前的作品。

用于边缘连续物体检测的潜在蒸馏

分类： 计算机视觉和模式识别, 人工智能

作者： Francesco Pasti, Marina Ceccon, Davide Dalle Pezze, Francesco Paissan, Elisabetta Farella, Gian Antonio Susto, Nicola Bellotto

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01872v1

摘要： 尽管目标检测文献中存在许多实现卓越性能的方法，但解决数据分布变化仍然具有挑战性。持续学习（CL）为此问题提供了解决方案，使模型能够适应新数据，同时保持先前数据的性能。这对于汽车和机器人等动态环境中常见的边缘设备尤其重要。在这项工作中，我们解决了对象检测持续学习 (CLOD) 场景中边缘设备的内存和计算限制。具体来说，(i) 我们研究了开源、轻量级和快速检测器（即 NanoDet）对于边缘设备上的 CLOD 的适用性，改进了文献中使用的较大架构。此外，(ii) 我们提出了一种新颖的 CL 方法，称为潜在蒸馏 (LD)，它减少了最先进的 CL 方法所需的操作数量和内存，而不会显着影响检测性能。我们的方法使用著名的 VOC 和 COCO 基准进行了验证，与其他蒸馏方法相比，每次模型更新将蒸馏参数开销减少了 74%，浮点运算 (FLOPs) 减少了 56%。

基于混合 CNN-Transformer 方法的实时室内物体检测

分类： 计算机视觉和模式识别, 人工智能

作者： Salah Eddine Laidoudi, Madjid Maidi, Samir Otmane

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01871v1

摘要： 室内环境中的实时物体检测是计算机视觉的一个具有挑战性的领域，面临着可变照明和复杂背景等独特的障碍。该领域具有巨大的潜力，可以通过实现数字内容和物理世界之间更无缝的交互来彻底改变增强现实和混合现实等应用。然而，专门针对复杂的室内环境的研究的缺乏凸显了文献中的明显差距。为了解决这个问题，我们的研究深入研究了现有数据集和计算模型的评估，从而创建了精细的数据集。这个新数据集源自 OpenImages v7，专门关注根据与实际应用的相关性而选择的 32 个室内类别。除此之外，我们还提出了 CNN 检测模型的改进方案，其中包含注意力机制，以增强模型在杂乱的室内场景中辨别和优先考虑关键特征的能力。我们的研究结果表明，这种方法不仅在准确性和速度方面与现有最先进的模型具有竞争力，而且还为实时室内物体检测领域的研究和应用开辟了新的途径。

大型语言模型在音乐学中的作用：我们准备好信任机器了吗？

分类： 声音, 人工智能, 计算和语言, 数字图书馆, 音频和语音处理

作者： Pedro Ramoneda, Emilia Parada-Cabaleiro, Benno Weck, Xavier Serra

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01864v1

摘要： 在这项工作中，我们探讨了大型语言模型 (LLM) 在音乐学中的使用和可靠性。通过与专家和学生的讨论，我们评估了目前人们对这项如今无处不在的技术的接受程度和担忧。我们的目标是更进一步，提出一种半自动方法，使用检索增强生成模型和多项选择问题生成来创建初始基准，并由人类专家验证。我们对 400 个人工验证问题的评估表明，当前的普通大语言模型不如音乐词典中的检索增强生成可靠。本文表明大语言模型在音乐学方面的潜力需要音乐学驱动的研究，通过包含准确和可靠的领域知识来专门化大语言模型。